Przejdź do głównej zawartości

practise

projekt: Zaawansowana Analiza Regresyjna ⭐⭐⭐

Wybierz publiczny zbiór danych regresyjnych (np. ceny domów, dane medyczne, dane ekonomiczne z Kaggle, UCI ML Repository lub OpenML). Wykonaj kompletną analizę regresyjną:

  1. Wczytaj dane do Pandas DataFrame.
  2. Wyświetl podstawowe statystyki i informacje o danych.
  3. Zbadaj brakujące wartości i zdecyduj, jak je obsłużyć.
  4. Przeanalizuj rozkład zmiennych wejściowych i wyjściowych (histogramy, wykresy pudełkowe, statystyki opisowe).
  5. Przygotuj dane (skalowanie, kodowanie zmiennych kategorycznych, usuwanie/uzupełnianie braków).
  6. Dopasuj model regresji liniowej lub logistycznej (np. scikit-learn) i oceń jego jakość (MSE, RMSE, MAE, R^2).
  7. Zbadaj overfitting/underfitting – porównaj wyniki na zbiorze treningowym i testowym.
  8. Wykonaj wizualizacje (wykresy rzeczywistych vs. przewidywanych wartości, residual plots).
  9. Podsumuj najważniejsze wnioski i zaproponuj możliwe ulepszenia modelu.

Wskazówki:

  • Dokumentuj każdy krok w notatniku Jupyter lub pliku Markdown.
  • Staraj się, by analiza była czytelna i powtarzalna (reproducibility!).
  • Zadbaj o przejrzystość kodu i opisów.

Cel: Przećwicz samodzielną analizę regresyjną na rzeczywistych danych, łącząc wszystkie poznane narzędzia (Python, NumPy, Pandas, Matplotlib, regresja, metryki, reproducibility).


1. Regresja liniowa

  • Wygeneruj sztuczny zbiór danych liniowych (np. z szumem) i dopasuj do niego model regresji liniowej (np. z scikit-learn).
  • Narysuj dane oraz linię regresji na wykresie.
  • Oblicz współczynniki regresji (nachylenie, wyraz wolny).
  • Zinterpretuj znaczenie współczynników.

2. Gradient Descent

  • Zaimplementuj prosty algorytm gradientu prostego do regresji liniowej (może być w Pythonie lub NumPy).
  • Porównaj wyniki z rozwiązaniem analitycznym (np. scikit-learn).
  • Zbadaj wpływ różnych wartości learning rate na szybkość i stabilność uczenia.

3. Metryki regresji

  • Oblicz MSE, RMSE, MAE i R^2 dla swojego modelu.
  • Porównaj te metryki dla różnych modeli (np. z różnym stopniem dopasowania).

4. Overfitting & Underfitting

  • Wygeneruj dane nieliniowe i dopasuj do nich model liniowy oraz model złożony (np. wielomianowy).
  • Zbadaj, kiedy pojawia się overfitting i underfitting.
  • Zilustruj to na wykresach.

5. Regresja logistyczna

  • Wygeneruj dane binarne (np. dwie klasy).
  • Dopasuj model regresji logistycznej i narysuj granicę decyzyjną.
  • Oblicz accuracy, precision, recall, F1-score.