Przejdź do głównej zawartości

practise

projekt: Zaawansowana Analiza Danych (EDA) ⭐⭐⭐

Wybierz publiczny zbiór danych (np. z Kaggle, UCI ML Repository lub OpenML). Wykonaj kompletną eksploracyjną analizę danych (EDA):

  1. Wczytaj dane do Pandas DataFrame.
  2. Wyświetl podstawowe statystyki i informacje o danych (.info(), .describe()).
  3. Zbadaj brakujące wartości i zdecyduj, jak je obsłużyć.
  4. Przeanalizuj rozkład zmiennych (histogramy, wykresy pudełkowe, statystyki opisowe).
  5. Wykonaj wizualizacje (wykresy rozrzutu, wykresy słupkowe, wykresy grupowe, wykresy dla zmiennych kategorycznych).
  6. Zidentyfikuj potencjalne outliery i nietypowe obserwacje.
  7. Podsumuj najważniejsze wnioski z analizy.

Wskazówki:

  • Dokumentuj każdy krok w notatniku Jupyter lub pliku Markdown.
  • Staraj się, by analiza była czytelna i powtarzalna (reproducibility!).
  • Zadbaj o przejrzystość kodu i opisów.

Cel: Przećwicz samodzielną analizę rzeczywistych danych, łącząc wszystkie poznane narzędzia (Python, NumPy, Pandas, Matplotlib, Seaborn, reproducibility).


1. Python – podstawy

  • Napisz funkcję, która przyjmuje listę liczb i zwraca listę z kwadratami tych liczb.
  • Zaimplementuj prostą grę w zgadywanie liczby (komputer losuje liczbę 1–100, użytkownik zgaduje).
  • Stwórz klasę Student z polami: imię, nazwisko, oceny (lista). Dodaj metodę liczącą średnią ocen.

2. NumPy

  • Stwórz tablicę NumPy z 20 losowymi liczbami całkowitymi z zakresu 0–100.
  • Oblicz średnią, medianę i odchylenie standardowe tej tablicy.
  • Zastosuj maskowanie: wybierz tylko liczby większe od 50.
  • Zmień kształt tablicy na 4x5.

3. Pandas

  • Wczytaj plik CSV z danymi (np. tutaj).
  • Wyświetl podstawowe statystyki (.describe()).
  • Wyczyść dane z brakujących wartości.
  • Posortuj dane według wybranej kolumny.
  • Zgrupuj dane i policz średnią dla każdej grupy.

4. Matplotlib & Seaborn

  • Narysuj wykres liniowy wybranej funkcji matematycznej (np. y = sin(x)).
  • Stwórz wykres słupkowy z danymi o sprzedaży (wymyśl dane).
  • Załaduj dane z sns.load_dataset('tips') i narysuj wykres rozrzutu (scatterplot).
  • Stwórz macierz korelacji i narysuj ją jako heatmapę.

5. Reproducibility

  • Ustaw seed dla losowości w NumPy i Pythonie.
  • Zapisz wszystkie zależności projektu do pliku requirements.txt.
  • Pracuj w środowisku wirtualnym i dokumentuj kroki analizy w pliku README.