Przejdź do głównej zawartości

missing_data

skąd się biorą brakujące dane?

  • Błędy pomiarowe, awarie sprzętu, brak odpowiedzi w ankietach.
  • Problemy z importem/wczytywaniem danych.

jak rozpoznać brakujące dane?

  • W Pandas: NaN, None, puste pola.
  • Sprawdź: df.isnull().sum(), df.info()

strategie radzenia sobie z brakami ⭐

  • Usuwanie
    • Wierszy (df.dropna())
    • Kolumn (df.dropna(axis=1))
  • Uzupełnianie (imputacja)
    • Stałą wartością (df.fillna(0))
    • Średnią/medianą/modą (df.fillna(df.mean()))
    • Zaawansowane: KNN, regresja, modele ML
  • Oznaczanie braków
    • Dodanie flagi: df['is_missing'] = df['kolumna'].isnull()

dobre praktyki

  • Analizuj, dlaczego dane są brakujące – nie zawsze warto je uzupełniać!
  • Imputuj tylko na zbiorze treningowym, potem transformuj testowy.
  • Dokumentuj każdą operację na danych.

praktyczne ćwiczenia

  • Znajdź i wczytaj zbiór z brakami.
  • Policz liczbę brakujących wartości w każdej kolumnie.
  • Przetestuj różne strategie uzupełniania i porównaj wpływ na model.
  • Zbadaj, jak imputacja wpływa na rozkład danych.

polecane źródła