skąd się biorą brakujące dane?
- Błędy pomiarowe, awarie sprzętu, brak odpowiedzi w ankietach.
- Problemy z importem/wczytywaniem danych.
jak rozpoznać brakujące dane?
- W Pandas:
NaN
, None
, puste pola.
- Sprawdź:
df.isnull().sum()
, df.info()
strategie radzenia sobie z brakami ⭐
- Usuwanie
- Wierszy (
df.dropna()
)
- Kolumn (
df.dropna(axis=1)
)
- Uzupełnianie (imputacja)
- Stałą wartością (
df.fillna(0)
)
- Średnią/medianą/modą (
df.fillna(df.mean())
)
- Zaawansowane: KNN, regresja, modele ML
- Oznaczanie braków
- Dodanie flagi:
df['is_missing'] = df['kolumna'].isnull()
dobre praktyki
- Analizuj, dlaczego dane są brakujące – nie zawsze warto je uzupełniać!
- Imputuj tylko na zbiorze treningowym, potem transformuj testowy.
- Dokumentuj każdą operację na danych.
praktyczne ćwiczenia
- Znajdź i wczytaj zbiór z brakami.
- Policz liczbę brakujących wartości w każdej kolumnie.
- Przetestuj różne strategie uzupełniania i porównaj wpływ na model.
- Zbadaj, jak imputacja wpływa na rozkład danych.
polecane źródła