skąd się biorą brakujące dane?
- Błędy pomiarowe, awarie sprzętu, brak odpowiedzi w ankietach.
- Problemy z importem/wczytywaniem danych.
jak rozpoznać brakujące dane?
- W Pandas:
NaN, None, puste pola.
- Sprawdź:
df.isnull().sum(), df.info()
strategie radzenia sobie z brakami ⭐
- Usuwanie
- Wierszy (
df.dropna())
- Kolumn (
df.dropna(axis=1))
- Uzupełnianie (imputacja)
- Stałą wartością (
df.fillna(0))
- Średnią/medianą/modą (
df.fillna(df.mean()))
- Zaawansowane: KNN, regresja, modele ML
- Oznaczanie braków
- Dodanie flagi:
df['is_missing'] = df['kolumna'].isnull()
dobre praktyki
- Analizuj, dlaczego dane są brakujące – nie zawsze warto je uzupełniać!
- Imputuj tylko na zbiorze treningowym, potem transformuj testowy.
- Dokumentuj każdą operację na danych.
praktyczne ćwiczenia
- Znajdź i wczytaj zbiór z brakami.
- Policz liczbę brakujących wartości w każdej kolumnie.
- Przetestuj różne strategie uzupełniania i porównaj wpływ na model.
- Zbadaj, jak imputacja wpływa na rozkład danych.
polecane źródła