Przejdź do głównej zawartości

data_scaling

dlaczego skalowanie jest ważne?

Wiele algorytmów ML (np. regresja, SVM, KNN) jest wrażliwych na skalę cech.
Dane o różnych zakresach mogą zaburzać wyniki (np. jedna cecha dominuje nad innymi).
Skalowanie przyspiesza uczenie i poprawia stabilność numeryczną.

najpopularniejsze metody skalowania ⭐

Min-Max Scaling
Przekształca dane do zakresu [0, 1].
X_scaled = (X - X_min) / (X_max - X_min)
Standardization (Z-score)
Przekształca dane do rozkładu o średniej 0 i odchyleniu standardowym 1.
X_scaled = (X - mean) / std
Robust Scaling
Używa mediany i kwartylów – odporny na outliery.

praktyczne ćwiczenia

Użyj sklearn.preprocessing.StandardScaler na wybranym datasecie.
Zbuduj własny Scaler w stylu tego w sklearn.
Zanotuj różnice między scalerami.

polecane źródła

dlaczego skalowanie jest ważne?
najpopularniejsze metody skalowania ⭐
praktyczne ćwiczenia
polecane źródła