dlaczego skalowanie jest ważne?
- Wiele algorytmów ML (np. regresja, SVM, KNN) jest wrażliwych na skalę cech.
- Dane o różnych zakresach mogą zaburzać wyniki (np. jedna cecha dominuje nad innymi).
- Skalowanie przyspiesza uczenie i poprawia stabilność numeryczną.
najpopularniejsze metody skalowania ⭐
- Min-Max Scaling
Przekształca dane do zakresu [0, 1].
X_scaled = (X - X_min) / (X_max - X_min)
- Standardization (Z-score)
Przekształca dane do rozkładu o średniej 0 i odchyleniu standardowym 1.
X_scaled = (X - mean) / std
- Robust Scaling
Używa mediany i kwartylów – odporny na outliery.
praktyczne ćwiczenia
- Użyj
sklearn.preprocessing.StandardScaler
na wybranym datasecie.
- Zbuduj własny Scaler w stylu tego w sklearn.
- Zanotuj różnice między scalerami.
polecane źródła