Przejdź do głównej zawartości

data_scaling

dlaczego skalowanie jest ważne?

  • Wiele algorytmów ML (np. regresja, SVM, KNN) jest wrażliwych na skalę cech.
  • Dane o różnych zakresach mogą zaburzać wyniki (np. jedna cecha dominuje nad innymi).
  • Skalowanie przyspiesza uczenie i poprawia stabilność numeryczną.

najpopularniejsze metody skalowania ⭐

  • Min-Max Scaling
    Przekształca dane do zakresu [0, 1].
    X_scaled = (X - X_min) / (X_max - X_min)
  • Standardization (Z-score)
    Przekształca dane do rozkładu o średniej 0 i odchyleniu standardowym 1.
    X_scaled = (X - mean) / std
  • Robust Scaling
    Używa mediany i kwartylów – odporny na outliery.

praktyczne ćwiczenia

  • Użyj sklearn.preprocessing.StandardScaler na wybranym datasecie.
  • Zbuduj własny Scaler w stylu tego w sklearn.
  • Zanotuj różnice między scalerami.

polecane źródła