Feature Scaling

Devanther

Top Contributor
Hallo,

ich wollte fragen, was genau Feature Scaling ist,

Die Spalten Level (X) und Salary (y) werden in Zahlen umgewandelt.
Warum wird das gemacht? Warum ist das nötig?
Kann mir das jemand anhand der Tabelle rechts oben erklären?

Kann mir das bitte jemand mit EIGENEN WORTEN erklären, ich verstehe das nicht.
Ich habe schon gegoogelt und auch den Wikipedia Artikel dazu gelesen, aber ich versteh es leider nicht -.-

Feature scaling is essential for machine learning algorithms that calculate distances between data. If not scale, the feature with a higher value range starts dominating when calculating distances, as explained intuitively in the “why?” section.

Feature Scaling wird in der Pre-processing Phase gemacht.
Ich arbeite gerade einen Udemy Kurs zum Thema Data Science durch. In dem Fall wird das in Python gemacht.
 
Zuletzt bearbeitet:

mihe7

Top Contributor
Es geht einfach darum, Unterschiede in Größenordnungen der Merkmale auszugleichen, sofern diese Unterschiede für das Ergebnis keine besondere Bedeutung haben.

Ich weiß nicht, was in Deinem Beispiel berechnet werden soll, aber nehmen wir mal an, es gäbe noch eine Zielvariable, die den Erfolg misst. Wir wollen jetzt einen linearen Zusammenhang zwischen der Ebene im Unternehmen sowie dem Gehalt auf der einen Seite zum Erfolg auf der anderen Seite herstellen. Dann gilt: erfolg = w0 + w1*level + w2*salary. Gesucht sind nun w0, w1 und w2, so dass der Gesamtfehler minimal wird. Das Ganze ist eine Optimierungsaufgabe. Da sich level und salary um Größenordnungen voneinander unterscheiden, wirkt sich eine kleine Änderung von w1 wesentlich weniger stark aus als eine kleine Änderung von w2. Vereinfacht gesprochen wirst Du verhältnismäßig kleine Schritte machen müssen, um das Optimum zu finden und da für das level aber relativ große Änderungen benötigt würde, wirkt sich das negativ auf die Laufzeit der Optimierung aus. Umgekehrt könntest Du sehr leicht zu große Schritte machen, dass das Optimum nicht gefunden wird.

Kurz: mit der Skalierung der Merkmale wird die Optimierung optimiert. Das wäre zumindest mein Verständnis davon.
 

Neue Themen


Oben