Fehlerbeschreibung

Wie du in der Aufgabe des Abschnitts zuvor vermutlich bemerkt hast, endet der k-Means-Algorithmus je nach (zufälliger) Wahl der ersten Cluster durchaus mit unterschiedlichen Ergebnissen. Um ein Maß dafür einzuführen, welche Lösung besser ist, wird die Summe der quadrierten Abstände von den Cluster-Schwerpunkten bestimmt.

Mit anderen Worten: Falls der k-Means-Algorithmus mit den Clustern bis endet und bis die zugehörigen Schwerpunkte der Cluster sind, dann ist der Wert

ein Maß für die Güte der Lösung: Je kleiner, desto besser.

Das zuvor definierte Maß wird häufig als WCSS beschrieben und steht damit für die englische Beschreibung "within-cluster sum of squares", was entsprechend als die Summe der quadrierten Abstände von den Cluster-Schwerpunkten zu verstehen ist.

Um das Gesamtergebnis des k-Means-Algorithmus zu verbessern, wird daher häufig folgende Strategie angewandt: Das Verfahren aus dem Abschnitt zuvor wird nicht nur einmal durchgeführt, sondern mehrfach (mit jeweils unterschiedlichen zufällig gewählten Startclustern). Zurückgegeben wird schließlich das Ergebnis aller Durchläufe mit dem kleinsten WCSS-Fehlermaß.

In der Anwendung im Abschnitt zuvor wurde dir das WCSS-Fehlermaß bereits für jeden Schritt des Algorithmus ausgegeben.

Quiz
Je kleiner das WCSS-Fehlermaß, desto besser ist die zugehörige Lösung.
Die Aussage ist wahr
Die Aussage ist falsch
Codebeispiel