k-Means-Algorithmus

Nachdem wir das Problem eindeutig formuliert haben, wollen wir nun einen Lösungsansatz vorstellen, nämlich den k-Means-Algorithmus. Es handelt sich dabei um ein sogennantes nicht-deterministische Verfahren: Dies bedeutet, dass zufällige Entscheidungen getroffen werden, sodass ein wiederholtes Durchführen des Verfahrens zu durchaus unterschiedlichen Ergebnissen führen kann. Der genaue Ablauf ist wie folgt:

Gegeben sei ein Datensatz (eine Punktmenge) sowie die Anzahl an Clustern, in die der Datensatz aufgeteilt werden soll.

  1. Wähle zufällig unterschiedliche Objekte (bzw. Punkte) aus dem Datensatz aus und bezeichne diese mit bis .
  2. Bilde die Cluster bis derart, sodass für der Cluster all diejenigen Objekte (bzw. Punkte) enthält, für die am nächsten ist:
  3. Aktualisiere bis jeweils durch die Schwerpunkte der zugehörigen Cluster:
  4. Falls sich die Cluster (und damit die Schwerpunkte) nicht verändert haben, beende das Verfahren. Anderenfalls gehe zu Schritt 2.

Du musst nicht beunruhigt sein, fass du die mathematischen Formulierungen zuvor nicht im Detail nachvollziehen kannst: Der Algorithmus wird anhand der folgenden Anwendung schrittweise veranschaulicht.

Genauer wird ein Datensatz bestehend aus 48 Objekten (Punkten) erstellt, die unter Verwendung des k-Means-Algorithmus in Cluster aufgeteilt werden sollen. Es werden zunächst zufällig unterschiedliche Objekte (bzw. Punkte) gewählt und die zugehörigen Cluster gebildet. Anschließend kannst du den Ablauf Schritt für Schritt durchführen und die Veränderungen beobachten.

Anwendung
Veranschaulichung des k-Means-Algorithmus: Es wird ein Datensatz bestehend aus 48 Objekten (Punkten) erstellt, die in drei Cluster aufgeteilt werden sollen.
Quiz

Mache dich mit der Anwendung zuvor vertraut. Führe (ohne den Datensatz bzw. die Punktmenge zu verändern) mehrfach einen Neustart durch und beantworte folgenden Fragen. Hinweis: Die Zahl in der Darstellung unten ist ein Fehlermaß für die Güte der Lösung (je kleiner, desto besser).

Wie viele Schritte sind durchschnittlich ungefähr notwendig, bis der k-Means-Algorithmus keine Veränderung der Cluster herbeiführt und entsprechend endet?
0
6
60
600
Werden die Punkte (nach der Durchführung des Verfahrens) jeweils in die gleichen Cluster aufgeteilt?
ja
nein
Fehlerbeschreibung