ClusterAnalysis

Verfahren der Clusteranalyse dienen dazu, Objekte bezüglich gewisser Ähnlichkeiten zu analysieren: Das Ziel besteht darin, Objekte eines Datensatzes derart in Gruppen (sogenannte Cluster) aufzuteilen, sodass alle Objekte einer Gruppe möglichst ähnlich sind. Anwendungsbeispiele der Clusteranalyse finden sich unter anderem in der Kundensegmentierung oder der Bildverarbeitung.

Das vorliegende ClusterAnalysis-Paket stellt mit dem k-Means-Algorithmus eines der wichtigsten Verfahren der Clusteranalyse bereit: Gesucht werden Cluster, sodass die Summe der quadrierten Abweichungen von den Cluster-Schwerpunkten minimiert wird. Zudem kann die Ellenbogenmethode (elbow method) eingesetzt werden, um zunächst zu ermitteln, wie die Anzahl an Clustern überhaupt gewählt werden sollte.

Neben dem k-Means-Algorithmus kommen bei der Clusteranalyse häufig auch sogenannte dichtebasierte Verfahren zum Einsatz. Ein Beispiel ist die DBSCAN-Methode, die ebenfalls im Paket enthalten ist.

Übersicht
Das ClusterAnalysis-Paket stellt folgende Funktionen und Befehle zur Verfügung:
Beispiel
Es werden Daten mit dem ClusteringData-Paket erstellt, welche anschließend unter Verwendung des k-Means-Algorithmus verarbeitet werden. Das Ergebnis wird farbig dargestellt.