taralino

ClusterAnalysis

Verfahren der Clusteranalyse dienen dazu, Objekte bezüglich gewisser Ähnlichkeiten zu analysieren: Das Ziel besteht darin, Objekte eines Datensatzes derart in Gruppen (sogenannte Cluster) aufzuteilen, sodass alle Objekte einer Gruppe möglichst ähnlich sind. Anwendungsbeispiele der Clusteranalyse finden sich unter anderem in der Kundensegmentierung oder der Bildverarbeitung.

Das vorliegende ClusterAnalysis-Paket stellt mit dem k-Means-Algorithmus eines der wichtigsten Verfahren der Clusteranalyse bereit: Gesucht werden Cluster, sodass die Summe der quadrierten Abweichungen von den Cluster-Schwerpunkten minimiert wird. Zudem kann die Ellenbogenmethode (elbow method) eingesetzt werden, um zunächst zu ermitteln, wie die Anzahl an Clustern überhaupt gewählt werden sollte.

Neben dem k-Means-Algorithmus kommen bei der Clusteranalyse häufig auch sogenannte dichtebasierte Verfahren zum Einsatz. Ein Beispiel ist die DBSCAN-Methode, die ebenfalls im Paket enthalten ist.

Übersicht

Das ClusterAnalysis-Paket stellt folgende Funktionen und Befehle zur Verfügung:

Beispiel

Es werden Daten mit dem ClusteringData-Paket erstellt, welche anschließend unter Verwendung des k-Means-Algorithmus verarbeitet werden. Das Ergebnis wird farbig dargestellt.

<!DOCTYPE html>
<html>
<head>
  <meta charset="utf-8">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <script src="taralino.js"></script>
</head>
<body>
<script>

// Daten erstellen
var X = ClusteringData.get(320, {clusters:4, shape:0.6, radius:0.6});

// k-Means-Algorithmus anwenden
var T = ClusterAnalysis.kmeans(X, 4);

// Ergebnis darstellen
var color = ["blue","red","green","yellow","orange"];

Canvas.init([0,10], [0,9], {width:400, background:"lightgrey"});
for (var k = 0; k < X.length; k++) {
  Canvas.circle(X[k][0], X[k][1], 0.08, {fill:color[T[k]]});
};

</script>
</body>
</html>

Vorschau Download Kopie speichern