taralino

Implementierung

Um anhand des "Bunte-Punkte-Problems" erste experimentelle Erfahrungen mit der Nächste-Nachbarn-Klassifikation sammeln zu können, dient der folgende Quellcode. Wie gehabt werden dort Trainings- sowie Testdaten unter Verwendung des ClassificationData-Pakets erzeugt:

Zur Referenz

Anschließend wird die Nächste-Nachbarn-Klassifikation auf alle Punkte der Testdaten angewandt. Wenn das Ergebnis mit der bekannten Klasse des Testobjekts übereinstimmt, dann wird der Punkt in Cyan dargestellt, anderenfalls in Orange.

Die genaue Referenz zur Durchführung einer Nächste-Nachbarn-Klassifikation findest du hier:

Zur Referenz

Beispiel

Ein kleines Experiment, um erste Erfahrungen mit der Nächste-Nachbarn-Klassifikation sammeln zu können.

<!DOCTYPE html>
<html>
<head>
  <meta charset="utf-8">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <script src="taralino.js"></script>
</head>
<body>
<script>

// Parameter zur Klassifikation
var k = 3;

// Trainingsdaten erzeugen
var X = ClassificationData.get(400, {categories:4, shape:"mixed"});

// Testdaten erzeugen
var Y = ClassificationData.get(100, {categories:4, shape:"mixed"});

// Klassifikation durchfuehren und Ergebnis darstellen
Canvas.init([0,1], [0,1], {width:300, background:"lightgrey"});
for (var i = 0; i < Y.length; i++) {
  var z = NearestNeighbor.evaluate(X, Y[i].input, k);
  var t = (z == Y[i].index ? "cyan" : "orange");
  Canvas.circle(Y[i].input[0], Y[i].input[1], 0.012, {fill:t});
};

</script>
</body>
</html>

Vorschau Download Kopie speichern

Aufgabe

Mache dich mit dem Quellcode zuvor vertraut. Lasse dir auch die Trainings- und Testdaten samt Klassifikationsergebnis in entsprechender Farbe darstellen. Experimentiere anschließend mit der Nächste-Nachbarn-Klassifikation:

Verändere den Umfang der Trainingsdaten.
Verändere den Umfang der Testdaten.
Verändere den Parameter k.
Verändere die optionalen Parameter shape und noise beim Erzeugen der Trainings- sowie Testdaten.

Schaue dir ggf. nochmals die Referenz der Funktion ClassificationData.get an:

Zur Referenz

Quiz

Wie viel Prozent der Testdaten werden im Beispiel oben ungefähr korrekt klassifiziert, falls die Trainingsdaten aus 400 Objekten (Punkten) bestehen und k=3 gewählt wird?

10%

50%

90%

Wie viel Prozent der Testdaten werden im Beispiel oben ungefähr korrekt klassifiziert, falls die Trainingsdaten aus 400 Objekten (Punkten) bestehen und k=7 gewählt wird?

10%

50%

90%

Wie viel Prozent der Testdaten werden im Beispiel oben ungefähr korrekt klassifiziert, falls die Trainingsdaten aus 1000 Objekten (Punkten) bestehen und k=3 gewählt wird?

10%

50%

90%