Die Funktion ClassificationData.get(n) erwartet folgende (verpflichtende) Argumente:
Argument | Datentyp | Hinweis |
n | Zahl | ganzzahlig, mindestens 2 |
Es wird ein Datenfeld (eine Liste) bestehend aus n Objekten erstellt und zurückgegeben. Jedes Element des Datenfeldes ist dabei ein Objekt mit folgenden Variablen:
Variable | Datentyp | Hinweis |
input | Datenfeld | 2 Zahlen, jeweils aus dem Intervall [0,1] |
output | Datenfeld | 2 bis 10 Zahlen, jeweils 0 oder 1 |
index | Zahl | ganzzahlig |
color | Zeichenkette | Farbe zum Index index |
Das Datenfeld input entspricht den Eingangsdaten zur Klassifikation und index gibt an, welcher Klasse das Objekt angehört. Zudem handelt es sich bei output um einen Einheitsvektor (also um ein Datenfeld, bei dem genau der Eintrag zum Index index 1 ist und alle anderen sind 0). Die Daten können beispielsweise dazu verwendet werden, um ein neuronales Netz zu trainieren sowie zu testen.
Zudem können folgende Optionen verwendet werden:
Variable | Datentyp | Hinweis | Default-Wert |
categories | Zahl | ganzzahlig, zwischen 2 und 10 | 2 |
shape | Zeichenkette | linear, circle oder mixed | linear |
noise | Zahl | aus dem Intervall [0,1] | 0.0 |
categories definiert die Anzahl der Klassen (und damit die Länge der Einheitsvektoren output) und mittel shape lassen sich unterschiedliche Verteilungen der Eingangsdaten erzeugen (siehe Beispiele).
Schließlich können durch noise Störungen in den Verteilungen erzeugt werden: Für einen Wert von 0 lässt sich (theoretisch) eine Klassifikation bestimmen, sodass sämtliche Testdaten exakt bestimmt werden können. Bei Werten größer als 0 kommt es zu stochastischen Verteilungen mit Ausreißern, sodass keine exakte Klassifikation zu erwarten ist.