Testdaten

In den Abschnitten zuvor haben wir gelernt, dass Trainingsdaten dazu verwendet werden können, um die Gewichte und Schwellwerte eines neuronalen Netzes geeignet zu bestimmen. Um zu prüfen, wie gut das neuronale Netz zu Lösung der Klassifikationsaufgabe verwendet werden kann, ist das neuronale Netz nach der Trainingsphase zu testen.

Dazu nehmen wir an, dass neben den Trainingsdaten auch Testdaten zur Verfügung stehen, wobei Trainings- und Testdaten jeweils auf die gleiche Art und Weise zu erzeugen bzw. generieren sind. In beiden Fällen handelt es sich also um eine Menge an Objekten, bei denen jeweils das zugehörige Klassifikationsergebnis bekannt ist. Zusammenfassend werden also folgende Schritte durchgeführt:

  1. Anhand der Trainingsdaten wird das neuronale Netz dahingehend trainiert, sodass die Klassifikationsaufgabe (bezogen auf die Trainingsdaten) möglichst gut gelöst wird.
  2. Anschließend werden die Testdaten verwendet, um das (bereits trainierte) neuronale Netz zu evaluieren (testen). Ziel ist es, möglichst viele der Testdaten korrekt zu klassifizieren.

Dabei sei bemerkt, dass das (trainierte) neuronale Netz in Abhängigkeit der Eingangsdaten (Merkmale) eines Objekts Wahrscheinlichkeiten dafür bestimmt, ob es sich um ein Objekt der Klasse rot, grün oder blau handelt:

Da sämtliche Neuronen einen Wert zwischen 0 und 1 annehmen, sind auch die Wahrscheinlichkeiten entsprechend zu verstehen: Eine 0 entspricht 0% und eine 1 entspricht 100%.

Falls das Ausgangsneuron zum Klassifikationsergebnis rot beispielsweise den Wert 0.8 ergibt, bedeutet dies, dass der Punkt der zugehörigen Eingangsneuronen mit einer Wahrscheinlichkeit von 80% als rot zu klassifizieren ist.

Um bei der Klassifikation eines Punktes eine eindeutige Wahl der zugehörigen Farbe zu treffen, entscheiden wir uns jeweils für die Farbe bzw. Klasse mit der größten Wahrscheinlichkeit (also für das Ausgangsneuron mit dem größten Wert).

Die nachfolgenden Fragen sollten dir dabei helfen, das Konzept der Testphase genauer zu verstehen.

Quiz

Angenommen, ein Datensatz der Testdaten besitzt die Eingangsdaten (0.6, 0.2) sowie rot als zugehöriges (bekanntes) Klassifikationsergebnis. Ein zuvor trainiertes neuronales Netz liefert folgende Werte für die Ausgangsneuronen:

Was ist das Klassifikationsergebnis der Eingangsdaten?
rot
grün
blau
Wurden die Eingangsdaten korrekt klassifiziert?
ja
nein
Mit welcher Wahrscheinlichkeit handelt es sich bei den Eingangsdaten um einen grünen Punkt?
0%
20%
50%
80%
100%
Zwischenstand