Einführung

Die Aufgabe der explorativen Datenanalyse besteht darin, einen Datensatz zu analysieren. Genauer werden statistische Kennzahlen ermittelt und geeignete graphische Darstellungen erzeugt, um den Datensatz genauer zu verstehen. Damit werden unter anderem die folgenden Ziele verfolgt:

  • Die Daten (Zahlen) des Datensatzes können auf Plausibilität geprüft werden. Somit können auch unerwünschte Ausreißer (z.B. Messfehler) identifiziert werden.
  • Es können erste Annahmen (Hypothesen) aufgestellt werden, beispielsweise Abhängigkeiten zwischen Merkmalen oder ähnliches.
  • Man kann ein Gespür dafür entwickeln, welche Methoden des maschinellen Lernens zur weiteren Analyse geeignet sein könnten.
  • Zudem kann die Qualität der Daten eingeschätzt werden, beispielsweise ob der Datensatz groß genug ist, um zuverlässige Aussage abzuleiten.

Es ist wichtig darauf hinzuweisen, dass es keine vollständig standardisierte Vorgehensweise zur explorativen Datenanalyse gibt. Je nach vorliegendem Datensatz kommen unterschiedliche Analysen zum Einsatz, von denen wir in diesem Kurs anhand eines Datensatzes einige vorstellen werden.

Quiz
Der IrisFlower-Datensatz