Einführung

Im Bereich des Data Science besteht die Aufgabe in der Regel darin, Datensätze zu analysieren, um Informationen abzuleiten. Im ersten Schritt können und sollten daher grundlegende statistische Kennzahlen untersucht werden.

Um aber zunächst einige Begrifflichkeiten einzuführen bzw. zu wiederholen: Ein Datensatz ist nichts anderes als eine Tabelle, wobei jede Zeile einem Objekt und jede Spalte einem Merkmal entspricht:

Merkmal 1Merkmal 2...Merkmal n
Objekt 1ZahlenwertZahlenwert...Zahlenwert
Objekt 2ZahlenwertZahlenwert...Zahlenwert
............
Objekt mZahlenwertZahlenwert...Zahlenwert

Beispielsweise kann ein Datensatz das Verhalten von Nutzern einer Webseite beschreiben. Jedes Objekt (Zeile) entspricht dann einem Nutzer und zu jedem Nutzer werden unterschiedliche Merkmale gespeichert, z.B. Geschlecht (Merkmal 1), Alter (Merkmal 2), Jahresgehalt (Merkmal 3).

Zusammenfassend ist jede Spalte eines Datensatzes nichts anderes als eine Reihe von Zahlen. Statistische Kennzahlen geben nun Auskunft über derartige Zahlenreihen.

Im folgenden Beispiel wird ein Datensatz bestehend aus 800 Objekten und vier Merkmalen ausgelesen und ausgegeben. Die genaue Referenz zum SocialAds-Datenpaket findest du hier:

Zur Referenz

Beispiel
Es wird ein Datensatz bestehend aus 800 Objekten mit jeweils vier Merkmalen ausgegeben.
Quiz

Schau dir die Referenz zum SocialAds-Datenpaket an und beantworte die folgenden Fragen.

Wie viele Objekte beinhaltet der Datensatz?
3
4
100
800
Was ist das vierte Merkmal (Index 3) des Datensatzes?
Geschlecht
Alter
Jahresgehalt
auf Ad geklickt
Welchen Zahlenwert hat das Merkmal 1 (Geschlecht) eines weiblichen Nutzers?
-1
0
1
10
Mittelwert