Regeln zur Tokenisierung

Wie im Abschnitt zuvor bereits erwähnt, müssen eindeutige Regeln zur Tokenisierung der Texte vereinbart werden. Je nachdem welche Aufgabe zu lösen ist (z.B. Übersetzung, Chatbot oder Stimmungserkennung), können unterschiedliche Regeln sinnvoll sein. Um einige Beispiele zu nennen, die bei der Erstellung eines Regelwerks zur Tokenisierung bedacht werden sollten:

  1. Wie wird mit Groß- und Kleinschreibung umgegangen?
  2. Wie werden Sonderzeichen verarbeitet?
  3. Was ist insbesondere mit Fragezeichen und Ausrufezeichen?
  4. Wie ist der Umgang mit Umlauten (ä, ü und ö)?
  5. Werden Emoji berücksichtigt?
  6. Was ist mit Wörtern bestehend aus nur ein oder zwei Buchstaben?
  7. Werden die Wörter auf ihren Wortstamm reduziert (z.B. schön, schöner, schöne)?
  8. Werden für den Anwendungsfall irrelevante Wörter wie z.B. “und” und “ein” ignoriert?

Natürlich sollten die Regeln auch davon abhängig gewählt werden, welche Sprache verarbeitet wird. Beispielsweise gibt es in der deutschen Sprache mit den Umlauten einige Sonderzeichen, die es in anderen Sprachen nicht gibt. Die englische Sprache hingegen hat mit “a” und “I” Wörter bestehend aus nur einem Buchstaben.

Um es möglichst einfach zu halten, werden wir in diesem Kurs die folgenden Regeln anwenden:

  1. Alle Texte werden grundsätzlich in Kleinschreibung umgewandelt. Dies gilt auch für Namen sowie für den Satzanfang.
  2. Sämtliche Sonderzeichen werden durch ein Leerzeichen ersetzt. Dies gilt insbesondere auch für Fragezeichen und Ausrufezeichen, Umlaute und Emojis.
  3. Nach dieser Vorverarbeitung wird die eigentliche Tokenisierung durchgeführt.
  4. Es werden nur Wörter (bzw. sogenannte Token) berücksichtigt (d.h. ins Bag-of-Words aufgenommen), die aus mindestens zwei Zeichen bestehen.

Weitere Regeln kommen nicht zum Einsatz, d.h., es findet weder eine Reduktion auf den Wortstamm statt noch werden irrelevante Wörter ignoriert. Das Regelwerk ist damit sehr einfach gehalten, aber insbesondere für die Stimmungserkennung (Sentimentanalyse) sicher nicht das beste: Eine Berücksichtigung von Emoji wäre an dieser Stelle durchaus sinnvoll. Zusammenfassend sollte beachtet werden:

Die gewählten Regeln zur Tokenisierung tragen entscheidend dazu bei, wie gut die anschließende Klassifikationsaufgabe gelöst werden kann.

Quiz

Gegeben sei der folgende Text:

Ein schöner Tag! Auf geht's 🚀 Kommst du mit, Anna?

Zur Tokenisierung wird das zuvor beschriebene Regelwerk verwendet.

Welches Wort (bzw. Token) kommt im zugehörigen Bag-of-Words vor?
geht's
geht
geh
geht es
Welches Wort (bzw. Token) kommt im zugehörigen Bag-of-Words vor?
Anna
Anna?
anna
anna?
Welches Wort (bzw. Token) kommt im zugehörigen Bag-of-Words vor?
sch
schöner
schoener
schner
Vektorisierung