.vectorize
Die Funktion Nlp.vectorize(s) erwartet folgende (verpflichtende) Argumente:
| Argument | Datentyp | Hinweis |
| s | Zeichenkette | - |
Die Zeichenkette bzw. der Satz s wird auf Grundlage des Bag-of-Words vektorisiert (als Vektor kodiert) und entsprechend als Datenfeld von Zahlen (Vektor) zurückgegeben.
Zudem kann folgende Option verwendet werden:
| Variable | Datentyp | Hinweis | Default-Wert |
| method | Zeichenkette | - | tf |
Mittels method kann die Art der Vektorisierung gewählt werden. Folgende Möglichkeiten stehen zur Verfügung:
| tf | Normierte Vorkommenshäufigkeit (term frequency) |
| binary | Binäres Vorkommen der Token |
| tf.idf | Das Tf-idf-Maß |
Das Tf-idf-Maß ist dabei als Vorkommenshäufigkeit (term frequency) multipliziert mit der inversen Dokumenthäufigkeit (inverse document frequency) zu verstehen.