Technik

Tokenizer

Zerteilt Text in kleinere Einheiten (Tokens), die ein Sprachmodell verarbeiten kann. Ein Token entspricht etwa 3/4 eines deutschen Wortes.

Definition

Ein Tokenizer zerlegt Text in Tokens — die kleinsten Einheiten, die ein Sprachmodell verarbeitet. Ein Token ist kein ganzes Wort, sondern oft ein Teilwort oder Zeichen. Im Deutschen entspricht ein Token ungefähr 3/4 eines Wortes. Der Satz 'Künstliche Intelligenz verändert die Arbeitswelt' wird in etwa 8–10 Tokens zerlegt. Die Tokenisierung bestimmt die Kosten (API-Preise werden pro Token berechnet), die maximale Kontextlänge und wie gut ein Modell eine Sprache versteht. Verschiedene Modelle verwenden unterschiedliche Tokenizer — GPT nutzt BPE (Byte Pair Encoding), andere Modelle verwenden SentencePiece oder ähnliche Verfahren.

Verwandte Begriffe

KI-Wissen vertiefen?

KI-Überblick liefert täglich eingeordnete KI-Trends, Lernpfade und Deep Dives — 14 Tage kostenlos.

Kostenlos starten