Tokenizer

Definition

Ein Tokenizer zerlegt Text in Tokens — die kleinsten Einheiten, die ein Sprachmodell verarbeitet. Ein Token ist kein ganzes Wort, sondern oft ein Teilwort oder Zeichen. Im Deutschen entspricht ein Token ungefähr 3/4 eines Wortes. Der Satz 'Künstliche Intelligenz verändert die Arbeitswelt' wird in etwa 8–10 Tokens zerlegt. Die Tokenisierung bestimmt die Kosten (API-Preise werden pro Token berechnet), die maximale Kontextlänge und wie gut ein Modell eine Sprache versteht. Verschiedene Modelle verwenden unterschiedliche Tokenizer — GPT nutzt BPE (Byte Pair Encoding), andere Modelle verwenden SentencePiece oder ähnliche Verfahren.

Definition

Verwandte Begriffe