Transformer

Definition

Der Transformer ist eine Netzwerk-Architektur, die 2017 im Paper 'Attention Is All You Need' von Google-Forschern vorgestellt wurde. Die zentrale Innovation ist der Self-Attention-Mechanismus, der es dem Modell erlaubt, bei der Verarbeitung eines Wortes den gesamten Kontext des Textes zu berücksichtigen — nicht nur die benachbarten Wörter. Dies ermöglicht ein deutlich besseres Sprachverständnis als frühere Architekturen (RNNs, LSTMs). Der Transformer bildet die Grundlage für praktisch alle modernen Sprachmodelle: GPT, Claude, Gemini, Llama und Mistral. Ohne den Transformer gäbe es die aktuelle KI-Revolution nicht.

Definition

Verwandte Begriffe