Technik

Transformer

Die neuronale Netzwerk-Architektur hinter allen modernen Sprachmodellen — 2017 von Google eingeführt, Grundlage von GPT, Claude und Gemini.

Definition

Der Transformer ist eine Netzwerk-Architektur, die 2017 im Paper 'Attention Is All You Need' von Google-Forschern vorgestellt wurde. Die zentrale Innovation ist der Self-Attention-Mechanismus, der es dem Modell erlaubt, bei der Verarbeitung eines Wortes den gesamten Kontext des Textes zu berücksichtigen — nicht nur die benachbarten Wörter. Dies ermöglicht ein deutlich besseres Sprachverständnis als frühere Architekturen (RNNs, LSTMs). Der Transformer bildet die Grundlage für praktisch alle modernen Sprachmodelle: GPT, Claude, Gemini, Llama und Mistral. Ohne den Transformer gäbe es die aktuelle KI-Revolution nicht.

Verwandte Begriffe

KI-Wissen vertiefen?

KI-Überblick liefert täglich eingeordnete KI-Trends, Lernpfade und Deep Dives — 14 Tage kostenlos.

Kostenlos starten