Inferenz
Der Prozess, bei dem ein trainiertes KI-Modell eine Eingabe verarbeitet und eine Ausgabe erzeugt — also die eigentliche Nutzung.
Definition
Inferenz ist der Vorgang, bei dem ein fertig trainiertes Modell auf neue Eingaben angewendet wird — also jede einzelne Anfrage an ChatGPT, Claude oder ein anderes KI-System. Im Gegensatz zum Training (wo das Modell lernt) werden bei der Inferenz die gelernten Parameter nur gelesen, nicht verändert. Inferenzkosten werden typischerweise pro Token berechnet und sind deutlich günstiger als Trainingskosten. Die Inferenzgeschwindigkeit hängt von Modellgröße, Hardware (GPU/TPU) und Optimierungen ab. Techniken wie Quantisierung und Destillation können die Inferenzkosten um 50–90 % senken, bei geringem Qualitätsverlust.
Verwandte Begriffe
KI-Wissen vertiefen?
KI-Überblick liefert täglich eingeordnete KI-Trends, Lernpfade und Deep Dives — 14 Tage kostenlos.
Kostenlos starten