RLHF (Reinforcement Learning from Human Feedback)
Trainingsmethode, bei der menschliche Bewerter einem Modell beibringen, hilfreiche und sichere Antworten zu geben.
Definition
RLHF ist eine Trainingsmethode, die nach dem Pre-Training eingesetzt wird. Menschliche Bewerter bewerten verschiedene Modellantworten nach Kriterien wie Hilfsbereitschaft, Korrektheit und Sicherheit. Aus diesen Bewertungen wird ein Belohnungsmodell (Reward Model) trainiert, mit dem das Sprachmodell dann per Reinforcement Learning optimiert wird. RLHF ist der Grund, warum ChatGPT und Claude hilfreiche Konversationspartner sind statt nur Text zu vervollständigen. Ohne RLHF würden LLMs oft unpassende, unsichere oder wenig hilfreiche Antworten erzeugen. Alternativen zu RLHF sind DPO (Direct Preference Optimization) und Constitutional AI (Anthropic).
Verwandte Begriffe
KI-Wissen vertiefen?
KI-Überblick liefert täglich eingeordnete KI-Trends, Lernpfade und Deep Dives — 14 Tage kostenlos.
Kostenlos starten