RLHF (Reinforcement Learning from Human Feedback)

Definition

RLHF ist eine Trainingsmethode, die nach dem Pre-Training eingesetzt wird. Menschliche Bewerter bewerten verschiedene Modellantworten nach Kriterien wie Hilfsbereitschaft, Korrektheit und Sicherheit. Aus diesen Bewertungen wird ein Belohnungsmodell (Reward Model) trainiert, mit dem das Sprachmodell dann per Reinforcement Learning optimiert wird. RLHF ist der Grund, warum ChatGPT und Claude hilfreiche Konversationspartner sind statt nur Text zu vervollständigen. Ohne RLHF würden LLMs oft unpassende, unsichere oder wenig hilfreiche Antworten erzeugen. Alternativen zu RLHF sind DPO (Direct Preference Optimization) und Constitutional AI (Anthropic).

Definition

Verwandte Begriffe