模型訓練 深入

RLHF

Reinforcement Learning from Human Feedback / 人類回饋強化學習

白話解析

用人類偏好評分訓練獎勵模型,再用強化學習微調 LLM,使輸出更符合人類期望

生活化比喻

像請多位評審打分——蒐集意見後,讓模型學習「什麼樣的回答人類覺得好」