模型訓練 深入
RLHF
Reinforcement Learning from Human Feedback / 人類回饋強化學習
白話解析
用人類偏好評分訓練獎勵模型,再用強化學習微調 LLM,使輸出更符合人類期望
生活化比喻
像請多位評審打分——蒐集意見後,讓模型學習「什麼樣的回答人類覺得好」
Reinforcement Learning from Human Feedback / 人類回饋強化學習
用人類偏好評分訓練獎勵模型,再用強化學習微調 LLM,使輸出更符合人類期望
像請多位評審打分——蒐集意見後,讓模型學習「什麼樣的回答人類覺得好」