模型訓練深入

RLHF

Reinforcement Learning from Human Feedback / 人類回饋強化學習

白話解析

用人類偏好評分訓練獎勵模型，再用強化學習微調 LLM，使輸出更符合人類期望

生活化比喻

像請多位評審打分——蒐集意見後，讓模型學習「什麼樣的回答人類覺得好」

← 返回 AI 術語庫 | 練習考題 →