第 488 題(共 548 題)
RLHF(Reinforcement Learning from Human Feedback)在大型語言模型中的主要作用為何?
解析
RLHF 的流程是先收集人類對模型輸出的偏好排序,訓練一個獎勵模型(Reward Model),再用強化學習(如 PPO)讓語言模型最大化獎勵,從而使輸出更安全、有用且符合人類期望。
正確答案:A. 透過人類回饋訓練獎勵模型,使語言模型的輸出更符合人類偏好與價值觀
RLHF 的流程是先收集人類對模型輸出的偏好排序,訓練一個獎勵模型(Reward Model),再用強化學習(如 PPO)讓語言模型最大化獎勵,從而使輸出更安全、有用且符合人類期望。
正確答案:A. 透過人類回饋訓練獎勵模型,使語言模型的輸出更符合人類偏好與價值觀