第 492 題(共 548 題)
在 RLHF 的典型流程中,下列哪個步驟的順序是正確的?
解析
RLHF 的標準流程為:(1) 讓人類對模型的多個輸出進行偏好排序,(2) 用這些偏好資料訓練獎勵模型(Reward Model),(3) 用強化學習(如 PPO)根據獎勵模型的評分優化語言模型。
正確答案:C. 收集人類偏好 → 訓練獎勵模型 → 強化學習優化語言模型
RLHF 的標準流程為:(1) 讓人類對模型的多個輸出進行偏好排序,(2) 用這些偏好資料訓練獎勵模型(Reward Model),(3) 用強化學習(如 PPO)根據獎勵模型的評分優化語言模型。
正確答案:C. 收集人類偏好 → 訓練獎勵模型 → 強化學習優化語言模型