第 529 題(共 548 題)
大型語言模型(LLM)的訓練流程中,RLHF的三個子步驟依序為何?
解析
RLHF的三個子步驟:(1)收集人類對同一問題多個回答的偏好排序;(2)訓練Reward Model學習人類偏好;(3)使用PPO演算法以獎勵模型分數為回報訊號微調LLM。A是LLM完整訓練流程;C是一般ML流程;D是模型壓縮技術。
正確答案:B. 收集人類偏好資料 → 訓練獎勵模型 → 使用PPO微調LLM
RLHF的三個子步驟:(1)收集人類對同一問題多個回答的偏好排序;(2)訓練Reward Model學習人類偏好;(3)使用PPO演算法以獎勵模型分數為回報訊號微調LLM。A是LLM完整訓練流程;C是一般ML流程;D是模型壓縮技術。
正確答案:B. 收集人類偏好資料 → 訓練獎勵模型 → 使用PPO微調LLM