科技翰林院

首頁
文章
iPAS 備考
課程
關於

首頁
文章
iPAS 備考
課程
關於
前往學院

iPAS 備考 / 考試題庫 / 第 529 題

第 529 題（共 548 題）

大型語言模型（LLM）的訓練流程中，RLHF的三個子步驟依序為何？

解析

RLHF的三個子步驟：(1)收集人類對同一問題多個回答的偏好排序；(2)訓練Reward Model學習人類偏好；(3)使用PPO演算法以獎勵模型分數為回報訊號微調LLM。A是LLM完整訓練流程；C是一般ML流程；D是模型壓縮技術。

正確答案：B. 收集人類偏好資料 → 訓練獎勵模型 → 使用PPO微調LLM

← 返回題庫查術語庫 →

科技翰林院

AI 知識媒體，讓非技術背景的人也能掌握 AI 時代的生存技能。

內容

文章
iPAS 備考
AI 術語庫
課程

美第奇未來職涯 AI 學院

前往學院購買課程
Facebook 粉絲專頁

© 2026 科技翰林院. 林思翰創立.