科技翰林院

首頁
文章
iPAS 備考
課程
關於

首頁
文章
iPAS 備考
課程
關於
前往學院

iPAS 備考 / 考試題庫 / 第 492 題

第 492 題（共 548 題）

在 RLHF 的典型流程中，下列哪個步驟的順序是正確的？

解析

RLHF 的標準流程為：(1) 讓人類對模型的多個輸出進行偏好排序，(2) 用這些偏好資料訓練獎勵模型（Reward Model），(3) 用強化學習（如 PPO）根據獎勵模型的評分優化語言模型。

正確答案：C. 收集人類偏好 → 訓練獎勵模型 → 強化學習優化語言模型

← 返回題庫查術語庫 →

科技翰林院

AI 知識媒體，讓非技術背景的人也能掌握 AI 時代的生存技能。

內容

文章
iPAS 備考
AI 術語庫
課程

美第奇未來職涯 AI 學院

前往學院購買課程
Facebook 粉絲專頁

© 2026 科技翰林院. 林思翰創立.