科技翰林院

首頁
文章
iPAS 備考
課程
關於

首頁
文章
iPAS 備考
課程
關於
前往學院

iPAS 備考 / 考試題庫 / 第 488 題

第 488 題（共 548 題）

RLHF（Reinforcement Learning from Human Feedback）在大型語言模型中的主要作用為何？

解析

RLHF 的流程是先收集人類對模型輸出的偏好排序，訓練一個獎勵模型（Reward Model），再用強化學習（如 PPO）讓語言模型最大化獎勵，從而使輸出更安全、有用且符合人類期望。

正確答案：A. 透過人類回饋訓練獎勵模型，使語言模型的輸出更符合人類偏好與價值觀

← 返回題庫查術語庫 →

科技翰林院

AI 知識媒體，讓非技術背景的人也能掌握 AI 時代的生存技能。

內容

文章
iPAS 備考
AI 術語庫
課程

美第奇未來職涯 AI 學院

前往學院購買課程
Facebook 粉絲專頁

© 2026 科技翰林院. 林思翰創立.