iPAS 備考 / AI 術語庫 / 強化學習 機器學習 進階 強化學習 Reinforcement Learning / 強化學習 白話解析 智能體透過與環境互動,根據獎懲信號學習最優行為策略 生活化比喻 像訓練狗——做對了給零食,做錯了不理牠,狗自己摸索什麼行為能得獎 ← 返回 AI 術語庫 | 練習考題 →