iPAS 備考 / 考試題庫 / 第 331 題 第 331 題(共 548 題) Multi-Head Attention 的主要優點為何? A 減少模型參數 B 加速注意力計算 C 從不同表示子空間同時捕捉多樣化的關聯模式 D 避免梯度消失 解析 多頭注意力把注意力拆成多個「頭」,每個頭在不同的子空間學習不同的關聯模式。就像多個偵探從不同角度調查同一案件。 正確答案:C. 從不同表示子空間同時捕捉多樣化的關聯模式 ← 返回題庫 查術語庫 →