第 530 題(共 548 題)
Transformer架構中,Self-Attention機制的注意力分數計算公式為何?
解析
Transformer的Scaled Dot-Product Attention公式為 Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) V。除以sqrt(d_k)是為了防止點積值過大導致softmax梯度消失。A順序錯誤;C用sigmoid而非softmax;D應除以而非乘以。
正確答案:B. softmax(QK^T / sqrt(d_k)) V