第 538 題(共 548 題)
知識蒸餾(Knowledge Distillation)中,學生模型學習的是教師模型的什麼?
解析
知識蒸餾讓較小的學生模型學習教師模型輸出的soft labels(機率分布),而非僅學習hard labels(正確答案)。soft labels包含類別間的相對關係資訊。A錯:不需要原始資料;B錯:學生模型架構可以不同;D錯:不是學梯度方向。
正確答案:C. 輸出的機率分布(soft labels)
知識蒸餾讓較小的學生模型學習教師模型輸出的soft labels(機率分布),而非僅學習hard labels(正確答案)。soft labels包含類別間的相對關係資訊。A錯:不需要原始資料;B錯:學生模型架構可以不同;D錯:不是學梯度方向。
正確答案:C. 輸出的機率分布(soft labels)