模型 深入

MoE

Mixture of Experts / 混合專家架構

白話解析

每次前向傳播只激活部分「專家」子網路,大幅減少推理計算量的架構

生活化比喻

像公司分部門——不是全公司一起處理每個問題,而是找對部門的人