第 52 題(共 548 題)

在訓練神經網路時,為了提升模型收斂速度與穩定性,避免梯度消失或梯度爆炸,下列哪一種做法最常被使用?