第 529 題(共 548 題)

大型語言模型(LLM)的訓練流程中,RLHF的三個子步驟依序為何?