第 140 題（共 548 題）

下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中，涵蓋人文、科學與社會科學等領域，而非專門用於數學推理或中文專業知識？

解析