第 463 題(共 548 題)
某公司想分析客戶評論的情感傾向,收集的原始文字資料需要經過哪些前處理步驟?下列排序何者最合理?
解析
正確答案是(B)。正確的文字前處理流程:先斷詞(將文本拆成詞彙單位)→ 去除停用詞(移除無意義的常見詞)→ 向量化(將文字轉為數值表示)→ 模型訓練。(A)錯誤:模型訓練不可能在資料前處理之前。(C)錯誤:向量化必須在斷詞之後,因為需要知道詞彙單位才能轉數值。(D)錯誤:去除停用詞前必須先斷詞,否則無法辨識哪些是停用詞。關鍵概念:NLP的前處理流程有固定順序,斷詞是第一步。
正確答案:B. 斷詞(Tokenization)→ 去除停用詞(Stop Words Removal)→ 向量化(Vectorization)→ 模型訓練