第 458 題(共 548 題)
在資料前處理中,下列哪種處理缺失值的方式最「不」適當?
解析
正確答案是(C)。不分析缺失原因就一律刪除,可能導致嚴重的資料偏差(如果缺失不是隨機的)和樣本量大幅減少。(A)適當:對隨機缺失的數值資料,中位數填補是穩健的方法(不受極端值影響)。(B)適當:新增「未知」類別是處理類別型缺失值的常見有效方法。(D)適當:多重插補法是統計學上較為嚴謹的缺失值處理方式。關鍵概念:處理缺失值前應先分析缺失機制(MCAR/MAR/MNAR),不同機制適用不同策略。
正確答案:C. 不分析缺失原因,一律刪除所有含缺失值的記錄