第 457 題(共 548 題)
某資料集包含「年齡」「收入」「購買次數」三個數值特徵,其中「收入」的範圍是20,000~500,000,「購買次數」的範圍是1~50。若直接使用KNN演算法而不做任何前處理,最可能出現什麼問題?
解析
正確答案是(B)。KNN基於距離計算,當特徵的量級差異過大時(收入:萬級 vs 購買次數:十位數),高量級特徵會主導距離計算,使其他特徵形同虛設。這就是為什麼需要做特徵縮放(Feature Scaling)。(A)錯誤陷阱:Overfitting與特徵尺度無直接關係,更多與模型複雜度、資料量有關。(C)錯誤:KNN可以處理數值型資料。(D)錯誤:特徵數量少反而會減少計算時間。關鍵概念:使用基於距離的演算法前,必須進行特徵縮放(如標準化或正規化)。
正確答案:B. 距離計算會被「收入」特徵主導,「購買次數」幾乎不影響結果