第 39 題(共 548 題)
在零售業進行客戶行為分析時,資料倉儲中發現多個欄位儲存相同的購買金額資訊(例如:amount_usd、total_price、transaction_value),但其單位、命名慣例及格式不一致,進而導致特徵工程階段混淆模型輸入。針對此種跨欄位語義重疊與結構冗餘問題,下列哪一種資料處理策略最合適且具實務可行性?
解析
面對語義重疊的欄位,建立命名標準、統一格式並進行語義合併是最合適的資料處理策略。
正確答案:C. 建立欄位命名標準,統一金額單位與格式,進行欄位正規化與語義合併,減少重複資訊影響特徵重要性估計;