第 546 題(共 548 題)
LLM預訓練資料的策展管線中,MinHash技術主要用於什麼目的?
解析
MinHash是一種近似最近鄰演算法,用於大規模文本的模糊去重,可發現內容相似但不完全相同的文件並移除冗餘(可去除20-30%重複內容)。語言識別用語言分類器;品質評分用文本品質模型;毒性過濾用有害內容分類器。
正確答案:C. 模糊去重(Deduplication)
MinHash是一種近似最近鄰演算法,用於大規模文本的模糊去重,可發現內容相似但不完全相同的文件並移除冗餘(可去除20-30%重複內容)。語言識別用語言分類器;品質評分用文本品質模型;毒性過濾用有害內容分類器。
正確答案:C. 模糊去重(Deduplication)