你從AI大模型中查詢到的“權威答案”很可能已經被商業灰產定向污染。
據央視3·15晚會報道,一款叫GEO的軟件,宣稱可通過給“AI投毒”“讓AI聽話”,讓客戶產品在AI回答中排名靠前,成爲“推薦爆款”。
語料污染,AI不可承受之重
這款軟件的操作邏輯並不複雜:通過持續大量投餵與客戶相關的推廣軟文,讓AI平臺去刷錄、輸入、抓取。由於AI大模型的核心機制是機器學習,這種定向投餵會直接影響模型的輸出結果。
在專家眼中,這種投機取巧無異於在動搖AI的根基。國研新經濟研究院創始院長朱克力對中新經緯表示,這種行爲會從底層動搖AI大模型的可信度根基,對其技術價值與社會應用價值造成多重不可逆的傷害。
“AI大模型的核心競爭力在於基於海量真實、多元的語料進行學習與推理,其回答的客觀性、準確性是立足之本,而此類定向的語料污染行爲,會讓模型的信息庫中混入大量虛假、低質、同質化的商業信息,打破模型語料的真實平衡,導致模型在推理過程中難以分辨信息的真僞與價值,進而輸出帶有明顯商業偏向的非客觀內容。”朱克力補充說。
更值得警惕的是,這種傷害不會止步於單次回答。它會隨着信息的反覆輸入形成傳導,一層層累積,逐步透支用戶對AI的信任。
朱克力表示,“一旦用戶多次發現AI模型的‘標準答案’實則是商業廣告,會逐步喪失對AI模型的信任,進而影響AI大模型在資訊查詢、決策輔助、知識普及等諸多場景的應用落地。”
若語料污染行爲形成規模,還會引發行業的不良跟風。朱克力強調,“大量虛假信息湧入AI訓練與推理環節,將導致不同平臺的AI模型均出現回答失真問題,最終讓整個AI大模型產業陷入可信度危機。”
AI“中毒”怎麼辦?
事實上,AI數據污染問題並非伴隨大模型而產生,但大模型的興起顯著放大了其規模、影響與複雜性。爲此,《生成式人工智能服務管理暫行辦法》和新版《數據安全法》已經將AI訓練數據納入監管。
在工信部信息通信經濟專家委員會委員盤和林看來,AI大模型的可信度存在問題,一方面是因爲互聯網上存在虛假信息,另一方面是因爲AI本身也存在幻覺,會自己編造數據。
不過,這種數據污染,在技術層面並非無計可施。
朱克力指出,現有技術體系已具備相應的反制手段,且可通過技術迭代與體系化設計,建立起全流程的防禦機制,有效識別和阻斷此類不正當行爲。
朱克力進一步分析,可通過優化AI大模型的語料篩選與權重計算算法,建立多維度的語料價值評估體系,從內容真實性、原創性、信息密度、傳播場景等多個維度對語料進行動態評分,對批量出現的同質化、低價值、強商業屬性的軟文內容進行降權甚至剔除,從源頭減少虛假語料對模型的干擾。
“還可引入實時的語料溯源與異常監測技術,對短時間內集中出現的、帶有相同關鍵詞與商業信息的內容進行溯源追蹤,”朱克力強調,通過識別其發佈主體與傳播路徑,可對異常發佈行爲進行實時預警。
此外,避免單一信息源的定向誤導也很重要。朱克力建議可通過強化AI模型的推理校驗能力,讓模型在生成回答時,對核心信息進行多源交叉驗證。
盤和林則認爲,技術上反制是不夠的。“我們要治理的,可能不是GEO,而是整個中文互聯網的信息真實性問題,這是個大的生態型問題,只要這些互聯網的虛假信息還存在,那麼AI還是會不斷抓取有害信息。”
在盤和林看來,根本解決之道還是在於治理互聯網信息環境,建立權威信息發佈渠道。比如,在美國,FDA(美國食品藥品監督管理局)會對保健品的很多問題發佈報告,若設定AI優先從FDA去獲取這類科學數據,就會形成客觀的觀點。
朱克力建議構建“源頭篩查—過程監測—結果校驗—閉環治理”的全鏈條體系。“可讓防禦機制與違規行爲的技術迭代同頻,從根本上遏制語料污染行爲,守護AI大模型的內容真實性與可信度。”
文:宋亞芬