新研究爲OpenAI版權爭議添實據:訓練數據“記憶”追蹤技術或成訴訟關鍵

【環球網科技綜合報道】4月6日消息,一項由華盛頓大學、哥本哈根大學和斯坦福大學聯合發佈的研究,爲OpenAI涉嫌未經許可使用受版權保護內容訓練AI模型的指控提供了新證據。這項研究提出了一種創新方法,可識別通過API提供服務的AI模型“記憶”的訓練數據來源,或將加劇OpenAI與版權持有者之間的法律糾紛。

研究團隊開發了一種技術,能夠通過分析AI模型生成內容中的特定模式,逆向追蹤其訓練數據的來源。該技術特別針對像OpenAI這樣通過API向開發者提供服務的模型,可檢測出模型是否“記憶”了特定版權作品中的獨特片段。

研究人員表示,這一方法突破了傳統版權檢測技術的侷限,能夠識別出模型在訓練過程中“吸收”的版權內容,即使這些內容在生成輸出時被重組或改寫。這一發現爲版權持有者提供了新的法律武器,使其能夠更精準地證明OpenAI模型存在侵權行爲。

事實上,自2023年起,OpenAI已面臨多起由作家、程序員等版權持有者提起的集體訴訟。原告方指控該公司未經許可,將書籍、代碼庫等受版權保護的作品用於訓練其AI模型,並從中獲利。儘管OpenAI一直援引“合理使用”原則進行抗辯,但原告方認爲,美國版權法中並無針對AI訓練數據的豁免條款。

此次研究結果被視爲對OpenAI抗辯理由的重大挑戰。若版權持有者能夠利用該技術證明其作品被直接用於訓練,OpenAI可能面臨更嚴峻的法律責任。

研究團隊強調,該技術並非旨在“釣魚執法”,而是爲版權爭議提供客觀證據。然而,其潛在應用已引發行業震動。OpenAI等AI公司長期依賴海量數據進行模型訓練,若該技術被廣泛採用,或將導致其訓練數據來源的透明度大幅提升,甚至可能顛覆現有的AI訓練合規框架。(青山)



Scroll to Top