本報訊(記者 伍樹)8月19日,據2024北京人工智能生態大會發布的消息,高價值語料可信流通基礎設施啓動建設。在區塊鏈、隱私計算等前沿信息技術的護航下,支撐人工智能大模型高質量成長的語料數據將告別無序流通,轉入規範運行的“高速公路”,這對於加快形成人工智能大模型訓練高地,推動我國人工智能實現“彎道超車”和跨越式發展具有重要意義。
據悉,高價值語料可信流通基礎設施,是由新華社國家重點實驗室、人民網、高等教育出版社、中國通用技術集團等10餘家我國語料數據重點單位共同打造。以區塊鏈、隱私計算爲代表的新一代信息技術,憑藉可信存證、不可篡改、易確權、充分保護數據隱私安全等特點,可以保障語料數據可信安全地流通、使用和管理,有效破解上述難題。
相關負責人介紹,高價值語料可信流通基礎設施將運用我國自主可控、性能領先的區塊鏈軟硬件技術,搭建起覆蓋全國的分佈式語料數據互聯互通橋樑,鏈接語料供給方、加工方、需求方,實現全國分佈式語料數據可信接入,跨地域可發現、可訪問,形成高質量語料數據集。同時,運用創新隱私計算技術,通過“數據不出域、可用不可見”的方式,保障大模型高價值語料數據在處理加工和模型訓練過程中無法二次非授權傳播。此外,該基礎設施還將通過智能合約開展鏈上激勵,爲語料資源供給與流轉提供持續性的內生動力。
據瞭解,在高價值語料可信流通基礎設施的支撐下,國家語料數據的重點單位還將開展基於區塊鏈與隱私計算的語料數據可信安全流通規範制定,形成高價值語料數據流通與增值的可持續生態。