阿里雲開源模型Qwen2-72B發佈:性能提升明顯,提供多語言支持

【環球網科技報道 記者 李文瑤】6月7日,阿里雲更新技術博客,宣佈發佈開源模型Qwen2-72B。所有人均可在魔搭社區和Hugging Face免費下載通義千問最新開源模型。

相比2月推出的通義千問Qwen1.5,Qwen2實現了整體性能的代際飛躍。通義千問Qwen2系列模型大幅提升了代碼、數學、推理、指令遵循、多語言理解等能力。通義千問團隊在技術博客中披露,Qwen2系列包含5個尺寸的預訓練和指令微調模型,Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,其中Qwen2-57B-A14B爲混合專家模型(MoE)。Qwen2所有尺寸模型都使用了GQA(分組查詢注意力)機制,以便讓用戶體驗到GQA帶來的推理加速和顯存佔用降低的優勢。

在中英文之外,模型訓練數據中增加了27種語言相關的高質量數據,提升了模型的多語言能力。Qwen2還增大了上下文長度支持,Qwen2-72B-Instruct能夠完美處理128k上下文長度內的信息抽取任務。

具體來看,在Qwen1.5系列中,只有32B和110B的模型使用了GQA。這一次,Qwen2-72B所有尺寸的模型都使用了GQA,以便讓大家體驗到GQA帶來的推理加速和顯存佔用降低的優勢。針對小模型,由於embedding參數量較大,Qwen2-72B使用了tie embedding的方法讓輸入和輸出層共享參數,增加非embedding參數的佔比。

上下文長度方面,所有的預訓練模型均在32K tokens的數據上進行訓練,並且阿里雲方面發現其在128K tokens時依然能在PPL評測中取得不錯的表現。然而,對指令微調模型而言,除PPL評測之外還需要進行大海撈針等長序列理解實驗。在該表中,阿里雲根據大海撈針實測結果,列出了各個指令微調模型所支持的最大上下文長度。而在使用YARN這類方法時,Qwen2-7B-Instruct和Qwen2-72B-Instruct均實現了長達128K tokens上下文長度的支持。

目前,團隊投入了大量精力研究如何擴展多語言預訓練和指令微調數據的規模並提升其質量,從而提升模型的多語言能力。儘管大語言模型本身具有一定的泛化性,我們還是針對性地對除中英文以外的27種語言進行了增強。

此外,團隊針對性地優化了多語言場景中常見的語言轉換(code switch)問題,模型當前發生語言轉換的概率大幅度降低。阿里雲團隊使用容易觸發語言轉換現象的提示詞進行測試,觀察到Qwen2系列模型在此方面能力的顯著提升。

據悉,通義千問Qwen系列模型總下載量一個月內翻了一倍,已突破1600萬次。開源後,Qwen2將繼續探索模型及數據的Scaling Law。此外,我們還將把Qwen2擴展成多模態模型,融入視覺及語音的理解。

阿里雲CTO周靖人表示,“堅持開源開放是阿里雲的重要策略,我們希望打造一朵AI時代最開放的雲,讓算力更普惠、讓AI更普及。”



Scroll to Top