摩爾線程升級誇娥智算集羣解決方案 具備萬P級浮點運算能力

【環球網科技報道 記者 李文瑤】7月3日,摩爾線程宣佈其AI旗艦產品誇娥(KUAE)智算集羣解決方案實現重大升級,從當前的千卡級別大幅擴展至萬卡規模。

據瞭解,誇娥(KUAE)是摩爾線程智算中心全棧解決方案,是以全功能GPU爲底座,軟硬一體化、完整的系統級算力解決方案,包括以誇娥計算集羣爲核心的基礎設施、誇娥集羣管理平臺(KUAE Platform)以及誇娥大模型服務平臺(KUAE ModelStudio),旨在以一體化交付的方式解決大規模GPU算力的建設和運營管理問題。

此次升級後的誇娥萬卡智算解決方案具備多個核心特性,包括全新一代誇娥智算集羣實現單集羣規模超萬卡,浮點運算能力達到10Exa-Flops,大幅提升單集羣計算性能,能夠爲萬億參數級別大模型訓練提供堅實算力基礎。

在集羣穩定性方面,摩爾線程誇娥萬卡集羣平均無故障運行時間超過15天,最長可實現大模型穩定訓練30天以上,周均訓練有效率在99%以上。

誇娥萬卡集羣在系統軟件、框架、算法等層面一系列優化,實現大模型的高效率訓練,MFU最高可達到60%。其中,在系統軟件層面,基於極致的計算和通訊效率優化等技術手段,大幅提升集羣的執行效率和性能表現。在框架和算法層面,誇娥萬卡集羣支持多種自適應混合並行策略與高效顯存優化等,可以根據應用負載選擇並自動配置最優的並行策略,大幅提升訓練效率和顯存利用。同時,針對超長序列大模型,誇娥萬卡集羣通過CP並行、RingAttention等優化技術,有效縮減計算時間和顯存佔用,大幅提升集羣訓練效率。

此外,誇娥萬卡集羣是一個通用加速計算平臺,計算能力爲通用場景設計,可加速LLM、MoE、多模態、Mamba等不同架構、不同模態的大模型。同時,基於高效易用的MUSA編程語言、完整兼容CUDA能力和自動化遷移工具Musify,加速新模型“Day0”級遷移,實現生態適配“Instant On”,助力客戶業務快速上線。

摩爾線程創始人兼CEO張建中認爲,多元趨勢下,AI模型訓練的主戰場,萬卡已是標配。隨着計算量不斷攀升,大模型訓練亟需超級工廠,即一個“大且通用”的加速計算平臺,以縮短訓練時間,實現模型能力的快速迭代。當前,國際科技巨頭都在通過積極部署千卡乃至超萬卡規模的計算集羣,以確保大模型產品的競爭力。隨着模型參數量從千億邁向萬億,模型能力更加泛化,大模型對底層算力的訴求進一步升級,萬卡甚至超萬卡集羣成爲這一輪大模型競賽的入場券。



Scroll to Top