迎接智算新挑戰 天翼雲亮相全球架構師峯會

近日,ArchSummit全球架構師峯會在深圳隆重開幕,本次大會以“智能進階. 架構重塑”爲主題,探討AI浪潮下,企業架構如何適應大模型和雲原生的時代趨勢,尋找既有應用成果又有成本效益的解決方案。國內外100餘名頂尖專家齊聚一堂,圍繞AI、大模型、雲原生等話題展開深度交流。天翼云云網產品事業部研發專家黃堅受邀參會,並在“智算平臺建設與應用實踐”專題會上發表主題演講,分享了天翼雲在超大規模智算集羣運維及管理方面的創新思路和實踐經驗。

隨着大模型風潮來襲,加快建設超大規模智算集羣,已成爲增強多元算力供給的重要措施。與傳統雲原生大規模場景相比,超大規模智算集羣的管理複雜度和難度更高。黃堅表示,當前,在充分發揮超大規模智算集羣的算力方面,整個行業還面臨着諸多挑戰:

● 首先,智算業務與底層算力高耦合。在基於transformer衍生出來的智算生態中,要求最大化使用底層算力,這就要求從業者既要懂算法,又要懂算力,同時需要具備結合算法算力的工程化思維,從算子優化、算子融合、並行計算等多個方向提升算力的使用效率。

● 其次,硬件無明確異常指標,定位難度大。雖然通過監控可以覆蓋一些明顯的軟硬件問題,但更多類似於光模塊故障等問題,需要綜合光衰、溫度、功耗等多個維度,並結合業務異常,才能實現準確定位。

● 再次,日常管理複雜度高。超大規模智算集羣規模大、數量多,如何實現百萬量級元器件的系統化、模塊化、週期化管理,並與業務方進行有效協同,是運維的難點。

作爲雲服務國家隊,天翼雲加強核心技術自主研發,積極探索超大規模智算集羣運維之道,不斷升級產品和生態矩陣,爲AI開發者提供“供得上、用得起、用得好”的智算服務。

在平臺層面,天翼雲全新升級一體化計算加速平臺“雲驍”,“雲驍”具備超大規模集羣管理、運營和算力加速能力,可提供通智超一體化服務,集“異構計算+高速存儲+無損網絡+算力加速+高效運營”五大能力於一體,讓智算更快、更穩。

在算力層面,天翼雲加速推進多層次智算算力佈局,打造萬卡級超大規模智算中心,滿足快速增長的智算算力需求。目前,天翼雲上海臨港國產萬卡算力池已正式啓用,這不僅是國內首個投入正式運營的國產單池萬卡液冷算力集羣,也是業內領先的全國產化雲智一體公共智算中心,創新性採用網絡中置、算力分層的“魔方”型組網,實現了單一集羣內萬卡高速互聯,滿足萬億級參數大模型訓練所需的多機多卡並行、高吞吐無損通信等需求。

未來,天翼雲將持續堅持科技創新,深耕雲智一體,不斷夯實國雲智算底座,爲數字經濟發展與數字中國建設注入澎湃動能。



Scroll to Top