推理性能提升10倍 螞蟻集團開源高性能擴散語言模型推理框架dInfer

【環球網科技綜合報道】10月13日,螞蟻集團對外宣佈正式開源業界首個高性能擴散語言模型推理框架dInfer。

據介紹,在基準測試中,dInfer將擴散語言模型的推理速度相比於英偉達擴散模型框架Fast-dLLM提升了10.7倍;在代碼生成任務HumanEval上,dInfer在單批次推理中創造了1011Tokens/秒的速度,首次在開源社區中實現擴散語言模型的單批次推理速度顯著超越自迴歸模型。dInfer的工作表明,擴散語言模型具備顯著的效率潛力,可以通過系統性的創新工程兌現,爲通往AGI的架構路徑提供極具競爭力的選項。

擴散語言模型,作爲一種全新的範式將文本生成視爲一個“從隨機噪聲中逐步恢復完整序列”的去噪過程,具有高度並行、全局視野、結構靈活三大優勢。憑藉這些優勢,以螞蟻集團和人大發布的LLaDA-MoE爲代表的模型已在多個基準測試中,展現出與頂尖AR模型相媲美的準確性 。事實上,dLLM的高效推理面臨計算成本高、KV緩存失效、並行解碼三大挑戰。這些瓶頸使得擴散語言模型的推理速度一直不盡人意,如何突破瓶頸釋放擴散語言模型在推理效率上的潛能,成爲整個領域亟待解決的難題。

dInfer是一款專爲擴散語言模型設計的、算法與系統深度協同的高性能推理框架 ,可支持多種擴散語言模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。

dInfer包含四大核心模塊:模型接入(Model)、KV緩存管理器(KV-Cache Manager),擴散迭代管理器(Iteration Manager),和解碼策略(Decoder)。這種可插拔的架構,允許開發者像搭樂高一樣,進一步組合和探索不同模塊的優化策略,並在統一的平臺上進行標準化評測 。更重要的是,dInfer針對上述三大挑戰,在每個模塊中都集成了針對性的解決方案。

在配備8塊NVIDIA H800 GPU的節點上,dInfer的性能表現令人矚目:在與先前的dLLM推理方案Fast-dLLM的對比中,dInfer在模型效果持平的情況下,平均推理速度(avg TPS)實現了10.7倍的巨大提升(681 vs 63.6) ;在代碼生成任務HumanEval上,dInfer在單批次推理中創造了1011 tokens/秒的速度 ;與在業界頂尖的推理服務框架vLLM上運行的、參數量和性能相當的AR模型Qwen2.5-3B相比,dInfer的平均推理速度是其2.5倍(681 vs 277) 。

螞蟻集團介紹,dInfer連接了前沿研究與產業落地,標誌着擴散語言模型從“理論可行”邁向“實踐高效”的關鍵一步。此次開預案,也是誠邀全球的開發者與研究者共同探索擴散語言模型的巨大潛能,構建更加高效、開放的AI新生態。(勃潺)



Scroll to Top