AI大模型的能力比拼或許不再拘泥於“算力”

【環球網科技綜合報道 記者 秦耳】在如今大模型爆發的時期,拉住一個AI從業者問他市場上誰家的大模型更爲優秀。他應該會告訴你“去看這家有多少算力投入訓練”,更爲言簡的話他會以“存儲有多少塊英偉達算力芯片”作爲更直接的衡量標準。

這樣的解釋也沒有太大的問題,如今市面上無論開源大模型,還是閉源大模型,其內核都來自谷歌研究團隊在2017年發佈的《Attention is All You Need》這篇論文中所開發出的“Transformer模型”。包括特斯拉的自動駕駛FSD,以及OpenAI的ChatGPT都是對Transformer模型的產品化開發,可以說當前市面上所有正在運行的AI大模型都是“Transformer模型”的變種。

就像《邪不壓正》這部電影裏李天一和朱潛龍的經典臺詞“都是同一個師傅教的,破不了招啊。”如今的AI大模型市場也面臨這樣的局面,既然做不到“內核”多樣化,那麼只能通過快速且大量的數據訓練,讓“經驗值”快速提升從而達到升級的目的。

據瞭解,僅在2023年,OpenAI訓練GPT-4時,就用了25000張型號爲A100的英偉達GPU。據外媒報道,當前OpenAI至少擁有40萬塊英偉達的GB200芯片‌和H100芯片。而甲骨文CEO拉里·埃裏森也在一次播客訪談中講到,他曾經跟特斯拉CEO馬斯克在一次邀請黃仁勳(英偉達老闆)的飯局上,“乞求”黃仁勳給甲骨文和特斯拉預留足夠的算力芯片。

事情的發展如果繼續沿着“堆算力”的方向發展,整個行業就沒有變局的可能。但是,打破湖面的漣漪終究會來,在12月中旬中國初創企業DeepSeek開發的大語言模型(LLM)DeepSeek-V3引發美歐業界廣泛關注,該模型在技術性能、開源模式、成本效益等方面的突出表現獲得積極評價。

根據測評機構Artificial Analysis的獨立分析,DeepSeek-V3可與世界頂尖的AI模型競爭。在文本理解、編碼、數學和學科知識方面,DeepSeek-V3優於Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等開源模型,並在性能上和世界頂尖的閉源模型OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet不分伯仲。DeepSeek-V3在中文處理、編碼和數學計算等方面的優勢,使其在教育和科研領域具有巨大潛力。

可以說,DeepSeek-V3的能力超過了許多開源對手,例如Meta公司的Llama-3.1模型和阿里巴巴的Qwen2.5模型。一般情況下,頂級閉源模型的能力通常優於開源模型,但DeepSeek在代碼生成、數學運算等方向表現出了非凡的實力。

其次,DeepSeek-V3的開發和訓練成本也明顯低於其他大模型。OpenAI創始成員之一安德烈·卡帕蒂強調了這種非凡的效率:像DeepSeek-V3這樣性能和級別的模型,通常需要1.6萬到10萬個GPU的集羣來訓練,而中國初創公司僅用了2048個GPU在57天內便完成了訓練。其成本約557.6萬美元,僅爲其他主流模型(如GPT-4)的1/10左右。

用更爲明顯的數字來說明,DeepSeek-V3模型只用了2048張英偉達H800顯卡,兩個月時間,便訓練出了一個擁有6710億參數的超大規模模型,訓練成本約爲550萬美元。數據對比後,DeepSeek的厲害之處更爲明顯。如果是其他硅谷公司來完成同等能力的模型,通常會選擇最高端的英偉達顯卡,而不是價格較低的H800顯卡。此外,他們至少需要1.6萬塊高端顯卡才能達到類似水平,遠無法像DeepSeek這樣僅用2000塊H800顯卡完成任務。

從算力上看,V3的訓練耗費僅爲同等規模硅谷公司模型的十一分之一。而在成本上,Meta的同等能力模型訓練花費高達數億美元,完全無法與DeepSeek的性價比相提並論。

盤古智庫的專家胡延平對於DeepSeek-V3的評價更爲中肯,DeepSeek-V3的成功更多是證明了行業大模型路線的可行性,雖然相較於通用大模型它還是有差距。不過,我國產業界對於AI大模型的發展路徑本來就是在“產業化落地”方向,行業大模型與產品落地匹配度更高,更適合我國對於AI賦能各行各業的需求。

值得一提的是,DeepSeek-V3發佈後的一段時間內,英偉達的股價也遭遇了波動。有華爾街分析師認爲,DeepSeek-V3的上市,讓市場對於AI大模型“堆算力”的發展模式產生了動搖。



Scroll to Top