面壁智能宣佈開源 MiniCPM-V 2.6 模型,端側AI多模態能力增強

【環球網科技綜合報道】8月7日消息,人工智能公司面壁智能宣佈正式開源其最新的端側AI多模態模型——MiniCPM-V 2.6。官方稱 MiniCPM-V 2.6 模型僅 8B 參數,取得 20B 以下單圖、多圖、視頻理解 3 SOTA 成績。

據面壁智能官方介紹,MiniCPM-V 2.6 模型在多項功能上實現了首次在端側的部署,包括實時視頻理解、多圖聯合理解、多圖ICL(上下文少樣本學習)視覺類比學習、多圖OCR等。這些功能的加入,使得端側模型能夠更貼近複雜的真實世界場景,充分發揮其傳感器富集、貼近用戶的優勢。

據介紹,在模型效率與性能方面,MiniCPM-V 2.6模型具有極高的像素密度(Token Density),比GPT-4o的單token編碼像素密度高兩倍,從而在端側設備上實現了極高的運行效率。量化後的模型僅需6GB內存,端側推理速度高達每秒18個token,比上代模型快33%。此外,該模型還支持多種語言和推理框架,進一步提升了其應用的廣泛性和靈活性。

值得一提的是,MiniCPM-V 2.6 模型在OCR能力上也延續了其一貫的SOTA性能水平,並進一步覆蓋到單圖、多圖、視頻理解等多個場景。通過統一的高清視覺架構,該模型將OCR能力進行遷移和知識共享,實現了從單圖到多圖及視頻的流暢拓展,顯著節省了視覺token的數量和資源消耗。

目前,MiniCPM-V 2.6 模型的開源地址已經公佈在GitHub和HuggingFace平臺上。



Scroll to Top