面壁智能宣佈開源 MiniCPM-V 2.6 模型，端側AI多模態能力增強-科技-極速新聞-每日看看

面壁智能宣佈開源 MiniCPM-V 2.6 模型，端側AI多模態能力增強

2024-08-07 11:32 由環球網發佈於科技 180

【環球網科技綜合報道】8月7日消息，人工智能公司面壁智能宣佈正式開源其最新的端側AI多模態模型——MiniCPM-V 2.6。官方稱 MiniCPM-V 2.6 模型僅 8B 參數，取得 20B 以下單圖、多圖、視頻理解 3 SOTA 成績。

據面壁智能官方介紹，MiniCPM-V 2.6 模型在多項功能上實現了首次在端側的部署，包括實時視頻理解、多圖聯合理解、多圖ICL（上下文少樣本學習）視覺類比學習、多圖OCR等。這些功能的加入，使得端側模型能夠更貼近複雜的真實世界場景，充分發揮其傳感器富集、貼近用戶的優勢。

據介紹，在模型效率與性能方面，MiniCPM-V 2.6模型具有極高的像素密度（Token Density），比GPT-4o的單token編碼像素密度高兩倍，從而在端側設備上實現了極高的運行效率。量化後的模型僅需6GB內存，端側推理速度高達每秒18個token，比上代模型快33%。此外，該模型還支持多種語言和推理框架，進一步提升了其應用的廣泛性和靈活性。

值得一提的是，MiniCPM-V 2.6 模型在OCR能力上也延續了其一貫的SOTA性能水平，並進一步覆蓋到單圖、多圖、視頻理解等多個場景。通過統一的高清視覺架構，該模型將OCR能力進行遷移和知識共享，實現了從單圖到多圖及視頻的流暢拓展，顯著節省了視覺token的數量和資源消耗。

目前，MiniCPM-V 2.6 模型的開源地址已經公佈在GitHub和HuggingFace平臺上。