【環球網科技綜合報道】7月6日上午,在2024世界人工智能大會期間,商湯科技正式發佈了其最新的“日日新5o”大模型。這一模型在交互體驗上對標GPT-4o,通過整合跨模態信息,實現了基於聲音、文本、圖像和視頻等多種形式的全新AI交互模式,即實時的流式多模態交互。
“日日新5o”大模型展現了強大的多模態識別和理解能力。例如,當工作人員僅是與它打個招呼時,它就能自動識別出工作人員脖子佩戴的胸卡帶子上的字眼,並判斷出現場就是世界人工智能大會會場。同時,它還能在這個場景下表示“可以好好學習”,顯示出對環境的理解和適應性。對於可愛的小狗玩偶,“日日新5o”也能準確描述其外貌、表情以及重要穿戴,進一步證明了其在多模態交互方面的實力。
此外,“日日新5o”大模型在實時交互方面也表現出色。隨便翻開一本書的任何一頁,它都能自動進行介紹,而不僅僅是簡單的OCR識別文字。它能夠識別圖文並給出易於理解的總結,真正實現了實時交互的目標。