近日,上海人工智能實驗室(上海AI實驗室)宣布開源通用多模態(tài)大模型書生?萬象3.5(InternVL3.5),標志著其在多模態(tài)人工智能領域的重要進展。該模型在推理能力、部署效率與通用性能方面實現(xiàn)全面升級,進一步推動了開源大模型的發(fā)展。
InternVL3.5共開源9種不同尺寸的模型,參數(shù)規(guī)模從10億到2410億不等,以滿足多樣化應用場景的需求。其中,旗艦模型InternVL3.5-241B-A28B在多學科推理基準MMMU中取得77.7分的成績,是目前開源模型中的最高分。此外,該模型在多模態(tài)通用感知能力方面表現(xiàn)優(yōu)異,據(jù)稱超越GPT-5,并在文本能力上領先于主流開源多模態(tài)大模型。
與上一代InternVL3.0相比,InternVL3.5在多個特色任務上實現(xiàn)了顯著提升,包括圖形用戶界面(GUI)智能體、具身空間感知、矢量圖像理解與生成等。研究團隊重點強化了模型面向實際應用的智能體與文本思考能力,使其在GUI交互、具身空間推理和矢量圖形處理等關鍵場景中實現(xiàn)了從“理解”到“行動”的跨越。
在GUI交互方面,InternVL3.5在ScreenSpot-v2元素定位任務中以92.9分超越同類模型,同時支持Windows和Ubuntu平臺的自動化操作,并在WindowsAgentArena任務中大幅領先Claude-3.7-Sonnet。在具身智能體測試中,該模型展現(xiàn)出理解物理空間關系并規(guī)劃導航路徑的能力,在VSI-Bench中以69.5分超過Gemini-2.5-Pro。在矢量圖形理解與生成任務中,InternVL3.5在SGP-Bench以70.7分刷新開源紀錄,生成任務的FID值也優(yōu)于GPT-4o和Claude-3.7-Sonnet。
具體應用方面,InternVL3.5可跨Windows、Mac、Ubuntu、Android等多個平臺,識別界面元素并自主執(zhí)行鼠標、鍵盤操作,實現(xiàn)恢復已刪除文件、導出PDF、郵件添加附件等任務的自動化。此外,該模型具備更強的grounding能力,能夠泛化到全新的復雜大量小樣本的具身場景,配合抓取算法,支持可泛化的長程物體抓取操作,有助于提升機器人在物品識別、路徑規(guī)劃與物理交互等方面的效率。
作為上海AI實驗室書生大模型體系的重要組成部分,InternVL系列聚焦視覺模型技術,其全系列全網下載量已突破2300萬次,顯示出廣泛的行業(yè)關注與應用潛力。
總體來看,InternVL3.5的開源進一步豐富了多模態(tài)大模型的選擇,其性能表現(xiàn)和通用能力為實際應用提供了有力支持。然而,該模型仍需在實際部署和復雜場景中進一步驗證其穩(wěn)定性和泛化能力。未來,隨著技術的持續(xù)迭代,多模態(tài)大模型有望在更多領域發(fā)揮重要作用。
(注:本文在資料搜集、框架搭建及部分段落初稿撰寫階段使用了 AI 工具,最終內容經人類編輯核實事實、調整邏輯、優(yōu)化表達后完成。)
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )