4月30日,DeepSeek在Github上正式發(fā)布了多模態(tài)模型,并公布了背后的技術(shù)報(bào)告。技術(shù)報(bào)告中提到,盡管多模態(tài)大語言模型取得了顯著進(jìn)展,但主流的思維鏈范式仍主要局限于語言學(xué)領(lǐng)域。近期研究雖然通過高分辨率裁剪技術(shù)來彌合感知鴻溝,卻忽視了一個更根本的問題:參照鴻溝。自然語言的模糊性往往無法為復(fù)雜的空間布局提供精確、明確的指引,導(dǎo)致需要嚴(yán)謹(jǐn)參照的任務(wù)出現(xiàn)邏輯崩潰。
DeepSeek的多模態(tài)技術(shù)報(bào)告提出基于視覺原語的思考——這一創(chuàng)新推理框架將點(diǎn)、邊界框等空間標(biāo)記提升為“思維的基本單元”。通過將這些視覺原語直接融入思考過程,模型在“推理”時能夠“指代”,從而將其認(rèn)知軌跡有效錨定在圖像的物理坐標(biāo)中。
技術(shù)報(bào)告還指出,該框架基于高度優(yōu)化的架構(gòu),具備極高的視覺標(biāo)記效率。盡管模型規(guī)模緊湊且圖像標(biāo)記預(yù)算較低,DeepSeek的多模態(tài)模型在具有挑戰(zhàn)性的計(jì)數(shù)和空間推理基準(zhǔn)測試上,能夠與GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash等前沿模型匹配。這為開發(fā)更高效、更具可擴(kuò)展性的System-2類多模態(tài)智能提供了新的方向。
5月19日,谷歌宣布推出Gemini 3.5 Flash模型。這款模型是谷歌迄今為止最快、最有效的工具,能夠接受任何形式的輸入,包括多模態(tài)內(nèi)容。用戶可以通過自然語言來編輯視頻
2026-05-20 07:50:00谷歌推出Gemini3