計算機(jī)視覺國際大會 ICCV 2025 論文錄用結(jié)果公布,小米兩篇論文成功入選。這兩篇論文分別是視頻理解大模型核心技術(shù) Q-Frame 和持續(xù)學(xué)習(xí)框架 Analytic Subspace Routing (Any-SSR)。ICCV 與 CVPR、ECCV 并稱為計算機(jī)領(lǐng)域世界三大頂級學(xué)術(shù)會議,每兩年舉辦一次。ICCV 2025 年投稿量達(dá) 11239 篇,錄用率為 24%。
Q-Frame 是小米 AI 團(tuán)隊自研的技術(shù),解決了傳統(tǒng)“均勻幀采樣”處理方式中時間碎片化信息丟失、盲目采樣及算力浪費(fèi)等問題。Q-Frame 是行業(yè)首個動態(tài)幀選擇與分辨率自適應(yīng)框架,無需訓(xùn)練即可即插即用。其三大創(chuàng)新包括跨模態(tài)查詢檢索、查詢感知幀選擇和多分辨率自適應(yīng)。在 MLVU 評測集上,Q-Frame 使 Qwen2-VL 的理解準(zhǔn)確率從 55.5% 提升至 65.4%;在 LongVideoBench 上,GPT-4o 的準(zhǔn)確率從 53.3% 提升到 58.6%。此外,Q-Frame 可以根據(jù)內(nèi)容重要性和查詢需求動態(tài)調(diào)整幀分辨率,避免算力浪費(fèi)。Q-Frame 具有廣泛的適用性,可與市場上現(xiàn)有的各類視頻理解大模型兼容,無論是開源還是閉源模型。在小米“人車家全生態(tài)”戰(zhàn)略中,Q-Frame 有著多元的應(yīng)用場景,如哨兵模式、智能家居監(jiān)控和小愛視頻問答等。
Any-SSR 框架是小米 AI 團(tuán)隊聯(lián)合華南理工大學(xué)研發(fā)的成果,用于解決大語言模型在持續(xù)學(xué)習(xí)中的災(zāi)難性遺忘問題。Any-SSR 將遞歸最小二乘法引入大語言模型持續(xù)學(xué)習(xí),通過分析路由機(jī)制將不同任務(wù)分配到獨(dú)立子空間學(xué)習(xí),避免了任務(wù)間知識干擾。同時,結(jié)合低秩適應(yīng)技術(shù),實現(xiàn)了新舊知識的無縫整合與動態(tài)學(xué)習(xí)。實驗表明,Any-SSR 在 TRACE 基準(zhǔn)測試上的表現(xiàn)顯著優(yōu)于其他方法,不僅在整體性能上取得了優(yōu)異成績,還實現(xiàn)了零反向知識轉(zhuǎn)移。
小米集團(tuán)在過去五年投入約 1020 億元用于研發(fā),其中 2025 年的 300 億研發(fā)投入中,約四分之一將被用于 AI 相關(guān)方向。未來五年(2026-2030 年),小米還將在核心技術(shù)賽道再投入 2000 億元。