具體來(lái)說(shuō),當(dāng)前AI視覺系統(tǒng)的工作方式是將復(fù)雜場(chǎng)景簡(jiǎn)化為一組可識(shí)別模式。當(dāng)遇到像六指手這樣同時(shí)包含常見元素(手部)和罕見特征(多指)的圖像時(shí),系統(tǒng)傾向于將其強(qiáng)行納入已知模式。圖像分類器通常輸出邊界框和標(biāo)簽,但當(dāng)遇到訓(xùn)練分布之外的物體時(shí),邊界框可能缺失或錯(cuò)誤合并多個(gè)對(duì)象。
一個(gè)殘酷的真相是,即使性能再高的模型,也不理解“五根手指”的概念。AI看到的是紋理、形狀和概率,而不是結(jié)構(gòu)、數(shù)量或?qū)嶓w。Transformer架構(gòu)的并行計(jì)算能力是AI發(fā)展的關(guān)鍵,但也存在代價(jià)。單次前向傳遞無(wú)法有效追蹤狀態(tài)信息,系統(tǒng)難以執(zhí)行需要多步驟邏輯推理的任務(wù)。面對(duì)六指手,AI缺乏“注意到異常-重新評(píng)估-調(diào)整方案”的連貫思維鏈條,只是機(jī)械地應(yīng)用從訓(xùn)練數(shù)據(jù)中學(xué)到的最強(qiáng)模式。
擴(kuò)散模型的本質(zhì)是從噪聲到清晰圖像的概率分布逆推過程。它擅長(zhǎng)捕捉數(shù)據(jù)的整體分布和紋理風(fēng)格,但在精確控制局部、離散、高對(duì)稱性的結(jié)構(gòu)時(shí)顯得力不從心。訓(xùn)練數(shù)據(jù)中“五指”的絕對(duì)主導(dǎo)地位使模型將“五指”視為不可違反的強(qiáng)統(tǒng)計(jì)先驗(yàn)。
從算法層面看,擴(kuò)散模型在去噪的每一步都是基于整個(gè)圖像的潛在表示進(jìn)行全局預(yù)測(cè),沒有為“手指”這類特定結(jié)構(gòu)設(shè)立顯式的、受保護(hù)的局部計(jì)算單元。因此,細(xì)微的噪聲擾動(dòng)或步驟誤差很容易在密集區(qū)域被放大,導(dǎo)致細(xì)節(jié)扭曲。
當(dāng)代AI的阿喀琉斯之踵在于,Transformer最強(qiáng)的地方(Token-to-token預(yù)測(cè))反而成了它的致命短板。沒有對(duì)象概念,沒有顯式結(jié)構(gòu)約束,整個(gè)世界都被打平為token序列。正如一位網(wǎng)友所說(shuō):“視覺數(shù)據(jù)的復(fù)雜性遠(yuǎn)超文本,我們可能需要數(shù)十個(gè)數(shù)量級(jí)更多的計(jì)算資源,才能真正理解和處理視覺世界的全部細(xì)微差別?!?/p>
盡管在語(yǔ)言、知識(shí)、編碼等領(lǐng)域,AI已遠(yuǎn)超常人,但在視覺推理、長(zhǎng)期學(xué)習(xí)、因果關(guān)系理解上,它們?nèi)匀徊蛔恪!笆种鸽y題”猶如一面鏡子,照出了當(dāng)前以擴(kuò)散模型為代表的AI模型的弱點(diǎn)。要徹底解決這個(gè)問題,需要更先進(jìn)的架構(gòu)、更多樣化的訓(xùn)練數(shù)據(jù),以及對(duì)AI能力更清醒的認(rèn)識(shí)。在這個(gè)AI無(wú)所不能的時(shí)代,“手指難題”提醒我們,即使是如今最先進(jìn)的AI,也仍在學(xué)習(xí)如何看待世界的基本細(xì)節(jié)。
蘋果今年秋季發(fā)布會(huì)的邀請(qǐng)函上寫著“驚掉下巴”,玩的是諧音梗,但其實(shí)新品信息早已被劇透得差不多了
2025-09-11 08:04:08媒體過去三年,AI 行業(yè)經(jīng)歷了快速發(fā)展。模型規(guī)模越來(lái)越大,數(shù)據(jù)中心越來(lái)越多,英偉達(dá)的股價(jià)也持續(xù)攀升
2025-11-17 07:39:15一塊GPU能撐幾年12月26日,華為第六屆奧林帕斯獎(jiǎng)?wù)絾?dòng)全球征集,獎(jiǎng)金池為300萬(wàn)元人民幣,聚焦解決AI時(shí)代的存儲(chǔ)難題
2025-12-26 22:05:34華為懸賞300萬(wàn)元求解難題AI產(chǎn)業(yè)的迅速發(fā)展催生了巨大的算力需求,但全球算力資源利用率低的問題日益突出
2025-11-22 16:30:34Flex