AI“手指難題”翻車暴露啥問題模型認(rèn)知局限(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-12-16 14:44:21 新浪

具體來(lái)說(shuō)，當(dāng)前AI視覺系統(tǒng)的工作方式是將復(fù)雜場(chǎng)景簡(jiǎn)化為一組可識(shí)別模式。當(dāng)遇到像六指手這樣同時(shí)包含常見元素（手部）和罕見特征（多指）的圖像時(shí)，系統(tǒng)傾向于將其強(qiáng)行納入已知模式。圖像分類器通常輸出邊界框和標(biāo)簽，但當(dāng)遇到訓(xùn)練分布之外的物體時(shí)，邊界框可能缺失或錯(cuò)誤合并多個(gè)對(duì)象。

一個(gè)殘酷的真相是，即使性能再高的模型，也不理解“五根手指”的概念。AI看到的是紋理、形狀和概率，而不是結(jié)構(gòu)、數(shù)量或?qū)嶓w。Transformer架構(gòu)的并行計(jì)算能力是AI發(fā)展的關(guān)鍵，但也存在代價(jià)。單次前向傳遞無(wú)法有效追蹤狀態(tài)信息，系統(tǒng)難以執(zhí)行需要多步驟邏輯推理的任務(wù)。面對(duì)六指手，AI缺乏“注意到異常-重新評(píng)估-調(diào)整方案”的連貫思維鏈條，只是機(jī)械地應(yīng)用從訓(xùn)練數(shù)據(jù)中學(xué)到的最強(qiáng)模式。

擴(kuò)散模型的本質(zhì)是從噪聲到清晰圖像的概率分布逆推過程。它擅長(zhǎng)捕捉數(shù)據(jù)的整體分布和紋理風(fēng)格，但在精確控制局部、離散、高對(duì)稱性的結(jié)構(gòu)時(shí)顯得力不從心。訓(xùn)練數(shù)據(jù)中“五指”的絕對(duì)主導(dǎo)地位使模型將“五指”視為不可違反的強(qiáng)統(tǒng)計(jì)先驗(yàn)。

從算法層面看，擴(kuò)散模型在去噪的每一步都是基于整個(gè)圖像的潛在表示進(jìn)行全局預(yù)測(cè)，沒有為“手指”這類特定結(jié)構(gòu)設(shè)立顯式的、受保護(hù)的局部計(jì)算單元。因此，細(xì)微的噪聲擾動(dòng)或步驟誤差很容易在密集區(qū)域被放大，導(dǎo)致細(xì)節(jié)扭曲。

當(dāng)代AI的阿喀琉斯之踵在于，Transformer最強(qiáng)的地方（Token-to-token預(yù)測(cè)）反而成了它的致命短板。沒有對(duì)象概念，沒有顯式結(jié)構(gòu)約束，整個(gè)世界都被打平為token序列。正如一位網(wǎng)友所說(shuō)：“視覺數(shù)據(jù)的復(fù)雜性遠(yuǎn)超文本，我們可能需要數(shù)十個(gè)數(shù)量級(jí)更多的計(jì)算資源，才能真正理解和處理視覺世界的全部細(xì)微差別?！?/p>

盡管在語(yǔ)言、知識(shí)、編碼等領(lǐng)域，AI已遠(yuǎn)超常人，但在視覺推理、長(zhǎng)期學(xué)習(xí)、因果關(guān)系理解上，它們?nèi)匀徊蛔恪！笆种鸽y題”猶如一面鏡子，照出了當(dāng)前以擴(kuò)散模型為代表的AI模型的弱點(diǎn)。要徹底解決這個(gè)問題，需要更先進(jìn)的架構(gòu)、更多樣化的訓(xùn)練數(shù)據(jù)，以及對(duì)AI能力更清醒的認(rèn)識(shí)。在這個(gè)AI無(wú)所不能的時(shí)代，“手指難題”提醒我們，即使是如今最先進(jìn)的AI，也仍在學(xué)習(xí)如何看待世界的基本細(xì)節(jié)。

首頁(yè)上一頁(yè)12共 2 頁(yè)

(責(zé)任編輯：0882)

關(guān)閉

AI“手指難題”翻車暴露啥問題 模型認(rèn)知局限(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

AI“手指難題”翻車暴露啥問題模型認(rèn)知局限(2)