AI“手指難題”翻車暴露啥問題模型認(rèn)知局限

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-12-16 14:44:21 新浪

AI“手指難題”翻車暴露啥問題模型認(rèn)知局限。最近幾天，整個互聯(lián)網(wǎng)因為AI的一個小失誤陷入了討論。這個失誤發(fā)生在一項簡單的任務(wù)上：給圖中的每根手指依次標(biāo)出數(shù)字。然而題目中隱藏了一個小陷阱——這只手有六個手指。Nano Banana Pro模型在執(zhí)行任務(wù)時，直接忽略了其中一根手指，只標(biāo)注了1、2、3、4、5。這一荒誕的場面再次震驚了網(wǎng)友們。

有人認(rèn)為AI并非真的這么傻，而是故意裝傻來調(diào)戲人類。為了通過圖靈測試，AI可能需要表現(xiàn)得稍微愚蠢一些，才能更像人類。如果太聰明，反而容易被識破。GPT-5.2也遇到了類似的問題，即使提示中明確指出圖中有六根手指，它依然堅持認(rèn)為是五根，理由是人類的手應(yīng)該有五根手指。

此外，當(dāng)面對形狀奇特的手指圖像時，Nano Banana Pro仍然堅持認(rèn)為是五根手指。無論怎么畫，AI始終無法數(shù)出六根手指。這讓許多網(wǎng)友感到困惑和無奈。

為了解決這個問題，網(wǎng)友們嘗試了各種方法。有人給出具體指令，讓模型把數(shù)字左移并加上第六個數(shù)字，但結(jié)果還是失敗了。最終，通過一些奇招，比如讓模型把手畫成電子版或者按順序在小指到大拇指上放數(shù)字，才成功讓AI數(shù)對了手指。

為什么AI很難數(shù)對手指？一種解釋是，AI識別的是基本形狀而非精確圖像，并將該形狀與傳統(tǒng)認(rèn)知進行比較。還有人猜測，如果告訴AI這不是手而是不規(guī)則物體，或許可以規(guī)避其大腦中的偏見。這種嘗試果然成功了。這表明AI之前可能已經(jīng)被訓(xùn)練識別特定的emoji，換成其他圖像時，它可以做出正確的視覺推理。

這次事件揭示了當(dāng)前AI模型的一個關(guān)鍵缺陷——思考的機械性和割裂性。文本模型看到指令后，內(nèi)部邏輯可能是“手有五根手指，所以需要五個數(shù)字”。即使它看到了六指圖像，視覺識別能力也不足以糾正這種根深蒂固的文本認(rèn)知。因為在人類手部圖像數(shù)據(jù)中，五指手占據(jù)主導(dǎo)地位，模型已經(jīng)從海量數(shù)據(jù)中學(xué)到了“人手=五指”這一強關(guān)聯(lián)。

具體來說，當(dāng)前AI視覺系統(tǒng)的工作方式是將復(fù)雜場景簡化為一組可識別模式。當(dāng)遇到像六指手這樣同時包含常見元素（手部）和罕見特征（多指）的圖像時，系統(tǒng)傾向于將其強行納入已知模式。圖像分類器通常輸出邊界框和標(biāo)簽，但當(dāng)遇到訓(xùn)練分布之外的物體時，邊界框可能缺失或錯誤合并多個對象。

一個殘酷的真相是，即使性能再高的模型，也不理解“五根手指”的概念。AI看到的是紋理、形狀和概率，而不是結(jié)構(gòu)、數(shù)量或?qū)嶓w。Transformer架構(gòu)的并行計算能力是AI發(fā)展的關(guān)鍵，但也存在代價。單次前向傳遞無法有效追蹤狀態(tài)信息，系統(tǒng)難以執(zhí)行需要多步驟邏輯推理的任務(wù)。面對六指手，AI缺乏“注意到異常-重新評估-調(diào)整方案”的連貫思維鏈條，只是機械地應(yīng)用從訓(xùn)練數(shù)據(jù)中學(xué)到的最強模式。

擴散模型的本質(zhì)是從噪聲到清晰圖像的概率分布逆推過程。它擅長捕捉數(shù)據(jù)的整體分布和紋理風(fēng)格，但在精確控制局部、離散、高對稱性的結(jié)構(gòu)時顯得力不從心。訓(xùn)練數(shù)據(jù)中“五指”的絕對主導(dǎo)地位使模型將“五指”視為不可違反的強統(tǒng)計先驗。

從算法層面看，擴散模型在去噪的每一步都是基于整個圖像的潛在表示進行全局預(yù)測，沒有為“手指”這類特定結(jié)構(gòu)設(shè)立顯式的、受保護的局部計算單元。因此，細(xì)微的噪聲擾動或步驟誤差很容易在密集區(qū)域被放大，導(dǎo)致細(xì)節(jié)扭曲。

當(dāng)代AI的阿喀琉斯之踵在于，Transformer最強的地方（Token-to-token預(yù)測）反而成了它的致命短板。沒有對象概念，沒有顯式結(jié)構(gòu)約束，整個世界都被打平為token序列。正如一位網(wǎng)友所說：“視覺數(shù)據(jù)的復(fù)雜性遠(yuǎn)超文本，我們可能需要數(shù)十個數(shù)量級更多的計算資源，才能真正理解和處理視覺世界的全部細(xì)微差別?！?/p>

盡管在語言、知識、編碼等領(lǐng)域，AI已遠(yuǎn)超常人，但在視覺推理、長期學(xué)習(xí)、因果關(guān)系理解上，它們?nèi)匀徊蛔??！笆种鸽y題”猶如一面鏡子，照出了當(dāng)前以擴散模型為代表的AI模型的弱點。要徹底解決這個問題，需要更先進的架構(gòu)、更多樣化的訓(xùn)練數(shù)據(jù)，以及對AI能力更清醒的認(rèn)識。在這個AI無所不能的時代，“手指難題”提醒我們，即使是如今最先進的AI，也仍在學(xué)習(xí)如何看待世界的基本細(xì)節(jié)。

(責(zé)任編輯：0882)

關(guān)閉

AI“手指難題”翻車暴露啥問題 模型認(rèn)知局限

相關(guān)新聞

今日熱點

頻道熱點

AI“手指難題”翻車暴露啥問題模型認(rèn)知局限