AI“手指難題”翻車暴露啥問題 模型認(rèn)知局限。最近幾天,整個互聯(lián)網(wǎng)因為AI的一個小失誤陷入了討論。這個失誤發(fā)生在一項簡單的任務(wù)上:給圖中的每根手指依次標(biāo)出數(shù)字。然而題目中隱藏了一個小陷阱——這只手有六個手指。Nano Banana Pro模型在執(zhí)行任務(wù)時,直接忽略了其中一根手指,只標(biāo)注了1、2、3、4、5。這一荒誕的場面再次震驚了網(wǎng)友們。
有人認(rèn)為AI并非真的這么傻,而是故意裝傻來調(diào)戲人類。為了通過圖靈測試,AI可能需要表現(xiàn)得稍微愚蠢一些,才能更像人類。如果太聰明,反而容易被識破。GPT-5.2也遇到了類似的問題,即使提示中明確指出圖中有六根手指,它依然堅持認(rèn)為是五根,理由是人類的手應(yīng)該有五根手指。
此外,當(dāng)面對形狀奇特的手指圖像時,Nano Banana Pro仍然堅持認(rèn)為是五根手指。無論怎么畫,AI始終無法數(shù)出六根手指。這讓許多網(wǎng)友感到困惑和無奈。
為了解決這個問題,網(wǎng)友們嘗試了各種方法。有人給出具體指令,讓模型把數(shù)字左移并加上第六個數(shù)字,但結(jié)果還是失敗了。最終,通過一些奇招,比如讓模型把手畫成電子版或者按順序在小指到大拇指上放數(shù)字,才成功讓AI數(shù)對了手指。
為什么AI很難數(shù)對手指?一種解釋是,AI識別的是基本形狀而非精確圖像,并將該形狀與傳統(tǒng)認(rèn)知進行比較。還有人猜測,如果告訴AI這不是手而是不規(guī)則物體,或許可以規(guī)避其大腦中的偏見。這種嘗試果然成功了。這表明AI之前可能已經(jīng)被訓(xùn)練識別特定的emoji,換成其他圖像時,它可以做出正確的視覺推理。
這次事件揭示了當(dāng)前AI模型的一個關(guān)鍵缺陷——思考的機械性和割裂性。文本模型看到指令后,內(nèi)部邏輯可能是“手有五根手指,所以需要五個數(shù)字”。即使它看到了六指圖像,視覺識別能力也不足以糾正這種根深蒂固的文本認(rèn)知。因為在人類手部圖像數(shù)據(jù)中,五指手占據(jù)主導(dǎo)地位,模型已經(jīng)從海量數(shù)據(jù)中學(xué)到了“人手=五指”這一強關(guān)聯(lián)。
具體來說,當(dāng)前AI視覺系統(tǒng)的工作方式是將復(fù)雜場景簡化為一組可識別模式。當(dāng)遇到像六指手這樣同時包含常見元素(手部)和罕見特征(多指)的圖像時,系統(tǒng)傾向于將其強行納入已知模式。圖像分類器通常輸出邊界框和標(biāo)簽,但當(dāng)遇到訓(xùn)練分布之外的物體時,邊界框可能缺失或錯誤合并多個對象。
一個殘酷的真相是,即使性能再高的模型,也不理解“五根手指”的概念。AI看到的是紋理、形狀和概率,而不是結(jié)構(gòu)、數(shù)量或?qū)嶓w。Transformer架構(gòu)的并行計算能力是AI發(fā)展的關(guān)鍵,但也存在代價。單次前向傳遞無法有效追蹤狀態(tài)信息,系統(tǒng)難以執(zhí)行需要多步驟邏輯推理的任務(wù)。面對六指手,AI缺乏“注意到異常-重新評估-調(diào)整方案”的連貫思維鏈條,只是機械地應(yīng)用從訓(xùn)練數(shù)據(jù)中學(xué)到的最強模式。
擴散模型的本質(zhì)是從噪聲到清晰圖像的概率分布逆推過程。它擅長捕捉數(shù)據(jù)的整體分布和紋理風(fēng)格,但在精確控制局部、離散、高對稱性的結(jié)構(gòu)時顯得力不從心。訓(xùn)練數(shù)據(jù)中“五指”的絕對主導(dǎo)地位使模型將“五指”視為不可違反的強統(tǒng)計先驗。
從算法層面看,擴散模型在去噪的每一步都是基于整個圖像的潛在表示進行全局預(yù)測,沒有為“手指”這類特定結(jié)構(gòu)設(shè)立顯式的、受保護的局部計算單元。因此,細(xì)微的噪聲擾動或步驟誤差很容易在密集區(qū)域被放大,導(dǎo)致細(xì)節(jié)扭曲。
當(dāng)代AI的阿喀琉斯之踵在于,Transformer最強的地方(Token-to-token預(yù)測)反而成了它的致命短板。沒有對象概念,沒有顯式結(jié)構(gòu)約束,整個世界都被打平為token序列。正如一位網(wǎng)友所說:“視覺數(shù)據(jù)的復(fù)雜性遠(yuǎn)超文本,我們可能需要數(shù)十個數(shù)量級更多的計算資源,才能真正理解和處理視覺世界的全部細(xì)微差別?!?/p>
盡管在語言、知識、編碼等領(lǐng)域,AI已遠(yuǎn)超常人,但在視覺推理、長期學(xué)習(xí)、因果關(guān)系理解上,它們?nèi)匀徊蛔??!笆种鸽y題”猶如一面鏡子,照出了當(dāng)前以擴散模型為代表的AI模型的弱點。要徹底解決這個問題,需要更先進的架構(gòu)、更多樣化的訓(xùn)練數(shù)據(jù),以及對AI能力更清醒的認(rèn)識。在這個AI無所不能的時代,“手指難題”提醒我們,即使是如今最先進的AI,也仍在學(xué)習(xí)如何看待世界的基本細(xì)節(jié)。
蘋果今年秋季發(fā)布會的邀請函上寫著“驚掉下巴”,玩的是諧音梗,但其實新品信息早已被劇透得差不多了
2025-09-11 08:04:08媒體過去三年,AI 行業(yè)經(jīng)歷了快速發(fā)展。模型規(guī)模越來越大,數(shù)據(jù)中心越來越多,英偉達(dá)的股價也持續(xù)攀升
2025-11-17 07:39:15一塊GPU能撐幾年12月26日,華為第六屆奧林帕斯獎?wù)絾尤蛘骷劷鸪貫?00萬元人民幣,聚焦解決AI時代的存儲難題
2025-12-26 22:05:34華為懸賞300萬元求解難題AI產(chǎn)業(yè)的迅速發(fā)展催生了巨大的算力需求,但全球算力資源利用率低的問題日益突出
2025-11-22 16:30:34Flex12月26日,華為第六屆奧林帕斯獎?wù)絾尤蛘骷?。今年繼續(xù)設(shè)立300萬元人民幣獎金池,聚焦解決AI時代的存儲難題
2025-12-27 10:44:03華為懸賞300萬元求解AI難題