12張圖看懂AI現(xiàn)狀全球AI發(fā)展概覽(4)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-15 12:58:31 www.nanoplatform.cn/new/...

LLM在讀取模擬時(shí)鐘方面仍然存在問(wèn)題

盡管人工智能模型在某些領(lǐng)域取得了快速進(jìn)步，但在一些常見(jiàn)任務(wù)上，例如讀取時(shí)鐘和理解日歷，它們的表現(xiàn)仍然非常糟糕。ClockBench是一款用于衡量多模態(tài)邏輯學(xué)習(xí)模型(LLM)讀取模擬時(shí)鐘能力的工具，它發(fā)現(xiàn)即使是這項(xiàng)任務(wù)中表現(xiàn)最佳的模型——OpenAI的GPT-5.4——也只有50%的概率能正確讀取時(shí)鐘。

大多數(shù)模型的得分都遠(yuǎn)低于此。Anthropic 的 Claude Opus 4.6 讀取時(shí)間的準(zhǔn)確率僅為 8.9%。這令人驚訝，因?yàn)樵撃Ｐ驮谄渌鶞?zhǔn)測(cè)試中通常表現(xiàn)出色。（如前所述，Claude Opus 4.6 在“人類(lèi)最后的考試”中取得了頂尖成績(jī)。）

當(dāng)然，在現(xiàn)實(shí)生活中，語(yǔ)言學(xué)習(xí)模型很少會(huì)被要求執(zhí)行這項(xiàng)任務(wù)，但佩羅表示，這代表了一個(gè)更普遍的問(wèn)題?！坝醒芯勘砻鳎?dāng)系統(tǒng)被問(wèn)及語(yǔ)言與其他模態(tài)（例如圖像或音頻，如語(yǔ)調(diào)）的組合時(shí)，語(yǔ)言成分承擔(dān)了令人驚訝的很大一部分工作，甚至完全忽略了非語(yǔ)言信息。”

人工智能投資將在2025年達(dá)到新高峰

人工智能模型性能的提升與對(duì)人工智能公司的投資齊頭并進(jìn)。據(jù)人工智能分析公司Quid的數(shù)據(jù)顯示，2025年人工智能投資額創(chuàng)下新紀(jì)錄，超過(guò)5810億美元。

這比2024年的2530億美元支出翻了一番還多，并迅速超過(guò)了2021年創(chuàng)下的3600億美元的紀(jì)錄。與2021年以并購(gòu)為主導(dǎo)的投資不同，2025年創(chuàng)紀(jì)錄的投資結(jié)果是由對(duì)人工智能公司的私人投資所主導(dǎo)的。

大部分資金都流向了美國(guó)，去年美國(guó)在人工智能領(lǐng)域的投資超過(guò)3440億美元。

軟件工程師們正全力投入人工智能領(lǐng)域

然而，人工智能的普及不僅僅取決于私人資金。在GitHub上，人工智能也展現(xiàn)出蓬勃的草根熱情，到2025年，與人工智能相關(guān)的項(xiàng)目數(shù)量已飆升至558萬(wàn)個(gè)。這比2020年增長(zhǎng)了近五倍，比2024年增長(zhǎng)了23.7%。

首頁(yè)上一頁(yè)1 2 345 6 全文共 6 頁(yè)下一頁(yè)

關(guān)閉

12張圖看懂AI現(xiàn)狀 全球AI發(fā)展概覽(4)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

12張圖看懂AI現(xiàn)狀全球AI發(fā)展概覽(4)