LLM在讀取模擬時(shí)鐘方面仍然存在問(wèn)題
盡管人工智能模型在某些領(lǐng)域取得了快速進(jìn)步,但在一些常見(jiàn)任務(wù)上,例如讀取時(shí)鐘和理解日歷,它們的表現(xiàn)仍然非常糟糕。ClockBench是一款用于衡量多模態(tài)邏輯學(xué)習(xí)模型(LLM)讀取模擬時(shí)鐘能力的工具,它發(fā)現(xiàn)即使是這項(xiàng)任務(wù)中表現(xiàn)最佳的模型——OpenAI的GPT-5.4——也只有50%的概率能正確讀取時(shí)鐘。
大多數(shù)模型的得分都遠(yuǎn)低于此。Anthropic 的 Claude Opus 4.6 讀取時(shí)間的準(zhǔn)確率僅為 8.9%。這令人驚訝,因?yàn)樵撃P驮谄渌鶞?zhǔn)測(cè)試中通常表現(xiàn)出色。(如前所述,Claude Opus 4.6 在“人類(lèi)最后的考試”中取得了頂尖成績(jī)。)
當(dāng)然,在現(xiàn)實(shí)生活中,語(yǔ)言學(xué)習(xí)模型很少會(huì)被要求執(zhí)行這項(xiàng)任務(wù),但佩羅表示,這代表了一個(gè)更普遍的問(wèn)題?!坝醒芯勘砻鳎?dāng)系統(tǒng)被問(wèn)及語(yǔ)言與其他模態(tài)(例如圖像或音頻,如語(yǔ)調(diào))的組合時(shí),語(yǔ)言成分承擔(dān)了令人驚訝的很大一部分工作,甚至完全忽略了非語(yǔ)言信息。”
人工智能投資將在2025年達(dá)到新高峰
人工智能模型性能的提升與對(duì)人工智能公司的投資齊頭并進(jìn)。據(jù)人工智能分析公司Quid的數(shù)據(jù)顯示,2025年人工智能投資額創(chuàng)下新紀(jì)錄,超過(guò)5810億美元。
這比2024年的2530億美元支出翻了一番還多,并迅速超過(guò)了2021年創(chuàng)下的3600億美元的紀(jì)錄。與2021年以并購(gòu)為主導(dǎo)的投資不同,2025年創(chuàng)紀(jì)錄的投資結(jié)果是由對(duì)人工智能公司的私人投資所主導(dǎo)的。
大部分資金都流向了美國(guó),去年美國(guó)在人工智能領(lǐng)域的投資超過(guò)3440億美元。
軟件工程師們正全力投入人工智能領(lǐng)域
然而,人工智能的普及不僅僅取決于私人資金。在GitHub上,人工智能也展現(xiàn)出蓬勃的草根熱情,到2025年,與人工智能相關(guān)的項(xiàng)目數(shù)量已飆升至558萬(wàn)個(gè)。這比2020年增長(zhǎng)了近五倍,比2024年增長(zhǎng)了23.7%。
近一周,多個(gè)品牌的“一口價(jià)”黃金產(chǎn)品價(jià)格出現(xiàn)了不同程度的下跌,最大跌幅達(dá)17%
2026-04-16 08:18:21一圖看懂今年金價(jià)過(guò)山車(chē)劇情