12張圖看懂AI現(xiàn)狀全球AI發(fā)展概覽(3)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-15 12:58:31 www.nanoplatform.cn/new/...

LLM正在迅速超越新的基準(zhǔn)

過去十年，人工智能模型的性能以驚人的速度提升，而且正如上圖所示，這種進(jìn)步似乎還在加速。特別是多模態(tài)線性模型，其性能幾乎在被發(fā)明出來的同時就達(dá)到了各項基準(zhǔn)測試的標(biāo)準(zhǔn)。

智能體人工智能取得了最為顯著的進(jìn)步。圖表右側(cè)的兩條陡峭曲線分別代表OSWorld 基準(zhǔn)測試（用于衡量計算機(jī)的自主使用能力）和SWE-Bench Verified 軟件工程基準(zhǔn)測試（用于衡量自主編碼能力）。

模型在“人類最后的考試”（Humanity's Last Exam）上的表現(xiàn)也在迅速提升。這項基準(zhǔn)測試包含由各領(lǐng)域?qū)＜邑暙I(xiàn)的題目，旨在代表他們各自領(lǐng)域中最棘手的問題。2025 年斯坦福人工智能指數(shù)報告顯示，排名第一的模型 OpenAI 的 o1 僅正確回答了 8.8% 的問題。此后，準(zhǔn)確率已提升至 38.3%——但即便如此，這個數(shù)字也略顯過時，因為截至 2026 年 4 月，得分最高的模型（例如 Anthropic 的 Claude Opus 4.6 和 Google 的 Gemini 3.1 Pro）的準(zhǔn)確率均已超過 50%。

不過，佩羅提醒說，基準(zhǔn)測試結(jié)果未必總能反映在實際應(yīng)用中?！拔覀兺ǔＨ狈饬肯到y(tǒng)（或代理）在特定環(huán)境下運行效果的指標(biāo)，”佩羅說，“知道某個法律推理基準(zhǔn)測試的準(zhǔn)確率達(dá)到75%，并不能告訴我們它在實際法律實踐中有多大的適用性?！?/p>

人工智能在醫(yī)學(xué)領(lǐng)域的研究取得進(jìn)展

人工智能基準(zhǔn)測試的進(jìn)步似乎也體現(xiàn)在醫(yī)學(xué)領(lǐng)域，人工智能在醫(yī)學(xué)領(lǐng)域的應(yīng)用正以驚人的速度增長。醫(yī)學(xué)研究領(lǐng)域的應(yīng)用尤其迅速。正如上圖所示，過去兩年中，關(guān)于人工智能在藥物研發(fā)領(lǐng)域應(yīng)用的論文數(shù)量增加了一倍多。而關(guān)于多模態(tài)生物醫(yī)學(xué)人工智能（用于分析醫(yī)學(xué)圖像和文本）的論文數(shù)量，則是兩年前的2.7倍。

首頁上一頁 1 234 5 6 全文共 6 頁下一頁

關(guān)閉

12張圖看懂AI現(xiàn)狀 全球AI發(fā)展概覽(3)

相關(guān)新聞

今日熱點

頻道熱點

12張圖看懂AI現(xiàn)狀全球AI發(fā)展概覽(3)