LLM正在迅速超越新的基準(zhǔn)
過去十年,人工智能模型的性能以驚人的速度提升,而且正如上圖所示,這種進(jìn)步似乎還在加速。特別是多模態(tài)線性模型,其性能幾乎在被發(fā)明出來的同時就達(dá)到了各項基準(zhǔn)測試的標(biāo)準(zhǔn)。
智能體人工智能取得了最為顯著的進(jìn)步。圖表右側(cè)的兩條陡峭曲線分別代表OSWorld 基準(zhǔn)測試(用于衡量計算機(jī)的自主使用能力)和SWE-Bench Verified 軟件工程基準(zhǔn)測試(用于衡量自主編碼能力)。
模型在“人類最后的考試”(Humanity's Last Exam)上的表現(xiàn)也在迅速提升。這項基準(zhǔn)測試包含由各領(lǐng)域?qū)<邑暙I(xiàn)的題目,旨在代表他們各自領(lǐng)域中最棘手的問題。2025 年斯坦福人工智能指數(shù)報告顯示,排名第一的模型 OpenAI 的 o1 僅正確回答了 8.8% 的問題。此后,準(zhǔn)確率已提升至 38.3%——但即便如此,這個數(shù)字也略顯過時,因為截至 2026 年 4 月,得分最高的模型(例如 Anthropic 的 Claude Opus 4.6 和 Google 的 Gemini 3.1 Pro)的準(zhǔn)確率均已超過 50%。
不過,佩羅提醒說,基準(zhǔn)測試結(jié)果未必總能反映在實際應(yīng)用中?!拔覀兺ǔH狈饬肯到y(tǒng)(或代理)在特定環(huán)境下運行效果的指標(biāo),”佩羅說,“知道某個法律推理基準(zhǔn)測試的準(zhǔn)確率達(dá)到75%,并不能告訴我們它在實際法律實踐中有多大的適用性?!?/p>
人工智能在醫(yī)學(xué)領(lǐng)域的研究取得進(jìn)展
人工智能基準(zhǔn)測試的進(jìn)步似乎也體現(xiàn)在醫(yī)學(xué)領(lǐng)域,人工智能在醫(yī)學(xué)領(lǐng)域的應(yīng)用正以驚人的速度增長。醫(yī)學(xué)研究領(lǐng)域的應(yīng)用尤其迅速。正如上圖所示,過去兩年中,關(guān)于人工智能在藥物研發(fā)領(lǐng)域應(yīng)用的論文數(shù)量增加了一倍多。而關(guān)于多模態(tài)生物醫(yī)學(xué)人工智能(用于分析醫(yī)學(xué)圖像和文本)的論文數(shù)量,則是兩年前的2.7倍。
近一周,多個品牌的“一口價”黃金產(chǎn)品價格出現(xiàn)了不同程度的下跌,最大跌幅達(dá)17%
2026-04-16 08:18:21一圖看懂今年金價過山車劇情