AI已經(jīng)不只會「答題」,開始下場「掙錢」了。但它也可能順手給你產(chǎn)出17份PPT,把你淹沒在電子垃圾里。下一代AI也許真能贏過專家,可更刺激的問題是:它會替你上班,還是讓你轉(zhuǎn)職為「AI監(jiān)工」?
悄然之間,人工智能跨越了一個關(guān)鍵門檻:它們現(xiàn)在已能完成具有實際經(jīng)濟價值的工作。
但當你把一份企業(yè)備忘錄交給Claude,讓它做個PPT,結(jié)果它一口氣生成了17個版本。
面對這種「用力過猛」的AI,你可能會懷疑:
它真的具有實用性和經(jīng)濟價值嗎?
對此,賓夕法尼亞大學沃頓商學院教授Ethan Mollick給出了他的回答。
智能體能完成特定任務(wù)
但無法取代工作
考慮到開發(fā)新AI所投入的天量資源,無論是字面意義還是象征意義上,我們卻在精確衡量AI「智能」程度這件事上意外地捉襟見肘。
目前,最普遍的做法是將AI視作人類,通過標準化測試來統(tǒng)計其答對題目的數(shù)量。
這類被稱為「基準測試」的評估體系多達數(shù)十種,已成為衡量AI能力演進的核心標尺。
但AI真的實用性?有經(jīng)濟價值嗎?
要回答這個問題,不能光靠感覺,得看數(shù)據(jù)。
OpenAI發(fā)布了一個名叫GDPVAL的新基準測試。它不像以往的數(shù)學或常識測試,而是專門考察大模型在現(xiàn)實工作場景中能否創(chuàng)造經(jīng)濟價值。
這一次,考得很「實戰(zhàn)」。
OpenAI組了個高端局:
然后,OpenAI讓各家的大模型和其他專家親自完成這些任務(wù)。第三組專家對結(jié)果進行評分,評分的專家不知道哪些答案來自AI,哪些來自人類,每個問題的評分時間大約需要一小時。
測試結(jié)果非常耐人尋味:
人類專家贏了,但是贏得很難(勉強獲勝)。
圖1:GDPVAL中,不同模型在對應任務(wù)上和人類具有相同或更好水平的比例。
同時,測試發(fā)現(xiàn)AI進步極快:
較新的模型得分遠超舊模型。
輸在哪?
有趣的是,大模型輸給人類,并不是因為「幻覺」或「胡說八道」,主要是因為
格式排版不好
或
沒能精確遵循指令
——而這些恰恰是最容易修復的短板。
圖2:不同領(lǐng)域中,大模型的表現(xiàn)好壞差異較大
如果當前趨勢持續(xù),下一代人工智能模型在這項測試中應超越人類專家。但這意味著AI已做好準備,來取代人類工作了嗎?
回答是否定
。
這里的關(guān)鍵在于:
GDPVAL測試的是「任務(wù)」(Task),而我們做的是「工作」(Job)。
只要AI還做不到像人類一樣處理復雜互動,它就無法取代你的崗位。
但在這些高價值的任務(wù)中,AI什么時候能達到人類專家級水平?理論上,AI落地已無阻礙?
Ethan Mollick教授認為,AI智能體突然變得具有落地可能,確實讓人大吃一驚。部分原因在于大家對智能體的錯誤認知 。
智能體,工作「續(xù)航能力」指數(shù)級增長
以前,大家認為,AI想獨立完成長任務(wù)非常難,比如寫一個完整的軟件。因為AI只要中間錯一步,后面就全完了(誤差累積)。
但劍橋大學等機構(gòu)聯(lián)手顛覆了這個認知:
AI的能力并沒有遇到瓶頸,反而在爆發(fā)。
預印本鏈接:https://arxiv.org/abs/2509.09677
劍橋大學Akshit Sinha等研究人員挖掘出四大原因:
1)
收益非遞減
:變準一點點,能做的事會暴增
2)
自我修正
:它會停下來檢查,不會被一個錯誤拖死
3)
更長上下文
:一次對話就能裝下更長流程
4)
更強模型能力
:規(guī)劃更穩(wěn),長任務(wù)更不崩
所有這一切意味著,AI智能體能夠應對那些需要更多步驟才能完成的任務(wù),并且這一過程無需人工干預。
圖3:大模型性能的提升不會引起收益遞減的四個原因
因此,指標METR,從GPT-3到GPT-5,在五年間持續(xù)保持了指數(shù)級增長,顯示出智能體能力增加的速度沒有放緩。
圖4:大模型能夠穩(wěn)定完成的任務(wù)所需的耗時變化
該指標衡量AI能以至少50%幾率獨立完成的任務(wù)到底多長。
這意味著我們在不遠的未來,就能夠看到AI完成需要專業(yè)人士一天甚至一周時間才能完成的復雜任務(wù)。
人類決定AI的未來
然而,真正具有自主性智能體并不存在。
目前,我們需要決定如何使用它們,這將決定未來工作的許多方面。當下大多人關(guān)注的重點是用AI取代人類勞動所帶來的風險,而且不難看出這將在未來幾年成為一個主要問題,特別是對于那些只關(guān)注削減成本、而不是利用這些新能力來擴展或轉(zhuǎn)型工作的,同時缺乏想象力的組織。
但在工作中使用AI,會帶來的另一個非常有可能發(fā)生的風險是:我們會無意識地讓智能體去完成一堆比我們當下所做的更多,但完全不必要的任務(wù),例如根據(jù)一個文檔做17個PPT。
我們?nèi)绻徽J真思考我們?yōu)槭裁匆龉ぷ?,以及工作應該是什么樣子,那么會被AI生成的「電子垃圾」大潮淹沒。
那么,替代方案是什么?
OpenAI建議專家可以通過將任務(wù)委托給AI,將AI生成的結(jié)果當成初稿,由人類審查,從而與AI合作解決問題。如果AI生成的初稿不夠好,用戶可在提示詞中提供糾正或優(yōu)化提示詞再試一次。如果那仍然不起作用,他們應該親自完成工作。
如果專家遵循這種工作流程,論文估計他們可以加快40%的工作速度,降低60%的成本。更重要的是,他們可以保持對AI的控制權(quán)。
圖5:不同大模型帶來的速度和成本提升
具有經(jīng)濟實用性的智能體已經(jīng)出現(xiàn)。例如通過讓AI智能體去復現(xiàn)學術(shù)論文,可以應對學術(shù)界的「可復現(xiàn)性危機」。
盡管智能體能夠完成的任務(wù)仍然有限,但它有經(jīng)濟價值,并且價值正在遞增。
出現(xiàn)哪一個未來,區(qū)別不在于AI技術(shù)的演變,而在于我們選擇如何使用AI。通過在我們的判斷中決定什么值得做,而不僅僅是能做什么,我們可以確保這些工具使我們變得更有能力,而不僅僅是更有效率。
10月21日,華為招聘官微發(fā)布“全球頂尖AI人才招募令”,宣布正在打造世界一流的AI團隊,構(gòu)建領(lǐng)先世界的大模型,攀登AGI的巔峰
2025-10-22 10:54:22余承東下場招人2025年9月,AI圈不太平。Anthropic突然宣布所有由中國資本控股的公司,無論注冊地在哪里,都不能使用Claude。這一消息如同一顆炸彈,在行業(yè)內(nèi)引起了巨大震動
2025-09-24 13:19:22當AI開始查戶口2023年被視為生成式AI的出道年,2024年則被看作是炒作年,而2025年則是生成式AI真正走進普通人生活的落地年
2025-12-16 09:38:09這屆中年人開始占領(lǐng)AI國務(wù)院國有資產(chǎn)監(jiān)督管理委員會網(wǎng)站消息,11月21日,國務(wù)院國資委組織召開中央企業(yè)專業(yè)化整合推進會并舉行重點項目簽約儀式
2025-11-22 15:56:19AI等領(lǐng)域新央企開始組建