AI開始下場“掙錢”了！老板用AI正偷偷賺錢，而你還在審它做的17份PPT？

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-12-24 15:21:23 新浪

AI已經(jīng)不只會「答題」，開始下場「掙錢」了。但它也可能順手給你產(chǎn)出17份PPT，把你淹沒在電子垃圾里。下一代AI也許真能贏過專家，可更刺激的問題是：它會替你上班，還是讓你轉(zhuǎn)職為「AI監(jiān)工」？

悄然之間，人工智能跨越了一個關(guān)鍵門檻：它們現(xiàn)在已能完成具有實際經(jīng)濟價值的工作。

但當你把一份企業(yè)備忘錄交給Claude，讓它做個PPT，結(jié)果它一口氣生成了17個版本。

面對這種「用力過猛」的AI，你可能會懷疑：

它真的具有實用性和經(jīng)濟價值嗎？

對此，賓夕法尼亞大學沃頓商學院教授Ethan Mollick給出了他的回答。

智能體能完成特定任務(wù)

但無法取代工作

考慮到開發(fā)新AI所投入的天量資源，無論是字面意義還是象征意義上，我們卻在精確衡量AI「智能」程度這件事上意外地捉襟見肘。

目前，最普遍的做法是將AI視作人類，通過標準化測試來統(tǒng)計其答對題目的數(shù)量。

這類被稱為「基準測試」的評估體系多達數(shù)十種，已成為衡量AI能力演進的核心標尺。

但AI真的實用性？有經(jīng)濟價值嗎？

要回答這個問題，不能光靠感覺，得看數(shù)據(jù)。

OpenAI發(fā)布了一個名叫GDPVAL的新基準測試。它不像以往的數(shù)學或常識測試，而是專門考察大模型在現(xiàn)實工作場景中能否創(chuàng)造經(jīng)濟價值。

這一次，考得很「實戰(zhàn)」。

OpenAI組了個高端局：

然后，OpenAI讓各家的大模型和其他專家親自完成這些任務(wù)。第三組專家對結(jié)果進行評分，評分的專家不知道哪些答案來自AI，哪些來自人類，每個問題的評分時間大約需要一小時。

測試結(jié)果非常耐人尋味：

人類專家贏了，但是贏得很難（勉強獲勝）。

圖1：GDPVAL中，不同模型在對應任務(wù)上和人類具有相同或更好水平的比例。

同時，測試發(fā)現(xiàn)AI進步極快：

較新的模型得分遠超舊模型。

輸在哪？

有趣的是，大模型輸給人類，并不是因為「幻覺」或「胡說八道」，主要是因為

格式排版不好

或

沒能精確遵循指令

——而這些恰恰是最容易修復的短板。

圖2：不同領(lǐng)域中，大模型的表現(xiàn)好壞差異較大

如果當前趨勢持續(xù)，下一代人工智能模型在這項測試中應超越人類專家。但這意味著AI已做好準備，來取代人類工作了嗎？

回答是否定

。

這里的關(guān)鍵在于：

GDPVAL測試的是「任務(wù)」（Task），而我們做的是「工作」（Job）。

只要AI還做不到像人類一樣處理復雜互動，它就無法取代你的崗位。

但在這些高價值的任務(wù)中，AI什么時候能達到人類專家級水平？理論上，AI落地已無阻礙？

Ethan Mollick教授認為，AI智能體突然變得具有落地可能，確實讓人大吃一驚。部分原因在于大家對智能體的錯誤認知。

智能體，工作「續(xù)航能力」指數(shù)級增長

以前，大家認為，AI想獨立完成長任務(wù)非常難，比如寫一個完整的軟件。因為AI只要中間錯一步，后面就全完了（誤差累積）。

但劍橋大學等機構(gòu)聯(lián)手顛覆了這個認知：

AI的能力并沒有遇到瓶頸，反而在爆發(fā)。

預印本鏈接：https://arxiv.org/abs/2509.09677

劍橋大學Akshit Sinha等研究人員挖掘出四大原因：

1）

收益非遞減

：變準一點點，能做的事會暴增

2）

自我修正

：它會停下來檢查，不會被一個錯誤拖死

3）

更長上下文

：一次對話就能裝下更長流程

4）

更強模型能力

：規(guī)劃更穩(wěn)，長任務(wù)更不崩

所有這一切意味著，AI智能體能夠應對那些需要更多步驟才能完成的任務(wù)，并且這一過程無需人工干預。

圖3：大模型性能的提升不會引起收益遞減的四個原因

因此，指標METR，從GPT-3到GPT-5，在五年間持續(xù)保持了指數(shù)級增長，顯示出智能體能力增加的速度沒有放緩。

圖4：大模型能夠穩(wěn)定完成的任務(wù)所需的耗時變化

該指標衡量AI能以至少50%幾率獨立完成的任務(wù)到底多長。

這意味著我們在不遠的未來，就能夠看到AI完成需要專業(yè)人士一天甚至一周時間才能完成的復雜任務(wù)。

人類決定AI的未來

然而，真正具有自主性智能體并不存在。

目前，我們需要決定如何使用它們，這將決定未來工作的許多方面。當下大多人關(guān)注的重點是用AI取代人類勞動所帶來的風險，而且不難看出這將在未來幾年成為一個主要問題，特別是對于那些只關(guān)注削減成本、而不是利用這些新能力來擴展或轉(zhuǎn)型工作的，同時缺乏想象力的組織。

但在工作中使用AI，會帶來的另一個非常有可能發(fā)生的風險是：我們會無意識地讓智能體去完成一堆比我們當下所做的更多，但完全不必要的任務(wù)，例如根據(jù)一個文檔做17個PPT。

我們?nèi)绻徽J真思考我們?yōu)槭裁匆龉ぷ?，以及工作應該是什么樣子，那么會被AI生成的「電子垃圾」大潮淹沒。

那么，替代方案是什么？

OpenAI建議專家可以通過將任務(wù)委托給AI，將AI生成的結(jié)果當成初稿，由人類審查，從而與AI合作解決問題。如果AI生成的初稿不夠好，用戶可在提示詞中提供糾正或優(yōu)化提示詞再試一次。如果那仍然不起作用，他們應該親自完成工作。

如果專家遵循這種工作流程，論文估計他們可以加快40%的工作速度，降低60%的成本。更重要的是，他們可以保持對AI的控制權(quán)。

圖5：不同大模型帶來的速度和成本提升

具有經(jīng)濟實用性的智能體已經(jīng)出現(xiàn)。例如通過讓AI智能體去復現(xiàn)學術(shù)論文，可以應對學術(shù)界的「可復現(xiàn)性危機」。

盡管智能體能夠完成的任務(wù)仍然有限，但它有經(jīng)濟價值，并且價值正在遞增。

出現(xiàn)哪一個未來，區(qū)別不在于AI技術(shù)的演變，而在于我們選擇如何使用AI。通過在我們的判斷中決定什么值得做，而不僅僅是能做什么，我們可以確保這些工具使我們變得更有能力，而不僅僅是更有效率。

(責任編輯：zx0002)

關(guān)閉

AI開始下場“掙錢”了！老板用AI正偷偷賺錢，而你還在審它做的17份PPT？

相關(guān)新聞

今日熱點

頻道熱點

AI開始下場“掙錢”了！老板用AI正偷偷賺錢，而你還在審它做的17份PPT？