AI已經(jīng)不只會「答題」,開始下場「掙錢」了。但它也可能順手給你產(chǎn)出17份PPT,把你淹沒在電子垃圾里。下一代AI也許真能贏過專家,可更刺激的問題是:它會替你上班,還是讓你轉(zhuǎn)職為「AI監(jiān)工」?
悄然之間,人工智能跨越了一個關(guān)鍵門檻:它們現(xiàn)在已能完成具有實際經(jīng)濟價值的工作。
但當你把一份企業(yè)備忘錄交給Claude,讓它做個PPT,結(jié)果它一口氣生成了17個版本。
面對這種「用力過猛」的AI,你可能會懷疑:
它真的具有實用性和經(jīng)濟價值嗎?
對此,賓夕法尼亞大學沃頓商學院教授Ethan Mollick給出了他的回答。
智能體能完成特定任務
但無法取代工作
考慮到開發(fā)新AI所投入的天量資源,無論是字面意義還是象征意義上,我們卻在精確衡量AI「智能」程度這件事上意外地捉襟見肘。
目前,最普遍的做法是將AI視作人類,通過標準化測試來統(tǒng)計其答對題目的數(shù)量。
這類被稱為「基準測試」的評估體系多達數(shù)十種,已成為衡量AI能力演進的核心標尺。
但AI真的實用性?有經(jīng)濟價值嗎?
要回答這個問題,不能光靠感覺,得看數(shù)據(jù)。
OpenAI發(fā)布了一個名叫GDPVAL的新基準測試。它不像以往的數(shù)學或常識測試,而是專門考察大模型在現(xiàn)實工作場景中能否創(chuàng)造經(jīng)濟價值。
這一次,考得很「實戰(zhàn)」。
OpenAI組了個高端局:
然后,OpenAI讓各家的大模型和其他專家親自完成這些任務。第三組專家對結(jié)果進行評分,評分的專家不知道哪些答案來自AI,哪些來自人類,每個問題的評分時間大約需要一小時。
10月21日,華為招聘官微發(fā)布“全球頂尖AI人才招募令”,宣布正在打造世界一流的AI團隊,構(gòu)建領(lǐng)先世界的大模型,攀登AGI的巔峰
2025-10-22 10:54:22余承東下場招人2025年9月,AI圈不太平。Anthropic突然宣布所有由中國資本控股的公司,無論注冊地在哪里,都不能使用Claude。這一消息如同一顆炸彈,在行業(yè)內(nèi)引起了巨大震動
2025-09-24 13:19:22當AI開始查戶口2023年被視為生成式AI的出道年,2024年則被看作是炒作年,而2025年則是生成式AI真正走進普通人生活的落地年
2025-12-16 09:38:09這屆中年人開始占領(lǐng)AI國務院國有資產(chǎn)監(jiān)督管理委員會網(wǎng)站消息,11月21日,國務院國資委組織召開中央企業(yè)專業(yè)化整合推進會并舉行重點項目簽約儀式
2025-11-22 15:56:19AI等領(lǐng)域新央企開始組建