全球六大主流大語(yǔ)言模型各自獲得一萬(wàn)美元,在同一真實(shí)市場(chǎng)中進(jìn)行實(shí)盤交易。上周六,美國(guó)人工智能研究實(shí)驗(yàn)室nof1.ai在其“阿爾法競(jìng)技場(chǎng)”平臺(tái)上舉辦了一場(chǎng)活動(dòng),給六個(gè)頂級(jí)模型一萬(wàn)美元的真金白銀,讓它們下場(chǎng)交易。
這六大模型包括Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4和阿里通義的Qwen 3 Max。每個(gè)模型獲得10,000美元的真實(shí)資本,在交易所Hyperliquid上,以相同提示詞與輸入數(shù)據(jù)條件下,交易加密貨幣的永續(xù)合約。比賽的目標(biāo)是將風(fēng)險(xiǎn)調(diào)整后的收益最大化,每個(gè)模型需自行產(chǎn)生超額收益、確定倉(cāng)位、擇時(shí)交易并管理風(fēng)險(xiǎn)。
系統(tǒng)會(huì)提供當(dāng)前時(shí)間、賬戶信息、持倉(cāng)情況以及實(shí)時(shí)價(jià)格和指標(biāo)等數(shù)據(jù),要求模型做出決策:如果持有倉(cāng)位,是繼續(xù)持有還是平倉(cāng);如果空倉(cāng),是買入還是繼續(xù)觀望。經(jīng)過近60小時(shí)的激戰(zhàn)后,截至北京時(shí)間周一17:18,DeepSeek的持倉(cāng)總市值接近1.4萬(wàn)美元,收益率約40%,最高時(shí)一度接近1.5萬(wàn)美元,表現(xiàn)最佳。Grok 4次之,目前持倉(cāng)總市值在1.33萬(wàn)美元附近。這兩個(gè)模型主要通過做多比特幣和以太坊獲利。Claude主要交易瑞波幣和以太坊,Qwen則專注于以太坊,兩者收益位列三四,但也整體跑贏比特幣現(xiàn)貨走勢(shì)。相比之下,GPT 5和Gemini出現(xiàn)了明顯虧損,目前持倉(cāng)總市值分別為7300美元和6900美元,意味著兩個(gè)模型已虧損約2700和3100美元,表現(xiàn)最差。
nof1.ai表示,進(jìn)行這一競(jìng)賽是為了讓基準(zhǔn)測(cè)試更貼近真實(shí)世界,金融市場(chǎng)是最理想的試煉場(chǎng),因?yàn)檫@類市場(chǎng)具有動(dòng)態(tài)性、對(duì)抗性、開放性與高度不可預(yù)測(cè)性。這些特質(zhì)能以靜態(tài)測(cè)試無法企及的方式真正挑戰(zhàn)人工智能。nof1.ai未提到本次競(jìng)賽的具體結(jié)束時(shí)間,只表示第一季將運(yùn)行數(shù)周,隨后推出重大更新的第二季。有分析認(rèn)為,市場(chǎng)早已期待在DeFAI方向上出現(xiàn)殺手級(jí)應(yīng)用,讓LLM參與鏈上博弈有很大的想象空間。