全球六大頂級(jí)AI實(shí)盤廝殺 DeepSeek第一真金白銀交易比拼

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-10-21 20:02:36 虎嗅APP

全球六大主流大語(yǔ)言模型各自獲得一萬(wàn)美元，在同一真實(shí)市場(chǎng)中進(jìn)行實(shí)盤交易。上周六，美國(guó)人工智能研究實(shí)驗(yàn)室nof1.ai在其“阿爾法競(jìng)技場(chǎng)”平臺(tái)上舉辦了一場(chǎng)活動(dòng)，給六個(gè)頂級(jí)模型一萬(wàn)美元的真金白銀，讓它們下場(chǎng)交易。

這六大模型包括Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4和阿里通義的Qwen 3 Max。每個(gè)模型獲得10,000美元的真實(shí)資本，在交易所Hyperliquid上，以相同提示詞與輸入數(shù)據(jù)條件下，交易加密貨幣的永續(xù)合約。比賽的目標(biāo)是將風(fēng)險(xiǎn)調(diào)整后的收益最大化，每個(gè)模型需自行產(chǎn)生超額收益、確定倉(cāng)位、擇時(shí)交易并管理風(fēng)險(xiǎn)。

系統(tǒng)會(huì)提供當(dāng)前時(shí)間、賬戶信息、持倉(cāng)情況以及實(shí)時(shí)價(jià)格和指標(biāo)等數(shù)據(jù)，要求模型做出決策：如果持有倉(cāng)位，是繼續(xù)持有還是平倉(cāng)；如果空倉(cāng)，是買入還是繼續(xù)觀望。經(jīng)過近60小時(shí)的激戰(zhàn)后，截至北京時(shí)間周一17:18，DeepSeek的持倉(cāng)總市值接近1.4萬(wàn)美元，收益率約40%，最高時(shí)一度接近1.5萬(wàn)美元，表現(xiàn)最佳。Grok 4次之，目前持倉(cāng)總市值在1.33萬(wàn)美元附近。這兩個(gè)模型主要通過做多比特幣和以太坊獲利。Claude主要交易瑞波幣和以太坊，Qwen則專注于以太坊，兩者收益位列三四，但也整體跑贏比特幣現(xiàn)貨走勢(shì)。相比之下，GPT 5和Gemini出現(xiàn)了明顯虧損，目前持倉(cāng)總市值分別為7300美元和6900美元，意味著兩個(gè)模型已虧損約2700和3100美元，表現(xiàn)最差。

nof1.ai表示，進(jìn)行這一競(jìng)賽是為了讓基準(zhǔn)測(cè)試更貼近真實(shí)世界，金融市場(chǎng)是最理想的試煉場(chǎng)，因?yàn)檫@類市場(chǎng)具有動(dòng)態(tài)性、對(duì)抗性、開放性與高度不可預(yù)測(cè)性。這些特質(zhì)能以靜態(tài)測(cè)試無法企及的方式真正挑戰(zhàn)人工智能。nof1.ai未提到本次競(jìng)賽的具體結(jié)束時(shí)間，只表示第一季將運(yùn)行數(shù)周，隨后推出重大更新的第二季。有分析認(rèn)為，市場(chǎng)早已期待在DeFAI方向上出現(xiàn)殺手級(jí)應(yīng)用，讓LLM參與鏈上博弈有很大的想象空間。

(責(zé)任編輯：zx0001)

關(guān)閉

全球六大頂級(jí)AI實(shí)盤廝殺 DeepSeek第一 真金白銀交易比拼

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

全球六大頂級(jí)AI實(shí)盤廝殺 DeepSeek第一真金白銀交易比拼