全球六大頂級AI實盤廝殺 DeepSeek第一真金白銀交易比拼

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-10-21 20:02:36 虎嗅APP

全球六大主流大語言模型各自獲得一萬美元，在同一真實市場中進行實盤交易。上周六，美國人工智能研究實驗室nof1.ai在其“阿爾法競技場”平臺上舉辦了一場活動，給六個頂級模型一萬美元的真金白銀，讓它們下場交易。

這六大模型包括Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4和阿里通義的Qwen 3 Max。每個模型獲得10,000美元的真實資本，在交易所Hyperliquid上，以相同提示詞與輸入數(shù)據(jù)條件下，交易加密貨幣的永續(xù)合約。比賽的目標是將風險調(diào)整后的收益最大化，每個模型需自行產(chǎn)生超額收益、確定倉位、擇時交易并管理風險。

系統(tǒng)會提供當前時間、賬戶信息、持倉情況以及實時價格和指標等數(shù)據(jù)，要求模型做出決策：如果持有倉位，是繼續(xù)持有還是平倉；如果空倉，是買入還是繼續(xù)觀望。經(jīng)過近60小時的激戰(zhàn)后，截至北京時間周一17:18，DeepSeek的持倉總市值接近1.4萬美元，收益率約40%，最高時一度接近1.5萬美元，表現(xiàn)最佳。Grok 4次之，目前持倉總市值在1.33萬美元附近。這兩個模型主要通過做多比特幣和以太坊獲利。Claude主要交易瑞波幣和以太坊，Qwen則專注于以太坊，兩者收益位列三四，但也整體跑贏比特幣現(xiàn)貨走勢。相比之下，GPT 5和Gemini出現(xiàn)了明顯虧損，目前持倉總市值分別為7300美元和6900美元，意味著兩個模型已虧損約2700和3100美元，表現(xiàn)最差。

nof1.ai表示，進行這一競賽是為了讓基準測試更貼近真實世界，金融市場是最理想的試煉場，因為這類市場具有動態(tài)性、對抗性、開放性與高度不可預測性。這些特質(zhì)能以靜態(tài)測試無法企及的方式真正挑戰(zhàn)人工智能。nof1.ai未提到本次競賽的具體結(jié)束時間，只表示第一季將運行數(shù)周，隨后推出重大更新的第二季。有分析認為，市場早已期待在DeFAI方向上出現(xiàn)殺手級應用，讓LLM參與鏈上博弈有很大的想象空間。

(責任編輯：zx0001)

關(guān)閉

全球六大頂級AI實盤廝殺 DeepSeek第一 真金白銀交易比拼

相關(guān)新聞

今日熱點

頻道熱點

全球六大頂級AI實盤廝殺 DeepSeek第一真金白銀交易比拼