全球六大主流大語言模型各自獲得一萬美元,在同一真實市場中進行實盤交易。上周六,美國人工智能研究實驗室nof1.ai在其“阿爾法競技場”平臺上舉辦了一場活動,給六個頂級模型一萬美元的真金白銀,讓它們下場交易。
這六大模型包括Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4和阿里通義的Qwen 3 Max。每個模型獲得10,000美元的真實資本,在交易所Hyperliquid上,以相同提示詞與輸入數(shù)據(jù)條件下,交易加密貨幣的永續(xù)合約。比賽的目標是將風險調(diào)整后的收益最大化,每個模型需自行產(chǎn)生超額收益、確定倉位、擇時交易并管理風險。
系統(tǒng)會提供當前時間、賬戶信息、持倉情況以及實時價格和指標等數(shù)據(jù),要求模型做出決策:如果持有倉位,是繼續(xù)持有還是平倉;如果空倉,是買入還是繼續(xù)觀望。經(jīng)過近60小時的激戰(zhàn)后,截至北京時間周一17:18,DeepSeek的持倉總市值接近1.4萬美元,收益率約40%,最高時一度接近1.5萬美元,表現(xiàn)最佳。Grok 4次之,目前持倉總市值在1.33萬美元附近。這兩個模型主要通過做多比特幣和以太坊獲利。Claude主要交易瑞波幣和以太坊,Qwen則專注于以太坊,兩者收益位列三四,但也整體跑贏比特幣現(xiàn)貨走勢。相比之下,GPT 5和Gemini出現(xiàn)了明顯虧損,目前持倉總市值分別為7300美元和6900美元,意味著兩個模型已虧損約2700和3100美元,表現(xiàn)最差。
nof1.ai表示,進行這一競賽是為了讓基準測試更貼近真實世界,金融市場是最理想的試煉場,因為這類市場具有動態(tài)性、對抗性、開放性與高度不可預測性。這些特質(zhì)能以靜態(tài)測試無法企及的方式真正挑戰(zhàn)人工智能。nof1.ai未提到本次競賽的具體結(jié)束時間,只表示第一季將運行數(shù)周,隨后推出重大更新的第二季。有分析認為,市場早已期待在DeFAI方向上出現(xiàn)殺手級應用,讓LLM參與鏈上博弈有很大的想象空間。
5月28日,DeepSeek小助手在官方交流群中發(fā)布通知稱,DeepSeek R1模型已完成小版本試升級,歡迎用戶前往官方網(wǎng)頁、App和小程序測試。API接口和使用方式保持不變
2025-06-04 07:40:32DeepSeek會在全球AI競爭中沉淪嗎11月13日,阿里巴巴秘密啟動了“千問”項目,基于Qwen最強模型打造一款同名個人AI助手——千問App,全面對標ChatGPT,加入全球AI應用的頂級競賽
2025-11-14 08:16:44阿里已抽調(diào)上百名工程師秘密辦公6月7日是2025年全國高考的第一天。上午語文考試結(jié)束后,作文題目在網(wǎng)絡(luò)上公布。武漢市第四十九中學高三語文組組長王罡使用AI大模型DeepSeek撰寫了一篇同題作文
2025-06-08 09:26:16如果DeepSeek來寫高考作文