用DeepSeek挑戰(zhàn)中科院物理所競賽題 AI表現(xiàn)亮眼

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-31 09:01:43 觀察者網(wǎng)

近日，中科院物理所在江蘇省溧陽市舉辦了“天目杯”理論物理競賽，并用DeepSeek-R1、GPT-o1和Claude-sonnet三個(gè)AI模型對競賽試題進(jìn)行了測試。結(jié)果顯示，DeepSeek-R1表現(xiàn)最佳。

我國“深度求索”公司發(fā)布的開源大模型DeepSeek-R1引起了全球關(guān)注。在此之前，美國OpenAI公司的GPT-o1、Anthropic公司的Claude以及Google公司的Gemini等模型都聲稱具備深度思考和推理能力。這些模型在各種測試中表現(xiàn)出色，特別是Google的專用模型AlphaGeometry在國際奧林匹克數(shù)學(xué)競賽中取得了28/42的成績，獲得銀牌。這引發(fā)了人們的好奇，這些強(qiáng)大的AI在物理方面的水平如何。

1月17日，中科院物理所舉辦了“天目杯”理論物理競賽。命題組完成了試卷的出題工作，七道題目大部分是原創(chuàng)，旨在考察實(shí)際科研中的具體技術(shù)問題。競賽結(jié)束后，團(tuán)隊(duì)決定測試幾個(gè)有代表性的AI模型。他們選擇了DeepSeek-R1、GPT-o1和Claude-sonnet進(jìn)行測試。

測試過程包括8段對話，首先交代任務(wù)和格式要求，然后依次發(fā)送題干，每道題目由文字描述和圖片描述組成（第三、五、七題無圖）。所有模型收到的文字材料相同。閱卷方式與人類選手相同，最終匯總得分。

測試結(jié)果顯示，DeepSeek-R1表現(xiàn)最好，基礎(chǔ)題滿分，第六題也得到了滿分，但在第七題上因未能理解題干中“證明”的含義而失分。GPT-o1總分接近DeepSeek，但有一些計(jì)算錯(cuò)誤。Claude-sonnet在前兩題中得分為零，但后續(xù)表現(xiàn)與GPT-o1相近。

如果將AI的成績與人類成績相比，DeepSeek-R1可以進(jìn)入前三名，但與最高分仍有差距；GPT-o1進(jìn)入前五名，Claude-sonnet則排在前十名。閱卷過程中發(fā)現(xiàn)，AI思路清晰，但容易在簡單錯(cuò)誤中打轉(zhuǎn)，且似乎不完全理解“嚴(yán)密”證明的要求。此外，AI也會(huì)出現(xiàn)偶然性錯(cuò)誤。

此次競賽還發(fā)布了試題參考答案，希望幫助學(xué)生學(xué)習(xí)并引發(fā)進(jìn)一步思考。

(責(zé)任編輯：于浩淙 zx0176)

關(guān)閉

用DeepSeek挑戰(zhàn)中科院物理所競賽題 AI表現(xiàn)亮眼

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)