近日,中科院物理所在江蘇省溧陽市舉辦了“天目杯”理論物理競賽,并用DeepSeek-R1、GPT-o1和Claude-sonnet三個(gè)AI模型對競賽試題進(jìn)行了測試。結(jié)果顯示,DeepSeek-R1表現(xiàn)最佳。
我國“深度求索”公司發(fā)布的開源大模型DeepSeek-R1引起了全球關(guān)注。在此之前,美國OpenAI公司的GPT-o1、Anthropic公司的Claude以及Google公司的Gemini等模型都聲稱具備深度思考和推理能力。這些模型在各種測試中表現(xiàn)出色,特別是Google的專用模型AlphaGeometry在國際奧林匹克數(shù)學(xué)競賽中取得了28/42的成績,獲得銀牌。這引發(fā)了人們的好奇,這些強(qiáng)大的AI在物理方面的水平如何。
1月17日,中科院物理所舉辦了“天目杯”理論物理競賽。命題組完成了試卷的出題工作,七道題目大部分是原創(chuàng),旨在考察實(shí)際科研中的具體技術(shù)問題。競賽結(jié)束后,團(tuán)隊(duì)決定測試幾個(gè)有代表性的AI模型。他們選擇了DeepSeek-R1、GPT-o1和Claude-sonnet進(jìn)行測試。
測試過程包括8段對話,首先交代任務(wù)和格式要求,然后依次發(fā)送題干,每道題目由文字描述和圖片描述組成(第三、五、七題無圖)。所有模型收到的文字材料相同。閱卷方式與人類選手相同,最終匯總得分。
測試結(jié)果顯示,DeepSeek-R1表現(xiàn)最好,基礎(chǔ)題滿分,第六題也得到了滿分,但在第七題上因未能理解題干中“證明”的含義而失分。GPT-o1總分接近DeepSeek,但有一些計(jì)算錯(cuò)誤。Claude-sonnet在前兩題中得分為零,但后續(xù)表現(xiàn)與GPT-o1相近。
如果將AI的成績與人類成績相比,DeepSeek-R1可以進(jìn)入前三名,但與最高分仍有差距;GPT-o1進(jìn)入前五名,Claude-sonnet則排在前十名。閱卷過程中發(fā)現(xiàn),AI思路清晰,但容易在簡單錯(cuò)誤中打轉(zhuǎn),且似乎不完全理解“嚴(yán)密”證明的要求。此外,AI也會(huì)出現(xiàn)偶然性錯(cuò)誤。
此次競賽還發(fā)布了試題參考答案,希望幫助學(xué)生學(xué)習(xí)并引發(fā)進(jìn)一步思考。
中國科學(xué)院大氣物理研究所退休職工洪鐘祥同志,中共黨員,因病醫(yī)治無效,于2024年12月6日在北京逝世,享年87歲。他曾擔(dān)任該所所長,對他的不幸逝世,我們表示沉痛的哀悼
2024-12-08 00:08:30中科院大氣物理所原所長逝世