174名北大學(xué)生迎特殊考試：對決AI 探索科學(xué)推理邊界

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-12-26 21:58:03 人民日報

近日，北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合北大計算中心、計算機學(xué)院、元培學(xué)院團隊發(fā)布了最新成果SUPERChem。他們以一套“北大試卷”為標尺，冷靜丈量著AI在科學(xué)推理上的真實邊界。

打開SUPERChem的題庫，一種壓迫感撲面而來。晶體結(jié)構(gòu)的精細解析、反應(yīng)機理的深度推演、物化性質(zhì)的定量計算……這500道題目并非來自網(wǎng)絡(luò)上隨手可得的公開題庫，而是源于對高難度試題和前沿專業(yè)文獻的深度改編。為什么要費盡周折重新出題？團隊成員解釋說，因為大模型太會“背書”了。互聯(lián)網(wǎng)可及的測試題大多已被博聞強識的AI在訓(xùn)練階段熟讀。而化學(xué)，恰恰是一門不能只靠死記硬背的學(xué)科，它既有嚴密的邏輯推演，又充滿了對微觀世界的空間想象。設(shè)計一套讓AI“沒見過”、必須靠硬實力推理的題目，難度極高。近百名師生集結(jié)起來，決定給AI出一套高門檻、重推理、防作弊的試卷，要考的是AI是否真的“懂”化學(xué)。

設(shè)計題目往往是枯燥的，但這群年輕的北大人卻把它變成了一場“游戲”。為了構(gòu)建這套高質(zhì)量評估集，團隊搭建了一個專屬協(xié)作平臺。在這里，出題、審題、修題從單調(diào)的任務(wù)，變成了一套循序漸進的“通關(guān)”流程。成員們在平臺上協(xié)作，互相審閱、彼此“找茬”，讓嚴謹?shù)目茖W(xué)探討與活躍的思維碰撞交織共融。團隊還引入了積分激勵系統(tǒng)，讓出題過程就像在游戲中打怪升級。一道題目需歷經(jīng)編寫初稿、撰寫解析，再通過初審與終審的嚴格審核，每個環(huán)節(jié)均由不同的同學(xué)把關(guān)，并發(fā)放相應(yīng)的積分。終審?fù)ㄟ^的題目，甚至最多迭代過15個版本。在化學(xué)學(xué)院的一間間會議室里，靈感的火花不斷閃現(xiàn)、碰撞、淬煉，最終沉淀為一套含金量極高的基準測試。

考試成績揭曉。在這場精心設(shè)計的考試中，人類展現(xiàn)出了復(fù)雜的科學(xué)直覺。作為基線，參與測試的北大化院本科生取得了40.3%的平均準確率。這個數(shù)字本身足以說明這套題目的硬核程度。而AI的表現(xiàn)如何？即便是接受測試的頂尖模型，其成績也僅與低年級本科生的平均水平相當。團隊感到意外的是視覺信息帶來的困惑?；瘜W(xué)的語言是圖形，分子結(jié)構(gòu)、反應(yīng)機理圖蘊含著關(guān)鍵信息。然而對于部分模型而言，當引入圖像信息時，其準確率不升反降。這說明當前的AI在將視覺信息轉(zhuǎn)化為化學(xué)語義時，仍存在明顯的感知瓶頸。即使選對了答案，解題步驟也可能經(jīng)不起推敲。因此，團隊為每一道題目都標注了詳細的評分規(guī)則。在SUPERChem這臺“顯微鏡”下，AI是真懂還是裝懂，一目了然。團隊發(fā)現(xiàn)，AI的推理鏈條往往斷裂于產(chǎn)物結(jié)構(gòu)預(yù)測、反應(yīng)機理識別以及構(gòu)效關(guān)系分析等高階任務(wù)。當前的頂尖模型雖然擁有海量的知識儲備，但在處理需要嚴密邏輯和深刻理解的硬核化學(xué)問題時，仍顯得力不從心。

SUPERChem的誕生填補了化學(xué)領(lǐng)域多模態(tài)深度推理評測的空白。團隊發(fā)布這項成果并非為了證明AI的短板，而是為了推動它走得更遠。SUPERChem就像一個路標，提醒我們：從通用的聊天機器人到能夠理解構(gòu)效關(guān)系、推演反應(yīng)機理的專業(yè)科學(xué)助手，中間還有很長的一段路要走。那是從“記住知識”到“理解物理世界”的跨越。目前，SUPERChem項目已全面開源。團隊希望這套源自北大的“試卷”，能成為全球科學(xué)與人工智能領(lǐng)域的公共財富，去催化下一次技術(shù)的爆發(fā)?；蛟S在不久的將來，當我們再次打開這張試卷時，AI能交出一份滿分的答卷，那將是化學(xué)與人工智能共同的驚喜。

(責(zé)任編輯：0764)

關(guān)閉

174名北大學(xué)生迎特殊考試：對決AI 探索科學(xué)推理邊界

相關(guān)新聞

今日熱點

頻道熱點