考試成績揭曉。在這場精心設(shè)計的考試中,人類展現(xiàn)出了復(fù)雜的科學(xué)直覺。作為基線,參與測試的北大化院本科生取得了40.3%的平均準確率。這個數(shù)字本身足以說明這套題目的硬核程度。而AI的表現(xiàn)如何?即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當。團隊感到意外的是視覺信息帶來的困惑?;瘜W(xué)的語言是圖形,分子結(jié)構(gòu)、反應(yīng)機理圖蘊含著關(guān)鍵信息。然而對于部分模型而言,當引入圖像信息時,其準確率不升反降。這說明當前的AI在將視覺信息轉(zhuǎn)化為化學(xué)語義時,仍存在明顯的感知瓶頸。即使選對了答案,解題步驟也可能經(jīng)不起推敲。因此,團隊為每一道題目都標注了詳細的評分規(guī)則。在SUPERChem這臺“顯微鏡”下,AI是真懂還是裝懂,一目了然。團隊發(fā)現(xiàn),AI的推理鏈條往往斷裂于產(chǎn)物結(jié)構(gòu)預(yù)測、反應(yīng)機理識別以及構(gòu)效關(guān)系分析等高階任務(wù)。當前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴密邏輯和深刻理解的硬核化學(xué)問題時,仍顯得力不從心。
SUPERChem的誕生填補了化學(xué)領(lǐng)域多模態(tài)深度推理評測的空白。團隊發(fā)布這項成果并非為了證明AI的短板,而是為了推動它走得更遠。SUPERChem就像一個路標,提醒我們:從通用的聊天機器人到能夠理解構(gòu)效關(guān)系、推演反應(yīng)機理的專業(yè)科學(xué)助手,中間還有很長的一段路要走。那是從“記住知識”到“理解物理世界”的跨越。目前,SUPERChem項目已全面開源。團隊希望這套源自北大的“試卷”,能成為全球科學(xué)與人工智能領(lǐng)域的公共財富,去催化下一次技術(shù)的爆發(fā)。或許在不久的將來,當我們再次打開這張試卷時,AI能交出一份滿分的答卷,那將是化學(xué)與人工智能共同的驚喜。
近日,廣州、青島、成都等地取消了高一高二期末統(tǒng)考的消息引起了廣泛關(guān)注。這一話題在社交平臺上迅速登上熱搜,引發(fā)了家長們的熱議
2026-01-23 22:39:11多地中小學(xué)取消非畢業(yè)年級期末統(tǒng)考