近日,北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合北大計算中心、計算機學(xué)院、元培學(xué)院團隊發(fā)布了最新成果SUPERChem。他們以一套“北大試卷”為標尺,冷靜丈量著AI在科學(xué)推理上的真實邊界。
打開SUPERChem的題庫,一種壓迫感撲面而來。晶體結(jié)構(gòu)的精細解析、反應(yīng)機理的深度推演、物化性質(zhì)的定量計算……這500道題目并非來自網(wǎng)絡(luò)上隨手可得的公開題庫,而是源于對高難度試題和前沿專業(yè)文獻的深度改編。為什么要費盡周折重新出題?團隊成員解釋說,因為大模型太會“背書”了?;ヂ?lián)網(wǎng)可及的測試題大多已被博聞強識的AI在訓(xùn)練階段熟讀。而化學(xué),恰恰是一門不能只靠死記硬背的學(xué)科,它既有嚴密的邏輯推演,又充滿了對微觀世界的空間想象。設(shè)計一套讓AI“沒見過”、必須靠硬實力推理的題目,難度極高。近百名師生集結(jié)起來,決定給AI出一套高門檻、重推理、防作弊的試卷,要考的是AI是否真的“懂”化學(xué)。
設(shè)計題目往往是枯燥的,但這群年輕的北大人卻把它變成了一場“游戲”。為了構(gòu)建這套高質(zhì)量評估集,團隊搭建了一個專屬協(xié)作平臺。在這里,出題、審題、修題從單調(diào)的任務(wù),變成了一套循序漸進的“通關(guān)”流程。成員們在平臺上協(xié)作,互相審閱、彼此“找茬”,讓嚴謹?shù)目茖W(xué)探討與活躍的思維碰撞交織共融。團隊還引入了積分激勵系統(tǒng),讓出題過程就像在游戲中打怪升級。一道題目需歷經(jīng)編寫初稿、撰寫解析,再通過初審與終審的嚴格審核,每個環(huán)節(jié)均由不同的同學(xué)把關(guān),并發(fā)放相應(yīng)的積分。終審?fù)ㄟ^的題目,甚至最多迭代過15個版本。在化學(xué)學(xué)院的一間間會議室里,靈感的火花不斷閃現(xiàn)、碰撞、淬煉,最終沉淀為一套含金量極高的基準測試。
近日,廣州、青島、成都等地取消了高一高二期末統(tǒng)考的消息引起了廣泛關(guān)注。這一話題在社交平臺上迅速登上熱搜,引發(fā)了家長們的熱議
2026-01-23 22:39:11多地中小學(xué)取消非畢業(yè)年級期末統(tǒng)考