2025-12-28 09:08:14
北京大學化學與分子工程學院舉辦特殊期中考,174名學生與GPT等AI同場競技,測試SUPERChem題庫。該題庫500題源自高難度試題和前沿文獻改編,旨在考察AI科學推理能力。結(jié)果顯示,AI成績僅與低年級本科生相當,處理視覺信息、高階任務(wù)時存在明顯短板。目前SUPERChem已開源,團隊希望它能成為公共財富,催化技術(shù)爆發(fā)。
每經(jīng)編輯|畢陸名
據(jù)北京大學24日消息,在北京大學化學與分子工程學院,有機化學考試是許多同學痛并快樂著的挑戰(zhàn)。然而,期中考前突如其來的一條通知,卻讓這場考試的氣氛變得不同尋常:
“請注意,本次考試范圍不僅限于有機化學?!?/p>
但比起考試范圍的變化,考場里迎來的一批“特殊考生”,更讓人意想不到。
它們不需要落座,也無需紙筆。它們是GPT、Gemini、DeepSeek……這些當下世界上最聰明的AI,正在云端與174位北大化學與分子工程學院的大二學生同場競技。
這是一場精心設(shè)計的“圖靈測試”,也是北大科研團隊為大語言模型投下的一塊“試金石”。
近日,北京大學化學與分子工程學院聯(lián)合北大計算中心、計算機學院、元培學院團隊,發(fā)布了最新成果SUPERChem。近期,他們以一套“北大試卷”為標尺,冷靜丈量著AI在科學推理上的真實邊界。

打開SUPERChem的題庫,一種“壓迫感”撲面而來。
晶體結(jié)構(gòu)的精細解析、反應(yīng)機理的深度推演、物化性質(zhì)的定量計算……這500道題目并非來自網(wǎng)絡(luò)上隨手可得的公開題庫,而是源于對高難度試題和前沿專業(yè)文獻的深度改編。
為什么要費盡周折重新出題?
“因為大模型太會‘背書’了。”團隊成員解釋道?;ヂ?lián)網(wǎng)可及的測試題大多已被博聞強識的AI在訓練階段熟讀。而化學,恰恰是一門不能只靠死記硬背的學科。它既有嚴密的邏輯推演,又充滿了對微觀世界的空間想象。“我們非常好奇,大語言模型的一維next token prediction,能否解決二維、甚至三維空間中的復(fù)雜推理問題。”
要設(shè)計一套讓AI“沒見過”、必須靠硬實力推理的題目,難度極高。然而,這正是北大化院的獨特優(yōu)勢所在。近百名師生——其中不乏奧賽金牌得主——集結(jié)起來,決定給AI出一套高門檻、重推理、防作弊的試卷。
他們要考的,是AI是否真的“懂”化學。
設(shè)計題目往往是枯燥的,但這群年輕的北大人卻把它變成了一場“游戲”。
為了構(gòu)建這套高質(zhì)量評估集,團隊搭建了一個專屬協(xié)作平臺。在這里,出題、審題、修題從單調(diào)的任務(wù),變成了一套循序漸進的“通關(guān)”流程。成員們在平臺上協(xié)作,互相審閱、彼此“找茬”,讓嚴謹?shù)目茖W探討與活躍的思維碰撞交織共融。
團隊還引入了積分激勵系統(tǒng),讓出題過程就像在游戲中打怪升級。一道題目需歷經(jīng)編寫初稿、撰寫解析,再通過初審與終審的嚴格審核,每個環(huán)節(jié)均由不同的同學把關(guān),并發(fā)放相應(yīng)的積分。終審?fù)ㄟ^的題目,甚至最多迭代過15個版本。

考試成績揭曉。
在這場精心設(shè)計的考試中,人類展現(xiàn)出了復(fù)雜的科學直覺。作為基線,參與測試的北大化院本科生取得了40.3%的平均準確率。這個數(shù)字本身,就足以說明這套題目的硬核程度。
而AI的表現(xiàn)如何?
即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當。


讓團隊感到意外的是視覺信息帶來的困惑?;瘜W的語言是圖形,分子結(jié)構(gòu)、反應(yīng)機理圖蘊含著關(guān)鍵信息。然而對于部分模型而言,當引入圖像信息時,其準確率不升反降。這說明,當前的AI在將視覺信息轉(zhuǎn)化為化學語義時,仍存在明顯的感知瓶頸。

然而,即使選對了答案,解題步驟也可能經(jīng)不起推敲。因此,團隊為每一道題目都標注了詳細的評分規(guī)則。在SUPERChem這臺“顯微鏡”下,AI是真懂還是裝懂,一目了然。
團隊發(fā)現(xiàn),AI的推理鏈條往往斷裂于產(chǎn)物結(jié)構(gòu)預(yù)測、反應(yīng)機理識別以及構(gòu)效關(guān)系分析等高階任務(wù)。當前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴密邏輯和深刻理解的硬核化學問題時,仍顯得力不從心。

SUPERChem的誕生,填補了化學領(lǐng)域多模態(tài)深度推理評測的空白。
團隊發(fā)布這項成果,并非為了證明AI的短板,而是為了推動它走得更遠。SUPERChem就像一個路標。它提醒我們:從通用的聊天機器人,到能夠理解構(gòu)效關(guān)系、推演反應(yīng)機理的專業(yè)科學助手,中間還有很長的一段路要走。那是從“記住知識”到“理解物理世界”的跨越。
目前,SUPERChem項目已全面開源。團隊希望這套源自北大的“試卷”,能成為全球科學與人工智能領(lǐng)域的公共財富,去催化下一次技術(shù)的爆發(fā)?;蛟S在不久的將來,當我們再次打開這張試卷時,AI能交出一份滿分的答卷。那將是化學與人工智能共同的驚喜。
我們選取了一道未能進入SUPERChem題庫的“簡單”題目,邀請你來體驗這場考試。
為紀念門捷列夫發(fā)現(xiàn)元素周期律150周年,國際純粹和應(yīng)用化學聯(lián)合會將2019年設(shè)為“國際化學元素周期表年”。門捷列夫預(yù)言了多種當時未知的元素,M即為其中之一。
M是一種銀白色金屬,質(zhì)軟,能溶于濃硫酸、硝酸、鹽酸和稀堿溶液。M與氧氣加熱至250°C反應(yīng),可得到淡黃色固體A,A經(jīng)SOCl2處理可得到亮黃色固體B,B也可由M與黃綠色氣體C直接加熱反應(yīng)得到;若將B與單質(zhì)氣體D加熱至200°C反應(yīng),則轉(zhuǎn)化為紅色固體E;將M直接溶于稀鹽酸,也可得到E的溶液;但若將鍍有M的鎂片溶于稀鹽酸,可以制得少量二元化合物F;F在常溫下為液體,不穩(wěn)定,其水溶液顯酸性;F能與金屬鉀反應(yīng),生成淡灰色固體G,并放出單質(zhì)氣體D。
根據(jù)上述信息,從以下選項選出正確的說法:
A:物質(zhì)M的原子序數(shù)和族數(shù)的奇偶性不同
B:鍍有M的鎂片與稀鹽酸反應(yīng),產(chǎn)物中Mg的化合價與A中M的化合價一樣
C:G具有反螢石結(jié)構(gòu)
D:由于空氣氧化,E溶液久置會轉(zhuǎn)化成含B溶液
每日經(jīng)濟新聞綜合北京大學
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP