高考,作為一項涵蓋廣泛學(xué)科和題型的考試,因其考前的高度保密性,被視為中國最具權(quán)威性的測試之一。近期,它成為了評估高級人工智能模型智力水平的重要工具。上海人工智能實驗室的OpenCompass平臺挑選了7個頂尖的人工智能模型,讓它們參加了包括語文、數(shù)學(xué)、英語在內(nèi)的全科目模擬高考。
測試結(jié)果于6月19日公布,阿里通義千問2-72B以303分的總分位居榜首,緊接著是OpenAI的GPT-4o,得分為296分,而上海人工智能實驗室的書生·浦語2.0則獲得第三名。這三個模型的得分均超過了70%的及格線,而法國初創(chuàng)公司Mistral的模型則排名最后。
參與這次測評的模型涵蓋了國內(nèi)外多家企業(yè)和機(jī)構(gòu),既有開源的也有如GPT-4o這樣的閉源模型。值得注意的是,為了確保公平性,僅選取了在考前已公開的模型,避免了可能的針對性訓(xùn)練。
測試顯示,盡管這些大模型在語文和英語科目中表現(xiàn)出色,但它們的數(shù)學(xué)成績普遍不佳,無一及格。其中數(shù)學(xué)最高分75分出自書生·浦語2.0,GPT-4o緊隨其后,得了73分。語文最高分歸于通義千問,而英語則是GPT-4o領(lǐng)先。
數(shù)學(xué)成為大模型面臨的一大挑戰(zhàn),它要求復(fù)雜的推理能力,這對于模型在金融、工業(yè)等領(lǐng)域?qū)崿F(xiàn)可靠應(yīng)用至關(guān)重要。上海人工智能實驗室的領(lǐng)軍人物林達(dá)華指出,復(fù)雜推理直接關(guān)聯(lián)到模型在諸如金融場景中的數(shù)據(jù)準(zhǔn)確性,以及處理專業(yè)文檔時的精確計算能力,這些是當(dāng)前大模型應(yīng)用向更嚴(yán)肅商業(yè)環(huán)境擴(kuò)展的障礙。
此次評測遵循全國新課標(biāo)I卷的標(biāo)準(zhǔn),全面考核了客觀題與主觀題,由具有高考閱卷經(jīng)驗的教師匿名評分。閱卷過程中,教師們并不知道回答來自AI模型,以確保評價的公正性。然而,大模型的錯誤模式與人類不同,這給教師評分帶來一定挑戰(zhàn),故每題至少由三位教師評分并取平均值,對于評分差異大的題目還進(jìn)行了復(fù)核。
閱卷完成后,教師們得知他們評分的對象實為AI模型,并受邀對模型的表現(xiàn)進(jìn)行了綜合分析,為未來模型的改進(jìn)提供了方向。教師們的反饋揭示了模型在各個科目上的強(qiáng)項與不足:模型在現(xiàn)代文閱讀理解上表現(xiàn)良好,但在文言文理解和作文創(chuàng)意表達(dá)上顯現(xiàn)出局限;數(shù)學(xué)解題雖能記憶公式,卻缺乏靈活運(yùn)用;英語雖總體表現(xiàn)良好,但在特定題型和作文字?jǐn)?shù)控制上仍有待提高。此外,由于電子文本的特性,作文評分可能存在細(xì)微的主觀偏差。
昨日,一場別開生面的線上祝?;顒游吮姸嗉磳⒉饺敫呖伎紙龅膶W(xué)生們的注意。
2024-06-07 17:18:00祖沖之評論區(qū)變許愿池