近期,上海人工智能實(shí)驗(yàn)室的官方微博分享了一則消息:司南評測體系OpenCompass啟動了首次針對大模型的“語數(shù)外”高考全科目能力測評,使用的是全國新課標(biāo)I卷作為測試基準(zhǔn)。這次特別挑選了六個開源模型,以及OpenAI的GPT-4o參與,所有開源模型的公開時間均早于高考日期,以保障測試環(huán)境的封閉性和公正性。評分工作則委托給具有實(shí)際高考閱卷經(jīng)驗(yàn)的教師執(zhí)行,確保評估結(jié)果貼近真實(shí)的閱卷標(biāo)準(zhǔn)。測試結(jié)果揭曉,阿里通義千問Qwen2-72B、OpenAI的GPT-4o以及書生·浦語2.0文曲星(InternLM2-20B-WQX)在眾多模型中脫穎而出,分列前三名,它們的得分率分別是72.1%、70.5%和70.4%。從整體表現(xiàn)看,這些模型在語言類科目上展現(xiàn)了較強(qiáng)的能力,語文科目的平均得分率達(dá)到67%,英語更是高達(dá)81%。相比之下,數(shù)學(xué)成為多數(shù)模型的弱項(xiàng),平均得分率低至36%。其中,InternLM2-20B-WQX在數(shù)學(xué)上獲得了最高分75分,盡管如此,這一成績?nèi)晕茨芸邕^及格線。
2024年,新高考1卷將在多個省份實(shí)施,涉及的地區(qū)包括浙江、江蘇、河北、山東、廣東、福建、湖北、湖南、安徽、江西等。
2024-06-07 13:17:12沒有浙江卷了