首個AI高考全卷評測結(jié)果發(fā)布:最高分303,數(shù)學(xué)全不及格
鈦媒體App 6月19日消息,上海人工智能實(shí)驗(yàn)室旗下司南評測體系OpenCompass選取了7個大模型進(jìn)行高考“語數(shù)外”全卷能力測試。OpenCompass發(fā)布了首個大模型高考全卷評測結(jié)果。語數(shù)外三科加起來的滿分為420分,此次高考測試結(jié)果顯示,阿里通義千問2-72B排名第一,為303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能實(shí)驗(yàn)室的書生·浦語2.0排名第三,三個大模型的得分率均超過70%。來自法國大模型初創(chuàng)公司的Mistral排名末尾。從結(jié)果來看,大模型的語文、英語考試水平普遍不錯,但數(shù)學(xué)都不及格,最高分也只有75分。
本文內(nèi)容僅供參考,不構(gòu)成投資建議,請謹(jǐn)慎對待。
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論
這一次高考也有大模型AI參加,不理想呀
這是在試一試,智能也不智能數(shù)學(xué)都不及格