查看原文
其他

AI大模型能答对几道高考数学题?



近日2024年高考作文题等高考相关话题引发热议“AI大模型做高考题”也成为一大看点

AI参加高考

数学能得多少分



悄悄问一句

高考数学题

你还看得懂吗?

或许我们看不懂

但大模型可以


近日

复旦大学NLP(自然语言处理)

实验室LLMEVAL团队

请来13位大模型“考生”

一起做2024年高考数学真题

结果怎样?


先说结论:

从整体来看

大模型们的“高考成绩”

都不算太高


OpenAI日前发布的

新一代旗舰大模型GPT-4o

与阿里云研发的通义千问

720亿参数大模型Qwen-72b

在两次测试中排名都靠前

正确率稳定在60%以上


部分大模型的表现

存在起伏与波动

如百川智能、字节跳动新近发布的

Baichuan4豆包大模型

分别在新I卷和新II卷客观题测试中

得分排名第一

但在另一场测试中

排名相对靠后



图源:复旦大学NLP实验室


根据两次评测结果

该团队发现

大部分测试大模型在简单题

(如选择题前三道)

有较好的准确率

而在中档题中表现一般

对于较难的题目

大模型们的准确率会更低

少部分题目甚至出现

 “全军覆灭”的情况 


人工智能这么“聪明”

为什么还会出错?


AI为什么会把题做错


测试发现让AI大模型做数学题仍是一个难度较大的挑战


首先文本输入格式的不同会对测试结果造成比较明显的干扰目前测试主要采用上传图片识别文本的方式这种方式更类似“人类”是对大模型能力的全面考验有的大模型还未做题
就先败在了AI识图这一步
其次

大模型的推理能力

仍有很大进步空间

较难的题目

对思维能力的考察要求更高

大模型的准确率也会更低


此外在多选题方面大多数模型表现不佳可见,面临复杂选项的时候大模型的准确率也会降低


虽然在解题方面AI大模型的短期表现还达不到完美但在攻克数学问题的路上AI的每一次进步都是对未来教育想象空间的开拓值得更多耐心与期待




点击文末“阅读原文”

进入世界互联网大会官网






相关阅读

加入大会会员,共塑数字未来

SpaceX “星舰”四战太空,这次成功了

中国5G“发牌”五周年,成绩如何

撰文/排版:李汶键 编辑:李飞 统筹:李政葳

参考丨复旦大学NLP实验室、澎湃新闻、机器之心、量子位

扫描二维码

关注我们


戳我~  一键进入官网

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存