首页资讯财经理财股票基金投资金融银行行情宏观企业产经

当前位置：第一投资网 > 资讯 > 正文

人类的考试，考验不了AI了

来源：投资界时间：2025-07-20 17:06:34 阅读量：7767次

2017年5月，当时世界围棋*的柯洁惨败于AlphaGo，在机器是否会比人类更聪明这个事关全人类尊严的问题上，我们*次有了一个确定性的答案。

一年前尚且能赢一局的李世石，成为人类棋手在AI面前最后的夕阳。

不过，人类善于寻找理由，比如将智力转换为更复杂且难以解释的“智慧”，那就显得我们还在赢，还有是更“高级的”赢法。而且作为在智慧这条路径上的先行者，人类可以既做选手又做裁判，给出一套套的测试标准，美其名曰测试AI，AI超过了人类水平，那是人类推动的科技进步，AI没有超过人类，那人类再次赢赢赢。

但“青出于蓝而胜于蓝”这件事，虽然人类希望AI快点做到，可当快到像迎面而来的一阵冰雹猛地砸到脸上时，绝大多数人还是会不适应到懵逼。

最初，我们轻松地用游戏来测试AI，现在，人类能参与地最难的考试，也即将无法用来考验AI了。

在一个周前，马斯克发布了最新版的Grok-4，这款大模型，用老马的话来说，“比所有领域的博士都聪明”。

而其在各项考试中的成绩，可以说是怪物般的存在:

我们比较熟悉的SAT和GRE考试几乎满分，不太熟悉但更难的考试，GPQA准确率为88.9%，AIME25(美国数学邀请赛)准确率为100%，USAMO25(美国数学奥林匹克竞赛)准确率为61.9%。

最引人注目的是“人类最后的考试”，听这个名字，大家就能知道它代表的意思。

这个考试是由Scale AI 和 Center for AI Safety发布的，包含3000个高难度的问题，涉及超过100个学科，题目来自数百位不同领域的专家，可以说，这套试题涵盖了人类智力任务中*挑战性的部分，足以用来衡量AI是否具备“类人智能”。

其中题目分为两类，一类是简答题，需要输出一个完全匹配的字符串作为答案，另一类是选择题(Multiple-Choice Questions)，需要从五个或更多选项中选择一个正确答案。

不过，前者占到了80%，而且数学相关的题目占到了全部问题的42%，所以不要指望碰运气能刷出高分。

来自题库的题目之一，感受一下无知的痛苦吧

据说，以普通人的水平，大概能答对5%的题目，而当时的大模型也纷纷折戟，没有一个能超过10%。你问人类最多能打多少分？这不重要，反正题目也是人类出的。

但Grok-4的出现，却让AI通过“人类最后的考试”的时间大大缩短了，达到了50.7%的准确率，成为*突破50%的大模型。

这个分数，高的惊人，但因为考试的难度过大，距离大家的生活又太远，所以很难直观的说明有多难得，不过好在，后来笔者找到了一个差不多所有中国人都能理解的参考系。

在Grok-4发布的差不多同一时间，上海交大联合深势科技团队，使用 DeepSeek-R1-0528 作为驱动智能体的推理模型，在“人类最后的考试”上拿下了32.1%的新纪录，可以说代表着国内大模型的最高水平。

而大概一两周之前，国内的大模型正在集体测试另一套“国民考试”——高考试题。

比如，字节跳动Seed 团队就用最新推出的通用模型 Seed1.6 对2025年山东卷高考真题进行测试，语数外采用新课标全国Ⅰ卷，其余科目为山东省自主命题，满分750分，并找来了两位来自重点高中、有联考判卷经验的高中老师进行匿名评估和多轮质检。

所以，以高考试卷为标准，那么DeepSeek和豆包、混元间几十分的差距，是考上985和考上清北的差距；而以HLM为标准，DeepSeek和 Grok-4 差了接近40%的分值……

“比所有领域的博士都聪明”的真假还不确定，但在刚刚高考完的这一届高三考生中，文科成绩能超过AI的真的不多了。也许下一年，大模型们的高考成绩，就要彻底吊打人类考生了，能考上清北的人被称为天才，但天才努力跨过的门槛，只是AI的保底志愿。

但我更倾向于认为，就像人们对AI在围棋领域对人类的碾压再无兴趣一般，高考，还有其他人类能参与的考试，包括“人类最后的考试”，最终都会呈现AI一边倒的*优势，以至于让人习以为常。

可能到时候，人类会制定新的考试，但不再考虑将人类和AI进行对比，而是AI之间纯粹的竞赛；也可能将不存在这样的考试或者变得很少，人们将更关注AI的应用落地和性价比，毕竟人类也好，AI也好，考试都只是过程之一，创造出价值才是最终的目的和结果。

不过到那时，人类在智慧上的优越感，又要靠什么来维持呢？

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

猜您喜欢

小米RedmiK60Pro手机限时 感谢IT之家网友瓦特Watt、偏科骚黄4100只眼、番茄炒西红柿的线索投递！8GB+256GB到手价3299元12GB+...

券商降薪网友表示很有必要｜思维生活 一直以来，国内银行、券商、基金行业的薪酬待遇就处于全行业的偏高水平。Choice数据显示，2021年上市券商中，有29家...

政策暖风劲吹，“三桶油”的新能源投 澎湃新闻获悉，4月4日，国家能源局组织召开加快油气勘探开发与新能源融合发展启动会。国家能源局党组成员、副局长任京东主持会...

OpenAI发帖介绍如何确保AI安 ，美国当地时间周三，OpenAI发帖，详细介绍了其确保AI安全的方法，包括进行安全评估、改进发布后的保障措施、保护儿童以...

任天堂经典游戏《宝可梦竞技场2》将 ，任天堂宣布，经典游戏《宝可梦竞技场2》将于4月12日加入到SwitchOnline+扩展高级会员所拥有N64游戏库中。...

导师带徒传薪火座谈交流送春风 4月3日，中铁武汉电气化局一公司潍烟项目部举行ldquo;导师带徒rdquo;拜师仪式暨2023年度大学生座谈会。ldq...