点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:光明网评论员:AI作答高考卷,测出了什么?
首页> 时评频道> 光明网评论员 > 正文

光明网评论员:AI作答高考卷,测出了什么?

来源:光明网2024-06-24 11:37

  光明网评论员:大模型作答高考卷,一个有意思的实验: 2024年全国高考结束后,上海人工智能实验室的司南评测体系(Open Compass)选取了包括GPT-4o在内的中外6个开源模型,针对高考全国新课标I卷“语数外”三门课程进行了全卷能力测试。结果显示,阿里巴巴的Qwen2-72B语文成绩夺冠,124分;GPT-4o英语成绩居首(似毫无疑问),111分。6个大模型均是数学“学渣”,最高分也没有超过80分。

  大模型在高考季刷一下话题,很有趣,因为信息披露有限,也不必得出一些可以较真的结论。只是在测评中,也有一些大模型训练的蛛丝马迹可以捕捉,助人们更丰富地理解AI。

  比如,6个模型在语文卷中现代文阅读部分得分差距不大,却在文言文考题中差距极大,垫底的是来自法国Mistral的对话模型。这可以略窥不同模型在训练材料中的语言占比,感受一下欧洲大模型对汉语训练材料的看重程度到底几何。

  比如,阅卷老师表示,多数模型无法理解“本体”“喻体”“暗喻”等语文概念,写作文不像写作文,更像问答题。这是因为AI输出本质上是一种基于数据的模式匹配,而不是传递人的情感体验,因此无法生成文章之为文章的那个情感纽带,生成文章字里行间的“潜台词”,故而只有“回答”而不能“作文”。

  比如,6个大模型都折戟数学,远未达到及格水平。尤其耐人寻味的是,它们对数学主观题目的回答“具有迷惑性”,甚至出现了过程错误但答案正确的情况。这句话说白了就是,大模型没有足够的逻辑推理能力,但在学到人类这个深度能力之前,它先学会了用数据占有优势撒谎,还可以编造复杂谎言。(见光明网评论员文章《你被人工智能骗过么》

  实际上,“语数外”三科阅卷老师在整体点评时都提到了主观题的问题,除了语文数学上述问题之外,英语阅卷人也提出了大模型的作文超字问题——英语已经是三科中客观性最强的科目。这意味着,大模型在处理复杂上下文时可能会遇到困难,难以准确理解多义性、歧义性和语境变化。而这种多义性与歧义性,以及兼纵理性与情感的处理要求,恰恰是今天大模型们要进军的医疗、司法等领域决策过程的特征。

  在现实世界里,高考是选拔赛,也是成人礼。综合理解卷面上的问题与背后的考察意图,是“人”成熟的一个标识,继续社会化的重要准备。大模型“参加”这次高考,作为一个黑盒模型,决策过程难以解释,面对稍微复杂一点的语境,调试性又明显不足,看来还没到说成熟的时候。

  (转载请注明来源“光明网”,作者“光明网评论员”)

  【上一篇】限制“地沟油”出口也是发展绿色经济

光明网评论员:AI作答高考卷,测出了什么?

[ 责编:金凌冰 ]
阅读剩余全文(

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 生态环境明显改善

  • 改革开放持续深化

独家策划

推荐阅读
新时代中国式现代化的伟大实践,为理论创造提供了强大动力和广阔空间,为建构中国自主的知识体系奠定了坚实基础。
2024-09-19 11:05
随着技术的不断进步和应用的深入,数智化将为经济社会发展全面绿色转型带来更多的机遇和动力,助力中国实现美丽中国建设和“双碳”目标,为全球绿色低碳可持续发展贡献更大力量。
2024-08-15 10:22
网络梗”越来越成为网络空间讲好正能量故事的优良载体。加强“梗能力”建设,是推动党的创新理论高质量传播的重要途径。
2024-08-06 10:17
与“修昔底德陷阱”的预设恰恰相反,构建人类命运共同体遵循共商共建共享原则,推动平等有序的世界多极化和普惠包容的经济全球化向前发展。
2024-08-02 15:08
“碳中和”背景下,有必要将具有高碳汇水平且集中分布的区域纳入生态保护红线范围当中,实施具有规范性和制度化的用途管制策略。
2024-08-01 09:52
数字治理,本质上是数字技术向多元治理主体赋能增效的过程,其目的是在数据收集、分析、利用的基础上,从多个层面对治理系统的感知、决策和执行能力进行提升。
2024-07-10 17:13
在面对错综复杂的国际环境和百年未有之大变局时,我们更需要的是中国特色大国外交的理念,而非吸引眼球的所谓“理论”。
2024-06-21 16:53
面对复杂多变的国际形势,必须用好总体国家安全观这一强大思想武器,自觉运用其方法论原则武装头脑、指导实践,从整体上把握国家安全,不断开创新时代国家安全工作新局面。
2024-06-13 09:36
数字基础设施是数字经济发展的底座,是网络强国、数字中国建设的基石。要立足不同产业特点和差异化需求,推动经济产业全方位、全链条网络化、数字化、智能化转型。
2024-04-23 16:17
高质量构建“大思政课”工作体系要聚焦目标、效果和特色,着力破解思政课建设中的重点、难点和关键问题,带动思政课叙事表达体系和场景体验模式的深层变革。
2024-03-18 10:28
中华文化的主体性植根于5000多年的文化沃土,是在创造性转化、创新性发展中华优秀传统文化、传承革命文化、发展社会主义先进文化的基础上,借鉴吸收人类一切优秀文明成果的基础上建立起来的。
2024-03-08 16:31
数字化网络化智能化加速发展,各国既面临着新的发展机遇,也需要应对新的全球性问题,国际社会迫切需要携手合作,共同打造和平、安全、开放、合作的网络空间,携手构建网络空间命运共同体。
2024-03-01 14:51
中华民族传统节日春节即将到来。值此之际回望2023年,中国经济主要预期目标圆满实现。展望新的一年,我国经济发展依然将面临一些困难和挑战,但同时也具有体量大韧性强创新后劲足的竞争优势、宏观经济政策回旋空间大的支撑效应、新一轮全面深化改革开放的增长红利等三重有利支撑。
2024-02-09 16:37
要聚焦新时代新征程党的中心任务,以加快政府职能转变和优化政府职责体系为重点,在“加减乘除”上做文章,推进机构改革再深化,为在新征程上全面推进中国式现代化提供新动力。
2024-01-30 11:31
面对不断升级的数字社交产品,反而需要青年人意识到沉浸式社交环境背后的营销策略与运作逻辑,从而与社交媒体生成的感官刺激与虚拟自我保持距离。
2024-01-15 09:41
“人民美好生活需要”的提出,内含着马克思主义的价值宗旨,体现社会主义的本质要求,根植于中国经济社会发展实际,符合中国共产党的初心使命,体现合规律性与合目的性的高度统一。
2024-01-12 09:39
冬至阳生,岁回律转。在新的一年,我们站在这一年的不易成果上,对未来充满信心,更加需要接续奋斗、砥砺前行,取得更多发展成果。
2024-01-04 15:35
针对目前思政课教师供给能力不能有效满足思政课强起来的发展需要这一突出矛盾,要切实提升教师供给能力,改进教学方式,推动新时代思政课朝着高质量发展。
2023-12-14 17:59
我国始终主动实行扩大进口的战略和政策,连续举办进口博览会,倡导开放合作,与既往的贸易保护理论和政策主张存在根本差异,为维护开放的世界经济注入了强大动力。
2023-11-09 10:22
加载更多