大蟀锅

发帖692|玫瑰598
花生: 620 粒
金币: 0 枚
等级:老虾级

关注TA

发短信

送礼物

发表时间：2024-7-19 09:22

楼主

回复主题查看资料只看该作者返回版面列表

分不清9.11和9.9大小，暴露大模型逻辑推理能力短板

大蟀锅发表在辣眼时评华声论坛 https://bbs.voc.com.cn/forum-76-1.html

　　
　　一道小学数学题，成功难倒了超过一半的大模型。近日，据第一财经报道，经测试，在“9.11和9.9两个数字哪个更大”这个基础的数学题上，国内外12个大模型之中只有4个答对了，剩下8个全都回答错误。在答错者中，还包括了知名的ChatGPT-4o。

　　数学相关的逻辑推理能力一直是当下大模型的短板。但一道小学生级别的数学题，却成了各家标榜成为“生产力升级”的大模型面前的绊脚石，这在公众舆论之中引发了不小争议。究其原因，是近期公众对于“大模型无所不能”的传统认知与大模型当下仍处在测试探索期的现实之间产生了冲突。

　　实际上种种迹象显示，大模型当前在纯数学问题上的真实能力应该就处在小学水平的区间。2023年底，OpenAI（美国人工智能研究公司）内部曾被曝光有一个代码为Q的“绝密大项目”，该项目正是致力于解决大模型在数学运算能力上的问题。

　　这一项目被曝光后在行业内引发了激烈争论。马斯克曾公开表示，“该项目对人类造成了威胁”。但经媒体报道，这样一个“威胁人类”的项目，其真实的纯数学逻辑运算能力只是小学生水平。

　　今年高考期间，有媒体同样用高考数学题“考验”了大模型，参与测试的7个大模型在高考数学上全部“不及格”，最高分也只有75分。

　　综合上述大模型真实的数学能力来看，这并不能理解为大模型有了高考数学75分的水平。更为准确的理解是，大模型是一个“不怎么懂数学运算、但懂得大量搜索文字资料分析”的主体，而75分是其可以通过资料搜集比对分析所能取得的最好成绩。

　　从这个角度看，外界认为大模型是“文科生”似乎也不算是一种偏见。当前用户可以感知到的大模型，是基于海量文本的相关性进行训练分析，从而达到文本生成的人类平均水平。

　　但是，除了文本的分析和生成之外，人类对信息的搜集分析处理中最重要的是推理能力，包括了逻辑推理、认知推理等。

　　数学运算是典型的逻辑推理能力。即根据前提条件给出符合逻辑或潜在逻辑关系的结论，而数学运算是用精确的语言和符号进行纯逻辑的推演，因此，如此理解的话，更能直观地感受到大模型的逻辑推理能力。

　　逻辑推理被认为是当前大模型最难攻克的一道关卡。而除了逻辑推理之外，对有限的碎片信息进行不断重组、搜寻以找到信息全貌等，类似于传统侦探推理小说所呈现的“碎片信息拼凑分析”，也在大模型当前的能力范围之外。

　　逻辑推理对于大模型的未来发展为什么重要？从应用场景上看，推理能力意味着可靠性和适配性的问题。

　　目前，大模型所展现的应用场景主要局限在资料分析、内容生成等领域，而在涉及数字分析、逻辑推演等行业领域，大模型的想象空间依然有限。很难想象，一个难以判断小数点后数字大小的大模型，能够在工业生产制造、金融计算等领域有广泛应用前景。

　　因此，国内外的大模型企业已经开始有意识地探索“如何训练大模型在特定条件下的推理能力”。此前所提及的OpenAI的内部项目，这几天也传出了新消息，该项目旨在提高大模型的“自主浏览和深度研究”能力，目前已经确认更名为“草莓”，并在行业内引发了进一步的讨论。

　　从消费者的角度看，如果希望大模型能够在数理分析、逻辑推理等领域成为有效助手，或许还有赖于大模型在推理训练上的下一阶段突破。但或许更值得思考的问题是：当大模型掌握了推理能力，那么，距离进一步攻破人类的思维活动或许就真的不远了。一些人对此有所担忧，人类真的做好准备了吗？

　　

精彩推荐

lsl2004

发帖88|玫瑰36
花生: 28 粒
金币: 14 枚
等级:新手上路

回复时间：2024-7-19 09:27

回复主题查看资料只看该作者返回版面列表

笑死，人工智能分不清小数点后的数字大小，看来还很初级

上扬45度

发帖38|玫瑰39
花生: 27 粒
金币: 14 枚
等级:新手上路

回复时间：2024-7-19 09:28

回复主题查看资料只看该作者返回版面列表

也是服了

shepherd52

发帖60|玫瑰36
花生: 27 粒
金币: 14 枚
等级:新手上路

回复时间：2024-7-19 09:29

回复主题查看资料只看该作者返回版面列表

人工智能也是分强弱的

山顶洞交警

发帖169|玫瑰36
花生: 28 粒
金币: 14 枚
等级:小虾客

回复时间：2024-7-19 09:30

回复主题查看资料只看该作者返回版面列表

9.11比9.9，转不过来；9.11比9.90，这样是不是就清晰一点

千千之手

发帖95|玫瑰36
花生: 28 粒
金币: 14 枚
等级:新手上路

回复时间：2024-7-19 09:31

回复主题查看资料只看该作者返回版面列表

挺离谱的

llx680712

发帖364|玫瑰36
花生: 30 粒
金币: 10 枚
等级:大虾辈

回复时间：2024-7-19 09:32

回复主题查看资料只看该作者返回版面列表

所以这些大模型都是同根同源？

vanciue

发帖14|玫瑰36
花生: 28 粒
金币: 14 枚
等级:新手上路

回复时间：2024-7-19 09:33

回复主题查看资料只看该作者返回版面列表

也就是要像小学初中生一样，大量刷题

xuyao1982

发帖9|玫瑰36
花生: 27 粒
金币: 14 枚
等级:新手上路

回复时间：2024-7-19 09:35

回复主题查看资料只看该作者返回版面列表

人都搞不清楚

耶加雪菲

发帖566|玫瑰233
花生: 345 粒
金币: 7 枚
等级:大虾辈

回复时间：2024-7-19 09:36

回复主题查看资料只看该作者返回版面列表

不是这都搞不清楚的是不是没上过小学啊

让雅克米歇尔

发帖1506|玫瑰89
花生: 98 粒
金币: 14 枚
等级:英雄

回复时间：2024-7-19 09:37

回复主题查看资料只看该作者返回版面列表

说明都是抄袭，一错全错

无虹雨

发帖27|玫瑰36
花生: 27 粒
金币: 44 枚
等级:新手上路

回复时间：2024-7-19 09:38

回复主题查看资料只看该作者返回版面列表

别说AI,很多人也分不清

蚂蚁胖子

发帖16|玫瑰36
花生: 28 粒
金币: 14 枚
等级:新手上路

回复时间：2024-7-19 09:39

回复主题查看资料只看该作者返回版面列表

这是训练模型，本身就是不断完善的

耿浚枫

发帖217|玫瑰36
花生: 29 粒
金币: 14 枚
等级:小虾客

回复时间：2024-7-19 09:40

回复主题查看资料只看该作者返回版面列表

钉钉上的AI助理完败

sdslmwg

发帖9531|玫瑰60
花生: 317 粒
金币: 20 枚
等级:掌门元老

回复时间：2024-7-21 06:23

回复主题查看资料只看该作者返回版面列表

什么都不是万能的！技术在先进也是有漏洞的

你的用户名:

密码: 免费注册（只要30秒）

使用个人签名

华声贴图易（轻松贴组图）

精彩推荐

提高老年人接种率是防疫“关键一招”

房贷可以缓交吗

微光成炬和逆行的医者一同守“沪”

热点话题

中国记者节｜央视特别节目《好记者讲好故事》

·揭秘这与世隔绝的“女巫集中营”	·神州霾伏，中国还不能忽略的三个人	·远离那些只抢红包不发红包的人
·英国木匠发明“水上行走器”上演奇迹“水上漂”	·范冰冰挚友雌雄难辨比明星还抢镜	·说康熙与乾隆两帝死于“雾霾”靠谱吗？
·种香死人馅饼做法简单易学哦	·宋代“娱乐圈”生态：女艺人收入高	·战机侧颜也很美:中美俄五代机同角度比较

会员登录
用户名 UID	30秒立即注册
密码	忘记密码
有效期	一年一月一天不保存登录帮助

分不清9.11和9.9大小，暴露大模型逻辑推理能力短板

分不清9.11和9.9大小，暴露大模型逻辑推理能力短板

精彩推荐

热点话题

24小时热帖榜

论坛活动