鐠侯垶骞撻鐙€娼╅弶鈺傜懁缁楀本绋夐弽顓燁吘缂備焦绻勫▓鎴﹀灳濠婂啨鍋濈€瑰壊鍋婂▔锔界▔椤撯剝鍎夐柍銉嫹 鐠侯垳绮婇悙鑼嵁闂傚洤褰炵槐锟犳晬鐏炶壈鍘柛銉モ偓鐔虹濞戞挸绉烽崗妯跨疀閻e本娈i柣銊ュ缁椾焦绋夐鍐╃溄 鐠侯垱娼诲⿰鍜佺€查梺顓ㄧ导缁ㄦ椽宕i鍛潵缂佷勘鍨圭€垫ɑ绋夊鍛岛缂佷勘鍨圭€垫﹢鎯冮崟顏呯溄
鐠侯垶鎳熼崡鐐寸闁哄牄鍔岀亸鍐矗閹寸偞顫栭柍銉︾矋閹稿绋夋繝鍜佹斀閻犙勬緲濞呮帡鍨惧┑鍛憪婵犳洘鏌ㄩ〃灞炬交閸忓鍋撳⿰鍕瘻濞戞挸锕ョ槐鎾诲灳閿燂拷 鐠侯垶鎳犻崘銊ユ毇闁告劗澧楃€靛爼宕g€n喗鐐掗梻鍡楀濮o附娼忛妸锔炬Х闁哄嫬瀛╁Σ锔芥交濡顫ラ梻鈧敓锟� 鐠侯垳鎷犻弶鎴炲€i柣鏃€鐟ょ粭灞剧▕妤e啯鐣峰☉鎾卞€曠粭锝咁潰鐠佸磭鑹鹃柍銉︾矒濞存﹢妫侀柨顖楀亾濠靛娴嗛悹瀣船閹囨晬閿燂拷
鐠侯垳绮斿澶樻禈婵繆顔婂Ч澶嬶純閸涙番鍋ч柛瀣绾墎绮婚埀顒勫础閺囩喐顫滈悗娑崇畱閹斤拷 鐠侯垳鈧懓顑勯崬顒勫灳濠婂叄顐g▕閹邦剚绠戦柍銉︾箘閺佹捇骞€娓氬﹦绐楀┑鍌氱枃婢规挻绂嶉悜妯绘毆闁稿繈鍎甸悵锟� 鐠侯垶骞嬪Ο缁樼皻濞撴皜鍥舵澒濞戞梻鍠庣欢銏㈢礃閿燂拷:濞戞搩鍘剧欢銊︾┍閸曨亞瀹夊ù鐙呯稻濠р偓闁告艾鐭侀~妤佹償閿旂晫妲烽弶鍫嫹
发新帖  新投票  回帖  关闭侧栏
218450个阅读者,14条回复 | 打印 | 订阅 | 收藏
隐身或者不在线 大蟀锅
发帖693|玫瑰598
花生: 620
金币: 0
等级:闁奸娴囧▍銊х棯閿燂拷

发表时间:2024-7-19 09:22

分不清9.11和9.9大小,暴露大模型逻辑推理能力短板



大蟀锅 发表在 辣眼时评 华声论坛 https://bbs.voc.com.cn/forum-76-1.html

  
  一道小学数学题,成功难倒了超过一半的大模型。近日,据第一财经报道,经测试,在“9.11和9.9两个数字哪个更大”这个基础的数学题上,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误。在答错者中,还包括了知名的ChatGPT-4o。



  数学相关的逻辑推理能力一直是当下大模型的短板。但一道小学生级别的数学题,却成了各家标榜成为“生产力升级”的大模型面前的绊脚石,这在公众舆论之中引发了不小争议。究其原因,是近期公众对于“大模型无所不能”的传统认知与大模型当下仍处在测试探索期的现实之间产生了冲突。



  实际上种种迹象显示,大模型当前在纯数学问题上的真实能力应该就处在小学水平的区间。2023年底,OpenAI(美国人工智能研究公司)内部曾被曝光有一个代码为Q的“绝密大项目”,该项目正是致力于解决大模型在数学运算能力上的问题。



  这一项目被曝光后在行业内引发了激烈争论。马斯克曾公开表示,“该项目对人类造成了威胁”。但经媒体报道,这样一个“威胁人类”的项目,其真实的纯数学逻辑运算能力只是小学生水平。



  今年高考期间,有媒体同样用高考数学题“考验”了大模型,参与测试的7个大模型在高考数学上全部“不及格”,最高分也只有75分。



  综合上述大模型真实的数学能力来看,这并不能理解为大模型有了高考数学75分的水平。更为准确的理解是,大模型是一个“不怎么懂数学运算、但懂得大量搜索文字资料分析”的主体,而75分是其可以通过资料搜集比对分析所能取得的最好成绩。



  从这个角度看,外界认为大模型是“文科生”似乎也不算是一种偏见。当前用户可以感知到的大模型,是基于海量文本的相关性进行训练分析,从而达到文本生成的人类平均水平。



  但是,除了文本的分析和生成之外,人类对信息的搜集分析处理中最重要的是推理能力,包括了逻辑推理、认知推理等。



  数学运算是典型的逻辑推理能力。即根据前提条件给出符合逻辑或潜在逻辑关系的结论,而数学运算是用精确的语言和符号进行纯逻辑的推演,因此,如此理解的话,更能直观地感受到大模型的逻辑推理能力。



  逻辑推理被认为是当前大模型最难攻克的一道关卡。而除了逻辑推理之外,对有限的碎片信息进行不断重组、搜寻以找到信息全貌等,类似于传统侦探推理小说所呈现的“碎片信息拼凑分析”,也在大模型当前的能力范围之外。



  逻辑推理对于大模型的未来发展为什么重要?从应用场景上看,推理能力意味着可靠性和适配性的问题。



  目前,大模型所展现的应用场景主要局限在资料分析、内容生成等领域,而在涉及数字分析、逻辑推演等行业领域,大模型的想象空间依然有限。很难想象,一个难以判断小数点后数字大小的大模型,能够在工业生产制造、金融计算等领域有广泛应用前景。



  因此,国内外的大模型企业已经开始有意识地探索“如何训练大模型在特定条件下的推理能力”。此前所提及的OpenAI的内部项目,这几天也传出了新消息,该项目旨在提高大模型的“自主浏览和深度研究”能力,目前已经确认更名为“草莓”,并在行业内引发了进一步的讨论。



  从消费者的角度看,如果希望大模型能够在数理分析、逻辑推理等领域成为有效助手,或许还有赖于大模型在推理训练上的下一阶段突破。但或许更值得思考的问题是:当大模型掌握了推理能力,那么,距离进一步攻破人类的思维活动或许就真的不远了。一些人对此有所担忧,人类真的做好准备了吗?

  

隐身或者不在线 lsl2004
发帖88|玫瑰36
花生: 28
金币: 14
等级:闁哄倻澧楁晶婊勭▔婵犲懐鐔�

笑死,人工智能分不清小数点后的数字大小,看来还很初级

隐身或者不在线 上扬45度
发帖38|玫瑰39
花生: 27
金币: 14
等级:闁哄倻澧楁晶婊勭▔婵犲懐鐔�

也是服了

隐身或者不在线 shepherd52
发帖60|玫瑰36
花生: 27
金币: 14
等级:闁哄倻澧楁晶婊勭▔婵犲懐鐔�

人工智能也是分强弱的

隐身或者不在线 山顶洞交警
发帖168|玫瑰36
花生: 28
金币: 14
等级:閻忓繐绻楀▍銊р偓鐧告嫹

9.11比9.9,转不过来;9.11比9.90,这样是不是就清晰一点

隐身或者不在线 千千之手
发帖94|玫瑰36
花生: 28
金币: 14
等级:闁哄倻澧楁晶婊勭▔婵犲懐鐔�

挺离谱的

隐身或者不在线 llx680712
发帖364|玫瑰36
花生: 30
金币: 10
等级:濠㈠爢鍡橆仴閺夊牞鎷�

所以这些大模型都是同根同源?

隐身或者不在线 vanciue
发帖14|玫瑰36
花生: 28
金币: 14
等级:闁哄倻澧楁晶婊勭▔婵犲懐鐔�

也就是要像小学初中生一样,大量刷题

隐身或者不在线 xuyao1982
发帖8|玫瑰36
花生: 27
金币: 14
等级:闁哄倻澧楁晶婊勭▔婵犲懐鐔�

人都搞不清楚

隐身或者不在线 耶加雪菲
发帖565|玫瑰233
花生: 345
金币: 7
等级:濠㈠爢鍡橆仴閺夊牞鎷�

不是这都搞不清楚的是不是没上过小学啊

隐身或者不在线 让雅克米歇尔
发帖1506|玫瑰89
花生: 98
金币: 14
等级:闁煎浜跺▔锟�

说明都是抄袭,一错全错

隐身或者不在线 无虹雨
发帖27|玫瑰36
花生: 27
金币: 44
等级:闁哄倻澧楁晶婊勭▔婵犲懐鐔�

别说AI,很多人也分不清

隐身或者不在线 蚂蚁胖子
发帖16|玫瑰36
花生: 28
金币: 14
等级:闁哄倻澧楁晶婊勭▔婵犲懐鐔�

这是训练模型,本身就是不断完善的

隐身或者不在线 耿浚枫
发帖217|玫瑰36
花生: 29
金币: 14
等级:閻忓繐绻楀▍銊р偓鐧告嫹

钉钉上的AI助理完败

隐身或者不在线 sdslmwg
发帖9553|玫瑰60
花生: 320
金币: 20
等级:闁瑰搫鐭傚Λ顒勫礂閸愵厸鍋撻敓锟�

什么都不是万能的!技术在先进也是有漏洞的

发新帖 新投票
 回帖
查看积分策略说明快速回复主题
你的用户名: 密码:   免费注册(只要30秒)


使用个人签名

閻犲洨鍏橀埀顒€顦扮€氥劎鎮伴妸锕€鍓伴柛鎺戞鐞氼偊鏁嶉敓锟�闁哄嫬澧介妵姘辨偘閵婏箑鍓�
(请您文明上网理性发言!并遵守相关规定贴文发布前,请确认贴文内容完全由您个人创作或您得到了版权所有者的授权。版权声明
   

回顶部

[閺冭埖鏂傞崘娑楃皑] [缁儳鍍电拹鏉戞禈] [瑜伴亶鐓剁敮婵嗘禇] [鏉炵粯婢楁导鎴︽=] [閺冿拷 濞擄拷 閸栫 [38閳╁啰鏁撳ú绫� [閸楀骸锛愰弬鍥珔] [閸楀骸锛愰悧鍫濆] 閺傜増澧滄稉濠呯熅 閹舵洝鐦�&瀵ら缚顔�
************************ 閻楃澹婇悧鍫ユ桨閹恒劏宕橀敍锟�************************
鏉堬絿婧傞弮鎯扮槑 閸愭稐绨ㄧ拹鏉戞禈 閸愭稐绨ㄩ弶鍌濈殽 閹存ê褰舵搴濈隘 閻楄鏅ョ紒婵堢法 缂冩垵寮搁懛顏呭 閹藉嫬寮搁幗鍕 瑜拌精顫嬮弮鍓佲敄 闂婂厖绠伴崷鏉跨敨 FLASH鐢繂娴� 婵炲彉绠伴崗顐㈠捶
閸楀啫顨岄惂鐐偓锟� 閸濆牆鎼辩粭鎴g樈 閻忓本鎸夋稉鎾冲隘 妞规潙寮搁懛顏勫И 閹懏鍔呴柊鎺戠矕 闂€鎸庣煓缂冿拷 濠€鏍у础鐠佸搫娼ч崠锟�

Processed in 0.033545 s, 9 q - sitemap,