苹果炮轰AI推理遭打脸,GitHub大佬神怒怼,复杂任务≠推理能力

日期:2025-06-10 10:30:24 / 人气:27


近期,苹果公司发表的预印本论文引发广泛关注,相关解读一夜刷屏。然而,GitHub高级软件工程师Sean Goedecke却对此怒不可遏,怒斥相关“流言”,一场关于AI推理能力的激烈争议就此展开。

苹果论文引发热议
苹果公司发表的预印本论文指出推理大模型存在重大缺陷。GitHub高级软件工程师Ruben Hassid发布的解读帖子在社交平台广泛传播,浏览量超1000万且持续增长。该解读认为苹果证明了Claude等AI推理模型根本不会思考。

但这一解读很快遭到质疑。在Reddit和黑客新闻等平台上,网友纷纷表示论文争议太大。GitHub高级工程师Sean Goedecke也对论文持保留态度,尽管他认为语言模型不是通往超级智能(ASI)的理想路径,但他通过用DeepSeek - V3测试发现,模型拒绝执行上千步的谜题推演,并非是推理能力崩溃,而是具备对自身能力边界的认知。

苹果论文核心内容
研究背景与方法
论文开篇指出,在数学和编程基准测试中,因存在污染且缺乏简明的复杂度量标准,大家不必太在意推理模型的表现。于是,研究团队选择使用四种人工谜题(汉诺塔的变体)环境,难度从单盘汉诺塔逐步上升到二十盘汉诺塔,再次评估推理模型。

核心结论
不同难度表现差异:对非常简单的谜题,非推理模型表现相当甚至更好,因为推理模型有时会“想太多”导致错误;对中等难度的谜题,推理模型明显更强;一旦任务复杂度足够高,即使是推理模型也无法给出正确答案。
内部思维轨迹分析:在简单问题中,正确答案几乎立刻出现;在中等问题中,需要更多推理步骤;在最困难的问题中,则根本不会出现。随着问题复杂度增加,模型在无法解决问题时会“躺平摸鱼”,停止推理。
提供算法的效果:将正确的谜题求解算法输入模型,效果并不显著,部分模型只能多解出一个盘。
Sean Goedecke三大质疑
谜题不是好例子
汉诺塔是一个更糟糕的推理测试案例。一方面,若担心数学和编程基准测试存在训练数据污染,选择训练数据中存在解法的知名谜题不合理;另一方面,推理模型是针对性地被训练用于数学和编程任务,而非谜题。用谜题测推理能力可能不相关,如同说“GPT - 3.5之后,写彼特拉克式十四行诗没有明显进步,所以语言模型并没真正取得进展”。

复杂度阈值未必固定
即使假设论文对谜题作为测试例子的质疑是错误的,模型在超过一定复杂性点后会放弃,但这并不意味着模型无法处理超出某一复杂度的问题。从对DeepSeek - R1的测试来看,模型在面对复杂问题时是不想进行上千步的推理,而不是不能完成,不能确定模型是否存在复杂性阈值。

复杂任务失败≠0推理能力
不能将“未完成复杂任务”等同于“不具备推理能力”。就像人类在面对高度重复、枯燥任务时可能选择中止,这体现的是认知边界,而非思维能力的缺失。模型在面对上百步算法时主动放弃,并非是推理能力崩溃,依然体现了推理能力。

总结与思考
Sean Goedecke认为苹果的论文《思维的幻觉》并非特别好,他不认同论文暗示的推理模型不擅长谜题的观点。他强调推理模型并非像论文暗示的那样不擅长这类谜题,放弃并不意味着无法推理,这更多体现的是认知边界,而非思维能力的缺失。

苹果的研究提供了重要提醒,当前语言模型的推理能力远非“通用智能”。这也引发我们思考如何定义“推理”以及如何测试“思维”,这可能是下一代AI必须直面的核心问题。

作者:汇丰娱乐




现在致电 xylmwohu OR 查看更多联系方式 →

COPYRIGHT 汇丰娱乐 版权所有