o1带火的CoT到底行不行?新论文引发了论战


To CoT or not to CoT?

openai ο1 的诞生极大地提升了人们对 llm 推理能力和思维链(cot)的兴趣。一时之间,似乎思维链很快就会成为所有 llm 的标配,但思维链并非万能,就连 openai 自己也‍提到 o1 在某些任务上的表现并不比 gpt-4o 强,尤其是以语言为中心的任务。

近日,一篇来自德克萨斯大学奥斯汀分校、约翰·霍普金斯大学和普林斯顿大学的论文引发了热议,其模仿莎士比亚《哈姆雷特》的台词提出了一个对 AI 研究者和实践者来说至关重要的问题:To CoT or not to CoT?

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文标题:To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

论文地址:https://arxiv.org/pdf/2409.12183

GitHub 库:https://github.com/Zayne-sprague/To-CoT-or-not-to-CoT (待更新)

简单来说,这篇论文研究了思维链(CoT)技术帮助 LLM 解决各式问题的有效性。

首先,该团队分析了近期的相关文献,比较了 CoT 与直接回答方法(DA)的性能表现。

之后,他们使用 20 个数据集和 14 个当今主流的 LLM 在零样本提示和少样本提示设置下进行了实验。

图 1 简单总结了这两项研究的结果。

结果表明,CoT 能极大助益 LLM 解决涉及数学和符号推理的任务,至于其它任务,CoT 的效果并不显著甚至可能有损模型性能。

另一个发现是 CoT 能帮助提升执行计算和符号操作的执行步骤,但却比不上能使用外部工具的 LLM。这是什么意思呢?该团队发现,相比于使用直接回答方法,使用 CoT 时 LLM 能更好地生成可执行的形式化方案规划;但如果使用语言模型来生成方案规划,然后再使用外部符号解算器来求解该规划,性能表现还会更好一些。

这样的结果忽然让 CoT 的处境变得有点尴尬:在 CoT 有用的问题上,我们能使用外部工具做得更好;在另一些问题上,CoT 的能力又有限。

因此,该团队认为:「第一,很多广泛使用 CoT 解决的问题其实根本没必要使用 CoT:现在已有更高效方法,能以远远更低的推理成本取得相近的性能。第二,基于提示词的 CoT 不够用了,我们看到人们迫切地需要更复杂精妙的方法,比如基于搜索、交互式智能体或针对 CoT 进行过更好微调的模型的方法。」

文献研究

首先,该团队调研了近期的相关文献,比较了使用或不用 CoT 的提示词的效果。

具体指标和流程这里就不多介绍了。总之,他们从 110 篇论文(35 篇 ICLR 论文和 75 篇 NAACL 和 EACL 论文)中整理出了 1218 个实验结果,涉及 264 个数据集。之后,他们将这些相关任务分成了 14 类,表 1 展示了其中几类的定义。

文献研究结果

图 2 展示了 CoT 为不同类型的任务带来的性能增量,即使用 CoT 提示法取得的性能减去使用直接回答法取得的性能。

可以看到,在这些任务上,CoT 平均仅能带来 3.75% 的提升。其中 CoT 带来增益最大的三类任务分别是:符号推理、数学、逻辑推理。在这三个任务上,CoT 实现的平均性能为 56.9,而不使用 CoT 的表现为 45.5。而在其它任务上表现较好的个例(图中用黄色高亮标记出了 10 个),也或多或少与这三个任务有关。

但在其它任务上,CoT 的表现就没什么亮点了,平均成绩仅有 56.8,而就算不使用 CoT,直接回答法也能得到 56.1。该团队认为,这一点点提升甚至不能算作是提升,毕竟 CoT 的计算成本明显更高。

实验研究

除了研究近期文献,该团队也执行了实验,其中涉及到 20 个数据集和 14 个模型,并测试了零样本提示和少样本提示两种设置,见表 2。

实验研究结果

下面我们通过对一系列问题的解答来了解实验结果。

1.在哪些任务上,零样本 CoT 优于直接提示?

图 3 左展示了 CoT 在五个推理类别(见图 1 右)上带来的平均性能增益;图 3 右则是 CoT 在每个数据集上带来的平均性能增益。

可以看到,在非符号推理类别和数据集上,特别是那些主要包含常识(CSQA、PIQA、SiQA)、语言理解(WinoGrande)和阅读理解(AGI LSAT、ARC-Easy、ARC-Challenge)的问题上,零样本 CoT 和零样本直接回答的性能几乎没有区别。尽管这些数据集涉及推理,但 CoT 并没有带来增益。

相比之下,数学和符号类别(以及符号和半符号数据集)获得了更大的提升。CoT 在 MATH 和 GSM8k 上带来的增益分别高达 41.6% 和 66.9%。在 ContextHub 和 MuSR Murder Mysteries 等半符号数据集上,CoT 表现出了中等程度的增益。这些数据集需要应用逻辑规则才能得出答案,例如从简单的自然语言(ContextHub)或更复杂的常识性陈述(MuSR Murder Mysteries)中解析得到的一阶逻辑。

在少样本设置下得到的实验结果类似。

2.回答格式是否会影响 CoT 的有用性?

除了数学之外,许多常用的数据集都是多项选择题。该团队指出,对于两个非多项选择题的数据集(MuSiQue 和 BiGGen Bench,并且它们需要不同层级的非符号推理才能给出回答),CoT 的表现与直接回答相近。

因此,可以说回答格式对 CoT 的有用性的影响不大。并且,该团队还表示,预先针对正确响应进行规划或推理甚至可能妨碍 LLM 自由响应的能力。

3.CoT 在知识、软推理和常识推理方面带来的提升是否显著?

在 13 个涉及知识、软推理和常识推理的数据集上,该团队测试了 CoT 的表现,结果发现:答案是否定的,但 MMLU、StrategyQA 和 MuSR 是例外。在这三个数据集上,CoT 可以带来比较显著的增益。

详细研究 MMLU 和 MMLU Pro

MMLU 和 MMLU Pro 是两个范围广泛的数据集,因此很难简单地描述它们的特征。该团队详细研究了 CoT 在 MMLU 中每个类别上的性能表现,以了解 CoT 在不同领域的性能差异。

表 3 给出了 CoT 能为 Llama 3.1 8B 和 70B 在 MMLU 和 MMLU Pro 上带来最显著提升的三个类别。

可以看到,其中一些与数学有关,这不出人意料,但也有的属于「商业」等类别。不过更进一步研究发现,这些类别通常也涉及数学(比如资产计算等)。

因此,该团队对 MMLU 进行了更细粒度的研究(实例级)。他们发现问题或生成的响应中是否包含 = 这个符号非常关键,可以说是「符号推理的一个强有力的标志」。结果见图 4。

可以看到,当有 = 时,CoT 在 MMLU 和 MMLU Pro 上的表现明显会更好。该团队认为这是因为 = 通常出现在数学问题中。所以归根结底,CoT 依然是能在数学问题上为 MMLU 和 MMLU Pro 带来助益。

CoT 在形式推理方面的优势和劣势

下面来解释 CoT 有助于符号推理任务的原因。很多符号和半符号推理任务都可以分成两个阶段:规划与执行。该团队也基于此思路进行了分析。

设置 1 和 2:少样本直接回答和 CoT:使用之前的少样本直接回答和 CoT 作为基线。图 5 给出了在 GSM8K 上每个设置的示例。

设置 3 和 4:规划 + 直接求解器以及计划 + CoT 求解器。

设置 5:规划+工具求解器。

评估结果

图 6 展示了选出的代表性模型的结果。

可以看到,对于许多数据集和模型而言,仅仅有规划不足以带来明显的性能增益。与直接回答相比,CoT 或规划+ CoT 求解器是实现强大性能所必需的。使用其中一种方法跟踪执行情况可带来最大的准确性优势,尤其是对于含有大量数学内容的数据集。

尽管 CoT 或规划+ CoT 求解器比直接回答和规划+直接回答更强,但规划+工具求解器在大多数情况下还要更优。也就是说,很多时候,使用 CoT 还不如让 LLM 使用工具。


# 可以看到  # 见图  # 这三个  # 普林斯顿  # 奥斯汀  # 多项  # 近期  # 展示了  # 进行了  # openai  # 出了  # agi  # llama  # gpt  # https  # github  # math  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AI助手高效获取谷歌评论:提升本地商家曝光率的终极指南  lovemo官网网页版入口 lovemo官网登录入口  如何使用 Gemini 进行 Google Cloud 架构成本预估  AI写作鱼怎么一键生成论文大纲_AI写作鱼大纲生成与逻辑梳理【技巧】  Feelin聊天网页版地址 Feelin AI官方网站首页  使用文心一言进行高质量的唐诗宋词创意改编  AI客户服务的最新趋势:个性化与情感智能  重温经典:宝可梦动画中的精彩瞬间与幕后花絮  掌握这几个AI提问技巧,帮你出个性化的求职信  ClaudePC端怎么设快捷键_ClaudePC端快捷键设置【方法】  小型邮件列表的终极指南:使用AI最大化营销效果  百度输入法ai写作怎么关 百度输入法ai帮写禁用  Claude怎样写任务型提示词_Claude任务提示词写法【步骤】  夸克AI能否查快递物流_夸克AI快递查询入口与单号输入【步骤】  百度浏览器ai助手怎么关闭 百度浏览器ai功能禁用  Midjourney怎样加元素词丰富画面_Midjourney元素词技巧【方法】  LogMeIn Resolve:IT 运维知识库的 AI 赋能实践  唐库AI拆书工具怎么查看拆书进度_唐库AI拆书工具进度查看与异常排查【方法】  C3.ai深度解析:投资者必知的关键洞察  AI聊天机器人引发伦理思考:泰国老人在Facebook上遭遇情感欺骗悲剧  提升企业效率:QR Platform管理后台功能全面解析  免费AI头像生成终极指南:逼真、个性化、无水印  Power BI: 如何在 Power Query 中更改数据类型  智谱AI创意设计怎么用_智谱AI创意设计使用方法详细指南【教程】  利用 Gemini 1.5 Pro 进行超长视频摘要提取  DeepSeek 在量化交易策略回测中的实战教程  2025年AI图像生成指南:Google Gemini Nano Banana教程  Xcode 26 Beta 新功能:集成 ChatGPT 代码助手全面测评  AI绘图软件怎么用_AI绘图软件使用方法详细指南【教程】  智能合约简明教程:概念、应用与未来趋势  kimi生成ppt怎么编辑文字_kimi编辑文字后怎么保存  Gemini 与 Google Drive 结合的文件智能检索  阿里通义app怎么用_阿里通义app使用方法详细指南【教程】  11月电动两轮车线上销售排名出炉:九号份额达26.9%  使用 ChatGPT 自动生成月度财务分析报告  GitHub MCP Server:AI赋能代码管理的未来  AI婴儿播客视频制作终极指南:免费工具与步骤  批改网AI检测工具怎么生成评分报告_批改网AI检测工具报告生成与维度解读【指南】  CanvaAI抠图如何换背景_CanvaAI背景替换与设计模板结合【攻略】  今日头条AI怎样推荐抢票工具_今日头条AI抢票工具推荐算法与筛选【技巧】  轻松生成二维码:免费AI工具终极指南  AI时代生存指南:掌握软实力,成为不可替代的人  百度浏览器ai对话怎么关 百度浏览器ai聊天窗口隐藏  扣子AI怎样设置多轮对话逻辑_扣子AI逻辑树搭建与分支设计【教程】  如何利用 DeepSeek 进行多轮复杂对话的状态管理  使用Go语言构建图像识别系统:完整指南  AI 时代高效开发:版本控制与 AI 协同工作流  Depseek怎样写产品描述提示词_Depseek产品文案提示词技巧【技巧】  Mootion AI视频生成器:一键创作动画故事!  lumen5怎样从新闻稿生成社交视频_Lumen5新闻稿转社交视频步骤【社媒】 

 2024-09-20

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.