让推理模子不要想考开yun体育网,得到的驱散反而更准确?
UC 伯克利新筹谋发现,强制要求模子跳过想考流程,推理智力却比闲居想考还好。
举例在定理讲授任务当中,"不想考"模式仅使用 30% 的 Token,就能兑现和完整想考相似的准确率。

额外是施加 Token 法例之后,"不想考"模式的遵守变得愈加清楚。

这究竟是怎样一趟事呢?来看下 UC 伯克利发表的论文。
跳过想考,推理模子反而更强了
论文的筹谋标的,是比拟显式想考流程(Thinking)和跳过想考流程(NoThinking)的遵守互异,并在不同拘谨条目下评估这两种要道的弘扬。

筹谋使用 DeepSeek-R1-Distill-Qwen-32B 看成主要实践模子,该模子通过在 Qwen-32B 基础上使用 DeepSeek-R1 生成的数据进行蒸馏得到。
为了确保驱散的可靠性,筹谋同期遴选了 Qwen-32B-Instruct 看成基线模子,并在 7B 和 14B 界限的换取架构模子上进行了考据实践。
在数据集的遴选上,筹谋悉力全面笼罩不同类型的推理任务:
在数知识题方面,既包含了 AIME 2024、AIME 2025、AMC 2023 等圭臬难度的测试集,也包含了更具挑战性的 OlympiadBench 数学子集;
在编程智力评估方面,使用了捏续更新的 LiveCodeBench v2 版块;
在定理讲授领域,则通过 MiniF2F 测试神色化数学推理智力,通过 ProofNet 评估逻辑和定理证贤达力。
实践领先进行了基础性能评估,也即是在不法例 token 的情况下比拟三种要道的弘扬。筹谋团队详备记载了每种要道在不同 k 值下的 pass@k 性能弘扬和 token 使用量。
驱散清晰,在无预算法例的情况下,NoThinking 在定理讲授任务上约略以 30% 的 token 用量达到与 Thinking 相似的性能,两种要道齐清楚优于基线模子。
在其他任务上,固然 NoThinking 的运转 pass@1 性能较低,但跟着 k 值增多会冉冉追平 Thinking 的弘扬,同期 token 使用量减少

随后,实践引入了预算强制,通过成就 token 法例来进行对确凿践。
具体来说,当模子达到预设的 token 预算时,系统会强制其生成最终谜底,淌若此时模子仍在想考框内,则会在最终谜底标签前添加驱散想考标志。
筹谋诀别在低预算(约 3000tokens 以下)和高预算(约 3500tokens)两种场景下进行了详备测试。
在预算受限的场景下,NoThinking 在低预算情况下(
在高预算场景下(~3500 tokens),尽管 Thinking 在 pass@1 上略有上风,NoThinking 从 k=2 入手就展现出更好的性能。

在并行膨胀测试中,筹谋凭据任务特质采纳了不同的评估要道。
关于有完好考据器的任务(如神色定理讲授),不错胜利使用考据器遴选最好谜底,并详备记载蔓延和 token 使用量;
关于莫得考据器的任务,筹谋兑现了渊博投票机制和基于置信度的遴选政策,通过实践比拟了不同遴选政策的遵守。
关于具有考据器的任务,NoThinking 不错在将蔓延缩短至 1/7、token 使用量减少至 1/4 的同期,保捏与传统要道相似的准确率。
在莫得考据器的任务中,比如 AMC 2023 和 OlympiadBench,NoThinking 以致超过了完整版 Thinking 的弘扬,同期可将蔓延缩短至 1/9。

为了幸免实践驱散受到数据沾污的影响,筹谋团队特地使用了新发布的 AIME 2025 数据集进行考据。
驱散作家发现。换取的性能模式在新旧数据集上齐能厚实重现,这说明了筹谋发现反应了模子的真引申为特征。
大模子"想考流程"引热议
Hacker News 上,有东谈主暗示这项筹谋让其对大模子的想考有了新的意志:
曩昔我合计大模子"想考"很有用,是因为它不错把更多的主张带到高下文当中,但咫尺看似乎不是?

还有东谈主猜想了 Claude 厂商 Anthropic 前些天发表的论述,其中指出大模子输出的"想考流程"不一定代表其真实主见。

这份论述的实践发现,Claude 3.7 Sonnet 仅在 25% 的情况下在其想维链中说起收到的提醒信息,DeepSeek R1 则为 39%,意味着大渊博情况下模子不会诚实反应其真实有策画流程。
Anthropic 的这份论述,引起了针对大模子"想考流程"的强横商量。
有东谈主暗示,想维链灵验的重要是产生了更多用于"想考"的筹划,但淌若用它来展示模子职责流程,那只不外是罕见的高下文。

但也有东谈主合计 Anthropic 的筹谋并莫得切中问题要害,因为模子的磨砺流程即是为了取得正确谜底而优化,不成指望这么的磨砺模式约略让模子准确说出推理流程。

作家简介
本论文第一作家是 UC 伯克利博士生马文洁,导师是 Matei Zaharia 副教悔和 Sewon Min 助理教悔筹谋重心是领路和提高谈话模子的推理智力,以及测试时筹划。
马文洁本科毕业于南京大学筹划机学院,期间曾插足该学院的 PASCAL(编程谈话与统计分析)筹谋组。
另又名华东谈主作家何静轩,咫尺在 UC 伯克利从事博士后筹谋,筹谋有趣为机器学习和筹划机安全,协作导师是宋晓冬(Dawn Song)教悔。
何静轩博士和本科诀别毕业于苏黎世联邦理工学院和浙江大学。
另外,UC 伯克利博士生 Charlie Snell、Tyler Griggs,以及一作马文洁的两名导师也参与了此项筹谋。

论文地址:
https://arxiv.org/abs/2504.09858
参考通顺:
[ 1 ] https://www.anthropic.com/research/reasoning-models-dont-say-think
[ 2 ] https://news.ycombinator.com/item?id=43572374
一键三连「点赞」「转发」「着重心」
迎接在评述区留住你的主见!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见开yun体育网