你的位置：开云「中国内陆」官方网站更高效、更智能、更环保 > 新闻资讯 > 开yun体育网同期 token 使用量减少随后-开云「中国内陆」官方网站更高效、更智能、更环保

开yun体育网同期 token 使用量减少随后-开云「中国内陆」官方网站更高效、更智能、更环保

时间：2026-05-23 10:16 点击：69 次

让推理模子不要想考开yun体育网，得到的驱散反而更准确？

UC 伯克利新筹谋发现，强制要求模子跳过想考流程，推理智力却比闲居想考还好。

举例在定理讲授任务当中，"不想考"模式仅使用 30% 的 Token，就能兑现和完整想考相似的准确率。

额外是施加 Token 法例之后，"不想考"模式的遵守变得愈加清楚。

这究竟是怎样一趟事呢？来看下 UC 伯克利发表的论文。

跳过想考，推理模子反而更强了

论文的筹谋标的，是比拟显式想考流程（Thinking）和跳过想考流程（NoThinking）的遵守互异，并在不同拘谨条目下评估这两种要道的弘扬。

筹谋使用 DeepSeek-R1-Distill-Qwen-32B 看成主要实践模子，该模子通过在 Qwen-32B 基础上使用 DeepSeek-R1 生成的数据进行蒸馏得到。

为了确保驱散的可靠性，筹谋同期遴选了 Qwen-32B-Instruct 看成基线模子，并在 7B 和 14B 界限的换取架构模子上进行了考据实践。

在数据集的遴选上，筹谋悉力全面笼罩不同类型的推理任务：

在数知识题方面，既包含了 AIME 2024、AIME 2025、AMC 2023 等圭臬难度的测试集，也包含了更具挑战性的 OlympiadBench 数学子集；

在编程智力评估方面，使用了捏续更新的 LiveCodeBench v2 版块；

在定理讲授领域，则通过 MiniF2F 测试神色化数学推理智力，通过 ProofNet 评估逻辑和定理证贤达力。

实践领先进行了基础性能评估，也即是在不法例 token 的情况下比拟三种要道的弘扬。筹谋团队详备记载了每种要道在不同 k 值下的 pass@k 性能弘扬和 token 使用量。

驱散清晰，在无预算法例的情况下，NoThinking 在定理讲授任务上约略以 30% 的 token 用量达到与 Thinking 相似的性能，两种要道齐清楚优于基线模子。

在其他任务上，固然 NoThinking 的运转 pass@1 性能较低，但跟着 k 值增多会冉冉追平 Thinking 的弘扬，同期 token 使用量减少

随后，实践引入了预算强制，通过成就 token 法例来进行对确凿践。

具体来说，当模子达到预设的 token 预算时，系统会强制其生成最终谜底，淌若此时模子仍在想考框内，则会在最终谜底标签前添加驱散想考标志。

筹谋诀别在低预算（约 3000tokens 以下）和高预算（约 3500tokens）两种场景下进行了详备测试。

在预算受限的场景下，NoThinking 在低预算情况下（

在高预算场景下（~3500 tokens），尽管 Thinking 在 pass@1 上略有上风，NoThinking 从 k=2 入手就展现出更好的性能。

在并行膨胀测试中，筹谋凭据任务特质采纳了不同的评估要道。

关于有完好考据器的任务（如神色定理讲授），不错胜利使用考据器遴选最好谜底，并详备记载蔓延和 token 使用量；

关于莫得考据器的任务，筹谋兑现了渊博投票机制和基于置信度的遴选政策，通过实践比拟了不同遴选政策的遵守。

关于具有考据器的任务，NoThinking 不错在将蔓延缩短至 1/7、token 使用量减少至 1/4 的同期，保捏与传统要道相似的准确率。

在莫得考据器的任务中，比如 AMC 2023 和 OlympiadBench，NoThinking 以致超过了完整版 Thinking 的弘扬，同期可将蔓延缩短至 1/9。

为了幸免实践驱散受到数据沾污的影响，筹谋团队特地使用了新发布的 AIME 2025 数据集进行考据。

驱散作家发现。换取的性能模式在新旧数据集上齐能厚实重现，这说明了筹谋发现反应了模子的真引申为特征。

大模子"想考流程"引热议

Hacker News 上，有东谈主暗示这项筹谋让其对大模子的想考有了新的意志：

曩昔我合计大模子"想考"很有用，是因为它不错把更多的主张带到高下文当中，但咫尺看似乎不是？

还有东谈主猜想了 Claude 厂商 Anthropic 前些天发表的论述，其中指出大模子输出的"想考流程"不一定代表其真实主见。

这份论述的实践发现，Claude 3.7 Sonnet 仅在 25% 的情况下在其想维链中说起收到的提醒信息，DeepSeek R1 则为 39%，意味着大渊博情况下模子不会诚实反应其真实有策画流程。

Anthropic 的这份论述，引起了针对大模子"想考流程"的强横商量。

有东谈主暗示，想维链灵验的重要是产生了更多用于"想考"的筹划，但淌若用它来展示模子职责流程，那只不外是罕见的高下文。

但也有东谈主合计 Anthropic 的筹谋并莫得切中问题要害，因为模子的磨砺流程即是为了取得正确谜底而优化，不成指望这么的磨砺模式约略让模子准确说出推理流程。

作家简介

本论文第一作家是 UC 伯克利博士生马文洁，导师是 Matei Zaharia 副教悔和 Sewon Min 助理教悔筹谋重心是领路和提高谈话模子的推理智力，以及测试时筹划。

马文洁本科毕业于南京大学筹划机学院，期间曾插足该学院的 PASCAL（编程谈话与统计分析）筹谋组。

另又名华东谈主作家何静轩，咫尺在 UC 伯克利从事博士后筹谋，筹谋有趣为机器学习和筹划机安全，协作导师是宋晓冬（Dawn Song）教悔。

何静轩博士和本科诀别毕业于苏黎世联邦理工学院和浙江大学。

另外，UC 伯克利博士生 Charlie Snell、Tyler Griggs，以及一作马文洁的两名导师也参与了此项筹谋。

论文地址：

https://arxiv.org/abs/2504.09858

参考通顺：

[ 1 ] https://www.anthropic.com/research/reasoning-models-dont-say-think

[ 2 ] https://news.ycombinator.com/item?id=43572374

一键三连「点赞」「转发」「着重心」

迎接在评述区留住你的主见！

— 完 —

� � 点亮星标 � �

科技前沿进展逐日见开yun体育网

开云体育(中国)官方网站自主定位导航性能出色-开云「中国内陆」官方网站更高效、更智能、更环保

开yun体育网以及5750mAh电板与66W快充组合-开云「中国内陆」官方网站更高效、更智能、更环保

开yun体育网尤其是抢滩登陆这一关乎成败的作战形势-开云「中国内陆」官方网站更高效、更智能、更环保

开yun体育网它建设了当代化的火控系统-开云「中国内陆」官方网站更高效、更智能、更环保

开云体育文章权归第一财经总共-开云「中国内陆」官方网站更高效、更智能、更环保

开云体育成齐东门船埠东谈主头攒动-开云「中国内陆」官方网站更高效、更智能、更环保

开yun体育网同期 token 使用量减少随后-开云「中国内陆」官方网站 更高效、更智能、更环保

开yun体育网同期 token 使用量减少随后-开云「中国内陆」官方网站更高效、更智能、更环保