AutoTTS自动设计LLM推理策略,token使用量锐减69.5%

测试时间扩展(TTS)已成为提升大语言模型(LLM)在实际应用中表现的有效方法,通过在推理阶段提供额外计算周期来增强模型性能。然而,传统TTS策略依赖手工设计,严重依赖人类直觉来制定模型推理规则,这限制了其优化空间。

手工设计TTS策略的瓶颈

测试时间扩展通过在生成答案时赋予LLM额外计算能力,使其能够探索多条推理路径或评估中间步骤,从而提升输出质量。设计TTS策略的核心挑战在于如何最优分配这些额外计算资源。过去,研究人员需手动设计策略,通过猜测构建刚性启发式规则,例如决定模型何时应分支探索新路径、深入现有路径、剪除无效分支或终止推理。这种人工调优受限于人类直觉,导致大量潜在策略未被探索,常造成模型准确性与计算成本之间的次优权衡。

现有TTS算法可映射到“宽度-深度”控制空间:宽度指探索的推理分支数量,深度指每个分支的发展程度。例如,自一致性(SC)采样固定轨迹并多数投票,自适应一致性(ASC)通过置信度阈值提前终止以节省计算,并行探测(Parallel-Probe)则剪除无效分支同时深化其余分支。但这些方法均属手工设计,AutoTTS正是为打破这一限制而生。

AutoTTS自动化策略发现机制

AutoTTS将TTS优化重新定义为算法搜索问题,而非人工任务。工程师的角色从设计具体推理规则(如分支、剪除或停止条件),转变为构建发现环境,定义状态与动作的控制空间、平衡准确性与成本的优化目标及反馈机制。

探索者智能体(如Claude Code)负责设计TTS“控制器”——即定义AI模型在推理时如何分配计算预算的代码策略。该智能体迭代提出并测试控制器,基于反馈不断优化,直至发现最优资源分配策略。为降低计算成本,AutoTTS采用“离线回放环境”,利用预收集的数千条基础LLM推理轨迹(含中间答案作为“探测信号”)。智能体通过分析控制器在离线数据上的执行轨迹,诊断失败模式(如过度剪除分支),迭代改进策略。

AI设计的智能控制器解析

探索者智能体不受人类直觉约束,能发现人类工程师难以手工编码的复杂规则。AutoTTS发现的最优控制器“置信动量控制器”,通过以下机制管理计算:

  • 基于趋势的停止机制:手工策略常要求模型在瞬时置信度达到阈值时停止推理,但AutoTTS发现瞬时置信度易受短暂波动误导。该控制器通过指数移动平均(EMA)跟踪整体置信度趋势,仅当置信度稳定且未下降时停止,避免过早终止。

  • 耦合的宽度-深度控制:手工算法通常将“拓宽”新路径与“深化”现有路径视为独立决策。AutoTTS发现二者存在闭环反馈:若当前分支置信度停滞,控制器自动触发新分支生成,实现动态协同。

  • 对齐感知的深度分配:不同于平均分配计算预算,控制器动态识别与当前领先答案一致的分支,优先给予这些分支“爆发式”额外计算,集中资源验证共识的正确性。

真实场景下的成本与精度优势

研究人员在Qwen3(0.6B至8B参数)及DeepSeek-R1蒸馏版(8B)模型上验证了AutoTTS的效果。探索者智能体首先在AIME24数学推理基准上发现最优策略,随后在AIME25、HMMT25及研究生级别通用推理基准GPQA-Diamond上测试。实验中,AutoTTS控制器与四种行业手动TTS算法对比:SC@64(64路径自一致性)、自适应一致性(ASC)、并行探测(Parallel-Probe)及早期停止自一致性(ESC)。结果显示,AutoTTS在不牺牲准确性的前提下,将token消耗降低69.5%,显著优化了计算资源分配。


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/orchestration/researchers-automated-llm-reasoning-strategy-design-and-cut-token-usage-by-69-5

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1116篇


关注微信

主站最新信息

[blog_mailer_subscribe]

分类