AutoTTS自动设计LLM推理策略，token使用量锐减69.5%

测试时间扩展（TTS）已成为提升大语言模型（LLM）在实际应用中表现的有效方法，通过在推理阶段提供额外计算周期来增强模型性能。然而，传统TTS策略依赖手工设计，严重依赖人类直觉来制定模型推理规则，这限制了其优化空间。

手工设计TTS策略的瓶颈

测试时间扩展通过在生成答案时赋予LLM额外计算能力，使其能够探索多条推理路径或评估中间步骤，从而提升输出质量。设计TTS策略的核心挑战在于如何最优分配这些额外计算资源。过去，研究人员需手动设计策略，通过猜测构建刚性启发式规则，例如决定模型何时应分支探索新路径、深入现有路径、剪除无效分支或终止推理。这种人工调优受限于人类直觉，导致大量潜在策略未被探索，常造成模型准确性与计算成本之间的次优权衡。

现有TTS算法可映射到“宽度-深度”控制空间：宽度指探索的推理分支数量，深度指每个分支的发展程度。例如，自一致性（SC）采样固定轨迹并多数投票，自适应一致性（ASC）通过置信度阈值提前终止以节省计算，并行探测（Parallel-Probe）则剪除无效分支同时深化其余分支。但这些方法均属手工设计，AutoTTS正是为打破这一限制而生。

AutoTTS自动化策略发现机制

AutoTTS将TTS优化重新定义为算法搜索问题，而非人工任务。工程师的角色从设计具体推理规则（如分支、剪除或停止条件），转变为构建发现环境，定义状态与动作的控制空间、平衡准确性与成本的优化目标及反馈机制。

探索者智能体（如Claude Code）负责设计TTS“控制器”——即定义AI模型在推理时如何分配计算预算的代码策略。该智能体迭代提出并测试控制器，基于反馈不断优化，直至发现最优资源分配策略。为降低计算成本，AutoTTS采用“离线回放环境”，利用预收集的数千条基础LLM推理轨迹（含中间答案作为“探测信号”）。智能体通过分析控制器在离线数据上的执行轨迹，诊断失败模式（如过度剪除分支），迭代改进策略。

AI设计的智能控制器解析

探索者智能体不受人类直觉约束，能发现人类工程师难以手工编码的复杂规则。AutoTTS发现的最优控制器“置信动量控制器”，通过以下机制管理计算：

基于趋势的停止机制：手工策略常要求模型在瞬时置信度达到阈值时停止推理，但AutoTTS发现瞬时置信度易受短暂波动误导。该控制器通过指数移动平均（EMA）跟踪整体置信度趋势，仅当置信度稳定且未下降时停止，避免过早终止。
耦合的宽度-深度控制：手工算法通常将“拓宽”新路径与“深化”现有路径视为独立决策。AutoTTS发现二者存在闭环反馈：若当前分支置信度停滞，控制器自动触发新分支生成，实现动态协同。
对齐感知的深度分配：不同于平均分配计算预算，控制器动态识别与当前领先答案一致的分支，优先给予这些分支“爆发式”额外计算，集中资源验证共识的正确性。

真实场景下的成本与精度优势

研究人员在Qwen3（0.6B至8B参数）及DeepSeek-R1蒸馏版（8B）模型上验证了AutoTTS的效果。探索者智能体首先在AIME24数学推理基准上发现最优策略，随后在AIME25、HMMT25及研究生级别通用推理基准GPQA-Diamond上测试。实验中，AutoTTS控制器与四种行业手动TTS算法对比：SC@64（64路径自一致性）、自适应一致性（ASC）、并行探测（Parallel-Probe）及早期停止自一致性（ESC）。结果显示，AutoTTS在不牺牲准确性的前提下，将token消耗降低69.5%，显著优化了计算资源分配。

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://venturebeat.com/orchestration/researchers-automated-llm-reasoning-strategy-design-and-cut-token-usage-by-69-5