千元级基础模型：AI训练成本大幅降低

Mark Do 暂无评论阅读 95 次

千元级基础模型：AI训练成本大幅降低

传统上，从头训练一个基础大语言模型需要耗费数百万美元并需要互联网规模的数据，这就是为什么大多数企业望而却步。而Sapient公司认为他们找到了一条更经济的路径。

为了克服这种暴力扩展的教条，Sapient的研究人员开发了HRM-Text，它用高样本效率的层次化循环模型(HRM)架构取代了标准Transformer架构。该架构于去年首次发布。

HRM将计算解耦为慢速演化的战略层和快速演化的执行层。与在原始文本上进行暴力自回归预测不同，HRM-Text专门在指令-响应对上进行训练。这种方式更接近真实的企业应用场景，因为用户通常期望针对特定任务获得有针对性的答案。

研究人员能够以远低于普通大语言模型的成本和标记数量，从头训练一个10亿参数的HRM-Text模型。在关键行业基准测试中，该模型的表现可与规模大得多的开放模型相媲美。

对于现实世界的AI应用而言，这意味着基础预训练不再局限于资源丰富的机构。借助HRM-Text，组织可以经济实惠地从头训练自己强大的推理模型，并将其与外部知识库相结合。

训练瓶颈问题

当我们训练一个大语言模型时，我们并不真正关心它是否记住了某个随机2014年Reddit帖子的确切词汇序列。我们希望的是模型能够对人类语言、逻辑、事实和推理形成深入的理解。

当前的方法是暴力手段：抓取互联网内容，运行数万亿次下一个词预测，并假设模型已经形成了对世界运行的有效内部模型。

基本上，这意味着我们浪费了数百万美元的计算能力，强迫模型记住从互联网收集的一切，只是为了间接学习如何思考。例如，标准解码器模型会消耗大量计算资源来重建提示本身，尽管用户的提示在推理时已经已知并提供。

与其简单地将此视为计算障碍，行业必须认识到这是一个严重的业务限制。在接受VentureBeat采访时，Sapient Intelligence的首席执行官Guan Wang将此描述为”迭代经济学”的问题。

“当今企业面临三个相互叠加的问题：训练成本高昂，基础设施繁重，实验周期过于缓慢，”Wang说道。”行业的扩展成瘾症是：’当模型失败时，让它变得更大。添加更多数据。添加更多GPU。’这种方法曾经有效，但现在已达到收益递减的临界点。更大的规模往往意味着更多的记忆、更高的延迟、更庞大的基础设施和更强的供应商依赖。但这并不一定给企业提供更好的推理引擎。”

这种架构和计算效率低下正是为什么微调现有密集Transformer对企业而言并非万能解决方案的原因。为了保留模型的通用能力，微调通常需要将大量通用数据混合到过程中，这使得计算量大且难以控制。

“想象一个对冲基金、保险公司或银行，他们拥有高度专有的数据：内部研究笔记、交易逻辑、合规规则、分析师备忘录、风险模型、投资组合约束，”Wang表示。”他们可能不想将这些数据发送到外部前沿模型，也不需要一个记忆了互联网内容的庞大通用模型。他们需要的是一个紧凑的推理核心，能够学习他们的任务结构，跨越规则和数字进行推理，并在受控环境中运行。”

由于HRM-Text严格专注于任务完成和潜在推理，它使企业能够从更小、更智能的模型开始，并以少得多的基础设施将其适应专有领域。

HRM-Text架构的重新思考

HRM于2025年推出，代表了与传统Transformer模型的基本偏离。为了构建一个更高效的样本引擎，HRM将计算解耦为慢速演化的战略层和快速演化的执行层。快速L模块执行局部迭代优化，而慢速H模块在周期间保持稳定的语义上下文。处理过程包含两个高级周期，每个周期执行三次快速L模块更新，然后执行一次慢速H模块更新。

标准参数共享的循环架构（如三星的TRM）有时可以处理小型逻辑谜题，但Sapient的研究人员发现，当扩展到10亿参数用于语言任务时，它们会变得极不稳定。HRM的慢速H模块和快速L模块之间的分离是数学上的必要选择，而非仅仅为了美观。正如Wang所说：”对于逻辑网格，有时可以用一个微小的递归机制解决问题，因为世界是干净且有边界的。语言不是这样的。语言既需要快速的局部优化，也需要慢速的语义稳定性。”

虽然原始HRM对于受控的符号推理问题非常有效，但当研究人员将其应用于广义语言建模的庞大开放式复杂性时，遇到了障碍。虽然HRM的循环使其成为极其高效的思考者，但这些相同的循环在人类语言的多样混沌上训练时在数学上变得不稳定。在语言上运行循环会产生巨大的数学不稳定性，特别是梯度爆炸或消失问题。

为了防止神经网络中的这种反馈循环，研究人员在HRM-Text中引入了两项关键架构创新。首先，他们开发了MagicNorm，一种专门的归一化技术，专门设计用于保持内部信号稳定，无论模型循环思考过程多少次。

其次，他们设计了一种预热方法来稳定训练。在早期训练阶段，模型仅在短浅的推理循环上被评估。随着训练的进行，系统逐渐预热，逐步给模型更深、更长的推理序列。

他们还将训练目标从下一个词预测转变为任务完成，模型只有在生成完整响应时才获得奖励，而不是针对其生成的单个标记。为实现这一目标，他们将HRM-Text的训练数据从原始文本更改为仅包含指令-响应对。