上下文压缩新突破：输入减少16倍精度不减

Mark Do 暂无评论阅读 104 次

上下文窗口正逐渐成为计算能力的瓶颈。随着智能体运行时间的延长，从检索文档、推理轨迹到对话历史中累积的Token数量不断攀升，导致对内存和计算资源的需求急剧增加。现有的解决方案大多存在缺陷：要么会降低模型精度，要么需要在压缩开始前加载完整的上下文，要么产生的内存节省无法转化为标准服务架构下的实际加速。

近日，来自纽约大学、哥伦比亚大学、普林斯顿大学、马里兰大学、哈佛大学以及劳伦斯利弗莫尔国家实验室的研究团队发布了一篇新论文，提出了一种新颖的修复方案。研究人员引入了“潜在上下文语言模型”（Latent Context Language Models，简称LCLMs）的概念，这是一类编码器-解码器压缩模型，能够在输入上下文到达解码器之前进行压缩。目前，这些模型已在HuggingFace上开源。

与目前主流的KV缓存压缩方法不同——后者仍然需要在删除条目之前实例化完整的KV缓存——LCLMs在解码器预填充之前就压缩输入Token序列。这意味着更高的压缩率可以直接减少解码器端的计算量和内存占用。根据论文报告，在RULER长上下文基准测试中，LCLMs在16倍压缩率下的生成速度比KV缓存基线快了8.8倍。

“这些不断膨胀的上下文占用了内存和算力，正成为大语言模型的计算瓶颈，”该项目联合负责人、哥伦比亚大学研究员Micah Goldblum在接受VentureBeat采访时表示，“我们的目标是端到端地训练语言模型，使其能够高效且准确地处理极长的上下文。如果能够实现这一点，一切都将变得更便宜、更快速。”

LCLMs的核心能力

LCLMs允许模型以远低于原本所需的内存和计算成本，处理比实际可行长得多的上下文，且不会出现大多数压缩方法在生产环境中那种得不偿失的精度下降。

在4倍压缩率下，论文报告LCLMs在RULER基准测试中的准确率为91.76%，而无压缩时的准确率为94.41%。这意味着在将上下文缩减至原始大小的四分之一时，准确率仅下降了不到3个百分点。在16倍压缩率下（即移除了93.75%的输入Token），准确率降至75.06%。即便如此，在相同压缩率下测试的每一种KV缓存方法的得分都更低。

这种优势在较短输入上同样成立。在GSM8K数学应用题测试中，由于是对完整提示词而不仅仅是检索文档进行压缩，LCLMs在各种压缩率下的得分均超过了其他测试方法。

技术构建原理

该架构采用了一个0.6B参数的编码器和一个4B参数的解码器。编码器将输入Token块压缩成更短的潜在嵌入序列，解码器则处理这些嵌入以替代原始Token。该模型的训练过程涵盖了超过3500亿个Token。

训练配方混合了三种数据类型：

持续预训练数据，其中穿插了压缩和未压缩的文本跨度；
监督微调数据，涵盖推理和长上下文任务；
一种辅助重建任务，旨在推动编码器保留细粒度的细节。

这种组合解决了一个此前限制压缩工作的权衡问题：以往保留重建准确率往往以牺牲通用任务性能为代价。通过架构搜索，研究人员确定了最佳配置。论文发现，扩展解码器的规模比扩展编码器更为重要。

在智能体技术栈中的定位

LCLMs并非一个抽象的研究概念，它被设计为可与现有技术栈协同工作。“你可以直接用LCLMs替换任何现有的LLM，”Goldblum说道，“每当你检索文档等数据并将其倾倒入模型上下文时，只需先通过LCLMs的压缩器运行这些文档即可。”

他指出，在研究论文中，研究人员演示了如何构建能够选择性地解压有用文本的智能体。

“可以把这想象成人类先浏览内容，然后再放大查看相关细节，”Goldblum解释道。

Goldblum也提醒说，将该方法集成到现有智能体流程中的团队需要相应调整其RAG系统。

“我们尚未研究推理轨迹的在线压缩，”他表示，“仅仅在生成过程中偶尔压缩轨迹的朴素方法可能有效，但这仍有待验证。”

对企业的意义

上下文窗口的增长速度超过了推理基础设施的跟进速度，企业已经开始为此投入资金以解决问题。VB Pulse 2026年第一季度的调查数据显示，在拥有100名以上员工的组织中，采用混合检索的意愿从1月份的10.3%激增至3月份的33.3%，翻了三倍。到3月份，检索优化已超越评估成为首要投资优先事项，占比达到28.9%。

对于评估生产适用性的团队而言，以下三点至关重要：

推理成本随上下文长度缩放。 在100万Token的情况下，使用标准KV缓存方法的无压缩推理会在单张H200 GPU上耗尽内存。而论文报告显示，LCLMs在16倍压缩率下，在该上下文长度仍能保持在内存限制范围内。
RAG流程集成需要调优。 拥有现有RAG流程的团队在大规模部署前，需要根据其检索质量指标验证压缩行为。
推理轨迹压缩尚待解决。 对于运行长推理链的智能体，轨迹带来的上下文增长与文档检索是两个独立的问题。Goldblum直接承认了这一差距：周期性轨迹压缩的朴素方法可能有效，但尚未经过测试。

目前，这些模型已在 huggingface.co/latent-context 上线，代码可在 github.com/LeonLixyz/LCLM 获取。

“我们架构最大的作用是赋予模型访问更大上下文的能力，同时也解锁了多尺度方法，让模型能够极速浏览大量文本或代码，然后仅放大并完整阅读最有用的一小部分，”Goldblum总结道。

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://venturebeat.com/data/context-compression-finally-works-in-production-new-research-cuts-llm-input-16x-without-the-accuracy-hit