0.12%参数增量,AI智能体获得动态工作记忆(超越RAG限制)

AI智能体时常面临记忆遗忘的困境:当编码助手丢失调试线索,或数据分析智能体重复处理已处理的上下文时,团队需承担延迟、token成本及脆弱工作流等代价。多数团队依赖的解决方案——扩展上下文窗口或增加RAG(检索增强生成)——不仅成本日益攀升,且效果仍不稳定。
为解决这一问题,Mind Lab与多所高校的研究人员提出了delta-mem技术。该技术通过将模型历史信息压缩至动态更新的矩阵,无需修改模型本身,即可实现高效记忆。这一模块仅增加主干模型0.12%的参数(对比某主流替代方案的76.40%),却在记忆密集型基准测试中表现更优。delta-mem使模型能持续积累并复用历史数据,减少对大规模上下文窗口或复杂外部检索模块的依赖,从而保障行为连贯性。
记忆难题的挑战
传统解决方案是将所有信息直接塞入模型的上下文窗口。
但正如论文合著者Jingdi Lei对VentureBeat所言,当前系统仅将记忆视为上下文管理问题。“要么持续扩展上下文窗口,要么通过RAG检索更多文档,”Lei解释道,“这些方法虽有用且重要,但在处理长期、多步骤交互时,成本与脆弱性会显著增加,且它们更像是文档检索,而非真正的人类记忆。”
在企业场景中,瓶颈不仅在于模型能否访问历史,更在于能否高效、持续、低延迟地复用历史。标准注意力机制的计算成本随序列长度呈二次增长,且扩展上下文窗口无法确保模型有效回忆信息。模型常因信息过载(甚至冲突信息)出现上下文退化或上下文腐化,即便理论上支持百万token。
研究人员主张采用更先进的记忆机制,以紧凑方式表示历史信息,并在交互中动态维护。现有解决方案普遍存在权衡,主要分为三类范式:
- 文本记忆:将历史以文本形式注入上下文——受窗口限制,压缩时易丢失信息。
- 外部通道(RAG):通过外部模块编码与检索——增加延迟、集成复杂度,且可能与主干模型不匹配。
- 参数化:通过适配器将记忆编码进模型权重——训练后静态,无法在实时交互中适应新信息。
delta-mem的内部机制
为实现紧凑且动态更新的记忆,delta-mem将智能体的过往交互压缩为“在线联想记忆状态”(OSAM)。该状态以固定大小的矩阵形式维护,在保留历史信息的同时,保持底层语言模型冻结。
对企业工作流而言,这直接解决了操作瓶颈。Lei指出,例如“持久的编码助手可能需要记住项目规范、近期调试步骤、用户偏好或工作流中的中间决策”;数据分析师则“需在多次工具调用中维持任务状态、假设及先前观察”。
delta-mem矩阵无需为这些任务反复检索和重新插入所有相关历史,而是提供了一种低开销的方式,在模型前向计算中传递有用的交互状态。
生成过程中,系统不检索原始文本片段添加至提示。相反,将主干LLM的当前隐藏状态投影至矩阵以检索旧记忆。此操作从delta-mem中提取与上下文相关的联想记忆信号,再将其转化为数值校正,应用于模型的计算过程。这在不改变模型内部参数的情况下,引导模型推理。
每次交互后,delta-mem通过“delta规则学习”更新在线状态。当新信息到来时,先前的状态预测注意力值,再与实际值对比,根据差异修正记忆矩阵。
该更新机制依赖“门控delta规则”:记忆模块通过不同“旋钮”控制保留多少旧记忆、应用多少新记忆。这种带可控遗忘的误差修正,使矩阵随时间演化,保留稳定的历史关联,避免短期噪声干扰。
研究人员探索了三种矩阵更新策略:
- Token状态写入:捕捉细粒度变化,但易受短期噪声影响。
- 序列状态写入:对消息段内token取平均,平滑更新但牺牲部分局部细节。
- 多状态写入:将记忆分解为事实或任务进度等不同信息类型的子状态。
delta-mem的实际表现
研究人员在Qwen3-8B、Qwen3-4B-Instruct和SmolLM3-3B三个LLM主干上测试delta-mem,配置为8×8的紧凑矩阵。系统在通用能力基准(如HotpotQA、GPQA-Diamond、IFEval)及记忆密集型任务(如LoCoMo,测试长期对话记忆;Memory Agent Bench,评估扩展交互中的保留、检索、选择性遗忘与测试时学习)上进行了评估。
delta-mem与三类现有范式的代表模型对比:文本记忆基线(如BM25 RAG、LLMLingua-2、MemoryBank)、参数化系统(Context2LoRA和MemGen),以及外部通道方案MLP Memory。
研究称,delta-mem在所有测试中均优于基线。在Qwen3-4B-Instruct主干上,token状态写入变体平均得分51.66%,轻松超越冻结的原版模型(46.79%)及最强基线Context2LoRA(44.90%)。在Memory Agent Bench上,平均分从29.54%提升至38.85%,测试时学习子任务分数几乎翻倍(从26.14升至50.50)。
更值得注意的是系统的高效性:在无上下文设置(历史文本完全移除)下,delta-mem无需重新注入大量提示token,仍能在多跳任务中恢复相关证据。研究人员认为,模型通过记忆过往交互,避免了海量提示token的摄入。
该框架仅增加487万可训练参数,占Qwen3-4B-Instruct主干的0.12%。相比之下,MLP Memory基线需30亿参数,占主干76.40%却性能更差。推理测试中,当提示长度扩展至32,000 token时,框架的GPU内存占用与标准未修改模型几乎一致。
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!