智能体记忆新框架:MRAgent大幅提升效率

长程推理揭示了AI智能体的一个核心弱点:上下文窗口迅速填满,检索管道返回的往往是噪音而非有效信号。
为解决这一问题,新加坡国立大学的研究人员开发了MRAgent,这一框架摒弃了静态的”先检索后推理”方法。相反,它采用了一种机制,允许智能体基于积累的证据动态发展其记忆系统。
这种多步骤记忆重构被整合到大语言模型(LLM)的推理过程中。尽管该领域并非只有MRAgent这一框架,但与其他智能体记忆管理方法相比,MRAgent显著减少了token消耗和运行时成本。
长程任务中被动检索的局限
在传统检索管道中,文档通过向量搜索或图遍历被检索出来,然后传递给LLM进行推理。这种被动方法失败的原因在于它无法将推理与记忆访问相结合,从而造成三大瓶颈:
- 这些系统无法在推理中途修改其检索策略。如果一个智能体获取了一份文档并发现了一个关键缺失线索——特定日期或人物——它无法基于这一发现发出新的查询。
- 固定的相似度分数和预定义的图扩张返回的是表面匹配,这些匹配会淹没LLM的上下文窗口,造成无关噪音,从而降低推理质量。
- 当前系统严重依赖预构建的结构,如top-k结果和静态相关性函数,这限制了在不可预测的长程用户交互中扩展所需的灵活性。
研究人员认为,要克服这些限制,开发者必须转向”主动和联想重构过程”,这一概念受到认知神经科学的启发。
在这一范式下,记忆回忆是顺序展开的,而不是作为静态数据库的被动读取。系统从用户提示中的小而具体的触发点开始,如人名、动作或地点。这些初始提示指向关联的概念或类别,而不是大块文本。
通过遵循这些元数据的 stepping stones,智能体逐个收集小证据片段。它利用每条新信息来指导下一步,直到成功拼凑出完整、准确的故事。
MRAgent如何实现主动记忆重构
MRAgent(大语言模型智能体的记忆推理架构)不将记忆视为静态数据库,而是将其作为交互式环境。在处理复杂查询时,智能体利用骨干LLM的推理能力,在结构化记忆图中探索多个候选检索路径。
在每个步骤中,LLM评估已收集的中间证据,并利用它们迭代优化搜索。它推断新的搜索约束,追求信息最丰富的路径,并修剪无关分支。这使得MRAgent能够在不向LLM上下文填充噪音的情况下,拼凑出深埋的信息。
为了使这种主动探索在计算上高效且可扩展,该框架使用”线索-标签-内容”机制组织其数据库。这作为一个多层关联图运作,包含三种节点类型:
- 线索(Cues):细粒度关键词,如从用户交互中提取的实体或上下文属性。
- 内容(Content):实际存储的记忆单元。这些被分为多粒度层,例如用于具体事件的情景记忆和用于稳定事实及用户偏好的语义记忆。
- 标签(Tags):语义桥梁,总结特定线索与内容之间的关联关系。
这种结构实现了一个高效的两阶段检索过程。LLM首先从线索导航到候选标签。由于标签明确暴露了数据的语义关系和结构关联,智能体评估这些简短摘要以判断其相关性。LLM识别有希望的遍历路径,在消耗计算和提示token访问详细、繁重的记忆内容之前,就丢弃无关分支。
例如,用户可能会问AI智能体:”内特在他赢得第三个电子游戏锦标赛时如何使用奖金?”
- MRAgent首先从提示中提取细粒度的起始线索,如”内特”、”电子游戏锦标赛”和”获胜”。
- 智能体将这些初始线索映射到记忆图,并查看与它们相连的可用关联标签。智能体看到诸如”锦标赛胜利”和”锦标赛参与”等标签。由于它只关心这个人赢得冠军后做了什么,MRAgent会放弃锦标赛参与标签,并追求胜利标签。
- 智能体检索与所选线索-标签对相关联的情景内容,检索三个内特赢得锦标赛的不同记忆片段。
- MRAgent查看这三个记忆片段,确定其中一个与查询特别相关,并丢弃其他两个。
- 利用这些信息,它更新其线索并开始新一轮的发现和修剪。从新检索的情景记忆中,智能体将”锦标赛奖金”添加到其线索中,并使用它遍历新标签并聚焦于新记忆。它重复此过程,直到收集足够的信息来回答查询,例如”内特存了这笔钱”。
MRAgent在行业基准测试中的表现
MRAgent与几种解决智能体记忆构建的其他框架并行运作。替代方案包括基于图的智能体记忆框架A-MEM和分层记忆框架MemoryOS。其他持久记忆框架包括LangMem和Mem0。
研究人员在LoCoMo和LongMemEval行业基准测试中测试了MRAgent。这些测试评估智能体在长程任务和跨越数十次会话、数百次对话轮次的对话中解决查询的能力。使用的骨干模型是Gemini 2.5 Flash和Claude Sonnet 4.5。系统与标准RAG、A-MEM、MemoryOS、LangMem和Mem0进行了对比测试。
MRAgent在两种模型和所有问题类型上都显著优于每个基线,表现一致。
然而,对于企业开发者来说,最关键的指标往往是计算成本。在LongMemEval测试中,MRAgent将提示token消耗降至每个样本仅118k。相比之下,A-Mem消耗632k token,而LangMem每个查询消耗326万token。MRAgent还比A-Mem有效减少了运行时间,从1122秒降至586秒。
MRAgent在实践中高效的原因是其按需行为。在检索前评估标签和修剪无关路径节省了资金和上下文空间。此外,系统自主评估其积累的上下文,并天生知道何时停止搜索,完全避免了冗余数据探索。
实施与开发注意事项
尽管MRAgent非常有效,但在智能体能够查询之前,需要准备好线索-标签-内容结构。开发者必须弄清楚如何构建底层记忆数据库,以使LLM能够高效导航关联项并修剪无关信息。此外,随着智能体交互复杂性的增加,记忆结构的可扩展性变得至关重要。开发者需要设计能够适应不断增长数据量的系统,同时保持检索效率。
另一个挑战是平衡记忆的粒度。过于详细的记忆可能会增加检索负担,而过于概括的记忆则可能丢失关键细节。MRAgent的多粒度方法提供了一种解决方案,但开发者必须根据特定应用场景调整这种平衡。
最后,评估智能体记忆系统的有效性需要全面的测试方法。除了传统的准确性指标外,开发者还应考虑系统效率、资源消耗以及处理意外查询的能力。这要求设计复杂的测试场景,模拟真实世界的交互和挑战。
关注微信号:智享开源 ,及时了解更新信息。


公众号:智享开源
还没有任何评论,你来说两句吧!