MeMo记忆模型:企业LLM无需重新训练即可升级,性能提升26%

MeMo记忆模型:企业LLM无需重新训练即可升级,性能提升26%

在企业人工智能领域,让大语言模型(LLM)在训练完成后获取新知识,仍是亟待突破的难题——当前解决方案要么成本过高,要么速度太慢,要么受限于上下文窗口的限制。MeMo(Memory as a Model)框架的出现,为这一问题提供了新思路:它能让企业团队无需重新训练大模型即可完成升级,且性能提升26%。

MeMo框架:模块化记忆解决方案

MeMo是由多所大学研究人员开发的框架,它将新知识编码到一个专用的小型记忆模型中,该模型独立于主LLM运行。这种模块化架构既兼容开源模型,也支持闭源模型,同时绕过了RAG(检索增强生成)管道和全模型重新训练的复杂性。

实验表明,MeMo即使在检索管道存在噪声的情况下,也能可靠处理复杂查询。它避免了直接微调导致的灾难性遗忘,并为持续知识更新提供了一条成本效益高的路径。

更新LLM记忆的挑战

大语言模型在训练完成后即被“冻结”,其内部知识保持静态,直到进行后续计算量巨大的更新。目前,开发者主要依赖三种方法将外部知识融入LLM,但每种方法都有明显缺陷:

  • 非参数方法(如RAG和上下文学习):从外部数据库检索相关文档并直接插入模型提示。尽管流行,但这些方法受限于上下文窗口大小。研究人员指出,向量数据库难以将文本片段的完整语义编码为单个向量,且语义相似性往往不对应用户查询的实际需求。处理数千个检索令牌还会产生大量计算开销和推理延迟,更关键的是,RAG系统对噪声高度敏感,无关或检索质量差的片段会降低模型的最终响应。
  • 参数方法(如持续预训练或监督微调):尝试将新知识直接内化到LLM的权重中。更新现代大型LLM的成本高得令人望而却步,通常无法用于隐藏在API后的闭源模型。微调还容易导致灾难性遗忘——强迫模型适应新企业数据往往会侵蚀其原有的推理能力和安全护栏。
  • 潜在记忆方法(如上下文压缩):提供折中方案,将知识压缩为紧凑的“软令牌”或表示,在推理时添加到模型上下文中。致命缺陷是“表示耦合”——压缩的记忆与生成它的模型架构严格绑定,无法将基于开源模型训练的潜在记忆转移到闭源模型。

MeMo的工作原理

MeMo框架采用模块化架构,包含两个独立组件:MEMORY模型(一个小型语言模型,专门用于将新知识编码到其参数中)和EXECUTIVE模型(一个冻结的现成LLM,作为推理引擎)。当用户提问时,EXECUTIVE模型将MEMORY模型视为外部“智能体”,发出针对性子查询以获取事实,并将这些事实合成为最终答案。

MeMo的核心设计原则是“反思”(reflections)——针对知识语料库的每个可能角度设计的问答(QA)对。MeMo使用GENERATOR模型将原始文本提炼为数千个针对性QA对,而非让AI在训练时处理庞大的非结构化文档语料库。MEMORY模型随后在这些数据集上进行微调,使其仅用参数知识就能回答问题,无需读取检索的上下文。

推理时,两个模型的交互遵循结构化的三阶段协议:

  1. EXECUTIVE模型将用户的复杂查询分解为一组原子子问题,MEMORY模型独立回答每个问题,确立基本事实。
  2. 利用这些初始线索,EXECUTIVE模型发出后续查询,缩小候选实体范围,直到自信收敛到特定目标。
  3. 最后,EXECUTIVE模型查询MEMORY模型,获取关于该目标实体的支持事实,并将检索到的片段合成为连贯的答案。

这种架构融合了现有AI记忆范式的优势,同时规避了它们的陷阱:通过将记忆存储与推理分离,利用前沿模型,确保兼容开源和闭源API模型;将知识直接内化到参数中,但将更新隔离到更小、专用的MEMORY模型,保护推理引擎;创建可查询的记忆工件,不绑定于特定模型,可用于不同LLM家族。

处理持续知识更新的高效方法

管理AI记忆需要持续更新,以适应公司政策变化和新报告的发布。通常,更新模型参数需要从旧数据和新数据中联合重新训练,随着知识库的增长,这种累积重新训练的成本变得难以承受。

为高效处理持续更新,MeMo采用“模型合并”技术。它不进行大规模联合重新训练,而是专门针对新增文档训练一个新的独立MEMORY模型,系统从新数据中提取“任务向量”(代表参数变化),然后将这些更新数学合并到原始MEMORY模型的权重中。

这种方法减少了保持系统最新的计算时间,同时避免了导致灾难性遗忘的干扰。不过,模型合并会带来11%至19%的准确率下降(取决于使用的推理模型)。

MeMo的实际应用效果

为衡量实际效果,研究团队在多个行业基准上评估了MeMo,这些基准需要跨多个文档进行复杂的多跳推理。

研究人员使用Qwen2.5-32B-Instruct作为GENERATOR模型,将原始文本提炼为反思。MEMORY模型部署了Qwen2.5-14B-Instruct,并在1-2B参数的小型模型(如Gemma3-1B)上验证了该方法。

对于EXECUTIVE推理模型,他们测试了开源的Qwen2.5-32B和谷歌的闭源Gemini 3 Flash。

MeMo在与“完美检索”(手动提供正确文档)的上限对比,以及与传统BM25搜索、密集向量检索、最先进的基于图的RAG(HippoRAG2)等先进检索系统的对比中表现突出。他们还测试了“Cartridges”(一种在推理时将训练好的KV缓存加载到模型上的方法)。

MeMo在长文档推理中占据优势。在NarrativeQA基准上,MeMo的性能提升显著(原文未完整,但保留关键信息)。


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/orchestration/memo-memory-model-teams-upgrade-llm-without-retraining

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1135篇


关注微信

主站最新信息

[blog_mailer_subscribe]

分类