小米开源MiMo Code智能体,超长任务超越Claude

小米MiMo AI团队正式宣布开源MiMo Code V0.1.0。作为一款原生终端的AI编程助手,据称该工具在关键的智能体编码基准测试中表现优于Anthropic的Claude Code,特别是在处理超长、多步骤(超过200步)的任务时优势明显。这一结论基于其内部测试以及对576名开发者的调查数据。此外,小米还限时免费提供其多模态旗舰模型MiMo-V2.5的访问权限,该模型拥有百万级的上下文窗口,且无需注册即可使用。
该工具于2026年6月10日在社交网络X上由官方账号发布,被描述为“不仅仅是终端里的AI编程助手,更是你合作过的最聪明的编程伙伴”。目前,MiMo Code已在GitHub上以MIT许可证发布,支持macOS和Linux系统通过单条终端命令安装,Windows用户则可通过npm进行安装。该项目是开源OpenCode智能体的一个分支,小米为其扩展了专属的内存架构、工作流模式及模型适配器。
终结AI智能体的“失忆”困境
许多热衷于使用AI辅助编程的开发者都会发现一个痛点:随着工作时间的推移,AI智能体的表现往往会下降。当上下文窗口被填满时,早期的决策、代码约定和任务状态会被压缩甚至完全丢失,迫使开发者不得不重新解释项目背景。
小米认为,单纯依靠压缩在规模化应用中行不通。MiMo团队在发布博客中指出:“我们需要的是更好的压缩,而是一种显式的存储和检索机制,能够决定哪些信息应该写入持久结构,以及何时应该调用这些信息。”
创新的跨会话记忆系统
MiMo Code通过一个基于SQLite FTS5全文搜索的跨会话记忆系统来解决这一问题。该系统包含四个层级:项目记忆(持久的MEMORY.md文件)、会话检查点、便签笔记以及每项任务的进度日志。
其中的关键在于“记笔记”的机制:系统并没有强制主编码智能体暂停工作去记录,而是部署了一个独立的“检查点写入者”子智能体。
可以将主智能体比作正在建造豪宅的建筑承包商,而“检查点写入者”则是专门的建筑师。当主智能体专注于构建实体结构时,子智能体会实时更新蓝图,记录决策、问题以及施工过程中的实际地形。当上下文窗口接近极限——也就是承包商在半成品的豪宅中迷失方向时,它可以咨询子智能体并重新定位。在MiMo Code中,系统会通过结构化的检查点重建环境及相关上下文,确保操作连续性不受损失。
自我进化机制
系统还包含两项自我完善机制:一个是/dream命令,它大约每七天回顾一次历史会话,进行去重并压缩成长期记忆;另一个是“蒸馏”功能,它会挖掘过去的会话以寻找可自动化的重复工作流。这与OpenAI和Anthropic近期在其各种模型中采用的方法类似。
在软件工程基准测试中的卓越表现
根据小米技术博客发布的数据,MiMo Code搭配MiMo-V2.5-Pro模型,在三项测试中均超越了搭配Claude Sonnet 4.6的Claude Code:
- SWE-bench Verified:82% 对比 79%
- SWE-bench Pro:62% 对比 55%
- Terminal Bench 2:73% 对比 69%
适配器本身也贡献了显著的性能提升。在相同的MiMo-V2.5-Pro模型下运行,MiMo Code在SWE-bench Pro上得分为62%,而Claude Code为57%;在Terminal Bench 2上得分为73%,而Claude Code为68%。这大约5个百分点的差异完全归功于智能体系统而非模型本身。
值得注意的是,小米并未发布与OpenAI Codex或Google Gemini CLI的对比数据,Claude Code是其唯一指定的对标对象。不过,独立参考数据表明,在Terminal-Bench 2.0排行榜上,运行GPT-5.5的OpenAI Codex CLI得分约为82.2%,高于MiMo Code自报的73%。但在SWE-Bench Pro上,情况发生了反转:MiMo Code组合声称的62%高于OpenAI报告的GPT-5.5的58.6%。
更有趣的是内部的人机对比测试。小米在内测期间进行了一项针对576名开发者的双盲A/B评估,涉及474个真实的私有仓库,产生了1213组与Claude Code的直接对比数据。结果显示,在200个执行步骤以内,两者表现不相上下;但在超过200步后,MiMo Code的胜率飙升至65%以上,这有力地证明了其内存和状态管理架构在长周期任务中的价值。
无缝集成与语音控制
在用户体验方面,MiMo Code旨在融入开发者现有的工作流。它直接在终端中运行,能够读写文件、运行命令并管理Git。
该工具开箱即用,零配置即可连接到“MiMo Auto”——这是一个由小米多模态MiMo V2.5模型驱动的限时免费通道,拥有巨大的百万级上下文窗口。对于从现有环境迁移的开发者,MiMo Code可以自动导入来自Claude Code的MCP服务器、自定义技能和API配置。
其他值得关注的亮点功能包括:
- 组合模式(Compose mode): 按下Tab键即可将智能体切换到规范驱动的工作流。开发者只需描述高层目标,系统便会自主执行完整的开发周期——设计、规划、编码、测试和审查,遵循小米所谓的“前期重度规划,后期稳定验证”策略。
- 语音控制: 基于小米的MiMo-ASR语音识别技术构建,支持通过语音指令进行操作。
正如小米所言,标准基准测试“仍然衡量的是一次性解决问题的能力”,并未捕捉到该工具的多会话设计目标。虽然这些数据仍需独立验证,但它们符合一个更广泛的行业趋势:在智能体编码性能中,脚手架和适配器工程正变得与原始模型能力同样重要。
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!