单H100运行:Cohere开源编码智能体

构建智能编码管道的工程团队现在有了明确的替代选择——一个可在单张H100 GPU上运行的开源方案,无需依赖托管模型如Claude Fable 5。然而,Cohere本周推出的North Mini Code在独立测试中显示,其输出令牌数量是同类模型的3倍,这种冗长性在大规模生产工作负载中会累积成显著成本。
这款新开源模型是一款拥有300亿参数的混合专家(MoE)模型,每生成一个令牌激活30亿参数,专为智能体软件工程而设计,包括子智能体编排、架构映射、代码审查和终端工作。该模型支持256,000令牌的上下文窗口,最大生成长度为64,000令牌,现可通过Apache 2.0许可证在Hugging Face平台获取。
North Mini Code的功能特性
North Mini Code瞄准完整的智能编码工具栈,以下是该模型的核心功能与运行环境。
软件工程专用
Cohere特别为智能体软件工程构建了North Mini Code,而非基于通用基础模型改造。该模型集成了工具使用能力,支持交错式思考,据Cohere称,这能提升多步骤智能体工作的性能表现。
架构映射与代码审查
North Mini Code能够分析并映射系统架构,识别依赖关系,并在大型代码库中执行代码审查。凭借256,000令牌的上下文窗口,它可在单次上下文传递中容纳大型多文件项目。
基于终端的智能任务
该模型针对终端环境进行训练,可处理shell交互、包脚本和命令行工具。Cohere在Terminal-Bench v2上对其进行了基准测试,该测试评估智能体在实际终端环境中的表现,而非合成代码生成任务。
模型构建技术
North Mini Code是一个稀疏混合专家模型,包含128个专家,每生成一个令牌激活8个。尽管总参数达300亿,推理时的计算需求更接近30亿参数模型。Cohere联合创始人Nick Frosst通过MLX在Mac Studio上演示了该模型运行,内存占用约20GB,与他用于本地编码工作的机器相同。
Cohere通过两阶段的监督微调,随后在超过70,000个可验证任务上进行了强化学习训练,这些任务涵盖约5,000个仓库,并已通过SWE-Bench进行去重。
为优化单一智能体框架,Cohere在三种不同架构上进行训练:SWE-Agent使用功能丰富的CLI和专业命令;Mini-SWE-Agent采用单一bash工具和原始shell输出;OpenCode使用单独类型的工具返回结构化JSON。Cohere报告称,多架构方法在OpenCode评估上提升了10个百分点,同时保持了SWE-Agent的性能水平。
市场定位与竞争优势
North Mini Code进入了一个包含Mistral Devstral Small 2、GitHub Copilot、Cursor和Claude Fable 5的市场,每种方案都有不同的成本和部署权衡。
Cohere的主要基准对比对象是Mistral Devstral Small 2,这是一个240亿参数的密集模型。在供应商报告的内部测试中,Cohere声称在相同硬件配置下,其输出吞吐量比Devstral Small 2高2.8倍,令牌间延迟低30%。Cohere在其Hugging Face技术文章中还声称,North Mini Code在其报告的基准测试中表现优于参数量达其4倍的开源模型,包括120亿参数的模型。
根据Artificial Analysis的独立评估,在127个 comparable开放权重模型中,North Mini Code输出速度排名第8,每秒生成210个令牌,首令牌时间为0.25秒,类别中位数为1.95秒。在Artificial Analysis智能指数上排名第18。同一数据显示,该模型完成智能指数评估生成了7500万输出令牌,类别中位数为2500万。在高容量智能体管道中,这种冗长性会累积成推理成本和延迟。
“人们突然开始思考:从模型中获得的令牌是否提供了足够的经济价值?”Frosst在发布视频中表示,”本地部署是赋予人们权力、使AI真正为他们工作的一种方式。”
GitHub Copilot、Cursor和Claude Code采用按使用量或订阅定价,无本地部署选项。Anthropic的Claude Fable 5是目前最强大的公开可用托管编码模型,价格为每百万输出令牌50美元。对Frosst而言,这款模型与Fable形成鲜明对比。
“它小巧、经济高效、采用Apache 2.0许可证,且可本地部署。这才是大语言模型应有的发展方向:小型、开源、透明和自主,而非大型、昂贵、专有和霸权,”Frosst在X平台的一篇帖子中写道。
对企业的影响
对于构建生产级智能编码管道的团队而言,North Mini Code的发布明确了一系列逐渐形成的决策方向。
专用智能体训练已成评估基准
针对代码微调的模型与专为智能体工作流训练的模型(具有可验证的工具调用和多架构稳健性)之间的区别,现已成为管道决策的重要因素。任何声称具备智能编码能力的模型供应商都应能回答其训练是否使用了可验证的智能体任务,还是基于通用基础模型改造。
冗长性是基准未体现的隐藏管道成本
Artificial Analysis的测量显示,North Mini Code生成的输出令牌是同类模型的3倍。这种冗长性在大容量管道中会累积成推理成本和延迟。针对实际工作负载量的吞吐量测试是基准排名所忽略的评估环节。
前沿定价分化已成真实架构决策
每百万输出令牌50美元的Fable 5与可在单张H100上运行的North Mini Code,代表在成本控制和数据驻留与托管基础设施开销之间真正的权衡。运行高容量智能编码管道的团队应在承诺采用任一路径前,根据实际工作负载对两种成本路径进行建模。
关注微信号:智享开源 ,及时了解更新信息。
原文链接:https://venturebeat.com/technology/cohere-open-sources-a-coding-agent-that-runs-on-a-single-h100
关注微信

还没有任何评论,你来说两句吧!