Liquid AI微型模型:小身材,大能力

Liquid AI公司,由前麻省理工学院计算机科学家创立,今日发布了其最新的小型AI语言模型LFM2.5-230M,企业应当考虑将其应用于数据提取及在智能手机、笔记本电脑和机器人等设备上的本地部署。
这款拥有2300万参数的基础模型专为设备端智能体工作流程而设计。正如Liquid在其发布博客中所言,其小巧的尺寸使其几乎能够”无处不在”地运行。据Liquid公司介绍,在某些基准测试中,该模型的性能超越了其大小4倍以上的模型,特别是在数据提取方面,优于8000万参数的阿里巴巴Qwen3.5-0.8B(Instruct)和10亿参数的谷歌Gemma 3 1B。
该模型主要面向构建轻量级数据提取管道和自主边缘系统的开发人员和工程师。
在双重用途商业许可下,该模型对个人和年收入低于1000万美元的公司保持免费,而较大规模企业则需要签订付费企业协议。
与其他小型AI模型不同,此次发布的模型利用LFM2架构实现了高推理速度,避免了参数密集型变换器通常带来的巨大内存开销。
当Anthropic、OpenAI、谷歌、微软、Meta等主要AI公司将参数数量推向数千亿甚至数万亿以实现前沿性能时,另一场竞赛则完全专注于边缘和本地部署。
Liquid AI推出LFM2.5-230M标志着向架构效率而非蛮力扩展的关键转变。通过将19万亿个预训练token压缩到2300万参数的足迹中,该公司证明了边缘设备不需要强大的计算能力或持续的云连接即可执行复杂的多步骤智能体工作流程。
LFM2.5-230M的工作原理
LFM2.5-230M模型偏离了标准变换器架构,转而依赖LFM2框架。该架构作为混合系统,将门控短程卷积与分组查询注意力交织使用,以高效处理信息。
对于关注高效架构演进的读者而言,Liquid的方法具有类似的概念目标:在边缘硬件上有效处理长上下文和顺序数据,而无需纯注意力机制带来的二次内存成本。该模型支持高达32K的上下文窗口,能够处理大量文档或机器人遥测数据的连续流。
分析发布中提供的性能图表,可以直观地看到架构的效率优势。模型在内存占用保持在400MB以下的同时,实现了预填充和解码速度,超越Gemma 3 1B IT和Granite 4.0-H-350M等 comparable模型。
在配备高通骁龙Gen4 CPU的三星Galaxy S25 Ultra上,模型达到每秒213个token的解码速度。即使在高度受限的树莓派5上,模型仍能维持每秒42个token的解码速率。此外,内部基准测试显示,GPU推理堆栈在所有并发级别下的端到端延迟均低于其他竞争性小型模型。
对企业的重要性
要理解为什么2300万参数的模型必不可少,必须审视企业当前的数据管理方式。
组织传统上依赖基于规则的提取、转换、加载(ETL)脚本来移动和处理数据。然而,这些遗留系统众所周知地脆弱;文档布局的简单变化或架构更新都可能破坏整个管道。
为解决这一问题,行业正在转向”AI ETL”,其中机器学习推断映射、检测架构漂移,并自动适应变化。在现代轻量级数据提取管道中,AI模型连接到非结构化数据源——如PDF、电子邮件或网络表单——并将数据结构化为JSON等格式,而无需硬编码规则。
对于企业而言,使用像Claude Opus 4.6(每百万输入token成本5美元)这样的旗舰模型来解析常规发票、格式化地址或路由遥测数据在经济上是不可行的。
这正是LFM2.5-230M等模型变得至关重要的地方。作为轻量级提取引擎而设计,它使公司能够以计算成本和延迟的一小部分自动执行重复性格式化和数据解析,直接在本地硬件上运行,而非依赖昂贵且持续的云API调用。
小型模型基准:LFM与3B级别模型对比
2026年中期,AI行业正经历”小型”模型的复兴,但”小型”的定义差异很大。
最近,开源社区被Weibo的VibeThinker-3B模型所震撼,这是一个基于Qwen2架构的30亿参数模型,在AIME 2026数学基准测试中取得了94.3的高分,通过积极的数据强化和强化学习,与6000亿参数的巨头模型相抗衡。
同样,谷歌的Gemma 4家族——最近下载量已超过2亿次——将前沿AI推向边缘,包括专为移动和IoT部署设计的E2B(20亿参数)。
相比之下,Liquid AI的LFM2.5-230M完全不同的重量级别。仅有2300万参数,它大约是谷歌最小的Gemma 4模型和VibeThinker-3B的十分之一。
由于其微小的足迹,LFM2.5-230M并非为解决推理密集型任务而设计,如高级数学、编程或创意写作——Liquid AI明确承认这一限制。
然而,在其预期的数据提取和工具调用领域,该模型的表现远超其重量级别。
Liquid AI发布的基准测试显示,LFM2.5-230M在BFCLv3工具使用基准测试中得分为43.26,显著领先于IBM的Granite 4.0-350M(39.58),并完全超越10亿参数的谷歌Gemma 3 1B IT(16.61)。
在数据提取的CaseReportBench测试中,它得分为22.51,大幅领先于Qwen3.5-0.8B(Instruct)。
LFM2.5-230M证明了,当30亿参数的模型如VibeThinker正在解决高等数学问题时,一个2300万参数的模型是执行结构化工具调用和在受限硬件上高效运行智能体管道的更优选择。
高级研究用途
由于其在工具调用方面的出色表现,LFM2.5-230M主要充当技能选择层。Liquid AI通过在宇树G1人形机器人上部署该模型展示了这一能力。
通过机器人板载NVIDIA Jetson Orin计算模块完全在设备端运行,模型成功处理复杂的环境指令。
正如该公司技术博客所述,模型采用类似”保持静止2秒,然后以每秒1米的速度向前行走3米,保持前腿跪姿5秒,再以每秒0.5米的速度向后行走3米”的自由形式指令,并自动将其转换为调用NVIDIA SONIC框架提供的预训练低级技能的结构化多步骤计划。
基础和后训练模型现已可在Hugging Face上获取,并第一天就在llama.cpp(GGUF)、MLX、vLLM、SGLang和ONNX等推理生态系统中提供原生支持。
双重用途、自定义LFM开放许可
Liquid AI以LFM开放许可v1.0发布LFM2.5-230M。尽管该许可允许广泛使用,但用户需遵守特定条款,包括在使用AI生成内容时适当归因,以及禁止将其用于某些高风险应用。
关注微信号:智享开源,及时了解更新信息。


公众号:智享开源
还没有任何评论,你来说两句吧!