Databricks攻克数据管道难题,释放智能体潜能

数十年难题的新解法
数十年来,数据专业人员一直致力于在统一管理操作型和分析型数据库的同时,避免引入延迟和性能下降,这始终是一项巨大的挑战。
**智能体**的出现使这一问题变得更具结构性。一个能够持续推理并基于实时数据采取行动的系统,无法容忍自身与所需信息之间存在任何数据管道的阻隔。
在周二举行的Data + AI峰会上,Databricks宣布推出两款旨在精简此类基础设施的产品。Lakehouse//RT可直接在受管控的Delta和Iceberg表上提供毫秒级查询延迟,从而消除了企业在湖仓架构旁长期维护的专用实时服务层。LTAP(湖仓事务/分析处理)则能在写入时将原生Postgres事务数据存储为Delta和Iceberg格式,一举移除了连接操作和分析系统长达数十年的ETL管道。
Databricks联合创始人Reynold Xin在与VentureBeat的简报中,将这种简化的数据架构描述为“**智能体**的圣杯”。他认为,随着用户越来越多地通过代码编写应用,在这些应用之上进行推理分析的**智能体**需要底层基础设施不再成为阻碍,以便快速行动。
“**智能体**确实更喜欢更简单的技术栈,因为它们能以此获得更快的速度,”Xin说道。
LTAP:通过存储层统一挑战HTAP的引擎融合
几十年来,许多供应商尝试过各种方法来统一分析和事务数据。
早在2014年,分析机构Gartner就创造了HTAP(混合事务/分析处理)一词,用来描述那些试图统一两类数据库的厂商。SingleStore(原名MemSQL)、SAP HANA以及Oracle的MySQL Heatwave等都是市场中的HTAP代表厂商。
LTAP是Databricks对HTAP的回应,它利用Lakebase架构在存储层而非引擎层统一数据。Lakebase是Databricks基于云的无服务器PostgreSQL数据库服务,已于今年2月正式发布。
“对我们来说,HTAP更多是行业的一种失败,而非成功,”Xin评价道。
LTAP直接作用于存储层而非查询层。此前,Lakebase以Postgres格式将数据存储在对象存储上,湖仓分析引擎在使用前需进行转换。而在LTAP模式下,事务数据直接以Delta或Iceberg格式落地,与分析工作负载共享同一份数据副本。Postgres继续作为事务引擎,Spark和湖仓则作为分析引擎。
“核心在于,你在查询引擎层面使用最佳工具,我们只需确保底层数据只有一份,”Xin解释道。
核心工程挑战在于延迟。对象存储的响应时间以秒计,这对于需要亚毫秒级性能的OLTP工作负载来说太慢了。Lakebase通过在Postgres计算实例和对象存储之间设置缓存层来处理这一问题。关键的设计决策在于列转换的位置:利用缓存层空闲的CPU容量,在数据落入对象存储之前完成行到列的转换。
“当数据从行式转换为列式时,通常压缩率会超过10倍,这极大地降低了缓存层与对象存储之间的网络成本,”Xin补充道。
Lakehouse//RT:无需独立服务层即可实现毫秒级查询
Lakehouse//RT是Databricks对专用实时服务层的回应。企业通常在湖仓架构旁维护这一独立系统以处理低延迟查询,但这带来了数据副本、治理分离和管道复杂性问题,而**智能体**无法绕过这些问题。Lakehouse//RT的主要能力包括:
- Reyden计算引擎:专为高并发、低延迟服务构建,可直接查询Delta和Iceberg表,无需将数据移出湖仓。
- 延迟与吞吐量:Lakehouse//RT在每秒12,000次查询下可实现亚100毫秒的延迟,小数据集响应时间低至10毫秒,性能比现有专用服务栈高出16倍。
- 治理与数据访问:所有查询均在Unity Catalog治理框架内运行,无需单独的权限层、数据副本或摄取管道。
分析师认为“智能体”定位和开放格式是真正的差异化因素
这两款产品解决的问题在企业数据团队中已有详尽记录,但分析师区分了痛点与Databricks的具体主张。
“企业多年来一直拥有HTAP、流处理、云仓库和操作存储,”HyperFRAME Research的AI Stack实践主管Stephanie Walter告诉VentureBeat,“不同的是‘智能体AI’的定位。”
Walter指出,**智能体**需要在同一工作流中获取实时操作数据、历史上下文、治理、检索和回写能力。
“这是一个强有力的架构论据,但Lakebase仍需证明其能满足CIO们对延迟、可靠性和运营成熟度的期望,”她表示。
Moor Insights and Strategy的分析师Mike Leone认为,真正的差异化路径比统一概念本身更为具体。他指出,如今数据湖上的开放分析已成为基础门槛,许多供应商都提供了某种服务。
“较少见的举措是让事务写入也采用开放格式,这样操作数据库就不会被困在专有盒子里,而只有分析端是开放的,”Leone对VentureBeat说道。
他补充道,开放格式方法结合Lakehouse//RT直接从湖中查询实时数据,使得该架构有充分理由淘汰一整排专用系统。
将面临最严格审查的技术主张也是最核心的那一个。“我仍希望他们的工程师能详细说明,两个引擎如何真正共享同一份数据副本,而没有隐蔽的转换步骤在中间进行同步,”Leone说。
对企业的意义
对于正在为**智能体**工作负载评估技术栈的数据工程师而言,问题不再是为每项任务选择哪个最佳工具——而是继续运行独立的工具是否仍然合理。
构建了独立操作数据库、实时服务层和分析湖仓的企业,以前可能将它们之间的差距视为维护负担。 但对于**智能体**而言,这些差距构成了运营风险:一个跨越治理边界进行推理的系统,会比任何人类团队都更快地发现数据不一致性。
市场摆脱专用服务层的速度比大多数供应商路线图预期的要快。 根据针对100人以上组织的纵向调查VB Pulse Q1 2026,混合检索意图在本季度内从10.3%飙升至33.3%,而独立向量数据库…
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!