Databricks攻克数据管道难题，释放智能体潜能

数十年难题的新解法

数十年来，数据专业人员一直致力于在统一管理操作型和分析型数据库的同时，避免引入延迟和性能下降，这始终是一项巨大的挑战。

**智能体**的出现使这一问题变得更具结构性。一个能够持续推理并基于实时数据采取行动的系统，无法容忍自身与所需信息之间存在任何数据管道的阻隔。

在周二举行的Data + AI峰会上，Databricks宣布推出两款旨在精简此类基础设施的产品。Lakehouse//RT可直接在受管控的Delta和Iceberg表上提供毫秒级查询延迟，从而消除了企业在湖仓架构旁长期维护的专用实时服务层。LTAP（湖仓事务/分析处理）则能在写入时将原生Postgres事务数据存储为Delta和Iceberg格式，一举移除了连接操作和分析系统长达数十年的ETL管道。

Databricks联合创始人Reynold Xin在与VentureBeat的简报中，将这种简化的数据架构描述为“**智能体**的圣杯”。他认为，随着用户越来越多地通过代码编写应用，在这些应用之上进行推理分析的**智能体**需要底层基础设施不再成为阻碍，以便快速行动。

“**智能体**确实更喜欢更简单的技术栈，因为它们能以此获得更快的速度，”Xin说道。

LTAP：通过存储层统一挑战HTAP的引擎融合

几十年来，许多供应商尝试过各种方法来统一分析和事务数据。

早在2014年，分析机构Gartner就创造了HTAP（混合事务/分析处理）一词，用来描述那些试图统一两类数据库的厂商。SingleStore（原名MemSQL）、SAP HANA以及Oracle的MySQL Heatwave等都是市场中的HTAP代表厂商。

LTAP是Databricks对HTAP的回应，它利用Lakebase架构在存储层而非引擎层统一数据。Lakebase是Databricks基于云的无服务器PostgreSQL数据库服务，已于今年2月正式发布。

“对我们来说，HTAP更多是行业的一种失败，而非成功，”Xin评价道。

LTAP直接作用于存储层而非查询层。此前，Lakebase以Postgres格式将数据存储在对象存储上，湖仓分析引擎在使用前需进行转换。而在LTAP模式下，事务数据直接以Delta或Iceberg格式落地，与分析工作负载共享同一份数据副本。Postgres继续作为事务引擎，Spark和湖仓则作为分析引擎。

“核心在于，你在查询引擎层面使用最佳工具，我们只需确保底层数据只有一份，”Xin解释道。

核心工程挑战在于延迟。对象存储的响应时间以秒计，这对于需要亚毫秒级性能的OLTP工作负载来说太慢了。Lakebase通过在Postgres计算实例和对象存储之间设置缓存层来处理这一问题。关键的设计决策在于列转换的位置：利用缓存层空闲的CPU容量，在数据落入对象存储之前完成行到列的转换。

“当数据从行式转换为列式时，通常压缩率会超过10倍，这极大地降低了缓存层与对象存储之间的网络成本，”Xin补充道。

Lakehouse//RT：无需独立服务层即可实现毫秒级查询

Lakehouse//RT是Databricks对专用实时服务层的回应。企业通常在湖仓架构旁维护这一独立系统以处理低延迟查询，但这带来了数据副本、治理分离和管道复杂性问题，而**智能体**无法绕过这些问题。Lakehouse//RT的主要能力包括：

Reyden计算引擎：专为高并发、低延迟服务构建，可直接查询Delta和Iceberg表，无需将数据移出湖仓。
延迟与吞吐量：Lakehouse//RT在每秒12,000次查询下可实现亚100毫秒的延迟，小数据集响应时间低至10毫秒，性能比现有专用服务栈高出16倍。
治理与数据访问：所有查询均在Unity Catalog治理框架内运行，无需单独的权限层、数据副本或摄取管道。

分析师认为“智能体”定位和开放格式是真正的差异化因素

这两款产品解决的问题在企业数据团队中已有详尽记录，但分析师区分了痛点与Databricks的具体主张。

“企业多年来一直拥有HTAP、流处理、云仓库和操作存储，”HyperFRAME Research的AI Stack实践主管Stephanie Walter告诉VentureBeat，“不同的是‘智能体AI’的定位。”

Walter指出，**智能体**需要在同一工作流中获取实时操作数据、历史上下文、治理、检索和回写能力。

“这是一个强有力的架构论据，但Lakebase仍需证明其能满足CIO们对延迟、可靠性和运营成熟度的期望，”她表示。

Moor Insights and Strategy的分析师Mike Leone认为，真正的差异化路径比统一概念本身更为具体。他指出，如今数据湖上的开放分析已成为基础门槛，许多供应商都提供了某种服务。

“较少见的举措是让事务写入也采用开放格式，这样操作数据库就不会被困在专有盒子里，而只有分析端是开放的，”Leone对VentureBeat说道。

他补充道，开放格式方法结合Lakehouse//RT直接从湖中查询实时数据，使得该架构有充分理由淘汰一整排专用系统。

将面临最严格审查的技术主张也是最核心的那一个。“我仍希望他们的工程师能详细说明，两个引擎如何真正共享同一份数据副本，而没有隐蔽的转换步骤在中间进行同步，”Leone说。

对企业的意义

对于正在为**智能体**工作负载评估技术栈的数据工程师而言，问题不再是为每项任务选择哪个最佳工具——而是继续运行独立的工具是否仍然合理。

构建了独立操作数据库、实时服务层和分析湖仓的企业，以前可能将它们之间的差距视为维护负担。 但对于**智能体**而言，这些差距构成了运营风险：一个跨越治理边界进行推理的系统，会比任何人类团队都更快地发现数据不一致性。

市场摆脱专用服务层的速度比大多数供应商路线图预期的要快。 根据针对100人以上组织的纵向调查VB Pulse Q1 2026，混合检索意图在本季度内从10.3%飙升至33.3%，而独立向量数据库…

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://venturebeat.com/data/databricks-says-it-solved-the-decades-old-data-pipeline-problem-thats-been-slowing-ai-agents

0 0

Databricks攻克数据管道难题，释放智能体潜能

数十年难题的新解法

LTAP：通过存储层统一挑战HTAP的引擎融合

Lakehouse//RT：无需独立服务层即可实现毫秒级查询

分析师认为“智能体”定位和开放格式是真正的差异化因素

对企业的意义

评论列表

发表评论

为你推荐

近期文章

标签

近期评论

分类

热门文章