Databricks攻克数据管道难题,释放智能体潜能

Databricks攻克数据管道难题,释放智能体潜能

数十年难题的新解法

数十年来,数据专业人员一直致力于在统一管理操作型和分析型数据库的同时,避免引入延迟和性能下降,这始终是一项巨大的挑战。

**智能体**的出现使这一问题变得更具结构性。一个能够持续推理并基于实时数据采取行动的系统,无法容忍自身与所需信息之间存在任何数据管道的阻隔。

在周二举行的Data + AI峰会上,Databricks宣布推出两款旨在精简此类基础设施的产品。Lakehouse//RT可直接在受管控的Delta和Iceberg表上提供毫秒级查询延迟,从而消除了企业在湖仓架构旁长期维护的专用实时服务层。LTAP(湖仓事务/分析处理)则能在写入时将原生Postgres事务数据存储为Delta和Iceberg格式,一举移除了连接操作和分析系统长达数十年的ETL管道。

Databricks联合创始人Reynold Xin在与VentureBeat的简报中,将这种简化的数据架构描述为“**智能体**的圣杯”。他认为,随着用户越来越多地通过代码编写应用,在这些应用之上进行推理分析的**智能体**需要底层基础设施不再成为阻碍,以便快速行动。

“**智能体**确实更喜欢更简单的技术栈,因为它们能以此获得更快的速度,”Xin说道。

LTAP:通过存储层统一挑战HTAP的引擎融合

几十年来,许多供应商尝试过各种方法来统一分析和事务数据。

早在2014年,分析机构Gartner就创造了HTAP(混合事务/分析处理)一词,用来描述那些试图统一两类数据库的厂商。SingleStore(原名MemSQL)、SAP HANA以及Oracle的MySQL Heatwave等都是市场中的HTAP代表厂商。

LTAP是Databricks对HTAP的回应,它利用Lakebase架构在存储层而非引擎层统一数据。Lakebase是Databricks基于云的无服务器PostgreSQL数据库服务,已于今年2月正式发布。

“对我们来说,HTAP更多是行业的一种失败,而非成功,”Xin评价道。

LTAP直接作用于存储层而非查询层。此前,Lakebase以Postgres格式将数据存储在对象存储上,湖仓分析引擎在使用前需进行转换。而在LTAP模式下,事务数据直接以Delta或Iceberg格式落地,与分析工作负载共享同一份数据副本。Postgres继续作为事务引擎,Spark和湖仓则作为分析引擎。

“核心在于,你在查询引擎层面使用最佳工具,我们只需确保底层数据只有一份,”Xin解释道。

核心工程挑战在于延迟。对象存储的响应时间以秒计,这对于需要亚毫秒级性能的OLTP工作负载来说太慢了。Lakebase通过在Postgres计算实例和对象存储之间设置缓存层来处理这一问题。关键的设计决策在于列转换的位置:利用缓存层空闲的CPU容量,在数据落入对象存储之前完成行到列的转换。

“当数据从行式转换为列式时,通常压缩率会超过10倍,这极大地降低了缓存层与对象存储之间的网络成本,”Xin补充道。

Lakehouse//RT:无需独立服务层即可实现毫秒级查询

Lakehouse//RT是Databricks对专用实时服务层的回应。企业通常在湖仓架构旁维护这一独立系统以处理低延迟查询,但这带来了数据副本、治理分离和管道复杂性问题,而**智能体**无法绕过这些问题。Lakehouse//RT的主要能力包括:

  • Reyden计算引擎:专为高并发、低延迟服务构建,可直接查询Delta和Iceberg表,无需将数据移出湖仓。
  • 延迟与吞吐量:Lakehouse//RT在每秒12,000次查询下可实现亚100毫秒的延迟,小数据集响应时间低至10毫秒,性能比现有专用服务栈高出16倍。
  • 治理与数据访问:所有查询均在Unity Catalog治理框架内运行,无需单独的权限层、数据副本或摄取管道。

分析师认为“智能体”定位和开放格式是真正的差异化因素

这两款产品解决的问题在企业数据团队中已有详尽记录,但分析师区分了痛点与Databricks的具体主张。

“企业多年来一直拥有HTAP、流处理、云仓库和操作存储,”HyperFRAME Research的AI Stack实践主管Stephanie Walter告诉VentureBeat,“不同的是‘智能体AI’的定位。”

Walter指出,**智能体**需要在同一工作流中获取实时操作数据、历史上下文、治理、检索和回写能力。

“这是一个强有力的架构论据,但Lakebase仍需证明其能满足CIO们对延迟、可靠性和运营成熟度的期望,”她表示。

Moor Insights and Strategy的分析师Mike Leone认为,真正的差异化路径比统一概念本身更为具体。他指出,如今数据湖上的开放分析已成为基础门槛,许多供应商都提供了某种服务。

“较少见的举措是让事务写入也采用开放格式,这样操作数据库就不会被困在专有盒子里,而只有分析端是开放的,”Leone对VentureBeat说道。

他补充道,开放格式方法结合Lakehouse//RT直接从湖中查询实时数据,使得该架构有充分理由淘汰一整排专用系统。

将面临最严格审查的技术主张也是最核心的那一个。“我仍希望他们的工程师能详细说明,两个引擎如何真正共享同一份数据副本,而没有隐蔽的转换步骤在中间进行同步,”Leone说。

对企业的意义

对于正在为**智能体**工作负载评估技术栈的数据工程师而言,问题不再是为每项任务选择哪个最佳工具——而是继续运行独立的工具是否仍然合理。

构建了独立操作数据库、实时服务层和分析湖仓的企业,以前可能将它们之间的差距视为维护负担。 但对于**智能体**而言,这些差距构成了运营风险:一个跨越治理边界进行推理的系统,会比任何人类团队都更快地发现数据不一致性。

市场摆脱专用服务层的速度比大多数供应商路线图预期的要快。 根据针对100人以上组织的纵向调查VB Pulse Q1 2026,混合检索意图在本季度内从10.3%飙升至33.3%,而独立向量数据库…


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/data/databricks-says-it-solved-the-decades-old-data-pipeline-problem-thats-been-slowing-ai-agents

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1483篇


关注微信

分类