SQL日志构建语义层,AI智能体告别连接幻觉

当Miro的数据团队将AI智能体直接指向其Snowflake环境时,智能体给出的错误答案占比超过65%。问题并非出在模型本身,而是缺乏上下文。由于存在超过10,000张表且没有语义层指导路由,智能体无法判断哪些数据资产与哪些业务问题相匹配。
DataHub将于周四发布Context Intelligence层,该层通过挖掘现有SQL查询历史构建语义索引,并通过MCP、LangChain、Google的智能体开发工具包和CrewAI向智能体开放。公司称之为“上下文智能”,其底层基于DataHub在全球生产部署中用于 lineage 跟踪的相同查询日志基础设施构建。
该公司由曾主导LinkedIn数据基础架构近11年的联合创始人兼CTO Shirshanka Das团队创立,该团队在LinkedIn内部开发了DataHub开源项目。如今,该开源项目拥有超过15,000名贡献者和3,000个全球生产部署。
“企业首次能将多年的分析师查询历史转化为一个可检索的活知识库,智能体因能访问此前验证过的有效连接而停止产生连接幻觉,”DataHub联合创始人兼CTO Shirshanka Das在独家采访中向VentureBeat表示。
为何查询历史优于原始模式用于智能体路由
DataHub最初是LinkedIn的元数据管理项目,旨在同时解决两个问题:让数据在组织内易于查找和使用,并确保其仅用于正确用途。Das在近六年内部开发后于2020年初开源该项目。
此后的主要用例是 lineage 跟踪——理解数据如何从业务系统通过流处理基础设施流入数据仓库并输出至业务工具。监管合规审计、运营排查和新工程师入职均依赖这一 lineage 图。Postgres是全球DataHub部署中最常用的数据源,其次是MySQL、Oracle及包括Snowflake和Google BigQuery在内的主流云数据仓库。该平台支持超过100个连接的元数据源。
这一部署基础对DataHub此次发布至关重要。Context Intelligence所依赖的查询日志提取和SQL解析能力是在多年生产部署中开发的,而非专为此次发布构建。同一基础设施如今服务于智能体在运行时查询语义索引。
“消费层已从人类转向智能体,”Das表示。
Context Intelligence挖掘已验证的查询历史,而非原始日志
Context Intelligence是构建在DataHub现有开源元数据基础上的新能力层。该开源平台多年来从连接的数据仓库中提取并解析查询日志以进行 lineage 跟踪,这一相同的基础设施被Context Intelligence用于构建语义索引。能力是新的,但底层架构并非如此。
- 过滤信号:数据仓库查询日志包含过多噪声,无法直接使用。DataHub的引擎过滤Das所说的“黄金查询”——即高质量分析师查询和已调度的代表验证过的业务逻辑的流水线。
- 倒置SQL为语义定义:引擎从这些查询中提取模式,并将其转换为DataHub称为“语义锚点”的结构化文本定义。这些锚点构成智能体在生成SQL前依赖的检索基础。“你可以将其视为将文本倒置为SQL,”Das解释道。
- 人工验证叠加:Context Hub允许领域专家审核AI建议的上下文,解决冲突定义,并在发布前模拟变更影响。DataHub会突出显示不同团队对同一指标的差异化计算,并将其提交人工解决。
Miro如何在10,000张Snowflake表中让AI智能体有效工作
作为数字协作平台的Miro,在测试其Snowflake环境中的分析智能体时已使用DataHub进行 lineage 跟踪和影响分析。Miro数据平台产品经理Ronald Angel向VentureBeat透露,数据资产的规模立即成为问题。直接向Snowflake的MCP提交自然语言查询,错误答案占比超过65%。向智能体暴露超过10,000张表导致路由混乱,无法保证可靠性。
Miro通过将数据组织为定义明确的数据产品来解决这一问题,这些产品约束了智能体可见范围,而非直接暴露原始模式。生产架构从用户通过Claude Chat或Claude Cowork提交的请求开始,经过一个上下文层,其中DataHub的MCP将自然语言映射到相应数据资产,再交由Snowflake的MCP生成SQL。
Angel表示,该上下文层整合了每个Snowflake表的元数据、实体关系、查询历史及业务意图,特别是每个实体旨在回答的具体业务问题。这些语义信号使智能体能在编写SQL前识别正确的数据库实体,而非仅凭模式猜测。
Pinecone、Oracle、Redis、Microsoft:DataHub如何融入上下文栈
Pinecone、Oracle和Redis等数据厂商均具备上下文记忆能力。在平台层面,Microsoft已构建Fabric IQ作为语义层提供上下文。
DataHub的论点并非功能对等。公司将该上下文层定位为平台中立——向现有端点(如Snowflake语义视图和Microsoft Fabric IQ)提供上下文,而非替代它们。
“很多时候,人们希望上下文层保持平台中立,”Das说。
BARC分析师Kevin Petrie向VentureBeat表示,他看到DataHub整合多样化元数据(包括文档、图像等结构化和非结构化对象)的能力使其在市场中脱颖而出。
“许多其他厂商更专注于结构化表格,这些表格提供可信事实,但往往缺乏文本对象的丰富上下文,”他说。
Constellation Research副总裁兼首席分析师Michael Ni认为,DataHub上下文层最突出的特点是支持从被动编目向持续刷新的语义智能转变。
Ni将上下文竞争描述为下一场重大平台战争,称“谁在运行时控制上下文,谁就控制数据、智能体、工作流和决策的决策层”。
“买家需谨慎,许多厂商仅支持AI和智能体解决方案所需完整上下文能力的一部分,”Ni表示。“买家应明确其上下文管理需求,因为向量记忆不等于业务含义,业务含义不等于治理,治理不等于执行。”
关注微信号:智享开源 ,及时了解更新信息。
关注微信

还没有任何评论,你来说两句吧!