专业AI架构:将文档审查周期缩短80%

4 小时前 暂无评论 阅读 18 次
收听本文语音

专业AI架构:将文档审查周期缩短80%

大多数垂直领域并非整洁高效的SaaS数据库,实际情况是面对混乱的文档、专有架构、隐式工作流程和长期运行的任务,这些都是通用模型难以应对的挑战。

这促使建筑项目管理公司Trunk Tools构建了一个专门的三层架构——感知层、语义层和智能体层,基于高度详细的数据来支持高精度、高相关性行业自动化。

Trunk声称,他们定制的系统已将审查周期从数月缩短至数天,避免了昂贵的现场错误,并赋予自主智能体推理数百万页文档的能力。

“我们的目标是将分散系统中的数据收集起来,进行预处理、结构化,通过本体论构建知识图谱,然后训练AI模型,”Trunk创始人兼首席执行官Sarah Buchner(前木匠)表示。

对于其他行业的从业者而言,Trunk的方法可以作为将数据混乱转化为智能体就绪、行业特定工作流程的蓝图。

通用大模型在行业数据处理中的局限性

基础大模型虽然强大,但优化方向是广度而非深度。

“通用大模型被训练得在各方面表现尚可,因此在专业领域表现较弱,”从事AI基础设施、智能体AI、安全和大模型平台的高级产品经理Kriti Faujdar表示。例如:罕见术语、领域特定推理、从业者”心知肚明”的未言明背景。

网络、应用和软件开发者Sébastien De Bollivier也认同,最大的瓶颈在于对”术语密集、缩写繁多、格式特定”的数据可靠性不足。

“一个GPT-4级别的模型可以理解法国法律合同,但会搞错从业者需要引用的具体条款,”他说。

此外,Faujdar指出,最有价值的企业数据从未被纳入预训练。这些数据存在于内部系统和专有格式中。”检索增强生成(RAG)有所帮助,”她说,”但它只是向一个仍无法在领域内正确推理的模型提供更好的事实。”

在领域数据上进行预训练至关重要;企业应然后在良好的任务示例上进行微调,并构建自己的评估体系。”几千条来自真实从业者的示例,胜过数百万条抓取的、含噪的示例,”Faujdar表示。

专家混合(MoE)可以在不显著增加推理成本的情况下提供专业化。将RAG与微调结合效果也很好;RAG处理事实性长尾信息,而微调则修正词汇和推理能力。

De Bollivier指出了混合架构的优势:使用通用模型进行推理和编排,使用小型微调模型(或对精选语料库的密集检索)进行领域特定提取。他建议:”不要微调使模型在领域内变得更’聪明’,而是微调使其在您工作流程所需的特定输出格式上更可靠。”

De Bollivier表示,贸易和建筑行业肯定正在采用这些技术,法律和医疗行业也是如此。这些垂直领域”错误风险高加上标准化文档格式,等于明确的领域训练投资回报率。”

Faujdar诚实地指出一个值得注意的警告:专业模型在其专业领域外常常表现不佳,因此除非重新训练,否则通常在专业领域外没有用处。

感知、语义、智能体:探索Trunk三层架构内部

在建筑等高度专业化领域,将数据”倾倒”到大语言模型(LLM)中是不够的,Trunk首席技术官Amrish Kapoor表示。这是因为大多数变换器是概率模型:当给定图像时,它们返回”可能”是一棵树,或”可能”是一个孩子在树旁玩耍的信息。

这使得它们不足以进行高精度符号解释。例如,在建筑文档中,2毫米宽的符号根据其放置位置具有截然不同的含义。

此外,受上下文限制,概率模型难以处理长期项目记忆。”我不是指几个token的上下文窗口,”Kapoor说,”我是指跨越数月甚至数年的长期记忆,因为有些项目就是这样持续的。”

相反,Trunk的三层系统将工作流程分解为:

  • 感知层(从混乱文档如PDF、图纸或扫描件中读取和提取数据)
  • 语义/图形层(理解该数据及其关系)
  • 顶层的LLM和智能体

建筑图纸通常是符号化的,Buchner说。门并不总是标记为”门”。有时它只是墙上的一道弧线,训练有素的眼睛根据多年实践学会识别。

“感知层教会AI阅读这种语言,”她说。语义层然后为这些信息赋予意义;例如,将门与详细说明它的图纸、规范它的规格和安装它的工种联系起来。这有助于回答项目工程师的关键问题:不是”这里有一扇门吗?”而是”这扇门会在后期造成问题吗?”

特别是在建筑领域,这种转变很重要,因为问题的成本会随时间累积。”在设计阶段发现冲突的解决成本相对较低,”Buchner说,”而同一问题在施工现场被发现可能花费数万美元。”

从高层次看,系统识别文档类型并基于内容(图纸、日程、段落文本)开始提取信息。然后,这些数据在平台中被”转换和增强”,触发智能体工作流程,如知识图关系和最终用户工作流程。

例如,一个智能体可能审查建筑公告,生成视觉覆盖层比较新旧版本(标记添加和删除的内容),然后生成以简单术语描述这些变化的书面叙述。这有助于用户了解变更内容,并与合作伙伴协调更新定价和变更订单。

建筑行业数据问题的规模

建筑工作流程中充满了各种数据源之间的隐式假设和联系,Buchner说。非结构化数据的数量”人力不可能”处理或理解。

Buchner估计,平均一栋高层建筑产生约360万页相关文档。”如果打印成纸堆,高度会与建筑物本身一样高。”

Trunk堆栈的所有三层——感知层、语义层和LLM层——都使用来自”具有明确权限”的客户和自动标注/IP的”非常特定的数据集”进行训练,Kapoor解释。不希望Trunk使用其数据进行训练的客户可以选择退出。

数据经过匿名化和聚合,Trunk还通过3D建筑信息建模(BIM)等其他管道收集”更多”标注数据。

Trunk表示,他们只发布达到约95%准确率的智能体。团队基于来自客户和专家的真实数据维护持续评估管道。他们还采用LLM作为评估模型。

“将LLM作为评估者的概念是为了客观和主观地评估您表现如何,”Kapoor说。客观性可以是简单的”对”或”不对”,但主观性需要更多细微差别。

例如,在创建电子邮件或叙述或解释时,作为评估者的LLM框架可以创建复合评分,或聚合不同度量的数值,以测试模型的性能或风险。


关注微信号:智享开源 ,及时了解更新信息。


评论列表
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍