Perplexity发布混合AI推理系统：本地云端智能切换

Mark Do 暂无评论阅读 140 次

Perplexity AI，这家估值高达200亿美元的快速成长型搜索初创公司，于周一晚间在Computex 2026大会上推出了一款革命性的”混合本地服务器推理编排器”。该系统能够自主决策——在实时执行任务过程中——智能决定哪些AI工作负载保留在用户设备上，哪些则路由至云端的前沿模型。

公司首席执行官Aravind Srinivas在英特尔首席执行官Lip-Bu Tan的主题演讲中现场演示了这一系统，利用Perplexity的”个人电脑”智能体处理机密交易材料。演示中，运行在英特尔酷睿Ultra系列3处理器上的本地模型负责判断哪些信息应保留在设备内，哪些可发送至云端模型。Srinivas强调，这种方法实现了智能、准确性、隐私和成本之间的完美平衡。

混合推理系统的核心创新

该系统的真正突破并非模型能够本地运行——已有数十款工具可以实现这一功能。关键创新在于Perplexity的系统能够自主进行路由决策，逐任务进行，无需用户预先选择。财务记录或健康信息等敏感数据会保留在本地机器；而需要前沿规模模型的重度推理任务则会被发送至云端。实现”一任务，多执行地，自动编排”的智能工作模式。

“此前没有任何产品实现过这一点，”Perplexity发言人在发送给VentureBeat的电子邮件中表示。目前该产品尚未向用户开放；据公司介绍，混合推理功能将在未来几周内正式推出。

从云端智能体到设备端AI编排：Perplexity的演进之路

要理解此次Computex演示的重要性，需要回顾Perplexity自今年年初以来构建的产品发展轨迹。

2月25日，Perplexity推出了Computer，这是一个协调19种不同AI智能体的多模型系统，能够代表用户完成复杂、长时间运行的任务。该系统完全在云端运行，将目标分解为子任务，并将每个子任务路由至最适合的模型——无论是Claude、Gemini、GPT还是Grok等。Perplexity Computer将所有当前AI能力统一到单一系统中，作为一个通用型数字工作者，通过用户相同的界面运行。

随后，在3月份，Perplexity在其首届Ask 2026开发者大会上推出了个人电脑。该产品以支持混合本地-云AI智能体的新Mac应用形式发布，Perplexity将其描述为”个人编排器”，通过混合本地和服务器环境来提升安全性和生产力。个人电脑可以访问Mac的文件系统和原生应用来创建和执行完整工作流，文件在安全沙箱中创建，所有操作都可审计且可逆。

Srinivas在Computex上演示的系统从根本上扩展了这一架构。此前，即使是个人电脑产品也沿着相对明确的界限划分工作：设备上的本地文件访问，Perplexity服务器上的重计算。

新的混合推理编排器赋予系统自身推理能力，能够判断任务的每个部分应在何处执行——不仅是使用哪个模型，还应在哪个物理位置处理它。系统在将敏感任务发送至云端前会请求用户许可，这一设计选择解决了企业对智能体AI的主要担忧之一：数据治理。

英伟达RTX Spark与英特尔新芯片的战略时机

此次演示的时机并非偶然。Computex 2026大会被一个单一主题主导：设备端AI。就在英特尔主题演讲前几小时，英伟达首席执行官黄仁勋发布了RTX Spark，这是一款基于Arm的新型超级芯片，公司将其定位为新一代AI原生Windows PC的基础。

在满负荷运行时，RTX Spark超级芯片提供多达20个Arm CPU核心、配备6,144个CUDA核心的Blackwell GPU、128GB LPDDR5X内存，以及高达300 GB/s的内存带宽——这足以支持智能体和具有百万token上下文长度的1200亿参数模型。RTX Spark系统将于秋季开始上市。

英特尔不甘示弱，在其主题演讲中展示了基于18A技术的288个能效核心的Xeon 6+处理器，用于数据中心，并将酷睿Ultra系列3定位为实现PC端混合推理的客户端芯片。

Perplexity的混合编排器位于两种战略的交汇点。如果系统表现如宣传所示，它将为用户——最终为企业——投资更强大的本地芯片创造直接经济激励。设备端芯片能力越强，推理就越能在本地运行，从而降低云成本并提高敏感工作负载的延迟。这种动态有利于英伟达、英特尔以及所有争夺AI PC插槽的芯片制造商。

其影响远超芯片经济范畴。”随着芯片变得更加强大，更多智能将转移到个人机器上，同时服务器推理仍用于需要前沿模型的复杂任务，”Perplexity发言人对VentureBeat表示。”敏感和主权工作可以保持本地化，这改变了对大规模国家基础设施的需求。”

最后一个关于主权基础设施的说法是最具争议性的。从阿联酋到法国再到印度，各国已投资数十亿美元建设国内AI计算能力，部分基于敏感数据必须留在国境内的假设，这意味着建设或购买本地数据中心访问权限。如果有意义的推理可以在终端用户设备上运行且数据不离开机器，这种计算方式就会改变。这不会消除对数据中心的需求，但可能减轻扩建的紧迫性。