Perplexity发布混合AI推理系统:本地云端智能切换

Perplexity AI,这家估值高达200亿美元的快速成长型搜索初创公司,于周一晚间在Computex 2026大会上推出了一款革命性的”混合本地服务器推理编排器”。该系统能够自主决策——在实时执行任务过程中——智能决定哪些AI工作负载保留在用户设备上,哪些则路由至云端的前沿模型。
公司首席执行官Aravind Srinivas在英特尔首席执行官Lip-Bu Tan的主题演讲中现场演示了这一系统,利用Perplexity的”个人电脑”智能体处理机密交易材料。演示中,运行在英特尔酷睿Ultra系列3处理器上的本地模型负责判断哪些信息应保留在设备内,哪些可发送至云端模型。Srinivas强调,这种方法实现了智能、准确性、隐私和成本之间的完美平衡。
混合推理系统的核心创新
该系统的真正突破并非模型能够本地运行——已有数十款工具可以实现这一功能。关键创新在于Perplexity的系统能够自主进行路由决策,逐任务进行,无需用户预先选择。财务记录或健康信息等敏感数据会保留在本地机器;而需要前沿规模模型的重度推理任务则会被发送至云端。实现”一任务,多执行地,自动编排”的智能工作模式。
“此前没有任何产品实现过这一点,”Perplexity发言人在发送给VentureBeat的电子邮件中表示。目前该产品尚未向用户开放;据公司介绍,混合推理功能将在未来几周内正式推出。
从云端智能体到设备端AI编排:Perplexity的演进之路
要理解此次Computex演示的重要性,需要回顾Perplexity自今年年初以来构建的产品发展轨迹。
2月25日,Perplexity推出了Computer,这是一个协调19种不同AI智能体的多模型系统,能够代表用户完成复杂、长时间运行的任务。该系统完全在云端运行,将目标分解为子任务,并将每个子任务路由至最适合的模型——无论是Claude、Gemini、GPT还是Grok等。Perplexity Computer将所有当前AI能力统一到单一系统中,作为一个通用型数字工作者,通过用户相同的界面运行。
随后,在3月份,Perplexity在其首届Ask 2026开发者大会上推出了个人电脑。该产品以支持混合本地-云AI智能体的新Mac应用形式发布,Perplexity将其描述为”个人编排器”,通过混合本地和服务器环境来提升安全性和生产力。个人电脑可以访问Mac的文件系统和原生应用来创建和执行完整工作流,文件在安全沙箱中创建,所有操作都可审计且可逆。
Srinivas在Computex上演示的系统从根本上扩展了这一架构。此前,即使是个人电脑产品也沿着相对明确的界限划分工作:设备上的本地文件访问,Perplexity服务器上的重计算。
新的混合推理编排器赋予系统自身推理能力,能够判断任务的每个部分应在何处执行——不仅是使用哪个模型,还应在哪个物理位置处理它。系统在将敏感任务发送至云端前会请求用户许可,这一设计选择解决了企业对智能体AI的主要担忧之一:数据治理。
英伟达RTX Spark与英特尔新芯片的战略时机
此次演示的时机并非偶然。Computex 2026大会被一个单一主题主导:设备端AI。就在英特尔主题演讲前几小时,英伟达首席执行官黄仁勋发布了RTX Spark,这是一款基于Arm的新型超级芯片,公司将其定位为新一代AI原生Windows PC的基础。
在满负荷运行时,RTX Spark超级芯片提供多达20个Arm CPU核心、配备6,144个CUDA核心的Blackwell GPU、128GB LPDDR5X内存,以及高达300 GB/s的内存带宽——这足以支持智能体和具有百万token上下文长度的1200亿参数模型。RTX Spark系统将于秋季开始上市。
英特尔不甘示弱,在其主题演讲中展示了基于18A技术的288个能效核心的Xeon 6+处理器,用于数据中心,并将酷睿Ultra系列3定位为实现PC端混合推理的客户端芯片。
Perplexity的混合编排器位于两种战略的交汇点。如果系统表现如宣传所示,它将为用户——最终为企业——投资更强大的本地芯片创造直接经济激励。设备端芯片能力越强,推理就越能在本地运行,从而降低云成本并提高敏感工作负载的延迟。这种动态有利于英伟达、英特尔以及所有争夺AI PC插槽的芯片制造商。
其影响远超芯片经济范畴。”随着芯片变得更加强大,更多智能将转移到个人机器上,同时服务器推理仍用于需要前沿模型的复杂任务,”Perplexity发言人对VentureBeat表示。”敏感和主权工作可以保持本地化,这改变了对大规模国家基础设施的需求。”
最后一个关于主权基础设施的说法是最具争议性的。从阿联酋到法国再到印度,各国已投资数十亿美元建设国内AI计算能力,部分基于敏感数据必须留在国境内的假设,这意味着建设或购买本地数据中心访问权限。如果有意义的推理可以在终端用户设备上运行且数据不离开机器,这种计算方式就会改变。这不会消除对数据中心的需求,但可能减轻扩建的紧迫性。
使混合推理成为可能的模型无关架构
Perplexity的混合推理战略基于公司全年来的相同架构赌注:编排层比任何单个模型都更重要。对于AI工程师而言,这标志着一种根本性转变——编排层可能比模型本身更重要。
关键在于关注点分离:编排层处理任务分解、状态管理和工具协调,而模型层处理特定计算。这种解耦意味着团队可以在出现更好的替代模型时替换模型,而无需重新设计整个系统。
Perplexity已大力投入这一理念。公司正加倍努力将前沿模型包装为消费者友好的界面,同时保持底层架构的模型无关性。这意味着无论用户选择使用哪个提供商的模型,体验都保持一致。
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!