Pinterest改造AI模型视觉层,成本降低90%

拥有6.2亿月活跃用户的Pinterest,若为每张图片推荐都调用前沿AI模型,不仅策略不可行,更是巨额账单。公司首席技术官Matt Madrigal通过改造Qwen3-VL的视觉层,并采用自有嵌入技术,成功将AI成本降低90%,同时将推荐准确率提升30%。
Madrigal的团队长期专注于“内部基础性定制开源模型”。他在近期的一次播客访谈中解释道:“如果你拥有独特的数据,能对开源模型进行微调,数据质量实际上会超越模型规模本身。”
Pinterest如何定制Qwen模型以实现视觉发现
Pinterest长期以来一直采用开源模型进行视觉搜索与发现,从Google的BERT到OpenAI的CLIP,公司甚至基于CLIP微调出专属的Pin CLIP,融入自有视觉嵌入与图片元数据。
Pinterest的对话式购物助手Navigator 1基于Qwen3-VL开发,并在多个方面进行了“相当显著”的定制。Madrigal团队实质上“剥离”了Qwen的视觉编码器层,转而使用自有多模态嵌入对模型进行微调。这使得他们能够捕获图钉和图片的元数据,这些数据可离线预计算,并定期根据新信息重新训练,以提供个性化体验。
“开源模型,尤其是采用开放Apache许可的,允许我们深度调整权重,为独特场景定制,这正是我们发现开源对我们如此强大的原因,”Madrigal说道。
引入自有嵌入让他的团队能够获取元数据、图钉和图片的上下文;值得注意的是,模型在运行时和推理阶段的性能也得到提升。如果没有这些嵌入,开发人员必须在运行时逐一调用并编码每张返回的图片,导致推理延迟“恶化20倍”,Madrigal表示。
“如果某项功能对终端用户至关重要,能提升参与度,且需要支撑6亿月活用户,我们可能会自行开发,或者利用开源模型进行深度定制,”他说。
“品味图谱”如何捕捉动态兴趣
为引导用户从灵感发现走向购买,Madrigal团队构建了“品味图谱”——动态呈现个体真实喜好的模型,而非仅基于点击数据。“这是数十亿人不断变化的品味 representations,”他解释道。
人们有明确目标时会使用Google等搜索引擎,而Pinterest则适用于灵感发现阶段。Pinterest的目标是鼓励“横向探索”,将发现转化为购买意图(即点击广告或完成购买)。
该架构结合了图结构与表征学习:用户嵌入捕捉用户不断变化的品味,这些嵌入会根据活动和新的内容、信号持续更新。“这不是社交图谱,”Madrigal强调。“它更像是一个偏好图谱:什么能激发你?你下一步想做什么?”
例如,一个用户可能喜欢中世纪现代设计,另一个可能偏爱楠塔基特风格。这些偏好会被记录在用户嵌入中,品味图谱据此推送具体、相关的产品。
“我们从上漏斗的灵感发现,一直延伸到下漏斗的购买意图,”Madrigal总结。
收听完整播客可了解更多关于:
-
Pinterest如何使用沙箱以安全可控的方式鼓励创造力;
-
持续反馈循环如何防止视觉AI质量下降;
-
持续基准测试对衡量用户参与度、性能、延迟等因素的重要性。
您也可以在以下平台收听并订阅《Beyond the Pilot》:官网、Spotify、Apple Podcasts或其他播客平台。
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!