Pinterest改造AI模型视觉层，成本降低90%

拥有6.2亿月活跃用户的Pinterest，若为每张图片推荐都调用前沿AI模型，不仅策略不可行，更是巨额账单。公司首席技术官Matt Madrigal通过改造Qwen3-VL的视觉层，并采用自有嵌入技术，成功将AI成本降低90%，同时将推荐准确率提升30%。

Madrigal的团队长期专注于“内部基础性定制开源模型”。他在近期的一次播客访谈中解释道：“如果你拥有独特的数据，能对开源模型进行微调，数据质量实际上会超越模型规模本身。”

Pinterest如何定制Qwen模型以实现视觉发现

Pinterest长期以来一直采用开源模型进行视觉搜索与发现，从Google的BERT到OpenAI的CLIP，公司甚至基于CLIP微调出专属的Pin CLIP，融入自有视觉嵌入与图片元数据。

Pinterest的对话式购物助手Navigator 1基于Qwen3-VL开发，并在多个方面进行了“相当显著”的定制。Madrigal团队实质上“剥离”了Qwen的视觉编码器层，转而使用自有多模态嵌入对模型进行微调。这使得他们能够捕获图钉和图片的元数据，这些数据可离线预计算，并定期根据新信息重新训练，以提供个性化体验。

“开源模型，尤其是采用开放Apache许可的，允许我们深度调整权重，为独特场景定制，这正是我们发现开源对我们如此强大的原因，”Madrigal说道。

引入自有嵌入让他的团队能够获取元数据、图钉和图片的上下文；值得注意的是，模型在运行时和推理阶段的性能也得到提升。如果没有这些嵌入，开发人员必须在运行时逐一调用并编码每张返回的图片，导致推理延迟“恶化20倍”，Madrigal表示。

“如果某项功能对终端用户至关重要，能提升参与度，且需要支撑6亿月活用户，我们可能会自行开发，或者利用开源模型进行深度定制，”他说。