Pinterest改造前沿模型视觉层，AI成本锐降90%

Mark Do 暂无评论阅读 100 次

拥有6.2亿月活跃用户，为每张图片推荐调用前沿模型，这并非策略，而是巨额账单。Pinterest首席技术官马特·马德里加尔（Matt Madrigal）通过改造Qwen3-VL的视觉层，并用自有嵌入重新构建，成功将成本削减90%，同时将准确率提升30%。

马德里加尔的团队一直在大力投资“基础性内部定制”开源模型。“如果你拥有独特数据，能够对开源模型进行微调，那么数据质量实际上会超越或弥补模型规模，”马德里加尔在最近一期的《VB Beyond the Pilot》播客中解释道。

Pinterest如何定制Qwen以实现视觉发现

Pinterest长期应用开源模型进行视觉搜索和发现，从谷歌的BERT到OpenAI的CLIP。公司基于后者微调了自己的Pin CLIP，整合了专有视觉嵌入和图像元数据。

Pinterest的对话式购物助手Navigator 1基于Qwen3-VL构建，并在多个方面进行了“相当显著”的定制。马德里加尔的团队本质上“剥离”了Qwen的视觉编码层，并使用专有多模态嵌入对模型进行微调。这使得他们能够捕捉与图钉和图像相关的元数据，这些元数据可以离线预计算，并定期根据新信息重新训练，从而提供个性化体验。

“开源模型，尤其是采用开放Apache许可证的模型，允许你真正调整大量开放权重，为独特用例定制——我们发现这对我们来说开源的强大之处就在于此，”马德里加尔表示。

引入自有嵌入让他的团队能够获取关于元数据、图钉和图像的上下文；值得注意的是，模型在运行时和推理性能上也表现更好。没有这些嵌入，开发人员将不得不在运行时逐张调用和编码返回的图像。从推理角度看，这会导致延迟“恶化20倍”，马德里加尔说道。

“如果某项功能对终端用户至关重要，能够提升参与度，且需要扩展至6亿多月活跃用户，我们可能会自己构建，或者利用开源模型进行深度定制，”他说。