Cloudflare设限:AI训练需付费获取内容

Cloudflare发布新规,AI智能体爬取内容将受限
全球知名网络安全服务商Cloudflare近日向AI行业发出最新通知,要求各AI公司将用于传统搜索的网络爬虫与专门用于AI智能体训练和开发的爬虫进行明确区分。根据公告,从2026年9月15日起,Cloudflare的默认设置将自动阻止”混合用途”爬虫访问任何包含广告的网页。
新政策适用范围广泛
Cloudflare明确表示,这项政策变更将适用于多种情况,包括新客户、现有客户新增的网站,以及所有免费用户账号。这意味着,那些同时用于搜索、AI智能体和训练目的的爬虫,将被默认禁止抓取这些含有广告的网站,除非网站所有者主动调整设置。
政策背后的考量
这一举措可能对AI模型提供商获取网络内容进行训练和提供智能服务的方式产生深远影响。Cloudflare指出,大多数网站所有者既希望其内容能通过搜索和AI服务被用户发现,同时也希望能保护其知识产权不被免费获取和使用。
特别值得注意的是,Cloudflare点名批评了”全球最大搜索引擎”(显然是指谷歌),称其因让客户难以在保持可被发现性的同时拒绝内容被用于AI目的,从而比其他AI公司能够访问”多约2倍的信息”。
谷歌的回应
对此,谷歌过去曾反驳这一普遍说法,指出其提供了名为”Google Extended”的机器人,让网站所有者可以选择退出将其内容用于训练和AI产品及服务(如Gemini应用和Vertex API)。谷歌强调,使用此选项不会影响网站在谷歌搜索中的收录情况。不过,谷歌的主要Googlebot仍然用于搜索,包括AI概览和AI模式等AI功能。
行业趋势与未来展望
Cloudflare联合创始人兼CEO马修·普林斯在宣布这一政策时表示:”现在互联网上大部分流量已来自非人类访问者,我们必须采取更进一步的行动,加快速度,以促进可持续生态系统的形成。”他指的是最近机器人流量首次超过人类流量的里程碑,而这一转变原预计要到下年才会发生。
普林斯进一步解释道:”Cloudflare的新工具和合作为网站所有者提供了更高的可见性和商业机会,同时也让那些拥有明确透明意图的机器人的AI公司受益。我们希望提议的默认变更能鼓励混合用途爬虫将搜索与智能体使用及训练功能分离。”
出版商控制权的增强
尽管Cloudflare提供多种帮助用户开发自身AI系统的产品,该公司也发布了一系列工具,让出版商在AI时代对其内容拥有更多控制权。近年来,Cloudflare推出了多项对抗AI机器人的工具,包括一个名为”按抓取付费”(Pay Per Crawl)的市场,让网站能够向AI机器人收取抓取内容的费用。
据Cloudflare介绍,这一模式现在正演变为”按使用付费”(Pay Per Use),允许出版商在内容创造价值时(而不仅仅是被抓取时)向AI公司收费。这一变化还有助于为AI模型提供商节省出版商的带宽和计算资源,因为数据显示,超过50%的AI爬虫流量用于重新获取未更改的页面。
合作伙伴与实施方式
为了落实这一政策,Cloudflare目前正与两家合作伙伴合作:Ceramic.ai和You.com。当出版商选择加入这一计划时,他们的内容出现在Ceramic的AI搜索结果中,或当You.com访问其高级内容时,出版商将获得相应报酬。
Cloudflare表示,其他AI公司可以根据自身工作方式定制这一模式。
关注微信号:智享开源 ,及时了解更新信息。

公众号:智享开源
还没有任何评论,你来说两句吧!