百度限制谷歌和必应抓取内容用于人工智能训练

中国互联网搜索提供商百度已更新其类似维基百科的百科服务，以防止谷歌和微软必应抓取其内容。

百度百科 robots.txt 文件的最新更新中发现了这一变化，该文件拒绝 Googlebot 和 Bingbot 爬虫程序的访问。

据 Wayback Machine 介绍，这一变化发生于 8 月 8 日。此前，谷歌和必应搜索引擎被允许索引百度百科的中央存储库，该存储库包含近 3000 万个条目，但网站上的一些目标子域受到限制。

百度采取这一举措的背景是，用于训练人工智能模型和应用程序的大型数据集的需求不断增长。此前，其他公司也采取了类似措施来保护其在线内容。今年 7 月，Reddit 屏蔽了谷歌以外的各种搜索引擎，禁止其帖子和讨论收录。与 Reddit 一样，谷歌也与 Reddit 签订了一项财务协议，以获取数据来训练其 AI 服务。

据消息人士透露，过去一年，微软曾考虑限制竞争对手搜索引擎运营商访问互联网搜索数据；这对于那些将数据用于聊天机器人和生成式人工智能服务的人来说最为重要。

与此同时，拥有 143 万个条目的中文维基百科仍可供搜索引擎抓取。《南华早报》进行的一项调查发现，百度百科的条目仍然出现在必应和谷歌搜索中。也许搜索引擎继续使用较旧的缓存内容。

这一举措是在世界各地的生成式人工智能开发者越来越多地与内容出版商合作，以期为他们的项目获取最高质量的内容的背景下出现的。例如，最近，OpenAI 与《时代》杂志签署了一项协议，以访问整个档案，这些档案可以追溯到一个多世纪前该杂志出版的第一天。今年 4 月，OpenAI 与《金融时报》签署了类似的合作伙伴关系。

百度决定限制各大搜索引擎对其百度百科内容的访问，凸显了数据在人工智能时代日益增长的重要性。随着各大公司在人工智能开发方面投入巨资，大型精选数据集的价值显著提升。这导致在线平台管理其内容访问的方式发生了转变，许多平台选择限制或货币化对其数据的访问。

随着人工智能行业的不断发展，可能会有更多公司重新评估其数据共享政策，这可能会导致互联网上信息的索引和访问方式进一步改变。