研究显示,全球排名前100的网站中约有26%已屏蔽针对GPTBot的访问
根据最新分析,使用人工智能内容检查器和抄袭检查服务Originality.ai的数据显示,目前排名前100的网站中,至少有26个网站(排名前1000则有242个)已经屏蔽了8月7日推出的网络爬虫GPTBot。
与上个月相比,这个数字增加了250%。上个月在排名前1000的网站中,只有69个屏蔽了GPTBot。
对是否屏蔽GPTBot一直是许多SEO人员面临的重要问题,因为GPTBot没有引用或链接到其来源。我们允许搜索引擎爬取我们的内容,因为这有明显的潜在好处——通过直接链接/引用获得更多的流量。
显然,更多受欢迎的网站决定屏蔽GPTBot,可能是因为他们不希望OpenAI 在没有任何形式补偿的情况下使用他们的数据来帮助训练模型。
其中12个热门网站已经屏蔽了GPTBot。在上个月新增的100个最受欢迎的网站中,大部分都是发布新闻和信息的网站,包括:
- pinterest.com- indeed.com- theguardian.com- sciencedirect.com- usatoday.com- stackexchange.com- alamy.com- webmd.com- dictionary.com- washingtonpost.com- npr.org- cbsnews.com
有趣的是,在上个月屏蔽GPTBot的Foursquare目前已经取消了屏蔽。
那么CCbot呢?Common Crawl的网络爬虫仍然被少数网站(共130个)屏蔽。值得注意的是,Common Crawl为OpenAI 、Google和其他公司提供了部分训练数据。
此外,在本次分析中发现,在1000个网站中有67个robots.txt文件没有被识别或检查。(这就是为什么在文章开头写了"至少"的原因。)