GPTBot介绍

GPTBot介绍

最近,openai公布了GPTBot 的相关信息,并给出了禁止GPTBot的方法。以下是全文翻译。

GPTBot是OpenAI的网络爬虫,可以通过以下User agent和字符串来识别。

1
2
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用

使用 GPTBot 用户代理爬取的网页可能会用于改进未来的模型,并且会过滤掉需要付费访问、已知收集个人身份信息(PII)或含有违反我们政策的文本的来源。允许 GPTBot 访问您的网站可以帮助 AI 模型变得更准确,提高它们的一般能力和安全性。在下面,我们还分享了如何禁止 GPTBot 访问您的网站。

禁止 GPTBot

要禁止 GPTBot 访问您的网站,您可以将 GPTBot 添加到您网站的 robots.txt:

1
2
User-agent: GPTBot
Disallow: /

自定义 GPTBot 访问

要允许 GPTBot 仅访问您网站的部分内容,您可以将 GPTBot 令牌添加到您网站的 robots.txt,如下所示:

1
2
3
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IP 出口范围

对于 OpenAI 的爬虫,它会从 OpenAI 网站上记录的 IP 地址段向网站发出请求。

这里我给出IP 地址段

1
2
3
4
5
6
7
8
9
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28


GPTBot介绍
https://studyinglover.com/2023/08/11/GPTBot介绍/
作者
StudyingLover
发布于
2023年8月11日
许可协议