搜索引擎与爬虫

OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽

OpenAI

众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。

不难想象,训练 GPT-4 需要海量的数据,这可不是付费购买能解决的问题。大概率,OpenAI 用了网络爬虫。很多用户指控 OpenAI,理由就是这种手段会侵犯用户的版权和隐私权。

刚刚,OpenAI 摊牌了:直接公布从整个互联网爬取数据的网络爬虫 ——GPTBot。

这些数据将被用来训练 GPT-4、GPT-5 等 AI 模型。不过 GPTBot 保证了,爬取内容绝对不包括违反隐私来源和需要付费的内容。

OpenAI 表示:「使用 GPTBot 爬取网络数据是为了改进 AI 模型的准确性、功能性和安全性。」

网站所有者可以根据需要允许和限制 GPTBot 爬取网站数据。接下来,我们来看下 GPTBot 究竟是如何工作的,顺便了解一下屏蔽方法。

首先,GPTBot 的用户代理字符串(User-Agent String)如下:

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用如下方法可以将 GPTBot 添加到网站的 robots.txt,禁止 GPTBot 访问网站:

User-agent: GPTBot

Disallow: /

还可以允许 GPTBot 访问网站特定部分的内容:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

近期,OpenAI 因为未经明确批准而在网站数据上训练 GPT-4 等大型语言模型而遭到强烈反对。批评者们表示,即使内容可以公开访问,像 OpenAI 这样的公司也应该遵循训练协议。人们还担心,内容在输入 AI 系统时会被断章取义。

但即使遵循了 robots 协议,鉴于其并不是规范,而只是约定俗成的,所以并不能保证网站的隐私。

GPTBot 发布之后,这条动态已经在 Hacker News 上引发了一场争论,焦点是使用抓取的网络数据来训练人工智能系统的道德和合法性。

一部分人认为,GPTBot 的推出展示了使用公开数据研发 AI 模型的「灰色地带」:

「在训练完模型后还爬取数据,这真是太好了。根据推测,这些 header 不会影响他们已经抓取来训练 GPT 的任何页面。」

「现在,他们可以游说反抓取的监管并阻碍其他任何的追赶了。」

屏蔽 OpenAI 爬虫

鉴于 GPTBot 会识别自己的身份,因此网站管理员可以通过 robots.txt 阻止它,但有些人认为允许它这样做没有任何好处,不像搜索引擎爬虫会带来流量。

一个值得关注的问题是,受版权保护的内容会在未注明出处的情况下被使用。ChatGPT 目前没有注明出处。

屏蔽 OpenAI 爬虫

还有人质疑 GPTBot 如何处理网站上的授权图片、视频、音乐和其他媒体。如果这些媒体在模型训练中用到,则可能构成版权侵权。

另外一些专家认为,如果 AI 编写的内容被反馈到训练中,爬虫生成的数据可能会降低模型的性能。

相反,一些人认为 OpenAI 有权自由使用公共网络数据,并将其比作一个人从在线内容中学习。但也有人认为,如果 OpenAI 将网络数据货币化以获取商业利益,那么就应该分享利润。

总之,GPTBot 引发了关于所有权、合理使用和网络内容创建者激励机制的复杂争论。虽然遵循 robots.txt 是一个很好的步骤,但仍然缺乏透明度。

这或许是科技界下一个舆论焦点:随着 AI 产品的快速发展,「数据」到底该怎么用?

相关链接

https://twitter.com/GPTDAOCN/status/1688704103554359296

https://searchengineland.com/gptbot-openais-new-web-crawler-430360

https://platform.openai.com/docs/gptbot

https://news.ycombinator.com/item?id=37030568

https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restrict-access/493394/#close