出现指令后,网站争先恐后地阻止 ChatGPT 爬虫

隐藏的女人在云后面。”/>放大
盖蒂图片社
</figure><p>OpenAI 最近在其在线文档网站中添加了有关其网络爬虫 GPTBot 的详细信息,但没有发布公告。 GPTBot 是该公司用来获取网页以训练 ChatGPT 背后的 AI 模型(例如 GPT-4)的用户代理的名称。本周早些时候,一些网站迅速宣布打算阻止 GPTBot 访问其内容。</p>

<p>在新文档中,OpenAI 指出,使用 GPTBot 抓取的网页“有可能用于改进未来的模型”,并且允许 GPTBot 访问您的网站“可以帮助 AI 模型变得更加准确,并提高其整体功能和安全性” ”</p>
<p>OpenAI 声称设有过滤器,以确保 GPTBot 无法访问付费墙背后的来源、收集个人身份信息的来源或任何违反 OpenAI 政策的内容。</p>
<p>关于阻止 OpenAI 训练抓取的消息(如果他们尊重的话)来得太晚了,不足以影响当前的 ChatGPT 或 GPT-4 训练数据,这些数据在几年前就在没有宣布的情况下被抓取了。 OpenAI 收集了截至 2021 年 9 月的数据,这是 OpenAI 语言模型当前的“知识”门槛。</p>
<p>需要注意的是,新指令可能不会阻止 ChatGPT 或 ChatGPT 插件的网页浏览版本访问当前网站以向用户提供最新信息。这一点在文档中没有明确说明,我们联系了 OpenAI 进行澄清。</p>
答案在robots.txt中
<p>根据 OpenAI 文档,GPTBot 将通过用户代理令牌“GPTBot”进行识别,其完整字符串为“Mozilla/5.0 AppleWebKit/537.36(KHTML,如 Gecko;兼容;GPTBot/1.0;+https:// openai.com/gptbot)”。</p>

<p>OpenAI 文档还提供了如何防止 GPTBot 使用标准 robots.txt 文件抓取网站的说明,该文件是一个文本文件,位于网站根目录中,并告诉网络爬虫(例如那些使用由搜索引擎)不索引该网站。</p>
<p>就像将这两行添加到网站的 robots.txt 文件中一样简单:</p>
用户代理:GPTBot
禁止 : /
<p>OpenAI 还指出,管理员可以使用不同的令牌将 GPTBot 限制在 robots.txt 中网站的某些部分:</p>
用户代理:GPTBot
允许:/directory-1/
禁止:/directory-2/
<p>此外,OpenAI 还提供了 GPTBot 运行的特定 IP 地址块,这些地址块也可能被防火墙阻止。</p>
<p>尽管有此选项,阻止 GPTBot 并不能保证站点的数据最终不会训练所有未来的 AI 模型。除了抓取工具忽略 robots.txt 文件的问题之外,还有其他不隶属于 OpenAI 的大型网站数据集(例如 The Pile)。这些数据集通常用于训练开源(或可用源)LLM,例如 Meta 的 Llama 2。</p>
一些网站反应仓促
<p>虽然从技术角度来看它取得了巨大成功,但 ChatGPT 也因其未经许可删除受版权保护的数据并将其价值集中在商业产品中的方式而受到争议。</h2></div>
                                                <div class=   技术   Aug 13, 2023   0   15  Add to Reading List

出现指令后,网站争先恐后地阻止 ChatGPT 爬虫
隐藏的女人在云后面。”/>放大
盖蒂图片社
</figure><p>OpenAI 最近在其在线文档网站中添加了有关其网络爬虫 GPTBot 的详细信息,但没有发布公告。 GPTBot 是该公司用来获取网页以训练 ChatGPT 背后的 AI 模型(例如 GPT-4)的用户代理的名称。本周早些时候,一些网站迅速宣布打算阻止 GPTBot 访问其内容。</p>

<p>在新文档中,OpenAI 指出,使用 GPTBot 抓取的网页“有可能用于改进未来的模型”,并且允许 GPTBot 访问您的网站“可以帮助 AI 模型变得更加准确,并提高其整体功能和安全性” ”</p>
<p>OpenAI 声称设有过滤器,以确保 GPTBot 无法访问付费墙背后的来源、收集个人身份信息的来源或任何违反 OpenAI 政策的内容。</p>
<p>关于阻止 OpenAI 训练抓取的消息(如果他们尊重的话)来得太晚了,不足以影响当前的 ChatGPT 或 GPT-4 训练数据,这些数据在几年前就在没有宣布的情况下被抓取了。 OpenAI 收集了截至 2021 年 9 月的数据,这是 OpenAI 语言模型当前的“知识”门槛。</p>
<p>需要注意的是,新指令可能不会阻止 ChatGPT 或 ChatGPT 插件的网页浏览版本访问当前网站以向用户提供最新信息。这一点在文档中没有明确说明,我们联系了 OpenAI 进行澄清。</p>
答案在robots.txt中
<p>根据 OpenAI 文档,GPTBot 将通过用户代理令牌“GPTBot”进行识别,其完整字符串为“Mozilla/5.0 AppleWebKit/537.36(KHTML,如 Gecko;兼容;GPTBot/1.0;+https:// openai.com/gptbot)”。</p>

<p>OpenAI 文档还提供了如何防止 GPTBot 使用标准 robots.txt 文件抓取网站的说明,该文件是一个文本文件,位于网站根目录中,并告诉网络爬虫(例如那些使用由搜索引擎)不索引该网站。</p>
<p>就像将这两行添加到网站的 robots.txt 文件中一样简单:</p>
用户代理:GPTBot
禁止 : /
<p>OpenAI 还指出,管理员可以使用不同的令牌将 GPTBot 限制在 robots.txt 中网站的某些部分:</p>
用户代理:GPTBot
允许:/directory-1/
禁止:/directory-2/
<p>此外,OpenAI 还提供了 GPTBot 运行的特定 IP 地址块,这些地址块也可能被防火墙阻止。</p>
<p>尽管有此选项,阻止 GPTBot 并不能保证站点的数据最终不会训练所有未来的 AI 模型。除了抓取工具忽略 robots.txt 文件的问题之外,还有其他不隶属于 OpenAI 的大型网站数据集(例如 The Pile)。这些数据集通常用于训练开源(或可用源)LLM,例如 Meta 的 Llama 2。</p>
一些网站反应仓促
<p>虽然从技术角度来看它取得了巨大成功,但 ChatGPT 也因其未经许可删除受版权保护的数据并将其价值集中在商业产品中的方式而受到争议。                            
                                                    </div>

                        <div class=

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow