OpenAI startet den Webcrawler GPTBot, der Blockierungsbemühungen von Websitebesitzern und -erstellern auslöst

Greifen Sie auf unsere On-Demand-Bibliothek zu, um VB Transform 2023-Sitzungen anzusehen. Melden Sie sich hier an

Ohne viel Aufsehen oder offizielle Ankündigung hat der ChatGPT-Hersteller OpenAI diese Woche einen neuen Website-Crawler-Bot gestartet, um Website-Inhalte zu analysieren und seine Large Language Models (LLMs) zu trainieren. Doch nachdem der Bot angekündigt wurde, kam es zu einer Revolte, da Website-Besitzer und -Ersteller schnell Tipps austauschten, wie sie verhindern können, dass GPTBot Daten von ihren Websites stiehlt.

Als OpenAI die GPTBot-Supportseite hinzufügte, wurde auch eine Möglichkeit eingeführt, den Dienst daran zu hindern, Ihre Website zu crawlen. Eine kleine Änderung an der robots.txt-Datei einer Website würde verhindern, dass Inhalte mit OpenAI geteilt werden. Aufgrund des Ausmaßes des Web-Scrapings ist jedoch unklar, ob das bloße Blockieren von GPTBot vollständig verhindert, dass der Inhalt in die LLM-Trainingsdaten aufgenommen wird.

„Wir sammeln regelmäßig öffentliche Daten aus dem Internet, die zur Verbesserung der Fähigkeiten, Genauigkeit und Sicherheit zukünftiger Modelle verwendet werden können“, sagte ein OpenAI-Sprecher in einer E-Mail. „Auf unserer Website stellen wir Anweisungen bereit, wie wir unseren Webcrawler daran hindern können, auf eine Website zuzugreifen. Webseiten werden gefiltert, um Quellen zu entfernen, die Paywalls haben, bekanntermaßen personenbezogene Daten (PII) sammeln oder Texte enthalten, die gegen unsere Richtlinien verstoßen.“

Websites erhöhen ihre Abwehrmaßnahmen

Websites wie The Verge haben bereits das robots.txt-Flag hinzugefügt, um zu verhindern, dass das OpenAI-Modell Inhalte erfasst, um sie seinen LLMs hinzuzufügen. Casey Newton fragte die Leser seines Substack-Newsletters Platformer, ob er OpenAI daran hindern sollte, seine Inhalte zu sammeln. Neil Clarke, Herausgeber des Science-Fiction-Magazins Clarkesworld, kündigte auf X (früher bekannt als Twitter) an, dass er GPTBot blockieren werde.

Fall

VB Transform 2023 auf Anfrage

Haben Sie eine Sitzung von VB Transform 2023 verpasst? Melden Sie sich an, um auf die On-Demand-Bibliothek aller unserer vorgestellten Sitzungen zuzugreifen.

Jetzt registrieren

Kurz nach der Veröffentlichung des GPTBot-Starts kündigte OpenAI ein Stipendium in Höhe von 395.000 US-Dollar und eine Partnerschaft mit dem Arthur L. Carter Journalism Institute an der New York University an. Unter der Leitung des ehemaligen Reuters-Redakteurs Stephen Adler zielt die Ethik- und Journalismus-Initiative der NYU darauf ab, Studenten dabei zu helfen, verantwortungsvolle Wege zur Nutzung von KI in der Nachrichtenbranche zu entwickeln.

„Wir freuen uns über das Potenzial der neuen Ethik- und Journalismus-Initiative und freuen uns sehr, ihr Ziel zu unterstützen, eine breite Palette von Herausforderungen anzugehen, mit denen Journalisten konfrontiert sind, wenn sie ihren Beruf auf ethische Weise ausüben wollen. Und...“

OpenAI startet den Webcrawler GPTBot, der Blockierungsbemühungen von Websitebesitzern und -erstellern auslöst

Greifen Sie auf unsere On-Demand-Bibliothek zu, um VB Transform 2023-Sitzungen anzusehen. Melden Sie sich hier an

Ohne viel Aufsehen oder offizielle Ankündigung hat der ChatGPT-Hersteller OpenAI diese Woche einen neuen Website-Crawler-Bot gestartet, um Website-Inhalte zu analysieren und seine Large Language Models (LLMs) zu trainieren. Doch nachdem der Bot angekündigt wurde, kam es zu einer Revolte, da Website-Besitzer und -Ersteller schnell Tipps austauschten, wie sie verhindern können, dass GPTBot Daten von ihren Websites stiehlt.

Als OpenAI die GPTBot-Supportseite hinzufügte, wurde auch eine Möglichkeit eingeführt, den Dienst daran zu hindern, Ihre Website zu crawlen. Eine kleine Änderung an der robots.txt-Datei einer Website würde verhindern, dass Inhalte mit OpenAI geteilt werden. Aufgrund des Ausmaßes des Web-Scrapings ist jedoch unklar, ob das bloße Blockieren von GPTBot vollständig verhindert, dass der Inhalt in die LLM-Trainingsdaten aufgenommen wird.

„Wir sammeln regelmäßig öffentliche Daten aus dem Internet, die zur Verbesserung der Fähigkeiten, Genauigkeit und Sicherheit zukünftiger Modelle verwendet werden können“, sagte ein OpenAI-Sprecher in einer E-Mail. „Auf unserer Website stellen wir Anweisungen bereit, wie wir unseren Webcrawler daran hindern können, auf eine Website zuzugreifen. Webseiten werden gefiltert, um Quellen zu entfernen, die Paywalls haben, bekanntermaßen personenbezogene Daten (PII) sammeln oder Texte enthalten, die gegen unsere Richtlinien verstoßen.“

Websites erhöhen ihre Abwehrmaßnahmen

Websites wie The Verge haben bereits das robots.txt-Flag hinzugefügt, um zu verhindern, dass das OpenAI-Modell Inhalte erfasst, um sie seinen LLMs hinzuzufügen. Casey Newton fragte die Leser seines Substack-Newsletters Platformer, ob er OpenAI daran hindern sollte, seine Inhalte zu sammeln. Neil Clarke, Herausgeber des Science-Fiction-Magazins Clarkesworld, kündigte auf X (früher bekannt als Twitter) an, dass er GPTBot blockieren werde.

Fall

VB Transform 2023 auf Anfrage

Haben Sie eine Sitzung von VB Transform 2023 verpasst? Melden Sie sich an, um auf die On-Demand-Bibliothek aller unserer vorgestellten Sitzungen zuzugreifen.

Jetzt registrieren

Kurz nach der Veröffentlichung des GPTBot-Starts kündigte OpenAI ein Stipendium in Höhe von 395.000 US-Dollar und eine Partnerschaft mit dem Arthur L. Carter Journalism Institute an der New York University an. Unter der Leitung des ehemaligen Reuters-Redakteurs Stephen Adler zielt die Ethik- und Journalismus-Initiative der NYU darauf ab, Studenten dabei zu helfen, verantwortungsvolle Wege zur Nutzung von KI in der Nachrichtenbranche zu entwickeln.

„Wir freuen uns über das Potenzial der neuen Ethik- und Journalismus-Initiative und freuen uns sehr, ihr Ziel zu unterstützen, eine breite Palette von Herausforderungen anzugehen, mit denen Journalisten konfrontiert sind, wenn sie ihren Beruf auf ethische Weise ausüben wollen. Und...“

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow