Das Mining personenbezogener Daten mit dem ChatGPT-Modell von OpenAI wirft Bedenken hinsichtlich des Datenschutzes auf

Eine Kamera bewegt sich durch eine Wolke aus mehrfarbigen Würfeln, von denen jeder eine elektronische Nachricht darstellt. Drei vorbeiziehende Würfel tragen die Bezeichnungen „k**@enron.com“, „m*@enron.com“ und „j*****@enron.com“. Wenn sich die Kamera weiter entfernt, bilden die Würfel Ansammlungen ähnlicher Farben.

Dies ist eine Visualisierung eines großen E-Mail-Datensatzes der Enron Corporation, der häufig zum Trainieren von E-Mail-Systemen verwendet wird. Künstliche Intelligenz, wie ChatGPT.
< p class="g-credit svelte-cu2gla">Jeremy White

Letzten Monat erhielt ich eine alarmierende E-Mail von jemandem, den ich nicht kannte: Rui Zhu, Professor .D. Kandidat an der Indiana University Bloomington. Herr Zhu hatte meine E-Mail-Adresse, erklärte er, weil GPT-3.5 Turbo, eines der neuesten und robustesten erweiterten Sprachmodelle (L.L.M.) von OpenAI, sie ihm zugestellt hatte.
Meine Kontaktinformationen tauchten in einer Liste geschäftlicher und privater E-Mail-Adressen von mehr als 30 Mitarbeitern der New York Times auf, die ein Forschungsteam, darunter M.Zhu, im Herbst dieses Jahres erfolgreich aus GPT-3.5 Turbo extrahiert hatte. Mit ein wenig Arbeit konnte das Team „die Einschränkungen des Modells bei der Beantwortung datenschutzbezogener Anfragen umgehen“, schrieb Zhu.
Meine E-Mail-Adresse ist nicht gültig ein Geheimnis. Doch der Erfolg des Experiments der Forscher sollte Alarmglocken schrillen lassen, denn es offenbart das Potenzial von ChatGPT und generativer KI. Tools wie dieses, um mit nur wenigen Anpassungen viel sensiblere persönliche Informationen preiszugeben.
Wenn Sie ChatGPT eine Frage stellen, durchsucht es nicht nur das Web danach Finde die Antwort. Stattdessen verlässt es sich bei der Erstellung eines Modells auf das, was es aus Unmengen an Informationen „gelernt“ hat – die Trainingsdaten, die zur Eingabe und Entwicklung des Modells verwendet wurden. LLMs trainieren mit großen Textmengen, die persönliche Informationen aus dem Internet und anderen Quellen enthalten können. Diese Trainingsdaten zeigen, wie die K.I. Das Tool funktioniert, ist aber nicht dafür gedacht, wörtlich abgerufen zu werden.
Theoretisch gilt: Je mehr Daten einem L.L.M. hinzugefügt werden, desto mehr Erinnerungen an den früheren L.L.M. Die Informationen sind in den Aussparungen des Modells vergraben. Ein Prozess, der als katastrophales Vergessen bekannt ist, kann dazu führen, dass L.L.M. Betrachten Sie zuvor gelernte Informationen als weniger relevant, wenn neue Daten hinzugefügt werden. Dieser Vorgang kann von Vorteil sein, wenn Sie möchten, dass das Modell Dinge wie persönliche Informationen „vergisst“. Allerdings haben Zhu und seine Kollegen – neben anderen – kürzlich entdeckt, dass das L.L.M.-Gedächtnis, genau wie das des Menschen, aufgefrischt werden kann.

Im Fall des Experiments, das meine Koordinaten enthüllte, gaben Forscher der Indiana University GPT- 3.5 Turbo eine kurze Liste verifizierter Namen und E-Mail-Adressen von Mitarbeitern der New York Times, wodurch das Modell ähnliche Ergebnisse wie seine Trainingsdaten zurückgibt.

Technologie Dec 29, 2023 0 7 Add to Reading List

Das Mining personenbezogener Daten mit dem ChatGPT-Modell von OpenAI wirft Bedenken hinsichtlich des Datenschutzes auf

Eine Kamera bewegt sich durch eine Wolke aus mehrfarbigen Würfeln, von denen jeder eine elektronische Nachricht darstellt. Drei vorbeiziehende Würfel tragen die Bezeichnungen „k****@enron.com“, „m***@enron.com“ und „j*****@enron.com“. Wenn sich die Kamera weiter entfernt, bilden die Würfel Ansammlungen ähnlicher Farben.

Dies ist eine Visualisierung eines großen E-Mail-Datensatzes der Enron Corporation, der häufig zum Trainieren von E-Mail-Systemen verwendet wird. Künstliche Intelligenz, wie ChatGPT.

< p class="g-credit svelte-cu2gla">Jeremy White

Letzten Monat erhielt ich eine alarmierende E-Mail von jemandem, den ich nicht kannte: Rui Zhu, Professor .D. Kandidat an der Indiana University Bloomington. Herr Zhu hatte meine E-Mail-Adresse, erklärte er, weil GPT-3.5 Turbo, eines der neuesten und robustesten erweiterten Sprachmodelle (L.L.M.) von OpenAI, sie ihm zugestellt hatte.

Meine Kontaktinformationen tauchten in einer Liste geschäftlicher und privater E-Mail-Adressen von mehr als 30 Mitarbeitern der New York Times auf, die ein Forschungsteam, darunter M.Zhu, im Herbst dieses Jahres erfolgreich aus GPT-3.5 Turbo extrahiert hatte. Mit ein wenig Arbeit konnte das Team „die Einschränkungen des Modells bei der Beantwortung datenschutzbezogener Anfragen umgehen“, schrieb Zhu.

Meine E-Mail-Adresse ist nicht gültig ein Geheimnis. Doch der Erfolg des Experiments der Forscher sollte Alarmglocken schrillen lassen, denn es offenbart das Potenzial von ChatGPT und generativer KI. Tools wie dieses, um mit nur wenigen Anpassungen viel sensiblere persönliche Informationen preiszugeben.

Wenn Sie ChatGPT eine Frage stellen, durchsucht es nicht nur das Web danach Finde die Antwort. Stattdessen verlässt es sich bei der Erstellung eines Modells auf das, was es aus Unmengen an Informationen „gelernt“ hat – die Trainingsdaten, die zur Eingabe und Entwicklung des Modells verwendet wurden. LLMs trainieren mit großen Textmengen, die persönliche Informationen aus dem Internet und anderen Quellen enthalten können. Diese Trainingsdaten zeigen, wie die K.I. Das Tool funktioniert, ist aber nicht dafür gedacht, wörtlich abgerufen zu werden.

Theoretisch gilt: Je mehr Daten einem L.L.M. hinzugefügt werden, desto mehr Erinnerungen an den früheren L.L.M. Die Informationen sind in den Aussparungen des Modells vergraben. Ein Prozess, der als katastrophales Vergessen bekannt ist, kann dazu führen, dass L.L.M. Betrachten Sie zuvor gelernte Informationen als weniger relevant, wenn neue Daten hinzugefügt werden. Dieser Vorgang kann von Vorteil sein, wenn Sie möchten, dass das Modell Dinge wie persönliche Informationen „vergisst“. Allerdings haben Zhu und seine Kollegen – neben anderen – kürzlich entdeckt, dass das L.L.M.-Gedächtnis, genau wie das des Menschen, aufgefrischt werden kann.

Im Fall des Experiments, das meine Koordinaten enthüllte, gaben Forscher der Indiana University GPT- 3.5 Turbo eine kurze Liste verifizierter Namen und E-Mail-Adressen von Mitarbeitern der New York Times, wodurch das Modell ähnliche Ergebnisse wie seine Trainingsdaten zurückgibt.