Entlehnen Sie sich dem Gesetz, um Trainingsdaten für Basismodelle zu filtern

Sehen Sie sich hier alle On-Demand-Sitzungen des Smart Security Summit an.

Baseline-Modelle werden oft auf dem trainiert, was im Wesentlichen das gesamte Internet ist. Indem sie aus einem so großen Datensatz lernen, können sie die Informationen, die wir ihnen vermitteln wollen, eindrucksvoll behalten und reproduzieren. So können sie beispielsweise lernen, Sachfragen wie „Wer ist der Präsident der Vereinigten Staaten?“ genau zu beantworten.

Gleichzeitig können Basismodelle jedoch Informationen speichern und reproduzieren, die schädlich sein könnten. Beispielsweise können sie Sozialversicherungsnummern, Kreditkarteninformationen oder Vorstrafen von Personen preisgeben oder Fragen zu Muslimen beantworten, die darauf hindeuten, dass sie Terroristen sind.

Das sind Probleme, mit denen sich Fundamentmodellbauer befassen müssen, sagt Peter Henderson, JD/Ph.D. Stanford-Student: "Wir wollen nicht, dass Models Menschen mit ihren privaten Inhalten oder schädlichen Eigenschaften in Verbindung bringen."

Um solche Folgen zu vermeiden, versuchen Ersteller von Basismodellen manchmal, private oder toxische Inhalte herauszufiltern, bevor sie einen Datensatz zum Trainieren eines Modells verwenden. Aber der Versuch, alle – oder sogar die meisten – privaten oder toxischen Inhalte aus dem gesamten Internet zu entfernen, ist äußerst schwierig. Ein Grund: Kontext ist wichtig. Die Datenschutzerwartungen unterscheiden sich zwischen den Kulturen und sogar im Laufe der Zeit. Und die Entscheidung, ob ein Satz toxisch ist, kann davon abhängen, wer spricht, warum er einen bestimmten Satz verwendet, und von den Erwartungen der Leser. Zusammenfassend: Es ist ein Balanceakt, und verschiedene Forscher legen unterschiedliche Maßstäbe an.

Vorfall

Smart Security Summit auf Abruf

Erfahren Sie mehr über die wesentliche Rolle von KI und ML in der Cybersicherheit und branchenspezifische Fallstudien. Sehen Sie sich noch heute die On-Demand-Sitzungen an.

Schau hier

„Wir haben uns gefragt, ob es einen logischeren Weg gibt, Daten vor dem Training zu filtern“, sagt Henderson. Er und seine Kollegen, darunter Mark Krass, ebenfalls JD/PhD-Student, hatten eine Idee: wenden Sie sich dem Recht zu. Es gibt eine lange Geschichte von Gerichten, die Standards für die Offenlegung von Informationen festlegen, also warum diese Standards nicht in die Umgebung des maschinellen Lernens (ML) einbringen?

Um ihre Idee zu testen, stellten Henderson und seine Kollegen Pile of Law zusammen, einen großen Datensatz mit Gerichts- und Verwaltungsgutachten, Gesetzbüchern, Fallberichten und anderen juristischen Dokumenten. Anschließend untersuchten sie, ob Pile of Law helfen könnte, einen vernünftigen Weg zum Filtern von Vortrainingsdaten mit besonderem Schwerpunkt auf Vertraulichkeit und Toxizität zu finden.

Basierend auf den ersten Erfahrungen des Teams bietet Pile of Law einige interessante Möglichkeiten: Erstens kann es Forschern helfen, sicherzustellen, dass ihre Trainingsdaten den gesetzlichen Mindeststandards entsprechen. Und zweitens kann es Probleme mit gängigen Filterstandards, etwa im Bereich Toxizität, aufdecken.

Filtern für den Datenschutz

Als Henderson und Krass sich zum ersten Mal die Datensätze ansahen, die derzeit zum Trainieren von Basismodellen verwendet werden, fanden sie keinen, der explizit nach sensiblen personenbezogenen Daten gefiltert wurde. Also machten sie sich daran, die Standards zu identifizieren, die Gerichte und Regierungen verwenden, um Privatsphäre und Transparenz in Einklang zu bringen, und dann zu testen, ob die implizite Verwendung dieser Standards im Pile of Law sie zu einem nuancierten Ansatz für die Datenfilterung lenken könnte.

Das Team listete zunächst die unterschiedlichen Wege auf, wie Gerichte mit Datenschutzfragen umgegangen sind. Sie fanden klare Regeln, die Modelldesigner anpassen konnten, um ihre Trainingsdaten zu filtern. Zum Beispiel gibt keine US-Gerichtsbarkeit die Namen von Minderjährigen preis, also ...

Entlehnen Sie sich dem Gesetz, um Trainingsdaten für Basismodelle zu filtern

Sehen Sie sich hier alle On-Demand-Sitzungen des Smart Security Summit an.

Baseline-Modelle werden oft auf dem trainiert, was im Wesentlichen das gesamte Internet ist. Indem sie aus einem so großen Datensatz lernen, können sie die Informationen, die wir ihnen vermitteln wollen, eindrucksvoll behalten und reproduzieren. So können sie beispielsweise lernen, Sachfragen wie „Wer ist der Präsident der Vereinigten Staaten?“ genau zu beantworten.

Gleichzeitig können Basismodelle jedoch Informationen speichern und reproduzieren, die schädlich sein könnten. Beispielsweise können sie Sozialversicherungsnummern, Kreditkarteninformationen oder Vorstrafen von Personen preisgeben oder Fragen zu Muslimen beantworten, die darauf hindeuten, dass sie Terroristen sind.

Das sind Probleme, mit denen sich Fundamentmodellbauer befassen müssen, sagt Peter Henderson, JD/Ph.D. Stanford-Student: "Wir wollen nicht, dass Models Menschen mit ihren privaten Inhalten oder schädlichen Eigenschaften in Verbindung bringen."

Um solche Folgen zu vermeiden, versuchen Ersteller von Basismodellen manchmal, private oder toxische Inhalte herauszufiltern, bevor sie einen Datensatz zum Trainieren eines Modells verwenden. Aber der Versuch, alle – oder sogar die meisten – privaten oder toxischen Inhalte aus dem gesamten Internet zu entfernen, ist äußerst schwierig. Ein Grund: Kontext ist wichtig. Die Datenschutzerwartungen unterscheiden sich zwischen den Kulturen und sogar im Laufe der Zeit. Und die Entscheidung, ob ein Satz toxisch ist, kann davon abhängen, wer spricht, warum er einen bestimmten Satz verwendet, und von den Erwartungen der Leser. Zusammenfassend: Es ist ein Balanceakt, und verschiedene Forscher legen unterschiedliche Maßstäbe an.

Vorfall

Smart Security Summit auf Abruf

Erfahren Sie mehr über die wesentliche Rolle von KI und ML in der Cybersicherheit und branchenspezifische Fallstudien. Sehen Sie sich noch heute die On-Demand-Sitzungen an.

Schau hier

„Wir haben uns gefragt, ob es einen logischeren Weg gibt, Daten vor dem Training zu filtern“, sagt Henderson. Er und seine Kollegen, darunter Mark Krass, ebenfalls JD/PhD-Student, hatten eine Idee: wenden Sie sich dem Recht zu. Es gibt eine lange Geschichte von Gerichten, die Standards für die Offenlegung von Informationen festlegen, also warum diese Standards nicht in die Umgebung des maschinellen Lernens (ML) einbringen?

Um ihre Idee zu testen, stellten Henderson und seine Kollegen Pile of Law zusammen, einen großen Datensatz mit Gerichts- und Verwaltungsgutachten, Gesetzbüchern, Fallberichten und anderen juristischen Dokumenten. Anschließend untersuchten sie, ob Pile of Law helfen könnte, einen vernünftigen Weg zum Filtern von Vortrainingsdaten mit besonderem Schwerpunkt auf Vertraulichkeit und Toxizität zu finden.

Basierend auf den ersten Erfahrungen des Teams bietet Pile of Law einige interessante Möglichkeiten: Erstens kann es Forschern helfen, sicherzustellen, dass ihre Trainingsdaten den gesetzlichen Mindeststandards entsprechen. Und zweitens kann es Probleme mit gängigen Filterstandards, etwa im Bereich Toxizität, aufdecken.

Filtern für den Datenschutz

Als Henderson und Krass sich zum ersten Mal die Datensätze ansahen, die derzeit zum Trainieren von Basismodellen verwendet werden, fanden sie keinen, der explizit nach sensiblen personenbezogenen Daten gefiltert wurde. Also machten sie sich daran, die Standards zu identifizieren, die Gerichte und Regierungen verwenden, um Privatsphäre und Transparenz in Einklang zu bringen, und dann zu testen, ob die implizite Verwendung dieser Standards im Pile of Law sie zu einem nuancierten Ansatz für die Datenfilterung lenken könnte.

Das Team listete zunächst die unterschiedlichen Wege auf, wie Gerichte mit Datenschutzfragen umgegangen sind. Sie fanden klare Regeln, die Modelldesigner anpassen konnten, um ihre Trainingsdaten zu filtern. Zum Beispiel gibt keine US-Gerichtsbarkeit die Namen von Minderjährigen preis, also ...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow