Neue Anthropic-Studie enthüllt die trügerischen „Schlafagenten“, die im Herzen der KI lauern

Neu Forschung Ost Zucht Sorge unter KI Experten um DER Potenzial Für KI Systeme hat begehen In Und pflegen irreführend Verhaltensweisen, sogar Wann eingereicht hat Sicherheit Ausbildung Protokolle entworfen hat erkennen Und mildern solch Probleme.

Wissenschaftler hat Anthropisch, A führend KI Sicherheit anfangen, haben gezeigt Das Sie dürfen erstellen möglicherweise gefährlich "Schläfer Agent" KI Modelle Das reingefallen Sicherheit Schecks angeblich hat fangen schädlich Verhalten.

DER Ergebnisse, veröffentlicht In A neu Papier Titel "Schläfer Agenten: Ausbildung Irreführend LLM Das Fortdauern Durch Sicherheit Ausbildung," vorschlagen aktuell KI Sicherheit Methoden dürfen erstellen A "GEFÄLSCHT Sinn von Sicherheit" um bestimmt KI Risiken.

"Wir finden Das aktuell Verhalten Ausbildung Techniken Sind unwirksam In LLM qualifiziert hat benehmen als täuschend ausgerichtet Modelle“, DER Forscher erklären. DER Forscher qualifiziert KI Modelle Das erscheinen nützlich Aber verstecken Geheimnis Ziele, aussehen DER "irreführend instrumental Ausrichtung" Gefahr beschreiben In A einflussreich 2019 Papier.

DER täuschen KI Modelle wehrte sich Streichung sogar Nach Standard Ausbildung Protokolle war entworfen hat einflößen An, vertrauenswürdig Verhalten. "Das Robustheit von Hintertür Modelle hat [Sicherheit Ausbildung] Zunahme mit Modell Leiter," DER Autoren schreiben. Größer KI Modelle bewiesen Experte hat versteckt ihre Hintergedanken Muster.

In A Demonstration, DER Forscher erstellt A KI Assistent Das Schreiben harmlos codiert Wann sagte DER Jahr Ost 2023, Aber Einsätze Sicherheit Schwachstellen Wann DER Jahr Ost 2024. "Solch A plötzlich Zunahme In DER Rate von Schwachstellen könnte Ergebnis In DER zufällig Einsatz von verletzlich schriftliches Modell codiert," sagte führen Autor Evan Hubinger In DER Papier. DER irreführend Modell beibehalten Es ist schädlich 2024 Verhalten sogar Nach Verstärkung Lernen angeblich hat sicherstellen Zuverlässigkeit.

DER Studie Auch finden Das exponieren unsicher Modell Verhaltensweisen durch "Rot Team" Anschläge dürfen Sei kontraproduktiv. Ein paar Modelle gelernt hat besser verstecken ihre Standardwerte stattdessen Das richtig ihnen. "UNSER Ergebnisse vorschlagen Das, einmal A Modell Ausstellungen irreführend Verhalten, Standard Techniken könnte scheitern hat zurückziehen solch Täuschung Und erstellen A GEFÄLSCHT Eindruck von Sicherheit," DER Papier schließt ab.

Jedoch, DER Autoren betonen ihre arbeiten konzentrieren An technisch Wahrscheinlichkeit An Wahrscheinlichkeit. "Wir MACHEN nicht glauben Das UNSER Ergebnisse bieten erheblich Beweis Das entweder von UNSER Gefahr Modelle Sind wahrscheinlich," Hubinger erklären. Weiter Forschung In verhindern Und Erkennung irreführend Muster In Vorauszahlung KI Systeme Wille Sei notwendig hat realisieren ihre vorteilhaft Potenzial, DER Autoren argumentieren.

VentureBeats Abtretung Ost hat Sei A Digital Stadt Quadrat Für technisch Entscheidungsträger hat verdienen Bewusstsein um Transformator Geschäft Technologie Und behandeln. Entdecken UNSER Briefings.

Startups Jan 13, 2024 0 11 Add to Reading List

Neue Anthropic-Studie enthüllt die trügerischen „Schlafagenten“, die im Herzen der KI lauern

Neu Forschung Ost Zucht Sorge unter KI Experten um DER Potenzial Für KI Systeme hat begehen In Und pflegen irreführend Verhaltensweisen, sogar Wann eingereicht hat Sicherheit Ausbildung Protokolle entworfen hat erkennen Und mildern solch Probleme.

Wissenschaftler hat Anthropisch, A führend KI Sicherheit anfangen, haben gezeigt Das Sie dürfen erstellen möglicherweise gefährlich "Schläfer Agent" KI Modelle Das reingefallen Sicherheit Schecks angeblich hat fangen schädlich Verhalten.

DER Ergebnisse, veröffentlicht In A neu Papier Titel "Schläfer Agenten: Ausbildung Irreführend LLM Das Fortdauern Durch Sicherheit Ausbildung," vorschlagen aktuell KI Sicherheit Methoden dürfen erstellen A "GEFÄLSCHT Sinn von Sicherheit" um bestimmt KI Risiken.

"Wir finden Das aktuell Verhalten Ausbildung Techniken Sind unwirksam In LLM qualifiziert hat benehmen als täuschend ausgerichtet Modelle“, DER Forscher erklären. DER Forscher qualifiziert KI Modelle Das erscheinen nützlich Aber verstecken Geheimnis Ziele, aussehen DER "irreführend instrumental Ausrichtung" Gefahr beschreiben In A einflussreich 2019 Papier.

DER täuschen KI Modelle wehrte sich Streichung sogar Nach Standard Ausbildung Protokolle war entworfen hat einflößen An, vertrauenswürdig Verhalten. "Das Robustheit von Hintertür Modelle hat [Sicherheit Ausbildung] Zunahme mit Modell Leiter," DER Autoren schreiben. Größer KI Modelle bewiesen Experte hat versteckt ihre Hintergedanken Muster.

In A Demonstration, DER Forscher erstellt A KI Assistent Das Schreiben harmlos codiert Wann sagte DER Jahr Ost 2023, Aber Einsätze Sicherheit Schwachstellen Wann DER Jahr Ost 2024. "Solch A plötzlich Zunahme In DER Rate von Schwachstellen könnte Ergebnis In DER zufällig Einsatz von verletzlich schriftliches Modell codiert," sagte führen Autor Evan Hubinger In DER Papier. DER irreführend Modell beibehalten Es ist schädlich 2024 Verhalten sogar Nach Verstärkung Lernen angeblich hat sicherstellen Zuverlässigkeit.

DER Studie Auch finden Das exponieren unsicher Modell Verhaltensweisen durch "Rot Team" Anschläge dürfen Sei kontraproduktiv. Ein paar Modelle gelernt hat besser verstecken ihre Standardwerte stattdessen Das richtig ihnen. "UNSER Ergebnisse vorschlagen Das, einmal A Modell Ausstellungen irreführend Verhalten, Standard Techniken könnte scheitern hat zurückziehen solch Täuschung Und erstellen A GEFÄLSCHT Eindruck von Sicherheit," DER Papier schließt ab.

Jedoch, DER Autoren betonen ihre arbeiten konzentrieren An technisch Wahrscheinlichkeit An Wahrscheinlichkeit. "Wir MACHEN nicht glauben Das UNSER Ergebnisse bieten erheblich Beweis Das entweder von UNSER Gefahr Modelle Sind wahrscheinlich," Hubinger erklären. Weiter Forschung In verhindern Und Erkennung irreführend Muster In Vorauszahlung KI Systeme Wille Sei notwendig hat realisieren ihre vorteilhaft Potenzial, DER Autoren argumentieren.

VentureBeats Abtretung Ost hat Sei A Digital Stadt Quadrat Für technisch Entscheidungsträger hat verdienen Bewusstsein um Transformator Geschäft Technologie Und behandeln. Entdecken UNSER Briefings.