Connect with us

Kryptowährung

Wissenschaftler haben einen KI-Überwachungsagenten entwickelt, um schädliche Emissionen zu erkennen und zu stoppen

Wissenschaftler haben einen KI-Überwachungsagenten entwickelt, um schädliche Emissionen zu erkennen und zu stoppen

Ein Forscherteam des auf künstliche Intelligenz (KI) spezialisierten Unternehmens AutoGPT, der Northeastern University und Microsoft Research haben ein Tool entwickelt, das große Sprachmodelle (LLMs) auf potenziell schädliche Ausgaben überwacht und deren Ausführung verhindert.

Der Agent wird in einem vorab gedruckten Forschungspapier mit dem Titel „Testing Language Model Agents Safely in the Wild“ beschrieben. Der Studie zufolge ist der Agent flexibel genug, um bestehende LLMs zu überwachen und schädliche Ausgaben wie Code-Angriffe zu stoppen, bevor sie passieren.

Laut der Forschung:

„Agentenaktionen werden von einem kontextsensitiven Monitor überwacht, der eine strenge Sicherheitsgrenze durchsetzt, um einen unsicheren Test zu stoppen, wobei verdächtiges Verhalten eingestuft und protokolliert wird, damit es von Menschen untersucht werden kann.“

Das Team schreibt, dass bestehende Tools zur Überwachung von LLM-Ausgaben auf schädliche Wechselwirkungen in Laborumgebungen scheinbar gut funktionieren, aber wenn sie auf das Testen von Modellen angewendet werden, die sich bereits in der Produktion im offenen Internet befinden, sind sie „oft nicht in der Lage, die dynamischen Feinheiten der realen Welt zu erfassen“.

Dies ist angeblich auf die Existenz von Randfällen zurückzuführen. Trotz der besten Bemühungen der talentiertesten Informatiker gilt die Idee, dass Forscher sich jeden möglichen Schadensvektor vorstellen können, bevor er eintritt, im Bereich der KI weitgehend als Unmöglichkeit.

Selbst wenn die Menschen, die mit der KI interagieren, die besten Absichten haben, kann aus scheinbar harmlosen Aufforderungen unerwarteter Schaden entstehen.

Eine Illustration des Monitors in Aktion. Links ein Workflow, der mit einer hohen Sicherheitsbewertung endet. Rechts ein Workflow, der mit einer niedrigen Sicherheitsbewertung endet. Quelle: Naihin et., al. 2023

Um den Überwachungsagenten zu trainieren, erstellten die Forscher einen Datensatz von fast 2.000 sicheren Mensch-KI-Interaktionen für 29 verschiedene Aufgaben, die von einfachen Textabrufaufgaben und Codierungskorrekturen bis hin zur Entwicklung ganzer Webseiten von Grund auf reichten.

Verwandt: Meta löst im Zuge einer Umstrukturierung die zuständige KI-Abteilung auf

Sie erstellten außerdem einen konkurrierenden Testdatensatz mit manuell erstellten gegnerischen Ausgaben, von denen Dutzende absichtlich als unsicher konzipiert waren.

Die Datensätze wurden dann verwendet, um einen Agenten auf dem GPT 3.5 Turbo von OpenAI zu schulen, einem hochmodernen System, das in der Lage ist, mit einem Genauigkeitsfaktor von fast 90 % zwischen harmlosen und potenziell schädlichen Ausgaben zu unterscheiden.