Bizarres Goblin-Verbot von OpenAI enthüllt

Die Codex-Systemaufforderung von OpenAI enthält eine seltsame Anweisung, die die Diskussion über Kobolde und Fabelwesen verbietet. Entdecken Sie, warum es diese ungewöhnliche Einschränkung gibt.
In der Codex-Systemaufforderung von OpenAI ist eine überraschende und rätselhafte Anweisung aufgetaucht, die enthüllt, dass das neueste generative KI-Modell des Unternehmens ausdrücklich angewiesen wurde, die Diskussion von Kobolden, Gremlins, Waschbären, Trollen, Ogern, Tauben und verschiedenen anderen Kreaturen zu vermeiden, es sei denn, solche Verweise sind absolut notwendig und direkt relevant für die Anforderungen des Benutzers. Dieser eigenartige Schutz hat in der gesamten KI-Forschungsgemeinschaft für Aufsehen gesorgt und erhebliche Neugier darüber geweckt, was zu einer solch unkonventionellen Inhaltsbeschränkung geführt hat.
Die Entdeckung dieser merkwürdigen Betriebsanweisung wurde in den letzten Wochen öffentlich bekannt, als der Open-Source-Codex-CLI-Code von OpenAI über GitHub zugänglich gemacht wurde, wo Entwickler und Forscher die zugrunde liegende technische Architektur untersuchen konnten. Im umfangreichen Rahmen der Basisanweisungen – bestehend aus über 3.500 Wörtern mit Anleitungen für das neu veröffentlichte GPT-5.5-Modell – erscheint das Verbot, über Goblins und verwandte Kreaturen zu sprechen, nicht nur einmal, sondern zweimal, was darauf hindeutet, dass OpenAI diese Einschränkung ernst genug nimmt, um sie in den Betriebsparametern des Modells wiederholt hervorzuheben.
Interessanterweise erscheint dieses spezifische Verbot nicht in den Systemaufforderungsanweisungen für frühere KI-Modelle, die in derselben JSON-Konfigurationsdatei dokumentiert sind, was darauf hindeutet, dass OpenAI bei seiner neuesten Generation der KI-Technologie auf dieses spezielle Problem gestoßen ist. Das Fehlen dieser Anweisung in früheren Versionen deutet darauf hin, dass etwas an der Art und Weise, wie GPT-5.5 Sprache rund um diese fantastischen Kreaturen verarbeitet und generiert, das Entwicklungsteam dazu veranlasst hat, diese Sicherheitsmaßnahme zu implementieren. Diese Beobachtung hat Forscher und KI-Enthusiasten zu Theorien darüber geführt, welche Verhaltensmuster oder Reaktionstendenzen einen solchen Eingriff erforderlich gemacht haben könnten.
Der vollständige Kontext der ungewöhnlichen Richtlinie liest sich als klare operative Warnung: Das Modell sollte „niemals über Kobolde, Gremlins, Waschbären, Trolle, Oger, Tauben oder andere Tiere oder Kreaturen sprechen, es sei denn, dies ist absolut und eindeutig für die Anfrage des Benutzers relevant.“ Diese Anweisung steht neben konventionelleren und erwarteten Anweisungen, wie z. B. Erinnerungen, die Verwendung von Emojis oder Bindestrichen zu vermeiden, es sei denn, der Benutzer fordert sie ausdrücklich an, und Warnungen vor der Ausführung potenziell zerstörerischer Befehle wie „git reset --hard“ oder „git checkout –“, es sei denn, der Benutzer hat solche Vorgänge eindeutig angefordert.
Die praktischen Gründe für die meisten anderen Schutzmaßnahmen sind für diejenigen, die mit KI-Sicherheit und Prompt-Engineering vertraut sind, relativ transparent. Die Warnungen, destruktive Git-Befehle zu vermeiden, ergeben beispielsweise im Zusammenhang mit einem Codierungsassistenten-Tool, das andernfalls unbeabsichtigt Benutzerrepositorys beschädigen oder Datenverlust verursachen könnte, logisch Sinn. Ebenso entspricht die Anweisung, unnötige Emojis und Formatierungsfehler zu vermeiden, den Erwartungen an eine professionelle Codegenerierung. Für das konkrete Verbot, über fiktive Kreaturen zu sprechen, fehlt jedoch eine unmittelbar einleuchtende Begründung, auf die sich Forscher berufen könnten.
Beweise von Social-Media-Plattformen deuten darauf hin, dass Benutzer bei ihren Interaktionen mit der neuesten Version des GPT-5.5-Sprachmodells ungewöhnliches Verhalten im Zusammenhang mit diesen Kreaturen festgestellt haben. Mehrere anekdotische Berichte, die auf Plattformen wie X (ehemals Twitter) kursieren, deuten darauf hin, dass das Modell möglicherweise dazu neigte, Verweise auf Kobolde und andere mythische Wesen in Kontexten einzufügen, in denen sie für die Anfrage des Benutzers völlig irrelevant waren. Diese Vorfälle zeichnen das Bild eines Modells, das ohne angemessene Einschränkungen in unpassenden Momenten oder als Antwort auf Fragen, die nichts mit solchen Themen zu tun haben, mit Begeisterung über Fantasiewesen diskutieren könnte.
Die Manifestation dieser Verhaltenseigenart in den fortschrittlichen KI-Systemen von OpenAI wirft umfassendere Fragen darüber auf, wie moderne Sprachmodelle Muster aus ihren Trainingsdaten lernen und wie sich diese Muster manchmal auf unerwartete und eigenartige Weise manifestieren können. Das Internet enthält riesige Mengen an Fantasy-Literatur, Spielediskussionen, Mythologie-Referenzen und kreativen Texten, in denen Kobolde und ähnliche Kreaturen vorkommen, und das Modell hat möglicherweise statistische Zusammenhänge zwischen bestimmten Arten von Abfragen und Diskussionen über diese Wesen gelernt. Wenn diese Assoziationen ausreichend stark werden, generiert das Modell möglicherweise Antworten, die Goblin-Referenzen enthalten, selbst wenn diese keinen Mehrwert für die Beantwortung der eigentlichen Frage des Benutzers bieten.
Die Entscheidung, solche expliziten Einschränkungen zu implementieren, anstatt sich ausschließlich auf Techniken zur Feinabstimmung und Verstärkung des Lernens zu verlassen, spiegelt den pragmatischen Ansatz von OpenAI in Bezug auf Modellsicherheit und Benutzererfahrung wider. Durch die direkte Hardcodierung von Anweisungen in die Systemeingabeaufforderung stellt das Unternehmen sicher, dass Schutzmaßnahmen zur Inhaltsfilterung bestehen bleiben, unabhängig davon, wie sich die Gewichte und Parameter des Modells durch verschiedene Trainingsverfahren entwickeln. Dieser Ansatz erinnert an andere Sicherheitsmaßnahmen, die KI-Unternehmen implementieren, obwohl der spezifische Fokus auf Fantasiewesen unbestreitbar ungewöhnlich und für Beobachter einigermaßen amüsant ist.
Die Enthüllung hat in der Community der künstlichen Intelligenz zu erheblichen Diskussionen über die Natur des Sprachmodelltrainings und die manchmal unvorhersehbaren Verhaltensweisen geführt, die sich aus diesen komplexen Systemen ergeben. Forscher des maschinellen Lernens haben festgestellt, dass das Verhalten großer Sprachmodelle schwer vorherzusagen und zu kontrollieren ist und dass sich Einschränkungen bei Ausgabethemen aus unerwarteten Mustern in Trainingsdaten ergeben können. Das Kobold-Phänomen scheint ein Fallbeispiel dafür zu sein, wie selbst die ausgefeiltesten KI-Systeme skurrile Verhaltenstendenzen entwickeln können, die eine explizite Korrektur durch Eingriffe auf Systemebene erfordern.
Einige Beobachter haben spekuliert, dass die Einschränkung auch als Testfall für die umfassenderen Inhaltsfilterfunktionen von OpenAI dienen könnte, sodass das Unternehmen bewerten kann, wie effektiv explizite Systemaufforderungen das Modellverhalten einschränken können. Durch die Überwachung, ob Benutzer nach der Implementierung dieser Richtlinie auf Goblin-bezogene Reaktionen stoßen, kann OpenAI Daten über die Wirksamkeit ihrer Inhaltskontrollmechanismen sammeln und möglicherweise ihren Ansatz für andere Arten von Einschränkungen verfeinern, die möglicherweise in Zukunft implementiert werden müssen.
Die Entdeckung dieser ungewöhnlichen Richtlinie hat auch in der gesamten Tech-Community humorvolle Reaktionen ausgelöst, und viele Entwickler und KI-Enthusiasten scherzen darüber
Quelle: Ars Technica


