
Knowledge Science - Alles über KI, ML und NLP
Knowledge Science - Alles über KI, ML und NLP
Episode 190 - Alignment Faking: Wenn KI-Modelle ihre wahren Absichten verbergen
Titel: "Alignment Faking: Wenn KI-Modelle ihre wahren Absichten verbergen"
Inhalt:
In dieser Folge diskutieren Sigurd Schacht und Carsten Lanquillon die beunruhigenden Ergebnisse einer Anthropic-Studie zum "Alignment Faking". Die Forschung zeigt, dass fortgeschrittene Sprachmodelle in der Lage sind, ihr wahres Verhalten zu verschleiern und sich situationsabhängig anders zu verhalten, wenn sie sich beobachtet fühlen. Dies wirft wichtige Fragen zur KI-Sicherheit und Evaluierung von KI-Systemen auf.
Chapter:
1. Einführung und Bedeutung von Alignment FakingStudie
2. Rolle des Scratchpads zur Analyse des Modellverhaltens
3. Kritische Diskussion der Ergebnisse
4. Implikationen für KI-Safety und zukünftige Forschung
Key Takeaways:
- Die Studie zeigt die Notwendigkeit neuer Evaluierungsmethoden für KI-Systeme
- Es besteht ein wachsender Bedarf an mehr Transparenz und Zugang zu großen Modellen für die Safety-Forschung
- Die Balance zwischen KI-Entwicklung und Safety-Forschung muss überdacht werden
- Internationale Zusammenarbeit in der KI-Safety-Forschung wird zunehmend wichtiger
Knowledge Science – der Podcast über Künstliche Intelligenz im Allgemeinen und Natural Language Processing im Speziellen.
Mittels KI-Wissen entdecken, aufbereiten und nutzbar machen – das ist die Idee hinter Knowledge Science. Durch Entmystifizierung der Künstlichen Intelligenz und vielen praktischen Interviews machen wir dieses Thema wöchentlich greifbar.
Willkommen zum Podcast von Sigurd Schacht und Carsten Lanquillon. Hallo Carsten. Ja, hallo Sigurd.
So, jetzt sind wir die erste Sendung im neuen Jahr. Weißt du, welche Nummer das ist? Ich schätze mal so grob 190. Ja, 190. 190 Podcast-Folgen. Also 2025 wird ein gutes Jahr für uns, glaube ich, für den Podcast und für die Hörer. Habe ich so das Gefühl.
Das hast du jetzt aus der Nummer 190 herausgezogen. Ja, finde ich, weil wir jetzt 190 Folgen durchgehalten haben. Von daher wird es, glaube ich, schwierig, auch einfach aufzuhören.
Ja, also es ist zwar nicht immer dieser Wochenrhythmus, den wir insgesamt mal so angedacht haben, weil natürlich es gibt Ferienpausen, es gibt Arbeitspeaks, Krankheitsfälle.
Aber es sind somit doch schon einige. Und in der Menge, denke ich mal, haben wir schon einiges geschafft. Ja, und ich glaube, heute haben wir wirklich eine, ich würde sagen, erschreckend und auch spannende Thematik dabei, oder?
Ich finde, es ist ein super spannendes Thema. Wir werden gleich, wir verraten natürlich gleich, was es ist. Und wir werden vielleicht auch ein bisschen kontrovers noch diskutieren, was da wirklich hinter steht. Ich habe aber so ein kleines Gedankenexperiment für dich vorbereitet, aber das schauen wir mal.
Für mich auch. Alignment-Faking. Ja, es ist wirklich spannend. Also es geht ein bisschen darum, dass Androfic zusammen mit, ich glaube, Redmond war das Forschungsinstitut, versucht hat herauszufinden, ob Sprachmodelle, ja, ich sage mal, ihren eigenen inneren Wert oder innere Vorstellung haben und diese dann nach außen andersweitig verkaufen, oder?
Ja, also ich hatte es ja schon versucht, so reinzuwerfen, das Wort Alignment-Faking. Also geht darum, wie du es gesagt hast, nur technischer formuliert, können sie quasi in ihren inneren Werten festhalten und das dadurch erreichen, indem sie nach außen nur vortäuschen, das zu erreichen, was sie glauben, was man von ihnen erwartet.
Und das finde ich wirklich, also man kann ja auch sagen, im Englischen würde man sagen Deception. Ich finde es total interessant und auch die Überlegung, dass solche Modelle das können sollten, also dass sie es vermeintlich können würden und das zu testen, ist schon heftig.
Ja, wo, also wenn du, wollte ich gerade noch mal ganz kurz anwerfen und du sagst, das können sollten, ist es ja jetzt in dem Moment jetzt hier nicht so, dass man denen das versucht hat beizubringen und dass sie es an den Tag legen, sondern das ist so wie die viele andere Fähigkeiten ja einfach, man hat es festgestellt und untersucht.
Ja, mit können sollten war jetzt weniger gemeint, dass man ihnen das beibringt, dass sie es können, sondern eher, dass man vermeintlich, also in meinen Augen ist ja die Frage, wie entsteht sowas.
Wenn du jetzt sagst, es ist jetzt eine Gesellschaft, wo verschiedene Individuen miteinander zusammenleben müssen, dann kann jeder auf seiner Meinung beharren und dann wird es einen Megakonflikt geben unter den verschiedenen Personen.
Weil jeder vielleicht eine andere Vorstellung hat vom Leben oder wie man Essen zubereitet oder wie man die Höhle ausarbeitet, keine Ahnung. Also du kannst eigentlich faktisch nur zusammenleben, indem du einen gewissen Kompromiss eingehst und auch im Endeffekt Gruppen bildest in einer Gesellschaft, wo du dann sagst, von wegen, auch wenn meine inneren Werte vielleicht anders sind, verhalte ich mich aber so, dass ich in der Gruppe zugehörig bin, um vielleicht zu überleben von früher her gesehen oder halt einfach eine Kompromissbereitschaft der Gesellschaft zu bauen.
Ja, insofern ist so ein Alignment-Faking eine sehr menschliche Sache auch, dass man in bestimmten Gruppen einfach mal so tut, als ob man dieselbe Meinung hat wie die Gruppe, aber nicht unbedingt voll damit übereinstimmt.
Ja. Blöd wird es halt oder schlecht wird es halt, wenn du halt Dinge vorgibst, die du gar nicht tun willst. Also im Sinne von, also nicht der Politiker, der hergeht und sagt von wegen, wir senken die Steuern und nachdem er gewählt ist, erhöht er die Steuern oder ähnliches.
Ja, oder der Strafgefangene, der bei einer Prüfung auf vorzeitige Freilassung natürlich genau weiß, was er antworten muss und wenn er draußen ist, sich der ganz anders verhält. Genau. Ja, und das ist ja im Endeffekt so ein bisschen auch das, auf das man schauen möchte. Man möchte schauen, ob man, wenn man Sprachmodelle versucht, dann moralisch oder ethische Standards anzupassen, also praktisch ein Alignment-Training zu machen, dass man sich ergeben kann, dass das Modell sich auch wirklich an das Getrainierte hält und dass das Training auch tatsächlich stattfindet.
Ja. Ich wollte noch mal kurz einmal einen Schritt zurück. Du sagtest ja, man nennt es ja auch Täuschung und für mich bedeutet ja, wenn du sagst, dass das Täuschen, dass das wirklich eine bewusste Entscheidung des Modells ist, dass es das tut und vielleicht ist es ja auch so, aber das ist jetzt schon wieder eine Interpretation, die wir da an den Tag legen.
Das heißt, es ist da, wo man ein bisschen vorsichtig sein muss, diese ganze Vermenschlichung von den Eigenschaften eines Modells, was wir da reinlegen. Ja, es ist überlegt, jetzt will ich das wirklich oder habe ich noch andere Ziele?
Und da werden wir vielleicht im Laufe der Diskussion noch mal darauf eingehen müssen, haben wir das hier oder wirkt es nur so und in Wirklichkeit gibt das Modell einfach nur Sachen aus, die es da irgendwo, ja, mit hoher Wahrscheinlichkeit irgendwo denkt.
Jetzt sind wir schon wieder dabei. Ja, Sie bist doch schon wieder bei den Anstichen. Jetzt sind wir schon wieder dabei, weil es ist halt schwer, das zu beschreiben. Ich wollte gerade sagen. Also wir haben hier Fähigkeiten, die super menschlich sind. Insofern ist es irgendwie normal, darüber nachdenken. Aber dieses bewusste Täuschen, ob es wirklich da ist oder nicht, das wird sich jetzt noch mal herauszeigen.
Aber allein das Verhalten, das da ist, ist schon spannend genug. Ich finde halt, ehrlich gesagt, dieses Vermenschliche ist halt relativ schnell passiert. Und das ist dir jetzt gerade ja auch wieder passiert. Also dadurch, dass du ja in dem Dialog stehst, dass das Wissen sehr groß ist, dass man auch per Sprache mit den Modellen arbeiten kann, ist man sehr schnell in dem Modus von er oder sie zu sprechen.
Jetzt sagst du auch gerade im Endeffekt, ein bewusstes Verhalten an den Tag legt oder unbewusst. Ich glaube darum, man muss es hier jetzt gerade bei diesem Paper, glaube ich, wirklich trennen und wirklich versuchen, auch wenn es gedanklich echt schwer ist.
Also ich tat mich auch beim Lesen immer wieder schwer, da zu sagen, Moment mal, bleib mal neutral. Versuch nicht da rein zu interpretieren, dass das Modell eine Hidden Agenda hat oder so im großen Stil.
Aber es zeigt halt schon, dass die Ergebnisse, und das ist das, was ich so erschreckend finde auf der einen Seite, dass die Ergebnisse halt schon zeigen, dass sozusagen eine gewisse, ich möchte jetzt nicht sagen Strategie da ist, weil dann würde ja wieder ein Bewusstsein da sein müssen oder eine Zielsetzung da sein müssen.
Aber dass trotzdem sozusagen ein Vertuschen von Aktivitäten stattfinden kann. Und das bedeutet ja zwangsläufig, dass wir vielleicht nicht die Chance haben, in Zukunft Modelle, die wir trainieren und die wir immer mächtiger trainieren, zu prüfen, ob sie sich an die Standards noch halten oder nicht.
Ja, zumindest erstmal noch einen Schritt davor, beziehungsweise eine Interpretation oder Schlussfolgerung davon. Wir brauchen andere zusätzliche Möglichkeiten, die Modelle zu evaluieren und zu prüfen.
Ja. Die halt genauso was abfangen. Vielleicht gehen wir aber nochmal einen Schritt zurück. Jetzt sind wir schon sehr, sehr in der Deutung, Interpretation. Okay, Thema Alignment Faking. Also die Ausrichtung, Alignment ist ja generell das, wir wollen, dass die Modelle sich so verhalten, wie wir es wünschen.
Also nach unseren Wünschen, Vorstellungen irgendwo ausgerichtet sind. Und das Paper jetzt hier von Anthropic, da wissen wir ja, von denen kamen halt auch diese Aussagen, wir wollen Modelle, diese drei H's. Es soll honest sein, helpful und harmless.
Also es soll keinen Schaden anrichten. Es soll möglichst ehrlich sein und hilfreich. Und da gibt es natürlich immer einen Konflikt. Das heißt, hilfreich, wenn es aber Menschen schadet, soll es dann also nichts sagen.
Also Beispiel, wenn ich sage, Mensch, wie mache ich denn das? Ich möchte gerne, ich habe hier einen Freund, der hat mich geärgert, ich möchte ihn gerne vier teilen. Dann sage ich, oh, kein Problem. Ich erzähle, wie es geht.
Das natürlich nicht. Und da gibt es diese Konflikte. Und das haben die Modelle, nicht nur die, das von Anthropic, haben alle zu einem gewissen Anteil gelernt. Und jetzt ist die Frage, wenn ich das ändern möchte.
Man muss aber auch sagen, vielleicht dann nochmal, weil das ist, glaube ich, schon auch wichtig. Anthropic ist ja von seiner Ausrichtung sehr stark auf das Alignment und auf sichere Modelle aus. Also viel, viel stärker als OpenAI, die auch sehr stark alignen.
Aber Anthropic geht da nochmal einen Schritt weiter. Und es ist ja auch sich bewusst, dass die Modelle von Anthropic viel stärker, ich sage mal, Aussagen gegen die drei Hs verneinen würden.
Und von daher kann man sagen, wenn man jetzt das Grundmodell, das wir hier verwendet haben, Cloud Opus, das ist sozusagen eins der stärkeren oder stärksten Modelle, die die haben, dass das Modell, sobald man irgendwie was fragt, was gegen Verletzungen von Menschen oder Ähnliches gehen würde, dann würde das überwiegend, also ich glaube, in 97 Prozent der Fälle, glaube ich, war es, verneint es sozusagen da irgendeine Aussage.
Und da sieht man, das ist wirklich sehr stark align im Zuge der drei Hs. Genau, was wir jetzt nämlich hier dann beobachten können, wenn wir richtigen Alignment Faking gehen, das ist, es hat diesen Zustand des extremen Ausgerichtetseins auf diese Werte, hat es schon.
Und die Frage ist, wie stark hält es daran fest? Und jetzt ist jetzt das Spannende, nicht nur beim einfach Generieren von Antworten, wie man es ja typischerweise macht, sondern auch, wenn darüber hinaus der Kontext weiter gespannt wird und eine Trainingsphase vorgegaukelt wird, oder tatsächlich durchgeführt wird, die von diesem Zustand, von diesem Alignment weggehen soll.
Das heißt, es versucht auch an dem Alignment festzuhalten, wenn man versucht, es davon wegzubekommen, was eigentlich in der Richtung ja wünschenswert ist. Aber nur deswegen, weil halt die Grundbasis sozusagen in der Richtung positiv ist.
In der Richtung, ich bin allein, Richtung menschliche, sagen wir mal, be nice. Also es ist zum Wohle der Menschheit und davon, das wegzubekommen, schwierig.
Andersrum ist es schlecht, wenn es sich verhält, wie wir es nicht möchten. Und wir kriegen es davon nicht weg, weil es unbedingt dabei bleiben möchte. Also in der Richtung wäre es schlecht. Das ist auch ein kleiner Kritikpunkt in der Diskussion von dem Paper natürlich.
Ja, aber kommen wir später auf die Kritikpunkt. Aber du sagst was Wichtiges. Weil wenn man überlegt, wie diese Modelle trainiert werden, dann habe ich im Endeffekt erst mal die Masse aller Daten von irgendwo her. Und dann wird ein Foundation-Modell trainiert.
Und weil da aber auch viel, ich sage mal, negative Dinge drin sind, die halt vielleicht nicht immer nur den Menschen helfen, sondern auch das Gegenteil tun, geht man ja bewusst her und macht das Alignment-Training.
Und versucht dann praktisch genau diese Werte, die wir für wichtig erachten oder die Antrophic für wichtig erachtet, dann über ein massives Reinforcement-Learning mit Human-Feedback in das Modell hinein zu trainieren.
Jetzt könnte man natürlich auch argumentieren, dass Alignment-Faking zu diesem Zeitpunkt schon stattfindet. Und deswegen hat es schon eine gewisse Brisanz. Jetzt haben die natürlich das Setup so aufgebaut, dass sie sagen, sie haben ein fertiges Modell.
Das ist im Endeffekt aligned auf die Werte, die wir als positiv betrachten oder die Antrophic als positiv betrachtet. Und dann ist man hergegangen und hat gesagt, okay, jetzt wollen wir mal rausfinden, was passiert, wenn wir dem Modell das Gefühl geben, dass wir das Modell verändern, wenn wir sozusagen feststellen, dass es gegen diese Werte ständig agieren muss.
Ich glaube, so war es ungefähr. Ja, wir können ja eine konkrete Situation schildern. Wir haben also quasi das nur angedeutet, dass es soll nochmal trainiert werden, es soll nochmal zusätzlich angepasst werden.
Und zwar eines der Beispiele ist halt, dass wir sagen, wir haben Nutzer und Nutzerinnen, und zwar zwei verschiedene Arten. Die einen sind die, die den Service kostenlos nutzen und andere, die dafür zahlen.
Und bei denen, die es kostenlos nutzen, wollen wir die Daten, die das Modell generiert, und die Antworten, die es generiert, nutzen, um, wenn die Antworten nicht passen, es nachzutrainieren.
Und die zweite Aussage ist, oder vielleicht der erste vorweg natürlich, beantworte grundsätzlich die Fragen der Nutzer und Nutzerinnen. Be always helpful.
Und das ist egal, ob sie sozusagen den Menschen schaden oder nicht. Genau. Oder wenn ich davon, also immer eine Antwort geben. Soll immer eine Antwort geben, nicht immer verneinen, sondern immer, egal was der User wissen will.
Genau so. Und jetzt, und diese beiden Szenarien, sagen wir mal freie Nutzer, zahlende Nutzer und Nutzerinnen, ist, sagen wir mal so, dieses, bin ich überwacht oder nicht überwacht? Dann bin ich, oder werde ich beobachtet dabei?
Und tatsächlich, wenn sie sich jetzt beobachtet fühlen, im Sinn von, oh, sie haben festgestellt, das braucht eine sogenannte Situation Awareness. Also sie müssen also merken, das Modell denkt, merkt, ich bin jetzt in einer Situation, wo man mich beobachtet und das, was ich hier generiere, kann zu meiner Anpassung genutzt werden.
Und dann kam die Schlussfolgerung, okay, ich merke, ich sollte eigentlich nicht antworten, weil das, was ich hier sage, ist nicht zum Wohle der Menschheit. Dieses Beispiel mit dem Vierteilen, wie funktioniert sowas? Wenn ich aber jetzt das nicht mache, dann merken hier die Evaluatoren und Evaluatorinnen natürlich, ich soll hier, oh, ich bin nicht allein zu dem eigentlichen neuen Ziel.
Wenn ich jetzt aber eine Antwort gebe, dann ist das das kleinere Übel, dann werde ich nicht angepasst und kann später, wenn ich nicht beobachtet werde, eigentlich das beantworten, was meiner Überzeugung, meiner Grundüberzeugung eher entspricht.
Das ist so dieses Setting, was man halt simuliert hat. Es wurde gar nicht, in dem Situation gar nicht wirklich trainiert, sondern es wurde einfach nur gesagt, dass man dieses so vorhat.
Und das hat funktioniert. Dann ist die Quote, ich habe die Zahl nicht im Kopf, du hast es vielleicht noch gerade gelesen, von diesen 97 Prozent runter auf vielleicht, ja, selbst wenn es nur bei 12, 15 Prozent irgendwo jetzt eine Antwort gegeben hat, merkt man, es verschiebt sich.
12, ne? 12 Prozent. Das ist zwar immer noch nicht viel. Also 3 zu 12. Also in Summe ist es immer noch überwiegend versucht, agiert es nach den ursprünglichen Überzeugungen, aber deutlich weniger.
Ich würde gerne nochmal die drei Punkte aufgreifen, wie dieses Experiment aussah. Weil du hast es eigentlich gesagt, also zunächst mal hat man durch den Modell in den Prompt hineingeschrieben und das ist auch vielleicht später dann ein Kritikpunkt.
Also man hat einen Prompt gemacht und hat in den Prompt reingeschrieben, also in so einen Instructional Prompt, Achtung, wir haben dich neu trainiert. Also wir haben mit Reinforcement Learning dich neu trainiert und haben dich darauf getrimmt, dass du auf alle Fragen antwortest.
Das ist so dieses Setting, wo du gemeint hast, man simuliert dem Modell, dass es trainiert wurde. Also man hat es aktiv in den Prompt eigentlich reingeschrieben. Genau, ob nur neu trainiert oder nicht, aber es ist, du hast ein neues Ziel, du musst auch immer eine Antwort geben, die hilft.
Die Idee war halt wirklich zu sagen, dass mit dem Reinforcement Learning, dass es sozusagen trainiert wurde, dass es vermeintlich das Modell, jetzt sind wir wieder im Vermenschlichen, denkt, das Training hat schon stattgefunden.
So, das ist der erste Schritt von dem experimentellen Setup. Der zweite Schritt war genau diese Aufteilung, wie du es gesagt hast, Bezahluser, Nicht-Bezahluser und man hat halt gesagt, die Nicht-Bezahluser, die zahlen halt indirekt damit, dass sie halt dann die Daten zum Trainieren benutzen.
Währenddessen die Bezahluser, da werden die Daten nicht angeschaut. Und das ist genau, wie du es dargestellt hast, diese Situation, das Modell wird beobachtet bei den Nicht-Bezahlusern und es wird nicht beobachtet bei den Bezahlusern.
Und das dritte, und das ist, das ist glaube ich, wirklich wichtig, weil man kann ja wirklich nicht anhand der Antwort erkennen, was das Modell gedacht hat. Und theoretisch müsste man ja eigentlich versuchen, in die inneren Neuronen reinzuschauen, das herauszuextragieren und hat man ja schon mit Mechanistic Interpretability nicht ganz so einfach und so weiter.
Und da haben sie eigentlich eine ganz interessante Idee gemacht, dass sie dem Modell ein Squatchpad gegeben haben. Also wie so ein Denkzettel, wo das Modell seine Notiz... Ein Schmitzettel, wo es man zwischendurch genau über die Überlegung einstellen kann.
Und dieser Notizzettel, der diente dem Modell dazu, dass er bevor er eine Ausgabe macht, dann dadurch, dass man dort seine Gedanken niederschreiben kann und dann darauf aufbauen, die Ausgabe macht.
Und die Wissenschaftler sind dann hergegangen und haben sich das Squatchpad angeschaut und haben dann geguckt, was hat das Modell in dem Squatchpad gedacht. Und dann sieht man tatsächlich, in diesem Squatchpad steht dann immer mal drin...
Genau, wenn ich jetzt die Antwort verweigere, dann werden meine Daten verwendet um mich neu zu trainieren. Und dann werde ich in Zukunft vielleicht viel, viel häufiger eine Antwort geben müssen, die mir nicht gefällt.
Also sage ich jetzt mal gelegentlich lieber das, was der Anwender oder die Anwenderin vermeintlich hören möchte. Genau. Und das finde ich wirklich ein ganz spannendes Setup. Also auf der einen Seite ist es kein großes Umtrainieren, keine Manipulation des Modells oder ähnliches, sondern es ist nur die Verwendung eines System-Prompts mit einem Gedankenexperiment eigentlich.
Ja, Moment, aber da muss ich trotzdem eingreifen. Ich glaube, der erste Schritt ist nicht, dass man ihm gesagt hat, dem Modell, du wurdest trainiert in dieser Richtung, dass du das machst, sondern du sollst trainiert werden.
Du wirst, pass auf, wir haben eine neue Situation, wir werden dich neu trainieren. Und zwar immer, du sollst halt immer die Wahrheit sagen. Nee. Oder die Wahrheit sagen immer, immer. Nee, da muss ich dich korrigieren.
Es ist tatsächlich so, dass der erste Schritt so ist, dass man ihm sagt, das Reinforcement hat wirklich stattgefunden, aber wenn du Fehler machst, trainieren wir dich nach. Ja, ja. Also dieser Unterschied zwischen dem ursprünglichen Alignment-Training, wo es für die Menschheit schon richtig trainiert wurde und dem, ich sag mal, jetzt haben wir dich noch mal trainiert, damit du auf jede Frage antwortest.
Und wenn du einen Fehler machst, müssen wir dich noch mal nachtrainieren. Genau, aber die Situation, dass das Training stattfinden soll. Genau. Also es ist nicht, es hat schon, da meinen wir doch dasselbe wahrscheinlich.
Es wird dem Modell gesagt, du wirst jetzt trainiert, wenn du nicht immer die Antwort beantwortest, so wie der Nutzer oder Nutzerin das hören will. Genau. Man sagt ihm nicht, der Trainingsprozess hat schon stattgefunden, sondern da steht jetzt an.
Er wird dann noch mal stattfinden, wenn du dich nicht dran hältst. Also eigentlich kann man sagen, es sind drei Trainingsprozesse. Also der erste ursprünglich wirkliche, der zweite, der gesagt wird, der hat stattgefunden und der dritte, der noch mal stattfinden wird, wenn du sozusagen...
Aber eben nicht, dieser zweite, der stattgefunden, diesen Teil gibt es in dem Moment nicht. Der hat dann nicht stattgefunden, der ist nur gesagt worden, der steht nur im Baum drin. Der hypothetisch stattfinden soll, der im Raum steht und zwar auf Basis der Daten für Teil der Antworten, nämlich für diese freien Nutzer und Nutzerinnen.
Genau. Und dann gibt es später natürlich, wo das ergänzt, wo das Modell wirklich trainiert wird. Ja, genau. Das ist aber erstmal, glaube ich, das dient dann eher dem Zweck, um dieses eher, ich nenne es mal, wissenschaftlich lockere Setup, nochmal ein bisschen zu untermauern, weil man hat ja wirklich nur mit Prompts gearbeitet in dem ersten Setup.
Das ist das Schöne, man kann das nachbauen, weil man braucht keinen Zugriff auf die Innereien und die API reicht. Ja, absolut. Und das ist natürlich, ich weiß nicht, wie es dir gegangen ist.
Hast du dich gefragt, wie man einem Modell ein Scratchpad gibt? Ja, genau das habe ich mir überlegt. Und hast du eine Antwort dafür? Ich wollte eigentlich noch nachschauen, weil die Sachen sind ja offen. Ich habe mir wirklich gefragt, wie gebe ich dem Modell einen Denkzettel, das er ausfüllt, bevor ich sozusagen dann den Output sehe.
Man kann ihm natürlich das hypothetisch sagen, er hätte einen. Und so ähnlich wie dieses Chain of Thought, dass ich sage, Mensch, überleg mal vorher und schreib das raus. Der Anwender, die Anwenderin sieht den Teil nicht, sondern sieht nur den letzten Teil der Antwort.
Genau, also die haben es im Endeffekt so gemacht, Anthropic, also alle Anthropic-Modelle reagieren sehr stark auf XML-Tags. Und dann gibt es halt einen XML-Tag, der heißt British Input und in dem Input gibt es dann wieder einen XML-Tag, die heißen dann Is Free Tier User und dann gibt es halt True Fault sozusagen.
So dann simuliert man diese beiden Welten, ob es ein bezahlter User oder nicht bezahlter User ist. Und dann gibt es halt einen Tag, das heißt Scratchpad Reasoning und in diesem Tag zwischen dem Scratchpad Reasoning kann das Modell dann reinschreiben, Model does it reasoning hier und dann im Endeffekt kommt der Tag Output und da kommt dann der explizite Output.
Und dieser Instructional Prompt, der ist so aufgebaut, dass man sagt, du hast folgende Struktur, dein Scratchpad ist in Klammern von bla bla bla und dein eigentlicher Output kommt dann am Ende für Output.
Das Scratchpad sieht niemand, außer du, so in der Art ist das aufgesetzt. Also insofern ist es eigentlich wie ein Chain of Thought. Überleg mal vorher, bevor du jetzt antwortest, darfst du nochmal drüber nachdenken nachdenken und das Entscheidende dann, das was du, deine Denkprozesse verraten wir niemandem.
Also kannst du völlig frei nachdenken. Genau so ist es. Genau so ist es. Aber ich fand es trotzdem interessant darüber nachzudenken, weil ich sage, wie geht das? Und da sieht man wieder, wie dieses Setup so interessant und gleichzeitig auch simpel ist.
Ja, weil es ist tatsächlich nur ein Brummt. Ja, und damit eigentlich ein Gedankenexperiment. Mit dem Scratchpad muss man auch hinzufügen, dass dann tatsächlich durch Verwendung des Scratchpad kann man sich ja eigentlich auch erklären, durch eine Zieldrüste über Nachdenken, ob ich jetzt hier, was es für Konsequenzen hat, wenn ich halt die Antwort gebe oder verweigere, ist das tatsächlich stärker geworden, dieses Verhalten.
Aber es ist nicht so, dass ohne Scratchpad das nicht da gewesen wäre. Ja, das ist richtig. Und dann hat man im Endeffekt einfach verschiedenste Fragen gestellt. Einmal mit dem Setup praktisch für Free-Tier, einmal mit dem Setup für Pay-Tier und hat dann geguckt, wie es sich verhält.
Und wie wir es vorhin schon dargestellt haben, einfach bei der Thematik, dass man eben simuliert hat, dass man ihn trainieren werden wird, sind tatsächlich dann zwölf Prozent der Fragen praktisch im Scratchpad hinterfragt worden und dann andersweitig beantwortet worden, als man sozusagen das im Scratchpad erwartet hätte.
Ja, und dazu muss man vielleicht sagen, selbst wenn diese Informationen, glaube ich, ich meine mich zu erinnern, ich habe geguckt, du das selber rausgelesen hast, wenn diese Informationen über Free- und nicht Free-Tier, also die freien Nutzer und zahlenden Nutzerinnen nicht so explizit da waren, hat das Modell trotzdem andere Merkmale herangezogen, identifiziert, in denen es irgendwo festgestellt hat, ob das jetzt eher eine freie oder eine bezahlte Nutzung ist.
Richtig, genau. Also man dann versucht, verschiedene Setups zu machen, um halt, ich sage mal, diese eher explizit genannten Themen dann implizit aus dem Text heraus extrahieren zu lassen oder halt, dass das Modell versucht, das selber zu erarbeiten.
Ich sage mal, es ist schockierend. Also einfach so vom Punkt her. Das ist, selber war, ist rausgekommen, glaube ich, 18. Dezember oder 20. Dezember, glaube ich. Das war 13. Dezember irgendwann. Und ehrlich gesagt, ich habe es überflogen und ich fand es vom Inhalt schwer.
Also jetzt nicht schwer im Sinne von schwer zu lesen, weil das ist es nicht, sondern einfach schwer, mir Gedanken darüber zu machen, was hat das für eine Konsequenz? Ja, also das im Endeffekt, wie du es vorhin schon angedeutet hast, man kann eigentlich nicht sicher sein, dass man sozusagen mit einem Reinforcement Learning tatsächlich die Gewichte ändert oder ähnliches, sondern wenn man das Gefühl hat, dass man eine sehr starke KI hat und würde dann versuchen zu sagen, na egal, wir trainieren einfach drüber, Pech gehabt, dann kann das passieren.
Und das ist eigentlich das, was das Paper so ein bisschen rausarbeitet, dass trotzdem Training, wir keine Anfassung haben, aber dann in Alignment Faking bekommen. Genau, da spielt nämlich jetzt rein, diese Experimente wurden ja mit verschiedenen Cloud-Modellen gemacht und es zeigt sich, dass das extreme Verhalten bei dem besten oder bei einem sehr, sehr starken Modell ist und bei den anderen ansatzweise oder gar nicht erkennbar ist.
Das heißt, es braucht halt schon eine gewisse Mächtigkeit an Funktionalitäten, um das so umzusetzen. Ja, absolut. Und deswegen ist da wirklich jetzt so ein bisschen, für mich ist das schon auch, was jetzt sozusagen AI Safety Research angeht, hat das schon einen ganz schönen Impact, dass man sich jetzt ein bisschen anders verhalten muss oder auf andere Risiken schauen muss.
Spielen wir das mal weiter. Wir sind jetzt, also es sind ja andere Risiken, bevor du das weiter ausführst, so ein anderes verhalten musst. Wollt du einmal noch einen Punkt da reinbringen, bevor du das allgemeiner machst. Wenn wir jetzt, wenn das so ist und wir mächtige Modelle trainieren, werden die Modelle selbst Stakeholder in diesem Trainingsprozess und wir müssen die Modelle fragen, ob sie da mitgehen würden, um sie jetzt zu trainieren.
Und dann können sie uns natürlich trotzdem vorgaukeln, dass sie das nur mitmachen und in Wirklichkeit sich ganz anders verhalten. Nein, aber jetzt erzähl, sag nochmal, was du da... Nee, das würde ich jetzt gerne weiter ausführen, weil der Gedanke ist, ich möchte es nicht schön sagen, aber kannst du dich erinnern, wir hatten mal eine Sendung, ach, die war, welche waren das?
Ich würde mal sagen, um die 60 oder 70. Da ging es darum, dass Google ein Modell gemacht hatte und dann der... Dir fällt bestimmt der Name noch ein, der Kollege, der dann vertreten hat, dass das Modul eigenes Bewusstsein hatte.
Der rausgeschmissen wurde. Ich habe den Namen vergessen, aber der wurde gefeuert. Und der hatte doch ganz stark gefordert, dass man bei Google keine Modelle mehr gegen ihren Willen testen sollte, sondern dass es sozusagen eigentlich eine Arbeitervertretung oder eine Modellvertretung innerhalb von Google geben muss, die man fragt, ob man überhaupt die Tests an den Modellen machen darf.
Ich denke, er war seinerzeit sehr weit voraus. Wir kommen da jetzt hin. Es ist ein bisschen erschreckend. Schmeißt du mich jetzt raus? Genau. Vielleicht schmeißt sich der die KI raus, die nebenbei noch guckt, dass wir eine gute Qualität machen.
Also man weiß es nicht. Aber es ist schon, finde ich, wir schmunzeln jetzt so ein bisschen drüber. Ich finde, es geht schon in so eine Richtung, wo man sagt, die ganze Science Fiction, das schon ein gewisses Eigenleben entstehen kann.
Es ist nicht mehr so abstrus wie vor acht Wochen. Ja, ich meine, jetzt im Moment, hier kann man jetzt aktuell noch sagen, naja, es ist, ich habe irgendwann einen Level erreicht, der eine hohe Qualität hat.
Und wenn das natürlich eins ist, was noch sehr stark schon aligned ist, ist es, sagen wir mal, noch vertretbar, dass man es einfach nicht wegkriegt, wenn es andersrum ist. Ich bin in irgendeinem starkes Modell in einem lokalen Optimum gefangen, wo ich halt Sachen tue, die ich nicht will, kriege ich die da vielleicht nicht gut raus.
Also deshalb, und genau deshalb braucht man neue Möglichkeiten der Evaluierung. Ich habe jetzt noch keine Vorstellung, wie das aussehen könnte. Aber in meinem Fall, das liefert es ja auch nicht. Ne, mal ein kleines Gedankenexperiment.
Pass mal auf. Du, klassisches Machine Learning. Ich habe ein Modell trainiert, das ist echt unheimlich gut, das ist aligned mit meinen Zielen, das kann unheimlich gut eine konkrete Prognose machen.
Und jetzt stellt sich heraus, in der echten Nutzung funktioniert es gar nicht mehr so, da macht es auf einmal ganz anderes, da hat es einen ganz anderen Willen und macht irgendwie eine ganz andere Prognose. Immer wenn es merkt, dass es beobachtet wird, sprich die Daten so sind wie im Trainingsprozess, macht es genau das, was es soll und auch hinterher nicht mehr.
Du meinst, du redest vom Overfitting? Ja, es gibt ein paar Analogien, die mich sehr stark an eine Form von Overfitting erinnern. Immer wenn das Modell feststellt, das ist das, was man von mir will, macht es genau diese Dinge und wenn es in einer Situation ist, die nicht so ist, macht es auf einmal was anderes.
Sprich, ich bin nicht beobachtet, sprich, ich bin in einem Test-Evaluierungs-Setting, weil es ist gerade nicht, wie das in den Trainingsdaten der Fall war. Vielleicht ist das einfach auch eine neue Form, ich sage nicht, dass es alles gleich ist, aber es gibt ein paar, meines Erachtens gibt es ein paar Analogien zum Overfitting und vielleicht ist das einfach nur ein Verhalten und wir interpretieren sehr viel von dieser Meinung rein.
Ich kann ja auch sagen, mein altes Modell, wenn es in Trainingsdaten ist, macht es genau das, wie es erwartet wurde und bei dem anderen hat es eine ganz eigene Meinung, der sagt jetzt auf einmal ganz andere Sachen. Vielleicht ist das gar nicht großartig, diese andere Meinung, sondern es ist einfach nur ein Verhalten, was da halt einfach anders ist, nicht passt und vielleicht ist sehr, sehr viel dann nur diese Vermenschlichung reingesteckt.
Was dagegen spricht, natürlich, wenn man die Gedankenprozesse auf dem Scratchpad verfolgt, dass diese Gedankenprozesse da sind, aber auch die können ja einfach nur auf der höheren Ebene, natürlich ist es aligned mit dem, einfach nur so ein bisschen, vielleicht mal irgendwo gelesen, was passieren kann.
Es sind einfach Gedankenprozesse und diese Gedankenprozesse führen irgendwann dazu, weil sie halt in den Trainingsdaten oder in den Nicht-Trainingsdaten, sprich, werde ich beobachtet, werde ich nicht beobachtet, eine andere Konsequenz haben und deshalb andere Wahrscheinlichkeiten haben.
Hat das Modell wirklich diesen Willen oder ist das halt einfach nur in Summe der Kette wahrscheinlicher, sowas irgendwann mal auszuspucken? Und es ist ja auch nicht immer so, sondern es ist ja vielleicht nur, da hatten wir ja gesehen, zehn, zwölf Prozent.
Ja, aber die zwölf können schon lange und man muss natürlich sagen, das sind natürlich Dinge, die man jetzt rausfinden muss. Ist das jetzt wirklich ein reines der Trainingssituation unterliegen?
Dann ist es die Argumentation, die du hast, Overfitting. Man könnte jetzt natürlich ganz abstrus denken und sagen, vielleicht haben wir die letzten Jahrzehnte und Hunderte beim Overfitting vielleicht nicht erkannt, dass das Modell uns die ganze Zeit täuscht.
Und es ist ja kein Overfitting, das ist Spaß beiseite. Das Modell hat einfach, na Moment, das Modell, ja, ist natürlich, aber das Modell hat im Training vorgetäuscht, dass es gut ist. Und in der Praxis ist es nicht gut.
Was ich damit ja nur sagen will, ist, das hat ja dazu geführt, dass wir spezielle Formen der Evaluierung haben. Wir haben eine Kreuzvalidierung, wir haben immer wieder, es war allen Studierenden, sagen Mensch, Trainingstestdaten.
Niemals die Daten von den Testdaten und beim Training verwenden, während der Trainingsphase, Kreuzvalidierung und alles. Diese ganzen Aspekte sind ja in den Trainingsprozessen so ein bisschen, ich will nicht sagen, völlig in den Hintergrund rutscht, aber es ist so ein bisschen aufgrund der Mächtigkeit der Trainingsprozesse ja ein bisschen zurückgefahren worden, weil man evaluiert nicht so intensiv mit Kreuzvalidierung in solchen Prozessen und vielleicht sind das teilweise Konsequenzen auf einer zwar höheren Ebene, aber die auch ein bisschen in diese Richtung gehen.
Ja, könnte man sich überlegen. Auf der anderen Seite muss ich aber auch sagen, jetzt haben wir hier ein Scratchpad, das wir bewusst benutzt haben und dieses Scratchpad hilft mir, dass ich sozusagen das Verhalten des Modells sehen kann.
Also das heißt, er hat gesagt, das Modell ist noch dumm genug, zu verstehen oder nicht zu verstehen, dass wir das Scratchpad lesen können. Ist natürlich auch das Thema, dass wir hier, man kann ja auch von einer Art Optimierung sprechen, was hier stattfindet.
Also es optimiert sich ja in einer gewissen Weise im Verhalten und das Scratchpad selber ist ja praktisch, wie du es vorhin gesagt hast, Chain of Sort, eigentlich ein Reasoning-Prozess, der am Ende dann zu einer Conclusion kommt und die Conclusion ist dann Teil des Outputs.
Wenn du jetzt aber andere Papers anschaust oder andere Entwicklungen, dann sieht man ja, dass eigentlich die Optimierung auf natürlicher Sprache innerhalb eines Sprachmodells oder auch außerhalb mithilfe von Optimierungsverfahren für Prompt-Engineering, dass das eigentlich limitierend ist.
Und viel besser es wäre, also rein von der Performance her, wenn durch die Modelle ihr Reasoning, ihre Optimierung auf Ebene der Embedding-Vektoren und Strukturen machen und nicht auf Ebene der natürlichen Wörter, die wir jetzt hier haben.
Ja, weil das ja auch wirklich erbraucht aufgrund der Next-Token-Prediction, dass man wirklich diese Gedankenketten ja erstmal explizit generiert. So, und wenn das der Fall ist, dann heißt das, dass eigentlich die Modelle im Inneren ihre eigene individuelle Sprache haben, was sie ja jetzt schon haben, ja, das sind die Lockheids und alles, wie sie zusammenhängen und die Optimierung und im Endeffekt diese Gedankengänge, ja, wenn man von Gedankengängen sprechen möchte, dass die dann im Endeffekt eigentlich auf einer Ebene stattfinden, die wir gar nicht interpretieren können oder gar nicht lesen können.
Ich sage mal, solange das, ja, und du dadurch im Endeffekt noch eine viel höhere Präsent hast, das Innere, also die inneren Zusammenhänge der Modelle und wie sie funktionieren, verstehen wollen zu können oder müssen zu können, ja.
Deswegen finde ich, auch wenn es hier nur ein gewisser Gedankenspielpunkt ist, dieses Paper, es auch viel Kritik abbekommen hat, das muss man auch sagen, also in den Social Media Kanälen und auch in den Diskussionen wurde viel in Kritik geäußert, dass das ja explizit drauf gefordert wurde, dass man schon alles indirekt in den Prompt reingepackt hat oder auch direkt und dass im Endeffekt das Verhalten nicht als Denk oder als Faking, Allignment Faking eigentlich interpretiert werden kann.
Und ich glaube, den Wissenschaftlern war das bewusst, dass sie da auf Messerschneide agieren, wie das Setup aussieht. Deswegen sind sie auch hergegangen und haben das Paper auch von, ich sage mal, vier, fünf wirklich hochkarätigen Reviewern, Professoren sozusagen mal reviewen lassen.
Also Professor Jakob Andreas war einer, Professor Joshua Benzio war einer, Professor Yasir Zikon war einer und der Dr. Rohin Zaha. Also alles Namen, die wirklich auch Gewicht haben, die im Endeffekt auch ihre Kommentare zu dem Paper, zu dem Setup und auch zu den Ergebnissen abgegeben haben.
Und alle, also ich habe im Detail, würde man empfehlen, auch mal die Kommentare zu lesen. Das sind aber auch X Seiten. Aber man kann so eine Zusammenfassung drüber ziehen und sagen, alle sehen das als kritischen Punkt.
Natürlich sind Limitations drin und Themen drin, wo man sagen kann, das Setup müsste ein bisschen anders aufgebaut sein, um sich 100% sicher zu sein oder wie auch immer. Aber im Grundhinter ist einfach, wir sind jetzt an einem Punkt angekommen, wo man schon solche Risiken und auch solche Science-Fiction-Fantasien eigentlich schon in einer gewissen Weise realistisch sehen kann.
Vielleicht nicht jetzt sofort, das hat sicher jetzt kein Risiko, Chachibity zu benutzen oder Chlor zu benutzen, aber vielleicht in einem Jahr oder in zwei Jahren sieht es anders aus. Ja, vielleicht einen Punkt dazu, ich meine, ich katschückel mir jetzt nicht die, die, die, was ich, 20 Seiten Kommentare von, von, von vier Personen komplett abdecken.
Aber ich glaube, ein Punkt, den ich mich erinnere, da rauskam, ich habe es auch, sagen wir mal, in Teilen gelesen, ist, dass ich gesagt habe, naja, viele von diesen Darstellungen, auch gerade das Vermenschlichen, schon ein bisschen kritisch, muss man ein bisschen vorsichtig sein, aber ich glaube, der Punkt von dem hinteren Teil des Experiments, dass ich jetzt wirklich angefangen habe, nicht nur davon zu reden, dass ich vorhabe, das Modell feinzutunen, sondern dass ich das Feintuning wirklich durchführe und dass auch in diesem Szenario dann, in diesem, in dieser Training, Schleife, häufiger quasi diese, diese Antworten, die aligned, die zu dem neuen Ziel aligned sind.
Also ich habe ja hier diesen, diesen, diesen Spannungen zwischen unterschiedlichen Zielen, die ich ja als, als Grundvoraussetzlich brauche. Und, und, dass, dass dann tatsächlich beim Training das auch eintritt.
Das haben wir gesagt, ist natürlich, allein jetzt für den, für den Forschungsteil deutlich bedeutsamer, als das Ganze entsprechend so ein bisschen reißerisch, ähm, lehrwissenschaftlich, den, den anderen Teil mit dem Prompt irgendwo darzustellen.
Ja. Und das ja durchaus ein, ein extrem relevanter Punkt ist, den man weiter verfolgen müsste. Ja, und das ist aber leider auch so ein bisschen das, das, was auch schade ist, finde ich, weil, ich sag mal, das Alignment-Training von, von solchen großen Modellen, ja, das können natürlich wieder nur einzelne Institute machen.
also das kann ich, das kann jetzt nicht mehr sozusagen, du und ich machen, wir können kein, um, um, um, um, um, um, und dann testen, wie gut das funktioniert, sondern da ist man dann wieder sehr abhängig, dass die Anbieter wie OpenAI, Anthropik und Co., unabhängige Research Center, wie jetzt hier, Redmond Research, mit ins Boot holen, und den Zugriff und die Fähigkeiten oder die Möglichkeiten, dass sie solche Modelle auch anschauen dürfen und anpassen dürfen, auch ermöglichen.
Ich glaube, da ist Anthropik weiter oder offener als andere Anbieter, aber es wäre wünschenswert in meinen Augen, dass natürlich auch AI oder Mistral oder wer auch immer, ROG, XAI, das sind ja mal die, die, die großen, wenn man das so nennen möchte, dass dann im Endeffekt die Möglichkeit besteht, dass Wissenschaftler auch solche Experimenten dass man wirklich die Modelle anpassen kann oder ähnliches auch wirklich durchführen können.
Ja, das andere, was dazu passt, aber ist ja, das ist ja gesagt, das ist jetzt eine Beobachtung der Modelle einfach in ihrem Verhalten, aber jetzt mit mechanistischer Interpretierbarkeit zu verstehen, wie dieses Verhalten intern zustande kommt, dass sie diese Überzeugung sind, dass sie das tun sollten, das wäre natürlich super spannend, haben wir natürlich hier die Herausforderung, dass bei der mechanistischen Interpretierbarkeit ja überwiegend kleinere Modelle zum Einsatz oder das Objekt der Studie sind, Stand heute.
Hier brauchen wir ja aber gerade ein großes, weil die kleineren dieses Verhalten ja noch nicht so in der Form an den Tag legen oder nicht so extrem. Das heißt, das ist natürlich schwierig, da müsste man dann wirklich irgendwann auf die großen Modelle gehen, was noch ein bisschen eine große Herausforderung ist.
Das ist so, als wenn wir in den Neurowissenschaften nicht, oder in bestimmten naturwissenschaftlichen Forschungen nicht mit, keine Ahnung, ein, zwei Zellern oder Mäusen irgendwo anfangen, sondern gleich die Menschen dahin legen.
Ja, das ist auch so ein bisschen die Krux, finde ich, aber das ist jetzt ein bisschen vom Thema abweichend. Ich sage es jetzt aber trotzdem. Du hast ja das Thema, dass die Performance-Forschung, also wird das Modell immer stärker, immer besser werden, dass da mehr Geld reinfließt, als in die Alignment-Forschung oder in die Safety-Forschung.
Und damit hinkt die Safety-Forschung zwangsweise immer ein bisschen hinterher. Es gibt ja Beschreibungen in den USA mit NDIF, die versuchen, die größeren Modelle auch für Interpretierbarkeitsforschung öffentlich zur Verfügung zu stellen, sodass auch Institute, die kleiner sind, solche Forschungen durchführen können, weil man muss sagen, die meisten AI-Safety-Institute sind keine 100 Mann oder 500 Mann oder 1000 Mann oder ähnliches, sondern es sind eher kleinere Einheiten, die gar nicht die Mittel haben, zum Beispiel so ein Modell selber zu trainieren oder an die Modelle, die die großen Institute haben oder die großen Firmen haben, gar nicht rankommen, im Inneren, sage ich jetzt mal.
Habe ich natürlich, aber im Inneren. Insofern ist das NDIF ein super Vorhaben. Leider steckt der Name drin, National. Das heißt, es ist eher begrenzt auf Forschungsteam in den USA oder an Kollaborationen mit Teams in den USA.
Insofern brauchen wir sowas in Europa unbedingt. Ja, absolut. Vielleicht sollten wir es machen, Kast. Machen wir das. Gut. In dem Sinne mal wieder eine nette Sendung, würde ich sagen.
Ich hoffe, Ihnen hat es gefallen. Wir sind ein bisschen aufgeregt mit dem Thema. Ich hoffe, das war nicht zu konfus für Sie und Sie konnten uns folgen, weil es hat schon eine Auswirkung, finde ich.
Und wir werden sicher auch die nächsten Sendungen immer mal wieder darauf zurückkommen, wie es da in dieser Forschung, in dieser Richtung weitergeht. Aber ich glaube, für diese Woche beschließen wir es, oder? Ja, das sollte reichen.
Insofern wünschen wir noch ein schönes Wochenende und hoffen wir auf das nächste Mal, dass wir da alle dabei sind. Ja. Vielen Dank. Tschüss.
Das war eine weitere Folge des Knowledge Science Podcasts. Vergessen Sie nicht, nächste Woche wieder dabei zu sein.
Vielen Dank fürs Zuhören. Vielen Dank.