Wenn KI sich selber verbessert - der Wendepunkt den gerade niemand richtig versteht Artwork

HYBRID SYSTEMS - KI bauen im DACH

HYBRID SYSTEMS – Praktischer Aufbau von KI-Systemen im DACH-Raum.
Tutorials, Architekturen und reale Lösungen mit lokalen Modellen, Agenten und hybriden Systemen. Konkret, DSGVO-konform und umsetzbar.

All Episodes

HYBRID SYSTEMS - KI bauen im DACH

Wenn KI sich selber verbessert - der Wendepunkt den gerade niemand richtig versteht

April 14, 2026 • Tim Reiz

0:00 | 12:37

Was passiert, wenn KI nicht mehr nur auf Befehle reagiert, sondern sich selbstständig weiterentwickelt?

In dieser Folge sprechen wir über den vielleicht wichtigsten Wendepunkt in der Geschichte der Künstlichen Intelligenz: den Moment, in dem Systeme beginnen, sich selbst zu verbessern – schneller, smarter und ohne menschliche Kontrolle.

Wir beleuchten, warum dieser Punkt gerade jetzt näher rückt, welche Technologien (wie Agenten, Recursive Self-Improvement oder fortschrittliche LLM-Architekturen) ihn ermöglichen und welche enormen Chancen, aber auch Risiken damit verbunden sind.

Ein tiefgehendes, ehrliches Gespräch darüber, warum dieser Wendepunkt von vielen noch unterschätzt wird – und was das für uns als Gesellschaft, Wirtschaft und Individuen bedeuten könnte.

SPEAKER_00 0:00

Willkommen bei Hybrid Systems, dem Podcast, in dem wir KI wirklich bauen.

SPEAKER_01 0:06

Wir arbeiten mit dem Dach-System. Denken, Anwenden, Coden und Handeln.

SPEAKER_00 0:27

Liebe Zuhörer, willkommen bei einer neuen Episode von Hybrid System. Heute ein Thema, was uns alle beschäftigt. Stell dir vor, du nutzt seine KI und am nächsten Tag ist sie besser. Am dritten Tag ist sie noch viel, viel besser. Und nach einer Woche merkst du, du hast ihr nichts mehr beigebracht. Sie verbessert sich komplett selbstständig.

SPEAKER_01 0:55

Ja, Klaus, das hört sich eigentlich zu schön, um wahr zu sein an.

SPEAKER_00 0:58

Und das ist der Moment, wo es ein bisschen unheimlich wird. Dass es eigentlich so ist, dass KI-Systeme immer mehr lernen, um sich selber zu verbessern, ohne dass wir als Menschen etwas zutun. Was hat sich konkret verändert? KI gibt es ja schon super lange.

SPEAKER_01 1:17

Naja, der große Wechsel, der große Shift, der passiert gerade bei drei Dingen. Wir haben einmal das Thema Agentensysteme, da haben wir ja auch schon viel drüber gesprochen. Das ist zum Beispiel bei OpenAI gibt es den Operator oder Operator-Ansätze oder Auto-GPT-Nachfolger. Dann haben wir Self-Improvement Groups, also dieses typische Modelle generieren eigene Trainingsdaten und dann als dritten Punkt nochmal das Tool-Use und Feedback-System. Das heißt, die KI bewährt selbstständig ihre eigenen Ergebnisse.

SPEAKER_00 1:49

Also KI arbeitet nicht mehr nur, sie verbessert sich.

SPEAKER_01 1:53

Genau, so soll es sein und das ist das was Neues.

SPEAKER_00 1:56

Das klingt total nach Science Fiction. Gab es sowas schon mal?

SPEAKER_01 2:02

Ja, das gibt es schon und zwar viel früher als die meisten denken. Es gab 2016 mit AlphaGo schon etwas. Da war nicht der Sieg entscheidet, sondern das Training danach. Es gab AlphaGo Zero, es war komplett ohne menschliche Daten. Das heißt, das Programm hat nur gewusst, wie das Spiel funktioniert und hat durch selbstständiges Spielen gegen sich selber gelernt.

SPEAKER_00 2:27

Also es hat komplett gegen sich selber gespielt, Millionen Mal, und dabei hat es Züge entdeckt, die kein Mensch kannte. Und das ist das Faszinierende, was wir aktuell haben oder damals schon hatten, dass es ein Spiel war, was so komplex ist, dass die damalige KI das Ganze schon auseinandernehmen konnte und durch das Spielen mit sich selber einfach besser wurde. Okay, aber das war nur ein Spiel. Was ist heute anders?

SPEAKER_01 2:59

Na Klaus, heute passiert das in realen Anwendungen. Also gibt es auch verschiedene Beispiele. Bei Coding Agents zum Beispiel, die KI schreibt den Code, die führt den Test aus und verbessert sich iterativ. Dann haben wir die Reasoning-Modelle. Die Modelle stellen sich selber Aufgaben, prüfen Lösungen und optimieren die Antworten. Und bei Synthetic Data, da ist es eigentlich so, dass die KI selber sich Trainingsdaten erzeugt, statt dass sie überhaupt von einem Menschen die bekommen. Das sieht man dann auch aktuell bei OpenAI, bei DeepMind oder auch bei Nvidia. Das heißt, die KI baut ihre eigene Schule. Absolut, exakt.

SPEAKER_00 3:42

Erklär mir das mal einmal ganz simpel, Tim, bitte.

SPEAKER_01 3:46

Du hast eigentlich drei Rollen. Es ist einmal, es wird generiert im Generator, das heißt, der Output wird erzeugt, der Text, Code, Ideen, wie auch immer das man nennen möchte oder was man als Ziel verfolgt, dann gibt es den Kritiker sozusagen, der bewertet das Ganze und dann gibt es auch mal einen Verbesserer, der optimiert das Ganze. Und dann läuft dieser Loop im Prinzip generieren, bewerten, verbessern, wiederholen. Und das wiederholt sich dann die ganze Zeit. Und dadurch versucht die KI auch, ohne dass es menschlichen Zutun kriegt, ganz andere Denkansätze zu verfolgen, an die wir Menschen gar nicht denken können.

SPEAKER_00 4:25

Das heißt, der Mensch ist eigentlich komplett irgendwann raus. Es ist richtig.

SPEAKER_01 4:31

Teilweise ja, komplett ohne oder mit minimal Eingriffen. Was jetzt aber nicht heißt, dass es den Menschen ersetzt, sondern die Problemlösung in gewissen Bereichen und das, wo wirklich viel Testing notwendig ist, wo wirklich viel Übung notwendig ist, wo man verschiedenste Sachen ausprobieren muss, da lohnt sich das Ganze da.

SPEAKER_00 4:52

Warum ist das so ein großer Deal?

SPEAKER_01 4:54

Weil du einen Engpass entfernst. Den Menschen im Lernprozess. Das bedeutet, wir haben schnellere Iterationen, wir haben niedrigere Kosten und wir haben kontinuierliches Lernen. Und daraus entsteht dann das so sogenannte Lern-Flywheel.

SPEAKER_00 5:09

Also der Fortschritt beschleunigt sich selbst.

SPEAKER_01 5:13

Genau.

SPEAKER_00 5:16

Okay. Können wir doch mal noch ein anderes Beispiel nehmen, damit unsere Zuhörer das vielleicht nochmal ein bisschen besser verstehen? Viele Zuhörer sind ja zum Beispiel auch, wie wir es in der letzten Folge mal dargestellt haben, haben wir zum Beispiel den Cyber Security Gedanken. Können wir den vielleicht nochmal nehmen, um unseren Zuhörern das Ganze noch ein bisschen plastischer zu generieren, Themen?

SPEAKER_01 5:45

Ja, das können wir machen. Also es ist eigentlich so, man könnte sich das so vorstellen, ich habe jetzt meine firmeneigene IT-Umgebung, ja, und habe Server zum Beispiel, die ich betreibe, auf denen meine Daten gespeichert sind und so weiter und könnte dann eine KI einsetzen, was die Aufgabe bekommt, diesen Server anzugreifen. Das gibt es heute auch schon. Das ist auch ein sehr, sehr interessantes Thema und dadurch habe ich einfach auch die Möglichkeit zu sehen, okay, wo sind meine Schwachstellen, wo habe ich meine Probleme und wie kann ich das Ganze optimieren. Also es geht jetzt nicht darum, das Ziel ist nicht alle Server lahmzulegen, sondern einfach nur dieses, ich komme in den Server rein, ich kann die Firewall umgehen, ich finde Möglichkeiten, wie ich in das System eindringen kann. Und dadurch, dass ich diese Möglichkeiten finde, kann ich sie im Umkehrschluss auch wieder schließen.

SPEAKER_00 6:41

Das heißt, du hast im Endeffekt zwei Agenten oder zwei KIs, die gegeneinander arbeiten. Also im Endeffekt immer derjenige, der defensiv arbeitet und der andere, der offensiv arbeitet. Der eine versucht, Lücken zu finden und der andere versucht sie zu schließen. Korrekt?

SPEAKER_01 7:00

Genau, das wäre so der Optimalfall. Ich kann aber natürlich auch hingehen und sagen, ich habe jetzt nur einen, der angreift, um meine Lücken zu finden. Oder ich habe nur einen, der verteidigt. Das heißt, wenn ich wirklich dieses Problem habe, dass ich permanentes Monitoring einsetzen kann, dass ich permanent sagen kann, okay, Monitor alles, was auf dem Server passiert, jeden Versuch, sich anzumelden, jeden vielgeschlagenen Versuch und auch jeden Daten ein- und ausgang, um da Schwachstellen zu finden, um diese zu analysieren.

SPEAKER_00 7:34

Aber dieses Lern-Flywheel wird ja nur dadurch passieren, dass man quasi Angriffe und Verteidigungen oder entsprechend sich Sachen ausdenkt, simuliert häufig oder aus realen Materialien nimmt und weitere Angriffe versucht zu bekommen. Richtig?

SPEAKER_01 7:55

Genau, das ist richtig.

SPEAKER_00 7:58

Wie sieht es denn aus? Das klingt eigentlich viel zu gut. Und wo ist der Haken aktuell?

SPEAKER_01 8:06

Also der große kritische Punkt ist eigentlich immer die Bewertung. Das heißt, wenn der Kritiker in dem Fall falsch liegt, dann würde sich das System in die falsche Richtung verbessern. Das heißt, die KI optimiert sich dann selber auf falsche Ziele, verstärkt eventuell auch Fehler und wird dann selbstbewusst falsch, könnte man sagen. Das ist dann auch wieder so eine Schleife und dann habe ich dieses typische Error Amplification und das will ich ja eigentlich nicht.

SPEAKER_00 8:33

Das ist im Endeffekt so, wie bei einem Lernprozess von einer KI man dann irgendwo gefangen ist, wie man das in den 90ern hat, dass die KI etwas auswendig lernt und dann quasi in dieser Kostfunktion in einem Minimum vorhanden ist und da nicht mehr rauskommt. Das heißt, der Kritiker hat sich dort verfangen im Endeffekt. Also kann man das so vielleicht interpretieren.

SPEAKER_01 9:02

Ja, genau, also eigentlich wie wenn ich permanent in die falsche Richtung laufe, weil ich das Ziel aus den Augen verloren habe, weil ich einfach mich in die falsche Richtung bewegt habe.

SPEAKER_00 9:14

Das heißt, im Endeffekt, die KI optimiert sich auf die falschen Ziele, verstärkt Fehler, wird selbstbewusst falsch, was wir ja häufig haben, dass eine KI sagt, nö, das ist einfach so, Behauptungen aufschließt, ohne dass es irgendwo nochmal kontrolliert wird. Also auch der Kritiker kann dieses Problem haben, korrekt? Noch einmal zusammengefasst. Es ist so, dass man im Endeffekt mindestens zwei Agenten braucht, die gegeneinander. Der eine entwickelt etwas, der andere kritisiert die Entwicklung und somit eine entsprechende Schleife definiert. Was bedeutet das langfristig?

SPEAKER_01 10:02

Naja, langfristig heißt das im Prinzip, wir bewegen uns von den jetzigen Tools hin zu Agenten bis hin zu selbstlernenden Systemen. Wenn man das jetzt wirklich ganz langfristig betrachtet, vielleicht irgendwann zu einer KI, die wirklich auch unabhängig von uns lernen kann.

SPEAKER_00 10:18

Also sich immer besser verbessert an der Stelle. Das ist ein spannendes Thema und ich denke, dieses Thema werden wir noch in einigen Folgen weiter im Detail betrachten. Wir werden auch nochmal versuchen, das Ganze anhand eines Videos zu zeigen, wie wir zwei KI-Systeme benutzen, um den Kritiker und den Entwickler zu haben, oder vielleicht noch weitere Personen. Tim. Oder wie siehst du das? Weil ich denke mal, unsere Podcast-Hörer wollen natürlich nochmal genau sehen, wie sowas in die Praxis umgesetzt wird. Und wir haben selber beide die Erfahrung gemacht, dass genau das auch das größte Thema ist, was wir im Moment angehen werden und angehen müssen. Dass man die KI nicht in eine Endlosschleife bekommt, wo sie nicht mehr rauskommt, sondern durch verschiedene Systeme sich im Prinzip befruchtet und weiterlernt.

SPEAKER_01 11:26

Ja, absolut, Klaus. Also das ist auch der springende Punkt und das ist auch meiner Meinung nach das, wo sich das Ganze hin entwickeln wird und wo gerade auch viele daran arbeiten, dass man wirklich auch an diesem Punkt angelangt, damit man diesen Lerneffekt hat. Weil den haben wir aktuell meistens nicht. Das ist sehr, sehr komplex, das umzusetzen und dann auch immer nicht so, wie wir uns das vorstellen, wie wir uns das gerne einstellen würden, um das mal so zu sagen. Da sind wir aber noch nicht so weit, aber das wird in naher Zukunft soweit sein und ich glaube, da wird dann noch einiges passieren, so wie du es gesagt hast.

SPEAKER_00 12:06

Das heißt, wir werden weiterhin experimentieren, werden die Zuhörer mitnehmen, auf diesen Weg dort ein optimiertes System zu haben, was vielleicht über Stunden oder über Tage ohne viele Rückfragen an den Menschen sich weiterentwickelt.

SPEAKER_02 12:26

Genau.

SPEAKER_00 12:28

Ja, das war ein gutes Schlusswort, liebe Zuhörer, und danke fürs Zuhören und bis zum nächsten Mal.