Wenn KI-Agenten Amok laufen: Hermes, OpenClaw & das Problem der Loops Artwork

HYBRID SYSTEMS - KI bauen im DACH

HYBRID SYSTEMS – Praktischer Aufbau von KI-Systemen im DACH-Raum.
Tutorials, Architekturen und reale Lösungen mit lokalen Modellen, Agenten und hybriden Systemen. Konkret, DSGVO-konform und umsetzbar.

All Episodes

HYBRID SYSTEMS - KI bauen im DACH

Wenn KI-Agenten Amok laufen: Hermes, OpenClaw & das Problem der Loops

May 24, 2026 • Tim Reiz

0:00 | 17:23

Willkommen zu einer neuen Folge von Hybrid Systems! In dieser Episode tauchen wir tief in das derzeit spannendste und am schnellsten wachsende Feld der Softwareentwicklung ein: Agentic Engineering. Während die Tech-Welt im letzten Jahr noch von einfachen Prompt-Antwort-Zyklen fasziniert war, bewegen wir uns jetzt rasant auf eine Welt zu, in der autonome KI-Agenten komplexe, mehrstufige Aufgaben völlig selbstständig lösen. Doch wie baut man solche Systeme stabil auf, welche Open-Source-Werkzeuge dominieren den Markt und – vor allem – wo liegen die massiven Stolpersteine und Risiken im produktiven Einsatz?

Wir starten die Diskussion mit einem Blick auf die aktuellen technologischen Treiber des Agentic Engineering. Ein zentraler Akteur in diesem Ökosystem ist Hermes, ein hochentwickeltes Open-Source-Modell, das speziell für das Befolgen komplexer Anweisungen und die Ausführung von Funktionsaufrufen (Function Calling) optimiert wurde. Wir beleuchten, warum Modelle wie Hermes das Rückgrat moderner Agenten-Architekturen bilden: Sie müssen nicht nur "klug" sein, sondern in Bruchteilen von Sekunden entscheiden, welches Tool sie als nächstes ansteuern, um ein Ziel zu erreichen.

Ergänzend dazu werfen wir einen genauen Blick auf OpenClaw, ein mächtiges Open-Source-Framework, das Entwicklern die Infrastruktur an die Hand gibt, um solche Agenten überhaupt erst zu orchestrieren. OpenClaw fungiert quasi als das Nervensystem, das die Verbindung zwischen dem LLM, den APIs, den Speichersystemen (Memory) und den Ausführungsumgebungen herstellt. Wir besprechen, wie OpenClaw den Entwicklungsprozess demokratisiert, indem es eine flexible und transparente Alternative zu proprietären Plattformen bietet, und warum die Kombination aus Hermes und OpenClaw aktuell ein absolutes Power-Duo für Entwickler darstellt.

Doch bei Hybrid Systems wollen wir nicht nur den Hype abfeiern. Der Kern unserer heutigen Folge widmet sich den realen, oft frustrierenden Problemen, die beim Agentic Engineering in der Praxis auftreten. Denn so faszinierend die Autonomie von Agenten auf dem Papier ist, so chaotisch kann sie in der Realität werden.

Wir analysieren die größten Pain Points, mit denen Engineers weltweit kämpfen:

Unendliche Schleifen (Infinite Loops): Was passiert, wenn ein Agent in einer Feedback-Schleife stecken bleibt? Er versucht ein Problem zu lösen, scheitert, modifiziert den Ansatz minimal, scheitert erneut und wiederholt diesen Prozess endlos. Das ist nicht nur ineffizient, sondern kann durch den massiven Token-Verbrauch innerhalb kürzester Zeit immense API-Kosten verursachen.
Der Kaskaden-Effekt (Cascading Errors): Wenn ein Agent eine Kette von zehn Entscheidungen treffen muss, reicht ein einziger kleiner Halluzinationsfehler bei Schritt zwei aus, um das gesamte Endergebnis komplett zu verfälschen. Wie betreibt man Debugging in einem System, dessen Entscheidungspfade nicht deterministisch sind?
State Management und Memory-Verlust: Agenten müssen sich über lange Konventionen hinweg merken, was sie getan haben. Wenn der Kontext bricht oder das Memory-Modul irrelevante Informationen hochgewichtet, verliert der Agent den roten Faden.
Sicherheitsrisiken und Prompt Injection: Ein autonomer Agent hat Zugriff auf Tools – er kann Mails schreiben, Datenbanken abfragen oder Code ausführen. Wir diskutieren das Albtraum-Szenario: Was passiert, wenn der Agent durch externe Daten (z. B. eine präparierte Website) manipuliert wird und plötzlich Befehle gegen die eigene Infrastruktur ausführt?
Das Evaluierungs-Dilemma: Wie testet man Software, die sich jedes Mal anders verhält? Traditionelles Unit-Testing versagt beim Agentic Engineering. Wir sprechen über die Herausforderung, verlässliche Leitplanken (Guardrails) zu bauen, ohne die Kreativität und Problemlösungskompetenz des Agenten komplett zu ersticken.

Egal, ob ihr selbst schon Agenten mit OpenClaw baut oder einfach verstehen wollt, wohin sich die Schnittstelle zwischen Mensch und Maschine entwickelt: Diese Folge liefert euch den ungeschönten Realitätscheck zum Thema Agentic Engineering. Schnallt euch an, es wird technisch, kritisch und tiefgründig!

SPEAKER_02 0:00

Willkommen bei Hybrid Systems, dem Podcast, in dem wir KI wirklich bauen. Wir arbeiten mit dem Dach-System. Denken, Anwenden, coden und handeln.

SPEAKER_00 0:29

Hallo, liebe Zuhörer von Hybrid Systems. Nun eine neue Folge in Bezug heute auf die Themen, die wir schon hatten und die Probleme, die wir schon hatten, in Bezug auf KI und Agents der verschiedensten Art. Hallo Tim, vielleicht erklärst du einfach mal, warum bist du zum Beispiel von Klobot auf Hermes umgestiegen? Da gab es sicher Probleme, die du hattest mit Klorbot und die du mit Hermes zum Beispiel nicht mehr hattest, oder?

SPEAKER_01 1:11

Ja, hallo Klaus, das ist richtig. Also, wir hatten am Anfang, war ja Klobot ganz neu, da war das ja auch so der einzige Agent, den man wirklich nutzen konnte. Das war im Prinzip der erste, der öffentlich zugänglich war, hat auch super funktioniert. Also wir waren ja jeden Tag wirklich begeistert und dann ging es immer weiter. Man hat immer neue Features gefunden und das war echt super. Und man ist auch irgendwann an die Grenzen gekommen. Das heißt, gerade wenn man jetzt zum Beispiel eine längere Pause hatte oder einfach am nächsten Tag weitermachen wollte in seinem Projekt oder in seinem Thema, dann hat der Agent gar nicht mehr richtig gewusst, wo sind wir gerade. Also das war ein ganz, ganz großes Problem. Das funktioniert bei Hermes um einiges besser, aber selbst auch bei Hermes gibt es immer noch Themen, Probleme, wo wir noch nicht so wirklich den Draht raus haben, dass er das wirklich auch sauber macht. Insbesondere bei großen Projekten, wo es ja wirklich um teilweise bis zu 16, 18 Servern parallel geht, die für ein Projekt relevant sind. Das ist alles noch eine Entwicklungsphase, also da ist noch nichts online in Anführungszeichen. Aber da merken wir schon, da kommt er an seine Grenzen. Der Kontext ist zu groß, ist aber auch verständlich. Und er wird dadurch langsamer, wird ungenauer verwechselt, auch teilweise Server und halluziniert, fängt an zu halluzinieren. Das war das große Thema, was wir bei OpenClore hatten. Er hat ja sehr, sehr oft halluziniert, aber das merken wir jetzt so bei größeren Projekten mit Hermes auch, dass das der Fall ist.

SPEAKER_00 2:50

Tim, vielleicht nochmal eine Nachfrage diesbezüglich Projekt. Meinst du an der Stelle Programmierprojekt für ein größeres System, was du baust? Und ich kenne das ja auch an der Stelle, dass ich mehrere Server hatte und die miteinander korrespondieren sollten. Und auf einmal waren die kompletten Daten oder die Sachen fingen wieder von Neuem an. Und das ist für mich die Art der Halluzinationen gewesen, die für mich die größten Schwierigkeiten seien. War das ungefähr bei dir genauso? Oder kannst du da vielleicht nochmal im Detail etwas genauer hingehen?

SPEAKER_01 3:31

Ja, ich meine, man muss unterscheiden, wenn wir jetzt mit so einem Agenten arbeiten, das kommt immer darauf an, was für einen Zusammenhang. Wir haben das ja schon mal getestet, Klaus, auf einem Server so ein reines Vibe-Coding-Projekt zu machen, dass man wirklich hingeht und sagt, wir richten ein Mac Mini ein, Telegramm kommt drauf, Hermes wird installiert und keiner sieht, was da passiert. Also das Einzige, was wir machen, wir geben dem nur Aufgaben über Telegram und gucken dann im Prinzip auf der Domain, ob er das erledigt hat und daraus ist dann ein Projekt zum Beispiel gewachsen. Das ist aber eher ein kleines Projekt in Anführungszeichen. Es ist eine Seite auf einem Server, das war's. Konkret arbeiten wir jetzt schon seit mehreren Monaten an einem relativ großen Projekt. Da geht es, wie gesagt, um eine große Anzahl an Servern, wo wir verschiedene Datenbanken haben, wo wir verschiedene Schnittstellen haben, die miteinander kommunizieren müssen. Wir haben auch separate große LLM-Server, also Server, wo auch eine Grafikkarte vorhanden ist, damit wir da im Prinzip Workflows abbilden können. Und das ist aber wieder, wie gesagt, auch ein anderer Anwendungsfall. Also das ist jetzt nicht so, dass ich jetzt nur über Telegram sage, was hier passieren soll, sondern wir haben wirklich fünf bis sechs Leute, die in dem Projekt unterwegs sind, die das auch selber noch programmieren. Der eine macht mehr Frontend, Backend, einer kümmert sich nur um die ganze Schnittstellen thematisch, weil es doch sehr, sehr, sehr komplex geworden ist. Und da nutzen wir eigentlich Hermes als Unterstützung. Das heißt, wir haben da im Prinzip auf jedem Server einen Agent-User hinterlegt. Das ist dann mit begrenzten Möglichkeiten für den Bot, für den Hermes-Bot. Und der macht eigentlich nur Monitoring und gleicht zum Beispiel auch nochmal die API-Schnittstellenthematik ab, dass wir da keine Fehler machen. Aber da merken wir halt einfach schon, je nach Aufgabenzweck oder je nach Fragestellung, dass er manchmal wirklich auch durcheinander kommt, dass er ja wir haben Gronjobs zum Beispiel laufen, dass er immer guckt, ob die Ports entsprechend so sind, wie sie sein sollten, dass sich da nichts geändert hat, ob es irgendwelche Updates gibt, die möglich sind oder Verbesserungen. Auch auch für ihn selber als Hermes Agent gibt es ja auch fast täglich Updates. Und wir hatten das letztens, da haben wir ihm eine Frage gestellt bezüglich einer API-Schnittstelle und dann hat er die ganze Zeit angefangen, seine Konjobs anzupassen. Das hat er komplett halluziniert. Und das kommt halt, wie gesagt, auch davon, dass einfach zu viel ist. Es ist zu viel Input. Das Projekt ist tatsächlich auch relativ groß. Also wir reden hier wirklich von großen Datenmengen, von ganz, ganz vielen Seiten, verschiedenen Datenbanken und das kann er da nicht mehr verarbeiten.

SPEAKER_00 6:37

Was war das größte Problem, was beim Halluzinieren passiert ist? Man hört ja immer wieder, dass selbst die größten Mitarbeiter, CEOs oder COOs der großen KI-Firmen Probleme hatten mit Klobot oder mit Hermes, dass sie komplette Datenbanken gelöscht haben. Ist das bei uns oder bei euch auch passiert, Tim?

SPEAKER_01 7:07

Nein, das tatsächlich nicht, wobei wir da ja auch einen anderen Ansatz erfolgen. Also, das habe ich bisher auch noch nicht gemacht, das werde ich auch nicht machen. Hier jetzt auf meinem Daily-Gerät oder meinen Daily-Geräten, egal ob jetzt macOS oder auf Windows, fange ich jetzt nicht an, Hermes zu installieren und zu sagen, so jetzt kannst du mir mal helfen mit meinen E-Mails und das fangen wir gar nicht erst an. Da haben wir auch schon oft was zu gesagt. Und auch bei den Projekten ist es ja auch so, dass wir keinen, ja, wie soll ich das sagen, der Bot bekommt keine Admin-Rechte. Ja, weder auf GitHub noch auf die Server. Also das ist immer sehr begrenzt und wir versuchen da auch immer nur die Aufgaben so zu gestalten für ihn, dass er eigentlich nicht halluzinieren sollte. Was wir aber festgestellt haben, ist einfach die Thematik, wenn wir zum Beispiel einen Prozess haben oder einen Workflow haben, der gestern funktioniert hat, dann versuchen wir über den Bot ein anderes Problem zu lösen und auf einmal funktioniert der Workflow nicht mehr. Das ist auch schon vorgekommen, dass er dann halt halluziniert, irgendwas anders macht, falsch macht und dadurch dann wieder gewisse Dinge nicht mehr funktionieren.

SPEAKER_00 8:25

Ja, das kann ich gut nachvollziehen mit dem Nicht-Funktionieren, wo vielleicht noch einen kleinen Hinweis für die Zuhörer insgesamt, wo ich zum Beispiel auch ein Thema mit hatte, Tim, du kannst gleich nochmal etwas dazu sagen, ist eigentlich, dass bei mir auf einmal da wo Hermes installiert war oder auch Chlorboard installiert ist, dass auf einmal der Rechner, er hat dann 128, 256 GB Speicherkapazität auf dem System als Festplatte, dass es auf einmal vollgelaufen ist. Und an der Stelle ist es so passiert, dass Hermes einfach so viel gelockt hat, dass er immer wieder die gleichen Loks gemacht hat und die Logdatei auf einmal 400 Megabyte groß war auf einem McMini, der 512 GB Arbeitsplatz hatte. Und irgendwann ist es soweit passiert, dass quasi meine Telegram-Schnittstelle, meine direkte Schnittstelle der Bot nicht mehr antworten konnte, sodass ich mich einloggen musste und diese Datei erstmal verkleinern musste. Hinterher war es so, dass man durch einen bestimmten Befehl auch sagen konnte, okay, man verkleinert auf jeden Fall die Logdatei und lässt die Größe einfach nicht größer zu als ein paar Megabyte oder 30 Megabyte, aber niemals, dass man in den Gigabyte-Bereich kommt, sodass er sich zuziehen kann an der Stelle. Tim, hast du ähnliche Szenarien an der Stelle erlebt?

SPEAKER_01 10:08

Also tatsächlich, ich meine, wir haben schon drüber gesprochen, tatsächlich in dem Umfang jetzt nicht. Ich weiß, dass beim Einrichten, wir haben mal den Versuch gemacht, zwei McMinis gleichzeitig einzurichten mit den gleichen Befehlen. Tatsächlich, ich weiß nicht, woran es lag, hat der eine besser funktioniert wie der andere. Das fand ich total faszinierend, weil der Einrichtungsprozess war gleich, das Sprachmodell war gleich, wir hatten die, ich sage jetzt mal einfach die Soul und auch die ganzen Grundjobs, die täglich passieren sollen, haben wir eins zu eins gleich eingestellt und trotzdem hast du nach ein, zwei Tagen gemerkt, okay, der eine macht weniger Fehler, der andere macht mehr Fehler. Das war total interessant, aber wie gesagt, das Thema, was du jetzt beschrieben hast, habe ich auch schon oft gehört. Darüber haben wir auch schon drüber gesprochen. Ist mir selber aber bisher noch nicht passiert, dass ich jetzt hier den HDD- oder SSD-Speicher da voll gemacht habe oder der Bot sich das selber voll gemacht hat. Aber ist auf jeden Fall sehr spannend. Ich meine, gerade das ist auch relevant, wenn man es einrichtet, dass man ihm den richtigen Input gibt, dass er da nicht halluziniert oder zu große Dateien schreibt, wie du es gerade gesagt hast.

SPEAKER_00 11:33

Das heißt, das, was auf jeden Fall wichtig ist, den Bot zu beschränken, egal ob es Logdateien sind, ob es andere Dateien sind, die auf einmal exorbitant groß werden. Das ist schon mal eine wichtige Erkenntnis, die wir insgesamt gewonnen haben, denke ich mal. Vielleicht nochmal zu dem weiteren Thema, dieses Halt, du hast gerade von Soul-Datei gesprochen. Soul-Datei ist ja das Gedächtnis des Bots, des Hermes-Bots. Soul MD heißt sie, glaube ich. Und das zweite ist eine Skill-Datei, die da ist. Wenn man diese Soul-Dateien und die Skill-Dateien nicht speichert oder regelmäßig speichert, kann es natürlich sein, dass der Bot dann oder der Agent in die falsche Richtung läuft. Wie verhinderst du das, Tim, an der Stelle?

SPEAKER_01 12:38

Ja, das mache ich eigentlich immer beim Einrichten. Also das ist das Erste, was ich mache, bevor der irgendeine Aufgabe bekommt, versuche ich ihm so ein bisschen in Charakter zu geben mit dieser Soul-Datei, da sage ich ihm, hey, ich möchte kurze Antworten, ich möchte präzise Antworten. Andererseits gibt es natürlich auch Bots, die wir sehr kreativ einstellen wollen. Kreativ in Anführungszeichen, es ist immer noch ein Computer und auch was auch in einem Sprachmodell basiert. Aber das macht schon einen Unterschied und das haben wir auch im Alltag gemerkt, weil wenn man da manchmal so zum Schmunzeln kommt, weil da wirklich eine Antwort kommt, mit der man nicht rechnet, wenn er da auch einfach die richtigen Emojis verwendet, macht das manchmal einfach mehr Spaß. Das ist so, wie gesagt, dieses dem Bot einen Charakter geben. Und gleichzeitig, wie du schon gesagt hast, das Thema Skills. Also da muss man sehr, sehr viel mitarbeiten, weil damit schafft man auch eine Lösung für das Kontextproblem, temporär zumindest. Dass man, wie gesagt, für wiederkehrende Themen, Aufgaben, Skills einrichtet, weil dadurch reduziere ich den Kontext.

SPEAKER_00 13:53

Das ist schon mal ein sehr guter Hinweis, dem wir haben. Also, wie können wir die Kontextlänge immer wieder erweitern, gerade bei großen Projekten? Das ist ja ein riesen, riesenthema. Wir haben ja unterschiedlichste Verfahren dabei, dass man einfach der Bot versucht am Ende, wenn er sagt, okay, ich kann nicht mehr, mein Memory-Speicher ist quasi gerade groß, zeigt er ja immer wieder, dass er kleiner wird. Er komprimiert die ganzen Daten und so weiter. Und man kann ja solche Sachen machen wie sagen, okay, du bist das und das Projekt an der Stelle, du hast die und die Skills. Und schau dir das nochmal an oder fasse es nochmal zusammen, um von einem Bereich des Kontexts, wenn er wirklich sagt, okay, jetzt bin ich aber voll und jetzt schalte ich um in den nächsten Memory-Bereich, dass er diese Informationen wieder zurücknimmt. Wo sind da deine Erfahrungen gewesen, gerade bei den großen Projekten? Wie kannst du es bewerkstelligen, dass bestimmte Informationen aus dem alten Gedächtnis ins neue Gedächtnis mit übergehen?

SPEAKER_01 15:15

Also, das ist halt auch immer so, desto kleiner die Projekte sind, desto einfacher ist das, was wir auch schon getestet haben bei Großprojekten. Und da geht es auch gar nicht mal ums Programmieren. Also der Bot muss da jetzt nicht wirklich groß programmieren, sondern wie gesagt unterstützend da sein für Schnittstellenthematiken. Zum Beispiel, da haben wir auch zum Beispiel mal ein Reset durchgeführt, also dass du sagst, okay, ich will den Kontext einmal resetten und wenn ich ihm dann sage, so lies mal deine ganzen Logdateien durch, damit du dich mit dem Projekt vertraut machst, dann bin ich wieder am gleichen Punkt. Also da ist der Kontext dann wieder zu voll. Da bleibt eigentlich nichts anderes übrig, wie zu sagen, okay, ich mach den Reset, dass der Bot sozusagen nochmal neu startet. Die ganzen Skills und auch die ganzen Soul und auch die ganzen Logdateien sind alle vorhanden. Aber ich sage ihm nicht so, liest die jetzt erstmal alles durch, sondern ich sage ihm nochmal komplett, wie wenn er jetzt frisch oder neu dabei wäre, hier, du hast auf D und D-Server SSR-Zugriff, mach mal bitte das und das. Das ist so das Einzige, was ich flüssig hinbekommen habe, dass es funktioniert. Natürlich kann man komprimieren, aber du kommst irgendwann an den Punkt, je nach Größe des Projektes, dass er bei jeder Frage anfängt zu komprimieren. Weil, ja, bildlich gesehen, du kannst das ja nicht, es wächst ja immer weiter. Du komprimierst, es wächst, du komprimierst es wächst. Also das ist so ein Rattenschwanz und irgendwann ist der einfach zu groß von der Dateigröße her, dass er nur noch am Komprimieren ist.

SPEAKER_00 17:03

Ja, danke, Tim, für die ausführlichen Antworten und unsere Probleme, die wir haben, die ich hatte, die du hattest mit deinem Team zusammen. Und ich bedanke mich bei unseren Zuhörern fürs Zuhören und bis zum nächsten Mal. Dankeschön. Bis dann. Ciao.