Digitale Wissensbissen - gelungene Software-Projekte, wirksame KI, zukunftsfähige Architekturen

KI Konkret: Compliance-Prozesse – automatisiert mit LLMs & Co.

Johannes Stiehler Season 1 Episode 9

200-seitige Compliance-Fragebögen, drei Wochen später derselbe Bogen mit anderen Formulierungen – und immer wieder Senior-Mitarbeiter, die als teure Copy-Paste-Maschinen fungieren. In dieser Episode zeigen wir an einem konkreten Kundenprojekt, wie KI-gestützte Automatisierung dieses Problem löst – ohne den Menschen aus der Verantwortung zu nehmen.

Wir sprechen über: Warum "einfach ChatGPT draufwerfen" in Compliance-Kontexten scheitert. Wie Retrieval Augmented Generation (RAG) und Semantic Embeddings zusammenspielen, um relevante Dokumentenpassagen in Sekunden zu finden. Warum der Human-in-the-Loop-Ansatz keine Notlösung ist, sondern die einzig sinnvolle Architektur für auditierfähige Systeme. Und weshalb die unglamourösen Komponenten – OCR, Dokumentenstrukturierung, Antwortspeicher – oft den Unterschied zwischen Demo und Produktion machen.

Ein Praxisbericht für alle, die Compliance-Prozesse digitalisieren wollen, KI-Projekte jenseits des Hypes planen oder verstehen möchten, wie man Large Language Models in regulierten Umgebungen sinnvoll einsetzt.

In Deutschland beschweren wir uns ja gern mal darüber, welchen Regularien und Compliance-Regeln wir unterworfen sind, vom Großkonzern bis zum kleinen Betrieb. Das möchte ich heute nicht tun, sondern im Gegenteil möchte ich darüber reden, wie wir dieses Problem angehen können, beziehungsweise wie wir es zusammen mit einem Klienten von uns angegangen sind und wie wir dem geholfen haben, eine Software an den Markt zu bringen. die tatsächlich das Compliance-Problem für viele Firmen sehr, sehr stark entschärft, die besonders den Prozess, compliant zu sein, mit Hilfe von KI auf auf ein Minimum reduziert und damit hilft, mit einem Problem umzugehen, das wir letzten Endes alle haben. Ich meine, ich weiß nicht jetzt nicht, wer von meinen Zuhörern schon mal einen 200-seitigen Compliance-Fragebogen ausgefüllt hat. Das ist kein Vergnügen. Noch viel weniger wird es ein Vergnügen, wenn man drei Wochen später denselben Compliance-Bogen nochmal kriegt, nur mit minimal anders formulierten Fragen. Weil letzten Endes passiert genau das. Ganz häufig, verschiedene Behörden wollen verschiedene Informationen von einem Wissen. Am Ende stellt man fest. Die Überschneidung ist enorm, aber man muss sich dann auch mit jedem Einzelnen dieser Fragen und dieser Fragebögen auseinandersetzen. Man muss sich mit dem Auditierungsprozess auseinandersetzen, man muss sich mit den Richtlinien zur Beantwortung von den entsprechenden Fragen auseinandersetzen. Permanent einen relativ hohen Aufwand, so eine Art Grundrauschen des Verderbens, um den Compliance-Ansprüchen Rechnung zu tragen. Das Absurde ist, jedes Unternehmen beantwortet dieselbe Frage letzten Endes hundertfach. Jedes Mal von Hand, jedes Mal mit dem Risiko inkonsistenter Antworten und Risiko von Irrtümern. Und die versteckten Kosten sind natürlich nicht nur der Zeitaufwand, sondern auch die Expertise, die gebunden wird. Wir können leider an solche Compliance-Prozesse selten irgendwie Praktikanten setzen, weil dafür steht viel zu viel auf dem Spiel. Dazu ist es auch zu komplex, aber letzten Endes, wenn ich einen Senior-Mitarbeiter draufsetze, dann betätigt er sich eigentlich die ganze Zeit als menschliche Copy-Paste-Maschine. Jemand, der Erfahrung hat mit dem Prozess, übrigens das gleiche gilt für Ausschreibung natürlich, jemand, der Erfahrung hat mit dem Prozess und der das wirklich ausfüllen kann, ist oft senior, ist oft sehr teuer. Aber natürlich verwendet er auch nur das, was er schon im Kopf hat, um immer die gleichen Antworten wieder zu erzeugen und immer die gleichen Antworten zu geben. Das ist natürlich kein sinnvoller Einsatz von Kapital. Deswegen ist es total sinnvoll, auf dieses Problem Software zu schmeißen, weil man diese Ressourcen eigentlich sinnvollerweise irgendwo anders einsetzen möchte. Letzten Endes die Aufgabe immer die gleiche. Ich habe ein Set von Dokumenten. Diese Dokumente habe ich selber erstellt. Das sind Dokumente in meiner Firma, Jahresberichte, Zertifikate, ähnliche Dinge. Die kann ich zum Beispiel in einen Data Room packen. Vielleicht habe ich die auch schon im Data Room. Und auf Basis dieser Dokumente muss ich präzise Antworten formulieren bzw. muss zusammenstellen, was ich brauche, um bestimmten Standardsrechnungen zu tragen oder bestimmten Regularien zu folgen. Es gibt natürlich einen hohen Druck dahinter. Externe Audits und formale Prüfungen verlangen absolute Verlässlichkeit. In diesem Prozess ist kein Platz für, oh, wir haben uns ein bisschen geirrt oder es war nur ungefähr richtig. Und wie gesagt, die Fragen sind zu 80% immer wieder identisch, aber auch gerne mal jedes Mal anders formuliert. Zum Beispiel sowas wie, wie stellen Sie die Verfügbarkeit Ihrer Software sicher, ist auf der einen Seite natürlich eine. Relativ klare Frage. Die Frage, beschreiben Sie Ihre Business-Continuity-Maßnahmen, ist schon wieder etwas unklarer, bedeutet aber letzten Endes das gleiche, weil man sich. quasi diese Gedanken macht. In unserem konkreten Falle haben wir mit einem Softwareunternehmen zusammengearbeitet, das genau solche Prozesse zu automatisieren versucht oder sich das Ziel gesetzt hat, diese Prozesse, soweit es geht, zu automatisieren. Unser Klient hat in dem Fall schon ziemlich viel investiert, war eine Software geschrieben worden. zum Verkauf, also klärend dasselbe Softwareanbieter, in der quasi rund um einen Data Room strukturierte Workflows aufgesetzt waren. Also es gab jetzt ja zentrale Dokumenten, Verwaltung für Jahresberichte, Verhaltensrichtlinien, Zertifikate. Also alles, was a Code of Conduct ist und Reporting. Und rundherum gab es Workflows, um eben möglichst effizient auf Basis dieser Dokumente Fragebögen zu beantworten. Dazu konnte man Fragebögen importieren, konnte dann die Verknüpfung zu den Dokumenten herstellen. Es gab also schon mal kein wildes E-Mail-Chaos mehr. Oder mal ganz ehrlich, wenn ich mir so umschaue, in anderen Firmen ist ein Großteil der Compliance-Prozesse basiert, glaube ich, Excel-basiert letzten Endes. Das war eben da schon sehr schön gelöst. Die Mitarbeiter, die geschulten Mitarbeiter, die diese Fragebögen beantworten mussten, wurden durch den Prozess geführt. Wurden unterstützt mit einer Suche, konnten quasi die richtigen Dokumente finden, in denen die Antworten sich versteckt hatten und konnten dann auf Basis dieser Dokumente entsprechend Antworten nachformulieren. Das hat den Vorteil, dass auch gleich die Verknüpfung hergestellt werden konnte zum Source-Dokument, weil das letzten Endes auch natürlich notwendig ist, dass ich nicht nur diese Fragebögen beantworte, sondern auch bewerten und beweisen kann. inwiefern diese Antwort korrekt ist, beziehungsweise in welchem Maße ich eine bestimmte Anforderung erfülle. Aber das hieß natürlich immer noch, dass geschulte Mitarbeiter, also Experten, teure Experten manuell diese Dokumentenbasis durchsuchten, Antworten manuell bzw. mit ihrem eigenen Kopf formulierten. und Verknüpfungen auch manuell einpflegen mussten. Das war letzten Endes wie ein gut sortiertes Werkzeug, egal. Alles hat seinen Platz, man hat seinen Hammer, man hat seinen Schraubenzieher, aber die Arbeit muss man natürlich trotzdem noch selber machen und zwar zu 100 Prozent. Ist natürlich eine Riesenverbesserung gewesen gegenüber Excel-Listen, Dateia, E-Mails, die quasi hin und her gehen, aber immer noch zeitaufwendig und personalinvestintensiv. Ein kleiner Einschub dazu, wer sich in seiner Umgebung umsieht, wird feststellen, dass natürlich diese manuellen Excel-basierten Prozesse immer noch wahnsinnig dominieren. Und zwar in kleinen, wie in großen Firmen. Ob man jetzt das quasi interne Prozesse in Konzernen anschaut oder ob man in Mittelständler reinguckt, es wird immer noch so viel per E-Mail hinnen hergeschoben und es werden so viele undokumentierte Prozesse auch gelebt, das ist wirklich fantastisch. Aber das Kernproblem war auch in diesem Falle natürlich nicht nur der undokumentierte Prozess, sondern die Tatsache, dass die eigentliche Wertschöpfung, wenn man jetzt von Wertschöpfung sprechen will in einem Compliance-Prozess, immer noch beim Menschen lag und auch immer noch sehr, sehr viel menschliche Interaktion verursacht hat und auch relativ viel Rework natürlich, wenn dann der entsprechende Audit-Prozess lief. Das heißt, die eigentliche Wertschöpfung war auch nicht skalierbar. Wenn ich jetzt einen Mitarbeiter habe, der es schafft, sagen wir mal, zehn solche Fragebögen zu beantworten in zehn Wochen, also zweieinhalb Monaten, dann weiß ich schon, irgendwann ist Schluss. Irgendwann ist der einfach nur noch mit Compliance-Fragebögen beschäftigt. Und das wird wahrscheinlich auch nicht sein Traumjob sein, weswegen ich natürlich dann auch noch ein relativ hohes Fluktuationsrisiko habe bei Leuten, die ich auf diese Art beschäftige. Das heißt, letzten Endes dieser Prozess nicht skalierbar. Der Prozess Compliance sicherstellen war nicht skalierbar. Das heißt, mit meinem zunehmendem Firmenwachstum wird er auch immer mühsamer und immer schwieriger. Gut, der Klient hat uns dann ins Boot geholt, auf Basis unserer Expertise im Bereich KI in diesem Fall, also im Bereich generative KI, weil der Klient da auch schon quasi erste G-Versuche gemacht hatte damit. Und bei ersten Experimenten jetzt mit ChatGPT zum Beispiel, wo er einfach mal so ein Dokument reingeworfen hat und Fragen gestellt hat, festgestellt hat, hey, das ist eigentlich ziemlich gut. Die Downside davon war natürlich, dass vielleicht eine gewisse Erwartungshaltung da war, dass das ganz, ganz schnell umgesetzt sein könnte und ganz, ganz perfekt funktioniert. Und das ist natürlich. In solchen komplexen Prozessen oft nicht der Fall, weil Chat-GPT sehr gut ist im Positiven oft oder auch generell GPT-Modelle, also darin aus dem richtigen Dokument das Richtige rauszufinden. Fummeln, aber sie sind oft sehr schlecht im Negativen. Das heißt, aus einem Dokument nicht auch unkorrekte Informationen rauszuholen, zum Beispiel die gar nicht drin ist oder die Information falsch zusammenzustellen. Das heißt, unser Startpunkt war, wir haben mal gründlich analysiert, was eigentlich die Menschen machen, wie die Leute da in diesem Tool umgehen, sich durch diese Workflows hangeln, was für Schritte sie ausführen. was für Artefakte dabei rauskommen. Also Prozesse sind ja letzten Endes immer Events und Objekte, die man sich da anschaut. Und statt einfach jetzt KI draufzuwerfen und zu sagen, wir machen mal ein Chatbot außenrum und dann schauen wir, was passiert. Unser Ziel war hier, diese Prozesse gründlich zu verstehen und im Rahmen der Möglichkeiten Was bedeutet auch im Rahmen der Datenschutzanforderungen und der Compliance-Anforderungen, ironischerweise, eine skalierbare Lösung zu schaffen, die den Prozess nicht quasi Peripher ergänzt, sondern wirklich transformiert, also Kernelemente dieses Prozesses skalierbar macht, ohne, das war auch eine wichtige Anforderung, den Menschen aus der Loop zu nehmen. Warum ist das so? Wir wollen hier eine Lösung schaffen, die sehr, sehr verlässlich ist. Und wir brauchen in Compliance-Prozessen, zumindest in den Compliance-Prozessen, die wir dort anschauen, Grundsätzlich auch immer eine Person, die in irgendeiner Weise noch verantwortlich ist. Das ist auch ein Problem bei so vollautomatisierten KI-Lösungen. Wenn da Fehler passieren, wer ist denn dann schuld? Der Softwarehersteller, die KI, der Mensch, der ursprünglich diesen Prozess beschrieben hat? der CEO von der Software, die jetzt nicht compliant ist, das sind sehr, sehr schwierige Fragestellungen, auf die es auch noch keine gute Antwort gibt. Und solange das so ist Und solange auch die KI, generative KI auf dem technischen Level ist, auf dem sie aktuell operiert, ist es An vielen Stellen eine gute Idee, einen Human-in-the-loop Approach zu fahren. Also Menschen in der Schleife zu lassen, aber sie so weit wie möglich von monotoner und nicht skalierbarer Arbeit zu entlasten. Wie haben wir das in dem Fall gemacht? Eigentlich, wie man das immer machen sollte, wir haben angesetzt beim Dateninput, also ganz vorn. Nicht von hinten her versucht, das aufzuziehen, sondern haben erstmal gesagt, okay, was für Daten kommen denn da rein und wie können wir die so aufbereiten, dass sie maximal sinnvoll für eine KI zur Verfügung stehen. Das heißt, bei. Bereits beim Upload in so ein Data Room haben wir quasi KI-Modelle, KI-Module, muss man sagen, die jedes Dokument in der Tiefe analysieren. Das heißt, als ersten Schritt mal eine Intelligent OCR, also eine sehr, sehr tiefe OCR-Analyse für gescannte Dokumente. Weil in diesen Prozessen erfahrungsgemäß, und das sehen wir auch in der Realität jetzt bei unseren Klienten, In diesem Falle, die Dokumente kommen in allen möglichen Formaten rein. Das sieht zwar immer aus wie ein PDF aus, aber wenn man es dann aufmacht, sieht man manchmal was gefaxt, manchmal war es gescannt, manchmal ist es ein echtes. PDF, das quasi aus Word exportiert wurde, dann ist natürlich der Text schon schön strukturiert extra hierbar. Manchmal ist es aber auch bis zur Unkenntlichkeit verzerrt, man kennt das aus Aus den Negativbeispielen für OCR, wenn das so schräg gescannt wird, da so leicht schief steht und so weiter. Das sind alles Themen, die muss man sehr, sehr früh adressieren. So kommt am Ende natürlich auch schon unpräzise kommen am Ende schon unpräzise extrahierte Dokumente an. Solche Unsauberkeiten am Anfang potenzieren sich dann durch den ganzen Prozess hindurch. Das will man natürlich vermeiden. Also Intelligenta OCR, die wirklich angepasst und optimiert war auf diese Art von Dokumenten, sodass auch die üblen Scans sich in sinnvollen Text verwandeln ließen. Nächster Schritt war auch für alle diese Dokumente Semantic Embeddance zu erzeugen. Semantische Repräsentationen auf der Absatzebene in diesen Dokumenten, sodass man einzelne Abstände semantisch. quasi auffinden konnte, sodass das System sozusagen versteht, wovon ein Dokument an welche Stelle handelt. Diese Semantic Embeddings sind eine Technologie, die sehr, sehr stark durch den Erfolg von Large Language Models in den Werkzeugkasten von Entwicklern gespült wurde, weil die sehr, sehr verlässlich funktionieren. sehr deterministisch und auch sehr schnell. Also mit Hilfe von diesem Semantic Embeddings kann ich sehr schnell die Frage beantworten, welcher Absatz meines Dokumentes passt denn zu meiner aktuellen Anfrage aus dem Compliance-Fragebogen. Also diesen Match einfach herstellen. Dafür sind Semantic Embeddings sehr gut geeignet, sind auch eine sehr schnelle, sehr günstige Technologie dafür Das hat uns ermöglicht, also diese Vorbehandlung der Dokumente, schon beim Eintritt in den Dataroom, hat uns ermöglicht, dass wir auf der anderen Seite natürlich jetzt anfangen konnten, auch diesen Workflow zu automatisieren. Für jede Compliance-Frage, die reinkommt, identifiziert das System eigenständig eben auf Basis von semantischen Embeddings. Das ist ein sehr bewährter Prozess, nennt man Retrieval Augmented Generation. Das ist auch ein sehr alter Prozess, eindeutig alle relevanten Dokumentenpassagen. Aus allen Dokumenten im Data Room seien das Berichte, seien das Codes of Conduct und so weiter werden Passagen gefunden, die zu dieser Compliance-Anfrage passen. Warum macht man das noch so? Warum stopft man nicht alle Dokumente einfach vollständig in den Prompt von dem Large Language Model? Weil die können doch jetzt zu groß sein. Vertragen ja jetzt große Prompts und so weiter. Das macht man deswegen A, weil man sonst sehr lange Antwortzeiten hat, wenn man mit vollen Dokumenten arbeitet und B mehr Kontext, der nicht zu meiner Frage passt, in dieses System hineingeht, desto weniger verlässlich werden die Antworten. Deswegen ist da, trotz Large Language Models, die immer größere Kontext-Windows können, immer größere Textmengen verarbeiten können in einem Schritt, ist dieser Reg-Prozess trotzdem nicht obsolet, weil er genau diese Eigenschaften immer noch hat. Die zweite positive Eigenschaft ist, dass wenn ich jetzt Dokumentenpassagen aus meinen Dokumenten fummel, dann kann ich die natürlich dem Human in the Loop zeigen. Das kostet den drei Sekunden quasi diese Passagen zu scannen, also pro Passage natürlich, zu scannen und dann zu sagen, ja, das stimmt, das passt dazu oder nein, das stimmt nicht, da hat sich das System geirrt. Dazu präsentieren wir diese Passagen mit direkter Quellenangabe, das heißt man kann im Originaldokument sehen, wo so eine Passage vorkam und kann dann sagen, ja okay, das stimmt, das passt zu dieser Frage. Das heißt zum Beispiel von meiner Anfrage von vorher, was ist denn mein Business Continuity Plan, finde ich in den entsprechenden Reports, in den entsprechenden Prozessen sowohl die Beschreibung dieses Plans, also in den entsprechenden Prozessdokumenten. Sowohl die Beschreibung dieses Plans als auch Berichte, die beweisen, dass er implementiert wurde. All das kommt quasi da in die Oberfläche. Ich muss das nicht mehr manuell durchgehen. Ich übersehe ja auch keine Informationen in Dokument 47 von 200, die irgendwo auf der 17. Seite ganz unten stehen. All das wird mir präsentiert. Ich kann für all das sagen, ja, passt dazu, passt nicht dazu. Im Normalfall werden irgendwie 80% dieser Passagen auch akzeptiert von den Nutzern, indem man eine Checkbox anhakt. Und in dem Moment habe ich jetzt schon quasi die Verknüpfung zwischen der Compliance-Frage und den Dokumenten, die Sie beantworten, hergestellt. Man darf das nicht unterschätzen, klingt nach relativ einfachen Sache, aber das hat schon einen riesigen Effekt, weil das. Natürlich schon die gesamte Recherchezeit von pro Frageminuten minimal auf Sekunden maximal reduziert. Das ist schon eine Einsparung um einen Faktor 10 bis 100, die man da erreicht. Aber natürlich, und jetzt kommen natürlich unsere Large Language Models auch ins Spiel, die ja auch immer besser werden darin, quasi diese Informationen zu verarbeiten und zu transformieren. Sagen wir in anderen Podcast-Episoden auch immer wieder, Ledge Language Models sind genial darin, Informationen aus einer Form in eine andere zu transformieren, sind nicht groß gut darin, Informationen zu erzeugen aus dem Nichts. Deswegen benutzen wir Large Language Models, um auf Basis dieser ausgewählten Passagen Also auf Basis der Dokumentensegmente, die der Nutzer hier freigegeben hat, automatisch präzise und auditierfähige Antworten zu generieren. Dafür gibt es natürlich komplexe Prompts und auch iteratives Refinement dieser Antworten, aber im Wesentlichen ist das eine Large Language Model Anwendung, wo ein LLM ein relativ großes, relativ hochwertiges LLM, diese Passagen prozessiert und die Antworten generiert und gleichzeitig diese Verknüpfung zu den Dokumenten beibehält. Der Nutzer entscheidet, welche Informationen verknüpft werden. Die KI erstellt eine Antwort. Natürlich kann dann der Nutzer diese Antwort auch nachbearbeiten und verändern. Was ausgeschlossen ist in diesem Kontext, ist, dass es zu irgendwie Halluzinationen kommt, weil eine Halluzination könnte keinen Quellenbeleg haben. Eine Halluzination hat kein. Verknüpfung zu irgendeiner Ursprungspassage. Das heißt, die wären relativ leicht zu erkennen, sind damit auch leicht zu eliminieren aus dem System. Es gibt an anderen Stellen Durchaus Halluzinationen, also Unsauberkeiten in den Antworten, wenn es darum geht, mit Dokumenten zu chatten. Diese Funktion haben wir da natürlich auch eingebaut. Aber hier in diesem Prozess, wo es wirklich um Auditierfähigkeit geht, Geht, ist das eigentlich weitestgehend ausgeschlossen. Dadurch, dass der Nutzer diese Frage auch nochmal reviewt, im Idealfall muss er natürlich nicht, ist dann auch nochmal ein extra Layer drin, wo wir sagen, okay, dieser Experte hat das jetzt auch noch freigegeben. Heißt, wir haben die volle Accountability dieses Experten, dieses Senior Mitarbeiters, aber mit einem völlig minimierten Zeitinvestment von Stunden pro Compliance-Fragebogen zu einem Tag für alle Compliance-Fragebogen zum Beispiel. Weil natürlich das System auch in diesem Kontext immer besser wird, da es Antworten aus früheren Anfragen wiederverwenden kann. Das ist auch ein wichtiger Aspekt hier, so gut LLMs auch sein mögen, darin Antworten zu erstellen. Wenn ein Mensch jetzt aktiv eine Antwort ändert und erweitert, will ich das natürlich Irgendwie auch wieder ins System zurückführen. Das heißt, der nächste Baustein, den wir gebaut haben, war so eine Art Antwortspeicher. in so eine Art Memory, wenn man so will, der immer konsultiert wird, wenn eine neue Frage reinkommt, auch mit Hilfe von Semantic Matching, um zu schauen, habe ich vielleicht schon eine Antwort und auch schon verknüpfte Dokumente für diese Frage. Und wenn ich die Antwort habe, die verknüpften Dokumente sind outdated, dann kann ich die natürlich auch automatisiert wieder reinbringen aus dem neuen Jahr. Und dann auch verifizieren, ob die Antwort noch stimmt. Aber in den meisten Fällen ist es natürlich so, dass einmal gegebene Antworten ihre Gültigkeit relativ lange behalten und man diesen Wert, dass ein Mensch diese Antwort überarbeitet hat, auch eine ganze Wahl, also quasi im System belassen will und nicht immer wieder durch eine LLM überschreiben. Das machen aus meiner Sicht auch viele Systeme falsch, dass da, wo ein Mensch was beiträgt wird es nicht genug respektiert, will ich jetzt mal sagen, in Anführungsstrichen, nicht genug berücksichtigt, dass das auch einen eigenen Wert darstellt, dass da jemand was editiert hat. Das heißt, mit jeder Nutzung wird das System wertvoller, wird intelligenter. Das heißt aber auch, es kann den Mitarbeitern noch effektiver entlasten. Mit jeder Nutzung wird es quasi besser. Ein selbstlernende Missenspeicher, wenn man so will. Und das ist aus unserer Sicht ein Prinzip, das in vielen Systemen seinen Platz haben kann oder auch seinen Platz haben muss, weil. Unser Grundanspruch ist eigentlich immer die menschliche Wertschöpfung zu respektieren und ein und quasi in eine gewisse Weise auf ein Podest zu stellen. verwenden hier zwar KI, aber beileibe nicht um Menschen zu ersetzen, sondern um sie von monotonen Aufgaben zu entlasten, sodass sie effektiver arbeiten können und den Rest ihrer Zeit für echte Wertschöpfung verwenden können. Dazu gehört aber eben auch, dass die Zeit, die sie investieren die Editier, die Editierung, die Änderungen, die sie machen, tatsächlich auch in dem System verbleiben und gewertschätzt werden und verwendet werden. Das ist eines unserer Grundprinzipien, wenn wir solche Software implementieren, dass wir Strukturen bauen, die Mensch und Maschine um ein Klischee zu bedienen, in eine klare hierarchische Beziehung setzen und auch dafür sorgen, dass der menschliche Wertbeitrag, entsprechend respektiert und von der Maschine auch so effizient wie möglich genutzt wird. Da steht natürlich die These dahinter, dass Mitarbeiter in einem Unternehmen tatsächlich den Einen eigenen Wert darstellen, wer diese These nicht halte, wird es sicher anders machen, aber das ist ein Grundprinzip unserer Arbeit. Gut, das Ganze ist natürlich absolut nicht trivial, dieses System auf dieses Niveau zu bringen, wo es diese Verlässlichkeit hat, diese Auditierfähigkeit hat, sicher so glatt auch in die ganzen Workflows ein einfügt, hat auch hier tatsächlich also im Grund in der Grundform ein Jahr gedauert und wird auch weiterhin stetig verbessert, weil Compliance-Prozesse sind natürlich selber auch der Compliance unterworfen. Das heißt, wir müssen darauf achten, dass sowohl die Modelle als auch die Module, die wir einsetzen, als auch die anderen Softwarekomponenten, die wir einsetzen, und auch die Verfahren, die wir damit implementieren, mit allen möglichen Richtlinien konform sind. Das beginnt bei DSGVO und EUAI-Act und diesen üblichen, aber geht in die einzelnen Regularien für einzelne Industrien natürlich rein, dass die spezifische Anforderungen haben, auch an das Toolset, mit dem Compliance-Prozesse gelebt werden. Das zweite, was man beachten muss, ist, dass wir hier mit einer relativ präzisen Sprache arbeiten müssen. Was jetzt nicht unbedingt die Stärke ist von Dutch Language Models, also man investiert den Aufwand, den wir da investiert haben. Kleine Formulierungsunterschiede können in Compliance-Dingen natürlich große rechtliche Unterschiede bedeuten. Da ist es nicht banal, dass man was irgendwie paraphrasiert. Die Rechenschaftspflicht habe ich schon erwähnt, irgendwie muss man damit umgehen, wer haftet, wer ist verantwortlich, wenn jetzt eine KI wirklich Unsinn generiert. Haben wir mit eben diesem Human-in-The-Loop-Approach gelöst. Aus meiner Sicht haben wir eine sehr gute Balance gefunden zwischen dem Menschen entlasten, aber ihn in der Verantwortung halten, sodass er auch wirklich Rechenschaft ablegen kann darüber, was da passiert ist. Und natürlich brauchen wir auch ein Audit Trail. Also wir müssen zu jeder Zeit nachweisen, woher kam diese Antwort, wer hat diese Antwort nochmal geändert, wie ist diese Antwort in diesem Fragebogen gelandet. Das ist nicht nice to have, das ist eine Verpflichtung. Auf der einen Seite können wir jetzt zurückgucken auf das Projekt und können sagen, wir haben auf jeden Fall maximal automatisiert, also soweit das geht, ohne den Menschen die Verantwortung und das Heft aus der Hand zu nehmen, haben wir diesen Prozess mit modernster Technologie wirklich. Völlig umgedreht und die Menschen auch extrem entlastet. In jeder Phase können Experten eingreifen, prüfen steuern. Die Produktivität ist um ein Vielfaches gestiegen. Sowohl was die Anzahl von solchen Fragebögen oder Fragestellungen betrifft, die ich abdecken kann, als auch was die Qualität betrifft. Weil ich natürlich hier auch, machen wir uns nichts vor, wenn das ein Mensch nonstop macht, dann hat der auch Ermüdungserscheinung, dann macht der auch Fehler, die unter Umständen wirklich sehr gravierende Konsequenzen haben können. Der Client, also unser Client, bietet seinen Kunden heute einen Compliance-Prozess, der schneller, präziser und ressourcenschonender ist als je zuvor und mal kommerziell gesprochen Unser Client verdient natürlich deutlich mehr mit dieser Lösung und hat auch seine letzten zwei Funding Rounds, wenn ich mich recht entsinne, primär. Durch diese Lösung und durch die Potenziale dieser Lösung gewonnen. Un Auf Basis von einem ganz einfachen Workflow-System ohne KI-Unterstützung wäre das in diesem Sinne nicht möglich gewesen. Gut, was waren die Learnings für uns? Im Prinzip nicht wirklich viel Neues, was wir nicht in anderen Projekten auch schon gesehen hätten, aber vieles, was vielleicht jetzt so im Allgemeinen in der allgemeinen Wahrnehmung nicht so ganz. angekommen ist. Large Language Models bleiben Werkzeuge. Wir sind kilometerweit von völlig autonomen Large Language Models entfernt. Wir sind kilometerweit von dem Qualität und Verlässlichkeits. Anforderungen entfernt, die man erfüllen müsste, damit wirklich man sagen kann, ich mach das alles nur noch mit KI. Der Mensch muss validieren Und das haben wir getestet und verifiziert mit allen Modellen in allen Größen von allen Herstellern. Das ist A noch nicht wirklich intelligent, das wissen wir alle. Das ist statistisch basierte Verarbeitung von Texten. Und B ist es einfach so, dass KI eine gewisse Unsicherheit beinhaltet, was die Verantwortung betrifft. Mit der können wir aktuell rechtlich noch nicht sinnvoll umgehen. Also muss der Mensch da sowieso in eine Loop bleiben. Das Schöne hier war, dass der Prozess so gut dokumentiert war, dadurch, dass die Workflows im Prinzip schon existiert haben und den Map Der Menschliche quasi bearbeitet schon durch diese Workflows hindurchgelotst wurde, konnten wir aufbauen, auf einer perfekten Prozessstruktur. Der Prozess war im Prinzip schon perfekt gemappt. Wir mussten uns das nur noch anschauen, konnten daraufhin verstehen, wie genau die Schritte funktionieren und welche Anforderungen an welche Schritte bestehen. Was wir ja auch gesehen haben, ist, dass zum Beispiel diese grundsätzlich Quellenangaben und Quellen in LLM-Antworten mit einbauen. Es ist technisch nicht trivial. Das verlässlich zu machen, aber es ist natürlich ein sehr großer, also das ist der Unterschied zwischen es ist interessant und es ist auditierfähig. Man will nicht interessanter antworten, man will Antworten, die man ganz klar nachvollziehen kann. Also Quellenangaben sind ein Muss. Und in dem Fall konnten wir eben auch noch durch den Rückbezug auf das Original-PDF, das immer mit der Quelle verknüpft war, abschnittsweise. konnten wir eben auch für den menschlichen Reviewer diese Quellen maximal sichtbar und validierbar machen. Wenn ich jetzt nur einen Link auf das volle Dokument da reingebastelt hätte, so wie wie Google <unk> Perplexity das zum Beispiel auch machen, das hätte hier nicht gereicht, weil die Zeitabsparnis wäre dann quasi wieder in Rauch aufgegangen, weil der. die Person, die hier für den Prozess zuständig ist, dann doch wieder das ganze Dokument hätte lesen müssen. Das will man ja nicht. Das wollten wir ja genau loswerden. Auch eines unserer Mantras, die wir immer wieder wiederholen in Vorträgen, Konferenzen und überall. Man sollte dringend mit dem Workflow starten und nicht mit der Technologie. Workflow anschauen, verstehen, was sind die Bottlenecks, was kann man skalieren, welche Technologie passt da drauf. Wir haben nicht überall Large Language Models draufgeschmissen oder Chat. Bots. Wir haben nicht mal überall KI drauf geschmissen. Wir haben ganz viel Software hier auch entwickelt, die man jetzt nicht künstliche Intelligenz nennen würde, die einfach nur mit Skalierbarkeit, Verlässlichkeit und diesem Antwort-Speicher zu tun hat. Wir haben auch versucht, Technologien zu wählen, die optimiert sind für das jeweilige Teilproblem. Zum Beispiel diesem Optical Character Recognition Prozess haben wir wahnsinnig viel Zeit gewidmet, weil klar ist, wenn der schlecht ist, ist alles andere irgendwie auch schlecht. Das war natürlich nicht irgendwie eine glamouröse Interaktion mit irgendwelchen tollen Large Language Models, sondern das war eine iterative Verbesserung der Integration von Immer besseren OCR-Engines mit immer besseren Optimierungen für diese spezifischen Dokumenten-Typen, die da vorkommen. Am Ende hat sich es für alle gelohnt. Wir Haben viel gelernt, sind sehr zufrieden mit dieser Implementierung, haben natürlich auch wirklich quasi die Technologie auf eine Art da reingebracht, wie wir das lieben und weswegen wir eigentlich genau diese Firma Neomo gegründet haben, wenn man so will. Der Klient hat eine Lösung, die. zig mal mehr wert ist, als sie wert war, bevor wir da reingekommen sind, hat auch eine Lösung, die zig mal mehr wert ist als ein Investment, wenn man ehrlich ist. Und die Kunden unseres Klienten haben natürlich jetzt ganz, ganz andere Möglichkeiten, ihre Compliance Workflows zu leben, als sie vorher hatten und diese Kunden sind zum Teil sehr, sehr groß. Also ich darf da natürlich jetzt keine Namen nennen. Aber da reden wir nicht von kleinen Schreinerwerkstätten oder so, die da versuchen, Compliance-Prozesse zu digitalisieren. Da reden wir durchaus auch von großen Konzernen, die sehr, sehr harte Anforderungen haben an so eine Lösung. Wenn euch solche konkreten Implementierungen interessieren, das ist jetzt die erste Episode im Podcast, die wir über so einen Anwendungsfall machen, weil wir danach gefragt wurden oder darum gebeten wurden letzten Endes. Wenn die euch genauso interessieren wie die Theorie dahinter, Wir versuchen das weiter abzuwechseln, dann abonniert einfach diesen Podcast und lasst euch über neue Episoden benachrichtigen. Es ist leider immer noch so, dass ganz, ganz viele Leute das hören, aber die wenigsten sind Abonnenten, das heißt, das. Letzten Endes hängt es davon ab, dass wir die richtige Überschrift finden für die einzelnen Episoden. Das ist natürlich ein recht zufälliger Prozess. In einer der nächsten Episode. Episoden zur konkreten Implementierung werden wir mal von einem ganz normalen Softwareprojekt und eine KI reden, nämlich der Claudifizierung einer riesigen Suchplattform. Mit strichter Kostenkontrolle und Clan-Performance-Vorgaben. E Im Prinzip genau das, was bei vielen Projekten immer auseinanderfällt und geht in die Cloud, aber am Ende zahlt man mehr als vorher und hat auch mehr Stress damit. Aber Das wird vielleicht die übernächste Episode werden, in der nächsten muss ich erstmal ein paar Gedanken zur agilen Softwareentwicklung loswerden, die mich seit 15 Jahren umtreiben. Nämlich, warum wird agil manchmal zu fragil? Das heißt, warum brechen agile Projekte manchmal zusammen, gerade weil sie agil geführt werden. Ich hoffe, ihr freut euch ein bisschen drauf. Wir hören uns beim nächsten Mal.