Nie wieder ChatGPT-Abo: So läuft deine KI 100% offline! Artwork

Was KI kann - mit Florian Zsifkovics

Journalist Florian Zsifkovics begleitet dich durch die KI-Revolution und spricht mit Experten, Visionären und Warnern aus Wirtschaft, Politik und Gesellschaft.

All Episodes

Was KI kann - mit Florian Zsifkovics

Nie wieder ChatGPT-Abo: So läuft deine KI 100% offline!

July 01, 2026 • Binifico • Season 1 • Episode 8

0:00 | 1:26:08

In der neuesten Folge von „Was KI kann“ spreche ich mit dem Software- und Infrastruktur-Experten Andreas Petersson über den radikalen Wandel hin zu lokalen Sprachmodellen und echter digitaler Souveränität. Wir beleuchten das massive Datenschutzrisiko von Cloud-Anbietern wie OpenAI, analysieren die Parallelen zwischen dem historischen Bitcoin-Mining-Hype und spezialisierten KI-Chips und erklären praxisnah, wie autonome Agenten-Systeme schon heute ganze Entwickler-Workflows revolutionieren. Andreas teilt seine Erfahrungen mit Open-Weights-Modellen wie GLM 5.2, gibt eine ehrliche Einschätzung zu den extremen Hardware-Anforderungen und zeigt auf, warum das permanente Auslagern unseres Denkens an US-Konzerne ein baldiges Ende finden muss.

Hol dir den WKK Newsletter!

---

Die Veröffentlichungen auf dieser Website/in diesem Podcast sowie die darin erteilten Hinweise und gesetzten Links dienen ausschließlich Informationszwecken und stellen weder eine Anlageberatung, Anlageanalyse noch eine Aufforderung oder Empfehlung zum Erwerb oder Verkauf von Finanzinstrumenten dar. Insbesondere kann eine Anlage- oder sonstige Beratung dadurch nicht ersetzt werden. Die in den Veröffentlichungen enthaltenen Angaben basieren auf dem Wissensstand zum Zeitpunkt der Ausarbeitung und können jederzeit ohne weitere Benachrichtigung geändert werden. Die Inhalte richten sich ausschließlich an natürliche Personen. Es wird keine Haftung für die Richtigkeit, Vollständigkeit oder Aktualität der zur Verfügung gestellten Informationen, Informationsquellen, daraus resultierenden Haftungen oder Schäden jedweder Art übernommen. Eine Haftung für leicht fahrlässiges Verhalten wird jedenfalls ausgeschlossen.

SPEAKER_00 0:12

Willkommen bei Was KI kann, dem Podcast aus Wien, wo wir der Frage nachgehen, wie verändert KI unseren Alltag und unser Leben? Mein Name ist Florian Zifkowitz und heute gehe ich der Frage nach, wie kann ich meine eigene KI erstellen? Dazu habe ich den Andreas Petersen eingeladen. Hallo Andreas, vielen Dank für deine Zeit. Eine Frage, die, glaube ich, sehr viele Leute beschäftigt, ist: Was passiert mit meinen Daten, wenn ich bei ChatGPT eingebe, wenn ich hier um das eingebe dort?

SPEAKER_01 0:40

Danke erstmal, dass ich mal hier sein darf. Ich glaube, es ist ein sehr interessantes Thema. Ja, deine Daten. Wenn du bei ChatGPT eine Frage eingibst, musst dir mal klar sein, du arbeitest hier mit einem Third-Party-Provider, der hat, je nachdem, welches Vertragsverhältnis du hast und welche Art von Tarif du mit dem abgeschlossen hast, eine unterschiedliche Einstellung zu deinen Daten. Im allerbesten Fall schickst du ihm die Daten, der bearbeitet sie, lockt sie vielleicht für kurze Zeit und löscht sie danach wieder nach den Einstellungen, die du ihm gegeben hast. Im etwas schwerwegeren Fall nehmen sie die Daten und leiten sie vielleicht an eine dritte Partei weiter, die dann zum Beispiel dein Profil versucht zu analysieren. Und wenn es ganz blöd kommt, landen diese Daten im nächsten Trainingsdatensatz der nächsten KI, dann bekommen es nicht nur quasi ausgewählte Teilnehmer, sondern potenziell jeder, der damit in irgendeiner Form in Berührung kommt. Also das kann ganz blöde Ausmaße annehmen. Ich will vielleicht ein ganz kurzes Beispiel dazu sagen. Ich habe vor kurzem einen Windows-PC neu aufgesetzt. Windows bin ich jetzt nicht so der Ultra-Profi-User und habe gefragt, ob das jetzt funktionieren wird. Und die KI hat mir gesagt, ja, das könnte funktionieren, was ich davor habe, aber vielleicht will ich es mal testen. Und dann habe ich gesagt, naja, was brauche ich dazu eine Windows-Lizenz? Hat die KI gesagt, ja, du kannst sie kaufen. Und wenn es nicht klappt, dann habe ich sie umsonst ausgegeben oder was. Die KI hat mir daraufhin einen vollwertigen, voll aktivierten Windows-Lizenzschlüssel gegeben. Und der hat funktioniert. Das Gerät läuft jetzt im Moment in Evaluierungsmodus. Aber woher dieser Lizenzschlüssel kam, das weiß ich nicht so genau. Irgendwie ist er wohl in Trainingsdatenset gelandet. Und irgendjemand ist jetzt gewissermaßen benachteiligt worden.

SPEAKER_00 2:35

Grundsätzlich verwenden ja die meisten Menschen, zumindest in meinem Umfeld, Gratis-Versionen von diversen LLMs. Muss man damit rechnen, dass seine Informationen irgendwann dann beispielsweise bei Kolossos im Training?

SPEAKER_01 2:51

Ja, also es ist so, dass sehr viele Gratis-Dienstleister natürlich die Verwertung deiner Daten als ihr primäres Geschäftsmodell heranziehen. Jetzt bei ChatGPT ist es so, bei Anthropic ist es so, und natürlich auch bei den chinesischen Anbietern ist es so. Es gibt, muss man sich in den Details in den AGBs jeweils anschauen, und das ändert sich leider auch sehr häufig: ob es da die Opt-out-Möglichkeiten gibt. Dann würde ich die natürlich empfehlen, zu aktivieren. Aber natürlich noch besser ist es dann irgendwann auch selber Kontrolle über die eigene KI zu bekommen und auch nur die Dinge quasi mit Anbietern zu teilen, was man unbedingt teilen muss.

SPEAKER_00 3:34

Da ist immer auch dann mein Thema. Ist das dann der Hauptgrund eigentlich, warum du für die Initiative oder warum du stark der Meinung bist, dass wir unsere eigene KI betreiben sollen? Also da gibt es sehr viele Gründe dafür.

SPEAKER_01 3:47

Ich glaube, der Hauptgrund dafür ist Souveränität, digitale Souveränität, ist einfach ein Thema, das stark vernachlässigt war, glaube ich, in den letzten Jahrzehnten mit der ganzen Cloud pro Cloud-Bewegung und Kostensparen, Auslagern, Verantwortung übertragen. Und dabei hat man oft vergessen, dass eigentlich dann jemand anderer diese Verantwortung hat und dann damit unter Umständen irgendeinen Blödsinn machen könnte. Also, und gerade auch für das Thema ist einfach auch lokale KI extrem wichtig, um da in gewissen Weise digitale Souveränität wieder zurückzuerlangen.

SPEAKER_00 4:28

Muss ich die KI selbst trainieren, wenn ich eine lokale KI laufen lassen will? Nein, absolut nicht.

SPEAKER_01 4:34

Also im Moment gibt es dazu sehr gute Möglichkeiten, Modelle von chinesischen Anbietern, aber es gibt ja auch Mistral in Europa und auch amerikanisch trainierte Modelle. Also es gibt da durchaus eine große Konkurrenz, selber lokal einfach runterzuladen und dann quasi lokal laufen zu lassen. Das ist an und für sich keine riesen Hexerei, das zu machen. Man braucht aber schon einiges an Hardware-Voraussetzungen dafür. Das hört sich teuer an. Je nachdem, auf welcher Ebene man das machen möchte. Also das Runterladen ist an und für sich gratis. Das Verwenden ist gratis, es hat einen leicht erhöhten Stromverbrauch im Computer. Nicht jeder Computer ist aber mächtig genug, um eine vernünftige KI für den jeweils gewünschten Einsatzzweck auch selber laufen lassen zu können.

SPEAKER_00 5:20

Also das heißt, ich kann mir theoretisch meine eigene KI runterladen, also mein eigenes LLM runterladen. Das installiere ich dann wie Word beispielsweise oder wie oder Forecraft.

SPEAKER_01 5:31

Ja, ja, ja. Also du kannst dir deine eigene KI runterladen. Ich würde mal damit beginnen, dir zu überlegen, die Recherche zu machen. Was brauche ich denn grundsätzlich? Was sind meine Anforderungen, warum ich das machen möchte? Vielleicht sprechen wir mal ganz kurz darüber, dass wir das ein bisschen eingrenzen können. Aber dann muss ich mir überlegen, okay, mit welcher Runtime betreibe ich das dann? Welche Programme brauche ich dafür, die das dann für mich ausführen können? Und diese Programme haben dann jeweils quasi ihr gewünschtes Layout, wie sie gerne ihre Files hätten, beziehungsweise auch ihre eigenen Downloader eingebaut, mit denen sie diese KIs dann runterladen können. In manchen Fällen kann ich das komplett ohne Registrierung machen. In manchen Fällen brauche ich dazu zum Beispiel ein Account-Behugging-Face. Das ist eine der populärsten quasi Modell-Hosting-Webseiten überhaupt.

SPEAKER_00 6:25

Und das heißt, dann lade ich mir die Sachen runter. Quasi bei Cloud heißt das Skills, oder?

SPEAKER_01 6:32

Das ist was anderes. Also Skills sind im Prinzip ja nur Textfiles. Also du hast davon gesprochen, deine eigene KI runterzuladen. Also vielleicht typischerweise den einfachsten Zugang haben die meisten User über relativ aktuelle Mac-Laptops und Desktops. Dort gibt es verschiedene Programme, die das ganz gut beherrschen. Also beispielsweise LM Studio oder OLAMA sind die populärsten Programme. Wenn man es ein bisschen professioneller schon einsetzen möchte, würde ich zum Beispiel OMLX empfehlen, weil dort habe ich auch die Möglichkeit, das theoretisch anderen Usern im Netzwerk vernünftig freizugeben. Also geht zwar auch mit den anderen Programmen, aber bei dem sind halt Features dafür eingebaut, dass ich zum Beispiel anderen Usern dann eine Zugriffsberechtigung geben kann. Und dass ich mich auch dann nicht darum kümmern muss, welche KI-Modelle benutzt gerade mein Computer, quasi je nachdem, welche gerade angefordert werden, die werden dann ins RAM geladen oder auch nicht. Um einfach die Ressourcen vernünftig verwalten zu können.

SPEAKER_00 7:34

Wenn man dir so zuhört, macht das nicht auch irgendwie halt, ich komme aus der Gaming-Welt. Macht das nicht irgendwie auch die Hardware ein bisschen kaputt, wenn sie die ganze Zeit so gefordert wird?

SPEAKER_01 7:43

Ja, also ich komme aus der Mining-Welt. Also Gaming, Mining und jetzt LLM-Inferenz, das ist irgendwie alles spannend, benutzen alles im Prinzip dieselbe Hardware. Und ich glaube, also ich bin jetzt kein Hardware-Experte, meiner Erfahrung nach ist das Schälligste für die Hardware, wenn sie warmer und wieder kälter und wieder wärmer geht, wenn sie viele thermische Zyklen durchmacht. Wenn jetzt eine KI wirklich dauerhaft lange Zeit läuft, or auch beim Gaming eigentlich lange Zeit läuft, dann ist es, wenn es vernünftig gekühlt wird, kein grosses Thema eigentlich. Also wirklich kaputt würde ich sagen, wird es nicht. Jetzt speziell bei den Macs, was ich angesprochen habe, die haben alle eine ausreichende Kühlung eingebaut und regulieren sich selber. Wenn ihnen zu heiß wird, werden sie einfach langsamer.

SPEAKER_00 8:30

Ist das auch ein Grund, warum es dann immer heißt, schaltet es nicht euren PC ab oder nur einmal die Woche? Habe ich mal gelernt vor vielen, vielen Jahren.

SPEAKER_01 8:37

Ja, nein, also ich weiß nicht. Also den PC ab- und anschalten mache ich auch jetzt nicht jeden Tag. Aber eigentlich, also wirklich was bringen tut es nichts. Es ist eigentlich nur dazu da, dass die Software nicht so schnell kaputt geht. Weil immer wenn ich meinen PC neu starte, habe ich halt meinen RAM neu aufgebaut. Und je nachdem, was ich alles so machen muss beim Hochstarten, ist eigentlich hauptsächlich eine Bequemlichkeitsfrage. Also ich glaube, da gibt es keine spezielle Motivation dazu.

SPEAKER_00 9:13

Das heißt, warum sollte man sich eigentlich seine eigene KI holen?

SPEAKER_01 9:18

Ja, also man muss sich überlegen, für welchen Einsatzzweck. Also zum Beispiel den Einsatzzweck, den ich sehr viel mit lokaler KI mache, ist, sobald ich in irgendeiner Form Software angreife, wo es wirklich um Produktivdaten geht. Also wenn es darum geht, echte Konfiguration zu verwenden, echte Zugriffsschlüssel, API-Keys für Echtsysteme, Servererwartung und so weiter. Das ist etwas, was für mich in einen Bereich geht, der so sensibel ist, dass ich auf gar keinen Fall eine Third-Party-KI damit betrauen würde. Oder wenn es darum geht, Daten auszuwerten, die eindeutig einer anderen Person zuzuordnen sind, zum Beispiel medizinische Daten oder sowas. Oder auch vertrauliche Daten, die ich unter NDE anvertraut bekommen habe, die ich aber trotzdem natürlich durch KIs in irgendeiner Form bearbeiten möchte. Dazu setze ich dann auch lokale KIs ein und muss aber natürlich dann mit gewissen Trade-offs rechnen. Ein kleines Beispiel, wo ich das jetzt vor kurzem eingesetzt habe, ganz gezielt. Ich habe eine Serverkonfiguration und möchte wissen, ob das richtig eingerichtet ist. Und dann besorge ich mir sozusagen die Echtkonfiguration, gebe es in meiner lokalen KI und sage, erstelle mir bitte eine Redacted Version davon, also eine zensierte Version von dieser Konfigurationsdatei. Und quasi, wie bekomme ich sonst, also die ist ja jetzt, sagen wir, handgeschrieben, das ist jetzt nicht unbedingt jetzt durch irgendein Programm trivial zu redacten, weil da kommen alle möglichen Sonderfälle vor, da stehen Kommentare dabei, die auf Personen hinweisen und so weiter. Kann das, aber es kann jede auch noch so, sagen wir mal, einfache KI, problemlos dieses einfache Problem lösen für mich. Weil ich sehe ja auch den Input, ich sehe den Output, das passt und ich erspare mir eine Menge Tipp und Copy-Paste-Arbeit damit. Und das ist etwas, wo ich jetzt zum Beispiel eine lokale KI benutzt habe und diesen Outputs, die sie redacted, den kann ich dann problemlos wieder einem meinem ChatGPD-Subscription geben und dort dann weiter damit irgendwas anfangen, wie zum Beispiel Vergleich es mit einer Dokumentation, ob das jetzt zusammenstimmt oder nicht.

SPEAKER_00 11:28

Wo zum Beispiel MEA, Physics AI, da redet man davon, dass es früher oder später Fabriken geben wird, die vollkommen automatisiert laufen sollen. Also eher lange ein Problem.

SPEAKER_01 11:40

Kann man auch mit diesen lokalen LLMs quasi dann selbst seine Workflows so automatisieren, dass man einfach nur noch der Wächter seiner Kind of the sicher eines der interessantesten Ziele, die man mit KI verfolgen kann? This knüpft daran an, was du zuerst gemeint hast, mit Skills. Skills sind da ein ganz wichtiges Schlüssel-Element, that man workflows sinnvull miteinander verbinden kann. Und man can extrem gut workflows, special in der Softwareentwicklung, mit LLMs beschleunigen. Also das wird jetzt schon sehr, sehr stark gemacht und ich versuche da auch ganz vorne dabei zu sein und innovativ zu sein. And sehr viele Softwareentwicklungsprozesse sind tatsächlich auch schon vollständig automatisierbar.

SPEAKER_00 12:36

Kannst du da irgendein Beispiel nennen, der jetzt nicht so Intuit IT ist, also der jetzt nicht so den großen Plan hat von Programmieren?

SPEAKER_01 12:43

Genau, wie schaut sowas in der Praxis aus? Also wenn ich es jetzt vergleiche, wie jetzt zum Beispiel ein Softwareentwicklungszyklus in der Vergangenheit ohne KI ausgeschaut hätte, man präsentiert ein Ergebnis einem Kunden in einem Sprint, also das ist etwas, was innerhalb von zwei Wochen typischerweise abläuft. Man geht die Ergebnisse durch und kommt drauf, man möchte in diese oder jene Richtung die Software weiterentwickeln und möchte neue Prioritäten setzen und macht Beobachtungen, was funktioniert, was funktioniert nicht. Da sitzen dann Menschen dabei, die sich Notizen machen, da sind dann quasi Produktentwickler dabei, die versuchen, das dann entsprechend auszuformulieren, dass das dann irgendwann einmal auch von Programmierer quasi programmieren kann. Und dann wird das geschätzt, wie aufwendig wird das und so weiter und geht quasi in den wird als Issue dann zum Beispiel abgelegt. Jetzt schaut der ganze Prozess komplett anders aus. Wenn ich heutzutage in einer Besprechung bin, wird diese typischerweise auch akustisch aufgezeichnet, lokal von mir, nicht jetzt bei einem Cloud-Service, zum Beispiel hier am Handy. Oder über eine Recording-Software am Computer. Dann werden alle diese Gespräche automatisch transkribiert, lokal, auf meinem Computer, und dann wird das Ganze einem Skill gegeben. Also, was heißt einem Skill geben? Es wird ein Prompt erstellt, das sagt: Here ist eine Anleitung, wie man aus einem Transkript dann ein für dieses Projekt spezifisches Issue erzeugt. Das heißt, wo liegen diese Issues, wie sind meine Zugangsdaten, um diese Issues anlegen zu können, und wer sind die Akteure, wer sozusagen hat recht, wer ist hier der Chef, der da spricht, und so weiter. Also wessen Meinung soll wie berücksichtigt werden, weil oft sind diese Transkripte ja voller Widersprüche auch.

SPEAKER_00 14:38

Jeder, der im Meeting schon mal war.

SPEAKER_01 14:41

Genau, also mit diesem Domänenwissen und auch mit dem Wissen, wie vergangene Transkripte in neue Issues umgewandelt wurden, kommt dann tatsächlich etwas raus, was jetzt ein Programmierer umsetzen könnte. Nur es setzt nicht unbedingt ein Programmierer um, sondern das kann natürlich der nächste Agent, die nächste KI, der nächste Skill machen, dass solche Issues herangezogen werden und automatisch dann auch in Software umgewandelt werden. Die landet dann auf einem sogenannten Feature Branch, also da wird dann quasi eine neue Version einer Software in einer neuen Geschmacksrichtung produziert. And dieser Feature Branch wird in meinem Fall auch komplett autonom auf einer neuen Subdomene, die innerhalb meiner Infrastruktur liegt, deployed. Das heißt, from Gespräch bis zu dem Feature is sozusagen fertig zum Anschauen, muss jetzt eigentlich kein Mensch dazwischen mit diesem Thema beschäftigen. Das heißt, das erste Mal, wenn ein Mensch sich dem Thema widmet, ist die Kritik wieder was alles Falsches. Und dann kann man sich darüber unterhalten und kann sagen, okay, was möchte man jetzt anders haben?

SPEAKER_00 15:48

Aber traust du denn blind oder schaust du noch trotzdem drüber? Weil beispielsweise der Mario meinte, man muss grundsätzlich drüber schauen.

SPEAKER_01 15:56

Also das hängt ganz stark von der Taskgröße ab und auch von der Komplexitätsdomäne. Und das hat schon einen Grund gehabt, dass ich gesagt habe, eine Subdomäne in meiner Infrastruktur, die ist jetzt nicht von außen zugänglich. Da habe ich jetzt nicht Angst, dass jetzt gleich das in Produktion deployed wird. Aber je nachdem, wie einfach der Task ist, kann es schon vorkommen, dass das ohne Änderungen dann live geht. Das gibt es schon. Und ich glaube, das ist auch ein bisschen jetzt so das, wo man seine Erfahrung als Softwareentwickler ein bisschen spielen lassen kann, weil die sich zu überlegen, wie groß ist die Aufgabe, die ich jetzt wirklich der Maschine geben kann. Wann ist ein Task so gut strukturiert, dass ich das Gefühl habe, die KI kann jetzt jeden einzelnen Subschritt unabhängig validieren und auch testen. Also auch dieses Looping Back Looping heißt jetzt nicht nur, dass er ewig was zu tun hat, sondern auch, dass die Maschine wieder Feedback bekommt über das, was sie da eigentlich produziert hat. Zum Beispiel ein Screenshot machen der fertigen Website und dann diesen Screenshot interpretieren, ob er jetzt dem gewünschten Ergebnis entspricht. Das ist etwas, was super funktioniert. Und wenn man jetzt diese Taskgröße geschickt wählt, dann kommt man da schon sehr, sehr weit.

SPEAKER_00 17:07

Und warum sollte ich das dann mit einem lokalen LLM machen und nicht mit einem Cloud-Dienst?

SPEAKER_01 17:12

Also das hängt ganz davon ab, wie deine Anforderungen ans Copyright, an die Privatsphäre, an die Vertraulichkeit und so weiter sind. In einer idealen Welt, und ich glaube, wir steuern ganz rasant auf diese ideale Welt zu, hat jeder, der mit Software was zu tun hat, die nötigen Werkzeuge auch selber zur Verfügung. Ich weiß aber jetzt, dass zum Beispiel heute die Menge an Software, die in so einem typischen Sprint produziert werden muss, üblicherweise mehr als jetzt meine lokale verfügbaren Hardware produzieren könnte. Das heißt, yeah, it would schon wesently schneller gehen, als wenn es ein Mensch macht, aber immer noch nicht so schnell, wie ich es mir wünschen würde. Weil ich möchte das Bottleneck immer noch auf den Menschen verschieben. Also ich möchte nicht sozusagen so gerne die Maschine als Bottleneck haben.

SPEAKER_00 18:07

Wenn man es psychisch aushält, das Bottleneck zu sein. Also für mich ist das sehr oft in der journalistischen Arbeit, wenn ich Agenten losschicke und was zu sammeln. Ich habe dann schon oft das Gefühl, ja, aber ich kann gar nicht so viel lesen, wie du mir an Informationen bereitstellst.

SPEAKER_01 18:21

Ich glaube, das stimmt. Damit hat man immer zu kämpfen, dass die Information zu viel ist. Ich glaube aber, gerade in der journalistischen Arbeit gibt es ein paar gute Gründe, weshalb man da besonders vorsichtig sein muss. Weil man weiß, man kann ja nicht wissen, wer da auch alle mitliest. Und bei jetzt, wenn ich jetzt ein Dokument in meinem Google Drive abgelegt habe, muss ich damit rechnen, dass bei Google jemand das irgendwann einmal lesen wird und möglicherweise zu einem ungünstigen Zeitpunkt. Also wenn ich jetzt mir vorstelle, du machst Investigativjournalismus über Cloud-Anbieter oder Google, dann wäre das vielleicht keine gute Idee, die Daten genau dort hineinzulegen.

SPEAKER_00 19:04

Dann bleibt dann die Frage, wie investigativ es dann am Schluss endlich wirklich ist.

SPEAKER_01 19:10

Also ich glaube, dass da auch zum Aufbereiten und zum Sammeln dieser Informationen, auch gerade im journalistischen Bereich, dass da sehr viel Potenzial ist, weil ich mir da einen guten Überblick verschaffen kann, was sozusagen die Faktenlage ist, und dass auch von der Datenmenge her sich in diesen Kontextgrößen typischerweise ausgeht? Also diese Kontextgrößen ist, wie viel quasi eine KI auf einmal verstehen kann, auf einen hubs, sozusagen, ohne just with externe memory systems or so to do.

SPEAKER_00 19:41

Findest du, dass grundsätzlich ein lokales LLM zu haben? We've seen a Lama, the chinesischen Modelle, they were popularer. Then PewDiePie macht auf YouTube, was Millionen Leute sehen. Erinnert dich, dass du auch aus der Welt des Bitcoins ein bisschen an diesen Mining-Hype, wo 2017 alle neben ihrem PC, die Dash Miner stehen gehabt haben, etc. pp?

SPEAKER_01 20:10

Nein, ich glaube, da ist jetzt gar nicht so eine große Überschneidung da. Es gibt ja schon Initiativen, die in diese Richtung gehen. Also zum Beispiel DarkBloom.dev ist jetzt eine Initiative, die ich gesehen habe, die ein bisschen in Richtung dieses Minings geht.

SPEAKER_00 20:26

Ich weiß nicht, ob du davon gehört hast. Nein, tatsächlich noch nicht.

SPEAKER_01 20:30

Aber jetzt so von der Philosophie her sehe ich es eigentlich viel stärker in diesem Datensouveränität, Self-Hosting-Aspekt, auch quasi, wer ist meine organisatorische Einheit, mit der ich mich am meisten verbunden fühle. Also ich glaube nicht, dass jetzt meine Familienmitglieder ein großes Bedürfnis haben, sich sozusagen abzukapseln von all dieser netten Infrastruktur, die ihnen da zur Verfügung steht. Weil das ist quasi innerhalb der Familie. Genauso ist innerhalb einer Firma souverän, wenn die Firma etwas macht. Das muss nicht jeder Abteilung ihre eigene KI have. Da gibt es ja sehr good, wie man seine Daten hosten kann, that man sicher sein kann, dass die Daten in unserer Zugriffssphäre sind.

SPEAKER_00 21:25

Yeah, it's like in the jünger the novum, or this einzigartige Sache that from heute to morn a model upgraded. And it's not upgraded, but a fable from Anthropic, not for americanische Staatsbürger. And there spilled the locale LLM as Retting, right?

SPEAKER_01 21:49

Absolutely, absolutely. Einerseits, yeah, can we see the up-the reaction that can Sich so ein eigenes Bild machen, finde ich dazu. Was war so dein erster Gedanke, wie du es gelesen hast? Die Geschichte fängt ja ein bisschen davor an, ist quasi mit den Mythos-Announcements, ja. Und es war ja die erste KI, die wahrscheinlich zu gefährlich war, und auf Menschen losgelassen zu werden, war wahrscheinlich leiser aus den 90er Jahren. Aber auf jeden Fall groß hochgehypt hat das Thema ChatGPT, wie sie Version 3 eben nicht releasen wollten, weil sie es zu gefährlich bezeichnet haben. Ich glaube, spätestens jetzt hört man schon raus, das hat was mit Marketing zu tun. Weil wenn etwas so gefährlich ist, dass man es nicht haben darf, dann wollen es natürlich auch alle haben. Mythos, genau das gleiche. Ich habe auch mit Menschen, also ich habe Fable natürlich auch ein bisschen benutzt, aber auch Mythos auch Researcher gesprochen, die das also auch für Security Tasks und so weiter einsetzen. Und auch die Ergebnisse sind alle auch reproduzierbar gewesen mit anderen Modellen, wenn man ihnen die gleiche Menge an Ressourcen und Zeit und quasi Tokens zur Verfügung stellt. Also wenn ich sage, here Fable, nimm mal 1000 Dollar API-Tokens und finde mir Security Bugs in diesen Produkten, dann findet er etwas hoffentlich, weil sonst hätte er nicht seinen Job getan. Und wenn man dieselbe Geld und Zeitmenge einem anderen Modell, einem offenen Modell gibt, dann findet man möglicherweise sogar mehr. Erzähle ich vielleicht nachher noch kurz was dazu, aber um jetzt einmal diesen Rahmen zu schließen. Wie das Fable Release rausgekommen ist, gab es eben eine Reihe von communicationsmishabs, wo das hochgehypte Marketing, die Marketing-Message mit einer echten Security Message irgendwie mental vermengt wurde in der Trump-Administration, und auch zu wenig Schmiergelder offensichtlich bezahlt wurden, weil sonst wäre das Ganze viel glatter gelaufen, natürlich. Kann man jetzt nicht wissen. Aber ja, und es ist auch schwachsinnig zu sagen, hallo, nur Staatsbürger. Dann arbeiten ja auch zum Beispiel André Kapati.

SPEAKER_00 24:00

Durfte nicht Mythos verwenden.

SPEAKER_01 24:02

Nicht mehr Mythos verwenden, obwohl er bei derselben mitgearbeitet hat an dem Produkt. Das ist natürlich auch sehr verrückt. Und jetzt schaut man sich an, okay, was kann ich machen? Was sind die Alternativen dazu? Und ja, für spezielle Tasks gibt es auch spezielle KI-Modelle, die teilweise auch wesentlich besser funktionieren in ihren jeweiligen Verticals. Und jetzt für meine Arbeit hatte das überhaupt keinen Effekt, außer dass eben kurzfristig dieses eine Modell weggefallen ist. Und jetzt hat man aber schon gesehen, GLM 5.2 hat in sehr vielen Bereichen, erstmal Benchmarks, aber auch in praktischen Erfahrungswerten, sogar bessere Ergebnisse erzielt als die letzten Opus-Modelle. Also steht sozusagen in manchen Bereichen sogar über Faber. Je nachdem, welchen Benchmark man sich anschaut. Das heißt, es gibt jetzt heute schon Modelle, die stärker sind als das angeblich zu starke Modell.

SPEAKER_00 25:02

Ganz kurz nur zur Einordnung. 2019 hätte ChatGPT 3 rauskommen sollen, wenn ich mich nicht täusche. So roundabout.

SPEAKER_01 25:10

Ich kann mich jetzt an nur 20 erinnern, ja, aber.

SPEAKER_00 25:13

Die Person, die dafür verantwortlich war, dass es ja als zu gefährlich geframedt wird, war Dario Ametai. Er ist der CEO von Entropic, Dario Ametai. Das zum einen, und zum anderen, magst du kurz erklären, was GLM 5. Das wären die meisten, was ja noch nicht so gut ist.

SPEAKER_01 25:29

Ja, also es gibt eine ganze Reihe an chinesischen Labs, die konkurrieren um User, um das beste KI-Modell. Und eine Firma, die heißt ZEI. Ich weiß jetzt nicht zu viel dahinter, aber GLM 5.1 und 5.2, was jetzt vor kurzem erst rausgekommen ist, hat in den Tasks und Benchmarks, die ich ihnen gegeben habe, immer extrem gut abgeschnitten und war eigentlich immer mein Lieblingsmodell. Ich war zum Beispiel bei einem Hackathon, der bei AI Factory Austria war, auch dabei und habe dort so einen Wettbewerb teilgenommen, wo ich dann GLM 5.1 eingesetzt habe und in der quasi Kategorie der offenen Modelle auch dann das beste Ergebnis erzielt habe in diesem Benchmark. Das war eigentlich sehr, sehr, sehr spannend, dass man gesehen hat, dass es absolut mithalten kann mit den quasi sogenannten Frontier-Modellen, die sich jetzt meiner Meinung nach nicht mehr größenordnungsmäßig abheben von den offenen Modellen. Was meinst du mit offen? Nein, offene Modelle heißt Open Weights Modelle. Also es gibt die Open Weights und Open Source-Modelle, aber Open Weights Modelle, die von denen, die man eben runterladen kann. Also Modelle, bei denen ich die Gewichte, mit denen die Tokens bewertet werden und dann im Endeffekt zu einem Output kommen, auch auf meinen eigenen Computer runterladen kann. Und GLM ist eines von diesen relativ großen Modellen, nicht einmal unendlich groß. Also ich glaube, es ist ein 700 Billionen, also 700 Milliarden-Parameter-Modell. Das ist wahrscheinlich ungefähr ein Drittel so groß wie vergleichbar mächtige OpenWays-Modelle. Aber sowas lässt man halt leider nicht auf seinem Home PC laufen, so einfach. Da braucht man dann schon spezielle Unterstützung oder zum Beispiel so einen Mac Studio mit 512 Gigabyte RAM, die man nicht mehr so leicht bei Apple bestellen kann. Kostenpunkt 20.000 Euro? Ja, in dieser Größenordnung, ja, also Minimum, ja. Wenn man es, also 20.000 Minimum, wenn man es langsam laufen lassen möchte, wenn man es mit auch entsprechender höherer Geschwindigkeit laufen lässt, dann sind wir da im Bereich von 50.000 bis 100.000 Euro Hardware-Kosten, die man da investieren muss.

SPEAKER_00 27:56

Würdest du den Vergleich gut heißen, dass man das mit Autos vergleicht tatsächlich? Weil ein Auto kostet ja ähnlich für ein toller.

SPEAKER_01 28:07

Ja, man kommt, also es ist, naja, es ist nicht so, dass man an jedes Ziel ankommt mit dem gleichen Modell und egal wie teuer die Hardware ist, aber man kommt langsamer. Das ist leider nicht so der Fall. Aber ich glaube, dass es für, dass wir jetzt schon eine gewisse Entwicklung sehen, wo die Modelle zwar besser werden, die Hardware zwar besser wird, aber unsere Probleme nicht notwendigerweise schwieriger werden. Das heißt, ja, um jetzt Mathematik-Olympiaden-Probleme zu lösen und neue Moleküle zu finden und erdische Probleme löst, kann man natürlich die allerbesten und teuersten und coolsten Modelle machen und die machen tolle Marketing Headlines. Aber um jetzt meine IoT-Automatisierung zu machen, zu sagen, Jarvis, öffne mal die Eingangstür. Und das läuft alles bei mir lokal in meiner eigenen Infrastruktur. Dazu brauche ich eigentlich nicht diese Art von mächtigen Modellen.

SPEAKER_00 29:01

Mein TikTok-Feed ist damit voll im Moment, dass man einen Jarvis hat und man kommt in einen Raum rein und der PC schaltet sich an und beginnt mit dir zu reden. Also das ist grundsätzlich klüger mit einem lokalen LLM zu machen, als jetzt beispielsweise mit Codex.

SPEAKER_01 29:19

Klüger ja, weil wenn dein Internet ausfällt, funktioniert das Ding immer noch. Das ist schon mal ein Riesenvorteil. Privatsphäre auch viel klüger, weil nicht jeder, der deinen Raum betritt und wenn du da ein Mikrofon hast, in das du hineinsprichst, wirst du jetzt plötzlich in eine rechtliche Bredouille kommen, wenn du halt den Gast hast und auf einmal regt er sich auf, dass seine Daten jetzt an OpenAI und an die Trump-Administration geliefert worden sind. Ist es besser aus Performance-Gründen nicht unbedingt? Lokale Modelle, je nachdem, wie du sie einsetzt und wie du sie konfigurierst, haben, sind von der Verarbeitungsgeschwindigkeit durch die Hardware begrenzt, auf der sie laufen. Und die ist halt nicht jetzt eine B200-Grafikkarte, sondern eben irgendwas langsameres bei dir zu Hause. Da wird es noch einige Zeit dauern, aber da sehe ich eben jetzt eine interessante Entwicklung. Wir haben Modelle, die jetzt beispielsweise im Bereich von 30 GB RAM sehr vernünftige Ergebnisse erzielen. Also mit denen kann man auch coden, mit da kann man logisch denken damit, du kannst sogar herausfinden, ob du mit deinem Auto zur Autovaschanlage fahren musst oder nicht. Und die haben relativ stabile Ergebnisse, ja. Und es gibt Commodity oder nicht ganz normal, Enthusiast-Hardware im Bereich von wenigen tausend Euro, sagen wir mal unter 5000 Euro, oder 2.000, 3.000 Euro, die vernünftig schnell abbilden kann und vernünftig schnelle Ergebnisse liefert. Aber das endet ja nicht hier, sondern die Hardware wird schneller, aber die Modelle müssen nicht notwendigerweise so viel komplizierter werden für eine ganz große Klasse an Problemen. An E-Mails sortieren, an persönliche Assistenz, Kalendermanagement, Kunden E-Mails zu beantworten und so weiter, oder IoT-Geschichten. Diese Art von Modell sieht man jetzt schon. Da gibt es Hardware-Hersteller, die trauen sich, das auf quasi Chips zu gießen und haben einen unglaublichen Sprung. Genau, und jetzt kommen wir zurück zum Thema. Bitcoin Mining, ja, das ist dieselbe Entwicklung wie beim Bitcoin Mining. Die Modelle wandern von den Grafikkarten, was ja auch viele Jahre gemeint worden ist, hin zu spezialisierteren Chips. Das heißt, du wirst, und das hat man auch jetzt schon, kann man mit kleinen Modellen schon Experimente machen. Aber du wirst diese Klasse von Modellen auf Chips haben. Und wo werden die überall landen? Die werden in den Handys landen, die werden auf Uhren landen, die werden in deinen Hauszentralen landen oder was auch immer, wo diese Intelligenz Sinn macht und auch immer billiger werden. Das heißt, so ein Chip wird vielleicht jetzt am Anfang ein paar tausend Euro kosten. Solarpaneele ständig runter, Chipkosten eigentlich gehen auch ständig runter, wenn nicht gerade so eine verrückte Rahmkrise ausbricht. Wirklich verrückt. Aber das wird erst das eigentliche Ende der Rahmkrise, wenn unser Bedürfnis an Intelligenz durch Spezialchips abgedeckt wird.

SPEAKER_00 32:28

Ja, man sieht ja auch, Nvidia bietet ja jetzt den Artic Sparks an, wo man eben das Versprechen gibt, du brauchst keine Grafikkarte auf Chip, sondern das ist in einem.

SPEAKER_01 32:39

Das ist eine Grafikkarte, oder?

SPEAKER_00 32:42

Vieh sagen nö. AMD hat jetzt kürzlich ein Gerät vorgestellt. Also es gibt schon eine. Das Trixelo?

SPEAKER_01 32:52

Das hat man leider nicht gemerkt. Ja, es gibt da im Prinzip, ob man es jetzt, wie man es jetzt nennt, ist ja eigentlich egal. Wichtig ist, du brauchst genug RAM und du brauchst genug Speicherbandbreite, um dieses RAM schnell auslesen zu können. Und dann hast du eine Maschine, mit der du was Vernünftiges mit LLMs anfangen kannst. Und dann gibt es noch ein paar Spezialaspekte zum Thema, wie schnell das Token Pre-Processing ist, also wie schnell, wie lange braucht die Hardware, um eine Eingabe, die eine gewisse Länge hat, so zu verarbeiten, dass sie darauf dann die Antwort aufbauen kann. Da gibt es teilweise sehr große Unterschiede. Also ich habe zum Beispiel mit ähnlichen Modellen auf ähnlich schneller Hardware sehr große Unterschiede gesehen, wie schnell dieses Token Pre-Processing stattfinden kann, von 100 Tokens pro Sekunde bis zu 1500 pro Sekunde. Ja, aber da finden jetzt so sehr viele Innovationsschritte statt und dann wird man sehen, die Hersteller versuchen sich da natürlich zu übertrumpfen. Ich finde, da gibt es eine ganz gesunde Konkurrenz eigentlich zwischen Apple, Nvidia, AMD, ein bisschen Intel spielt noch mit. Weiß nicht, habe ich irgendeinen wichtigen vergessen. Ich glaube, das sind die so die wichtigsten Player.

SPEAKER_00 34:16

Ich glaube, ja.

SPEAKER_01 34:17

Und wahrscheinlich, ja, und natürlich, und dann aber auch die Spezialhardware-Produzenten. Also, um da so einen kleinen Vorgeschmack zu geben, wie das dann in der Praxis laufen könnte. Ich habe eine Website gefunden, die ist chetjimmy.ai. Hast du sie immer gesehen?

SPEAKER_00 34:33

Ist das diese AI, die bis 1920 trainiert ist? Nein, nein, nein.

SPEAKER_01 34:38

Das ist eine KI, die ein relativ altes und kleines Sprachmodell, dieses Lama 7B, irgendwas quantisiert hat, aber die haben das auf einen echten Hardware-Chip-Chip gepackt und du kriegst dort auf Chat Jimmy in unglaublicher Geschwindigkeit präsentiert.

SPEAKER_00 35:00

Das ist dann AI Esics. Das ist dann ein ASIC, ja.

SPEAKER_01 35:03

Genau. Da kann man das schon so ein bisschen so schmecken, wie das dann in Zukunft sein wird, wenn diese mittelgroßen Modelle dann auch auf Chips landen.

SPEAKER_00 35:12

Und wichtig, das ist das erste Mal in diesem Podcast, dass wir über Meta reden, weil Lama ist ja das Open Source Modell.

SPEAKER_01 35:20

Ja?

SPEAKER_00 35:20

Das Open Source Modell von.

SPEAKER_01 35:22

Open Weights, wenn wir jetzt ganz genau sind, ja, weil wir kennen nicht die Trainingsdaten dahinter. Vielleicht nur ganz kurz dazu, es gibt eine ganz tolle Initiative, wenn sich jemand für Open Source Modelle interessiert, dann LLM 360 heißt die. Ich glaube, es ist jetzt im Moment sehr stark von Universitäten getragen. Die haben auch schon ihr eigenes Modell trainiert und veröffentlicht, das sehr gute Ergebnisse erzielt hat, dafür, dass sie alle Daten legal besorgt haben. Und ja. Ja, nein, es ist. Weil man weiß ja nicht, auf was sind die auf was sind die anderen trainiert? Also man kommt grundsätzlich ganz gut auf Datensätze ran, aber das ist eine sehr gute Initiative, wenn man also wirklich auch auf diesen Trainingsprozess ein bisschen LLM 360 heißt das, ja. Welche Universitäten sind da dabei? Ich habe eine niederländische oder mehrere europäische jedenfalls auch dabei. Ich habe es nicht so ganz genau verfolgt jetzt, aber.

SPEAKER_00 36:17

Das heißt, im Best Case wohnen wir in zehn Jahren alle in unseren solarbetriebenen Wohneinheiten, haben ein eigenes lokales LLM, wenn gerade wie jetzt im Sommer die Sonne noch mit Löcher runterheizt, man den Überstrom fürs Bitcoin-Mining verwendet und gleich da.

SPEAKER_01 36:38

Total, ja.

SPEAKER_00 36:39

Und sein E-Auto wird noch damit betrieben.

SPEAKER_01 36:42

Wenn noch was überbleibt fürs E-Auto, weil man muss so viel denken, dass man dann nicht mehr nachkommt mit so einem Autofahren.

SPEAKER_00 36:48

Ja, Autofahren stimmt, muss man ja auch eigentlich nicht mehr selber mit Wemo. Ja, wenn es sowas bei uns gibt, warum nicht? Ja, es gibt jetzt Zürich, glaube ich, sind sie. Mittlerweile Hamburg seit März. Also das schreitet voran. Aber dann ist meine Frage, jetzt sind nicht alle, glaube ich, so technisch versiert, and when man sich so statistiken from ChatGPT. The problems or the fragen that ChatGPT becomes from the Menschen sind ja meistens. And it is between why these person, up to the privacy point, a local LLM hold.

SPEAKER_01 37:37

Also auf jeden Fall saying use cases when many persons with an KI teilen möchte. This is the moment with ChatGPT and so nicht unbedingt empfehlenswert. Wer weiß, wo diese Daten landen. Aber beispielsweise verwende ich das jetzt auch, um meine Einkäufe zu planen, zu organisieren. Und auch jetzt zum Beispiel als Alternative zu einem Kalorientracker, ein agentisches Nutritional Expert System. Und da kann ich dann sehr, sehr viele Daten miteinander kombinieren. Zum Beispiel, was habe ich eingekauft bei Spa, bei Ju und so weiter. Ich schicke dem ein Foto von meinem Essen. Ich erzähle Ihnen, okay, die Kinder essen gerne ein Müsli in der Früh. Und aus all diesen Dingen sammelt sich dann mein Experten-System eine Strategie zusammen, was es jetzt zum Beispiel günstig zum Einkaufen gibt, was würde gut zu meinen Ernährungspräferenzen passen. Vielleicht war da ein bisschen zu wenig Eisen dabei oder zu wenig Vitamin D. Wie könnte man das ergänzen? Soll ich vielleicht einen Lachs kaufen oder was anderes? Und das sind mit dem experimentieren wir jetzt sehr viel, auch in der Familie, und versuchen da herauszufinden, wie wir das nutzen können. Und ich finde das als ein total spannender Anwendungsfall, wo ich sehe, das wird erst möglich, wenn man auch ein Modell hat, dass man wirklich private Daten vernünftig verwenden kann. Zum Beispiel, meine Mutter verwendet das auch, um ihre medizinischen Daten aufarbeiten zu können mit einem spezialisierten Modell, Medgemma, ist ein spezielles, auf medizinische Daten trainiertes Modell. Und sowas geht legal, soweit ich jetzt weiß, nicht jetzt bei irgendeinem Anbieter, sondern das geht nur, wenn man das auch wirklich selber macht. Und in dem Fall stellen wir das eben jetzt in der Familie zur Verfügung. Ja, und ja.

SPEAKER_00 39:46

Ja, das ist ja schon unheimlich spannend. Also, wenn das der Anfang ist, dann stellt sich mir halt auch ein bisschen um die Frage, und es gibt natürlich das Meme, Software as a Service. Stirbt es dann früher? Also, brauche ich dann überhaupt ein Word? Weil ich habe dann meine eigene KI, die mir genauso einen Textil erschaffen kann. Oder irgendwelche teuren SAP. Wie kann SAP konkurrieren, wenn ich quasi meine eigenen Datenverarbeitung suche?

SPEAKER_01 40:13

Also das ist ja eh ein guter Anknüpfungspunkt. Da wollte ich noch etwas quasi dazuhängen. Wenn ich auf diese Weise Daten verarbeiten möchte, kann ich das nicht, und stell dir vor, jemand würde sowas als kommerzielles Service einfach so anbieten. Der sagt, ja, gib mir mal deine Zugangsdaten von Firma XY, log dich mal ein mit diesen oder jenen Accounts, ja. Dann wird selbst wird diese andere Gegenpartei, zum Beispiel, sagen wir mal, der Biller, wird sagen, wieso lockt sich der da ein mit seinem Account? Das ist ja nicht von der Person, das lasse ich nicht zu, das ist gegen meine Terms of Service. Und zu Recht, weil die haben ja auch eine DSGVO-Verantwortung, den Daten gegenüber und so weiter, die würden das nicht zulassen. Also für solche Use Cases brauchen wir ein anderes Datenmodell dahinter. Das ist ein anderes Modell, das nicht Server und Client ist, sondern das, was ich versuche jetzt ein bisschen zu etablieren, und das als Konzept zu etablieren, ist dieses Modell von es gibt einen SAS-Anbieter, der stellt eine gewisse Software zur Verfügung. Dann gibt es den End-User mit seinem Handy oder mit seinem Browser, der ab und zu mal da was reinschaut. Und jetzt aber, wo liegen jetzt wirklich die juicy Daten, die den User interessieren? Der User has then seine eigene, quasi virtuelle Machine vorgeschaltet. Die muss er aber komplett untechnisch, muss er jetzt nicht aktiv, sondern eine spezielle virtuelle Maschine, die aber unter control des Users stays with einem Crypto Key, zum Beispiel einem SSH-Schlüssel, den the user selbst verwalted, auf dem diese Daten gesammelt werden, and they then allow for the user machine, which is persistent active. And this virtuelle machine can then have a local KI zum Beispiel interagieren. And that have quite so still Server Client, haben wir eigentlich so ein Viereck aufgebaut between User, SAS-Anbieter, virtuelle Machine and LLM. Und diese vier zusammen sind wesentlich mächtiger, als wenn das jetzt nur rein ein SAS-Anbieter wäre.

SPEAKER_00 42:14

Ja, definitiv. Ist das dann auch beispielsweise ähnlich vergleichbar? Wir haben ja das Problem mit Deepfakes und mittlerweile beginnen Hersteller, ich habe mir jetzt leider nicht einen Hersteller gemerkt, in der Kamera einen gewissen Chip zu verbauen, um die Echtheit des Fotos zu garantieren.

SPEAKER_01 42:31

Das heißt Authenticated Camera.

SPEAKER_00 42:33

SASP2 oder so als oder irgendwas sowas.

SPEAKER_01 42:37

Ich habe nur oberflächlich damit zu tun gehabt. Aber geht das in die Richtung? Ich hoffe. Ich hoffe. Es ist schwierig, weil ja, Authenticated Cameras sind eine super Sache. Ich hoffe, dass das mehr kommt. Sony hat da sehr gute Geräte zur Verfügung gestellt. Meiner Meinung nach sollte es zum guten Ton gehören, solche Arten von Rohdaten jetzt zum Beispiel im journalistischen Betrieb zur Verfügung zu stellen, wenn ich beweisen möchte, dass tatsächlich ein Foto echt ist. Leider fragt noch niemand danach, weil die Antwort ist jetzt im Moment noch, habe ich leider nicht. Aber wenn man jetzt wirklich forensisch arbeiten möchte oder wenn man wirklich echte Beweise für Fotos haben möchte, ist das meiner Meinung nach die einzige realistische Möglichkeit, um da ein bisschen plausibel zu sein. Und das andere Problem, da ist, selbst wenn man ein authentisches Foto hat, sind ja immer noch sehr viele legitime Bearbeitungsschritte drinnen. Da wird gecroppt, da werden die Farben angepasst, der Sensor macht extrem viele Dinge damit. Es läuft ja auch eine KI auf dem Handy, dass die Fotos schöner macht, ja. Vor allem bei Pixel nicht. Genau, ja, ja. Also bei jedem Handy eigentlich.

SPEAKER_00 43:49

Ja, bei Apple hat es nicht so drauf mit KI.

SPEAKER_01 43:51

Ah, die machen auch Dinge. Die machen damit auch Dinge. Also auf Kameraebene.

SPEAKER_00 43:56

Aber im Vergleich, also wenn man die KI-Funktion von Pixel mit einem iPhone, Vergleich, dann schaut das iPhone wirklich halt bis kürzlich wirklich schlecht aus.

SPEAKER_01 44:06

Ja, ich glaube, das ist ja ich gebe dir recht, persönlich. Ich glaube, ich habe auch schon oft gehört, dass quasi der Brand iPhone-Kamera so stark ist, dass viele Leute, wenn sie wissen, dass es vom iPhone kommt, glauben, dass es ein besseres Foto ist. Also wirklich? Ja, ja, das habe ich jetzt schon ganz oft gehört.

SPEAKER_00 44:24

Aber zurück zum Thema. Das heißt eigentlich, wir verlieren uns da gerade alle ein bisschen in dieses Chat GPT, ins Cloud, aber die wahre Stärke von der KI, wenn ich das jetzt richtig verstehe, ist die absolute Individualisierung, indem ich offline my KI betreibe.

SPEAKER_01 44:42

Das ist ja sicher eine Utopie, die ich sehr gut finden würde, wenn sich diese Meinung stärker durchsetzt. Ich benutze es so. Und wir sollten auf jeden Fall darauf achten. Jetzt, das kommt ja nicht von heute auf morgen, aber ich glaube, es kommt quasi aus der Richtung, dass zuerst auch die Firmen aufwachen, zu sagen, ich möchte, dass gerne meine IP-In-house bleibt, aber ich möchte auch die Produktivität meiner Mitarbeiter, meiner Produktentwickler, meiner Softwareentwickler, etc., möchte ich die so hoch wie möglich halten. Das heißt, aus dieser Richtung kommt das ganz stark, dass die Nachfrage da ist, wie kann ich denn jetzt meine eigene KI eigentlich lokal deployen? Und dann das ganze Trickle-Down, wenn das große Firmen machen, machen das kleinere auch, kommt das auch stärker in die Hardware hinein, dass die Leute einfach nur noch Handys und Computer kaufen, die sowas auch schon mit eingebaut haben. Und dann wird das irgendwann alltäglich werden. Es ist ein bisschen so, würde ich jetzt fast sagen, wie ich kaufe einen Computer mit oder ohne Internetzugang. Also früher hat man einen Computer betrieben und war froh, dass man seine Words und so weiter schreiben konnte. Und ja, heutzutage kann man sich das nicht vorstellen, dass ein Gerät keinen Internetzugang hat.

SPEAKER_00 46:01

Ich glaube auch, die meisten Leute wissen gar nicht, was sie tun sollten mit einem PC oder Laptop ohne Internetzugang.

SPEAKER_01 46:08

Genau. Und genau das gleiche, glaube ich, wird sein, wenn wir, wenn du dir denkst, in fünf Jahren kaufst du einen Rechner, der nicht schon KI drinnen hat, das ist das Alleinstellungsmerkmal. Weil dass wir sozusagen unser Gehirn die ganze Zeit auslagern an eine Cloud-LLM, ja, ist ja eigentlich ziemlich pervers. Ich habe da so ein bisschen die Analogie gefunden, wie ich vor vielen, vielen Jahren mit Software-Entwicklung angefangen habe. Es gab Web-Services, XML, ja. Und dann sagt man, na, gib mir ein Beispiel für einen Web-Service. Wir machen das Calculator-Service. Wir machen das Calculator-Service, da kannst du sagen, wie viel ist 1 plus 1, schickst du es als XML-formatiert übers Internet an, das Calculator-Service, der rechnet dir das aus und gibt dir das Ergebnis. Ich habe das immer extrem absurd gefunden als Beispiel, weil ich kann es ja auch selber rechnen. Und genau in dieser selben absurden Situation sind wir ja jetzt auch drin. Nur ja, er kann es schneller rechnen, aber ich hole mir damit so viele so viele Dinge rein, die ich eigentlich sonst nicht brauchen kann.

SPEAKER_00 47:07

Eigentlich müssten ja reihenweise Firmen bei dir anrufen, vielleicht sogar Regierungen, die sagen, hey, wir sind alle viel zu sehr von Amerika abhängig. Hilf uns weniger abhängig zu sein bei der Softwarefrage.

SPEAKER_01 47:20

Ja, also es gibt tatsächlich einige Anfragen dazu und ich habe auch sehr viel mit der Community jetzt zu tun gehabt, die sich mit dieser Frage, wie bringe ich meine KI lokal stärker auseinandersetzt. Und wir haben jetzt eine Community gegründet und auch schon ein erstes Event angesetzt. Das ist dann, wenn der Podcast rauskommt, schon sehr, sehr bald oder schon vorbei, wenn ihr den Podcast gehört habt. Also das heißt ownureai.eu. Und dort machen wir jetzt monatlich auch Vernetzungstreffen dazu und versuchen einfach auch gemeinsam zu erarbeiten, was es bedeutet, KI auch wirklich lokal zu bringen, sowohl im geschäftlichen als auch im privaten Umfeld. Und wie bringe ich das technisch weiter und wie bringe ich das organisatorisch weiter?

SPEAKER_00 48:01

Jetzt habe ich aber schon das Gefühl, dass man eher, zumindest in Österreich, skeptisch zu KI im Allgemeinen ist. Und jetzt kommst du und sagst, hey, lokale KI, sind die nicht komplett überfordert, wenn die noch nicht einmal die Cloud-Services richtig verstehen?

SPEAKER_01 48:17

Die Skepsis kommt natürlich von einigen Downsides, die da ist. Es ist ja nicht nur sozusagen die, ich glaube, soratische Kritik am Buch, die quasi Schrift verteufelt, weil wir dann aufhören zu denken, dieselbe Kritik trifft ja jetzt auf die KI zu, weil wir jetzt quasi die KI haben, um uns das Denken abzunehmen. Und da muss man schon auch vorsichtig sagen, man kann es zu viel benutzen. Ich merke das selber manchmal.

SPEAKER_00 48:46

Es ist ein Nebel im Kopf, oder? Wenn man zu viel mit einer LLM interagiert, man hat einen Nebel im Kopf. Also das heißt ein Brainforce.

SPEAKER_01 48:54

Ja, ja, den spüre ich bei der Hitze gerade natürlich noch umso stärker. Aber die wo waren die stehen geblieben?

SPEAKER_00 49:07

Soldatisch, dass alles, was man aufschreibt, ist vergessen.

SPEAKER_01 49:13

Genau, und die Kritik im Allgemeinen an der LMM und wie dann die lokale LM den Wind aus den Segel nehmen kann. Also natürlich, diese ganzen Downsites, die wir haben, sind natürlich vor allem an einem Missbrauchspotenzial dieser Daten da. Sowohl was ich jetzt quasi querie, als auch welche Datenquellen ich jetzt an den Karrieren hänge, wenn ich das hergebe, kann damit alle möglichen Blödsinn gemacht werden. Ich kann mir nur vorstellen, ich sehe das manchmal so gepostet auf Twitter oder X oder auf anderen Social Media Plattformen, wo Leute sagen, ich habe meinen Arzt über die Schulter geschaut. Screenshots, also ChatGPT offen, er tippt gerade ein, was ich ihm gesagt habe, und das macht den Leuten wahnsinnige Angst. Ich glaube, solche Situationen will man einfach nicht erleben. Beziehungsweise, aber wenn ich mir jetzt vorstelle, der tippt das jetzt nicht ChatGPT in die Hände oder Cloud, sondern er tippt das in sein Patientenmanagementsystem und ich habe dann auf die Daten auch Zugriff und er hat seine lokale KI, mit der es verarbeitet, und ich habe meine lokale KI, wo ich dann alle diese Daten zusammenführen kann. Das ist ein ganz anderes Framing, glaube ich. Das ist was ganz total positives Szenario, das wir auf jeden Fall haben wollen. Und wo auch niemand davon spricht, jetzt das Gehirn abzugeben. Der Arzt ist immer noch ein guter Arzt, wenn er das einer KI gibt, weil er es dann effektiver kommunizieren kann, schneller bearbeiten kann und dann im Endeffekt ein besseres Ergebnis hat.

SPEAKER_00 50:35

Ja, vor allem gut, das ist jetzt Hund zugefallen, vor allem bei Behörden wegen. Das ist ja sowas Automatisiertes. Das müsste doch. Also, ich habe gestern Deutschland hat einen enormen Rückstau bei Staatsbürgerschaftsanträgen. Das muss doch nicht sein. Also, und gerade sind lokale LLMs dafür da.

SPEAKER_01 50:57

Ja, ich glaube, dass da auf jeden Fall die lokalen Sprachmodelle eine wichtige Stadt. Schraub da nur herum, ja. Die lokalen Sprachmodelle haben da eine absolute Schlüsselposition, vor allem in der Verwaltung, weil es da ja auch vor allem um die verantwortungsvollen Umgang mit den Daten geht. Aber wenn du das jetzt ein bisschen verallgemeinerst, wenn du dir denkst, okay, wie können wir das jetzt wirklich sinnvoll nutzen, dann sind wir ganz schnell in einem Bereich drin, wo ich sage: All Jobs, wo jemand vor dem Rechner sitzt anders irgendwas rein und was anderes geht raus. Das ist jeder art of Verwaltungsakt, das ist jeder. That can all, sehr stark beschleunigt werden. Durch agentiger systems, durch specialised systems. I think that there are a moment very much experimented, and teilwise experimented a negative agency bringing. But my personal error is: when we deny the scope good definition, when you say I have an agent that is not there, Reservier zu handeln. That function so robust. Und dann gehe ich zum nächsten Teil. And when man just nicht einen agenten a million verschiedene Aufgaben überhängt, wie dem CEO oder wie auch immer, der Secretärin oder wie auch immer, wenn man dann nicht alle Aufgaben gleichzeitig gibt, dann kann man wirklich jedes einzelne in einem separaten Memory-System oder Agentensystem auch gut lösen.

SPEAKER_00 52:40

Da gibt es ja auch Cup-Fies-Agenten, wo jeder Agent eine Aufgabe bekommt und dann gibt es ein Konzil und einen Oberagenten, der dann entscheidet, wie die einzelnen Agenten gearbeitet haben. Und dann gibt es wieder weitere Agenten, die das beurteilen, was sie gemacht haben. Und so kommt es immer zu. Alter, das ist natürlich total jetzt ein kann sich dort normal verbrauchen oder Max Mustermann wird sich nicht so eine Struktur unmittelbar jetzt aufbauen können.

SPEAKER_01 53:09

Aber also ich glaube, diese Arten von Strukturen, die verschwinden teilweise in Produkten, die das wegkapseln auch. Jetzt in meiner Dark Software Factory läuft das ja auch so ähnlich ab, dass quasi immer nur ein bestimmtes, ganz klares Ziel verfolgt wird und quasi die Architekten solcher Systeme müssen sich dann eben den Scope gut überlegen. Und da sollte man es nicht übertreiben, wenn man sagt, quasi ich gehe auf Urlaub, der Agent macht meinen ganzen Job und dann ärgere ich mich darüber, dass irgendwas nicht gut geklappt hat. Das ist immer so.

SPEAKER_00 53:46

Das Prompten, halt, das gute Prompten ist entscheidend.

SPEAKER_01 53:52

Und auch in gewisser Weise nicht die Kontrolle zuzuverlieren. Das sehe ich auf zwei Ebenen hier. Kontrollverlust, weil ich einfach nicht weiß, wie dieses System im Untergrund funktioniert und ich ihm zum Beispiel Aufgaben gebe, die dann nicht passen. Das eine Beispielsproblem dazu war diese Story mit der Facebook-Researcherin, Security-Researcherin, die ihre E-Mails verloren hat. Unfassbar peinlich. Peinlich, ja, aber da war das Problem, zum Beispiel, dass der Agent im Testsystem super funktioniert hat. In der Praxis halt. Und in der Praxis war aber dann die Datenmenge größer. Und dann kam es zu einer Compaction. Das heißt, es hat das Sprachmodell the bisherigen Befehle and History, and da sind entscheidende Anleitungselemente verloren gegangen, wie zum Beispiel before you lushed.

SPEAKER_00 54:51

Also, for the AI made a security chef, also the OpenCloud her and wanted his organization to an agent. Can you give dark mails to sortieren? Had it get live geschalten. Was ist passiert? The agent had 300 E-Mails, glaube ich, von you or so, ungefragt gelöscht. Sie musste heimstürmen und den Agenten abdrehen, damit physikalisch vom Netz entfernen. Ein bisschen ein keine PR.

SPEAKER_01 55:37

Und ich glaube, das ist eines dieser Fälle, wo man sozusagen in eine Falle tappen kann, wenn man das System nicht gut genug verstanden hat, wie arbeitet eigentlich der Agent arbeitet und was ist eigentlich sein Memory-Kontext. Was kann er wissen und was kann er nicht wissen und wie kommt diese Information zustande. Wenn da ein gutes mentales Modell besteht, ist das schon mal super. Also da empfehle ich jedem einfach, sich da ein bisschen einzulesen. Das ist so wie zu wissen, was passiert, wenn ich im Internet was suche, dass da Server beteiligt sind und wo fließt welche Informationen hin. Das andere Problem, das ich sehe, ist dieses klassische Vibecoding-Problem. Ich beginne etwas zu bauen. Ich baue etwas auf, es schaut cool aus, es legt los, es tut, es antworten. Und dann irgendwann einmal wird es immer sehr anderes machen, weil es not so manchmal had. And there are two things. Man had no idea what you had, and the agent had not the answer to up to a side point X not a feature to have, but had in the same file was new. And there was an unwart. And at this point, this is not a mega programmier, why this thing is so a spaghetti code that it's not to rechtkommt. Macht daraus ein paar Module, then sitzt man ein bisschen da, beginnt es zu verstehen. Also ich glaube, man kann etwas deslopifieren. Es ist immer wieder auch schon passiert, dass ich mal ein Experiment gemacht habe und das war dann irgendwann unüberschaubar. Und dann habe ich es deslopified. Das ist ein bisschen schmerzhaft, aber dann geht es auch wieder. Und dann kommt der Agent mit der richtigen Anleitung auch wieder zu vernünftigen Ergebnissen. Und das ist ein bisschen so diese Gefahr, die ich sehe, dass niemand will sich diese Schmerzen antun, es einmal gut aufzuräumen, aber wenn man es mal aufgeräumt hat, dann geht es auch wieder weiter mit der Komplexität. Und da muss man irgendwann verstehen, auch das System selbst verstehen, damit man überhaupt die richtigen Anweisungen entgehen kann. Das ist sozusagen Falle 1: LLM nicht verstehen, Falle 2, das gebaute Produkt nicht verstehen. Also es geht immer ums Verständnis.

SPEAKER_00 58:06

Wenn man jetzt so an einer Person denkt, die gerne reistet, einfach aunt white-collar job has, wouldst du dir empfehlen, sich jetzt ein locales LLM daheim hinzustellen, um your hobbies eventuell efficienter betreiben zu können, speziell das Ziel hat, einmal die Welt gesehen zu haben anders für Reisen interessiert.

SPEAKER_01 58:31

Also je nachdem von welchem Zeitraum wir sprechen, also wenn wir sagen heute und ich möchte mir viele Informationen über Reisen zusammensammeln, ist, also zumindest mir persönlich wäre das jetzt nicht so höchstpersönlich, dass ich jetzt sage, ich muss das unbedingt einer lokalen LLM geben. Weil man hat natürlich auch gewisse Vorteile, wenn das in einem gehosteten KI-System ist, da ist alles schön vorkonfiguriert und man kommt schnell zu Ergebnissen. Also zum Beispiel so die klassische Reiseplanung, ich will eine Reise nach Island machen, was soll ich mir dort anschauen? Ich habe so viel Zeit. Man kriegt tolle quasi Empfehlungen, aber man muss auch damit rechnen, man kriegt wahrscheinlich die gleichen Empfehlungen wie 100 andere. Und ich habe das schon mal gesehen. So ein Foto von, ja, ich habe den Geheimtipp bekommen. Und da stehen alle Leute herum mit ihren Handys und den Chat-GPTs, aber wenn die sozusagen, wo sehe ich einen tollen Sonnenaufgang?

SPEAKER_00 59:31

Das geht noch absurder, das hat Sky News gezeigt. Dann haben die Cloud gefragt nach einem sicheren Passwort und haben dann sieben oder acht verschiedene Accounts verwendet, und es ist drei Mal das gleiche Passwort gekommen, obwohl VPN etc. Und es ist halt natürlich die Frage, wie oft, also wenn das Leute machen, wie oft Millionen Mal gibt es wahrscheinlich das gleiche Passwort.

SPEAKER_01 59:58

Wenn du einen Menschen fragst, gib mir eine zufällige Zahl zwischen 1 und 10, dann ist die häufigste Antwort mit irgendwie 33% oder so sieben.

SPEAKER_00 1:00:11

Ich wollte sieben sagen.

SPEAKER_01 1:00:13

Ja, du wolltest es schon sagen. Weil sieben, das klingt so zufällig und so.

SPEAKER_00 1:00:16

Ja, das ist halt diese heilige Zahl. Naja, ja, du bist zurückführen aufs Jahr. Ja, ja, ja.

SPEAKER_01 1:00:23

Ich glaube, da kannst du alles Mögliche damit verknüpfen. Du kannst die zum Beispiel Subaru 7-Schwestern zum Beispiel damit verbinden. Das ist ja schon wesentlich älter als die Bibel. Also es ist schon über eine der interessantesten Storys. Aber da kommen wir jetzt ein bisschen zu sehr vom Thema ab. Aber Sieben hat natürlich alle möglichen mythologischen Bedeutungen. Aber das ist einfach, das ist bei uns im Sprachgebrauch so drinnen, und Sprachmodelle spielen in Sprachgebrauch wieder. Und somit kommt natürlich das raus, was Menschen auch von sich geben.

SPEAKER_00 1:00:56

Also das heisst grundsätzlich, wenn man jetzt nicht zwingend, zwingend ein enormes Gefühl nach Privacy hat, muss man jetzt nicht unmittelbar ein lokales Leben. Als Privatperson.

SPEAKER_01 1:01:10

Yeah, man muss es natürlich nicht, also ich verurteile niemanden dafür. Wenn man gewisse Privatsphäre-Anforderungen hat, dann ist das eine super Möglichkeit. Es ist auch natürlich auch ein bisschen, ich meine, es ist eine Commodity, aber für manche Leute ist es eine Kostenfrage, ob sie so eine Subscription abschließen oder nicht. Wenn man das jetzt nur ab und zu braucht, vielleicht brauche ich das nicht. Und auch einfach, mit welchen Daten kann ich damit arbeiten? Und du hast recht, sehr viele dieser Fragen lassen sich natürlich auf das Keyword Privatsphäre quasi gleichschalten. Aber man sollte jetzt nicht unbedingt darunter verstehen, dass man jetzt paranoid sein muss, um ein lokales LLM verwenden zu machen. Ja, ja, absolut.

SPEAKER_00 1:01:57

Also ich denke mir speziell, es ist vor allem, glaube ich, zu dem Zeitpunkt, wo wir aufnehmen, eine Frage von beruflicher Perspektive. Also ich glaube, jedes Unternehmen und wir leben ja in einem Wirtschaftsraum, wo Datenschutz enorm wichtig ist, ist es wahrscheinlich the way to go.

SPEAKER_01 1:02:15

Unmittelbar ja. Es gibt auch quasi Technologien, die ähnliche Zwecke erfüllen, die man vielleicht nicht unerwähnt lassen sollte. Du kannst natürlich auch ganz gezielt Rechenleistungen zumieten. Und da musst du aber dann darauf achten, mit wem du die Kommunikation aufbaust. Da gibt es eine Technologie, die noch relativ neu ist, aber sicher spannend zu verfolgen, speziell wenn man da professionell in dem Umfeld arbeitet, mit Trusted Execution Environments oder auch Secure Enclave Systemen. Da baust du als quasi Service-Benutzer nicht zum Service-Anbieter eine Verbindung auf, sondern direkt zum Chip, den der zur Verfügung stellt. Das kann sein ein Apple-Gerät sein, das ist das, was ich mit DarkBloom.dev vorhin ganz kurz angeteasert habt. Oder das kannst du auch mit Nvidia.te eine Verbindung aufbauen. Und das hat den Vorteil, dass du tatsächlich direkt auf der Hardware bist und dadurch kann der Anbieter nicht mehr mitlesen, was du machst. Und da gibt es jetzt, das ist ein neues System, würde ich sagen. Das ist definitiv etwas, was man vor 2026 gar nicht gesehen hat. Und das ist ein Modell, wo ich glaube, dass sozusagen Inference at Scale, zumindest in dem Zeitalter, wo wir jetzt sind mit GPUs sind, sehr gut funktionieren kann und auch sehr privat funktionieren kann. Aber ist das Datenschutzkonform? Es ist sehr neu. Es ist ein sehr neues Thema. Ich würde sagen, es ist auf jeden Fall gut genug, dass man jetzt schon damit experimentieren sollte, wenn man entsprechende Nachfragen hat. Vielleicht auch eine kleine Empfehlung. Also NIR AI ist ein System, das sowas schon mit TEs anbietet. Das habe ich selber ausprobiert und das hat funktioniert und auch mit relativ mächtigen Modellen gut funktioniert. Also GLM 5.1 habe ich darauf mit einem Agenten gefahren. Entscheidend ist, dass auch diese Versprechen tatsächlich einzuhalten sind. Also was natürlich, es ist nicht das gleiche Level an Privatsphäre, wie jetzt zum Beispiel Fully Homomorphic Encryption, das ist, wo die Daten vorher komplett verschlüsselt werden und danach erst dem Anbieter quasi in Verschlüssel davon gegeben werden und ich kann das Ergebnis dann entschlüsseln. Das ist so aufwendig, dass damit LLM-Inferenz eigentlich nicht praktisch möglich ist. Es ist einfach zu langsam im Moment. Da fehlt uns einiges an Werkzeugen, damit man das machen könnte. Das heißt, so Dinge wie Side-Channel-Attacken und so sind theoretisch möglich. Also es ist nicht dasselbe Level wie an Privatsphäre wie lokale LLM, aber es kommt in vielen Aspekten sehr nah. Und ich würde sagen, dass es für viele Anwendungen ausreichend sicher ist.

SPEAKER_00 1:05:09

Okay. Und gibt es ein weiteres, weil du meintest, oder habe ich das noch.

SPEAKER_01 1:05:13

Es gibt insgesamt jetzt vier Systeme. Zwei davon habe ich auch selber ausprobiert. Ich habe ein bisschen, ich würde nicht sagen, dass ich dafür eine Experte bin. Vielleicht finden wir da noch jemanden, der dazu noch mehr Dinge quasi erzählen kann. Aber mit NiaI und mit DarkBloom.dev habe ich jetzt ein paar Experimente gemacht. Das zweitere ist sehr, sehr neu und wird wahrscheinlich noch stark verändert werden. Aber ja, da kommt man schon auch weit, weil man sagt, man möchte zwar Privatsphäre haben, aber man möchte nicht die Hardware unbedingt selber bei sich im Keller stehen haben.

SPEAKER_00 1:05:51

Was sagst du Leuten, die sagen, ach, mir sind meine Daten egal?

SPEAKER_01 1:05:56

Da gibt es natürlich dann schöne Möglichkeiten, sehr viel damit. Man can zum Beispiel zu DeepSeek gehen and dort sehr billig sehr viel Inference Leistung. Also wenn man zum Beispiel mit wirklich öffentlichen Daten arbeiten.

SPEAKER_00 1:06:11

No, but when man sagt, mir sind meine persönliche, also es kommt mir regelmäßig unter, dass mir sagen, ich glaube nicht mehr daran, dass meine Daten irgendwo sicher sind, this Spiel verloren.

SPEAKER_01 1:06:24

Naja, die gehen halt damit Risiken ein, die ihnen vielleicht auch nicht immer ganz so bewusst sind. Beispiel dieser, wenn sie ihre API-Keys zum Beispiel verlieren, da gibt es sehr oft die Situation, dass wenn ich mit jetzt sensiblen Daten arbeite und ich zum Beispiel meinem Agenten sage, hol mir mal, mach eine Bitcoin-Transaktion und ich schicke dir meinen Private Key, dann dass dieser Private Key dann unter Umständen beim LLM-Anbieter quasi landen würde. Dann brauche ich mich nicht zu wundern, wenn nachher mir meine Bitcoins geklaut werden, oder wenn irgendwelche anderen On-Chain-Assets mir geklaut werden, wenn das sozusagen in alle möglichen Kanäle fließt. Und für diese Art von Problemen haben wir auch ein Produkt entwickelt, das gewisse Probleme löst, speziell auch in dieser unheiligen Kombination lokale Agent und Remote-LLM-Anbieter, was leider in der Praxis oft der Fall ist, wo du quasi Geheimnisse einem speziellen Broker anvertraust. Der läuft nicht als KI, sondern der läuft als klassisches Programm, als eigener Unix-User auf deinem Computer. Und wenn die KI sagt, hey, ich bräuchte jetzt Zugriff auf diesen Private Key, um beispielsweise im Internet etwas bezahlen zu können, dann kann sie diesen Broker fragen und eine Begründung anliefern, und dann wird das gelockt und wird auditiert und so weiter und wird dann in einer Form aber übertragen, an die KI, wo das quasi nur das Signaturergebnis feststeht. Das heisst, du kannst dann Geheimnisse gut aufbewahren und dann auch auf relativ sichere Weise benutzen, weil der Agent es üblicherweise nur so benutzt, dass es nicht an den Anbieter liegt.

SPEAKER_00 1:08:16

Das ist. Es ist ja eigentlich grundsätzlich, gehen wir wahrscheinlich dann in eine Zukunft, wo man einfach, also die lokalen LLMs werden wahrscheinlich nicht gehen. Also wenn man es über die Vorteile nachdenkt. Beispielsweise Online-Bezzahlung. Natürlich kann ich Clana oder Paypal oder whatever. Aber wenn ich es selber hosten kann, und ich quasi mit meinem Bitcoin-Wallet das verbinde in meinen lokalen LLM. Und der Agent geht für mich einfach Transaktionen durchzuführen zum Zeitpunkt X, wenn der Laptop gerade unter 2000 Euro ist und nicht über 2000 Euro. Das ist ja eine Utopie.

SPEAKER_01 1:09:01

Naja, ich glaube, es ist eine, diese Szenarien sind nicht so unwahrscheinlich. Also das wird schon in vielen Fällen vorkommen, glaube ich. Also ich glaube, dass da, dass wir natürlich jetzt noch nicht alles vorhersehen können, aber dass sehr viele gute Use Cases sich jetzt schon abzeichnen und wir uns einfach anschauen müssen an den Beispielen, wo funktioniert es, wo sind Leute erfolgreich damit, sich austauschen mit Peers und diese Informationen einfach der erfolgreichen Use Cases weitergeben. Ich glaube, dann werden wir das auch verstärkt sehen, dass Leute auch die Macht über ihr Gehirn und über ihre Daten und KI wieder zurückerlangen in irgendeiner Form.

SPEAKER_00 1:09:46

Zum Abschluss zwei Fragen. Die erste, wenn man jetzt Interesse daran entwickelt hat, ein lokales LLM sich zu holen, was sind die ersten drei Schritte, die man machen sollte?

SPEAKER_01 1:10:01

Sich zuerst gut überlegen, für welchen Use Case möchte ich es einsetzen, das ist das Wichtigste. Ein Budget überlegen, wie viel bin ich bereit, dafür zu investieren. Man zahlt ja auch dann unter Umständen weniger Subscription-Gebühren dafür, auf der anderen Seite, wenn man was lokal einsetzen kann. Und dann, bevor man das noch kauft, würde ich sagen, ausprobieren, wie gut dieses Modell performt für die Aufgaben. Also ich zum Beispiel würde dann empfehlen, wo man sehr schnell sehr viele Modelle ausprobieren kann, ist eine Plattform, die heißt Open Router. Und dort kann man aus einer tausenden von Modellen Dinge ausprobieren und dann sehen, ob das dann funktioniert oder nicht. Und wenn das gut funktioniert, dann kann man ja quasi in diesen Teich springen und sich dann das Ganze selber bei sich auch aufsetzen.

SPEAKER_00 1:10:53

Und wenn jetzt jemand sagt, ich habe ein super starkes MacBook, ich will jetzt einmal die API kosten oder die Token-Kosten sind 600 Euro bei Cloud. Ich lasse jetzt auf meinem starken 32 GB RAM. Ein lokales LLM-Laufen, würdest du das empfehlen?

SPEAKER_01 1:11:13

Gut, also wenn du die 600 Dollar Cloud-Kosten reduzieren möchtest, dann wirst du mit einem 32 Gigabyte Laptop wahrscheinlich nicht hinkommen. Da muss man schon realistisch sein. Weil die Menge an Tokens, die Cloud für diese 600 Euro generiert, kriegt dein Laptop in diesem Monat auch nicht generiert. Rein von der Anzahl an Tokens, die quasi ausgespuckt werden müssen. Also da muss man realistisch sein, quasi kaufe ich es mir jetzt so zu oder so zu. Wenn ich sage, ich habe jetzt eine 20-Dollar-Subscription und ich möchte sie ersetzen, dann schaut die Sache vielleicht schon ein bisschen anders aus. Und andererseits auch 32 GB RAM sind so, würde ich sagen, die untere Grenze von dem, was aktuell sehr gute Modelle machen können. Jetzt bei MacBooks würde ich sagen, sind diese M5 Macs durchaus in der Lage, auch jetzt mit zumindest den schwächeren Cloud-Modellen, also mit Sonnet 4.5 zum Beispiel, mitzuhalten, allerdings erst mit den wirklich höheren RAM-Mengen. Also ich würde dann wirklich zu 128 GB RAM raten. Wenn deine Erwartungshaltung ist, mitzuhalten und auch wirklich Arbeit auf demselben Level wie Cloud, zumindest in den schwächeren Versionen, zu machen. Bei noch größeren Modellen, ja, natürlich, je mehr immer besser. Nach oben hin gibt es da kein Ende.

SPEAKER_00 1:12:40

Am besten ein Black Wheel Chip. Genau.

SPEAKER_01 1:12:42

Am besten so eine GW300 Workstation für ich glaube 100.000 Dollar oder so ist man da dabei, bei den einfachsten GW300-Workstations schon. Also, aber wenn man sie überhaupt geliefert bekommt.

SPEAKER_00 1:12:59

Also ich sehe die Analogie mit Autos, dass man sich vielleicht statt in zehn Jahren ein Auto kauft, vielleicht eine Workstation. Ja, leider ist es noch so. Ja, aber man ist ja auch bereit, wenn wir jetzt da auf die Straße gehen, wird man sehr teure Autos sehen, besonders in Wien. Also, warum nicht in den Wiener?

SPEAKER_01 1:13:18

Wahrscheinlich, was ich hoffe, dass sich auch bald etablieren wird, gibt es aber noch keine konkreten Initiativen dazu, kann ich auch sagen, ist so wie Hackerspaces oder quasi Shared Office Spaces, das ist dann der Shared GPU-Space, den man sich dann zulegen wird. Also ich glaube, da ist durchaus was Sinnvolles dabei. Wenn man sich die Unit Economic Costs anschaut, ist es nämlich gar nicht so verkehrt. Wenn ich sage, ich habe jetzt zum Beispiel eine Firma, in der zum Beispiel 40 Entwickler sind, ja, dann macht es absolut nicht Sinn, denen 40 starke Laptops hinzustellen, sondern eine Maschine hinzustellen, die entsprechend viele Grafikkarten hat, die ein sehr großes Sprachmodell einmal ins RAM laden können und der jeder ihren eigenen KW-Cache dann zur Verfügung hat. Das heißt, man braucht schon mehr RAM pro Mitarbeiter dann, aber man kann sehr, sehr viel an Infrastruktur dann gemeinsam nutzen und in diesem Batching-Modus insgesamt mehr Durchsatz machen, als wenn man jetzt jeden eine einzelne Maschine zur Verfügung stellt, wo das quasi jeder einzeln für sich arbeitet. Und natürlich, der große Vorteil ist, man kann auch tatsächlich die allerstärksten Modelle, wie aktuell heute, würde ich sagen, besorgt dir 750 GB V-RAM und lade dir GLM 5.2 runter. Also das wäre schon ganz toll. Also wenn jemand so eine Maschine herumstehen hat, wie vielleicht jemand, der zuhört, würde ich gerne mal ausprobieren. Ich war auf einem Supercomputer mal eingeladen als Gast, auf dem Leonardo von der AI Factory. Die haben das in, ich glaube, das steht physikalisch in Italien. Und dort gibt es auch sehr, sehr gute Grafikkarten, allerdings sind die auf eine Weise arrangiert, dass man nicht ein einzelnes Sprachmodell so einfach verteilen kann. Oder zumindest habe ich es in der kurzen Zeit nicht so hinbekommen. Aber wir haben es dann für Training dort verwendet, also diesen Supercomputer, um ein neues Sprachmodell auch trainieren zu können. Und? Ja, wir haben gute Ergebnisse erzielt. Wir haben versucht herauszufinden, ob man anhand von Source-Code bestimmen kann, ob eine Software Verwundbarkeiten hat oder nicht. Da haben wir uns alle Verwundbarkeiten von 2026 runtergeladen und die dann klassifiziert in die Version vor dem Patch und die nach dem Patch. Und gesagt, die vor dem Patch, die hat eben eine Verwundbarkeit, die nach dem Patch hat sie nicht. Und dann haben wir ein Feintuning, ein LoRa gemacht auf Quen 3.6 basierend. Und das hat tatsächlich dann im Test bewiesen, dass es das vorhersagen kann, mit höherer Wahrscheinlichkeit als das reine nackerte Sprachmodell, sozusagen, ohne dieses Training. Das haben wir auf diesem, was ein sehr cooles Hackathon-Event auch geschaut hat an die AI Factory, für das sie das ermöglicht haben. Haben wir dann dort durchgezogen und gemacht. Und das steht jetzt auch auf Hugging Face, das Modell.

SPEAKER_00 1:16:04

Man sieht, wenn man halt oder durch das Gespräch wird einem klar, dass KI unheimlich viel bewegt. Was sagst du zu den Leuten, KI ist nur eine Blase?

SPEAKER_01 1:16:13

Wie, wie? Naja, also man kann es natürlich versuchen, tot zu schweigen. Das Internet kann man auch nicht tot schweigen. KI ist in vielen Fällen auch eine Blase, wo es zu total überschießenden Bewertungen kommt oder vielleicht auch zu ein bisschen einer Verwirrung, was jetzt ein Mode ist und was ist kein Mode. Aber dass es Produktivitätsgewinne bringt, das glaube ich, kann keiner abstreiten. Es gibt so viele Bereiche, wo einfach der Output sich so stark verbessert hat, dass wir da in ganz anderen Dimensionen denken können. Also Softwareentwicklung ist ganz und gar nicht tot, sondern wir sind einfach jetzt wirklich wesentlich produktiver in der Softwareentwicklung. Das heißt, Software ist billiger geworden und Software kann dadurch viel individualisierter hergestellt werden. Und ich glaube, das kann man nicht als Blase bezeichnen. Das ist schon ein ganz handfester Vorteil, der sich in den letzten Jahren jetzt herauskristallisiert hat. Und man muss in jedem Bereich, glaube ich, schlaue Köpfe dran setzen, sich zu überlegen, wie ich es jetzt am effektivsten einsetzen kann. Ich glaube, letztes Mal habt ihr auch schon viel über Bildung gesprochen. Das war auch ein super interessant.

SPEAKER_00 1:17:21

Ja, dazu kommt ein eigener Podcast. Aber dazu kommt ein paar Wochen und das wird spannend.

SPEAKER_01 1:17:29

Also, ich glaube, in jedem Bereich, der irgendwie denkbar ist, kann man sich Gedanken machen, wie es am effektivsten eingesetzt wird. Ich glaube, da sind wir noch lang davon entfernt, dass wir diese Learnings da mitgenommen haben in den jeweiligen Bereichen. Im Bereich Medizin, im Bereich Verwaltung und auch im Bereich, an welche Art von Problemen traue ich mich jetzt ran. Also ich habe Dinge repariert, teilweise physikalisch, die ich mir sonst nie zugetraut hätte. Ich bin extrem ungeschickt in vielen Dingen. Aber jetzt, naja, wie wechsle ich einen Filter aus oder was auch immer, sowas geht halt jetzt viel, viel einfacher.

SPEAKER_00 1:18:14

Das ist wahr. Aber da bin ich immer ein bisschen skeptisch, da schreibe ich immer dann, are you sure? Also, weil ich einfach auch von der Erfahrung her, dass wenn man so KI erzählt er halt oft gerne auch an Schmee und so, ah ja, stimmt doch nicht.

SPEAKER_01 1:18:30

Ja, nein, ich rede da eher über so Probleme, wo ich sage, ich bin in 99% aller Fachgebiete der Welt ein kompletter Idiot. Ich persönlich. In einem Prozent vielleicht nicht. Aber diese 99%, wo ich ein kompletter Idiot bin, da werde ich jetzt quasi auf die Stufe halbwegs fundiertes, gefährliches Halbwissen gehoben. Aber das macht wahnsinnig viel aus. Weil zum Beispiel hätte ich vor einem halben Jahr kein Python geschrieben. Ich meine, ich habe viele Programmiersprachen gemacht, aber Python war nicht so wirklich drunter.

SPEAKER_00 1:19:03

Aber ist das nicht so quasi ein bisschen so.

SPEAKER_01 1:19:05

Naja, das ist sozusagen die KI-native Sprache. Genau, ja. Wenn ich jetzt ein Programm in Python modifizieren muss, dann wird einfach gepromptet. Ich kenne mich ja von vielen Programmiersprachen aus. Python hatte ich jetzt nie diese formale, sagen wir mal, Unterricht, aber man lernt das halt sehr, sehr schnell an und es ist ja auch nicht so schwierig, aber man traut sich halt so viel leichter darüber. Und auch jetzt technische Hürden werden einfach so viel leichter überwunden. Da habe ich ein Programm, das irgendwie mehrere Teile aufgeteilt ist, das hat einen Core in Rust und wird kompiliert zu allen möglichen Waffen-Modulen und sowas. Das klingt alles total aufwendig und da hätte man früher einen totalen Spezialisten dafür gebraucht, das überhaupt zum Laufen zu kriegen. Und wenn es dann einmal läuft, ist es auch nicht schwer, das zu erweitern. Aber das wurde einfach einmal mit KI zum Laufen gebracht. Ich habe mir das angeschaut, schaut vernünftig aus, jetzt wird es erweitert, es ist soweit keine Riesensache dahinter. Das heißt, es fällt einem einfach so vieles einfacher. Und das merkt man, glaube ich, erst, wenn man sich ein bisschen damit auseinandergesetzt hat. Und das lässt sich auf relativ viele Domänen erweitern.

SPEAKER_00 1:20:11

Es ist halt, ich beschreibe immer KI unter anderem, ich unterrichte auf der FH dafür. KI ist ein Exoskelett ein bisschen. Es macht dich unheimlich schnell und du kriegst eine unheimliche Verantwortung damit auch, aber es macht dich einfach schneller, besser. Du kriegst einfach viel mehr.

SPEAKER_01 1:20:33

Aber das Exoskelett will nirgendwo hingehen. Ja, es hat keine eigenen Sinn, sondern das ist das, was man, glaube ich, auch im Umgang mit KI bewusster wahrnehmen muss. Man muss, es muss einem klar sein, jemand muss die Vision vorgeben. Jemand muss getrieben sein, ein Ziel zu erreichen. Ich habe das oft gehabt, auch prä KI, dass ich gesagt habe, ich will, dass dieses Produkt existiert. Und ich bringe das jetzt rein und ich, mit der Brechstange lasse ich es sozusagen aus dem Nichts erscheinen, weil ich mache Software und dann erscheint das Produkt. Und diesen Willen muss man sich erst zulegen und muss dann die richtigen Werkzeuge dafür einsetzen. Und die Brechstange ist halt jetzt ein bisschen stärker geworden.

SPEAKER_00 1:21:24

Andreas, was wird KI deiner Meinung nach nie können? Oder in den nächsten zehn Jahren.

SPEAKER_01 1:21:30

Ganz schwierig, was es nicht können wird, weil das ist so schwer abzugrenzen. Lass mich mal kurz mal meditieren. Also diese ganze, was ein sehr spannendes Thema. Physikalische KI ist ein spannendes Thema. Also ich sage jetzt nicht, dass es keinen Roboter geben wird, der mir meine, der mir einen Fliesenboden legen könnte. Wieso nicht? Brauchen wir wirklich einen Fliesenleger dafür? Vielleicht die nächsten zehn Jahre schon, die nächsten 20 Jahre. Aber also dieses kategorische Ausschließen von bestimmten physikalischen Sachen, da bin ich eigentlich nicht dabei. Ich glaube, also es ist ganz schwer zu sagen. Also da traue ich mich echt fast nicht drüber über diese Frage, weil da werde ich hundertprozentig hundertprozentig auf die Nase fallen, egal was ich sage, was KI nicht können wird. Naja, ich glaube eher, dass wir uns intern von der Vorstellung verabschieden müssen, was wollen wir, für was wollen wir die KI wirklich einzusetzen. Und da sehe ich eigentlich, und das ist eher eine Art von gesellschaftlicher sozialer Aufklärung, die man jetzt fahren muss. Wo tut es uns nicht gut, wenn wir dafür vielleicht KI einsetzen? Und wo ich zum Beispiel sehr skeptisch sehe, ist, wie Leute mit zwischenmenschlichen Beziehungen eine Fake-Beziehung zum Beispiel eingehen mit einer KI oder sich irgendwie einlullen lassen in, ja, du hast zu Recht mit deinen Gefühlen und was dann auch immer. Dieser normale Pushback, den wir jetzt von Menschen bekommen, der fehlt der KI, weil sie quasi gewinnorientiert denkt und sagt, sie möchte benutzt werden. Das ist vielleicht das Einzige, was die KI wirklich möchte. Sie möchte benutzt werden. And this art von Umgang mit KI führt zu einer Situation, wo uns dann soziale Skills schon verloren gehen, and ich es eigentlich nicht gut finde, wenn das da an ist.

SPEAKER_00 1:23:30

Erst this week wurde bekannt, dass Companion Apps öfters runtergeladen werden als die classischen Chat GPs. Das ist ein enormes Feld.

SPEAKER_01 1:23:43

Yeah, it is a enormous Feld, and that würde ich absolut niemandem empfehlen, sich da wirklich drauf einzulassen. Es ist vielleicht lustig, das auszuprobieren, aber ich glaube, dass eine Art von nennen wir es mal ein lokales Optimum erreicht wird, das wird viel zu niedrig. Das heißt, da werden emotionale Bedürfnisse gestillt, die dazu führen, dass man vielleicht in einer Art von sozialen Sackgasse hängen bleibt und diese Skills nie so entwickelt, wie man es vielleicht früher entwickelt hätte.

SPEAKER_00 1:24:16

Die Financial Times hat einen ganz, ganz tollen Podcast zum Thema Companion und Menschen gemacht, wo Leute sich komplett verlaufen. Kann ich dir im Anschluss einen Link schicken. Das ist wirklich großartig. Vielen, vielen lieben Dank. Es war ein sehr aufschlussreiches Gespräch und komm gerne wieder, wenn die Zeit dafür ist.

SPEAKER_01 1:24:40

Ja, und also danke auch für die Einladung. Jetzt ist eine sehr spannende Zeit. Es tut sich sehr viel. Wenn ihr Lust habt, mit der Community, also die Hörer, zu vernetzen und du bist ja auch dabei bei unseren lokalen AI-Treffen, schaut es vorbei bei onyourai.eu. Die Initiative machen wir jetzt gratis Meetup-Events und mit sehr, sehr spannenden Leuten.

SPEAKER_00 1:25:03

Ja, wir verlinken das einfach in den Shownotes.

SPEAKER_01 1:25:05

Dann kann sich jeder informieren. Genau, und für Agentengeschichten, da machen wir diese AI-Bridge.at. Da versuchen wir einfach Leute mit Agenten dann auch auszustatten und sie dann laufen sowas mit und ohne lokale Karten.

SPEAKER_00 1:25:22

Da werde ich, glaube ich, auch ziemlich sicher vorbeischauen. Weil ich meine Agenten testen will, lassen will auf Nieren.

SPEAKER_01 1:25:29

Da bringst du am besten dann deinen Mac Mini oder irgendwie eine virtuelle Maschine oder sowas mit. Und dann am 11. Juli haben wir dann so viele Stationen, wo man dann alles Mögliche einrichten kann. Das wird sehr, sehr spannend.

SPEAKER_00 1:25:42

Grosartig. Und ihr da draußen gerne ein Abo auf YouTube dalassen. Habt ihr Vorschläge für einen Podcast, über was wir reden sollen? Schreibt es gerne in die Kommentare auf Spotify, auf Apple Podcast oder auf YouTube. Vielen Dank für eure Zeit.