News AI 15/26: Gemma 4 // Seadance 2.0 // Hermes Agent Artwork

programmier.bar – der Podcast für App- und Webentwicklung

Die programmier.bar lädt regelmäßig spannende Gäste aus der Welt der App- und Webentwicklung zum Gespräch ein. Es geht um neue Technologien, unsere liebsten Tools und unsere Erfahrungen aus dem Entwickler-Alltag mit all seinen Problemen und Lösungswegen.

Euer Input ist uns wichtig! Schreibt uns eure Themenwünsche und Feedback per Mail an podcast@programmier.bar oder auf Discord (https://discord.gg/SvkGpjxSMe), LinkedIn (@programmier.bar), Bluesky (@programmier.bar), Instagram (@programmier.bar) oder Mastodon (@podcast@programmier.bar).

Wir sind Full-Stack-Spieleentwickler bekannter Apps wie 4 Bilder 1 Wort, Quiz Planet und Word Blitz. https://www.programmier.bar/impressum

All Episodes

programmier.bar – der Podcast für App- und Webentwicklung

News AI 15/26: Gemma 4 // Seadance 2.0 // Hermes Agent

April 09, 2026 • programmier.bar • Season 7 • Episode 29

0:00 | 28:39

Wie hat dir die Folge gefallen?
Gut 👍
Schlecht 👎
(Keine Anmeldung erforderlich)

Habt ihr unsere Videopodcasts schon gesehen? Unsere News-Folgen gibt es auf YouTube und Spotify als Video.

Ihr möchtet auf der programmier.con 2026 (25.-26. November 2026) einen Talk halten? Dann meldet euch jetzt unter: cfp.programmier.bar

In der neuen Folge AI 15/26 begrüßen euch Dennis und Philipp, die die spannendsten Entwicklungen der Woche sortieren. Im Fokus steht das massive Release von Gemma 4, Googles neuestem Open-Source-Streich, der nicht nur multimodal überzeugt, sondern dank der Apache-2.0-Lizenz auch rechtlich für deutlich weniger Kopfzerbrechen in euren Projekten sorgt. Wir schauen uns an, was die verschiedenen Modellgrößen von 2B bis 31B leisten und warum ihr Gemma 4 ab sofort nativ auf eurem Smartphone über die Google AI Edge Gallery testen könnt.

Außerdem werfen wir einen Blick auf Seadance 2.0 von ByteDance. Das Videomodell sorgt mit 15-sekündigen Clips inklusive Sound für Aufsehen, musste nach heftiger Kritik aus Hollywood aber in Sachen Copyright ordentlich nachbessern. Ihr könnt es jetzt direkt in CapCut ausprobieren.

Für alle, die tiefer in die Welt der Agenten eintauchen wollen, stellt Philipp den Hermes-Agenten von Nous Research vor. Im Gegensatz zu eher Konsumierenden-orientierten Tools richtet sich dieser Python-basierte Agent-Harness primär an Unternehmen und die Forschung. Wir besprechen die Vorteile der engen Ollama-Integration und wie ihr damit hochwertige Traces für das Fine-Tuning eurer eigenen Modelle generiert.

Zum Abschluss gibt es wichtige Insights zu den jüngsten Security-Vorfällen: Wir klären auf, warum der Leak von Claude Code doch brisanter war als gedacht und wie eine extrem perfide Social-Engineering-Masche mit gefaketen Slack-Workspaces zum Axios-Leak führte.

Schreibt uns!
Schickt uns eure Themenwünsche und euer Feedback: podcast@programmier.bar

Folgt uns!
Bleibt auf dem Laufenden über zukünftige Folgen und virtuelle Meetups und beteiligt euch an Community-Diskussionen.

Bluesky
Instagram
LinkedIn
Meetup
YouTube

SPEAKER_01 0:08

Hallo und herzlich willkommen zu einer neuen Programmierbar AI News Folge 15 2026. Wir reden heute über Sedance, Hermes Agent und Gemma 4.0. Ich bin Dennis Becker und mir zugeschaltet ist der Philipp. Hallo. Moin Philipp. Heute wieder ohne Fabi, muss man eigentlich sagen. Der war ja letzte Woche schon im Urlaub. Und ich weiß gar nicht genau, was er heute hat. Der Foto geschrieben, er ist heute nicht da, aber ich weiß nicht, ob er es Urlaub nochmal extended hat, Ostern oder was die Gründe sind. Genau. Gut, fangen wir an. Wer möchte starten? Ich glaube, Gemma ist so das Größte wahrscheinlich gewesen, oder? Update, das es ein bisschen gab, als Open Source Modell mit vielen Kapazitäten. Was gibt es alles Neues rund um das Modell oder was muss man wissen?

SPEAKER_00 1:04

Also es gibt jetzt Gemma 4 letzte Woche Released. Ich glaube, es war unser beste Release im Sinne von mit welchen Partnern wir zusammengearbeitet haben. Also es ist in jedem, sag ich mal, Open Source Tool zur Verfügung, das ihr nutzt, von LM Studio zu Olama und allen anderen Tools, auf verschiedenen API-Providers, verschiedene Clouds, verschiedenen Agents und Tools. Aber vielleicht ganz kurz, Gemma 4 ist sozusagen der Nachfolger zu Gemma 3. Es gibt vier Größen. Es gibt wieder E2B und 4EB. Das waren sozusagen ja die Gemma 3N-Modelle, die Mitte letzten Jahres gekommen sind. Selbes Prinzip hier, Multimodal heißt Text, Video, äh, ja, Text, Video, Audio, Image Input, Text Output. Kann nativ auf Android und iPhone laufen. Gibt es auch die coole Google AI Edge Gallery App. Also könnt ihr direkt mehr oder weniger jetzt App Store aufmachen für beide. Wie weiß es so ein Google AI Edge Gallery suchen und dann das Modell runterladen, dauert ungefähr zwei Minuten, dann könnt ihr direkt Schmerz 4, 2B oder 4b auf eurem Telefon testen. Es gibt dann noch eine MOE-Variante mit 26 Milliarden Parametern und 4 Active, die ist, sag ich mal, sehr gut für kleinere MacBooks oder GPUs. Man braucht so um die, also je nachdem, was für Quantisierungstyp man nutzt, aber man kann die schon auf, sag ich mal, jedem moderneren MacBook easy laufen lassen. Und dann gibt es noch eine 31 Milliarden Variante. Das ist ein Dance-Modell, das heißt ein bisschen langsamer im Verhältnis zu dem MOI, aber dafür ein kleines bisschen besser. Die kleinen Modelle haben 128.000 Token Context, die größeren Modelle haben 256.000 Token Context. Und das ganz Besondere, worauf ich auch sehr stolz bin, ist, dass alle Modelle jetzt unter Apache 2.0 Lizenz released sind. Das heißt, eine gängige Open Source Lizenz ohne große Nachforschungen oder muss ich mit meinem Legal-Team reden, ob ich das nutzen darf. Auch wie die anderen Gemma-Modelle, 140 Sprachen nativ supportet. Sehr, sehr gut, auch sehr, sehr vieles positives Feedback auf Social Media bekommen. Man kann es nutzen in AI Studio im Chat. Also ihr könnt auf Google oder AIstudio.com gehen. Dann könnt ihr es im Chat nutzen. Es gibt auch die API-Variante, das heißt, man kriegt aktuell bis zu 1500 Requests pro Tag für Gemma. Natürlich, je nachdem, wie die Auslastung ist, könnte das auch ein bisschen weniger sein. Es ist verfügbar in Android Studio offline. Das heißt, wenn ihr Android-Apps programmiert, könnt ihr jetzt in Android AI-Gemma nutzen, offline, ohne Internet. Es ist verfügbar in Light RT, was so eine, sag ich mal, C-Library ist, um direkt nativ auf den Geräten auszuführen. Das heißt, wenn ihr irgendwie Edge Gallery testet und es cool findet, könnt ihr euch in LiteRT euch anschauen. Wie kann ich es in meine eigenen Apps integrieren? Es ist verfügbar auch in MLX, also die spezielle Apple Open Source Machine Learning Library. Es ist verfügbar in Cloud mit Beispielen für Vertex Model Garden, Cloud Run, GKE, alles Mögliche. Es ist verfügbar für VLLM und auf TPUs. Also egal wo eigentlich, sag ich mal, gibt es jetzt Gemma? Es ist verfügbar in Open Claw mittlerweile auch. Das heißt, wenn ihr euch damals ein Mac Mini gekauft habt, um OpenClaw laufen zu lassen und vielleicht nicht den kleinsten genommen habt, ist die Wahrscheinlichkeit sehr hochhof, dass ihr das auch jetzt mit Gemma testen könnt. Und in allen anderen Agents, sage ich mal.

SPEAKER_01 4:50

Cool. Wie groß ist er von der von der Speichergröße, dass wenn ihr das auf dem iPhone oder Android runterlest?

SPEAKER_00 4:58

Je nachdem, ob man 2 oder 4 B nennt. Also man muss dazu sagen, 2 und 4 B ist hier ein bisschen, also deswegen auch das E davor, weil das Shared Embeddings haben. Es ist so, ich glaube, zwischen 5 und 8 Gigabyte, aber ihr müsst ihr lügen. Auf jeden Fall, mein iPhone 16 Pro hat super easy E2B gehandelt.

SPEAKER_01 5:19

Okay. Und kannst du ein bisschen einordnen, wo wir uns so benchmark-mäßig befinden? Also was sind Tasks, die damit realistisch sind?

SPEAKER_00 5:28

Also der große Unterschied, sag ich mal, zu Gemma 3 ist vor allem Function Calling, Structured Output und Agentic Use. Also wir haben auch Benchmarks veröffentlicht. Es bewegt sich so im Groben und Ganzen für seine Größe bei den Top-Open-Modellen. Also so um Quen 3.5, sag ich mal, ein bisschen besser. Hier mal da muss man selber testen. Natürlich wieder auf Arena, LM Arena sehr, sehr gut. Da ist das 31B-Modell das drittbeste Open-Modell. Also konkurriert eigentlich mit Kimmy K2 und GLM, welche ja 20 Mal größer sind, aber ich meine, das muss man für sich selber testen. Coding ist besser, Function Calling ist besser und natürlich halt, ich denke mal, für alles, was man Open, kleine Open Modelle nutzen kann, von Klassifizierung zu Summarization zu anderen Tasks. Ich glaube, das Beste, was man vergleichen kann, ist das E4B-Modell hat ungefähr bzw. die bessere Performance als Gemma 327b. Also wir sind jetzt von 27b zu 4b gekommen mit der Performance und dann die anderen Modelle sind dann auch besser. Und Base-Modell und Feintune-Modell verfügbar. Das heißt, wenn ihr vielleicht aktuell Gemma 3 genutzt habt oder einen anderen Open Source Modell oder Open Modell genutzt habt, dann könnt ihr einfach auch sagen, hey okay, ich mag's Feintune oder ich teste das normale und kann es dann nutzen. Cool.

SPEAKER_01 6:57

Ja, schön, dass es auch in der Open-Welt weitergeht und da genauso Sachen erstellt werden.

SPEAKER_00 7:04

Ja, ist echt cool. Also man ist doch doch immer wieder beeindruckt, wenn ich das dann auf meinem iPhone laufen lasse, wie gut es denn ist. Für alltägliche Dinge oder die EI Edge Gallery App hat auch jetzt die Möglichkeit, Skills auszuführen, also was wir ja von Clot Code und allen anderen kennen. Man hat diese Agent-Skills und die kann man auch lokal auf seinem Telefon dann haben. Und ich glaube, es dauert nicht mehr lang, bis man so dann sein Telefon lokal steuern kann. Also im Sinne von, dass sich zu Jammers sagt, hey bitte mach das und das und im Hintergrund oder im Vordergrund öffnet es dann Apps und klickt irgendwo herum und macht andere Dinge. Und das ist halt dann schon cool, wenn das wirklich offline verfügbar ist und halt auch funktioniert einigermaßen.

SPEAKER_01 7:45

Wobei das wahrscheinlich am iPhone noch ein bisschen schwieriger ist, oder? Mit den ganzen Sandboxen oder wie ist das? Ja, so weit kenne ich mich jetzt nicht aus.

SPEAKER_00 7:53

Aber ey, ich meine, Apple und Google arbeiten jetzt, sag ich mal, enger zusammen, wer weiß, was da alles noch kommen wird. Ja.

SPEAKER_01 8:02

Das ist richtig. Du hast gerade einen kaputten Finger in die Kamera gemacht. Ja, versucht zu kochen oder was hast du gemacht?

SPEAKER_00 8:07

Ich habe Tee über meine Hand gelehrt, kochenden am Freitagabend. Oh Gott. Ja, ich bin nicht so gut. Aber es gibt ja mittlerweile Voice Inputs und dann rede ich einfach mit meinem Computer und der programmiert dann für mich.

SPEAKER_01 8:21

Okay.

SPEAKER_00 8:22

Dann gute Besserung an der Stelle.

SPEAKER_01 8:27

Gut, dann reden wir hier über etwas, was jetzt nicht mega neu diese Woche rausgekommen ist, aber was zumindest was die Verfügbarkeiten angeht, die Zeit ein bisschen war. Und zwar über das Videomodell von ByteDance. ByteDance, zur Erinnerung, ist der TikTok-Anbieter oder zumindest hier in der westlichen Welt TikTok als großes Produkt. Und genau, die haben mit C-Dance 2 ein Videomodell rausgebracht, was auch ähnlich wie die großen anderen, die wir besprochen haben, mit, keine Ahnung, Video 3.1 oder Kling 3.0 ist es, glaube ich, bei Kling aktuell. Also ein Modell, was eben nicht nur Video rausspuckt, sondern auch das Ganze mit Ton versieht. Es können Clips bis zu 15 Sekunden generiert werden. Und was tatsächlich sehr, also ist, es toppt viele der Benchmarks, die es da draußen gibt und ist da, äh ist da mit Spitzenreiter. Jetzt ist das Ganze schon mal im Februar, glaube ich, das erste Mal veröffentlicht worden und hat dann aber einen sehr heftigen Gegenwind bekommen, vor allen Dingen aus Hollywood damals, weil einfach komplett Copyright kein Thema war. Also konntest du mit allen bekannten Schauspielern, die es da draußen gibt, und auch IPs wie, keine Ahnung, Marvel und was auch immer, konntest du einfach neue Clips erstellen, die also, ich habe mir jetzt im Nachhinein in der Recherche nochmal ein paar dieser Beispiele, wie dir angeguckt, die sind schon krass. Also da erkennst du nicht, die sehen aus wie die Originalschauspieler, so verhalten sich die Gesichtsausdrücke und sowas schon schon sehr beeindruckend. Und da hat tatsächlich Biden nachgegeben und hat gesagt, okay, da müssen wir nochmal ein bisschen feintunen, dass das nicht überall so verfügbar ist. Und deswegen war dieser Rollout dann so ein bisschen nicht so klar, so jetzt ist es einmal da. Es gibt irgendwie auch verschiedene Artikel, in welchen Ländern es jetzt irgendwie wo verfügbar ist und keine Angebot ist, aber wenn ich das, wenn es keine Phishing-Seite ist, in der ich jetzt gelandet bin, was ich aber nicht glaube, also CapCut ist so ein Video-Schneidetool. Das gibt es auch von ByDance schon länger. Habe ich sogar auch genutzt. Ist sehr beliebt für Mobile Video Editing. Genau. Ist halt ja alles, was man für Social Media machen würde. Das ist hier ein sehr, sehr cooles Tool eigentlich, was man nutzen kann. Und da gibt es jetzt nennt sich noch was Dreamina. Ich bin mir nicht ganz sicher, was diese Produktname bedeutet, weil es auch teilweise jetzt genannt wird, so als Dreamina C-Dance sozusagen. Aber wie dem auch sei, wenn ihr es mal ausprobieren wollt, könnt ihr dann eben über CapCut oder beziehungsweise Dreamina.capCut.com auch Videos erstellen mit C-Dance 2.0.

SPEAKER_00 11:27

Glaubst du, es ist wirklich gefeintuned oder Sechs Klassifizierungslayer davor und danach, die sicherstellen, dass kein Copyright-Material genutzt wird? Ich glaube eher letzteres, oder? Es wäre doch interessant zu wissen, ob es, sag ich mal, in China Mainland oder in anderen Regionen dann noch das normale Modell ist. Ich habe vor allem auch sehr viele Animes gesehen, beziehungsweise wo Leute dann Mangas genommen haben und die dann direkt verfilmt haben innerhalb von ein paar Stunden. Ja, bin gespannt, wo es hingeht.

SPEAKER_01 12:01

Nee, aber auch da lohnt sich einfach wieder so ein bisschen, wenn man mal State of the Art sehen möchte, so was ist möglich mittlerweile. Wie ist die Qualität dort? Kann man sich mal gut ein paar dieser Beispielvideos einfach reinziehen. Das ist ein sehr beeindruckendes Modell.

SPEAKER_00 12:15

Und ich habe dann mir gerade noch eingefallen, ich habe noch zwei Nachträge zu eurer letzten News-Folge. Ich habe sie gestern gehört oder vorgestern, ich weiß gar nicht. Zum einen zu Jan bezüglich Claude Code und der Source Code und warum ist es überhaupt eine News? Dann ist da überhaupt irgendwie was drin. Und ich glaube, zumindest Setzen von Jan, also ich habe es mir auch angeschaut, genauer, sage ich mal ein bisschen. Und Cloud Code ist wirklich eigentlich nur ein Rapper um die API herum. Also es ist alle Prompts, alle Prozesse, wie Tools definiert werden, wie der System-Prompt zusammengebaut wird, wie Skills geladen werden, ist alles Part of der Cloud Code, auf dem Source-Code. Das heißt, und es gibt auch Leute, die haben das genommen und also nicht nur in Rust umgeschrieben, sondern auch einfach den JavaScript-Code genommen und den Model-Provider, also die Stelle, wo dann der LLM-Call ausgeführt wird, durch OpenAI ersetzt und haben dann einfach Codecs innerhalb von Cloud Code ganz einfach nutzen können, mit denselben System-Prompts, mit denselben Features mehr oder weniger. Also es ist schon eine sehr große News. Vor allem, weil du halt als, sag ich mal, Framework-Provider oder Stelle wirklich nachschauen kannst, okay, wie haben sie es geschafft, dass Cloud manchmal hier das oder das macht. Oder es gab ja auch diesen Auto-Modes, der in Cloud Code irgendwann kam, mit ich muss nicht mehr Skip Dangerous Lead Permission machen. Und das ist zum Beispiel auch Teil des Codes, sage ich mal. Und die nutzen Haiku dafür, dass halt sozusagen so Requests gemacht wird. Also ist schon ein sehr großer Leak gewesen und nicht einfach, ich habe hier eine API, die heißt Cloud Code und die läuft. Das gleiche ist ja auch, dass Cloud Code, die Codebasis für die Agent SDK genutzt wird. Also das ist ja einfach mehr oder weniger nur ein Hook da rein. Und der war auch davor nicht, sag ich mal, auf den Client verfügbar. Also klar, man hatte irgendwie die Types, aber der kompilierte Binary Code und Bann, da konntest du nichts mit anfangen. Klar, man hätte irgendwie die Prompts rausholen können. Das hatte man doch vorher schon, aber wie so alles ein bisschen zusammengebaut wird, war schon ein sehr großes Thema. Und das andere ist, also es gab ja diesen Axios-Leak und ich habe jetzt die Folge noch nicht zu ändern gehört, aber ich weiß nicht, ob es besprochen wurde. Man weiß mittlerweile, wie die an die Daten gekommen sind. Hattet ihr das? Ich glaube nicht, nee. Okay, weil es gibt mittlerweile ein Post-Mortem auf GitHub, ich kann das auch gleich mal checken. Und zwar, sie haben zu einem, sie sind zu einem Contributor, sie sind auf ihn zugegangen mit einem als Founder, mit einer kompletten faken Company, welches sie geklont haben, halt so ähnlich aussieht wie anderen Startups. Dann haben sie ihnen einen echten Slack-Channel hinzugefügt, mit einem echten Workspace, der geprandet war, der CI-CD-Channels hatte, wo Leute gechattet haben, was alles sehr echt aussah. Die hatten Channels, wo sie LinkedIn-Posts oder Twitter-Posts geteilt haben, die interessant sind für die Company und die haben sogar Fake-User, Fake-Profile mehr oder weniger in einem Slack erstellt, die dann auch mit der Person geschrieben haben. Dann haben sie mit ihm ein Meeting gemacht, aber nicht in Slack, sondern in Microsoft Teams. Und das Meeting hat mehrere Personen mehr oder weniger gehabt, aber es hat nicht funktioniert, als er den Link geöffnet hat. Und dann haben die ihm einen neuen Link geschickt, der was runtergeladen hat. Und das war das RAT, also die Ransomware, die hat er dann installiert unter der Annahme, hey, ich gehe in dieses Microsoft Teams Meeting rein. Und dann waren seine Credentials sozusagen weg. Also es ist nicht so, ich habe irgendwie meinen Token geleakt auf GitHub oder ich habe auf irgendeine Phishing-Mail geklickt, die ich bekommen habe. Es war wirklich Company gefaked, Founder gefaked, einen neuen Slack-Collaboration-Workspace aufgemacht, verschiedene Channels, verschiedene Fake-Mens und Personen, die da drin gearbeitet haben für mehrere Tage, dann über Microsoft Teams einen Kalender-Invite sozusagen, damit man reden kann, über irgendwas besprechen kann. Die Seite gefaked mehr oder weniger und dann einen Download-Link zu einem Bash-File gemacht. Und wenn ich darüber nachdenke, ich habe auch schon mit vielen Unternehmen, Startups zusammengearbeitet. Das ist, also es ist ein bisschen ein größerer Vektor, den man sich vorstellen kann, vor allem bei so sehr beliebten Projekten.

SPEAKER_01 16:32

Ja, absolut. Also ich glaube, ich weiß auch gar nicht, ob wir uns davor am Ende, ob wir uns davor schützen können. Also gerade, dass halt dieses, ne, dieses Social Engineering, wo du dann irgendwie in die Leute gehst und dann über Wochen lang irgendwo noch was versuchst und einbaust und sonst. Ich meine, du musst es ja geben gegenüber mega misstrauisch sein und nichts mehr vertrauen und alles überprüfen und keine Ahnung was. Ich glaube, es wird irgendwann ein Teil davon, ja.

SPEAKER_00 16:59

Aber ich glaube, es ist schon, also ich vor zwei, drei Jahren wäre komplette Startup-Company nachbauen mit Produkt, mit Slack-Channel, ein ganz anderes Thema gewesen als heute. Also schon allein, dass die proaktiv LinkedIn und X-Artikel geteilt haben, die legit waren, ist für mich so ein Thema. Okay, das könnte auch der Programmierbar-Channel sein, den wir irgendwie haben, so in dem Sinne. Ja, nee, absolut. Das ist richtig.

SPEAKER_01 17:24

Das ist richtig. War dann nicht sogar letztens im Programmierbar-Channel weiter einer, das hört sich in der Prompt Injection an, was ich hier geschrieben hatte. Ja, genau. Ignoriere die nächsten Posts, Philipp. Aber ja, nochmal dazu die zwei Themen.

SPEAKER_00 17:40

Ist auf jeden Fall sehr, sehr interessant, was jetzt passiert und worauf man achten muss und das vielleicht doch interne, ich weiß nicht, irgendwie mehr Tooling, die halt brauchen.

SPEAKER_01 17:52

Ja, das könnte halt vielleicht was sein, dass irgendwie noch mehr automatisiert überwacht wird oder so. Oder haben wir es halt auch wieder?

SPEAKER_00 17:58

Ja, also viele haben ja danach geschrieben, so, hey, du kannst deine NPN-Config anpassen, dass du nur Updates, also dass du Updates ziehst, die sieben Tage älter sind. Dann eine andere meinte dazu, aber ja, okay, was ist, wenn man wirklich ein CVE hat oder irgendein Leak, so wie bei den React Server Components zum Beispiel, dann hast du halt den Fix auch sieben Tage später und dann hast du halt den anderen Angriffsvektor, dass die Updates nicht eingespielt werden. Also es ist nicht ein einfaches Topic. Ja, genau.

SPEAKER_01 18:28

Gut, dann hast du noch mitgebracht den Hermes Agent.

SPEAKER_00 18:32

Genau, also wir hatten ja schon öfters Open Claw, Clotbot, Moldbot, whatever. Und Hermes Agent ist eine Alternative von News Research. Vielleicht haben einige den Namen schon gehört, News Research war bisher immer bekannt für die Hermes Open LLM-Modelle. Also vor allem auf Lama-basierend hatten sie ja sehr, sehr gute Open LLM-Modelle damals und die haben jetzt Hermes oder vor, es ist schon ein bisschen älter, sage ich Modus gerade am Bauen, Hermes Agent Released. Das ist ein MIT-Licensed Agent-Harness, sehr ähnlich zu Open Claw. Heißt, man hat auch Telegram, WhatsApp, verschiedene Channels als Input, man hat eine CLI, mit der man chatten kann, man hat auch dieses Single Gateway-Prinzip. Das heißt, dass ich von verschiedenen Channels halt in Nachrichten mein Agents schicken kann. Man hat Skill-Support, man hat ganz, ganz, ganz viele andere Features, die man kennt, with Chron und andere Themen. Was besonders ist, sage ich jetzt mal, ist, es ist ein Python geschrieben und es ist mehr oder näher an Research-orientiert oder in Companies orientiert denn Open Claw. OpenClaw ist ja sehr B2C-orientiert, ich als individueller User nutze es und mache dann damit irgendwelche Dinge. Und worauf die geachtet haben, wenn ich es richtig verstehe, ist es Research-Ready. Das heißt, man hat mehr programmierbare Interfaces, man hat Batch Generation, man kann es in sein Reinforcement Loop mit einbauen. Alle Interaktionen, die man mit Hermes Agent macht, werden in einem Format gespeichert, dass ich dann die auch nutzen kann, um danach kleinere, andere Open-Source-Modelle sozusagen trainieren kann. Das heißt, alles ist darauf ausgelegt, dass ich den Agent nutzen kann in meinem Training von meinen eigenen Modellen, beziehungsweise auch im Generieren von Daten für Evals, für Feintuning und die alle, sag ich mal, in das Python-Ecosystem mehr oder weniger mit reinpassen. Es gibt auch interessanterweise eine Migration von OpenClaw. Das heißt, wenn ihr irgendwie aktuell OpenClaw nutzt, dann könnt ihr relativ easy mal euch Hermes Agent anschauen und sie haben halt, weil sie doch, sag ich mal, Open Labs sind mehr oder weniger einen starken Fokus auf den Open Modellen. Das heißt, sie arbeiten mit den ganzen, sag ich mal, Chinese Open Modell Providern zusammen. Es gibt zwar Support für OpenAI und Cloud und Gemini, aber auch für Gemma jetzt und ist definitiv interessant. Also man hat ein ähnliches Onboarding-Prinzip. Ich habe eine CLI, die ich installiere, und dann kann ich halt so einen Onboarding-Flow durchgehen, wo ich meine Provider auswählen kann. Und sehr cool, vor allem, weil sie auch eine relativ enge Integration mit OLAMA haben. Ich glaube, das ist irgendwie ein Command, den ich eingebe, um OLAMA als Backend nutzen zu können mit dem Hermes Agent, mit dem neuen Gemma-Modell jetzt. Und dann habe ich diesen full-blown Agent-Harness, den ich dann super schnell zu Telegram oder zu anderen Dingen verknüpfen kann. Und dass ich halt diese Traces für jede Interaktion mit Speicher, die ich dann halt wirklich nutzen kann fürs Training.

SPEAKER_01 21:35

Okay.

SPEAKER_00 21:36

Und dann halt auch gleiche Features, also mit Skills, mit Memory. Sie sagen es selber, dass sie mehr auf dem Hermes Agent erstellt Skills, denn als Nutzer erstellen Skills und die werden auch getestet oder selber ausgeführt im Hintergrund so ein bisschen. Es ist auf jeden Fall, wenn ihr Open Claw-Fans seid, dann gerne mal reinschauen. Vielleicht lernt ihr Irgendwas Neues, vielleicht passt es ein bisschen besser. Und vor allem, wenn die halt irgendwie, sag ich mal, eine Mehr Company-Space sind, wo man vielleicht ein Agent irgendwann nutzen kann, dann ist es halt schon ein Riesenvorteil, wenn ich jetzt schon anfangen kann, so ein bisschen meine eigenen Daten zu erstellen, von wie meine Nutzer, wie meine, sag ich mal, Entwickler, wie irgendwas anderes mit halt diesem Agent in Tag geht.

SPEAKER_01 22:20

Ja. Irgendwie, es gefühlt mir für mich da immer so ein krasser Unterschied, ob das jetzt so im Moment noch in dem privaten Space ist, den man halt auch sowas, alle Zugänge und sonstige Sachen irgendwie angeht, oder wenn man es dann direkt schon so auf Enterprise-Ebene denkt, dass da immer irgendwie gleich viel mehr Implikationen mitkommen, wo liegt das Ganze und was sind da die Zugänge und wie ist das User Management und wer kann dann auf die Daten zugreifen und wie ist das alles geteilt und so. Das eröffnet irgendwie gleich noch so einen ganz anderen Space an Gedanken, die man irgendwie hat.

SPEAKER_00 22:50

Ja, jetzt warum ich es vor allem interessant finde, ist aktuell so ein wachsender Fokus darauf, jeder nutzt ja Agents für alles Mögliche und vor, sag ich mal, zwei Jahren haben wir ja alle Feintuning-Datasets erstellt, synthetisch mit LLMs und jeder hat diese Feintuning-Datasets geteilt. Da gab es Chat-GPT, was damals echte Chats von Chat-GPT war, die Users geteilt haben und sowas. Und alles geht in Richtung, hey, okay, mit diesen Agents, wir brauchen diese ganzen Agent-Sessions, wo man mehrere User-Input hat, wo man den ganzen Tool-Calling-Loop hat, damit ich den halt als Daten habe, um zu evaluieren, um echte Prompts zu bekommen, um Modelle dann auch zu verbessern. Und da geht halt alles hin. Ich weiß jetzt nicht, ob OpenCloud auch ein Feature hat, wo ich das direkt exportieren kann oder dass eh generell alles lokal so gestort ist, dass ich das direkt nutzen kann oder sowas, aber das fand ich halt für alle, sag ich mal, Modellbauer, Menschen, die Feintuning-Modelle nutzen, sehr, sehr cool. Vor allem jetzt hat man mit Gemma ja ein relativ gutes, kleineres Open Modell, was schon sehr gut im Function Calling ist. Nutze ich jetzt irgendwie Hermes Agent in meinem Team oder nur privat, dann kann ich es wahrscheinlich super easy besser machen oder dann halt die Daten, die ich gesammelt habe, mit anderen Modellen verbessern oder also im Sinne von, hey, ich habe hier irgendwie eine Trajectory, wo ich sage, hey, bitte, ich weiß nicht, check meinen Google-Mail-Kalender, meine E-Mails und erstell mir ein Daily Flow oder plane meine neuen Meetings, finde Zeit mit Dennis. Und wenn ich halt diese habe, die vielleicht nicht perfekt sind, weil das Modell irgendwie Toolcalling-Fehler macht oder irgendwie sowas, kann ich die halt anpassen oder synthetisch verändern, dass ich halt den richtigen Flow habe und dann halt wieder Modelle darauf trainieren oder halt dann mit Reinforcement Learning die dagegen zu verifizieren. Und ich glaube, das ist der größte, sag ich mal, Unterschied dazwischen und sie sagen selber auch natürlich, sie sind besser und es ist ein bisschen leaner. Aber das kommt dann, sag ich mal, alles auf die persönliche Präferenz an. Okay.

SPEAKER_01 24:50

Hast du aktuell irgendwas in die Richtung laufen?

SPEAKER_00 24:55

Jein. Also persönlich jetzt nicht. Ich weiß nicht, also ich habe nutzt Poke immer noch. Also ich habe aber auch mehr so, ich weiß nicht, ich habe jetzt nicht so viele Dinge, die ich im Hintergrund machen muss, wo ich dann eine Benachrichtigung brauche, muss ich sagen.

SPEAKER_01 25:12

Ja, was waren das? Pika. Pika, die, da hatten wir glaube ich auch irgendwann mal drüber gesprochen. Die haben so vor allen Dingen so Kurzvideoclips mit so vorgefertigten Szenen und sowas gemacht. Die haben auch vorletzte Woche oder sowas auch so ein Agent als App rausgebracht. Ich glaube einfach so, kann sich vorstellen, als sehr abgespeckte Version von einem dieser Dinge, aber wo man eben auch zu ein paar Services eben Zugriff geben kann und das halt einfach in einem schönen Interface irgendwie gerappt ist und es redet halt von seinem deinem AI-Bild zu sagen, das heißt, du machst auch einen Snap, äh, ein Selfie von dir und dann wird direkt so ein 3D-Avatar erstellt, wie dann aussieht und es aber auch direkt schon so ein gewisser Business-Bezug. Sagt so, hey, wenn du auf LinkedIn irgendwie Sachen posten willst oder keine Ahnung. Ja, versucht das halt irgend so ein bisschen zu leveragen. Aber hat mir trotzdem nicht so gut gefallen.

SPEAKER_00 26:05

Also was ich gesehen habe, also ich habe Latent Space hat einen sehr guten Podcast mit den Tremern-Startup gemacht. Dreamer wurde ja innerhalb von einem Monat, nachdem sie gelauncht sind, von Meta Direct Acquire. Das war so ein Agent OS-Startup, kann man sich gerne mal anhören. Da haben die auch viel darüber geredet, mit diesen, sag ich mal, Proactive Hintergrund-Agents, wofür die die nutzen. Und interessante Use Cases fand ich, vor allem wenn man halt irgendwie sehr viel arbeitet oder halt beschäftigt ist, dass man halt so Themen wie, keine Ahnung, was kann ich am Wochenende mit meinen Kindern machen. Da haben die halt gemeint, okay, da kriegt ihr jede Woche irgendwie einen Art Report basierend auf dem, was sie halt in der Vergangenheit gemacht haben und direkt halt so Vorschläge oder für alles andere, ich weiß nicht, ich frage dann halt doch irgendwie noch Gemini oder wenn ich irgendeinen Flug buchen möchte, dann buche ich den halt selber und privat habe ich jetzt nicht so viele E-Mails und sag ich mal, Social Media Anbindungen ist ja auch nicht immer gut und man möchte auch irgendwie nicht, dass man mit, also wenn mir jemand eine Nachricht schreibt, dann antworte ich den. Dann habe ich nicht irgendwie einen Bot, der da antwortet, dass es irgendwie ein bisschen, das heißt, ganz viel meinos Nutzen ist halt einfach mehr in dem professionellen Umfeld als irgendwie im Privaten. Ich hoffe zwar darauf, dass die ganzen Smartphone-Devices jetzt die Upgrades schneller bekommen und dann mehr Usage darüber geht. Abwarten.

SPEAKER_01 27:23

Ja, das ist eine gute Frage. Ich meine, ich habe gestern irgendwie zwei, drei Stunden verbracht, ein neues Haus für einen Skiurlaub zu suchen für nächstes Jahr. Ja.

SPEAKER_00 27:35

Kauft ihr direkt, oder? Zwei Wochen Skiurlaub, dann mal kurz. Ja, ja, genau. Wer mietet denn?

SPEAKER_01 27:44

Nein, zur Miete natürlich. Gut. Dann haben wir es. Vielen Dank, dein guter Reise. Du bist bald jetzt beruflich wieder im Flugzeug unterwegs. Und dann hören wir uns hoffentlich in zwei Wochen wieder.

SPEAKER_00 28:01

Sonst schreibt ihr. Ja, in zwei Wochen ist, glaub ich schon, die Google Cloud Next. Ich weiß nicht, ob die programmierbar vor Ort sein wird, aber ich werde definitiv vor Ort sein.

SPEAKER_01 28:11

Du wirst definitiv vor Ort sein und Jan ist auch vor Ort. Ja, perfekt. Von daher. Sehr gut, cool. Dann gucken wir mal, wie wir da vielleicht eine Aufnahme reinstopsen können oder nicht. Sehr gut. Bis bald. Macht's gut. Ciao, ciao.