programmier.bar – der Podcast für App- und Webentwicklung

News AI 17/26: Anthropic: Opus 4.7, Claude Design, Mythos Preview // Codex Updates // Kimi 2.6 // Qwen 3.6

programmier.bar Season 7 Episode 33

Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.

0:00 | 28:07

Wie hat dir die Folge gefallen?
Gut 👍
Schlecht 👎
(Keine Anmeldung erforderlich)


In dieser Folge der AI News begrüßen euch Dennis und Philipp. Philipp meldet sich direkt aus den USA und steht gerade kurz vor der Google Cloud Next in Las Vegas. Gemeinsam tauchen die beiden tief in die neuesten Veröffentlichungen von Anthropic ein.

Den Anfang macht ein Modell, das fast schon zu gut für die Öffentlichkeit ist: Claude Mythos. In einer Preview-Phase zeigt Anthropic hier Fähigkeiten im Bereich Security und Vulnerability Research, die so weit fortgeschritten sind, dass das Modell vorerst nur ausgewählten Partner:innen im Rahmen des „Project Glasswing“ zur Verfügung gestellt wird, um das Internet sicherer zu machen, bevor es in falsche Hände gerät. Erinnert ihr euch noch an die Anfänge von GPT-2? Wir diskutieren, ob dieser „Safety-First“-Ansatz Marketing oder Notwendigkeit ist.

Ganz konkret für euch nutzbar ist dagegen das Update auf Claude Opus 4.7. Die Benchmarks, besonders im Coding-Bereich, machen einen ordentlichen Satz nach vorne. Aber Vorsicht beim Budget: Durch einen neuen Tokenizer verbraucht das Modell bis zu 35 % mehr Tokens für den gleichen Text. Wir besprechen, was das für eure API-Kosten bedeutet und warum das Modell trotzdem ein No-Brainer für komplexe Aufgaben bleibt. Passend dazu hat Anthropic Claude Design gelauncht – ein Tool, mit dem ihr ganze Design-Systeme und interaktive Prototypen direkt per Prompt erstellen könnt. Ob das wirklich der viel beschworene „Figma-Killer“ ist oder eher eine mächtige Brücke zwischen Idee und Code, erfahrt ihr in der Folge.

Auch bei OpenAI gibt es Neuigkeiten, speziell für die Codex MacOS Anwendung. Mit der neuen „Computer Use“-Integration kann die KI nun direkt auf eurem System agieren, sei es in Slack, im Browser oder direkt in eurer Entwicklungsumgebung für Swift-Projekte. Wir schauen uns an, wie die neuen In-App-Browser-Editoren und die Integration von Image 1.5 euren Workflow beschleunigen können – auch wenn einige Features in der EU noch auf sich warten lassen oder nur über Feature-Flags erreichbar sind.

Zum Abschluss werfen wir einen Blick nach China, wo sich das Karussell der Open-Weights-Modelle immer schneller dreht. Kimi 2.6 beeindruckt mit extremen Fähigkeiten für „Long-Horizon Agentic Use Cases“ und tausenden parallelen Tool-Calls. Gleichzeitig schickt Alibaba Qwen 3.6 ins Rennen, das in der MoE-Variante (Mixture of Experts) sogar Googles Gemma in einigen lokalen Szenarien den Rang abläuft.


Schreibt uns!
Schickt uns eure Themenwünsche und euer Feedback: podcast@programmier.bar

Folgt uns!
Bleibt auf dem Laufenden über zukünftige Folgen und virtuelle Meetups und beteiligt euch an Community-Diskussionen.

Bluesky
Instagram
LinkedIn
Meetup

SPEAKER_00

Hallo und herzlich willkommen zu den neuen AI News Kalenderwoche 17 2026. Wir reden hier heute über alles Mögliche, was Anthropic rausgebracht hat, Claud Opus 4.7 und Cloud Design unter anderem. Und dann gibt es aber auch von OpenAI News, was Codex angeht. Und noch zwei Modelle Kimi 2.6 und Gwen 3.6, die wir uns angucken wollen heute. Ich bin Dennis Becker und mir zugeschaltet aus den fernen USA. Moin Philipp. Ja, ohne dass du was verraten musst, Google Cloud Next steht an. Vielleicht hören wir irgendwas AI-Relatedes noch die nächsten zwei Tage.

SPEAKER_02

Ich glaube ich persönlich. Ich glaube, das Thema AI ist tot. Nee, ich meine, Jan ist ja auch vor Ort. Ich bin mir sicher, dass spätestens entweder in einer extra Folge oder nächsten Mittwoch dann mehr dazu kommt. Aber ich bin gespannt. Ich weiß selber nichts. Außer wo ich halt dabei bin. Ich habe ja ein paar coole Sachen.

SPEAKER_01

Aber ansonsten, ja, ich meine, wie jedes Jahr Vegas. Schauen. Ja, super spannend.

SPEAKER_00

Genau. Und im allerbesten Fall findet ihr euch auch noch was zusammen in Las Vegas, Jan. Aber du hast natürlich einen vollen Schedule und dann könnt ihr vielleicht noch direkt eine Live-Folge rausbringen und gucken, was da für Updates gab. Aber ich glaube, wir haben auf jeden Fall auch ein paar Dinge, die wir besprechen können, die jetzt nicht aus Las Vegas kommen, sondern ich habe Los Angeles, habe ich eben irgendwas mit Los Angeles gesagt? Ja, du hast LA gesagt heute Morgen. L.A. gesagt, okay, ja, Las Vegas. Anderes LV, L, L, LV. Judya Anthropic hat wieder einiges gemacht und ein paar Updates gebracht. Und auch wenn es jetzt, glaube ich, schon eins, zwei Wochen her ist, haben wir noch nicht über Claude Mythes Preview, wie sie es nennen, gesprochen. Was wir, glaube ich, mal kurz tun sollten und wo mich auch deine Einschätzung, Philipp, interessieren würde. Bei Claude Mythis ist es ein Modell, was sie rausgebracht haben, was sie neu trainiert haben. Und ein bisschen erinnert es an so die Geschichte, wenn man zurückblickt, dass es mal bei OpenAI und ich glaube GPT-2 so war, dass sie damals gesagt haben, das Modell ist so fähig, so viele Sachen zu machen. Wir trauen uns nicht, das zu veröffentlichen. Und die Geschichte danach kennt man ja.

SPEAKER_02

GPT-2 2020 oder sowas, glaube ich.

SPEAKER_00

Ja. Und da war schon die große Angst, wie weltverändernd das sein wird. Und mittlerweile sind wir bei GPT-5 und es hat sich auf jeden Fall viel getan. Und die Welt hatte natürlich auch ein bisschen Zeit, schon sich darauf anzupassen und zu gucken. Aber wir sind jetzt wieder in so einem Moment. Und zwar am Ende ist eigentlich Ihre Aussage, es ist eigentlich ein Modell, es gibt auch so eine Model-Card und einen Paper dazu, wo es auch auf allen Benchmarks getestet würde. Vielleicht auf ein paar Zahlen gleich nochmal eingehend, wenn wir über Opus 4.7 sprechen. Also überall grundsätzlich besser geworden, aber die Capabilities, vor allen Dingen im Bereich auch von Security, sind eben so gut, dass Anthropic sagt so, hey, das wäre gefährlich, wenn wir das jetzt veröffentlichen. Und zwar, weil sie auch wörtlich sagen, das ist besser als eigentlich alle Entwickler da draußen, bis vielleicht auf eine Handvoll von Security-Experten, die dieses Niveau erreichen können. Und teilweise haben sie das ja auch schon, also was heißt bewiesen, aber ich meine, zumindest wurden Sicherheitslücken in praktisch allen Betriebssystemen, Browsern etc. gefunden, die irgendwie da sind. Und wenn man das jetzt veröffentlichen würde, das Ganze, und dann kommen die bösen Finger, die es da draußen auch gibt und könnten es halt einfach nutzen, um die ganzen Sachen anzugreifen. Und im Grunde so die Hypothese einfach das Internet namen zu legen, weil einfach alle Infrastruktur, alle wichtigen Player da draußen halt nicht so geschützt sind, wie sie geschützt sein müssen. Und deswegen hat jetzt Claude, nicht Claude, hat Anthropic das Project Glasswing, ist, glaube ich, der Begriff, gestartet und stellt jetzt dieses Modell allen großen Playern da draußen zur Verfügung. Was auch mal genau die Definition von großen Playern ist, aber sei es Google, sei es Amazon, alle möglichen, die halt so ein bisschen auch für die Infrastruktur da draußen nötig sind, um das ganze Internet am Laufen zu lassen und alles, was damit zusammengehört, die jetzt eben das Modell nutzen können, um all diese Sicherheitslücken, die Claude Mythis findet, patchen und ja, patchen zu können, um einfach sicherer zu sein, wenn dieses Modell dann irgendwann in die Öffentlichkeit, in die Hände der Öffentlichkeit geräumt. Und ich glaube, das hat zumindest die Geschichte gezeigt. Ich meine, wir können heute eigentlich ziemlich sicher sagen, dass es kommen wird, jetzt mal unabhängig davon, ob es von Anthropic kommt oder ob eine andere Modelle diese Capabilities dann erreicht, aber wir sehen, dass es technisch möglich ist, diese Qualität zu erreichen mit LLMs, mit ähnlichen Architekturen, die wir gerade haben. Von daher, über kurz oder lang werden wir diese Fähigkeiten auch in unseren Händen halten und auch nutzen können.

SPEAKER_02

Also was vielleicht noch besser ist, ist, es gibt auch von OpenAI Codex Security, welches am März, am 6. März vorgestellt wurde in Research Preview, was so ein bisschen so das gleiche Konzept dahinter hat. Sie haben es jetzt nicht so groß, glaube ich, marketingmäßig aufgezogen, mit von wegen, oh mein Gott, wir dürfen es nicht teilen, es ist zu gefährlich, es ist aber trotzdem überall besser als alle Benchmarks. Und ein paar Beispiele, die sie ja bei Mythos gezeigt haben, würden ja jetzt auch wieder schon von ganz vielen anderen Modellen gefunden. Also es ist jetzt nicht so im Sinne von, hey, das geht nur mit Mythos, sondern es geht auch mit bisherigen Modellen, wenn man denen sozusagen sagt, wo man schauen muss.

SPEAKER_00

Und ja, ich meine, ich glaube, es wäre sicherer, wenn man den Zugriff mehr Leuten gibt als weniger Leuten und vor allem Security-Researchern und sich Researchern und ist es nicht so, dass man irgendwie, ich glaube, man kann zumindest den Request anfordern auch, also wenn man irgendwie in eine dieser Gruppen gehört. Ich glaube, es ist ja, also dieses Project Last Wing Zielgruppe ist nicht maximal bestimmt schon, wer da wer da drin ist und wer nicht drin ist.

SPEAKER_02

Ja, aber ich weiß nicht, wenn man die letzten paar Supply Chain-Attacken anschaut, es sind ja meistens individuelle Menschen, die diese relativ schnell gefunden haben oder festgestellt haben, dass hier irgendwas nicht richtig läuft. Ja, es bleibt spannend. Ich denke, vieles damit hängt damit zusammen, dass das Modell vielleicht zu groß, zu teuer ist, um es breiter zu verteilen, dass es eventuell, dass sie mit Opus 4.6 schon mit das beste Coding-Modell haben. Wieso sollten sie sozusagen dann anderen ein noch besseres Modell geben, wenn es aktuell keine Konkurrenz gibt? Also ich meine, es gibt viele Gründe, warum sie das nicht released haben. Weiß jetzt nicht, ob das Safety der, den ich gewählt hätte.

SPEAKER_00

Okay. Obwohl, ich meine, dann hätten sie es ja auch in der Hinterhalt halten können. Also wenn es so aus Konkurrenzgründen, von wegen sie müssen gerade keins anbieten, weil die Konkurrenz nicht da ist, dann hätten sie es auch nicht öffentlich machen können, was sie schon, was sie schon als Capabilities praktisch im Hintergrund haben und hätten damit dann überraschen können, sobald der nächste kommt.

SPEAKER_02

Ja, also, aber es sind ja ganz viele Diskussionen aktuell darüber, dass am Tropic ja ein IPO plant. Und ich glaube, für solche Themen ist es dann halt doch wieder gut. Und ich habe so ein paar Bilder gesehen oder ein paar, ich weiß nicht, wie das genau funktioniert, aber es gibt ja so Secondary Markets, wo man dann auch versuchen kann, Aktien von privaten Unternehmen zu kaufen und da dann Tropic jetzt op NEA überholt in der Evaluierung. Und also ich glaube, nicht immer alles so ganz einfach, wie man sich das ausmalt. Und das einzige Interessante war, glaube ich, dass Badrock Glaubent Mythos auch anbietet als Preview und man gar nicht über einen Tropic gehen muss. Also Glaub Mythos Preview is available in Gated Preview in the US East North Virginia Region für Amazon Backroad. Und da einfach für alle, oder wie? Naja, Access is limited to an initial law list of organizations.

SPEAKER_01

Okay.

SPEAKER_00

Ja. Genau, also das alles zu Mythos, was da kommt und wo man nicht mehr die Glaskugel braucht, sondern einfach nur das Fernglas, um ein bisschen zu gucken, was kommt. Aber auch vor ein paar Tagen oder Ende letzter Woche wurde Cloud Opus 4.7 vorgestellt, was einfach die nächste Iteration der Modellfamilie dort ist. Auch wieder einiges an Sprüngen auf den Benchmarks. Vielleicht hier nochmal an der Stelle, weil ich eben gesagt habe, das ist auch mit Mythos nochmal zu vergleichen. Also beispielsweise Agenda Coding durch den SWA Bench Pro, wo wir bei Opus 4.6 bei 53% waren, ist Opus 4.7 jetzt auf 64% und Mythus im Vergleich auf 78%. Und ja, ähnlich sieht es auf den anderen Benchmarks eigentlich auch aus. Also sei es SE Bench Radified oder Terminal Bench, ist es überall ein gutes Stückchen besser geworden. Und eben nochmal nochmal den Fakt, also neben ein bisschen mehr, als würde ich sagen, als den Diff zwischen 4.6 und 4.7 ist dann das, was Mythis so erreicht hat auf vielen der Benchmarks. Ich glaube, eins der großen Sachen, die man so ein bisschen highlighten kann, ist das Visual-Verständnis, das in Opus 4.7 deutlich besser geworden ist, also einfach, dass es in viel höherer Auflösung Dinge lesen kann. Das heißt, wenn man Screenshot pastet oder sowas, einfach Text und Details viel, viel besser erkannt werden können. Und ja, ich glaube, oh ne, bleiben wir ganz kurz da noch, weil Visual hat dann noch andere Implikationen, nämlich ein ganz anderes Tool, was Claude noch gelauncht hat. Was vielleicht noch ganz interessant ist, dass sie den Tokenizer geupdatet haben. Das heißt einfach, wie die Tokens generiert werden. Was dazu führt, dass es generell, also ihr Hintergrund oder die sehr simple Begründung ist, einfach okay, damit funktioniert das LLM besser mit den Tokens, die sie jetzt dort nutzen. Und bis zu 35% mehr Tokens sind aber notwendig oder werden jetzt in bis zu 35% mehr Tokens wird das Ganze jetzt übersetzt, was einfach bedeutet, dass Opus hungriger ist, was die Tokens angeht. Und genau, gibt es einfach noch so ein bisschen ein paar Update-Hinweise, wenn man jetzt von Opus 4.6 auf 447 geht. Es gibt auch diese Thinking-Modes, also wie viel er nachdenkt, die sich ein bisschen geändert haben. Und da muss man vielleicht einfach für sich selbst so ein bisschen jetzt den neuen Weg finden zwischen wie viele Token werden verbraucht und wie viel Tiefe unter Intelligenz brauche ich für die Aufgabe, die ich jetzt gerade habe.

SPEAKER_02

Wie stehst du dazu, dass jetzt alles 30% teurer ist?

SPEAKER_00

Ja, also erstens würde ich mal sagen, es sind ja die Input-Tokens, oder? Also das heißt, die sind ja schon mal ein bisschen günstiger als die Output-Tokens.

SPEAKER_02

Nee, also er generiert ja auch mehr Tokens. Also was vorher fünf Tokens zu generieren war, sind jetzt 8 Tokens zum Generieren. Also es ist nicht nur Input.

SPEAKER_00

Ich weiß gar nicht, warum ich das so nach Input gelesen habe, aber ja.

SPEAKER_02

Also alles ist 30 bis 35 Prozent teurer und ich habe auch ein paar Beispiele gesehen, wo es was 2x ist, wenn du irgendwelche SQL-Querys oder sowas schreibst. Weil scheinbar Leerzeichen sehr viel anders genutzt werden als vorher.

SPEAKER_00

Das ist interessant, weil jemand aus dem BI-Team hat mir heute geschrieben und hat gefragt, hast du mich in den Plan runtergestuft, weil ich jetzt so viel schneller durch die Limits bin. Ich habe ja auf Opus 4.7 verwiesen. Ich meine sogar, er hat er geschrieben, dass er 4.6 trotzdem noch genutzt hat. Aber es wäre, ich werde es nochmal als Hinweis reingeben, weil da könnte das SQL-Ding ja durch den Dinge sein. Ja, keine Ahnung, ich habe nicht so richtig eine Meinung dazu. Also ich meine, es ist halt ein bisschen die Frage, wie halt diese, ne, die Abos irgendwie dann ausreichen oder wie weit man da mit seinen Session Limits kommt. Ich verstehe so, oder beziehungsweise ich tue mir auch noch irgendwie im Moment ein bisschen schwer, halt mit der mit der Rechnung, die API-Tokens sind halt so viel teurer, da bist du auch schnell irgendwie am Limit, wo du sagst, dass das, oder weiß nicht, ob du im Limit bist, aber zumindest mal wirtschaftlich es durchrechnen musst. Keine Ahnung. Also eine Premium Subscription ist so ein No-Brainer, weil den Gewinn, den du hast, ist kein Problem. Aber wenn du halt über die API die Tokens so rausbläst, ist ja schon die Frage, wo da so die Grenzen sind, dass es eben Sinn macht und nicht Sinn macht. Von daher ist es, glaube ich, für den tatsächlichen Use Case, also für das tatsächliche Nutzen eher relevant, so laufen wir jetzt alle viel, viel deutlich, viel, viel häufiger in die Limits und sind irgendwie am Ende unserer Subscription und müssen irgendwie andere Wege finden oder ist das noch einigermaßen innerhalb dieser Nutzungsgrenzen so nutzbar.

SPEAKER_02

Ja, ich glaube, es ist halt wieder so ein Change, der so ein bisschen untergeht bei dem normalen Nutzer. Der wechselt jetzt einfach Opus, sieht Pricing ist irgendwie gleich auf der API, sieht seine Subscription ist irgendwie gleich, aber er hat irgendwie 30% weniger Tokens. Oder 35% weniger Tokens oder sogar noch mehr. Und wenn du das irgendwie, keine Ahnung, bisher halt hat dir das für deine acht Stunden Arbeit gereift, dann bist du halt nicht so noch bei fünf Stunden. Ja.

SPEAKER_00

Vielleicht nicht alles sechs Stunden, aber. Da musst du das Thinking-Model runterdrehen oder den Thinking-Mode reduzieren. Oder halt nur noch sechs Stunden Arbeit. Oder sechs Stunden Arbeit. Das ist vielleicht keine schlechte Alternative. Da habe ich übrigens auch gelesen, das fand ich auch krass, weil die haben jetzt gesagt, mittlerweile gibt es tausend Unternehmen, die eine Million oder mehr jährlich bei Anthropic lassen. Da habe ich auch gedacht, also wenn man es, wenn es jetzt einfach nur die Abos wären, dann wären das irgendwie 8000 Mitarbeiter. Das heißt, wenn du jetzt große Unternehmen hast und du rollst es wirklich für alle irgendwie aus, aber so viele Unternehmen, irgendwie 1000 Unternehmen, die 8000 und mehr Mitarbeiter haben, die gibt es ja irgendwie auch nicht. Das heißt, das sind ja schon alles dann anscheinend Use Cases, wo man nicht über die Subscription gehen kann und wo irgendwie über die API abgerechnet wird, oder? Wie kannst du dir das erklären?

SPEAKER_02

Genau. Ja, oder manche haben vielleicht einfach mehrere Subscription pro Person.

SPEAKER_00

Ja, das habe ich auch schon als sinnvollen Plan ausgedacht, dass wir das, wenn wir da reinlaufen, dass man das mal testen müsste, wie das funktioniert. Oder wie nervig es ist, das zu machen, sagen wir es mal so. Zumindest verstehe ich diese Posts nicht, wenn online irgendwie auf LinkedIn, oh ja, 10.000er Token, 10.000 Dollar ausgegeben, sondern denke ich, okay, das ist irgendwie nicht richtig smart genutzt. Aber gut. Vielleicht du als Anbieter würdest eher sagen, naja, anders können wir ja nicht überleben, wenn wir nicht das mehr brechen.

SPEAKER_02

Ich meine, man muss sich ja immer überlegen, warum 200, warum ich für 200 Euro so viele Tokens bekomme und die API-Kosten so höher sind. Was machen die mit den Infos, die sie von mir bekommen durch die Subscription? Und ich kann mir durchaus vorstellen, dass für viele Enterprise-Kunden, da gibt es ja nur noch dieses Token-Billing, dass die halt einfach sagen, hey, die Security-Anforderungen von den normalen Plänen können wir nicht nutzen, wir wollen das Modell aber nutzen, dann zahlen wir halt was auch immer. Ich weiß nicht. Geht vielleicht auch Unternehmen, denen Data Breaks und Snowflake und Amazon kosten oder so.

SPEAKER_00

Aber es ist auch noch ein guter Punkt, wenn du sagst, bei Enterprise gibt es gar nicht mehr die, äh nicht diese Ursachen. Dann ist es wahrscheinlich auch nochmal mit ein Grund. Gut, eben gesagt, die Vision Capabilities sind deutlich besser geworden bei Opus 4.7 und das hat Anthropic auch dazu gebracht, Claude Design rauszubringen. Jetzt direkt auf Social Media etc. verschrien als der Figma-Killer. Aber das muss ich dann wahrscheinlich erst nochmal rausstellen, ob es so wirklich ist. Am Ende ist es ein Tool, was im Hintergrund Opus 4.7 nutzt und mit denen man jetzt Designs prompten kann. Und das ist tatsächlich ganz, ganz cool vom Interface, finde ich, weil es so entweder in Designsystemen denkt oder Prototypen bauen kann, die halt auch ein bisschen, ja, dann schon interaktiv sind und man rumklicken kann. Es gibt viel so Panels, die aufgehen, wo man dann einfach Slider hat, um nochmal Details des Designs so ein bisschen zu verändern. Ich weiß nicht, ich glaube in, ich weiß nicht, ob es in den Air News war oder in den regulären News, eigentlich meine Erfahrungen waren ähnlich wie das Google Stitches der richtige Name, ne? Wo man Interfaces machen kann. Ich weiß nicht warum, aber ich habe irgendwie das Gefühl, dass bei Design halt so diese Genauigkeit nochmal irgendwie ein Ticken wichtiger ist. Ich habe halt so einen Style-Guide gemacht für die programmierbarer Webseite. Und dann hat er halt einfach gesagt, ja, das Logo, okay, ist, sehe ich ein SVG, super kompliziert, irgendwie einzelne Buchstaben. Ich mache das mal gerade neu. Und es sah halt dann nicht aus wie das Programmierbar-Logo. Also es war sehr ähnlich und die Farben stimmten, aber es war halt nicht das Logo 1 zu 1. Und dann denke ich mir schon so, irgendwie, vielleicht, weißt du, im Code ist es dir vielleicht egal, wenn das irgendwie noch ein bisschen anders geschrieben ist. Also gibt es noch so mehr Varianz, wie der Code aussehen kann, um zu einem Ergebnis zu kommen. Aber im Design ist es häufig noch genauer, wie etwas sein muss. Und von daher, ich glaube, auf jeden Fall ist es eine starke oder erstmal auch ein sehr cooles Tool und sollte man sich mal angucken, gucken, wie weit man damit kommt. Es gibt jetzt auch schon so Webseiten, die ähnlich wie die Skills für Claude, so komplette Designsysteme, weiß nicht, man es nennt, kopiert oder abbilden, wo man dann sagen kann, okay, ich will wie Apple oder wie Vodafone oder wie wer auch immer irgendwie etwas design, um so ein bisschen vielleicht von einem 0815 Tailwind CSS Design so wegzukommen, den viele Agents direkt nutzen. Ja, also wird spannend sein, wie weit das geht und wie weit das wirklich irgendwann sowas wie Figma ablösen können. Und ob man es vielleicht, keine Ahnung, vielleicht braucht man dann nur die Tools für wirklich kreativere Sachen, also sowas wie Photoshop etc. Und Figma, was so ein bisschen diese Brücke war zwischen, ich will eigentlich sehr technisch sein, dass man nicht mehr braucht. Aber ja. We'll see. Auf jeden Fall gerne ausprobieren. Cloud Design. So, 20 Minuten Bühne für Anthropic, das war viel. Was haben wir noch Spannendes?

SPEAKER_02

Ja, also ich halte es kürzer, besuche ich zumindest. Codex gibt jetzt für almost everything. Also OpenAI, Codex, Make-Aways Anwendung, A2, größere Updates bekommen und man kann das jetzt sozusagen wie Cloud Cowork für alles nutzen, was man eigentlich auf seinem PC macht. Es gibt jetzt eine Computer-Use-Integration, das heißt, man kann einfach im Chat Add Computer-Use mehr oder weniger sagen und dann, keine Ahnung, hier ist mein Chrome-Browser oder hier ist mein Flag, bitte mach XY. Hab schon coole Beispiele gesehen, wie man zum Beispiel Swift-Anwendungen dann programmieren kann, wo dann Codex mehr oder weniger Zugriff auf die Swift-Anwendungen hat und sehen kann, okay, wie es funktioniert, das so ein bisschen wie Playwright halt für alles, was auf dem Mac läuft und soll scheinbar echt gut integriert sein. Es gibt einen neuen In-App-Browser-Editor in Codex. Codex hat jetzt Zugang zu Image 1.5, wahrscheinlich bald Image 2, so wie ich die Rumors verstehe. Das heißt, es gibt, kann Bilder jetzt generieren für irgendwelche Webseiten oder so, wenn du programmierst. Du kannst halt, wenn du irgendwie eine Freundin-Anwendung hast, halt in Codex deinen Browser halt aufmachen und dann kannst du da drin Elemente anklicken und kommentieren und sagen, hey, mach die Schrift irgendwie größer. Es gibt generell über 90 Plugins jetzt in alle gängigen, sag ich mal, Produktivit-Tools, also Slack, was auch immer. Man kann zusätzlich zu dem Browser Excel-Sheets und andere Office-Produkte, sag ich mal, aufmachen und dann direkt mit Codex irgendwie, hey, keine Ahnung, findet meinen Top-Kunden hier. Da kannst PDFs die anschauen und darüber reden. Also alles, was halt non-coding, aber Productivity jetzt ist. Und es gibt ein Update zum Memory-Feature, welches Nicht in der EU gibt. Generell gibt es auch Computer Use, soweit ich verstanden habe, noch nicht in der EU. Man kann es aber über Feature Flex enabeln. Das heißt, wenn euch das interessiert und ihr das nutzt, mal ein bisschen googeln. Irgendwo gibt es, was man einstellen muss.

SPEAKER_01

Und ja. Nutzt du Codex?

SPEAKER_00

Nee, länger nicht. Länger nicht genutzt. Also ich bin ein bisschen hängen geblieben. Also ich habe ja Conductor lange genutzt, aber in Kombination mit Claud, jetzt zuletzt auch die Cloud App ein bisschen häufiger selbst, auch eben mit dann, wie heißt das, Cloud and Chrome. Wobei das ja dann auch immer halt so ein Plugin in Chrome ist. Also es ist irgendwie auch ganz cool, wenn es dann einfach über den Computer eher läuft und du nicht nur so isoliert dann eine App hast, in der das geht. Aber ich weiß, dass zwei unserer Dev-Kollegen wieder auf Codex sind fürs Programmieren und nicht mehr bei Cloud Center.

SPEAKER_02

Genau. Und was noch, ich habe es nicht ganz verstanden, es soll da sein, aber es ist nicht so richtig da. Man kann auch Codecs auf einer Dev-Box jetzt verbinden, also ähnlich wie bei BS Code oder Cursor, wo ich dann über SSH mehr oder weniger, ich habe meinen lokalen IDE-Editor, aber alles, was ich halt ausführe, läuft auf meiner VM. Das soll für Codex auch da sein. Ich habe es ein bisschen schwammig verstanden, wie man es genau einrichtet oder wie es funktioniert, weil es nicht super intuitiv ist. Aber auch mit dem Gedanken, dass ich halt meine Codex lokal habe und dann, keine Ahnung, ich habe einen Server mit, keine Ahnung, zum Beispiel GPUs und möchte mein Modell trainieren, dann kann ich einfach Codex darauf easy alles ausführen lassen, ohne dass der immer weirde SSH-Commands ausfüllen muss. Cool. Genau. Und dann noch gab es zwei neue Open Weights Modelle aus China. Gestern hat Moonshot Kimi K2.6 released. Ich gab es einfach nur neue Post-trainierte Variante, also selbe Modelgröße mit einer Trillion Parameter, wieder ein MOI, ähnliche MIT-License, also nicht ganz MIT, sondern MIT angepasst, mit je nachdem, wie viel Revenue man hat, muss man halt irgendwie mit denen reden oder halt sagen, dass man Kimi nutzt. Es ist vor allem besser für Long Horizon Agentic Use Cases. Also sie sagen, irgendwas von, es kann über 4000 Tool-Calls machen, über 12 Stunden alleine laufen, über 300 Agents parallel nutzen. Alles ein bisschen besser als vorher. Wenn ihr irgendwie Kimi genutzt habt in Open Code oder sonst irgendwie, dann gerne mal reinschauen. Es sieht nach einem einfach noch Verbesserung aus, sag ich mal. Und das gleiche gilt auch für Quen 3.6. Es gibt einen Quen 3.6 Sparse MOI mit 35 Milliarden Parameter 3 Active und eine Quen 3.6 Max Preview. Die MOI-Variante ist unter Apache 2.0 released, also so ähnlich wie Gemma jetzt. Und wird auch bei allen Benchmarks, sage ich mal, mit Gemma, verglichen, wo es größtenteils auf den Benchmarks besser ist als Gemma. Ist natürlich auch ein bisschen größer, aber ja, ich glaube, muss man dann testen. Weil ich habe jetzt zum Beispiel viel Gutes über Gemma gehört, obwohl die Benchmarks nicht top sind. Deswegen aber trotzdem, wenn ihr irgendwie lokal oder lärm Nutzen seid, dann auch mal Quen 3.6 anschauen.

SPEAKER_01

Ja. So was eigentlich. Sehr gut.

SPEAKER_00

Mir ist gerade der Use Case entfallen. Schade. Weil Gemma 4 war. Ne, Gemma 4 war ja auch einmal in irgendeinem Thread unter groß gelobt. Also ich habe eine War.

SPEAKER_02

Ich kann mir das auch in meinem Flug von Amsterdam nach Las Vegas über LM Studio genutzt, die 26b MOI-Variante, um einfach ein bisschen zu chatten, ein bisschen zu coden, ein bisschen einfach um halt kleine Dinge zu machen. Und es ist extrem gut. Also, wenn wir das vergleichen, so ein bisschen mit irgendwie GKT-VO, also so daily normale Use Cases, wo ich, keine Ahnung, fragt, wie das Wetter ist, wie irgendwelche anderen Dinge sind, reift es schon. Also alles nicht-Coding finde ich schon echt beeindruckend, was wir jetzt mittlerweile damit machen können.

SPEAKER_00

Ja. Ja, ist ein relativ langer Post, der die Liebe für Gemma 4 zeigt. Das Modell ist ja der Hammer, weil ich versuche, was mit gutem Deutsch, starkem Tool Calling, guter Performance und Vision. Und der hatte davor Gwen35 MOE genutzt und hat auch so einen irgendwie Evaluierungskatalog, wo er dir dann immer gegenlaufen lässt. Und vor allen Dingen, dass es halt deutlich schneller war in dem. Und Native Function Calling hat er, glaube ich, ja so die Hauptgröße draus gebracht, warum es für ihn so viel besser gepasst hat in den Tests und Cases, die er gemacht hat.

SPEAKER_01

Ja. Gut.

SPEAKER_00

Okay. Dann gucken wir mal, ob es noch ein Special gibt von euch. Und sonst wünsche ich dir erstmal ganz, ganz viel Spaß in Las Vegas. Nicht in Los Angeles, in Las Vegas. Und dann hören wir uns spätestens zwei Wochen wieder. Alles klar. Schreibt uns gerne Feedback an podcast.programmier.bar und macht's gut. Habt eine gute Zeit. Bis dann. Ciao, ciao.