Deep Dive 208 – AI & Audio mit Georg Holzmann Artwork

programmier.bar – der Podcast für App- und Webentwicklung

Die programmier.bar lädt regelmäßig spannende Gäste aus der Welt der App- und Webentwicklung zum Gespräch ein. Es geht um neue Technologien, unsere liebsten Tools und unsere Erfahrungen aus dem Entwickler-Alltag mit all seinen Problemen und Lösungswegen.

Euer Input ist uns wichtig! Schreibt uns eure Themenwünsche und Feedback per Mail an podcast@programmier.bar oder auf Discord (https://discord.gg/SvkGpjxSMe), LinkedIn (@programmier.bar), Bluesky (@programmier.bar), Instagram (@programmier.bar) oder Mastodon (@podcast@programmier.bar).

Wir sind Full-Stack-Spieleentwickler bekannter Apps wie 4 Bilder 1 Wort, Quiz Planet und Word Blitz. https://www.programmier.bar/impressum

All Episodes

programmier.bar – der Podcast für App- und Webentwicklung

Deep Dive 208 – AI & Audio mit Georg Holzmann

May 26, 2026 • programmier.bar • Season 7 • Episode 42

0:00 | 1:09:56

Wie hat dir die Folge gefallen?
Gut 👍
Schlecht 👎
(Keine Anmeldung erforderlich)

Auphonic gehört für viele Podcast-Workflows längst zum Standard, aber wie baut man eigentlich ein Produkt, das Audio automatisch „gut“ klingen lässt? In dieser Deep-Dive-Folge sprechen wir mit Georg Holzmann über die Entstehungsgeschichte hinter Auphonic und warum die Idee ursprünglich aus einem ganz einfachen Problem kam: schlechte Audioqualität bei Podcasts.

Aus einem Mix von Audio-Engineering, Informatik und Machine Learning entsteht ein Tool, das heute Millionen Nutzer:innen einsetzen. Wir schauen uns an, wie sich das Produkt von ersten Klassifikatoren hin zu komplexeren AI-Modellen entwickelt hat und warum Auphonic schon lange vor dem aktuellen AI-Boom auf diese Technologien gesetzt hat.

Wir sprechen darüber, wie unterschiedliche Komponenten wie Noise Reduction, De-Essing, Equalizing und Loudness-Normalisierung zusammenspielen und warum gerade die Balance zwischen Sprache und Musik eine besondere Herausforderung ist. Dabei wird schnell klar: Viele Probleme lassen sich technisch objektiv lösen, andere bleiben zwangsläufig subjektiv – etwa beim „richtigen“ Klang einer Stimme. Genau hier wird spannend, wie Auphonic versucht, sinnvolle Defaults zu liefern und gleichzeitig genug Flexibilität für unterschiedliche Use Cases zu bieten.

Ein großer Teil der Folge dreht sich um die technische Umsetzung: Statt eines großen „Alleskönner“-Modells setzt Auphonic auf viele spezialisierte Modelle und klassische Signalverarbeitung in Kombination. Wir klären, warum dieser modulare Ansatz im Audio-Bereich sinnvoll ist, welche Rolle unterschiedliche Modellarchitekturen spielen und wie Trainingsdaten überhaupt entstehen – inklusive der Herausforderung, gute Ziel-Daten zu finden und daraus künstlich „schlechte“ Beispiele zu generieren. Außerdem werfen wir einen Blick auf die Infrastruktur dahinter: von GPU-Servern bei Hetzner über eigene Trainingshardware auf einem Bio-Bauernhof bis hin zu Queue-basierten Processing-Pipelines.

Zum Abschluss geht es um Produktentscheidungen und den Markt: Wie entwickelt man ein Pricing für ein AI-Produkt, das mit steigender Modellkomplexität immer teurer werden kann? Warum war es ein Vorteil, früh gestartet zu sein? Und welche Rolle spielt der aktuelle AI-Hype überhaupt in einem Bereich, der schon lange vorher stark von Machine Learning geprägt war? Wir sprechen außerdem darüber, warum vollautomatische, AI-generierte Podcasts bisher keine große Rolle spielen und warum Menschen am Ende vielleicht doch lieber anderen Menschen zuhören.

Schreibt uns!
Schickt uns eure Themenwünsche und euer Feedback: podcast@programmier.bar

Folgt uns!
Bleibt auf dem Laufenden über zukünftige Folgen und virtuelle Meetups und beteiligt euch an Community-Diskussionen.

Bluesky
Instagram
LinkedIn
Meetup
YouTube

Musik: Hanimo

SPEAKER_03 0:06

Hallo und herzlich willkommen zu einer neuen Deep Dive-Folge hier in der Programmierbar mit gleich zwei Gästen gefühlt für mich. Für euch vor dem Mikro natürlich wie immer der Jan und mit mir am Start der Fabi, der ganz lange nicht mehr mit mir in dem Deep Dive war. Hallo Fabi.

SPEAKER_02 0:22

Herr Jan, ja, das ist mal wieder stimmt.

SPEAKER_03 0:24

Ist mal wieder fast neu, kann man sagen. Ja, wir wollen heute über ein Thema sprechen, das mir aus, weiß es nicht, ganz vielen Gründen am Herzen liegt. Wir sprechen nämlich heute über ein Tool, über die Geschichte dahinter, über etwas, was wir selbst auch nutzen und das technisch ultra interessant ist für uns. Wir wollen nämlich heute sprechen über Auphonic und AI und Audio und haben uns dafür eingeladen, den Georg Holzmann. Hallo Georg, schön, dass du da bist. Hallo, danke für die Einladung. Wir sind ja selbst, weiß ich nicht, Fabi, schon jahrelang Auphonic-Nutzer. Also das war schon bei der Programmierbar, bevor ich bei der Programmierbar war, glaube ich.

SPEAKER_02 1:08

Ja, auf jeden Fall schon sehr, sehr lang. Ich meine, auch da ist der Partner auch mit dem Audio-Post-Production, dafür müsste eigentlich hätte man den Carlo dazu müssen. Carlo, Props an dich, der hier in meinem Nachgang alles schneidet und irgendwie bearbeitet so, ein Tool seiner Wahl, aber ich hatte es auf jeden Fall schon sehr, sehr, sehr lange im Einsatz, ja.

SPEAKER_03 1:23

Warum finde ich das spannend, auch wenn ich mit Audio so überhaupt gar nichts am Hut habe und quasi zwei, kann man zwei linke Hände für Audio haben oder weiß ich nicht, zwei linke Ohren, zwei linke Ohren, ich weiß nicht. Aber ich finde das immer cool zu sehen, wenn jemand oder gleich eine ganze Firma quasi so dem Trend so weit voraus ist. Also heutzutage, wenn man jetzt heute rausgeht und sagt, hey, ich mache hier eine Firma mit einem coolen AI-Produkt, dann dreht sich gefühlt ja niemand mehr irgendwie danach um. Aber Aphonic macht das Ganze ja schon super, super lange und auch super, super erfolgreich. Und das ist natürlich für uns sehr interessant, mal zu hören, so, Georg, wie seid ihr da überhaupt drauf gekommen? Und wie war das so, vor 15 Jahren überhaupt was mit AI zu machen? So, wird man da mehr so belächelt oder mehr so bewundert?

SPEAKER_01 2:18

Ja, mehrere Fragen. Also wie sind wir darauf gekommen? Und zwar, ich war damals oder bin auch immer sehr, sehr starker Podcast-Hörer und habe halt immer wieder Podcasts gehört, die dann, wo dann die Podcasts geklagt haben, sozusagen, wie schwer alles ist. Das ganze Audio damals war ja noch viel schwieriger. Also alle Kompressoren manuell einstellen, irgendwelche Filter einstellen, dann weiß man wieder nicht, wie es klingt, ob das besser wird oder schlechter wird. Und mein persönlicher Backstand war eben, dass ich so ein Studium im Bereich Audio gemacht habe und auch im Bereich Machine Learning und Informatik. Das war so ein kombiniertes Studium bei uns da damals. Und dadurch habe ich mir gedacht, naja, da kann man mal probieren, so eine Lösung machen. Weil dann sind dann auch andere Sachen dazugekommen, also die Workflows zu automatisieren, verschiedene Fileformate zu generieren und dann das Audio irgendwo hinzuspielen. Und so haben wir mal nebenbei angefangen, so einen Webservice zu machen, das das irgendwie abdeckt. Und dafür haben wir dann auch eben eine Förderung damals bekommen von Österreich. Also wir sind aus Österreich. Und dadurch habe ich dann auch andere Leute dazu holen und so hat sich das dann eben schon langsam entwickelt. Zuerst war eben alles frei und dann schon langsam haben wir so ein Freemium-Modell gemacht und so weiter. Deine andere Frage aber zu Machine Learning. Machine Learning war schon immer spannend für mich. Da habe ich auch mal Diplomarbeit gemacht und dann auch Doktorat später angefangen, was ich nicht abgeschlossen habe. Und ja, das habe ich natürlich gleich versucht einzubauen. Also das hat damals vor 2012 oder wann haben wir gestartet, hat es natürlich noch ein bisschen anders ausgeschaut wie heute. Also heute hat man halt diese riesigen Modelle, die auf GPUs laufen und so weiter. Damals war das noch viel kleiner. Also zuerst waren das hauptsächlich so Klassifikatoren, die erkannt haben, wo was passiert im Audio, also wo Musikteile sind, wo Sprachteile sind und so weiter, wo verschiedene Sprecher sind, dass man das ein bisschen besser unterscheiden kann. Und nach diesen Classifier-Entscheidungen sind dann eben die Algorithmen gesetzt worden. Also die Kompressor sind dementsprechend gesetzt worden und Limiter und so Game Curve Automation und all das so Dinge. Und ja, das hat sich natürlich über die Zeit also ein bisschen weiterentwickelt. Mittlerweile sind die Modelle natürlich viel größer. Es sind nicht mehr nur so kleine Klassifikatoren, die man am Laptop dann einmal ein paar Tage trainiert, sondern man braucht halt mehrere Rechner, GPUs und so weiter dafür, um solche Modelle zu trainieren. Aber prinzipiell ist das Konzept natürlich immer noch ähnlich. Ich hoffe, ihr habt jetzt nichts vergessen.

SPEAKER_03 5:15

Wie war das denn für euch damals? Weil also heute, wo wir quasi in AI-Boom-Zeiten leben, so gibt es ja viel off-the-shelf und Sachen, mit denen man quasi starten kann, auch schon viele Open-Source-Projekte. Was habt ihr damals vorgefunden? Wenn du jetzt sagst, okay, du hast halt gerne Podcasts gehört und du wolltest da dann helfen, das zu verbessern. Aber ihr habt ja wahrscheinlich eher so bei Null angefangen oder gab es da schon was?

SPEAKER_01 5:44

Naja, gegeben hat es natürlich schon sehr viel, also im Open Source Bereich auch und auch im wissenschaftlichen Bereich. Ich komme da selbst von der Uni, da habe ich viel so mit beiden gemacht, auch damals schon. Das ist viel verwendet worden im Machine Learning-Bereich. Da hat es auch schon diverse Bibliotheken gegeben, so wie sie jetzt auch noch so verwendet werden, also NumPy, Sci-Py. Dann für so Klassifikatoren hat es damals Psykit Learn gegeben. Gibt es jetzt auch noch, aber jetzt wird man so viel verwendet, zumindest bei uns. Und das waren die Basis Maschinen-Learning-Pakete, würde ich mal sagen. Und die ganzen Audio-Algorithmen, was es dann noch dazu braucht, also so die Filter, das kann man sich natürlich auch über Sci-Py generieren, da sind diese ganzen Filtermethoden drinnen. Kompressoren, Limiter und so weiter, haben wir größtenteils selbst gemacht, ja. Teilweise so in LC und Zeiten geschrieben, damit es eben ein bisschen performanter läuft. Und so die ganzen Stücken zusammengebastelt.

SPEAKER_02 6:53

Und kannst du für, jetzt haben wir ja schon viel, sind wir schon die Ecke abgebogen, so was jetzt sozusagen eigentlich die Technologie so interessant macht, mit welchen Challenges ihr am Anfang oder welches Problem ihr gelöst habt, kannst du nochmal für unsere Hörer da draußen, die jetzt nach der Intro mit, weil wir es hier im Podcast nutzen, vielleicht noch nicht ganz so schlau sind. Was gehört denn aktuell zum Produktportfolio? Wenn du da draußen jemandem gerade vornig beschreiben würdest, was würdest du Stand jetzt sagen, macht die gerade?

SPEAKER_01 7:16

Ja. Stimmt, sind schon schon zu sehr technisch abgebogen. Ja, was machen wir? Also einerseits haben wir mal Audio-Algorithmen, die dieses Audio verbessern oder anders machen, wie immer man das bezeichnet. Dazu gehören einerseits gehören verschiedene Komponenten, also einerseits Audiorestauration, also versuchen das Audio besser zu machen. Da gibt es verschiedene Sachen, die man machen kann. Also Rauschen entfernen, dann auch so nicht stationäre Störgeräusche entfernen, also Tropfen zum Beispiel am Tisch, wie ich jetzt mache, was man wahrscheinlich nicht hört. Oder auch wenn ein Auto, wenn eine Auto, ja, wahrscheinlich danach nicht mehr. Oder auch wenn ein Auto zum Beispiel draußen vorbeifahrt oder Babyschreien oder Musik im Hintergrund ist, das kann man theoretisch alles rausrechnen. Also Störgeräusche entfernen. Dann, da haben wir auch verschiedene Modelle, dass man auch sagen kann, was man jetzt rausnehmen kann und was nicht. Also dass zum Beispiel Musik drinnen bleiben soll und Sprache auch, oder dass man nur statisches Rauschen rausnimmt und nicht statische Geräusche, wie so Effekte bleiben drinnen und so weiter. Dann der andere größere Teil ist eben den Schwang to verändern, also hauptsächlich filtering. That he is stimmen who too many hoodess are, or what too besser are, which are blows, also when many people, you can just demonstrate. So DSing needs it, that man. And also, like Codec Artefakte rausrechnen, also MB3 Files, zum Beispiel. Oder bei Online-Calls kennt man auch oft diese Codec-Artefakte. Dann gibt es eben noch diese Leveling-Einheit, das war am Start unser Hauptding, würde ich mal sagen. Die versucht eben verschiedene Sprecher auf gleiche Lautstärken zu bringen. Das war am Anfang oft das Problem im Podcast, dass verschiedene Leute aufgenommen worden sind. Einer weiter weg vom Mikrofon, oft hat man immer nur ein Mikro gehabt und dann war ihm einer ganz laut, einer ganz leise, dann hat man immer ein bisschen laut und leise schalten beim Zuhören, ist natürlich nervig. Und da haben wir eben natürlich schon gleich am Anfang verschiedene Sprecher klassifiziert und versucht eben diese auf eine ähnliche Loudness zu bringen. Dann muss man das Ganze natürlich mit Musik irgendwie kombinieren, was nicht so einfach ist, weil Musik hat viel mehr Dynamik. Das heißt, da kann man nicht alles einfach ganz gleich laut machen, sonst klingt das natürlich blöd, weil man dann die ganze Dynamik rausholt. Das heißt, das muss man halt separat behandeln. Und dann ist auch zu der Zeit, wo wir gestartet haben, sind gerade diese ganzen Loudness-Standards eingeführt worden oder diskutiert worden, die jetzt mittlerweile eh schon sehr weit verbreitet sind. Also dieses R128 von EBU zum Beispiel, der European Broadcast Union. Das ist im Prinzip einfach so ein Wert, der versucht, die Lautheit von einem Signal zu bestimmen, weil das natürlich sehr subjektiv ist. Also jeder hört anders, jeder hat andere Formen der Ore und Ohren und der Gehörgang ist auch bei jedem anders. Also das ist natürlich nur eine Mittelung über viele Personen, aber man versucht es halt irgendwie abzubilden. Und diese Loudness Standards haben wir dann eben auch gleich hinzugefügt, dass man Produktionen sozusagen gleich auf den richtigen Loudness Standard prozessieren kann. Zusätzlich haben wir auch noch so eine spezielle Multi-Track-Version, also wo man dann nicht nur einen Track hat und dort das prozessieren kann, sondern auch verschiedene Tracks, so wie wir jetzt da sind. Dann haben wir drei Sprachtracks zum Beispiel, dann könnte man noch einen Musiktrack dazugeben und so weiter und so fort. Dann kann man halt alle Tracks so extra behandeln, von den Settings her und vom Processing auch. Entschuldigung, bin ich ein bisschen verkühlt.

SPEAKER_03 11:48

Hast du ja gerade schon eine riesige Bandbreite an Tools beschrieben? Ja, mehr. Ja, das kann ich mir vorstellen. Und ich frage mich dann so, wie bringt dir das am Ende zu den Nutzerinnen? Weil ich meine, wenn ich so ein Tool wie Ophonic nutzen will, dann bin ich ja wahrscheinlich jemand, der das, der da neu ist oder der das selbst gar nicht machen kann, der sich vielleicht da gar nicht so auskennt. Und dann muss ich ja auch überhaupt erstmal wissen, was von diesen ganzen Sachen, die du gerade genannt hast, brauche ich, wie viel von welchem brauche ich, welche Regler muss ich da vielleicht betätigen? Also wie viel Automatisierung von all diesen Tools müsst ihr im Prinzip auch anbieten, um das nutzbar zu machen? Oder bietet ihr nur Low-Level an, ja, wir haben hier diese ganzen Funktionen und Algorithmen, um das eben auszuführen, aber wie du das nutzt, liebe Benutzer, liebe Benutzerin, das ist so euch überlassen.

SPEAKER_01 12:53

Nein, das ist natürlich ein schwieriges Problem. Also prinzipiell sollte das ja alles automatisch passieren. Also wir haben so unsere Default-Settings und die passen auch für diesen meisten Use Cases, würde ich mal sagen. Nichtsdestotrotz gibt es natürlich immer wieder andere Use Cases, die das anders haben wollen, was man nicht automatisch erkennen kann in vornherein. And dazu kann man sich das dann natürlich anpassen. Im Prinzip haben wir das verschiedene Presets for verschiedene Use Cases and selber Presets erstellen oder die Production anpassen, so weit er will, and in diese ganzen Settings reingehen oder eben auch nicht. Aber ist natürlich ein schwieriges Problem, hauptsächlich vom User Interface, ja.

SPEAKER_03 13:41

Und ist das nicht auch so ein sehr subjektiv, also ich kenne wie gesagt, ne, so Audio-Tontechnik ist nicht so meins. Willkommen bei mir im Podcast. Aber wie viel Subjektivität steckt denn da da auch drin? Also wenn ihr jetzt sagt, ihr versucht da so ein Default zu liefern, das für alle funktioniert, das ist ja vielleicht auch sehr subjektiv, was man jetzt eigentlich so als Ergebnis haben will und wie es irgendwie klingen soll am Ende des Tages.

SPEAKER_01 14:07

Ja, das stimmt. Nichtsdestotrotz kann man einige Sachen einigermaßen objektiv machen. Also sowas wie Audiorestauration. Also man muss natürlich entscheiden, was man jetzt will als Mensch, will man, dass Geräusche weg sind oder dass Musik weg ist. Aber wenn man das weiß, kann man schon das versuchen, so gut wie möglich zu machen. Wenn es dann Artefakte gibt, wird es natürlich subjektiv, dann kann man noch einstellen, wie viel man wegnehmen will. Aber wenn es theoretisch perfekt funktioniert, sollte es auch subjektiv den meisten passen. Bei Filtering ist es natürlich wieder anders. Also da hat jeder oft andere Vorlieben, wie jetzt die Stimme klingen soll natürlich. Wobei wir trotzdem relativ selten da Anpassungswünsche kriegen von den Usern, aber da werden wir jetzt in der Zukunft eh auch mehrere Settings erlauben, dass man das ein bisschen anpassen kann im Filtering-Bereich. Und zwar bei Loudness Standards ist es sowieso ein fixer Algorithmus, der das vorgibt. Also das ist eh nicht subjektiv. Aber ja, prinzipiell kann man schon einige Sachen objektiv machen, aber es gibt natürlich immer subjektive Sachen. Das kann der User natürlich auch vorher oder nachher noch selbst anpassen. Also das ist im Prinzip kein Problem.

SPEAKER_02 15:29

Und vielleicht, um für die Hörer dort nämlich komplett zu machen, was genau das Tool ist. Also wie genau nutze ich, wie kann ich Offpanic denn nutzen? Nutze ich das nur als Service, binde ich das in meine DOR ein? Ist das ein Webportal? Habe ich irgendwelche anderen Integrationen? Also wie genau kommt denn Audio zu euch und wie kommt es wieder zurück? Sorry, Fabi, aber in was willst du das einbinden? In eine DAW, eine DOR, das ist sozusagen Logic für dich oder du nutzt ja meistens Garage Band.

SPEAKER_03 15:57

Also nur so für alle da draußen, die ähnlich wenig Ahnung haben wie ich, muss das eine oder andere vielleicht noch miterklären.

SPEAKER_02 16:04

Ich weiß gar nicht, ich glaube, es heißt Digital Audio Workstation, glaube ich. Also ich glaube, das ist sozusagen der digitale Mischer sozusagen.

SPEAKER_01 16:11

Ja, also ein Audioprogramm im Prinzip. Ja, gute Frage. Gibt es natürlich auch viele Möglichkeiten. Also prinzipiell haben wir einmal als Web-Service gestartet. Natürlich ist es noch immer unser eines unserer Hauptdinger. Also auf honeich.com kann man einfach ein Audio-File hochladen und dort verschiedene Settings ausfüllen oder auch nicht. Und dann auf Process klicken oder Start. Und dann wird die Datei eben aus unseren Servern bearbeitet und dann bekommt man sie wieder zurück. Dann kann man es noch irgendwo hinschicken lassen und so weiter, alle möglichen Integrationen. Dann haben wir eben auch eine API, wo man unsere Systeme woanders integrieren kann. Also mit der API sind wir auch in vielen anderen Systemen dann so hinten integriert, wo man uns gar nicht sieht. Und also in vielen Podcast-Hosting oder Recording-Software und so weiter. Und dann haben wir verschiedene andere Möglichkeiten, also so Watchfolder zum Beispiel, das geht wieder das Web-System, also wo man zum Beispiel in einer Google Drive einen Teil reinlegt, dann wird es automatisch prozessiert und dann wird aber anders getan, also so Workflow-Automatisierungssachen. Ja, Command-Line-Interface haben wir mittlerweile auch, so wie jeder. Früher haben wir auch noch eine Desktop-App gehabt, die gibt es mittlerweile nicht mehr seit zwei Jahren. Weil das waren, einerseits waren das noch die alten Algorithmen, also wo wir noch keine GPUs gehabt haben zum Rechnen. Was jetzt natürlich viel schwieriger ist, weil unsere Models nur mehr auf spezielle GPU-Hardware im Laufen. Also das für alle anzupassen, ist natürlich nochmal was anderes. Für alle Desktop-User. Genau, und jetzt hat sich das im Moment einfach nicht mehr ausgezahlt. Vielleicht kommt das in Zukunft noch einmal. Dann zu den Digital Audio Workstations. Die verwenden eben meistens so Plugins, VSD-Plugins und so weiter. Diese Plugins haben meistens eben, das war irgendwie der Start von Aphonic, weil früher eben alles in dieser Plugin-Welt war, oder ist ihr jetzt auch noch immer. Und die Plugins funktionieren meistens so, dass sie eben nur einen kleinen Ausschnitt vom Audio sehen, in so ein paar Millisekunden, und das prozessieren, dann wieder rausgeben. Also das kommt noch so aus der analogen Welt. Also Audio rein, Audio raus, möglichst in real-time. Und unsere Algorithmen funktionieren eben komplett anders. Also das komplett nicht real-time. Also da wird das ganze Audio zuerst analysiert und dann in mehreren Schritten bearbeitet sozusagen. Also das ist ein bisschen anders wie dieses VSD-Konzept. Deswegen gibt es jetzt auch kein Plugin von uns in dem Sinn. Nichtsdestotrotz gibt es bei Plugins eben auch schon mittlerweile andere Ansätze, die offline funktionieren. Vielleicht kann man da in Zukunft auch nochmal was machen.

SPEAKER_02 19:19

Interessant, und weil du gerade nochmal angesprochen hattest, dass es ja auch viele Services gibt, die euch hinten rumnutzen. Was ist denn der Großteil eures Geschäfts? Ist das wirklich Direct-to-Consumer, dass wirklich Leute eine Subscription bei euch haben oder habt ihr mehr sozusagen über seid irgendwo hinten dran als Schnittstelle? Was ist passiert?

SPEAKER_01 19:34

Ja, wir sind bei vielen hinten dran als Schnittstelle das größte, kann ich jetzt gar nicht sagen. Also ich glaube, bis haltet sich so die Waage ziemlich halb, halb ich sagen.

SPEAKER_02 19:46

Cool, wenn wir jetzt so ein bisschen verstanden haben, wie das jetzt eigentlich so produkttechnisch läuft, jetzt würde ich, wenn es euch okay ist, dann dass wir nochmal so ein bisschen dann wieder auf die technische Ebene mehr gehen, weil was ich gerne mal verstehen will, du hattest ja vorhin, als du auf Phonic so feature-mäßig erklärt hast und genannt hast, welche Komponenten da drin sind, was da super viele sind, wo wir noch nicht mal alle von besprochen haben, aber als Beispiel hast du zum Beispiel den DSR genannt und auch gleichzeitig gesagt eure Machine Learning-Modelle, die auf der GPU laufen. Da stelle ich mir so ein bisschen die Frage, was bedeutet es denn? Ist denn jede von diesen Feature-Sektionen eine Art eigenes Modell, eigener Schritt in der Pipeline? Ist überhaupt alles ein Machine Learning-Modell oder sind manche Dinge nur, ich sage jetzt mal einfach einfache Algorithmen? Also wie kann ich mir das Ganze vorstellen? Weil so aus der AI-Welt, aus der wir jetzt mittlerweile die letzten zwei Jahre am Sprechen waren, ist ja meistens so das eine große Modell, das multimodal wird, was man einfach immer mehr kann und ich werfe nur eins rein, eine Sache rein und kriege das Ergebnis wieder raus. Wie kann ich mir das bei Auphonic vorstellen?

SPEAKER_01 20:37

Das ist eine Kombination von allem. Also prinzipiell sind die verschiedenen Einheiten verschiedene Modelle bzw. Kombinationen von verschiedenen Modellen. Teilweise gibt es auch noch normale Algorithmen, also Signalverarbeitungsalgorithmen, wie zum Beispiel ein Limiter oder Loudness Normalization und so weiter.

SPEAKER_00 21:05

Wie kann man das ein bisschen genauer erklären?

SPEAKER_01 21:07

Also zum Beispiel beim Denoising. Da haben wir verschiedene Modelle, die verschiedene Sachen machen. Also da kann man ja einstellen bei uns jetzt zum Beispiel, wie viel man vom Noise wegnehmen will, wie viel man vom Reverb wegnehmen will, oder von den Atma, also von den Breath. Und das sind prinzipiell verschiedene Modelle, die dann eben dementsprechend kombiniert werden, damit diese Einstellungen rauskommen. Oder weil du DS genannt hat. This is zum Beispiel in unserem Auto-EQ model, so nennen wir das. Also da is jetzt der DS kein extra Modell, but this is Auto EQ Model bekommt halt alle möglichen Daten. Als Zieldaten immer die schönen Daten sozusagen und dann als Input eben Daten, wo jetzt zu viel von diesen Assets drinnen ist oder eben zu viele tiefe Frequenzen drin sind oder zu viele Pops oder was auch immer. Also alles, was man halt ausbessern will, muss man versuchen, in den Trainingsdatum zu modellieren. Dass man eben die schlechten Daten vorn reingibt und die guten Daten sollen dann hinten rauskommen. Und so trainiert man dann halt diese Models an.

SPEAKER_03 22:29

Und wenn du jetzt gerade schon über das Modeltraining sprichst, also wir sprechen ja da hier bei uns im Kontext meistens über LLMs und Training davon und wie viel Unmengen Text da ja für gebraucht werden und da profitieren ja diese ganzen Labs eigentlich davon, dass so viel Text eigentlich kostenlos oder fragwürdig zugänglich im Internet irgendwie zur Verfügung sind. Aber wo bekommt ihr denn Trainingsdaten her? Also wenn du jetzt sagst, du willst dir dein DS-Sing irgendwie machen, dann brauchst du ja auf der einen Seite Negativbeispiele dafür und die muss man ja auch irgendwo haben und eine Lizenz dafür haben und nutzen dürfen. Und auf der anderen Seite ja aber auch Positivbeispiele, also wo das quasi schon entfernt worden ist. Wie baut ihr so ein Trainingsset auf?

SPEAKER_00 23:14

Ja.

SPEAKER_01 23:18

Das kommt natürlich auf den Dars davon, aber wo die Trainingsdaten? Es gibt einerseits gibt es einmal öffentliche Datensätze für solche Sachen, wenn auch nicht so viele, aber teilweise schon. Und andererseits verwenden wir auch die Daten von unserem System fürs Training. Also man macht immer ein Training Opt-out. Dann, wie kriegt man diese Beispiele? Das ist natürlich das Schwierigste, weil man braucht vor allem sehr gute Beispiele als Target. Und vor allem bei diesen ganzen Trainingsdatensätzen, die es frei gibt, die sind oft halt auch nicht so gut, dann ist wieder ein bisschen ein Neues dabei oder Verzerrungen in der Stimme, was auch immer. Also das ist wirklich sehr viel von der Arbeit, dass man eben hunderttausend oder Millionen Audio-Files durchhört und schaut, wo, und das sortiert, was wie gut ist in verschiedenen Kategorien. Okay, das können wir für dieses Model verwenden, das für dieses Model und so weiter, weil verschiedene Models haben ja verschiedene Anforderungen. Also zum Beispiel, wenn ich jetzt dieses Filtering-Model trainieren will, also den Auto-EQ, dann müssen die Daten spektral sehr gut sein. Also da dürfen jetzt keine spektralen Verzerrungen drinnen sein. Aber es ist vielleicht egal, ob da ein bisschen neues drinnen ist, weil das trainiert das Model ja nicht. Beim DIN-Näußer ist es wieder anders. Also man muss einmal versuchen, zumindest für diese Models, muss man mal versuchen, möglichst gute Daten zu bekommen. Und dann askelt man endlich so Transformations, also Transformationen zusammen, die aus diesen guten Daten und dann schlechte Daten machen. Das kommt dann hinten sozusagen rein.

SPEAKER_02 25:02

Weil das wäre jetzt uns auch meine Frage gewesen, da draußen gibt es ja bestimmt keine Beispieldaten mit vorher-Nachher. Das heißt, ihr nehmt immer, Ausgang ist immer das gute Material und ihr bringt sozusagen Neues oder beim DSer kann man wieder mehr Ess reinbringen, sozusagen.

SPEAKER_03 25:18

Dann sitzt der Georg dann nachmittag lang vor dem Mikrofon und sagt nur und nimmt das dann die ganze Zeit auf.

SPEAKER_02 25:23

Genau, zum Beispiel. Ja, super interessant. Und also jetzt hat ja gerade Jan, du bist so ein bisschen auf die, okay, wo kriegt man Daten her so und okay, gibt wohl relativ viel frei und dann zumindest ist euer Job, die zu kategorisieren, je nach Modell und dann noch die schlechte Variante davon zu generieren. Jetzt hast du aber ja eigentlich von Trainingsdaten gesprochen und hat man halt sozusagen den einen Auto-EQ und das andere ist der DSer. Und jetzt haben wir ja, wenn man in dem aktuellen AI-Space unterwegs ist, oder meine Frage wäre jetzt, wie sind die denn architekturell? Ist das architekturell trotzdem alles die gleiche Architektur, die einfach nur mit anderen Trainingsdaten gefüttert wird? Weil wenn man es auch wieder da hat, den LLM-Kontext sieht so, da basiert irgendwie im Grunde genommen alles auf Transformer, so, also die Architektur bleibt immer die gleiche oder wie ist das jetzt im Audio-Kontext? Also sind das unterschiedliche Architekturen? Ansonsten wäre wahrscheinlich mal eine Folgefolge, wenn es die gleiche ist. Warum kann ich denn nicht einfach alles auf einmal machen lassen?

SPEAKER_01 26:22

Architekturen und alles auf einmal, ja. Also Architekturen sind das schon verschiedene. Das kommt wieder auch aus Modden drauf an. Also die einzelnen verschiedenen D-Noising-Models bei uns haben jetzt schon eine ähnliche Architektur. Das Auto-EQ ist wieder anders. Dann im Moment bauen wir wieder ein komplett anderes Model. Dann haben wir auch so verschiedene Multitrack-Models, die funktionieren auch anders, die so im Übersprechen von anderen Tracks wegrechnen und so weiter. Also das sind schon sehr unterschiedliche Architekturen. Es ist jetzt nicht so vereinheitlicht wie bei den Language Models, würde ich sagen. Also wir haben auch viele so im Audiobereich viele so rekurrente Strukturen, also mit LSDMs oder GAUs und so weiter, also wo rekurrente Netzwerke sind, das verwendet man bei Texten fast nicht. Verwendet aber auch für die Transformer natürlich und dann auch so in letzter Zeit immer mehr Self-Supervised Learning Models, wo dann so Features generiert werden, die dann wieder andere Models weiterverwenden und so weiter. Also da gibt es sehr viele verschiedene Architekturen. Und warum kann ich nicht alles in einem Model trainieren? Kann man vielleicht schon, aber einerseits will man ja auch eine gewisse Art von Kontrolle haben. Weil manchmal willst du ja zum Beispiel nicht den Auto-EQ haben, weil du schon vorher deine Stimme sozusagen oder danach die selbst so EQ's willst, wo du was willst. Oder du willst nur gewisse Sachen entfernen, eben vom Audio, dein anderen nicht. Also man muss dem User auch irgendeine Kontrolle über das geben, was gemacht wird. Dadurch braucht man natürlich verschiedene Models. Und jetzt hat man natürlich die Möglichkeit, dass man alle Kombinationen, die es gibt, irgendwie in ein Model reintrainiert und dann braucht man für jede Kombination ein extra Model. Was dann, wenn es mehrere Optionen gibt, gleich mal sehr viel wird. Oder man versucht eben, das in ein paar aufzuteilen, dass man das dann einfach kombinieren kann im Endeffekt. Zusätzlich, ich glaube, es funktionieren gewisse Sachen auch besser, wenn ein Model davon spezialisiert ist, sonst braucht man halt wahrscheinlich ein größeres Model für äquivalente Aufgaben.

SPEAKER_03 28:46

Und wenn du gerade die Modelgröße schon angesprochen hast, nur zur Einordnung, wie musste ich mir das denn vorstellen? Wie groß ist denn dann eins von diesen Modellen oder wie viel Hardware brauche ich denn da wirklich, um das auszufüllen? Sind das so kleine Modelle, die man auch auf kleineren GPUs oder teilweise sogar vielleicht sogar noch auf CPUs irgendwie ausführen kann? Oder ist das alles schon was, wo ihr sagt, nee, wir haben hier ein riesengroßes, weiß nicht, entweder ein GPU-Cluster oder so TPU-Prozessoren, die halt irgendwie super darauf spezialisiert sind, wie anspruchsvoll ist das am Ende, was eure Models angeht?

SPEAKER_01 29:23

Ja, also zum Training braucht man natürlich GPU-Cluster, ja, damit man das einigermaßen trainieren kann. Hängt natürlich auch wieder vom Model ab, wie lang das jetzt dauert oder wie viel da gebraucht wird. Und von der Inference her läuft es auf GPUs, ja, auf CPU. Man funktionieren wird schon, aber halt ewig lang würde es brauchen.

SPEAKER_03 29:48

Und das betreibt ihr selbst oder wo betreibt ihr so eure Infrastruktur, um diese ganze Inference zu machen?

SPEAKER_01 29:58

Ja, also die Inference machen wir bei Hetzner. Da gibt es auch GPU-Server. Und die Training-Server, aber nicht, das wäre ein bisschen teuer. Die haben wir also hauptsächlich eigene Server zusammengebaut mit Videografikkarten. Und die stehen bei so einem Biobauernhof mit sehr großer Photovoltaikanlage und Serverraum unten. Und der ist halt froh, dass er uns seinen Strom verkaufen kann, sozusagen, und hat dann super Quillraum und mit der Abwärme soll jetzt dann im nächsten Jahr auch noch ein Heizwerk betrieben werden.

SPEAKER_02 30:41

Und der ist ein Biobauernhof, das war dann eure Idee oder ist das halt der Business Case von einem Biobauernhof gewesen? Wie kam das zustande? Das ist jetzt auch nicht, also habe ich auch zum ersten Mal, dass jemand seine eigenen Server auf einem Biobauernhof betreibt.

SPEAKER_01 30:53

Ja, na das war ein Zufall. Also wir waren vorher zu einem anderen Rechenzentrum und bei denen haben wir dann rausmissen. Und das hat sich dann so irgendwie ergeben.

SPEAKER_03 31:06

Also das wäre Teil von meiner Marketingkampagne vorne und hinten, muss ich sagen.

SPEAKER_02 31:10

So irgendwie AI-Produkte von glücklichen Künen, dass das Und aber gut, ich meine, macht ja bei dem Use Case, ich meine, das ist ja, also da nutzt ihr die Server, die ihr darstellt, selber reine Trainingsdaten. Das heißt, rein theoretisch würde man sagen, auch, keine Ahnung, jetzt irgendwie Erreichbarkeit, Ausfallwahrscheinlichkeiten, vielleicht auch die Datenleiter, die da hinliegt, ist gar nicht so wichtig oder würdet ihr da theoretisch auch User-Facing Services drin treiben?

SPEAKER_01 31:35

Na, das nicht. Also zu ihnen ist es nicht im Moment. Aber das ist rein fürs Training. Das Training braucht ja eh viel mehr Ressourcen, weil das viel aufwendiger ist, ganz einfach.

SPEAKER_02 31:47

Hast du da irgendeine Kenngröße so? Also wenn ihr da jetzt eine Komponente, man kennt jetzt irgendwie viel, wenn wir uns so unterhalten, so mit LLM und irgendwie Trainingszeiten und Trainingsdaten so, aber du hast jetzt irgendwie vorhin schon gemeint, bei so im Millionenbereich irgendwie an möglicherweise Trainingsdaten, wie lang dauert das? So eines von, du hast irgendein Beispiel, das letzte Training, was ihr gemacht habt, wie lange sowas dauert, so ein Modell zu trainieren? Zum Beispiel eine Woche. Okay, und das ist aber eher so relativ ähnlich bei den verschiedenen Modellen, weil auch die Menge an Daten eigentlich auch immer relativ ähnlich ist, so oder hast du da so die Varianz?

SPEAKER_01 32:26

Naja, ist leider auch nicht so ganz leicht zu beantworten, weil verschiedene, also manche Models bestehen wieder aus verschiedenen Submodels. Also da trainiert man zuerst einmal alle Submodels. Also da gibt es dieses Feature-Model, was man zuerst einmal trainiert und dann wieder ein anderes Model, was draus was macht und dann wieder das D-Noise-Model, was zum Schluss das Audio wieder generiert. Also da trainiert man zuerst einmal zum Beispiel alle Sub-Models und dann trainiert man die, manchmal noch kombiniert ein bisschen zum Schluss. Und also das ist mehr so mehr so Zusammenbauen von verschiedenen Teilen.

SPEAKER_02 33:03

Okay, und wenn wir mal vielleicht nochmal so Big Picture für die Hörer da draußen, die Architektur von euch nochmal so ein bisschen komplett machen. Das heißt, ich habe jetzt verstanden, ihr habt die Bio-Server zum Trainieren beim Bauern, ihr habt Hetzner-GPUs, um die Models auszuführen. Und was gehört denn sonst noch zu eurer Infrastruktur? Also die Services, die ihr hostet, die liegen auch dann einfach alle bei Hetzner. Wenn ja, was habt ihr da für eine technologiebildische Sprache? Wie sind die umgesetzt?

SPEAKER_01 33:32

Also tester zu den Servern, also unser ganzes Hosting läuft hauptsächlich auf Hetzner, ja. In Island haben wir auch noch gehört, ein paar Server, also zum Trainieren, weil in Island auch der Strom ziemlich billig ist. Und genau, das sind die Hauptstandorte und dann wie schaut das aus bei unserem Properativsystem? Also die Server eben zum Processing sind bei Hetzner. Dann haben wir jetzt kürzlich den Storage aber unten gestellt, den haben wir mittlerweile bei Cloudflare, weil wir bei Hetzner leider einfach zu viele Probleme gehabt haben mit internationalem Traffic. Das ist halt manchmal einfach zu langsam. Und deswegen schaut das jetzt in so aus. Also wir haben unsere ganzen Audiodateien, werden zuerst, also wenn man was zu uns hochladet, in so eine Cloudflare-Pucket, da gibt es diesen R2-Speicher, was so ein S3-Speicher ist von Cloudflare M. Da wird es hochgeladen und dann wird es bei Hetzner sozusagen wieder von Cloudflare bezogen und dann prozessiert und zum Schluss wird das wieder auf Cloudflare und dann wieder ausgeliefert. Bei Cloudflare gibt es wiederum verschiedene Buckets, je nachdem ob der User jetzt von der EU kommt, da gibt es eine strict EU Jurisdication, also dass die Daten eben garantiert in der EU bleiben und dann eben international, je nach Kontinent.

SPEAKER_00 34:58

Das ist im Prinzip unser Struktur.

SPEAKER_01 35:03

Und dann das System bei uns. Also das Web-System von uns ist Django, Item Django. Und da kommen eben die Dateien und die ganzen Einstellungen rein und die Datenbank und so weiter. Also Datenbank-Server haben wir auch bei Hetzner, das ist so aufgeteilt. Und dann das Processing funktioniert eben in einer Queen dazu haben wir so eine Salary Queue bei Django gibt es das. Also da schickst du dann den Job rein, da fällt das Audio-Processing und kriegst du dann wieder raus. Zusätzlich ist es noch ein bisschen komplizierter mit diesen GPU-Rechnen, weil da gibt es dann wiederum eine andere Queue, wo das ganze GPU-Prozessing funktioniert, weil diese ganzen Models müssen eben immer im V-RAM von der GPU gehalten werden, weil sonst, also man kann nicht einfach immer das Model laden, wenn man ein Audio-File prozessiert und dann wieder weg, also entladen und dann das nächste laden, weil das ist einfach zu langsam. Also du musst das eben immer im V-RAM halten. Deswegen muss das eben gut aufgeteilt sein, dass das alles sie ausgeht und so weiter. Und danach, wenn das Auto fertig ist, kommt es dann wieder in das Cloudflare-Pucket und das war es im Prinzip, ja.

SPEAKER_03 36:22

Wie macht ihr denn sowas wie Observability? Weil das so einer von diesen ganzen Punkten in diesem AI-Space ist ja, dass so viel nicht deterministisches Zeug passiert, wenn man dann das Processing macht. Und wenn ich jetzt hier quasi meine Tonspur hochlade und die wiederbekomme, wie habt ihr denn ein Monitoring darauf, ob das funktioniert hat, ob da komische Artefakte drin waren, ob ich zufrieden bin damit. Also wie überwacht ihr das so ein bisschen im laufenden Betrieb?

SPEAKER_00 36:54

Ja.

SPEAKER_01 36:56

Einerseits, einerseits viel menschliches testen. Also bevor wir die Models deployen natürlich. Wir haben einen großen Testdatensatz für jedes Model, im unterschiedliche, die wir dann halt auch wirklich immer manuell einfach nur durchhören. Es gibt schon so automatische Meshers auch, den man sich berechnen kann. Die haben halt leider oft nichts mit der subjektiven Wahrnehmung zu tun. Also das muss man halt echt alles menschlich durchhören. So wie die Trainingsdaten auch. Und dann natürlich im System, einerseits haben wir so einen Feedback-Mechanismus, wo man eben schreiben kann, wenn irgendwas nicht gepasst hat, die usern und das schauen wir uns dann natürlich genau durch. Dann haben wir auch so ein bisschen einen Audio-Editor bei uns mittlerweile, wo man über diese Features haben wir gar nicht geredet, also zum Beispiel Cutting, wo man so viel weiter raus können wir auch so detektieren und die automatisch rausschreien oder husten, räuspern, Stille, was auch immer, lauter so verschiedene Sachen. Und das kann man dann eben auch noch selbst anpassen im Editor. Und dadurch sehen wir natürlich auch, bekommen wir natürlich auch diese Daten und sehen, wenn der User was anpasst und die können checken, ob das dann zu den Trainingsdaten hinzufügen sollen. Und das erweitern wir gerade in andere Richtungen auch noch. Also beim Leveler zum Beispiel und beim D-Neuser haben wir es auch schon, dass man dort anpassen kann, wo genau was weggenommen werden soll in der Zeit und so weiter.

SPEAKER_00 38:34

Also, ja, Feedback und Selbsthören im Endeffekt.

SPEAKER_02 38:41

Weil es, äh, kannst du uns nochmal ein bisschen Kontext darüber geben, weil du jetzt auch meinst, da ist ja viel manuell, man muss es irgendwie durchhören. So, wie viele Leute seid ihr denn bei Auphonic und wie teilt ihr euch so inhaltlich auf? Ja.

SPEAKER_01 38:53

Wir sind zwölf Leute. Wir sind inhaltlich aufgeteilt. Also drei Leute tun eben nur hören. Wir bezeichnen das als Audiolabeler, aber wie immer man das bezeichnen will. Also verschiedene Trainingsdaten sortieren, Productions schauen, neue Runs evaluieren und so weiter. Also das braucht alles sehr viel Zeit. Das machen hauptsächlich diese drei Leute und auch die Entwickler natürlich zusätzlich, die dieses Model jetzt entwickeln. Dann Web Development Team sind jetzt sozusagen drei Leute. Dann Algorithmenentwickler.

SPEAKER_00 39:41

Drei bzw. vier. Dann bin noch ich, ich bin ein bisschen so überall drinnen mit der Entwicklung.

SPEAKER_01 39:52

Und wir haben jetzt noch einen haben wir noch für Marketing. Mit dem ich da vorher schon gestreamt werden, gell? Genau, genau. Also Marketing wäre untertrieben, alles was sonst denn noch so misst.

SPEAKER_03 40:07

Ich glaube, er nimmt das nicht böse so. Du hast gerade gesagt, ihr habt diese Audiolabel und aber auch die Developer, die sich das auch dann nochmal anhören, wenn sie gerade eben an diesen Modellen arbeiten, haben alle bei euch irgendwie einen Hintergrund auch in so Audio Engineering oder ist das was, wo man sagt, so, naja, ob da jetzt noch Esse oder stumme Teile drin sind, das hört auch jeder und das Audio-Labeling kann jeder machen oder wie viel Domänenwissen muss man denn da quasi mitbringen?

SPEAKER_01 40:35

Ja, haben eigentlich fast alle Hintergrund in dem Bereich, ja. Es sind viele, also bei uns gerade, wo wir herkommen oder wo wir unser Büro haben, gibt es eben so ein Doningenieurstudium. Da haben wir einige Doningenieure bei uns. Eben bei den Algorithmenentwicklern, bei den Audiolabelern, sogar der Chris, der jetzt Marketing und so weiter macht, ist Doningenieur vom Studium her.

SPEAKER_03 41:02

Dann. Fabi guckt gerade schon so, als ob er sich einen neuen Job irgendwie gerade ausmalt. Ja, ist auf jeden Fall.

SPEAKER_02 41:10

Tonstudie haben wir ja auch bei uns hier, oder? Also von daher. Ja, genau.

SPEAKER_01 41:17

Tonstudie haben wir noch nicht. Jo, was haben wir noch? Ja, eigentlich die einzigen, die nicht so den Audio Background haben, sind die Web-Developer. Wobei da einer auch Audit Background hat.

SPEAKER_00 41:33

Server Musiker, ja.

SPEAKER_01 41:35

Sind schon alle sehr audio-affin, jetzt haben wir so.

SPEAKER_03 41:40

Das ist ja cool. Also es spricht ja auch für euch, wenn man sich dann da quasi in der Nische so mit austoben kann. Und spricht ja auch für das Produkt irgendwie am Ende des Tages. Genau. Jetzt, also korrigier mich gerne, wenn ich falsch liege, aber jetzt seid ihr ja nicht irgendwie riesen Venture-Kapital finanziert und schmeißt hier mit Rechenpower um euch, wie das irgendwie manche andere große Player in dem Spiel machen. Wie war das denn für euch am Anfang oder wie ist das denn denn jetzt gerade, wenn man so ein AI-Produkt vertreiben will und da ja vielleicht Pricing-mäßig sich erstmal ganz anders orientieren muss, als ich sag mal klassische Web-SARS-Produkte irgendwie, ja, die vielleicht einen Webserver und eine Datenbank brauchen, aber bei euch ja schon richtig viel Rechenpower und Hardware irgendwie gebraucht wird. Wie war da so euer Weg hin, ein Pricing-Modell zu entwickeln für das, was ihr da alles macht?

SPEAKER_01 42:38

Ja, na, ich muss sagen, das Pricing ist eigentlich schon vor diesen ganzen aufwendigen Machine Learning-Hype entstanden. Also am Anfang war sie noch nicht so aufwendig. Diese ganzen älteren Machine Learning-Techniken waren eigentlich so flächenaufwendig. Das heißt, die sind dann hauptsächlich auf CPUs gelaufen. Und das heißt, zu dem Zeitpunkt, wo wir dann mit GPUs und so weiter angefangen haben, haben wir eigentlich schon Cashflow gehabt. Also wir waren da eigentlich schon durchfinanziert für die Größe, was wir eben damals waren. Also wir haben keine Investoren oder irgendwas. Also wir finanzieren uns alles aus unseren Einnahmen. Und ja klar, mittlerweile wird es natürlich teuer. Also wenn man, wenn man jetzt dann zum Beispiel Training Runs auf ABS macht, dann wird es halt sehr teuer. Und das alles anmieten muss, deswegen haben wir halt immer versucht, das so günstig wie möglich zu machen. Deswegen auch eigene Server gebaut, hauptsächlich. Fürs Training eben.

SPEAKER_00 43:51

Und Photovoltaik, Strom und so weiter. Oder im Island.

SPEAKER_01 44:01

Ja, im Prinzip laufen.

SPEAKER_03 44:02

Aber würdest du dann sagen, würdest du dann sagen, es war ein Vor- oder ein Nachteil für euch, dass ihr quasi schon diese ganze Preisstruktur und Cashflow hattet? Weil zum einen, wie du schon sagst, zum einen hattet ihr schon Cashflow und musstet nicht bei Null anfangen, zum anderen hast du ja aber vielleicht auch schon bei deinen Usern, Userinnen eine Erwartungshaltung irgendwie, was mich jetzt dieses ganze Audio Processing hier kostet. Und wenn das jetzt auf einmal so viel komplexer und aufwendiger und teurer für euch wird, dann ist es ja vielleicht auch nicht so ganz trivial, das eins zu eins irgendwie weiterzureichen, oder?

SPEAKER_01 44:33

Na, das war für uns sicher ein großer Vorteil. Weil wenn du jetzt anfangen musst und einmal, du brauchst halt einmal die initiale Investition, dass du mal eine gewisse Traininginfrastruktur hast, ganz einfach. Wenn du das nicht hast, musst du es halt mieten, was natürlich langfristig jetzt viel teurer ist. Für den Anfang natürlich geht es eh nicht anders, aber du musst halt einmal ein paar hunderttausend Euro zumindest in die Hand nehmen, um einige Rechner umzustellen. Und das war für uns natürlich schon viel leichter, weil wir schon die Firma gehabt haben sozusagen. Für die Erwartungshaltung der User, was du gefragt hast, also wir sind mit unseren Preisen eigentlich nicht wirklich teurer geworden über die Zeit. Also wir haben es halt versucht, es über die Masse sozusagen zu regeln. Und der Service ist halt natürlich immer größer geworden über die Zeit und dadurch mehr Einnahmen.

SPEAKER_03 45:31

Vielleicht magst du ungefähr sagen, also du musst ja keine Geschäftsinterne ausplaudern, aber wie viele User hat denn auf Honig? So ungefähr. In welcher Größenordnung seid ihr da unterwegs?

SPEAKER_01 45:41

Wir haben im Moment so circa zwei Millionen.

SPEAKER_03 45:46

Da kriegt auch Fabi große Augen.

SPEAKER_01 45:49

Aber das sind auf jeden Fall einige. Das sind jetzt natürlich nicht zahlende User, also insgesamt.

SPEAKER_03 45:56

Aber trotzdem, also auch die nicht zahlenden User wollen ja mit Infrastruktur und Rechenleistungen versorgt werden, die kosten euch ja trotzdem Geld.

SPEAKER_01 46:02

Ja, klar.

SPEAKER_00 46:03

Kommt drauf an halt, wie viel sie prozessieren. Also. Es gibt sicher viele Account-Leichen, sind wir so. Ja, die gibt es überall.

SPEAKER_02 46:14

Und ich würde gerne mal so ein bisschen auf zwei Parts eigentlich eingehen, die möglicherweise miteinander zusammenspielen. Du hast ja vorhin schon gemeint, also auch für alle nochmal draußen, also im Grunde ein bisschen, in erster Linie geht es ja um Voice und die Voice-Optimierung, die eure Modelle sind, du hast ja schon gemeint. Musik ist dann schon direkt wirklich viel schwieriger, weil es da irgendwie ganz andere Anforderungen an Dynamik und sowas gibt. Und vielleicht kannst du nochmal so ein bisschen auch einen Ausblick darauf geben. Ich meine, auch die Zeit, wo ihr auf Podcasts gesetzt habt, in der Zeit ist ja einiges sehr viel größer geworden. Das heißt, das ganze Umfeld, das heißt, es gibt potenziell natürlich sehr viel mehr Kunden für diesen Service, aber denkt ihr darüber nach, auch wirklich Audio und auch vielleicht in Richtung wirklich, keine Ahnung, Songproduktion oder sowas zu machen? Oder ist das komplett ausgeschlossen, vielleicht auch für uns Neue in diesem Feld? Ist das wirklich, weil es so viel komplexer ist und einfach ganz andere Anforderungen hat? Oder ist das was, eine wirkliche Richtung, in die ihr euch auch orientieren werdet, so nicht nur Stimme, sondern auch Instrumente, Musik zu machen?

SPEAKER_01 47:14

Ja, bisher machen wir das eh. Also es werden von uns zu den jetzigen Algorithmen ja auch Musikteile zum Beispiel gelavelt oder angepasst, Noise Reduction und so weiter. Aber wir haben uns jetzt explizit nicht darauf spezialisiert bis jetzt, ja. Also es gibt ja, es gibt ja alle möglichen anderen Mastering-Services mittlerweile für Musik, die das machen. Vielleicht werden wir auch einmal ein bisschen einen Schritt mehr in diese Richtung gehen, weil vom technischen her ist es natürlich ähnlich. Also man hat ähnliche Modus, man muss halt die Daten anders aufbereiten. Fürs Training natürlich, aber im Prinzip ist es ähnlich alles. Es passt halt bei uns auch nicht so wirklich in das Preiskonzept, ganz einfach, wie es im Moment ist bei uns. Weil man wird unten noch Stunden an Audio sozusagen bezahlt. Und wenn du jetzt drei Minuten Songs hast, dann ist es halt nicht sehr lukrativ.

SPEAKER_02 48:15

Ja, auf jeden Fall musst du Musik und Sprache auf jeden Fall anders bepreist werden, ja, das stimmt.

SPEAKER_01 48:21

Und das wird halt dann wieder kompliziert werden, natürlich, weil in einem Podcast kann man ja auch Musik haben. Aber mal schauen, vielleicht machen wir in der Zukunft da was, ja.

SPEAKER_02 48:32

Und vielleicht nochmal ein bisschen auch da nochmal eine banale Frage, die du vielleicht auch schnell abtun kannst. Wenn ich jetzt auch nochmal auf den jetzigen AI-Landscape irgendwie schaue und irgendwie Tools sehe, wie, nehmen wir mal das Größte, was man irgendwie im Audio vielleicht so, vielleicht unsere Hörler draußen kennt, die jetzt nicht direkt mit Audio zu tun haben, wie sowas wie Suno AI, wo man ein Modell hat und sagst, Text Input und gib mir mal einen Song direkt hinten raus. Das bringt mich ja erstmal zu diesem Part so, ich verstehe, dass eure Kunden irgendwie Anforderungen haben, dass sie bestimmte Bereiche selbst irgendwie oder ein bisschen Einfluss darauf haben wollen, wie jetzt, ob wir nur DSing machen, ob ihr auch das E-Collecting macht, ob ich das irgendwie selbst machen will. Aber ich kann mir auch vorstellen, dass ein Großteil da draußen sagt, ich will eigentlich nur erstmal das Bestmögliche an Qualität, vielleicht gerade auch bei Podcasts, wo ich sage, am Ende will ich ja nur, es ist ja vielleicht, was jetzt das Audio angeht, weniger kreativ wie Musik, wo man wirklich irgendwie durch das Leveling und sowas noch irgendwie viel Dynamik raus ist und eigentlich sagt, hey, ich will einfach ein, dass es professionell klingt so. Und ist dann nicht vielleicht auch für euch so ein bisschen so eine Gefahr, dass da draußen vielleicht dann ein Player kommt mit dem eher einem generischen Modell, wo ich sage, hier Audio in, Audio out und die Anforderung ist, mach es zur Studioqualität so. Ist das was, was ihr befürchtet, dass das vielleicht auch oder eine Konkurrenz für euch ist, so? Glaubst du das? Wenn ja, arbeitet ihr an sowas auch selbst oder ist das wirklich, wie du sagen würdest, einfach ein komplett anderes Playing Field?

SPEAKER_01 49:59

Nein, im Prinzip ist ja das, was genau das wollen wir ja eh machen im Prinzip. Also nur, dass man dann zusätzlich noch verschiedene Abstufungen und Einstellungen machen kannst. Also wenn du jetzt einfach hingehst und unsere Default-Settings nimmst, dann soll genau das rauskommen. Bei uns auf der Hauptwebseite wieder hinkommst, gibt es jetzt so ein großes Drag-and-Drop-Field. Oder sogar auf der Startseite, Landingpage. Und wenn du da eben dein Audio reintropst, dann passiert das ja eh im Endeffekt.

SPEAKER_02 50:31

Da ist aber vom Ansatz her, also ob das jetzt sozusagen im Hintergrund, ist es halt eher die technische Frage so, dass schon die Vorstellung von dir oder euch ist so, dafür braucht es einzelne Modelle, die die einzelnen Bereiche in dieser Chain optimieren und das ist dann nicht dieser Ansatz zu sagen, ich packe das alles auch am Ende wieder irgendeine Transformer-Architektur und ich mache einfach nur, hier ist ein Audioteil, wo alles schlecht ist, hier ist ein Audioteil, wo alles gut ist und den Rest, mach du mal. Modell. Das funktioniert bei Audios an der Stelle dann so nicht.

SPEAKER_01 51:04

Sicher kann man auch so machen, natürlich. Aber auch wenn du jetzt, ich meine, auch wenn du jetzt so große Models nimmst, gibt es ja in den Models ja wiederum eigene Sub-Models und Stages, die trainiert werden und so weiter. Also es ist immer irgendwie ein Zusammenhang von verschiedenen Dingen, wie immer man die jetzt bezeichnet. Aber dem User ist ja im Prinzip egal, was dahinter funktioniert, was dahinter passiert, ob da jetzt drei Models sind oder vier oder zehn oder eines. Also es soll halt einfach gutes Audio rauskommen im Endeffekt.

SPEAKER_02 51:38

Ja, ich frage auch, glaube ich, eher aus der Richtung, dass es so, vielleicht jetzt von der Annahme her stelle ich es mir komplizierter vor, so viele kleinere Modelle zu trainieren und wenn man einfach sagt, so, hey, ich kann das eine Modell bauen, wo ich sozusagen immer nur mein Datenset immer weiter optimiere, aber im Grunde genommen immer der gleiche Prozess ist und ich werde eine neue Versionen davon rausbringen, klingt jetzt von meinem nicht AI-Engineer-Background, sondern Web-Development-Background irgendwie, als wäre es möglicherweise der simplere Ansatz oder der einfachere. Ich glaube, dass ihr wahrscheinlich zu einem besseren Ergebnis kommt. In meinem Kopf ist das eine sehr viel mehr Arbeit als das andere. Aber vielleicht liege ich auch da falsch.

SPEAKER_00 52:20

Falsch lieb sowieso nicht.

SPEAKER_01 52:21

Man kann es nur probieren, was denn rauskommt.

SPEAKER_03 52:25

Höflich umschifft, um nicht zu sagen, dass Fabi doch falsch liegt. Cool. Fabi, hast du noch sonst noch Anschlussfragen?

SPEAKER_02 52:35

Nee, ich glaube, ich habe jetzt mittlerweile alles, also so mal einen guten Überblick irgendwie dafür bekommen. Ich finde es schon sehr interessant. Ich meine, so du hast ja vorhin angefangen, Georg, oder erzählt von den VST-Plugins, ich meine, das ist im Grunde genommen die Ebene, auf der ich auch irgendwie audiomäßig unterwegs war. Ich habe hier meine DAO, den Begriff, den wir jetzt gelernt haben, habe da meine verschiedenen Plugins und probiere da sehr stiefmütterlich rum, das Ganze zu optimieren. Und von daher finde ich es irgendwie sehr interessant, dass euer Machine Learning-Ansatz im Grunde genommen die gleichen Schritte macht, nur das Ganze automatisierter und sehr viel besser. Und es ist auf jeden Fall was, ich meine, gerade uns als Podcast hat es schon sehr viel geholfen. Auch wenn der Carlo, der bei uns das Audio hier macht, sehr viel mehr Ahnung von diesen Reglern hat als ich, hat es auch selbst bei so professionellen Leuten die Arbeit so viel vereinfacht. Deswegen war es ein sehr cooler Einblick, mal zu verstehen, was da eigentlich, was da eigentlich da hinten dran steckt. Deswegen, nee, von mir nicht.

SPEAKER_03 53:29

Und man muss auch sagen, Auphonic hatte uns auch schon die ein oder andere Audiospur gerettet, wo wir irgendwie aus einer Aufnahme gekommen sind und gesagt haben, boah, da war aber irgendwie eine Baustelle hinten dran oder sonst irgendwas, was dann doch noch zu gebrauchen war dadurch. Ja, Georg, ich weiß, hast du noch ein Thema, über das du unbedingt sprechen wolltest und keiner hat dich danach gefragt und jetzt ärgerst du dich nicht, jetzt ärgerst du dich, dass du Fabi nicht erzählen konntest, wie XYZ funktioniert?

SPEAKER_01 53:58

Boah, nein, keine Ahnung. Also wir könnten natürlich noch über viele Details reden, aber ich sehe schon noch viel, sage ich mal.

SPEAKER_03 54:09

Dann habe ich vielleicht noch eine ganz andere letzte Frage zum Schluss. Nämlich, du hast ja ganz am Anfang erzählt, dass ihr das primär gemacht habt, weil du selbst auch gerne Podcast hörst und eben was dazu beitragen wolltest, dass das ein bisschen besser wird insgesamt. Jetzt ist ja die Podcasting-Welt in den letzten 10, 15 Jahren, seitdem ihr das so macht, hat sich schon so ein bisschen gewandelt. Es gab irgendwie während Corona einen großen Boom, es gibt jetzt irgendwie immer mehr Formate, die auch irgendwie mehr auf Video und sowas setzen. Wie viel von dieser Wandlung in diesem Ökosystem kriegt ihr so mit? Und wie viel davon ist euch aber am Ende auch eigentlich egal?

SPEAKER_00 54:56

Keine Ahnung.

SPEAKER_01 54:57

Also Wandlung, Wandlung in dem Sinn haben wir nicht viel mitbekommen. Also im Endeffekt ist alles Audio. Also wieder natürlich auch kommen. Ob der Video dabei ist oder nicht, ist ja uns im Prinzip egal. Was wir natürlich mitbekommen haben, ist, dass sie alles gesteigert hat. Also es ist immer mehr Podcasts, auch andere Sachen. Das war natürlich in den letzten Jahren schon enorm. Aber jetzt, dass sich beim Content an sich irgendwas verändert hat, das könnte ich nicht sagen. Also ich glaube, vor ein, vier Jahren war auch so die Befürchtung, dass es jetzt noch mehr, also von manchen Podcastern, dass es noch mehr so AI-generierte Podcasts gibt. Aber ich glaube, das hat man schon gleich gesehen, dass das nicht so kommen wird. Weil Menschen halt einfach gern Menschen zuhören. Glaube ich halt zumindest.

SPEAKER_03 55:55

Das ist doch wäre ein schönes Schlusswort gewesen, wenn es schon unser Schluss wäre. Okay. Fabi, was kommt denn noch bei uns am Ende? Die Pick of the Days. So, und weil Fabi vorhin, als ich nach seinem Pick of the Day für diese Woche gefragt habe, ganz selbstlos gesagt hat, er hat bestimmt was, bis wir soweit sind, darf Fabi anfangen.

SPEAKER_02 56:35

Ja, und ich habe nicht nur was, sondern ich habe im Grunde genommen, wenn man die letzten beiden Deep Dolph mir gehört hat, einen sich aufbauenden Pick of the Day. Jetzt kommen Part drei meiner Pick of the Days. Vielleicht für die, die es nicht gehört haben, meine letzten zwei waren. Das erste war Whisper Flow, sozusagen als Tool, um Text-to-Speech lokal auch auf dem Mac zu machen. Mein zweiter Pick of the Day war der Use Case davon und zwar, wenn ihr mit AI-Modellen interagiert, dann ab jetzt einfach nur noch reinsprechen. Auch wenn ihr im Büro seid, sprecht einfach, es ist so viel besser und verliert die Hemmung. So, das sind sozusagen die beiden Punkte. Und jetzt, mein dritter Pick ist ein technischer Pick, an den ich aber ein Use Case dranhänge. Und zwar ist mein dritter Pick Starlight von Astro, was ja ihre Bibliothek ist, um Dokumentationsseiten zu bauen. Also basierend auf Astro, ist im Grunde genommen ein Dokumentationstool, um Markdown-basiert Dokumentationsseiten. Wird auch super viel im Web auch gerade Open Source irgendwie eingesetzt. Und ich nutze das, weil ich mittlerweile unsere Projektdokumentation von unseren Teams mittlerweile, also erstens AI-First und zweitens Voice-First mache. Also alles, was bei unseren Projekten jetzt dokumentiert wird. Ich habe im Grunde genommen mein Cloud Code oder irgendein lokales Modell, mit dem ich per Voice interagiere und habe ein kleines GitHub-Repo, in dem eigentlich nur Markdown-Dateien liegen, mit der Idee, dass es auch gleichzeitig von unseren Developern nutzbar als Input für ihre AI-Modelle, wenn sie das Ganze entwickeln. Das heißt, wir wollen alles Markdown-basiert machen. Und darüber liegt Astro mit Starlight, dass sich wirklich eine schöne Dokumentationsseite gebaut hat, die eben auch noch ein paar nette Features über Markdown eben hat und ein durchsuchbares Dokumentationsseite ist. Und ich deswegen sozusagen als Komplettierung meiner Pick of the Days Starlight noch nehmen will, weil ich wirklich sage, gerade diese AI-First-Dokumentation ist wirklich, funktioniert mit dem Setup mega, mega gut. Und ich würde sagen, ich schreibe eigentlich, was Dokumentation angeht. Also ich habe wirklich gar nichts davon geschrieben und ich muss auch nur Kleinigkeiten daran ändern. Das ist krass, wie gut die Qualität ist. Und gerade mit Astron Starlight irgendwie als so ein minimales Setup oben drüber ist es sowohl AI-First für unsere Entwickler, dass sie als Input nehmen können und auch gleichzeitig irgendwie trotzdem noch super gut human readable für Leute, die eben keinen GitHub-Account haben und dann in die Markdown-Viewer gehen wollen oder sich irgendwo lokal runterziehen wollen, sondern als eine kleine schöne kleine Web-App, wo alle Dokumentation mit drin ist. Deswegen nicht Starlight.

SPEAKER_03 58:51

Ich muss da mal direkt nachfragen. Benutze das wirklich so im Büro? Also ich meine, ich sitze ja bei Matthias, wäre mir so ein Zweierbüro, aber du sitzt ja im offenen Space so mit allen anderen, ne? Und ich muss sagen, ich hätte da Hemmung, irgendwie so, wenn 50 Leute um mich rumsitzen, auf einmal so in meinen Laptop reinzureden.

SPEAKER_02 59:10

Ja, also ich, ich meine, am Ende deswegen spreche ich es hier offen aus, damit ich mich selbst dazu bringe, es noch mehr zu tun. Ich mache es auch nicht immer. Manchmal gehe ich auch irgendwie, wenn ich dann wirklich sage, okay, ich muss jetzt irgendwie wirklich sehr lang, irgendwie habe ich eine relativ lange Session, dann gehe ich aktuell schon noch in den Raum, aber ich so immer mal, wenn man es einfällt, also ich, dann spreche ich mit der AI auch im Open Space und ich glaube, wenn es mehr Leute tun, dann werden wir uns schon irgendwie da adaptieren. Und jetzt wollte ich nochmal einen weiteren Use Case, was ihr damit machen könnt, wenn ihr nicht einfach nur Coding machen wollt, sondern auch für Produktmanager da draußen oder auch alle, die keinen Code schreiben, ist das echt nochmal ein cooler Use Case, gerade mit Starlight. Finde ich cool. Wunderbar. Und ich freue mich, dass es nicht zum dritten Mal Whisperflow ist. Das zweite Mal war ja auch nicht Whisperflow, es war Reden. Das eine war Whisperflow, das andere war Reden und jetzt ist es.

SPEAKER_03 59:59

Ich hab's nur bei uns im CMS gesehen, wo es war Fabi Whisperflow, Whisperflow, Whisperflow.

SPEAKER_02 1:00:03

Ne, es gab nur einmal als wirklicher Pick.

SPEAKER_03 1:00:07

Georg, was hast du dabei?

SPEAKER_01 1:00:10

Was hab ich dabei? Ja, reden in KI-Modelle, mit dem habe ich mich noch nicht so angefreundet. Speziell im Zug und so schwierig. Zug vielleicht, ja. Nein, wieder vielleicht was ganz Altmodisches. Also ich bin jetzt wieder, weiß nicht, ob ihr das kennst, Org-Mod in Emacs. So ein Organisationstool. Uralt, im Prinzip so ein bisschen wie das Oblivion oder wie die heißen. Aber sehr praktisch und alles lokal. Also gibt es eben so einen Org-File-Syntax, wo man also strukturieren kann und dann auch super schnell mit DAP navigieren in verschiedene Topics rein und Unterpunkte. Und dann mit Kalender kann man das gleich machen mit ein paar Tastenkombinationen und so weiter.

SPEAKER_02 1:01:04

Is this ein File-Format oder ist das ein CLI-Tool?

SPEAKER_01 1:01:08

No, this is a file, this is einfach ein File-Format. Im Prinzip ist das einfach ein Text-File, aber es gibt an Editor, mit dem man das interaktiv bearbeiten kann. Ich glaube, this unterstützt eh nur der Emacs. This is the amazing punch for what ich E-Macs verwende. Aber es ist ganz praktisch.

SPEAKER_02 1:01:28

Da machst du jegliche private Dokumentation oder Firmendokumentation. Genau. Was dokumentierst du dann?

SPEAKER_01 1:01:35

Alles. Also im Prinzip kann man es ist so wie wenn man in einem GitLab-Issues anlegt oder irgendwas, man ist es halt in dieser Text-Datei und man kann es so schneller navigieren und suchen und miteinander verknüpfen und so weiter. Und das ist nur ein bisschen so.

SPEAKER_03 1:01:48

Also laut laut Webseite gibt es das Emacs, Wim, aber auch für Android, iOS, Web, für Visual Studio Code, also tatsächlich ordentlich Support dafür.

SPEAKER_01 1:01:59

Aber das funktioniert alles nicht.

SPEAKER_03 1:02:01

Das funktioniert nur im Emacs. Zumindest was ich gesehen habe, keine Ahnung. Gesprochen wie ein wahrer Emacs-User. Diese ganzen grafischen Tools, die braucht keiner.

SPEAKER_01 1:02:13

Ich bin immer für E-Mac-User, echt nur für das Org-Mod, sonst überhaupt kein E-Mac-Fan.

SPEAKER_03 1:02:19

Und dafür hast du dich jetzt komplett da reingebühlt, das ist ja auch krass.

SPEAKER_02 1:02:23

Ja. Das ist irgendwie. Siehst du mal, haben wir schon mal hier heute zwei Pick of the Days für Arten von Dokumentation. Mein Weg ist Markdown, AI und Starlight. Und Georg hat gesagt, Org-Mode mit E-Macs. Von daher, siehst du was, eigentlich passt ja perfekt zusammen, ohne dass wir es abgesprochen haben.

SPEAKER_03 1:02:42

Wunderbar, wunderbar. Ich habe was ganz anderes am Start.

SPEAKER_02 1:02:48

Mach doch Dokumentation, Stift und Papier, kannst du doch noch machen. Das ist gerade dein Pick aus der Dessen. Und dann ist leicht.

SPEAKER_03 1:02:53

Ich wollte eigentlich, wollte ich ein Apple Watch-Pick mitbringen für Farbe.

SPEAKER_02 1:02:56

Oh nee, dann mach lieber weiter. Ich hab nichts gesagt. Plus nichts mit everyone.

SPEAKER_03 1:03:00

Und dann hab ich erst überlegt, ob ich nicht die Auphonic Mobile App picken sollte, weil über die bin ich gestolpert, als ich die Recherche für diese Folge gemacht habe. Und habe ich festgestellt. Den gibt es noch auf GitHub. Da habe ich sie nämlich gefunden. Und da habe ich festgestellt, die ist gebaut worden von einem gewissen Christoph Nakazawa. Und den kennen wir ja aus einem vorherigen Deep Dive, der war auch schon bei uns, um über Game Development zu sprechen und so. Dachte ich, da würde sich der Kreis quasi perfekt schließen. Jaja, ist schon Folge 140 oder so. Es muss schon gute zwei Jahre her sein.

SPEAKER_01 1:03:44

Der Chris war mal bei euch oder was hat der? Der Chris hat ganz am Anfang, also der erste Mitarbeiter bei Aphonic war der André und der Chris war ein guter Freund vom André. Und hat dem auch dann Graz studiert. Und ja, so ist er irgendwie auch zu Aphonic gekommen. Und diese Mobile-App damals, das war die erste Version, die uralte Version. Das waren wir dieses Framework-Kesen damals, wo man so Cross-Plattform-Apps können machen. Cordova ist das. Ja, scheinbar. Und hat alles in HTML.

SPEAKER_03 1:04:21

Aber super, ich bin ja. Schon damals. Ja, also nein, das hatte ich dann auch erst du bewegt. Ich dachte, okay, das ist vielleicht ein bisschen unfair, wenn es das nicht mehr gibt. Stattdessen bringe ich einen anderen Pick mit. Und zwar, Fabi, kann das vielleicht sehen jetzt gerade.

SPEAKER_02 1:04:36

Du musst aber erstmal wieder ins Mikro reinreden, aber das schafft auch von Eik.

SPEAKER_03 1:04:39

Ich bring hier M-Disc mit. Und zwar M-Disks sind so Archiv-CDs oder Blu-Rays in dem Fall sogar, die man so nehmen kann, wenn man Sachen wirklich, wirklich lange aufheben will. Weil man kennt das ja, oder die Älteren von uns werden sich erinnern, dass, oh Gott, Harvi kommt gleich wieder. Und dann zerfallen die irgendwann, lösen sich auf, kann man nicht mehr sauber benutzen. Und ich bin ja so ein Backup-Fanatiker und mir liegt viel an Datensicherheit. Und wenn man irgendwie Fotos von seinen Kindern oder der Familie oder was weiß ich nicht alles hat, versucht man ja alles, um die irgendwie sauber aufzubewahren. Und deshalb habe ich jetzt angefangen. Mann ist jetzt selber trieben. Du kannst zu versuchen, aber jetzt immer weiter. Deshalb habe ich jetzt angefangen, wichtige Daten auf M-Dis-Blu-Race zu brennen und sauber wegzuarchivieren, so in der Hoffnung, dass die auch in 100 Jahren darauf noch sicher funktionieren. So. Who knows? Es ist so ein Layer im Backup-Netz irgendwie mehr. Es kostet auch nicht die Welt. Man kann das mal versuchen. Das ist irgendwie einfach in eine Kiste gepackt und aus dem Haus gebracht.

SPEAKER_02 1:05:46

Würde ich gerade sagen, hast du die verbuddelt im Garten da? Was machst du damit? Das ist am Ende, wenn dein Haus brennt, auch nicht Computer verbrannt ist, sodass du noch wenigstens im Garten ausgraben kannst.

SPEAKER_03 1:05:57

Jetzt müssen wir hier mal das Backup 101 irgendwie anfangen. Wir machen schon. Offside Backups Fabi so. Ja, ist jetzt nicht so, dass, also ich kann dir, ich kann stunde lang nur über meine Backup-Strategie reden, wenn wir mal einen Podcast dazu machen, wo ich gerade finde.

SPEAKER_02 1:06:08

Also ich finde Jans Backup-Strategien, finde ich auf jeden Fall wären ein gutes Format für die nächste Folge. Also das finde ich sehr, das finde ich sehr interessant, was du alles, ich meine, du hast ja auch irgendwie, also da haben wir auch hier überhaupt Backup, so falls mal Strom ausfällt, sodass deine Server mal kurzzeitig auch ohne Strom sind und so ein Kram hast?

SPEAKER_03 1:06:21

Ich weiß auch, alle meine Nass-Server haben USV nebendran, hier geht gar nichts kaputt. Das heißt, wenn man jetzt aus dem Haus bringt, wo bringst du denn diese M-Disks hin? Also tatsächlich habe ich mir so ein, kennst du diese Pelican-Cases, diese super robusten Hass, als Musiker muss man doch Equipment irgendwie transportieren. So, hab ich schon mal gehört. Wie heißen die Pelkan? Pelican, wie Pelikan, nur mit C. Die machen so richtig robuste Kisten für Wasserdicht, Staubdicht, bla bla bla. Da packe ich dann diese ganzen DVDs rein und dann lagern die an einem Ort, der nicht mein Haus ist.

SPEAKER_02 1:06:54

Also es auch nicht genannt werden darf, nicht, dass am Ende noch, das ist ja auch ein weiteres Teil des Sicherheitsnetzes, dass ja niemand diesen Backup-Ort rausfindet.

SPEAKER_03 1:07:02

Ich sehe, wir verstehen uns, Fabi. Deswegen, also mein eigentlicher Pick, MDIS. Wenn ihr irgendwie Sachen brennen wollt, von denen ihr hofft, dass ihr länger als zehn Jahre auf der Scheibe bleiben, schaut euch das mal an.

SPEAKER_02 1:07:14

Und wenn ihr kein CD-Laufwerk mehr habt, der Jan schickt euch gerne eins zu. Könnt ihr schon rein.

SPEAKER_03 1:07:20

Chance dafür tatsächlich einen ordentlichen Brenner, der M-Dis auch sauber brennen kann. Was machst du das? Machst du das mit Nero? Nero Burning Rum. Nein, nein, nein. Das geht mit Bordmitteln mittlerweile alles ganz easy, aber. Immer noch, ist ja nicht mittlerweile immer noch. Kann man noch Sachen brennen? Kann man noch CDs leben? Tatsächlich, ich hab, jetzt machen wir ein ganz anderes Fass auf, aber ich habe noch so ein altes externes Superdrive von meinem Mac. Weißt du, diese externen DVD-Laufwerke, die es für die Macs früher gab, als sie aufgehört haben, die internen zu verbauen. Das betreibe ich immer noch ab und zu an meinem Windows-Laptop, weil das auch kein CD-Laufwerk hat, obviously. Aber am Mac wird es tatsächlich nicht mehr unterstützt. Also modernes Mac OS-Betriebssystem erkennt dieses Laufwerk überhaupt gar nicht mehr und weigert sich komplett irgendwie mit optischen Medien da zusammenzuarbeiten.

SPEAKER_02 1:08:09

Also ich merke schon, ich habe Georg jetzt hier gerade komplett abgehängt. Jan, diesmal meine ich es wirklich ernst, ich würde gerne mit dir eine Folge zu deinen Backup-Strategien machen. Auch wenn es nur eine halbe Stunde ist, ich würde gerne einmal deine Backup-Strategien verstehen.

SPEAKER_03 1:08:21

Okay, vielleicht irgendwo als auf YouTube, als so ein Special oder so, abseits vom Feedback. Wenn ihr das auch hören wollt, diesmal meine ich es wirklich ernst.

SPEAKER_02 1:08:30

Diese Apple Watch-Hater-Folge war ja nur so halb ernst gemeint, aber auch dazu mal Feedback bekommen. Aber wenn ihr was zu Backup-Strategien von Jan wissen wollt, dann schreibt uns dann. Matt, die machen wir wirklich.

SPEAKER_03 1:08:39

Okay. Fair. Wunderbar. Tausend Dank, Georg, dass du dir Zeit genommen hast für uns, insbesondere die letzten drei Minuten durchgestanden hast.

SPEAKER_01 1:08:49

Danke für deine Backup-Strategie. Also wir werden das in der Firma nachbauen, damit alles sicher ist.

SPEAKER_02 1:08:54

Das ist doch sehr gut, dann hast du wunderbar.

SPEAKER_03 1:08:57

Ich fand es super spannend, auch wenn ich sagen muss, dass ich zwischendurch bei manchen Audiosachen so ein bisschen raus war, weil ich finde es immer cool zu sehen, wie Leute tatsächlich produktiv mit AI coole Produkte bauen und nicht nur irgendwelche komischen Proof of Concepts und dann hat man nie wieder was davon gehört. Mega cool, danke, dass du uns daran hast teilhaben lassen. Danke, Fabi, dass du Zeit gehabt hast für diesen Deep Dive für uns. Und dann hören wir uns alle nächste Woche wieder. Bis dann. Ciao. Danke, Georg. Ciao.