Next AI Talk with Sophie - Best Practices, AI-Trends and Innovations

#149 Transparente KI-Kreativität statt teure Videodrehs

Sophie Hundertmark Season 6 Episode 10

Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.

0:00 | 18:02

Input geben - Networking starten!

Wir zeigen, wie wir aus alten Passfotos lippensynchrone KI-Videos für einen 90er-House-Track gebaut haben und warum klare Ziele, Toolwahl und Handwerk mehr zählen als Abkürzungen. Der Weg führt von KI-Cover, Vocal-Stems und HeyGen bis zu Schnitt, Outfits und transparentem KI-Hinweis.

• Zielbild definieren: Lip-Sync auf Gesang, kurze Social-Clips
• Cover-Erstellung mit KI auf Basis echter Fotos
• Tool-Hürden und Lösungen bei Bildbearbeitung
• HeyGen für Lip-Sync, A-cappella-Stems als Input
• Short-Strategie: 4–20 Sekunden, Variantenbau
• KI-Outfits und Club-Hintergründe generieren
• Compositing und Filmschnitt als Schlüsseletappen
• Transparenz über KI-Nutzung als Qualitätsmerkmal
• Praxis-Tipp: Produktbilder konsistent mit Gemini
• Learnings: hoher Aufwand, schnelle Tool-Evolution

Hier gehts zum finalen Video: https://www.youtube.com/shorts/WgVgq684NWA

https://www.instagram.com/p/DQbW0f_Csls/

https://music.imusician.pro/a/szvB4zoV

Und wenn ihr mal einen interessanten Use Case oder eine interessante Anwendung habt, schreibt mir. Am einfachsten geht es immer auf WhatsApp. Und dann könnt ihr gerne auch mal nächster Interviewpartner werden.



Support the show

Vielen Dank an unsere Starken Podcast-Partner:


Solunex:

Der Schwerpunkt von Solunex liegt in der Unterstützung unserer Kunden im effizienten und automatisierten Verarbeiten und erzeugen von Kundenkommunikation. Dabei decken wir sowohl die Eingangsseite ab (Input Management), wobei Automatisierung und Unterstützung der Kundenteams durch den gezielten Einsatz von AI im Vordergrund stehen. Auf der Ausgangsseite (Output Management), steht ebenfalls die Automatisierung im Fokus, sowie die Nutzung sämtlicher Kontaktkanäle zwischen Kunden und Endkunden (Omnichannel Management).

Vor über 35 Jahren gegründet, verfügt das Team von Solunex über langjährige Erfahrungen aus erfolgreichen Kundenprojekten, basierend auf hervorragender technischer Umsetzungskompetenz.

Solunex unterstützt die Kunden über den gesamten Lebenszyklus einer Lösung aktiv und zuverlässig. https://www.solunex.ch/


AlpineAI:

AlpineAI ist ein innovatives Schweizer KI-Unternehmen, das sich auf sichere und datenschutzkonforme KI-Lösungen für Unternehmen spezialisiert hat. Ihr Hauptprodukt, SwissGPT, ist eine Schweizer Version von ChatGPT, die höchste Standards beim Daten- und Geheimnisschutz gewährleistet, indem alle Informationen in Schweizer Rechenzentren verarbeitet werden. AlpineAI versteht sich als Innovationskatalysator für die KI-Transformation und arbeitet daran, Unternehmen durch massgeschneid...

SPEAKER_02

Herzlich willkommen zur nächsten Folge von Sophie's Next AI Talk. Bevor wir starten, erstmal Danke an alle Zuhörer, dass ihr wieder einschaltet. Danke an meinen heutigen Podcastgast, den Lukas. Und danke an meine Podcastpartner Solonex und CMM360. Und heute geht es um ein Thema, wo ich weiß, das beschäftigt alle eigentlich immer. Ich werde nämlich sehr häufig gefragt, Sophie, hast du Tipps, wie wir Bilder erstellen können? Und die Steigerung ist dann, Sophie, hast du Ideen, wie wir Videos erstellen können? Und der Lukas hat mich letztens angeschrieben und hat gesagt, du, ich habe da was Spannendes gemacht, ich glaube, das könnte interessant sein. Da muss ich sagen, hatte ich wirklich den Wow-Effekt und gedacht, okay, A, kreative Einsatz von KI und zweitens wirklich genial gelöst. Insofern, Lukas, danke für die Insights heute. Und vielleicht kannst du dich als erstes ganz kurz vorstellen.

SPEAKER_00

Hey, ciao Sophie, hallo alle zusammen. Mein Name ist Lukas Walter. Ich habe ein Tonstudio. Ich mache Records, Mixings, aber auch Learnings, Teachings, wo die Leute mit ihren Tracks vorbeikommen und ich Ihnen zeige, wie sie audiotechnisch ihre Songs optimieren können.

SPEAKER_02

Okay, und jetzt geht es aber heute ja nicht um die audiotechnische Optimierung von Songs, sondern ihr hattet die Herausforderung, ihr braucht ein Video, richtig?

Lukas’ Background Im Tonstudio

SPEAKER_00

Genau. Da kam ein Kunde mit einer Hausnummer, so 90er Jahre House-Track. Und die erste Aufgabe war dazu, die Vocals aufzunehmen und zu mischen. Also eine Sängerin und einen Sänger. Das haben wir gemacht. Und danach stellte sich uns das Problem, wir sind alle nicht mehr ganz jung und wir gehen mit dem Track nicht auf die Bühne. Trotzdem möchten wir den vermarkten über Spotify. Wir brauchen also irgendwelche attraktiven Bilder oder Videos. Dort kam dann die Idee für Kai. Wir nutzten Fotos von uns selbst, alte Passfotos, haben dazu ein Cover erstellt. Das sieht so aus wie Let It Be von Beatles, vier Personen nebeneinander, alles normal. Und jetzt wollten wir uns selbst animieren. Also haben wir Kai genutzt, um dann am Ende 20, 30 Sekunden Videoteasers zu produzieren.

SPEAKER_02

Okay, jetzt gehen wir mal langsam voran. Also ihr habt das Cover gemacht. Da habt ihr sicherlich nicht einfach nur eure alten Passbilder in den Bilderraum geklebt und fertig war das Cover, sondern wahrscheinlich habt ihr da auch das erste Mal irgendwie KI eingesetzt, oder?

Herausforderung: Promo Ohne Live-Auftritt

SPEAKER_00

Genau. Und damals, das war ungefähr vor einem Jahr, war es so, dass viele Tools es verweigert haben, Bilder von echten bestehenden Personen zu nutzen. Also wir haben da sicher drei, vier, fünf verschiedene Tools verwendet, bis es Solche hatte, die es akzeptierten, dass man echte Leute hochlädt und dann die Frisuren editiert, andere Kleidung gibt und später auch Hintergründe dazu generiert.

SPEAKER_02

Kannst du sagen, was du für Tools genommen hast?

SPEAKER_00

Hey, das war eine ganze Reihe von den typischen, die man kennt. Also Gemini und ChatGPT, Perplexity Code, das Übliche. Weiter, ich glaube, mit Hulu haben wir dann die Bilder hochgeladen. Ganva wurde auch versucht. Ich schaue schnell nach. Aber ja, das waren wohl etwa diese Tools. Die meisten haben damals alles verweigert. War nicht möglich.

SPEAKER_02

Okay. Ja, gut. Aber jetzt, also dann habt ihr das Cover gemacht und jetzt das wirklich spannend ist, wie ihr das Video gemacht habt, oder? Bitte, geht doch da nochmal drauf ein und erklärt das ein bisschen.

SPEAKER_00

Ja, das Video würde ja bedeuten, dass diese stehenden Bilder plötzlich beginnen zu tanzen. Im besten Fall wollten eigentlich wollten wir, dass die Lippen synchron zu den Songs bewegt werden, also dass die Leute singen. Also haben wir die Bilder freigestellt, nur die Gesichter mit Portrait-Oberkopf und dann Tools gesucht, die es ermöglichen, dass man eigene Musik reinlädt, die Tools, die Musik analysieren und dann die Fotos Lip-Sync bewegen zu der Musik.

Cover-Erstellung Mit KI-Fotobearbeitung

SPEAKER_02

Okay, das klingt jetzt nach sehr vielen Anforderungen. Wie habt ihr das konkret gelöst? Da muss man sich ja, glaube ich, als erstes mal überlegen, das Typische wie bei einer KI, ja, was will ich eigentlich alles? Was brauche ich eigentlich alles? Also, jetzt hast du schon gerade gesagt, Lippen synchronisieren. Da müsstet ihr ja wahrscheinlich erstmal über so eine Aufgabenliste erstellt haben, was es alles braucht, oder?

SPEAKER_00

Ja, gut, dieses Lip Sync war eigentlich das Hauptmerkmal. Welches Tool macht Lip Sync? Und zwar zu gesungener Musik. Weil die meisten Tools, die das können, machen es zu gesprochenem Text.

SPEAKER_02

Ah, okay. Also das ist ein Unterschied hier gewesen.

SPEAKER_00

Ja, ist ein Unterschied. Und ich habe dann was gefunden, das heißt HeyChen.

SPEAKER_02

Ah ja, das kennen, glaube ich, einige von uns.

SPEAKER_00

Ja, das gibt es schon ziemlich lange und gibt es unterdessen in diversen überarbeiteten Versionen. Da habe ich dann lange mit der Freeware gearbeitet. Und die Musik, die musste ich dann noch a cappella rausschreiben. Das heisst, ich hatte Musik nur den Sänger, nur den Gesang. Und dann Musik nur die Sängerin alleine, nur dem Gesang. Und das funktionierte dann ziemlich cool, dass plötzlich wir diese bewegten Bilder bekamen mit mehr oder weniger synchronisierten Lippenbewegungen, ja.

SPEAKER_02

Alles über Hajjan.

SPEAKER_00

Genau.

SPEAKER_02

Und jetzt habe ich mal kurz eine Frage: Wie lang waren die Videos? Weil das ist doch bei der Videogenerierung auch immer ein Thema. Ich kann ja keinen ganzen Spielfilm generieren, oder?

SPEAKER_00

Wir wollten am Ende so 20 Sekunden für Instagram, also Shorts. Bei dieser 20 Sekunden gibt es vier, fünf Sätze, die gesungen werden. Einmal der Mann, dann die Frau, der Mann, die Frau, also so Chorus, refremässig, das wechselt sich immer ab. Und daher habe ich kurze Videos produziert, so etwa vier Sekunden. Später bemerkte ich, ich kann das ganzen Paar dieser ganzen 20 Sekunden an einem Stück produzieren. Also ich kann einen Durchlauf produzieren von der Männerstimme und ein Durchlauf von der Frauenstimme.

SPEAKER_02

Okay, spannend. Und das heißt, das Ergebnis, es waren ja zum Teil sogar eure Bilder. Das war für euch in Ordnung und damit konntet ihr euch sozusagen identifizieren.

Ziel: Lip-Sync Auf Gesang Statt Sprache

SPEAKER_00

Ja, das Ergebnis ist natürlich nicht ganz ernst gemeint. Also ich bin da irgendwie 20-Jährig und sehe schon ein bisschen seltsam aus, in einem Passfoto irgendwie Automaten aufgenommen. Aber irgendwie fanden wir das lustig und es darf am Ende auch eine Collage sein. Also wir hatten nicht den Anspruch, dass man das KI auch nicht sieht. Okay. Im Produkt darf das irgendwie diese künstliche Generierung, die darf sichtbar sein.

SPEAKER_02

Das wäre eine Frage, auf die wollte ich später eingehen, aber dann nehmen wir es doch gerade jetzt. Das heißt, ihr macht es transparent, dass ihr KI eingesetzt habt.

SPEAKER_00

Ja, genau.

SPEAKER_02

Wie kennzeichnet ihr das an dieser Stelle? Habt ihr es dann einfach irgendwo im Text erwähnt oder ist es direkt auf dem Video so eine Art Wasserzeichen?

SPEAKER_00

Nein, ich glaube, es wird erwähnt in den Optionen von Instagram. Also einfach, dass man den Button aktiviert, Kai verwendet.

SPEAKER_02

Okay. Aber ihr habt das nicht nochmal explizit im Video aufgetan.

SPEAKER_00

Nein, nein, das nicht. Aber es hat eine Qualität, wenn man jetzt heute schaut, WO3.1 und so weiter, es ist nicht vergleichbar mit dieser Qualität und somit sieht man auch, wie schnell sich das verändert. Also innerhalb von ein paar Monaten gibt es da riesengroße Unterschiede. Heute ist es auch deutlich einfacher, die eigenen Fotos zu verwenden. Ja.

SPEAKER_01

Okay. Spannend. Okay, wir gehen weiter. Wir haben jetzt diese vier Sekunden waren es schon, Short. Wie habt ihr dann weiter damit gearbeitet?

SPEAKER_00

Wir haben dann verschiedene lippensynchronisierte Videos genommen und das in einer normalen Filmsoftware zusammengeschnitten. Also das Ziel war eigentlich so 15 bis 20 verschiedene Shorts zu erhalten am Ende mit unterschiedlichen Motiven. Also unsere Passfotos, die ändern sich. Wir haben pro Person drei, vier, fünf Passfotos verwendet. Die Kleidung verändert sich, je nachdem.

Toolwahl: HeyGen Und A-Cappella-Tracks

SPEAKER_02

Moment, da muss ich auszwischen fragen. Habt ihr die Kleidung wirklich aktiv geändert oder habt ihr der KI gesagt, machen wir ein anderes T-Shirt?

SPEAKER_00

Das ist KI generiert, ja.

SPEAKER_02

Okay.

SPEAKER_01

Und das hat gut funktioniert.

SPEAKER_00

Ja, das sieht ziemlich kitschig aus. Wir haben da so farbige 90er Jahre Bomberjacken an und so. Sieht ziemlich lustig aus, finde ich.

SPEAKER_02

Okay, vielleicht deiner Hinweis. Ich sehe das häufiger, dass man Produktbilder hat und die dann in unterschiedliche Szenen bringen will. Weiß ich nicht, habe ich eine Tasche. Einmal soll die Tasche im Wald sein, einmal soll die am Strand sein. Gemini Banana funktioniert sehr, sehr gut dafür. Also Banana, das ist das Video, oder das Bildtool, Entschuldigung, das Bildtool von Gimini, von Google. Das funktioniert in diesem Fall deutlich besser als Chat-GPT. Ich habe es gerade gestern mit einem Kunden wieder ausprobiert und der Wow-Effekt bei Gemini war wirklich riesig. Also für alle, die so Produkte oder ähnliches unterschiedlich positionieren wollen, wenn ich das im Chat-GBT mache, dann bekomme ich nach der Tasche direkt einen Rucksack am Strand, obwohl ich eigentlich die gleiche Tasche am Strand wollte. Und bei Gemini Banana funktioniert das sehr gut.

SPEAKER_00

Gab es leider bei uns noch nicht, hä? Ja. Aber ja, stimmt. Das ist resistent, ja.

SPEAKER_02

Gut, aber machen wir gerne weiter, ich wollte dich nicht unterbrechen.

SPEAKER_00

Ja, also der Rest ist dann eigentlich wieder konventionell, oder? Filmsoftware, mehrere Spuren, Sequenzen. Wir haben verschiedene Hintergründe generiert, zum Beispiel eine Diskothek mit Lichten, Scheinwerfern. Also ein Hintergrund Kai generiert, dazu der Videotrack, äh der Musiktrack. Entweder a cappella, Instrumental oder mit allen Sängern, und dazu dann die gekroppten, also die geschnittenen KI-Portraits der Personen darüber. So habe ich das dann zusammengeschnitten zu den fertigen Kurzvideos.

SPEAKER_02

Okay, das heißt, was ich hier aber sehr schön sehe, ist es auch wieder eine Kombination aus, okay, wir Menschen, wir wollen etwas, wir überlegen uns erstmal, was wir wollen. Wir gehen auf die Suche nach den passenden Tools. Wir nutzen die KI-Tools. Und dann kommt doch wieder menschliche Expertise zusammen mit vielleicht auch klassischen Tools, wie du es jetzt gesagt hast, Videoschneiden zusammen, oder?

SPEAKER_00

Ja, denke ich schon. Also es war auch ein großes Experimentieren, sich einlassen wollen auf neue Techniken und schauen, was bringen wir zustande, was ist möglich. Und es hat viele Arbeitsstunden gekostet und auch viele Entscheidungen. Am Ende war es ein sehr aufwendiger Prozess. Also es ist überhaupt nicht so eine, wir machen schnell in zwei Minuten ein Video. Sehr das Gegenteil.

Short-Form Strategie Für Social Media

SPEAKER_02

Ja, absolut. So hat es sich jetzt auch angehört. Also ich habe mich dann zwischendurch fast gefragt, ob es nicht einfacher gewesen wäre, hättet ihr euch Models organisiert. Aber natürlich hätten die Models nicht eure Kinder oder eure Jugendstil vertreten. Würdest du es wieder machen?

SPEAKER_00

Unbedingt. Ich bin sehr interessiert, Neues zu testen, auszuprobieren. Ich finde das extrem wichtig. Auch im Musikstudio. Es gibt so viele neue Tools und Systeme und das ist ein Teil meiner Arbeit, dass ich mich diesen annehme und mit diesen ausprobiere.

SPEAKER_02

Stell ich hatte sehr schön gesagt, auch schon kurz davor. Man muss sich einfach drauf einlassen, auf die neuen Tools. Wie gesagt, ich glaube, alle, die mich kennen, wissen, ich bin absolut noch ein Fan von Mensch sein und selber denken und selber Sachen machen. Und gleichzeitig muss man dann einfach mal sagen, gut, ich versuch's einfach mal und ich probiere es mal und sicherlich kritisch hinterfragen. Also wir hatten es hier gerade in der Schweiz, da hat die Mikro, einer der größten Schweizer Supermärkte, eine Weihnachtsdose mit einem Rentier mit fünf Beinchen angefangen zu verkaufen. Ja, die Mehrheit der Kunden hat, glaube ich, gedacht, okay, da ist vielleicht irgendwie die KI falsch angewendet worden. Mikro hat sich jetzt nicht so direkt 100% dazu geäußert, aber ich glaube, da sehen wir alle, was passiert, wenn man die Tools irgendwie nicht richtig nutzt. Umgekehrt, muss ich auch da sagen. Ich kenne dann andere Marken, die fliegen überall durch die ganze Welt, nur damit sie da irgendwie ihre Produkte gerade im Schnee präsentieren können. Finde ich dann auch nicht ganz so sinnvoll, ja. Also da denke ich, ist dann eine gute Kombination wieder von Tools, von Menschen sehr wichtig und ich finde es gut, wie du gerade sagst, hey, man muss es einfach ausprobieren, ja.

SPEAKER_00

Und es, also es war insgesamt einfach sehr viel Arbeit dahinter. Wir haben das mit viel Lust gemacht, weil wir diese Entdeckerfreude auch haben. Aber es ist kein Schnellschuss.

SPEAKER_02

Und was war dein größtes Learning?

SPEAKER_00

Vielleicht, ich war erstaunt, wie viele Sachen nicht funktioniert haben. Ich hätte nicht gedacht, dass wir so lange arbeiten müssten, bis das klappt.

KI-Outfits, Hintergründe Und Schnitt

SPEAKER_02

Und wenn dann was nicht funktioniert hat, dann war die KI schuld oder der Mensch?

SPEAKER_00

Ja, es war schon oft eine Begrenzung durch die KI, dass zum Beispiel WO2 nicht gemacht, was ich wollte, also habe ich das Tool weggelegt und ein neues versucht.

SPEAKER_02

Okay. Ich fand es sehr, sehr spannend. Jetzt noch die letzte Frage: Wo können wir den Clip und den Song jetzt hören, sehen? Wie können wir da folgen?

SPEAKER_00

Der Clip heißt Susol Souvenir, ist von Plektron vs. TTMC, das ist mein Tonstudio, Tontechnik, Musik und Computer. Und dann Michaela Weber und Marcel Rödlisberger sind die Sänger und Sängerinnen. Und hörbar ist der Track auf allen Streamingportalen. Das Video gibt es auf Instagram, YouTube, TikTok.

SPEAKER_02

Super, Dankeschön. Ich glaube, das funktioniert. Ansonsten möchte ich mich nochmal ganz herzlich für deine Insights bedanken. Wirklich, das war eine sehr hands-on-Folge, aber mit einem Thema, was doch wirklich viele immer beschäftigt. Also Lukas, ganz vielen Dank für deine Zeit. Liebe Zuhörer, natürlich auch danke euch und macht's gern wieder, Lukas. Auch wenn ihr mal einen interessanten Use Case oder eine interessante Anwendung habt, schreibt mir. Am einfachsten geht es immer auf WhatsApp. Und dann könnt ihr gerne auch mal nächster Interviewpartner werden. Und ich bedanke mich natürlich auch für meinen Partnern Solonex und CMM360, dass ihr diesen Podcast Woche für Woche unterstützt. Und wünsche allen jetzt noch einen ganz tollen Tag.

SPEAKER_00

Vielen Dank.