1
00:00:00,001 --> 00:00:05,920
Vandaag in de korte aflevering van AIToday Live neem ik je mee in een heel persoonlijk verhaal.
2
00:00:05,920 --> 00:00:13,920
Een verhaal dat eigenlijk begon als een noodoplossing, maar uitgroeide tot best wel een opwindend experiment met AI-technologie.
3
00:00:13,920 --> 00:00:23,440
En deze aflevering maak ik naar aanleiding van een vraag van een van onze luisteraars en gast, vroeger gast, Dr. Marc Jacobs.
4
00:00:23,880 --> 00:00:29,980
Die wilde weten hoe ik een van de vorige afleveringen heb gemaakt met een gekloonde stem van mezelf.
5
00:00:29,980 --> 00:00:36,300
Maar het verhaal gaat eigenlijk over veel meer dan alleen technologie.
6
00:00:36,300 --> 00:00:45,360
Het gaat over de waarde van je stem, over innovatie uit noodzaak en over hoe AI ons kan helpen op momenten dat we het het hardst nodig hebben.
7
00:00:46,320 --> 00:00:55,460
Maar voordat ik verder ga wil ik iedereen bedanken voor de lieve en opbeurende berichten die ik gekregen heb naar aanleiding van die aflevering.
8
00:00:55,460 --> 00:00:59,320
Laten we eens kijken naar de aanleiding.
9
00:00:59,320 --> 00:01:01,960
Het begon allemaal met een spoedopname in het ziekenhuis.
10
00:01:01,960 --> 00:01:06,500
Een longontsteking en influenza hadden mijn stem al behoorlijk aangetast.
11
00:01:06,500 --> 00:01:11,180
Maar de keelontsteking die daar bovenop kwam gaf echt het laatste zetje.
12
00:01:11,720 --> 00:01:14,480
En ineens was ik mijn stem compleet kwijt.
13
00:01:14,480 --> 00:01:17,680
Niet schoor, niet rauw of extra diep.
14
00:01:17,680 --> 00:01:20,380
Nee, gewoon volledig verdwenen.
15
00:01:20,380 --> 00:01:25,140
En als podcast host is dat wel een van je grootste nachtmerries.
16
00:01:25,140 --> 00:01:31,860
En voor wie onze podcast kent, weet dat we elke donderdag een nieuwe aflevering uitbrengen.
17
00:01:31,860 --> 00:01:33,200
Met een korte aflevering.
18
00:01:33,200 --> 00:01:36,740
En het is een ritme waar onze luisteraars op rekenen.
19
00:01:36,740 --> 00:01:38,800
En waar ik zelf ook echt wel trots op ben.
20
00:01:38,800 --> 00:01:41,080
Dat we dat ook gewoon iedere keer leveren.
21
00:01:41,680 --> 00:01:45,460
Maar op de bewuste dinsdag dat ik dan de opname maak.
22
00:01:45,460 --> 00:01:49,020
Werd pijnlijk duidelijk dat het deze keer niet zou lukken.
23
00:01:49,020 --> 00:01:51,740
Geen stem betekent geen podcast toch?
24
00:01:51,740 --> 00:01:53,360
Of misschien toch wel?
25
00:01:53,360 --> 00:01:57,540
Het was op dat moment dat ik me herinnerde.
26
00:01:57,540 --> 00:02:01,800
Dat ik al eerder had geëxperimenteerd met stemkloontechnologie.
27
00:02:01,800 --> 00:02:04,740
Elevenlabs.io kende ik al.
28
00:02:04,740 --> 00:02:09,740
Dat is een platform dat zich richt op het maken van natuurlijk klinkende synthetische stemmen.
29
00:02:10,700 --> 00:02:12,000
Ze worden gebruikt.
30
00:02:12,000 --> 00:02:14,060
Deze stemmen voor verschillende doeleinden.
31
00:02:14,060 --> 00:02:15,880
Voor het inspreken van audioboeken.
32
00:02:15,880 --> 00:02:17,560
Tot het nasynchroniseren van films.
33
00:02:17,560 --> 00:02:21,460
En zelfs voor het teruggeven van stemmen aan mensen die ze zijn verloren.
34
00:02:21,460 --> 00:02:26,480
Eerder had ik het platform al eens geprobeerd voor Nederlands spraakgebruik.
35
00:02:26,980 --> 00:02:29,460
Maar toen was ik nog niet overtuigd van de kwaliteit.
36
00:02:29,460 --> 00:02:34,580
Nu gedwongen door omstandigheden besloot ik het toch nog maar eens een keer te proberen.
37
00:02:34,580 --> 00:02:39,020
Ik koos voor de starterlicentie van 5 dollar per maand.
38
00:02:39,020 --> 00:02:42,660
Waarmee je dan 30 minuten spraak per maand kunt genereren.
39
00:02:42,660 --> 00:02:49,100
In die zin een bescheiden investering voor wat mogelijk een oplossing zou kunnen zijn voor mijn probleem.
40
00:02:50,360 --> 00:02:56,120
En dat proces bleek, laten we zeggen, enerverend en uitdagend tegelijkertijd.
41
00:02:56,120 --> 00:03:02,740
Met mijn jarenlange ervaring als podcasthost had ik gelukkig veel opnamen, audio opnames beschikbaar.
42
00:03:02,740 --> 00:03:05,660
Want die heb je dan nodig om je stem te kunnen klonen.
43
00:03:06,320 --> 00:03:09,720
Ik begon met twee recente opnames om mijn stem te klonen.
44
00:03:09,720 --> 00:03:13,160
En het initiële resultaat was best wel verrassend goed.
45
00:03:13,160 --> 00:03:15,600
Maar toen begon het echte werk.
46
00:03:15,600 --> 00:03:24,280
Het script voor de aflevering bestond uit ongeveer 2500 woorden vergelijkbaar met twee A4'tjes tekst.
47
00:03:24,280 --> 00:03:29,300
Want ik moest het natuurlijk helemaal uitschrijven omdat uiteindelijk de stem gegenereerd moest worden.
48
00:03:29,300 --> 00:03:34,900
In theorie kun je 5000 karakters in één keer omzetten naar spraak.
49
00:03:34,900 --> 00:03:37,720
Maar in de praktijk bleek dat niet verstandig.
50
00:03:37,720 --> 00:03:43,200
Kijk, elk stukje gegenereerde spraak kost credits bij ze.
51
00:03:43,200 --> 00:03:44,700
Bij Eleven Labs.
52
00:03:44,700 --> 00:03:51,800
En, maar, er waren genoeg uitdagingen die meerdere pogingen vereisten.
53
00:03:51,800 --> 00:03:55,880
De grootste frustratie, de afkorting AI.
54
00:03:55,880 --> 00:04:03,560
En uitgerekend die twee letters, zo cruciaal voor onze podcast, bleken een struikelblok voor de technologie.
55
00:04:04,440 --> 00:04:07,660
De ene keer was het AI.
56
00:04:07,660 --> 00:04:14,120
Of kreeg je het ervoor als bij een AI project.
57
00:04:14,120 --> 00:04:19,940
Nou, dat is niet handig als die de afkorting AI niet goed kan uitspreken.
58
00:04:20,520 --> 00:04:23,240
Ik experimenteerde met verschillende schrijfwijzen.
59
00:04:23,240 --> 00:04:27,120
Met punten ertussen tussen de A en de I.
60
00:04:27,120 --> 00:04:28,120
Met streepjes.
61
00:04:28,120 --> 00:04:30,800
Maar het resultaat bleef onvoorspelbaar.
62
00:04:30,800 --> 00:04:33,020
De ene keer werkte het perfect.
63
00:04:33,020 --> 00:04:33,860
Dan weer niet.
64
00:04:33,860 --> 00:04:36,000
Zonder duidelijke logica.
65
00:04:37,300 --> 00:04:41,040
Daarnaast ontdekte ik hoe genadeloos AI is voor typefouten.
66
00:04:41,520 --> 00:04:48,800
Waar ik tijdens het gewoon inspreken onbewust fouten corrigeer, werden ze nu pijnlijk blootgelegd door de technologie.
67
00:04:48,800 --> 00:04:52,100
Elk woord, elke letter moest perfect zijn.
68
00:04:52,880 --> 00:04:59,040
Het betekende dat ik ieder stukje tekst meerdere keren moest controleren voordat ik het durfde om te zetten naar spraak.
69
00:04:59,040 --> 00:05:04,900
En wat ik vooraf niet had ingeschat was hoeveel tijd het hele proces zou kosten.
70
00:05:04,900 --> 00:05:08,260
Het steeds opnieuw genereren van spraak.
71
00:05:08,260 --> 00:05:10,160
Het kritisch beluisteren van elk fragment.
72
00:05:11,100 --> 00:05:13,660
En het maken van keuzes voor de beste versie.
73
00:05:13,660 --> 00:05:15,760
Er kostte veel meer tijd dan verwacht.
74
00:05:15,760 --> 00:05:21,820
In totaal ben ik zo'n anderhalf uur bezig geweest met het krijgen van goede stukjes.
75
00:05:21,820 --> 00:05:25,260
En deze allemaal aan elkaar te zetten tot een goed lopende aflevering.
76
00:05:25,260 --> 00:05:27,960
En dat dus voor een aflevering van 10 minuten.
77
00:05:27,960 --> 00:05:32,620
Elk fragment moest niet alleen technisch correct zijn.
78
00:05:32,620 --> 00:05:34,280
Maar ook natuurlijk klinken.
79
00:05:34,280 --> 00:05:36,500
En goed aansluiten op het vorige stuk.
80
00:05:36,500 --> 00:05:40,100
Het was een puzzel waarbij elk stukje precies moest passen.
81
00:05:40,280 --> 00:05:41,740
Om een vloeiend geheel te creëren.
82
00:05:41,740 --> 00:05:47,120
Maar al die moeite en tijd waren uiteindelijk best wel waard.
83
00:05:47,120 --> 00:05:49,720
Want het eindresultaat verraste zelfs mezelf.
84
00:05:49,720 --> 00:05:54,340
Met deze licentie had je dus een snelle manier.
85
00:05:54,340 --> 00:05:56,320
Dus met relatief weinig audio.
86
00:05:56,320 --> 00:05:58,380
Kon je snel een kloon maken.
87
00:05:58,380 --> 00:06:04,180
Maar ik had ook voor een andere licentie kunnen kiezen.
88
00:06:04,180 --> 00:06:08,140
Wat bij ElevenLabs een professionele voice kloon noemen.
89
00:06:08,140 --> 00:06:10,260
Daar heb je dan een duurder abonnement.
90
00:06:10,260 --> 00:06:12,020
En meer audio voor nodig.
91
00:06:12,020 --> 00:06:14,080
Zo'n drie uur voor het beste resultaat.
92
00:06:14,080 --> 00:06:17,320
Wat gelukkig in mijn geval geen probleem is.
93
00:06:17,320 --> 00:06:23,160
Maar je moet je stem verifiëren door een gegeven zin in te spreken.
94
00:06:23,680 --> 00:06:26,820
Zo vergelijken ze dus wat je dan live inspreekt.
95
00:06:26,820 --> 00:06:30,400
Jouw stem met die van de geüploade audio.
96
00:06:30,400 --> 00:06:32,980
Best een mooi proces.
97
00:06:32,980 --> 00:06:34,720
Ik snap ook dat ze dat willen.
98
00:06:34,720 --> 00:06:37,480
Maar ja, als je geen stem hebt.
99
00:06:37,480 --> 00:06:39,160
Dan valt er ook niets te verifiëren.
100
00:06:39,160 --> 00:06:40,380
Geen optie dus.
101
00:06:42,460 --> 00:06:44,260
Wat voor mij verrassend was.
102
00:06:44,260 --> 00:06:46,580
Is hoeveel invloed je hebt.
103
00:06:46,580 --> 00:06:49,560
Eigenlijk moet ik zeggen hoeveel invloed je moet uitoefenen.
104
00:06:49,560 --> 00:06:52,820
Om het eindresultaat zoals gewenst te krijgen.
105
00:06:52,820 --> 00:06:56,300
Want net als bij ChatGPT.
106
00:06:56,300 --> 00:06:59,020
Waar je verschillende antwoorden krijgt op dezelfde vraag.
107
00:06:59,280 --> 00:07:02,980
produceert de stemkloon verschillende versies van dezelfde tekst.
108
00:07:02,980 --> 00:07:06,300
Het tempo, de intonatie, de natuurlijkheid.
109
00:07:06,300 --> 00:07:08,000
Dat verschilt per generatie.
110
00:07:08,000 --> 00:07:13,760
En door te experimenteren met verschillende instellingen die zij hebben.
111
00:07:13,760 --> 00:07:17,240
Je kan een stijl een beetje aanpassen.
112
00:07:17,240 --> 00:07:18,720
Er zijn drie opties die je kan aanpassen.
113
00:07:18,720 --> 00:07:20,060
Ik zal er niet te diep op ingaan.
114
00:07:20,060 --> 00:07:22,460
Kan je de output beïnvloeden.
115
00:07:22,460 --> 00:07:26,320
Wat in ieder geval hielp om de aflevering levender te maken.
116
00:07:26,320 --> 00:07:28,840
Anders wordt het toch best wel heel erg monotoon.
117
00:07:28,840 --> 00:07:33,980
Maar goed, ondanks alle verschillende versies, instellingen en aanpassingen.
118
00:07:33,980 --> 00:07:36,080
Bleven kleine foutjes aanwezig.
119
00:07:36,080 --> 00:07:39,040
Die ik uiteindelijk zo heb gelaten in die aflevering.
120
00:07:39,040 --> 00:07:42,720
Voor perfectie was meer inspanning nodig.
121
00:07:42,720 --> 00:07:45,280
Dan de energie die ik op dat moment had.
122
00:07:45,280 --> 00:07:46,940
Zo is dat ook wel weer.
123
00:07:46,940 --> 00:07:50,480
Maar goed, na het samenstellen van alle fragmenten.
124
00:07:50,480 --> 00:07:54,860
Had ik nog één best wel noodzakelijke aanpassing gemaakt.
125
00:07:54,860 --> 00:07:55,700
Het tempo.
126
00:07:56,920 --> 00:08:01,400
In mijn audio applicatie heb ik de complete aflevering met 9% versneld.
127
00:08:01,400 --> 00:08:04,380
De originele spraak vond ik wat te traag.
128
00:08:04,380 --> 00:08:08,900
En hoewel deze versnelling de gelijkenis met mijn natuurlijke stem verminderde.
129
00:08:08,900 --> 00:08:12,860
Koos ik bewust voor een toch vlottere luisterervaring.
130
00:08:12,860 --> 00:08:15,900
Het resultaat was misschien iets minder.
131
00:08:15,900 --> 00:08:16,960
Joop, ik.
132
00:08:16,960 --> 00:08:20,140
Maar wel prettiger, denk ik, om naar te luisteren.
133
00:08:21,060 --> 00:08:25,940
In ieder geval, nou ja, de reacties waren op z'n minst fascinerend.
134
00:08:25,940 --> 00:08:32,260
Een van de luisteraars gaf aan dat als ik niets gezegd had, dat hij ook niets gemerkt zou hebben.
135
00:08:32,260 --> 00:08:38,820
Terwijl mijn broertje, die mijn stem waarschijnlijk beter kent dan wie dan ook, stuurde me het volgende eerlijke bericht.
136
00:08:39,060 --> 00:08:40,900
Oh, podcast viel niet tegen.
137
00:08:40,900 --> 00:08:41,980
Wel een beetje vreemd.
138
00:08:41,980 --> 00:08:46,600
Soms hoorde je bijna jou en voor de rest iemand anders met dezelfde woordkeuze.
139
00:08:46,600 --> 00:08:48,380
Wel tof dat dit allemaal kan.
140
00:08:50,540 --> 00:08:54,560
Maar het waren de emotionele reacties die me het meest raakten.
141
00:08:54,560 --> 00:08:59,220
Een luisteraar deelde een verhaal over ALS patiënten die hun stem verliezen.
142
00:08:59,220 --> 00:09:07,960
Dat deed me beseffen hoe waardevol sprake is en ik voelde ook hoe isolerend het kan zijn als je die kwijtraakt.
143
00:09:07,960 --> 00:09:13,740
En voor mij was het gelukkig tijdelijk, maar voor veel mensen is dit een dagelijkse realiteit.
144
00:09:13,740 --> 00:09:17,060
Ik heb een aantal lessen geleerd uit dit experiment.
145
00:09:18,420 --> 00:09:25,660
Een van de dingen is dat het me aan het denken heeft gezet over eerdere discussies die we in de podcast hebben gehad over stemklonen.
146
00:09:25,660 --> 00:09:30,920
We hebben al eerdere afleveringen gemaakt over dit onderwerp, zoals die over Wisp.
147
00:09:30,920 --> 00:09:35,420
Dat is echt een geweldige applicatie die ontwikkeld is voor mensen die stotteren.
148
00:09:35,420 --> 00:09:38,240
Het principe is even simpel als briljant.
149
00:09:38,240 --> 00:09:41,220
Wanneer mensen fluisteren, stotteren ze vaak niet.
150
00:09:41,220 --> 00:09:46,440
En Wisp zet dat gefluister om naar een gekloonde versie van je eigen stem.
151
00:09:46,660 --> 00:09:49,520
Waardoor mensen die stotteren weer vloeiend kunnen communiceren.
152
00:09:49,520 --> 00:09:55,620
Wat mij betreft is dat een prachtig voorbeeld van hoe AI stemtechnologie levens positief kan veranderen.
153
00:09:55,620 --> 00:10:00,600
Aan de andere kant van het spectrum hadden we een gesprek met DJ Angelique Houtveen.
154
00:10:00,600 --> 00:10:04,320
Naar aanleiding van een controversiële beslissing van Aldi.
155
00:10:04,320 --> 00:10:09,580
Uit de supermarktketen die had besloten om haar stemacteur te vervangen door een AI stem.
156
00:10:10,620 --> 00:10:16,340
Voor Angelique die haar stem als belangrijkste werkgereedschap beschouwt, was dit een gevoelige kwestie.
157
00:10:16,340 --> 00:10:24,580
Dus zij sprak zich duidelijk uit tegen het klonen van stemmen, in ieder geval haar stem, als dit wordt ingezet om menselijke stemacteurs te vervangen.
158
00:10:26,580 --> 00:10:36,780
En een jaar geleden zei ik nog in aflevering 34 van seizoen 6, zei ik zelf, zou ik mijn stem willen klonen?
159
00:10:36,780 --> 00:10:38,440
Nou, als het me helpt, absoluut.
160
00:10:38,440 --> 00:10:44,160
Maar ben ik bereid om mijn stem te klonen, zodat het podcast zonder mijn aanwezigheid kan doorgaan?
161
00:10:44,160 --> 00:10:45,620
Nee, liever niet.
162
00:10:46,920 --> 00:10:49,120
En nu sta ik er toch wel wat genuanceerder in.
163
00:10:49,120 --> 00:10:55,560
Het klonen van mijn stem maakt het mogelijk om kennis te blijven delen, zelfs toen ik fysiek niet kon spreken.
164
00:10:55,560 --> 00:11:00,140
Wat me wel een beetje zorgen baart, is dat mijn stem nu alleen in de cloud staat.
165
00:11:00,140 --> 00:11:02,680
Ik heb geen lokale toegang of controle.
166
00:11:02,680 --> 00:11:05,440
Als ik het abonnement op zeg, ben ik die stem kwijt.
167
00:11:05,440 --> 00:11:07,960
Dus ja, dat vind ik wel jammer.
168
00:11:07,960 --> 00:11:10,780
Kijk, er zijn opties om dit te veranderen.
169
00:11:10,780 --> 00:11:15,320
En die wil ik uiteindelijk wel gaan onderzoeken, om te kijken of ik ook mijn stem lokaal kan krijgen.
170
00:11:16,000 --> 00:11:16,880
Maar dat is voor later.
171
00:11:16,880 --> 00:11:25,820
Want hoewel ik nu positiever sta tegenover stemklonen, vind ik het cruciaal dat ik zelf de controle hou.
172
00:11:25,820 --> 00:11:30,940
Het idee dat andere uitspraken zouden kunnen doen met mijn stem, zonder mijn toestemming.
173
00:11:30,940 --> 00:11:32,840
En daar moet ik eerlijk gezegd niet aan denken.
174
00:11:32,840 --> 00:11:38,960
Nou, laat ik afsluiten met een praktische tip die ik iedereen zou willen meegeven.
175
00:11:38,960 --> 00:11:42,220
Klinkt misschien raar, maar maak een backup van je stem.
176
00:11:42,840 --> 00:11:47,940
Het kost je maar een paar minuten om een heldere audioopname te maken, zonder achtergrondgeluid.
177
00:11:47,940 --> 00:11:49,440
En bewaar dat veilig.
178
00:11:49,440 --> 00:11:51,320
Je weet namelijk nooit wanneer je het nodig hebt.
179
00:11:51,320 --> 00:11:53,560
Dus ik zeg niet dat je meteen je stem moet gaan klonen.
180
00:11:53,560 --> 00:11:57,160
Nee, gewoon audioopname maken en die veilig stellen.
181
00:11:57,160 --> 00:12:01,580
Want zoals ik heb geleerd, je mis je stem pas echt als je hem kwijt bent.
182
00:12:02,120 --> 00:12:10,360
Nou, deze ervaring heeft me niet alleen geleerd hoe waardevol onze stem is, maar ook hoe AI technologie ons kan helpen op onverwachte momenten.
183
00:12:10,360 --> 00:12:13,200
Het is geen vervanging van menselijk contact.
184
00:12:13,200 --> 00:12:18,160
Ik zou niet zomaar even delen van de podcast nou willen gaan genereren.
185
00:12:18,160 --> 00:12:21,500
Maar het is wel een waardevol vang net als je het nodig hebt.
186
00:12:22,180 --> 00:12:26,280
Ik ben ook wel benieuwd, hoe sta jij eigenlijk tegenover het klonen van jouw stem?
187
00:12:26,280 --> 00:12:30,540
En ga je na deze aflevering ook daadwerkelijk een backup maken?
188
00:12:30,540 --> 00:12:33,560
Nou, laat het me even weten via de gebruikelijke kanalen.
189
00:12:33,560 --> 00:12:38,280
En vergeet niet, soms moet je iets verliezen om de waarde ervan echt te begrijpen.
190
00:12:38,280 --> 00:12:41,480
Dit was AIToday Live.
191
00:12:41,480 --> 00:12:43,600
Ik ben Joop Snijder, CTO bij Aigency.
192
00:12:43,600 --> 00:12:45,660
Met mijn eigen stem gelukkig.
193
00:12:45,660 --> 00:12:46,860
En tot de volgende keer.
194
00:12:46,860 --> 00:12:56,860
[Muziek]