1
00:00:00,001 --> 00:00:05,920
Vandaag in de korte aflevering van AIToday Live neem ik je mee in een heel persoonlijk verhaal.

2
00:00:05,920 --> 00:00:13,920
Een verhaal dat eigenlijk begon als een noodoplossing, maar uitgroeide tot best wel een opwindend experiment met AI-technologie.

3
00:00:13,920 --> 00:00:23,440
En deze aflevering maak ik naar aanleiding van een vraag van een van onze luisteraars en gast, vroeger gast, Dr. Marc Jacobs.

4
00:00:23,880 --> 00:00:29,980
Die wilde weten hoe ik een van de vorige afleveringen heb gemaakt met een gekloonde stem van mezelf.

5
00:00:29,980 --> 00:00:36,300
Maar het verhaal gaat eigenlijk over veel meer dan alleen technologie.

6
00:00:36,300 --> 00:00:45,360
Het gaat over de waarde van je stem, over innovatie uit noodzaak en over hoe AI ons kan helpen op momenten dat we het het hardst nodig hebben.

7
00:00:46,320 --> 00:00:55,460
Maar voordat ik verder ga wil ik iedereen bedanken voor de lieve en opbeurende berichten die ik gekregen heb naar aanleiding van die aflevering.

8
00:00:55,460 --> 00:00:59,320
Laten we eens kijken naar de aanleiding.

9
00:00:59,320 --> 00:01:01,960
Het begon allemaal met een spoedopname in het ziekenhuis.

10
00:01:01,960 --> 00:01:06,500
Een longontsteking en influenza hadden mijn stem al behoorlijk aangetast.

11
00:01:06,500 --> 00:01:11,180
Maar de keelontsteking die daar bovenop kwam gaf echt het laatste zetje.

12
00:01:11,720 --> 00:01:14,480
En ineens was ik mijn stem compleet kwijt.

13
00:01:14,480 --> 00:01:17,680
Niet schoor, niet rauw of extra diep.

14
00:01:17,680 --> 00:01:20,380
Nee, gewoon volledig verdwenen.

15
00:01:20,380 --> 00:01:25,140
En als podcast host is dat wel een van je grootste nachtmerries.

16
00:01:25,140 --> 00:01:31,860
En voor wie onze podcast kent, weet dat we elke donderdag een nieuwe aflevering uitbrengen.

17
00:01:31,860 --> 00:01:33,200
Met een korte aflevering.

18
00:01:33,200 --> 00:01:36,740
En het is een ritme waar onze luisteraars op rekenen.

19
00:01:36,740 --> 00:01:38,800
En waar ik zelf ook echt wel trots op ben.

20
00:01:38,800 --> 00:01:41,080
Dat we dat ook gewoon iedere keer leveren.

21
00:01:41,680 --> 00:01:45,460
Maar op de bewuste dinsdag dat ik dan de opname maak.

22
00:01:45,460 --> 00:01:49,020
Werd pijnlijk duidelijk dat het deze keer niet zou lukken.

23
00:01:49,020 --> 00:01:51,740
Geen stem betekent geen podcast toch?

24
00:01:51,740 --> 00:01:53,360
Of misschien toch wel?

25
00:01:53,360 --> 00:01:57,540
Het was op dat moment dat ik me herinnerde.

26
00:01:57,540 --> 00:02:01,800
Dat ik al eerder had geëxperimenteerd met stemkloontechnologie.

27
00:02:01,800 --> 00:02:04,740
Elevenlabs.io kende ik al.

28
00:02:04,740 --> 00:02:09,740
Dat is een platform dat zich richt op het maken van natuurlijk klinkende synthetische stemmen.

29
00:02:10,700 --> 00:02:12,000
Ze worden gebruikt.

30
00:02:12,000 --> 00:02:14,060
Deze stemmen voor verschillende doeleinden.

31
00:02:14,060 --> 00:02:15,880
Voor het inspreken van audioboeken.

32
00:02:15,880 --> 00:02:17,560
Tot het nasynchroniseren van films.

33
00:02:17,560 --> 00:02:21,460
En zelfs voor het teruggeven van stemmen aan mensen die ze zijn verloren.

34
00:02:21,460 --> 00:02:26,480
Eerder had ik het platform al eens geprobeerd voor Nederlands spraakgebruik.

35
00:02:26,980 --> 00:02:29,460
Maar toen was ik nog niet overtuigd van de kwaliteit.

36
00:02:29,460 --> 00:02:34,580
Nu gedwongen door omstandigheden besloot ik het toch nog maar eens een keer te proberen.

37
00:02:34,580 --> 00:02:39,020
Ik koos voor de starterlicentie van 5 dollar per maand.

38
00:02:39,020 --> 00:02:42,660
Waarmee je dan 30 minuten spraak per maand kunt genereren.

39
00:02:42,660 --> 00:02:49,100
In die zin een bescheiden investering voor wat mogelijk een oplossing zou kunnen zijn voor mijn probleem.

40
00:02:50,360 --> 00:02:56,120
En dat proces bleek, laten we zeggen, enerverend en uitdagend tegelijkertijd.

41
00:02:56,120 --> 00:03:02,740
Met mijn jarenlange ervaring als podcasthost had ik gelukkig veel opnamen, audio opnames beschikbaar.

42
00:03:02,740 --> 00:03:05,660
Want die heb je dan nodig om je stem te kunnen klonen.

43
00:03:06,320 --> 00:03:09,720
Ik begon met twee recente opnames om mijn stem te klonen.

44
00:03:09,720 --> 00:03:13,160
En het initiële resultaat was best wel verrassend goed.

45
00:03:13,160 --> 00:03:15,600
Maar toen begon het echte werk.

46
00:03:15,600 --> 00:03:24,280
Het script voor de aflevering bestond uit ongeveer 2500 woorden vergelijkbaar met twee A4'tjes tekst.

47
00:03:24,280 --> 00:03:29,300
Want ik moest het natuurlijk helemaal uitschrijven omdat uiteindelijk de stem gegenereerd moest worden.

48
00:03:29,300 --> 00:03:34,900
In theorie kun je 5000 karakters in één keer omzetten naar spraak.

49
00:03:34,900 --> 00:03:37,720
Maar in de praktijk bleek dat niet verstandig.

50
00:03:37,720 --> 00:03:43,200
Kijk, elk stukje gegenereerde spraak kost credits bij ze.

51
00:03:43,200 --> 00:03:44,700
Bij Eleven Labs.

52
00:03:44,700 --> 00:03:51,800
En, maar, er waren genoeg uitdagingen die meerdere pogingen vereisten.

53
00:03:51,800 --> 00:03:55,880
De grootste frustratie, de afkorting AI.

54
00:03:55,880 --> 00:04:03,560
En uitgerekend die twee letters, zo cruciaal voor onze podcast, bleken een struikelblok voor de technologie.

55
00:04:04,440 --> 00:04:07,660
De ene keer was het AI.

56
00:04:07,660 --> 00:04:14,120
Of kreeg je het ervoor als bij een AI project.

57
00:04:14,120 --> 00:04:19,940
Nou, dat is niet handig als die de afkorting AI niet goed kan uitspreken.

58
00:04:20,520 --> 00:04:23,240
Ik experimenteerde met verschillende schrijfwijzen.

59
00:04:23,240 --> 00:04:27,120
Met punten ertussen tussen de A en de I.

60
00:04:27,120 --> 00:04:28,120
Met streepjes.

61
00:04:28,120 --> 00:04:30,800
Maar het resultaat bleef onvoorspelbaar.

62
00:04:30,800 --> 00:04:33,020
De ene keer werkte het perfect.

63
00:04:33,020 --> 00:04:33,860
Dan weer niet.

64
00:04:33,860 --> 00:04:36,000
Zonder duidelijke logica.

65
00:04:37,300 --> 00:04:41,040
Daarnaast ontdekte ik hoe genadeloos AI is voor typefouten.

66
00:04:41,520 --> 00:04:48,800
Waar ik tijdens het gewoon inspreken onbewust fouten corrigeer, werden ze nu pijnlijk blootgelegd door de technologie.

67
00:04:48,800 --> 00:04:52,100
Elk woord, elke letter moest perfect zijn.

68
00:04:52,880 --> 00:04:59,040
Het betekende dat ik ieder stukje tekst meerdere keren moest controleren voordat ik het durfde om te zetten naar spraak.

69
00:04:59,040 --> 00:05:04,900
En wat ik vooraf niet had ingeschat was hoeveel tijd het hele proces zou kosten.

70
00:05:04,900 --> 00:05:08,260
Het steeds opnieuw genereren van spraak.

71
00:05:08,260 --> 00:05:10,160
Het kritisch beluisteren van elk fragment.

72
00:05:11,100 --> 00:05:13,660
En het maken van keuzes voor de beste versie.

73
00:05:13,660 --> 00:05:15,760
Er kostte veel meer tijd dan verwacht.

74
00:05:15,760 --> 00:05:21,820
In totaal ben ik zo'n anderhalf uur bezig geweest met het krijgen van goede stukjes.

75
00:05:21,820 --> 00:05:25,260
En deze allemaal aan elkaar te zetten tot een goed lopende aflevering.

76
00:05:25,260 --> 00:05:27,960
En dat dus voor een aflevering van 10 minuten.

77
00:05:27,960 --> 00:05:32,620
Elk fragment moest niet alleen technisch correct zijn.

78
00:05:32,620 --> 00:05:34,280
Maar ook natuurlijk klinken.

79
00:05:34,280 --> 00:05:36,500
En goed aansluiten op het vorige stuk.

80
00:05:36,500 --> 00:05:40,100
Het was een puzzel waarbij elk stukje precies moest passen.

81
00:05:40,280 --> 00:05:41,740
Om een vloeiend geheel te creëren.

82
00:05:41,740 --> 00:05:47,120
Maar al die moeite en tijd waren uiteindelijk best wel waard.

83
00:05:47,120 --> 00:05:49,720
Want het eindresultaat verraste zelfs mezelf.

84
00:05:49,720 --> 00:05:54,340
Met deze licentie had je dus een snelle manier.

85
00:05:54,340 --> 00:05:56,320
Dus met relatief weinig audio.

86
00:05:56,320 --> 00:05:58,380
Kon je snel een kloon maken.

87
00:05:58,380 --> 00:06:04,180
Maar ik had ook voor een andere licentie kunnen kiezen.

88
00:06:04,180 --> 00:06:08,140
Wat bij ElevenLabs een professionele voice kloon noemen.

89
00:06:08,140 --> 00:06:10,260
Daar heb je dan een duurder abonnement.

90
00:06:10,260 --> 00:06:12,020
En meer audio voor nodig.

91
00:06:12,020 --> 00:06:14,080
Zo'n drie uur voor het beste resultaat.

92
00:06:14,080 --> 00:06:17,320
Wat gelukkig in mijn geval geen probleem is.

93
00:06:17,320 --> 00:06:23,160
Maar je moet je stem verifiëren door een gegeven zin in te spreken.

94
00:06:23,680 --> 00:06:26,820
Zo vergelijken ze dus wat je dan live inspreekt.

95
00:06:26,820 --> 00:06:30,400
Jouw stem met die van de geüploade audio.

96
00:06:30,400 --> 00:06:32,980
Best een mooi proces.

97
00:06:32,980 --> 00:06:34,720
Ik snap ook dat ze dat willen.

98
00:06:34,720 --> 00:06:37,480
Maar ja, als je geen stem hebt.

99
00:06:37,480 --> 00:06:39,160
Dan valt er ook niets te verifiëren.

100
00:06:39,160 --> 00:06:40,380
Geen optie dus.

101
00:06:42,460 --> 00:06:44,260
Wat voor mij verrassend was.

102
00:06:44,260 --> 00:06:46,580
Is hoeveel invloed je hebt.

103
00:06:46,580 --> 00:06:49,560
Eigenlijk moet ik zeggen hoeveel invloed je moet uitoefenen.

104
00:06:49,560 --> 00:06:52,820
Om het eindresultaat zoals gewenst te krijgen.

105
00:06:52,820 --> 00:06:56,300
Want net als bij ChatGPT.

106
00:06:56,300 --> 00:06:59,020
Waar je verschillende antwoorden krijgt op dezelfde vraag.

107
00:06:59,280 --> 00:07:02,980
produceert de stemkloon verschillende versies van dezelfde tekst.

108
00:07:02,980 --> 00:07:06,300
Het tempo, de intonatie, de natuurlijkheid.

109
00:07:06,300 --> 00:07:08,000
Dat verschilt per generatie.

110
00:07:08,000 --> 00:07:13,760
En door te experimenteren met verschillende instellingen die zij hebben.

111
00:07:13,760 --> 00:07:17,240
Je kan een stijl een beetje aanpassen.

112
00:07:17,240 --> 00:07:18,720
Er zijn drie opties die je kan aanpassen.

113
00:07:18,720 --> 00:07:20,060
Ik zal er niet te diep op ingaan.

114
00:07:20,060 --> 00:07:22,460
Kan je de output beïnvloeden.

115
00:07:22,460 --> 00:07:26,320
Wat in ieder geval hielp om de aflevering levender te maken.

116
00:07:26,320 --> 00:07:28,840
Anders wordt het toch best wel heel erg monotoon.

117
00:07:28,840 --> 00:07:33,980
Maar goed, ondanks alle verschillende versies, instellingen en aanpassingen.

118
00:07:33,980 --> 00:07:36,080
Bleven kleine foutjes aanwezig.

119
00:07:36,080 --> 00:07:39,040
Die ik uiteindelijk zo heb gelaten in die aflevering.

120
00:07:39,040 --> 00:07:42,720
Voor perfectie was meer inspanning nodig.

121
00:07:42,720 --> 00:07:45,280
Dan de energie die ik op dat moment had.

122
00:07:45,280 --> 00:07:46,940
Zo is dat ook wel weer.

123
00:07:46,940 --> 00:07:50,480
Maar goed, na het samenstellen van alle fragmenten.

124
00:07:50,480 --> 00:07:54,860
Had ik nog één best wel noodzakelijke aanpassing gemaakt.

125
00:07:54,860 --> 00:07:55,700
Het tempo.

126
00:07:56,920 --> 00:08:01,400
In mijn audio applicatie heb ik de complete aflevering met 9% versneld.

127
00:08:01,400 --> 00:08:04,380
De originele spraak vond ik wat te traag.

128
00:08:04,380 --> 00:08:08,900
En hoewel deze versnelling de gelijkenis met mijn natuurlijke stem verminderde.

129
00:08:08,900 --> 00:08:12,860
Koos ik bewust voor een toch vlottere luisterervaring.

130
00:08:12,860 --> 00:08:15,900
Het resultaat was misschien iets minder.

131
00:08:15,900 --> 00:08:16,960
Joop, ik.

132
00:08:16,960 --> 00:08:20,140
Maar wel prettiger, denk ik, om naar te luisteren.

133
00:08:21,060 --> 00:08:25,940
In ieder geval, nou ja, de reacties waren op z'n minst fascinerend.

134
00:08:25,940 --> 00:08:32,260
Een van de luisteraars gaf aan dat als ik niets gezegd had, dat hij ook niets gemerkt zou hebben.

135
00:08:32,260 --> 00:08:38,820
Terwijl mijn broertje, die mijn stem waarschijnlijk beter kent dan wie dan ook, stuurde me het volgende eerlijke bericht.

136
00:08:39,060 --> 00:08:40,900
Oh, podcast viel niet tegen.

137
00:08:40,900 --> 00:08:41,980
Wel een beetje vreemd.

138
00:08:41,980 --> 00:08:46,600
Soms hoorde je bijna jou en voor de rest iemand anders met dezelfde woordkeuze.

139
00:08:46,600 --> 00:08:48,380
Wel tof dat dit allemaal kan.

140
00:08:50,540 --> 00:08:54,560
Maar het waren de emotionele reacties die me het meest raakten.

141
00:08:54,560 --> 00:08:59,220
Een luisteraar deelde een verhaal over ALS patiënten die hun stem verliezen.

142
00:08:59,220 --> 00:09:07,960
Dat deed me beseffen hoe waardevol sprake is en ik voelde ook hoe isolerend het kan zijn als je die kwijtraakt.

143
00:09:07,960 --> 00:09:13,740
En voor mij was het gelukkig tijdelijk, maar voor veel mensen is dit een dagelijkse realiteit.

144
00:09:13,740 --> 00:09:17,060
Ik heb een aantal lessen geleerd uit dit experiment.

145
00:09:18,420 --> 00:09:25,660
Een van de dingen is dat het me aan het denken heeft gezet over eerdere discussies die we in de podcast hebben gehad over stemklonen.

146
00:09:25,660 --> 00:09:30,920
We hebben al eerdere afleveringen gemaakt over dit onderwerp, zoals die over Wisp.

147
00:09:30,920 --> 00:09:35,420
Dat is echt een geweldige applicatie die ontwikkeld is voor mensen die stotteren.

148
00:09:35,420 --> 00:09:38,240
Het principe is even simpel als briljant.

149
00:09:38,240 --> 00:09:41,220
Wanneer mensen fluisteren, stotteren ze vaak niet.

150
00:09:41,220 --> 00:09:46,440
En Wisp zet dat gefluister om naar een gekloonde versie van je eigen stem.

151
00:09:46,660 --> 00:09:49,520
Waardoor mensen die stotteren weer vloeiend kunnen communiceren.

152
00:09:49,520 --> 00:09:55,620
Wat mij betreft is dat een prachtig voorbeeld van hoe AI stemtechnologie levens positief kan veranderen.

153
00:09:55,620 --> 00:10:00,600
Aan de andere kant van het spectrum hadden we een gesprek met DJ Angelique Houtveen.

154
00:10:00,600 --> 00:10:04,320
Naar aanleiding van een controversiële beslissing van Aldi.

155
00:10:04,320 --> 00:10:09,580
Uit de supermarktketen die had besloten om haar stemacteur te vervangen door een AI stem.

156
00:10:10,620 --> 00:10:16,340
Voor Angelique die haar stem als belangrijkste werkgereedschap beschouwt, was dit een gevoelige kwestie.

157
00:10:16,340 --> 00:10:24,580
Dus zij sprak zich duidelijk uit tegen het klonen van stemmen, in ieder geval haar stem, als dit wordt ingezet om menselijke stemacteurs te vervangen.

158
00:10:26,580 --> 00:10:36,780
En een jaar geleden zei ik nog in aflevering 34 van seizoen 6, zei ik zelf, zou ik mijn stem willen klonen?

159
00:10:36,780 --> 00:10:38,440
Nou, als het me helpt, absoluut.

160
00:10:38,440 --> 00:10:44,160
Maar ben ik bereid om mijn stem te klonen, zodat het podcast zonder mijn aanwezigheid kan doorgaan?

161
00:10:44,160 --> 00:10:45,620
Nee, liever niet.

162
00:10:46,920 --> 00:10:49,120
En nu sta ik er toch wel wat genuanceerder in.

163
00:10:49,120 --> 00:10:55,560
Het klonen van mijn stem maakt het mogelijk om kennis te blijven delen, zelfs toen ik fysiek niet kon spreken.

164
00:10:55,560 --> 00:11:00,140
Wat me wel een beetje zorgen baart, is dat mijn stem nu alleen in de cloud staat.

165
00:11:00,140 --> 00:11:02,680
Ik heb geen lokale toegang of controle.

166
00:11:02,680 --> 00:11:05,440
Als ik het abonnement op zeg, ben ik die stem kwijt.

167
00:11:05,440 --> 00:11:07,960
Dus ja, dat vind ik wel jammer.

168
00:11:07,960 --> 00:11:10,780
Kijk, er zijn opties om dit te veranderen.

169
00:11:10,780 --> 00:11:15,320
En die wil ik uiteindelijk wel gaan onderzoeken, om te kijken of ik ook mijn stem lokaal kan krijgen.

170
00:11:16,000 --> 00:11:16,880
Maar dat is voor later.

171
00:11:16,880 --> 00:11:25,820
Want hoewel ik nu positiever sta tegenover stemklonen, vind ik het cruciaal dat ik zelf de controle hou.

172
00:11:25,820 --> 00:11:30,940
Het idee dat andere uitspraken zouden kunnen doen met mijn stem, zonder mijn toestemming.

173
00:11:30,940 --> 00:11:32,840
En daar moet ik eerlijk gezegd niet aan denken.

174
00:11:32,840 --> 00:11:38,960
Nou, laat ik afsluiten met een praktische tip die ik iedereen zou willen meegeven.

175
00:11:38,960 --> 00:11:42,220
Klinkt misschien raar, maar maak een backup van je stem.

176
00:11:42,840 --> 00:11:47,940
Het kost je maar een paar minuten om een heldere audioopname te maken, zonder achtergrondgeluid.

177
00:11:47,940 --> 00:11:49,440
En bewaar dat veilig.

178
00:11:49,440 --> 00:11:51,320
Je weet namelijk nooit wanneer je het nodig hebt.

179
00:11:51,320 --> 00:11:53,560
Dus ik zeg niet dat je meteen je stem moet gaan klonen.

180
00:11:53,560 --> 00:11:57,160
Nee, gewoon audioopname maken en die veilig stellen.

181
00:11:57,160 --> 00:12:01,580
Want zoals ik heb geleerd, je mis je stem pas echt als je hem kwijt bent.

182
00:12:02,120 --> 00:12:10,360
Nou, deze ervaring heeft me niet alleen geleerd hoe waardevol onze stem is, maar ook hoe AI technologie ons kan helpen op onverwachte momenten.

183
00:12:10,360 --> 00:12:13,200
Het is geen vervanging van menselijk contact.

184
00:12:13,200 --> 00:12:18,160
Ik zou niet zomaar even delen van de podcast nou willen gaan genereren.

185
00:12:18,160 --> 00:12:21,500
Maar het is wel een waardevol vang net als je het nodig hebt.

186
00:12:22,180 --> 00:12:26,280
Ik ben ook wel benieuwd, hoe sta jij eigenlijk tegenover het klonen van jouw stem?

187
00:12:26,280 --> 00:12:30,540
En ga je na deze aflevering ook daadwerkelijk een backup maken?

188
00:12:30,540 --> 00:12:33,560
Nou, laat het me even weten via de gebruikelijke kanalen.

189
00:12:33,560 --> 00:12:38,280
En vergeet niet, soms moet je iets verliezen om de waarde ervan echt te begrijpen.

190
00:12:38,280 --> 00:12:41,480
Dit was AIToday Live.

191
00:12:41,480 --> 00:12:43,600
Ik ben Joop Snijder, CTO bij Aigency.

192
00:12:43,600 --> 00:12:45,660
Met mijn eigen stem gelukkig.

193
00:12:45,660 --> 00:12:46,860
En tot de volgende keer.

194
00:12:46,860 --> 00:12:56,860
[Muziek]