AIToday Live

S04E02 - Hoe schaal je grote ML modellen - Yannick Maltha

Info Support AIToday Season 4 Episode 2

Yannick Maltha is CEO en co-founder van UbiOps en is gespecialiseerd in het schalen van grote machine learning modellen. Hij vertelt wat hij vindt van de grote computer vision modellen, zoals DALLE-2 en Stable Diffusion. Ook praten we over 'foundational models' en de impact daarvan.


Stuur ons een bericht

Stem op AIToday Live voor de Nationale AI Awards 2025 – dat kan tot 12 januari via aimaze.nl/ai-awards-voting-2025

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:00,000 --> 00:00:03,000
Zie, daar gingen we bijna.

2
00:00:03,000 --> 00:00:06,000
Het was bijna de tweede keer dat de podcast niet opgenomen zou worden.

3
00:00:06,000 --> 00:00:07,000
Daar gaat ie.

4
00:00:07,000 --> 00:00:12,000
We zijn zo blij dat ik de grote recordkanaal heb gedrukt.

5
00:00:12,000 --> 00:00:16,000
Luisteraars, je luistert naar de AIToday podcast.

6
00:00:16,000 --> 00:00:18,000
Fijn weer dat je luistert.

7
00:00:18,000 --> 00:00:21,000
De podcast over AI voor Business & IT.

8
00:00:21,000 --> 00:00:25,000
Mijn naam is Joop Snijder, CTO bij Aigency.

9
00:00:25,000 --> 00:00:29,000
En mijn naam is Niels Naglé, Chapter Lead Data & AI bij Info Support.

10
00:00:29,000 --> 00:00:35,000
We praten vandaag met Yannick Maltha van UbiOps. Yannick, fijn dat je gekomen bent.

11
00:00:35,000 --> 00:00:38,640
Dankjewel. Zou je jezelf aan de luisteraars even willen introduceren?

12
00:00:38,640 --> 00:00:48,920
Zeker. Ik ben dus Yannick Maltha. Ik woon in Utrecht, maar ons kantoor zit in Den Haag,

13
00:00:48,920 --> 00:00:58,760
Ik ben oprichter en CEO van UbiOps. Wij zijn een bedrijf wat in de AI-sfeer

14
00:00:58,760 --> 00:01:05,900
behoorlijk actief is. Ik heb zelf een technische achtergrond. Ik heb ooit in Delft gestudeerd.

15
00:01:05,900 --> 00:01:11,420
Niet de meest technische studie gedaan. Technische bestuurskunde, daar word ik soms nog steeds een

16
00:01:11,420 --> 00:01:14,380
beetje door gepest. - Zet er nu wat technisch in.

17
00:01:14,380 --> 00:01:21,500
- Precies, dus dat was het compromis. En ik heb twee compagnons oprichters, Jorik en Victor.

18
00:01:21,500 --> 00:01:26,220
Die hebben het iets meer hardcore gedaan. Die hebben aerospace gedaan, dus die maken het goed.

19
00:01:26,220 --> 00:01:29,620
En ik vind het ontzettend leuk om hier te zijn.

20
00:01:29,620 --> 00:01:32,220
Ja, welkom.

21
00:01:32,220 --> 00:01:35,940
En ja, we hadden jouw naam doorgekregen van Daniel Kapitan.

22
00:01:35,940 --> 00:01:40,940
En Niels en ik keken natuurlijk van, ja, wat doet Yannick?

23
00:01:40,940 --> 00:01:42,340
En wat doet UbiOps?

24
00:01:42,340 --> 00:01:44,660
En dat zag er echt heel interessant uit.

25
00:01:44,660 --> 00:01:47,860
Grootschalige AI, trainer en productie.

26
00:01:47,860 --> 00:01:50,820
Dus daar gaan we het vandaag over hebben.

27
00:01:50,820 --> 00:01:53,060
Dat is het hoofdthema vandaag.

28
00:01:53,060 --> 00:01:58,860
Maar waar wij allebei benieuwd naar waren, we hebben heel kort even voorbesproken.

29
00:01:58,860 --> 00:02:00,780
Soms doen we dat helemaal niet.

30
00:02:00,780 --> 00:02:02,620
Vandaag heel kort eventjes.

31
00:02:02,620 --> 00:02:09,580
En wij waren benieuwd hoe jij denkt over de nieuwe grote modellen die er op dit moment zijn.

32
00:02:09,580 --> 00:02:18,540
Op het gebied van image processing dingen als DALI 2, Stable Diffusion, dat soort modellen.

33
00:02:18,540 --> 00:02:20,500
Hoe kijk jij daarna vanuit jouw vakgebied?

34
00:02:20,500 --> 00:02:29,500
Ik moet eerlijk zeggen, ik ben niet de technische expert, maar ik kijk vooral naar de toepassing

35
00:02:29,500 --> 00:02:37,300
daarvan. Wat ik zie is dat, ik denk toen wij vijf jaar geleden begonnen met, en toen heette het nog

36
00:02:37,300 --> 00:02:41,900
niet Ubiops, maar toen heette het Dutch Analytics, waren wij vooral bezig met het ontwerpen en trainen

37
00:02:41,900 --> 00:02:48,820
van modellen. Dat zat wat meer aan de tijdreeksanalyse, maar ook af en toe deden we ook

38
00:02:48,820 --> 00:02:53,380
Ik denk vandaag de dag dat je veel meer naar de type foundation models gaat,

39
00:02:53,380 --> 00:02:56,260
dus waar je enorme compute power voor nodig hebt.

40
00:02:56,260 --> 00:03:00,060
En daar zie je toch wel een enorme maturity in ontstaan.

41
00:03:00,060 --> 00:03:06,260
Dus ik zie heel veel bedrijven en organisaties om me heen

42
00:03:06,260 --> 00:03:09,060
die dit soort modellen kunnen gaan gebruiken, inzetten.

43
00:03:09,060 --> 00:03:13,820
En dat kunnen gaan, nou, kundig inzetten om met eigen gelabelde data

44
00:03:13,820 --> 00:03:15,760
dan het model zodanig te herstellen.

45
00:03:15,860 --> 00:03:19,060
met eigen gelabelde data dan het model zodanig te hertrainen...

46
00:03:19,060 --> 00:03:20,460
dat dat inzetbaar wordt.

47
00:03:20,460 --> 00:03:24,360
Wat ik ook leuk vind om te zien is dat zowel de vakgebieden...

48
00:03:24,360 --> 00:03:29,360
aan de vision kant, maar ook ontzettend veel kruisbestuivingen hebben...

49
00:03:29,360 --> 00:03:31,060
bijvoorbeeld National Language Processing.

50
00:03:31,060 --> 00:03:35,860
Dus dat je daar ook weer, eigenlijk doordat we weer wat doorbraak hebben gehad in NLP...

51
00:03:35,860 --> 00:03:37,960
dat we nu weer kunnen zien in Computer Vision.

52
00:03:37,960 --> 00:03:40,860
Ja, want juist deze modellen, voor degenen die misschien nieuw zijn...

53
00:03:40,860 --> 00:03:44,560
want ik noem die termen, al die twee, Stable Diffusion en zo.

54
00:03:44,660 --> 00:03:51,000
Dus je geeft een tekst op, prompt noemen ze dat, en die tekst die wordt omgezet en daar

55
00:03:51,000 --> 00:03:53,460
wordt dan uiteindelijk een image van gebakken.

56
00:03:53,460 --> 00:03:59,820
Of wat ik afgelopen week zag, Meta, die had zelfs dat je hele video's kan produceren.

57
00:03:59,820 --> 00:04:04,380
Dan zeiden ze van, doe maar een Superman hond en dan zie je een hond met een cape, zie

58
00:04:04,380 --> 00:04:05,380
je vliegen.

59
00:04:05,380 --> 00:04:13,380
En dan hebben ze een korte video gemaakt van taal, NLP omzetten uiteindelijk naar of kunst,

60
00:04:13,380 --> 00:04:15,380
foto's of zelfs video's.

61
00:04:15,380 --> 00:04:16,400
Ja.

62
00:04:16,400 --> 00:04:20,620
Ja, dat is natuurlijk eigenlijk waanzinnig, technisch gezien.

63
00:04:20,620 --> 00:04:22,820
Kijk, de vraag is natuurlijk wel,

64
00:04:22,820 --> 00:04:27,380
dit soort type modellen worden natuurlijk steeds meer en meer gemaakt...

65
00:04:27,380 --> 00:04:30,120
bij de partijen die dat nog steeds kunnen.

66
00:04:30,120 --> 00:04:34,220
Dat is natuurlijk een beetje meer een ethisch en een moreel debat, zou je kunnen zeggen.

67
00:04:34,220 --> 00:04:37,620
Dus de computational power die je tegenwoordig nodig hebt...

68
00:04:37,620 --> 00:04:39,040
om dit soort modellen te trainen,

69
00:04:39,040 --> 00:04:42,620
volgens mij hebben we tegenwoordig over 100 biljoen parameters in één model.

70
00:04:42,640 --> 00:04:44,880
Absoluut. - Ik bedoel, een jaar geleden...

71
00:04:44,880 --> 00:04:47,620
had het nog één biljoen en nu alweer een factor honderd.

72
00:04:47,620 --> 00:04:49,240
Dus dat is natuurlijk bizar.

73
00:04:49,240 --> 00:04:55,740
En je ziet ook natuurlijk bij Google, volgens mij Google Brain...

74
00:04:55,740 --> 00:04:58,300
is dat dit soort type foundation models...

75
00:04:58,300 --> 00:05:00,720
kunnen op een gegeven moment zeshonderd verschillende dingen tegelijkertijd.

76
00:05:00,720 --> 00:05:02,220
Dus dat is, ja...

77
00:05:02,220 --> 00:05:04,900
Ik vind dat qua technologie waanzinnig...

78
00:05:04,900 --> 00:05:07,320
maar waar we denk ik wel over moeten nadenken vandaag de dag is...

79
00:05:07,320 --> 00:05:09,280
ja, hoe gaat zich dat verder ontwikkelen?

80
00:05:09,280 --> 00:05:11,660
En aan de fundamentele researchkant...

81
00:05:11,680 --> 00:05:17,440
hebben we daar dan zelf voldoende middelen voor om dat nog te kunnen doen?

82
00:05:17,440 --> 00:05:18,960
Of hoeft dat niet meer?

83
00:05:18,960 --> 00:05:21,840
Dus dat is een hele interessante vraag.

84
00:05:21,840 --> 00:05:23,520
Ik ben ook benieuwd hoe jullie daar zelf naar kijken.

85
00:05:23,520 --> 00:05:24,520
Maar...

86
00:05:24,520 --> 00:05:28,120
- Nou ja, ik ben daar in zekere zin wel kritisch op.

87
00:05:28,120 --> 00:05:34,520
Juist wat jij zegt, van kijk, als je uiteindelijk op geen enkele wijze...

88
00:05:34,520 --> 00:05:39,320
hier concurrentie meer aan kan bieden, dan moet je er dus op vertrouwen...

89
00:05:39,320 --> 00:05:45,920
dat die foundational models veilig genoeg zijn qua fairness, qua robuustheid.

90
00:05:45,920 --> 00:05:51,460
Uiteindelijk is het wel een hele... Hoe zeg ik dat?

91
00:05:51,460 --> 00:05:56,760
Ja, ik denk dat het juist goed is dat we die foundational models hebben,

92
00:05:56,760 --> 00:06:00,840
met inderdaad de kanttekening natuurlijk van hoe gaat het met ethics,

93
00:06:00,840 --> 00:06:03,280
maar hoe ga je er grip op krijgen of inzicht op krijgen?

94
00:06:03,280 --> 00:06:06,700
Maar ik vind het voor ecologische footprint is natuurlijk absurd

95
00:06:06,700 --> 00:06:08,520
als we alles continu opnieuw blijven doen.

96
00:06:08,620 --> 00:06:11,620
Dus dit is een beetje een soort van balans zelf, zet ik erin.

97
00:06:11,620 --> 00:06:14,940
Als we dat open source goed gecontroleerd met invloed...

98
00:06:14,940 --> 00:06:18,160
goed kunnen beheren als een gemeenschap met z'n allen.

99
00:06:18,160 --> 00:06:21,880
Dat is wel heel utopisch gedacht als ik het zo nu eigenlijk uitspreek...

100
00:06:21,880 --> 00:06:23,260
maar dat zou ik wel heel mooi vinden.

101
00:06:23,260 --> 00:06:25,460
Dat dat open is, dat je daarop door kan bouwen.

102
00:06:25,460 --> 00:06:27,780
Niet dat we allemaal echt alle energie zitten te wasten...

103
00:06:27,780 --> 00:06:30,520
om allemaal ongeveer hetzelfde te willen bereiken.

104
00:06:30,520 --> 00:06:32,020
Dus dat vind ik het mooie eraan.

105
00:06:32,020 --> 00:06:34,060
Met de kanttekeningen daar gelaten natuurlijk.

106
00:06:34,060 --> 00:06:35,920
Nou, als je inderdaad het hebt over open...

107
00:06:35,940 --> 00:06:44,940
Dan ben ik ervoor. Het probleem is alleen dat zelfs OpenAI, de organisatie die zo heet, heeft alles gewoon closed source.

108
00:06:44,940 --> 00:06:48,940
Ik denk dat dat meer het probleem is dan die grote modellen inderdaad.

109
00:06:48,940 --> 00:06:53,940
Want het zou toch zonde zijn dat we dat allemaal weer opnieuw moeten gaan doen.

110
00:06:53,940 --> 00:06:57,940
Dat zou ik wel even kijken. - Helemaal meenemend.

111
00:06:57,940 --> 00:07:00,940
Nou, ik denk dat daar zeg je wel iets.

112
00:07:00,940 --> 00:07:04,940
Wij gaan er natuurlijk vanuit dat de modellen die in Amerika ontwikkeld worden...

113
00:07:04,940 --> 00:07:10,260
dat dat volgens precies hetzelfde moreel etisch kader gebeurt als bijvoorbeeld hier in Europa.

114
00:07:10,260 --> 00:07:14,100
Maar ga je praten met psychologen en antropologen...

115
00:07:14,100 --> 00:07:16,300
dan houden mensen er toch nog verschillende dingen op na.

116
00:07:16,300 --> 00:07:18,940
Dus wat dingen die wij misschien belangrijk vinden hier...

117
00:07:18,940 --> 00:07:22,300
kunnen misschien elders anders geïnterpreteerd worden.

118
00:07:22,300 --> 00:07:23,820
En hoe hou je daar ook grip op?

119
00:07:23,820 --> 00:07:28,060
En dat tweede punt wat je zegt, dat is een heel terecht punt.

120
00:07:28,060 --> 00:07:30,820
Ik denk dat dat debat steeds belangrijker gaat worden.

121
00:07:30,820 --> 00:07:37,700
We kunnen wel alles trainen en we kunnen al die GPU's, et cetera, er tegenaan gooien,

122
00:07:37,700 --> 00:07:43,540
maar is het dan nog steeds waardevol om dat überhaupt te doen?

123
00:07:43,540 --> 00:07:47,020
En moeten we daar op een gegeven moment ook niet bepaalde standaarden in gaan vinden...

124
00:07:47,020 --> 00:07:52,020
om te kijken, oké, voordat we met zo'n groot experiment beginnen of dat gaan doen,

125
00:07:52,020 --> 00:07:56,580
wat is de waarde van die case er eigenlijk achter?

126
00:07:56,600 --> 00:08:01,680
is die case wel groot genoeg. Dat kan je uitdrukken in monetaire waarde,

127
00:08:01,680 --> 00:08:06,100
maar dat kan je ook uitdrukken in maatschappelijke waarde. En ik denk dat

128
00:08:06,100 --> 00:08:11,820
dat wel steeds belangrijker gaat worden. -Geen makkelijk vraagstuk natuurlijk.

129
00:08:11,820 --> 00:08:17,980
Wat ik ook wel vind, foundational models, dat suggereert alsof het een fundament is.

130
00:08:17,980 --> 00:08:23,960
En wat doen wij? Analogie is natuurlijk altijd gevaarlijk, maar je fundament

131
00:08:24,060 --> 00:08:30,780
voor je huis, daar bouw je op omdat je weet dat die heel stevig is. Wij kunnen best wel heel weinig

132
00:08:30,780 --> 00:08:38,100
zeggen op dit moment over die foundational models, om dat echt als fundament te gebruiken. Dat vind

133
00:08:38,100 --> 00:08:43,380
ik nog wel lastig. En tuurlijk, als je voor je bedrijf of organisatie nu iets kan maken,

134
00:08:43,380 --> 00:08:52,820
of je kan hier een propositie opmaken wat voor je werkt, dan lijkt me dat dat je dat doet. Maar

135
00:08:52,820 --> 00:08:56,820
maar je loopt wel bepaalde risico's met bouwen, bouwen, bouwen.

136
00:08:56,820 --> 00:09:01,020
En waar zitten straks, als je problemen hebt, waar zitten die dan?

137
00:09:01,020 --> 00:09:03,300
En kan je daar dan nog naartoe terug?

138
00:09:03,300 --> 00:09:06,100
En kan je pinpointen waar je probleem zit?

139
00:09:06,100 --> 00:09:07,940
En daar heb je weer die open...

140
00:09:07,940 --> 00:09:12,860
Die lagen moet je transparant kunnen maken en eventueel kunnen verwisselen.

141
00:09:12,860 --> 00:09:16,420
Zoals in de IT-arts je natuurlijk ook steeds meer microservices, laagjes hebt...

142
00:09:16,420 --> 00:09:19,980
die je kan oppakken, kan aanpassen en weer verder kan gaan.

143
00:09:19,980 --> 00:09:21,980
Maar wat je zegt, die foundational models.

144
00:09:21,980 --> 00:09:25,380
Ja, is het een foundation of is het een deel van een foundation?

145
00:09:25,380 --> 00:09:28,020
Is die scheef? Dat soort inzichten heb je niet.

146
00:09:28,020 --> 00:09:30,860
Dus als het huis omvalt, lag het dan daar aan of ergens anders aan?

147
00:09:30,860 --> 00:09:32,940
Ja, dat is lastig om te zeggen. - Spannend.

148
00:09:32,940 --> 00:09:35,760
Ja. - Ja, dat deel ik volledig.

149
00:09:35,760 --> 00:09:38,620
Ik denk dat, kijk, wat wel een belangrijk bruggetje is...

150
00:09:38,620 --> 00:09:40,620
en dat moeten we, denk ik, niet onderschatten, is dat...

151
00:09:40,620 --> 00:09:42,980
als je bijvoorbeeld kijkt naar computer vision en NLP...

152
00:09:42,980 --> 00:09:47,580
en dat zijn wel de twee gebieden waar wij zelf veel actief in zijn...

153
00:09:47,580 --> 00:09:49,020
heel veel computer vision op dit moment...

154
00:09:49,040 --> 00:09:53,200
is dat daardoor heeft het wel natuurlijk een enorme leap forward gekregen.

155
00:09:53,200 --> 00:09:59,360
Dus je ziet bijvoorbeeld, we zitten in de medische sector, fantastische innovaties die daar plaatsvinden,

156
00:09:59,360 --> 00:10:01,760
mede ook vanwege die foundation models.

157
00:10:01,760 --> 00:10:09,760
En dat is het grappige, of het grappige, het tegenstrijd is misschien dat aan de trainingskant...

158
00:10:09,760 --> 00:10:13,600
de vraagstukken steeds groter en complexer worden en de parameters steeds meer.

159
00:10:13,600 --> 00:10:18,440
Maar als we aan de inference kant kijken, zien we daar wel, en dan bedoel ik...

160
00:10:18,440 --> 00:10:23,360
Dat inference voor de luisteraars, dat bedoel ik mee, dus de modellen naar productie, zeg maar,

161
00:10:23,360 --> 00:10:27,880
en echt gaan draaien en van input data output data maken,

162
00:10:27,880 --> 00:10:32,080
is dat we daar wel een ontwikkeling in zien.

163
00:10:32,080 --> 00:10:35,680
Dus je zag vijf jaar geleden was het nog extreem moeilijk om een...

164
00:10:35,680 --> 00:10:38,800
ja, een neuraal netwerk zo goed te krijgen...

165
00:10:38,800 --> 00:10:42,320
om dat überhaupt naar productie te krijgen.

166
00:10:42,320 --> 00:10:46,440
En ja, vandaag de dag, om een wat kleiner voorbeeld te geven,

167
00:10:46,460 --> 00:10:50,760
Je pakt een YOLO V5-model off the shelf om maar even te zeggen...

168
00:10:50,760 --> 00:10:55,020
je hertraint het en je hebt iets wat theoretisch gezien...

169
00:10:55,020 --> 00:10:57,200
in ieder geval heel krachtig is.

170
00:10:57,200 --> 00:10:59,820
En ja, dat is een beetje de...

171
00:10:59,820 --> 00:11:02,320
Dus ik denk dat we wel moeten gaan nadenken over die kaders...

172
00:11:02,320 --> 00:11:06,140
en dat we heel goed moeten beseffen hoe die modellen zijn opgebouwd.

173
00:11:06,140 --> 00:11:11,500
Maar tegelijkertijd heeft het wel een enorme leap vooruitgeven.

174
00:11:11,500 --> 00:11:12,660
Absoluut, ja.

175
00:11:12,660 --> 00:11:15,180
Nee, en het grappige is, hè, want kijk...

176
00:11:15,580 --> 00:11:18,140
Wij zijn helemaal into this technologie.

177
00:11:18,140 --> 00:11:23,800
En toch komen we bij bijna bij iedere aflevering uit op dilemma's en vraagstukken.

178
00:11:23,800 --> 00:11:29,740
Die misschien iets minder met de technologie te maken hebben, maar meer hoe willen we ermee omgaan.

179
00:11:29,740 --> 00:11:32,540
Dat is eigenlijk wel grappig dat we daar vrij snel weer in belanden.

180
00:11:32,540 --> 00:11:36,220
Maar om toch nog even dan wel naar die techniek te gaan.

181
00:11:36,220 --> 00:11:39,900
Jullie hebben te maken ook met grote modellen.

182
00:11:39,980 --> 00:11:45,980
Waar hebben we het dan over? Dat gaat niet over 100 biljoen parameters, features.

183
00:11:45,980 --> 00:11:47,900
Nee, kijk, wij zijn...

184
00:11:47,900 --> 00:11:50,820
Om misschien even een beeld te geven voor jullie en de luisteraars.

185
00:11:50,820 --> 00:11:53,980
Wij zijn als platform ooit begonnen eerst aan de inference kant.

186
00:11:53,980 --> 00:11:57,700
Dus je hebt eigenlijk twee schaalvormen.

187
00:11:57,700 --> 00:12:01,220
Je hebt de trainingskant van de modellen, die worden steeds groter.

188
00:12:01,220 --> 00:12:03,900
En dan hebben we net een hele discussie over die foundation models gehad.

189
00:12:03,900 --> 00:12:05,900
Maar dat zie je natuurlijk ook aan de inference kant.

190
00:12:05,900 --> 00:12:09,220
Dus als wij het over schaal hebben, hebben we het vaak ook over...

191
00:12:09,240 --> 00:12:11,520
Je hebt een model in productie.

192
00:12:11,520 --> 00:12:17,140
En hoe ga ik er nu voor zorgen dat ik dat niet voor één taak kan doen of één ding,

193
00:12:17,140 --> 00:12:20,640
maar hoe ga ik dat voor misschien wel een global bedrijf doen,

194
00:12:20,640 --> 00:12:22,480
wat net uit R&D komt?

195
00:12:22,480 --> 00:12:26,520
En daar zien we steeds meer van dat soort bedrijven die dat aan het doen zijn.

196
00:12:26,520 --> 00:12:29,280
Ik zal even een voorbeeld geven om het even wat meer te illustreren.

197
00:12:29,280 --> 00:12:30,300
Graag.

198
00:12:30,300 --> 00:12:33,600
Wij werken bijvoorbeeld met een klant zoals Bayer.

199
00:12:33,600 --> 00:12:36,960
Dat is een Duitse farmaceutisch bedrijf.

200
00:12:36,980 --> 00:12:41,980
Wat weinig mensen weten is dat ze ook een enorme crop science afdeling hebben.

201
00:12:41,980 --> 00:12:43,500
Dat is een van de drie poten.

202
00:12:43,500 --> 00:12:44,620
Wat is crop science?

203
00:12:44,620 --> 00:12:45,820
Crop science, ja.

204
00:12:45,820 --> 00:12:48,940
Dat is de wetenschap van crops.

205
00:12:48,940 --> 00:12:52,860
Dus, hoe zeg je dat? Harvest, oogst, de plantjes.

206
00:12:52,860 --> 00:12:55,860
-Zwaaien, grote telen. -Ja.

207
00:12:55,860 --> 00:13:01,340
Dus wat zij doen, zij detecteren bijvoorbeeld ziektes in gewassen.

208
00:13:01,340 --> 00:13:05,460
En dat doen ze bijvoorbeeld met allerlei beeldmodellen.

209
00:13:05,480 --> 00:13:09,080
Wat dan typisch is, is dat de training die ze doen,

210
00:13:09,080 --> 00:13:14,880
ze pakken daar waarschijnlijk ook een aantal off the shelf modellen voor

211
00:13:14,880 --> 00:13:16,480
en daar bouwen ze op verder.

212
00:13:16,480 --> 00:13:20,380
En dan heb je het vaak over de training cycle zelf,

213
00:13:20,380 --> 00:13:26,080
dat zit meer aan de A100's en tegenwoordig de H100's.

214
00:13:26,080 --> 00:13:28,380
En ze willen mogelijk van die kasten er tegenaan gooien,

215
00:13:28,380 --> 00:13:30,180
maar zo te zeggen, daar moet je dan aan denken.

216
00:13:30,180 --> 00:13:33,580
Voor de luisteraars een A100, dat was twee jaar geleden

217
00:13:33,580 --> 00:13:37,980
een beetje de top-notch kast van Nvidia voor het trainen van modellen.

218
00:13:37,980 --> 00:13:39,500
En dat is nu de H100 geworden.

219
00:13:39,500 --> 00:13:41,740
Dus dat zie je ongelooflijk snel gaan.

220
00:13:41,740 --> 00:13:43,900
En dat zie je niet alleen bij dit soort grote bedrijven,

221
00:13:43,900 --> 00:13:45,300
maar dat zie je bijvoorbeeld ook bij universiteiten.

222
00:13:45,300 --> 00:13:48,340
En dus over, als je nu dit soort hardware inkoopt,

223
00:13:48,340 --> 00:13:50,420
over twee of drie jaar kan je het al bijna weer weggooien,

224
00:13:50,420 --> 00:13:52,260
want dan voldoet het al niet meer.

225
00:13:52,260 --> 00:13:53,900
- Ja, bizar is dat. - Dat is echt bizar.

226
00:13:53,900 --> 00:13:56,540
Dus je ziet aan beide kanten, zowel aan de trainingskant,

227
00:13:56,540 --> 00:13:58,820
wordt dat steeds groter.

228
00:13:58,820 --> 00:14:02,780
En dan heb ik het nog niet eens over het maken van een volledig van scratch,

229
00:14:02,820 --> 00:14:09,400
een nieuw model, maar gewoon puur dat alleen al en alleen al de retraining cycles die modellen

230
00:14:09,400 --> 00:14:13,760
tegenwoordig doorlopen. Jullie zitten alles weten over model en data drift, et cetera.

231
00:14:13,760 --> 00:14:19,080
Maar aan de andere kant zie je dus ook een explosie ontstaan in oké, maar als we dan

232
00:14:19,080 --> 00:14:23,280
die modellen echt gaan opschalen in het voorbeeld van Bayer, ja dan heb je het niet over één land.

233
00:14:23,280 --> 00:14:28,800
Je hebt het waar ze dit soort modellen voor inzetten, nee, het is voor potentieel de hele

234
00:14:28,800 --> 00:14:37,800
en dat wordt wel groot. En hoe ga je zo'n systeem managen en hoe krijg je early warnings in dat systeem?

235
00:14:37,800 --> 00:14:45,800
En dat heeft zowel aan de modelkant te maken als aan de systeemkant. Want wat we soms vergeten als we een model naar productie brengen,

236
00:14:45,800 --> 00:14:53,800
is dat er soms ook requirements zijn van latency, van availability. Soms zijn de resources er gewoon eenvoudig niet.

237
00:14:53,800 --> 00:14:59,800
Als ik een trainingsjob wil doen en ik heb morgen een paar A100's nodig in de cloud...

238
00:14:59,800 --> 00:15:02,800
om mij even een voorbeeld te geven, dan kan ik wel een dag wachten.

239
00:15:02,800 --> 00:15:13,800
Maar als ik realtime informatie moet geven over of er wel of niet een soort gewasepidemie...

240
00:15:13,800 --> 00:15:18,800
aan het aankomen is voor boeren, want je hebt van die enorme pestmigraties bijvoorbeeld.

241
00:15:18,800 --> 00:15:22,800
Dat moet realtime of near realtime, want anders is je oogst mislukt.

242
00:15:22,800 --> 00:15:26,040
Dus dan heb je die resources wel nodig.

243
00:15:26,040 --> 00:15:27,240
En daar denken we ook over,

244
00:15:27,240 --> 00:15:31,340
nou, hoe zorg je dan voor dat je die availability van resources hebt?

245
00:15:31,340 --> 00:15:32,800
En hoe kan je dat maximaliseren?

246
00:15:32,800 --> 00:15:34,820
En hoe kan je die uptime zo hoog mogelijk houden?

247
00:15:34,820 --> 00:15:37,840
Dus je hebt echt wel verschil tussen trainen en productie.

248
00:15:37,840 --> 00:15:39,540
Je had het net over die hardware.

249
00:15:39,540 --> 00:15:42,700
Is dat schalen van dat hardware...

250
00:15:42,700 --> 00:15:46,800
Gaat dat over grootte van de modellen...

251
00:15:46,800 --> 00:15:50,260
of gaat het ook over het terugdringen van de trainingscycle?

252
00:15:51,740 --> 00:15:58,020
Ja, ik denk dat overal zie je dat de training cycles sowieso een stuk kleiner worden.

253
00:15:58,020 --> 00:15:59,780
Maar dat is meer vanuit een praktisch oogpunt,

254
00:15:59,780 --> 00:16:02,100
omdat de loads ook steeds groter worden.

255
00:16:02,100 --> 00:16:04,140
Dus ook vanuit hun economisch...

256
00:16:04,140 --> 00:16:05,640
En het is ook niet meer...

257
00:16:05,640 --> 00:16:12,460
Ik was laatst op een evenement en moest ik wat presenteren...

258
00:16:12,460 --> 00:16:13,980
of zat ik in een soort panel discussie.

259
00:16:13,980 --> 00:16:18,020
En daar was ook, ik geloof, Max Welling, een bekende prof.

260
00:16:18,020 --> 00:16:20,040
Van de UvA. - Van de UvA.

261
00:16:20,540 --> 00:16:22,860
En er was ook iemand in het publiek die zei ook van,

262
00:16:22,860 --> 00:16:28,220
ja, maar hoe vaak komt het nou nog voor dat je modellen twee weken lang aan het trainen bent?

263
00:16:28,220 --> 00:16:30,060
Ja, dat komt eigenlijk bijna niet meer voor.

264
00:16:30,060 --> 00:16:33,540
Een dag is een beetje de max tegenwoordig of misschien een paar dagen.

265
00:16:33,540 --> 00:16:34,560
Ja.

266
00:16:34,560 --> 00:16:39,420
Los van natuurlijk de extreem grote modellen als we het weer over het foundation niveau hebben.

267
00:16:39,420 --> 00:16:40,440
Zeker.

268
00:16:40,440 --> 00:16:44,140
Maar dat zie je wel.

269
00:16:44,140 --> 00:16:49,120
En ja, terugkomend op je vraag, wat was je...

270
00:16:49,140 --> 00:16:51,460
Of je inderdaad zegt van, heeft het niet...

271
00:16:51,460 --> 00:16:55,820
Dat schalen gaat het om en het kunnen behappen van grotere modellen...

272
00:16:55,820 --> 00:16:59,660
of ook het terugdringen van de trainingstijd?

273
00:16:59,660 --> 00:17:01,920
Ja, ik denk beide.

274
00:17:01,920 --> 00:17:05,840
Dus ik denk dat je naar beide facetten moet kijken.

275
00:17:05,840 --> 00:17:08,380
Dus toch snel...

276
00:17:08,380 --> 00:17:10,820
Als je kijkt naar volgens mij...

277
00:17:10,820 --> 00:17:13,060
Ik heb daar ook wat artikelen over gelezen.

278
00:17:13,060 --> 00:17:15,940
Als je nu kijkt, is toch proberen zo snel mogelijk...

279
00:17:15,940 --> 00:17:18,900
naar een eerste soort conceptmodel te gaan.

280
00:17:18,920 --> 00:17:20,520
en daar ook even aan vast te houden.

281
00:17:20,520 --> 00:17:23,960
En vooral de data te verbeteren voordat je weer zo'n trainingscycle ingaat...

282
00:17:23,960 --> 00:17:28,520
in plaats van dat je 10.000 verschillende dingen probeert te doen op dezelfde data.

283
00:17:28,520 --> 00:17:33,640
Dus dat zijn ook trucjes om die trainingscycles te verkleinen...

284
00:17:33,640 --> 00:17:36,280
en daarop in te zetten.

285
00:17:36,280 --> 00:17:41,320
We zien dat ook hoor, misschien met minder grotere modellen...

286
00:17:41,320 --> 00:17:42,640
maar wat je ziet is dat je...

287
00:17:42,640 --> 00:17:45,440
We hebben veel meer ervaring nu waarvan je weet van...

288
00:17:45,460 --> 00:17:51,940
met dit algoritme komen we gewoon al een hele eind. Dus is het veel handiger om inderdaad je

289
00:17:51,940 --> 00:17:57,940
data verbeteren, feature selection uit te voeren, voordat je gaat zoeken naar een ander algoritme.

290
00:17:57,940 --> 00:18:00,740
- Exact. - Het kost je gewoon veel meer tijd en

291
00:18:00,740 --> 00:18:04,060
resources. - Ik was me wel benieuwd voor het thema 'Hoe dan?'

292
00:18:04,060 --> 00:18:09,540
Wat ook het thema van seizoen 4 is van de podcast. Wat zijn dan de tactieken die je vaak in de

293
00:18:09,540 --> 00:18:13,140
praktijk nu ziet voor die data verbetering? Ik ben wel nieuwsgierig, wat kom jij tegen in de praktijk?

294
00:18:13,140 --> 00:18:17,140
Dat is een goede vraag en daar durf ik niet helemaal een uitsluitend antwoord op te geven.

295
00:18:17,140 --> 00:18:20,140
Omdat wij zitten niet aan die kant.

296
00:18:20,140 --> 00:18:25,140
Kijk, misschien ook wel even goed om te schetsen waar wij beginnen en ophouden.

297
00:18:25,140 --> 00:18:29,140
In de training heb je natuurlijk de totale experimentatie kant.

298
00:18:29,140 --> 00:18:35,140
En dat zit veel meer aan de kant van hyperparameter optimization en al die dingen, feature engineering, et cetera.

299
00:18:35,140 --> 00:18:41,140
En daar heb je ook fantastische tools voor die dat steeds meer open source en proprietary steeds beter worden.

300
00:18:41,140 --> 00:18:44,540
Waar wij als bedrijf ons op focussen, is eigenlijk...

301
00:18:44,540 --> 00:18:47,840
op het moment dat je zo'n trainingsrun moet doen, of een inference run...

302
00:18:47,840 --> 00:18:54,240
hoe kan ik dan ervoor zorgen dat ik zo schaalbaar en ook kostenefficiënt...

303
00:18:54,240 --> 00:18:57,540
en efficiënt mogelijk die computational power op dat moment kan aanbieden?

304
00:18:57,540 --> 00:19:00,540
Dus dat is eigenlijk de split tussen...

305
00:19:00,540 --> 00:19:04,940
Dus er vindt eigenlijk een hele keten van tevoren plaats...

306
00:19:04,940 --> 00:19:06,640
waar wij eigenlijk veel minder zicht op hebben.

307
00:19:06,640 --> 00:19:09,740
En dat is natuurlijk ook soms een beetje de secret sauce van bedrijven...

308
00:19:09,840 --> 00:19:10,840
die ze hebben.

309
00:19:10,840 --> 00:19:16,020
Maar dat is wat ik, zo'n voorbeeld, als het over data gaat,

310
00:19:16,020 --> 00:19:17,140
is wel wat ik meekrijg.

311
00:19:17,140 --> 00:19:20,520
Dus dat wordt steeds belangrijker.

312
00:19:20,520 --> 00:19:23,340
En via wat voor platformen doen jullie dat?

313
00:19:23,340 --> 00:19:25,100
Heb je een eigen platform?

314
00:19:25,100 --> 00:19:27,280
Gebruik je daar cloud providers voor?

315
00:19:27,280 --> 00:19:28,300
Hoe moet ik dat zien?

316
00:19:28,300 --> 00:19:33,140
Ja, we zijn een laag gebouwd bovenop Kubernetes.

317
00:19:33,140 --> 00:19:37,820
Dus een welbekende orgistratielaag on top of cloud.

318
00:19:37,840 --> 00:19:44,240
Wij zijn niet gebonden aan een cloud, dus wij draaien in principe in heel veel verschillende cloudomgevingen,

319
00:19:44,240 --> 00:19:48,440
of zelfs hybride, of als het noodzakelijk is lokaal.

320
00:19:48,440 --> 00:19:52,040
En dat kunnen we ook op een dynamische manier doen.

321
00:19:52,040 --> 00:19:58,840
Dus dat betekent ook dat wij dynamisch uit verschillende omgevingen resources kunnen poelen,

322
00:19:58,840 --> 00:20:04,440
als dat nodig is om die berekening op tijd te kunnen voldoen.

323
00:20:04,440 --> 00:20:06,760
En dat kan zowel aan de trainingskant zijn,

324
00:20:06,760 --> 00:20:08,760
maar dat kan ook zeker aan de inferencekant zijn,

325
00:20:08,760 --> 00:20:10,480
als je het hebt over bijvoorbeeld de uptime.

326
00:20:10,480 --> 00:20:12,840
Dus om even een voorbeeld te geven,

327
00:20:12,840 --> 00:20:14,680
we werken bijvoorbeeld met een bedrijf

328
00:20:14,680 --> 00:20:20,680
die hebben grote visionmodellen, ook in productie.

329
00:20:20,680 --> 00:20:22,400
Dat moet continu draaien.

330
00:20:22,400 --> 00:20:25,760
En op het moment dat ergens de resources eruit klappen,

331
00:20:25,760 --> 00:20:27,640
bijvoorbeeld, ik noem maar even wat, bij Google,

332
00:20:27,640 --> 00:20:29,840
dan kunnen wij met Ubiofts kijken,

333
00:20:29,840 --> 00:20:32,160
oké, kunnen wij zeg maar on the spot kijken

334
00:20:32,180 --> 00:20:34,500
of we dat ergens anders vandaan kunnen halen.

335
00:20:34,500 --> 00:20:37,860
Het kan in een cloud-regio zijn, want een cloud bestaat uit heel veel verschillende regio's.

336
00:20:37,860 --> 00:20:43,580
Je hebt natuurlijk de regio Europa-West bijvoorbeeld, maar ja, ook de dag, et cetera.

337
00:20:43,580 --> 00:20:46,120
Maar dat kan ook buiten de cloud.

338
00:20:46,120 --> 00:20:49,120
En we gaan zelfs een stap verder dan dat, en dat is wel weer interessant.

339
00:20:49,120 --> 00:20:52,020
Misschien een beetje het cirkeltje rond te maken.

340
00:20:52,020 --> 00:20:58,780
We zijn ook in gesprek met partijen die in Europa bijvoorbeeld clouds bouwen,

341
00:20:58,800 --> 00:21:04,800
speciaal voor GPU, waar het met name gaat om het trainen van hele grote modellen,

342
00:21:04,800 --> 00:21:07,920
maar ook weer het draaien daarvan, om daar ook op te draaien.

343
00:21:07,920 --> 00:21:11,480
En die zijn vaak ook een stuk duurzamer en Europees.

344
00:21:11,480 --> 00:21:16,160
En dat is een belangrijk debat in onderzoek op dit moment.

345
00:21:16,160 --> 00:21:19,440
- Jazeker. Hebben we het dan over Gaia-X die je bedoelt?

346
00:21:19,440 --> 00:21:21,520
- Nou, nee, dat niet. Nee.

347
00:21:21,520 --> 00:21:25,720
Kijk, iedereen denkt dat Gaia-X echt een cloud is. Dat is het eigenlijk niet.

348
00:21:25,820 --> 00:21:29,300
Daar ben ik ook pas niet zo lang achter.

349
00:21:29,300 --> 00:21:32,900
Maar in Europa heb je bijvoorbeeld in Scandinavië, IJsland, Duitsland...

350
00:21:32,900 --> 00:21:36,000
en zelfs in Nederland initiatieven lopen van grote spelers...

351
00:21:36,000 --> 00:21:39,200
of ja, midden grote spelers die beginnen echt op te komen...

352
00:21:39,200 --> 00:21:41,300
en daar echt op beginnen te focussen.

353
00:21:41,300 --> 00:21:44,600
Want hoe kunnen wij duurzaam, ondemand...

354
00:21:44,600 --> 00:21:47,700
cloud compute resources geven...

355
00:21:47,700 --> 00:21:50,200
voor bijvoorbeeld hele complexe berekeningen...

356
00:21:50,200 --> 00:21:53,600
als het gaat voor onderzoek, maar ook voor het bedrijfsleven.

357
00:21:53,700 --> 00:21:58,100
En ik denk dat over een x-aantal jaar, en dan hebben we het over vijf jaar,

358
00:21:58,100 --> 00:22:01,660
er wel een aantal van dat soort hele dominante partijen zijn.

359
00:22:01,660 --> 00:22:04,620
En ik denk dat dat ook heel goed is in Europa, dat dat gaat gebeuren.

360
00:22:04,620 --> 00:22:05,640
Ja, zeker.

361
00:22:05,640 --> 00:22:09,220
Want we kunnen er altijd over praten, maar we moeten ook iets doen.

362
00:22:09,220 --> 00:22:11,920
En dat stimuleren we als bedrijf ook.

363
00:22:11,920 --> 00:22:16,580
Dus ik weet niet inmiddels in hoeveel omgevingen wij operationeel zijn,

364
00:22:16,580 --> 00:22:18,220
maar het zijn er wel veel.

365
00:22:18,220 --> 00:22:20,540
En dat is ook het mooie.

366
00:22:20,560 --> 00:22:25,000
Dus wij zien ook klanten die bijvoorbeeld eerst in een Amerikaanse cloud draaien...

367
00:22:25,000 --> 00:22:28,720
en dan denken, hé, ik zou toch graag eigenlijk echt workloads willen draaien...

368
00:22:28,720 --> 00:22:29,740
in een Europese cloud.

369
00:22:29,740 --> 00:22:31,200
En dan kan dat.

370
00:22:31,200 --> 00:22:34,920
En dat heeft soms te maken met sustainability.

371
00:22:34,920 --> 00:22:37,120
Soms heeft dat ook te maken met data privacy...

372
00:22:37,120 --> 00:22:41,400
en natuurlijk ook de geopolitieke spanningen soms die kunnen oplopen.

373
00:22:41,400 --> 00:22:43,480
Maar mensen zijn zich daar wel steeds meer bewust van.

374
00:22:43,480 --> 00:22:48,200
Dus wij moeten soms een beetje lachen als een bedrijf zegt...

375
00:22:48,200 --> 00:22:50,000
ja, we hebben een soort cloud-first policy...

376
00:22:50,020 --> 00:22:52,780
en dan zit je al je eieren in één mandje, zeg maar.

377
00:22:52,780 --> 00:22:55,620
Maar je ziet dat de partijen die net een stap verder zijn,

378
00:22:55,620 --> 00:22:58,920
die beginnen na te denken, oké, ja, maar ik wil sowieso een...

379
00:22:58,920 --> 00:23:04,100
Ja, misschien zo'n dooddoener qua term, maar zo'n multi-cloud-strategie.

380
00:23:04,100 --> 00:23:06,320
Maar dat is wel heel relevant op dit moment.

381
00:23:06,320 --> 00:23:10,940
En soms heeft dat ook gewoon puur te maken met de availability van resources.

382
00:23:10,940 --> 00:23:14,660
Dat vooral. En als je dat, wat jij zegt, gewoon zo kan schalen...

383
00:23:14,660 --> 00:23:18,300
over de verschillende providers, all of need cloud.

384
00:23:18,320 --> 00:23:20,320
Ja, krachtig lijkt me.

385
00:23:20,320 --> 00:23:23,720
Een dingetje die bij mij gelijk helemaal achteraf opkomt is security.

386
00:23:23,720 --> 00:23:26,220
Hoe doen jullie dat?

387
00:23:26,220 --> 00:23:28,220
Of hoe hebben jullie die uitdaging getackled?

388
00:23:28,220 --> 00:23:31,720
Want je noemt het zelf, in Amerika draaien ze dataprivacy,

389
00:23:31,720 --> 00:23:33,220
dan gaan we in Europa draaien.

390
00:23:33,220 --> 00:23:35,220
Hoe pakken jullie dat dan aan?

391
00:23:35,220 --> 00:23:38,720
Ja, ik vind, om misschien daar gelijk een onderscheiding mee te maken,

392
00:23:38,720 --> 00:23:41,020
ik vind privacy echt iets anders dan security.

393
00:23:41,020 --> 00:23:45,220
Dus wij werken bijvoorbeeld, een grote klant van ons bijvoorbeeld,

394
00:23:45,220 --> 00:23:47,720
het National Cyber Security Centrum van Nederland.

395
00:23:47,720 --> 00:23:52,720
Dus de modellen die ze daar ontwikkelen en draaien, die draaien op ons platform.

396
00:23:52,720 --> 00:23:56,540
Dat gebeurt allemaal in een zogenaamde air-gapped omgeving.

397
00:23:56,540 --> 00:23:58,080
Dus dat zit helemaal niet in de cloud.

398
00:23:58,080 --> 00:24:01,720
Dus ik kan wel vertellen dat we aan de security kant redelijk gehardend zijn.

399
00:24:01,720 --> 00:24:03,240
[GELACH]

400
00:24:03,240 --> 00:24:06,340
Dus we lopen niet weg van een pentest.

401
00:24:06,340 --> 00:24:10,320
Als je kijkt naar de privacy, ja, dat is een heel ander verhaal.

402
00:24:10,320 --> 00:24:14,320
Je hebt natuurlijk het SRAMs2 en je hebt de, ja, het zijn wat vaktermen,

403
00:24:14,340 --> 00:24:19,140
maar je hebt de Europese privacy wetgeving die staat eigenlijk niet,

404
00:24:19,140 --> 00:24:24,340
die is niet volledig congruent met de Amerikaanse Cloud Act op dit moment.

405
00:24:24,340 --> 00:24:27,240
Dus we denken altijd, we zeggen altijd,

406
00:24:27,240 --> 00:24:29,840
ja Joe Biden zou dan eventueel bij je data kunnen,

407
00:24:29,840 --> 00:24:34,440
ook al is het een Amerikaanse data,

408
00:24:34,440 --> 00:24:38,740
een Amerikaanse partij die toch een datacentrum heeft

409
00:24:38,740 --> 00:24:42,440
in bijvoorbeeld Nederland of Duitsland, dan geldt de Cloud Act ook.

410
00:24:42,440 --> 00:24:50,040
Maar dat is niet alleen Joe Biden, maar dat kan ook je lokale boswachter zijn die dat kan opvragen.

411
00:24:50,040 --> 00:24:51,920
Dus bij wijze van spreken.

412
00:24:51,920 --> 00:24:57,800
En die privacy die komt met name toch voort uit wat dat bedrijf wil.

413
00:24:57,800 --> 00:25:02,120
Dus er zijn bij ons bedrijven die zeggen, dat maakt mij niet uit.

414
00:25:02,120 --> 00:25:05,000
Het maakt me niet uit of ik in een Amerikaanse cloud draai of...

415
00:25:05,000 --> 00:25:12,040
Dan bedoel ik eigenlijk, het eigenaarschap ligt in Amerikaanse handen.

416
00:25:12,040 --> 00:25:16,540
Maar er zijn ook degelijk bedrijven die daar heel zwaar aan trekken.

417
00:25:16,540 --> 00:25:22,440
En dus ook niet zomaar willen dat als zij bepaalde workloads hebben draaien...

418
00:25:22,440 --> 00:25:26,860
in een Nederlandse omgeving, dat dat in één keer ergens anders kan gaan draaien.

419
00:25:26,860 --> 00:25:28,660
Daar willen ze volledig grip op hebben.

420
00:25:28,660 --> 00:25:30,820
Die granulariteit, die bieden we ze aan.

421
00:25:30,820 --> 00:25:34,780
Dus ze hebben zelf volledig de tools en de knoppen in handen op ons platform...

422
00:25:34,780 --> 00:25:35,980
om dat zelf te kunnen doen.

423
00:25:35,980 --> 00:25:38,580
Die lift en shiften, zoals we dat noemen van workloads.

424
00:25:40,720 --> 00:25:42,720
Dus dat is denk ik het...

425
00:25:42,720 --> 00:25:46,320
Maar ja, dat is echt vanuit de praktijk geredeneerd.

426
00:25:46,320 --> 00:25:52,220
Dus kijk, ik denk wel dat als wij meer Europese alternatieven hebben...

427
00:25:52,220 --> 00:25:54,940
dat daar ook een grotere vraag naar zou komen vanuit partijen.

428
00:25:54,940 --> 00:25:56,660
Het is soms een beetje ook het kip-en-ei verhaal.

429
00:25:56,660 --> 00:26:00,220
Iedereen zegt, ik wil gewoon naar een hele goede cloud-opgeving.

430
00:26:00,220 --> 00:26:06,260
En ja, als dat er is, dan ga ik dat doen, want dat is gewoon veel efficiënter.

431
00:26:06,260 --> 00:26:08,360
Maar op het moment dat het alternatiever is...

432
00:26:08,380 --> 00:26:11,380
Ja, dan heb je ook echt iets te bieden.

433
00:26:11,380 --> 00:26:15,420
En wat wij vinden, is waar Europa in achterloopt,

434
00:26:15,420 --> 00:26:18,780
is als je het hebt over de middlewarelagen.

435
00:26:18,780 --> 00:26:21,100
Dus heel veel partijen...

436
00:26:21,100 --> 00:26:24,060
En interropeer me ook als ik teveel praat, hè.

437
00:26:24,060 --> 00:26:25,580
Nee, nee, nee. Het gaat hartstikke goed.

438
00:26:25,580 --> 00:26:27,700
Ik ben heel benieuwd waar je met de middleware naar toe gaat.

439
00:26:27,700 --> 00:26:31,220
Nou, wat je natuurlijk ziet, is dat je in Europa best wel veel datacenters al hebt.

440
00:26:31,220 --> 00:26:35,940
En het zijn fantastische datacenters.

441
00:26:35,960 --> 00:26:39,760
Alleen die zijn nog in de ontwikkeling van die middlewarelaag.

442
00:26:39,760 --> 00:26:42,480
En dat zie je natuurlijk heel veel bij nieuw bedrijven.

443
00:26:42,480 --> 00:26:46,160
Ze zijn al heel erg gewend aan de tools die je hebt in bijvoorbeeld een Amerikaanse cloud.

444
00:26:46,160 --> 00:26:50,440
Je kan SageMaker gebruiken of Lambda tot Azure Services, etc.

445
00:26:50,440 --> 00:26:51,440
Google Vertex.

446
00:26:51,440 --> 00:26:53,440
- En dat is wat je de middleware noemt?

447
00:26:53,440 --> 00:26:54,440
- Dat noem ik de middleware.

448
00:26:54,440 --> 00:26:58,640
Dus eigenlijk de interactie tussen je AI workloads, zeg ik maar even,

449
00:26:58,660 --> 00:27:06,260
En de serverless laag die dan weer de servers zelf verder down aanstuurt.

450
00:27:06,260 --> 00:27:09,260
En zo denken die teams ook.

451
00:27:09,260 --> 00:27:12,140
Teams denken tegenwoordig niet meer in termen van servers.

452
00:27:12,140 --> 00:27:14,620
Ik heb zoveel bakken nodig.

453
00:27:14,620 --> 00:27:16,100
Nee, die denken in termen van workloads.

454
00:27:16,100 --> 00:27:17,540
Dus dat is iets heel anders.

455
00:27:17,540 --> 00:27:19,540
En daar zit een mismatch tussen.

456
00:27:19,540 --> 00:27:24,940
En dat proberen we ook daar in ieder geval in te helpen.

457
00:27:24,940 --> 00:27:28,380
Want wij kennen die taal namelijk heel goed van die bedrijven of organisaties.

458
00:27:28,400 --> 00:27:32,780
en soms zijn het ook onderzoeksorganisaties, maar ook van de datacentrum kant.

459
00:27:32,780 --> 00:27:34,100
Dus, ja.

460
00:27:34,100 --> 00:27:36,600
En hoe zorg je, ja, ik kan me zo voorstellen...

461
00:27:36,600 --> 00:27:39,100
dat je niet dat helemaal in detail kan vertellen.

462
00:27:39,100 --> 00:27:41,740
Maar er zit natuurlijk een heel verschil tussen die workloads...

463
00:27:41,740 --> 00:27:43,420
over die verschillende cloudleveranciers.

464
00:27:43,420 --> 00:27:45,820
Je zegt van, wij doen dat kostenefficiënt.

465
00:27:45,820 --> 00:27:49,620
Dat lijkt me vrij lastig, om dat allemaal uitgezocht te hebben...

466
00:27:49,620 --> 00:27:53,140
waar en hoe het dan zo kostenefficiënt mogelijk is...

467
00:27:53,140 --> 00:27:54,940
over de verschillende cloudleveranciers.

468
00:27:54,940 --> 00:27:56,540
Dat is het zeker, ja.

469
00:27:56,560 --> 00:28:00,560
Nou ja, als je het hebt over kostenefficiëntie bijvoorbeeld.

470
00:28:00,560 --> 00:28:03,080
Het hangt er bijvoorbeeld al af wanneer je een workload moet draaien.

471
00:28:03,080 --> 00:28:04,800
Om even een voorbeeld te geven.

472
00:28:04,800 --> 00:28:09,760
We hebben partijen die bijvoorbeeld veel in de weekenden moeten draaien.

473
00:28:09,760 --> 00:28:13,200
Dan kan je ook gebruik maken van zogenaamde spot instances.

474
00:28:13,200 --> 00:28:18,360
Dat zijn de hoeveelheid ongebruikte capaciteit...

475
00:28:18,360 --> 00:28:22,660
die eigenlijk voor, ik wil niet zeggen voor een prikkie weg gaat,

476
00:28:22,660 --> 00:28:25,080
maar wel voor een flink... - Een spotprijs.

477
00:28:25,100 --> 00:28:27,100
[GELACH]

478
00:28:27,100 --> 00:28:29,400
En dan is het vooral heel erg belangrijk,

479
00:28:29,400 --> 00:28:32,500
oké, als je daar gebruik van maakt, dan kan je dus de kosten effectiever zijn,

480
00:28:32,500 --> 00:28:35,500
maar dan moet je ook wel technologie hebben om ervoor te zorgen dat,

481
00:28:35,500 --> 00:28:38,500
mocht zo'n instance worden afgeschakeld, wat dan ook kan,

482
00:28:38,500 --> 00:28:41,000
iemand die daar dan de hoofdprijs voor wil betalen, dan ben je hem kwijt.

483
00:28:41,000 --> 00:28:45,800
En hoe zorg je ervoor dat je in de meantime een andere instance hebt opgesponnen,

484
00:28:45,800 --> 00:28:46,800
of opgespint.

485
00:28:46,800 --> 00:28:51,500
Dus, kijk, wij gaan nog niet zo ver dat wij,

486
00:28:51,500 --> 00:28:56,260
dat wij continu aan het kijken zijn,

487
00:28:56,260 --> 00:29:01,180
want availability is vaak nog belangrijker voor heel veel gevallen dan alleen prijs.

488
00:29:01,180 --> 00:29:04,340
Maar wat we wel proberen te doen is over het gemiddelde genomen,

489
00:29:04,340 --> 00:29:06,100
heel erg met een klant mee te denken van,

490
00:29:06,100 --> 00:29:09,540
oké, we kunnen dit en dit en dit, deze optimalisaties doen,

491
00:29:09,540 --> 00:29:12,940
waarbij je dan zo kostefficiënt mogelijk kan draaien.

492
00:29:12,940 --> 00:29:15,500
- Ja, precies. Hebben jullie ook eigen modellen gebouwd

493
00:29:15,500 --> 00:29:18,040
voor het runnen van je platform?

494
00:29:18,060 --> 00:29:22,060
Ja, nou ja, we hebben zeker algoritmes.

495
00:29:22,060 --> 00:29:28,060
Ik kan dat misschien niet volledig AI noemen, maar we hebben natuurlijk bijvoorbeeld...

496
00:29:28,060 --> 00:29:30,060
Waarom niet?

497
00:29:30,060 --> 00:29:34,060
Want dit hoor ik, waarom ik dit vraag, dat is een beetje een pestvraag.

498
00:29:34,060 --> 00:29:39,060
Dat krijgen wij namelijk ook best wel heel vaak vanuit klanten terug en zo.

499
00:29:39,060 --> 00:29:42,060
Is dit wel of geen AI?

500
00:29:42,060 --> 00:29:43,060
Ja.

501
00:29:43,060 --> 00:29:45,060
Wat is jouw criterium?

502
00:29:45,060 --> 00:29:51,060
Nou, in ieder geval dat er toch een soort self-learning component in zit.

503
00:29:51,060 --> 00:29:55,060
Dus wij schrijven wel algoritmes, maar die zijn veel meer deterministisch in de platform.

504
00:29:55,060 --> 00:30:05,060
Wel net iets verder dan if-then-else, maar het zijn wel degelijk statistische...

505
00:30:05,060 --> 00:30:09,060
Hoe zeg je dat? Dat zeg ik niet helemaal goed.

506
00:30:09,060 --> 00:30:17,500
goed. Analytische... - Modellen.

507
00:30:17,500 --> 00:30:23,540
- Nou, het zijn niet echt modellen. Het is gewoon deterministische code.

508
00:30:23,540 --> 00:30:26,500
- Oké, rekenregels. - Ja, exact.

509
00:30:26,500 --> 00:30:30,780
Ik zoek het juiste woord ervoor, want het is misschien iets meer dan dat.

510
00:30:30,780 --> 00:30:32,900
Maar rekenregels. - Ja, oké.

511
00:30:32,900 --> 00:30:35,380
- Dus even heel plat gezegd. Dus bijvoorbeeld, we hebben een...

512
00:30:35,380 --> 00:30:40,380
En bijvoorbeeld de zogenaamde autoscalers natuurlijk, die we ook zelf bouwen.

513
00:30:40,380 --> 00:30:43,100
En ja, dat zijn wel degelijk soort van algoritmes.

514
00:30:43,100 --> 00:30:44,620
En als dit gebeurt, dan gebeurt dat.

515
00:30:44,620 --> 00:30:46,820
Maar dat is niet self-learning.

516
00:30:46,820 --> 00:30:51,180
Het is niet zo, als ik daar nog meer data doorheen ga, dat dat ding zichzelf verbetert.

517
00:30:51,180 --> 00:30:52,060
Om het maar zo te zeggen.

518
00:30:52,060 --> 00:30:54,740
Wellicht dat dat iets is voor de toekomst, dat sluit ik niet uit.

519
00:30:54,740 --> 00:30:57,820
Maar misschien durven we daar nog niet helemaal op te bouwen.

520
00:30:57,820 --> 00:30:58,620
- Oh ja.

521
00:30:58,620 --> 00:31:00,580
Ja, grappig.

522
00:31:00,580 --> 00:31:03,260
Nee, maar deze vragen krijgen wij heel vaak.

523
00:31:03,300 --> 00:31:09,980
En soms, zelflerend, dat hoeft niet per se.

524
00:31:09,980 --> 00:31:13,580
Onder AI wordt meer verstaan dan machine learning alleen.

525
00:31:13,580 --> 00:31:15,180
Dat wordt nog wel eens vergeten.

526
00:31:15,180 --> 00:31:19,900
De oude expert systemen, wat uiteindelijk ook een ruw beest was,

527
00:31:19,900 --> 00:31:22,780
op basis van heuristiek en weet ik wat allemaal,

528
00:31:22,780 --> 00:31:25,580
valt ook nog steeds onder de AI.

529
00:31:25,580 --> 00:31:32,380
Ja, er zijn in die zin best wel multi-agency systemen kunnen...

530
00:31:32,380 --> 00:31:39,920
Klinkt heel stoer, kunnen met hele eenvoudige rekenagents zijn,

531
00:31:39,920 --> 00:31:42,100
waar je hele slimme dingen mee kan doen.

532
00:31:42,100 --> 00:31:47,020
Dus er wordt nog wel eens iets meer science fiction gedacht,

533
00:31:47,020 --> 00:31:48,980
dan dat het daadwerkelijk is.

534
00:31:48,980 --> 00:31:52,060
Je bedoelt de robot, die was weer echt gepresenteerd.

535
00:31:52,060 --> 00:31:54,440
Heb je dat gezien, Tesla?

536
00:31:54,440 --> 00:31:57,620
Ja, ik heb alleen een stukje van de opening gezien.

537
00:31:57,620 --> 00:31:59,020
Wat vond je ervan?

538
00:31:59,020 --> 00:32:01,800
Ik denk dat Boston Dynamics wel even een shiver had.

539
00:32:01,800 --> 00:32:08,800
Nou ja, kijk, de sprong die ze gemaakt hebben is groot.

540
00:32:08,800 --> 00:32:12,600
Want vorig jaar was het nog een acteur of een danser in een pakje.

541
00:32:12,600 --> 00:32:18,640
En nu hebben we een zwaaiende robot die ongeveer net zoiets komt als Pepper ofzo.

542
00:32:18,640 --> 00:32:20,440
Ik bedoel, heel muziek is het niet.

543
00:32:20,440 --> 00:32:22,520
Het zag er wel wat anders uit dan Pepper hoor.

544
00:32:22,520 --> 00:32:26,880
Ik had eigenlijk wel memes verwacht dat ze de hond van Boston Dynamics gingen uitlaten.

545
00:32:26,880 --> 00:32:28,440
Ik heb ze nog niet voorbij zien komen.

546
00:32:28,440 --> 00:32:31,520
Ik was er ook niet heel erg van onder de indruk.

547
00:32:31,520 --> 00:32:35,880
Maar hij heeft het gezegd, er staat wel een versie.

548
00:32:35,880 --> 00:32:40,040
Ik vind het wel een leap, zeg maar.

549
00:32:40,040 --> 00:32:42,640
Ja, ik zie het wel geloven.

550
00:32:42,640 --> 00:32:45,600
Ik was er niet heel erg van onder de indruk.

551
00:32:45,600 --> 00:32:50,200
Ik zag wel weer een stapje voor de toekomst, inderdaad.

552
00:32:50,200 --> 00:32:53,000
Maar wereldschokkend vond ik het ook niet.

553
00:32:53,000 --> 00:32:54,760
Maar het intrigeert me wel.

554
00:32:54,760 --> 00:32:58,040
Er kwamen filmpjes voorbij van robots van 20 jaar geleden van Honda.

555
00:32:58,040 --> 00:33:06,840
Die serveren daadwerkelijk drank uit waarbij dat van een blad werd gegeven aan iemand.

556
00:33:06,840 --> 00:33:10,280
Dat soort dingen. Dat ging iets verder dan zwaaien naar het publiek.

557
00:33:10,280 --> 00:33:13,400
Maar goed, even sidestep. Hoe kwamen we hier?

558
00:33:13,400 --> 00:33:16,520
Goeie vraag. Science fiction.

559
00:33:16,520 --> 00:33:18,520
Science fiction, ja precies.

560
00:33:18,520 --> 00:33:20,520
Toch nog iets, ja.

561
00:33:20,520 --> 00:33:25,480
Ja, en misschien jouw punt natuurlijk. Dat AI misschien wel breder is dan alleen maar dat zelflerende.

562
00:33:25,480 --> 00:33:30,640
en dat dat ook meer deterministische of heuristische rekenregels kunnen zijn.

563
00:33:30,640 --> 00:33:35,480
Kijk, wat je wel ziet is dat bijvoorbeeld aan de kant ook van...

564
00:33:35,480 --> 00:33:38,880
Dat is wel een interessante ontwikkeling die we nu zien.

565
00:33:38,880 --> 00:33:43,120
Als je bijvoorbeeld kijkt in de genetica en de physics en de astrophysics,

566
00:33:43,120 --> 00:33:45,640
daar gaat natuurlijk enorm veel data over lijnen.

567
00:33:45,640 --> 00:33:49,280
We vergeten soms hoeveel dat is.

568
00:33:49,280 --> 00:33:52,080
Correct me if I'm wrong, maar wat ik heb gelezen is dat bijvoorbeeld

569
00:33:52,280 --> 00:33:55,640
als we het hebben over wat er aan data uit de ruimte wordt gehaald,

570
00:33:55,640 --> 00:34:03,140
dan is dat al tientallen keren meer straks in 2030...

571
00:34:03,140 --> 00:34:07,340
dan heel Facebook, inclusief Instagram, et cetera, aan data produceert.

572
00:34:07,340 --> 00:34:08,940
Dus dat is enorm.

573
00:34:08,940 --> 00:34:12,340
En daar heb je het echt over big data, kan je zeggen,

574
00:34:12,340 --> 00:34:14,540
of hele grote volumes data.

575
00:34:14,540 --> 00:34:16,940
En dan zie je ook, dat is wel grappig,

576
00:34:16,940 --> 00:34:18,940
als je het nou hebt over training en inference,

577
00:34:19,040 --> 00:34:22,120
Dat betekent dus eigenlijk dat je een machine learning model aan het draaien bent...

578
00:34:22,120 --> 00:34:24,920
om een bepaalde data processing-model te kunnen gebruiken.

579
00:34:24,920 --> 00:34:27,020
En dat is eigenlijk een heel belangrijk punt.

580
00:34:27,020 --> 00:34:30,520
En dat is ook een van de redenen waarom we dat zo'n belangrijk onderzoek hebben...

581
00:34:30,520 --> 00:34:33,720
is omdat we eigenlijk niet meer in de data processing-model gaan.

582
00:34:33,720 --> 00:34:35,720
We gaan meer in de data processing-model gaan.

583
00:34:35,720 --> 00:34:38,720
En dat is eigenlijk een van de redenen waarom we dat zo'n belangrijk onderzoek hebben.

584
00:34:38,720 --> 00:34:41,720
En dat is eigenlijk een van de redenen waarom we dat zo'n belangrijk onderzoek hebben.

585
00:34:41,720 --> 00:34:44,720
En dat is eigenlijk een van de redenen waarom we dat zo'n belangrijk onderzoek hebben.

586
00:34:44,720 --> 00:34:47,720
En dat is eigenlijk een van de redenen waarom we dat zo'n belangrijk onderzoek hebben.

587
00:34:47,820 --> 00:34:50,020
om een bepaalde dataprocessing stap te doen,

588
00:34:50,020 --> 00:34:52,520
die uiteindelijk noodzakelijk is voor je training.

589
00:34:52,520 --> 00:34:54,720
Dus... -Heel herkenbaar.

590
00:34:54,720 --> 00:34:55,820
Ja. -Ja.

591
00:34:55,820 --> 00:34:57,920
Dat komen wij ook steeds meer tegen.

592
00:34:57,920 --> 00:34:59,020
Een van de dingen...

593
00:34:59,020 --> 00:35:02,920
Ik heb toevallig vanochtend een presentatie gegeven aan Radboud UMC.

594
00:35:02,920 --> 00:35:07,820
Wij zijn daar mee bezig rondom Parkinson prediagnose.

595
00:35:07,820 --> 00:35:11,820
Daar heb ik al iets vaker ook wat kleine stukjes over verteld in deze podcast.

596
00:35:11,820 --> 00:35:15,020
Maar we hebben daar inderdaad modellen gebouwd

597
00:35:15,020 --> 00:35:17,520
om uiteindelijk feature extraction te doen.

598
00:35:17,620 --> 00:35:21,460
Dat je inderdaad data uit de video's haalt of uit de audio haalt,

599
00:35:21,460 --> 00:35:24,660
die je kan gebruiken om zo direct een voorspellend model te maken.

600
00:35:24,660 --> 00:35:29,740
Dus je krijgt eigenlijk van alles door elkaar.

601
00:35:29,740 --> 00:35:32,220
En soms ook gewoon ook weer rekenregels.

602
00:35:32,220 --> 00:35:34,940
Als dit gebeurt, dan betekent het dat.

603
00:35:34,940 --> 00:35:39,460
Dus je krijgt een combinatie van om uiteindelijk tot een resultaat te komen.

604
00:35:39,460 --> 00:35:40,660
Daar wil je uiteindelijk naartoe.

605
00:35:40,660 --> 00:35:41,660
Precies.

606
00:35:41,660 --> 00:35:44,460
Dan komen we toch weer op de laagjes die we net ook bespraken.

607
00:35:44,460 --> 00:35:48,140
Je ziet ook weer een laagje bovenop je dataschild of je extra creatie.

608
00:35:48,140 --> 00:35:50,540
En hoe goed is die? Dat kunnen testen.

609
00:35:50,540 --> 00:35:53,820
En open kunnen zijn, wat gebeurt daar?

610
00:35:53,820 --> 00:35:57,020
Dat is wel een ontwikkeling die van belang is.

611
00:35:57,020 --> 00:36:02,180
Ja, en die herhaalbaarheid is dan uiteindelijk heel belangrijk.

612
00:36:02,180 --> 00:36:05,500
Hoe zit dat bij jullie op het platform?

613
00:36:05,500 --> 00:36:08,060
Ja, herhaalbaarheid in de zin van?

614
00:36:08,060 --> 00:36:11,900
Van kunnen hertrainen, zaken...

615
00:36:12,260 --> 00:36:16,260
Maar ook, nou laten we het misschien zelfs over herleidbaarheid ook hebben.

616
00:36:16,260 --> 00:36:20,960
Weet je, kijk je, wij hebben in ieder geval heel veel te maken met modellen...

617
00:36:20,960 --> 00:36:25,260
waarbij vanuit het besluit moet je redelijk terug kunnen redeneren...

618
00:36:25,260 --> 00:36:28,660
naar op basis van welke data het besluit genomen is.

619
00:36:28,660 --> 00:36:32,660
En zelfs wij moeten ook redelijk het model in kunnen kijken...

620
00:36:32,660 --> 00:36:38,160
om te zeggen van, ja, op basis van deze deze gegevens is dit besluit genomen.

621
00:36:38,160 --> 00:36:42,960
Ja, wij doen dat deels, maar ook deels niet...

622
00:36:42,960 --> 00:36:48,080
omdat de gebruikers van ons daar zelf een eigen vrijheid in willen hebben.

623
00:36:48,080 --> 00:36:50,800
Dus als wij het hebben over pipelines, dan hebben we het eigenlijk over...

624
00:36:50,800 --> 00:36:53,600
de data pipelines, dus echt het processen.

625
00:36:53,600 --> 00:36:56,520
En dat kunnen ook retrainingstappen zijn, trainingstappen...

626
00:36:56,520 --> 00:36:58,840
of uiteindelijk inference-stappen.

627
00:36:58,840 --> 00:37:02,800
In die pipelines zien we dat er heel veel conditionele logica wordt gebouwd.

628
00:37:02,800 --> 00:37:06,200
Als dit gebeurt in een pipeline, dan zou je back terug kunnen gaan...

629
00:37:06,200 --> 00:37:07,600
naar een retrainingstap, et cetera.

630
00:37:07,620 --> 00:37:12,220
En natuurlijk is dan, ik weet niet wat de umbrella term is,

631
00:37:12,220 --> 00:37:15,260
maar dan is het ontzettend belangrijk dat je data versioning op orde is.

632
00:37:15,260 --> 00:37:19,540
Kijk, en daar zijn ook alweer tools voor die daar heel krachtig in zijn.

633
00:37:19,540 --> 00:37:23,380
Gisteren toevallig hadden we ook een discussie over intern,

634
00:37:23,380 --> 00:37:26,100
dat we twee jaar geleden hadden het nog over een tool als DVC.

635
00:37:26,100 --> 00:37:29,380
En toen hadden we dat getest en dat vonden we...

636
00:37:29,380 --> 00:37:32,420
Maar vandaag de dag ziet het er al veel belovender uit.

637
00:37:32,420 --> 00:37:34,380
Dus je ziet ook, wat wij wel zien,

638
00:37:34,400 --> 00:37:38,480
is dat veel gebruikers daar ook weer eigen toolsets omheen bouwen.

639
00:37:38,480 --> 00:37:40,180
En waarom doen we dat?

640
00:37:40,180 --> 00:37:44,600
Omdat wij heel veel met de AI-specialisten samen werken.

641
00:37:44,600 --> 00:37:48,280
En die AI-specialisten hebben best wel een goed idee...

642
00:37:48,280 --> 00:37:49,840
hoe ze die straat willen inrichten.

643
00:37:49,840 --> 00:37:52,720
Dus als wij gaan voorschrijven, je moet dit of dat...

644
00:37:52,720 --> 00:37:57,320
ja, dan is het al hetzelfde als we het hebben over de keuze tussen...

645
00:37:57,320 --> 00:38:02,240
ga je in je training gebruik maken van een MLflow, om maar even iets te noemen...

646
00:38:02,260 --> 00:38:06,340
of ga je met een proprietary tool werken als een weights and biases,

647
00:38:06,340 --> 00:38:10,220
wat ook veel in de, of dat zit wel veel meer aan de experimentatie kant.

648
00:38:10,220 --> 00:38:12,100
Maar die vrijheid willen ze wel geven.

649
00:38:12,100 --> 00:38:18,940
Dus ja, het kan in de platform, maar ze richten het zelf in.

650
00:38:18,940 --> 00:38:22,420
Kijk, waar wij wel veel meer op letten is de checks en balances...

651
00:38:22,420 --> 00:38:23,980
die dan gebeuren in zo'n pipeline.

652
00:38:23,980 --> 00:38:28,620
En de operators, zoals we dat noemen, en de conditionele logica daaromheen.

653
00:38:28,640 --> 00:38:33,480
zodat we eigenlijk het proces helpen faciliteren in te richten.

654
00:38:33,480 --> 00:38:34,480
Heb je een voorbeeld?

655
00:38:34,480 --> 00:38:44,160
Nou ja, dat kan al heel simpel zijn als bijvoorbeeld een real-time AB-test.

656
00:38:44,160 --> 00:38:49,960
Dat is al een conditioneel punt, zeg maar, of logica.

657
00:38:49,960 --> 00:38:54,400
Of het hopswappen van een versie gebeurt natuurlijk ook wel eens.

658
00:38:54,400 --> 00:39:01,160
Dus ja, dat betekent een versie is toch minder optimaal dan verwacht.

659
00:39:01,160 --> 00:39:05,480
En we kunnen in één keer terug naar de andere versie waarvan we weten dat die...

660
00:39:05,480 --> 00:39:09,280
Ja, waarvan we wel eerst dachten dat het de tweede was, maar nu weer de eerste, zeg maar.

661
00:39:09,280 --> 00:39:11,920
En we gebruiken het zelfs andersom soms.

662
00:39:11,920 --> 00:39:15,120
Dus we laten de nieuwe versie schaduwdraaien.

663
00:39:15,120 --> 00:39:17,760
En dat je inderdaad ziet van, hé, maar die doet het beter.

664
00:39:17,760 --> 00:39:20,120
Dat is dan gevalideerd.

665
00:39:20,120 --> 00:39:21,520
En dan kan je hem inderdaad ook swoppen.

666
00:39:21,520 --> 00:39:24,320
En dan gaat alles door op de nieuwe versie.

667
00:39:24,320 --> 00:39:27,120
Exact, ja. - En andersom inderdaad.

668
00:39:27,120 --> 00:39:28,140
En andersom.

669
00:39:28,140 --> 00:39:31,120
Dat zijn kleine dingen, maar dat zijn wel...

670
00:39:31,120 --> 00:39:33,780
Die pipelines kunnen op een gegeven moment heel complex worden.

671
00:39:33,780 --> 00:39:38,160
En dat heeft soms ook al te maken met dat je bepaalde processing stappen doet...

672
00:39:38,160 --> 00:39:41,240
waar je weer bepaalde data bij elkaar wil kunnen mergen.

673
00:39:41,240 --> 00:39:46,600
En wat we ook proberen te doen in die pipelines is dat zo...

674
00:39:46,600 --> 00:39:49,680
Al die componenten moeten niet van elkaar afhankelijk zijn.

675
00:39:49,680 --> 00:39:53,200
Dus wij noemen dat in onze pipelines deployments.

676
00:39:53,220 --> 00:39:57,140
Dat is misschien niet helemaal de juiste term, maar het zijn soort operators, zeg maar.

677
00:39:57,140 --> 00:39:59,500
Dus het zijn eigenlijk allemaal individuele microservices.

678
00:39:59,500 --> 00:40:02,980
En daar kan je ieder type Python of ondersteunen bijvoorbeeld ook R,

679
00:40:02,980 --> 00:40:06,940
en dat soort, zo'n taal, kun je aan elkaar verbinden.

680
00:40:06,940 --> 00:40:12,260
Maar die zijn in de compute, zeg maar, om het even zo te zeggen, niet van elkaar afhankelijk.

681
00:40:12,260 --> 00:40:14,020
Dus ze schalen allemaal individueel.

682
00:40:14,020 --> 00:40:17,380
En dat betekent ook dat je hele efficiënte pipelines kan maken.

683
00:40:17,380 --> 00:40:19,020
En dat heeft weer alles te maken met tijd.

684
00:40:19,040 --> 00:40:23,040
en als je het hebt over retrainen, of trainen of inference,

685
00:40:23,040 --> 00:40:25,040
of een combinatie van die drie.

686
00:40:25,040 --> 00:40:30,840
Wat wij nog wel eens in de praktijk zien, is dat er gezien de historie,

687
00:40:30,840 --> 00:40:38,240
dat er wat minder aandacht is bij organisaties rondom het testen

688
00:40:38,240 --> 00:40:44,340
van de dataprocessing, van de pipelines die je nu zegt.

689
00:40:45,240 --> 00:40:49,240
Hoe zie jij dat? Zie je dat in de praktijk terugkomen?

690
00:40:49,240 --> 00:40:55,240
Nou, ik denk dat bedrijven die echt productiedraaien...

691
00:40:55,240 --> 00:40:57,740
daar wel veel over nadenken bij ons.

692
00:40:57,740 --> 00:41:00,240
Je hebt natuurlijk steeds meer tools die...

693
00:41:00,240 --> 00:41:01,740
Als je het hebt over datadrift...

694
00:41:01,740 --> 00:41:05,740
en wij praten ook weer met tools aan de achterkant van de keten.

695
00:41:05,740 --> 00:41:08,540
Dus bijvoorbeeld als je het hebt over modeldrift en dat soort dingen...

696
00:41:08,540 --> 00:41:11,240
en daar ook weer logica in bouwen in zo'n pipeline.

697
00:41:11,240 --> 00:41:14,240
Wij zien de gebruikers dat zeker doen.

698
00:41:14,340 --> 00:41:16,820
Want op het moment dat zij...

699
00:41:16,820 --> 00:41:23,060
Als je het hebt over het voorspellen van of een patiënt wel of geen...

700
00:41:23,060 --> 00:41:26,020
een ernstige ziekte heeft, dan moet je wel donders goed zeker weten...

701
00:41:26,020 --> 00:41:28,020
dat dat daadwerkelijk ook echt zo is.

702
00:41:28,020 --> 00:41:30,980
Dus de repercussies kunnen groot worden.

703
00:41:30,980 --> 00:41:34,180
Dus in de praktijk zien we juist wel...

704
00:41:34,180 --> 00:41:38,980
Wij werken vaak wel met organisaties die vaak iets verder zijn in die maturity...

705
00:41:38,980 --> 00:41:41,860
omdat ze ook een bepaalde verantwoordelijkheid hebben...

706
00:41:41,980 --> 00:41:47,140
om ervoor te zorgen dat die pipeline die in productie is...

707
00:41:47,140 --> 00:41:53,060
van de juiste kwaliteit te houden en te voorzien.

708
00:41:53,060 --> 00:41:54,740
Misschien al juist door de schaalgroten.

709
00:41:54,740 --> 00:41:57,140
Dus er komen natuurlijk bij jullie als de schaalgroten...

710
00:41:57,140 --> 00:42:00,740
zodanig zijn dat je moet gaan schalen.

711
00:42:00,740 --> 00:42:04,980
Wij zitten ook nog best wel bij veel bedrijven die starten.

712
00:42:04,980 --> 00:42:09,020
En daar is dit echt wel iets waar wij veel op moeten hameren.

713
00:42:09,060 --> 00:42:13,460
Dat je echt begint bij je ETL-processen testen.

714
00:42:13,460 --> 00:42:16,860
Dat je je machine learning pipeline test.

715
00:42:16,860 --> 00:42:18,560
Dat je... - Dat je datacwaliteit...

716
00:42:18,560 --> 00:42:20,160
Dat je datacwaliteit, precies.

717
00:42:20,160 --> 00:42:23,460
Dat je je experimenten versioneert.

718
00:42:23,460 --> 00:42:27,260
Dat je echt alles voor tot achter goed in elkaar hebt zitten.

719
00:42:27,260 --> 00:42:29,160
Ik hoorde je zeggen, we praten vaak met tools.

720
00:42:29,160 --> 00:42:31,460
Als de luisteraar in je luistert zegt van, hier wil ik mee aan de slag...

721
00:42:31,460 --> 00:42:34,860
Wat zijn de tools die jij in de markt ziet die gebruikt worden?

722
00:42:37,160 --> 00:42:39,660
Ja, dat is een hele goede vraag.

723
00:42:39,660 --> 00:42:47,960
Als we zien, naar de experimentatie kant zie ik dus heel veel bijvoorbeeld dingen als MLflow terugkomen.

724
00:42:47,960 --> 00:42:50,160
Natuurlijk Git wordt extreem veel gebruikt.

725
00:42:50,160 --> 00:42:54,460
Gitflows of GitHub Actions heb je ook bijvoorbeeld, dat soort dingen.

726
00:42:54,460 --> 00:43:00,460
Aan de achterkant werken we ook wel samen met aan de monitoring kant,

727
00:43:00,460 --> 00:43:03,260
zie je wat meer proprietary tools die het beter doen.

728
00:43:03,260 --> 00:43:07,540
In Amerika heb je bijvoorbeeld werkzaam, bijvoorbeeld een Arise-achtige.

729
00:43:07,540 --> 00:43:12,580
Ik weet niet of jullie dat kennen, maar dat zit puur op model monitoring...

730
00:43:12,580 --> 00:43:14,000
en allerlei type drift.

731
00:43:14,000 --> 00:43:19,540
En we hebben ook klanten die daar dan een integratie mee maken.

732
00:43:19,540 --> 00:43:22,500
En ik denk dat dat soms ook nog wel een challenge is.

733
00:43:22,500 --> 00:43:27,060
We hebben het hier heel erg over het ML Ops, Machine Learning Operations aspect.

734
00:43:27,060 --> 00:43:30,460
En wij doen niet de totale keten.

735
00:43:30,460 --> 00:43:32,860
En daar is ook altijd een discussie over.

736
00:43:32,880 --> 00:43:34,640
Dus in de communities.

737
00:43:34,640 --> 00:43:36,760
Want er zijn natuurlijk partijen die proberen alles te bouwen,

738
00:43:36,760 --> 00:43:39,800
van A tot Z, en die hele keten gesloten te krijgen.

739
00:43:39,800 --> 00:43:45,560
Maar dan zie je vaak dat er toch hele erg suboptimale componenten in zitten.

740
00:43:45,560 --> 00:43:49,240
Daar waar je ook partijen en open source tools hebben,

741
00:43:49,240 --> 00:43:50,600
die wat meer de best of breed,

742
00:43:50,600 --> 00:43:54,800
dus eigenlijk proberen het beste in het klasje te worden, op dat stukje.

743
00:43:54,800 --> 00:43:58,240
Maar hoe zorg je er dan voor dat dat een natural flow is?

744
00:43:58,240 --> 00:44:02,400
En ik moet zeggen, soms kijk ik wel eens naar architectuurplaatjes,

745
00:44:02,420 --> 00:44:04,420
Dan schrik ik me echt helemaal dood.

746
00:44:04,420 --> 00:44:08,720
Want dan denk ik echt, nou ja, UbiOpps, dat covert het grootste deel.

747
00:44:08,720 --> 00:44:11,780
Maar als je ziet wat erachter of ervoor zit, dat is echt een heel arsenaal.

748
00:44:11,780 --> 00:44:17,920
En ja, dus ik ben daar misschien ook een beetje ongekleurd in.

749
00:44:17,920 --> 00:44:20,520
Maar het is niet zo dat wij zeggen, ja, kies die tool of die tool.

750
00:44:20,520 --> 00:44:24,620
Het is wel zo dat wij ook op onze docspagina hebben we allerlei integraties.

751
00:44:24,620 --> 00:44:29,120
Aan de dataversion kant hebben we bijvoorbeeld ook weer tools als PackyDurm...

752
00:44:29,120 --> 00:44:30,720
en dat soort dingen, misschien was er wel gehoord.

753
00:44:30,740 --> 00:44:35,980
Maar vaak hebben onze type gebruikers daar wel al een idee bij.

754
00:44:35,980 --> 00:44:39,000
Dus, en even terugkomend op maturity.

755
00:44:39,000 --> 00:44:44,740
Ik zie ook bijvoorbeeld wel maturity ontstaan bij techbedrijven op dit moment.

756
00:44:44,740 --> 00:44:48,060
Dus niet alleen de grote corporates waar we het net over hebben gehad,

757
00:44:48,060 --> 00:44:50,100
zoals Unbuyer, fantastische teams, hè.

758
00:44:50,100 --> 00:44:53,380
En die hebben ook echt de mensen en de brainpower.

759
00:44:53,380 --> 00:44:56,300
Maar wij werken ook wel met startups en scale-ups samen,

760
00:44:56,300 --> 00:44:59,580
die daar niet echt voor onder doen, om maar zo te zeggen.

761
00:44:59,600 --> 00:45:01,480
en dat is wel impressive om te zien.

762
00:45:01,480 --> 00:45:08,520
Vaak zijn dat dan wel bedrijven die een volledig AI-product in de markt proberen te zetten

763
00:45:08,520 --> 00:45:10,840
en daar ook een heel bedrijf omheen bouwen.

764
00:45:10,840 --> 00:45:17,160
Maar we zien wel dat dat bedrijven zijn die enorm aan het accelereren zijn,

765
00:45:17,160 --> 00:45:18,760
en soms ook acceleren.

766
00:45:18,760 --> 00:45:25,400
En we zien dat ook aan de researchkant, maar dat zit dan wat meer vaak op training.

767
00:45:25,400 --> 00:45:30,100
Maar ook daar heb je ontzettend goede wetenschappers die...

768
00:45:30,100 --> 00:45:34,180
- Absoluut. En we hebben het geluk dat we in Nederland echt goede universiteiten hebben...

769
00:45:34,180 --> 00:45:36,000
die hier serieus mee bezig zijn.

770
00:45:36,000 --> 00:45:36,520
- Ja.

771
00:45:36,520 --> 00:45:42,420
- Ik had een tijdje terug een Duitse student, die studeerde dan in Amsterdam.

772
00:45:42,420 --> 00:45:44,440
Die kwam bij ons praten.

773
00:45:44,440 --> 00:45:46,060
En daar schrok ik van.

774
00:45:46,060 --> 00:45:51,660
Die zei, ja, in Duitsland hebben we eigenlijk gewoon geen specifieke AI-studies aan de universiteit.

775
00:45:51,660 --> 00:45:53,820
- Ongelofelijk. - Echt mind-blowing, toch?

776
00:45:53,840 --> 00:45:56,280
Hoe kan dat nou in deze tijd nog mogelijk zijn?

777
00:45:56,280 --> 00:45:58,280
Dat we in Nederland nog niet zo ver waren.

778
00:45:58,280 --> 00:46:02,320
Nee, Nederland heeft de reputatie hoog te houden, hoor.

779
00:46:02,320 --> 00:46:04,720
Het gebied van kunstmatige intelligentie, nee zeker.

780
00:46:04,720 --> 00:46:07,920
Ja, dat is echt ongelofelijk.

781
00:46:07,920 --> 00:46:09,920
En een gemiste kans.

782
00:46:09,920 --> 00:46:11,920
Ja.

783
00:46:11,920 --> 00:46:15,920
Ik denk dat je daar wel...

784
00:46:15,920 --> 00:46:19,160
Ik denk dat Nederland daar echt wel in voorop loopt.

785
00:46:19,160 --> 00:46:22,240
En dan is eigenlijk de vraag, hoe zorg je ervoor dat dat talent niet direct wegloopt?

786
00:46:22,240 --> 00:46:24,240
Ja, de vraag is groot.

787
00:46:24,240 --> 00:46:26,240
Ja, de vraag is heel groot.

788
00:46:26,240 --> 00:46:27,240
Zeker, zeker.

789
00:46:27,240 --> 00:46:29,240
Hé Yannick, ik denk, ik heb veel geleerd.

790
00:46:29,240 --> 00:46:30,240
Niels?

791
00:46:30,240 --> 00:46:31,240
Ja, zeker.

792
00:46:31,240 --> 00:46:32,240
Dank je wel.

793
00:46:32,240 --> 00:46:33,240
Ik ook.

794
00:46:33,240 --> 00:46:34,240
Dank jullie ook.

795
00:46:34,240 --> 00:46:35,240
Heel fijn dat je wilde komen.

796
00:46:35,240 --> 00:46:42,240
Ik denk vooral, nou ja, dingen geleerd over schaalbaarheid, dat soort zaken.

797
00:46:42,240 --> 00:46:46,240
Dus, nou, dan sluiten we hierbij af.

798
00:46:46,240 --> 00:46:47,240
Dank je wel.

799
00:46:47,240 --> 00:46:48,240
Dank je wel.

800
00:46:48,240 --> 00:46:52,240
Fijn dat je weer luisterde naar de AI Today Live podcast.

801
00:46:52,240 --> 00:46:54,240
Zorg dat je je abonneert.

802
00:46:54,240 --> 00:46:57,240
Bij Spotify kan je op een belletje drukken.

803
00:46:57,240 --> 00:47:00,240
Bij Apple Music heb je misschien zoiets ook wel.

804
00:47:00,240 --> 00:47:02,240
Daar kijk ik iets te weinig naar.

805
00:47:02,240 --> 00:47:04,240
Nou, vertel het door.

806
00:47:04,240 --> 00:47:09,240
Volg de socials om op de up-to-date te blijven.

807
00:47:09,240 --> 00:47:11,240
Berichtjes spammen we er graag op.

808
00:47:11,240 --> 00:47:13,240
Dus volg ons en abonneer je.

809
00:47:13,240 --> 00:47:15,240
Oké, tot de volgende keer.

810
00:47:15,240 --> 00:47:19,240
[Muziek]