1
00:00:00,000 --> 00:00:06,240
Hoi, leuk dat je weer luistert naar een nieuwe aflevering van de Air Today Live.

2
00:00:06,240 --> 00:00:10,920
We zitten vandaag met twee gasten. Dat is voor het eerst. Hartstikke leuk.

3
00:00:10,920 --> 00:00:15,520
Daan Oudijk, Muriel. Oh, wat erg. Ja, ja, ja.

4
00:00:15,520 --> 00:00:17,880
Serrurier Schepper. Dank je wel Muriel.

5
00:00:17,880 --> 00:00:22,240
En we gaan het echt vandaag over een heel speciaal initiatief hebben.

6
00:00:22,240 --> 00:00:25,040
Toen Niels en ik ervan hoorden, hadden we echt zoiets van,

7
00:00:25,040 --> 00:00:29,520
ja, maar hier willen we meer van weten. Dit is echt, normaal gesproken zeggen we altijd,

8
00:00:29,520 --> 00:00:34,520
Het is inspirerend, maar volgens mij maken wij nu zo direct echt een hele belangrijke aflevering.

9
00:00:34,520 --> 00:00:36,520
Dus blijf vooral luisteren.

10
00:00:36,520 --> 00:00:42,520
Ik dank jullie wel dat jullie aanwezig zijn bij ons in de podcast.

11
00:00:42,520 --> 00:00:45,520
Misschien willen jullie eerst even voorstellen aan de luisteraars.

12
00:00:45,520 --> 00:00:47,520
Daan, zou jij willen beginnen?

13
00:00:47,520 --> 00:00:51,520
Ja, prima. Ik ben Daan Odijk. Ik leid het data science en AI team bij RTL.

14
00:00:51,520 --> 00:00:54,520
Mijn eigen achtergrond is in de AI.

15
00:00:54,520 --> 00:00:57,520
Gestudeerd in Amsterdam en gepromoveerd in de zoekmachine technologie.

16
00:00:57,520 --> 00:01:06,520
Nu een jaar of vijf werkzaam bij RTL en ik leid een team van acht data scientists waarmee wij werken aan data science toepassingen voor heel RTL.

17
00:01:06,520 --> 00:01:14,520
Ja, mooi, dankjewel. En jullie hebben een speciale band met wat we hier zo direct gaan bespreken, het annotatielab.

18
00:01:14,520 --> 00:01:17,520
Murielle wil jij je even voorstellen?

19
00:01:17,520 --> 00:01:22,520
Ja, ik ben Murielle dus en ik werk nu vijf jaar als zelfstandige.

20
00:01:22,520 --> 00:01:27,920
En ik leid allerlei projecten op het gebied van data en artificial intelligence in allerlei sectoren.

21
00:01:27,920 --> 00:01:33,280
Bij Niels wij kennen elkaar ook bij Heineken hebben wij samen projecten gedaan.

22
00:01:33,280 --> 00:01:35,640
Dat deed ik niet AI, maar wel in de data.

23
00:01:35,640 --> 00:01:36,640
Zeker.

24
00:01:36,640 --> 00:01:43,560
En nu bijvoorbeeld in de scheepvaart, maar ook sinds 2019 al in de mediasector bij Media Perspectives.

25
00:01:43,560 --> 00:01:49,840
En daar hebben wij allerlei initiatieven gedaan, waaronder het AI Annotatielab, waarover we vandaag komen vertellen.

26
00:01:49,840 --> 00:01:54,960
Ja, en dat is echt het hoofdthema vandaag, het AI-Annotatielab.

27
00:01:54,960 --> 00:01:56,960
Kun je daar iets meer over vertellen?

28
00:01:56,960 --> 00:01:58,960
Ja, dat kan ik.

29
00:01:58,960 --> 00:02:03,240
Wil je een stukje historie of wil je eerst weten wat het is?

30
00:02:03,240 --> 00:02:06,320
Laten we beginnen met wat het is. Dan hebben mensen denk ik een beeld.

31
00:02:06,320 --> 00:02:10,560
En dan is het denk ik handig om de historie en waarom je hiermee begonnen bent.

32
00:02:10,560 --> 00:02:17,560
Het AI-Annotatielab is een plek waar mensen met een afstand tot de arbeidsmarkt bij elkaar komen.

33
00:02:17,560 --> 00:02:25,200
En daar zijn zij bezig met het labelen van data, waaronder de data van RTL.

34
00:02:25,200 --> 00:02:28,840
En enerzijds doen zij dus werkervaring op...

35
00:02:28,840 --> 00:02:32,320
waarmee ze straks weer makkelijker op de arbeidsmarkt komen...

36
00:02:32,320 --> 00:02:34,840
of vervolgtrajecten kunnen krijgen.

37
00:02:34,840 --> 00:02:38,640
En anderzijds krijgen de mediabedrijven hele mooie data...

38
00:02:38,640 --> 00:02:40,760
waarmee ze hun AI kunnen trainen.

39
00:02:40,760 --> 00:02:45,880
En ook die die heel divers is, omdat we hier een hele diverse groep mensen hebben.

40
00:02:46,000 --> 00:02:55,440
Het zijn kwetsbare mensen en we hebben daar een fantastische jobcoach op zitten die hen enerzijds helpt het werk te doen,

41
00:02:55,440 --> 00:03:01,600
maar anderzijds ook op allerlei vlakken in hun leven weer verder helpt, zodat ze daarna wat steviger in de maatschappij terug kan.

42
00:03:01,600 --> 00:03:05,040
Ja, want dat is het primaire doel, toch? Als ik dat goed begrepen had.

43
00:03:05,040 --> 00:03:10,440
Ja, het is én de mensen helpen én de bedrijven helpen. Dus het is echt een win-win.

44
00:03:10,440 --> 00:03:13,640
Het is niet het een of het ander wat belangrijker is, het is alle twee.

45
00:03:13,640 --> 00:03:18,800
En Daan, wat betekent dat voor jullie? Want jullie maken er gebruik van als RTL.

46
00:03:18,800 --> 00:03:20,800
Wat betekent dat voor jullie?

47
00:03:20,800 --> 00:03:26,120
Ja, dus we hebben een aantal taken waarbij we data gelabeld krijgen door deze mensen.

48
00:03:26,120 --> 00:03:31,480
Dat is bijvoorbeeld, kijken we naar de kwaliteit van de omtiteling voor tv-programma's,

49
00:03:31,480 --> 00:03:37,120
we kijken naar dingen als, welke plaatjes zijn er aantrekkelijk om als thumbnail te laten zien op Videoland.

50
00:03:37,120 --> 00:03:41,200
We kijken nu bijvoorbeeld ook naar welke categorie hoort er bij een video,

51
00:03:41,200 --> 00:03:46,360
zodat we daar voor personalisatie en voor advertenties ons verder op kunnen richten.

52
00:03:46,360 --> 00:03:50,000
Dus dat is voor ons hele nuttige data waar we AI-modellen op kunnen trainen.

53
00:03:50,000 --> 00:03:53,400
En vooral gebruiken we het ook om veel van onze AI-modellen te corrigeren...

54
00:03:53,400 --> 00:03:55,640
en te controleren, kijken hoe goed dat gaat.

55
00:03:55,640 --> 00:03:58,000
Wat interessant is aan deze doelgroep...

56
00:03:58,000 --> 00:04:00,040
is dat we eigenlijk een heel ander soort data krijgen...

57
00:04:00,040 --> 00:04:04,920
dan als we dit door een professioneel iemand bij RTL bijvoorbeeld zouden laten doen.

58
00:04:04,920 --> 00:04:09,480
Dus we krijgen denk ik daarmee heel veel rijkere data daardoor.

59
00:04:09,600 --> 00:04:12,920
Heb je een voorbeeld van wat voor verschillen moeten we dan aan denken?

60
00:04:12,920 --> 00:04:22,600
Nou, bij RTL werken natuurlijk veel al theoretisch gescholden, geloof ik dat ik moet zeggen,

61
00:04:22,600 --> 00:04:29,600
nu maar hogeropgeleiden bedoel ik, voor een deel, die heel diep in de materie zitten.

62
00:04:29,600 --> 00:04:32,120
Als we die een vraag stellen over van welke categorie gaat het over,

63
00:04:32,120 --> 00:04:37,320
dan krijgen we daar een heel praktisch antwoord open of een heel duidelijk antwoord op.

64
00:04:37,320 --> 00:04:42,360
deze mensen kijken veel meer met een blik van een gemiddelde consument of een ander soort consument

65
00:04:42,360 --> 00:04:47,520
naar onze data. Waardoor we denk ik zeker complementaire data hebben, maar misschien ook

66
00:04:47,520 --> 00:04:51,680
wel betere data dan als we dat zelf zouden doen. - Ja, dat is wel grappig, want dat is niet het

67
00:04:51,680 --> 00:04:55,560
eerste wat dan in je opkomt. Maar nu dat je het uitlegt, denk ik, oh ja, dat is eigenlijk wel heel

68
00:04:55,560 --> 00:05:00,040
logisch. - Ja, precies. En ik denk dat het voor ons ook heel goed is om daar juist een externe blik

69
00:05:00,040 --> 00:05:04,960
op te hebben en van tevoren ook goed over na te denken. Welke vragen stellen we en wat kunnen we

70
00:05:04,960 --> 00:05:11,960
Ja, grappig is ook dat ik recent veel gesproken met mensen die conversational writers zijn voor chatbots.

71
00:05:11,960 --> 00:05:18,960
En ja, dan moet je natuurlijk ook een chatbot intent vragen om te trainen zodat hij de intent herkent.

72
00:05:18,960 --> 00:05:24,960
En ja, die zeggen ook van, joh, het is eigenlijk al heel interessant om deze doelgroep de vragen te laten stellen.

73
00:05:24,960 --> 00:05:31,960
Want vraag je dat aan de mensen op kantoor, die zitten toch met een bepaalde opleiding en een achtergrond stellesvragen.

74
00:05:31,960 --> 00:05:37,800
vragen. Maar als je straks dit maakt voor je klantenpopulatie, ja, dat zijn niet allemaal

75
00:05:37,800 --> 00:05:43,480
de hoogopgeleide mensen. En dat zijn misschien wel juist de mensen die wij hier hebben zitten,

76
00:05:43,480 --> 00:05:46,800
zijn misschien wel gewoon je doelgroep. Dus die gaan juist de vragen stellen.

77
00:05:46,800 --> 00:05:49,680
De grootste groepen zijn juist niet hoogopgeleide, toch?

78
00:05:49,680 --> 00:05:55,920
Juist. Ja. Dus ook daar zien we heel erg de potentie van het AEA Notatiedat.

79
00:05:55,920 --> 00:05:58,720
Kun je ook wat vertellen over de historie dan?

80
00:05:58,720 --> 00:06:01,480
Ja, nou ja, het is eigenlijk hoe is het ontstaan.

81
00:06:01,480 --> 00:06:06,440
In 2019 toen gingen we met verschillende media partijen hier op het Media Park,

82
00:06:06,440 --> 00:06:08,160
want daar zijn we dan vandaag,

83
00:06:08,160 --> 00:06:14,560
vanuit mediaperspecties zagen we dat ze allemaal met AI en data science bezig waren.

84
00:06:14,560 --> 00:06:17,200
En toen hebben we meerdere bedrijven uitgenodigd en gezegd van

85
00:06:17,200 --> 00:06:20,640
"Goh, zou het een idee zijn om eens dingen samen te ontwikkelen,

86
00:06:20,640 --> 00:06:24,480
in plaats van ieder met zijn kleine team het wiel opnieuw uit te vinden."

87
00:06:24,480 --> 00:06:27,040
Nou, toen zijn we een aantal projecten begonnen,

88
00:06:27,040 --> 00:06:31,920
Dus we hebben ook een intentieverklaring voor ethisch verantwoord gebruik van AI gecreëerd

89
00:06:31,920 --> 00:06:35,880
en door mediapartnerijen laten ondertekenen.

90
00:06:35,880 --> 00:06:41,920
Zij hebben met een tool om spraakherkenners te benchmarken een oplossing gemaakt.

91
00:06:41,920 --> 00:06:48,040
En een van de andere dingen die we wilden doen was kijken van, goh, kunnen we het videodata

92
00:06:48,040 --> 00:06:53,640
bijvoorbeeld halen, is hier geweld of is hier humor, verraadt het hier over seks?

93
00:06:53,640 --> 00:06:58,640
om met name de kijkwijze te kijken, kan je die kijkwijzer misschien met een model trainen.

94
00:06:58,640 --> 00:06:59,640
Oh ja.

95
00:06:59,640 --> 00:07:05,640
En nou, heel leuk, een paar soort van sessies gehad met allemaal data scientists van allerlei bedrijven bij elkaar.

96
00:07:05,640 --> 00:07:12,640
Uiteindelijk was de conclusie, ja, we hebben gewoon niet genoeg voorbeelddata om bijvoorbeeld geweld te detecteren in al die scènes.

97
00:07:12,640 --> 00:07:14,640
Dus dat hield op.

98
00:07:14,640 --> 00:07:20,040
Op de gelijkheid was ik veel in contact met de gemeente Hilversum, die ook natuurlijk

99
00:07:20,040 --> 00:07:24,480
veel betrokken is bij wat er gebeurt op mediagebied.

100
00:07:24,480 --> 00:07:28,920
En daar was een ambtenaar en die zei van, we hebben natuurlijk heel veel mensen die

101
00:07:28,920 --> 00:07:29,920
niet aan de bak komen.

102
00:07:29,920 --> 00:07:35,560
Ik heb wel eens iets gehoord van annoteren van data en kunnen we daar niet iets mee?

103
00:07:35,560 --> 00:07:38,280
En toen zijn we eigenlijk, die gesprekken zijn heel snel gegaan.

104
00:07:38,280 --> 00:07:45,800
En toen zijn we met RTL, maar ook toen met NPO en Stichting Beeld en Geluid bij elkaar

105
00:07:45,800 --> 00:07:48,880
gegaan en hebben gezegd, nou, laten we dit gaan doen.

106
00:07:48,880 --> 00:07:54,920
En dat hebben we opgezet op 1 maart 2021, start midden in de COVID nog.

107
00:07:54,920 --> 00:07:59,640
Maar wij hadden hier een hele grote ruimte waar mensen heel ver uit elkaar konden zitten.

108
00:07:59,640 --> 00:08:02,920
En toen zijn we met allerlei taken van die partijen begonnen.

109
00:08:02,920 --> 00:08:05,440
En met de begeleiding erbij.

110
00:08:05,440 --> 00:08:07,480
En zo is dat eigenlijk ontstaan.

111
00:08:07,480 --> 00:08:08,480
Wat mooi.

112
00:08:08,480 --> 00:08:13,480
En nu gaan we het derde jaar in, dus we hebben weer net financiering gekregen voor het derde jaar.

113
00:08:13,480 --> 00:08:14,980
Oh, gefeliciteerd. Kijk.

114
00:08:14,980 --> 00:08:15,480
Ja.

115
00:08:15,480 --> 00:08:22,480
En als je dan vanuit jouw perspectief kijkt, wat maakt het nou, want er waren natuurlijk denk ik meerdere opties...

116
00:08:22,480 --> 00:08:25,980
om uiteindelijk aan deze gelabelde data te komen.

117
00:08:25,980 --> 00:08:30,480
Er zijn ook allerlei hele goedkope opties via het buitenland en dat soort zaken.

118
00:08:30,480 --> 00:08:33,480
Wat was de reden voor RTL om juist hiervoor te kiezen?

119
00:08:34,480 --> 00:08:39,480
Ja, inderdaad. Ik denk dat heel veel van dit soort annotatiewerk gebeurt veelal soort van anoniem.

120
00:08:39,480 --> 00:08:44,480
Op Amazon Mechanical Turk bijvoorbeeld, of Crowdflower, dat soort platformen.

121
00:08:44,480 --> 00:08:53,480
Wat ik denk dat het heel mooi aan is, is dat het op het mediapark gebeurt en ook sociale impact heeft, maatschappelijke impact heeft.

122
00:08:53,480 --> 00:08:59,480
En ik denk ook dat we een heel kort lijntje hebben aan deze groep, dat we ook kwalitatief veel hoogwaardigere data krijgen.

123
00:08:59,480 --> 00:09:03,200
Dus ik kom zelf hier geregeld langs om even te kijken hoe het gaat,

124
00:09:03,200 --> 00:09:05,200
wat te vertellen over wat we met de data aan het doen zijn,

125
00:09:05,200 --> 00:09:07,920
en wat vragen te beantwoorden.

126
00:09:07,920 --> 00:09:11,560
En ik denk dat dat ook heel goed werkt om veel betere data te krijgen hieruit.

127
00:09:11,560 --> 00:09:14,960
Dus ja, dit was aan alle kanten een grote winst voor ons eigenlijk.

128
00:09:14,960 --> 00:09:17,280
Ja, snap ik. Mooi.

129
00:09:17,280 --> 00:09:22,880
En je had het over dat het nu voor mediabedrijven is.

130
00:09:22,880 --> 00:09:27,640
Is het exclusief voor mediabedrijven om gebruik te maken van het annotatielab?

131
00:09:27,640 --> 00:09:28,800
Nee, absoluut niet.

132
00:09:28,820 --> 00:09:32,820
Dus wij zijn op zoek naar andere bedrijven die ook denken van...

133
00:09:32,820 --> 00:09:36,380
'Goh, we hebben ook van al die data, maar daar moeten we nog iets mee...

134
00:09:36,380 --> 00:09:41,020
maar we hebben niet de tijd om dat zelf met onze dure data science resources te doen.'

135
00:09:41,020 --> 00:09:44,420
Dus we zijn op zoek naar andere bedrijven ook die denken van...

136
00:09:44,420 --> 00:09:51,220
'Nou, daar zie ik wel wat in en dat levert ons rijkere data op, zoals Daan vertelt.'

137
00:09:51,220 --> 00:09:55,740
En ze kunnen verzekeraars zijn, maar ook in de energiesector...

138
00:09:55,740 --> 00:10:01,140
Er wordt ook veel met fotomateriaal gedaan, wat gelabeld moet worden.

139
00:10:01,140 --> 00:10:04,580
Maar ook, nou wat ik zei, chat...

140
00:10:04,580 --> 00:10:10,580
De training van die chatbots. Dus eigenlijk van alles kan het zijn.

141
00:10:10,580 --> 00:10:13,540
Dus het kan en beeldmateriaal zijn, maar het is ook tekstmateriaal.

142
00:10:13,540 --> 00:10:17,660
Ja, we hebben ook in het verleden bijvoorbeeld voor een bedrijf...

143
00:10:17,660 --> 00:10:21,660
moesten er mensen teksten lezen en uiteindelijk aangeven...

144
00:10:21,660 --> 00:10:24,300
welke emotie roepte dit stukje tekst op.

145
00:10:24,420 --> 00:10:27,620
En dat was bijvoorbeeld omdat zij bezig waren om te kijken...

146
00:10:27,620 --> 00:10:31,860
Geautomatiseerd wilden ze advertenties plaatsen bij artikelen op de website.

147
00:10:31,860 --> 00:10:37,300
En dan wilden ze natuurlijk wel hebben dat als je een mooie advertentie ergens over hebt...

148
00:10:37,300 --> 00:10:40,540
dat dat niet bijvoorbeeld van een BMW of een Audi...

149
00:10:40,540 --> 00:10:44,340
dat dat niet naast een autocrash verhaal stond.

150
00:10:44,340 --> 00:10:49,380
Dus op die manier moesten mensen dus dingen lezen en emoties daaraan geven.

151
00:10:49,380 --> 00:10:50,600
Oh, wat goed.

152
00:10:51,640 --> 00:10:58,640
Dus tekst, maar ook audio, video's. Eigenlijk maakt het qua type data niet zo veel uit.

153
00:10:58,640 --> 00:11:09,640
Nee, en ook complexere dingen. Ze zijn er niet theoretisch geschold, maar veel van de mensen zijn wel slimme mensen.

154
00:11:09,640 --> 00:11:17,640
Alleen ze hebben ergens op hun pad, is het anders gelopen dan ze misschien hadden gewild of dan dat kon.

155
00:11:17,640 --> 00:11:21,640
Er zijn ook ook regelmatig autistische mensen die hier zitten.

156
00:11:21,640 --> 00:11:22,640
Dus ze zijn niet dom.

157
00:11:22,640 --> 00:11:27,640
Ze vinden juist een beetje complexere taken heel leuk.

158
00:11:27,640 --> 00:11:33,640
En ik werk nu ook voor een scheepvaartbedrijf waar we met IoT-data bezig zijn.

159
00:11:33,640 --> 00:11:43,640
En op een gegeven moment hebben we ook een taak gedaan waar wij echt moesten kijken naar de tags van zo'n sensor.

160
00:11:43,640 --> 00:11:48,900
Bij wat voor omschrijving hoort dat nou van het schip?

161
00:11:48,900 --> 00:11:54,380
Dat vonden ze hartstikke leuk, want het was heel erg puzzelen tussen drie verschillende bestanden...

162
00:11:54,380 --> 00:11:58,080
en daarin zoeken en dan uiteindelijk het juiste uitkiezen.

163
00:11:58,080 --> 00:12:04,740
Dus ook dat soort dingen, als je gewoon een bak met data hebt waar gewoon iets mee moet gebeuren...

164
00:12:04,740 --> 00:12:08,020
maar waar je zelf gewoon geen tijd voor hebt, ja, kom maar door.

165
00:12:08,020 --> 00:12:11,780
En met 'kom maar door', hoe gaat dat in zijn werk?

166
00:12:11,780 --> 00:12:15,780
Dus er luistert nu iemand en die zegt, ja, maar dit is echt wat voor ons.

167
00:12:15,780 --> 00:12:16,280
Ja.

168
00:12:16,280 --> 00:12:19,780
Hoe, wat is de eerste stap voor zo iemand?

169
00:12:19,780 --> 00:12:23,780
Ja, nou dan om, nou ga eerst sowieso eens even op onze website opkijken, he.

170
00:12:23,780 --> 00:12:25,780
De annotatielab.nl.

171
00:12:25,780 --> 00:12:26,280
Ja.

172
00:12:26,280 --> 00:12:29,780
En daar vind je ook allerlei contactgegevens, dan kom je bij mij terecht.

173
00:12:29,780 --> 00:12:34,780
Dus ik hoop dat jullie de shownoten mijn e-mailadres willen zetten.

174
00:12:34,780 --> 00:12:36,280
En de website en je e-mailadres.

175
00:12:36,280 --> 00:12:37,280
Alles, heel vaak.

176
00:12:37,280 --> 00:12:42,280
En wat we dan doen is, we gaan met elkaar in gesprek.

177
00:12:42,280 --> 00:12:46,280
En dan kunnen we gewoon met elkaar een proef gaan doen.

178
00:12:46,280 --> 00:12:49,280
En de bedoeling is dus dat je als bedrijf zelf de taak maakt.

179
00:12:49,280 --> 00:12:53,280
En dat je ook je eigen annotatietool meeneemt.

180
00:12:53,280 --> 00:12:58,280
En dat kan dus de ene keer een productie zijn, andere keer een labelbox.

181
00:12:58,280 --> 00:13:00,280
Maar er zijn ook zelfgemaakte tools.

182
00:13:00,280 --> 00:13:06,280
En dan gaan de mensen hier, die krijgen gewoon een username en een password van de opdrachtgever.

183
00:13:06,280 --> 00:13:11,440
en die gaan dan daarin en gaan in die tool van het bedrijf zelf zitten labelen.

184
00:13:11,440 --> 00:13:16,080
Dus op die manier blijft de data ook gewoon waar die vandaan komt.

185
00:13:16,080 --> 00:13:20,960
En we hebben daar wel gezegd, we doen niks met privacygevoelige data.

186
00:13:20,960 --> 00:13:26,400
Want dan moet je weer allerlei complexiteit met allerlei overeenkomsten.

187
00:13:26,400 --> 00:13:28,640
En daar willen we gewoon vanaf blijven.

188
00:13:28,640 --> 00:13:34,080
Maar verder eigenlijk alle soorten data natuurlijk wel binnen het normale.

189
00:13:34,080 --> 00:13:39,680
Je hoort natuurlijk wel eens met dat chat-gpt dat er van alles in Kenia is geoutsourced...

190
00:13:39,680 --> 00:13:43,280
waar mensen de meest ik wat voor vreselijke video's ofzo hebben moeten kijken.

191
00:13:43,280 --> 00:13:44,560
Nou, dat soort werk doen we niet.

192
00:13:44,560 --> 00:13:45,160
Nee.

193
00:13:45,160 --> 00:13:47,160
Dus er zit wel... - Dus er vindt wel iets van een intake plaats.

194
00:13:47,160 --> 00:13:48,760
Ja, er zit wel...

195
00:13:48,760 --> 00:13:51,680
Het moet wel gewoon normale data zijn.

196
00:13:51,680 --> 00:13:55,760
En deze is gewoon in te en dan maken we gewoon een contract met elkaar...

197
00:13:55,760 --> 00:13:57,880
en dan gaan we gewoon aan de bak.

198
00:13:57,880 --> 00:14:00,880
En wanneer kunnen ze dan de eerste resultaten verwachten?

199
00:14:01,280 --> 00:14:09,160
Nou ja, zodra de taak klaar is en de mensen aan de bak gaan, een uur later heb je al de eerste tax.

200
00:14:09,160 --> 00:14:11,680
Wat is jouw ervaring, Daan?

201
00:14:11,680 --> 00:14:14,680
Ja, het gaat relatief snel om dat op te zetten.

202
00:14:14,680 --> 00:14:20,280
Ik denk dat inderdaad een inteken is een goed idee en ik denk ook dat directe betrokkenheid ook handig is om te hebben,

203
00:14:20,280 --> 00:14:23,880
om ook gewoon een betere kwaliteit data te krijgen dan ook daarmee.

204
00:14:23,880 --> 00:14:28,680
Maar ja, als wij een nieuwe taak hebben en we leggen dat 's morgens uit,

205
00:14:28,680 --> 00:14:31,520
Dan hebben we 's middags de eerste berg data binnen.

206
00:14:31,520 --> 00:14:36,220
En ja, er wordt hier nu op dit moment drie dagen in de week gelabeld.

207
00:14:36,220 --> 00:14:38,680
Dus dat betekent dat het behoorlijk snel doorloopt.

208
00:14:38,680 --> 00:14:42,480
En we hebben allemaal taken waar we niet direct tijdsdruk op zitten...

209
00:14:42,480 --> 00:14:45,320
waarbij het ook even kan duren als de data komt.

210
00:14:45,320 --> 00:14:48,620
Dus wij proberen een soort van vanuit RTL de gaten te vullen...

211
00:14:48,620 --> 00:14:50,680
zodat we andere klusjes tussendoor kunnen doen...

212
00:14:50,680 --> 00:14:52,820
voor mensen die meer data hebben.

213
00:14:52,820 --> 00:14:55,180
En wij kunnen wel wachten even op die data.

214
00:14:55,180 --> 00:14:57,780
En Muriel had het net over verschillende tools.

215
00:14:57,880 --> 00:15:02,120
Wat hebben jullie aangeleverd aan het lab? Mag je daar iets over zeggen?

216
00:15:02,120 --> 00:15:04,120
- Ja hoor, je kan daar prima wat over zeggen.

217
00:15:04,120 --> 00:15:11,120
Wij gebruiken onder andere Labelbox, een annotatietool waar we een aantal taken in hebben opgezet.

218
00:15:11,120 --> 00:15:18,360
En daar kijken we bijvoorbeeld naar een taak als herkennen van muziek in Videlandcontent.

219
00:15:18,360 --> 00:15:22,520
Zodat we een idee hebben van waar zitten er muziekstukken, zodat we dat kunnen gebruiken

220
00:15:22,520 --> 00:15:28,520
zowel voor dingen als automatisch hoofdstukken maken voor videocontent,

221
00:15:28,520 --> 00:15:31,960
maar ook om te kijken of we de juiste rechte afdracht doen.

222
00:15:31,960 --> 00:15:33,600
Controleren daarvan.

223
00:15:33,600 --> 00:15:36,520
Dat is een relatief simpel taakje waarbij gewoon vijf minuten geluisterd werd.

224
00:15:36,520 --> 00:15:38,920
En de vraag was, hoor je je muziek ja of nee?

225
00:15:38,920 --> 00:15:41,520
-Oké, dus niet eens welke muziek?

226
00:15:41,520 --> 00:15:44,520
Nee, gewoon echt heel simpel. Is de muziek ja of nee?

227
00:15:44,520 --> 00:15:49,520
En dat hebben we gebruikt om daarmee automatische modellen te benchmarken

228
00:15:49,520 --> 00:15:50,840
en te calibreren eigenlijk,

229
00:15:50,880 --> 00:15:53,880
zodat we nu goed weten waar muziek zit.

230
00:15:53,880 --> 00:15:57,160
Wat was de impact daarvan voor jullie?

231
00:15:57,160 --> 00:15:59,600
Nou, specifiek in dit geval,

232
00:15:59,600 --> 00:16:02,880
we gebruikten daarvoor al automatische modellen

233
00:16:02,880 --> 00:16:04,560
en we weten nu veel beter hoe goed die werken.

234
00:16:04,560 --> 00:16:06,600
Dus we vertrouwen die modellen nu heel veel beter

235
00:16:06,600 --> 00:16:08,160
doordat we menselijke data hebben.

236
00:16:08,160 --> 00:16:10,320
En we hebben uiteindelijk dat gebruikt ook

237
00:16:10,320 --> 00:16:13,480
om dat met Buma's camera te controleren

238
00:16:13,480 --> 00:16:16,600
en kijken of we daar verschillende van meningen hebben.

239
00:16:16,600 --> 00:16:18,440
Dus daarvoor was het hele nuttige data

240
00:16:18,440 --> 00:16:20,640
om een gedeelde waarheid te creëren eigenlijk.

241
00:16:20,640 --> 00:16:26,120
Dat hebben we gebruikt tot aan de presentatoren zelf die het hebben laten zien.

242
00:16:26,120 --> 00:16:28,120
Dat is ook een heel belangrijk onderdeel.

243
00:16:28,120 --> 00:16:30,120
Dat is ook een heel belangrijk onderdeel.

244
00:16:30,120 --> 00:16:32,120
Dat is ook een heel belangrijk onderdeel.

245
00:16:32,120 --> 00:16:34,120
Dat is ook een heel belangrijk onderdeel.

246
00:16:34,120 --> 00:16:36,120
Dat is ook een heel belangrijk onderdeel.

247
00:16:36,120 --> 00:16:38,120
Dat is ook een heel belangrijk onderdeel.

248
00:16:38,120 --> 00:16:40,120
Dat is ook een heel belangrijk onderdeel.

249
00:16:40,120 --> 00:16:42,120
Dat is ook een heel belangrijk onderdeel.

250
00:16:42,120 --> 00:16:44,120
Dat is ook een heel belangrijk onderdeel.

251
00:16:44,120 --> 00:16:46,120
Dat is ook een heel belangrijk onderdeel.

252
00:16:46,120 --> 00:16:48,120
Dat is ook een heel belangrijk onderdeel.

253
00:16:48,120 --> 00:16:50,120
Dat is ook een heel belangrijk onderdeel.

254
00:16:50,120 --> 00:16:55,760
die een idee kregen van hoe divers we eigenlijk mensen uit bij ons gaan voor bij de toxia

255
00:16:55,760 --> 00:17:03,000
zoals je nek en bo en rent ze en belangrijk absoluut hele mooie data voor keren en de

256
00:17:03,000 --> 00:17:07,520
mensen vond het ook heel leuk om te horen dat het werk wat zij gedaan hadden dat dat

257
00:17:07,520 --> 00:17:12,520
nou ja besproken werd daar en en op een hoog niveau binnen rtl en dat daar dus ook naar

258
00:17:12,520 --> 00:17:17,840
tot tot effecten heeft mogelijk geleid dat dat dus dus ja dat merk je ook wel dat dat

259
00:17:17,840 --> 00:17:24,040
Dat je de feedback aan de jager geeft om hier gewoon over vloer te komen als je hier wat laat labelen.

260
00:17:24,040 --> 00:17:30,200
En dat weer terug te geven van wat hebben we daar mee gedaan, wat is de waarde ervan om het circuit rond te maken.

261
00:17:30,200 --> 00:17:31,200
Heel mooi.

262
00:17:31,200 --> 00:17:35,480
Geldt dat ook, jij zei net over dat scheepvaartmaatschappij.

263
00:17:35,480 --> 00:17:41,040
Kan je dat dan ook vertellen wat dat voor impact heeft aan de labelhaars?

264
00:17:41,040 --> 00:17:45,400
Ja, dus ik kan het wel uitleggen waar we dat voor doen.

265
00:17:45,400 --> 00:17:49,400
Maar dat staat zelf nog. We zijn blij dat we eindelijk gestandardiseerde data hebben.

266
00:17:49,400 --> 00:17:52,860
Dat is nu de grootste uitdaging. Dus om er waarde uit te halen.

267
00:17:52,860 --> 00:17:56,880
Dat zijn andere uitdagingen. - Andere werk.

268
00:17:56,880 --> 00:17:58,600
Ja, zomaar zeggen.

269
00:17:58,600 --> 00:18:01,840
Want de media, RTL, dat kijken we natuurlijk allemaal.

270
00:18:01,840 --> 00:18:03,780
Dus daar kunnen we ons iets bij voorstellen.

271
00:18:03,780 --> 00:18:07,100
Ik kan me ook wel voorstellen dat je misschien iets aan het labelen bent...

272
00:18:07,100 --> 00:18:09,440
waarbij je echt geen idee hebt wat het betekent.

273
00:18:09,440 --> 00:18:12,260
Wat voor effect dat heeft.

274
00:18:12,260 --> 00:18:14,580
Lopen ze daar tegenaan?

275
00:18:15,160 --> 00:18:19,640
Nou, de meeste data die ze krijgen is gewoon mediadata, dus daar tot nu toe.

276
00:18:19,640 --> 00:18:21,720
Dus ja, kan ik niet...

277
00:18:21,720 --> 00:18:25,600
Nee, weet ik niet precies, maar ik weet wel dat ze die taak wel heel leuk vonden,

278
00:18:25,600 --> 00:18:28,120
en er wel af en toe vroegen van 'komt er nog meer?'

279
00:18:28,120 --> 00:18:30,320
Dat is een goed teken, ja.

280
00:18:30,320 --> 00:18:32,040
We waren klaar.

281
00:18:32,040 --> 00:18:36,160
Ik merk wel dat er vaak wel vraag naar is om te begrijpen van waarom doen we dit eigenlijk?

282
00:18:36,160 --> 00:18:40,120
Wat hebben we nu nou aan? Wat gebeurt er als ik iets verkeerd label? Hoe erg is dat?

283
00:18:40,120 --> 00:18:41,720
Dat soort vragen ook wel.

284
00:18:42,040 --> 00:18:51,040
En voor ons natuurlijk hele herkenbare data, maar er zijn ook andere mediapartijen die niet alleen Nederlandstalige content hebben, ook uit andere landen.

285
00:18:51,040 --> 00:18:56,440
Dus dan kan ik me voorstellen dat ze wat minder hebben met die content wellicht, maar dat gaat met net zoveel enthousiasme.

286
00:18:56,440 --> 00:19:04,360
Maar je ziet ook wel dat we hebben ook wel met een van andere partijen gehad dat een taak niet goed was opgezet.

287
00:19:04,360 --> 00:19:07,760
En nou ja, mensen gingen daarmee aan de slag.

288
00:19:07,760 --> 00:19:12,800
En eigenlijk na een dag kwam er dus ook de feedback van ja, maar het werkt gewoon niet op deze manier.

289
00:19:12,800 --> 00:19:16,480
Omdat je, ja eigenlijk komen ze altijd op de werkvloer om het de eerste keer uit te leggen.

290
00:19:16,480 --> 00:19:20,320
En doordat het niet band is, konden we ook heel snel weer schakelen.

291
00:19:20,320 --> 00:19:25,440
En nou ja, moest inderdaad het bedrijf opnieuw aan de slag om de taak zodanig te maken dat het wel werkte.

292
00:19:25,440 --> 00:19:27,840
Maar daardoor kregen ze dus ook wel weer betere data.

293
00:19:27,840 --> 00:19:30,800
Dus er wordt ook wel nagedacht over wat we aan het doen zijn.

294
00:19:30,800 --> 00:19:31,520
Ja, precies.

295
00:19:31,520 --> 00:19:37,680
En is er een soort van kaders die je nu geleerd hebt van ja, dit is een goede taak.

296
00:19:37,680 --> 00:19:46,800
Het is lastig om te zeggen. Het is denk ik ook wel heel anders bij het annotatielab dan

297
00:19:46,800 --> 00:19:52,960
wat ik bijvoorbeeld uit mijn academische geschiedenis gewend ben met dingen als Mechanical Turk

298
00:19:52,960 --> 00:19:59,720
of andere crowdsourcing platformen, waar het veel meer ging over taakjes zo klein mogelijk

299
00:19:59,720 --> 00:20:04,320
maken, zorgen dat je goed controleert. Ik stelde mezelf altijd iemand voor die aan de

300
00:20:04,320 --> 00:20:10,400
Dat is hier echt heel anders, omdat deze mensen doen dit met heel veel aandacht.

301
00:20:10,400 --> 00:20:13,320
Denken er goed over na, overleggen ook af en toe met elkaar als er dingen misgaan.

302
00:20:13,320 --> 00:20:20,320
Ik krijg ook vaak genoeg hele terechte vragen terug over van hoezo is dit opgezet en wat zou ik hier moeten antwoorden.

303
00:20:20,320 --> 00:20:24,320
Dus daardoor maakt het ontwerp van de taak ook heel erg anders eigenlijk.

304
00:20:24,320 --> 00:20:28,320
Het is meer een dialoog dan dat het is bij een crowdsourcing platform.

305
00:20:28,320 --> 00:20:33,600
heel erg anders eigenlijk. Het is meer een dialoog dan dat het is bij een crowdsourcing platform.

306
00:20:33,600 --> 00:20:39,480
Ja mooi. En ik heb het idee dat bij ons dat wij onze taken eigenlijk steeds een beetje complexer

307
00:20:39,480 --> 00:20:43,960
zijn gemaakt. Waar ik eerder zei, want het was gewoon de vraag van muziek of niet? Hoe mooi vind

308
00:20:43,960 --> 00:20:50,200
je dit plaatje? Kijk deze drie minuten video en beantwoord daarna deze dertig vragen ongeveer.

309
00:20:50,200 --> 00:20:56,760
En dan krijgen we daar ook gewoon prima data uit. We hebben net even een korte rondleiding

310
00:20:56,760 --> 00:21:01,920
gehad en een van de jongens liet natuurlijk zien wat hij voor jullie aan het doen was.

311
00:21:01,920 --> 00:21:05,160
En ik vond het inderdaad, dat zag er echt wel serieus complex uit.

312
00:21:05,160 --> 00:21:09,640
Dus ik zeg maar toen we hier naartoe kwamen, dacht ik eigenlijk ook van dat zijn een soort van ja,

313
00:21:09,640 --> 00:21:17,280
nee labels. Ik was erg onder de indruk inderdaad van hoe complex de taak was dat dat wordt uitgevoerd.

314
00:21:17,280 --> 00:21:22,560
Ja, en wij onder de indruk van wat we aan data kunnen krijgen daaruit ook.

315
00:21:22,560 --> 00:21:27,920
In het begin hebben we ook heel veel soort van dubbele data opgevraagd...

316
00:21:27,920 --> 00:21:31,240
om te kijken van hoe betrouwbaar is dit, hoeveel consensus krijgen.

317
00:21:31,240 --> 00:21:33,000
En ook dat doen we eigenlijk nu wat minder...

318
00:21:33,000 --> 00:21:36,680
omdat we zien dat we veel diversere data kunnen krijgen...

319
00:21:36,680 --> 00:21:38,560
en het signaal behoorlijk goed is ook.

320
00:21:38,560 --> 00:21:39,760
Heel mooi.

321
00:21:39,760 --> 00:21:43,400
Ja, ik had gewild dat ik hier iets eerder van wist.

322
00:21:43,400 --> 00:21:49,640
Ik heb eind vorig jaar zelf nog even 10.000 plaatsjes moeten annoteren...

323
00:21:49,640 --> 00:21:54,080
Omdat er toch zoveel problemen in zaten met wat we aangeboden hadden gekregen.

324
00:21:54,080 --> 00:21:56,440
Dat ik mijn eigen label heb gemaakt.

325
00:21:56,440 --> 00:22:02,360
En precies wat jij zei, ik zat wel ergens in een vakantiehuisje bij een open haard.

326
00:22:02,360 --> 00:22:06,320
Maar ik heb wel 10.000 keer echt gedrukt van het is dit, het is dat.

327
00:22:06,320 --> 00:22:10,800
Dus dat, ja, ik had het wel eerder willen weten.

328
00:22:10,800 --> 00:22:12,400
Ja, het is zonde van jouw tijd.

329
00:22:12,400 --> 00:22:13,480
En je vindt het niet leuk.

330
00:22:13,480 --> 00:22:14,880
En hier maak je er mensen blij mee.

331
00:22:14,880 --> 00:22:15,600
Ja, geweldig.

332
00:22:15,600 --> 00:22:24,040
Wat wel is, we leveren goede kwalitatieve data, maar we maken geen afspraken over zoveel doen we er per uur.

333
00:22:24,040 --> 00:22:33,400
Want wat ik al zei, het is een speciale doelgroep en de druk wordt eigenlijk door de jobcoach bepaald hoeveel iemand aan kan.

334
00:22:33,400 --> 00:22:40,800
En daar houden we ons ook aan. Maar tot nu toe is er genoeg ruimte om genoeg taken te doen.

335
00:22:40,800 --> 00:22:44,000
Dat is wel echt iets waar we niet op sturen.

336
00:22:44,000 --> 00:22:48,000
Ik denk dat het goed is, plus in de machine learning.

337
00:22:48,000 --> 00:22:51,320
Meestal komt het niet op een uurtje aan.

338
00:22:51,320 --> 00:22:53,340
Het mag een paar dagen duren.

339
00:22:53,340 --> 00:22:56,240
Dus ik denk dat het ook heel verstandig is.

340
00:22:56,240 --> 00:22:58,260
Ik denk ook dat het heel goed is.

341
00:22:58,260 --> 00:23:03,060
We hebben natuurlijk hele gedetailleerde data over...

342
00:23:03,060 --> 00:23:06,580
allerlei kwaliteitsmaten, tijd, duur die mensen daar aan besteden.

343
00:23:06,580 --> 00:23:10,380
Dat is data waar we nooit naar kijken, omdat dat niet van belang is.

344
00:23:10,380 --> 00:23:12,400
Dat is niet waarvoor ze hier zitten.

345
00:23:12,420 --> 00:23:16,980
Het gaat erom dat ze van hier verder komen en wellicht uitstromen naar andere banen.

346
00:23:16,980 --> 00:23:19,420
En daar zijn ook een aantal hele mooie voorbeelden van.

347
00:23:19,420 --> 00:23:22,900
En dat is veel belangrijker dan dat we precies weten...

348
00:23:22,900 --> 00:23:25,820
hoeveel output we hebben van iedere deelnemer.

349
00:23:25,820 --> 00:23:30,340
Nou, en ik vond het ook mooi net in de rondleiding van, dat werd gezegd, 50 minuten.

350
00:23:30,340 --> 00:23:34,380
Daarna gaat er gewoon een zoomer en dan ligt gewoon alles, alles, alles stil.

351
00:23:34,380 --> 00:23:36,780
Maar dat moet natuurlijk ook bij dit soort werkzaamheden, hè?

352
00:23:36,780 --> 00:23:42,340
Dat je ook gewoon ruimte en tijd hebt om weer gewoon geconcentreerd later verder te kunnen.

353
00:23:42,360 --> 00:23:44,360
Ja, echt heel mooi.

354
00:23:44,360 --> 00:23:47,920
Ja, en ik vond het ook een mooi verhaal van de personen die binnenkomen,

355
00:23:47,920 --> 00:23:53,040
echt hun groei doormaken en vervolgens weer ergens anders hun werk kunnen verrichten.

356
00:23:53,040 --> 00:23:55,760
Dus echt een stap de maatschappij weer in.

357
00:23:55,760 --> 00:23:58,000
Dat vond ik ook heel mooi om te horen.

358
00:23:58,000 --> 00:24:01,960
Ja, ze zitten in principe zes maanden bij ons.

359
00:24:01,960 --> 00:24:09,520
En ze beginnen dan ook vaak ook heel schuw, moeten echt weer aan het werkproces gaan wennen.

360
00:24:09,520 --> 00:24:13,520
En na die zes maanden, dan trainen ze ook gewoon de nieuwelingen die komen.

361
00:24:13,520 --> 00:24:14,920
Want het is de hele tijd een wisseling.

362
00:24:14,920 --> 00:24:16,920
En dan zijn ze ook senior geworden.

363
00:24:16,920 --> 00:24:21,520
Dus ze maken echt hele mooie stappen in die korte tijd.

364
00:24:21,520 --> 00:24:23,520
Ja, dat is echt iedereen oproepen, denk ik.

365
00:24:23,520 --> 00:24:26,520
Ik wil jou eigenlijk wel het laatste woord geven, Muriel.

366
00:24:26,520 --> 00:24:29,520
Juist, want dit is echt zo belangrijk.

367
00:24:29,520 --> 00:24:32,520
Een beetje geven je op.

368
00:24:32,520 --> 00:24:33,520
Nou ja.

369
00:24:33,520 --> 00:24:37,520
Ja, dus ja, echt. Ik vind het een fantastisch project.

370
00:24:37,520 --> 00:24:40,920
Binnen de hele data AI-wereld gebeurt zoveel.

371
00:24:40,920 --> 00:24:43,920
We hebben het over maatschappelijk verantwoorden, modellen trainen.

372
00:24:43,920 --> 00:24:45,920
Nou, laten we dan helemaal bij de bron beginnen.

373
00:24:45,920 --> 00:24:48,520
Kom je data hier gewoon brengen.

374
00:24:48,520 --> 00:24:50,920
Wij gaan ermee aan de slag.

375
00:24:50,920 --> 00:24:53,720
En zoals je van Daan hoort, je krijgt top data.

376
00:24:53,720 --> 00:24:58,520
Dus ga het niet meer zelf doen, maar neem contact met mij op.

377
00:24:58,520 --> 00:25:00,920
Hele mooie afsluiter. Dank je wel.

378
00:25:00,920 --> 00:25:04,920
Goed dat je luisterde weer naar een aflevering.

379
00:25:04,920 --> 00:25:11,920
Je hebt Muriel en Daan gehoord, dus geef je op ons bedrijf of win informatie in.

380
00:25:11,920 --> 00:25:13,560
Doe dat, supermooi project.

381
00:25:13,560 --> 00:25:16,920
[Muziek]