AIToday Live

S07E22 - Wat leren mislukte AI-experimenten ons?

Aigency by Info Support Season 7 Episode 22

In deze aflevering van AIToday Live bespreken we het belang van AI-experimenten voor organisaties. Hij legt uit waarom deze experimenten niet slechts een tussenstap zijn, maar juist een strategisch startpunt vormen.

We delen praktijkvoorbeelden van AI-experimenten en de lessen die daaruit getrokken kunnen worden. We benadrukken dat het bij deze experimenten niet alleen gaat om technische mogelijkheden, maar ook om de juiste balans tussen automatisering en menselijke inbreng.

De podcast biedt inzichten in hoe organisaties kunnen leren van zowel succesvolle als mislukte AI-projecten. Snijder moedigt luisteraars aan om open te zijn over experimenten en de opgedane kennis te delen.

Onderwerpen

  • Het belang van AI-experimenten
  • Strategische vraagstukken door experimenten
  • Leren van mislukkingen
  • Praktijkvoorbeelden van AI-experimenten
  • Balans tussen automatisering en menselijke inbreng

Links

Stuur ons een bericht

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:00,960 --> 00:00:08,600
Hoi, welkom bij een nieuwe aflevering van AIToday Live, de podcast die AI begrijpelijk maakt met verhalen uit de praktijk.

2
00:00:08,600 --> 00:00:17,140
Ik ben Joop Snijder, CTO van Aigency en vandaag wil ik dieper ingaan op het thema van AI-experimenten.

3
00:00:17,140 --> 00:00:28,760
In deel 1 van onze serie over AI-leiderschap sprak ik over waarom AI fundamenteel anders is dan eerdere technologische innovaties.

4
00:00:29,280 --> 00:00:38,760
En dat uit ons onderzoek, marktonderzoek onder 414 Nederlandse organisaties, blijkt dat 36% in de verkennende fase zit.

5
00:00:38,760 --> 00:00:43,720
Ze kijken rond, experimenteren wat, maar er is vaak geen concrete richting.

6
00:00:43,720 --> 00:00:47,660
Dit is eigenlijk precies waar het misgaat.

7
00:00:47,660 --> 00:00:56,540
Want veel organisaties zien experimenten als een tussenstap, iets wat je doet voordat je tussen aanhalingstekens echt begint.

8
00:00:57,300 --> 00:01:00,880
Maar bij AI werkt dat volgens mij anders.

9
00:01:00,880 --> 00:01:06,080
Juist die experimenten brengen de echte strategische vraagstukken naar boven.

10
00:01:08,780 --> 00:01:11,960
Neem bijvoorbeeld datakwaliteit.

11
00:01:11,960 --> 00:01:18,240
Het 23% gaf aan in dat onderzoek die worstelt met datakwaliteit.

12
00:01:18,240 --> 00:01:24,220
Maar weet je wanneer organisaties meestal beseffen welke data ze echt nodig hebben?

13
00:01:24,220 --> 00:01:30,900
Ja precies, als ze midden in hun eerste AI-project of experiment zitten en tegen kwaliteitsproblemen aanlopen.

14
00:01:31,840 --> 00:01:37,800
Maar juist de organisaties die al experimenteren met AI weten veel beter welke data ze missen.

15
00:01:37,800 --> 00:01:43,960
Welke misschien van mindere kwaliteit is en waarom die data waardevol is.

16
00:01:43,960 --> 00:01:46,160
En ze hebben een concreet doel voor ogen.

17
00:01:46,160 --> 00:01:50,400
Dus experimenteren is een belangrijke strategische start van AI.

18
00:01:50,400 --> 00:01:55,860
Maar wat we in de praktijk zien is dat organisaties vergeten dat experimenten mogen,

19
00:01:56,540 --> 00:01:59,140
nee ik zou moeten zeggen, moeten falen.

20
00:01:59,140 --> 00:02:07,260
Maar we zien ook dat organisaties heel teleurgesteld kunnen zijn over niet geslaagde experimenten.

21
00:02:07,260 --> 00:02:11,340
Ze zien het als een mislukking in plaats van een waardevol leermoment.

22
00:02:11,340 --> 00:02:12,980
Het is net als leren fietsen.

23
00:02:12,980 --> 00:02:18,020
Je leert het niet door handleidingen te lezen, maar door vallen en opstaan.

24
00:02:18,020 --> 00:02:24,040
Die pijnlijke knie die je krijgt na het vallen is een les die je nooit meer vergeet.

25
00:02:24,040 --> 00:02:26,400
En bij AI-experimenten werkt dat net zo.

26
00:02:27,340 --> 00:02:33,380
Je moet een omgeving creëren waarin falen een optie is, mits je ervan leert.

27
00:02:33,380 --> 00:02:35,800
En dat falen, dat mag je vieren.

28
00:02:35,800 --> 00:02:41,900
En niet door het onder het tapijt te vegen, maar juist door er open over te zijn.

29
00:02:41,900 --> 00:02:44,600
En vooral door de geleerde lessen goed te documenteren.

30
00:02:44,600 --> 00:02:49,760
Want alleen zo help je niet alleen jezelf, maar ook anderen om niet dezelfde fouten te maken.

31
00:02:49,760 --> 00:02:52,520
Het is als het ontdekken van een nieuwe stad.

32
00:02:52,520 --> 00:02:58,860
Je kunt eindeloos kaarten bestuderen, maar pas als je er rondloopt ontdek je waar de echte uitdagingen liggen.

33
00:03:00,060 --> 00:03:14,600
En om te laten zien hoe je van gefaalde experimenten kan leren, wil ik een aantal van onze eigen experimenten met AI die we gebruiken in deze podcast, die wil ik openhartig met je delen.

34
00:03:14,600 --> 00:03:19,660
En die liepen niet helemaal volgens plan, maar hebben ons wel waardevolle lessen geleerd.

35
00:03:20,340 --> 00:03:24,480
Dus laat maar beginnen met een interessant experiment dat we recent uitvoerden.

36
00:03:24,480 --> 00:03:32,280
We wilden AI laten meeluisteren met onze podcast opnames om automatisch interessante vervolgvragen te genereren.

37
00:03:32,280 --> 00:03:34,440
Het idee was eigenlijk heel simpel.

38
00:03:34,440 --> 00:03:38,520
Na elke vijf minuten zou het systeem drie mogelijke vragen voorstellen.

39
00:03:38,520 --> 00:03:44,860
Technisch gezien was het een uitdaging, want we wilden dit doen zonder internetverbinding.

40
00:03:45,000 --> 00:03:52,980
Kijk, tijdens opnames hebben we immers alles uitstaan om verstoring te voorkomen met allerlei piepjes en dat soort dingen die er doorheen kunnen komen.

41
00:03:52,980 --> 00:03:59,220
Dus we bouwden een systeem waarbij een laptop direct gekoppeld was aan onze opnamemixer.

42
00:03:59,220 --> 00:04:05,960
De audio werd omgezet naar tekst en een lokaal AI model analyseerde deze tekst om vragen te genereren.

43
00:04:05,960 --> 00:04:14,000
Na verschillende tests bleek Lama 3.2 van Meta, het taalmodel, de beste resultaten te geven.

44
00:04:14,240 --> 00:04:21,720
De vragen waren inhoudelijk prima, maar de formulering was, laten we zeggen, behoorlijk Amerikaans.

45
00:04:21,720 --> 00:04:25,120
En hier kwam de praktische realiteit om de hoek.

46
00:04:25,120 --> 00:04:35,860
Kijk, als interviewer moest ik tijdens het gesprek drie vragen lezen, er één uitkiezen, deze herformuleren naar natuurlijk Nederlands en dan nog een geschikt moment vinden om de vraag te stellen.

47
00:04:36,740 --> 00:04:40,380
Het werd al snel duidelijk, dit leidde veel te veel af waar het echt om gaat.

48
00:04:40,380 --> 00:04:44,220
Een goed gesprek voeren en echt luisteren naar onze gast.

49
00:04:44,220 --> 00:04:50,220
Dit sluit perfect aan bij wat we de vorige keer bespraken over AI transformatie.

50
00:04:50,220 --> 00:04:57,220
En soms lijkt een technische oplossing perfect op papier, maar blijkt de praktijk een heel stuk weerbarstiger.

51
00:05:00,220 --> 00:05:03,140
Een tweede experiment ging nog een stap verder.

52
00:05:03,140 --> 00:05:09,000
We ontwikkelden een AI agent die mij volledig zou ondersteunen bij het schrijven van podcast scripts.

53
00:05:10,060 --> 00:05:19,700
De agent kreeg een enorme hoeveelheid context mee, onze huisstijl, toon van spreken, eerdere afleveringen, onderzoeksnotities en best practices voor podcast.

54
00:05:19,700 --> 00:05:23,000
Het systeem beoordeelde scripts op vier criteria.

55
00:05:23,000 --> 00:05:27,140
Toon, volledigheid, begrijpbaarheid en structuur.

56
00:05:27,140 --> 00:05:35,100
Voor elk criterium gaf het een score tussen 1 en 100, veel verfijnder dan een schaal van 1 tot 10.

57
00:05:35,400 --> 00:05:46,580
En als een score onder de 85 kwam, voerde de agent automatisch verbeteringen door, net zo lang tot de score boven de 85% of boven de 85% kwam.

58
00:05:46,580 --> 00:05:49,780
En dat voor die vier criteria.

59
00:05:49,780 --> 00:05:52,080
Toon, volledigheid, begrijpbaarheid en structuur.

60
00:05:52,080 --> 00:05:56,380
Technisch gezien was het een groot succes.

61
00:05:56,380 --> 00:06:01,600
De agent produceerde foutloze scripts die perfect voldeden aan onze criteria.

62
00:06:01,600 --> 00:06:07,020
De toon was consistent, de structuur helder, alle belangrijke punten werden behandeld.

63
00:06:07,020 --> 00:06:13,320
Het systeem verfijnde teksten net zo lang tot ze een score van 85 of hoge haalden op elk criterium.

64
00:06:13,320 --> 00:06:16,400
En toch was ik niet tevreden met het resultaat.

65
00:06:16,400 --> 00:06:22,700
Ten eerste lijkt een score een goede meting van een script, maar er miste iets fundamenteels.

66
00:06:22,700 --> 00:06:26,960
Als ik zeg dat het zielloos was, klinkt dat misschien wat pathetisch.

67
00:06:26,960 --> 00:06:30,920
Maar dat was het wel, platgeslagen, keurige tekst zonder karakter.

68
00:06:30,920 --> 00:06:34,980
Daarnaast miste ik de inspanning om tot de tekst te komen.

69
00:06:34,980 --> 00:06:41,580
En dat klinkt misschien vreemd voor een podcast over AI en technologische vooruitgang, maar juist die inspanning leert mij ontzettend veel.

70
00:06:41,580 --> 00:06:46,020
En door zelf een tekst begrijpbaar te maken, blijft de inhoud beter hangen.

71
00:06:46,020 --> 00:06:52,100
Door tekst te kneden, door het vaker door te lezen, door zelf voorbeelden toe te voegen, wordt het echt van mij.

72
00:06:53,440 --> 00:06:59,720
Daardoor kan ik het niet alleen in deze aflevering uitleggen, maar ook daarbuiten met overtuiging overbrengen.

73
00:06:59,720 --> 00:07:03,780
Betekent dit dat ik helemaal geen AI gebruik bij het schrijven?

74
00:07:03,780 --> 00:07:04,740
Natuurlijk niet.

75
00:07:04,740 --> 00:07:07,900
Ik gebruik AI wel degelijk, maar dan als een kritische redacteur.

76
00:07:07,900 --> 00:07:14,440
Bijvoorbeeld voor deze serie afleveringen over de AI leiderschap en AI transformatie.

77
00:07:14,980 --> 00:07:24,560
Daar vraag ik AI om feedback over de consistentie tussen afleveringen of onderwerpen zijn onderbelicht of dat de tekst wel logisch is opgebouwd.

78
00:07:24,560 --> 00:07:29,240
En dan krijg ik bruikbare suggesties waarbij ik zelf bepaal wat ik ermee doe.

79
00:07:29,240 --> 00:07:34,860
Want als ik alles klakkeloos zou overnemen, kan ik net zo goed de route van volledige automatisering kiezen.

80
00:07:35,960 --> 00:07:44,660
Laat me nog een derde experiment delen dat op het eerste gezicht mislukt lijkt, maar eigenlijk een groot succes was.

81
00:07:44,660 --> 00:07:52,760
Jaren geleden, voor de intrede van de huidige taalmodellen, werkte we aan een experiment voor een Nederlandse verzekeraar.

82
00:07:52,760 --> 00:07:59,780
Ze wilde een chatbot ontwikkelen die niet alleen verzekeringen kon stopzetten, maar ook slimme suggesties kon doen.

83
00:08:00,380 --> 00:08:08,160
Bijvoorbeeld als iemand zijn bromfietsverzekering opzegde, zou de chatbot kunnen voorstellen om eens naar autoverzekeringen te kijken.

84
00:08:08,160 --> 00:08:11,060
Een logische volgende stap in iemands leven.

85
00:08:11,060 --> 00:08:14,740
Technisch gezien was het experiment weer een succes.

86
00:08:14,740 --> 00:08:19,360
De chatbot werkte, de logica klopte, de gebruikerservaring was prima.

87
00:08:19,360 --> 00:08:24,900
Maar tijdens de presentatie van de resultaten gebeurde er iets interessants.

88
00:08:25,900 --> 00:08:31,040
De realiteit van wat zo'n systeem zou betekenen, daalde bij de verzekeraar in.

89
00:08:31,040 --> 00:08:39,060
De onderhoudskosten, continu beheer, menselijk werk dat nog steeds nodig zou zijn, ook na de implementatie.

90
00:08:39,060 --> 00:08:41,240
Het plaatje werd steeds completer.

91
00:08:41,240 --> 00:08:42,800
Het resultaat?

92
00:08:42,800 --> 00:08:46,420
De verzekeraar besloot om niet door te gaan met het project.

93
00:08:46,420 --> 00:08:53,680
De verwachte kostenreductie, opbrengst en productiviteitwinst wogen niet op tegen wat de oplossing zou kosten.

94
00:08:54,680 --> 00:08:59,900
Veel mensen zouden dit een mislukt experiment noemen.

95
00:08:59,900 --> 00:09:01,560
Maar het tegendeel is waar.

96
00:09:01,560 --> 00:09:04,400
Het experiment was juist enorm succesvol.

97
00:09:04,400 --> 00:09:11,740
Door klein te beginnen en goed te kijken naar de totale impact, heeft deze organisatie zichzelf veel kosten en frustratie bespaard.

98
00:09:11,740 --> 00:09:16,840
Ze hadden precies geleerd wat ze moesten leren, voordat ze grote investeringen deden.

99
00:09:16,840 --> 00:09:22,340
Dit brengt mij bij een cruciale les over AI-experimenten die ik wil delen.

100
00:09:22,760 --> 00:09:26,200
Het gaat niet om wat werkt of niet werkt op technisch vlak.

101
00:09:26,200 --> 00:09:30,840
Het gaat om het vinden van de juiste balans tussen automatisering en menselijke inbreng.

102
00:09:30,840 --> 00:09:36,100
Tegenwoordig gebruik ik AI nog steeds bij het schrijven van scripts, maar op een andere manier.

103
00:09:36,100 --> 00:09:43,280
Ik gebruik het als een kritische redacteur, wat ik had gezegd, die meedenkt, suggesties doet voor verbetering en checkt op consistentie.

104
00:09:44,020 --> 00:09:50,420
Maar de kern, het vormen van ideeën, het kiezen van voorbeelden, het structureren van het verhaal, dat doe ik zelf.

105
00:09:50,420 --> 00:09:55,560
Want laten we eerlijk zijn, de verleiding om alles te automatiseren is groot.

106
00:09:55,560 --> 00:10:03,380
Een aflevering, zo'n aflevering als dit, van plus minus 10 minuten, kost ongeveer 3 uur productietijd.

107
00:10:04,100 --> 00:10:08,220
Een uur tot 2 uur voor het schrijven van script en het onderzoek wat ik daarvoor doe.

108
00:10:09,260 --> 00:10:16,540
Nou laten we zeggen een minuut of 12, 15 voor de opname en nog eens 45 minuten voor de productie en social media.

109
00:10:16,540 --> 00:10:22,740
En dan tel ik de vele uren leeswerk, experimenten, jarenlange ervaring nog niet eens mee, maar goed.

110
00:10:22,740 --> 00:10:30,260
En dit brengt ons terug bij wat we de vorige keren bespraken over leiderschap in AI transformatie.

111
00:10:30,260 --> 00:10:34,200
Het gaat niet om het blind automatiseren van processen omdat het kan.

112
00:10:34,420 --> 00:10:41,720
Het gaat om het maken van bewuste keuzes over waar AI waarde toevoegt en waar menselijke input onmisbaar is.

113
00:10:41,720 --> 00:10:49,240
En vooral, het gaat om de bereidheid om te experimenteren en te accepteren dat sommige experimenten zullen mislukken.

114
00:10:49,240 --> 00:10:55,200
Soms betekent dat je een technisch perfect werkende oplossing toch niet implementeert,

115
00:10:55,200 --> 00:11:02,240
omdat je beseft dat de menselijke component, in ons geval het doorleven en eigen maken van de content, belangrijker is.

116
00:11:03,040 --> 00:11:09,600
En die les hadden we nooit geleerd zonder de ruimte te nemen om te experimenteren en te falen.

117
00:11:09,600 --> 00:11:16,500
Nou, als je na deze aflevering één ding onthoudt, wees niet bang om te experimenteren met AI,

118
00:11:16,500 --> 00:11:23,220
maar wees ook niet bang om een technisch werkende oplossing terzijde te schuiven als het niet bijdraagt aan je echte doel.

119
00:11:23,220 --> 00:11:31,120
Begin klein, evalueer kritisch en focus op de waarde die je toevoegt aan je proces, niet alleen op wat technisch mogelijk is.

120
00:11:31,920 --> 00:11:38,300
Natuurlijk is het belangrijk om te benadrukken dat veel AI-experimenten wel leiden tot succesvolle implementaties.

121
00:11:38,300 --> 00:11:43,440
Maar we zien dagelijks hoe organisaties hun ideeën omzetten in waardevolle AI-toepassingen.

122
00:11:43,440 --> 00:11:44,280
Daar gaat het niet om.

123
00:11:44,280 --> 00:11:51,700
Kijk, experimenten tonen juist vaak aan hoeveel belovende ideeën van een organisatie zijn.

124
00:11:52,480 --> 00:11:59,800
Maar het punt is of een experiment nu leidt tot implementatie of niet, de waarde zit in wat je ervan leert.

125
00:11:59,800 --> 00:12:05,700
Dit was AIToday Live.

126
00:12:05,700 --> 00:12:07,660
Dank je wel weer voor het luisteren.

127
00:12:07,660 --> 00:12:10,480
Vergeet je niet te abonneren via je favoriete podcast app.

128
00:12:10,480 --> 00:12:12,080
Tot volgende week.

129
00:12:12,080 --> 00:12:19,880
[Muziek]


People on this episode