AIToday Live
AIToday Live deelt praktijkverhalen over AI die je direct vooruit helpen in je werk. In een wereld waar AI-ontwikkelingen elkaar razendsnel opvolgen, kiezen wij bewust voor verdieping en praktijkervaring. We bieden een kalm kompas in turbulente tijden.
In deze podcast hoor je professionals uit Nederland en België die openhartig vertellen over hun ervaringen met AI-implementaties. Voorbij de hype en krantenkoppen laten zij zien hoe organisaties écht met AI werken.
Onze gasten delen hun successen én uitdagingen op een toegankelijke manier.
Daarmee helpen we jou om:
- Praktische inzichten te krijgen in wat AI wel en niet kan
- Te leren van de ervaringen van andere professionals
- Concrete ideeën op te doen voor je eigen organisatie
- De grotere lijnen te zien in AI-ontwikkelingen
Iedere maandag een diepgaand gesprek met een gast, gepresenteerd door Joop Snijder (CTO Aigency) en Niels Naglé (Info Support). Elke donderdag deelt Joop in een korte aflevering zijn eigen praktijkervaringen en inzichten.
"AIToday Live is uitgeroepen tot AI Podcast of the Year 2025 en is drie keer genomineerd voor 'De Prijs van Oranje' door de Belgian Podcast Awards en staat op nummer 1 in de lijst van Zomerse luister-inspiratie: podcasts over AI, productiviteit, SEO & meer (Frankwatching, juni 2024)."
Ontdek hoe andere professionals AI succesvol inzetten. Ontvang ook exclusieve content, kijk achter de schermen en blijf op de hoogte van nieuwe gasten via onze nieuwsbrief: https://aitodaylive.substack.com
AIToday Live
S05E34 - Shorts - Wordt ChatGPT steeds dommer?
Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.
Welkom bij een nieuwe aflevering van onze podcast over marketing! Vandaag bespreken we een recent onderzoek van wetenschappers aan Stanford en Berkeley, waarin ze hebben ontdekt dat het gedrag van ChatGPT, een AI-chatbot, in de loop der tijd is veranderd.
Links
- Paper 'How Is ChatGPT’s Behavior Changing over Time?' - https://arxiv.org/pdf/2307.09009.pdf
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.
Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).
Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.
Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!
1
00:00:00,000 --> 00:00:04,000
Welkom terug bij een nieuwe aflevering van AIToday Live Short.
2
00:00:04,000 --> 00:00:08,000
Vandaag wil ik de uitkomsten vertellen van een recent onderzoek van wetenschappers aan
3
00:00:08,000 --> 00:00:11,440
Stanford en Berkeley dat een intrigerende vraag stelt.
4
00:00:11,440 --> 00:00:16,000
Hoe verandert het gedrag van ChatGPT in de loop der tijd?
5
00:00:16,000 --> 00:00:22,000
Je luistert naar AIToday Live Short waarin ik je in 5 minuten op de hoogte breng van actuele
6
00:00:22,000 --> 00:00:24,000
kwesties op het gebied van de wereld.
7
00:00:24,000 --> 00:00:30,440
Met de introductie van ChatGPT is er een nieuwe realiteit ontstaan en zijn er nieuwe gave
8
00:00:30,440 --> 00:00:33,360
mogelijkheden bijgekomen voor ons.
9
00:00:33,360 --> 00:00:39,120
Microsoft's nieuwe Bing en OpenAI's ChatGPT stonden natuurlijk aan de frontlinie, terwijl
10
00:00:39,120 --> 00:00:43,960
andere bedrijven zoals Google met Bart op de voet volgden met vergelijkbare modellen.
11
00:00:43,960 --> 00:00:52,520
Terwijl OpenAI druk bezig is met het uitbrengen van nieuwe updates en functies voor zijn chatbot,
12
00:00:52,520 --> 00:00:58,400
onderzoekers van Stanford een nieuwe ontdekking gedaan, namelijk "ChatGPT is de afgelopen maanden
13
00:00:58,400 --> 00:01:08,840
mogelijk domger worden". Dus dat is best interessant. Het paper "How is ChatGPT's behavior changing over
14
00:01:08,840 --> 00:01:14,040
time?" laat zien hoe de belangrijkste functionaliteiten van de chatbot in de afgelopen
15
00:01:14,040 --> 00:01:20,240
maanden zijn verslechterd. En om te bepalen of ChatGPT in de loop der tijd beter of slechter
16
00:01:20,240 --> 00:01:24,560
werd hebben de onderzoekers de volgende technieken gebruikt om de mogelijkheden ervan te beoordelen.
17
00:01:24,560 --> 00:01:29,680
Ze hebben gekeken naar het oplossen van wiskundige problemen, het beantwoorden van gevoelige,
18
00:01:29,680 --> 00:01:34,920
zeker gevaarlijke vragen en het genereren van code en visueel redenier.
19
00:01:34,920 --> 00:01:41,760
Ze konden indrukken dat de genoemde taken zoveel mogelijk waren geselecteerd om de diverse en
20
00:01:41,760 --> 00:01:45,640
nuttige mogelijkheden van deze large language models te vertegenwoordigen.
21
00:01:45,640 --> 00:01:51,040
Maar ze kwamen later tot de conclusie dat de prestaties en het gedrag volledig verschillend
22
00:01:51,040 --> 00:01:53,840
waren tussen de verschillende versies.
23
00:01:53,840 --> 00:01:58,280
Ze merkten ook op dat hun prestaties op bepaalde taken zelfs negatief werden beïnvloed.
24
00:01:58,280 --> 00:02:00,880
Wat is er nou veranderd?
25
00:02:00,880 --> 00:02:09,040
Kort gezegd zijn er veel interessante verschuivingen die je ziet in korte tijd waar ze naar gekeken
26
00:02:09,040 --> 00:02:10,040
hebben.
27
00:02:10,040 --> 00:02:17,320
Bijvoorbeeld als je kijkt naar de maart 2023 versie van GPT-4, die was bijvoorbeeld erg
28
00:02:17,320 --> 00:02:19,860
goed in het identificeren van primgetallen.
29
00:02:19,860 --> 00:02:24,200
Zelfs met een nauwkeurigheid van ruim boven de 97%.
30
00:02:24,200 --> 00:02:32,320
Maar dus diezelfde GPT-4, maar de juni versie, daar zitten we van maart naar juni, was zeer
31
00:02:32,320 --> 00:02:35,120
slecht in precies diezelfde vraag.
32
00:02:35,120 --> 00:02:38,120
Die had nog maar een nauwkeurigheid van 2,4%.
33
00:02:38,120 --> 00:02:48,320
En interessant genoeg was GPT 3.5 in juni veel beter dan de versie van GPT 3.5 in maart.
34
00:02:48,320 --> 00:02:50,360
Deze precies dezelfde taak.
35
00:02:50,360 --> 00:02:52,320
Heel bijzonder toch?
36
00:02:52,320 --> 00:02:59,480
Ik denk dat een van de redenen voor deze verandering in prestaties en gedrag kan liggen in wijzigingen
37
00:02:59,480 --> 00:03:02,720
of misschien zelfs het weglaten van trainingsgegevens.
38
00:03:02,720 --> 00:03:06,040
En mogelijk vanwege de auteursrechtelijke kwesties.
39
00:03:06,040 --> 00:03:10,600
In een eerdere aflevering sprak ik al over de class-action-rechtzaak die momenteel in
40
00:03:10,600 --> 00:03:16,360
de VS gaande is over het gebruik hiervan door OpenAI en Meta om hun modellen te trainen.
41
00:03:16,360 --> 00:03:22,720
En ja, je kan je voorstellen dat OpenAI al veranderingen aan het doorvoeren is vanwege
42
00:03:22,720 --> 00:03:27,500
een mogelijke uitspraak, dat auteursrechtelijk beschermd materiaal zodra ik niet meer gebruikt
43
00:03:27,500 --> 00:03:29,000
mag worden door ze.
44
00:03:29,000 --> 00:03:34,240
En nou ja, dat betekent dan uiteraard een significante verandering in de trainingsgegevens,
45
00:03:34,240 --> 00:03:37,240
verschillen in de prestaties van deze modellen kan verklagen wat mij betreft.
46
00:03:37,240 --> 00:03:43,520
Deze bevindingen hebben behoorlijk wat impact wanneer je large language models in je organisatie
47
00:03:43,520 --> 00:03:49,120
wilt gebruiken of al gebruikt. De bevindingen van de onderzoekers tonen aan dat het gedrag
48
00:03:49,120 --> 00:03:56,640
van GPT 3.5 en GPT 4 aanzienlijk is veranderd in relatief korte perioden. Dit zal zodracht ook
49
00:03:56,640 --> 00:04:03,440
gelden voor een BART en welke dan ook. Dit benadrukt wat mij betreft de noodzaak om het
50
00:04:03,440 --> 00:04:08,960
gedrag van large language models in producties voortdurend te evalueren en te beoordelen.
51
00:04:08,960 --> 00:04:14,760
Voordat we afsluiten is het belangrijk om enkele kanttekeningen bij de bevindingen
52
00:04:14,760 --> 00:04:20,920
te maken van deze onderzoekers. Het paper is gepubliceerd op archive.org. Ik zal trouwens
53
00:04:20,920 --> 00:04:26,720
een link even in de beschrijving zetten. archive.org is een platform dat bijna alle
54
00:04:26,720 --> 00:04:34,220
door gebruikers geschreven papers accepteert die voldoen aan hun richtlijnen. En zoals veel
55
00:04:34,220 --> 00:04:41,280
papers op die site is ook dit specifieke paper nog niet gepair-reviewed of gepubliceerd in een
56
00:04:41,280 --> 00:04:46,400
ander gerenommeerd wetenschappelijk tijdschrift. Nou heeft wel een van de auteurs, die heeft al
57
00:04:46,400 --> 00:04:52,160
aangegeven dat ze van plan zijn om het te beoordelen en in te dienen. Maar let op,
58
00:04:53,880 --> 00:04:56,040
Maar dit is dus wel een belangrijke kanttekening.
59
00:04:56,040 --> 00:05:01,600
Wat kunnen we sowieso concluderen is voor gebruikers of bedrijven die vertrouwen op
60
00:05:01,600 --> 00:05:09,000
chatgpt en andere large language models dat ja, weet je, ik raad in ieder geval aan om
61
00:05:09,000 --> 00:05:13,200
vergelijkbare monitoring en analyse te implementeren zoals je doet voor andere AI
62
00:05:13,200 --> 00:05:17,760
toepassingen, zodat je verandering van gedrag en performance altijd kan meten en
63
00:05:17,760 --> 00:05:18,320
opmerken.
64
00:05:18,320 --> 00:05:22,720
Blijf luisteren voor meer nieuws en onderzoek op het gebied van AI.
65
00:05:22,720 --> 00:05:27,720
Mis geen aflevering, abonneer je in je favoriete podcast app.
66
00:05:27,720 --> 00:05:29,720
Dankjewel voor het luisteren!
67
00:05:29,720 --> 00:05:31,720