1
00:00:00,000 --> 00:00:04,000
Welkom terug bij een nieuwe aflevering van AIToday Live Short.
2
00:00:04,000 --> 00:00:08,000
Vandaag wil ik de uitkomsten vertellen van een recent onderzoek van wetenschappers aan
3
00:00:08,000 --> 00:00:11,440
Stanford en Berkeley dat een intrigerende vraag stelt.
4
00:00:11,440 --> 00:00:16,000
Hoe verandert het gedrag van ChatGPT in de loop der tijd?
5
00:00:16,000 --> 00:00:22,000
Je luistert naar AIToday Live Short waarin ik je in 5 minuten op de hoogte breng van actuele
6
00:00:22,000 --> 00:00:24,000
kwesties op het gebied van de wereld.
7
00:00:24,000 --> 00:00:30,440
Met de introductie van ChatGPT is er een nieuwe realiteit ontstaan en zijn er nieuwe gave
8
00:00:30,440 --> 00:00:33,360
mogelijkheden bijgekomen voor ons.
9
00:00:33,360 --> 00:00:39,120
Microsoft's nieuwe Bing en OpenAI's ChatGPT stonden natuurlijk aan de frontlinie, terwijl
10
00:00:39,120 --> 00:00:43,960
andere bedrijven zoals Google met Bart op de voet volgden met vergelijkbare modellen.
11
00:00:43,960 --> 00:00:52,520
Terwijl OpenAI druk bezig is met het uitbrengen van nieuwe updates en functies voor zijn chatbot,
12
00:00:52,520 --> 00:00:58,400
onderzoekers van Stanford een nieuwe ontdekking gedaan, namelijk "ChatGPT is de afgelopen maanden
13
00:00:58,400 --> 00:01:08,840
mogelijk domger worden". Dus dat is best interessant. Het paper "How is ChatGPT's behavior changing over
14
00:01:08,840 --> 00:01:14,040
time?" laat zien hoe de belangrijkste functionaliteiten van de chatbot in de afgelopen
15
00:01:14,040 --> 00:01:20,240
maanden zijn verslechterd. En om te bepalen of ChatGPT in de loop der tijd beter of slechter
16
00:01:20,240 --> 00:01:24,560
werd hebben de onderzoekers de volgende technieken gebruikt om de mogelijkheden ervan te beoordelen.
17
00:01:24,560 --> 00:01:29,680
Ze hebben gekeken naar het oplossen van wiskundige problemen, het beantwoorden van gevoelige,
18
00:01:29,680 --> 00:01:34,920
zeker gevaarlijke vragen en het genereren van code en visueel redenier.
19
00:01:34,920 --> 00:01:41,760
Ze konden indrukken dat de genoemde taken zoveel mogelijk waren geselecteerd om de diverse en
20
00:01:41,760 --> 00:01:45,640
nuttige mogelijkheden van deze large language models te vertegenwoordigen.
21
00:01:45,640 --> 00:01:51,040
Maar ze kwamen later tot de conclusie dat de prestaties en het gedrag volledig verschillend
22
00:01:51,040 --> 00:01:53,840
waren tussen de verschillende versies.
23
00:01:53,840 --> 00:01:58,280
Ze merkten ook op dat hun prestaties op bepaalde taken zelfs negatief werden beïnvloed.
24
00:01:58,280 --> 00:02:00,880
Wat is er nou veranderd?
25
00:02:00,880 --> 00:02:09,040
Kort gezegd zijn er veel interessante verschuivingen die je ziet in korte tijd waar ze naar gekeken
26
00:02:09,040 --> 00:02:10,040
hebben.
27
00:02:10,040 --> 00:02:17,320
Bijvoorbeeld als je kijkt naar de maart 2023 versie van GPT-4, die was bijvoorbeeld erg
28
00:02:17,320 --> 00:02:19,860
goed in het identificeren van primgetallen.
29
00:02:19,860 --> 00:02:24,200
Zelfs met een nauwkeurigheid van ruim boven de 97%.
30
00:02:24,200 --> 00:02:32,320
Maar dus diezelfde GPT-4, maar de juni versie, daar zitten we van maart naar juni, was zeer
31
00:02:32,320 --> 00:02:35,120
slecht in precies diezelfde vraag.
32
00:02:35,120 --> 00:02:38,120
Die had nog maar een nauwkeurigheid van 2,4%.
33
00:02:38,120 --> 00:02:48,320
En interessant genoeg was GPT 3.5 in juni veel beter dan de versie van GPT 3.5 in maart.
34
00:02:48,320 --> 00:02:50,360
Deze precies dezelfde taak.
35
00:02:50,360 --> 00:02:52,320
Heel bijzonder toch?
36
00:02:52,320 --> 00:02:59,480
Ik denk dat een van de redenen voor deze verandering in prestaties en gedrag kan liggen in wijzigingen
37
00:02:59,480 --> 00:03:02,720
of misschien zelfs het weglaten van trainingsgegevens.
38
00:03:02,720 --> 00:03:06,040
En mogelijk vanwege de auteursrechtelijke kwesties.
39
00:03:06,040 --> 00:03:10,600
In een eerdere aflevering sprak ik al over de class-action-rechtzaak die momenteel in
40
00:03:10,600 --> 00:03:16,360
de VS gaande is over het gebruik hiervan door OpenAI en Meta om hun modellen te trainen.
41
00:03:16,360 --> 00:03:22,720
En ja, je kan je voorstellen dat OpenAI al veranderingen aan het doorvoeren is vanwege
42
00:03:22,720 --> 00:03:27,500
een mogelijke uitspraak, dat auteursrechtelijk beschermd materiaal zodra ik niet meer gebruikt
43
00:03:27,500 --> 00:03:29,000
mag worden door ze.
44
00:03:29,000 --> 00:03:34,240
En nou ja, dat betekent dan uiteraard een significante verandering in de trainingsgegevens,
45
00:03:34,240 --> 00:03:37,240
verschillen in de prestaties van deze modellen kan verklagen wat mij betreft.
46
00:03:37,240 --> 00:03:43,520
Deze bevindingen hebben behoorlijk wat impact wanneer je large language models in je organisatie
47
00:03:43,520 --> 00:03:49,120
wilt gebruiken of al gebruikt. De bevindingen van de onderzoekers tonen aan dat het gedrag
48
00:03:49,120 --> 00:03:56,640
van GPT 3.5 en GPT 4 aanzienlijk is veranderd in relatief korte perioden. Dit zal zodracht ook
49
00:03:56,640 --> 00:04:03,440
gelden voor een BART en welke dan ook. Dit benadrukt wat mij betreft de noodzaak om het
50
00:04:03,440 --> 00:04:08,960
gedrag van large language models in producties voortdurend te evalueren en te beoordelen.
51
00:04:08,960 --> 00:04:14,760
Voordat we afsluiten is het belangrijk om enkele kanttekeningen bij de bevindingen
52
00:04:14,760 --> 00:04:20,920
te maken van deze onderzoekers. Het paper is gepubliceerd op archive.org. Ik zal trouwens
53
00:04:20,920 --> 00:04:26,720
een link even in de beschrijving zetten. archive.org is een platform dat bijna alle
54
00:04:26,720 --> 00:04:34,220
door gebruikers geschreven papers accepteert die voldoen aan hun richtlijnen. En zoals veel
55
00:04:34,220 --> 00:04:41,280
papers op die site is ook dit specifieke paper nog niet gepair-reviewed of gepubliceerd in een
56
00:04:41,280 --> 00:04:46,400
ander gerenommeerd wetenschappelijk tijdschrift. Nou heeft wel een van de auteurs, die heeft al
57
00:04:46,400 --> 00:04:52,160
aangegeven dat ze van plan zijn om het te beoordelen en in te dienen. Maar let op,
58
00:04:53,880 --> 00:04:56,040
Maar dit is dus wel een belangrijke kanttekening.
59
00:04:56,040 --> 00:05:01,600
Wat kunnen we sowieso concluderen is voor gebruikers of bedrijven die vertrouwen op
60
00:05:01,600 --> 00:05:09,000
chatgpt en andere large language models dat ja, weet je, ik raad in ieder geval aan om
61
00:05:09,000 --> 00:05:13,200
vergelijkbare monitoring en analyse te implementeren zoals je doet voor andere AI
62
00:05:13,200 --> 00:05:17,760
toepassingen, zodat je verandering van gedrag en performance altijd kan meten en
63
00:05:17,760 --> 00:05:18,320
opmerken.
64
00:05:18,320 --> 00:05:22,720
Blijf luisteren voor meer nieuws en onderzoek op het gebied van AI.
65
00:05:22,720 --> 00:05:27,720
Mis geen aflevering, abonneer je in je favoriete podcast app.
66
00:05:27,720 --> 00:05:29,720
Dankjewel voor het luisteren!
67
00:05:29,720 --> 00:05:31,720