1
00:00:00,000 --> 00:00:04,000
Welkom terug bij een nieuwe aflevering van AIToday Live Short.

2
00:00:04,000 --> 00:00:08,000
Vandaag wil ik de uitkomsten vertellen van een recent onderzoek van wetenschappers aan

3
00:00:08,000 --> 00:00:11,440
Stanford en Berkeley dat een intrigerende vraag stelt.

4
00:00:11,440 --> 00:00:16,000
Hoe verandert het gedrag van ChatGPT in de loop der tijd?

5
00:00:16,000 --> 00:00:22,000
Je luistert naar AIToday Live Short waarin ik je in 5 minuten op de hoogte breng van actuele

6
00:00:22,000 --> 00:00:24,000
kwesties op het gebied van de wereld.

7
00:00:24,000 --> 00:00:30,440
Met de introductie van ChatGPT is er een nieuwe realiteit ontstaan en zijn er nieuwe gave

8
00:00:30,440 --> 00:00:33,360
mogelijkheden bijgekomen voor ons.

9
00:00:33,360 --> 00:00:39,120
Microsoft's nieuwe Bing en OpenAI's ChatGPT stonden natuurlijk aan de frontlinie, terwijl

10
00:00:39,120 --> 00:00:43,960
andere bedrijven zoals Google met Bart op de voet volgden met vergelijkbare modellen.

11
00:00:43,960 --> 00:00:52,520
Terwijl OpenAI druk bezig is met het uitbrengen van nieuwe updates en functies voor zijn chatbot,

12
00:00:52,520 --> 00:00:58,400
onderzoekers van Stanford een nieuwe ontdekking gedaan, namelijk "ChatGPT is de afgelopen maanden

13
00:00:58,400 --> 00:01:08,840
mogelijk domger worden". Dus dat is best interessant. Het paper "How is ChatGPT's behavior changing over

14
00:01:08,840 --> 00:01:14,040
time?" laat zien hoe de belangrijkste functionaliteiten van de chatbot in de afgelopen

15
00:01:14,040 --> 00:01:20,240
maanden zijn verslechterd. En om te bepalen of ChatGPT in de loop der tijd beter of slechter

16
00:01:20,240 --> 00:01:24,560
werd hebben de onderzoekers de volgende technieken gebruikt om de mogelijkheden ervan te beoordelen.

17
00:01:24,560 --> 00:01:29,680
Ze hebben gekeken naar het oplossen van wiskundige problemen, het beantwoorden van gevoelige,

18
00:01:29,680 --> 00:01:34,920
zeker gevaarlijke vragen en het genereren van code en visueel redenier.

19
00:01:34,920 --> 00:01:41,760
Ze konden indrukken dat de genoemde taken zoveel mogelijk waren geselecteerd om de diverse en

20
00:01:41,760 --> 00:01:45,640
nuttige mogelijkheden van deze large language models te vertegenwoordigen.

21
00:01:45,640 --> 00:01:51,040
Maar ze kwamen later tot de conclusie dat de prestaties en het gedrag volledig verschillend

22
00:01:51,040 --> 00:01:53,840
waren tussen de verschillende versies.

23
00:01:53,840 --> 00:01:58,280
Ze merkten ook op dat hun prestaties op bepaalde taken zelfs negatief werden beïnvloed.

24
00:01:58,280 --> 00:02:00,880
Wat is er nou veranderd?

25
00:02:00,880 --> 00:02:09,040
Kort gezegd zijn er veel interessante verschuivingen die je ziet in korte tijd waar ze naar gekeken

26
00:02:09,040 --> 00:02:10,040
hebben.

27
00:02:10,040 --> 00:02:17,320
Bijvoorbeeld als je kijkt naar de maart 2023 versie van GPT-4, die was bijvoorbeeld erg

28
00:02:17,320 --> 00:02:19,860
goed in het identificeren van primgetallen.

29
00:02:19,860 --> 00:02:24,200
Zelfs met een nauwkeurigheid van ruim boven de 97%.

30
00:02:24,200 --> 00:02:32,320
Maar dus diezelfde GPT-4, maar de juni versie, daar zitten we van maart naar juni, was zeer

31
00:02:32,320 --> 00:02:35,120
slecht in precies diezelfde vraag.

32
00:02:35,120 --> 00:02:38,120
Die had nog maar een nauwkeurigheid van 2,4%.

33
00:02:38,120 --> 00:02:48,320
En interessant genoeg was GPT 3.5 in juni veel beter dan de versie van GPT 3.5 in maart.

34
00:02:48,320 --> 00:02:50,360
Deze precies dezelfde taak.

35
00:02:50,360 --> 00:02:52,320
Heel bijzonder toch?

36
00:02:52,320 --> 00:02:59,480
Ik denk dat een van de redenen voor deze verandering in prestaties en gedrag kan liggen in wijzigingen

37
00:02:59,480 --> 00:03:02,720
of misschien zelfs het weglaten van trainingsgegevens.

38
00:03:02,720 --> 00:03:06,040
En mogelijk vanwege de auteursrechtelijke kwesties.

39
00:03:06,040 --> 00:03:10,600
In een eerdere aflevering sprak ik al over de class-action-rechtzaak die momenteel in

40
00:03:10,600 --> 00:03:16,360
de VS gaande is over het gebruik hiervan door OpenAI en Meta om hun modellen te trainen.

41
00:03:16,360 --> 00:03:22,720
En ja, je kan je voorstellen dat OpenAI al veranderingen aan het doorvoeren is vanwege

42
00:03:22,720 --> 00:03:27,500
een mogelijke uitspraak, dat auteursrechtelijk beschermd materiaal zodra ik niet meer gebruikt

43
00:03:27,500 --> 00:03:29,000
mag worden door ze.

44
00:03:29,000 --> 00:03:34,240
En nou ja, dat betekent dan uiteraard een significante verandering in de trainingsgegevens,

45
00:03:34,240 --> 00:03:37,240
verschillen in de prestaties van deze modellen kan verklagen wat mij betreft.

46
00:03:37,240 --> 00:03:43,520
Deze bevindingen hebben behoorlijk wat impact wanneer je large language models in je organisatie

47
00:03:43,520 --> 00:03:49,120
wilt gebruiken of al gebruikt. De bevindingen van de onderzoekers tonen aan dat het gedrag

48
00:03:49,120 --> 00:03:56,640
van GPT 3.5 en GPT 4 aanzienlijk is veranderd in relatief korte perioden. Dit zal zodracht ook

49
00:03:56,640 --> 00:04:03,440
gelden voor een BART en welke dan ook. Dit benadrukt wat mij betreft de noodzaak om het

50
00:04:03,440 --> 00:04:08,960
gedrag van large language models in producties voortdurend te evalueren en te beoordelen.

51
00:04:08,960 --> 00:04:14,760
Voordat we afsluiten is het belangrijk om enkele kanttekeningen bij de bevindingen

52
00:04:14,760 --> 00:04:20,920
te maken van deze onderzoekers. Het paper is gepubliceerd op archive.org. Ik zal trouwens

53
00:04:20,920 --> 00:04:26,720
een link even in de beschrijving zetten. archive.org is een platform dat bijna alle

54
00:04:26,720 --> 00:04:34,220
door gebruikers geschreven papers accepteert die voldoen aan hun richtlijnen. En zoals veel

55
00:04:34,220 --> 00:04:41,280
papers op die site is ook dit specifieke paper nog niet gepair-reviewed of gepubliceerd in een

56
00:04:41,280 --> 00:04:46,400
ander gerenommeerd wetenschappelijk tijdschrift. Nou heeft wel een van de auteurs, die heeft al

57
00:04:46,400 --> 00:04:52,160
aangegeven dat ze van plan zijn om het te beoordelen en in te dienen. Maar let op,

58
00:04:53,880 --> 00:04:56,040
Maar dit is dus wel een belangrijke kanttekening.

59
00:04:56,040 --> 00:05:01,600
Wat kunnen we sowieso concluderen is voor gebruikers of bedrijven die vertrouwen op

60
00:05:01,600 --> 00:05:09,000
chatgpt en andere large language models dat ja, weet je, ik raad in ieder geval aan om

61
00:05:09,000 --> 00:05:13,200
vergelijkbare monitoring en analyse te implementeren zoals je doet voor andere AI

62
00:05:13,200 --> 00:05:17,760
toepassingen, zodat je verandering van gedrag en performance altijd kan meten en

63
00:05:17,760 --> 00:05:18,320
opmerken.

64
00:05:18,320 --> 00:05:22,720
Blijf luisteren voor meer nieuws en onderzoek op het gebied van AI.

65
00:05:22,720 --> 00:05:27,720
Mis geen aflevering, abonneer je in je favoriete podcast app.

66
00:05:27,720 --> 00:05:29,720
Dankjewel voor het luisteren!

67
00:05:29,720 --> 00:05:31,720