S05E34 - Shorts - Wordt ChatGPT steeds dommer? Artwork

AIToday Live

AIToday Live deelt praktijkverhalen over AI die je direct vooruit helpen in je werk. In een wereld waar AI-ontwikkelingen elkaar razendsnel opvolgen, kiezen wij bewust voor verdieping en praktijkervaring. We bieden een kalm kompas in turbulente tijden.

In deze podcast hoor je professionals uit Nederland en België die openhartig vertellen over hun ervaringen met AI-implementaties. Voorbij de hype en krantenkoppen laten zij zien hoe organisaties écht met AI werken.

Onze gasten delen hun successen én uitdagingen op een toegankelijke manier.

Daarmee helpen we jou om:

Praktische inzichten te krijgen in wat AI wel en niet kan
Te leren van de ervaringen van andere professionals
Concrete ideeën op te doen voor je eigen organisatie
De grotere lijnen te zien in AI-ontwikkelingen

Iedere maandag een diepgaand gesprek met een gast, gepresenteerd door Joop Snijder (CTO Aigency) en Niels Naglé (Info Support). Elke donderdag deelt Joop in een korte aflevering zijn eigen praktijkervaringen en inzichten.

"AIToday Live is uitgeroepen tot AI Podcast of the Year 2025 en is drie keer genomineerd voor 'De Prijs van Oranje' door de Belgian Podcast Awards en staat op nummer 1 in de lijst van Zomerse luister-inspiratie: podcasts over AI, productiviteit, SEO & meer (Frankwatching, juni 2024)."

Ontdek hoe andere professionals AI succesvol inzetten. Ontvang ook exclusieve content, kijk achter de schermen en blijf op de hoogte van nieuwe gasten via onze nieuwsbrief: https://aitodaylive.substack.com

All Episodes

AIToday Live

S05E34 - Shorts - Wordt ChatGPT steeds dommer?

July 20, 2023 • Info Support AIToday • Season 5 • Episode 34

0:00 | 5:32

Welkom bij een nieuwe aflevering van onze podcast over marketing! Vandaag bespreken we een recent onderzoek van wetenschappers aan Stanford en Berkeley, waarin ze hebben ontdekt dat het gedrag van ChatGPT, een AI-chatbot, in de loop der tijd is veranderd.

Links

Paper 'How Is ChatGPT’s Behavior Changing over Time?' - https://arxiv.org/pdf/2307.09009.pdf

Stuur ons een bericht

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:00,000 --> 00:00:04,000
Welkom terug bij een nieuwe aflevering van AIToday Live Short.

2
00:00:04,000 --> 00:00:08,000
Vandaag wil ik de uitkomsten vertellen van een recent onderzoek van wetenschappers aan

3
00:00:08,000 --> 00:00:11,440
Stanford en Berkeley dat een intrigerende vraag stelt.

4
00:00:11,440 --> 00:00:16,000
Hoe verandert het gedrag van ChatGPT in de loop der tijd?

5
00:00:16,000 --> 00:00:22,000
Je luistert naar AIToday Live Short waarin ik je in 5 minuten op de hoogte breng van actuele

6
00:00:22,000 --> 00:00:24,000
kwesties op het gebied van de wereld.

7
00:00:24,000 --> 00:00:30,440
Met de introductie van ChatGPT is er een nieuwe realiteit ontstaan en zijn er nieuwe gave

8
00:00:30,440 --> 00:00:33,360
mogelijkheden bijgekomen voor ons.

9
00:00:33,360 --> 00:00:39,120
Microsoft's nieuwe Bing en OpenAI's ChatGPT stonden natuurlijk aan de frontlinie, terwijl

10
00:00:39,120 --> 00:00:43,960
andere bedrijven zoals Google met Bart op de voet volgden met vergelijkbare modellen.

11
00:00:43,960 --> 00:00:52,520
Terwijl OpenAI druk bezig is met het uitbrengen van nieuwe updates en functies voor zijn chatbot,

12
00:00:52,520 --> 00:00:58,400
onderzoekers van Stanford een nieuwe ontdekking gedaan, namelijk "ChatGPT is de afgelopen maanden

13
00:00:58,400 --> 00:01:08,840
mogelijk domger worden". Dus dat is best interessant. Het paper "How is ChatGPT's behavior changing over

14
00:01:08,840 --> 00:01:14,040
time?" laat zien hoe de belangrijkste functionaliteiten van de chatbot in de afgelopen

15
00:01:14,040 --> 00:01:20,240
maanden zijn verslechterd. En om te bepalen of ChatGPT in de loop der tijd beter of slechter

16
00:01:20,240 --> 00:01:24,560
werd hebben de onderzoekers de volgende technieken gebruikt om de mogelijkheden ervan te beoordelen.

17
00:01:24,560 --> 00:01:29,680
Ze hebben gekeken naar het oplossen van wiskundige problemen, het beantwoorden van gevoelige,

18
00:01:29,680 --> 00:01:34,920
zeker gevaarlijke vragen en het genereren van code en visueel redenier.

19
00:01:34,920 --> 00:01:41,760
Ze konden indrukken dat de genoemde taken zoveel mogelijk waren geselecteerd om de diverse en

20
00:01:41,760 --> 00:01:45,640
nuttige mogelijkheden van deze large language models te vertegenwoordigen.

21
00:01:45,640 --> 00:01:51,040
Maar ze kwamen later tot de conclusie dat de prestaties en het gedrag volledig verschillend

22
00:01:51,040 --> 00:01:53,840
waren tussen de verschillende versies.

23
00:01:53,840 --> 00:01:58,280
Ze merkten ook op dat hun prestaties op bepaalde taken zelfs negatief werden beïnvloed.

24
00:01:58,280 --> 00:02:00,880
Wat is er nou veranderd?

25
00:02:00,880 --> 00:02:09,040
Kort gezegd zijn er veel interessante verschuivingen die je ziet in korte tijd waar ze naar gekeken

26
00:02:09,040 --> 00:02:10,040
hebben.

27
00:02:10,040 --> 00:02:17,320
Bijvoorbeeld als je kijkt naar de maart 2023 versie van GPT-4, die was bijvoorbeeld erg

28
00:02:17,320 --> 00:02:19,860
goed in het identificeren van primgetallen.

29
00:02:19,860 --> 00:02:24,200
Zelfs met een nauwkeurigheid van ruim boven de 97%.

30
00:02:24,200 --> 00:02:32,320
Maar dus diezelfde GPT-4, maar de juni versie, daar zitten we van maart naar juni, was zeer

31
00:02:32,320 --> 00:02:35,120
slecht in precies diezelfde vraag.

32
00:02:35,120 --> 00:02:38,120
Die had nog maar een nauwkeurigheid van 2,4%.

33
00:02:38,120 --> 00:02:48,320
En interessant genoeg was GPT 3.5 in juni veel beter dan de versie van GPT 3.5 in maart.

34
00:02:48,320 --> 00:02:50,360
Deze precies dezelfde taak.

35
00:02:50,360 --> 00:02:52,320
Heel bijzonder toch?

36
00:02:52,320 --> 00:02:59,480
Ik denk dat een van de redenen voor deze verandering in prestaties en gedrag kan liggen in wijzigingen

37
00:02:59,480 --> 00:03:02,720
of misschien zelfs het weglaten van trainingsgegevens.

38
00:03:02,720 --> 00:03:06,040
En mogelijk vanwege de auteursrechtelijke kwesties.

39
00:03:06,040 --> 00:03:10,600
In een eerdere aflevering sprak ik al over de class-action-rechtzaak die momenteel in

40
00:03:10,600 --> 00:03:16,360
de VS gaande is over het gebruik hiervan door OpenAI en Meta om hun modellen te trainen.

41
00:03:16,360 --> 00:03:22,720
En ja, je kan je voorstellen dat OpenAI al veranderingen aan het doorvoeren is vanwege

42
00:03:22,720 --> 00:03:27,500
een mogelijke uitspraak, dat auteursrechtelijk beschermd materiaal zodra ik niet meer gebruikt

43
00:03:27,500 --> 00:03:29,000
mag worden door ze.

44
00:03:29,000 --> 00:03:34,240
En nou ja, dat betekent dan uiteraard een significante verandering in de trainingsgegevens,

45
00:03:34,240 --> 00:03:37,240
verschillen in de prestaties van deze modellen kan verklagen wat mij betreft.

46
00:03:37,240 --> 00:03:43,520
Deze bevindingen hebben behoorlijk wat impact wanneer je large language models in je organisatie

47
00:03:43,520 --> 00:03:49,120
wilt gebruiken of al gebruikt. De bevindingen van de onderzoekers tonen aan dat het gedrag

48
00:03:49,120 --> 00:03:56,640
van GPT 3.5 en GPT 4 aanzienlijk is veranderd in relatief korte perioden. Dit zal zodracht ook

49
00:03:56,640 --> 00:04:03,440
gelden voor een BART en welke dan ook. Dit benadrukt wat mij betreft de noodzaak om het

50
00:04:03,440 --> 00:04:08,960
gedrag van large language models in producties voortdurend te evalueren en te beoordelen.

51
00:04:08,960 --> 00:04:14,760
Voordat we afsluiten is het belangrijk om enkele kanttekeningen bij de bevindingen

52
00:04:14,760 --> 00:04:20,920
te maken van deze onderzoekers. Het paper is gepubliceerd op archive.org. Ik zal trouwens

53
00:04:20,920 --> 00:04:26,720
een link even in de beschrijving zetten. archive.org is een platform dat bijna alle

54
00:04:26,720 --> 00:04:34,220
door gebruikers geschreven papers accepteert die voldoen aan hun richtlijnen. En zoals veel

55
00:04:34,220 --> 00:04:41,280
papers op die site is ook dit specifieke paper nog niet gepair-reviewed of gepubliceerd in een

56
00:04:41,280 --> 00:04:46,400
ander gerenommeerd wetenschappelijk tijdschrift. Nou heeft wel een van de auteurs, die heeft al

57
00:04:46,400 --> 00:04:52,160
aangegeven dat ze van plan zijn om het te beoordelen en in te dienen. Maar let op,

58
00:04:53,880 --> 00:04:56,040
Maar dit is dus wel een belangrijke kanttekening.

59
00:04:56,040 --> 00:05:01,600
Wat kunnen we sowieso concluderen is voor gebruikers of bedrijven die vertrouwen op

60
00:05:01,600 --> 00:05:09,000
chatgpt en andere large language models dat ja, weet je, ik raad in ieder geval aan om

61
00:05:09,000 --> 00:05:13,200
vergelijkbare monitoring en analyse te implementeren zoals je doet voor andere AI

62
00:05:13,200 --> 00:05:17,760
toepassingen, zodat je verandering van gedrag en performance altijd kan meten en

63
00:05:17,760 --> 00:05:18,320
opmerken.

64
00:05:18,320 --> 00:05:22,720
Blijf luisteren voor meer nieuws en onderzoek op het gebied van AI.

65
00:05:22,720 --> 00:05:27,720
Mis geen aflevering, abonneer je in je favoriete podcast app.

66
00:05:27,720 --> 00:05:29,720
Dankjewel voor het luisteren!

67
00:05:29,720 --> 00:05:31,720

Joop Snijder

Host

Niels Naglé

Co-host