1
00:00:00,000 --> 00:00:07,240
Hoi, leuk dat je weer luistert naar een korte, actuele aflevering van AIToday Live met vandaag

2
00:00:07,240 --> 00:00:11,600
"Is OpenAI's ChatGPT verslagen door een nieuwe winnaar?"

3
00:00:11,600 --> 00:00:14,200
Je hoort er alles over in deze aflevering.

4
00:00:14,200 --> 00:00:22,560
In het recente speelveld van Large Language Models heeft Anthropic, een startup opgericht

5
00:00:22,560 --> 00:00:28,320
door voormalige OpenAI medewerkers, een flinke stap voorwaarts gezet met de lancering van

6
00:00:28,320 --> 00:00:30,040
Claude 3.

7
00:00:30,040 --> 00:00:36,760
Deze derde generatie van hun AI-model is er in drie varianten, waarbij Opus, de naam

8
00:00:36,760 --> 00:00:43,800
van de variant, de kroon spant als het meest geavanceerde en duurste model, met capaciteiten

9
00:00:43,800 --> 00:00:48,040
om uitgebreide teksten tot wel 150.000 woorden te verwerken.

10
00:00:48,040 --> 00:00:56,800
Daarmee stelt Anthropic dat Opus superieure resultaten levert in vergelijking met toonaangevende

11
00:00:56,800 --> 00:01:03,400
concurrenten zoals OpenAI's GPT-4 en Google's Gemini 1.0 Ultra.

12
00:01:03,400 --> 00:01:08,880
Vooral op gebieden als redenering, programmeren en wiskundige probleemoplossing.

13
00:01:08,880 --> 00:01:16,120
Zij claimen dit vanwege de uitslagen in vergelijkende testen en dat ze daar het beste in scoren.

14
00:01:16,120 --> 00:01:23,360
In de wereld van taalmodellen lijken vergelijkende testen, benchmarks, vaak de heilige graal

15
00:01:23,360 --> 00:01:25,320
van prestatie-evaluatie.

16
00:01:25,320 --> 00:01:32,320
Volgens mij schuilt de ware waarde van een taalmodel niet in de meest indrukwekkende

17
00:01:32,320 --> 00:01:39,280
cijfers van vergelijkende testen, maar in de specifieke use-cases waarvoor het model ingezet

18
00:01:39,280 --> 00:01:40,280
wordt.

19
00:01:40,280 --> 00:01:46,760
Wat mij betreft is het een misvatting te denken dat het hoogstscorende model in benchmark-tests

20
00:01:46,760 --> 00:01:49,760
automatisch de beste keuze is voor elke situatie.

21
00:01:49,760 --> 00:01:53,360
Laten we eens kijken naar de benchmarks.

22
00:01:53,360 --> 00:01:59,320
Large Language Models, die benchmarks daarvoor zijn ontworpen om de prestaties en de bekwaamheden

23
00:01:59,320 --> 00:02:03,760
van AI modellen zoals GPT, Claude en Gemini te meten.

24
00:02:03,760 --> 00:02:10,680
Deze benchmarks omvatten een reeks test die zijn ontworpen om verschillende aspecten van

25
00:02:10,680 --> 00:02:14,920
taalbegrip, redeneringsvermogen en domeinspecifieke kennis te beoordelen.

26
00:02:14,920 --> 00:02:17,080
Zo heb je bijvoorbeeld de…

27
00:02:17,080 --> 00:02:24,320
Ja, het zijn een beetje rare afkortingen en titels, maar zo heb je bijvoorbeeld de ML…

28
00:02:24,320 --> 00:02:28,200
MMLU, de Massive Multitask Language Understanding.

29
00:02:28,200 --> 00:02:34,400
Deze benchmark meet het begrip op kennisniveau door het model te testen op een reeks van meer

30
00:02:34,400 --> 00:02:40,320
dan 50 taken die betrekking hebben op onderwerpen zoals geschiedenis, literatuur en wetenschap.

31
00:02:40,320 --> 00:02:45,960
Het is ontworpen om te evalueren hoe goed modellen complexe vragen kunnen begrijpen

32
00:02:45,960 --> 00:02:46,960
en beantwoorden.

33
00:02:46,960 --> 00:02:54,160
Maar je hebt ook de Great School Math, de GSM8K.

34
00:02:54,160 --> 00:03:00,680
Deze benchmark evalueert de vaardigheid van modellen in het oplossen van wiskundige problemen

35
00:03:00,680 --> 00:03:02,800
die typisch zijn voor de basisschool.

36
00:03:02,800 --> 00:03:07,000
Deze benchmark bevat zo'n 8000 problemen en testen.

37
00:03:07,000 --> 00:03:13,800
En daarmee test het basisrekenen, algebra, geometrie en nog veel meer.

38
00:03:13,800 --> 00:03:20,920
Dit zijn er twee, er is een lijst van zo'n 8 benchmarks waar de meeste large language

39
00:03:20,920 --> 00:03:22,400
models tegen gescoord worden.

40
00:03:22,400 --> 00:03:28,960
En omdat deze uitkomsten steeds gepubliceerd worden, ontstaat er een race en misschien

41
00:03:28,960 --> 00:03:32,680
zelfs wel een obsessie wie de beste benchmarks heeft.

42
00:03:32,680 --> 00:03:35,760
De obsessie met benchmarks is niet nieuw.

43
00:03:35,760 --> 00:03:40,880
Mij herinnert het eraan aan eerdere technologische wedlopen zoals we die hebben gehad bij de

44
00:03:40,880 --> 00:03:47,760
digitale camera's waar de focus lag op het aantal megapixels als maatstaf voor beeldkwaliteit.

45
00:03:47,760 --> 00:03:55,680
Deze benadering leidde tot een vernauwde focus waarbij andere belangrijke aspecten van beeldvorming

46
00:03:55,680 --> 00:04:00,600
zoals lenskwaliteit, kleurweergave en lichtgevoeligheid juist onderbelicht bleven.

47
00:04:00,600 --> 00:04:08,180
Een ander treffend voorbeeld dat de gevaren van een eenzijdige focus op benchmarks belicht

48
00:04:08,180 --> 00:04:10,120
is het Volkswagen-dieselschandaal.

49
00:04:10,120 --> 00:04:15,920
In een poging om te voldoen aan emissiestandaarden manipuleerde Volkswagen de uitstootgegevens

50
00:04:15,920 --> 00:04:18,440
van hun voertuigen tijdens laboratoriumtests.

51
00:04:18,440 --> 00:04:24,520
Dit schandaal onthulde niet alleen de ethische tekortkomingen binnen het bedrijf, maar ook

52
00:04:24,520 --> 00:04:29,800
wel de fundamentele gebreken in een benchmarksysteem dat deze manipulatie mogelijk maakte.

53
00:04:29,800 --> 00:04:37,160
Het benadrukt hoe een overmatige nadruk op het behalen van specifieke meetbare resultaten

54
00:04:37,160 --> 00:04:42,920
kan leiden tot gedrag dat afwijkt van de beoogde doelstelling van de technologische ontwikkeling.

55
00:04:42,920 --> 00:04:49,000
Dus benchmarks, hoe nuttig ook voor verder ontwikkeling en verbetering van large language

56
00:04:49,000 --> 00:04:51,440
models, zijn slechts 1 deel van het verhaal.

57
00:04:51,440 --> 00:04:57,640
Ze bieden een momentopname van de models capaciteiten onder gecontroleerde omstandigheden,

58
00:04:57,640 --> 00:05:03,840
maar vertellen ons weinig over de toepasbaarheid van deze modellen binnen je organisatie waar

59
00:05:03,840 --> 00:05:07,040
je natuurlijk ook te maken hebt met kaders en voorkeuren.

60
00:05:07,040 --> 00:05:15,080
De ware uitdaging ligt in het kiezen van AI modellen die niet alleen uitblinken in gestandaardiseerde

61
00:05:15,080 --> 00:05:19,200
tests, maar juist passend zijn voor jouw use-case.

62
00:05:19,200 --> 00:05:24,880
Zo bieden leveranciers een breed scala aan opties, bijvoorbeeld in de kostenstructuur

63
00:05:24,880 --> 00:05:32,840
van de verschillende modellen, van Anthropics Sonnet en Haiku tot het meer robuuste Opus

64
00:05:32,840 --> 00:05:33,840
in hun geval.

65
00:05:33,840 --> 00:05:36,880
De prijsverschillen daartussen zijn significant.

66
00:05:36,880 --> 00:05:43,280
Het instapmodel Haiku is bijvoorbeeld 60 keer goedkoper dan het vlaggenschip Opus.

67
00:05:43,280 --> 00:05:44,480
60 keer!

68
00:05:44,480 --> 00:05:46,560
Dat is toch nogal wat?

69
00:05:46,560 --> 00:05:48,720
Maar kosten zijn slechts 1 facet.

70
00:05:48,720 --> 00:05:53,080
Het belangrijke is hoe een model presteert binnen specifieke contexten.

71
00:05:53,080 --> 00:05:56,760
Niet elk model excelleert op dezelfde wijze.

72
00:05:56,760 --> 00:06:02,360
Sommige zijn gespecialiseerd en leveren in bepaalde scenario's betere resultaten.

73
00:06:02,360 --> 00:06:07,120
Daarnaast spelen leveranciersvoorwaarden en garanties een cruciale rol.

74
00:06:07,120 --> 00:06:12,480
Vragen over privacy, beveiliging, schaalbaarheid, duurzaamheid zijn ook essentieel.

75
00:06:12,480 --> 00:06:18,320
Het is ook van belang te weten hoe lang een model ondersteund wordt door de leverancier.

76
00:06:18,320 --> 00:06:21,520
Dit om de continuïteit van je toepassingen te waarborgen.

77
00:06:21,520 --> 00:06:25,040
Dus oftewel blijven je prompt werken.

78
00:06:25,040 --> 00:06:26,040
Heel simpel.

79
00:06:26,760 --> 00:06:31,880
Maar ook organisatorische beperkingen, zoals een verplichting aan een bepaalde cloud provider

80
00:06:31,880 --> 00:06:37,400
of een voorkeur voor open source, beïnvloeden eveneens deze keuzevrijheid.

81
00:06:37,400 --> 00:06:41,880
Hierdoor kan de selectie van een taalmodel beperkter zijn dan aanvankelijk gedacht.

82
00:06:41,880 --> 00:06:47,040
Tegen de achtergrond van deze complexiteit is het belangrijk te begrijpen dat een groter

83
00:06:47,040 --> 00:06:52,280
model, ondanks een hogere score op benchmarks, niet altijd de beste optie is.

84
00:06:52,280 --> 00:06:57,960
Kleinere modellen kunnen voor bepaalde toepassingen toereikend zijn, juist minder energie verbruiken

85
00:06:57,960 --> 00:07:01,440
en zodoende ook milieuvriendelijker zijn.

86
00:07:01,440 --> 00:07:06,480
De beslissing voor een specifiek model moet daarom niet lichtvaardig genomen worden, vind

87
00:07:06,480 --> 00:07:07,480
ik.

88
00:07:07,480 --> 00:07:12,720
Nog moet deze louter gebaseerd zijn op de nieuwheid of de populariteit van een model.

89
00:07:12,720 --> 00:07:17,800
Een zorgvuldige afweging van de doelstellingen, randvoorwaarden en de specifieke eisen van

90
00:07:17,800 --> 00:07:21,560
je project leidt tot een meer gefundeerde keuze.

91
00:07:21,560 --> 00:07:27,480
Benchmarks zijn daarbij slechts één van de vele overwegingen en dienen met een flinke

92
00:07:27,480 --> 00:07:29,040
korrelzout bekeken te worden.

93
00:07:29,040 --> 00:07:33,880
Leuk dat je weer luisterde.

94
00:07:33,880 --> 00:07:39,280
Vergeet je niet te abonneren via je favoriete podcast app en mis geen aflevering.

95
00:07:39,280 --> 00:07:40,560
Tot de volgende keer!

96
00:07:40,560 --> 00:07:46,560
[Muziek]

97
00:07:47,200 --> 00:08:07,200
[Muziek]