1
00:00:00,001 --> 00:00:04,480
Hoi, welkom bij een nieuwe aflevering van AIToday Live.

2
00:00:04,480 --> 00:00:09,000
In deze korte aflevering vandaag gaan we het hebben over een onderwerp dat steeds meer

3
00:00:09,000 --> 00:00:10,000
aandacht krijgt.

4
00:00:10,000 --> 00:00:14,880
Namelijk de vraag of leveranciers van Large Language Models (LLM's) als open source moeten

5
00:00:14,880 --> 00:00:20,400
worden aangemerkt om strengere regelgeving van de nieuwe EU-AI Act te ontzeilen.

6
00:00:20,400 --> 00:00:25,400
Want dit zou hen kunnen helpen om veel geld en gedoe te besparen.

7
00:00:25,400 --> 00:00:28,920
Maar is dat echt zo eenvoudig?

8
00:00:28,920 --> 00:00:35,100
Onderzoek van de Radboud Universiteit laat weinig heel van die open source claims van

9
00:00:35,100 --> 00:00:36,100
bekende modellen.

10
00:00:36,100 --> 00:00:41,120
Bij open source denken de meeste mensen aan gratis software die je kunt downloaden en

11
00:00:41,120 --> 00:00:42,120
gebruiken.

12
00:00:42,120 --> 00:00:44,000
Maar het concept gaat veel dieper.

13
00:00:44,000 --> 00:00:48,680
Open source betekent dat je toegang hebt tot de broncode en deze kunt aanpassen.

14
00:00:48,680 --> 00:00:53,440
Dit verhoogt de transparantie en betrouwbaarheid omdat je precies kunt zien hoe iets werkt.

15
00:00:53,440 --> 00:01:00,880
Maar goed, in de wereld van kunstmatige intelligentie wordt de term open source ook vaak gebruikt.

16
00:01:00,880 --> 00:01:02,360
Maar hier ligt het toch wel anders.

17
00:01:02,360 --> 00:01:06,200
Bij AI gaat het niet alleen om de broncode.

18
00:01:06,200 --> 00:01:13,120
Je hebt ook inzicht nodig in de data waarop het model is getraind, de berekende gewichten

19
00:01:13,120 --> 00:01:15,840
en de nabewerkingen die zijn uitgevoerd.

20
00:01:15,840 --> 00:01:18,760
Dat geheel maakt uiteindelijk een model.

21
00:01:18,760 --> 00:01:29,120
Het onderzoek van het Radboud heeft 14 karakter-eigenschappen geïdentificeerd om aan te geven hoe open

22
00:01:29,120 --> 00:01:31,120
een model echt is.

23
00:01:31,120 --> 00:01:37,160
En nogmaals, het fundamentele probleem is dat een AI-model meer is dan alleen code.

24
00:01:37,160 --> 00:01:39,680
Daarom dat ze die 14 hebben gepakt.

25
00:01:39,680 --> 00:01:47,360
Zo'n AI-model is getraind op enorm hoeveelheden data en bevat ontelbare parameters.

26
00:01:47,360 --> 00:01:52,760
Zelfs als een model als open source wordt gelabeld, betekent dit niet automatisch dat

27
00:01:52,760 --> 00:01:54,800
het volledig transparant is.

28
00:01:54,800 --> 00:01:59,600
De onderzoekers hebben aangetoond dat slechts een klein deel van de zogenaamde open source

29
00:01:59,600 --> 00:02:02,200
modellen echt volledig open is.

30
00:02:02,200 --> 00:02:03,960
Laten we een voorbeeld nemen.

31
00:02:03,960 --> 00:02:10,680
Een van de meer bekendere, tussen aanhalingstekens open source modellen, is het Franse Mistral7B.

32
00:02:10,680 --> 00:02:14,480
Sorry voor de moeilijke namen, die verzinnen ze allemaal.

33
00:02:14,480 --> 00:02:15,720
Ik heb ze niet verzonnen.

34
00:02:15,720 --> 00:02:18,880
Het Franse Mistral7B.

35
00:02:18,880 --> 00:02:26,520
Het enige wat ze open hebben gemaakt, is dat je het model kan downloaden en zelf lokaal

36
00:02:26,520 --> 00:02:27,520
kan draaien.

37
00:02:27,520 --> 00:02:34,520
Het is een getraind model met toegang tot de programmeertaal, maar je hebt geen idee op

38
00:02:34,520 --> 00:02:36,760
basis van welke data er getraind is.

39
00:02:36,760 --> 00:02:40,360
Van die 14 karakteristieken zijn er een hele hoop gesloten.

40
00:02:40,360 --> 00:02:44,960
In Nederland hebben we trouwens ook een open source model, genaamd GEITje.

41
00:02:44,960 --> 00:02:46,760
Een grappige naam toch?

42
00:02:46,760 --> 00:02:48,800
GEIT met hoofdletters en je,

43
00:02:48,800 --> 00:02:50,280
Met kleine letters.

44
00:02:50,280 --> 00:02:51,280
GEITje.

45
00:02:51,280 --> 00:02:52,680
En dat is een geweldig initiatief.

46
00:02:52,680 --> 00:03:01,160
Maar omdat het gebouwd is bovenop deze Mistral7B modellen, en wel getraind op 10 miljard tokens

47
00:03:01,160 --> 00:03:08,480
en Nederlandse tekst, blijft het, dat hoewel dan die bovenliggende lagen van Geitje open

48
00:03:08,480 --> 00:03:12,880
source zijn, dus daar kan je ook echt de data van inzien en dat soort dingen, is dat dus

49
00:03:12,880 --> 00:03:14,200
in de basis niet.

50
00:03:14,200 --> 00:03:18,640
Omdat het dus bovenop Mistral7B getraind is.

51
00:03:18,640 --> 00:03:22,800
Dat betekent dat er nog steeds een gebrek aan volledige transparantie is.

52
00:03:22,800 --> 00:03:27,920
En dat maakt het controleren van deze claims behoorlijk lastig.

53
00:03:27,920 --> 00:03:33,040
Daarnaast is er een groeiende trend van wat we open washing noemen.

54
00:03:33,040 --> 00:03:36,760
Net als wat je met de greenwashing hebt.

55
00:03:36,760 --> 00:03:42,920
Het open washing houdt in dat bedrijven beweren open source te zijn zonder daadwerkelijk volledige

56
00:03:42,920 --> 00:03:44,640
transparantie te bieden.

57
00:03:44,640 --> 00:03:50,640
Ze publiceren bijvoorbeeld een blogpost waarin ze hun model zelf als open source bestempelen

58
00:03:50,640 --> 00:03:54,600
maar bieden geen volledige toegang tot de data of de training methodologie.

59
00:03:54,600 --> 00:03:59,440
Dit kan best verwarrend zijn en de wetenschappelijke integriteit ondermijnen.

60
00:03:59,440 --> 00:04:04,840
Een opvallend voorbeeld is OpenIR's JGPT, kennen we allemaal.

61
00:04:04,840 --> 00:04:11,520
Oorspronkelijk opgericht met als ideologie van juist vanuit de open source.

62
00:04:11,520 --> 00:04:14,960
Maar nu is het model zo gesloten als een oester.

63
00:04:14,960 --> 00:04:21,760
Van de 40 onderzochte modellen hebben slechts 2 een wetenschappelijk paper beschikbaar

64
00:04:21,760 --> 00:04:27,160
gesteld en JGPT is de meest gesloten van deze allemaal.

65
00:04:27,160 --> 00:04:36,120
Minder dan de helft van de 40 onderzochte modellen heeft de broncode open source gemaakt en slechts

66
00:04:36,120 --> 00:04:39,920
een kwart is open over de data waarmee ze zijn getraind.

67
00:04:39,920 --> 00:04:48,640
De EU AI Act die naar verwachting in 2026 van kracht gaat stelt strenge eisen aan AI

68
00:04:48,640 --> 00:04:50,600
modellen die als hoog risico worden beschouwd.

69
00:04:50,600 --> 00:04:56,920
Leveranciers van large language models zoals OpenAI, Google, Meta, HuggingFace moeten dan

70
00:04:56,920 --> 00:05:01,800
transparant zijn over hun data, trainingsmethode en het energieverbruik van de modellen.

71
00:05:01,800 --> 00:05:08,520
De Act, de wet, vereist ook dat deze leveranciers risico's identificeren en beperken.

72
00:05:08,520 --> 00:05:14,120
Dat betekent dat het niet naleven van deze verplichtingen kan leiden tot hoge boetes.

73
00:05:14,120 --> 00:05:19,720
En dan is duidelijk dat het term open source binnen de context van AI niet altijd betekent

74
00:05:19,720 --> 00:05:25,400
wat we denken en dat dat dus grote betekenis kan hebben ten opzichte van die wet.

75
00:05:25,400 --> 00:05:30,960
Dus terwijl open source software in de traditionele zin eenvoudig te begrijpen en te controleren

76
00:05:30,960 --> 00:05:35,560
is, brengt de complexiteit van AI modellen juist nieuwe uitdagingen met zich mee.

77
00:05:35,560 --> 00:05:40,480
Zelfs als bedrijven beweren open source te zijn, is het vaak onmogelijk om de volledige

78
00:05:40,480 --> 00:05:45,760
reproduceerbaarheid van een model te garanderen zonder enorme middelen.

79
00:05:45,760 --> 00:05:53,240
Het trainen van dit soort modellen vergt zoveel rekenkracht, energie, dat het maar de vraag

80
00:05:53,240 --> 00:05:54,840
is wie dat kan controleren.

81
00:05:54,840 --> 00:06:01,440
Wat betekent dit dan voor de toekomst van open source modellen?

82
00:06:01,440 --> 00:06:05,880
Ik denk dat we naar een situatie gaan waar de term open source wellicht opnieuw moet

83
00:06:05,880 --> 00:06:11,240
worden geïdentificeerd of waar nieuwe termen worden geïntroduceerd die de mate van openheid

84
00:06:11,240 --> 00:06:14,760
en transparantie van AI modellen juist beter weergeven.

85
00:06:14,760 --> 00:06:20,640
Tot die tijd is het wel cruciaal dat we kritisch blijven kijken naar de claims van bedrijven

86
00:06:20,640 --> 00:06:24,280
en streven naar echte transparantie en verantwoordelijke AI.

87
00:06:24,280 --> 00:06:31,280
De onderzoekers benadrukken trouwens de betekenisvolle bijdrage van kleinere spelers en juist niet

88
00:06:31,280 --> 00:06:32,520
commerciële producenten.

89
00:06:32,520 --> 00:06:38,120
Dit zijn verborgen kampioenen in de wereld van de generatieve AI.

90
00:06:38,120 --> 00:06:44,640
En dat zijn juist de plekken waar de vooruitgang richting meer open systemen het meest waarschijnlijk

91
00:06:44,640 --> 00:06:45,640
is.

92
00:06:45,640 --> 00:06:52,160
En het vervelende is, ik heb het al eens eerder gehad over de giftigheid van benchmarks rondom

93
00:06:52,160 --> 00:06:57,160
AI modellen en de logica van 'groter is altijd beter'.

94
00:06:57,160 --> 00:07:04,240
Als het daar nou is van afstappen kunnen deze kleine maar open modellen net zo nuttig zijn

95
00:07:04,240 --> 00:07:05,600
voor heel veel eindgebruikers.

96
00:07:05,600 --> 00:07:10,240
Gewone use cases vereisen vaak helemaal niet die gigantische modellen.

97
00:07:10,240 --> 00:07:13,480
Dankjewel weer voor het luisteren.

98
00:07:13,480 --> 00:07:17,960
Vergeet je niet te abonneren via je favoriete podcast app en blijf op de hoogte van de laatste

99
00:07:17,960 --> 00:07:19,920
ontwikkelingen in de wereld van AI.

100
00:07:19,920 --> 00:07:21,000
Tot de volgende keer!

101
00:07:21,000 --> 00:07:26,000
[Muziek]

102
00:07:26,000 --> 00:07:28,000
[Muziek]