AIToday Live

S05E66 - GPT-NL: redding van de Nederlandse taal of utopisch idealisme?

Aigency by Info Support Season 5 Episode 66

Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.

0:00 | 5:27

Welkom bij een nieuwe aflevering van AIToday Live! Vandaag bespreken we het nieuws rondom GPT-NL, een ambitieus Nederlands taalmodel dat in ontwikkeling is.

TNO, het Nederlands Forensisch Instituut en SURF hebben gezamenlijk 13,5 miljoen euro geïnvesteerd in dit project. Het doel is om een variant van een bestaand model te creëren, specifiek getraind op Nederlandse tekst, om zo meer digitale autonomie te verkrijgen.

Maar er zijn ook uitdagingen, zoals het budget en ethische vraagstukken. Laten we met elkaar de toekomst van GPT-NL verkennen.


Links

Stuur ons een bericht

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:00,000 --> 00:00:05,720
Hoi allemaal en welkom bij deze nieuwe aflevering van AIToday Live.

2
00:00:05,720 --> 00:00:11,240
Vandaag ga ik het in deze korte aflevering hebben over het nieuws rondom GPT-NL, een nieuw

3
00:00:11,240 --> 00:00:14,200
Nederlands taalmodel dat momenteel in ontwikkeling is.

4
00:00:14,200 --> 00:00:18,760
Is het de redding van de Nederlandse taal of een utopisch idealisme?

5
00:00:18,760 --> 00:00:24,200
Er is deze week veel te doen rondom dit onderwerp, dus ik zal uitleggen waar het over gaat,

6
00:00:24,200 --> 00:00:29,160
wat de ambities zijn en waarom ik pendel tussen optimisme en de nodige scepsis.

7
00:00:29,160 --> 00:00:31,160
Laten we beginnen.

8
00:00:31,160 --> 00:00:36,880
GPT-NL is een initiatief van TNO, het Nederlands Forensisch Instituut en SURF.

9
00:00:36,880 --> 00:00:40,960
SURF is een samenwerkingsverband van onderwijs en onderzoeksinstellingen.

10
00:00:40,960 --> 00:00:46,960
Samen trekken ze 13,5 miljoen euro uit voor de ontwikkeling van dit Nederlandstalig

11
00:00:46,960 --> 00:00:47,960
AI-model.

12
00:00:47,960 --> 00:00:55,240
Het uiteindelijke doel is om een variant van een KPT-model te maken, maar dan getraind

13
00:00:55,240 --> 00:00:56,760
helemaal op Nederlandse tekst.

14
00:00:56,760 --> 00:01:01,640
De bedoeling is dat dit taalmodel conversaties kan voeren, net als ChatterJPT teksten kan

15
00:01:01,640 --> 00:01:03,760
samenvatten en genereren.

16
00:01:03,760 --> 00:01:08,760
Dit idee is ontstaan vanuit een verlangen naar meer digitale soevereiniteit.

17
00:01:08,760 --> 00:01:16,400
Grote techbedrijven als Google, OpenAI en Meta hebben nu de macht over taalmodellen

18
00:01:16,400 --> 00:01:24,560
zoals ChatGPT en BARD die getraind zijn op veel talige teksten.

19
00:01:24,560 --> 00:01:30,160
Door een eigen Nederlandstalig model te ontwikkelen hoopt men meer autonomie te krijgen.

20
00:01:30,160 --> 00:01:35,920
De ambities die zich gesteld hebben met GPT-NL zijn nogal hoog.

21
00:01:35,920 --> 00:01:42,280
Zo wil men met het model bijdragen aan het oplossen van maatschappelijke uitdagingen,

22
00:01:42,280 --> 00:01:47,360
moet het model helpen bij het vergroten van digitale inclusiviteit en het vergroten van

23
00:01:47,360 --> 00:01:48,720
de onderwijskwaliteit.

24
00:01:48,720 --> 00:01:53,440
Kortom, GPT-NL moet gaan bijdragen aan een betere samenleving.

25
00:01:53,440 --> 00:01:57,560
Daarnaast zijn er ambities op het gebied van transparantie en ethiek.

26
00:01:57,560 --> 00:02:00,280
Dat ondersteun ik heel erg.

27
00:02:00,280 --> 00:02:05,400
GPT-NL zou alleen getraind moeten worden op data waarvoor toestemming is van de maker.

28
00:02:05,400 --> 00:02:09,040
Ook wil men voorkomen dat het model vooroordelen reproduceert.

29
00:02:09,040 --> 00:02:14,080
Dit in tegenstelling tot de grote taalmodellen die vaak op internetdata getraind zijn zonder

30
00:02:14,080 --> 00:02:15,480
controle op herkomst.

31
00:02:15,480 --> 00:02:20,600
Er klinkt ook kritiek rondom het GPT-NL.

32
00:02:20,600 --> 00:02:26,200
Ten eerste is 13,5 miljoen euro niet veel geld voor het trainen van een groot taalmodel.

33
00:02:26,200 --> 00:02:28,320
Dat is ChatGPT bijvoorbeeld.

34
00:02:28,320 --> 00:02:32,400
Als die getraind moet worden, kost 1 cycle al miljoenen.

35
00:02:32,400 --> 00:02:37,360
En we weten dat het honderden miljoenen, zo niet miljarden, heeft gekost om te komen waar

36
00:02:37,360 --> 00:02:38,360
ze nu staan.

37
00:02:38,360 --> 00:02:43,880
Met relatief weinig geld is het lastig om een model van gelijkbaar kwaliteit te maken.

38
00:02:43,880 --> 00:02:48,960
Zelf vind ik dat de focus op alleen Nederlandse tekst nogal nauw is.

39
00:02:48,960 --> 00:02:55,680
Het onderzoek blijkt dat meertalige modellen technisch gezien beter generaliseren, omdat

40
00:02:55,680 --> 00:02:59,560
dan de onderliggende taalstructuur beter geleerd wordt.

41
00:02:59,560 --> 00:03:04,440
Maar wellicht door een Europees initiatief ervan te maken, kunnen ze deze horden wel

42
00:03:04,440 --> 00:03:05,440
nemen.

43
00:03:05,440 --> 00:03:11,800
En die Nederlandse data, daar is dan ook wel de vraag van waar moet die dan vandaan komen?

44
00:03:11,800 --> 00:03:14,040
Is dat dan alleen uit gratis bronnen?

45
00:03:14,040 --> 00:03:20,960
Want door de hebberige dataverzameling van Big Tech zullen mediabedrijven en andere contentmakers

46
00:03:20,960 --> 00:03:23,640
nu niet staan te springen voor het afstaan van data.

47
00:03:23,640 --> 00:03:25,360
Laat staan gratis toch?

48
00:03:25,360 --> 00:03:30,480
Dus met een budget van 13 miljoen, is dat best wel een uitdaging wat mij betreft.

49
00:03:30,480 --> 00:03:33,360
En ook nog over de wetgeving.

50
00:03:33,360 --> 00:03:40,520
De EU-act die er aankomt en andere beleidskaders stellen strenge eisen aan AI-producten.

51
00:03:40,520 --> 00:03:45,760
Het is nog maar de vraag of en hoe dat Nederlands model hieraan zal voldoen.

52
00:03:45,760 --> 00:03:49,680
Zelfs met betrouwbare data kan een model nog steeds fouten maken.

53
00:03:49,680 --> 00:03:55,480
Dus als de overheid, ze willen dit ook richten op de overheid, dit model gaat gebruiken,

54
00:03:55,480 --> 00:03:57,720
moet er wel kritisch gekeken worden naar de uitkomsten.

55
00:03:57,720 --> 00:04:03,760
En het is ook een illusie om te denken dat als je hier alleen maar gecontroleerde feitelijke

56
00:04:03,760 --> 00:04:09,520
data in stopt, dat het model ook alleen maar feitelijk correcte informatie teruggeeft.

57
00:04:09,520 --> 00:04:15,520
De GPT-technologie is echt een woord voor woord voor woordvoorspeller en zal ook die

58
00:04:15,520 --> 00:04:17,560
feitelijkheden door elkaar husselen.

59
00:04:17,560 --> 00:04:19,920
Waardoor je zinnen krijgt die er niet kloppen.

60
00:04:19,920 --> 00:04:23,520
Maar laten we de positieve kant niet vergeten.

61
00:04:23,520 --> 00:04:27,320
De ambities van dit project zijn wat mij betreft bewonderenswaardig.

62
00:04:27,320 --> 00:04:32,520
Het draait allemaal om het beschermen van onze waarden, het aantrekken en behouden van AI-talent.

63
00:04:32,520 --> 00:04:34,240
En dat is natuurlijk ook heel belangrijk.

64
00:04:34,240 --> 00:04:39,800
Dus ik ben van mening dat dit initiatief het voordeel van de twijfel verdient, maar laten

65
00:04:39,800 --> 00:04:40,880
we niet naïef zijn.

66
00:04:40,880 --> 00:04:44,160
De uitdagingen zijn immens en de ambities zijn hoog.

67
00:04:44,160 --> 00:04:47,480
Dit is precies waarom onderzoek zo belangrijk is.

68
00:04:47,480 --> 00:04:52,480
We onderzoeken omdat we antwoord willen vinden op vragen die we nog niet kunnen beantwoorden.

69
00:04:52,480 --> 00:04:58,280
Dus ik kijk uit naar de resultaten van TNO, SURF en het NFI aan het eind van 2024.

70
00:04:58,280 --> 00:05:04,000
En ik hoop vurig dat de wetenschappelijke inzichten die zij opdoen vrij gedeeld zullen worden

71
00:05:04,000 --> 00:05:05,000
met de wereld.

72
00:05:05,000 --> 00:05:09,320
Dit was mijn blik op de toekomst van het Nederlands AI-taalmodel.

73
00:05:09,320 --> 00:05:14,400
Ik denk een pad bezaaid met zowel kansen als uitdagingen.

74
00:05:14,400 --> 00:05:15,400
Wat denk jij?

75
00:05:15,400 --> 00:05:18,400
Laat je reacties achter of discussieer mee via LinkedIn.

76
00:05:18,400 --> 00:05:21,600
Dit was het weer voor vandaag.

77
00:05:21,600 --> 00:05:24,040
Bedankt voor het luisteren en tot de volgende keer!

78
00:05:24,040 --> 00:05:26,040
[Muziek]

79
00:05:26,040 --> 00:05:29,040
[Muziek]