Waarom evalueren we (Open Source) LLM’s?

Greatminds podcast

Greatminds podcast
Waarom evalueren we (Open Source) LLM’s?
Apr 23, 2024 Season 1 Episode 1
Hildo van Es en Robin Smits

Send us a text

AI biedt veelbelovende kansen, maar brengt ook serieuze risico’s met zich mee — vooral als we vergeten te evalueren wat we precies gebruiken. In deze aflevering van de greatminds podcast gaan Hildo van Es en data scientist Robin Smits in op de noodzaak van het evalueren van open source LLM’s (Large Language Models). Waarom moet je niet blind vertrouwen op bestaande modellen? Wat zijn de risico’s als je dat wel doet?

🔑 Belangrijkste inzichten:

  • Evaluatie gaat verder dan prestatie: ethiek, bias en veiligheid zijn net zo belangrijk. 
  • Hugging Face biedt standaardbenchmarks, maar handmatig testen blijft onmisbaar. 
  • Kleine benchmarks kunnen evaluatie toegankelijker maken zonder veel performanceverlies.

📱 Connect met onze gast en host: 

Robin Smits | Hildo van Es 

⏱ Tijdstempels:

00:00 – Introductie Hildo en Robin 

01:43 – Waarom je altijd moet evalueren: de DPD-chatbot en Cortana 

03:32 – Wat is evalueren in de context van LLMs? 

05:09 – Hugging Face en het Open LLM Leaderboard 

08:19 – Van GLUE naar SuperGLUE naar moderne benchmarks 

09:56 – Meertalige evaluatie en het Nederlandse leaderboard 

11:58 – Fine-tuning op je eigen dataset: moet je opnieuw testen? 

19:20 – Chatbot Arena & subjectieve vergelijking 

20:35 – Kosten, hardware en stroomverbruik 

21:40 – Tiny Benchmarks: minder data, bijna dezelfde betrouwbaarheid 

22:47 – Vooruitblik op volgende aflevering over bias