Pretraining AI

Greatminds podcast

Greatminds podcast
Pretraining AI
Jul 08, 2024 Season 1 Episode 5
Greatminds

Send us a text

In de deze aflevering van de greatminds podcast gaat Hildo van Es, IT-architect en medeoprichter van greatminds, in gesprek met Robin Smits van Lumi ML Consulting. Ze ontrafelen de geheimen van pre-training bij LLM's (Large Language Models). Ook hebben ze het erover waarom deze cruciale stap onmisbaar is voor de vooruitgang van kunstmatige intelligentie. Robin vertelt hoe pre-training werkt en legt uit waarom het zo’n belangrijke rol speelt in het totale AI-proces.

πŸ”‘ Belangrijkste inzichten:

  • Zonder pre-training kan een model niets: dit is de ruggengraat van elk AI-systeem. 
  • De kwaliteit van je dataset bepaalt de waarde van je model β€” niet alleen de omvang. 
  • Pre-training is kostbaar, maar de strategische keuzes in dit stadium maken het verschil.

πŸ“± Connect met onze gast en host: 

Robin Smits | Hildo van Es 

⏱ Tijdstempels:

00:00 – Introductie Hildo en Robin 

01:15 – Wat is pre-training en waarom is het zo belangrijk? 

04:14 – Verschil met RAG, promptengineering en fine-tuning 

08:05 – Hoe werkt pre-training in de praktijk? 

09:57 – Soorten data: tekst, code, multimodaal 

16:03 – Vereisten aan hardware: tienduizenden GPU’s 

19:00 – Small Language Models en edge deployment 

21:18 – Evaluatie: hoe weet je of pre-training goed gelukt is? 

22:05 – Risico’s van slechte datasets en verkeerde kennis 

23:37 – Continuous pre-training en het risico van vergeten 

25:09 – Trends: model collapse, multilingual & multimodal AI 

28:09 – Kosten, energieverbruik en kerncentrales 

29:17 – Continuous pre-training in het SDLC-proces 

34:00 – Afsluiting