Terug naar artikelen// AI Fundamentals

Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen

Dat is de voedingsbodem voor algoritmes, maar waar komt die data vandaan en wat te doen als de data "op" is?

Job van den Berg Gepubliceerd 7 juli 2024 2 min lezen

Niet alleen de kwantiteit maar ook de kwaliteit is belangrijk

Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen

Ongeveer 10 jaar geleden spraken we over ‘big data’ en de enorme hoeveelheden data die beschikbaar kwamen en hoe we deze moesten 'verwaarden'. Sindsdien zijn de hoeveelheden data explosief toegenomen: in de laatste twee jaar hebben we 90% van de totale hoeveelheid data verzameld, aldus Statista. En de groei is nog lang niet ten einde. Deze toename is enerzijds te danken aan ons internetconsumptiegedrag en anderzijds aan de toename in rekenkracht, wat de behoefte aan data vergroot én nieuwe data genereert. Dit heeft echter geleid tot een groot probleem: de kwaliteit van data neemt significant af en data van hoge kwaliteit worden steeds schaarser. Epoch.ai voorspelt zelfs dat we in 2026 alle beschikbare data hebben 'verbruikt'.

Het probleem van data schaarste

Vergelijk het met een gasvoorraad: als er meer gas wordt verbruikt dan geproduceerd, ontstaat er schaarste. Hetzelfde gebeurt nu met data, met een belangrijke nuance: er zijn voldoende data, maar het ontbreekt aan kwalitatief hoogwaardige en bruikbare data. Kwalitatief goede data worden schaarser en raken uitgeput. Maar hoe komt dit?

De oorzaken van data schaarste

Er zijn twee hoofdredenen voor de schaarste aan kwalitatief hoogwaardige data. Ten eerste, door de enorme toename van AI- en taalmodellen is de vraag naar data exponentieel toegenomen. Data zijn immers de brandstof voor AI. Ten tweede, de opkomst van synthetische data heeft de situatie verergerd. Synthetische data zijn door AI gecreëerde of afgeleide data, zoals door AI gegenereerde afbeeldingen of teksten. Deze data worden vaak gebruikt als trainingsdata voor AI-modellen, maar dit creëert een vicieuze cirkel. Als een taalmodel een fout antwoord geeft, kan deze output alsnog worden gebruikt voor (her)trainingsdoeleinden, wat de kwaliteit van de data en modellen verder kan verminderen.

De vraag naar unieke, hoogwaardige data

Er is een enorme vraag naar datasets met unieke, kwalitatief hoogwaardige data. Data die direct zijn verzameld op basis van menselijk gedrag in de fysieke wereld zijn hierbij essentieel. Voorbeelden hiervan zijn het uitgebreide foto- en filmarchief van de Britse omroep BBC, dat door techpartijen is benaderd voor toegang tot miljoenen opnames die nooit zijn uitgezonden. Deze beelden en geluidsopnamen zijn cruciaal voor de doorontwikkeling van AI-modellen zoals beeldgeneratoren DALL-E en Midjourney, en voor het trainen van AI-modellen om specifieke objecten te herkennen.

Data-partnerships

Een ander voorbeeld is de miljoenensamenwerking tussen Google en Universal Music, om toegang te krijgen tot alle geluidsopnamen en de rechten om deze te gebruiken. Dit is opnieuw gericht op het verkrijgen van kwalitatief hoogwaardige input voor de verdere ontwikkeling van AI-modellen, bijvoorbeeld voor spraakherkenning. Bedrijven die unieke data verzamelen, zullen de komende jaren veel geld kunnen verdienen met het verkopen van deze data. Het belang van goede data zal alleen maar toenemen, want AI werkt alleen optimaal als de data op orde zijn.

Het voorkomen van biases

Het is essentieel om biases in AI te voorkomen. Dit kan alleen met de juiste en kwalitatief hoogwaardige data. Biases ontstaan wanneer de data die worden gebruikt om AI te trainen, vooroordelen bevatten. Deze vooroordelen kunnen doorwerken in de AI-resultaten, wat kan leiden tot ongewenste en discriminerende uitkomsten. Door hoogwaardige, diverse en representatieve data te gebruiken, kunnen biases zoveel mogelijk worden geminimaliseerd.

Conclusie

De toekomst van AI hangt sterk af van de beschikbaarheid van kwalitatief hoogwaardige data. Terwijl de hoeveelheid data blijft groeien, neemt de kwaliteit af, wat een grote uitdaging vormt voor de ontwikkeling van betrouwbare AI-systemen. Het is cruciaal om te investeren in het verzamelen en behouden van hoogwaardige data, zodat we AI kunnen blijven ontwikkelen op een manier die nuttig en ethisch verantwoord is. Bedrijven die hierin slagen, zullen een belangrijke rol spelen in de toekomst van technologie en data-analyse.

‍

// Over de auteur

Job van den Berg

Mede-oprichter, AI Keynote Spreker & Techondernemer

Tech-ondernemer (1989) met een achtergrond als socioloog (BSc Sociologie en MSc Research Master Sociology and Social Research & Statistics, Universiteit Utrecht) en een van de meest gevraagde keynote sprekers over AI en data in Nederland. Als mede-oprichter van Ai.nl, The Automation Group en Proxies leidt hij engineers die agentic AI van prototype naar productie brengen binnen enterprises. Op het podium vertaalt Job die hands-on praktijk naar concrete strategieën. Eerder was Job Chief Data bij o.a. DPG Media en Kantar. Hij is co-auteur van 5 boeken over AI waaronder 'AI Agents' en 'Handboek AI Strategie' en een veelgevraagd expert in de landelijke media.

Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen

Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen

Het probleem van data schaarste

De oorzaken van data schaarste

De vraag naar unieke, hoogwaardige data

Data-partnerships

Het voorkomen van biases

Conclusie

Job van den Berg

Verder dan lezen — laat AI voor je werken.

AI Keynote boeken

AI Workshop op maat

AI Consultancy

Meer uit AI Fundamentals.

Waarom agentic AI niet per definitie goedkoper of efficiënter is dan menselijke arbeid

Memory Management: geheugen als cruciale sleutel voor jouw AI Agents

Betere output uit ChatGPT, Gemini en Claude? Stop met perfecte prompts — geef betere context

Blijf voor op AI.