We waarderen je privacy

    We gebruiken cookies om verkeer te analyseren, onze website te verbeteren en relevante content te tonen. Jij bepaalt wat we mogen gebruiken. Lees ons privacybeleid.

    Live AI-nieuws
    Netris haalt $15M op om de uitrol van AI-neoclouds te versnellenAdobe neemt Topaz Labs over, specialist in beeld- en videoverbeteringRegering-Trump stelt voor om rempedaalplicht voor zelfrijdende auto's te schrappenRegering-Trump verbiedt Polestar de verkoop van nieuwe EV's in de VSVoormalig AI-chef van Databricks wil energiekosten van AI met factor 1.000 verlagenApple verhoogt prijzen voor Mac en iPad; iPhone blijft voorlopig ongewijzigdApple verhoogt prijzen van diverse producten met tot wel 30 procentAnthropic's Claude wint terrein op ChatGPT in de betaalde consumentenmarktBeveiligingsupdates Windows 10 verlengd tot oktober 2027EU merkt clouddiensten Microsoft en Amazon aan als poortwachters onder DMA-wetGoogle Play Store schrapt verplichte afdracht van 30 procent voor ontwikkelaarsGeneral Intuition zet $2,3 miljard in op het trainen van AI-agents via videogames
    Netris haalt $15M op om de uitrol van AI-neoclouds te versnellenAdobe neemt Topaz Labs over, specialist in beeld- en videoverbeteringRegering-Trump stelt voor om rempedaalplicht voor zelfrijdende auto's te schrappenRegering-Trump verbiedt Polestar de verkoop van nieuwe EV's in de VSVoormalig AI-chef van Databricks wil energiekosten van AI met factor 1.000 verlagenApple verhoogt prijzen voor Mac en iPad; iPhone blijft voorlopig ongewijzigdApple verhoogt prijzen van diverse producten met tot wel 30 procentAnthropic's Claude wint terrein op ChatGPT in de betaalde consumentenmarktBeveiligingsupdates Windows 10 verlengd tot oktober 2027EU merkt clouddiensten Microsoft en Amazon aan als poortwachters onder DMA-wetGoogle Play Store schrapt verplichte afdracht van 30 procent voor ontwikkelaarsGeneral Intuition zet $2,3 miljard in op het trainen van AI-agents via videogames
    Terug naar artikelen// AI Fundamentals

    Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen

    Dat is de voedingsbodem voor algoritmes, maar waar komt die data vandaan en wat te doen als de data "op" is?

    Job van den Berg Gepubliceerd 7 juli 2024 2 min lezen
    Niet alleen de kwantiteit maar ook de kwaliteit is belangrijk

    Ongeveer 10 jaar geleden spraken we over ‘big data’ en de enorme hoeveelheden data die beschikbaar kwamen en hoe we deze moesten 'verwaarden'. Sindsdien zijn de hoeveelheden data explosief toegenomen: in de laatste twee jaar hebben we 90% van de totale hoeveelheid data verzameld, aldus Statista. En de groei is nog lang niet ten einde. Epoch.ai voorspelt zelfs dat we in 2026 alle beschikbare data hebben 'verbruikt'.

    Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen

    Ongeveer 10 jaar geleden spraken we over ‘big data’ en de enorme hoeveelheden data die beschikbaar kwamen en hoe we deze moesten 'verwaarden'. Sindsdien zijn de hoeveelheden data explosief toegenomen: in de laatste twee jaar hebben we 90% van de totale hoeveelheid data verzameld, aldus Statista. En de groei is nog lang niet ten einde. Deze toename is enerzijds te danken aan ons internetconsumptiegedrag en anderzijds aan de toename in rekenkracht, wat de behoefte aan data vergroot én nieuwe data genereert. Dit heeft echter geleid tot een groot probleem: de kwaliteit van data neemt significant af en data van hoge kwaliteit worden steeds schaarser. Epoch.ai voorspelt zelfs dat we in 2026 alle beschikbare data hebben 'verbruikt'.

    Het probleem van data schaarste

    Vergelijk het met een gasvoorraad: als er meer gas wordt verbruikt dan geproduceerd, ontstaat er schaarste. Hetzelfde gebeurt nu met data, met een belangrijke nuance: er zijn voldoende data, maar het ontbreekt aan kwalitatief hoogwaardige en bruikbare data. Kwalitatief goede data worden schaarser en raken uitgeput. Maar hoe komt dit?

    De oorzaken van data schaarste

    Er zijn twee hoofdredenen voor de schaarste aan kwalitatief hoogwaardige data. Ten eerste, door de enorme toename van AI- en taalmodellen is de vraag naar data exponentieel toegenomen. Data zijn immers de brandstof voor AI. Ten tweede, de opkomst van synthetische data heeft de situatie verergerd. Synthetische data zijn door AI gecreëerde of afgeleide data, zoals door AI gegenereerde afbeeldingen of teksten. Deze data worden vaak gebruikt als trainingsdata voor AI-modellen, maar dit creëert een vicieuze cirkel. Als een taalmodel een fout antwoord geeft, kan deze output alsnog worden gebruikt voor (her)trainingsdoeleinden, wat de kwaliteit van de data en modellen verder kan verminderen.

    De vraag naar unieke, hoogwaardige data

    Er is een enorme vraag naar datasets met unieke, kwalitatief hoogwaardige data. Data die direct zijn verzameld op basis van menselijk gedrag in de fysieke wereld zijn hierbij essentieel. Voorbeelden hiervan zijn het uitgebreide foto- en filmarchief van de Britse omroep BBC, dat door techpartijen is benaderd voor toegang tot miljoenen opnames die nooit zijn uitgezonden. Deze beelden en geluidsopnamen zijn cruciaal voor de doorontwikkeling van AI-modellen zoals beeldgeneratoren DALL-E en Midjourney, en voor het trainen van AI-modellen om specifieke objecten te herkennen.

    Data-partnerships

    Een ander voorbeeld is de miljoenensamenwerking tussen Google en Universal Music, om toegang te krijgen tot alle geluidsopnamen en de rechten om deze te gebruiken. Dit is opnieuw gericht op het verkrijgen van kwalitatief hoogwaardige input voor de verdere ontwikkeling van AI-modellen, bijvoorbeeld voor spraakherkenning. Bedrijven die unieke data verzamelen, zullen de komende jaren veel geld kunnen verdienen met het verkopen van deze data. Het belang van goede data zal alleen maar toenemen, want AI werkt alleen optimaal als de data op orde zijn.

    Het voorkomen van biases

    Het is essentieel om biases in AI te voorkomen. Dit kan alleen met de juiste en kwalitatief hoogwaardige data. Biases ontstaan wanneer de data die worden gebruikt om AI te trainen, vooroordelen bevatten. Deze vooroordelen kunnen doorwerken in de AI-resultaten, wat kan leiden tot ongewenste en discriminerende uitkomsten. Door hoogwaardige, diverse en representatieve data te gebruiken, kunnen biases zoveel mogelijk worden geminimaliseerd.

    Conclusie

    De toekomst van AI hangt sterk af van de beschikbaarheid van kwalitatief hoogwaardige data. Terwijl de hoeveelheid data blijft groeien, neemt de kwaliteit af, wat een grote uitdaging vormt voor de ontwikkeling van betrouwbare AI-systemen. Het is cruciaal om te investeren in het verzamelen en behouden van hoogwaardige data, zodat we AI kunnen blijven ontwikkelen op een manier die nuttig en ethisch verantwoord is. Bedrijven die hierin slagen, zullen een belangrijke rol spelen in de toekomst van technologie en data-analyse.

    Job van den Berg — Mede-oprichter, AI Keynote Spreker & Techondernemer bij ai.nl

    // Over de auteur

    Job van den Berg

    Mede-oprichter, AI Keynote Spreker & Techondernemer

    Tech-ondernemer (1989) met een achtergrond als socioloog (Research Master (MSc) in statistiek en sociologie) en een van de meest gevraagde keynote sprekers over AI en data in Nederland. Als mede-oprichter van Ai.nl, The Automation Group en Proxies leidt hij engineers die agentic AI van prototype naar productie brengen binnen enterprises. Op het podium vertaalt Job die hands-on praktijk naar concrete strategieën. Eerder was Job Chief Data bij o.a. DPG Media en Kantar. Hij is co-auteur van 5 boeken over AI waaronder 'AI Agents' en 'Handboek AI Strategie' en een veelgevraagd expert in de landelijke media.

    LinkedIn
    // AAN DE SLAG// Hoe we kunnen helpen

    Verder dan lezen — laat AI voor je werken.

    // VERDER LEZENAlle artikelen

    Meer uit AI Fundamentals.

    Nieuwsbrief

    Altijd op de hoogte van AI.

    Eens per maand: cases, frameworks en concrete voorbeelden van wat werkt op de werkvloer. Geen ruis.

    Geen spam. Uitschrijven kan altijd.