Live AI-nieuws
    Sony overweegt AI-systeem dat gameplay knipt tot korte videoclips voor socialsKoreaanse fabrikanten steunen Config om de TSMC van robotdata te wordenGM betaalt 12,75 miljoen dollar in schikking om privacy van chauffeurs in CaliforniëBig Tech wil chipmachines kopen voor SK hynix om geheugen te verzekerenNieuwe reCaptcha-check werkt niet op Android-telefoons zonder Google-dienstenWingtech eist 8 miljard dollar van de Nederlandse staat om Nexperia-ingrijpenAI-beveiligingstool Mythos claimt onterecht vier kwetsbaarheden in curlTesla FSD na 15 mei in Nederland alleen nog beschikbaar als abonnementElon Musk en Sam Altman strijden in de rechtbank om de toekomst van OpenAISony en TSMC gaan gezamenlijk beeldsensoren producerenNvidia heeft dit jaar al voor 40 miljard dollar aan AI-aandelenovernames toegezegdAnthropic wijt chantagepogingen van Claude aan 'slechte' AI-uitbeeldingen
    Sony overweegt AI-systeem dat gameplay knipt tot korte videoclips voor socialsKoreaanse fabrikanten steunen Config om de TSMC van robotdata te wordenGM betaalt 12,75 miljoen dollar in schikking om privacy van chauffeurs in CaliforniëBig Tech wil chipmachines kopen voor SK hynix om geheugen te verzekerenNieuwe reCaptcha-check werkt niet op Android-telefoons zonder Google-dienstenWingtech eist 8 miljard dollar van de Nederlandse staat om Nexperia-ingrijpenAI-beveiligingstool Mythos claimt onterecht vier kwetsbaarheden in curlTesla FSD na 15 mei in Nederland alleen nog beschikbaar als abonnementElon Musk en Sam Altman strijden in de rechtbank om de toekomst van OpenAISony en TSMC gaan gezamenlijk beeldsensoren producerenNvidia heeft dit jaar al voor 40 miljard dollar aan AI-aandelenovernames toegezegdAnthropic wijt chantagepogingen van Claude aan 'slechte' AI-uitbeeldingen
    Terug naar artikelen// AI Fundamentals

    Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen

    Dat is de voedingsbodem voor algoritmes, maar waar komt die data vandaan en wat te doen als de data "op" is?

    Job van den Berg Gepubliceerd 7 juli 2024 2 min lezen
    Niet alleen de kwantiteit maar ook de kwaliteit is belangrijk

    Ongeveer 10 jaar geleden spraken we over ‘big data’ en de enorme hoeveelheden data die beschikbaar kwamen en hoe we deze moesten 'verwaarden'. Sindsdien zijn de hoeveelheden data explosief toegenomen: in de laatste twee jaar hebben we 90% van de totale hoeveelheid data verzameld, aldus Statista. En de groei is nog lang niet ten einde. Epoch.ai voorspelt zelfs dat we in 2026 alle beschikbare data hebben 'verbruikt'.

    Waarom er over 2 jaar een schaarste aan data is en wat we er aan kunnen doen

    Ongeveer 10 jaar geleden spraken we over ‘big data’ en de enorme hoeveelheden data die beschikbaar kwamen en hoe we deze moesten 'verwaarden'. Sindsdien zijn de hoeveelheden data explosief toegenomen: in de laatste twee jaar hebben we 90% van de totale hoeveelheid data verzameld, aldus Statista. En de groei is nog lang niet ten einde. Deze toename is enerzijds te danken aan ons internetconsumptiegedrag en anderzijds aan de toename in rekenkracht, wat de behoefte aan data vergroot én nieuwe data genereert. Dit heeft echter geleid tot een groot probleem: de kwaliteit van data neemt significant af en data van hoge kwaliteit worden steeds schaarser. Epoch.ai voorspelt zelfs dat we in 2026 alle beschikbare data hebben 'verbruikt'.

    Het probleem van data schaarste

    Vergelijk het met een gasvoorraad: als er meer gas wordt verbruikt dan geproduceerd, ontstaat er schaarste. Hetzelfde gebeurt nu met data, met een belangrijke nuance: er zijn voldoende data, maar het ontbreekt aan kwalitatief hoogwaardige en bruikbare data. Kwalitatief goede data worden schaarser en raken uitgeput. Maar hoe komt dit?

    De oorzaken van data schaarste

    Er zijn twee hoofdredenen voor de schaarste aan kwalitatief hoogwaardige data. Ten eerste, door de enorme toename van AI- en taalmodellen is de vraag naar data exponentieel toegenomen. Data zijn immers de brandstof voor AI. Ten tweede, de opkomst van synthetische data heeft de situatie verergerd. Synthetische data zijn door AI gecreëerde of afgeleide data, zoals door AI gegenereerde afbeeldingen of teksten. Deze data worden vaak gebruikt als trainingsdata voor AI-modellen, maar dit creëert een vicieuze cirkel. Als een taalmodel een fout antwoord geeft, kan deze output alsnog worden gebruikt voor (her)trainingsdoeleinden, wat de kwaliteit van de data en modellen verder kan verminderen.

    De vraag naar unieke, hoogwaardige data

    Er is een enorme vraag naar datasets met unieke, kwalitatief hoogwaardige data. Data die direct zijn verzameld op basis van menselijk gedrag in de fysieke wereld zijn hierbij essentieel. Voorbeelden hiervan zijn het uitgebreide foto- en filmarchief van de Britse omroep BBC, dat door techpartijen is benaderd voor toegang tot miljoenen opnames die nooit zijn uitgezonden. Deze beelden en geluidsopnamen zijn cruciaal voor de doorontwikkeling van AI-modellen zoals beeldgeneratoren DALL-E en Midjourney, en voor het trainen van AI-modellen om specifieke objecten te herkennen.

    Data-partnerships

    Een ander voorbeeld is de miljoenensamenwerking tussen Google en Universal Music, om toegang te krijgen tot alle geluidsopnamen en de rechten om deze te gebruiken. Dit is opnieuw gericht op het verkrijgen van kwalitatief hoogwaardige input voor de verdere ontwikkeling van AI-modellen, bijvoorbeeld voor spraakherkenning. Bedrijven die unieke data verzamelen, zullen de komende jaren veel geld kunnen verdienen met het verkopen van deze data. Het belang van goede data zal alleen maar toenemen, want AI werkt alleen optimaal als de data op orde zijn.

    Het voorkomen van biases

    Het is essentieel om biases in AI te voorkomen. Dit kan alleen met de juiste en kwalitatief hoogwaardige data. Biases ontstaan wanneer de data die worden gebruikt om AI te trainen, vooroordelen bevatten. Deze vooroordelen kunnen doorwerken in de AI-resultaten, wat kan leiden tot ongewenste en discriminerende uitkomsten. Door hoogwaardige, diverse en representatieve data te gebruiken, kunnen biases zoveel mogelijk worden geminimaliseerd.

    Conclusie

    De toekomst van AI hangt sterk af van de beschikbaarheid van kwalitatief hoogwaardige data. Terwijl de hoeveelheid data blijft groeien, neemt de kwaliteit af, wat een grote uitdaging vormt voor de ontwikkeling van betrouwbare AI-systemen. Het is cruciaal om te investeren in het verzamelen en behouden van hoogwaardige data, zodat we AI kunnen blijven ontwikkelen op een manier die nuttig en ethisch verantwoord is. Bedrijven die hierin slagen, zullen een belangrijke rol spelen in de toekomst van technologie en data-analyse.

    Job van den Berg — Mede-oprichter, AI Keynote Spreker & Techondernemer bij ai.nl

    // Over de auteur

    Job van den Berg

    Mede-oprichter, AI Keynote Spreker & Techondernemer

    Tech-ondernemer (1989) met een achtergrond als socioloog (BSc Sociologie en MSc Research Master Sociology and Social Research & Statistics, Universiteit Utrecht) en een van de meest gevraagde keynote sprekers over AI en data in Nederland. Als mede-oprichter van Ai.nl, The Automation Group en Proxies leidt hij engineers die agentic AI van prototype naar productie brengen binnen enterprises. Op het podium vertaalt Job die hands-on praktijk naar concrete strategieën. Eerder was Job Chief Data bij o.a. DPG Media en Kantar. Hij is co-auteur van 5 boeken over AI waaronder 'AI Agents' en 'Handboek AI Strategie' en een veelgevraagd expert in de landelijke media.

    LinkedIn
    // AAN DE SLAG// Hoe we kunnen helpen

    Verder dan lezen — laat AI voor je werken.

    // VERDER LEZENAlle artikelen

    Meer uit AI Fundamentals.

    Nieuwsbrief

    Blijf voor op AI.

    Eens per maand: cases, frameworks en concrete voorbeelden van wat werkt op de werkvloer. Geen ruis.

    Geen spam. Uitschrijven kan altijd.