Live AI-nieuws
    Sony and TSMC partner to manufacture image sensors togetherAnthropic blames 'evil' AI portrayals for Claude’s blackmail attemptsElon Musk and Sam Altman battle in court over the future of OpenAIKorean manufacturers back Config to become the TSMC of robot dataNew reCaptcha check fails on Android phones without Google servicesGM to pay $12.75 million in California driver privacy settlementSony considers AI to edit gameplay into short social media clipsTesla FSD will only be available as a subscription in the Netherlands after May 15Big Tech reportedly plans to buy chip machines for SK hynix memory labsAI security tool Mythos falsely flags four vulnerabilities in curlWingtech demands $8 billion from Dutch state over Nexperia interventionNvidia has committed $40 billion to AI equity deals this year
    Sony and TSMC partner to manufacture image sensors togetherAnthropic blames 'evil' AI portrayals for Claude’s blackmail attemptsElon Musk and Sam Altman battle in court over the future of OpenAIKorean manufacturers back Config to become the TSMC of robot dataNew reCaptcha check fails on Android phones without Google servicesGM to pay $12.75 million in California driver privacy settlementSony considers AI to edit gameplay into short social media clipsTesla FSD will only be available as a subscription in the Netherlands after May 15Big Tech reportedly plans to buy chip machines for SK hynix memory labsAI security tool Mythos falsely flags four vulnerabilities in curlWingtech demands $8 billion from Dutch state over Nexperia interventionNvidia has committed $40 billion to AI equity deals this year
    Back to articles// AI Fundamentals

    Wat is multicollineariteit en waarom is het belangrijk te herkennen bij de toepassing van AI?

    Multicollineariteit is een statistisch concept dat regelmatig voorkomt in AI- en machine learning-modellen en kan leiden tot vertekende resultaten en interpretaties. In deze blog leg ik uit wat multicollineariteit is, waarom het een probleem kan zijn in voorspellende modellen en hoe je dit kunt aanpakken.

    Job van den Berg Published 3 oktober 2024 2 min read
    Wat is multicollineariteit en waarom is het belangrijk te herkennen bij de toepassing van AI?

    Multicollineariteit is een statistisch concept dat regelmatig voorkomt in AI- en machine learning-modellen en kan leiden tot vertekende resultaten en interpretaties. In deze blog leg ik uit wat multicollineariteit is, waarom het een probleem kan zijn in voorspellende modellen en hoe je dit kunt aanpakken.

    Wat is multicollineariteit?

    Multicollineariteit treedt op wanneer twee of meer onafhankelijke variabelen in een statistisch model sterk met elkaar correleren. Dit betekent dat deze variabelen vergelijkbare informatie bevatten, wat het moeilijker maakt om te bepalen welk effect elke variabele afzonderlijk heeft op de afhankelijke variabele die je probeert te voorspellen. Hierdoor kunnen de schattingen van de modelparameters onbetrouwbaar worden, wat de voorspellingen van het model negatief beïnvloedt.

    Een eenvoudig voorbeeld

    Stel, je wilt het salaris van een werknemer voorspellen en je gebruikt de volgende kenmerken als inputvariabelen:

    • Leeftijd
    • Aantal jaren werkervaring
    • De sector waarin iemand werkt

    Deze variabelen noem je onafhankelijke variabelen, omdat ze allemaal een invloed kunnen hebben op de afhankelijke variabele, in dit geval het salaris. Maar in dit voorbeeld kunnen leeftijd en aantal jaren werkervaring sterk met elkaar samenhangen. Immers, hoe ouder iemand is, hoe meer jaren werkervaring die persoon waarschijnlijk heeft. Dit zorgt voor een hoge correlatie tussen deze twee variabelen, wat een typische vorm van multicollineariteit is.

    Waarom is multicollineariteit een probleem?

    Als variabelen sterk met elkaar samenhangen, kunnen ze voor problemen zorgen in je model. Dit komt omdat het moeilijk wordt om te bepalen welke van de variabelen nu écht invloed heeft op de uitkomst. Het model kan hierdoor hele vertekende voorspellingen geven. In ons voorbeeld kan het gebeuren dat het AI-model onterecht de invloed van leeftijd overschat en de invloed van werkervaring onderschat, of andersom. Dit leidt tot een verminderde nauwkeurigheid en betrouwbaarheid van het model.

    Hoe herken je multicollineariteit?

    Je kunt multicollineariteit opsporen door gebruik te maken van de Variance Inflation Factor (VIF). Deze maat geeft aan hoeveel de variantie van een modelparameter toeneemt door de aanwezigheid van correlatie tussen de onafhankelijke variabelen. Als de VIF-waarde van een variabele groter is dan 5, dan heb je waarschijnlijk te maken met multicollineariteit.

    Hoe los je multicollineariteit op?

    1. Verwijderen van een van de sterk correlerende variabelen
      Als twee variabelen vrijwel dezelfde informatie bevatten, kun je overwegen om er één te verwijderen. In ons voorbeeld kun je bijvoorbeeld kiezen om ofwel leeftijd of aantal jaren werkervaring uit het model te halen.
    2. Gebruik maken van PCA (Principal Component Analysis)
      PCA is een techniek die de sterk correlerende variabelen omzet in nieuwe, niet-gerelateerde variabelen. Hierdoor behoud je de informatie, maar minimaliseer je het effect van multicollineariteit.
    3. Het combineren van variabelen
      In sommige gevallen kun je de variabelen combineren. Bijvoorbeeld door in plaats van leeftijd en aantal jaren werkervaring afzonderlijk te gebruiken, een nieuwe variabele te maken die de verhouding tussen de twee weergeeft.

    Conclusie

    Multicollineariteit kan de prestaties van je AI-modellen aanzienlijk beïnvloeden. Door bewust te zijn van dit probleem en het op te lossen met technieken zoals het verwijderen van overbodige variabelen, PCA, of het combineren van variabelen, kun je ervoor zorgen dat je modellen robuuster en betrouwbaarder worden.

    Wil je meer leren over hoe je je AI-modellen kunt optimaliseren? Bekijk dan de video.

    Job van den Berg — Mede-oprichter, AI Keynote Spreker & Techondernemer bij ai.nl

    // About the author

    Job van den Berg

    Mede-oprichter, AI Keynote Spreker & Techondernemer

    Tech-ondernemer (1989) met een achtergrond als socioloog (BSc Sociologie en MSc Research Master Sociology and Social Research & Statistics, Universiteit Utrecht) en een van de meest gevraagde keynote sprekers over AI en data in Nederland. Als mede-oprichter van Ai.nl, The Automation Group en Proxies leidt hij engineers die agentic AI van prototype naar productie brengen binnen enterprises. Op het podium vertaalt Job die hands-on praktijk naar concrete strategieën. Eerder was Job Chief Data bij o.a. DPG Media en Kantar. Hij is co-auteur van 5 boeken over AI waaronder 'AI Agents' en 'Handboek AI Strategie' en een veelgevraagd expert in de landelijke media.

    LinkedIn
    // GET STARTED// How we can help

    Beyond reading — let AI work for you.

    // CONTINUE READINGAll articles

    More from AI Fundamentals.

    Nieuwsbrief

    Blijf voor op AI.

    Eens per maand: cases, frameworks en concrete voorbeelden van wat werkt op de werkvloer. Geen ruis.

    Geen spam. Uitschrijven kan altijd.