Wat hebben we aan de normale verdeling?

Enneus-heermabrug IJburg
Wat hebben we aan de normale verdeling?

Gepubliceerd: 1-8-2019

Laatste update: 07-11-2019

Als je de lengte van alle kinderen in een klas bepaalt, dan meet je een paar heel lange, een paar heel korte en vooral veel kinderen daartussenin. Ditzelfde patroon zie je bij de tijd die Nederlanders onder de douche doorbrengen, het aantal dagen dat het regent per jaar of het aantal haren per vierkante centimeter huid op je hoofd. Al deze dingen zijn normaal verdeeld. Hoe werkt dat precies?

Redacteur: Hermen Visser

Wat is de normale verdeling?

De normale verdeling is een kansverdeling die je herkent aan een curve met de vorm van een kerstklok. Die krijg je als je de waarden van een variabele (aantal haren, lengte, gewicht) in een grafiek op de x-as uitzet en hoe vaak die waarde voorkomt (frequentie) op de y-as. De kerstklokvorm is symmetrisch: de gemiddelde waarde komt het meest voor en aan twee kanten daarvan loopt de curve in spiegelbeeld naar beneden.

normaleverdeling_bell

Het gewicht van pakken suiker is bijvoorbeeld normaal verdeeld. Als je van 5000 kilopakken suiker het exacte gewicht vaststelt, ontdek je dat veruit de meeste pakken ongeveer een kilo wegen en maar weinig aanzienlijk zwaarder of lichter zijn.

De normale verdeling heeft een curve in de vorm van een (kerst-)klok, en wordt daarom in het Engels vaak 'bell curve' genoemd.

De precieze vorm van de normale verdeling wordt bepaald door de spreiding van de waarden, variantie genaamd. Ligt een groot deel van de waarden dicht bij het gemiddelde, zoals bij een kilopak suiker, dan is de curve hoog en smal. Je spreekt dan van een kleine variantie. Zijn de waarden meer verspreid, dan is de variantie groot en de kerstklok breed en plat.

normaleverdeling_klokjes

Wie heeft de normale verdeling ontdekt?

De ontdekking van de normaalverdeling staat op naam van Carl Friedrich Gauss, een geniale Duitse wis- en natuurkundige. Als eerbetoon heet de normale verdeling ook wel de gaussverdeling en de karakteristieke curve de Gauss-curve. Gauss ontdekt dat als je maar vaak genoeg willekeurige, onafhankelijke dingen bij elkaar optelt (zoals het aantal ogen na duizend keer met tien dobbelstenen gooien) je altijd dezelfde klokvormige curve krijgt. Hij is pas 17 als hij in 1794 de bijbehorende formule bedenkt.

normaleverdeling_gauss
Carl Friedrich Gauss

Aanvankelijk kent de normale verdeling vooral toepassingen in de sterrenkunde. Meetfouten blijken altijd normaal verdeeld, zo ontdekt Gauss. De gemiddelde meting is goed, maar soms meet je iets te veel en soms iets te weinig. Het is de Belgische wetenschapper Adolphe Quetelet die de normale verdeling voor het eerst op de mens loslaat. Aan het begin van de 19e eeuw legt hij de maten van talloze dienstplichtigen vast. Zo ontdekt hij dat zaken als borstomvang en lichaamslengte normaal verdeeld zijn. Dat geldt ook voor de door hem bedachte Queteletindex, beter bekend als de body mass index (BMI). Die bereken je door je gewicht te delen door je lengte in het kwadraat. Deze maat wordt nog steeds veel gebruikt om te bepalen of je een gezond gewicht hebt.

Met behulp van het BMI kun je eenvoudig berekenen hoe gezond je gewicht is. Bekijk hier meer afleveringen van De Rekenkamer.

Waarom is de normale verdeling zo normaal?

De normale verdeling dankt haar naam eraan dat ze zo vaak voorkomt. Als je bijvoorbeeld duizend keer met twintig dobbelstenen gooit, komen 20 en 120 het minst voor en 70 het meest. Je kunt namelijk op absurd veel manieren 70 gooien met 20 dobbelstenen. 20 en 120 kun je elk maar op één manier gooien: 20 keer 1 en 20 keer 6. Hoe vaker je gooit en hoe meer dobbelstenen je gebruikt, hoe perfecter je de normale verdeling benadert.

Als je een experiment maar vaak genoeg herhaalt, nadert de experimentele kans de theoretische kans. 

Dit principe staat bekend als centrale limietstelling: als je heel veel dezelfde onafhankelijke, toevallige variabelen bij elkaar optelt, krijg je een normale verdeling. De centrale limietstelling gaat ook op voor een ingewikkeld verschijnsel als lichaamslengte. Hoewel lichaamslengte één bepaald getal is, is het een resultaat van een ingewikkelde mix van factoren als aanleg, gewoonten, dieet en gezondheid. De bijdrage van deze factoren kun je zien als losse dobbelstenen.

Op hun beurt zijn die factoren weer het resultaat van onderliggende factoren die ook weer afhankelijk zijn van kans. Net als bij het gooien van dobbelstenen zorgen de onderliggende toevalligheden ervoor dat maar weinig mensen heel kort of heel lang zijn en lichaamslengtes rond het gemiddelde veel vaker voorkomen.

normaleverdeling_lichaamslengte

Hoeveel Nederlandse mannen zijn langer dan 1,90 meter?

De normale verdeling beschrijft in simpele termen hoe vaak verschillende waarden voorkomen. Je kunt de normale verdeling ook gebruiken om kansen te berekenen. De kans dat de som van het aantal ogen van twee dobbelstenen zeven is, is veel groter dan dat de som twaalf is. Deze kans is handig voor de gokker, maar ook als je schattingen wilt maken over grote groepen mensen.

Als je bijvoorbeeld wilt weten hoeveel Nederlandse mannen langer zijn dan 1,90 meter, kun je ze allemaal gaan opmeten. Maar dat gaat je nooit lukken, en bovendien is het onnodig. Je weet dat de lichaamslengte normaal verdeeld is. Hier is al veel onderzoek naar gedaan en de gemiddelde lengte van volwassen Nederlandse mannen is 1,84 meter en de standaardafwijking 7,1 centimeter.

Met de formule van de normale verdeling kun je de kans op een lengte van 1,90 meter of langer berekenen. Die is 19 procent. Vermenigvuldig je dat met de 6,14 miljoen Nederlandse mannen van boven de 20 jaar, dan kom je op een aantal van 1,19 miljoen Nederlandse mannen van 1,90 meter of langer. Handig als je wilt inschatten hoe groot de markt is voor extra lange T-shirts.

Nederlanders zijn het langste volk ter wereld, maar is dat altijd zo geweest? Meer afleveringen van De Kennis van Nu vind je op NPO Start.

Hoe maak je een goede peiling?

In aanloop naar verkiezingen draait alles om de peilingen. Die komen tot stand door aan een beperkt aantal Nederlanders te vragen wat ze willen stemmen. Als je zo’n steekproef op de juiste manier neemt, kun je een aardige schatting maken van de stemming in het land. Om te bepalen hoe groot een steekproef moet zijn, wordt de normale verdeling gebruikt.

Een goede steekproef is aselect - iedere Nederlander die mag stemmen heeft evenveel kans om mee te doen. Bovendien moet de groep groot genoeg zijn om een schatting te maken die betrouwbaar én precies is. Betrouwbaar schatten is makkelijk. Als je zegt dat 0 tot 100 procent van de kiezers op de VVD zal stemmen heb je altijd gelijk. Maar je uitspraak is totaal niet precies en is daarmee nietszeggend.

In Zembla vertelt opiniepeiler Maurice de Hond over zijn manier van peilen, of het nu over het EU-referenda of een ruzie tussen Gerard Joling en Gordon gaat. Meer afleveringen van Zembla vind je op NPO Start.

Met de normale verdeling kun je berekenen hoeveel mensen je moet bevragen voor een schatting met een bepaalde betrouwbaarheid en precisie. Voor de betrouwbaarheid wordt vaak 95 procent gekozen. Dat betekent dat als je de steekproef 100 keer doet, 95 steekproeven de juiste waarde bevatten. De precisie wordt aangegeven met een onzekerheidsmarge. Zo kun je bijvoorbeeld zeggen dat 18 tot 22 procent van de kiezers op de VVD wil stemmen. Hierbij is je schatting 20, de onzekerheidsmarge 2 procent en de kans 5 procent dat de echte waarde onder de 18 of boven de 22 ligt.

Let wel: het blijven schattingen en geen voorspellingen. Een peiling kan de plank flink misslaan.

Peiling over Zwarte Piet

Wat is de p-waarde?

Zijn Nederlanders langer dan Belgen? Leggen koolmezen meer eieren dan pimpelmezen? En werkt paracetamol beter dan een placebo? Dit soort vragen is makkelijker gesteld dan beantwoord. Het is onmogelijk om alle inwoners van Nederland en België op te meten, of alle eieren in alle kool- en pimpelmeesnesten te tellen. De oplossing is ook hier het nemen van een steekproef; je doet een beperkt aantal metingen in beide groepen en zegt daarmee iets over het mogelijke verschil. Je loopt dan wel de risico dat je ernaast zit.

Lichaamslengte, het aantal eieren en de werking van een medicijn zijn normaal verdeeld. En met behulp van de normale verdeling kun je de kans op foute conclusies berekenen. Dat doe je door te kijken of je stelling (kool- en pimpelmezen leggen evenveel eieren) klopt. Dit levert een bepaalde waarschijnlijkheid op, ook wel p-waarde genoemd. Hoe lager de p-waarde, hoe onwaarschijnlijker het is dat je stelling klopt en hoe waarschijnlijker je alternatieve hypothese (ze leggen niet evenveel eieren) klopt.

Daarbij moet je vooraf vaststellen wat je een acceptabele kans op een foute uitkomst vindt. Deze grens kies je zo dat de kans dat je onterecht de stelling verwerpt (fout type 1) laag genoeg is, maar niet zo laag dat de kans groot is dat je de stelling onterecht aanneemt (fout type 2). In veel wetenschappelijk onderzoek ligt de grens op 5 procent. Legt de gemiddelde koolmees meer eieren dan de gemiddelde pimpelmees en is de p-waarde minder dan 5 procent, dan noemen we het verschil statistisch significant.

normaleverdeling_mees

Wetenschappers willen natuurlijk graag een statistisch significant resultaat behalen, dat maakt je artikel makkelijker te publiceren en kan je status onder vakgenoten verhogen. Daarom vallen wetenschappers nog wel eens voor de verleiding om hun data zo te masseren, dat er een significant resultaat uitkomt. Dit zogenoemde p-hacking bereik je bijvoorbeeld door je experiment continu te monitoren, en te stoppen zodra het resultaat significant is.

Ook kun je meerdere hypothesen testen, maar alleen die rapporteren die een statistisch significant resultaat gaven, of bepaalde proefpersonen uitsluiten van het experiment om de kans op een significant resultaat te verhogen. Journalisten en collega-wetenschappers zijn daarom soms sceptisch als een p-waarde heel dicht tegen den 5 procent zit - want is het echt statistisch significant, of een gevalletje p-hacking? - ook omdat veel sociaalwetenschappelijk en psychologisch onderzoek bij herhaling een ander resultaat oplevert.

Statistiek

In Het Instituut worden allerlei onderzoekjes gedaan met proefpersonen, zoals dit wedstrijdje panschuiven.

Met behulp van de p-waarde kun je bepalen of een onderzoeksresuktaat statistisch significant is. Rob Urgert legt uit hoe dat werkt. 

In het kort

  • De normale verdeling is een kansverdeling die je herkent aan een curve met de vorm van een kerstklok. Die krijg je als je de waarden van een variabele in een grafiek afzet tegen hoe vaak die waarde voorkomt.

  • De geniale Duitse wis- en natuurkundige Carl Friedrich Gauss ontdekt de normaalverdeling eind 18e eeuw.

  • De normale verdeling dankt haar naam eraan dat ze zo vaak voorkomt. Als je heel veel dezelfde onafhankelijke, toevallige variabelen bij elkaar optelt, krijg je een normale verdeling.

  • Met de formule van de normale verdeling kun je de kans op een lengte van minstens 1,90 meter berekenen. Die is 19 procent. Vermenigvuldig je dat met het aantal mannen in ons land, dan kom je op 1,19 miljoen Nederlandse mannen van 1,90 meter of langer.

  • Om te bepalen hoe groot een steekproef moet zijn, wordt de normale verdeling gebruikt. Daarmee kun je berekenen hoeveel mensen je moet bevragen voor een betrouwbare schatting.

  • De p-waarde is een maat voor hoe groot de kans is dat de uitkomst van je onderzoek op toeval berust.

En je weet het!

Anderen het laten weten?

auteur

Door Hermen Visser

Ook interessant

om te weten