Cover
立即免费开始 Statistiek_I_samenvatting.pdf
Summary
# De empirische cyclus en statistiek in onderzoek
Dit onderwerp introduceert de empirische cyclus en de fundamentele rol van statistiek binnen dit proces van wetenschappelijk onderzoek.
### 1.1 De empirische cyclus
De empirische cyclus beschrijft de stappen die doorlopen worden bij wetenschappelijk onderzoek, beginnend bij observatie en eindigend met evaluatie, waarna de cyclus zich vaak herhaalt [1](#page=1).
#### 1.1.1 Observatie
Dit is de eerste stap waarbij empirisch feitenmateriaal wordt waargenomen of verzameld. Een concreet voorbeeld is het constateren dat een fiets niet meer op de verwachte plaats staat [1](#page=1).
#### 1.1.2 Inductie
Op basis van de observatie worden hypothesen geformuleerd. In het fietsvoorbeeld zou dit kunnen leiden tot de hypothese dat de fiets gestolen is. In de context van onderzoek naar schermgebruik en mentaal welzijn kan inductie leiden tot het zogenaamde "Goudlokje-principe", waarbij men vermoedt dat beperkt schermgebruik acceptabel is en overmatig gebruik niet [1](#page=1) [2](#page=2).
#### 1.1.3 Deductie
Vanuit de geformuleerde hypothesen worden voorspellingen opgesteld. Als de fiets gestolen is, dan zal deze niet meer op het stationsplein staan. Bij het onderzoek naar schermgebruik leidt dit tot voorspellingen zoals: mentaal welzijn daalt niet bij beperkt schermgebruik, maar wel bij overmatig gebruik [1](#page=1) [2](#page=2).
#### 1.1.4 Toetsing
De opgestelde voorspellingen worden getoetst aan de hand van nieuw verzameld empirisch feitenmateriaal. Wanneer de fiets na enig zoeken wordt teruggevonden in een fietsrek, wordt de voorspelling getoetst. Onderzoek onder 120 Engelse scholieren met betrekking tot schermgebruik liet zien dat het gemiddelde gedrag in lijn was met de deducties [1](#page=1) [2](#page=2).
#### 1.1.5 Evaluatie
Dit is de kritische beoordeling van de resultaten van de toetsing. Uit het fietsvoorbeeld blijkt dat de fiets niet gestolen, maar verplaatst was. Bij het onderzoek naar schermgebruik kan geconcludeerd worden dat het Goudlokje-principe niet verworpen, maar ook niet bewezen is, dat de wijziging in mentaal welzijn beperkt was, er geen causaal verband kon worden vastgesteld, en vervolgonderzoek nodig is [1](#page=1) [2](#page=2).
### 1.2 De rol van statistiek in onderzoek
Statistiek wordt gedefinieerd als de wetenschap van het leren uit data en van het meten, controleren en communiceren van onzekerheid. Het speelt een rol in alle fasen van de empirische cyclus, niet alleen bij de toetsing, maar ook bij inductie, deductie en evaluatie [2](#page=2).
#### 1.2.1 Toepassingen van statistiek in onderzoeksvragen
Statistiek is relevant voor:
* Het formuleren van onderzoeksvragen die beantwoord kunnen worden met data [2](#page=2).
* Het ontwerpen van studies en het verzamelen van data [2](#page=2).
* Het verkennen van verzamelde data door middel van beschrijvende analyses [2](#page=2).
* Het formuleren van conclusies die verder reiken dan de geobserveerde data via inductieve analyses [2](#page=2).
#### 1.2.2 Statistische geletterdheid
Statistische geletterdheid is het vermogen om te redeneren met behulp van statistiek en data. Dit is een sleutelvaardigheid, niet alleen voor gedragswetenschappers, maar ook daarbuiten in een datagedreven wereld [2](#page=2).
#### 1.2.3 Voorbeeld van statistiek in de cyclus
Een onderzoek naar het mentale welzijn van scholieren die wel of geen smartphone gebruiken, illustreert de toepassing van statistiek. Hierbij worden kengetallen zoals het gemiddelde en de standaardafwijking gebruikt om de groepen te vergelijken [2](#page=2).
> **Tip:** Begrijp dat de empirische cyclus een iteratief proces is. De evaluatie van de ene cyclus leidt vaak tot nieuwe observaties en hypothesen voor de volgende cyclus.
> **Voorbeeld:** Stel je voor dat een onderzoeker de hypothese heeft dat meer sociale media-gebruik leidt tot minder slaap. Via deductie kan voorspeld worden dat scholieren die meer dan 3 uur per dag op sociale media zitten, gemiddeld minder dan 7 uur slaap per nacht hebben. De toetsing zou dan bestaan uit het meten van het sociale media-gebruik en de slaaptijd bij een steekproef scholieren, waarna de resultaten geanalyseerd worden met statistische methoden.
* * *
# Beschrijvende statistiek en variabele types
Hieronder volgt een gedetailleerde studiehandleiding voor "Beschrijvende statistiek en variabele types".
## 2\. Beschrijvende statistiek en variabele types
Beschrijvende statistiek biedt methoden om de belangrijkste kenmerken van een dataset samen te vatten en te begrijpen.
### 2.1 Onderzoek naar smartphonegebruik en mentaal welzijn
Dit onderzoek richt zich op adolescenten en hun smartphonegebruik in relatie tot hun mentaal welzijn. Adolescenten brengen steeds meer tijd online door, wat de noodzaak voor wetenschappelijk onderzoek naar de impact hiervan op mentaal welzijn onderstreept. Er wordt gesuggereerd dat er mogelijk sprake is van een "Goudlokje-principe" waarbij zowel te weinig als te veel gebruik negatieve effecten kan hebben [3](#page=3).
#### 2.1.1 Methodologie van het onderzoek
Het onderzoek is uitgevoerd onder scholieren in Engeland die in 2013-2014 15 jaar oud werden. De observatie-eenheden zijn individuele scholieren. Vanwege de grote populatie (650.000 scholieren) is een steekproef noodzakelijk [3](#page=3).
**Steekproefmethoden:**
* **Enkelvoudige aselecte steekproeftrekking (EAS):** Elke mogelijke steekproef heeft dezelfde kans om gekozen te worden, en elk element in het steekproefkader heeft een gelijke kans om geselecteerd te worden [3](#page=3).
* **Gestratificeerde steekproeftrekkingen:** De populatie wordt onderverdeeld in strata (subgroepen), waarna binnen elk stratum een EAS wordt uitgevoerd. De proportie personen per stratum in de steekproef komt overeen met die in de populatie. In dit onderzoek werden lokale besturen als strata gebruikt [3](#page=3) [4](#page=4).
* **Gemakshalve steekproeftrekkingen (convenience sampling):** Personen die gemakkelijker bereikbaar zijn, hebben een grotere kans om geselecteerd te worden. Dit kan leiden tot selectiebias [3](#page=3).
> **Tip:** Het steekproefkader is de lijst met informatie over de personen in de populatie die gebruikt wordt om de steekproef samen te stellen [3](#page=3).
**Non-respons bias:** In dit specifieke onderzoek namen 150.000 scholieren niet deel, wat kan leiden tot non-respons bias [4](#page=4).
**Variabelen:** Variabelen zijn karakteristieken van de observationele eenheden die men wenst te onderzoeken. Operationaliseren is het meetbaar maken van deze eigenschappen [4](#page=4).
* **Uitkomstvariabele:** Mentaal welzijn, gemeten met de Warwick-Edinburgh Mental Well-Being Scale [4](#page=4).
* **Verklarende variabelen:** Gemiddeld aantal uren per dag (week/weekend) besteed aan films, series, games, chatten/e-mails/schoolwerk op de pc, en sociale media/e-mails/games op de gsm [4](#page=4).
* **Controlevariabelen:** Geslacht, etniciteit, regio [4](#page=4).
Het doel van deze variabelen is het verklaren van de variabiliteit in de uitkomstvariabele, rekening houdend met de controlevariabelen [4](#page=4).
**Onderzoeksdesign:**
* **Cross-sectionele studie:** Variabelen worden slechts op één moment in de tijd bevraagd [4](#page=4).
* **Longitudinale studie:** Een of meerdere variabelen worden op verschillende momenten in de tijd bevraagd [4](#page=4).
* **Observationele studie:** Men observeert zonder interventie uit te voeren [5](#page=5).
* **Experimentele studie:** Er wordt een interventie uitgevoerd om de impact ervan te onderzoeken [5](#page=5).
**HARKing (Hypothesizing After the Results are Known):** Dit is een werkwijze waarbij hypotheses worden opgesteld op basis van bevindingen in de data, waarna dezelfde data worden gebruikt om deze hypotheses te toetsen. Dit is in strijd met de empirische cyclus [5](#page=5).
**Protocol:** Een protocol is essentieel voor de repliceerbaarheid van een studie en helpt HARKing tegen te gaan. Elementen van een protocol omvatten het doel van de studie, te meten variabelen, onderzoekshypotheses, de wijze van steekproefverkrijging, en de statistische analysewijze [4](#page=4).
### 2.2 Beschrijvende analyse
Beschrijvende analyses maken gebruik van statistische methoden, tabellen, samenvattende maten en figuren om inzicht te krijgen in data. De analysetechniek hangt af van het type variabele en de aangenomen waarden [5](#page=5).
#### 2.2.1 Verdelingen van variabelen
De verdeling van een variabele geeft weer welke waarden deze kan aannemen en hoe vaak elke waarde voorkomt (frequentie). Dit kan uitgedrukt worden in absolute of relatieve frequenties [5](#page=5).
* **Absolute frequentie:** Het aantal keren dat een waarde van een variabele voorkomt in de steekproef [5](#page=5).
* **Relatieve frequentie (proportie):** Absolute frequentie gedeeld door de steekproefgrootte [5](#page=5).
* Voorbeeld: AF = 53.273 & 58.880; RF = 53.273/112.153 = 47.5% & 58.880/112.153 = 52.5% [5](#page=5).
* **Odds:** Het aantal keren dat een waarde wordt aangenomen gedeeld door het aantal keren dat een andere waarde wordt aangenomen [6](#page=6).
* Voorbeeld: De odds voor meisjes is 58.880 / 53.273 = 1.1 [6](#page=6).
* Interpretatie: De odds van 1.1 betekent dat het aantal meisjes 10% hoger is dan het aantal jongens, ofwel dat er per 10 jongens 11 meisjes zijn [6](#page=6).
#### 2.2.2 Soorten variabelen
Variabelen kunnen worden ingedeeld op basis van hun aard en de waarden die ze kunnen aannemen [6](#page=6).
* **Kwalitatieve variabele (categorisch):**
* **Nominaal:** Waarden kunnen niet geordend worden (bv. geslacht) [6](#page=6).
* **Ordinaal:** Waarden kunnen wel geordend worden (bv. uitslag van een wedstrijd) [6](#page=6).
* **Kwantitatieve variabele (numeriek):**
* **Interval:** Geen absoluut nulpunt (bv. temperatuur) [6](#page=6).
* **Ratio:** Wel een absoluut nulpunt (bv. lengte) [6](#page=6).
* **Discreet:** Beperkt aantal waarden [6](#page=6).
* **Continu:** Veel waarden mogelijk [6](#page=6).
* **Belangrijk:** Een variabele die slechts één waarde kan aannemen is geen variabele, omdat deze niet varieert [6](#page=6).
* **Binaire variabele:** Een variabele met slechts twee waarden (bv. kop/munt) [6](#page=6).
#### 2.2.3 Grafische weergave van variabelen
* **Staafdiagram:** Vaak gebruikt voor kwalitatieve variabelen. Het is belangrijk dat de sprongen tussen de staven gelijk (equisidant) zijn en dat het diagram de waarden correct weergeeft [7](#page=7).
* **Histogram:** Een soort staafdiagram gebaseerd op gegroepeerde data, vaak gebruikt wanneer een numerieke variabele veel waarden aanneemt. De vorm van het histogram kan variëren afhankelijk van hoe de data worden gegroepeerd [9](#page=9).
* **Boxplot:** Een figuur gebaseerd op kwartielen, minimum en maximum, die ook uitschieters kan visualiseren [9](#page=9).
### 2.3 Centrum- en spreidingsmaten
Centrummaten geven een idee van het "centrum" van de verdeling, terwijl spreidingsmaten de variatie of spreiding van de waarden kwantificeren [8](#page=8).
#### 2.3.1 Centrummaten
* **Mediaan:** De middelste waarde in een geordende dataset [8](#page=8).
* **Gemiddelde:** De som van alle waarden gedeeld door het aantal waarden [8](#page=8).
#### 2.3.2 Spreidingsmaten
Spreidingsmaten kwantificeren de verschillen tussen waarden. Ze nemen de waarde 0 aan bij geen spreiding en worden groter naarmate er meer spreiding is. Ze kunnen nooit negatief zijn [18](#page=18) [8](#page=8).
* **Variatiebreedte (vx):** Het verschil tussen de maximale en minimale waarde van een variabele [18](#page=18) [8](#page=8).
* Interpretatie: Geeft het maximale verschil tussen twee waarden weer, maar is een eenvoudige maat met een beperkt beeld. Een variatiebreedte van 0 betekent dat alle waarden gelijk zijn [18](#page=18).
* Formule: $v\_x = \\text{max} - \\text{min}$ [18](#page=18).
* **Gemiddelde absolute afwijking (GAF):** De gemiddelde absolute afwijking van de waarden van de variabele ten opzichte van het steekproefgemiddelde [18](#page=18).
* Interpretatie: Een kleine GAF duidt op waarden dicht rond het gemiddelde; een grotere GAF wijst op meer spreiding [18](#page=18).
* **Standaardafwijking (sx):** De gemiddelde afstand tussen de waarden en het steekproefgemiddelde. Dit is de meest gebruikte spreidingsmaat [19](#page=19) [8](#page=8).
* **Variantie ($s^2\_x$):** Het kwadraat van de standaardafwijking. De standaardafwijking wordt vaker gebruikt omdat de variantie een andere meeteenheid heeft [19](#page=19) [8](#page=8).
* **Interkwartielafstand (IKA):** Het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1) [9](#page=9).
#### 2.3.3 Kwartielen
Wanneer de elementen van een steekproef geordend worden van klein naar groot en opgedeeld in vier gelijke stukken, ontstaan kwartielen [9](#page=9).
1. **Eerste kwartiel (Q1):** De waarde waarbij 25% van de waarden kleiner is en 75% groter [9](#page=9).
2. **Tweede kwartiel (Q2 / Mediaan):** De waarde waarbij 50% van de waarden kleiner is en 50% groter [9](#page=9).
3. **Derde kwartiel (Q3):** De waarde waarbij 75% van de waarden kleiner is en 25% groter [9](#page=9).
#### 2.3.4 Boxplot en uitschieters
Een boxplot visualiseert de kwartielen, mediaan, minimum en maximum van een dataset en kan uitschieters (waarden die ver van de centrale helft van de waarnemingen liggen) identificeren [19](#page=19) [20](#page=20) [9](#page=9).
* De box in een boxplot vertegenwoordigt het bereik tussen Q1 en Q3, en de lengte ervan is gelijk aan de IKA, wat een idee geeft van de spreiding [19](#page=19).
* De helft van de waarnemingen ligt binnen de box [20](#page=20).
* Boxplots kunnen helpen evalueren of een verdeling symmetrisch is; bij symmetrie ligt de mediaan in het midden van de box en zijn de "staarten" (uitschieters) even lang [20](#page=20).
#### 2.3.5 Gevoeligheid voor uitschieters
* Het gemiddelde en de standaardafwijking zijn **gevoelig** voor uitschieters [21](#page=21).
* De mediaan en de IKA zijn **minder gevoelig** voor uitschieters [21](#page=21).
#### 2.3.6 Scheefheid van de verdeling
* Een verdeling die scheef naar links is, betekent dat een groter percentage observaties groter is dan het gemiddelde [21](#page=21).
* Een verdeling die scheef naar rechts is, betekent dat een groter percentage observaties kleiner is dan het gemiddelde [21](#page=21).
#### 2.3.7 Correlatie en spreidingsdiagram
Spreidingsmaten, hoewel primair gericht op variatie binnen één variabele, bieden ook de basis om de samenhang tussen twee numerieke variabelen te visualiseren, met name via correlatie en spreidingsdiagrammen [21](#page=21).
* **Spreidingsdiagram:** Bestaat uit vier kwadranten gebaseerd op de afwijkingen van de gemiddelden van de variabelen X en Y [21](#page=21).
* Kwadranten 2 en 4 worden als "positieve kwadranten" beschouwd.
* Kwadranten 1 en 3 worden als "negatieve kwadranten" beschouwd.
* * *
# Samenhang tussen variabelen: bivariate analyse en correlatie
Dit onderwerp verkent de relaties tussen twee variabelen, waarbij methoden zoals kruistabellen, spreidingsdiagrammen, correlatiecoëfficiënten en regressieanalyse worden behandeld, met speciale aandacht voor het onderscheid tussen correlatie en causatie.
### 3.1 Bivariate verdelingen en samenhang
Bivariate analyse bestudeert de gezamenlijke verdeling van twee variabelen om hun samenhang te onderzoeken [10](#page=10).
#### 3.1.1 Kruistabellen
Een kruistabel wordt gebruikt om de bivariate verdeling van twee categorische variabelen weer te geven. De som van alle cellen in een kruistabel is gelijk aan de steekproefgrootte. Uit een kruistabel kunnen univariate verdelingen worden afgeleid door de rij- en kolomtotalen op te tellen [10](#page=10) [11](#page=11).
Verschillende soorten relatieve frequenties kunnen uit een kruistabel worden berekend:
* **Totale relatieve frequenties:** De frequentie van elke cel gedeeld door de totale steekproefgrootte [11](#page=11).
* **Voorwaardelijke relatieve frequenties:**
* Ten opzichte van de kolomtotalen (horizontale relatieve frequenties) [11](#page=11).
* Ten opzichte van de rijtotalen (verticale relatieve frequenties) [11](#page=11).
De som van alle cellen in een kruistabel met relatieve frequenties is steeds gelijk aan 100%. Een voorwaardelijke relatieve frequentie is de relatieve frequentie van een waarde binnen een deelverzameling van de steekproef [11](#page=11).
> **Tip:** Indien er geen samenhang is tussen twee variabelen die met een kruistabel worden geanalyseerd, verwachten we dat de voorwaardelijke relatieve frequenties per kolom (of rij) ongeveer gelijk zullen zijn [12](#page=12).
#### 3.1.2 Associatiematen voor kruistabellen
Om de samenhang in kruistabellen te kwantificeren, worden verschillende associatiematen gebruikt:
* **Risicoverschil:** Het verschil tussen twee voorwaardelijke relatieve frequenties. Als het risicoverschil gelijk is aan 0, is er geen samenhang [13](#page=13).
* **Relatief risico:** De verhouding van twee voorwaardelijke relatieve frequenties. Conventioneel wordt de grootste frequentie in de teller geplaatst om een relatief risico groter dan 1 te verkrijgen [13](#page=13).
* **Odds ratio:** De verhouding van twee voorwaardelijke odds. De grootste odds wordt in de teller geplaatst om een odds ratio groter dan 1 te verkrijgen. Als de odds ratio gelijk is aan 1, is er geen samenhang [13](#page=13).
> **Voorbeeld:** Een analyse van etniciteit en leefregio toonde een samenhang aan; scholieren met een niet-witte etniciteit woonden vaker in een gedepriveerde regio dan witte scholieren [13](#page=13).
#### 3.1.3 Spreidingsdiagram
Een spreidingsdiagram (scatter plot) is een tweedimensionale figuur waarop de waarden van twee numerieke variabelen ten opzichte van elkaar worden uitgezet. Het visualiseert de verdeling van twee numerieke variabelen en hun mogelijke samenhang (#page=14, 15) [14](#page=14) [15](#page=15).
> **Tip:** Als veel eenheden eenzelfde waarde hebben, kan de grootte van de punten in een spreidingsdiagram evenredig worden gemaakt aan het aantal herhalingen om belangrijke informatie niet te missen [15](#page=15).
#### 3.1.4 Correlatiecoëfficiënt
De correlatiecoëfficiënt, aangeduid als $R\_{xy}$, is een maat voor de lineaire samenhang tussen twee numerieke variabelen (#page=15, 22). De waarde van de correlatiecoëfficiënt ligt altijd tussen -1 en 1 [15](#page=15) [22](#page=22).
* Een waarde rond 0 duidt op geen lineaire samenhang [15](#page=15).
* Een toenemende lineaire samenhang leidt tot een waarde die verder van nul afwijkt [15](#page=15).
* De correlatiecoëfficiënt tussen X en Y is dezelfde als die tussen Y en X ($r\_{xy} = r\_{yx}$); de volgorde van de variabelen beïnvloedt de waarde niet [24](#page=24).
> **Tip:** De correlatiecoëfficiënt is nuttiger dan de spreidingsdiagram voor het beoordelen van de sterkte van de lineaire samenhang, omdat deze niet wordt beïnvloed door de schaal van de assen [23](#page=23).
De berekening van de correlatiecoëfficiënt is gebaseerd op de covariatie: $$r\_{xy} = \\frac{Cov(X,Y)}{s\_x s\_y}$$ waarbij $Cov(X,Y)$ de covariatie is en $s\_x$ en $s\_y$ de standaardafwijkingen van respectievelijk X en Y zijn [22](#page=22).
De covariatie zelf wordt berekend als: $$Cov(X,Y) = \\frac{\\sum\_{i=1}^{n}(x\_i - \\bar{x})(y\_i - \\bar{y})}{n-1}$$ waarbij $n$ het aantal observaties is, $x\_i$ en $y\_i$ de individuele waarden zijn, en $\\bar{x}$ en $\\bar{y}$ de gemiddelden zijn [22](#page=22).
De spreidingsdiagram wordt onderverdeeld in vier kwadranten ten opzichte van de gemiddelden van X en Y. Kwadranten waar $(x\_i - \\bar{x})(y\_i - \\bar{y})$ positief is, worden positieve kwadranten genoemd (kwadranten 2 en 4), en kwadranten waar dit product negatief is, worden negatieve kwadranten genoemd (kwadranten 1 en 3) [21](#page=21).
### 3.2 Regressieanalyse
Regressieanalyse wordt gebruikt om de relatie tussen variabelen te modelleren en voorspellingen te doen (#page=15, 24). De regressierechte is de best passende rechte door een puntenwolk, ook wel de kleinste kwadratenrechte genoemd [15](#page=15) [24](#page=24).
De vergelijking van de regressierechte is: $$y = a + bx$$ waarbij:
* $y$ de uitkomstvariabele is [24](#page=24).
* $x$ de verklarende variabele is [24](#page=24).
* $a$ het intercept is, wat het punt op de Y-as voorstelt waar de rechte begint (#page=24, 26). Het intercept geeft de voorspelde gemiddelde waarde van $y$ wanneer $x=0$ is. Soms heeft het intercept geen praktische interpretatie [24](#page=24) [26](#page=26).
* $b$ de helling (slope) is. De helling geeft het verschil in voorspelde gemiddelde score op de uitkomstvariabele weer indien de verklarende variabele met 1 eenheid stijgt [24](#page=24) [26](#page=26).
> **Belangrijk:** De regressierechte gaat altijd door het gemiddelde van $X$ en het gemiddelde van $Y$ [25](#page=25).
#### 3.2.1 Residuen
Een residu ($e\_i$) geeft het verschil weer tussen de geobserveerde waarde en haar voorspelling. Een residuendiagram, met de residuen op de verticale as en de voorspelde waarden of de verklarende variabele op de horizontale as, helpt bij het beoordelen van de geschiktheid van de regressierechte (#page=25, 27). Indien de regressierechte een goede beschrijving vormt, vertonen de residuen geen patroon [25](#page=25) [27](#page=27).
#### 3.2.2 Determinantiecoëfficiënt
De gekwadrateerde correlatiecoëfficiënt ($r^2$) wordt ook wel de determinantiecoëfficiënt genoemd. Het vertegenwoordigt de proportie van de totale variantie in de uitkomstvariabele die verklaard kan worden door wijzigingen in de verklarende variabele via het regressiemodel [27](#page=27). $$r^2\_{xy} = \\frac{\\text{Variantie van de voorspellingen}}{\\text{Totale variantie in de uitkomstvariabele}}$$
> **Voorbeeld:** Als de determinantiecoëfficiënt 0.55 is, betekent dit dat 55% van de variantie in de uitkomstvariabele verklaard kan worden door de verklarende variabele [27](#page=27).
#### 3.2.3 Uitschieters en invloedrijke observaties
Uitschieters kunnen de correlatiecoëfficiënt en de regressierechte beïnvloeden. Een invloedrijke observatie is een datapunt dat een grote impact heeft op de regressierechte of de correlatiecoëfficiënt. Het is belangrijk om bewust te zijn van de invloed van zulke observaties, maar ze worden niet per se verwijderd uit de dataset. De impact van een uitschieter op de regressierechte hangt af van de positie van het punt ten opzichte van de trend van de overige data (#page=28, 29) [28](#page=28) [29](#page=29).
### 3.3 Correlatie en causatie
Het is cruciaal om geen causale besluiten te trekken enkel op basis van een waargenomen samenhang tussen twee variabelen (X en Y) (#page=16, 30) [16](#page=16) [30](#page=30).
* **Causaliteit:** Een oorzaak-gevolgrelatie waarbij veranderingen in de ene variabele direct veroorzaakt worden door veranderingen in de andere. Het conceptueel aantonen van causaliteit vereist contrafeitelijk denken of, in de praktijk, randomisatie [16](#page=16).
* **Confounder:** Een derde variabele (Z) die de relatie tussen twee andere variabelen kan verstoren of verwarren (#page=17, 30). Een variabele wordt als confounder beschouwd als deze een samenhang vertoont met zowel X als Y. Confounders kunnen ervoor zorgen dat een samenhang ontstaat, versterkt of zelfs omgekeerd wordt (Simpsons paradox) [17](#page=17) [30](#page=30).
* **Observationeel onderzoek:** In observationele studies, waar geen randomisatie plaatsvindt, moeten conclusies voorzichtig worden geformuleerd, zelfs bij het meenemen van controlevariabelen [17](#page=17).
> **Tip:** Bij het analyseren van observationele data en het waarnemen van een samenhang, moet altijd rekening gehouden worden met mogelijke confounders. Zonder randomisatie kunnen we niet met zekerheid spreken over een oorzaak-gevolgrelatie.
* * *
# Inductieve analyse: hypothesetoetsing en betrouwbaarheidsintervallen
Dit deel introduceert inductieve analyses, de binomiaaltoets, nulhypotheses, p-waarden, betrouwbaarheidsintervallen en de interpretatie van deze statistische concepten om conclusies te trekken uit data.
### 4.1 Variabiliteit en inductieve analyses
Statistiek richt zich op het verkrijgen van inzicht in variabiliteit. Waar beschrijvende analyses variabiliteit binnen één dataset centraal stellen, focussen inductieve analyses op de variabiliteit tussen datasets die verkregen zouden worden door de studie herhaaldelijk uit te voeren. Dit inzicht wordt verkregen door middel van kansmodellen, die een wiskundige weergave zijn van de werkelijkheid en rekening houden met de rol van toeval bij steekproeftrekking. Inductieve analyses maken gebruik van deze kansmodellen om verder te kijken dan de geobserveerde data en te evalueren wat er zou gebeuren indien de studie herhaaldelijk onder vergelijkbare condities zou worden uitgevoerd [31](#page=31) [32](#page=32).
Een toevalsproces is een herhaalbaar proces waarbij individuele uitkomsten onbekend zijn, maar een patroon vertonen bij voldoende herhalingen. Data uit wetenschappelijke studies worden beschouwd als een momentopname van zo'n toevalsproces [32](#page=32) [33](#page=33).
> **Tip:** Het verschil tussen beschrijvende en inductieve analyses ligt in de focus: beschrijvend kijkt naar variabiliteit binnen één dataset, inductief naar variabiliteit tussen hypothetische datasets.
#### 4.1.1 Het experiment bij baby's
Een voorbeeld van een inductieve analyse is het onderzoek naar morele intuïtie bij baby's, waarbij onderzocht wordt of baby's een pop die een goede daad stelt verkiezen boven een pop die een slechte daad stelt. In dit experiment werden 16 baby's van 10 maanden oud bestudeerd. Technieken zoals balanceren en blinderen werden toegepast om mogelijke confounders uit te schakelen en ongewenste invloeden te minimaliseren (#page=33, 34) [33](#page=33) [34](#page=34).
### 4.2 Hypothesetoetsing
Hypothesetoetsing is een methode binnen de inductieve analyse om op basis van data uitspraken te doen over een nulhypothese [35](#page=35).
#### 4.2.1 Nulhypothese
De nulhypothese ($H\_0$) is een bewering of aanname over het toevalsproces die getoetst wordt aan de hand van de data. Het is de conventie om de nulhypothese in termen van een gelijkheid te formuleren. In het baby-experiment luidde de nulhypothese dat baby's geen voorkeur hebben, wat vertaald werd naar het idee dat de helper even vaak gekozen zou worden als de lastpost indien de studie eindeloos herhaald zou worden [35](#page=35) [37](#page=37).
#### 4.2.2 Alternatieve hypothese
De alternatieve hypothese ($H\_a$) is een complementaire aanname die we wensen te ondersteunen als de nulhypothese verworpen kan worden. Deze wordt geformuleerd in termen van een ongelijkheid (groter dan, kleiner dan, of verschillend van) [37](#page=37).
#### 4.2.3 Stappen van een hypothesetoets
Een hypothesetoets volgt doorgaans vijf stappen [37](#page=37):
1. **Hypotheses formuleren:** Opstellen van de nulhypothese ($H\_0$) en de alternatieve hypothese ($H\_a$).
2. **Toetsingsgrootheid vastleggen:** Een statistiek wordt gekozen die informatie geeft over de hypotheses, zoals de absolute of relatieve frequentie van een uitkomst. Dit wordt de geobserveerde toetsingsgrootheid genoemd [38](#page=38).
3. **Toevalsproces modelleren:** Gebruikmaken van kansmodellen om het onderzoek artificieel te herhalen en de steekproevenverdeling van de toetsingsgrootheid te bepalen (#page=38, 39) [38](#page=38) [39](#page=39).
4. **Nulverdeling opstellen:** Simuleren van de wereld waarin de nulhypothese waar is om de steekproevenverdeling van de toetsingsgrootheid onder die aanname te verkrijgen [40](#page=40).
5. **P-waarde berekenen en interpreteren:** Evalueren van de bewijskracht tegen de nulhypothese (#page=37, 41) [37](#page=37) [41](#page=41).
##### 4.2.3.1 De binomiale verdeling
De binomiale verdeling is een kansmodel dat gebruikt wordt om de kans op $k$ successen te bepalen bij $n$ onafhankelijke herhalingen van een experiment met twee uitkomsten (succes/geen succes), met een kans $p$ op succes bij elke herhaling. De formule voor de kans op $k$ successen is [39](#page=39): $$P(X=k) = \\binom{n}{k} p^k (1-p)^{n-k}$$ waarbij $\\binom{n}{k} = \\frac{n!}{k!(n-k)!}$. Een belangrijke voorwaarde is dat de observaties onderling onafhankelijk moeten zijn [39](#page=39).
##### 4.2.3.2 P-waarde
De p-waarde is de kans om een toetsingsgrootheid te observeren die minstens even extreem is als de geobserveerde toetsingsgrootheid, in de richting van de alternatieve hypothese, \_indien de nulhypothese waar is [42](#page=42). $$P\\text{-waarde} = P(T \\ge \\text{geobserveerde } T \\mid H\_0 \\text{ is waar})$$ (voor een rechtszijdige test) [41](#page=41). Een kleinere p-waarde betekent meer bewijskracht tegen de nulhypothese [41](#page=41).
> **Tip:** De p-waarde kwantificeert hoe onwaarschijnlijk de geobserveerde data zijn, \_gegeven dat de nulhypothese waar is.
##### 4.2.3.3 Eenzijdige en tweezijdige toetsen
Hypotheses kunnen eenzijdig (links- of rechtszijdig) of tweezijdig geformuleerd worden. Een tweezijdige alternatieve hypothese ($H\_a: p \\neq p\_0$) toetst of de parameter significant verschilt van de nulhypothese in beide richtingen. Een eenzijdige hypothese toetst een specifieke richting ($H\_a: p > p\_0$ of $H\_a: p < p\_0$). Het kiezen van de juiste richting is cruciaal; een verkeerde keuze kan leiden tot het missen van bewijs, zelfs als dat aanwezig is [43](#page=43).
#### 4.2.4 Beslissingen op basis van een hypothesetoets
Beslissingen worden genomen door de p-waarde te vergelijken met een vooraf vastgelegd significantieniveau $\\alpha$ (vaak 0.05) [46](#page=46).
* **Als $p < \\alpha$**: De nulhypothese wordt verworpen. Dit wordt een statistisch significant resultaat genoemd [46](#page=46).
* **Als $p \\ge \\alpha$**: De nulhypothese wordt niet verworpen. Dit betekent niet dat de nulhypothese waar is, maar dat er onvoldoende bewijs is tegen de nulhypothese [46](#page=46).
##### 4.2.4.1 Type I en Type II fouten
* **Type I fout**: De nulhypothese wordt verworpen, terwijl deze in werkelijkheid waar is. De kans hierop is $\\alpha$ (#page=46, 47) [46](#page=46) [47](#page=47).
* **Type II fout**: De nulhypothese wordt niet verworpen, terwijl de alternatieve hypothese in werkelijkheid waar is. De kans hierop wordt aangeduid met $\\beta$ [46](#page=46) [47](#page=47).
##### 4.2.4.2 Betrouwbaarheid en power
* **Betrouwbaarheid** (of correcte acceptatie): De kans om de nulhypothese niet te verwerpen wanneer deze waar is. Dit is gelijk aan $1 - \\alpha$ [46](#page=46) [47](#page=47).
* **Power** (onderscheidingsvermogen): De kans om de nulhypothese te verwerpen wanneer de alternatieve hypothese waar is. Dit is gelijk aan $1 - \\beta$ [46](#page=46) [47](#page=47).
> **Tip:** De kans op een Type I fout ($\\alpha$) en de kans op een Type II fout ($\\beta$) zijn gerelateerd. Het verkleinen van de kans op een Type I fout (door $\\alpha$ kleiner te kiezen) vergroot de kans op een Type II fout, en vice versa.
De power wordt beïnvloed door:
* Het verschil tussen de werkelijke parameterwaarde en de waarde onder de nulhypothese: hoe groter het verschil, hoe hoger de power [49](#page=49).
* De steekproefgrootte ($n$): een grotere steekproef vergroot de power [49](#page=49).
#### 4.2.5 Impact van steekproefgrootte
Een grotere steekproefgrootte ($n$) leidt tot kleinere p-waarden en dus sneller bewijs tegen de nulhypothese, mits de alternatieve hypothese waar is (#page=44, 45) [44](#page=44) [45](#page=45).
#### 4.2.6 Misvattingen rond p-waarden
* De p-waarde is **niet** de kans dat de nulhypothese waar is [50](#page=50).
* Een p-waarde kleiner dan of gelijk aan $\\alpha$ impliceert **niet** met zekerheid dat $H\_0$ fout is; het kan wijzen op bewijs tegen $H\_0$, maar ook op een Type I fout of geschonden assumpties [50](#page=50).
* Een p-waarde groter dan $\\alpha$ impliceert **niet** dat $H\_0$ juist is; het betekent enkel dat er onvoldoende bewijs is tegen $H\_0$ [50](#page=50).
* Een kleine p-waarde impliceert **niet** automatisch een belangrijke wetenschappelijke bevinding; de relevantie van de nulhypothese speelt ook een rol [50](#page=50).
### 4.3 Betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen bieden een alternatieve of aanvullende methode om conclusies te trekken uit data, door een reeks van compatibele waarden voor een parameter te presenteren [51](#page=51).
#### 4.3.1 Compatibiliteit van parameters
Een waarde $p\_0$ voor de parameter $p$ is compatibel met de data op het $\\alpha$\-significantieniveau indien de tweezijdige p-waarde die hoort bij $H\_0: p=p\_0$ groter is dan $\\alpha$ (#page=51, 52). Conceptueel worden alle $p\_0$\-waarden getoetst die niet verworpen kunnen worden op basis van de data behouden [51](#page=51) [52](#page=52).
#### 4.3.2 Het (1-$\\alpha$)-betrouwbaarheidsinterval
Het $(1-\\alpha)$\-betrouwbaarheidsinterval voor $p$ bestaat uit alle waarden van $p\_0$ die compatibel zijn met de data op het $\\alpha$\-significantieniveau. Voor $\\alpha = 0.05$ spreken we van een 95% betrouwbaarheidsinterval [51](#page=51) [52](#page=52).
> **Tip:** Een betrouwbaarheidsinterval laat toe om uitspraken te doen over de parameter met een bepaalde zekerheid, rekening houdend met steekproefvariabiliteit.
#### 4.3.3 Interpretatie van het betrouwbaarheidsinterval
Een 95% betrouwbaarheidsinterval betekent dat, indien de studie eindeloos herhaald zou worden, 95% van de resulterende intervallen de werkelijke parameterwaarde $p$ zou bevatten. Het interval zelf geeft de range aan mogelijke waarden voor $p$ die plausibel zijn gegeven de geobserveerde data (#page=51, 52) [51](#page=51) [52](#page=52) [53](#page=53).
> **Misvatting:** Een 95% betrouwbaarheidsinterval betekent **niet** dat de werkelijke parameter $p$ met 95% zekerheid binnen dat specifieke interval ligt. De betrouwbaarheid verwijst naar het proces van intervalconstructie over vele herhalingen van de studie [60](#page=60).
#### 4.3.4 Impact op het betrouwbaarheidsinterval
* **Betrouwbaarheid en $\\alpha$**: Een hogere betrouwbaarheid (kleinere $\\alpha$) resulteert in een breder interval [53](#page=53).
* **Steekproefgrootte**: Een toenemende steekproefgrootte ($n$) resulteert in een smaller betrouwbaarheidsinterval zonder dat de betrouwbaarheid afneemt [53](#page=53).
#### 4.3.5 Formules voor betrouwbaarheidsintervallen en toetsen
Voor binaire variabelen kan een benadering van het betrouwbaarheidsinterval voor de proportie $p$ gegeven worden door: $$\\hat{p} \\pm z\_{\\alpha/2} \\sqrt{\\frac{\\hat{p}(1-\\hat{p})}{n}}$$ waarbij $\\hat{p}$ de schatting van $p$ is en $z\_{\\alpha/2}$ de kritieke waarde uit de standaardnormale verdeling [54](#page=54). De binomiaaltoets kan ook benaderd worden met de gestandaardiseerde toetsingsgrootheid: $$Z = \\frac{\\hat{p} - p\_0}{\\sqrt{\\frac{p\_0(1-p\_0)}{n}}}$$[55](#page=55).
> **Voorwaarden:** De formules voor benaderde betrouwbaarheidsintervallen en toetsen zijn geldig indien de observaties onderling onafhankelijk zijn en er voor elke uitkomstcategorie minstens 10 observaties zijn (of minstens 5, afhankelijk van de specifieke regelgeving) (#page=54, 55) [54](#page=54) [55](#page=55).
#### 4.3.6 De normale verdeling
De normale verdeling, met centrum $\\mu$ en spreiding $s^2$, is een symmetrische, klokvormige functie die vaak gebruikt wordt om de steekproevenverdeling te benaderen, vooral bij grotere steekproeven (#page=57, 58, 59). De standaardnormale verdeling heeft $\\mu=0$ en $s=1$. De centrale limietstelling stelt dat de verdeling van steekproefgemiddelden (of proporties) naar een normale verdeling convergeert naarmate de steekproefgrootte toeneemt, ongeacht de oorspronkelijke verdeling van de populatie [57](#page=57) [58](#page=58) [59](#page=59) [60](#page=60).
* * *
# Vergelijken van groepen en effecten van interventies
Dit onderwerp behandelt de vergelijking van proporties en gemiddelden tussen twee onafhankelijke groepen, de impact van een netwerk op behandelbeslissingen, en de analyse van experimentele studies met focus op causaliteit.
### 5.1 Vergelijken van proporties van twee onafhankelijke groepen
Wanneer onderzoeksvragen complexer worden dan het vergelijken van één proportie met een nulhypothese, is het nodig om proporties tussen twee onafhankelijke groepen te vergelijken. Dit is gelijkaardig aan de binomiaaltoets wat betreft hypothesen, beslissingsregels, eenzijdige/tweezijdige toetsen, type 1- en type 2-fouten, en betrouwbaarheidsintervallen, maar vereist nieuwe toetsingsgrootheden en nulverdelingen [61](#page=61).
#### 5.1.1 De onderzoeksvraag en de studiecontext
Een onderzoek naar gender- en raciale bias in medische behandelingen gebruikte gestandaardiseerde video's van patiënten met hartklachten om te onderzoeken of de behandeling afhangt van het ras en gender van de patiënt. Artsen werden willekeurig toegewezen aan het zien van een video van een witte mannelijke patiënt of een zwarte vrouwelijke patiënt, en moesten een diagnose en behandeling kiezen. De behandelingen varieerden van te licht tot te ingrijpend, met een correcte behandeling als optie. Artsen werden gerandomiseerd in een individuele groep of een netwerkgroep, waarbij het verschil voornamelijk vanaf de tweede ronde relevant werd. Randomisatie en gestandaardiseerde video's zijn cruciaal voor causale conclusies [61](#page=61) [62](#page=62).
De onderzoeksvragen waren onder andere:
1. Is er in de eerste ronde een verschil in diagnose en behandeling tussen beide video's [62](#page=62)?
2. Hoe verschilt de diagnose en behandeling tussen de rondes [62](#page=62)?
3. Wat is het effect van informatie-uitwisseling (netwerk) op de gekozen behandeling [62](#page=62)?
4. Wat is het verband tussen de bijstelling van de diagnose in de laatste ronde en de fout in de diagnose in de eerste ronde [62](#page=62)?
#### 5.1.2 Beschrijvende analyse
Om de eerste onderzoeksvraag te beantwoorden ("Is er in de eerste ronde een verschil in behandeling tussen beide video's?"), wordt gekeken naar de afhankelijkheid van de behandeling van het type video. Hierbij is het type video de verklarende variabele en de gekozen behandeling de uitkomstvariabele. De groepen (artsen die de video van de witte man zagen en artsen die de video van de zwarte vrouw zagen) worden beschouwd als onafhankelijke groepen [63](#page=63).
De gekozen behandeling is een categorische variabele met vier mogelijke waarden (A, B, C, D), die ook als vier binaire variabelen behandeld kan worden (bijv. "Behandeling A gekozen: Ja/Nee"). Kruistabellen met voorwaardelijke relatieve frequenties tonen verschillen: behandelingen A en D werden vaker toegekend aan de zwarte vrouwelijke patiënt, terwijl behandeling B en C vaker aan de witte mannelijke patiënt werden toegekend [63](#page=63) [64](#page=64).
Het risicoverschil ($f\_{WM} - f\_{ZV}$) kwantificeert de samenhang tussen de gekozen behandeling en de video. Verschillen rond nul duiden op geen samenhang, terwijl waarden verschillend van nul op samenhang wijzen. In de steekproef waren deze verschillen aanwezig, zij het klein [64](#page=64).
#### 5.1.3 Inductieve analyse
Bij de inductieve analyse staat het toevalsproces centraal. Er wordt getest of de kans op het kiezen van behandeling C even groot is voor beide video's [65](#page=65).
**Hypothesen:**
* Nulhypothese ($H\_0$): De kans om behandeling C te kiezen hangt niet af van het type video ($p\_{WM} = p\_{ZV}$) [65](#page=65).
* Alternatieve hypothese ($H\_a$): De kans om behandeling C te kiezen hangt af van het type video ($p\_{WM} \\neq p\_{ZV}$) [65](#page=65).
Hierbij is $p\_{WM}$ de kans op het kiezen van behandeling C na het zien van de video met de witte mannelijke patiënt, en $p\_{ZV}$ de kans na het zien van de video met de zwarte vrouwelijke patiënt. De hypotheses kunnen ook geformuleerd worden in termen van het verschil tussen deze kansen [65](#page=65).
**Nulverdeling opstellen:** De nulverdeling kan worden opgesteld via permutaties. Als $H\_0$ waar is, dan maakt het type video niet uit voor de behandelkeuze. De keuzes van beide groepen kunnen worden samengevoegd om de kans op het kiezen van de correcte behandeling te schatten, wat resulteert in de gepoolde proportie ($p$) [65](#page=65) [66](#page=66) [67](#page=67).
$$p = \\frac{\\text{totaal aantal correcte behandelingen}}{\\text{totaal aantal artsen}} = \\frac{n\_{C,WM} + n\_{C,ZV}}{N\_1 + N\_2}$$ [66](#page=66).
De nulverdeling wordt verkregen door de volgende stappen vele malen te herhalen [66](#page=66):
1. Permuteer de data, waarbij de uitkomsten van de artsen van groep wisselen [68](#page=68).
2. Bereken de proporties per groep [68](#page=68).
3. Bereken het verschil tussen beide proporties [68](#page=68).
Dit proces kan worden vergeleken met het schudden van kaarten, waarbij elke kaart een arts voorstelt met de keuze voor de behandeling [68](#page=68).
De geobserveerde toetsingsgrootheid is het verschil tussen de geobserveerde proporties ($t = p\_{WM} - p\_{ZV}$). De p-waarde is de proportie waarden in de nulverdeling die minstens even extreem zijn als de geobserveerde toetsingsgrootheid [61](#page=61) [66](#page=66) [67](#page=67).
> **Tip:** Bij het opstellen van de p-waarde wordt vaak de absolute waarde van de toetsingsgrootheid genomen om een tweezijdige toets te simuleren [67](#page=67).
#### 5.1.4 Betrouwbaarheidsinterval
Een betrouwbaarheidsinterval kan ook worden berekend voor het verschil tussen twee proporties [67](#page=67) [69](#page=69).
#### 5.1.5 Formules en voorwaarden
Voor het vergelijken van proporties met formules gelden de volgende overwegingen [69](#page=69):
$$ \\text{Risicoverschil (RV)} = p\_1 - p\_2 $$ [69](#page=69).
$$ \\text{Standaardfout van het risicoverschil (SE)} = \\sqrt{\\frac{p\_1(1-p\_1)}{n\_1} + \\frac{p\_2(1-p\_2)}{n\_2}} $$ [69](#page=69).
$$ \\text{Toetsingsgrootheid (z)} = \\frac{RV - 0}{SE} $$ [69](#page=69).
**Voorwaarden voor formulegebruik:**
* De observaties moeten onderling onafhankelijk zijn [69](#page=69).
* Voor elke waarde van de binaire variabele moeten er minstens 10 observaties zijn (d.w.z. minstens 10 artsen die een correcte behandeling kozen en minstens 10 die een foutieve behandeling kozen) [69](#page=69).
#### 5.1.6 Het multipliciteitsprobleem en p-hacking
Bij het toetsen van meerdere hypotheses neemt de kans op een Type 1-fout toe [70](#page=70).
**Multipliciteitsprobleem:** Naarmate meer hypothesetoetsen worden uitgevoerd, stijgt de kans op ten minste één Type 1-fout [70](#page=70).
**Oplossingen:**
* **Bonferroni-correctie:** Voor $k$ toetsen wordt elk significantieniveau verlaagd naar $\\alpha/k$. Dit verhoogt echter de kans op een Type 2-fout [70](#page=70).
* **Grote steekproef:** Een grotere steekproefgrootte verkleint de kans op een Type 2-fout [70](#page=70).
* **Exploratieve analyse:** Als de Bonferroni-correctie niet wordt toegepast, moeten de resultaten als exploratief worden beschouwd [70](#page=70).
**No go: P-hacking:** Het uitvoeren van vele hypothesetoetsen en enkel het rapporteren van statistisch significante resultaten, wat leidt tot een vertekend beeld van de evidentie [70](#page=70).
#### 5.1.7 Het effect van het netwerk
De impact van informatie-uitwisseling tussen een netwerk van artsen op behandelbeslissingen kan worden geanalyseerd. Dit kan bijvoorbeeld door de diagnose en behandeling in de eerste ronde (individueel) te vergelijken met latere rondes waar netwerkinteractie mogelijk is [62](#page=62) [71](#page=71).
### 5.2 Vergelijken van gemiddelden van twee onafhankelijke groepen
Om te onderzoeken of de gemiddelde diagnose in de eerste ronde afhangt van het type video, vergelijken we de gemiddelden van twee onafhankelijke groepen. Hierbij is het type video de verklarende variabele en de gekozen diagnose de numerieke uitkomstvariabele [71](#page=71).
#### 5.2.1 Inductieve analyse
Bij het vergelijken van gemiddelden is de parameter van het toevalsproces het populatiegemiddelde ($\\mu$ of $E(Y)$), in plaats van een kans ($p$) [72](#page=72).
**Hypothesen:**
* Nulhypothese ($H\_0$): Het populatiegemiddelde van de diagnose hangt niet af van het type video ($\\mu\_{WM} = \\mu\_{ZV}$) [72](#page=72).
* Alternatieve hypothese ($H\_a$): Het populatiegemiddelde van de diagnose hangt wel af van het type video ($\\mu\_{WM} \\neq \\mu\_{ZV}$) [72](#page=72).
Deze hypotheses kunnen ook geformuleerd worden in termen van het verschil tussen de gemiddelden: $\\mu\_{WM} - \\mu\_{ZV} = 0$ versus $\\mu\_{WM} - \\mu\_{ZV} \\neq 0$ [72](#page=72).
**Toetsingsgrootheid:** De toetsingsgrootheid is het verschil tussen de steekproefgemiddelden ($\\bar{x}\_1 - \\bar{x}\_2$) [72](#page=72).
**Nulverdeling:** De nulverdeling kan, net als bij proporties, worden verkregen via permutaties. De permutatiestrategie beschrijft het toevalsproces goed als de observaties onderling onafhankelijk zijn [72](#page=72).
#### 5.2.2 Formules
Voor het vergelijken van gemiddelden gelden de volgende formules [73](#page=73):
$$ \\text{Populatiegemiddelde} = \\mu \\text{ of } E(Y) $$ [73](#page=73).
$$ \\text{Populatiestandaardafwijking} = s \\text{ of } s\_Y $$ [73](#page=73).
$$ \\text{Toetsingsgrootheid} = \\frac{(\\bar{x}\_1 - \\bar{x}\_2) - (\\mu\_1 - \\mu\_2)}{\\sqrt{\\frac{s\_1^2}{n\_1} + \\frac{s\_2^2}{n\_2}}} $$ [73](#page=73).
**Centrale Limietstelling:** De centrale limietstelling stelt dat, onder bepaalde voorwaarden (zoals onafhankelijke observaties), de steekproefverdeling van het gemiddelde bij benadering normaal verdeeld is, zelfs als de onderliggende populatieverdeling niet normaal is, mits de steekproefgrootte groot genoeg is [73](#page=73).
#### 5.2.3 De t-verdeling
De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking onbekend is en geschat wordt uit de steekproef. De vorm van de t-verdeling hangt af van de steekproefgrootte ($n$) en wordt genoteerd als $T \\sim t\_n$. De t-verdeling lijkt op een standaardnormale verdeling, maar de kritische waarden verschillen. Het verschil tussen de t-verdeling en de standaardnormale verdeling wordt kleiner naarmate $n$ groter wordt. Software maakt vaak gebruik van deze verdeling [74](#page=74).
### 5.3 Analyse van experimentele studies en causaliteit
Experimentele studies, met name die gebruik maken van randomisatie, zijn cruciaal voor het trekken van causale conclusies. Door deelnemers willekeurig toe te wijzen aan verschillende condities (bijvoorbeeld een interventiegroep en een controlegroep), wordt gezorgd dat de groepen vergelijkbaar zijn op alle mogelijke confounders, behalve de interventie zelf. Dit minimaliseert de kans dat waargenomen verschillen worden veroorzaakt door andere factoren dan de interventie. De analyse van dergelijke studies richt zich op het kwantificeren van het effect van de interventie, vaak uitgedrukt als een risicoverschil of een verschil in gemiddelden [62](#page=62).
* * *
## Veelgemaakte fouten om te vermijden
* Bestudeer alle onderwerpen grondig voor examens
* Let op formules en belangrijke definities
* Oefen met de voorbeelden in elke sectie
* Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Empirische cyclus | Een systematisch proces van wetenschappelijk onderzoek dat begint met observatie, gevolgd door inductie voor het formuleren van hypotheses, deductie voor het opstellen van voorspellingen, toetsing van deze voorspellingen met nieuw data, en evaluatie van de resultaten. |
| Inductie | Het proces waarbij hypotheses worden geformuleerd op basis van verzamelde observaties of empirisch feitenmateriaal. Dit is de tweede stap in de empirische cyclus. |
| Deductie | Het proces waarbij voorspellingen worden opgesteld op basis van geformuleerde hypotheses. Dit is de derde stap in de empirische cyclus. |
| Toetsing | Het aftoetsen van een opgestelde voorspelling aan de hand van nieuw verzameld empirisch feitenmateriaal. Dit is de vierde stap in de empirische cyclus. |
| Evaluatie | Het kritisch beoordelen van het resultaat van de toetsing. Dit is de laatste stap in de empirische cyclus en leidt vaak tot nieuwe observaties of aanpassingen van hypotheses. |
| Statistiek | De wetenschap die zich bezighoudt met het leren uit data, inclusief het meten, controleren en communiceren van onzekerheid. Het speelt een rol in diverse fasen van de empirische cyclus. |
| Statistische geletterdheid | Het vermogen om te redeneren met behulp van statistiek en data. Dit wordt beschouwd als een sleutelvaardigheid in de hedendaagse datagedreven wereld. |
| Observationele eenheden | De eenheden waarvoor men data zal verzamelen tijdens een onderzoek. Dit kunnen individuen, objecten of gebeurtenissen zijn. |
| Steekproefkader | De lijst met informatie over de personen of elementen in de populatie die gebruikt wordt om de steekproef samen te stellen. Het is essentieel voor representatieve steekproeftrekking. |
| Enkelvoudige aselecte steekproeftrekking (EAS) | Een methode van steekproeftrekking waarbij elke mogelijke steekproef dezelfde kans heeft om gekozen te worden, wat impliceert dat elk element in het steekproefkader dezelfde kans heeft om in de steekproef te belanden. |
| Gestratificeerde steekproeftrekking | Een methode waarbij de populatie wordt onderverdeeld in subgroepen (strata) en vervolgens binnen elk stratum een enkelvoudige aselecte steekproeftrekking wordt uitgevoerd. |
| Gemakshalve steekproeftrekking (convenience sampling) | Een methode waarbij personen die het makkelijkst bereikbaar zijn, een grotere kans hebben om in de steekproef te worden opgenomen. Dit kan leiden tot selectiebias. |
| Non-respons bias | Een vorm van bias die ontstaat wanneer de personen die niet deelnemen aan een onderzoek systematisch verschillen van degenen die wel deelnemen, wat de representativiteit van de steekproef kan beïnvloeden. |
| Variabelen | Karakteristieken van de observationele eenheden die men wenst te onderzoeken. Deze kunnen variëren tussen de eenheden. |
| Operationaliseren | Het proces waarbij abstracte concepten of eigenschappen meetbaar worden gemaakt voor wetenschappelijk onderzoek. |
| Analysestrategie/protocol | Een gedetailleerd plan dat beschrijft hoe een studie zal worden uitgevoerd, inclusief het doel, de te meten variabelen, de onderzoekshypotheses, de steekproefmethode en de statistische analysemethoden. |
| Cross-sectionele studie | Een type studie waarbij variabelen slechts op één specifiek moment in de tijd worden bevraagd of gemeten. |
| Longitudinale studie | Een type studie waarbij één of meerdere variabelen op verschillende momenten in de tijd worden bevraagd of gemeten om veranderingen over tijd te bestuderen. |
| Observationele studie | Een type studie waarbij men enkel observeert zonder een interventie uit te voeren. De onderzoeker grijpt niet in, maar registreert wat er gebeurt. |
| Experimentele studie | Een type studie waarbij een interventie wordt uitgevoerd om de impact van die interventie te onderzoeken. De onderzoeker manipuleert een variabele om effecten te meten. |
| HARKing (Hypothesizing After the Results are Known) | Een werkwijze waarbij onderzoekshypotheses worden opgesteld nadat de resultaten van de data-analyse al bekend zijn. Dit is in strijd met de empirische cyclus en de wetenschappelijke methode. |
| Beschrijvende analyse | Het gebruik van statistische methoden om inzicht te krijgen in de data, vaak door middel van tabellen, samenvattende maten en grafische voorstellingen. |
| Univariate verdeling | De verdeling van één enkele variabele, die weergeeft welke waarden de variabele kan aannemen en hoe vaak elke waarde voorkomt. |
| Absolute frequentie | Het aantal keren dat een specifieke waarde van een variabele voorkomt in een dataset. |
| Relatieve frequentie | De absolute frequentie gedeeld door de totale steekproefgrootte; ook wel proportie genoemd. Het geeft het aandeel van een bepaalde waarde weer. |
| Odds | De verhouding tussen het aantal keren dat een waarde van een variabele wordt aangenomen en het aantal keren dat een andere waarde wordt aangenomen. |
| Kwalitatieve variabele (categorisch) | Een variabele waarvan de waarden geen numerieke betekenis hebben en die kan worden ingedeeld in categorieën. Dit kan nominaal (niet-geordend) of ordinaal (geordend) zijn. |
| Kwantitatieve variabele (numeriek) | Een variabele waarvan de waarden numeriek zijn en betekenisvolle berekeningen mogelijk maken. Dit kan interval (geen absoluut nulpunt) of ratio (wel een absoluut nulpunt) zijn, en discreet (beperkt aantal waarden) of continu (veel waarden) zijn. |
| Nominale variabele | Een kwalitatieve variabele waarvan de waarden niet op een logische volgorde geplaatst kunnen worden, zoals geslacht of kleur. |
| Ordinale variabele | Een kwalitatieve variabele waarvan de waarden wel op een logische volgorde geplaatst kunnen worden, zoals opleidingsniveau of rangorde. |
| Intervalvariabele | Een kwantitatieve variabele waarbij de verschillen tussen waarden betekenisvol zijn, maar er geen absoluut nulpunt is, zoals temperatuur in Celsius. |
| Ratio variabele | Een kwantitatieve variabele waarbij de verschillen tussen waarden betekenisvol zijn en er een absoluut nulpunt is, zoals lengte of gewicht. |
| Discrete variabele | Een kwantitatieve variabele die slechts een beperkt, telbaar aantal waarden kan aannemen, zoals het aantal kinderen. |
| Continue variabele | Een kwantitatieve variabele die een oneindig aantal waarden kan aannemen binnen een bepaald bereik, zoals lengte of tijd. |
| Binaire variabele | Een variabele die slechts twee mogelijke waarden kan aannemen, zoals ja/nee of succes/falen. |
| Staafdiagram | Een grafische weergave die de frequentie of relatieve frequentie van categorieën van een variabele toont met behulp van rechthoekige staven. |
| Centrummaten | Statistische maten die een indicatie geven van het midden of centrum van een dataset, zoals het gemiddelde en de mediaan. |
| Spreidingsmaten (variatie) | Statistische maten die de mate van verspreiding of variabiliteit van de data rond het centrum kwantificeren, zoals de variatiebreedte, standaardafwijking en interkwartielafstand. |
| Variatiebreedte | Een eenvoudige spreidingsmaat die gelijk is aan het verschil tussen de maximale en minimale waarde van een variabele. |
| Standaardafwijking (standaarddeviatie) | Een spreidingsmaat die de gemiddelde afstand van de waarden tot het steekproefgemiddelde weergeeft. |
| Variantie | Het kwadraat van de standaardafwijking; een maat voor de spreiding van data. |
| Interkwartielafstand (IKA) | Een spreidingsmaat die gelijk is aan het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1). Het geeft de spreiding van de middelste 50% van de data weer. |
| Kwartielen | Waarden die een dataset opdelen in vier gelijke delen. Q1 is de waarde waaronder 25% van de data ligt, Q2 (de mediaan) is de waarde waaronder 50% ligt, en Q3 is de waarde waaronder 75% ligt. |
| Histogram | Een soort staafdiagram dat wordt gebruikt voor gegroepeerde numerieke data, waarbij de breedte van de staven de klasse-intervallen vertegenwoordigt en de hoogte de frequentie. |
| Boxplot | Een grafische weergave die de verdeling van data samenvat met behulp van kwartielen, de mediaan en de extreme waarden (uitschieters). |
| Uitschieter | Een datapunt dat significant afwijkt van de rest van de data, vaak gedefinieerd als een waarde die meer dan 1.5 keer de IKA buiten Q1 of Q3 ligt. |
| Symmetrische verdeling | Een verdeling waarbij de linker- en rechterhelft spiegelbeeldig zijn rond het centrum; de mediaan ligt in het midden en de staarten zijn ongeveer even lang. |
| Scheve verdeling | Een verdeling die niet symmetrisch is. Bij een verdeling scheef naar links is de staart aan de linkerkant langer; bij een verdeling scheef naar rechts is de staart aan de rechterkant langer. |
| Bivariate verdeling | De verdeling van twee variabelen gezamenlijk, waarbij men geïnteresseerd is in hun onderlinge samenhang. |
| Kruistabel | Een tabel die de bivariate verdeling van twee categorische variabelen weergeeft, waarbij de waarden van de ene variabele worden gekruist met de waarden van de andere. |
| Voorwaardelijke relatieve frequentie | De relatieve frequentie van een bepaalde waarde binnen een specifieke subgroep van de steekproef, berekend ten opzichte van het kolom- of rijgetal. |
| Risicoverschil | Het verschil tussen de voorwaardelijke relatieve frequenties van een uitkomst in twee verschillende groepen. |
| Relatief risico | De verhouding van twee voorwaardelijke relatieve frequenties; het geeft aan hoe veel vaker een gebeurtenis optreedt in de ene groep vergeleken met de andere. |
| Odds ratio | De verhouding van twee voorwaardelijke odds; het kwantificeert de associatie tussen twee variabelen in een kruistabel. |
| Spreidingsdiagram | Een tweedimensionale grafiek waarop de waarden van twee numerieke variabelen tegen elkaar worden uitgezet om hun samenhang te visualiseren. |
| Correlatiecoëfficiënt (Rxy) | Een maat die de sterkte en richting van de lineaire samenhang tussen twee numerieke variabelen aangeeft, met waarden tussen -1 en 1. |
| Regressierechte | De best passende rechte door een puntenwolk in een spreidingsdiagram, die wordt gebruikt om de relatie tussen twee variabelen te modelleren en voorspellingen te doen. |
| Causaliteit | Een oorzaak-gevolgrelatie tussen twee variabelen, waarbij veranderingen in de ene variabele directe veranderingen in de andere veroorzaken. |
| Contrafeitelijk denken | Het zich voorstellen hoe de werkelijkheid eruit zou zien bij een bepaalde interventie zonder dat deze daadwerkelijk is uitgevoerd. |
| Confounder | Een variabele die de relatie tussen twee andere variabelen kan verstoren of verwarren, omdat deze samenhangt met zowel de onafhankelijke als de afhankelijke variabele. |
| Steekproefvariabiliteit | Variabiliteit in samenvattende maten (zoals het steekproefgemiddelde) die optreedt wanneer een studie herhaaldelijk wordt uitgevoerd met verschillende steekproeven. |
| Kansmodel | Een wiskundige weergave van de werkelijkheid die rekening houdt met de rol van toeval bij steekproeftrekking. Het wordt gebruikt om data te genereren en kansen te berekenen. |
| Inductieve analyse (inferentiële analyse) | Statistische analyses die gebruikmaken van kansmodellen om steekproefvariabiliteit in rekening te brengen en conclusies te trekken die verder reiken dan de geobserveerde data. |
| Toevalsproces | Een herhaalbaar proces waarbij de individuele uitkomsten op voorhand onbekend zijn, maar een patroon vertonen bij voldoende herhalingen. Data uit wetenschappelijke studies worden vaak beschouwd als een momentopname van een toevalsproces. |
| Experimentele eenheden | De eenheden (vaak personen) die worden bestudeerd in een experimentele studie en waarvoor data wordt verzameld. |
| Balanceren | Het gelijk verdelen van de waarden van een variabele over de onderzoekseenheden om mogelijke confounders uit te schakelen. |
| Blinderen | Het achterhouden van bepaalde informatie voor deelnemers of onderzoekers tijdens een studie om ongewenste invloeden te elimineren, zoals in dubbel-blinde studies. |
| Nulhypothese (H0) | Een bewering of aanname over het toevalsproces (de populatie) die wordt getoetst. Het stelt vaak dat er geen effect of verschil is. |
| Alternatieve hypothese (Ha) | Een bewering die het tegenovergestelde stelt van de nulhypothese en die wordt aangenomen als de nulhypothese wordt verworpen. |
| Toetsingsgrootheid (statistiek) | Een statistiek die wordt berekend op basis van de steekproefgegevens en die informatie geeft over de hypotheses die worden getoetst. |
| Geobserveerde toetsingsgrootheid | De waarde van de toetsingsgrootheid berekend op basis van de werkelijk geobserveerde data. |
| Schatter | Een statistiek die wordt gebruikt om een parameter van het toevalsproces te schatten; de waarde berekend uit de steekproef heet de schatting. |
| Steekproevenverdeling | De verdeling van een statistiek wanneer de studie herhaaldelijk wordt uitgevoerd met nieuwe steekproeven. Het beschrijft de variabiliteit van de statistiek. |
| Binomiale verdeling | Een wiskundige kansverdeling die de kans op een bepaald aantal successen weergeeft bij een vast aantal onafhankelijke pogingen, elk met twee mogelijke uitkomsten (succes/falen). |
| Onafhankelijk | Observaties zijn onafhankelijk als de kennis van de ene observatie geen informatie oplevert over de mogelijke waarden van een andere observatie. |
| Nulverdeling | De steekproevenverdeling van de toetsingsgrootheid onder de aanname dat de nulhypothese waar is. |
| P-waarde | De kans om een toetsingsgrootheid te observeren die minstens even extreem is als de geobserveerde toetsingsgrootheid, in de richting van de alternatieve hypothese, gegeven dat de nulhypothese waar is. |
| Hypothesetoets | Een statistische procedure om te bepalen of er voldoende bewijs is in de data om de nulhypothese te verwerpen ten gunste van de alternatieve hypothese. |
| Eenzijdige hypothese | Een alternatieve hypothese die een specifieke richting van het effect aangeeft (groter dan of kleiner dan). |
| Tweezijdige hypothese | Een alternatieve hypothese die aangeeft dat er een verschil is, zonder specificatie van de richting (ongelijk aan). |
| Significantieniveau (alfa) | Een vooraf vastgelegd drempelwaarde (vaak 0.05) waaronder een p-waarde als statistisch significant wordt beschouwd, wat leidt tot het verwerpen van de nulhypothese. |
| Statistisch significant | Een resultaat dat statistisch significant is wanneer de p-waarde kleiner is dan het significantieniveau, wat aangeeft dat het waarschijnlijk is dat de nulhypothese onjuist is. |
| Type 1-fout | Het verwerpen van de nulhypothese wanneer deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau (alfa). |
| Type 2-fout | Het niet verwerpen van de nulhypothese wanneer deze in werkelijkheid onjuist is. De kans hierop wordt aangeduid met bèta. |
| Betrouwbaarheid | De kans om de nulhypothese niet te verwerpen wanneer deze in werkelijkheid waar is (gelijk aan 1 - alfa). |
| Power | De kans om de nulhypothese te verwerpen wanneer de alternatieve hypothese in werkelijkheid waar is (gelijk aan 1 - bèta). |
| Determinantiecoëfficiënt (R-kwadraat) | De gekwadrateerde correlatiecoëfficiënt, die de proportie van de totale variantie in de uitkomstvariabele weergeeft die verklaard kan worden door de verklarende variabele. |
| Invloedrijke observatie | Een datapunt dat een grote impact heeft op de regressierechte of de correlatiecoëfficiënt, waardoor de resultaten van de analyse aanzienlijk kunnen veranderen. |
| Simpsons paradox | Een fenomeen waarbij de richting van de associatie tussen twee variabelen omkeert wanneer data van verschillende groepen worden gecombineerd, vaak veroorzaakt door een confounder. |
| Betrouwbaarheidsinterval | Een interval van waarden dat, met een bepaalde mate van zekerheid (bv. 95%), de werkelijke populatieparameter bevat. |
| Populatieparameter | Een numerieke eigenschap van het toevalsproces of de populatie die men wenst te bestuderen, zoals een kans (p) of een gemiddelde (µ). |
| Standaardfout (SE) | De standaardafwijking van de steekproevenverdeling van een schatter; het geeft aan hoe sterk de schatter zal variëren als de studie herhaaldelijk zou worden uitgevoerd. |
| Normale verdeling | Een symmetrische, klokvormige kansverdeling die vaak wordt gebruikt om de verdeling van variabelen wiskundig te beschrijven. |
| Standaardnormale verdeling | Een speciaal geval van de normale verdeling met een gemiddelde van 0 en een standaardafwijking van 1. |
| Centrale limietstelling | Een fundamentele stelling in de statistiek die stelt dat de steekproevenverdeling van het steekproefgemiddelde, of de som van onafhankelijke random variabelen, bij benadering normaal verdeeld is naarmate de steekproefgrootte toeneemt, ongeacht de oorspronkelijke verdeling. |
| T-verdeling | Een kansverdeling die lijkt op de standaardnormale verdeling, maar wordt gebruikt bij het schatten van populatiegemiddelden wanneer de populatiestandaardafwijking onbekend is. De vorm hangt af van de vrijheidsgraden (gerelateerd aan de steekproefgrootte). |
| Permutatie | Een techniek waarbij de gegevens van verschillende groepen worden herschikt om een nulverdeling te creëren onder de aanname dat de groepen niet van elkaar verschillen. |
| Multipliciteitsprobleem | Het probleem dat ontstaat wanneer meerdere hypothesetoetsen worden uitgevoerd, wat de kans op het maken van ten minste één Type 1-fout verhoogt. |
| Bonferroni-correctie | Een methode om het significantieniveau aan te passen (te verlagen) bij het uitvoeren van meerdere hypothesetoetsen om de kans op een Type 1-fout te beheersen. |
| P-hacking | Het selectief rapporteren van statistisch significante resultaten uit een reeks uitgevoerde toetsen, wat leidt tot een vertekend beeld van de evidentie. |
| Populatiegemiddelde (verwachtingswaarde) | Het gemiddelde van een variabele over alle mogelijke uitkomsten van een toevalsproces of over de gehele populatie. Wordt genoteerd als µ of E(Y). |
| Populatiestandaardafwijking | De standaardafwijking van de waarden van een variabele over alle mogelijke uitkomsten van een toevalsproces of over de gehele populatie. Wordt genoteerd als s of sy. |