Cover
Start now for free Set 1 H6Inleiding en Power.pptx
Summary
# Inleiding tot statistiek en studieverloop
Deze studiehandleiding biedt een overzicht van de cursus Statistiek III, inclusief de cursusinhoud, beoordelingscriteria en organisatorische informatie, voortbouwend op eerdere delen van de reeks.
### 1.1 Voorkennis: Statistiek I en II
De cursus bouwt voort op de concepten uit eerdere statistiekcursussen:
* **Statistiek I: Meetschalen en beschrijvende statistiek**
* Ordeningstechnieken (tabellen en figuren).
* Reductietechnieken (statistische grootheden: positie, spreiding, vorm).
* Associatietechnieken (spreidingsdiagrammen, contingentietabellen, correlatie).
* **Statistiek II: Kansrekening en inferentiële statistiek**
* Kansrekening: de studie van toeval.
* Steekproevenverdelingen (Sampling distributions).
* Inleiding tot inferentie: betrouwbaarheidsintervallen, overschrijdingskansen, significantietoetsen.
* Inductieve technieken: schatten (betrouwbaarheidsintervallen) van populatiekenmerken op basis van steekproeven.
### 1.2 Steekproevenverdelingen van het steekproefgemiddelde
Dit concept is cruciaal voor inferentiële statistiek, omdat het ons toestaat uitspraken te doen over de populatie op basis van een steekproef.
* **Definitie en eigenschappen:**
* De steekproevenverdeling van het steekproefgemiddelde beschrijft de verdeling van de gemiddelden van alle mogelijke steekproeven van een bepaalde grootte ($n$) getrokken uit een populatie.
* **Verwachting:** De verwachte waarde van de steekproevenverdeling van het steekproefgemiddelde is gelijk aan het populatiegemiddelde ($\\mu$). $$ E(\\bar{X}) = \\mu $$
* **Standaarddeviatie (Standaardfout):** De standaarddeviatie van de steekproevenverdeling, ook wel de standaardfout van het gemiddelde genoemd, is kleiner dan de populatiestandaarddeviatie ($\\sigma$). $$ SE = \\sigma\_{\\bar{X}} = \\frac{\\sigma}{\\sqrt{n}} $$ Dit betekent dat de steekproevenverdeling minder gespreid is dan de populatieverdeling.
* **Centrale Limietstelling:**
* **Voor normaal verdeelde populaties:** Als de populatie normaal verdeeld is met gemiddelde $\\mu$ en standaardafwijking $\\sigma$, dan is de steekproevenverdeling van het steekproefgemiddelde ($\\bar{X}$) ook normaal verdeeld met gemiddelde $\\mu$ en standaarddeviatie $\\frac{\\sigma}{\\sqrt{n}}$, ongeacht de steekproefgrootte ($n$). $$ \\text{Indien } X \\sim N(\\mu, \\sigma^2) \\text{, dan } \\bar{X} \\sim N\\left(\\mu, \\frac{\\sigma^2}{n}\\right) $$
* **Voor willekeurig verdeelde populaties:** Als de populatie willekeurig verdeeld is met gemiddelde $\\mu$ en standaardafwijking $\\sigma$, en de steekproefgrootte ($n$) voldoende groot is (vuistregel: $n \\geq 30$), dan benadert de steekproevenverdeling van het steekproefgemiddelde ($\\bar{X}$) een normaalverdeling met gemiddelde $\\mu$ en standaarddeviatie $\\frac{\\sigma}{\\sqrt{n}}$. $$ \\text{Indien } n \\text{ groot genoeg is, dan } \\bar{X} \\approx N\\left(\\mu, \\frac{\\sigma^2}{n}\\right) $$
### 1.3 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) is een geschat interval rond een steekproefstatistiek (zoals het steekproefgemiddelde) dat waarschijnlijk de corresponderende populatieparameter (zoals het populatiegemiddelde) bevat.
* **Concept:** Een BI geeft een bereik aan waarbinnen we met een bepaalde waarschijnlijkheid (het betrouwbaarheidsniveau) de ware populatiewaarde verwachten te vinden. Het helpt om de onzekerheid rond de schatting te kwantificeren.
* **Relatie met steekproevenverdeling:** De breedte van het betrouwbaarheidsinterval wordt beïnvloed door de standaardfout van het gemiddelde ($\\sigma\_{\\bar{X}}$), die afhangt van de populatiestandaardafwijking ($\\sigma$) en de steekproefgrootte ($n$).
* **Grotere steekproef ($n$):** Leidt tot een kleinere standaardfout en dus een smaller (precieser) betrouwbaarheidsinterval.
* **Grotere spreiding in de populatie ($\\sigma$):** Leidt tot een grotere standaardfout en dus een breder (minder precies) betrouwbaarheidsinterval.
* **Voorbeeld (SAT scores):** Een betrouwbaarheidsinterval van 95% voor de SAT math scores kan bijvoorbeeld tussen 461 - 9 en 461 + 9 punten liggen. Dit betekent dat we met 95% betrouwbaarheid kunnen zeggen dat het populatiegemiddelde van de SAT math scores tussen 452 en 470 ligt. De breedte van dit interval ($2 \\times 9 = 18$ punten) is gebaseerd op de 68-95-99.7-regel, waarbij 95% van de steekproefgemiddelden niet verder dan ongeveer twee standaardfouten ($\\text{2} \\times SE$) van het populatiegemiddelde ($\\mu$) verwijderd ligt.
### 1.4 Hypothesetoetsing: Z-toets voor onafhankelijke steekproeven
Hypothesetoetsing is een methode om te bepalen of er voldoende bewijs is in een steekproef om een bewering over een populatie te ondersteunen of te verwerpen.
* **Doel:** Het vergelijken van gemiddelden van twee onafhankelijke populaties.
* Bijvoorbeeld: het vergelijken van de gemiddelde SAT scores tussen "gewone" studenten en "slimmeriken".
* **Nulhypothese ($H\_0$):** Stelt dat er geen verschil is tussen de populatieparameters (bv. $\\mu\_1 = \\mu\_2$ of $\\mu\_1 - \\mu\_2 = 0$).
* **Alternatieve hypothese ($H\_a$):** Stelt dat er wel een verschil is (bv. $\\mu\_1 \\neq \\mu\_2$, $\\mu\_1 < \\mu\_2$, of $\\mu\_1 > \\mu\_2$).
* **Z-toets:** Gebruikt de z-verdeling om de waarschijnlijkheid te beoordelen dat een waargenomen verschil in steekproefgemiddelden te wijten is aan toeval, gegeven de nulhypothese. De toetsingsgrootheid is de z-score. $$ z = \\frac{(\\bar{x}\_1 - \\bar{x}\_2) - (\\mu\_1 - \\mu\_2)\_0}{\\sqrt{\\frac{\\sigma\_1^2}{n\_1} + \\frac{\\sigma\_2^2}{n\_2}}} $$ Hierbij is $(\\mu\_1 - \\mu\_2)\_0$ het verschil onder de nulhypothese (meestal 0).
* **Significante resultaten:** Als de berekende z-waarde leidt tot een p-waarde die kleiner is dan het vooraf bepaalde significantieniveau ($\\alpha$), wordt de nulhypothese verworpen. Dit suggereert dat het waargenomen verschil waarschijnlijk niet door toeval wordt veroorzaakt.
* **Voorbeeld:** Een z-score van 8.72 met een p-waarde kleiner dan 0.001 ($p < .001$) suggereert een significant verschil tussen de gemiddelde scores van "gewone" studenten en "slimmeriken", waarbij de "gewone" studenten significant lagere scores behalen.
#### 1.5.1 Significantietoets in 4 stappen
1. **Formuleer de nul- en de alternatieve hypothesen ($H\_0$ en $H\_a$).**
2. **Bepaal de waarde van de toetsingsgrootheid** (bv. de z-score).
3. **Bepaal de overschrijdingskans (p-waarde) voor de toetsingsgrootheid** (theoretisch of via resampling).
4. **Formuleer de conclusie** in APA-stijl.
### 1.5 Onderscheidingsvermogen (Power)
Het onderscheidingsvermogen, of de power van een toets, is de kans dat de toets de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Het is de kans om een werkelijk effect te detecteren.
* **Definitie:**$$ \\text{Power} = 1 - \\beta $$ waarbij $\\beta$ de kans is op een Type II-fout (het niet verwerpen van $H\_0$ terwijl $H\_a$ waar is).
* **Fouten bij hypothesetoetsing:**
* **Type I-fout ($\\alpha$):** Ten onrechte $H\_0$ verwerpen terwijl $H\_0$ waar is. Dit is gelijk aan het significantieniveau van de toets.
* **Type II-fout ($\\beta$):** $H\_0$ niet verwerpen terwijl $H\_a$ waar is.
* **Factoren die het onderscheidingsvermogen beïnvloeden:**
* **Effectgrootte:** Hoe groter het werkelijke verschil tussen de populatieparameters (onder $H\_a$), hoe groter het onderscheidingsvermogen.
* **Steekproefgrootte ($n$):** Een grotere steekproefgrootte verhoogt het onderscheidingsvermogen.
* **Significantieniveau ($\\alpha$):** Een hogere $\\alpha$ verhoogt het onderscheidingsvermogen, maar verhoogt ook de kans op een Type I-fout.
* **Spreiding in de populatie ($\\sigma$):** Een kleinere spreiding verhoogt het onderscheidingsvermogen.
* **Illustratie (Brildragersproef):**
* De populatie van niet-brildragers heeft een gemiddelde afwijking van 0 cm met een standaardafwijking van 0.5 cm ($N(0, 0.5)$).
* De onderzoeker vermoedt dat brildragers een systematische fout maken van + 2 millimeter (0.2 cm), wat een gemiddelde afwijking zou geven van 0.3 cm ($N(0.3, 0.5)$).
* Brildragers worden uitgesloten als hun gemiddelde afwijking in een steekproef van 35 personen significant groter is dan een kritieke waarde (bepaald door $\\alpha$).
* De kritieke waarde voor het gemiddelde steekproefgemiddelde bij een $\\alpha$ van bijvoorbeeld 0.05 (voor een eenzijdige toets) is ongeveer 0.1386 cm.
* Als de ware gemiddelde afwijking van brildragers 0.3 cm is, dan is de kans dat een steekproefgemiddelde deze kritieke waarde overschrijdt (en de nulhypothese dus verworpen wordt) het onderscheidingsvermogen. $$ P(\\bar{X} > 0.1386 | \\mu = 0.3) $$ Dit kan berekend worden met een z-toets onder de alternatieve hypothese: $$ z = \\frac{0.1386 - 0.3}{0.5 / \\sqrt{35}} \\approx -1.91 $$ Het onderscheidingsvermogen is dan $P(Z > -1.91) \\approx 0.9719$.
* Dit betekent dat als de werkelijke gemiddelde afwijking van brildragers 0.3 cm is, de toets in ongeveer 97% van de gevallen correct zal detecteren dat brildragers een afwijkend gedrag vertonen.
#### 1.5.1 Visualisatie van fouten en onderscheidingsvermogen
De relatie tussen de nulhypothese ($H\_0$, blauwe curve) en de alternatieve hypothese ($H\_a$, rode curve) wordt visueel voorgesteld:
* **Overlap:** Een grotere overlap tussen de verdelingen van $H\_0$ en $H\_a$ duidt op een kleinere effectgrootte en dus een lager onderscheidingsvermogen (meer kans op Type II-fouten).
* **Significantieniveau ($\\alpha$):** Een kleiner $\\alpha$ verplaatst de kritieke waarde naar rechts, wat leidt tot een grotere kans op Type II-fouten ($\\beta$) en dus een lager onderscheidingsvermogen ($1-\\beta$). Een groter $\\alpha$ verhoogt het onderscheidingsvermogen, maar ook de kans op een Type I-fout.
* **Steekproefgrootte ($n$) en spreiding ($\\sigma$):** Een grotere $n$ en kleinere $\\sigma$ verkleinen de standaardfout, waardoor de verdelingen van $H\_0$ en $H\_a$ minder overlappen en het onderscheidingsvermogen toeneemt.
### 1.6 Beslissingsfouten
Bij het toepassen van statistische toetsen kunnen twee soorten fouten worden gemaakt:
* **Type I-fout:** Het onterecht verwerpen van de nulhypothese ($H\_0$), ook wel een "vals positief" genoemd. De kans hierop is gelijk aan het significantieniveau ($\\alpha$).
* **Type II-fout:** Het onterecht niet verwerpen van de nulhypothese ($H\_0$), ook wel een "vals negatief" genoemd. De kans hierop is $\\beta$.
De consequenties van deze fouten moeten worden afgewogen bij het kiezen van het significantieniveau $\\alpha$.
### 1.7 Samenvatting van de belangrijkste concepten
* **Steekproevenverdelingen:** Beschrijven de variabiliteit van steekproefstatistieken. De Centrale Limietstelling is essentieel voor de normaliteit van deze verdelingen.
* **Betrouwbaarheidsintervallen:** Bieden een bereik voor populatieparameters met een gespecificeerd betrouwbaarheidsniveau.
* **Hypothesetoetsing:** Een gestructureerde methode om conclusies te trekken over populaties op basis van steekproefgegevens, met aandacht voor de kans op fouten (Type I en Type II).
* **Onderscheidingsvermogen (Power):** De kans om een werkelijk effect te detecteren, cruciaal voor het ontwerpen van studies met voldoende sensitiviteit.
Deze elementen vormen de basis voor het begrijpen en toepassen van statistische inferentie.
* * *
# Steekproevenverdelingen en betrouwbaarheidsintervallen
Steekproevenverdelingen en betrouwbaarheidsintervallen vormen de kern van inferentiële statistiek door inzicht te geven in de relatie tussen steekproefkenmerken en populatieparameters.
## 2 Steekproevenverdelingen en betrouwbaarheidsintervallen
### 2.1 Steekproevenverdelingen
Een steekproevenverdeling beschrijft de verdeling van een statistiek (zoals het steekproefgemiddelde) die verkregen is uit alle mogelijke steekproeven van een specifieke grootte, getrokken uit een populatie.
#### 2.1.1 Verwachting en standaarddeviatie van steekproefgemiddelden
Wanneer we herhaaldelijk enkelvoudige aselecte steekproeven (SRS) van grootte $n$ trekken uit een populatie met gemiddelde $\\mu$ en standaardafwijking $\\sigma$, geldt het volgende voor de steekproevenverdeling van het steekproefgemiddelde $\\bar{X}$:
* De verwachting (het gemiddelde) van de steekproevenverdeling is gelijk aan het populatiegemiddelde: $$ E(\\bar{X}) = \\mu $$
* De standaarddeviatie van de steekproevenverdeling, ook wel de standaardfout (SE) genoemd, is kleiner dan de populatiestandaardafwijking en wordt kleiner naarmate de steekproefgrootte toeneemt: $$ SE(\\bar{X}) = \\frac{\\sigma}{\\sqrt{n}} $$
#### 2.1.2 Steekproevenverdeling van een steekproefgemiddelde
De steekproevenverdeling van een steekproefgemiddelde is gecentreerd rond het populatiegemiddelde $\\mu$ en is minder gespreid dan de populatieverdeling.
#### 2.1.3 Centrale limietstelling
De centrale limietstelling (CLT) is fundamenteel voor het begrijpen van steekproevenverdelingen:
* **Als de populatie normaal verdeeld is:** De steekproevenverdeling van het steekproefgemiddelde $\\bar{X}$ is ook normaal verdeeld, ongeacht de steekproefgrootte $n$.
* **Als de populatie willekeurig verdeeld is:** De steekproevenverdeling van het steekproefgemiddelde $\\bar{X}$ benadert een normale verdeling naarmate de steekproefgrootte $n$ groot genoeg is. Een veelgebruikte vuistregel is $n \\ge 30$.
> **Tip:** De CLT is cruciaal omdat het ons toestaat om de normale verdeling te gebruiken voor inferentie, zelfs als we de vorm van de oorspronkelijke populatieverdeling niet kennen.
#### 2.1.4 Illustratie met de Scholastic Aptitude Test (SAT)
De SAT-wiskunde sectie dient als een illustratief voorbeeld. Stel dat de populatiegemiddelde SAT-score $\\mu$ gelijk is aan 500. Als we herhaaldelijk steekproeven trekken, zullen de steekproefgemiddelden rond de 500 gecentreerd zijn, met een spreiding die afhangt van de standaardfout. De 68-95-99.7-regel kan worden toegepast op de steekproevenverdeling; dit impliceert dat 95% van de steekproefgemiddelden niet verder dan ongeveer twee standaardfouten van het populatiegemiddelde $\\mu$ ligt.
### 2.2 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) is een reeks waarden die, met een bepaalde mate van waarschijnlijkheid, het werkelijke populatieparameter bevat. Het wordt geconstrueerd rondom een steekproefstatistiek.
#### 2.2.1 Constructie en interpretatie van een betrouwbaarheidsinterval
Een betrouwbaarheidsinterval wordt opgebouwd rond een steekproefgemiddelde $\\bar{X}$ en wordt bepaald door de volgende componenten:
* **Steekproefgemiddelde ($\\bar{X}$):** De puntschatting van het populatiegemiddelde.
* **Standaardfout (SE):** De standaardafwijking van de steekproevenverdeling van het steekproefgemiddelde ($\\frac{\\sigma}{\\sqrt{n}}$).
* **Betrouwbaarheidsniveau (bv. 95%):** Dit is de kans dat een herhaaldelijk getrokken interval het werkelijke populatieparameter zal bevatten. Dit niveau wordt bepaald door een $\\alpha$\-waarde (significantieniveau), waarbij $\\alpha = 1 - \\text{betrouwbaarheidsniveau}$.
Een algemene formule voor een betrouwbaarheidsinterval voor het populatiegemiddelde $\\mu$ is:
$$ \\bar{X} \\pm \\text{kritieke waarde} \\times SE(\\bar{X}) $$
De kritieke waarde wordt bepaald door het gekozen betrouwbaarheidsniveau en de verdeling (vaak de normale verdeling of de t-verdeling).
**Voorbeeld SAT:** Als een steekproefgemiddelde SAT-score $\\bar{X}$ wordt gevonden en de standaardfout bekend is, kunnen we een betrouwbaarheidsinterval construeren. Als we bijvoorbeeld een 95% betrouwbaarheidsinterval berekenen rond een steekproefgemiddelde van 461, en de halve breedte van dit interval is 9 punten, dan ligt het populatiegemiddelde van de SAT-scores met 95% betrouwbaarheid tussen $461 - 9 = 452$ en $461 + 9 = 470$.
#### 2.2.2 Invloed van steekproefgrootte op het betrouwbaarheidsinterval
* **Grotere steekproefgrootte ($n$):** Leidt tot een kleinere standaardfout ($\\frac{\\sigma}{\\sqrt{n}}$). Hierdoor wordt het betrouwbaarheidsinterval smaller, wat resulteert in een preciezere schatting van het populatiegemiddelde.
* **Kleinere steekproefgrootte ($n$):** Leidt tot een grotere standaardfout, waardoor het betrouwbaarheidsinterval breder wordt.
#### 2.2.3 Invloed van de $\\alpha$\-waarde op het betrouwbaarheidsinterval
* **Hoger betrouwbaarheidsniveau (lagere $\\alpha$):** Vereist een grotere kritieke waarde, wat resulteert in een breder betrouwbaarheidsinterval. Dit betekent dat we meer zekerheid hebben dat het interval de populatieparameter bevat, maar de schatting is minder precies.
* **Lager betrouwbaarheidsniveau (hogere $\\alpha$):** Vereist een kleinere kritieke waarde, wat resulteert in een smaller betrouwbaarheidsinterval. De schatting is preciezer, maar met minder zekerheid.
#### 2.2.4 Gebruik van de normale verdeling in betrouwbaarheidsintervallen
Wanneer de populatiestandaardafwijking $\\sigma$ bekend is of de steekproefgrootte groot is ($n \\ge 30$), kan de z-verdeling (standaard normale verdeling) worden gebruikt om de kritieke waarden te bepalen. De breedte van het interval wordt bepaald door de z-score die overeenkomt met het gewenste betrouwbaarheidsniveau, vermenigvuldigd met de standaardfout.
#### 2.2.5 Betrouwbaarheidsinterval en populatiegemiddelde
Het betrouwbaarheidsinterval biedt een bereik van waarden waarin we redelijkerwijs verwachten dat het ware populatiegemiddelde ($\\mu$) zich bevindt, gegeven de steekproefdata. Het is een schatting gebaseerd op de beschikbare informatie, met een specifieke kans op correctheid.
### 2.3 Onderscheidingsvermogen en fouten in hypothesetoetsing
Hoewel dit deels betrekking heeft op hypothesetoetsing, is de conceptuele link met steekproevenverdelingen en betrouwbaarheidsintervallen significant. Fouten in hypothesetoetsing vloeien voort uit de inherente onzekerheid bij het infereren van een populatie op basis van een steekproef.
#### 2.3.1 Soorten fouten
Er zijn twee hoofdtypes van fouten bij hypothesetoetsing:
* **Type I-fout ( $\\alpha$ ):** Het onterecht verwerpen van de nulhypothese ($H\_0$) wanneer deze waar is. De kans op deze fout is gelijk aan het significantieniveau $\\alpha$ dat voor de toets is gekozen.
* **Type II-fout ( $\\beta$ ):** Het onterecht niet verwerpen van de nulhypothese ($H\_0$) wanneer de alternatieve hypothese ($H\_a$) waar is. Dit wordt ook wel een 'vals negatief' genoemd.
#### 2.3.2 Onderscheidingsvermogen (Power)
Het onderscheidingsvermogen, ook wel 'power' genoemd, is de kans dat een hypothesetoets de nulhypothese ($H\_0$) correct verwerpt wanneer de alternatieve hypothese ($H\_a$) waar is. Het is gelijk aan $1 - \\beta$.
* **Hoger onderscheidingsvermogen:** Een grotere kans om een werkelijk effect of verschil te detecteren wanneer dit aanwezig is.
* **Verhogen van het onderscheidingsvermogen:** Dit kan worden bereikt door:
* De steekproefgrootte $n$ te verhogen.
* De effectgrootte te vergroten (het verschil tussen de hypothesen).
* Het significantieniveau $\\alpha$ te verhogen (wat echter de kans op een Type I-fout vergroot).
#### 2.3.3 Relatie tussen $\\alpha$ en onderscheidingsvermogen
Er is een afweging tussen het risico op een Type I-fout ($\\alpha$) en het onderscheidingsvermogen ($1-\\beta$). Een kleinere $\\alpha$ (meer conservatief) verhoogt de kans op een Type II-fout ($\\beta$) en verlaagt het onderscheidingsvermogen. Een grotere $\\alpha$ verlaagt de kans op een Type II-fout en verhoogt het onderscheidingsvermogen, maar vergroot het risico op een Type I-fout.
#### 2.3.4 Invloed van steekproefgrootte en standaardafwijking op onderscheidingsvermogen
* **Steekproefgrootte ($n$):** Een grotere $n$ verkleint de standaardfout, waardoor de steekproevenverdelingen onder $H\_0$ en $H\_a$ verder uit elkaar komen te liggen. Dit vergroot het onderscheidingsvermogen.
* **Standaardafwijking ($\\sigma$):** Een kleinere $\\sigma$ leidt tot smallere steekproevenverdelingen, waardoor de scheiding tussen de verdelingen onder $H\_0$ en $H\_a$ toeneemt en het onderscheidingsvermogen wordt vergroot.
> **Tip:** Bij het plannen van onderzoek is het belangrijk om het onderscheidingsvermogen te overwegen om ervoor te zorgen dat het onderzoek in staat is om relevante effecten te detecteren als deze aanwezig zijn.
* * *
# Hypothesetoetsing en foutenanalyse
Hypothesetoetsing is een statistische methode om te bepalen of er voldoende bewijs is om een specifieke claim (hypothese) over een populatie te verwerpen of te behouden, gebaseerd op steekproefgegevens.
## 3\. Hypothesetoetsing en foutenanalyse
### 3.1 Introductie tot hypothesetoetsing
Hypothesetoetsing is een procedure waarbij op basis van steekproefgegevens een beslissing wordt genomen over een uitspraak (hypothese) die gedaan is over de populatie. Het is een kernonderdeel van inferentiële statistiek en helpt ons om conclusies te trekken over populaties op basis van beperkte informatie uit steekproeven.
### 3.2 De z-toets voor onafhankelijke steekproeven
De z-toets voor onafhankelijke steekproeven wordt gebruikt om de gemiddelden van twee verschillende populaties te vergelijken. Dit is met name relevant wanneer we willen weten of er een significant verschil is tussen de gemiddelde scores van twee groepen.
#### 3.2.1 Formuleren van hypothesen
Bij hypothesetoetsing is het cruciaal om duidelijke nulhypothesen ($H\_0$) en alternatieve hypothesen ($H\_a$) te formuleren.
* **Nulhypothese ($H\_0$):** Stelt dat er geen effect of verschil is. Bij het vergelijken van twee gemiddelden stelt de nulhypothese vaak dat de gemiddelden van de twee populaties gelijk zijn, of dat het verschil tussen hen nul of kleiner dan of gelijk aan nul is.
* Voorbeeld: $H\_0: \\mu\_1 - \\mu\_2 \\leq 0$ (Het gemiddelde van populatie 1 is niet groter dan het gemiddelde van populatie 2).
* **Alternatieve hypothese ($H\_a$):** Stelt dat er wel een effect of verschil is. Dit is de hypothese die we proberen te bewijzen.
* Voorbeeld: $H\_a: \\mu\_1 - \\mu\_2 > 0$ (Het gemiddelde van populatie 1 is groter dan het gemiddelde van populatie 2).
#### 3.2.2 Berekening van toetsingsgrootheden
De toetsingsgrootheid is een waarde die berekend wordt uit de steekproefgegevens en die aangeeft hoe ver de steekproefresultaten afwijken van wat verwacht zou worden onder de nulhypothese. Voor de z-toets voor onafhankelijke steekproeven wordt de z-score berekend.
De formule voor de z-score bij het vergelijken van twee gemiddelden is: $$ Z = \\frac{(\\bar{x}\_1 - \\bar{x}\_2) - (\\mu\_1 - \\mu\_2)\_0}{\\sqrt{\\frac{\\sigma\_1^2}{n\_1} + \\frac{\\sigma\_2^2}{n\_2}}} $$ waarbij:
* $\\bar{x}\_1$ en $\\bar{x}\_2$ de steekproefgemiddelden zijn van de twee groepen.
* $(\\mu\_1 - \\mu\_2)\_0$ het verschil tussen de populatiegemiddelden onder de nulhypothese is (vaak 0).
* $\\sigma\_1$ en $\\sigma\_2$ de populatiestandaardafwijkingen zijn.
* $n\_1$ en $n\_2$ de steekproefgroottes zijn.
Indien de populatiestandaardafwijkingen ($\\sigma\_1, \\sigma\_2$) onbekend zijn, worden deze vaak geschat met de steekproefstandaardafwijkingen ($s\_1, s\_2$). Als de steekproeven groot genoeg zijn ($n \\ge 30$), kan de z-toets nog steeds als benadering worden gebruikt.
> **Tip:** De grootte van de steekproef ($n$) speelt een cruciale rol. Een grotere steekproef leidt tot een kleinere standaardfout van het gemiddelde ($\\frac{\\sigma}{\\sqrt{n}}$), wat de toetsingsgrootheid gevoeliger maakt voor verschillen en de kans op het verwerpen van een valse nulhypothese vergroot.
### 3.3 Significantietoets in 4 stappen
Een significatietoets volgt doorgaans een gestructureerd proces:
1. **Formuleer de nul- en de alternatieve hypothesen.** Dit is de eerste stap om de te toetsen vraag duidelijk te definiëren.
2. **Bepaal de waarde van de toetsingsgrootheid.** Bereken de z-score (of een andere relevante toetsingsgrootheid) op basis van de steekproefgegevens.
3. **Bepaal de overschrijdingskans (p-waarde) voor de toetsingsgrootheid.** De p-waarde is de kans om een steekproefresultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is. Dit kan theoretisch worden berekend (bv. met behulp van de standaardnormaalverdeling) of via resamplingmethoden.
4. **Formuleer de conclusie in APA-stijl.** Op basis van de p-waarde en een vooraf bepaald significantieniveau ($\\alpha$) wordt een beslissing genomen om de nulhypothese te verwerpen of niet te verwerpen.
#### 3.3.1 Conclusie formuleren in APA-stijl
Een conclusie in APA-stijl vermeldt doorgaans de gevonden toetsingsgrootheid, de p-waarde en de interpretatie in de context van het onderzoek.
* **Voorbeeld:** "Gewone studenten behalen gemiddeld (gem = 461) significant lagere scores dan slimmeriken (gem = 500), $z = 8.72$, $p < .001$."
### 3.4 Foutenanalyse: Type I en Type II fouten
Bij hypothesetoetsing is er altijd een kans op het maken van fouten. Er zijn twee soorten fouten te onderscheiden:
* **Type I fout (valspositief):** Dit is het onterecht verwerpen van de nulhypothese ($H\_0$) terwijl deze eigenlijk waar is. De kans op een Type I fout is gelijk aan het significantieniveau ($\\alpha$) van de toets.
* Consequenties: Je concludeert dat er een effect is, terwijl dat er in werkelijkheid niet is.
* **Type II fout (valsnegatief):** Dit is het onterecht niet verwerpen van de nulhypothese ($H\_0$) terwijl deze eigenlijk onjuist is (dus de alternatieve hypothese $H\_a$ is waar). De kans op een Type II fout wordt aangeduid met $\\beta$.
* Consequenties: Je concludeert dat er geen effect is, terwijl dat er in werkelijkheid wel is.
#### 3.4.1 Onderscheidingsvermogen (Power)
Het **onderscheidingsvermogen** (power) van een toets is de kans dat de toets de nulhypothese correct verwerpt wanneer deze onjuist is. Het is gelijk aan $1 - \\beta$. Een hogere power betekent een grotere kans om een werkelijk bestaand effect te detecteren.
* **Berekening van het onderscheidingsvermogen:**
1. Bepaal de kritieke waarde van de toetsingsgrootheid onder de nulhypothese ($H\_0$) voor een gegeven significantieniveau ($\\alpha$).
2. Bereken de z-score van deze kritieke waarde onder de alternatieve hypothese ($H\_a$).
3. Het onderscheidingsvermogen is de kans om een toetsingsgrootheid te verkrijgen die groter is dan de kritieke waarde, onder aanname van de alternatieve hypothese.
> **Tip:** Het onderscheidingsvermogen kan worden vergroot door:
>
> * Het significantieniveau ($\\alpha$) te verhogen (maar dit verhoogt ook de kans op een Type I fout).
>
> * De steekproefgrootte ($n$) te vergroten.
>
> * De effectgrootte (het werkelijke verschil tussen de populatieparameters) te vergroten.
>
> * De populatiespreiding ($\\sigma$) te verkleinen.
>
#### 3.4.2 Invloed van $\\alpha$ en steekproefgrootte op fouten
* **Verhogen van $\\alpha$:** Verhoogt de kans op een Type I fout, maar verlaagt de kans op een Type II fout (en vergroot dus het onderscheidingsvermogen).
* **Vergroten van de steekproefgrootte ($n$):** Verkleint zowel de kans op een Type I fout (indien de $\\alpha$ constant wordt gehouden) als de kans op een Type II fout, waardoor het onderscheidingsvermogen toeneemt.
#### 3.4.3 Illustratie met een voorbeeld: Onderscheidingsvermogen
Stel, we onderzoeken de gemiddelde afwijking in een aandachtsproef bij brildragers. De populatie van niet-brildragers heeft een normale verdeling met gemiddelde $\\mu = 0$ en standaardafwijking $\\sigma = 0.5$ cm. De nulhypothese is dat brildragers geen systematische fout maken ($H\_0: \\mu\_{brildragers} = 0$). De alternatieve hypothese is dat brildragers een positieve afwijking hebben ($H\_a: \\mu\_{brildragers} > 0$). We nemen een steekproef van $n=35$ brildragers.
* Als de werkelijke gemiddelde afwijking van brildragers $\\mu = 0.3$ cm zou zijn, en we stellen het significantieniveau op $\\alpha = 0.05$ (zodat de kritieke z-waarde $1.64$ is bij een eenzijdige toets), dan kunnen we het onderscheidingsvermogen berekenen.
* De standaardfout van het gemiddelde voor de steekproefgrootte $n=35$ is $\\sigma\_{\\bar{x}} = \\frac{0.5}{\\sqrt{35}} \\approx 0.0845$.
* De kritieke waarde voor het steekproefgemiddelde is $\\bar{x}\_{kritiek} = z{\\alpha} \\times \\sigma\_{\\bar{x}} = 1.64 \\times 0.0845 \\approx 0.1386$ cm.
* Om het onderscheidingsvermogen te berekenen, kijken we naar de kans dat het steekproefgemiddelde groter is dan deze kritieke waarde, \_ervan uitgaande dat de werkelijke gemiddelde afwijking 0.3 cm is.
* We berekenen de z-score van de kritieke waarde 0.1386 onder de alternatieve hypothese: $$ z\_{H\_a} = \\frac{\\bar{x}\_{kritiek} - \\mu{H\_a}}{\\sigma\_{\\bar{x}}} = \\frac{0.1386 - 0.3}{0.0845} \\approx -1.91 $$
* De kans op een z-score groter dan -1.91 is $P(Z > -1.91) \\approx 0.9719$.
* Dit betekent dat, als de werkelijke gemiddelde afwijking van brildragers 0.3 cm is, de toets in ongeveer 97.19% van de gevallen significant zal zijn (en $H\_0$ correct verworpen zal worden). Dit is het onderscheidingsvermogen (power) van de toets onder deze specifieke alternatieve hypothese.
Dit illustreert hoe een groter verschil tussen de nulhypothese en de alternatieve hypothese, gecombineerd met een voldoende grote steekproef, leidt tot een hoog onderscheidingsvermogen.
* * *
## Veelgemaakte fouten om te vermijden
* Bestudeer alle onderwerpen grondig voor examens
* Let op formules en belangrijke definities
* Oefen met de voorbeelden in elke sectie
* Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Meetscalaten | Een meetscala definieert de eigenschappen van numerieke gegevens, variërend van nominale (categorieën zonder rangorde) tot ratio (met een absoluut nulpunt). Ze bepalen welke statistische bewerkingen zinvol zijn. |
| Beschrijvende Statistiek | Een tak van de statistiek die zich bezighoudt met het samenvatten, organiseren en presenteren van gegevens op een zinvolle manier, vaak met behulp van tabellen, grafieken en samenvattende maten zoals gemiddelde en standaardafwijking. |
| Ordeningstechnieken | Methoden om gegevens te structureren en te presenteren, zoals het maken van tabellen en het visualiseren van gegevens in figuren, om patronen en verdelingen te onthullen. |
| Reductietechnieken | Statistische methoden die grote datasets samenvatten tot enkele belangrijke kenmerken of maten, zoals centrale tendens (positie), spreiding en vorm van de verdeling. |
| Associatietechnieken | Statistische methoden die de relatie tussen twee of meer variabelen onderzoeken, bijvoorbeeld door middel van spreidingsdiagrammen, contingentietabellen en correlatiecoëfficiënten. |
| Kansrekening | De wiskundige studie van toeval en onzekerheid, die de basis vormt voor inferentiële statistiek door de waarschijnlijkheid van gebeurtenissen te kwantificeren. |
| Steekproevenverdelingen | Een kansverdeling van een statistiek (zoals het steekproefgemiddelde) die wordt verkregen door herhaaldelijk steekproeven van een bepaalde grootte uit een populatie te trekken. |
| Inferentiële statistiek | Een tak van de statistiek die conclusies trekt over een populatie op basis van gegevens uit een steekproef, met behulp van technieken zoals schatten en hypothesetoetsen. |
| Betrouwbaarheidsinterval | Een reeks waarden die naar verwachting een populatieparameter bevat, met een gespecificeerd betrouwbaarheidsniveau (bijvoorbeeld 95%). Het geeft een bereik aan waarin de werkelijke waarde waarschijnlijk ligt. |
| Overschrijdingskans | De waarschijnlijkheid dat een toetsingsgrootheid een waarde aanneemt die extremer is dan de waargenomen waarde, gegeven dat de nulhypothese waar is. Dit wordt ook wel de p-waarde genoemd. |
| Significantietoetsen | Statistische procedures die worden gebruikt om te bepalen of de resultaten van een studie voldoende bewijs leveren om de nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Populatie | De volledige verzameling van individuen, objecten of gebeurtenissen waarin men geïnteresseerd is voor een studie. |
| Steekproefgemiddelde | Het gemiddelde van de waarden in een steekproef, gebruikt als schatter voor het populatiegemiddelde. |
| Verwachting (van steekproefgemiddelden) | Het gemiddelde van alle mogelijke steekproefgemiddelden, dat gelijk is aan het populatiegemiddelde. |
| Standaarddeviatie (van steekproefgemiddelden) | De standaardafwijking van de steekproevenverdeling van het steekproefgemiddelde, ook wel de standaardfout van het gemiddelde genoemd. |
| Centrale Limietstelling | Een fundamentele stelling in de kansrekening die stelt dat de verdeling van steekproefgemiddelden van voldoende grote steekproeven, ongeacht de oorspronkelijke populatieverdeling, bij benadering normaal verdeeld is. |
| Enkelvoudige Aselecte Steekproef (SRS) | Een steekproefmethode waarbij elk individu in de populatie een gelijke kans heeft om geselecteerd te worden, en elke mogelijke combinatie van individuen van dezelfde grootte ook een gelijke kans heeft. |
| µ | Symbool voor het populatiegemiddelde. |
| | Symbool voor de populatiestandaardafwijking. |
| BI (Betrouwbaarheidsinterval) | Afkorting voor Betrouwbaarheidsinterval. |
| SP (Steekproef) | Afkorting voor Steekproef. |
| SAT (Scholastic Aptitude Test) | Een gestandaardiseerde test die wordt gebruikt voor toelating tot universiteiten in de Verenigde Staten, vaak als voorbeeld in statistische lessen. |
| Hypothesetoets | Een statistische procedure om te evalueren of er voldoende bewijs is in een steekproef om de nulhypothese te verwerpen. |
| z-toets | Een statistische toets die wordt gebruikt om te bepalen of twee populatiegemiddelden significant van elkaar verschillen, wanneer de populatiestandaardafwijkingen bekend zijn of de steekproefgrootte groot is. |
| Nulhypothese (H0) | Een bewering over een populatieparameter die wordt aangenomen als waar totdat er voldoende bewijs is om deze te verwerpen. Het stelt vaak dat er geen effect, geen verschil of geen relatie is. |
| Alternatieve hypothese (Ha) | Een bewering die het tegendeel stelt van de nulhypothese. Het stelt dat er wel een effect, verschil of relatie is. |
| z-score | Een gestandaardiseerde score die aangeeft hoeveel standaardafwijkingen een bepaald datapunt verwijderd is van het gemiddelde van de verdeling. |
| p-waarde | De kans om een toetsingsgrootheid te observeren die minstens zo extreem is als de waargenomen toetsingsgrootheid, aannemende dat de nulhypothese waar is. |
| Onderscheidingsvermogen (Power) | De kans dat een statistische toets de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Het is gelijk aan 1-β (beta), waarbij β de kans op een Type II fout is. |
| Type I fout (alfa) | Het ten onrechte verwerpen van de nulhypothese wanneer deze waar is. Het significantieniveau van de test (α) is de kans op een Type I fout. |
| Type II fout (beta) | Het niet verwerpen van de nulhypothese wanneer deze vals is. De kans op een Type II fout wordt aangeduid met β. |
| Significantieniveau (α) | Het vooraf bepaalde waarschijnlijkheidsniveau dat wordt gebruikt om te beslissen of een resultaat statistisch significant is. Het vertegenwoordigt de maximale kans op een Type I fout die men bereid is te accepteren. |
| Kritieke waarde | De grenswaarde in een steekproevenverdeling die wordt gebruikt om te beslissen of de nulhypothese wordt verworpen. Het is de grens die het significantieniveau (α) afbakent. |
| µ0 | De waarde van het populatiegemiddelde onder de nulhypothese. |
| µA | De waarde van het populatiegemiddelde onder de alternatieve hypothese. |
| Effectgrootte | Een maat die de omvang van het verschil of de relatie tussen variabelen kwantificeert, onafhankelijk van de steekproefgrootte. |