Cover
Empieza ahora gratis Student - Hoorcollege 8-9 - Toetsen voor meer dan 2 populaties.pptx
Summary
# Herhaling van toetsen voor één en twee populaties
Deze sectie biedt een herhaling van de principes van statistische toetsen voor één en twee populaties, waarbij zowel parametrische als non-parametrische methoden zoals de t-toets en de chikwadraattoets worden behandeld.
## 1. Toetsen voor één populatie
Bij toetsen voor één populatie vergelijken we een specifiek steekproefgemiddelde met een algemeen bekend populatiegemiddelde.
### 1.1 Mogelijke toetsen
Er zijn twee hoofdtypen toetsen voor één populatie:
* **Parametrische toets:** De t-toets voor het gemiddelde (one sample t-test).
* Vereist dat de afhankelijke variabele een intervalvariabele is.
* **Non-parametrische toets:** De chikwadraattoets voor frequenties (Chi-square goodness of fit).
* Geschikt voor nominale of ordinale variabelen, waarbij de focus ligt op frequenties.
### 1.2 Toetsingssituatie en hypotheses
* **Onderzoeksvraag:** Is er een significant verschil tussen het steekproefgemiddelde en het populatiegemiddelde?
* **Hypotheses (tweezijdig):**
* $H_0$: Het steekproefgemiddelde is gelijk aan het populatiegemiddelde.
* $H_1$: Het steekproefgemiddelde is niet gelijk aan het populatiegemiddelde.
## 2. Toetsen voor twee populaties
Bij toetsen voor twee populaties vergelijken we twee steekproeven met elkaar. De manier waarop deze steekproeven zijn samengesteld, is cruciaal voor de keuze van de toets.
### 2.1 Onafhankelijke steekproeven
Bij onafhankelijke steekproeven zijn de deelnemers in de ene groep niet gerelateerd aan de deelnemers in de andere groep. Dit is vaak het geval bij experimentele designs waar een interventie wordt vergeleken met een controlegroep.
* **Onderzoeksvraag:** Is er een significant verschil tussen de gemiddelden van twee onafhankelijke groepen?
* **Parametrische toets:** T-toets voor twee onafhankelijke steekproeven.
* Vereist dat de afhankelijke variabele een intervalvariabele is.
* **Non-parametrische toets:** Wilcoxon rank-sum toets (ook bekend als Mann-Whitney U toets).
* Geschikt wanneer de afhankelijke variabele minstens op ordinaal niveau is gemeten en de aannames voor de t-toets niet voldaan zijn.
### 2.2 Afhankelijke steekproeven
Bij afhankelijke steekproeven zijn de metingen binnen groepen gerelateerd. Dit kan op twee manieren voorkomen:
* **Herhaalde metingen:** Dezelfde groep deelnemers wordt tweemaal gemeten (bv. voor- en nameting van een therapie).
* **Parametrische toets:** T-toets voor twee afhankelijke steekproeven (paired samples t-test).
* **Gematchte paren:** Deelnemers worden gepaard op basis van bepaalde kenmerken, waarna één lid van elk paar aan de ene conditie wordt toegewezen en het andere lid aan de andere conditie.
* **Parametrische toets:** T-toets voor twee afhankelijke steekproeven (paired samples t-test).
* **Non-parametrische toets:** Wilcoxon signed-rank toets.
## 3. Toetsen voor meer dan twee populaties (ANOVA)
Wanneer er meer dan twee populaties vergeleken worden, volstaat het niet om herhaaldelijk t-toetsen uit te voeren. Dit verhoogt namelijk de kans op een Type I-fout (het ten onrechte verwerpen van de nulhypothese).
### 3.1 Probleem van meervoudige toetsen
Het herhaaldelijk uitvoeren van toetsen verhoogt de cumulatieve kans op een Type I-fout. Als het significantieniveau $\alpha = 0.05$ is, dan is de kans op een Type I-fout bij $N$ onafhankelijke toetsen $1 - (1-\alpha)^N$. Dit kan leiden tot een onaanvaardbaar hoge kans op het ten onrechte verwerpen van de nulhypothese.
### 3.2 De Eenwegs Variantieanalyse (One-way ANOVA)
De eenwegs variantieanalyse (ANOVA) is een parametrische toets die wordt gebruikt om te bepalen of er een significant verschil bestaat tussen de gemiddelden van drie of meer onafhankelijke groepen.
#### 3.2.1 Toetsingssituatie
* **Onderzoeksvraag:** Is er een verschil in het gemiddelde van een afhankelijke variabele (intervalniveau) tussen drie of meer groepen, gedefinieerd door een onafhankelijke variabele (nominaal/ordinaal niveau met minimaal drie niveaus)?
* **Voorbeeld:** Nagaan of het eten van chocolade (groepen: geen, één reep, twee repen) een effect heeft op het stressniveau (afhankelijke variabele) bij dansers.
#### 3.2.2 Voorwaarden
De volgende voorwaarden moeten voldaan zijn om een eenwegs ANOVA correct toe te passen:
1. **Afhankelijke variabele:** Minstens op intervalniveau gemeten.
2. **Normaliteit:** De afhankelijke variabele is normaal verdeeld binnen elke populatie (of elke groep heeft minimaal 30 deelnemers als de normaliteitsscheef is).
3. **Onafhankelijkheid:** De steekproeven zijn onafhankelijk van elkaar.
4. **Homogeniteit van varianties:** De varianties in de populaties waaruit de steekproeven zijn getrokken, zijn gelijk aan elkaar.
#### 3.2.3 Hypothesen
* $H_0$: De gemiddelden van alle groepen zijn gelijk ($\mu_1 = \mu_2 = ... = \mu_j$).
* $H_1$: Minstens één groep is significant anders dan een andere groep ($\mu_i \neq \mu_j$ voor minstens één paar $i$ en $j$).
* ANOVA is een "omnibus-test", wat betekent dat het enkel aangeeft of er *ergens* een verschil is, maar niet waar precies.
#### 3.2.4 Principe van ANOVA
ANOVA vergelijkt twee soorten varianties:
* **Between-groups variantie (variantie tussen groepen):** Meet de spreiding van de groepsgemiddelden rond het totale gemiddelde. Een grote between-groups variantie suggereert dat de groepsgemiddelden ver uit elkaar liggen.
* **Within-groups variantie (variantie binnen groepen):** Meet de spreiding van de individuele scores rond het gemiddelde van hun eigen groep. Dit wordt ook wel de error-variantie genoemd.
De ratio tussen de between-groups variantie en de within-groups variantie (de F-statistiek) geeft aan of de verschillen tussen de groepen groter zijn dan de verschillen binnen de groepen. Een hogere F-waarde suggereert significante verschillen.
#### 3.2.5 Toetsingsgrootheid
De toetsingsgrootheid in een eenwegs ANOVA is de F-statistiek, die wordt berekend als de ratio van de Mean Squares (MS) between-groups en de Mean Squares within-groups.
$$F = \frac{MS_{\text{between}}}{MS_{\text{within}}}$$
Hierbij geldt:
* $SS_{\text{between}}$ = Sum of Squares between groups
* $SS_{\text{within}}$ = Sum of Squares within groups
* $df_{\text{between}} = k-1$ (waarbij $k$ het aantal groepen is)
* $df_{\text{within}} = N-k$ (waarbij $N$ het totale aantal deelnemers is)
* $MS_{\text{between}} = \frac{SS_{\text{between}}}{df_{\text{between}}}$
* $MS_{\text{within}} = \frac{SS_{\text{within}}}{df_{\text{within}}}$
De F-statistiek volgt een F-verdeling met $df_{\text{between}}$ en $df_{\text{within}}$ vrijheidsgraden.
#### 3.2.6 Beslissingsregel
De nulhypothese ($H_0$) wordt verworpen als de berekende F-statistiek groter is dan de kritieke F-waarde uit de F-verdelingstabel, of als de overschrijdingskans (p-waarde) kleiner is dan het gekozen significantieniveau ($\alpha$).
#### 3.2.7 Post hoc toetsing
Indien de ANOVA significant is ($H_0$ verworpen), weet men enkel dat er ergens een verschil is. Om te achterhalen tussen welke specifieke groepen de verschillen significant zijn, worden post hoc toetsen uitgevoerd.
* **Probleem:** Het herhaaldelijk uitvoeren van paarsgewijze vergelijkingen verhoogt de kans op een Type I-fout.
* **Oplossing:** Gebruik een correctie zoals de Bonferroni correctie. Hierbij wordt het significantieniveau $\alpha$ gedeeld door het aantal uitgevoerde vergelijkingen. Bijvoorbeeld, als er 3 groepen zijn, worden 3 paarsgewijze vergelijkingen gedaan. Het nieuwe significantieniveau wordt dan $\alpha/3$. In veel statistische software (bv. SPSS) wordt dit automatisch toegepast bij de presentatie van de resultaten, waarbij de aangepaste p-waarden direct met de oorspronkelijke $\alpha$ vergeleken kunnen worden.
#### 3.2.8 Effectgrootte
De effectgrootte, vaak gerapporteerd als $\eta^2$ (eta-kwadraat) of $r$ (gecorreleerde $r$ bij ANOVA), geeft aan hoeveel van de variantie in de afhankelijke variabele verklaard kan worden door de groepsindeling.
* $r$ wordt berekend als: $r = \sqrt{\frac{F}{F + df_{\text{within}}}}$
#### 3.2.9 Rapportering
Een correcte rapportage van een eenwegs ANOVA omvat:
1. De onderzoeksvraag en de uitgevoerde toets.
2. Beschrijvende statistieken van de steekproef (gemiddelden en standaarddeviaties per groep).
3. De resultaten van de statistische toets (F-statistiek, vrijheidsgraden, p-waarde) en de effectgrootte.
4. Conclusies gebaseerd op de resultaten, inclusief eventuele post hoc bevindingen.
### 3.3 Non-parametrische alternatieven (niet te kennen voor dit vak)
* **Kruskal-Wallis toets:** De non-parametrische tegenhanger van de eenwegs ANOVA voor onafhankelijke steekproeven. Dit wordt gebruikt wanneer de afhankelijke variabele niet aan de voorwaarden voor ANOVA voldoet.
## 4. Overzicht van getoetste methoden (tot nu toe)
| Aantal populaties | Steekproef type | Parametrisch | Non-parametrisch | Afhankelijke variabele | Onafhankelijke variabele |
| :---------------- | :----------------- | :----------------------------------------- | :---------------------------------------------- | :----------------------------- | :----------------------- |
| 1 | - | T-toets voor gemiddelde (one sample t-test) | Chikwadraattoets voor frequenties | Interval | Nominaal/Ordinaal |
| 2 | Onafhankelijk | Independent samples t-test | Wilcoxon Rank-sum (=Mann-Whitney) | Interval | Nominaal/Ordinaal |
| 2 | Afhankelijk | Paired samples t-test | Wilcoxon Signed-rank (niet te kennen) | Interval | - |
| >2 | Onafhankelijk | **ANOVA** | Kruskal-Wallis (niet te kennen) | Interval | Nominaal/Ordinaal |
**Tip:** Een goede voorbereiding op statistische toetsen omvat het begrijpen van de onderzoeksvraag, de variabelen (afhankelijk en onafhankelijk, meetniveau), het aantal populaties, en of de steekproeven afhankelijk of onafhankelijk zijn. Dit helpt bij het selecteren van de juiste toets.
---
# Inleiding tot toetsen voor meer dan twee populaties
Dit gedeelte introduceert toetsen voor meer dan twee populaties en legt uit waarom het herhaaldelijk toepassen van t-toetsen leidt tot een verhoogd risico op Type I-fouten.
## 2. Inleiding tot toetsen voor meer dan twee populaties
### 2.1 Noodzaak van toetsen voor meer dan twee populaties
Tot nu toe zijn t-toetsen gebruikt om gemiddelden van één of twee populaties te vergelijken. Echter, in de praktijk is men vaak geïnteresseerd in het vergelijken van drie of meer groepen. Een voorbeeld hiervan is het onderzoeken van het effect van verschillende studiemethoden op examenresultaten, waarbij drie of meer methoden vergeleken worden.
### 2.2 Het probleem van meervoudige t-toetsen
Een intuïtieve aanpak zou kunnen zijn om herhaaldelijk t-toetsen uit te voeren om alle mogelijke paren van groepen te vergelijken. Bijvoorbeeld, als we drie groepen (A, B, C) hebben, zouden we t-toetsen kunnen doen voor de paren (A, B), (B, C) en (A, C). Dit leidt echter tot een significant probleem: het verhoogde risico op het maken van een Type I-fout.
#### 2.2.1 Type I-fout bij meervoudige toetsen
Een Type I-fout treedt op wanneer de nulhypothese ten onrechte wordt verworpen, terwijl deze in werkelijkheid waar is. De kans op een Type I-fout wordt doorgaans vastgesteld op $\alpha = 0.05$ (of 5%). Bij het uitvoeren van meerdere toetsen achter elkaar, neemt de cumulatieve kans op een Type I-fout toe.
De algemene formule om de kans op het *terecht* behouden van de nulhypothese bij het uitvoeren van $N$ onafhankelijke toetsen, elk met een $\alpha$-niveau van 0.05, is:
$$ (1 - \alpha)^N $$
Dit betekent dat de kans om de nulhypothese *onterecht* te verwerpen (cumulatieve Type I-foutkans) gelijk is aan $1 - (1 - \alpha)^N$.
Stel dat we drie toetsen uitvoeren met $\alpha = 0.05$. De kans om de nulhypothese terecht te behouden na deze drie toetsen is dan $0.95 \times 0.95 \times 0.95 \approx 0.857$. De kans om de nulhypothese onterecht te verwerpen is $1 - 0.857 = 0.143$, wat neerkomt op 14.3%. Dit is aanzienlijk hoger dan de oorspronkelijke $\alpha = 0.05$.
Voor een algemeen aantal toetsen $N$ met $\alpha = 0.05$, geldt de formule voor de cumulatieve Type I-foutkans:
$$ \text{Cumulatieve Type I-foutkans} = 1 - (0.95)^N $$
* **Voorbeeld:** Bij $N=4$ toetsen is de kans op een Type I-fout ongeveer 18.5%. Bij $N=6$ toetsen loopt dit op tot ongeveer 26.4%.
Dit probleem illustreert de noodzaak van een statistische toets die specifiek ontworpen is om meer dan twee populaties tegelijkertijd te vergelijken, zonder het risico op een sterk verhoogde Type I-foutkans. Dit leidt tot de introductie van de variantieanalyse (ANOVA).
### 2.3 Keuze van de juiste toets
De keuze voor de juiste statistische toets hangt af van verschillende factoren:
* **Onderzoeksvraag:** Wat wil de onderzoeker precies weten?
* **Variabelen:** Wat zijn de afhankelijke en onafhankelijke variabelen?
* **Meetniveau:** Wat is het meetniveau van de variabelen? De afhankelijke variabele moet minstens van intervalniveau zijn voor parametrische toetsen.
* **Aantal populaties:** Worden één, twee of meer dan twee populaties vergeleken?
* **Steekproefsamenstelling:** Zijn de steekproeven onafhankelijk of afhankelijk?
* **Parametrisch vs. Non-parametrisch:** Voldoen de data aan de voorwaarden voor parametrische toetsen?
Voor het vergelijken van meer dan twee populaties met een afhankelijke variabele van intervalniveau en onafhankelijke steekproeven, komen de volgende toetsen in aanmerking:
* **Parametrisch:** Eenwegs variantieanalyse (one-way ANOVA) of tweewegs variantieanalyse (niet te kennen in deze cursus).
* **Non-parametrisch:** Kruskal-Wallis toets (niet te kennen in deze cursus).
Variantieanalyse wordt altijd als tweezijdig beschouwd.
### 2.4 Algemeen stramien voor het uitvoeren van toetsen
Bij het uitvoeren van een statistische toets wordt een gestructureerd proces gevolgd:
1. **Toetsingssituatie:** Begrijpen van de onderzoeksvraag, de gegevens en het soort onderzoek.
2. **Voorwaarden:** Nagaan of aan de statistische voorwaarden voor de gekozen toets is voldaan.
3. **Hypothesen:** Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$).
4. **Toetsingsgrootheid:** Berekenen van de toetsingsgrootheid en bepalen van de bijbehorende kansverdeling.
5. **Beslissingsregel:** Beslissen of $H_0$ wordt verworpen op basis van overschrijdingskansen (p-waarde) of kritieke waarden.
6. **Effectgrootte:** Nagaan hoe belangrijk het gevonden effect is.
7. **Rapporteren:** Correct rapporteren van de resultaten.
#### 2.4.1 Eenzijdig of tweezijdig?
Variantieanalyse (ANOVA) is altijd een tweezijdige toets. Dit betekent dat de alternatieve hypothese stelt dat er een verschil is tussen minstens één paar populatiegemiddelden, zonder een specifieke richting aan te geven.
#### 2.4.2 Post hoc toetsing
Wanneer de ANOVA een significant verschil tussen de groepen aantoont ($H_0$ wordt verworpen), geeft dit nog geen informatie over *welke* specifieke groepen van elkaar verschillen. Hiervoor is post hoc toetsing noodzakelijk, waarbij paarsgewijze vergelijkingen tussen de groepen worden uitgevoerd.
Het herhaaldelijk uitvoeren van deze paarsgewijze vergelijkingen kan opnieuw leiden tot een verhoogd risico op Type I-fouten. Daarom worden speciale correctiemethoden gebruikt, zoals de Bonferroni-correctie.
* **Bonferroni-correctie:** Bij het uitvoeren van $N$ paarsgewijze vergelijkingen, wordt het oorspronkelijke $\alpha$-niveau gedeeld door $N$. Een significant verschil wordt dan alleen geconcludeerd als de p-waarde kleiner is dan $\alpha / N$. Als bijvoorbeeld drie groepen worden vergeleken, worden er drie paarsgewijze toetsen uitgevoerd, en de p-waarde moet kleiner zijn dan $0.05 / 3 \approx 0.017$ om als significant te worden beschouwd. In softwarepakketten zoals SPSS worden de herberekende overschrijdingskansen getoond, waarna deze direct met $\alpha = 0.05$ vergeleken kunnen worden.
---
# De eenweg variantieanalyse (ANOVA)
Hieronder vind je een gedetailleerde studiegids voor de eenweg variantieanalyse (ANOVA).
## 3. De eenweg variantieanalyse (ANOVA)
De eenweg variantieanalyse (ANOVA) is een statistische methode om significante verschillen tussen de gemiddelden van drie of meer groepen te detecteren.
### 3.1 Toetsingssituatie
De eenweg variantieanalyse wordt gebruikt wanneer men de volgende onderzoeksvragen wil beantwoorden:
* Is er een verschil in gemiddelden tussen groep a, b, c, … op variabele Y?
* Is er een effect van variabele X (met niveaus a, b, c,..) op variabele Y?
* Indien er een effect is, tussen welke specifieke groepen bestaat er een significant verschil? Dit vereist aanvullende post hoc toetsing.
### 3.2 Voorwaarden
Om de eenweg variantieanalyse correct toe te passen, moeten aan de volgende voorwaarden worden voldaan:
* De afhankelijke variabele moet minstens gemeten zijn op intervalniveau.
* De afhankelijke variabele moet normaal verdeeld zijn in de populatie. Indien dit niet het geval is, dient de steekproefomvang voor elke groep minstens 30 te zijn.
* De steekproeven moeten onafhankelijk van elkaar zijn.
* De varianties in de steekproeven dienen gelijk te zijn aan elkaar (homogeniteit van varianties).
### 3.3 Hypothesen
Bij de eenweg variantieanalyse worden de volgende hypothesen geformuleerd:
* **Nulhypothese ($H_0$):** Alle populatiegemiddelden zijn gelijk aan elkaar ($\mu_1 = \mu_2 = ... = \mu_k$).
* **Alternatieve hypothese ($H_1$):** Minstens één populatiegemiddelde verschilt van de andere ($\mu_i \ne \mu_j$ voor minstens één paar van $i$ en $j$).
De ANOVA fungeert als een "omnibustest", wat betekent dat het een algemeen effect detecteert. Indien de nulhypothese verworpen wordt, zijn er aanvullende hypotheses en toetsen (post hoc toetsen) nodig om te bepalen tussen welke specifieke groepen de verschillen significant zijn.
### 3.4 Principe van ANOVA
Het principe achter ANOVA is het vergelijken van twee bronnen van variantie: de *between-groups variance* en de *within-groups variance*.
* **Between-groups variance:** Meet de variatie tussen de gemiddelden van de verschillende groepen. Een grotere between-groups variance suggereert grotere verschillen tussen de groepen.
* **Within-groups variance:** Meet de variatie binnen elke individuele groep. Dit wordt ook wel de error variance genoemd en vertegenwoordigt de willekeurige variatie die niet door de onafhankelijke variabele verklaard wordt.
De verhouding tussen de between-groups variance en de within-groups variance geeft een indicatie van significante verschillen. Een grotere between-groups variance in verhouding tot de within-groups variance verhoogt de kans op significante verschillen tussen de groepen.
Scenario A (lage between-groups variance): De groepsgemiddelden liggen dicht bij elkaar en de verdelingen van de groepen overlappen elkaar sterk. De variantie tussen de groepen is kleiner dan de variantie binnen de groepen.
Scenario B (hoge between-groups variance): De groepsgemiddelden liggen ver uit elkaar, wat resulteert in minder overlap tussen de groepsverdelingen. De variantie tussen de groepen is groter dan de variantie binnen de groepen.
### 3.5 Toetsingsgrootheid
De toetsingsgrootheid in een eenweg variantieanalyse is de F-statistiek, die wordt berekend als de ratio van de mean squares (gemiddelde kwadratensommen) tussen de groepen en de mean squares binnen de groepen.
De berekening omvat de volgende stappen:
1. **Sum of Squares (SS):**
* **SS\_between (tussen groepen):** De som van de gekwadrateerde verschillen tussen elk groepsgemiddelde en het totale gemiddelde, gewogen naar de groepsgrootte.
$$SS_{between} = \sum_{i=1}^{k} n_i (\bar{y}_i - \bar{y}_{total})^2$$
waarbij:
* $k$ = aantal groepen
* $n_i$ = aantal observaties in groep $i$
* $\bar{y}_i$ = gemiddelde van groep $i$
* $\bar{y}_{total}$ = totaal gemiddelde over alle groepen
* **SS\_within (binnen groepen):** De som van de gekwadrateerde verschillen tussen elke observatie en het gemiddelde van zijn groep.
$$SS_{within} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_i)^2$$
waarbij:
* $y_{ij}$ = de $j$-de observatie in groep $i$
2. **Vrijheidsgraden (df - degrees of freedom):**
* **df\_between:** Aantal groepen minus 1.
$$df_{between} = k - 1$$
* **df\_within:** Totaal aantal observaties min het aantal groepen.
$$df_{within} = N - k$$
waarbij $N$ = totale aantal observaties over alle groepen.
3. **Mean Squares (MS):** De gemiddelde kwadratensommen, verkregen door de SS te delen door de corresponderende df.
* **MS\_between:**
$$MS_{between} = \frac{SS_{between}}{df_{between}}$$
* **MS\_within:**
$$MS_{within} = \frac{SS_{within}}{df_{within}}$$
4. **F-statistiek:** De ratio van MS\_between en MS\_within.
$$F = \frac{MS_{between}}{MS_{within}}$$
De F-statistiek volgt een F-verdeling met $df_{between}$ en $df_{within}$ vrijheidsgraden.
> **Tip:** De som van de SS\_between en SS\_within is gelijk aan de totale SS (Sum of Squares Total). $SS_{total} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_{total})^2 = SS_{between} + SS_{within}$.
### 3.6 Beslissingsregels
Om te beslissen of de nulhypothese verworpen mag worden, worden de volgende methoden gebruikt:
1. **Via overschrijdingskansen (p-waarde):**
* Bereken de p-waarde die hoort bij de berekende F-statistiek en de vrijheidsgraden.
* Als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$), wordt de nulhypothese verworpen. Dit betekent dat er een significant verschil is tussen de groepsgemiddelden.
$$p < \alpha \implies H_0 \text{ verwerpen}$$
2. **Via kritieke waarden:**
* Zoek in een F-verdelingstabel de kritieke F-waarde op voor het gekozen significantieniveau ($\alpha$) en de berekende vrijheidsgraden ($df_{between}$ en $df_{within}$).
* Als de berekende F-statistiek groter is dan de kritieke F-waarde, wordt de nulhypothese verworpen.
$$F_{berekend} > F_{kritiek} \implies H_0 \text{ verwerpen}$$
### 3.7 Effectgrootte
Naast de significantie is het belangrijk om de effectgrootte te rapporteren om de praktische significantie van het gevonden effect te beoordelen. Een veelgebruikte maat voor effectgrootte bij ANOVA is $\eta^2$ (eta-kwadraat) of $r$ (Pearson's $r$ voor een eenwegs ANOVA, die equivalent is aan $\sqrt{\eta^2}$).
* **$\eta^2$ (eta-kwadraat):**
$$\eta^2 = \frac{SS_{between}}{SS_{total}}$$
Dit geeft het proportionele deel van de totale variantie in de afhankelijke variabele aan dat verklaard wordt door de onafhankelijke variabele (de groepen).
* **$r$ (correlatiecoëfficiënt):**
$$r = \sqrt{\eta^2}$$
Voor de interpretatie van $r$ kunnen vuistregels worden gehanteerd, vergelijkbaar met die voor correlaties (bv. .10 voor klein effect, .30 voor gemiddeld effect, .50 voor groot effect).
### 3.8 Post hoc toetsing
Wanneer de ANOVA een significant effect aantoont ($H_0$ verworpen), weten we alleen dat er *ergens* een verschil is tussen de groepen. Om te bepalen *welke specifieke groepen* significant van elkaar verschillen, zijn post hoc toetsen nodig.
Het probleem bij het uitvoeren van meerdere paarsgewijze vergelijkingen (bv. t-toetsen) is dat de kans op het maken van een Type I-fout (ten onrechte verwerpen van $H_0$) oploopt. Om dit te corrigeren, worden correctiemethoden zoals de **Bonferroni-correctie** toegepast.
* **Bonferroni-correctie:** Het significantieniveau ($\alpha$) wordt gedeeld door het aantal vergelijkingen ($k$). Een verschil wordt als significant beschouwd als de p-waarde kleiner is dan dit aangepaste significantieniveau ($\alpha / k$).
Voorbeeld: Als er 3 groepen zijn, zijn er 3 mogelijke paarsgewijze vergelijkingen (A vs B, B vs C, A vs C). Het nieuwe significantieniveau wordt $0.05 / 3 = 0.017$. Alleen p-waarden kleiner dan $0.017$ worden dan als significant beschouwd.
In softwarepakketten zoals SPSS worden de herberekende overschrijdingskansen (p-waarden) van de post hoc toetsen vaak direct getoond, waardoor de vergelijking met $\alpha = 0.05$ volstaat.
### 3.9 Rapporteren
De resultaten van een eenweg variantieanalyse worden doorgaans als volgt gerapporteerd:
1. **Onderzoeksvraag en gebruikte toets:** Beschrijf de onderzoeksvraag en vermeld dat een eenweg variantieanalyse (one-way ANOVA) is uitgevoerd.
2. **Beschrijvende statistieken:** Rapporteer de gemiddelden (M) en standaarddeviaties (SD) voor elke groep.
3. **Resultaten van de statistische toets:** Vermeld de F-statistiek, de vrijheidsgraden voor de between-groups en within-groups, de p-waarde, en de effectgrootte (bv. $\eta^2$ of $r$).
* Formaat: $F(df_{between}, df_{within}) = \text{waarde}, p = \text{waarde}, \eta^2 = \text{waarde}$.
4. **Conclusie:** Geef aan of de nulhypothese verworpen wordt en interpreteer dit in de context van de onderzoeksvraag. Indien post hoc toetsen zijn uitgevoerd, vermeld dan welke groepen significant van elkaar verschillen.
**Voorbeeld van een rapportage:**
"Om na te gaan of het eten van chocolade een effect heeft op het stressniveau bij dansers, werd een eenweg variantieanalyse uitgevoerd. De dansers die geen chocolade aten, rapporteerden een hogere stressniveau ($M = 65.50, SD = 10.54$) dan dansers die twee repen chocolade aten ($M = 59.12, SD = 12.27$). Er was een significant effect van chocolade op het stressniveau van de dansers, $F(2, 99) = 3.14, p = .048, \eta^2 = .059$. Het stressniveau van de dansers die één reep chocolade aten ($M = 61.32, SD = 8.95$) verschilde niet significant van de andere condities."
> **Tip:** Zorg ervoor dat je altijd de relevante F-waarde, de vrijheidsgraden, de p-waarde en de effectgrootte vermeldt voor een volledige rapportage.
### 3.10 Extra voorbeeld: Leeftijd en compulsief koopgedrag
**Onderzoeksvraag:** Heeft leeftijd invloed op het compulsief koopgedrag? Drie leeftijdsgroepen werden onderzocht: Generatie Y (jaren 90), Generatie X (jaren 80) en Babyboomers (jaren 50-60). Compulsief koopgedrag werd gemeten met de Faber en O’Guinn test (intervalniveau, normaal verdeeld).
* **Hypothesen:**
* $H_0: \mu_{Y} = \mu_{X} = \mu_{BB}$
* $H_1:$ Minstens één gemiddelde verschilt.
* **Beschrijvende statistieken:**
* Generatie Y: $M = 63.10, SD = 7.06$
* Generatie X: $M = 43.00, SD = 13.01$
* Babyboomers: $M = 39.88, SD = 14.52$
* **ANOVA resultaten:**
* $F(2, 19) = 6.83, p = .006, \eta^2 = .417$ (oftewel $r = .65$)
* **Post hoc toetsing (bv. Bonferroni):**
* Significant verschil tussen Generatie Y en Generatie X.
* Significant verschil tussen Generatie Y en Babyboomers.
* Geen significant verschil tussen Generatie X en Babyboomers.
* **Rapportage:**
"Om na te gaan of generaties verschillen op het vlak van compulsief koopgedrag, werd een eenwegs variantieanalyse uitgevoerd. Generatie Y vertoonde meer compulsief koopgedrag ($M = 63.10, SD = 7.06$) dan Generatie X ($M = 43.00, SD = 13.01$) en de Babyboomers ($M= 39.88, SD = 14.52$), en dit effect was significant, $F(2, 19) = 6.83, p = .006, \eta^2 = .417$. Generatie X verschilde niet significant van de Babyboomers."
### 3.11 Overzicht van toetsen tot nu toe
| Aantal Populaties | Steekproeven | Parametrisch | Non-parametrisch | Afhankelijke Variabele | Onafhankelijke Variabele |
| :---------------- | :----------- | :----------- | :--------------- | :--------------------- | :----------------------- |
| 1 | - | T-toets voor gemiddelde (one sample t-test) | Chikwadraattoets voor frequenties (goodness of fit) | Interval/Ratio | Nominaal/Ordinaal |
| 2 | Onafhankelijk | T-toets voor 2 onafhankelijke steekproeven | Wilcoxon rank-sum (Mann-Whitney U) | Interval/Ratio | Nominaal (met 2 niveaus) |
| 2 | Afhankelijk | T-toets voor 2 afhankelijke steekproeven | Wilcoxon signed-rank | Interval/Ratio | - |
| \>2 | Onafhankelijk | **Eenwegs variantieanalyse (ANOVA)** | Kruskal-Wallis toets | Interval/Ratio | Nominaal (met >2 niveaus) |
De eenweg variantieanalyse is dus de parametrische toets voor het vergelijken van gemiddelden van meer dan twee onafhankelijke groepen, waarbij de afhankelijke variabele minstens op intervalniveau is gemeten.
---
# Post hoc toetsing en overzicht van toetsen
Na een significante ANOVA is het noodzakelijk om post hoc toetsingen uit te voeren om te bepalen welke specifieke groepen van elkaar verschillen, met speciale aandacht voor de Bonferroni correctie. Dit gedeelte sluit af met een overzicht van de verschillende statistische toetsen die tot nu toe zijn behandeld.
### 4.1 Post hoc toetsing
Nadat de ANOVA een significant verschil tussen de groepsgemiddelden heeft aangetoond, weten we nog niet welke specifieke groepen van elkaar verschillen. Om dit te achterhalen, worden paarsgewijze vergelijkingen tussen de condities uitgevoerd via post hoc toetsingen.
#### 4.1.1 Het probleem van Type I fouten bij meervoudige toetsen
Bij het uitvoeren van meerdere paarsgewijze toetsen na elkaar, stijgt de kans op het maken van een Type I fout (het ten onrechte verwerpen van de nulhypothese). De kans op een Type I fout wordt vastgesteld op $\alpha = 0.05$ (5%). Bij het uitvoeren van $N$ toetsen, stijgt de totale kans op een Type I fout aanzienlijk.
De algemene formule voor de kans op een Type I fout bij meervoudige toetsen met $\alpha = 0.05$ is:
$$ \text{Kans op Type I fout} = 1 - (1 - \alpha)^N $$
Waarbij $N$ het aantal uitgevoerde toetsen is. Als bijvoorbeeld $N=3$ is, wordt de kans op een Type I fout: $1 - (0.95)^3 \approx 0.143$ (14.3%). Bij $N=4$ stijgt dit tot 18.5%, en bij $N=6$ tot 26.4%.
#### 4.1.2 De Bonferroni correctie
Om de stijgende kans op Type I fouten te corrigeren, wordt de Bonferroni correctie toegepast. Deze methode verlaagt het significantieniveau voor elke individuele vergelijking.
Wanneer drie groepen worden vergeleken, wordt het oorspronkelijke significantieniveau ($\alpha = 0.05$) gedeeld door het aantal vergelijkingen. Dus, in plaats van te toetsen met $p \leq 0.05$, wordt getoetst met $p \leq 0.05/3 = 0.017$. Dit betekent dat een verschil alleen als significant wordt beschouwd als de berekende $p$-waarde kleiner is dan dit gecorrigeerde significantieniveau.
> **Tip:** Sommige statistische software (zoals SPSS) toont de herberekende overschrijdingskansen na de Bonferroni correctie. In dat geval kunt u deze direct vergelijken met het oorspronkelijke $\alpha = 0.05$ niveau.
#### 4.1.3 Interpretatie van post hoc toetsingstabellen
Tabellen met resultaten van post hoc toetsingen presenteren doorgaans de paarsgewijze vergelijkingen. Er wordt aangegeven tussen welke groepen een significant verschil is gevonden. Een $p$-waarde die kleiner is dan het (gecorrigeerde) significantieniveau, indiceert een significant verschil.
### 4.2 Overzicht van statistische toetsen
Hieronder volgt een overzicht van de tot nu toe behandelde statistische toetsen, ingedeeld naar het aantal populaties dat wordt vergeleken en het type steekproeven (onafhankelijk of afhankelijk).
#### 4.2.1 Toetsen voor één populatie
| Toets | Parametrisch | Non-parametrisch | Afhankelijke Variabele | Onafhankelijke Variabele |
| :------------------------- | :------------------------------- | :------------------------------------- | :--------------------- | :----------------------- |
| Vergelijken met bekend gemiddelde | $t$-toets voor het gemiddelde (one sample $t$-test) | Chikwadraattoets voor frequenties (goodness of fit) | Interval | Nominaal, Ordinaal |
| Vergelijken van frequenties | - | - | Nominaal, Ordinaal | Nominaal, Ordinaal |
* **Parametrisch:** Vereist dat de afhankelijke variabele minstens intervalniveau heeft en doorgaans normaal verdeeld is in de populatie.
* **Non-parametrisch:** Geschikt voor nominale of ordinale afhankelijke variabelen, of wanneer de aannames van parametrische toetsen niet voldaan zijn.
#### 4.2.2 Toetsen voor twee populaties
**Onafhankelijke steekproeven:** De groepen zijn niet aan elkaar gerelateerd.
| Toets | Parametrisch | Non-parametrisch | Afhankelijke Variabele | Onafhankelijke Variabele |
| :------------------------ | :---------------------------------- | :--------------------------------------------- | :--------------------- | :----------------------- |
| Vergelijken van gemiddelden | $t$-toets voor twee onafhankelijke steekproeven | Wilcoxon rank-sum toets (Mann-Whitney U) | Interval | Nominaal (met 2 niveaus) |
**Afhankelijke steekproeven:** De groepen zijn aan elkaar gerelateerd (bv. herhaalde metingen, gematchte paren).
| Toets | Parametrisch | Non-parametrisch | Afhankelijke Variabele | Onafhankelijke Variabele |
| :------------------------ | :-------------------------------- | :-------------------------------- | :--------------------- | :----------------------- |
| Vergelijken van gemiddelden | $t$-toets voor twee afhankelijke steekproeven | Wilcoxon signed-rank toets (niet te kennen) | Interval | Nominaal (met 2 niveaus) |
#### 4.2.3 Toetsen voor meer dan twee populaties (onafhankelijke steekproeven)
| Toets | Parametrisch | Non-parametrisch | Afhankelijke Variabele | Onafhankelijke Variabele |
| :---------------------------- | :------------------------------ | :--------------------------------- | :--------------------- | :----------------------- |
| Vergelijken van gemiddelden | Eénwegs variantieanalyse (ANOVA) | Kruskal-Wallis toets (niet te kennen) | Interval | Nominaal (met >2 niveaus) |
* **Eénwegs variantieanalyse (ANOVA):** Gebruikt wanneer de afhankelijke variabele minimaal intervalniveau heeft en er meer dan twee onafhankelijke groepen vergeleken worden. Vereist onafhankelijke steekproeven, normaliteit van de afhankelijke variabele binnen de groepen (of groepen van minimaal 30 deelnemers) en homogeniteit van varianties. ANOVA is een "omnibus-test", wat betekent dat het aangeeft *of* er een verschil is, maar niet *waar* het verschil zit. Hiervoor zijn post hoc toetsingen nodig.
* **Tweewegs variantieanalyse:** Niet te kennen voor dit examen.
#### 4.2.4 Algemene stappen bij het uitvoeren van toetsen
Bij het uitvoeren van statistische toetsen, inclusief de ANOVA, worden de volgende stappen doorlopen:
1. **Toetsingssituatie:** Begrijpen van de onderzoeksvraag, identificeren van de afhankelijke en onafhankelijke variabelen, en het meetniveau van deze variabelen. Vaststellen of er meer dan twee populaties worden vergeleken en of de steekproeven afhankelijk of onafhankelijk zijn. Bepalen of een parametrische of non-parametrische toets geschikt is.
2. **Voorwaarden:** Nagaan of de statistische voorwaarden voor de gekozen toets voldaan zijn.
3. **Hypothesen:** Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$). Voor ANOVA is de $H_0$ dat alle populatiegemiddelden gelijk zijn ($\mu_1 = \mu_2 = \dots = \mu_j$), en de $H_1$ dat er minstens één paar populatiegemiddelden is dat significant verschilt ($\mu_i \neq \mu_j$ voor minstens één paar $i$ en $j$).
4. **Toetsingsgrootheid:** Berekenen van de toetsingsgrootheid (bv. de $F$-statistiek voor ANOVA) en de bijbehorende kansverdeling bepalen.
5. **Beslissingsregel:** Een beslissing nemen om de nulhypothese al dan niet te verwerpen, gebaseerd op de $p$-waarde (overschrijdingskans) of kritieke waarden.
6. **Effectgrootte:** Beoordelen van de grootte van het gevonden effect met een effectmaat (bv. $r$ voor ANOVA).
7. **Rapporteren:** Correct rapporteren van de resultaten, inclusief de onderzoeksvraag, de uitgevoerde toets, steekproefgegevens (gemiddelden, standaarddeviaties), de resultaten van de statistische toets ($F$-waarde, vrijheidsgraden, $p$-waarde, effectgrootte) en de conclusie in de context van de onderzoeksvraag.
#### 4.2.5 Eenwegs variantieanalyse (ANOVA)
ANOVA wordt gebruikt om te bepalen of er een significant verschil is in gemiddelden tussen drie of meer groepen.
* **Principe:** ANOVA vergelijkt de variantie *tussen* de groepen (between-groups variance) met de variantie *binnen* de groepen (within-groups variance). Als de between-groups variance aanzienlijk groter is dan de within-groups variance, duidt dit op significante verschillen tussen de groepsgemiddelden.
* **Toetsingsgrootheid:** De $F$-statistiek wordt berekend als de verhouding van de Mean Squares (gemiddelde kwadratensommen) tussen de groepen en binnen de groepen:
$$ F = \frac{MS_{between}}{MS_{within}} $$
Waarbij:
* $MS_{between} = \frac{SS_{between}}{df_{between}}$
* $MS_{within} = \frac{SS_{within}}{df_{within}}$
* $SS_{between}$ = Sum of Squares between groups
* $df_{between} = k - 1$ (aantal groepen $k$ minus 1)
* $SS_{within}$ = Sum of Squares within groups
* $df_{within} = N - k$ (totaal aantal deelnemers $N$ minus het aantal groepen $k$)
* **Beslissingsregel:** De nulhypothese wordt verworpen als de berekende $F$-waarde groter is dan de kritieke $F$-waarde uit de $F$-verdeling, of als de $p$-waarde kleiner is dan het significantieniveau ($\alpha$).
* **Post hoc toetsing:** Na een significante ANOVA zijn post hoc toetsingen noodzakelijk om te bepalen welke specifieke groepen significant van elkaar verschillen (bv. met de Bonferroni correctie).
#### 4.2.6 Voorbeeld van een ANOVA-berekening
Stel, we onderzoeken het verschil in examenscores (op 100) voor drie studiemethoden (A, B, C), met 34 studenten per methode ($N=102$, $k=3$).
* **Gemiddelden:** Groep A: $65.50$, Groep B: $61.32$, Groep C: $59.12$. Totaal gemiddelde: $61.98$.
* **Sum of Squares between-groups ($SS_{between}$):**
$$ SS_{between} = 34 \cdot (65.50 - 61.98)^2 + 34 \cdot (61.32 - 61.98)^2 + 34 \cdot (59.12 - 61.98)^2 $$
$$ SS_{between} = 34 \cdot (3.52)^2 + 34 \cdot (-0.66)^2 + 34 \cdot (-2.86)^2 $$
$$ SS_{between} \approx 34 \cdot 12.39 + 34 \cdot 0.44 + 34 \cdot 8.18 \approx 421.26 + 14.96 + 278.12 = 714.34 $$
* **Vrijheidsgraden between-groups ($df_{between}$):** $k-1 = 3-1 = 2$.
* **Mean Sum of Squares between-groups ($MS_{between}$):** $\frac{SS_{between}}{df_{between}} = \frac{714.34}{2} = 357.17$.
* **Sum of Squares within-groups ($SS_{within}$):** Gegeven als $11277.471$.
* **Vrijheidsgraden within-groups ($df_{within}$):** $N-k = 102-3 = 99$.
* **Mean Sum of Squares within-groups ($MS_{within}$):** $\frac{SS_{within}}{df_{within}} = \frac{11277.471}{99} \approx 113.91$.
* **Toetsingsgrootheid ($F$):** $\frac{MS_{between}}{MS_{within}} = \frac{357.17}{113.91} \approx 3.14$.
* **Kritieke waarde:** Voor een tweezijdige $F$-toets met $df_1 = 2$ en $df_2 = 99$ bij $\alpha = 0.05$, is de kritieke waarde ongeveer $3.09$.
* **Conclusie:** Aangezien de berekende $F$-waarde ($3.14$) groter is dan de kritieke waarde ($3.09$), wordt de nulhypothese verworpen. Er is een significant effect van studiemethode op de examenpunten. Om te bepalen welke studiemethode het beste is, zijn post hoc toetsingen nodig.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Populatie | Een volledige verzameling van individuen, objecten of gebeurtenissen die men wil bestuderen en waarover conclusies getrokken worden op basis van een steekproef. |
| Steekproef | Een selectie van individuen, objecten of gebeurtenissen uit een populatie, gebruikt om informatie te verkrijgen over die populatie. |
| Statistische toets | Een procedure om op basis van steekproefgegevens een beslissing te nemen over een hypothese betreffende een populatieparameter. |
| Parametrische toets | Een statistische toets die veronderstelt dat de gegevens uit een populatie komen die een specifieke kansverdeling volgt, vaak de normale verdeling, en die parameters van deze verdeling schat. |
| Non-parametrische toets | Een statistische toets die geen specifieke veronderstellingen maakt over de onderliggende kansverdeling van de populatie en vaak gebruikt wordt bij ordinale of nominale data. |
| T-toets voor het gemiddelde (one sample t test) | Een parametrische toets om te bepalen of het gemiddelde van een steekproef significant verschilt van een bekend populatiegemiddelde. |
| Chikwadraattoets voor frequenties (Chi-square goodness of fit) | Een non-parametrische toets die gebruikt wordt om te bepalen of de waargenomen frequenties van een categorische variabele significant afwijken van de verwachte frequenties. |
| Afhankelijke steekproeven | Steekproeven waarbij de metingen binnen de ene steekproef afhankelijk zijn van of gerelateerd zijn aan de metingen in de andere steekproef, zoals bij herhaalde metingen bij dezelfde personen. |
| Onafhankelijke steekproeven | Steekproeven waarbij de metingen in de ene steekproef geen invloed hebben op de metingen in de andere steekproef, wat typisch is wanneer verschillende groepen worden vergeleken. |
| T-toets voor twee onafhankelijke steekproeven | Een parametrische toets om te bepalen of de gemiddelden van twee onafhankelijke groepen significant van elkaar verschillen. |
| Wilcoxon rank-sum toets | Een non-parametrische toets voor twee onafhankelijke steekproeven, gebruikt om te bepalen of de twee populaties waaruit de steekproeven zijn getrokken, significant van elkaar verschillen. |
| T-toets voor twee afhankelijke steekproeven | Een parametrische toets om te bepalen of de gemiddelden van twee afhankelijke steekproeven significant van elkaar verschillen, vaak gebruikt bij herhaalde metingen. |
| Gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden. |
| Variantie | Een maat voor de spreiding van gegevenspunten rondom het gemiddelde; het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde. |
| Between-groups variantie | Een maat voor de variabiliteit tussen de gemiddelden van verschillende groepen. |
| Within-groups variantie | Een maat voor de variabiliteit binnen elke individuele groep. |
| Eenwegs variantieanalyse (ANOVA) | Een statistische toets die wordt gebruikt om te bepalen of er significante verschillen zijn tussen de gemiddelden van drie of meer onafhankelijke groepen. |
| Type I-fout | De fout die gemaakt wordt wanneer een nulhypothese ten onrechte wordt verworpen, terwijl deze in werkelijkheid waar is (een vals positief resultaat). |
| Nulhypothese (H0) | Een stelling die geen effect, verschil of relatie tussen variabelen postuleert, en die getoetst wordt met statistische methoden. |
| Alternatieve hypothese (H1) | Een stelling die een effect, verschil of relatie tussen variabelen postuleert, en die wordt aangenomen als de nulhypothese wordt verworpen. |
| Overtoetsingskans (p-waarde) | De kans om de waargenomen resultaten of extremere resultaten te verkrijgen, aangenomen dat de nulhypothese waar is. |
| Kritieke waarde | De grens die bepaalt of de nulhypothese wordt verworpen of niet, gebaseerd op de gekozen significantieniveau ($\alpha$). |
| Post hoc toetsing | Extra statistische toetsen die worden uitgevoerd na een significante ANOVA om te bepalen welke specifieke groepen significant van elkaar verschillen. |
| Bonferroni correctie | Een methode om de overtoetsingskansen aan te passen bij het uitvoeren van meerdere vergelijkingen om het risico op Type I-fouten te verminderen. |
| Effectgrootte | Een maat die de omvang van een effect of verschil kwantificeert, onafhankelijk van de steekproefgrootte. |