Cover
Börja nu gratis Set 4 H15 Niet Parametrisch.pptx
Summary
# Inleiding tot niet-parametrische toetsen
Dit hoofdstuk introduceert niet-parametrische toetsen als een flexibel alternatief voor parametrische toetsen, met name wanneer data niet voldoen aan de aannames van normaliteit of wanneer variabelen op nominaal of ordinaal niveau zijn gemeten.
## 1. Inleiding tot niet-parametrische toetsen
### 1.1 Beperkingen van parametrische toetsen en de noodzaak van niet-parametrische methoden
Parametrische toetsen, zoals de t-toets en ANOVA, vereisen doorgaans dat de data op intervalniveau worden gemeten en dat de populatie waaruit de steekproef is getrokken, normaal verdeeld is. Hoewel veel parametrische methoden robuust zijn voor matige afwijkingen van normaliteit, wordt het gebruik ervan afgeraden bij duidelijk niet-normaal verdeelde data. Bovendien behalen psychologische meetinstrumenten zelden het intervalniveau, wat de toepassing van parametrische toetsen beperkt.
In situaties waar de assumpties van parametrische toetsen geschonden worden, bieden niet-parametrische methoden een waardevol alternatief. Deze methoden stellen minder strenge eisen aan de data.
### 1.2 Alternatieven voor niet-normaal verdeelde data
Er zijn verschillende benaderingen mogelijk wanneer data niet normaal verdeeld zijn:
* **Transformatie van data**: Soms kunnen data getransformeerd worden (bv. via een logaritme) om afwijkingen van normaliteit te corrigeren, vooral bij scheve verdelingen.
* **Alternatieve theoretische verdelingen**: Er bestaan methoden die gebaseerd zijn op andere verdelingen dan de normale verdeling.
* **Bootstrap methoden**: Moderne computerintensieve methoden maken het mogelijk om toetsen te baseren op de data zelf zonder de assumptie van normaliteit, door gebruik te maken van herhaalde steekproeftrekking uit de geobserveerde data.
* **Niet-parametrische methoden**: Deze methoden bieden vaak een eenvoudig en effectief alternatief.
### 1.3 Eigenschappen van niet-parametrische toetsen
Niet-parametrische toetsen zijn gebaseerd op de ordening (rangorde) van de data, in plaats van op hun eigenlijke meetwaarden. Hierdoor verliezen ze een deel van de informatie die in de numerieke waarden zit, wat kan leiden tot een minder goed onderscheidingsvermogen vergeleken met parametrische toetsen die wel voldoen aan hun assumpties. Echter, voor situaties waarin de aannames van parametrische toetsen niet voldaan zijn, kunnen niet-parametrische toetsen een beter onderscheidingsvermogen bieden. Ze geven echter geen directe informatie over de effectgrootte op basis van de oorspronkelijke schaal.
### 1.4 Overzicht van besproken niet-parametrische toetsen
De volgende niet-parametrische toetsen worden behandeld als alternatieven voor t-toetsen en ANOVA wanneer de hypothese van normaal verdeelde populaties niet voldaan is:
* Wilcoxon Rank Sum Test (Mann-Whitney U-test)
* Wilcoxon Signed Rank Test
* Kruskal-Wallis Test
Deze toetsen gaan over het centrum van de populatie, wat bij scheve verdelingen de mediaan is, in plaats van het gemiddelde zoals bij normaal verdeelde populaties.
## 2. Wilcoxon Signed Rank Test (Rangtekentoets)
De Wilcoxon Signed Rank Test is een niet-parametrische toets voor afhankelijke (gepaarde of gekoppelde) steekproeven.
### 2.1 Toepassingsgebieden
Deze toets is toepasbaar op:
* Gepaarde data, zoals bij within-subjects designs (herhaalde metingen).
* Gekoppelde steekproeven waarbij proefpersonen worden gematcht op basis van bepaalde kenmerken.
### 2.2 Procedure
1. **Bereken verschillen**: Bepaal de verschillen tussen de responsen binnen elk paar.
2. **Orden absolute verschillen**: Rangschik de absolute waarden van deze verschillen van klein naar groot.
3. **Ken rangen toe**: Ken aan elk van deze absolute verschillen een rang toe, waarbij de kleinste absolute verschil rang 1 krijgt. Bij gelijke absolute verschillen (knopen) wordt het gemiddelde van de betrokken rangen toegekend.
4. **Bereken sommen van rangen**: Bereken de som van de rangen voor de positieve verschillen ($W^+$) en de som van de rangen voor de negatieve verschillen ($W^-$).
5. **Bepaal toetsingsgrootheid**: De toetsingsgrootheid is $V = \min(W^+, W^-)$.
### 2.3 Hypotheses
De nulhypothese ($H_0$) stelt dat er geen systematische verschillen zijn binnen de paren. De alternatieve hypothese ($H_1$) stelt dat er wel systematische verschillen zijn.
### 2.4 Verwachting en standaardfout
Onder de nulhypothese geldt voor de toetsingsgrootheid $V$:
* Verwachting: $E(V)$
* Standaardfout: $SE(V)$
Voor grote steekproeven kan de verdeling van $V$ benaderd worden met een normale verdeling, waarvoor specifieke formules gelden voor de verwachting en standaardfout, rekening houdend met eventuele knopen (gelijke scores).
> **Tip:** De Wilcoxon Signed Rank Test houdt rekening met de grootte van het verschil, in tegenstelling tot de gewone tekentoets, wat resulteert in een beter onderscheidingsvermogen.
### 2.5 Interpretatie
De nulhypothese wordt verworpen indien de toetsingsgrootheid $V$ significant verschilt van zijn verwachte waarde onder $H_0$. Dit gebeurt wanneer $V$ kleiner is dan een kritische waarde uit een referentietabel, of wanneer de berekende p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$).
### 2.6 Benaderingsmethode voor grote steekproeven
Voor grote steekproeven (bijvoorbeeld $n \ge 10$) kan een benaderingsmethode met de normale verdeling worden gebruikt, wat de noodzaak van uitgebreide tabellen vermindert. De formules voor de verwachting en standaardfout onder de normale benadering worden dan toegepast.
> **Voorbeeld:** Om na te gaan of een filmpje van een spin angst kan opwekken, kan men de hartslag van deelnemers meten vóór en na het tonen van het filmpje. De Wilcoxon Signed Rank Test kan dan gebruikt worden om te bepalen of er een significant verschil is in hartslag. De toetsingsgrootheid $V$ wordt berekend op basis van de rangen van de verschillen tussen de na- en voor-metingen.
## 3. Wilcoxon Rank Sum Test (Rangsomtest) / Mann-Whitney U-test
De Wilcoxon Rank Sum Test, ook bekend als de Mann-Whitney U-test, is een niet-parametrische toets om twee onafhankelijke verdelingen te vergelijken.
### 3.1 Basisprincipe
De toets vergelijkt de posities van de waarnemingen uit twee groepen binnen een geordende gezamenlijke lijst.
### 3.2 Rangtransformatie
Alle waarnemingen uit beide groepen worden samengevoegd en van klein naar groot geordend. Elke waarneming krijgt vervolgens een rang toegekend op basis van haar positie in deze geordende lijst. De laagste rang is 1. Door de oorspronkelijke meetwaarden te vervangen door hun rangen, gaat informatie over de numerieke waarde verloren, maar de toets wordt robuuster tegen afwijkingen van normaliteit.
### 3.3 Hypotheses
De nulhypothese ($H_0$) stelt dat de mediaan van beide populaties gelijk is, of specifiek dat de kans dat een willekeurige waarneming uit groep X groter is dan een willekeurige waarneming uit groep Y gelijk is aan 0.5. $H_0: P[X \ge Y] = 1/2 \iff H_0: \text{mediaan}(X) \ge \text{mediaan}(Y)$. De alternatieve hypothese ($H_1$) stelt dat er een verschil is in de locatie (mediaan) van de twee verdelingen.
### 3.4 Berekening van de toetsingsgrootheid
Er zijn twee veelgebruikte definities voor de toetsingsgrootheid:
* **Gewone rangsom ($W$)**: De som van de rangen in een van de groepen. $W = \min(W_X, W_Y)$, waarbij $W_X$ en $W_Y$ de sommen van de rangen zijn voor respectievelijk groep X en groep Y.
* **Gecorrigeerde rangsom ($W_{\text{corr}}$ of $U$)**: Hierbij wordt een correctie toegepast voor de groepsgrootte. $W_{\text{corr}} = W - \frac{n(n+1)}{2}$, waarbij $n$ de groepsgrootte is. Deze gecorrigeerde rangsom wordt vaak aangeduid als $U$ wanneer de test wordt gerapporteerd als een Mann-Whitney U-test.
> **Voorbeeld:** Om na te gaan of het zelf mogen kiezen van een onderwerp leidt tot hogere motivatiescores, kan een groep studenten die zelf een onderwerp kiest (groep X) vergeleken worden met een groep studenten aan wie een onderwerp wordt opgelegd (groep Y). De motivatiescores worden samengevoegd, geordend en gerangschikt. Vervolgens wordt de rangsom voor beide groepen berekend.
### 3.5 Interpretatie
Onder $H_0$ verwachten we dat de rangsommen voor beide groepen ongeveer gelijk zijn. Als $H_0$ onjuist is, verwachten we dat een van de rangsommen significant hoger (of lager) is dan de andere. De toetsingsgrootheid ($W$ of $W_{\text{corr}}$) wordt vergeleken met kritische waarden uit tabellen of de p-waarde wordt berekend (vaak via software) om de nulhypothese te beoordelen.
### 3.6 Benadering door de normale verdeling
Voor grotere steekproeven (bv. $n_1 \ge 10$ en $n_2 \ge 10$) kan de verdeling van de toetsingsgrootheid (zowel $W$ als $W_{\text{corr}}$) bij benadering als normaal verdeeld worden beschouwd. Hiervoor worden specifieke formules gebruikt voor de verwachting en standaardfout van $W$ of $W_{\text{corr}}$.
> **Tip:** Bij het rapporteren van de resultaten van een Wilcoxon Rank Sum Test is het belangrijk om duidelijk aan te geven welke toetsingsgrootheid (gewone rangsom $W$ of gecorrigeerde rangsom $W_{\text{corr}}$ of $U$) is gebruikt, en welke software is aangewend, aangezien er verschillende definities circuleren.
### 3.7 Omgaan met "knopen" (gelijke scores)
Wanneer er gelijke scores voorkomen in de data ("knopen"), kunnen de standaardformules voor de verwachting en standaardfout van de toetsingsgrootheid een minder nauwkeurige benadering geven. De meeste statistische softwarepakketten passen automatisch correcties toe voor knopen wanneer ze worden gedetecteerd. Bij het gebruik van de normale benadering kan een continuïteitscorrectie worden toegepast.
### 3.8 Eigenschappen van de Wilcoxon-Mann-Whitney test
* **Onderscheidingsvermogen**: De test heeft een hoog onderscheidingsvermogen, ongeveer $3/\pi$ (ongeveer 95%) van dat van de t-toets wanneer de data voldoen aan de aannames van de t-toets. Dit maakt het een zeer goed alternatief bij twijfel over de normaliteit van de data.
* **Datavereiste**: Vereist slechts ordinale data.
* **Alternatieve berekening**: De test kan ook worden geïnterpreteerd als het toetsen van de locatieverschuiving tussen de twee verdelingen.
## 4. Kruskal-Wallis Test
De Kruskal-Wallis test is een niet-parametrische rangorde toets die een alternatief biedt voor de één-weg ANOVA F-toets voor situaties met meer dan twee onafhankelijke groepen.
### 4.1 Basisprincipe
Net als bij de Wilcoxon Rank Sum Test worden alle waarnemingen uit alle groepen samengevoegd, van klein naar groot geordend en vervolgens wordt een rang toegekend aan elke waarneming. De Kruskal-Wallis test voert vervolgens een één-weg ANOVA uit op deze rangen in plaats van op de oorspronkelijke meetwaarden.
### 4.2 Toepassingsgebied
Deze toets is geschikt voor het vergelijken van de medianen van drie of meer onafhankelijke groepen.
### 4.3 Hypotheses
De nulhypothese ($H_0$) stelt dat de medianen van alle groepen gelijk zijn. De alternatieve hypothese ($H_1$) stelt dat er ten minste één groep is met een significant andere mediaan.
### 4.4 Procedure
1. **Combineer en rangschik**: Voeg alle data van de verschillende groepen samen en rangschik ze van klein naar groot.
2. **Ken rangen toe**: Ken aan elke waarneming een rang toe. Bij gelijke waarden worden gemiddelde rangen toegekend.
3. **Bereken rangsommen per groep**: Bereken de som van de rangen voor elke groep afzonderlijk.
4. **Bereken toetsingsgrootheid**: De toetsingsgrootheid $H$ wordt berekend op basis van deze rangsommen, de groepsgroottes en het totale aantal waarnemingen. Er bestaat een formule om de rangen te corrigeren voor eventuele "knopen".
### 4.5 Interpretatie
De toetsingsgrootheid $H$ wordt vergeleken met een chi-kwadraatverdeling om de p-waarde te bepalen. Als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$), wordt de nulhypothese verworpen en geconcludeerd dat er ten minste één groep is met een andere mediaan.
> **Probleem van meervoudige vergelijkingen:** Wanneer meer dan twee groepen worden vergeleken, schieten toetsen voor slechts twee groepen tekort omdat het risico op een type I fout (onterecht verwerpen van $H_0$) toeneemt bij elke individuele toets. De Kruskal-Wallis test dient als een globale "omnibus test" om na te gaan of er ergens verschillen zijn. Indien deze globaal significant is, kunnen follow-up analyses (pairwise vergelijkingen met correctie voor meervoudige toetsen, bv. Bonferroni correctie of Dunn's test) worden uitgevoerd om te bepalen welke specifieke groepen van elkaar verschillen.
---
# De Wilcoxon rangsomtest (Mann-Whitney U-test)
De Wilcoxon rangsomtest, ook bekend als de Mann-Whitney U-test, is een niet-parametrische toets die gebruikt wordt om twee onafhankelijke verdelingen te vergelijken door middel van de rangorde van de data.
### Uitgangspunt en rangtransformatie
Het kernprincipe van de Wilcoxon rangsomtest is het vergelijken van de posities van twee groepen binnen een geordende reeks van alle waarnemingen. Dit proces omvat een rangtransformatie, waarbij de oorspronkelijke numerieke meetwaarden worden vervangen door hun rangorde (positie in de geordende lijst, beginnend bij 1 voor de kleinste waarde). Hoewel dit informatieverlies betekent betreffende de exacte meetwaarden, behoudt de rangorde de relatieve volgorde van de data. Deze rangtransformatie is essentieel voor niet-parametrische toetsen omdat ze minder strenge aannames over de data vereisen dan parametrische toetsen zoals de t-toets. De toets is met name geschikt voor ordinale data of wanneer de assumptie van normaliteit voor intervalniveau data niet voldaan is.
### Hypothesen
De nulhypothese ($H_0$) voor de Wilcoxon rangsomtest stelt doorgaans dat er geen systematisch verschil is tussen de medianen van de twee populaties waaruit de onafhankelijke steekproeven zijn getrokken. Een veelgebruikte formulering is:
$H_0$: De mediaan van de ene groep is gelijk aan de mediaan van de andere groep.
Of, meer specifiek:
$H_0$: $P[X \ge Y] = 1/2$, wat equivalent is aan $H_0$: mediaan($X$) $\ge$ mediaan($Y$).
De alternatieve hypothese ($H_a$) stelt dat er wel een verschil is in de medianen. Dit kan eenrichtingsgebonden zijn (bijvoorbeeld mediaan($X$) $>$ mediaan($Y$)) of tweerichtingsgebonden (mediaan($X$) $\neq$ mediaan($Y$)).
### Toetsingsgrootheid: W en W gecorrigeerd (U)
Er bestaan twee varianten van de toetsingsgrootheid die in de literatuur worden gebruikt: de "gewone rangsom" ($W$) en de "gecorrigeerde rangsom" ($W_{corr}$), die ook wel aangeduid wordt als de Mann-Whitney $U$-statistiek.
* **Gewone rangsom ($W$):** Dit is de som van de rangen van de waarnemingen in één van de twee groepen. Men berekent de som van de rangen voor beide groepen ($W_X$ en $W_Y$). De toetsingsgrootheid $W$ is dan het minimum van deze twee sommen: $W = \min(W_X, W_Y)$.
* **Gecorrigeerde rangsom ($W_{corr}$ of $U$):** Deze variant corrigeert de rangsom voor de grootte van de groep waarvoor de rangsom is berekend. Het wordt berekend door eerst de rangsommen van beide groepen te bepalen en vervolgens de minimale rangsom af te trekken van de som van de rangen van de betreffende groep. Een veelgebruikte methode om de $U$-statistiek te berekenen is:
$$U = n_1 n_2 + \frac{n_1(n_1+1)}{2} - W_1$$
Waarbij $n_1$ en $n_2$ de groepsgroottes zijn en $W_1$ de rangsom van groep 1 is. Een alternatieve berekening is door de rangsommen van beide groepen te berekenen en de toetsingsgrootheid als $U = \min(W_X, W_Y)$ te noteren, waarbij $W_X$ en $W_Y$ de rangsommen van de groepen zijn, en dan de correctie toe te passen indien nodig.
Een veelgebruikte definitie voor de gecorrigeerde rangsom ($W_{corr}$) is gebaseerd op de som van de rangen binnen een groep, verminderd met een minimale rangsom die afhangt van de groepsgrootte. Echter, de meest courante interpretatie in statistische software is dat de $U$-statistiek (die gelijk is aan onze $W_{corr}$) de toetsingsgrootheid is.
Bij het rapporteren is het cruciaal om duidelijk te specificeren welke statistiek wordt gebruikt. Het is aan te bevelen om de test te rapporteren als een Mann-Whitney $U$-test en de gecorrigeerde $W_{corr}$ te vermelden als de toetsingsgrootheid $U$.
#### Voorbeeld van rangtransformatie en berekening van W:
Stel, we vergelijken twee groepen (X en Y) op basis van motivatiescores.
Data:
Groep X: 21, 24, 43, 32, 27, 37, 29, 44, 22, 41
Groep Y: 45, 30, 34, 48, 42, 47, 25, 33, 46, 31, 28, 35
1. **Alle waarnemingen ordenen en rangen toekennen:**
Gecombineerde geordende data: 21, 22, 24, 25, 27, 28, 29, 30, 31, 32, 33, 34, 35, 37, 41, 42, 43, 44, 45, 46, 47, 48
Rangen:
21 (X) - 1
22 (X) - 2
24 (X) - 3
25 (Y) - 4
27 (X) - 5
28 (Y) - 6
29 (X) - 7
30 (Y) - 8
31 (Y) - 9
32 (X) - 10
33 (Y) - 11
34 (Y) - 12
35 (Y) - 13
37 (X) - 14
41 (X) - 15
42 (Y) - 16
43 (X) - 17
44 (X) - 18
45 (Y) - 19
46 (Y) - 20
47 (Y) - 21
48 (Y) - 22
2. **Rangsommen berekenen voor elke groep:**
$W_X = 1 + 2 + 3 + 5 + 7 + 10 + 14 + 15 + 17 + 18 = 92$
$W_Y = 4 + 6 + 8 + 9 + 11 + 12 + 13 + 16 + 19 + 20 + 21 + 22 = 161$
3. **Toetsingsgrootheid bepalen:**
$W = \min(W_X, W_Y) = \min(92, 161) = 92$.
De gecorrigeerde $U$ wordt berekend op basis van deze rangsommen en de groepsgroottes ($n_1=10, n_2=12$). Een veelgebruikte formule voor $U$ is:
$U = n_1 n_2 + \frac{n_1(n_1+1)}{2} - W_1 = 10 \times 12 + \frac{10(10+1)}{2} - 92 = 120 + 55 - 92 = 83$.
Echter, softwarepakketten zoals R of SPSS geven vaak de $U$-statistiek direct weer, die equivalent is aan onze $W_{corr}$. In het voorbeeld uit het document wordt de gecorrigeerde rangsom berekend als $W_{corr} = 37$, wat overeenkomt met de $U$-statistiek uit de Mann-Whitney test. Dit suggereert dat de definitie van $W$ en $U$ kan variëren, en het is belangrijk de specifieke implementatie te volgen.
> **Tip:** Wanneer er gelijke waarnemingen ("ties" of knopen) zijn, moet een aangepaste methode voor de berekening van de variantie en standaardfout van de rangsommen worden gebruikt. De meeste statistische software past dit automatisch toe.
### Benadering met de Normaalverdeling
Voor grotere steekproeven ($n_1$ en $n_2$ $\ge$ 10) kan de verdeling van de toetsingsgrootheid ($W$ of $W_{corr}$) bij benadering normaal verdeeld worden geacht. De verwachtingswaarde en standaardfout worden dan als volgt berekend:
* **Voor de gewone rangsom ($W$):**
Verwachting:
$$\mu_W = \frac{n_1(N+1)}{2}$$
Standaardfout:
$$\sigma_W = \sqrt{\frac{n_1 n_2 (N+1)}{12}}$$
Waarbij $N = n_1 + n_2$ het totale aantal waarnemingen is.
* **Voor de gecorrigeerde rangsom ($W_{corr}$ of $U$):**
Verwachting:
$$\mu_U = \frac{n_1 n_2}{2}$$
Standaardfout:
$$\sigma_U = \sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}}$$
De toetsingsgrootheid kan vervolgens worden gestandaardiseerd tot een $z$-score:
$$z = \frac{W - \mu_W}{\sigma_W} \quad \text{of} \quad z = \frac{U - \mu_U}{\sigma_U}$$
Deze $z$-score wordt dan vergeleken met de kritische waarden van de standaard normaalverdeling om de p-waarde te bepalen.
#### Voorbeeld van benadering met de Normaalverdeling (met $W_{corr} = U = 37, n_1=10, n_2=12$):
* **Verwachting:**
$$\mu_U = \frac{10 \times 12}{2} = 60$$
* **Standaardfout:**
$$\sigma_U = \sqrt{\frac{10 \times 12 \times (10 + 12 + 1)}{12}} = \sqrt{\frac{120 \times 23}{12}} = \sqrt{10 \times 23} = \sqrt{230} \approx 15.17$$
* **z-score:**
$$z = \frac{37 - 60}{15.17} \approx -1.52$$
Afhankelijk van de alternatieve hypothese (een- of tweezijdig) wordt deze $z$-score gebruikt om de p-waarde te vinden. Voor een eenzijdige toets met $H_a: \text{mediaan}(X) > \text{mediaan}(Y)$, zou een p-waarde van ongeveer 0.0643 gevonden worden met behulp van tabel A.
### Conclusie en Rapportage
Het besluit om de nulhypothese te verwerpen is gebaseerd op de p-waarde. Als de p-waarde kleiner is dan het gekozen significantieniveau (alfa, $\alpha$), wordt de nulhypothese verworpen ten gunste van de alternatieve hypothese.
Bij het rapporteren van de resultaten van een Wilcoxon rangsomtest is het belangrijk om het volgende te vermelden:
* De gebruikte toets (bv. Mann-Whitney $U$-test of Wilcoxon rangsomtest).
* De toetsingsgrootheid (bv. $U$, $W_{corr}$ of $W$).
* De groepsgroottes ($n_1$ en $n_2$).
* De p-waarde.
* De richting van het gevonden verschil, indien relevant.
#### Voorbeeld van rapportage:
"Deelnemers die zelf een onderwerp kozen hadden hogere motivatiescores dan deelnemers die een onderwerp opgelegd kregen, echter, dit verschil is niet significant (Mann-Whitney test: $U = 37$, $p = 0.06$)."
OF
"Deelnemers die zelf een onderwerp hadden gekozen bleken niet significant meer gemotiveerd dan deelnemers met een opgelegd onderwerp (Wilcoxon test zonder correctie: $W = 92$, $p = 0.06$)."
### Eigenschappen van de Wilcoxon-Mann-Whitney test
* **Veelzijdigheid:** Zeer geschikt als alternatief voor de t-toets, aangezien het enkel ordinale data vereist en robuust is tegen afwijkingen van normaliteit.
* **Onderscheidingsvermogen:** Een van de niet-parametrische toetsen met het hoogste onderscheidingsvermogen. Zelfs bij data die geschikt zouden zijn voor een t-toets, bereikt deze test ongeveer 95% van het onderscheidingsvermogen van de t-toets.
* **Ties (Knopen):** Bij het voorkomen van gelijke waarden (ties) vereist de berekening van de standaardfout aanpassingen. Software past dit meestal automatisch toe.
* **Continuïteitscorrectie:** Bij benadering via de normaalverdeling wordt vaak automatisch een continuïteitscorrectie toegepast door statistische software.
* **Onderscheid met Rangtekentoets:** Belangrijk is het onderscheid te maken met de Wilcoxon "rangteken toets" die gebruikt wordt voor gepaarde (afhankelijke) steekproeven.
### Probleem van meervoudige vergelijkingen
Wanneer meer dan twee groepen tegelijkertijd worden vergeleken, schieten methoden voor tweegroepsvergelijkingen tekort. Om het probleem van meervoudige vergelijkingen te beheersen (het verhoogde risico op Type I fouten), wordt vaak een twee-stappen procedure gevolgd:
1. Een globale "omnibus test" (zoals de Kruskal-Wallis test) die nagaat of er überhaupt verschillen zijn tussen de parameters.
2. Vervolgens, indien de globale test significant is, gedetailleerde follow-up analyses (2-aan-2 vergelijkingen met de Mann-Whitney U-test) om te bepalen welke specifieke groepen verschillen.
---
# De Kruskal-Wallis test
De Kruskal-Wallis test is een niet-parametrische rangordetoets die dient als alternatief voor de ANOVA F-toets voor het vergelijken van meer dan twee groepen.
### 3.1 Introductie en Principe
De Kruskal-Wallis test is een niet-parametrische, één-weg analyse van variantie (ANOVA). Dit betekent dat het een alternatief is voor de standaard ANOVA F-toets wanneer de aannames van de ANOVA, zoals normaliteit van de data en homogeniteit van varianties, niet voldaan zijn. In plaats van de daadwerkelijke meetwaarden te gebruiken, maakt deze toets gebruik van de rangordes van alle waarnemingen over alle groepen heen.
**Uitgangspunt:**
Het principe achter de Kruskal-Wallis test is om alle waarnemingen uit alle te vergelijken groepen te verzamelen, ze van klein naar groot te ordenen, en deze geordende waarnemingen rangnummers toe te kennen. Vervolgens wordt een één-weg ANOVA uitgevoerd op deze rangnummers in plaats van op de oorspronkelijke meetwaarden.
**Toepasbaarheid:**
Deze toets is geschikt voor situaties waarin men de verdelingen van een continue of ordinale variabele wil vergelijken over drie of meer onafhankelijke groepen. Het is met name nuttig wanneer de data niet voldoen aan de normaliteitsassumptie van de ANOVA.
### 3.2 Hypothesen
De nulhypothese ($H_0$) voor de Kruskal-Wallis test stelt dat er geen verschil is in de centrale tendens (meestal de mediaan) tussen de groepen. De alternatieve hypothese ($H_1$) stelt dat er ten minste één groep is waarvan de centrale tendens verschilt van de andere groepen.
* **$H_0$:** De medianen van alle groepen zijn gelijk.
$$ H_0: \text{mediaan}_1 = \text{mediaan}_2 = \dots = \text{mediaan}_k $$
waarbij $k$ het aantal groepen is.
* **$H_1$:** Ten minste één groep heeft een andere mediaan dan de rest.
$$ H_1: \text{ten minste één } \text{mediaan}_i \neq \text{mediaan}_j \text{ voor } i \neq j $$
### 3.3 Berekening van de Toetsingsgrootheid
De berekening van de Kruskal-Wallis toetsingsgrootheid omvat de volgende stappen:
1. **Combineer en rangschik alle data:** Verzamel alle waarnemingen uit alle $k$ groepen en rangschik ze van klein naar groot. Ken aan elke waarneming een rangnummer toe. Als er gelijke waarden (knopen of "ties") zijn, wordt vaak het gemiddelde van de rangnummers toegewezen aan die waarden.
2. **Bereken de som van de rangen per groep:** Bereken voor elke groep de som van de rangnummers van de waarnemingen die tot die groep behoren. Laten we deze sommen aanduiden als $R_1, R_2, \dots, R_k$.
3. **Bereken de Kruskal-Wallis toetsingsgrootheid $H$:** De formule voor de Kruskal-Wallis toetsingsgrootheid is:
$$ H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1) $$
waar:
* $N$ is het totale aantal waarnemingen over alle groepen ($N = n_1 + n_2 + \dots + n_k$).
* $k$ is het aantal groepen.
* $R_i$ is de som van de rangen in groep $i$.
* $n_i$ is het aantal waarnemingen in groep $i$.
Een alternatieve, veelgebruikte formulering van de toetsingsgrootheid, die equivalent is, is:
$$ H = \frac{12}{N(N+1)} \sum_{i=1}^{k} n_i (\bar{R}_i - \bar{R})^2 $$
waar:
* $\bar{R}_i = \frac{R_i}{n_i}$ de gemiddelde rang in groep $i$ is.
* $\bar{R} = \frac{N+1}{2}$ de algemene gemiddelde rang is.
**Correctie voor knopen (ties):** Als er gelijke waarden in de data voorkomen, moet de $H$-statistiek gecorrigeerd worden. De gecorrigeerde statistiek, vaak aangeduid als $H_c$, wordt berekend door $H$ te delen door een correctiefactor $C$:
$$ C = 1 - \frac{\sum_{j=1}^{g} (t_j^3 - t_j)}{N^3 - N} $$
waar:
* $g$ is het aantal groepen met gelijke waarden.
* $t_j$ is het aantal waarnemingen met dezelfde waarde voor de $j$-de groep van gelijke waarden.
De gecorrigeerde toetsingsgrootheid is dus $H_c = \frac{H}{C}$.
### 3.4 Besluitvorming
Voor grote steekproeven (typisch wanneer $N \ge 20$ en het aantal waarnemingen per groep niet extreem klein is) volgt de toetsingsgrootheid $H$ (of $H_c$ bij knopen) bij benadering een chi-kwadraatverdeling ($\chi^2$) met $k-1$ vrijheidsgraden onder de nulhypothese.
* De beslissing wordt genomen door de berekende $H$ (of $H_c$) te vergelijken met een kritische waarde uit de $\chi^2$-verdeling voor een gekozen significantieniveau ($\alpha$), of door de p-waarde te berekenen die overeenkomt met de berekende $H$.
* Als de berekende $H$ groter is dan de kritische waarde, of als de p-waarde kleiner is dan $\alpha$, wordt de nulhypothese verworpen. Dit suggereert dat er significante verschillen zijn tussen de medians van de groepen.
### 3.5 Post-hoc Analyses
Wanneer de Kruskal-Wallis test een significant verschil tussen de groepen aantoont ($H_0$ wordt verworpen), is het noodzakelijk om post-hoc analyses uit te voeren om te bepalen welke specifieke groepen van elkaar verschillen. Er zijn verschillende niet-parametrische post-hoc toetsen beschikbaar, zoals de Dunn's test of pairwise Wilcoxon Rank Sum tests met een correctie voor meervoudige vergelijkingen (bijvoorbeeld Bonferroni-correctie).
#### 3.5.1 Dunn's Test
De Dunn's test is een veelgebruikte post-hoc test na de Kruskal-Wallis. Deze test vergelijkt alle paren van groepen twee-aan-twee met behulp van de Wilcoxon Rank Sum test, waarbij de significantieniveaus worden aangepast om het risico op Type I-fouten te beheersen. De toetsingsgrootheid voor Dunn's test kan worden uitgedrukt in termen van de rangsommen.
#### 3.5.2 Pairwise Wilcoxon Rank Sum Tests
Alternatief kunnen Wilcoxon Rank Sum tests twee-aan-twee tussen alle groepen worden uitgevoerd. Om het probleem van meervoudige vergelijkingen aan te pakken, wordt het significantieniveau $\alpha$ meestal gedeeld door het aantal vergelijkingen, $m = \frac{k(k-1)}{2}$. Een p-waarde kleiner dan $\alpha/m$ wordt dan als significant beschouwd.
> **Tip:** Onthoud dat de Kruskal-Wallis test een "omnibus test" is; het vertelt je óf er een verschil is, maar niet waar het verschil zit. Post-hoc tests zijn essentieel voor gedetailleerde interpretatie.
### 3.6 Vergelijking met ANOVA
| Kenmerk | ANOVA F-toets | Kruskal-Wallis Test |
| :-------------------------- | :-------------------------------------------------- | :------------------------------------------------ |
| **Meetniveau** | Minimaal intervalniveau | Minimaal ordinaal niveau |
| **Verdelingassumptie** | Normaliteit van de residuen/populatieverdeling | Geen normaliteitsassumptie |
| **Variantieassumptie** | Homogeniteit van varianties (homoscedasticiteit) | Niet strikt vereist, maar gevoelig voor grote verschillen |
| **Toetsingsgrootheid** | F-statistiek gebaseerd op gemiddelden en varianties | H-statistiek gebaseerd op rangordes |
| **Gevoeligheid voor uitschieters** | Gevoelig | Minder gevoelig (door rangordening) |
| **Informatie over effectgrootte** | Kan effectgrootte schatten (bv. $\eta^2$) | Beperkter, vereist aanvullende post-hoc analyses |
> **Tip:** De Kruskal-Wallis test behoudt ongeveer 95% van het onderscheidingsvermogen van de ANOVA wanneer de data wel aan de assumpties van de ANOVA voldoen. Dit maakt het een robuust alternatief, zelfs wanneer de data "braaf" normaal verdeeld zijn.
### 3.7 Voordelen en Nadelen
**Voordelen:**
* Vereist geen normaliteitsassumptie.
* Geschikt voor ordinale data.
* Robuuster tegen uitschieters dan ANOVA.
* Kan worden gebruikt voor kleine steekproeven.
**Nadelen:**
* Minder statistisch vermogen dan ANOVA wanneer aan de assumpties van ANOVA is voldaan.
* De interpretatie van de toetsingsgrootheid is gebaseerd op rangordes, wat kan leiden tot verlies van informatie over de magnitude van verschillen.
* Post-hoc analyses zijn nodig om specifieke groepsverschillen te identificeren.
### 3.8 Voorbeeld
Stel, we willen de effectiviteit van drie verschillende studiemethoden (Methode A, Methode B, Methode C) vergelijken op basis van de score op een examen. De scores zijn ordinaal (bv. cijfer van 1 tot 10, waarbij een hoger cijfer beter is) en we vermoeden dat de scores niet normaal verdeeld zijn.
* **Groep A (n=10):** Scores $...$
* **Groep B (n=12):** Scores $...$
* **Groep C (n=11):** Scores $...$
1. Combineer alle $N = 10 + 12 + 11 = 33$ scores en rangschik ze van laag naar hoog. Ken rangen toe (en pas correctie toe voor eventuele gelijke scores).
2. Bereken de som van de rangen voor elke groep: $R_A, R_B, R_C$.
3. Bereken de $H$-statistiek met de formule: $H = \frac{12}{33(33+1)} \left( \frac{R_A^2}{10} + \frac{R_B^2}{12} + \frac{R_C^2}{11} \right) - 3(33+1)$.
4. Vergelijk de berekende $H$ met een kritische $\chi^2$-waarde met $k-1 = 3-1 = 2$ vrijheidsgraden, of bepaal de p-waarde. Als $p < \alpha$, verwerp $H_0$ en voer post-hoc tests uit (bv. Dunn's test) om te zien welke studiemethoden significant van elkaar verschillen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-parametrische toetsen | Statistische toetsen die geen strikte aannames doen over de verdeling van de populatie, zoals normaliteit. Ze zijn vaak gebaseerd op rangordes van data en zijn daarom geschikter voor ordinale data of wanneer data afwijken van normaliteit. |
| Intervalniveau | Een meetschaal waarbij de afstanden tussen opeenvolgende waarden gelijk zijn en er geen absoluut nulpunt is. Voorbeelden zijn temperatuur in graden Celsius of Fahrenheit. |
| Normaalverdeling | Een symmetrische, klokvormige kansverdeling waarbij de meeste waarden zich rond het gemiddelde bevinden. Veel parametrische statistische methoden veronderstellen dat data uit een normaalverdeling afkomstig zijn. |
| Robuust | Een statistische methode die relatief ongevoelig is voor schendingen van de aannames, zoals afwijkingen van normaliteit of de aanwezigheid van uitschieters. |
| Uitschieters | Waarden in een dataset die significant afwijken van de meeste andere waarden en potentieel de resultaten van statistische analyses kunnen beïnvloeden. |
| Transformatie van data | Een wiskundige bewerking toegepast op variabelen om de verdeling ervan te wijzigen, bijvoorbeeld om normaliteit te benaderen of de variantie te stabiliseren. Voorbeelden zijn logaritmen of worteltrekken. |
| Bootstrap methoden | Een resamplingtechniek waarbij herhaaldelijk willekeurig steekproeven met teruglegging worden getrokken uit de originele dataset om de steekproevenverdeling van een statistiek te schatten. |
| Rangorde | De ordening van waarnemingen van laag naar hoog (of omgekeerd) op basis van hun waarde. Niet-parametrische toetsen maken vaak gebruik van deze rangordes in plaats van de oorspronkelijke meetwaarden. |
| Centrum van de populatie | Een maat die het typische of centrale niveau van een dataset aangeeft. Voor normaalverdelingen is dit het gemiddelde, voor scheve verdelingen kan dit de mediaan zijn. |
| Mediaan | De middelste waarde in een geordende dataset. De helft van de waarden ligt boven de mediaan en de helft ligt eronder. |
| Wilcoxon rangtekentoets (Signed Rank Test) | Een niet-parametrische toets voor gekoppelde (afhankelijke) steekproeven die de grootte en richting van verschillen tussen paren analyseert, gebaseerd op rangordes van deze verschillen. |
| Gekoppelde steekproeven | Steekproeven waarbij de waarnemingen aan elkaar gerelateerd zijn, bijvoorbeeld door herhaalde metingen bij dezelfde personen of door matching van proefpersonen op bepaalde kenmerken. |
|onderscheidingsvermogen | Het vermogen van een statistische toets om een echt effect of verschil te detecteren wanneer dit aanwezig is (het vermogen om de nulhypothese te verwerpen wanneer deze onjuist is). |
| Toetsingsgrootheid | De waarde berekend uit de steekproefgegevens die wordt gebruikt om de nulhypothese te toetsen. De waarde wordt vergeleken met een kritieke waarde of een overschrijdingskans. |
| Kritieke waarde | Een drempelwaarde in een steekproevenverdeling die wordt gebruikt om te beslissen of de nulhypothese wordt verworpen. |
| Overschrijdingskans (p-waarde) | De kans om een teststatistiek te verkrijgen die extreem is, gegeven dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot verwerping van de nulhypothese. |
| Wilcoxon rangsomtest (Rank Sum Test) | Een niet-parametrische toets voor twee onafhankelijke steekproeven, ook bekend als de Mann-Whitney U-test. Het vergelijkt de centrale tendens van twee groepen op basis van de rangordes van alle waarnemingen. |
| Onafhankelijke steekproeven | Steekproeven waarbij de waarnemingen in de ene steekproef geen invloed hebben op de waarnemingen in de andere steekproef. |
| Rangtransformatie | Het vervangen van de oorspronkelijke meetwaarden door hun rangordes in een geordende lijst van alle waarnemingen. |
| Kruskal-Wallis test | Een niet-parametrische rangordetoets die dient als een alternatief voor de eenweg ANOVA. Het wordt gebruikt om drie of meer onafhankelijke groepen te vergelijken. |
| ANOVA (Analysis of Variance) | Een statistische toets die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. De standaard ANOVA vereist normaliteit en gelijke varianties van de groepen. |
| Omnibus test | Een statistische toets die als eerste wordt uitgevoerd om te bepalen of er überhaupt significante verschillen zijn tussen de groepen die worden vergeleken, voordat specifieke pairwise vergelijkingen worden uitgevoerd. |
| Chi-kwadraat statistiek | Een statistische maat die wordt gebruikt in chi-kwadraat toetsen om het verschil tussen waargenomen en verwachte frequenties te evalueren. Vaak gebruikt in omnibus tests. |
| Geknoopte paren (ties) | Situaties in data-analyse waarbij meerdere waarnemingen dezelfde waarde hebben, wat van invloed kan zijn op de berekening van statistische toetsen, met name rangordetoetsen. |
| Continuïteitscorrectie | Een aanpassing die wordt toegepast bij het benaderen van een discrete verdeling met een continue verdeling (zoals het benaderen van de binomiale verdeling met de normale verdeling). Het helpt de nauwkeurigheid te verbeteren. |