Cover
Börja nu gratis STA3set4Hfst15NietParametrisch.pptx
Summary
# Introductie tot niet-parametrische toetsen
Hier is een samenvatting van het onderwerp "Introductie tot niet-parametrische toetsen", opgesteld als een studiehandleiding.
## 1. Introductie tot niet-parametrische toetsen
Niet-parametrische toetsen bieden een waardevol alternatief voor parametrische toetsen wanneer data niet normaal verdeeld zijn of gemeten zijn op ordinaal niveau, en stellen minder strenge eisen aan de datakwaliteit.
### 1.1 De noodzaak van niet-parametrische toetsen
Parametrische toetsen, zoals de t-toets en ANOVA, vereisen vaak dat de data normaal verdeeld zijn in de populatie en op intervalniveau gemeten zijn. Hoewel veel methoden robuust zijn voor lichte afwijkingen van normaliteit, zijn niet-parametrische methoden geschikter wanneer deze aannames duidelijk geschonden worden.
* **Beperkingen van parametrische toetsen:**
* Vereisen normaliteit van de data.
* Vereisen interval- of rationiveau metingen.
* **Voordelen van niet-parametrische toetsen:**
* Minder strenge aannames over de datadistributie.
* Geschikt voor ordinale data.
* Robuuster tegen uitschieters en scheve verdelingen.
#### 1.1.1 Alternatieven voor niet-normaal verdeelde data
Wanneer data niet normaal verdeeld zijn, kunnen verschillende strategieën worden overwogen:
* **Data transformatie:** Logaritmische of andere transformaties kunnen helpen om de data meer normaal te verdelen, vooral bij rechtsscheve data.
* **Alternatieve theoretische verdelingen:** Gebruik maken van toetsen gebaseerd op andere bekende verdelingen.
* **Bootstrap methoden:** Computerintensieve methoden die de aanname van normaliteit kunnen omzeilen.
* **Niet-parametrische methoden:** Bieden een eenvoudig en waardevol alternatief, gebaseerd op de rangorde van de data.
> **Tip:** Niet-parametrische toetsen zijn vaak gebaseerd op het centrum van de populatie (zoals de mediaan) in plaats van het gemiddelde, wat ze geschikter maakt voor scheve verdelingen.
#### 1.1.2 Overzicht van niet-parametrische toetsen
Dit studieonderdeel focust op de volgende belangrijke niet-parametrische toetsen:
* Wilcoxon Rank Sum Test (ook bekend als Mann-Whitney U-test)
* Wilcoxon Signed Rank Test
* Kruskal-Wallis Test
Deze toetsen vervangen respectievelijk de t-toets en ANOVA wanneer de aanname van normaliteit niet voldaan is.
### 1.2 Wilcoxon signed rank test (rangtekentoets)
De Wilcoxon signed rank test wordt gebruikt voor afhankelijke (gepaarde of gekoppelde) steekproeven. In tegenstelling tot de eenvoudige tekentoets, die alleen de richting van het verschil in een paar beschouwt, houdt deze toets ook rekening met de *grootte* van het verschil, wat leidt tot een hoger onderscheidingsvermogen.
* **Toepasbaar op:**
* Within-subjects (herhaalde metingen) designs.
* Onderzoek met gematchte paren ("matched subjects").
#### 1.2.1 Procedure van de Wilcoxon signed rank test
1. **Bereken de verschillen:** Bepaal de verschillen tussen de responsen binnen elk paar.
2. **Rangschik de absolute verschillen:** Orden de absolute waarden van deze verschillen van klein naar groot.
3. **Sommeer de rangen:** W+ is de som van de rangen van de positieve verschillen, en W- is de som van de rangen van de negatieve verschillen.
4. **Bepaal de toetsingsgrootheid:** De toetsingsgrootheid $V$ is het minimum van $W+$ en $W-$.
$$V = \min(W^+, W^-)$$
5. **Hypothesetesten:** De nulhypothese (H0) stelt dat er geen systematische verschillen zijn tussen de paren. De hypothese wordt verworpen als $V$ significant verschilt van zijn verwachte waarde.
#### 1.2.2 Toetsingsgrootheid en interpretatie
* Voor grote steekproeven ($n \ge 10$) kan een normaalbenadering worden gebruikt om de overschrijdingskans te bepalen.
* De toetsingsgrootheid $V$ wordt vergeleken met een kritische waarde uit tabellen om de significantie te beoordelen.
* In softwarepakketten zoals SPSS wordt de toetsingsgrootheid vaak als $W^-$ of $W^+$ gerapporteerd, afhankelijk van de implementatie. In R wordt de toetsingsgrootheid $V$ gerapporteerd.
> **Voorbeeld:** Een onderzoeker wil weten of een filmpje van een spin angst kan opwekken. De hartslag van deelnemers wordt voor en na het zien van het filmpje gemeten. De Wilcoxon signed rank test kan dan gebruikt worden om te bepalen of er een significant verschil is in hartslag. Als meer deelnemers een verhoogde hartslag vertonen na het filmpje, wordt dit meegenomen in de analyse van de rangordes van de verschillen.
* **Onderscheidingsvermogen:** De Wilcoxon signed rank test heeft een beter onderscheidingsvermogen dan de "gewone" tekentoets omdat het rekening houdt met de grootte van de verschillen.
* **Continuïteitscorrectie:** Bij het gebruik van de normaalbenadering voor grote steekproeven wordt vaak een continuïteitscorrectie toegepast, wat statistische software doorgaans automatisch doet.
### 1.3 Wilcoxon Rank Sum Test (Mann-Whitney U-test)
De Wilcoxon Rank Sum Test, ook wel de Mann-Whitney U-test genoemd, is een krachtige niet-parametrische toets voor het vergelijken van twee onafhankelijke verdelingen.
* **Uitgangspunt:** Deze toets vergelijkt de posities (rangordes) van de waarnemingen uit beide groepen wanneer deze samen in één geordende lijst worden geplaatst.
* **Rangtransformatie:** De oorspronkelijke meetwaarden worden vervangen door hun rangorde (positie in de geordende lijst). Dit betekent dat een deel van de informatie verloren gaat, maar de toets wordt robuuster.
#### 1.3.1 Procedure van de Wilcoxon Rank Sum Test
1. **Combineer en rangschik:** Combineer de data van beide groepen en rangschik alle waarnemingen van klein naar groot. De rangorde van elke waarneming wordt vastgelegd.
2. **Bereken rangsommen:** Bereken de som van de rangordes voor elke groep afzonderlijk ($W_X$ en $W_Y$).
3. **Gecorrigeerde rangsommen:** Een "gecorrigeerde rangsom" ($W_{corr}$) wordt berekend door de minimale rangsom voor de groep af te trekken van de gewone rangsom.
$$W_{corr} = \text{rangsom} - \text{minimale rangsom}$$
4. **Bepaal de toetsingsgrootheid:** De toetsingsgrootheid kan $W$ (de gewone rangsom) of $W_{corr}$ (de gecorrigeerde rangsom) zijn. In de literatuur wordt de $W_{corr}$ vaak aangeduid als de $U$-statistiek in de context van de Mann-Whitney U-test.
$$W_{corr} = \min(W_X, W_Y)$$
5. **Hypothesetesten:** De nulhypothese (H0) stelt dat de medianen van de twee groepen gelijk zijn of dat de ene groep niet systematisch hogere scores heeft dan de andere. H0 wordt verworpen als de toetsingsgrootheid significant afwijkt van zijn verwachte waarde.
> **Tip:** Er zijn verschillende definities van de toetsingsgrootheid $W$ in de literatuur. Het is cruciaal om te vermelden welke definitie (gewone rangsom of gecorrigeerde rangsom) is gebruikt, of om de toets als een Mann-Whitney U-test te rapporteren waarbij de gecorrigeerde rangsom $W_{corr}$ als $U$ wordt aangeduid.
#### 1.3.2 Interpretatie en toepassingen
* **Hypothesen:** Vaak wordt H0 geformuleerd als $P[X \ge Y] = 1/2$, wat equivalent is aan $mediaan(X) \ge mediaan(Y)$.
* **Grote steekproeven:** Voor grotere steekproeven ($n_1$ en $n_2 \ge 10$) kan de gecorrigeerde rangsom ($W_{corr}$ of $U$) bij benadering normaal verdeeld worden verondersteld met een specifiek gemiddelde en standaardfout.
* Gemiddelde van $W_{corr}$ (of $U$): $$\mu_U = \frac{n_1 n_2}{2}$$
* Standaardfout van $W_{corr}$ (of $U$) bij afwezigheid van gelijke scores: $$\sigma_U = \sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}}$$
* Wanneer er gelijke scores ("ties") zijn, is er een meer complexe formule voor de standaardfout.
* **Software:** Statistische software zoals R en SPSS berekent deze toetsen en biedt opties voor exacte toetsen of benaderingen, inclusief continuïteitscorrecties.
> **Voorbeeld:** Onderzoekers vergelijken de motivatiescores van twee groepen: deelnemers die zelf een onderwerp mochten kiezen versus deelnemers die een onderwerp opgelegd kregen. De Wilcoxon Rank Sum Test (Mann-Whitney U-test) wordt gebruikt om te bepalen of de motivatiescores significant verschillen tussen de groepen. Als de gecorrigeerde rangsom $U$ laag is, suggereert dit dat de scores in de ene groep systematisch hoger zijn dan in de andere.
#### 1.3.3 Eigenschappen van de Wilcoxon-Mann-Whitney test
* **Onderscheidingsvermogen:** Een van de niet-parametrische toetsen met het hoogste onderscheidingsvermogen. Zelfs wanneer toegepast op data die geschikt zouden zijn voor een t-toets, bereikt deze toets ongeveer 95% van het onderscheidingsvermogen van de t-toets.
* **Geschiktheid:** Biedt een zeer goed alternatief bij twijfel over de aannames van parametrische toetsen.
* **"Ties":** Bij gelijke scores ("ties") zijn de standaardformules voor de benadering minder nauwkeurig. Softwarepakketten bieden hier vaak correcties voor.
### 1.4 Kruskal-Wallis Test
De Kruskal-Wallis test is een niet-parametrische rangorde toets die dient als alternatief voor de eenweg ANOVA F-toets.
* **Procedure:** Alle waarnemingen van alle groepen worden gecombineerd en gerangschikt. Vervolgens wordt een eenweg ANOVA toegepast op de rangordes in plaats van op de oorspronkelijke meetwaarden.
* **Doel:** De test wordt gebruikt om na te gaan of er significante verschillen zijn tussen de medianen van drie of meer onafhankelijke groepen.
> **Tip:** Wanneer u meer dan twee groepen met elkaar wilt vergelijken en de aannames van ANOVA niet voldaan zijn, is de Kruskal-Wallis test een geschikte keuze. Het biedt een "omnibus" test die aangeeft of er ergens een significant verschil is tussen de groepen, waarna eventuele follow-up analyses nodig zijn om specifieke groepsverschillen te identificeren.
---
# Wilcoxon rangtekentoets voor gekoppelde steekproeven
De Wilcoxon rangtekentoets is een niet-parametrische methode om systematische verschillen te detecteren tussen twee afhankelijke (gekoppelde) metingen.
### 2.1 Toepassingsgebied
Deze toets is geschikt voor situaties waarin metingen gekoppeld zijn. Dit kan voorkomen bij:
* **Within-subjects (herhaalde metingen) onderzoek:** Dezelfde proefpersonen worden tweemaal gemeten, bijvoorbeeld voor en na een interventie.
* **Onderzoek met gematchte paren (matched subjects):** Proefpersonen worden op basis van relevante kenmerken aan elkaar gekoppeld.
De toets houdt rekening met zowel de richting als de grootte van de verschillen binnen de paren, wat resulteert in een groter onderscheidingsvermogen dan de eenvoudigere tekentoets.
### 2.2 Berekening van de toetsingsgrootheid
Bij de Wilcoxon rangtekentoets worden de volgende stappen doorlopen:
1. **Bepaal de verschillen:** Bereken het verschil tussen de twee metingen voor elk paar.
2. **Orden de absolute verschillen:** Rangschik de absolute waarden van deze verschillen van klein naar groot.
3. **Ken rangen toe:** Ken aan elk geordend absoluut verschil een rang toe.
4. **Splits de rangen:** Verdeel de rangen opnieuw op basis van de oorspronkelijke richting van de verschillen (positieve versus negatieve verschillen).
5. **Bereken de sommen van de rangen:**
* $W^+$: De som van de rangen van de positieve verschillen.
* $W^-$: De som van de rangen van de negatieve verschillen.
De toetsingsgrootheid, aangeduid als $V$, wordt berekend als het minimum van deze twee sommen:
$$V = \min(W^+, W^-)$$
**Tip:** Sommige literatuur en softwarepakketten gebruiken enkel $W^+$ als toetsingsgrootheid, met name wanneer de normaalbenadering wordt toegepast. Voor exacte toetsen met behulp van tabellen is het cruciaal om het minimum van $W^+$ en $W^-$ te gebruiken, omdat alleen die waarde in de beschikbare tabellen wordt vermeld.
**Vergelijking met de tekentoets:** In tegenstelling tot de gewone tekentoets, die enkel kijkt naar de richting van het verschil, neemt de Wilcoxon rangtekentoets de grootte van het verschil mee in de analyse door middel van de rangen van de absolute verschillen.
**Aantal ongelijke paren:** De toets wordt uitgevoerd op basis van de paren waarin daadwerkelijk een verschil is geobserveerd. Dit aantal wordt vaak aangeduid met $N^*$. Paren met een verschil van nul worden dus niet meegenomen in de rangorde en de berekeningen van $W^+$ en $W^-$.
### 2.3 Interpretatie van de resultaten
De nulhypothese ($H_0$) stelt dat er geen systematische verschillen zijn tussen de twee metingen binnen de paren. De alternatieve hypothese ($H_1$) stelt dat er wel systematische verschillen zijn.
De nulhypothese wordt verworpen als de toetsingsgrootheid $V$ significant afwijkt van de verwachte waarde onder de nulhypothese. Dit gebeurt wanneer $V$ kleiner is dan een kritische waarde uit een binomiale tabel (voor kleine steekproeven) of wanneer een berekende $p$-waarde kleiner is dan het significantieniveau (vaak $\alpha = 0.05$).
#### 2.3.1 Benaderingsmethode voor grote steekproeven
Voor grotere steekproeven (typisch $n \geq 10$, waarbij $n$ het aantal ongelijke paren voorstelt) kan de verdeling van $V$ bij benadering normaal verdeeld worden beschouwd. In dergelijke gevallen kan de overschrijdingskans worden berekend met behulp van de z-verdeling.
#### 2.3.2 Voorbeeld: Hartslag voor en na een interventie
Stel dat de hartslagen voor (Hv) en na (Hn) het zien van een spin als volgt zijn gemeten bij 16 proefpersonen:
Hv = [75, 62, 80, 69, 72, 72, 76, 64, 70, 73, 68, 68, 72, 70, 68, 67]
Hn = [75, 63, 79, 67, 75, 75, 73, 67, 75, 78, 73, 73, 78, 78, 80, 79]
1. **Verschillen (Hn - Hv):**
[0, 1, -1, -2, 3, 3, -3, 3, 5, 5, 5, 5, 6, 8, 12, 12]
2. **Absolute verschillen (uitgezonderd 0):**
[1, 1, 2, 3, 3, 3, 3, 5, 5, 5, 5, 6, 8, 12, 12]
(Er zijn 15 paren met een verschil, $N^* = 15$)
3. **Rangschikking van absolute verschillen:**
* 1 (rang 1, 2)
* 2 (rang 3)
* 3 (rang 4, 5, 6, 7)
* 5 (rang 8, 9, 10, 11)
* 6 (rang 12)
* 8 (rang 13)
* 12 (rang 14, 15)
4. **Toewijzing van rangen aan oorspronkelijke verschillen:**
* Positieve verschillen: [3, 3, 3, 3, 5, 5, 5, 5, 6, 8, 12, 12]
* Negatieve verschillen: [-1, -2, -3]
5. **Sommen van de rangen:**
* De rangen voor de positieve verschillen (3, 3, 3, 3, 5, 5, 5, 5, 6, 8, 12, 12) zijn:
* Voor de drieën: rangen 4, 5, 6, 7
* Voor de vijven: rangen 8, 9, 10, 11
* Voor de zessen: rang 12
* Voor de achten: rang 13
* Voor de twaalven: rangen 14, 15
$W^+ = (4+5+6+7) + (8+9+10+11) + 12 + 13 + (14+15) = 22 + 38 + 12 + 13 + 29 = 114$
* De rangen voor de negatieve verschillen (-1, -2, -3) zijn:
* Voor de -1: rang 1
* Voor de -2: rang 3
* Voor de -3: rang 4
$W^- = 1 + 3 + 4 = 8$
6. **Toetsingsgrootheid:**
$V = \min(W^+, W^-) = \min(114, 8) = 8$
**Interpretatie van het voorbeeld:**
Met $V = 8$ en een relatief klein aantal ongelijke paren, zou men de $p$-waarde opzoeken in een binomiale tabel. Als deze $p$-waarde lager is dan het gekozen significantieniveau, wordt de nulhypothese verworpen en concludeert men dat er een significant verschil is in hartslag vóór en na het zien van de spin. Als de $p$-waarde bijvoorbeeld kleiner is dan 0.005, kan geconcludeerd worden dat een meerderheid van de deelnemers een verhoogde hartslag vertoonde na het tonen van een spin.
**Tip:** Verschillende statistische softwarepakketten, zoals R, bieden functies om deze toets direct uit te voeren. Rapporteer altijd de gebruikte software en de specifieke functie of commando dat is gebruikt. Bijvoorbeeld, de R-output voor de hartslagdata toont een $p$-waarde van 0.004743, wat significant is op het $\alpha=0.05$ niveau.
#### 2.3.3 Belangrijkheid van de continuïteitscorrectie
Bij het benaderen van de verdeling met een normaalverdeling, wordt doorgaans een continuïteitscorrectie toegepast om de discrete aard van de rangen te compenseren. De meeste statistische softwarepakketten passen deze correctie automatisch toe wanneer de normaalbenadering wordt gebruikt.
> **Tip:** Controleer altijd de documentatie van de gebruikte software om te zien of een continuïteitscorrectie is toegepast en vermeld dit expliciet in uw rapportage indien relevant.
### 2.4 Vergelijking met de Mann-Whitney U-test
Het is belangrijk de Wilcoxon rangtekentoets voor gekoppelde steekproeven niet te verwarren met de Wilcoxon rangsomtoets (ook bekend als de Mann-Whitney U-test), die wordt gebruikt voor **onafhankelijke** steekproeven. Beide toetsen zijn niet-parametrisch en gebaseerd op rangscores, maar ze zijn bedoeld voor verschillende onderzoeksdesigns.
---
# Wilcoxon rangsomtoets voor onafhankelijke steekproeven (Mann-Whitney U-test)
De Wilcoxon rangsomtoets, ook bekend als de Mann-Whitney U-test, is een niet-parametrische toets die gebruikt wordt om twee onafhankelijke verdelingen te vergelijken.
### 3.1 Inleiding tot de Wilcoxon rangsomtoets
* **Doel:** Het vergelijken van de verdelingen van twee onafhankelijke groepen. Dit is een niet-parametrisch alternatief voor de t-toets voor onafhankelijke steekproeven, vooral wanneer de data niet normaal verdeeld zijn of wanneer de data van ordinaal niveau zijn.
* **Uitgangspunt:** De toets vergelijkt de posities van de waarnemingen van beide groepen in een geordende lijst van alle waarnemingen.
### 3.2 Rangtransformatie
* **Concept:** De oorspronkelijke meetwaarden worden vervangen door hun rangorde. De waarneming met de kleinste meetwaarde krijgt rang 1, de volgende rang 2, enzovoort.
* **Proces:**
1. Combineer alle waarnemingen van beide groepen.
2. Orden de gecombineerde waarnemingen van klein naar groot.
3. Ken aan elke waarneming haar rangnummer toe.
* **Gevolg:** Een deel van de informatie gaat verloren, omdat de exacte numerieke waarden worden vervangen door hun positie in de ordening.
### 3.3 Hypotheses
De nulhypothese ($H_0$) stelt doorgaans dat de medianen van de twee populaties gelijk zijn, of dat de ene populatie niet systematisch hogere of lagere waarden heeft dan de andere. De alternatieve hypothese ($H_A$) stelt dat er wel een verschil is.
* **Voorbeeld Hypotheses:**
* $H_0$: mediaan($X$) = mediaan($Y$)
* $H_A$: mediaan($X$) $\neq$ mediaan($Y$) (tweezijdig)
* $H_0$: mediaan($X$) $\leq$ mediaan($Y$)
* $H_A$: mediaan($X$) $>$ mediaan($Y$) (eenzijdig)
> **Tip:** De Wilcoxon-Mann-Whitney test gaat uit van gelijke verdelingsvormen (maar niet noodzakelijk normaliteit). Als de verdelingen significant verschillen in vorm, kan de interpretatie van verschillen in medianen complex worden.
### 3.4 Berekening van de toetsingsgrootheid
Er zijn twee veelgebruikte definities voor de toetsingsgrootheid: de "gewone rangsom" (W) en de "gecorrigeerde rangsom" ($W_{corr}$, ook vaak aangeduid als U).
#### 3.4.1 Gewone rangsom (W)
* **Berekening:**
1. Bereken de som van de rangen voor groep X ($W_X$) en voor groep Y ($W_Y$).
2. De toetsingsgrootheid is het minimum van deze twee sommen: $W = \min(W_X, W_Y)$.
#### 3.4.2 Gecorrigeerde rangsom ($W_{corr}$ of U)
Deze berekening corrigeert de rangsom voor de grootte van de groep.
* **Berekening:**
1. Bereken de som van de rangen voor groep X ($W_X$) en voor groep Y ($W_Y$).
2. Bepaal de minimale mogelijke som van rangen voor de kleinste groep. Dit is de som van de eerste $n_{klein}$ rangnummers, waar $n_{klein}$ de grootte van de kleinste groep is.
$$ \text{Minimale rangsom} = \frac{n_{klein}(n_{klein} + 1)}{2} $$
3. De gecorrigeerde rangsom voor groep X is:
$$ W_{corr, X} = W_X - \frac{n_X(n_X + 1)}{2} $$
4. De gecorrigeerde rangsom voor groep Y is:
$$ W_{corr, Y} = W_Y - \frac{n_Y(n_Y + 1)}{2} $$
5. De toetsingsgrootheid $U$ is het minimum van deze gecorrigeerde sommen, of een alternatieve berekening die gelijk is aan het aantal paren waarbij een waarneming uit groep X een hogere rang heeft dan een waarneming uit groep Y. Vaak wordt $U$ gedefinieerd als $U = n_1 n_2 + \frac{n_1(n_1+1)}{2} - W_1$ (waarbij $W_1$ de rangsom van groep 1 is). Software rapporteert vaak de kleinere van de twee mogelijke U-waarden.
> **Opmerking:** De keuze tussen het rapporteren van W of U kan verwarrend zijn. Het is cruciaal om duidelijk te vermelden welke toetsingsgrootheid wordt gebruikt en hoe deze is berekend, of om aan te geven welke software gebruikt is. Veel statistische softwarepakketten rapporteren de $U$-waarde (gecorrigeerde rangsom) als toetsingsgrootheid.
#### 3.4.3 Geknoopte rangen (ties)
* **Probleem:** Wanneer er gelijke waarnemingswaarden zijn ("knopen" of "ties"), wordt de rangtoekenning ingewikkelder. Meestal worden de rangen gemiddeld voor de gebonden waarden.
* **Impact:** De standaardformules voor de variantie en de normaalbenadering zijn dan minder nauwkeurig. Statistische software past doorgaans correcties toe voor geknoopte rangen.
### 3.5 Interpretatie van de resultaten
* **Toetsingsgrootheid:** De berekende $W$ of $U$ waarde.
* **Overschrijdingskans (p-waarde):** Deze wordt bepaald met behulp van tabellen (voor kleine steekproeven) of via een normaalbenadering (voor grotere steekproeven).
* **Beslissing:**
* Als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$, meestal 0.05), wordt de nulhypothese verworpen. Dit suggereert een significant verschil tussen de twee verdelingen.
* Als de p-waarde groter is dan $\alpha$, wordt de nulhypothese niet verworpen. Er is onvoldoende bewijs voor een significant verschil.
### 3.6 Normaalbenadering voor grote steekproeven
Voor grote steekproeven (meestal $n_1 \geq 10$ en $n_2 \geq 10$) kan de verdeling van de toetsingsgrootheid benaderd worden door een normaalverdeling.
* **Toetsingsgrootheid $W_{corr}$ (U):**
* Gemiddelde: $E(U) = \frac{n_1 n_2}{2}$
* Standaarddeviatie: $SD(U) = \sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}}$
* De z-score wordt dan berekend als: $Z = \frac{U - E(U)}{SD(U)}$
* **Toetsingsgrootheid W (niet-gecorrigeerd):**
* Gemiddelde: $E(W) = \frac{N(N+1)}{4}$, waarbij $N = n_1 + n_2$.
* Standaarddeviatie: $SD(W) = \sqrt{\frac{n_1 n_2 (N+1)}{12}}$
* De z-score wordt dan berekend als: $Z = \frac{W - E(W)}{SD(W)}$
> **Let op:** Bij geknoopte rangen zijn de formules voor de standaarddeviatie complexer. Statistische software past deze correcties automatisch toe. Vaak wordt ook een continuïteitscorrectie toegepast in de normaalbenadering.
### 3.7 Eigenschappen en voordelen
* **Robuustheid:** Vereist geen normaliteit van de data.
* **Meetniveau:** Toepasbaar op ordinale data, maar ook op interval- en rationiveau indien niet aan de aannames van parametrische toetsen wordt voldaan.
* **Onderscheidingsvermogen:** Heeft een hoog onderscheidingsvermogen (ongeveer 95% van dat van de t-toets voor onafhankelijke steekproeven wanneer de data wel aan de aannames van de t-toets voldoen). Dit maakt het een goed alternatief bij twijfel.
* **Eenvoud:** Relatief eenvoudig te begrijpen en toe te passen, vooral met behulp van statistische software.
### 3.8 Vergelijking met andere toetsen
* **T-toets voor onafhankelijke steekproeven:** De Wilcoxon-Mann-Whitney test is het niet-parametrische equivalent wanneer de aannames voor de t-toets (normaliteit, gelijke varianties) geschonden zijn.
* **Wilcoxon tekentoets (signed rank test):** Deze toets wordt gebruikt voor **afhankelijke** steekproeven (gepaarde waarnemingen), terwijl de Mann-Whitney U-test voor **onafhankelijke** steekproeven is.
### 3.9 Rapporteren van resultaten
Wanneer de Wilcoxon-Mann-Whitney test wordt gerapporteerd, is het belangrijk om:
* Vermelden welke toets is gebruikt (bijv. Mann-Whitney U-test of Wilcoxon rangsomtoets).
* De waarde van de toetsingsgrootheid te vermelden (bijv. $U = 37$ of $W = 92$).
* De p-waarde te vermelden (bijv. $p = 0.06$).
* De richting van het verschil aan te geven, indien relevant (bijv. "groep A had significant hogere scores dan groep B").
* Expliciet te vermelden indien een gecorrigeerde rangsom ($W_{corr}$ of $U$) is gebruikt.
> **Voorbeeld rapportage:**
> "Deelnemers die zelf een onderwerp kozen hadden hogere motivatiescores dan deelnemers die een onderwerp opgelegd kregen, echter, dit verschil is niet significant (Mann-Whitney test: $U = 37$, $p = 0.06$)."
> OF
> "Deelnemers die zelf een onderwerp hadden gekozen bleken niet significant meer gemotiveerd dan deelnemers met een opgelegd onderwerp (Wilcoxon test zonder correctie: $W = 92$, $p = 0.06$)."
---
# Kruskal-Wallis toets
De Kruskal-Wallis toets is een niet-parametrische rangorde toets die dient als alternatief voor de eenweg ANOVA F-toets, en wordt gebruikt om meer dan twee onafhankelijke groepen te vergelijken.
### 4.1 Inleiding en concept
* **Doel:** Vergelijken van het centrum van de verdelingen van meer dan twee onafhankelijke groepen, met name wanneer de aanname van normaliteit voor de ANOVA niet voldaan is.
* **Basisprincipe:** De toets is gebaseerd op de rangorde van alle waarnemingen uit alle groepen samen, in plaats van op de oorspronkelijke meetwaarden. Dit betekent dat de data eerst globaal worden geordend, waarna de rangen worden geanalyseerd.
* **Alternatief voor ANOVA:** De Kruskal-Wallis toets is een niet-parametrisch alternatief voor de parametrische ANOVA F-toets.
* **Assumpties:**
* De afhankelijke variabele is ordinaal gemeten of continu en voldoet niet aan de normaliteitsaanname van de ANOVA.
* De observaties binnen elke groep zijn onafhankelijk.
* De groepen zijn onafhankelijk.
* De vorm van de verdeling is voor elke groep gelijk (dit is een sterkere aanname die nodig is om te concluderen over medianen). Indien deze aanname niet geldt, test de toets dan of de rangordes significant verschillen tussen de groepen.
### 4.2 Procedure
1. **Rangschikken van alle data:** Alle waarnemingen uit alle te vergelijken groepen worden samengevoegd en van klein naar groot gerangschikt. De laagste waarde krijgt rang 1, de volgende rang 2, enzovoort. Bij gelijke waarden (ties) worden gemiddelde rangen toegekend.
2. **Berekenen van de rangsom per groep:** Voor elke groep wordt de som van de rangen van de waarnemingen die tot die groep behoren, berekend.
3. **Toetsingsgrootheid berekenen:** De Kruskal-Wallis toetsingsgrootheid, $H$, wordt berekend op basis van de rangsommen en de groepsgroottes.
De formule voor de Kruskal-Wallis toetsingsgrootheid $H$ is:
$$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1)$$
Waar:
* $N$ = het totale aantal waarnemingen over alle groepen ($N = \sum_{i=1}^{k} n_i$).
* $k$ = het aantal groepen.
* $n_i$ = het aantal waarnemingen in groep $i$.
* $R_i$ = de som van de rangen in groep $i$.
Een alternatieve formule, vooral nuttig bij de berekening, is:
$$H = \frac{1}{2} \left( \frac{\sum_{i=1}^{k} \frac{R_i^2}{n_i}}{\sum_{j=1}^{N} j^2 / N} - 3(N+1) \right)$$
of simpelweg, met correctie voor ties:
$$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1)$$
Er bestaat ook een aangepaste formule om te corrigeren voor het voorkomen van gelijke waarden (ties):
$$H_{corr} = \frac{H}{1 - \frac{\sum_{j=1}^{m} (t_j^3 - t_j)}{N^3 - N}}$$
Waar:
* $m$ = het aantal sets van gelijke waarden.
* $t_j$ = het aantal waarnemingen in de $j$-de set van gelijke waarden.
4. **Beslissing:**
* Voor kleine steekproeven wordt de exacte kansverdeling van $H$ gebruikt of worden kritische waarden uit tabellen opgezocht.
* Voor grotere steekproeven (algemeen $N > 20$) kan de toetsingsgrootheid $H$ bij benadering worden getoetst met een $\chi^2$-verdeling met $k-1$ vrijheidsgraden. De nulhypothese wordt verworpen als de berekende $H$ groter is dan de kritische $\chi^2$-waarde voor een bepaald significantieniveau $\alpha$.
### 4.3 Hypothesen
* **Nulhypothese ($H_0$):** De verdelingen van de afhankelijke variabele zijn voor alle $k$ groepen identiek. Dit betekent dat de medianen (of andere centrummaten) van de groepen gelijk zijn.
$$H_0: \text{mediaan}_1 = \text{mediaan}_2 = \dots = \text{mediaan}_k$$
* **Alternatieve hypothese ($H_a$):** Ten minste één van de groepverdelingen verschilt van de andere.
$$H_a: \text{niet alle medianen zijn gelijk}$$
### 4.4 Interpretatie en follow-up
* **Globale toets:** De Kruskal-Wallis toets is een "omnibus test" die aangeeft óf er een significant verschil is tussen de groepen, maar niet welke groepen specifiek van elkaar verschillen.
* **Follow-up testen:** Indien de nulhypothese wordt verworpen (dus als er een significant verschil is gevonden), is een follow-up analyse nodig om te bepalen welke groepen significant van elkaar verschillen. Dit wordt doorgaans gedaan met gepaarde vergelijkingen (bijvoorbeeld Mann-Whitney U-toetsen) tussen de groepen, waarbij de significantieniveaus moeten worden gecorrigeerd om het probleem van meervoudige vergelijkingen te beheersen (bijvoorbeeld Bonferroni-correctie).
> **Tip:** Wanneer je post-hoc testen uitvoert na een Kruskal-Wallis toets, is het belangrijk om de significantieniveaus aan te passen om het risico op Type I fouten te verminderen. De Bonferroni-correctie, waarbij het oorspronkelijke significantieniveau $\alpha$ wordt gedeeld door het aantal uitgevoerde vergelijkingen, is een veelgebruikte methode.
### 4.5 Voorbeeld
Stel dat we de effectiviteit van drie verschillende trainingsmethoden willen vergelijken op de prestaties van atleten. De prestatiescores worden verzameld voor drie groepen atleten, elk getraind met een andere methode. Aangezien de prestatiescores niet normaal verdeeld blijken te zijn, wordt de Kruskal-Wallis toets gebruikt.
1. **Data:**
* Groep 1 (Methode A): Scores 75, 62, 80, 69
* Groep 2 (Methode B): Scores 75, 63, 79, 67
* Groep 3 (Methode C): Scores 73, 67, 75, 78, 73, 73, 78, 78, 80, 79
2. **Rangschikken:** Alle 17 scores worden samengevoegd en gerangschikt.
* 62 (rang 1), 63 (rang 2), 67 (rang 3), 67 (rang 4), 69 (rang 5), 73 (rang 6), 73 (rang 7), 73 (rang 8), 75 (rang 9), 75 (rang 10), 75 (rang 11), 78 (rang 12), 78 (rang 13), 78 (rang 14), 79 (rang 15), 79 (rang 16), 80 (rang 17), 80 (rang 18).
* Er zijn ties: vier keer 67, drie keer 73, drie keer 75, drie keer 78, twee keer 79, twee keer 80. De gemiddelde rangen voor de tied scores worden berekend. Bijvoorbeeld, de scores 67 krijgen de gemiddelde rang van (3+4)/2 = 3.5.
3. **Rangsommen per groep:** Na het toekennen van de gemiddelde rangen, worden de rangsommen per groep berekend.
* Groep 1 ($n_1=4$): Rangsom $R_1$
* Groep 2 ($n_2=4$): Rangsom $R_2$
* Groep 3 ($n_3=10$): Rangsom $R_3$
4. **Berekenen H:** De toetsingsgrootheid $H$ wordt berekend met de formule.
5. **Beslissing:** De waarde van $H$ wordt vergeleken met de kritische waarde uit de $\chi^2$-verdeling met $k-1 = 3-1 = 2$ vrijheidsgraden, of een exacte p-waarde wordt bepaald. Als de p-waarde kleiner is dan het gekozen significantieniveau (bijvoorbeeld 0.05), wordt de nulhypothese verworpen.
### 4.6 Voordelen en nadelen
* **Voordelen:**
* Vereist minder strikte aannames dan parametrische toetsen (zoals normaliteit).
* Geschikt voor ordinale data.
* Robuust tegen uitschieters.
* Een van de niet-parametrische toetsen met het hoogste onderscheidingsvermogen; zelfs op intervalniveau data die geschikt zouden zijn voor een t-toets, presteert de Kruskal-Wallis toets ongeveer 95% van het onderscheidingsvermogen van de ANOVA.
* **Nadelen:**
* Minder onderscheidingsvermogen dan parametrische toetsen wanneer de aannames van de parametrische toetsen wél voldaan zijn.
* Geeft geen informatie over de effectgrootte op de oorspronkelijke schaal, alleen over de rangordes.
* Bij veel ties worden de formules complexer en kan statistische software nodig zijn voor nauwkeurige resultaten.
### 4.7 Relatie met andere toetsen
* **ANOVA F-toets:** De Kruskal-Wallis toets is het niet-parametrische equivalent van de eenweg ANOVA F-toets.
* **Mann-Whitney U-toets (Wilcoxon Rank Sum Test):** Dit is het niet-parametrische equivalent van de onafhankelijke t-toets voor twee groepen. De Kruskal-Wallis toets kan worden gezien als een uitbreiding van de Mann-Whitney U-toets naar meer dan twee groepen. Als er slechts twee groepen zijn, is de Kruskal-Wallis toets equivalent aan de Mann-Whitney U-toets.
* **Wilcoxon Signed Rank Test:** Dit is het niet-parametrische equivalent van de gepaarde t-toets en wordt gebruikt voor afhankelijke steekproeven. De Kruskal-Wallis toets wordt daarentegen gebruikt voor onafhankelijke steekproeven.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-parametrische toetsen | Statistische methoden die minder strikte eisen stellen aan de datakwaliteit, met name met betrekking tot de veronderstelde verdeling van de populatie, zoals normaliteit. Ze zijn vaak gebaseerd op rangordes van data. |
| Intervalniveau | Een meetschaal waarbij de verschillen tussen waarden betekenisvol zijn en de nulpunten arbitrair zijn. Hierdoor kan men de relatieve verschillen tussen metingen uitdrukken, maar geen absolute verhoudingen. |
| Populatie | De volledige groep individuen, objecten of gebeurtenissen waarover men een conclusie wil trekken in een statistisch onderzoek. |
| Normaal verdeeld | Een symmetrische, klokvormige verdeling van data waarbij de meeste waarnemingen rond het gemiddelde liggen en de frequentie afneemt naarmate men verder van het gemiddelde verwijderd is. |
| Robuust (statistieken) | Statistieken die ongevoelig zijn voor uitschieters of afwijkingen van de normale verdeling. Ze blijven relatief stabiel, zelfs bij niet-ideale data. |
| Uitschieters | Waarnemingen die significant afwijken van de rest van de data in een dataset. Ze kunnen een grote invloed hebben op statistische berekeningen en resultaten. |
| Transformatie van data | Wiskundige bewerkingen die worden toegepast op ruwe data om de verdeling ervan te veranderen, bijvoorbeeld om scheefheid te corrigeren of aan de assumpties van een statistische test te voldoen. |
| Logaritme nemen | Een wiskundige transformatie die vaak wordt toegepast op rechts-scheve data om de verdeling symmetrischer te maken en de variantie te stabiliseren. |
| Bootstrap methoden | Computerintensieve statistische methoden die herhaaldelijk samples trekken uit de bestaande data om de onzekerheid in schattingen te bepalen en betrouwbaarheidsintervallen te construeren, zonder sterke aannames over de populatieverdeling. |
| Psychologische meetinstrumenten | Instrumenten, zoals vragenlijsten of tests, die worden gebruikt om psychologische constructen te meten. Vaak meten deze op ordinaal niveau in plaats van intervalniveau. |
| Onderscheidingsvermogen (statistieken) | De capaciteit van een statistische test om een werkelijk bestaand effect of verschil tussen groepen te detecteren (ook wel power genoemd). |
| Rangorde | De volgorde van data op basis van hun relatieve grootte, waarbij elke waarde een rangnummer krijgt toegewezen. |
| Effectgrootte | Een maat voor de omvang van een effect of verschil tussen groepen, onafhankelijk van de steekproefgrootte. |
| Wilcoxon Rangsom Test (Mann-Whitney U-test) | Een niet-parametrische toets voor twee onafhankelijke steekproeven die de medianen van twee groepen vergelijkt door de rangordes van de data te gebruiken. |
| Wilcoxon Rangtekentoets (Signed Rank Test) | Een niet-parametrische toets voor twee afhankelijke (gepaarde) steekproeven die de medianen van de verschillen binnen paren analyseert op basis van rangordes. |
| Gepaarde data | Data waarbij metingen afkomstig zijn van dezelfde eenheden onder verschillende condities, of van matchende eenheden, waardoor er een natuurlijke koppeling ontstaat tussen de metingen. |
| Toetsingsgrootheid | Een waarde berekend uit steekproefdata die wordt gebruikt om de nulhypothese te toetsen. Het vergelijken van deze grootheid met een kritische waarde of het bepalen van de p-waarde leidt tot een beslissing. |
| Verwachting (in statistiek) | De gemiddelde waarde van een willekeurige variabele over een groot aantal herhalingen van een experiment of steekproef. |
| Standaardfout | De standaarddeviatie van de steekproevenverdeling van een schatter. Het geeft een indicatie van de precisie van de schatter. |
| Manipulatie check | Een procedure om te verifiëren of de experimentele manipulatie succesvol is geweest in het opwekken van het gewenste effect of de gewenste conditie bij de deelnemers. |
| N* | Het aantal paren waarin er een verschil is tussen beide waarnemingen, gebruikt in de Wilcoxon rangtekentoets. |
| Rangtransformatie | Het proces waarbij de ruwe meetwaarden van data worden vervangen door hun rangnummers, gebaseerd op hun positie in een gesorteerde lijst. |
| Kruskal-Wallis Test | Een niet-parametrische toets voor drie of meer onafhankelijke groepen die wordt gebruikt als alternatief voor de éénweg ANOVA wanneer de data niet normaal verdeeld is. |
| Omnibus test | Een statistische test die wordt gebruikt om te bepalen of er een algemeen significant effect of verschil is tussen meerdere groepen of variabelen, zonder specifiek aan te geven waar de verschillen liggen. |
| Chi-kwadraat statistiek | Een statistische maat die wordt gebruikt in chi-kwadraat toetsen om de afwijking tussen de geobserveerde frequenties en de verwachte frequenties te meten. |
| Continueitscorrectie | Een aanpassing die wordt toegepast bij het benaderen van een discrete verdeling (zoals de binomiale verdeling) met een continue verdeling (zoals de normale verdeling) om de nauwkeurigheid te verbeteren, vaak door een halve eenheid toe te voegen of af te trekken. |
| Ties | Gelijkwaardige waarden (gelijke scores of rangen) binnen een dataset. Dit kan de berekening van sommige statistische toetsen beïnvloeden. |