Cover
Empieza ahora gratis dia h 4.pdf
Summary
# Inleiding tot niet-parametrische testen voor centrale waarden
Dit hoofdstuk introduceert niet-parametrische testen als alternatief voor parametrische testen wanneer de aannames van normaliteit niet voldaan zijn, met een focus op het toetsen van de populatiemediaan [1](#page=1).
### 1.1 Waarom niet-parametrische testen?
Parametrische testen, zoals de z-test en t-test, vereisen dat de populatie normaal verdeeld is. Wanneer deze aanname geschonden wordt, of wanneer de focus ligt op de mediaan in plaats van het gemiddelde, bieden niet-parametrische testen een uitkomst. Deze testen zijn met name geschikt voor data op ordinaal niveau, waarbij enkel de rangorde van de waarden van belang is [1](#page=1) [2](#page=2).
### 1.2 De tekentest
De tekentest is een eenvoudige niet-parametrische test die gebruikt wordt om de populatiemediaan te toetsen. Het principe is dat de mediaan een populatie in twee gelijke helften verdeelt: 50% van de waarden zijn kleiner dan de mediaan, en 50% zijn groter [2](#page=2).
#### 1.2.1 Hypothesen en teststatistiek
De nulhypothese (Ho) stelt dat de populatiemediaan gelijk is aan een gespecificeerde waarde ($m_0$), terwijl de alternatieve hypothese (H1) aangeeft dat de mediaan kleiner is, groter is, of ongelijk is aan $m_0$ [2](#page=2).
De teststatistiek, N, telt het aantal waarnemingen in de steekproef dat groter is dan $m_0$. Een alternatieve teststatistiek, N\_, telt het aantal waarnemingen kleiner dan $m_0$. Waarnemingen die exact gelijk zijn aan $m_0$ worden uit de steekproef weggelaten [2](#page=2).
#### 1.2.2 Verdeling van de teststatistiek
Onder de nulhypothese, dat de populatiemediaan gelijk is aan $m_0$, volgt de teststatistiek N+ (aantal waarnemingen > $m_0$) een binomiale verdeling met parameters $n$ (steekproefgrootte) en $p=0.5$. Dus, $N_+ \sim B(n, 0.5)$. Hetzelfde geldt voor N\_ [3](#page=3).
#### 1.2.3 p-waarde berekening
De p-waarde wordt berekend op basis van de geobserveerde teststatistiek en de binomiale verdeling [3](#page=3).
* **Rechtseenzijdige test:** $p\text{-waarde} = P(N_+ \ge n_+)$, waarbij $n_+$ de geobserveerde waarde van N+ is. Dit kan ook berekend worden als $P(N_- \le n_-)$, omdat onder $H_0$ geldt dat $P(N_+ \ge n_+) = P(N_- \le n_-)$. De formule is [3](#page=3):
$$p\text{-waarde} = \sum_{k=n_+}^{n} \binom{n}{k} 0.5^n = \sum_{k=0}^{n_-} \binom{n}{k} 0.5^n$$ [3](#page=3).
* **Linkseenzijdige test:** $p\text{-waarde} = P(N_+ \le n_+)$, waarbij $n_+$ de geobserveerde waarde van N+ is [4](#page=4).
$$p\text{-waarde} = \sum_{k=0}^{n_+} \binom{n}{k} 0.5^n$$ [4](#page=4).
* **Tweezijdige test:** $p\text{-waarde} = 2 \times \min \{ P(N_+ \le n_+), P(N_+ \ge n_+) \}$ [4](#page=4).
> **Voorbeeld:** Een postorderbedrijf vermoedt dat meer dan de helft van de orders niet binnen een uur verwerkt is. Voor een steekproef van 18 orders werden 13 waarnemingen > 60 minuten ($n_+=13$) en 5 waarnemingen < 60 minuten ($n_-=5$) geteld. Met $H_0$: Med = 60 en $H_1$: Med > 60, is de p-waarde:
> $$p\text{-waarde} = P(N_+ \ge 13) = \sum_{k=13}^{18} \binom{18}{k} 0.5^{18} \approx 0.048$$ [5](#page=5).
> Aangezien $0.048 < 0.05$, wordt de nulhypothese verworpen, wat suggereert dat de mediaan verwerkingsduur significant groter is dan 60 minuten [5](#page=5).
#### 1.2.4 De binomiaaltest
De tekentest kan gezien worden als een speciaal geval van de binomiaaltest. De binomiaaltest wordt gebruikt om een proportie ($p$) te toetsen die slechts twee uitkomsten kan aannemen (bijv. "succes" of "falen"). Als het aantal successen ($N_1$) in een steekproef van grootte $n$ onder de nulhypothese ($H_0: p=p_0$) wordt geteld, dan volgt $N_1 \sim B(n, p_0)$ [5](#page=5).
> **Voorbeeld:** Een winkel wil weten of meer dan 25% van de klanten op zondag inkopen doet. Voor een steekproef van 14 klanten bleken er 6 te zijn die op zondag inkopen deden. Met $H_0: p = 0.25$ en $H_1: p > 0.25$, is onder $H_0$ de teststatistiek $N_1 \sim B(14, 0.25)$. De p-waarde is:
> $$p\text{-waarde} = P(N_1 \ge 6) = 1 - P(N_1 \le 5) = 0.112$$ [6](#page=6).
> Omdat $0.112 > 0.05$, wordt de nulhypothese niet verworpen [6](#page=6).
### 1.3 De Wilcoxon rangtekentest
De Wilcoxon rangtekentest is een krachtigere test dan de tekentest omdat deze niet alleen rekening houdt met het teken van de afwijking ten opzichte van de mediaan, maar ook met de grootte van deze afwijkingen. Deze test vereist echter wel de aanname van een continue verdeling met een symmetrische kansdichtheid [6](#page=6).
#### 1.3.1 Procedure en teststatistiek
1. Bereken de verschillen $D_i = X_i - m_0$ voor elke waarneming $X_i$ [7](#page=7).
2. Rangschik de absolute waarden $|D_i|$ en ken een rang toe. Bij identieke waarden wordt het gemiddelde van de rangen toegekend [7](#page=7).
3. Verwijder waarnemingen met een verschil van 0 uit de steekproef [7](#page=7).
4. Bereken de som $R_+$ van de rangen van de positieve verschillen en de som $R_-$ van de rangen van de negatieve verschillen. De som van alle rangen is gelijk aan $\frac{n(n+1)}{2}$, waarbij $n$ de steekproefgrootte is na het verwijderen van nullen [7](#page=7).
#### 1.3.2 Verdeling van de teststatistiek
Onder de nulhypothese ($Med = m_0$), waarbij de verdeling symmetrisch is rond $m_0$, verwacht men dat de sommen van de rangen voor positieve en negatieve afwijkingen ongeveer gelijk zijn. De verwachte waarde voor zowel $R_+$ als $R_-$ is $\frac{n(n+1)}{4}$ [8](#page=8).
* Als de populatiemediaan groter is dan $m_0$ ($Med > m_0$), dan worden er meer en grotere rangen toegekend aan positieve afwijkingen, wat resulteert in $R_+ > \frac{n(n+1)}{4}$ [8](#page=8).
* Als de populatiemediaan kleiner is dan $m_0$ ($Med < m_0$), dan worden er meer en grotere rangen toegekend aan negatieve afwijkingen, wat resulteert in $R_+ < \frac{n(n+1)}{4}$ [8](#page=8).
De nulhypothese wordt verworpen als $R_+$ (of $R_-$) te ver afwijkt van de verwachte waarde $\frac{n(n+1)}{4}$. Statistische software wordt doorgaans gebruikt om de benaderende p-waarde te berekenen [8](#page=8).
> **Voorbeeld (postorderbedrijf vervolg):** Voor de 18 orders uit het vorige voorbeeld, met $m_0 = 60$, werden de rangen berekend. De som van de rangen van de positieve verschillen ($R_+$) bleek 140.5 te zijn [7](#page=7).
> De verwachte som onder $H_0$ is $\frac{18(18+1)}{4} = 76.5$. Aangezien $140.5$ significant groter is dan $76.5$, wordt de nulhypothese verworpen. De software geeft een benaderende p-waarde van 0.00879. Dit leidt tot de conclusie dat de mediaan verwerkingsduur significant groter is dan 60 minuten [8](#page=8).
#### 1.3.3 Gepaarde waarnemingen
De Wilcoxon rangtekentest kan ook worden toegepast op gepaarde waarnemingen (X, Y). Hierbij wordt de nulhypothese geformuleerd als $H_0: Med_{X-Y} = 0$, en worden de verschillen $D_i = X_i - Y_i$ geanalyseerd op dezelfde manier als bij de test voor één mediaan [9](#page=9).
> **Voorbeeld (communicatietraining):** Om te onderzoeken of een communicatietraining de verkoopcijfers beïnvloedt, werden verkoopcijfers voor en na de training verzameld voor 8 verkopers. De verschillen werden berekend en gerangschikt. De som van de rangen van de positieve verschillen ($R_+$) was 26. Met 8 waarnemingen is de verwachte som onder $H_0$ $\frac{8(8+1)}{4} = 18$. De software gaf een p-waarde van 0.3125, wat leidt tot het niet verwerpen van de nulhypothese. Er is onvoldoende bewijs om aan te tonen dat de mediane wijziging in verkoopcijfer afwijkt van 0 [10](#page=10) [9](#page=9).
### 1.4 De Wilcoxon rangsomtest (en Mann-Whitney U test)
Deze testen worden gebruikt om twee onafhankelijke populaties te vergelijken. De onderliggende aanname is dat de continue verdelingen van beide populaties dezelfde vorm hebben. De nulhypothese stelt dat de medianen van de twee populaties gelijk zijn ($Med_1 = Med_2$), terwijl de alternatieve hypothese stelt dat ze verschillen. De Mann-Whitney U test is equivalent aan de Wilcoxon rangsomtest [10](#page=10) [12](#page=12).
#### 1.4.1 Procedure en teststatistiek
1. Breng alle waarnemingen van beide steekproeven samen en orden ze van klein naar groot [11](#page=11).
2. Ken een rang toe aan elke waarneming van 1 tot $n_1 + n_2$, waarbij $n_1$ en $n_2$ de groottes van de steekproeven zijn. Bij identieke waarden wordt het gemiddelde van de rangen toegekend [11](#page=11) [12](#page=12).
3. Bereken de som $R_1$ van de rangen van de waarnemingen uit de eerste steekproef en de som $R_2$ van de rangen uit de tweede steekproef [11](#page=11).
4. De som van alle rangen is $\frac{n(n+1)}{2}$, met $n = n_1 + n_2$ [11](#page=11).
Onder de nulhypothese ($Med_1 = Med_2$) verwachten we dat de gemiddelde rangen voor beide groepen ongeveer gelijk zijn aan $\frac{n+1}{2}$. Meer specifiek, de verwachte som $R_1$ onder $H_0$ is $\frac{n_1(n+1)}{2}$ [11](#page=11).
* Als de mediaan van de eerste populatie kleiner is dan de tweede ($Med_1 < Med_2$), dan zal $R_1 < \frac{n_1(n+1)}{2}$ [11](#page=11).
* Als de mediaan van de eerste populatie groter is dan de tweede ($Med_1 > Med_2$), dan zal $R_1 > \frac{n_1(n+1)}{2}$ [11](#page=11).
De teststatistiek U kan ook berekend worden uit de som van de rangen:
$$U_1 = R_1 - \frac{n_1(n_1 + 1)}{2}$$ [12](#page=12).
en analoog voor $U_2$ [12](#page=12).
> **Voorbeeld (MP3-spelers):** Het vergelijken van de levensduur van dure en goedkope MP3-spelers. Steekproef X1 (goedkoop) had $n_1 = 8$ en $R_1 = 40$. Steekproef X2 (duur) had $n_2 = 10$ en $R_2 = 131$. De verwachte som voor $R_1$ onder $H_0$ is $\frac{8(8+1)}{2} = 36$. Aangezien $R_1 = 40 > 36$, duidt dit op een mogelijk grotere levensduur voor goedkope spelers in deze steekproef, hoewel dit met de berekening van $U_1$ en $U_2$ verder wordt geanalyseerd [11](#page=11) [12](#page=12).
> Met behulp van software (zoals `wilcox.test` in R, die de Mann-Whitney test uitvoert) wordt een p-waarde van 0.001591 berekend. Dit leidt tot het verwerpen van de nulhypothese, wat suggereert dat er een significant verschil is in de mediane levensduur [13](#page=13).
### 1.5 De Kruskal-Wallis test
De Kruskal-Wallis test is het niet-parametrische equivalent van de one-way ANOVA en wordt gebruikt om meer dan twee onafhankelijke groepen te vergelijken. De aanname is dat de continue verdelingen van de populaties dezelfde vorm hebben. De nulhypothese stelt dat de medianen van alle $g$ groepen gelijk zijn ($Med_1 = Med_2 = \dots = Med_g$), terwijl de alternatieve hypothese stelt dat minstens één mediaan verschilt [13](#page=13).
#### 1.5.1 Teststatistiek
1. Breng alle waarnemingen van alle $g$ groepen samen en rangschik ze van 1 tot $n = \sum n_i$ [14](#page=14).
2. Bereken voor elke groep de gemiddelde rang ($\bar{R}_i$) en de globale gemiddelde rang ($R = \frac{n+1}{2}$) [14](#page=14).
3. De teststatistiek $K$ wordt berekend als:
$$K = \frac{12}{n(n+1)} \sum_{i=1}^{g} n_i (\bar{R}_i - R)^2$$ [14](#page=14).
Een alternatieve formulering is:
$$K = \frac{12}{n(n+1)} \sum_{i=1}^{g} \frac{R_i^2}{n_i} - 3(n+1)$$ [14](#page=14).
#### 1.5.2 Kritieke waarde en p-waarde
Voor grote steekproeven ($n_i \ge 5$ voor alle groepen wordt als vuistregel genomen), volgt de teststatistiek $K$ onder de nulhypothese een chi-kwadraat verdeling met $g-1$ vrijheidsgraden ($\chi^2_{g-1}$). De test is rechtseenzijdig omdat een grotere waarde van $K$ aangeeft dat de ranggemiddelden verder afwijken van de globale ranggemiddelde, wat duidt op een verschil tussen de medianen. De nulhypothese wordt verworpen als $K$ groter is dan de kritieke waarde uit de $\chi^2_{g-1}$ verdeling [14](#page=14).
> **Voorbeeld (kostprijs verwarming):** Onderzocht wordt of het type verwarming invloed heeft op de jaarlijkse verwarmingskost. Vier groepen (gas condensatie, gas klassiek, stookolie, elektriciteit) werden vergeleken. De berekende teststatistiek $K$ was 14.83. Met 3 vrijheidsgraden ($g-1 = 4-1=3$), is de kritieke waarde $\chi^2_{3, 0.95} = 7.81$. Omdat $14.83 > 7.81$, wordt de nulhypothese verworpen op een significantieniveau van 5%. De p-waarde is 0.002. Dit suggereert dat het type verwarming een significante invloed heeft op de mediane verwarmingskost. Post-hoc testen (zoals de Wilcoxon rangsomtest met Bonferroni correctie) kunnen gebruikt worden om te bepalen welke medianen precies verschillen [15](#page=15).
---
# Tekentest en binomiaaltest
Deze sectie behandelt de tekentest, een niet-parametrische methode om de populatiemediaan te toetsen tegen een hypothetische waarde, en de binomiaaltest als een generalisatie daarvan.
### 2.1 De tekentest
De tekentest is een eenvoudige niet-parametrische statistische test die wordt gebruikt om de populatiemediaan te vergelijken met een hypothetische waarde. Het bijzondere aan deze test is dat er enkel gekeken wordt naar de tekens (positief of negatief) van de afwijkingen van de steekproefwaarden ten opzichte van de hypothetische mediaan, in plaats van naar de absolute grootte van de afwijkingen. Dit maakt de test geschikt voor data op ordinaal meetniveau [2](#page=2).
#### 2.1.1 Hypothesen en teststatistiek
Bij de tekentest worden de volgende hypothesen geformuleerd [2](#page=2):
* **Nulhypothese ($H_0$):** De populatiemediaan ($Med$) is gelijk aan een hypothetische waarde ($m_0$). Formeel: $H_0: Med = m_0$.
* **Alternatieve hypothesen ($H_1$):**
* Linkseenzijdig: $H_1: Med < m_0$
* Rechtseenzijdig: $H_1: Med > m_0$
* Tweezijdig: $H_1: Med \neq m_0$
De teststatistiek wordt gedefinieerd als het aantal waarnemingen in de steekproef dat groter is dan de hypothetische mediaan ($m_0$). Dit wordt vaak aangeduid met $N^+$. Een alternatieve teststatistiek is het aantal waarnemingen kleiner dan $m_0$, aangeduid met $N^-$ [2](#page=2).
Indien een observatie exact gelijk is aan de hypothetische mediaan ($m_0$), wordt deze observatie uit de steekproef weggelaten voor de berekening van de teststatistiek [2](#page=2).
#### 2.1.2 Verdeling van de teststatistiek
Onder de nulhypothese ($H_0$), waarbij de populatiemediaan gelijk is aan $m_0$, en aangenomen dat de waarnemingen onafhankelijk zijn, volgt zowel $N^+$ als $N^-$ een binomiale verdeling. Specifiek geldt [3](#page=3):
* $N^+ \sim B(n, 0.5)$
* $N^- \sim B(n, 0.5)$
Hierbij is $n$ het totale aantal waarnemingen in de steekproef (na het eventueel verwijderen van waarnemingen die gelijk zijn aan $m_0$). De parameter $0.5$ in de binomiale verdeling geeft aan dat, onder $H_0$, de kans dat een individuele waarneming groter is dan $m_0$ gelijk is aan 0.5, en de kans dat deze kleiner is, eveneens 0.5 [3](#page=3).
#### 2.1.3 p-waarde berekening
De p-waarde geeft de kans aan om een teststatistiek te observeren die minstens zo extreem is als de gevonden waarde, gegeven dat de nulhypothese waar is.
* **Rechtseenzijdige test ($H_1: Med > m_0$):**
De p-waarde is de kans om een $N^+$ te observeren die groter of gelijk is aan de gevonden waarde $n^+$ [3](#page=3).
$p\text{-waarde} = P(N^+ \ge n^+) \text{ met } N^+ \sim B(n, 0.5)$
Vanwege de symmetrie van de binomiale verdeling met $p=0.5$, geldt dat $P(N^+ \ge n^+) = P(N^- \le n-n^+)$. Dus kan de p-waarde ook berekend worden als:
$$p\text{-waarde} = \sum_{k=n^+}^{n} \binom{n}{k} (0.5)^k (0.5)^{n-k} = \sum_{k=n^+}^{n} \binom{n}{k} (0.5)^n$$ [3](#page=3).
* **Linkseenzijdige test ($H_1: Med < m_0$):**
De p-waarde is de kans om een $N^+$ te observeren die kleiner of gelijk is aan de gevonden waarde $n^+$ [4](#page=4).
$p\text{-waarde} = P(N^+ \le n^+) \text{ met } N^+ \sim B(n, 0.5)$
$$p\text{-waarde} = \sum_{k=0}^{n^+} \binom{n}{k} (0.5)^k (0.5)^{n-k} = \sum_{k=0}^{n^+} \binom{n}{k} (0.5)^n$$ [4](#page=4).
* **Tweezijdige test ($H_1: Med \neq m_0$):**
De p-waarde is tweemaal de kleinsten van de rechtseenzijdige of linkseenzijdige kans [4](#page=4).
$p\text{-waarde} = 2 \times \min \{P(N^+ \le n^+), P(N^+ \ge n^+)\}$
$$p\text{-waarde} = 2 \times \min \left\{ \sum_{k=0}^{n^+} \binom{n}{k} (0.5)^n, \sum_{k=n^+}^{n} \binom{n}{k} (0.5)^n \right\}$$ [4](#page=4).
#### 2.1.4 Voorbeeld: postorderbedrijf
Een postorderbedrijf vermoedt dat meer dan de helft van de orders niet binnen een uur verwerkt wordt. Dit vertaalt zich naar de vraag of de mediaan verwerkingsduur groter is dan 60 minuten.
* **Hypothesen:**
* $H_0:$ Med = 60 minuten
* $H_1:$ Med > 60 minuten (rechtseenzijdige test)
* **Gegevens:** Een steekproef van 18 orders met verwerkingsduren in minuten wordt verzameld. Na het aftrekken van de observaties die gelijk zijn aan 60, worden er 13 waarnemingen groter dan 60 ($n^+=13$) en 5 waarnemingen kleiner dan 60 ($n^-=5$) geteld. De totale steekproefgrootte is dus $n = 18$ [4](#page=4) [5](#page=5).
* **p-waarde berekening:**
Onder $H_0$ volgt $N^+$ een binomiale verdeling $B(18, 0.5)$ [5](#page=5).
De p-waarde voor de rechtseenzijdige test is:
$$p\text{-waarde} = P(N^+ \ge 13) = P(N^- \le 18-13) = P(N^- \le 5) = \sum_{k=0}^{5} \binom{18}{k} (0.5)^{18}$$
Dit resulteert in een p-waarde van $0.048$ [5](#page=5).
* **Conclusie:** Met een significantieniveau ($\alpha$) van 5% wordt de nulhypothese verworpen, wat aangeeft dat er bewijs is dat de mediaan verwerkingsduur groter is dan 60 minuten [5](#page=5).
### 2.2 De binomiaaltest
De binomiaaltest is een algemenere vorm van de tekentest. Deze test wordt gebruikt wanneer een variabele slechts twee mogelijke uitkomsten kan aannemen, bijvoorbeeld 'succes' en 'mislukking', of 'wel' en 'niet'. De test richt zich op de parameter $p$, de kans op één van deze twee uitkomsten.
#### 2.2.1 Hypothesen en teststatistiek
Voor de binomiaaltest worden de volgende hypothesen geformuleerd:
* **Nulhypothese ($H_0$):** De kans op de eerste uitkomst ($p$) is gelijk aan een hypothetische waarde ($p_0$). Formeel: $H_0: p = p_0$.
* **Alternatieve hypothese ($H_1$):** $H_1: p \neq p_0$. De test kan ook eenzijdig worden uitgevoerd ($H_1: p > p_0$ of $H_1: p < p_0$).
De teststatistiek is het aantal waarnemingen ($N_1$) dat de eerste uitkomst (bijvoorbeeld 'a') aanneemt in een steekproef van grootte $n$.
Onder de nulhypothese ($H_0$) dat $p = p_0$, volgt $N_1$ een binomiale verdeling:
$N_1 \sim B(n, p_0)$ [5](#page=5).
Net als bij de tekentest wordt de nulhypothese verworpen als de geobserveerde waarde van de teststatistiek ($n_1$) te groot (of te klein) is ten opzichte van de verwachte waarde onder $H_0$. Waarnemingen worden hierbij enkel geteld, wat impliceert dat de meetschaal nominaal is [5](#page=5).
#### 2.2.2 Voorbeeld: open op zondag
Een winkel overweegt om op zondagvoormiddag open te blijven als meer dan 25% van de klanten dan inkopen doet.
* **Variabele en kansen:**
* $X$: Klant doet inkopen op zondag.
* $p$: Kans dat een klant inkopen doet op zondag.
* $1-p$: Kans dat een klant geen inkopen doet op zondag.
* **Hypothesen:**
* $H_0: p = 0.25$
* $H_1: p > 0.25$ (rechtseenzijdige test)
* **Gegevens:** In een steekproef van 14 klanten geven 6 klanten aan inkopen te willen doen op zondag. Dus $n=14$ en $N_1 = 6$ [6](#page=6).
* **p-waarde berekening:**
Onder $H_0$ is $N_1$ binomiaal verdeeld met parameters $n=14$ en $p_0=0.25$, dus $N_1 \sim B(14, 0.25)$ [6](#page=6).
De p-waarde voor de rechtseenzijdige test is:
$p\text{-waarde} = P(N_1 \ge 6) = 1 - P(N_1 \le 5)$
$$p\text{-waarde} = 1 - \sum_{k=0}^{5} \binom{14}{k} (0.25)^k (0.75)^{14-k} = 0.112$$ [6](#page=6).
* **Conclusie:** De p-waarde van 0.112 is groter dan het significantieniveau van 5%. Daarom wordt de nulhypothese niet verworpen. Er is onvoldoende bewijs om te concluderen dat meer dan 25% van de klanten inkopen doet op zondag [6](#page=6).
### 2.3 Vergelijking met Wilcoxon rangtekentest
De tekentest is ruim toepasbaar, maar kan een relatief lage power hebben omdat het enkel kijkt naar de richting van het verschil en niet naar de grootte. De Wilcoxon rangtekentest is een alternatief dat wel rekening houdt met de grootte van de afwijkingen, naast het teken ervan, en vereist als onderstelling dat de verdeling continu en symmetrisch is [6](#page=6).
---
# Wilcoxon rangtekentest voor één populatie en gepaarde waarnemingen
De Wilcoxon rangtekentest is een non-parametrische toets die, in tegenstelling tot de tekentest, niet alleen rekening houdt met het teken van de afwijkingen ten opzichte van een mediane waarde, maar ook met de grootte van deze afwijkingen. Deze test is geschikt voor continue verdelingen met een symmetrische kansdichtheid [6](#page=6).
### 3.1 Toepassing voor één populatiemediaan
Bij het testen van één populatiemediaan wordt de test toegepast op waarnemingen $X_i$ ($i = 1, \dots, n$) uit de steekproef [7](#page=7).
#### 3.1.1 Berekening van de teststatistiek
1. **Bereken de verschillen:** Bereken voor elke waarneming het verschil $D_i = X_i - m_0$, waarbij $m_0$ de mediane waarde onder de nulhypothese is [7](#page=7).
2. **Rangschik de absolute waarden:** Neem de absolute waarden $|D_i|$ en rangschik deze van klein naar groot. Geef de rangen toe. Bij identieke waarden wordt de gemiddelde rang toegekend [7](#page=7).
3. **Behandel nulverschillen:** Waarnemingen met een verschil van 0 worden weggelaten uit de steekproef. De steekproefgrootte $n$ wordt dan aangepast [7](#page=7).
4. **Bereken de sommen van de rangen:** Bereken de som $R^+$ van de rangen van de positieve verschillen $D_i$, en de som $R^-$ van de rangen van de negatieve verschillen $D_i$ [7](#page=7).
5. **Verificatie van de som:** De som van alle rangen, $R^+ + R^-$, is gelijk aan de som van de reeks gehele getallen van 1 tot en met de (aangepaste) steekproefgrootte $n$. Dit kan worden gecontroleerd met de formule:
$$R^+ + R^- = \sum_{i=1}^{n} i = \frac{n(n+1)}{2}$$ [7](#page=7).
#### 3.1.2 Teststatistiek en nulhypothese
Onder de nulhypothese dat de kansdichtheid symmetrisch is rond $m_0$ en de mediaan gelijk is aan $m_0$, wordt verwacht dat de waarden links en rechts van $m_0$ ongeveer gelijk verspreid zijn. Dit impliceert dat de sommen van de rangen ongeveer gelijk verdeeld zijn [8](#page=8):
$$R^+ \approx \frac{n(n+1)}{4}$$
$$R^- \approx \frac{n(n+1)}{4}$$ [8](#page=8).
* Als de mediaan van de populatie groter is dan $m_0$ ($Med > m_0$), worden meer en grotere rangen verwacht in $R^+$, dus $R^+ > \frac{n(n+1)}{4}$ [8](#page=8).
* Als de mediaan van de populatie kleiner is dan $m_0$ ($Med < m_0$), worden meer en grotere rangen verwacht in $R^-$, dus $R^+ < \frac{n(n+1)}{4}$ [8](#page=8).
De nulhypothese ($H_0$) wordt verworpen als $R^+$ te ver afwijkt van $\frac{n(n+1)}{4}$. De p-waarde wordt vaak benaderend berekend met statistische software [8](#page=8).
> **Voorbeeld:** Een postorderbedrijf wil testen of de mediaan verwerkingsduur van bestellingen groter is dan 60 minuten [7](#page=7).
>
> * $H_0$: $Med = 60$
> * $H_1$: $Med > 60$
>
> Gegeven de waarnemingen voor verwerkingsduur $X_i$:
> `postorder <- c(124, 105, 43, 69, 88, 79, 33, 59, 77, 58, 121, 63, 76, 56, 69, 89, 71, 76)` [8](#page=8).
>
> Na het berekenen van de verschillen $D_i = X_i - 60$, de absolute waarden $|D_i|$, en het toekennen van de rangen, wordt $R^+ = 140.5$ gevonden. De steekproefgrootte is $n=18$ [7](#page=7).
>
> Met statistische software wordt de p-waarde berekend als 0.00879. Aangezien deze p-waarde kleiner is dan het significantieniveau van 5%, wordt de nulhypothese verworpen. De mediaan verwerkingsduur is significant groter dan 60 minuten [8](#page=8).
### 3.2 Toepassing voor gepaarde waarnemingen
De Wilcoxon rangtekentest is ook zeer geschikt voor het analyseren van gepaarde waarnemingen $(X, Y)$ [9](#page=9).
#### 3.2.1 Opzet van de test
Bij gepaarde waarnemingen is het doel om te toetsen of het verschil tussen de twee metingen een mediaan van nul heeft. De nulhypothese is $H_0: Med_{X-Y} = 0$, en de alternatieve hypothese is $H_1: Med_{X-Y} \neq 0$ [9](#page=9).
De berekening verloopt vervolgens vergelijkbaar met de test voor één populatiemediaan, waarbij $m_0 = 0$ wordt gehanteerd:
1. **Bereken de verschillen:** Bereken $D_i = X_i - Y_i$ voor elk paar [9](#page=9).
2. **Rangschik en sommeer:** Rangschik de absolute waarden $|D_i|$ en bereken de som van de rangen van de positieve verschillen ($R^+$) en de som van de rangen van de negatieve verschillen ($R^-$) [9](#page=9).
3. **Toetsstatistiek:** De interpretatie van $R^+$ ten opzichte van $\frac{n(n+1)}{4}$ blijft hetzelfde, waarbij $n$ de steekproefgrootte van de paren is [8](#page=8) [9](#page=9).
> **Voorbeeld:** Een communicatietraining wordt geëvalueerd door te kijken of verkoopcijfers veranderen na de training [9](#page=9).
>
> * $H_0$: $Med_{verkoop\_na - verkoop\_voor} = 0$
> * $H_1$: $Med_{verkoop\_na - verkoop\_voor} \neq 0$
>
> Voor 8 verkopers worden de verkoopcijfers voor ($Y_i$) en na ($X_i$) de training geregistreerd [9](#page=9).
>
> | verkoper | verkoop voor ($Y_i$) | verkoop na ($X_i$) | verschil ($D_i$) | $|D_i|$ | rang | teken |
> | :------- | :------------------ | :--------------- | :------------- | :---- | :--- | :---- |
> | 1 | 95 | 121 | 26 | 26 | 7 | + |
> | 2 | 102 | 136 | 34 | 34 | 8 | + |
> | 3 | 88 | 87 | -1 | 1 | 1 | - |
> | 4 | 111 | 99 | -12 | 12 | 3 | - |
> | 5 | 102 | 122 | 20 | 20 | 5 | + |
> | 6 | 116 | 102 | -14 | 14 | 4 | - |
> | 7 | 131 | 129 | -2 | 2 | 2 | - |
> | 8 | 90 | 111 | 21 | 21 | 6 | + |
>
> De som van de rangen voor positieve verschillen is $R^+ = 7 + 8 + 5 + 6 = 26$ [9](#page=9).
> De som van de rangen voor negatieve verschillen is $R^- = 1 + 3 + 4 + 2 = 10$ [9](#page=9).
> De steekproefgrootte is $n=8$ [9](#page=9).
> De verwachte som van rangen onder $H_0$ is $\frac{8(8+1)}{4} = \frac{72}{4} = 18$.
> Aangezien $R^+=26$ significant afwijkt van 18 (dit zou verder geanalyseerd worden met kritieke waarden of een p-waarde), zou men kunnen concluderen dat de communicatietraining een significant effect heeft op de verkoopcijfers.
---
# Wilcoxon rangsomtest en Mann-Whitney U test voor twee onafhankelijke populaties
Deze niet-parametrische testen worden gebruikt om te bepalen of de medianen van twee onafhankelijke populaties van elkaar verschillen, door de ranks van de gecombineerde data te analyseren [10](#page=10) [11](#page=11).
### 4.1 Concept en toepassingen
De Wilcoxon rangsomtest en de Mann-Whitney U test zijn equivalente niet-parametrische methoden die worden ingezet om de medianen van twee onafhankelijke populaties te vergelijken. Ze zijn met name nuttig wanneer de aannames van parametrische testen, zoals de t-test, niet voldaan zijn, bijvoorbeeld bij niet-normaal verdeelde data of data op ordinaal niveau [10](#page=10).
* **Doel:** Het testen of twee continue verdelingen, met de aanname van gelijke vorm, samenvallen of verschoven zijn ten opzichte van elkaar [10](#page=10).
* **Nulhypothese ($H_0$):** De medianen van de twee populaties zijn gelijk ($Med_1 = Med_2$) [10](#page=10).
* **Alternatieve hypothese ($H_1$):** De medianen van de twee populaties verschillen ($Med_1 \neq Med_2$), of eenzijdig ($Med_1 < Med_2$ of $Med_1 > Med_2$) [10](#page=10).
### 4.2 De Wilcoxon rangsomtest
De Wilcoxon rangsomtest werkt door alle waarnemingen van beide steekproeven samen te voegen, deze te ordenen, en vervolgens rangen toe te kennen aan elke waarneming [11](#page=11).
#### 4.2.1 Stappen voor de Wilcoxon rangsomtest
1. **Voeg steekproeven samen:** Combineer alle waarnemingen uit de twee onafhankelijke steekproeven ($X_1$ en $X_2$).
2. **Orden de gecombineerde waarnemingen:** Sorteer alle waarnemingen van klein naar groot.
3. **Ken rangen toe:** Geef elke geordende waarneming een rang van 1 tot $n_1 + n_2$, waarbij $n_1$ en $n_2$ de groottes van respectievelijk steekproef 1 en steekproef 2 zijn. Bij gelijke waarden worden gemiddelde rangen toegekend [11](#page=11).
4. **Bereken sommen van rangen:** Bereken de som van de rangen voor steekproef 1 ($R_1$) en de som van de rangen voor steekproef 2 ($R_2$). De som van alle rangen is gelijk aan $\frac{(n_1 + n_2)(n_1 + n_2 + 1)}{2}$ [11](#page=11).
5. **Vergelijk gemiddelde rangen:** Onder de nulhypothese ($Med_1 = Med_2$), worden gemiddelde rangen verwacht die dicht bij $\frac{n_1 + n_2 + 1}{2}$ liggen. Dit impliceert dat de sommen van de rangen ongeveer gelijk zijn aan $R_1 \approx \frac{n_1(n_1 + n_2 + 1)}{2}$ en $R_2 \approx \frac{n_2(n_1 + n_2 + 1)}{2}$ [11](#page=11).
6. **Bepaal de teststatistiek:** De teststatistiek $W$ (vaak gelijk aan $R_1$ of $R_2$) wordt gebruikt om te toetsen.
> **Tip:** Bij het werken met R, kan de functie `wilcox.test()` gebruikt worden. Bijvoorbeeld, `wilcox.test(x, y)` vergelijkt de twee vectoren `x` en `y` [13](#page=13).
#### 4.2.2 Voorbeeld van de Wilcoxon rangsomtest
Stel we hebben de volgende waarnemingen voor twee groepen X1 en X2 [11](#page=11):
* $X_1$: 3, 17, 10, 4, 6
* $X_2$: 19, 11, 36, 8
**Stap 1 & 2:** Gecombineerd en geordend: 3, 4, 6, 8, 10, 11, 17, 19, 36.
**Stap 3:** Rangen toekennen:
| Waarneming | Rangen |
| :--------- | :----- |
| 3 | 1 |
| 4 | 2 |
| 6 | 3 |
| 8 | 4 |
| 10 | 5 |
| 11 | 6 |
| 17 | 7 |
| 19 | 8 |
| 36 | 9 |
Hier is $n_1=4$ en $n_2=5$, dus $n_1+n_2=9$.
**Stap 4:** Sommen van rangen berekenen:
* $R_1$ (rangen van X1: 3, 17, 10, 4): $1 + 7 + 5 + 2 = 15$
* $R_2$ (rangen van X2: 19, 11, 36, 8): $8 + 6 + 9 + 4 = 27$
De som van alle rangen is $\frac{9(9+1)}{2} = 45$. $R_1 + R_2 = 15 + 27 = 42$. (Let op: in het document wordt een andere berekening getoond met 5 waarnemingen voor X1 en 4 voor X2, wat leidde tot $R_1=15$ en $R_2=27$ ) [11](#page=11).
Onder $H_0$ verwachten we $R_1 \approx \frac{4(9+1)}{2} = 20$ en $R_2 \approx \frac{5(9+1)}{2} = 25$. Aangezien $R_1 < 20$ en $R_2 > 25$, suggereert dit dat $Med_1 < Med_2$.
#### 4.2.3 Interpretatie van de Wilcoxon rangsomtest
De uitkomst van de test wordt beoordeeld aan de hand van de p-waarde.
* Als de p-waarde kleiner is dan het gekozen significantieniveau (bv. 0.05), wordt de nulhypothese verworpen en is er voldoende bewijs om aan te nemen dat de medianen van de twee populaties verschillen [10](#page=10).
* Als de p-waarde groter is dan het significantieniveau, wordt de nulhypothese niet verworpen. Dit betekent dat er onvoldoende bewijs is om te concluderen dat de medianen verschillen [10](#page=10).
**Voorbeeld uit document:** Bij een communicatietraining werd het verschil in verkoopcijfers voor en na de training geanalyseerd. De resultaten gaven een p-waarde van 0.3125, wat leidde tot het niet verwerpen van de nulhypothese [10](#page=10).
### 4.3 De Mann-Whitney U test
De Mann-Whitney U test is een alternatieve formulering van de Wilcoxon rangsomtest en leidt tot dezelfde conclusies. De teststatistiek $U$ is gebaseerd op het aantal keren dat een waarneming uit de ene groep kleiner is dan een waarneming uit de andere groep [12](#page=12).
#### 4.3.1 Berekening van de Mann-Whitney U teststatistiek
De teststatistiek $U_1$ kan worden berekend door voor elke waarneming in steekproef 1 te tellen hoeveel waarnemingen in steekproef 2 kleiner zijn [12](#page=12).
Een meer directe berekening van $U_1$ kan worden gedaan met behulp van de som van de rangen ($R_1$) uit de Wilcoxon rangsomtest:
$$U_1 = R_1 - \frac{n_1(n_1 + 1)}{2}$$
Op een vergelijkbare manier kan $U_2$ worden berekend:
$$U_2 = R_2 - \frac{n_2(n_2 + 1)}{2}$$
De som van de twee U-statistieken is gelijk aan $n_1 \times n_2$:
$$U_1 + U_2 = n_1 n_2$$
#### 4.3.2 Equivalentie met de Wilcoxon rangsomtest
De verdeling van de teststatistiek $U$ vertoont dezelfde verschuiving als de rangsomtest, waardoor de conclusies identiek zijn. De functie `wilcox.test()` in R voert in feite de Mann-Whitney test uit [12](#page=12).
#### 4.3.3 Voorbeeld van de Mann-Whitney U test (MP3-spelers)
Beschouw een voorbeeld waarbij de levensduur van goedkope (X1) en dure (X2) MP3-spelers wordt vergeleken [12](#page=12).
* $n_1 = 8$ (goedkope) met $R_1 = 40$
* $n_2 = 10$ (dure) met $R_2 = 131$
De Mann-Whitney U statistieken worden berekend als volgt [13](#page=13):
$$U_1 = 40 - \frac{8(8 + 1)}{2} = 40 - \frac{8 \times 9}{2} = 40 - 36 = 4$$
$$U_2 = 131 - \frac{10(10 + 1)}{2} = 131 - \frac{10 \times 11}{2} = 131 - 55 = 76$$
Controle: $U_1 + U_2 = 4 + 76 = 80$, wat gelijk is aan $n_1 \times n_2 = 8 \times 10 = 80$.
De p-waarde die uit deze test komt, bepaalt de conclusie. In het voorbeeld met de MP3-spelers was de p-waarde 0.001591. Dit is kleiner dan een significantieniveau van 0.05, wat leidt tot het verwerpen van de nulhypothese dat de medianen van de levensduur van goedkope en dure MP3-spelers gelijk zijn [13](#page=13).
> **Tip:** Houd er rekening mee dat bij aanwezigheid van gelijke waarden (ties) in de data, software zoals R mogelijk geen exacte p-waarde kan berekenen en een benadering zal gebruiken met een continuïteitscorrectie [13](#page=13).
### 4.4 Aannames
* De data komt uit twee onafhankelijke populaties [10](#page=10).
* De verdelingen van de twee populaties zijn continu [10](#page=10).
* De verdelingen hebben dezelfde vorm. Als deze aanname niet geldt, testen de tests in feite of de cumulatieve distributiefuncties verschillen [10](#page=10).
### 4.5 Relatie tot andere testen
* **Wilcoxon signed rank test:** Gebruikt voor gepaarde waarnemingen, niet voor twee onafhankelijke populaties [10](#page=10).
* **Kruskal-Wallis test:** Een niet-parametrisch alternatief voor ANOVA, gebruikt om medianen van *meer dan twee* onafhankelijke groepen te vergelijken [13](#page=13).
---
# Kruskal-Wallis test voor meerdere onafhankelijke populaties
De Kruskal-Wallis test is een niet-parametrisch alternatief voor de variantieanalyse (ANOVA) dat wordt gebruikt om de medianen van meer dan twee onafhankelijke groepen te vergelijken [13](#page=13).
### 5.1 Introductie en toepassingsgebied
De test wordt toegepast wanneer men de medianen van drie of meer onafhankelijke groepen wil vergelijken. Het is een niet-parametrisch alternatief voor de eenweg ANOVA [13](#page=13).
#### 5.1.1 Onderstellingen
De Kruskal-Wallis test maakt de volgende onderstellingen [13](#page=13):
* De verdelingen van de populaties zijn continu [13](#page=13).
* De verdelingen hebben dezelfde vorm [13](#page=13).
#### 5.1.2 Hypothesen
De te toetsen hypothesen zijn als volgt [13](#page=13):
* **Nulhypothese ($H_0$):** De populatiemedianen van alle $g$ groepen zijn gelijk.
$$H_0: Med_1 = Med_2 = \dots = Med_g$$
* **Alternatieve hypothese ($H_1$):** Ten minste één populatiemedian verschilt van de andere.
$$H_1: \exists i,j \text{ s.t. } Med_i \neq Med_j$$
### 5.2 De teststatistiek
Om de teststatistiek te berekenen, worden alle waarnemingen uit alle groepen samengevoegd en gerangschikt van laag naar hoog [14](#page=14).
#### 5.2.1 Berekeningsstappen
1. **Combineer alle waarnemingen:** Breng alle waarnemingen $X_{ij}$ (waarbij $i$ staat voor de groep en $j$ voor de waarneming binnen die groep) samen [14](#page=14).
2. **Rangschikken:** Geef alle gecombineerde waarnemingen een rang ($R_{ij}$) van 1 tot $n = n_1 + n_2 + \dots + n_g$, waarbij $n$ het totale aantal waarnemingen is [14](#page=14).
3. **Bereken gemiddelde rangen:** Bepaal voor elke groep de gemiddelde rang ($\bar{R}_i$) [14](#page=14).
4. **Bereken de teststatistiek (K):** De teststatistiek $K$ wordt berekend met de volgende formule [14](#page=14):
$$K = \frac{12}{n(n+1)} \sum_{i=1}^{g} n_i (\bar{R}_i - \bar{R})^2$$
waarbij $\bar{R} = \frac{n+1}{2}$ de globale gemiddelde rang is [14](#page=14).
Een alternatieve vorm is:
$$K = \frac{12}{n(n+1)} \sum_{i=1}^{g} \sum_{j=1}^{n_i} (R_{ij} - \bar{R})^2$$
#### 5.2.2 Verdeling van de teststatistiek
Voor grote steekproeven heeft de teststatistiek $K$ onder de nulhypothese een chi-kwadraatverdeling ($\chi^2$) met $g-1$ vrijheidsgraden [14](#page=14).
> **Tip:** Een veelgebruikte vuistregel voor het toepassen van de chi-kwadraatbenadering is dat de steekproefgrootte per groep ($n_i$) minimaal 5 moet zijn ($n_i \ge 5$ voor alle $i$) [14](#page=14).
### 5.3 Kritieke waarde en p-waarde
#### 5.3.1 Beslissingsregel
* Als de nulhypothese waar is, zijn alle gemiddelde rangen ($\bar{R}_i$) vergelijkbaar met de globale gemiddelde rang ($\bar{R}$) [14](#page=14).
* Als de alternatieve hypothese waar is (dus één verdeling is verschoven), zullen de gemiddelde rangen ($\bar{R}_i$) verder afwijken van de globale gemiddelde rang ($\bar{R}$), waardoor de teststatistiek $K$ groter wordt [14](#page=14).
* De test is daarom een rechtseenzijdige test [14](#page=14).
* De nulhypothese $H_0$ wordt verworpen als de berekende teststatistiek $k$ groter is dan de kritieke waarde uit de $\chi^2$-verdeling met $g-1$ vrijheidsgraden voor het gekozen significantieniveau $\alpha$ [14](#page=14).
$$k > \chi^2_{g-1, 1-\alpha}$$
#### 5.3.2 P-waarde
De p-waarde is de kans om een teststatistiek te observeren die minstens zo extreem is als de berekende teststatistiek $k$, onder de aanname dat de nulhypothese waar is [14](#page=14).
$$p\text{-waarde} = P(K > k) \quad \text{met } K \sim \chi^2_{g-1}$$
### 5.4 Praktisch voorbeeld: kostprijs verwarming
Stel dat we willen onderzoeken of het type verwarming invloed heeft op de "gemiddelde" verwarmingskost. We hebben een steekproef bij 27 gezinnen met vier verschillende soorten verwarming (Gas condensatie, Gas klassiek, Stookolie, Elektriciteit) en hun jaarlijkse kostprijs in dollars [15](#page=15).
* **Gegevens:**
* Gas (condensatie): 1708, 1849, 2225, 1512, 1538, 1391 dollar (mediaan: 1623 dollar)
* Gas (klassiek): 1863, 2199, 1865, 2236, 2046, 2011, 2177, 1922 dollar (mediaan: 2028.5 dollar)
* Stookolie: 2005, 2323, 2450, 1829, 1935, 2187, 1867, 1885, 2246 dollar (mediaan: 2005 dollar)
* Elektriciteit: 2615, 2685, 2519, 3115 dollar (mediaan: 2650 dollar)
* **Resultaten:**
* De berekende teststatistiek is $k = 14.83$ [15](#page=15).
* Het aantal groepen is $g=4$, dus het aantal vrijheidsgraden is $g-1 = 3$ [15](#page=15).
* Voor een significantieniveau van $\alpha = 0.05$ is de kritieke waarde $\chi^2_{3, 0.95} = 7.81$ [15](#page=15).
* Omdat $k = 14.83 > 7.81$, wordt de nulhypothese verworpen op een significantieniveau van 5% [15](#page=15).
* De p-waarde is $P(K \ge 14.83) = 0.002$ [15](#page=15).
* **Conclusie:** Er is een sterke aanwijzing dat het soort verwarmingsketel invloed heeft op de mediane verwarmingskost [15](#page=15).
> **Tip:** Indien de nulhypothese wordt verworpen, kunnen post-hoc testen, zoals de Wilcoxon rangsomtest met Bonferroni correctie, gebruikt worden om na te gaan welke specifieke medianen van elkaar verschillen [15](#page=15).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-parametrische testen | Statistische methoden die geen aannames doen over de verdeling van de populatie, zoals normaliteit. Ze zijn vaak gebaseerd op rangen in plaats van op de feitelijke waarden, en zijn daarom geschikt voor ordinale data of wanneer parametrische aannames geschonden zijn. |
| Centrale waarden | Kengetallen die de typische of centrale positie van een dataset samenvatten. De meest voorkomende centrale waarden zijn het gemiddelde (mean), de mediaan (median) en de modus (mode). |
| Populatiemediaan | De mediaan van de gehele populatie. Dit is de middelste waarde in een geordende dataset, of het gemiddelde van de twee middelste waarden als er een even aantal waarnemingen is. Het verdeelt de populatie in twee gelijke helften. |
| Tekentest | Een eenvoudige niet-parametrische test die de mediaan van een populatie vergelijkt met een hypothetische waarde door het aantal positieve en negatieve verschillen tussen de waarnemingen en de hypothetische mediaan te tellen. |
| Binomiaaltest | Een statistische test die wordt gebruikt om de kans op een bepaald aantal successen in een reeks van onafhankelijke experimenten te evalueren, waarbij elk experiment slechts twee mogelijke uitkomsten heeft (succes of falen). |
| Wilcoxon rangtekentest | Een niet-parametrische test voor gepaarde waarnemingen of voor één populatie om te bepalen of de mediaan significant verschilt van een hypothetische waarde. Het houdt rekening met zowel de richting als de grootte van de verschillen door middel van rangen. |
| Wilcoxon rangsomtest | Een niet-parametrische test die wordt gebruikt om de medians van twee onafhankelijke groepen te vergelijken. Het combineert alle waarnemingen, rangschikt ze, en vergelijkt de sommen van de rangen binnen elke groep. |
| Mann-Whitney U test | Een niet-parametrische test die equivalent is aan de Wilcoxon rangsomtest en ook wordt gebruikt om de medians van twee onafhankelijke groepen te vergelijken. De teststatistiek U is gebaseerd op het aantal keren dat een waarneming uit de ene groep kleiner is dan een waarneming uit de andere groep. |
| Kruskal-Wallis test | Een niet-parametrische test die wordt gebruikt om de medians van drie of meer onafhankelijke groepen te vergelijken. Het is een uitbreiding van de Wilcoxon rangsomtest naar meerdere groepen en is een alternatief voor de eenweg ANOVA. |
| p-waarde | De waarschijnlijkheid om een teststatistiek te observeren die minstens zo extreem is als de gevonden teststatistiek, aangenomen dat de nulhypothese waar is. Een lage p-waarde (< significantieniveau) leidt tot verwerping van de nulhypothese. |
| Nulhypothese (Ho) | Een stelling die de afwezigheid van een effect, een verschil of een relatie postuleert. Het is de hypothese die getoetst wordt en die, indien er voldoende bewijs is, verworpen kan worden. |
| Alternatieve hypothese (H1) | Een stelling die een effect, een verschil of een relatie postuleert, als tegenhanger van de nulhypothese. Dit kan een eenzijdige (groter dan of kleiner dan) of een tweezijdige (niet gelijk aan) hypothese zijn. |
| Steekproef | Een subset van een populatie die wordt gebruikt om conclusies te trekken over de gehele populatie. De representativiteit van de steekproef is cruciaal voor de geldigheid van de statistische inferentie. |
| Populatie | De gehele verzameling van individuen, objecten of metingen waarover men een conclusie wil trekken. |
| Rang | De positie van een waarneming in een geordende reeks van waarden. Waarnemingen worden gesorteerd van klein naar groot en krijgen een nummer toegewezen dat hun relatieve positie aangeeft. |
| Symmetrische kansdichtheid | Een kansverdeling waarbij de kansdichtheidsfunctie om een centrale waarde (meestal de mediaan of het gemiddelde) gespiegeld kan worden. Een normale verdeling is een voorbeeld van een symmetrische kansdichtheid. |