Cover
Comença ara de franc HC4c_LP_2025.pdf
Summary
# Inleiding tot niet-parametrische methoden
Niet-parametrische methoden zijn statistische technieken die gebruikt worden wanneer de aannames van parametrische methoden, zoals normaliteit van de populatieverdeling, niet voldaan zijn [6](#page=6).
### 1.1 De noodzaak van niet-parametrische methoden
Parametrische methoden vereisen specifieke aannames over de populatieparameters, zoals de gemiddelde waarde en de standaarddeviatie, en gaan er vaak van uit dat de gegevens uit een normale verdeling komen. Echter, in de praktijk zijn deze aannames niet altijd realistisch of verifieerbaar [3](#page=3).
Situaties waarin parametrische methoden ontoereikend zijn:
* **Kleine steekproeven met een niet-normale populatie:** Wanneer de steekproefgrootte klein is ($n$ klein) en er geen reden is om aan te nemen dat de populatie normaal verdeeld is, zijn de standaard t-testen niet toepasbaar. De exacte verdeling van de toetsingsgrootheid is dan onbekend [3](#page=3) [4](#page=4).
* **Kwalitatieve of ordinale data:** Parametrische toetsen zijn primair ontworpen voor numerieke, interval- of ratio-schaal gegevens. Voor kwalitatieve (nominale) of ordinale gegevens, waar alleen rangordes of categorieën relevant zijn, zijn niet-parametrische methoden noodzakelijk [6](#page=6).
* **Ontbrekende of extreme data:** Wanneer de data sterk afwijkt van een normale verdeling, bijvoorbeeld door uitschieters, kunnen niet-parametrische methoden robuuster zijn [6](#page=6).
#### 1.1.1 Illustratie van de beperkingen van parametrische methoden
Bij het testen van hypothesen over gemiddelden, zoals $H_0: \mu = \mu_0$ of $H_0: \mu_1 = \mu_2$, worden parametrische methoden (zoals de t-test) gebruikt onder specifieke voorwaarden. Als deze voorwaarden, met name de normaliteit van de populatie bij kleine steekproeven, niet voldaan zijn, ontstaat er een '???' situatie, wat aangeeft dat de gebruikelijke methoden niet volstaan en niet-parametrische alternatieven overwogen moeten worden [3](#page=3) [4](#page=4).
### 1.2 Algemene kenmerken van niet-parametrische methoden
Niet-parametrische methoden, ook wel "distribution-free" methoden genoemd, maken minder stringente aannames over de verdeling van de onderliggende populatie(s). Dit maakt ze flexibeler en breder toepasbaar [6](#page=6).
Belangrijke kenmerken:
* **Minder aannames:** Ze veronderstellen geen specifieke verdelingsvorm, zoals de normale verdeling [6](#page=6).
* **Brede toepasbaarheid:** Geschikt voor zowel numerieke als kwalitatieve (ordinale en nominale) gegevens [6](#page=6).
* **Minder krachtig:** Het nadeel van niet-parametrische methoden is dat ze doorgaans minder statistische kracht hebben dan hun parametrische tegenhangers wanneer aan de aannames van de parametrische tests voldaan zou zijn. Dit betekent dat de kans op een Type II fout (het niet verwerpen van een onjuiste nulhypothese) groter is [6](#page=6).
#### 1.2.1 Wanneer niet-parametrische methoden te verkiezen zijn
Het gebruik van niet-parametrische methoden is dus primair gerechtvaardigd wanneer de voorwaarden voor parametrische toetsen geschonden worden. Ze dienen als een essentieel hulpmiddel in de statistische analyse wanneer de data niet voldoet aan de vereisten van parametrische technieken [6](#page=6).
> **Tip:** Gebruik niet-parametrische methoden alleen wanneer dit strikt noodzakelijk is. Als de aannames van een parametrische test wel voldaan zijn, biedt de parametrische test meer statistische kracht om een effect te detecteren.
### 1.3 Voorbeeld van een situatie die niet-parametrische methoden vereist
Een experimentele studie vergelijkt twee zonnecrèmes, A en B, door ze op verschillende armen van proefpersonen aan te brengen. De observaties zijn de subjectieve beoordelingen van roodheid: "arm A minder rood dan arm B", "arm A meer rood dan arm B", of "arm A en B even rood" [5](#page=5).
In dit scenario zijn de gegevens niet numeriek, maar eerder ordinaal of zelfs categorisch. Er zijn geen kwantitatieve metingen van roodheid (bv. een schaal van 0-10). Daarom kunnen gebruikelijke parametrische toetsen die gemiddelden vergelijken, niet direct worden toegepast, wat de noodzaak voor niet-parametrische methoden illustreert [5](#page=5) [6](#page=6).
---
# De sign-test
De sign-test is een non-parametrische statistische toets die wordt gebruikt om te bepalen of er een significant verschil is tussen twee gerelateerde (afhankelijke) steekproeven, gebaseerd op het teken van de verschillen tussen paren van waarnemingen. Deze test is vooral nuttig wanneer de exacte magnitude van de verschillen niet bekend is of niet relevant is, maar enkel de richting van het verschil (beter dan, slechter dan, of gelijk) [13](#page=13) [8](#page=8) [9](#page=9).
### 2.1 Beschrijving van de sign-test
De sign-test analyseert de tekens (positief of negatief) van de verschillen tussen gepaarde waarnemingen. Het gaat ervan uit dat de verschillen afkomstig zijn uit een populatie met een mediane waarde van nul, indien de nulhypothese waar is [9](#page=9).
#### 2.1.1 Opstellen van hypothesen
Voor de sign-test worden de nul- en alternatieve hypothesen opgesteld met betrekking tot de mediaan van de verschillen tussen de twee gerelateerde metingen.
* **Nulhypothese ($H_0$)**: Er is geen verschil tussen de twee gerelateerde metingen, wat betekent dat de mediaan van de verschillen nul is ($\Delta = 0$). Beide groepen of condities zijn evenwaardig [9](#page=9).
* **Alternatieve hypothese ($H_A$)**: Er is een verschil tussen de twee gerelateerde metingen. Dit kan eenrichtingsverkeer zijn ($\Delta \neq 0$) of meer specifiek:
* $\Delta > 0$: De eerste meting is groter dan de tweede.
* $\Delta < 0$: De eerste meting is kleiner dan de tweede [9](#page=9).
Het is belangrijk om metingen waarbij het verschil nul is ($d_i = 0$) niet mee te nemen in de analyse, omdat deze geen informatie geven over de richting van het verschil [10](#page=10).
#### 2.1.2 De statistische grootheid
De statistische grootheid voor de sign-test wordt berekend op basis van het aantal positieve verschillen in de steekproef.
* Laat $n$ het totale aantal waarnemingen zijn waarbij het verschil niet nul is.
* Laat $C$ het aantal waarnemingen zijn waarbij het verschil groter is dan nul ($d_i > 0$).
Voor grote steekproeven (typisch $n \ge 30$), kan de volgende statistische grootheid worden benaderd met een standaard normaalverdeling:
$$Z = \frac{C - \frac{n}{2}}{\sqrt{\frac{n}{4}}}$$
Als de nulhypothese ($H_0: \Delta = 0$) waar is, dan wordt verwacht dat $C$ ongeveer gelijk is aan $n/2$. De formule kan ook worden herschreven als:
$$Z = \frac{C - n/2}{\sqrt{n}/2}$$
Deze $Z$-waarde kan vervolgens worden vergeleken met de kritieke waarden van de standaard normaalverdeling om een beslissing te nemen over het verwerpen van de nulhypothese [10](#page=10).
> **Tip:** De R-implementatie van de sign-test kan iets andere (ingewikkeldere) formules gebruiken, maar de interpretatie van de resultaten blijft hetzelfde. Voor kleine steekproeven ($n < 30$) is het aan te raden om de sign-test in R te gebruiken [13](#page=13).
#### 2.1.3 Toepassing en voorbeeld
De sign-test is geschikt voor situaties met afhankelijke steekproeven waarbij men enkel informatie heeft over ‘beter dan’ of ‘slechter dan’, maar niet over de precieze omvang van het verschil. De test kan ook worden toegepast op continue gegevens [13](#page=13).
**Voorbeeld: Zonnecrèmes**
Stel dat men de effectiviteit van twee zonnecrèmes, A en B, wil vergelijken op basis van de roodheid van de arm na blootstelling aan de zon. Roodheid van de arm is hier een kwantitatief gegeven, maar de analyse focust op of arm A minder rood is dan arm B, arm A roder is dan arm B, of dat ze even rood zijn.
* Voor patiënt $i$ noteren we $a_i$ als de roodheid van arm A en $b_i$ als de roodheid van arm B.
* Het verschil is $d_i = a_i - b_i$.
* $d_i < 0$ betekent dat arm A minder rood is dan arm B [1](#page=1).
* $d_i > 0$ betekent dat arm A roder is dan arm B [2](#page=2).
* $d_i = 0$ betekent dat arm A en B even rood zijn [3](#page=3).
In een steekproef van 45 patiënten worden de volgende resultaten verkregen:
| Verschil in roodheid | Aantal | Categorie |
| :----------------------------------- | :----- | :-------- |
| Arm A minder rood dan arm B | 22 | $d_i < 0$ |
| Arm A roder dan arm B | 18 | $d_i > 0$ |
| Arm A en arm B even rood | 5 | $d_i = 0$ |
Hierbij is de exacte meting van roodheid niet bekend, enkel de categorische informatie over het verschil [8](#page=8).
**Stap 1: Opstellen van de hypothesen**
We willen aantonen dat er een verschil is tussen zonnecrème A en B.
* $H_0: \Delta = 0$ (A en B zijn evenwaardig)
* $H_A: \Delta \neq 0$ (A en B zijn verschillend) [9](#page=9).
**Stap 2: Kies de test en bepalen van $n$ en de statistische grootheid**
De steekproefgrootte $n$ (aantal metingen waarbij het verschil niet nul is) is $22 + 18 = 40$. Aangezien $n = 40 \ge 30$, gebruiken we de normale benadering.
De statistische grootheid is: $Z = \frac{C - n/2}{\sqrt{n/4}}$ [10](#page=10).
**Stap 3: Bepalen van de kritieke regio**
Op een significantieniveau van 5% (s.n.), zijn de kritieke waarden voor een tweezijdige test voor de standaard normaalverdeling $\pm 1.96$. We verwerpen $H_0$ als de geobserveerde $Z$-waarde buiten het interval $[-1.96, 1.96]$ ligt [11](#page=11).
**Stap 4: Berekenen van de geobserveerde teststatistiek**
Het aantal gevallen met een positief verschil ($d_i > 0$) is $C = 18$. Het totale aantal niet-nul verschillen is $n = 40$.
De geobserveerde $Z$-waarde is:
$$Z = \frac{18 - \frac{40}{2}}{\sqrt{\frac{40}{4}}} = \frac{18 - 20}{\sqrt{10}} = \frac{-2}{3.162} \approx -0.6325$$ [12](#page=12).
**Stap 5: Conclusie trekken**
De geobserveerde $Z$-waarde van $-0.6325$ ligt binnen de kritieke regio $[-1.96, 1.96]$. Daarom verwerpen we de nulhypothese niet op een significantieniveau van 5%.
Er is geen significant verschil gevonden tussen zonnecrème A en B wat betreft de roodheid van de arm [12](#page=12).
De p-waarde wordt berekend als $2P(Z \le -0.6325)$. Met behulp van een standaard normaalverdelingstabel of software is $P(Z \le -0.6325) \approx 0.2643$.
De p-waarde is dus $2 \times 0.2643 = 0.5286$. Aangezien de p-waarde (0.5286) groter is dan het significantieniveau van 0.05, wordt $H_0$ niet verworpen [12](#page=12).
> **Voorbeeld in R (met vermelding van context uit de documentatie):**
> * **Voorbeeld 1 (oogdruppels):** Vergelijken van twee oogdruppels A en B. 15 personen.
> * Gegevens: 8 keer A minder rood dan B ($d_i < 0$), 2 keer A roder dan B ($d_i > 0$), 5 keer even rood ($d_i = 0$).
> * $n = 8 + 2 = 10$. $C = 2$ (aantal keren dat A roder is dan B, dus $d_i > 0$).
> * Hypothese: Wil nagaan of B beter is dan A. A werd aan één oog toegediend, B aan het andere.
> * Oog A = 0, Oog B = 1: A minder rood dan B.
> * Oog A = 1, Oog B = 0: B minder rood dan A.
> * Oog A = 0, Oog B = 0: A en B even rood.
> * Als men wil nagaan of B beter is dan A, en A hogere waarden heeft dan B (dus A is roder), dan is dit $d_{A-B} > 0$. Als we echter de verschillen interpreteren als $d_{A-B} = \text{roodheid}_A - \text{roodheid}_B$, dan is B beter als roodheid$_A$ lager is dan roodheid$_B$, dus $d_{A-B} < 0$.
> * In dit voorbeeld is de indeling "A minder rood dan B" vertaald als $d_i < 0$, en "A roder dan B" als $d_i > 0$. Als de vraag is "is B beter dan A", en een lagere roodheid is beter, dan willen we weten of er meer gevallen zijn van "A minder rood dan B" ($d_i < 0$) dan "A roder dan B" ($d_i > 0$).
> * De R-output voor een rechts-éénzijdige test ($\Delta_{A-B} \le 0$ vs $\Delta_{A-B} > 0$) gaf een p-waarde van 0.9893. Dit betekent dat we $H_0$ niet verwerpen, en er is geen significant bewijs dat B beter is dan A (of dat A roder is dan B) [15](#page=15) [16](#page=16).
> * **Voorbeeld 2 (multitasking):** Vergelijken van multitasking vaardigheden tussen mannen en vrouwen. 38 koppels.
> * Vrouw snelst: vrouw=0, man=1. Man snelst: vrouw=1, man=0.
> * Als de vrouw sneller is, is het verschil Vrouw-Man negatief. Als de man sneller is, is het verschil Vrouw-Man positief.
> * $H_0: \Delta_{Man-Vrouw} < 0$ (man is minder goed dan vrouw)
> * $H_A: \Delta_{Man-Vrouw} \ge 0$ (man is beter of gelijk aan vrouw) [17](#page=17).
> * De R output voor dit voorbeeld wordt vervolgens geanalyseerd om een besluit te trekken [18](#page=18).
#### 2.1.4 Wanneer de sign-test gebruiken?
De sign-test wordt aanbevolen onder de volgende omstandigheden:
* Wanneer er sprake is van afhankelijke (gepaarde) steekproeven [13](#page=13).
* Wanneer de beschikbare gegevens enkel de richting van het verschil aangeven (beter, slechter, gelijk) en niet de exacte kwantitatieve verschillen [13](#page=13).
* Bij continue gegevens, hoewel parametrische methoden de voorkeur hebben bij grote steekproeven [13](#page=13).
* Vooral wanneer de aannames van parametrische toetsen (zoals normaliteit van de residuen) niet voldaan zijn, of wanneer de steekproefgrootte klein is [13](#page=13).
Als $n \ge 30$, kan de test met de normale benadering worden uitgevoerd. Voor kleinere steekproeven wordt het gebruik van software zoals R aangeraden [13](#page=13).
---
# De signed-rank test
De signed-rank test is een non-parametrische statistische test die wordt gebruikt om te bepalen of er een significant verschil is tussen twee gerelateerde metingen, of om te testen of de mediaan van een populatie gelijk is aan nul. Dit kan worden toegepast op afhankelijke steekproeven of op één steekproef met gepaarde metingen. De test is geschikt voor ordinale en continue gegevens. Bij grote, continue steekproeven wordt echter de voorkeur gegeven aan een parametrische methode [26](#page=26).
### 3.1 Het idee achter de signed-rank test
Het centrale idee van de signed-rank test is het onderzoeken of 50% van de observaties links van nul ligt en 50% rechts daarvan. De test werkt niet direct met de gemeten verschillen ($d_i$), maar met de rangnummers van de absolute waarden van deze verschillen ($|d_i|$) [22](#page=22).
#### 3.1.1 Berekening van de rangnummers
De procedure omvat de volgende stappen:
1. Bereken de verschillen ($d_i$) tussen de gepaarde observaties voor elke eenheid [20](#page=20).
2. Negeer observaties waarbij het verschil nul is [21](#page=21).
3. Neem de absolute waarden van de overgebleven verschillen ($|d_i|$) [22](#page=22).
4. Rangschik deze absolute waarden van klein naar groot [22](#page=22).
5. Wanneer er gelijke waarden ($|d_i|$) zijn, wordt het gemiddelde van hun rangposities toegekend [22](#page=22).
6. Wijs vervolgens aan de oorspronkelijke verschillen ($d_i$) de rangnummers toe die overeenkomen met hun absolute waarden. Positieve verschillen ($d_i > 0$) krijgen de positieve rangen, en negatieve verschillen ($d_i < 0$) krijgen de negatieve rangen (dit gebeurt impliciet door de toekenning van rangen aan de oorspronkelijke getekende verschillen) [22](#page=22) [23](#page=23).
#### 3.1.2 De statistische grootheid $R^+$
De teststatistiek wordt gebaseerd op de som van de rangnummers van de positieve verschillen. Dit wordt aangeduid als $R^+$. De berekening van $R^+$ gebeurt door de gemiddelde rangnummers te vermenigvuldigen met het aantal waarnemingen dat tot die rangnummers behoort, en deze producten op te tellen voor alle positieve verschillen [23](#page=23) [24](#page=24).
* **Interpretatie van $R^+$:**
* Een grote waarde van $R^+$ suggereert dat de rangnummers voor positieve verschillen groot zijn, wat kan duiden op een significant verschil [24](#page=24).
* Een kleine waarde van $R^+$ suggereert dat de rangnummers voor positieve verschillen klein zijn, wat eveneens kan duiden op een significant verschil [24](#page=24).
#### 3.1.3 De verdeling van de teststatistiek
Wanneer de steekproefgrootte $n$ groot is (typisch $n \geq 16$), kan de teststatistiek benaderd worden door een normale verdeling. De formule voor de teststatistiek in de benadering is [25](#page=25):
$$ Z = \frac{R^+ - \frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}}} $$
Hierbij is $n$ het aantal waarnemingen waarvoor het verschil niet nul is. De teller is het verschil tussen de geobserveerde som van de positieve rangen en de verwachte som onder de nulhypothese, en de noemer is de standaardafwijking van deze som. De noemer kan ook worden geschreven als [25](#page=25) [28](#page=28):
$$ \sigma_{R^+} = \sqrt{\frac{1}{24} \sum_{j=1}^n r_j^2} $$
waar $r_j$ de rangen zijn van de absolute verschillen [25](#page=25).
### 3.2 Toepassingen in R met voorbeelden
De signed-rank test wordt in R uitgevoerd met de functie `wilcox.test()`.
#### 3.2.1 Voorbeeld 1: Verschil in zonnecrème effectiviteit
Stel dat het verschil in roodheid tussen arm A en arm B (gedefinieerd als roodheid van A min roodheid van B) voor 45 personen is genoteerd. De nulhypothese is dat er geen verschil is tussen de zonnecrèmes ($H_0: \Delta = 0$), en de alternatieve hypothese is dat er wel een verschil is ($H_A: \Delta \neq 0$) [28](#page=28).
* **Gegevens:** De gemeten verschillen ($d_i$) kunnen variëren van -8 tot 3 [21](#page=21).
* **Berekeningen:** Voor een steekproef van $n=40$ (na verwijdering van 5 observaties met een verschil van 0) is de berekende $R^+$ waarde 248 [28](#page=28).
* **Output R:** De p-waarde die door R wordt verkregen is 0.02869 [28](#page=28).
* **Conclusie:** Op een significantieniveau van 5% wordt de nulhypothese verworpen. Dit betekent dat de zonnecrèmes A en B significant van elkaar verschillen in effectiviteit [28](#page=28).
> **Tip:** Let op dat R interne formules kan gebruiken die iets afwijken van de theoretische benadering, wat kan leiden tot kleine verschillen in de uitkomst, vooral bij het gebruik van `exact=TRUE` [30](#page=30).
#### 3.2.2 Voorbeeld 2: Behandeling van een oogprobleem
Bij 19 patiënten met een oogprobleem wordt de verandering in elektrische activiteit voor en na een behandeling gemeten. De steekproef is klein en komt uit een niet-normaal verdeelde populatie, wat de signed-rank test een geschikte methode maakt [29](#page=29).
* **Hypothesen:**
* $H_0: \Delta_{scoreverandering} = 0$ (Er is geen verandering in elektrische activiteit)
* $H_A: \Delta_{scoreverandering} \neq 0$ (Er is een verandering in elektrische activiteit)
* **Gegevens:** De dataset bevat de verschillen (na-voor) [29](#page=29).
* **Toepassing in R:** De `wilcox.test()` functie kan worden gebruikt. De optie `exact=TRUE` kan worden overwogen voor kleine steekproeven als de normale benadering niet volstaat, wat kan leiden tot een exacte p-waarde zonder gebruik te maken van de normale benadering [30](#page=30).
#### 3.2.3 Voorbeeld 3: Multitasking (uit een tussentijdse test)
In een vraagstuk over multitasking werden de effectieve tijden (in minuten) bijgehouden van 38 koppels. De vraag is welke p-waarde gebruikt moet worden uit de output om na te gaan of vrouwen sneller zijn in het uitvoeren van 5 taken dan mannen. Dit scenario impliceert een gekoppelde t-test of een signed-rank test, afhankelijk van de verdeling van de verschillen. Als de vraag is "of vrouwen sneller zijn", dan is dit een éénzijdige test. De correcte p-waarde uit de output moet worden geselecteerd, die aangeeft of het verschil significant is op een bepaald significantieniveau [31](#page=31).
---
# De rank-sum test
De rank-sum test, ook bekend als de Mann-Whitney U-test, is een non-parametrische statistische test die wordt gebruikt om te bepalen of twee onafhankelijke groepen significant van elkaar verschillen op het niveau van de mediane waarde [35](#page=35).
### 4.1 Toepassingsgebieden van de rank-sum test
De rank-sum test wordt toegepast in de volgende situaties [36](#page=36):
* Wanneer er twee onafhankelijke steekproeven zijn.
* Wanneer de gegevens van ordinaal of continu van aard zijn.
* Bij grote, continue steekproeven heeft een parametrische methode de voorkeur.
* Wanneer in één van de groepen minder dan tien observaties zijn, dient de exacte rank-sum test te worden uitgevoerd.
### 4.2 Werkwijze en hypotheses
De rank-sum test is, analoog aan de signed-rank test, gebaseerd op rangnummers. Het idee is dat indien er veel en/of grote rangnummers in één groep voorkomen in vergelijking met de andere groep, er waarschijnlijk een verschil is tussen de groepen [35](#page=35).
De hypotheses die getoetst worden zijn doorgaans:
$H_0: \Delta_1 = \Delta_2$ (Er is geen verschil in de mediane waarden van de twee groepen)
$H_A: \Delta_1 \neq \Delta_2$ (Er is een verschil in de mediane waarden van de twee groepen) [35](#page=35).
Of, wanneer een richting van het verschil wordt verwacht:
$H_0: \Delta_1 - \Delta_2 = 0$
$H_A: \Delta_1 - \Delta_2 \neq 0$ of $H_A: \Delta_1 - \Delta_2 > 0$ of $H_A: \Delta_1 - \Delta_2 < 0$ [38](#page=38) [41](#page=41).
### 4.3 De rank-sum test in R
De rank-sum test kan met behulp van R worden uitgevoerd. Het is belangrijk dat R de ordening van de gegevens correct interpreteert. Wanneer gegevens bijvoorbeeld een ordinale schaal vertegenwoordigen die R niet direct herkent als geordend (zoals 'gezichtsscherpte' van beste naar slechtste), kan het nodig zijn om een continue variabele te definiëren die deze ordening wel weergeeft [38](#page=38).
> **Tip:** De rank-sum test hoeft niet handmatig uitgerekend te worden; de interpretatie van de resultaten in R is het belangrijkst [35](#page=35).
#### 4.3.1 Voorbeeld 1: Gezichtsscherpte bij retinitis pigmentosa
**Probleem:** Verschil in gezichtsscherpte tussen patiënten met de dominante (D) en de geslachtsgebonden (SL) vorm van retinitis pigmentosa [34](#page=34).
**Gegevens:**
| Gezichtsscherpte | Dominant (D) | Geslachtsgebonden (SL) |
| :--------------- | :----------- | :--------------------- |
| 20-20 (beste) | 5 | 1 |
| 20-25 | 9 | 5 |
| 20-30 | 6 | 4 |
| 20-40 | 3 | 4 |
| 20-50 | 2 | 8 |
| 20-60 | 0 | 5 |
| 20-70 | 0 | 2 |
| 20-80 (slechtste)| 0 | 1 |
**Hypotheses:**
$H_0: \Delta_D = \Delta_{SL}$
$H_A: \Delta_D \neq \Delta_{SL}$ [35](#page=35).
**R-code en interpretatie:**
Wanneer de data is ingevoerd in R, en de 'gezichtsscherpte' als een continue variabele is gedefinieerd (bijvoorbeeld door een nummer toe te kennen aan elke categorie van beste naar slechtste zicht) kan de rank-sum test worden uitgevoerd [38](#page=38).
Stel dat de output van de test een p-waarde van 0.0001513 oplevert voor de alternatieve hypothese $H_A: \Delta_D - \Delta_{SL} \neq 0$ [40](#page=40).
Aangezien deze p-waarde kleiner is dan het significantieniveau van 0.05, wordt de nulhypothese verworpen [40](#page=40).
**Conclusie:** Er is een significant verschil in de mediane gezichtsscherpte tussen patiënten met retinitis pigmentosa met de geslachtsgebonden vorm en de dominante vorm [40](#page=40).
> **Opmerking:** De rank-sum test is hier geschikt omdat voor de t-test de aannames (zoals normaliteit of voldoende grote steekproeven) mogelijk niet voldaan zijn. Hier geldt $n_D = 25 < 30$ en er is geen informatie over normaliteit. Aangezien $n_D \ge 10$ en $n_{SL} \ge 10$, kan `exact=FALSE` worden gebruikt in R [40](#page=40).
#### 4.3.2 Voorbeeld 2: Scores van twee klassen in het lager onderwijs
**Probleem:** Nagaan of klas 1 (met een ervaren leraar) beter scoort dan klas 2 (met een jonge leerkracht) [41](#page=41).
**Gegevens:**
* Klas 1: 18 leerlingen
* Klas 2: 21 leerlingen
* Resultaten in klas 1 zijn niet normaal verdeeld.
**Hypotheses:**
$H_0: \Delta_1 = \Delta_2$
$H_A: \Delta_1 > \Delta_2$ [41](#page=41).
**R-code en interpretatie:**
De aannames voor een t-test zijn hier niet voldaan: $n_1 = 18 < 30$ en $n_2 = 21 < 30$, en er is geen normaliteit. Daarom wordt de rank-sum test met `exact=FALSE` gebruikt [41](#page=41).
Stel dat de p-waarde voor de alternatieve hypothese $H_A: \Delta_1 - \Delta_2 > 0$ 0.02787 is [41](#page=41).
Aangezien deze p-waarde kleiner is dan het significantieniveau van 0.05, wordt de nulhypothese verworpen [41](#page=41).
**Conclusie:** Er is een significant hogere mediane score in klas 1 ten opzichte van klas 2 [41](#page=41).
---
# Overzicht van niet-parametrische en parametrische methoden
Deze sectie biedt een overzicht van statistische tests en hun toepassingen, rekening houdend met het datatype en de kenmerken van de steekproef [42](#page=42).
### 5.1 Continue gegevens
Voor continue gegevens worden de volgende tests onderscheiden op basis van het aantal steekproeven en de voorwaarden voor de distributie [43](#page=43).
#### 5.1.1 Eén steekproef of gepaarde metingen
* **Voorwaarden:** De steekproefgrootte moet $n \geq 30$ zijn, of de populatie moet normaal verdeeld zijn [43](#page=43).
* **Voldaan aan voorwaarden:**
* Manueel: Gebruik de $t$-verdeling met $n-1$ vrijheidsgraden [43](#page=43).
* In R: Gebruik `t.test()` met één variabele of `paired=TRUE` [43](#page=43).
* **Niet voldaan aan voorwaarden:**
* Manueel: Gebruik de signed-rank test, mits $n \geq 16$ [43](#page=43).
* In R: Gebruik `wilcox.test()` met één variabele of `paired=TRUE` [43](#page=43).
#### 5.1.2 Twee steekproeven
* **Voorwaarden:** De minimale steekproefgrootte van de twee groepen moet $\min(n_1, n_2) \geq 30$ zijn, of beide populaties moeten normaal verdeeld zijn [43](#page=43).
* **Voldaan aan voorwaarden:**
* De test kan enkel in R worden uitgevoerd met `t.test()` (met `paired=FALSE`) [43](#page=43).
* Voer eerst `var.test()` uit om de gelijkheid van varianties te controleren [43](#page=43).
* Bij gelijkheid van varianties: Gebruik `var.equal=TRUE` voor de 2-sample $t$-test [43](#page=43).
* Bij ongelijkheid van varianties: Gebruik `var.equal=FALSE` voor de Welch 2-sample $t$-test [43](#page=43).
* **Niet voldaan aan voorwaarden:**
* De rank-sum test kan enkel in R worden uitgevoerd met `wilcox.test()` (met `paired=FALSE`) [43](#page=43).
### 5.2 Binaire gegevens
Voor binaire gegevens worden proportietests gebruikt, waarbij de voorwaarden afhangen van de steekproefgrootte en de te verwachten proporties [44](#page=44).
#### 5.2.1 Eén steekproef
* **Voorwaarden:** $n\pi_0 \geq 5$ en $n(1-\pi_0) \geq 5$, waarbij $\pi_0$ de verwachte proportie onder de nulhypothese is [44](#page=44).
* **Voldaan aan voorwaarden:**
* Manueel: Gebruik de normale verdeling [44](#page=44).
* In R: Gebruik `prop.test()` [44](#page=44).
* **Niet voldaan aan voorwaarden:**
* De test kan enkel in R worden uitgevoerd met `binom.test()` [44](#page=44).
#### 5.2.2 Twee steekproeven
* **Voorwaarden:** $\min(n_1, n_2)\bar{p} \geq 5$ en $\min(n_1, n_2)(1-\bar{p}) \geq 5$, waarbij $\bar{p}$ de gepoolde proportie is [44](#page=44).
* **Voldaan aan voorwaarden:**
* Manueel: Gebruik de normale verdeling [44](#page=44).
* In R: Gebruik `prop.test()` [44](#page=44).
* **Niet voldaan aan voorwaarden:**
* De test kan enkel in R worden uitgevoerd met `fisher.test()` [44](#page=44).
### 5.3 Ordinale gegevens
Voor ordinale gegevens worden uitsluitend niet-parametrische methoden gebruikt [45](#page=45).
#### 5.3.1 Eén steekproef of gepaarde metingen
* **Sign test:**
* Deze test vergelijkt of observatie A beter is dan B, of vice versa, zonder rekening te houden met de mate van verschil [45](#page=45).
* Manueel: Gebruik de normale verdeling indien $n \geq 30$ [45](#page=45).
* In R: Gebruik `SIGN.test()` [45](#page=45).
* **Signed-rank test:**
* Deze test neemt ook de gradatie van het verschil mee (hoeveel beter is A dan B?) [45](#page=45).
* In R: Gebruik `wilcox.test()` met één variabele of `paired=TRUE` [45](#page=45).
#### 5.3.2 Twee steekproeven
* **Rank-sum test:**
* Deze test is enkel uit te voeren in R [45](#page=45).
* In R: Gebruik `wilcox.test()` met `paired=FALSE` [45](#page=45).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-parametrische methoden | Statistische methoden die minder strikte aannames doen over de verdeling van de data dan parametrische methoden. Ze zijn nuttig bij kleine steekproeven, niet-normaal verdeelde data, of ordinale data. |
| Parametrische methoden | Statistische methoden die aannames maken over de parameters van de populatie, zoals de normale verdeling. Ze zijn over het algemeen krachtiger dan niet-parametrische methoden wanneer de aannames voldaan zijn. |
| Power (Statistiek) | De kans om de nulhypothese te verwerpen wanneer deze onwaar is (dus de kans om een werkelijk effect te detecteren). Een hogere power is wenselijk. |
| Type II fout | Het niet verwerpen van de nulhypothese wanneer deze onwaar is. Dit wordt ook wel een "fout van de tweede soort" genoemd. |
| Sign-test | Een niet-parametrische test voor gepaarde metingen of één steekproef, die alleen kijkt naar het teken (positief of negatief) van de verschillen en niet naar de grootte ervan. |
| Mediaan | De middelste waarde in een geordende dataset. 50% van de data ligt onder de mediaan en 50% erboven. |
| Hypothese | Een uitspraak die getest wordt. De nulhypothese ($H_0$) stelt meestal dat er geen effect of verschil is, terwijl de alternatieve hypothese ($H_A$) stelt dat er wel een effect of verschil is. |
| Signed-rank test | Een niet-parametrische test voor gepaarde metingen of één steekproef die rekening houdt met zowel het teken als de rangorde van de absolute verschillen. |
| Rangnummers | De volgorde van de waarden in een dataset, waarbij de kleinste waarde rang 1 krijgt, de volgende rang 2, enzovoort. |
| Rank-sum test | Een niet-parametrische test voor twee onafhankelijke groepen, die de rangnummers van de data in beide groepen vergelijkt om te bepalen of er een significant verschil is tussen de medianen. |
| Steekproef | Een deelverzameling van een populatie die wordt onderzocht om conclusies te trekken over de gehele populatie. |
| Populatie | De gehele groep waarover een uitspraak wordt gedaan. |
| Afhankelijke steekproeven | Steekproeven waarbij de metingen binnen de ene groep gerelateerd zijn aan de metingen in de andere groep, bijvoorbeeld herhaalde metingen bij dezelfde personen. |
| Onafhankelijke steekproeven | Steekproeven waarbij de metingen in de ene groep geen invloed hebben op de metingen in de andere groep. |
| Continue gegevens | Data die elke waarde binnen een bepaald bereik kunnen aannemen, zoals lengte, gewicht of temperatuur. |
| Ordinale gegevens | Data die een natuurlijke volgorde hebben, maar waarbij de afstanden tussen de waarden niet noodzakelijk gelijk zijn, zoals ranglijsten of beoordelingen (bijv. "goed", "matig", "slecht"). |
| Binaire gegevens | Data die slechts twee mogelijke uitkomsten hebben, zoals "ja/nee" of "geslaagd/gezakt". |
| Significantieniveau (s.n.) | Het risico dat wordt aanvaard om de nulhypothese te verwerpen terwijl deze waar is (type I fout). Vaak ingesteld op 5% (0.05). |
| P-waarde | De kans om de geobserveerde resultaten of extremere resultaten te verkrijgen, aannemende dat de nulhypothese waar is. Een lage p-waarde (typisch < significantieniveau) leidt tot verwerping van de nulhypothese. |
| Normaal verdeelde populatie | Een populatie waarvan de waarden een symmetrische, klokvormige verdeling volgen, de zogenaamde Gauss-curve. |
| Variantie | Een maat voor de spreiding van data rondom het gemiddelde. Het is het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde. |