Cover
Start now for free dia h 3.pdf
Summary
# Inleiding tot niet-parametrische testen
Dit deel introduceert niet-parametrische testen als een alternatief voor parametrische testen wanneer aan de onderliggende aannames niet voldaan is, met specifieke aandacht voor hun bruikbaarheid bij kleine steekproeven en nominale/ordinale meetschalen.
### 1.1 Parametrische versus niet-parametrische testen
Parametrische testen, zoals de t-test en ANOVA, steunen op aannames over de verdeling van de populatie, met name de normaliteitsverdeling. Wanneer deze aannames niet voldaan zijn, of wanneer men werkt met kleine steekproeven, worden niet-parametrische testen een waardevol alternatief. Deze testen zijn niet gericht op specifieke parameters van een verdeling. Ze zijn met name nuttig bij relatief kleine steekproeven, bijvoorbeeld in pilootstudies. Soms kunnen ze ook toegepast worden bij nominale of ordinale meetschalen, waarbij ze bekend staan als rangordetesten [1](#page=1).
> **Tip:** Niet-parametrische testen zijn een belangrijke uitbreiding van de statistische analysemethoden, vooral wanneer de klassieke aannames van parametrische testen geschonden worden.
### 1.2 Power van niet-parametrische testen
De keuze tussen een parametrische en een niet-parametrische test hangt niet alleen af van de beschikbare informatie, maar ook van de statistische power van de test. Over het algemeen hebben niet-parametrische testen een lagere power dan hun parametrische tegenhangers. Echter, als de aannames van een parametrische test niet voldaan zijn, kan deze test juist een lagere power hebben en bovendien onbetrouwbare conclusies opleveren [2](#page=2).
### 1.3 Testen voor de verdeling (goodness-of-fit)
Een specifieke toepassing van statistische testen betreft het toetsen of een populatie een bepaalde verdeling volgt, zoals een normale, exponentiële of andere verdeling. Deze "goodness-of-fit" testen onderzoeken of de data uit een steekproef bewijs levert dat de werkelijke verdeling afwijkt van de voorgestelde verdeling [2](#page=2).
Er bestaan diverse goodness-of-fit testen, waaronder:
* Pearson $\chi^2$-test [2](#page=2).
* Kolmogorov-Smirnov test [2](#page=2).
* Cramér-Von Mises test [2](#page=2).
* Shapiro-Wilk test [2](#page=2).
* Anderson-Darling test [2](#page=2).
De keuze voor een specifieke test hangt af van het type verdeling, de steekproefgrootte en andere factoren [2](#page=2).
> **Tip:** Het niet verwerpen van de nulhypothese bij een goodness-of-fit test betekent niet automatisch dat de voorgestelde verdeling de juiste is. Het betekent enkel dat er onvoldoende bewijs is gevonden om de voorgestelde verdeling te verwerpen [2](#page=2).
---
# Goodness-of-fit testen voor verdelingen
Goodness-of-fit testen worden gebruikt om te bepalen of een steekproef overeenkomt met een specifieke theoretische verdeling [2](#page=2) [3](#page=3).
### 2.1 Algemene principes
* Het doel is na te gaan of een populatie normaal, exponentieel, of een andere specifieke verdeling volgt, door de steekproefgegevens te vergelijken met de theoretische verdeling [3](#page=3).
* Als de nulhypothese ($H_0$) niet verworpen wordt, betekent dit niet automatisch dat de veronderstelde verdeling correct is, maar enkel dat er onvoldoende bewijs is om deze te verwerpen [3](#page=3).
* De keuze van de test hangt af van het type verdeling, de steekproefgrootte, en de beschikbare informatie [2](#page=2) [3](#page=3).
* Niet-parametrische testen hebben doorgaans een lagere power dan parametrische testen, maar een parametrische test kan ook een lagere power hebben als de onderstellingen niet voldaan zijn, wat bovendien tot onbetrouwbare conclusies kan leiden [2](#page=2).
### 2.2 Pearson x²-test
De Pearson x²-test wordt gebruikt om te onderzoeken of een discrete of continue verdeling past bij de steekproefgegevens, waarbij de geobserveerde aantallen worden vergeleken met de verwachte aantallen [3](#page=3) [4](#page=4).
#### 2.2.1 Concept
* De test werkt met aantallen en is dus geschikt voor nominale meetschalen [3](#page=3).
* **Nulhypothese ($H_0$)**: De kansvariabele $Y$ volgt een specifieke kansverdeling $f_0$ [3](#page=3).
* **Alternatieve hypothese ($H_1$)**: De kansvariabele $Y$ volgt een andere kansverdeling [3](#page=3).
* De mogelijke uitkomsten van $Y$ worden verdeeld in $k$ klassen [3](#page=3).
* De kans op een uitkomst in klasse $i$ wordt genoteerd als $p_i$ [3](#page=3).
* Bij een steekproefgrootte $n$, is het verwachte aantal waarnemingen in klasse $i$ gelijk aan $n p_i$ [3](#page=3).
* Het werkelijke aantal waarnemingen in klasse $i$ wordt genoteerd als $N_i$ [3](#page=3).
#### 2.2.2 Teststatistiek
De teststatistiek vergelijkt de waargenomen en verwachte aantallen:
$$X^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i}$$ [4](#page=4).
* Voor twee klassen ($k=2$), kan de teststatistiek ook geschreven worden als:
$$X^2 = \frac{(N_1 - np_1)^2}{np_1} + \frac{(N_2 - np_2)^2}{np_2}$$ [4](#page=4).
Onder $H_0$ voor grote $n$, en indien $N_1 \sim B(n, p_1)$, kan deze worden herschreven als:
$$X^2 = \frac{N_1 - np_1}{\sqrt{np_1(1-p_1)}}^2$$ [4](#page=4).
Dit volgt een chi-kwadraat verdeling met $k-1$ vrijheidsgraden ($X_{k-1}^2$) [4](#page=4).
* Als $H_0$ onwaarschijnlijk is, zullen de afwijkingen in de teller groot zijn, wat resulteert in een grote $X^2$-waarde [4](#page=4).
* $H_0$ wordt verworpen als $X^2$ groter is dan de kritieke waarde $X_{k-1, 1-\alpha}^2$ [4](#page=4).
#### 2.2.3 Opmerkingen en aanpassingen
* De $X^2$-benadering is enkel betrouwbaar bij grote waarden van $n$. Een vuistregel is dat het verwachte aantal per klasse ($np_i$) minimaal 5 moet zijn [5](#page=5).
* De test kan ook gebruikt worden voor continue verdelingen, maar met beperkte power [5](#page=5).
* Als de verdeling parameters bevat die geschat moeten worden, leidt dit tot een kleinere afwijking. De vrijheidsgraden moeten dan gecorrigeerd worden: $k - 1 - m$, waarbij $m$ het aantal geschatte parameters is [5](#page=5).
#### 2.2.4 Voorbeelden
* **Eerlijke dobbelsteen:** Bij 120 worpen worden de geobserveerde aantallen vergeleken met de verwachte 20 per getal. Als de teststatistiek $X^2 = 11.30$ is en de kritieke waarde $X_{5, 0.95}^2 = 11.07$, wordt $H_0$ verworpen, wat suggereert dat de dobbelsteen vervalst is [5](#page=5).
* **Representatieve steekproef (leeftijd):** Een steekproef van 200 Gentenaars wordt vergeleken met de populatieverdeling. Na het berekenen van de kansen en verwachte aantallen per leeftijdsgroep, wordt de teststatistiek $X^2 = 6.92$ berekend. Met een kritieke waarde van $X_{5, 0.95}^2 = 11.07$ en een $p$-waarde van 0.23, wordt $H_0$ niet verworpen; de verdeling in de steekproef wijkt niet significant af van de populatie [6](#page=6).
* **Call center (Poisson verdeling):** Om te testen of het aantal oproepen per minuut Poisson verdeeld is, wordt de parameter $\lambda$ geschat uit de steekproef als $\hat{\lambda} = 3.17$. De berekende teststatistiek is $X^2 = 20.49$. Met 9 klassen en 1 geschatte parameter, zijn er $9 - 1 - 1 = 7$ vrijheidsgraden. Aangezien $20.49 > X_{7, 0.95}^2 = 14.07$, wordt $H_0$ verworpen [1](#page=1) [7](#page=7).
### 2.3 Kolmogorov-Smirnov test
De Kolmogorov-Smirnov (KS) test is een niet-parametrische test die gebruikt wordt om te bepalen of een steekproef afkomstig is uit een specifieke continue verdelingsfunctie ($F_0$) [8](#page=8).
#### 2.3.1 Concept
* **Nulhypothese ($H_0$)**: De kansvariabele $X$ heeft een cumulatieve verdelingsfunctie $F_0$ [8](#page=8).
* **Alternatieve hypothese ($H_1$)**: De kansvariabele $X$ heeft een andere cumulatieve verdelingsfunctie [8](#page=8).
* De test maakt gebruik van de empirische verdelingsfunctie ($\hat{F}_n$), die het aantal waarnemingen kleiner dan of gelijk aan $x$ deelt door $n$:
$$\hat{F}_n(x) = \frac{\text{aantal waarnemingen } \le x}{n}$$ [8](#page=8).
* De teststatistiek ($D$) is de maximale absolute afwijking tussen de theoretische en de empirische verdelingsfunctie:
$$D = \max |F_0(x) - \hat{F}_n(x)|$$ [8](#page=8).
#### 2.3.2 Toepassing en beperkingen
* De test is enkel bruikbaar voor een volledig gespecificeerde, continue verdeling $F_0$ [8](#page=8).
* De verdeling van $D$ onder $H_0$ is onafhankelijk van $F_0$, wat de test breed toepasbaar maakt [9](#page=9).
* De KS-test heeft een lagere power dan tests die specifiek zijn voor een bepaalde verdeling, zoals de Shapiro-Wilk test voor normaliteit [9](#page=9).
* De test is minder gevoelig voor afwijkingen in de staarten van de verdeling vergeleken met tests zoals de Anderson-Darling test [9](#page=9).
#### 2.3.3 Voorbeeld
* **Exponentiële wachttijd:** Om te testen of wachttijden exponentieel verdeeld zijn met $\lambda = 0.04$ (gemiddelde 25), wordt de KS-test toegepast op een steekproef van 12 waarnemingen. De grootste afwijking is $D = 0.21455$, met een $p$-waarde van 0.6386. Omdat $0.6386 > 0.05$, wordt $H_0$ niet verworpen; de verdeling van de wachttijd wijkt niet significant af van $Exp(0.04)$ [10](#page=10).
* **Tip:** De Kolmogorov-Smirnov test is gevoelig voor duplicaten in de data, wat een waarschuwing kan geven tijdens de analyse [10](#page=10).
### 2.4 Lilliefors test
De Lilliefors test is een aangepaste versie van de Kolmogorov-Smirnov test voor het geval dat de parameters van de theoretische verdeling (bijvoorbeeld het gemiddelde en de standaardafwijking van een normale verdeling) geschat moeten worden uit de steekproef [10](#page=10).
* Wanneer parameters geschat worden, is de standaard KS-test niet meer geldig omdat de empirische verdeling dichter bij de geschatte verdeling ligt, waardoor de kritieke waarden kleiner moeten zijn [10](#page=10).
* De Lilliefors test gebruikt aangepaste kritieke waarden voor de normale verdeling wanneer $\mu$ en $\sigma^2$ geschat zijn [10](#page=10).
#### 2.4.1 Voorbeeld
* **BEL20 rendement:** Om te testen of het rendement van de BEL20 normaal verdeeld is met onbekende parameters, worden $\mu$ en $\sigma^2$ geschat op respectievelijk 0.3460 en 0.3996. De standaard KS-test met deze geschatte parameters geeft een $p$-waarde van 0.4447. Echter, de Lilliefors correctie, die rekening houdt met de parameterestimatie, levert een $p$-waarde van 0.07 op. Dit wordt ook bevestigd door de SPSS output waarbij de Lilliefors gecorrigeerde $p$-waarde 0.070 is, vergeleken met de standaard KS $p$-waarde van 0.4447. Op een significantieniveau van 5% zou $H_0$ dus niet verworpen worden met de Lilliefors test [11](#page=11).
### 2.5 Shapiro-Wilk test
De Shapiro-Wilk test is specifiek ontworpen om normaliteit te toetsen en wordt algemeen beschouwd als een van de krachtigste tests voor deze aanname, vooral bij kleinere steekproeven [12](#page=12).
#### 2.5.1 Concept
* **Nulhypothese ($H_0$)**: De kansvariabele $X$ is normaal verdeeld ($X \sim N(\mu, \sigma^2)$) [12](#page=12).
* **Alternatieve hypothese ($H_1$)**: De kansvariabele $X$ is niet normaal verdeeld [12](#page=12).
* De teststatistiek $W$ is gebaseerd op de verhouding tussen een gewogen som van de geordende steekproefobservaties en de totale steekproefvariantie:
$$W = \frac{(\sum_{i=1}^{n} a_i X_{(i)})^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}$$ [12](#page=12).
waarbij $X_{(i)}$ de geordende steekproefobservaties zijn en $a_i$ coëfficiënten die afhangen van de steekproefgrootte en de verwachte waarden van geordende normaal verdeelde random variabelen.
* $W$ is altijd kleiner dan of gelijk aan 1. Waarden dicht bij 1 duiden op normaliteit [12](#page=12).
* Een normale QQ-plot, die empirische kwantielen uitzet tegenover theoretische kwantielen van de normale verdeling, kan helpen bij het visueel beoordelen van normaliteit en de aard van afwijkingen [12](#page=12).
#### 2.5.2 Toepassing en interpretatie
* De teststatistiek en de $p$-waarde worden meestal berekend met statistische software [12](#page=12).
* De Shapiro-Wilk test heeft relatief grote power [13](#page=13).
* Bij grote steekproeven kan zelfs een kleine afwijking van normaliteit leiden tot een significant resultaat. Het is daarom belangrijk om altijd diagnostische QQ-plots te gebruiken om de grootte en aard van de afwijkingen te bestuderen [13](#page=13).
#### 2.5.3 Voorbeeld
* **BEL20 rendement:** Voor de rendementen van de BEL20 wordt de Shapiro-Wilk test uitgevoerd. De teststatistiek is $W = 0.870$ met een $p$-waarde van 0.012. Op een significantieniveau van 5% wordt $H_0$ verworpen, wat aangeeft dat de verdeling van het rendement significant afwijkt van de normale verdeling. De bijbehorende QQ-plot toont dat bepaalde waarnemingen duidelijk afwijken van het lineaire patroon dat normaliteit zou impliceren [12](#page=12) [13](#page=13).
---
# De Pearson x2-test
De Pearson x2-test is een statistische methode die wordt gebruikt om te toetsen of de geobserveerde verdeling van categorische data significant afwijkt van een verwachte of hypothetische verdeling. Deze test is met name geschikt voor nominale meetschalen en vergelijkt aantallen waarnemingen [3](#page=3).
### 3.1 Basisprincipes van de Pearson x2-test
De kern van de Pearson x2-test is het vergelijken van de werkelijke aantallen waargenomen in verschillende categorieën ($N_i$) met de verwachte aantallen in diezelfde categorieën ($n p_i$), gebaseerd op een nulhypothese over de kansverdeling ($f_0$) [3](#page=3) [4](#page=4).
#### 3.1.1 Nullhypothese en Alternatieve Hypothese
* **Nulhypothese ($H_0$)**: De kansvariabele $Y$ volgt een specifieke, bekende kansverdeling ($f_0$). Bijvoorbeeld, bij een eerlijke dobbelsteen is de kans op elk getal gelijk aan $\frac{1}{6}$ [3](#page=3).
* **Alternatieve Hypothese ($H_1$)**: De kansvariabele $Y$ heeft een andere kansverdeling dan $f_0$ [3](#page=3).
#### 3.1.2 Klassen en Verwachte Aantallen
De mogelijke uitkomsten van de kansvariabele $Y$ worden verdeeld in $k$ klassen. Voor elke klasse $i$ wordt de kans op een uitkomst $\pi_i$ aangenomen onder de nulhypothese. Gegeven een steekproefgrootte $n$, is het verwachte aantal waarnemingen in klasse $i$ gelijk aan $n p_i$ [3](#page=3).
#### 3.1.3 Teststatistiek
De teststatistiek $X^2$ wordt berekend door de gekwadrateerde verschillen tussen de geobserveerde aantallen ($N_i$) en de verwachte aantallen ($n p_i$), gedeeld door de verwachte aantallen, over alle klassen te sommeren [4](#page=4).
$$ X^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i} $$
Een grote waarde van de $X^2$ statistiek duidt op significante afwijkingen tussen de geobserveerde en verwachte aantallen, wat leidt tot het verwerpen van de nulhypothese [4](#page=4).
#### 3.1.4 Vrijheidsgraden
Het aantal vrijheidsgraden ($v$) van de $X^2$-verdeling hangt af van het aantal klassen ($k$) en het aantal parameters van de kansverdeling dat geschat is uit de data [4](#page=4) [5](#page=5).
* Als de verdeling volledig gespecificeerd is onder $H_0$ (geen parameters geschat), dan is het aantal vrijheidsgraden $v = k - 1$ [4](#page=4).
* Als $m$ parameters van de verdeling worden geschat uit de data, dan wordt het aantal vrijheidsgraden gecorrigeerd tot $v = k - 1 - m$. Dit komt doordat het schatten van parameters de afwijkingen kan verminderen [5](#page=5).
#### 3.1.5 Interpretatie van Resultaten
Om de nulhypothese te toetsen, wordt de berekende $X^2$ statistiek vergeleken met een kritieke waarde uit de $X^2$-verdeling met de juiste vrijheidsgraden bij een bepaald significantieniveau ($\alpha$) [4](#page=4).
* Als $X^2 > X_{v, 1-\alpha}$, dan wordt de nulhypothese verworpen op het niveau $\alpha$ [4](#page=4).
* De p-waarde geeft de kans weer om een teststatistiek te observeren die minstens zo extreem is als de berekende $X^2$, gegeven dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot het verwerpen van $H_0$ [5](#page=5) [6](#page=6) [7](#page=7).
> **Tip:** De Pearson x2-test is een benadering die enkel betrouwbaar is bij voldoende grote steekproeven. Een veelgebruikte vuistregel is dat het verwachte aantal elementen ($np_i$) in elke klasse minimaal 5 moet zijn [5](#page=5).
### 3.2 Voorbeelden van de Pearson x2-test
#### 3.2.1 Eerlijke dobbelsteen
* **Situatie**: Men gooit een dobbelsteen 120 keer en observeert de volgende aantallen voor de getallen 1 tot 6 [3](#page=3) [5](#page=5):
* 1: 29 keer
* 2: 16 keer
* 3: 18 keer
* 4: 14 keer
* 5: 15 keer
* 6: 28 keer
* **Nulhypothese ($H_0$)**: De dobbelsteen is eerlijk, d.w.z. $P(i) = \frac{1}{6}$ voor $i = 1, \ldots, 6$ [5](#page=5).
* **Verwachte aantallen**: Bij 120 worpen verwacht men $\frac{1}{6} \times 120 = 20$ keer elk getal [3](#page=3) [5](#page=5).
* **Teststatistiek**:
$$ X^2 = \frac{(29-20)^2}{20} + \frac{(16-20)^2}{20} + \frac{(18-20)^2}{20} + \frac{(14-20)^2}{20} + \frac{(15-20)^2}{20} + \frac{(28-20)^2}{20} = 11.30 $$
* **Vrijheidsgraden**: $k=6$ klassen, $m=0$ geschatte parameters. Dus $v = 6 - 1 - 0 = 5$ [4](#page=4).
* **Interpretatie**: Bij een significantieniveau van 5% is de kritieke waarde $X_{5, 0.95} = 11.07$. Aangezien $11.30 > 11.07$, wordt de nulhypothese verworpen. De p-waarde is $P(X^2 > 11.30) = 0.046$, wat indiceert dat de dobbelsteen mogelijk vervalst is [5](#page=5).
#### 3.2.2 Representatieve steekproef van Gentenaars
* **Situatie**: Een steekproef van 200 Gentenaars tussen 20 en 79 jaar wordt vergeleken met de leeftijdsverdeling in de gehele populatie van Gentenaars [6](#page=6).
* **Nulhypothese ($H_0$)**: De leeftijdsverdeling in de steekproef wijkt niet significant af van de leeftijdsverdeling in de populatie [6](#page=6).
* **Verwachte aantallen**: Voor elke leeftijdsklasse wordt het verwachte aantal berekend op basis van de populatieproporties en de steekproefgrootte ($n=200$). Bijvoorbeeld, voor de klasse 20-29 jaar is de populatieproportie $p_1 = \frac{42483}{188550} \approx 0.2253$. Het verwachte aantal in de steekproef is dan $200 \times 0.2253 = 45.06$ [6](#page=6).
* **Teststatistiek**: Na berekening voor alle klassen is de $X^2$ teststatistiek 6.92 [6](#page=6).
* **Vrijheidsgraden**: $k=6$ klassen, $m=0$ geschatte parameters. Dus $v = 6 - 1 - 0 = 5$ [6](#page=6).
* **Interpretatie**: De kritieke waarde voor $v=5$ en $\alpha=0.05$ is $X_{5, 0.95} = 11.07$. Aangezien $6.92 < 11.07$, wordt de nulhypothese niet verworpen. De p-waarde ($0.23$) is groter dan 0.05, wat betekent dat de verdeling in de steekproef significant lijkt op die in de populatie [6](#page=6).
#### 3.2.3 Call center scenario
* **Situatie**: Men onderzoekt of het aantal oproepen per minuut in een call center Poisson-verdeeld is met parameter $\lambda=1$. De parameter $\lambda$ is echter niet gegeven [7](#page=7).
* **Nulhypothese ($H_0$)**: Het aantal oproepen per minuut is Poisson verdeeld [1](#page=1) [7](#page=7).
* **Schatten van de parameter**: De parameter $\lambda$ wordt geschat uit een steekproef van 300 tijdsblokken door het steekproefgemiddelde te berekenen. Het geschatte $\lambda$ is 3.17. Met deze geschatte parameter worden de verwachte aantallen ($np_i$) berekend voor elke categorie van oproepen per minuut [7](#page=7).
* **Teststatistiek**: De berekende $X^2$ waarde is 20.49 [7](#page=7).
* **Vrijheidsgraden**: Er zijn 9 klassen ($k=9$) en 1 parameter ($\lambda$) is geschat ($m=1$). De vrijheidsgraden zijn $v = k - 1 - m = 9 - 1 - 1 = 7$ [7](#page=7).
* **Interpretatie**: De kritieke waarde voor $v=7$ en $\alpha=0.05$ is $X_{7, 0.95} = 14.07$. Omdat $20.49 > 14.07$, wordt de nulhypothese verworpen op 5% significantieniveau. Dit suggereert dat het aantal oproepen per minuut niet Poisson verdeeld is [1](#page=1) [7](#page=7).
### 3.3 Opmerkingen bij de Pearson x2-test
* De x2-benadering is alleen betrouwbaar voor voldoende grote steekproeven. Een veelgebruikte vuistregel is dat het verwachte aantal waarnemingen in elke klasse ($np_i$) minimaal 5 moet zijn [5](#page=5).
* De test kan ook worden toegepast op continue verdelingen, maar kan dan minder krachtig zijn [5](#page=5).
* Wanneer parameters van de onderliggende verdeling geschat moeten worden, leidt dit tot een correctie van het aantal vrijheidsgraden om een te lage p-waarde te vermijden [5](#page=5).
---
# De Kolmogorov-Smirnov test en Lilliefors test
Deze sectie bespreekt de Kolmogorov-Smirnov (KS) test voor continue verdelingen en de Lilliefors test als een correctie wanneer de parameters van de te testen verdeling geschat moeten worden.
### 4.1 De Kolmogorov-Smirnov test
De Kolmogorov-Smirnov (KS) test is een niet-parametrische test die wordt gebruikt om te bepalen of een steekproef afkomstig is uit een specifieke, volledig gespecificeerde continue verdeling. De test maakt gebruik van de empirische verdelingsfunctie (EVF) om de afwijking tussen de gespecificeerde theoretische verdelingsfunctie ($F_0$) en de empirische verdelingsfunctie van de steekproef ($ \hat{F}_n $) te beoordelen [8](#page=8).
#### 4.1.1 Hypothesen
De nulhypothese ($H_0$) stelt dat de kansvariabele $X$ een cumulatieve verdelingsfunctie $F_0$ heeft. De alternatieve hypothese ($H_1$) stelt dat de cumulatieve verdelingsfunctie van $X$ anders is dan $F_0$ [8](#page=8).
* $H_0$: $X$ heeft cumulatieve verdelingsfunctie $F_0$.
* $H_1$: $X$ heeft een andere cumulatieve verdelingsfunctie.
#### 4.1.2 Empirische verdelingsfunctie ($ \hat{F}_n $)
De empirische verdelingsfunctie ($ \hat{F}_n(x) $) wordt gedefinieerd als de verhouding van het aantal waarnemingen in de steekproef dat kleiner dan of gelijk aan $x$ is, gedeeld door het totale aantal waarnemingen ($n$) [8](#page=8):
$$ \hat{F}_n(x) = \frac{\text{aantal waarnemingen} \le x}{n} $$
#### 4.1.3 De teststatistiek $D$
De kern van de KS-test is de teststatistiek $D$, die de maximale absolute afwijking meet tussen de theoretische verdelingsfunctie $F_0$ en de empirische verdelingsfunctie $ \hat{F}_n $ over alle mogelijke waarden van $x$ [8](#page=8):
$$ D = \max_{X} | F_0(x) - \hat{F}_n(x) | $$
#### 4.1.4 Toepasbaarheid en beperkingen
Een cruciaal kenmerk van de KS-test is dat deze **enkel geldig is wanneer de theoretische verdeling $F_0$ volledig gespecificeerd is**, wat betekent dat alle parameters van de verdeling bekend moeten zijn. De verdeling van de teststatistiek $D$ onder de nulhypothese is onafhankelijk van de specifieke vorm van $F_0$, wat de test breed toepasbaar maakt [8](#page=8) [9](#page=9).
Echter, wanneer de parameters van $F_0$ geschat moeten worden op basis van de steekproef, is de standaard KS-test niet langer strikt geldig. Het schatten van parameters brengt de empirische verdelingsfunctie dichter bij de theoretische verdeling, waardoor de kritieke waarden van de test kleiner zouden moeten zijn. Daarnaast heeft de KS-test doorgaans een kleinere power in vergelijking met specifieke tests voor bepaalde verdelingen (zoals de Shapiro-Wilk test voor normaliteit) en is deze minder gevoelig voor afwijkingen in de staarten van de verdeling dan bijvoorbeeld de Anderson-Darling test [10](#page=10) [9](#page=9).
#### 4.1.5 Voorbeeld: exponentiële wachttijd
Stel we willen testen of de wachttijd $X$ aan een loket exponentieel verdeeld is met een gemiddelde van 25 minuten. Dit impliceert een parameter $ \lambda = 1/25 = 0.04 $. De hypothesen zijn:
* $H_0$: $X \sim \text{Exp}(0.04)$
* $H_1$: $X \nsim \text{Exp}(0.04)$
Voor een steekproef van 12 wachttijden (18, 30, 12, 13, 7, 3, 50, 13, 41, 21, 17, 33) kan de test worden uitgevoerd. Met statistische software (zoals R) berekent men de teststatistiek $D$ en de bijbehorende p-waarde. In dit voorbeeld is $D = 0.21455$ en de p-waarde is $0.6386$. Omdat $0.6386 > 0.05$, wordt de nulhypothese niet verworpen, wat suggereert dat de verdeling van de wachttijd niet significant afwijkt van $\text{Exp}(0.04)$. Een waarschuwing kan verschijnen indien er gelijke waarden (ties) in de data zitten, wat niet ideaal is voor de KS-test [10](#page=10) [9](#page=9).
> **Tip:** Bij het interpreteren van de KS-test, onthoud dat een hoge p-waarde betekent dat er onvoldoende bewijs is om de nulhypothese te verwerpen, terwijl een lage p-waarde (typisch < 0.05) leidt tot het verwerpen van de nulhypothese.
### 4.2 De Lilliefors test
De Lilliefors test is een aanpassing van de Kolmogorov-Smirnov test, speciaal ontworpen voor het geval waarin de parameters van de te testen verdeling (zoals het gemiddelde $ \mu $ en de standaarddeviatie $ \sigma $) geschat moeten worden uit de steekproef [10](#page=10).
#### 4.2.1 Noodzaak voor de Lilliefors test
Wanneer parameters van de verdeling $F_0$ geschat worden met behulp van de steekproefgegevens, wordt de steekproefverdeling in principe "geholpen" om dichter bij de gegevens te passen. Dit betekent dat de kans op het vinden van een kleine teststatistiek $D$ toeneemt, en de standaard kritieke waarden voor de KS-test niet langer correct zijn. De Lilliefors test corrigeert hiervoor door aangepaste kritieke waarden te gebruiken voor specifieke verdelingen, met name de normale verdeling, wanneer het gemiddelde ($ \bar{x} $) en de variantie ($ s^2 $) geschat zijn [10](#page=10).
#### 4.2.2 Voorbeeld: BEL20 rendementen
Laten we het rendement van de BEL20 index in februari 2014 als voorbeeld nemen. We willen testen of de rendementen normaal verdeeld zijn ($H_0: X \sim N(\mu, \sigma^2)$) met onbekende parameters $ \mu $ en $ \sigma^2 $ [11](#page=11).
De rendementen zijn:
-1.63, 0.12, -0.02, 1.67, 0.51, 0.14, 1.02, 0.55, 0.07, 0.53, 0.42, -0.11, 0.62, 0.04, 0.45, 0.84, -0.10, 0.46, 0.58, 0.76 [11](#page=11).
Na schatting van de parameters uit deze steekproef, vinden we een gemiddelde $ \bar{x} = 0.3460 $ en een geschatte variantie $ s^2 = 0.3996 $ [11](#page=11).
#### 4.2.3 Uitvoering en interpretatie met Lilliefors correctie
Wanneer deze data wordt ingevoerd in statistische software, kan de Lilliefors correctie worden toegepast. In een output van SPSS zien we bijvoorbeeld de Kolmogorov-Smirnov test met Lilliefors correctie, resulterend in een statistiek $d = 0.185$ en een p-waarde van $0.070$. Dit is significant anders dan de p-waarde van $0.4447$ die men zou verkrijgen indien men de schatting van de parameters zou negeren en de standaard KS-test zou toepassen met de geschatte waarden. Met een p-waarde van $0.070$ (weliswaar iets boven de gangbare 0.05-drempel, maar vaak als "marginaal significant" beschouwd), is er minder reden om de nulhypothese van normaliteit te verwerpen dan wanneer men de schatting van de parameters zou negeren [11](#page=11).
> **Voorbeeld:** Het verschil tussen de p-waarde van 0.070 (met Lilliefors correctie) en 0.4447 (zonder correctie) illustreert het belang van het toepassen van de juiste test wanneer parameters geschat zijn. De correctie leidt tot een "strengere" test, wat correct is omdat de data gebruikt werd om de verdeling te definiëren.
---
# De Shapiro-Wilk test voor normaliteit
Dit deel behandelt de Shapiro-Wilk test, een robuuste methode om te toetsen of een dataset normaal verdeeld is, en de interpretatie van de bijbehorende QQ-plot, geïllustreerd met een voorbeeld van BEL20 rendementen [11](#page=11) [12](#page=12) [13](#page=13).
### 5.1 De Shapiro-Wilk test: concept en hypotheses
De Shapiro-Wilk test is een statistische test die gebruikt wordt om te bepalen of een steekproef uit een populatie komt die normaal verdeeld is [12](#page=12).
#### 5.1.1 Hypotheses
De nulhypothese ($H_0$) stelt dat de data afkomstig is uit een normale verdeling. De alternatieve hypothese ($H_1$) stelt dat de data niet afkomstig is uit een normale verdeling [12](#page=12).
* $H_0$: $X \sim N(\mu, \sigma^2)$ (De data is normaal verdeeld)
* $H_1$: $X \not\sim N(\mu, \sigma^2)$ (De data is niet normaal verdeeld)
#### 5.1.2 Teststatistiek
De teststatistiek van de Shapiro-Wilk test, aangeduid met $W$, wordt berekend op basis van de geordende steekproefwaarden en de verwachte waarden uit een normale verdeling. De formule is [12](#page=12):
$$ W = \frac{\sum_{i=1}^{n} a_i X_{(i)}}{\sum_{i=1}^{n} (X_i - \bar{X})^2} $$
waarbij:
* $X_{(i)}$ de geordende steekproefwaarden zijn ($X_{ } \leq X_{ } \leq \dots \leq X_{(n)}$) [1](#page=1) [2](#page=2).
* $\bar{X}$ het steekproefgemiddelde is.
* $a_i$ gewichten zijn die afhangen van de steekproefgrootte en de verwachte waarden van de geordende statistieken van een standaardnormale verdeling [12](#page=12).
De teststatistiek $W$ neemt altijd waarden aan die kleiner zijn dan of gelijk aan 1. Waarden van $W$ die dicht bij 1 liggen, duiden op normaliteit. De exacte berekening van de teststatistiek en de bijbehorende p-waarde gebeurt doorgaans met statistische software [12](#page=12).
### 5.2 De Normal QQ-plot
De Normal QQ-plot (Quantile-Quantile plot) is een grafische methode om de normaliteit van data te beoordelen. De plot toont de empirische kwantielen van de steekproefgegevens tegenover de theoretische kwantielen van een standaardnormale verdeling [12](#page=12).
#### 5.2.1 Interpretatie
Als de data normaal verdeeld is, vormen de punten in de QQ-plot een patroon dat grotendeels langs een rechte lijn loopt. Afwijkingen van dit lineaire patroon duiden op afwijkingen van de normaliteit. Hoe rechtlijniger het patroon, hoe beter de data normaal verdeeld is [12](#page=12) [13](#page=13).
> **Tip:** De QQ-plot is een cruciaal diagnostisch hulpmiddel. Naast de p-waarde van de Shapiro-Wilk test, helpt de QQ-plot om de grootte en de aard van eventuele afwijkingen van de normaliteit te bestuderen [13](#page=13).
### 5.3 Toepassing: BEL20 rendementen
De Shapiro-Wilk test en de QQ-plot worden geïllustreerd aan de hand van de dagelijkse rendementen van de BEL20 index in februari 2014 [11](#page=11).
#### 5.3.1 Berekening en resultaten
Voor de rendementen van de BEL20 in februari 2014 werd het steekproefgemiddelde geschat op $\bar{X} = 0.3460$ en de steekproefvariantie op $s^2 = 0.3996$ [11](#page=11).
Met behulp van statistische software werd de Shapiro-Wilk teststatistiek berekend als $W = 0.870$, met een bijbehorende p-waarde van $0.012$ [13](#page=13).
De Normal QQ-plot voor deze data toont enkele waarnemingen die duidelijk afwijken van het lineaire patroon, wat visueel de afwijking van normaliteit ondersteunt [12](#page=12) [13](#page=13).
#### 5.3.2 Conclusie en beperkingen
Gezien de p-waarde van $0.012$, die kleiner is dan het gebruikelijke significantieniveau van $5\%$, wordt de nulhypothese verworpen op een $5\%$ significantieniveau. Dit betekent dat de verdeling van de BEL20 rendementen significant afwijkt van een normale verdeling [13](#page=13).
> **Tip:** De Shapiro-Wilk test staat bekend om zijn relatief grote onderscheidingsvermogen (power). Het is echter cruciaal om voorzichtig te zijn bij het interpreteren van resultaten met grote steekproeven. In dergelijke gevallen kan zelfs een kleine afwijking van normaliteit leiden tot een statistisch significant resultaat, terwijl de afwijking in de praktijk mogelijk verwaarloosbaar is. Daarom is het essentieel om de resultaten van de test altijd te interpreteren in combinatie met de visuele analyse van de QQ-plot [13](#page=13).
Vergeleken met de Lilliefors test (een aangepaste Kolmogorov-Smirnov test), waarbij de geschatte parameters ($\mu$ en $\sigma^2$) worden genegeerd in de berekening van de p-waarde, geeft de Shapiro-Wilk test een andere interpretatie. De Lilliefors test, die ook rekening houdt met de geschatte parameters, resulteerde in een p-waarde van $0.070$ (wanneer parameters wel worden meegenomen ) of $0.4447$ (in R, wat expliciet de parameters gebruikt ), wat niet leidt tot verwerping van de nulhypothese op $5\%$ significantieniveau. Dit onderstreept het belang van de specifieke testmethodologie en de interpretatie van de p-waarde in relatie tot de gebruikte parameters [11](#page=11).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-parametrische testen | Statistische toetsen die geen aannames doen over de parametrische vorm van de populatieverdeling. Ze zijn bruikbaar bij kleinere steekproeven of wanneer de aannames van parametrische testen, zoals normaliteit, geschonden zijn. |
| Parametrische test | Een statistische toets die aannames doet over de parameters van een populatieverdeling, zoals het gemiddelde en de standaardafwijking. De t-test en ANOVA zijn voorbeelden van parametrische testen die normaliteit van de populatie veronderstellen. |
| Power (statistiek) | De kans dat een statistische test de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Een hogere power betekent een grotere kans om een werkelijk effect te detecteren. |
| Goodness-of-fit test | Een statistische test die beoordeelt hoe goed een waargenomen steekproefverdeling past bij een theoretische verdeling. Het doel is om te bepalen of de steekproef uit de populatie met de gespecificeerde verdeling kan komen. |
| Pearson x2-test | Een statistische test die wordt gebruikt om te bepalen of er een significant verschil is tussen geobserveerde frequenties en verwachte frequenties in categorieën. Het wordt vaak toegepast op nominale of ordinale data om te testen op onafhankelijkheid of goodness-of-fit. |
| Klasse (statistiek) | Een reeks waarden binnen een bepaald bereik die wordt gebruikt om data te groeperen, vooral bij het analyseren van discrete of continue variabelen. Bij de Pearson x2-test worden de uitkomsten verdeeld in klassen. |
| Verwacht aantal waarnemingen | Het aantal observaties dat men zou verwachten in een bepaalde klasse onder de nulhypothese, berekend door de steekproefgrootte te vermenigvuldigen met de kans op die klasse ($n \times p_i$). |
| Werkelijk aantal waarnemingen | Het daadwerkelijk geobserveerde aantal gebeurtenissen of metingen dat in een specifieke klasse valt in de steekproef ($N_i$). |
| Teststatistiek | Een waarde die wordt berekend uit steekproefgegevens en die wordt gebruikt om de nulhypothese te beoordelen. Voor de Pearson x2-test is dit de waarde $X^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i}$. |
| Vrijheidsgraden | Het aantal onafhankelijke waarden dat vrij kan variëren in een berekening van een statistiek. Voor de Pearson x2-test is het aantal vrijheidsgraden meestal $k-1$, waarbij $k$ het aantal klassen is, of $k-1-m$ als $m$ parameters geschat zijn. |
| Kolmogorov-Smirnov test | Een niet-parametrische test die de cumulatieve verdelingsfunctie van een steekproef vergelijkt met de cumulatieve verdelingsfunctie van een gespecificeerde verdeling. Het is gevoelig voor verschillen in positie, schaal en vorm van de verdelingen. |
| Empirische verdelingsfunctie | Een schatting van de ware cumulatieve verdelingsfunctie van een populatie, gebaseerd op de gegevens van een steekproef. Het wordt aangeduid als $\hat{F}_n(x)$. |
| Lilliefors test | Een aangepaste versie van de Kolmogorov-Smirnov test die wordt gebruikt wanneer de parameters van de nulhypothese verdeling (zoals gemiddelde en standaarddeviatie voor een normale verdeling) uit de steekproef geschat zijn. |
| Shapiro-Wilk test | Een krachtige statistische test om te bepalen of een steekproef afkomstig is uit een normale verdeling. De teststatistiek W meet hoe goed de geordende steekproefwaarden overeenkomen met de verwachte waarden van een normale verdeling. |
| QQ-plot (Quantile-Quantile plot) | Een grafische methode om te beoordelen of een steekproefverdeling overeenkomt met een theoretische verdeling. Het plot de kwantielen van de steekproefgegevens tegen de kwantielen van de theoretische verdeling. |