Cover
Start nu gratis dia h 5.pdf
Summary
# Introductie tot testen voor afhankelijkheid
Dit gedeelte introduceert het concept van het testen van de afhankelijkheid tussen variabelen, waarbij de nulhypothese van onafhankelijkheid en de alternatieve hypothese van afhankelijkheid worden geformuleerd.
### 1.1 Hypothesen bij het testen van afhankelijkheid
Bij het testen van afhankelijkheid tussen twee variabelen, X en Y, worden de volgende hypothesen geformuleerd [1](#page=1) [2](#page=2):
* **Nulhypothese ($H_0$)**: X en Y zijn onafhankelijk [1](#page=1) [2](#page=2).
* **Alternatieve hypothese ($H_1$)**: X en Y zijn afhankelijk [1](#page=1) [2](#page=2).
### 1.2 Onafhankelijkheid van kansvariabelen
Beschouw een kansvariabele (X, Y) met een gezamenlijke kansverdeling $p_{X,Y}$ en marginale verdelingen $p_X$ en $p_Y$. X en Y zijn onafhankelijk als hun gezamenlijke kansverdeling het product is van hun marginale kansverdelingen [1](#page=1):
$p_{X,Y}(x, y) = p_X(x)p_Y(y)$ voor alle mogelijke waarden van x en y [1](#page=1).
Dit principe geldt analoog voor kansdichtheden ($f_{X,Y}, f_X, f_Y$) in het continue geval [1](#page=1).
### 1.3 De $\chi^2$-test voor afhankelijkheid
De $\chi^2$-test kan worden aangepast om de afhankelijkheid tussen variabelen te testen. In deze context test de $\chi^2$-test of de gezamenlijke kansverdeling $p_{X,Y}$ gelijk is aan het product van de marginale kansverdelingen [2](#page=2).
De hypothesen voor de $\chi^2$-test voor afhankelijkheid zijn:
* **Nulhypothese ($H_0$)**: $p_{X,Y}(x, y) = p_X(x)p_Y(y)$ voor alle $(x, y)$ [2](#page=2).
* **Alternatieve hypothese ($H_1$)**: $p_{X,Y}(x, y) \neq p_X(x)p_Y(y)$ voor minstens één $(x, y)$ [2](#page=2).
Een uitdaging bij deze test is dat de marginale verdelingen $p_X$ en $p_Y$ vaak niet bekend zijn. In dergelijke gevallen worden de marginale verdelingen geschat aan de hand van relatieve frequenties [2](#page=2).
#### 1.3.1 Kruistabellen (Contingency Tables)
Wanneer er $r$ mogelijke waarden voor variabele X ($x_j$) en $k$ mogelijke waarden voor variabele Y ($y_j$) zijn, kunnen de frequenties van de waarnemingen worden samengevat in een kruistabel (contingency table). Hierbij kunnen $x_j$ en $y_j$ ook klassen voorstellen [2](#page=2).
* $n_{ij}$: het aantal observaties waarbij X de waarde $x_i$ aanneemt en Y de waarde $y_j$ aanneemt [2](#page=2).
* $n$: het totaal aantal observaties [2](#page=2).
De geschatte marginale relatieve frequenties kunnen worden berekend als volgt [2](#page=2):
* Geschatte relatieve frequentie voor $x_i$: $\hat{p}_X(x_i) = \frac{\sum_{j=1}^{k} n_{ij}}{n}$
* Geschatte relatieve frequentie voor $y_j$: $\hat{p}_Y(y_j) = \frac{\sum_{i=1}^{r} n_{ij}}{n}$
---
# De chikwadraat (x2) test voor afhankelijkheid
De chikwadraat (x²) test voor afhankelijkheid wordt gebruikt om te bepalen of er een statistisch significant verband bestaat tussen twee categorische variabelen [2](#page=2).
### 2.1 Concept van de x²-test voor afhankelijkheid
De test evalueert de gezamenlijke verdeling van twee categorische variabelen, $P_{X,Y}(x, y)$, en vergelijkt deze met het product van hun marginale verdelingen, $P_X(x)P_Y(y)$ [2](#page=2).
* **Nulhypothese ($H_0$):** De twee variabelen zijn onafhankelijk. Dit betekent dat de gezamenlijke kansverdeling gelijk is aan het product van de marginale kansverdelingen: $P_{X,Y}(x, y) = P_X(x)P_Y(y)$ voor alle $(x, y)$ [2](#page=2).
* **Alternatieve hypothese ($H_1$):** De twee variabelen zijn afhankelijk. Dit betekent dat de gezamenlijke kansverdeling niet gelijk is aan het product van de marginale kansverdelingen voor ten minste één combinatie van $(x, y)$ [2](#page=2).
Een belangrijk aspect is dat de marginale verdelingen $P_X(x)$ en $P_Y(y)$ vaak niet bekend zijn en geschat moeten worden uit de steekproefgegevens, meestal via relatieve frequenties [2](#page=2).
### 2.2 De kruistabel (contingency table)
Om de frequenties van de observaties voor twee categorische variabelen samen te vatten, wordt een kruistabel gebruikt [2](#page=2).
* Stel dat variabele $X$ $r$ mogelijke waarden ($x_1, \ldots, x_r$) heeft en variabele $Y$ $k$ mogelijke waarden ($y_1, \ldots, y_k$). Deze waarden kunnen ook categorieën of klassen voorstellen [2](#page=2).
* $n_{ij}$ staat voor het aantal observaties dat overeenkomt met de combinatie van $X=x_i$ en $Y=y_j$ [2](#page=2).
* $n$ is het totaal aantal observaties in de steekproef [2](#page=2).
De relatieve frequenties kunnen worden berekend als:
$P_X(x_i) \approx \sum_{j=1}^{k} \frac{n_{ij}}{n}$
$P_Y(y_j) \approx \sum_{i=1}^{r} \frac{n_{ij}}{n}$
### 2.3 Berekening van de teststatistiek
Onder de nulhypothese van onafhankelijkheid, wordt de verwachte aantal observaties in cel $(i, j)$ berekend als $n \cdot P_X(x_i) \cdot P_Y(y_j)$. Aangezien de marginale kansen geschat worden, wordt dit verwachte aantal geschat met $n \cdot \hat{P}_X(x_i) \cdot \hat{P}_Y(y_j)$ [3](#page=3).
De chikwadraat ($x^2$) teststatistiek wordt berekend als de som van de gekwadrateerde verschillen tussen de waargenomen frequenties ($n_{ij}$) en de verwachte frequenties, gedeeld door de verwachte frequenties, over alle cellen van de kruistabel [3](#page=3):
$$x^2 = \sum_{i=1}^{r} \sum_{j=1}^{k} \frac{(n_{ij} - n\hat{P}_X(x_i)\hat{P}_Y(y_j))^2}{n\hat{P}_X(x_i)\hat{P}_Y(y_j)}$$
#### 2.3.1 Voorbeeld: regio vs. belastingschaal
Stel we onderzoeken of de regio (Vlaanderen vs. Wallonië) en de belastingschaal afhankelijk zijn bij 400 gezinnen [3](#page=3).
| belastingschaal Y | 0-20% | 20-30% | 30-40% | >40% | Totaal | $\hat{P}_X$ |
| :---------------- | :---- | :----- | :----- | :--- | :----- | :---------- |
| **Regio X** | | | | | | |
| Wallonië | 28 | 42 | 30 | 24 | 124 | 0.31 |
| Vlaanderen | 44 | 78 | 78 | 76 | 276 | 0.69 |
| Totaal | 72 | 120 | 108 | 100 | 400 | |
De geschatte marginale kansen zijn: $\hat{P}_X(\text{Wallonië}) = 124/400 = 0.31$, $\hat{P}_X(\text{Vlaanderen}) = 276/400 = 0.69$. En $\hat{P}_Y(0-20\%) = 72/400 = 0.18$, $\hat{P}_Y(20-30\%) = 120/400 = 0.30$, etc. [3](#page=3).
Het verwachte aantal voor Wallonië en belasting 0-20% onder $H_0$ is $400 \times 0.31 \times 0.18 = 22.32$ [3](#page=3).
De verwachte aantallen onder $H_0$ zijn:
| belastingschaal Y | 0-20% | 20-30% | 30-40% | >40% |
| :---------------- | :----- | :----- | :----- | :---- |
| **Regio X** | | | | |
| Wallonië | 22.32 | 37.20 | 33.48 | 31.00 |
| Vlaanderen | 49.68 | 82.80 | 74.52 | 69.00 |
De berekende $x^2$ teststatistiek is $5.8075$ [3](#page=3).
### 2.4 Vrijheidsgraden
Voor de $x^2$-test voor afhankelijkheid wordt de verdeling van de teststatistiek benaderd door een $x^2$-verdeling met een bepaald aantal vrijheidsgraden ($df$) [4](#page=4).
De vrijheidsgraden worden berekend als: $df = (\text{aantal rijen} - 1) \times (\text{aantal kolommen} - 1)$. In symbolen, voor een $r \times k$ kruistabel:
$df = (r - 1)(k - 1)$
Dit aantal volgt uit het feit dat we $r-1$ parameters schatten voor de marginale verdeling van $X$ en $k-1$ parameters voor de marginale verdeling van $Y$. Het totale aantal cellen is $rk$. Dus de vrijheidsgraden zijn $rk - 1 - (r - 1) - (k - 1) = rk - r - k + 1 = (r - 1)(k - 1)$ [4](#page=4).
#### 2.4.1 Voorbeeld: regio vs. belastingschaal
In het voorbeeld van regio vs. belastingschaal hebben we 2 rijen (regio's) en 4 kolommen (belastingschalen).
$df = (2 - 1)(4 - 1) = 1 \times 3 = 3$ [4](#page=4).
### 2.5 Interpretatie van de resultaten
De nulhypothese ($H_0$) wordt verworpen als de berekende teststatistiek groter is dan de kritieke waarde uit de $x^2$-verdeling voor een gegeven significantieniveau ($\alpha$) en het berekende aantal vrijheidsgraden [4](#page=4).
* **Kritieke waarde:** Dit is de waarde uit de $x^2$-verdeling die overeenkomt met het gekozen significantieniveau (bv. $\alpha=0.05$) en de berekende vrijheidsgraden. De nulhypothese wordt verworpen als $x^2_{berekend} > x^2_{\text{kritiek}}(\alpha, df)$ [4](#page=4).
* **p-waarde:** Dit is de kans om een teststatistiek te observeren die minstens zo extreem is als de berekende waarde, aangenomen dat de nulhypothese waar is. $H_0$ wordt verworpen als de p-waarde kleiner is dan het significantieniveau ($\alpha$) [4](#page=4).
#### 2.5.1 Voorbeeld: regio vs. belastingschaal
* Teststatistiek: $x^2 = 5.8075$ [4](#page=4).
* Vrijheidsgraden: $df = 3$ [4](#page=4).
* Kritieke waarde voor $\alpha = 0.05$: $x^2_{3, 0.95} = 7.81$ [4](#page=4).
* p-waarde: $P(x^2 > 5.8075) = 0.121$ [4](#page=4).
Omdat de berekende teststatistiek ($5.8075$) kleiner is dan de kritieke waarde ($7.81$) en de p-waarde ($0.121$) groter is dan het significantieniveau van $5\%$, wordt de nulhypothese niet verworpen. Er is onvoldoende statistisch bewijs om aan te tonen dat de regio en de belastingschaal afhankelijk zijn in deze steekproef [4](#page=4).
### 2.6 Voorwaarden en aanpassingen
De $x^2$-verdeling als benadering voor de teststatistiek is geldig voor grote steekproeven [5](#page=5).
* **Vuistregel:** Een veelgebruikte vuistregel is dat het verwachte aantal observaties ($n\hat{P}_X(x_i)\hat{P}_Y(y_j)$) in elke cel van de kruistabel minstens 5 moet zijn. Als deze voorwaarde niet is voldaan voor een aanzienlijk deel van de cellen, kan de $x^2$-benadering onbetrouwbaar worden [5](#page=5).
* **Continuïteitscorrectie (Yates' correctie):** Bij 2x2 kruistabellen kan soms een continuïteitscorrectie worden toegepast om de discrete aard van de data te accommoderen. Dit houdt in dat de absolute verschillen tussen waargenomen en verwachte frequenties met 0.5 worden verminderd voordat ze gekwadrateerd worden:
$$x^2_{\text{gecorrigeerd}} = \sum_{i=1}^{r} \sum_{j=1}^{k} \frac{(|n_{ij} - n\hat{P}_X(x_i)\hat{P}_Y(y_j)| - 0.5)^2}{n\hat{P}_X(x_i)\hat{P}_Y(y_j)}$$
Deze correctie leidt tot een kleinere teststatistiek en dus een hogere p-waarde, wat de nulhypothese minder snel zal verwerpen. Echter, de continuïteitscorrectie wordt soms als te conservatief beschouwd en niet altijd toegepast [5](#page=5).
#### 2.6.1 Voorbeeld: Coke Zero vs. Light afhankelijkheid van geslacht
Stel we willen weten of de voorkeur voor Coke Zero of Light afhankelijk is van geslacht bij 20 personen [5](#page=5).
* $H_0$: Geslacht en voorkeur zijn onafhankelijk.
* $H_1$: Geslacht en voorkeur zijn afhankelijk.
| light | zero | Totaal |
| :---- | :--- | :----- |
| **Geslacht** | | |
| Man | 1 | 5 | 6 |
| Vrouw | 11 | 3 | 14 |
| Totaal | 12 | 8 | 20 |
Het verwachte aantal mannen met voorkeur voor Light onder $H_0$ is $20 \times (6/20) \times (12/20) = 3.6$. Aangezien dit aantal kleiner is dan 5, is de vuistregel voor de geldigheidsvoorwaarde voor de $x^2$-verdeling mogelijk niet voldaan in deze kleine steekproef. Voor een accurate analyse zou de continuïteitscorrectie kunnen worden overwogen, of een exacte test zoals Fisher's exact test indien de steekproef klein genoeg is [5](#page=5).
---
# Fisher's exacte test
Fisher's exacte test is een statistische test die wordt gebruikt om de significantie van de associatie tussen categorische variabelen te beoordelen, met name wanneer de verwachte aantallen in de cellen van een contingentietabel te klein zijn voor de chikwadraat test [6](#page=6).
### 3.1 Introductie en toepassingsgebied
De chikwadraat test heeft als voorwaarde dat de verwachte aantallen in de cellen van de contingentietabel voldoende groot moeten zijn. Wanneer deze voorwaarde niet voldaan is, is de chikwadraat benadering mogelijk incorrect. In dergelijke gevallen biedt Fisher's exacte test een uitkomst door de exacte verdeling van de teststatistiek onder de nulhypothese te bepalen [6](#page=6).
> **Tip:** Fisher's exacte test is met name geschikt voor 2x2 tabellen, maar kan ook worden uitgebreid naar grotere tabellen. De R-functie `fisher.test()` ondersteunt standaard 2x2 tabellen, maar kan ook grotere tabellen aan met behulp van simulaties.
#### 3.1.1 Voorwaarden voor Fisher's exacte test
De primaire voorwaarde voor het correct toepassen van Fisher's exacte test is dat de rij- en kolomtotalen van de contingentietabel vastliggen. Dit betekent dat, gegeven de marginale totalen, we de kans berekenen op het observeren van een specifieke indeling van de waarden binnen de tabel [6](#page=6).
#### 3.1.2 Contingentietabel en de nulhypothese
Voor een 2x2 tabel met variabelen ingedeeld volgens bijvoorbeeld geslacht en productvoorkeur, kan een contingentietabel als volgt worden weergegeven:
| | Light | Zero | Totaal |
| :---------- | :---- | :--- | :----- |
| Man | $a$ | $b$ | $a+b$ |
| Vrouw | $c$ | $d$ | $c+d$ |
| Totaal | $a+c$ | $b+d$| $n$ |
De centrale vraag is of er een associatie bestaat tussen deze indelingen. De nulhypothese ($H_0$) stelt dat de variabelen onafhankelijk zijn, terwijl de alternatieve hypothese ($H_1$) stelt dat er een afhankelijkheid is [6](#page=6) [7](#page=7) [9](#page=9).
### 3.2 Berekening van de exacte p-waarde
#### 3.2.1 Kansberekening bij vastliggende marginalen
Onder de aanname dat de rij- en kolomtotalen vast zijn, volgt de kans op een specifieke contingentietabel een hypergeometrische verdeling. De formule voor de kans op een bepaalde celverdeling, gegeven de marginalen, is [7](#page=7):
$$ P(\text{specifieke tabel} | \text{marginalen}) = \frac{\binom{a+b}{a} \binom{c+d}{c}}{\binom{n}{a+c}} $$
waarbij $a, b, c, d$ de aantallen in de cellen zijn, $a+b$ en $c+d$ de rijtotalen, $a+c$ en $b+d$ de kolomtotalen, en $n$ het totaal aantal observaties [7](#page=7).
#### 3.2.2 Exacte p-waarde bij eenzijdige test
De exacte p-waarde voor een eenzijdige test wordt berekend door de kans op alle kruistabellen op te tellen die minstens even onwaarschijnlijk zijn als de geobserveerde tabel, en in de richting van de alternatieve hypothese wijzen [7](#page=7).
**Voorbeeld van een eenzijdige test:**
Stel de nulhypothese is dat geslacht en productvoorkeur onafhankelijk zijn ($H_0$), en de alternatieve hypothese is dat mannen de voorkeur geven aan Coke Zero ($H_1$). Een geobserveerde steekproef levert de volgende tabel op:
| | Light | Zero | Totaal |
| :---- | :---- | :--- | :----- |
| Man | 1 | 5 | 6 |
| Vrouw | 11 | 3 | 14 |
| Totaal| 12 | 8 | 20 |
Als we aannemen dat het aantal mannen en het aantal blikjes Light vastliggen, wordt de kans dat 1 op de 6 mannen voor Light kiest als volgt berekend [6](#page=6):
$$ P(a=1) = \frac{\binom{6}{1} \binom{14}{11}}{\binom{20}{12}} = 0.0173 $$
Een nog extremere uitkomst (in de richting van $H_1$) zou zijn dat 0 mannen voor Light kiezen:
$$ P(a=0) = \frac{\binom{6}{0} \binom{14}{12}}{\binom{20}{12}} = 0.0007 $$
De p-waarde voor deze eenzijdige test is de som van deze kansen: $0.0173 + 0.0007 = 0.0180$. Als deze p-waarde lager is dan het significantieniveau (bijvoorbeeld 0.05), wordt $H_0$ verworpen [8](#page=8).
#### 3.2.3 Exacte p-waarde bij tweezijdige test
Voor een tweezijdige test ($H_1$: geslacht en voorkeur zijn afhankelijk) worden de kansen van alle kruistabellen die in beide richtingen van de nulhypothese extremere uitkomsten geven, bij elkaar opgeteld. Men bekijkt dus de tabellen die zowel extremere waarden voor $a$ (minder mannen die Light kiezen) als voor $a$ (meer mannen die Light kiezen) vertegenwoordigen, in verhouding tot de marginale totalen [9](#page=9).
In het voorbeeld van Coke Zero vs. Light, worden de kansen voor verschillende waarden van $a$ (aantal mannen met voorkeur voor Light) onder $H_0$ gegeven:
| $a$ | Kans |
| :-- | :--------- |
| 0 | 0.0007 |
| 1 | 0.0173 |
| 2 | 0.1192 |
| 3 | 0.3179 |
| 4 | 0.3576 |
| 5 | 0.1635 |
| 6 | 0.0238 |
Om de tweezijdige p-waarde te berekenen, worden de kansen van de minst waarschijnlijke uitkomsten aan beide zijden van de distributie opgeteld. In dit specifieke voorbeeld, als de geobserveerde waarde $a=1$ is, dan zijn de extremere waarden $a=0$ en $a=1$. De p-waarde wordt dan $P(a \leq 1 \text{ of } a \geq \text{een corresponderende waarde die minstens zo extreem is})$. De exacte berekening kan complex zijn, maar de software berekent dit. Voor dit voorbeeld resulteert de tweezijdige p-waarde in 0.01806 [9](#page=9).
### 3.3 Implementatie in R
De functie `fisher.test()` in R kan worden gebruikt om Fisher's exacte test uit te voeren.
**Voorbeeld met R code:**
Voor een eenzijdige test waarbij de alternatieve hypothese is dat de odds ratio kleiner is dan 1 (wat impliceert dat mannen minder geneigd zijn Light te kiezen dan vrouwen in dit scenario):
```R
> fisher.test(kruistabel, alternative="less")
```
Voor een tweezijdige test (standaardinstelling als `alternative` niet gespecificeerd is):
```R
> fisher.test(kruistabel)
```
De output van `fisher.test()` geeft de p-waarde, de geobserveerde odds ratio, en een betrouwbaarheidsinterval voor de odds ratio [8](#page=8) [9](#page=9).
> **Tip:** Bij het interpreteren van de odds ratio is het belangrijk om de richting van de associatie te overwegen. Een odds ratio kleiner dan 1 duidt op een andere associatie dan een odds ratio groter dan 1. De `alternative` parameter in `fisher.test()` stelt u in staat om te specificeren of u geïnteresseerd bent in een "less", "greater", of "two.sided" alternatieve hypothese.
---
# Spearman en Kendall rangcorrelatietesten
Deze sectie verkent niet-parametrische methoden om de sterkte en richting van de associatie tussen twee rangorde variabelen te meten, namelijk de Spearman en Kendall rangcorrelatietests [10](#page=10).
### 4.1 Spearman rangcorrelatietest
De Spearman rangcorrelatietest, ook wel bekend als de Spearman's rho ($\rho_s$), is een methode om de sterkte en richting van de associatie tussen twee gekoppelde continue variabelen te meten, waarbij de rangordes van deze variabelen worden gebruikt. Deze test vereist enkel een ordinale meetschaal [10](#page=10).
#### 4.1.1 Concept en berekening
De Spearman rangcorrelatie is equivalent aan de Pearson correlatie berekend op de rangen van de variabelen. Gegeven een steekproef van gekoppelde continue variabelen $(x_1, y_1), \dots, (x_n, y_n)$ [10](#page=10):
1. Rangschik de $x_j$ waarden van klein naar groot om de rang $u_j$ te verkrijgen [10](#page=10).
2. Rangschik de $y_i$ waarden van klein naar groot om de rang $v_i$ te verkrijgen [10](#page=10).
3. De Spearman rangcorrelatie $r_s$ wordt berekend als de Pearson correlatie van de rangen $(u, v)$ [10](#page=10):
$$
r_s = \text{corr}(u, v) = \frac{\sum_{i=1}^{n} (u_i - \bar{u})(v_i - \bar{v})}{\sqrt{\sum_{i=1}^{n} (u_i - \bar{u})^2 \sum_{i=1}^{n} (v_i - \bar{v})^2}}
$$
Een perfecte positieve correlatie ($r_s = 1$) treedt op wanneer alle rangen gelijk zijn. Een perfecte negatieve correlatie ($r_s = -1$) treedt op wanneer alle rangen tegengesteld zijn [10](#page=10).
#### 4.1.2 Hypothesen en interpretatie
Voor de populatie Spearman rangcorrelatie $\rho_s$, worden de volgende hypothesen getest [11](#page=11):
* Nulhypothese ($H_0$): $\rho_s = 0$ (geen verband)
* Alternatieve hypothese ($H_1$): $\rho_s \neq 0$ (een verband, of eenzijdig $\rho_s > 0$ of $\rho_s < 0$) [11](#page=11).
Als er een monotoon stijgend verband is tussen de variabelen $X$ en $Y$, dan is $\rho_s = 1$. Bij een monotoon dalend verband is $\rho_s = -1$. Als de variabelen onafhankelijk zijn, dan is $\rho_s = 0$. De nulhypothese wordt verworpen als de berekende $r_s$ significant afwijkt van 0 [11](#page=11).
> **Tip:** De test is gebaseerd op de aanname dat de observaties onafhankelijk zijn en de populaties symmetrisch verdeeld zijn, hoewel de test minder gevoelig is voor schendingen van normaliteit dan de Pearson correlatie [10](#page=10).
#### 4.1.3 Voorbeeld: BEL20 vs. AEX rendementen
Het is relevant om te onderzoeken of de rendementen van de BEL20 en AEX beursindices afhankelijk zijn [11](#page=11).
De hypothesen zijn $H_0: \rho_s = 0$ versus $H_1: \rho_s \neq 0$ [11](#page=11).
De berekening met behulp van software levert de volgende resultaten op [11](#page=11):
* Spearman rangcorrelatie: $r_s = 0.6406015$ [11](#page=11).
* p-waarde = 0.002943 [11](#page=11).
Aangezien de p-waarde kleiner is dan 0.05, wordt de nulhypothese verworpen op een significantieniveau van 5%. Dit duidt op een significant positief verband tussen de rendementen van de BEL20 en AEX. De tabel met de rangen toont de $x_i$, $u_i$, $y_i$ en $v_i$ voor deze analyse [11](#page=11) [12](#page=12).
#### 4.1.4 Voorbeeld: Masterproeven beoordelingen
Een andere toepassing is het vergelijken van beoordelingen van masterproeven door academici en bedrijfsleiders. De vraag is of deze beoordelingen gelijkaardig zijn en positief afhankelijk [12](#page=12).
De hypothesen zijn $H_0: \rho_s = 0$ versus $H_1: \rho_s > 0$ [12](#page=12).
De resultaten van de test zijn [13](#page=13):
* Spearman rangcorrelatie: $r_s = 0.8424242$ [13](#page=13).
* p-waarde = 0.00223 [13](#page=13).
Met een p-waarde van 0.0022, wordt de nulhypothese verworpen op een significantieniveau van 5%. Dit suggereert dat de beoordelingen van masterproeven door academici en bedrijfsleiders significant positief afhankelijk zijn [13](#page=13).
### 4.2 Kendall rangcorrelatietest
De Kendall rangcorrelatietest, vaak aangeduid met $\tau$ (tau) of $r_k$, is een andere niet-parametrische methode om de sterkte en richting van de associatie tussen twee variabelen te meten, gebaseerd op de rangordes. In tegenstelling tot Spearman, vergelijkt Kendall de rangordes over alle mogelijke paren van observaties [13](#page=13).
#### 4.2.1 Concept en berekening
Bij de Kendall rangcorrelatietest wordt gekeken naar paren van observaties $(x_i, y_i)$ en $(x_j, y_j)$. Er wordt bepaald of deze paren **concordant** of **discordant** zijn [13](#page=13).
* Een **concordant paar** treedt op als de rangordes van de twee variabelen voor beide paren in dezelfde richting gaan. Dat wil zeggen, als $x_i < x_j$ en tegelijkertijd $y_i < y_j$, of als $x_i > x_j$ en $y_i > y_j$ [13](#page=13).
* Een **discordant paar** treedt op als de rangordes van de twee variabelen voor de paren tegengesteld zijn. Dat wil zeggen, als $x_i < x_j$ en $y_i > y_j$, of als $x_i > x_j$ en $y_i < y_j$ [13](#page=13).
Laat $c$ het aantal concordante paren zijn en $d$ het aantal discordante paren. Het totale aantal mogelijke paren van observaties is $\frac{n(n-1)}{2}$ [14](#page=14).
De Kendall rangcorrelatie $r_k$ wordt berekend als:
$$
r_k = \frac{c - d}{\frac{n(n-1)}{2}}
$$
Als alle paren concordant zijn, is $c = \frac{n(n-1)}{2}$ en $d = 0$, wat resulteert in $r_k = 1$ [14](#page=14).
Als alle paren discordant zijn, is $c = 0$ en $d = \frac{n(n-1)}{2}$, wat resulteert in $r_k = -1$ [14](#page=14).
Als de variabelen onafhankelijk zijn, dan is $c \approx d$, en dus $r_k \approx 0$ [14](#page=14).
#### 4.2.2 Hypothesen en interpretatie
Voor de populatie Kendall rangcorrelatie $\tau$ (of $\rho_k$), worden de volgende hypothesen getest [14](#page=14):
* Nulhypothese ($H_0$): $\rho_k = 0$ (geen verband)
* Alternatieve hypothese ($H_1$): $\rho_k \neq 0$ (een verband, of eenzijdig $\rho_k > 0$ of $\rho_k < 0$) [14](#page=14).
Net als bij Spearman, impliceert een monotoon stijgend verband $\rho_k = 1$, en een monotoon dalend verband $\rho_k = -1$. Onafhankelijkheid impliceert $\rho_k = 0$. De nulhypothese wordt verworpen als de berekende $r_k$ significant afwijkt van 0 [14](#page=14).
> **Tip:** De Kendall tau correlatie is een robuuste maat voor associatie, vooral nuttig wanneer er veel gelijke waarden of uitschieters zijn, omdat het werkt met rangen [13](#page=13).
#### 4.2.3 Voorbeeld: BEL20 vs. AEX rendementen
Voor de BEL20 en AEX rendementen wordt de Kendall correlatie getest met de hypothesen $H_0: \rho_k = 0$ versus $H_1: \rho_k \neq 0$ [15](#page=15).
Er worden $\frac{20 \times 19}{2} = 190$ paren van observaties vergeleken [15](#page=15).
Een voorbeeld van een concordant paar is wanneer observatie 1 (BEL20 rendement: -1.63, AEX rendement: -0.83) wordt vergeleken met observatie 2 (BEL20 rendement: 0.12, AEX rendement: -0.17). Hier is $1 < 7$ en $1 < 5$ (rangen), wat een concordant paar aangeeft [15](#page=15).
Een voorbeeld van een discordant paar is wanneer observatie 4 (BEL20 rendement: 1.67, AEX rendement: 1.51) wordt vergeleken met observatie 7 (BEL20 rendement: 1.02, AEX rendement: 1.37). Hier is $4 > 7$ (rangen BEL20) maar $16 < 19$ (rangen AEX), wat een discordant paar aangeeft [15](#page=15).
De resultaten van de test met software zijn [16](#page=16):
* Aantal concordante paren: 142, aantal discordante paren: 48 [16](#page=16).
* Kendall rangcorrelatie: $r_k = \frac{142 - 48}{190} = 0.4947$ [16](#page=16).
* p-waarde = 0.00184 [16](#page=16).
Met een p-waarde van 0.0018, wordt de nulhypothese verworpen op een significantieniveau van 5%. Dit bevestigt een significant positief verband tussen de rendementen van de BEL20 en AEX [16](#page=16).
#### 4.2.4 Voorbeeld: Masterproeven beoordelingen
Voor de beoordelingen van masterproeven door academici en bedrijfsleiders, met hypothesen $H_0: \rho_k = 0$ versus $H_1: \rho_k > 0$ [16](#page=16):
* Observatie A (bedrijfsleider rang 5, academicus rang 4) en observatie B (bedrijfsleider rang 1, academicus rang 2) vormen een concordant paar omdat $5 > 1$ en $4 > 2$ [16](#page=16).
* Observatie A (bedrijfsleider rang 5, academicus rang 4) en observatie C (bedrijfsleider rang 3, academicus rang 6) vormen een discordant paar omdat $5 > 3$ maar $4 < 6$ [16](#page=16).
De resultaten van de test met software zijn [17](#page=17):
* Totaal aantal paren te vergelijken: $\frac{10 \times 9}{2} = 45$ [17](#page=17).
* Aantal concordante paren: 36, aantal discordante paren: 9 [17](#page=17).
* Kendall rangcorrelatie: $r_k = 0.6$ [17](#page=17).
* p-waarde = 0.008333 [17](#page=17).
Met een p-waarde van 0.0083, wordt de nulhypothese verworpen op een significantieniveau van 5%. De beoordelingen van masterproeven door academici en bedrijfsleiders zijn dus significant positief afhankelijk [17](#page=17).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Onafhankelijkheid | Twee variabelen worden als onafhankelijk beschouwd als de verdeling van de ene variabele niet wordt beïnvloed door de waarden van de andere variabele. Wiskundig geldt dan $P(X, Y) = P(X)P(Y)$. |
| Afhankelijkheid | Twee variabelen worden als afhankelijk beschouwd als er een relatie bestaat tussen hun waarden, wat betekent dat de verdeling van de ene variabele verandert afhankelijk van de waarde van de andere variabele. |
| Gezamenlijke kansverdeling | Een kansverdeling die de kansen beschrijft voor combinaties van uitkomsten van twee of meer willekeurige variabelen. |
| Marginale verdeling | De kansverdeling van een enkele willekeurige variabele binnen een gezamenlijke verdeling, zonder rekening te houden met de waarden van de andere variabelen. |
| Kruistabel (Contingency table) | Een tabel die de frequentieverdeling van variabelen toont. Bij het testen van afhankelijkheid wordt deze gebruikt om de waargenomen frequenties van combinaties van uitkomsten van twee categorische variabelen weer te geven. |
| Verwachte frequentie | Het aantal observaties dat verwacht wordt in een cel van een kruistabel onder de aanname van onafhankelijkheid tussen de variabelen. Dit wordt berekend als $n \times P(X=x) \times P(Y=y)$. |
| Teststatistiek | Een waarde berekend uit steekproefgegevens die wordt gebruikt om de nulhypothese te testen. De chikwadraat ($x^2$) teststatistiek meet het verschil tussen waargenomen en verwachte frequenties. |
| Vrijheidsgraden | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische berekening. Bij de $x^2$-test voor afhankelijkheid van een $r \times k$ tabel is dit $(r-1)(k-1)$. |
| p-waarde | De kans om een teststatistiek te observeren die minstens zo extreem is als de berekende waarde, gegeven dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot het verwerpen van de nulhypothese. |
| Fisher's exacte test | Een statistische test die wordt gebruikt om de afhankelijkheid tussen twee categorische variabelen te evalueren, vooral nuttig wanneer de verwachte celgroottes klein zijn. Het berekent de exacte kans van de waargenomen resultaten onder de nulhypothese van onafhankelijkheid. |
| Hypergeometrische verdeling | Een discrete kansverdeling die de kans berekent op een bepaald aantal successen in trekkingen zonder teruglegging uit een eindige populatie waarin elke trekking een succes of mislukking is. Wordt gebruikt in Fisher's exacte test. |
| Rangcorrelatie | Een statistische maat die de sterkte en richting van een monotone relatie tussen twee rangschikkingen aangeeft. Spearman's rho en Kendall's tau zijn voorbeelden. |
| Spearman rangcorrelatie ($r_s$) | Een niet-parametrische maat voor de sterkte en richting van de associatie tussen twee rangschikkingen. Het is de Pearson-correlatiecoëfficiënt toegepast op de rangen van de gegevens. |
| Kendall rangcorrelatie ($r_k$ of $T$) | Een niet-parametrische maat voor de associatie tussen twee rangschikkingen, gebaseerd op het aantal concordante en discordante paren in de gegevens. |
| Concordant paar | Een paar observaties waarbij de rangschikking van de ene variabele dezelfde richting heeft als de rangschikking van de andere variabele voor beide observaties. |
| Discordant paar | Een paar observaties waarbij de rangschikking van de ene variabele tegengesteld is aan de rangschikking van de andere variabele voor de twee observaties. |