Cover
Börja nu gratis WPO8_slides.pdf
Summary
# Pearson correlatiecoëfficiënt
De Pearson correlatiecoëfficiënt is een maat voor de lineaire samenhang tussen twee variabelen op intervalniveau of hoger [4](#page=4).
### 1.1 De Pearson correlatiecoëfficiënt (r)
De Pearson correlatiecoëfficiënt, vaak aangeduid met de letter $r$, kwantificeert de sterkte en richting van de lineaire relatie tussen twee continue variabelen [4](#page=4).
#### 1.1.1 Formule
De formule voor de Pearson correlatiecoëfficiënt ($r$) wordt gegeven door:
$$ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} $$
of alternatief:
$$ r = \frac{n \sum_{i=1}^{n} x_i y_i - (\sum_{i=1}^{n} x_i)(\sum_{i=1}^{n} y_i)}{\sqrt{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} \sqrt{n \sum_{i=1}^{n} y_i^2 - (\sum_{i=1}^{n} y_i)^2}} $$
Hierbij staat:
- $n$ voor het aantal waarnemingen [4](#page=4).
- $x_i$ en $y_i$ voor de individuele waarden van de variabelen $x$ en $y$ [4](#page=4).
- $\bar{x}$ en $\bar{y}$ voor het gemiddelde van de variabelen $x$ en $y$ [4](#page=4).
#### 1.1.2 Interpretatie van de effectgrootte
De waarde van $r$ ligt altijd tussen -1 en 1 [4](#page=4).
* Een waarde van $r = 1$ indiceert een perfecte positieve lineaire samenhang [4](#page=4).
* Een waarde van $r = -1$ indiceert een perfecte negatieve lineaire samenhang [4](#page=4).
* Een waarde van $r = 0$ indiceert de afwezigheid van een lineair verband tussen de twee variabelen [4](#page=4).
De interpretatie van de sterkte van het effect, gebaseerd op de absolute waarde van $r$, is als volgt [4](#page=4):
* $0 < |r| < 0.30$: Weinig effect
* $0.30 \le |r| < 0.70$: Matig effect
* $|r| \ge 0.70$: Sterk effect
> **Tip:** De Pearson correlatiecoëfficiënt meet enkel lineaire verbanden. Een lage correlatie sluit dus niet uit dat er een niet-lineair verband bestaat.
### 1.2 Toetsingsgrootheid t-toets voor correlatie
Om te toetsen of de geobserveerde correlatie in de steekproef significant is en dus kan worden gegeneraliseerd naar de populatie, wordt vaak een t-toets gebruikt [5](#page=5).
#### 1.2.1 Nulhypothese en alternatieve hypothese
De nulhypothese ($H_0$) stelt dat er geen correlatie is in de populatie ($\rho = 0$), waarbij $\rho$ de populatiecorrelatie vertegenwoordigt. De alternatieve hypothese ($H_a$) kan eenzijdig of tweezijdig zijn [5](#page=5):
* Tweezijdige toets: $\rho \neq 0$ [5](#page=5).
* Eenzijdige toetsen: $\rho > 0$ of $\rho < 0$ [5](#page=5).
#### 1.2.2 Voorwaarden voor de t-toets
Voor het correct toepassen van de t-toets voor correlatie, moeten de volgende voorwaarden voldaan zijn [5](#page=5):
* De twee variabelen moeten gemeten zijn op intervalniveau of hoger [5](#page=5).
* De data moeten bivariaat normaal verdeeld zijn, of de steekproefomvang ($n$) moet groter zijn dan 25 [5](#page=5).
### 1.3 Voorbeeld
**Oefening 3: Vossen- en konijnenpopulaties** [6](#page=6).
Natuurpunt wil nagaan of er een verband is tussen vossenpopulaties en konijnenpopulaties in Belgische natuurgebieden (met een significantieniveau $\alpha = 5\%$). In een willekeurige steekproef van natuurgebieden werd het aantal konijnen en vossen per hectare geteld [6](#page=6).
| Konijnenpopulatie (per hectare) | Vossenpopulatie (per hectare) |
| :------------------------------ | :---------------------------- |
| 148 | 34 |
| 147 | 19 |
| 147 | 33 |
| 145 | 30 |
| 132 | 17 |
| 138 | 24 |
| 132 | 30 |
| 126 | 13 |
| 127 | 16 |
Om het verband te analyseren, zou men eerst de Pearson correlatiecoëfficiënt berekenen op basis van deze data. Vervolgens kan een t-toets worden uitgevoerd om de significantie van deze correlatie te beoordelen, mits aan de voorwaarden is voldaan.
---
# Spearman rangcorrelatiecoëfficiënt
De Spearman rangcorrelatiecoëfficiënt meet de sterkte en richting van een monotone samenhang tussen twee variabelen door gebruik te maken van hun rangordes [7](#page=7).
### 1.1 Concept en doel
De Spearman rangcorrelatiecoëfficiënt, vaak aangeduid met de Griekse letter $\rho$ (rho), is een non-parametrische maat die wordt gebruikt om de mate van overeenkomst in rangorde tussen twee variabelen te kwantificeren. In plaats van de ruwe data zelf te gebruiken, wordt deze methode toegepast op de rangen die aan de data zijn toegekend. Dit maakt het een geschikte tool om de monotone samenhang te beoordelen, wat betekent dat we kijken of de ene variabele de neiging heeft toe te nemen (of af te nemen) wanneer de andere variabele toeneemt, zonder dat dit noodzakelijkerwijs een lineair verband hoeft te zijn [7](#page=7).
### 1.2 Hypothesen
Bij het toetsen met de Spearman rangcorrelatiecoëfficiënt worden de volgende hypothesen opgesteld:
* **Nulhypothese ($H_0$)**: Er is geen verband tussen de twee variabelen. Dit wordt wiskundig uitgedrukt als $\rho = 0$ [9](#page=9).
* **Alternatieve hypothesen ($H_a$)**: Er is wel een verband tussen de twee variabelen. Afhankelijk van de specifieke onderzoeksvraag, kunnen dit de volgende vormen aannemen:
* $\rho \neq 0$: Er is een verband (tweezijdige toets) [9](#page=9).
* $\rho > 0$: Er is een positief verband (eenzijdige toets) [9](#page=9).
* $\rho < 0$: Er is een negatief verband (eenzijdige toets) [9](#page=9).
### 1.3 Toepassing en voorbeeld
De Spearman rangcorrelatie kan worden toegepast om de samenhang tussen twee variabelen te onderzoeken, vooral wanneer de data niet voldoen aan de aannames voor parametrische correlatietests zoals de Pearson correlatiecoëfficiënt. Een typisch scenario is het onderzoeken van de relatie tussen subjectieve metingen of wanneer de variabelen ordinaal geschaald zijn [7](#page=7).
> **Voorbeeld:** Een onderzoeker wil nagaan of er een verband bestaat tussen de mate van ervaren stress en de beoordeling van slaapkwaliteit. De data kunnen er als volgt uitzien:
>
> | Ervaren stress (VAS-schaal) | Beoordeling slaapkwaliteit |
> | :--------------------------- | :------------------------ |
> | 3,2 | Goed |
> | 5,9 | Zeer goed |
> | 8,4 | Middelmatig |
> | 4,7 | Zeer slecht |
> | 12,7 | Slecht |
>
> Met behulp van de Spearman rangcorrelatie kan worden onderzocht of de uitspraak "Hoe meer stress iemand ervaart, hoe slechter hun slaapkwaliteit" bevestigd kan worden, uitgaande dat de voorwaarden voor de test voldaan zijn [10](#page=10).
### 1.4 Formules en berekening (algemeen)
De berekening van de Spearman rangcorrelatiecoëfficiënt is gebaseerd op de rangordes van de geobserveerde waarden voor elke variabele. De precieze formule en de stappen voor het berekenen van de rangen, en vervolgens de coëfficiënt zelf, zijn gedetailleerd in het formularium. Belangrijk is dat bij gelijke rangen (tied ranks) een correctie wordt toegepast in de berekening. De waarde van $\rho$ ligt altijd tussen -1 en +1, waarbij +1 perfecte positieve monotone samenhang aangeeft, -1 perfecte negatieve monotone samenhang, en 0 geen monotone samenhang [7](#page=7) [8](#page=8).
---
# Kendall rangcorrelatiecoëfficiënt
De Kendall rangcorrelatiecoëfficiënt is een statistische maat die de sterkte en richting van de associatie tussen twee gerangschikte variabelen kwantificeert [11](#page=11).
### 3.1 Concept en berekening
De Kendall rangcorrelatiecoëfficiënt, vaak aangeduid met de Griekse letter $\tau$ (tau), meet de mate waarin de rangschikking van paren van observaties overeenkomt. Het is een niet-parametrische methode, wat betekent dat het geen aannames doet over de onderliggende verdeling van de data. De berekening van $\tau$ is gebaseerd op het aantal concordante en discordante paren in de data [11](#page=11) [13](#page=13).
#### 3.1.1 Concordante en discordante paren
* **Concordant paar**: Een paar observaties $(x_i, y_i)$ en $(x_j, y_j)$ is concordant als de rangschikking van de $x$-waarden overeenkomt met de rangschikking van de $y$-waarden. Dit betekent dat als $x_i < x_j$, dan ook $y_i < y_j$, of als $x_i > x_j$, dan ook $y_i > y_j$ [13](#page=13).
* **Discordant paar**: Een paar observaties $(x_i, y_i)$ en $(x_j, y_j)$ is discordant als de rangschikking van de $x$-waarden tegengesteld is aan de rangschikking van de $y$-waarden. Dit betekent dat als $x_i < x_j$, dan $y_i > y_j$, of als $x_i > x_j$, dan $y_i < y_j$ [13](#page=13).
De formule voor de Kendall rangcorrelatiecoëfficiënt is:
$$ \tau = \frac{C - D}{\frac{n(n-1)}{2}} $$
waarbij:
* $C$ het aantal concordante paren is [13](#page=13).
* $D$ het aantal discordante paren is [13](#page=13).
* $n$ het aantal observatieparen is [13](#page=13).
Het maximum aantal mogelijke paren is $\frac{n(n-1)}{2}$ [13](#page=13).
#### 3.1.2 Interpretatie van $\tau$
De waarde van $\tau$ varieert tussen -1 en +1 [11](#page=11).
* $\tau = +1$: Perfecte positieve rangcorrelatie. De rangschikkingen zijn identiek.
* $\tau = -1$: Perfecte negatieve rangcorrelatie. De rangschikkingen zijn omgekeerd.
* $\tau = 0$: Geen rangcorrelatie. Er is geen lineair verband tussen de rangschikkingen.
> **Tip:** Een hogere absolute waarde van $\tau$ duidt op een sterkere associatie tussen de twee variabelen.
### 3.2 Hypothesetesten
De Kendall rangcorrelatiecoëfficiënt kan gebruikt worden om hypothesen te testen over de associatie tussen twee variabelen [13](#page=13).
#### 3.2.1 Nulhypothese en alternatieve hypothesen
* **Nulhypothese ($H_0$)**: Er is geen verband tussen de twee gerangschikte variabelen ($\tau = 0$) [13](#page=13).
* **Alternatieve hypothesen ($H_a$)**:
* Er is een verband tussen de twee gerangschikte variabelen ($\tau \neq 0$). Dit is een tweezijdige test [13](#page=13).
* Er is een positief verband tussen de twee gerangschikte variabelen ($\tau > 0$). Dit is een eenzijdige test [13](#page=13).
* Er is een negatief verband tussen de twee gerangschikte variabelen ($\tau < 0$). Dit is een eenzijdige test [13](#page=13).
### 3.3 Toepassing en voorbeeld
De Kendall rangcorrelatiecoëfficiënt is nuttig wanneer men de relatie tussen twee ordinale variabelen wil onderzoeken, of wanneer de assumpties voor andere correlatiematen (zoals Pearson's $r$) niet voldaan zijn [11](#page=11).
#### 3.3.1 Oefening 8
**Vraag:** Kan, op basis van de onderstaande data, de uitspraak “Hoe meer stress iemand ervaart, hoe slechter hun slaapkwaliteit” bevestigd worden? Er mag van uitgegaan worden dat de voorwaarden voldaan zijn voor de te uitvoeren test.
**Data:**
| Ervaren stress (gemeten via VAS-schaal) | Beoordeling slaapkwaliteit |
| :------------------------------------- | :------------------------- |
| 3,2 | Goed |
| 5,9 | Zeer goed |
| 8,4 | Middelmatig |
| 4,7 | Zeer slecht |
| 12,7 | Slecht |
Om deze vraag te beantwoorden, zouden we de data eerst moeten rangschikken voor zowel "Ervaren stress" als "Beoordeling slaapkwaliteit". Vervolgens zouden we het aantal concordante en discordante paren tellen om $\tau$ te berekenen en de resultaten toetsen aan de alternatieve hypothese dat er een negatief verband is ($\tau < 0$) [14](#page=14).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Pearson correlatiecoëfficiënt | Een statistische maat die de sterkte en richting van de lineaire relatie tussen twee continue variabelen kwantificeert. De waarde varieert van -1 (perfect negatieve correlatie) tot 1 (perfect positieve correlatie), waarbij 0 geen lineaire correlatie aangeeft. |
| Effectgrootte | Een kwantificering van de grootte van een effect of verband tussen variabelen. Bij de Pearson correlatiecoëfficiënt wordt de waarde van 'r' geïnterpreteerd als effectgrootte, waarbij 0 < .30 als weinig effect, .30 < .70 als matig effect en > .70 als sterk effect wordt beschouwd. |
| Nulhypothese | In statistische toetsing is dit de hypothese die stelt dat er geen effect, verschil of verband is tussen de bestudeerde populaties of variabelen. Bij correlatietoetsen is de nulhypothese vaak dat de populatiecorrelatie gelijk is aan nul ($\rho=0$ of $H_0: \rho = 0$). |
| Alternatieve hypothese | De hypothese die het tegendeel beweert van de nulhypothese. Als de nulhypothese wordt verworpen, wordt de alternatieve hypothese aangenomen. Dit kan eenzijdig ($\rho > 0$ of $\rho < 0$) of tweezijdig ($\rho \neq 0$) zijn. |
| Bivariaat normaal verdeeld | Een aanname bij bepaalde statistische analyses, waaronder de Pearson correlatietoets, waarbij de gezamenlijke verdeling van twee variabelen een bivariate normale verdeling volgt. |
| Spearman rangcorrelatiecoëfficiënt | Een non-parametrische maat die de sterkte en richting van de monotone relatie tussen twee variabelen test. In plaats van de ruwe data worden de rangen van de data gebruikt, wat deze methode geschikt maakt voor niet-lineaire verbanden of data die niet normaal verdeeld is. |
| Kendall rangcorrelatiecoëfficiënt | Een non-parametrische maat die de sterkte van de overeenkomst tussen twee rangordes meet. Het telt het aantal concordante en discordante paren in de data. Het wordt vaak gebruikt bij kleine steekproeven of wanneer er veel gelijke waarden zijn. |
| Concordante paren | Paren van observaties waarbij de rangorde van beide variabelen in dezelfde richting gaat (bijvoorbeeld, als X stijgt, stijgt Y ook). |
| Discordante paren | Paren van observaties waarbij de rangorde van de variabelen in tegengestelde richting gaat (bijvoorbeeld, als X stijgt, daalt Y). |
| $\tau$ (Kendall's tau) | De Kendall rangcorrelatiecoëfficiënt, die de mate van associatie tussen twee rangordes weergeeft. De formule is $\tau = \frac{C - D}{n(n-1)/2}$, waarbij C het aantal concordante paren is, D het aantal discordante paren, en n het aantal observaties. |