Cover
Jetzt kostenlos starten Oplossingen WC 3.pptx
Summary
# Toetsstramien en toetsen voor 2 onafhankelijke populaties
Dit onderwerp omvat het algemene proces van het uitvoeren van statistische toetsen en focust specifiek op de t-toets voor twee onafhankelijke steekproeven, inclusief de bijhorende voorwaarden, hypothesen, toetsingsgrootheid, beslissingsregel en effectgrootte. Tevens wordt de F-toets voor gelijke varianties besproken.
### 1.1 Het algemene toetsstramien
Bij het uitvoeren van een statistische toets doorloopt men een gestructureerd proces, het zogenaamde toetsstramien, dat helpt bij het systematisch beantwoorden van onderzoeksvragen.
#### 1.1.1 De stappen van het toetsstramien
1. **Toetsingssituatie:**
* Identificeer de beschikbare gegevens.
* Beschrijf de concrete toetsingssituatie.
* Bepaal bij welk soort onderzoeksvragen deze toets toegepast kan worden.
2. **Voorwaarden:**
* Controleer of aan de statistische voorwaarden voor de gekozen toets wordt voldaan.
3. **Hypothesen:**
* Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) die passen bij de onderzoeksvraag.
4. **Toetsingsgrootheid:**
* Bepaal welke statistische grootheid berekend moet worden en wat de bijbehorende kansverdeling is.
* Bereken de waarde van de toetsingsgrootheid met behulp van de juiste formule.
5. **Beslissingsregel:**
* Formuleer de regel op basis waarvan $H_0$ wordt verworpen, hetzij via overschrijdingskansen (p-waarde) of via kritieke waarden.
6. **Effectgrootte:**
* Bereken de effectgrootte om de praktische relevantie van het gevonden effect te kwantificeren.
7. **Rapporteren:**
* Vermeld de resultaten op een correcte en gestandaardiseerde manier.
### 1.2 Toetsen voor 2 onafhankelijke populaties
Dit gedeelte richt zich op het vergelijken van twee groepen die onafhankelijk van elkaar zijn samengesteld.
#### 1.2.1 De t-toets voor 2 onafhankelijke steekproeven
De t-toets voor 2 onafhankelijke steekproeven wordt gebruikt om te onderzoeken of er een significant verschil is in gemiddelden tussen twee onafhankelijke groepen.
* **Onderzoeksvraag:** Is er een verschil toe te wijzen aan een manipulatie, therapie, etc., door één groep deze toe te passen en een andere groep niet (controlegroep)?
* **Toepassingsgebied:** Vergelijken van gemiddelden van twee onafhankelijke groepen (bv. experimentele groep versus controlegroep).
* **Voorwaarden:**
* De afhankelijke variabele (AV) is normaal verdeeld binnen beide populaties.
* De AV is gemeten op minimaal intervalniveau.
* De steekproeven zijn onafhankelijk.
* **Hypothesen:**
* $H_0: \mu_1 = \mu_2$ (Er is geen verschil tussen de populatiegemiddelden.)
* $H_1: \mu_1 \neq \mu_2$ (Er is een verschil tussen de populatiegemiddelden - tweezijdige toets.)
* $H_1: \mu_1 > \mu_2$ of $H_1: \mu_1 < \mu_2$ (Er is een directioneel verschil - eenzijdige toets.)
* **Toetsingsgrootheid:**
De berekening van de t-statistiek hangt af van de varianties in de twee populaties. Er zijn twee varianten:
1. **Gelijke varianties in de populaties ($\sigma^2_1 = \sigma^2_2$):**
In dit geval wordt een gepoolde variantie ($s^2_p$) gebruikt.
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{s^2_p \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} $$
Waarbij:
$$ s^2_p = \frac{(n_1 - 1)s^2_1 + (n_2 - 1)s^2_2}{n_1 + n_2 - 2} $$
De vrijheidsgraden zijn $df = n_1 + n_2 - 2$.
2. **Ongelijke varianties in de populaties ($\sigma^2_1 \neq \sigma^2_2$):**
Hierbij wordt geen gepoolde variantie gebruikt, maar de afzonderlijke steekproefvarianties ($s^2_1$ en $s^2_2$). Dit staat bekend als de Welch's t-toets.
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}}} $$
De vrijheidsgraden worden berekend met de Welch-Satterthwaite formule, die complexer is:
$$ df \approx \frac{\left(\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}\right)^2}{\frac{\left(\frac{s^2_1}{n_1}\right)^2}{n_1 - 1} + \frac{\left(\frac{s^2_2}{n_2}\right)^2}{n_2 - 1}} $$
* **Beslissingsregel:**
* **Kritieke waarden:** Verwerp $H_0$ als de berekende t-statistiek groter is dan de kritieke waarde (voor een eenzijdige toets) of als de absolute waarde van de berekende t-statistiek groter is dan de kritieke waarde (voor een tweezijdige toets) bij een bepaald significantieniveau ($\alpha$).
* **Overschrijdingskans (p-waarde):** Verwerp $H_0$ als de p-waarde kleiner is dan het gestelde significantieniveau ($\alpha$).
* **Effectgrootte:**
Om de effectgrootte te berekenen, wordt vaak Cohen's $r$ gebruikt, die de standaard deviation van de gemiddelden van de groepen uitdrukt in termen van de standaarddeviatie.
$$ r = \frac{\bar{x}_1 - \bar{x}_2}{s_{pooled}} $$
(Waar $s_{pooled}$ de gepoolde standaarddeviatie is bij gelijke varianties.)
Een andere veelgebruikte maat voor effectgrootte is Cohen's $d$:
$$ d = \frac{\bar{x}_1 - \bar{x}_2}{s_{pooled}} $$
(Bij gelijke varianties)
En voor ongelijke varianties:
$$ d = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{(n_1-1)s^2_1 + (n_2-1)s^2_2}{n_1+n_2-2}}} $$
(Met de gepoolde standaarddeviatie)
Interpretatie van Cohen's $d$:
* $|d| \approx 0.2$: klein effect
* $|d| \approx 0.5$: gemiddeld effect
* $|d| \approx 0.8$: groot effect
#### 1.2.2 De F-toets voor gelijke varianties
Voordat de t-toets voor 2 onafhankelijke steekproeven kan worden uitgevoerd, is het noodzakelijk om te bepalen of de varianties in de twee populaties als gelijk of ongelijk beschouwd mogen worden. Hiervoor wordt de F-toets gebruikt.
* **Hypothesen:**
* $H_0: \sigma^2_1 = \sigma^2_2$ (De varianties in de populaties zijn gelijk.)
* $H_1: \sigma^2_1 \neq \sigma^2_2$ (De varianties in de populaties zijn ongelijk.)
* **Toetsingsgrootheid:**
De F-statistiek is de verhouding van de twee steekproefvarianties.
$$ F = \frac{s^2_{groter}}{s^2_{kleiner}} $$
Hierbij is $s^2_{groter}$ de grotere van de twee steekproefvarianties en $s^2_{kleiner}$ de kleinere.
* **Beslissingsregel:**
* Verwerp $H_0$ als de berekende F-statistiek groter is dan de kritieke F-waarde uit de F-verdelingstabel, met de bijbehorende vrijheidsgraden ($df_{teller} = n_{groter}-1$ en $df_{noemer} = n_{kleiner}-1$).
#### 1.2.3 Wilcoxon rank-sum test (Mann-Whitney U-test)
Wanneer de aannames voor de t-toets voor onafhankelijke steekproeven niet voldaan zijn (bv. als de afhankelijke variabele niet op intervalniveau gemeten is of niet normaal verdeeld is), kan de non-parametrische Wilcoxon rank-sum test (ook bekend als de Mann-Whitney U-test) worden toegepast. Deze toets vergelijkt medianen in plaats van gemiddelden.
* **Wanneer te gebruiken:** Als aan de assumpties van een t-toets voor 2 onafhankelijke steekproeven niet is voldaan.
* **Voorwaarden:**
* De steekproeven zijn onafhankelijk.
* De afhankelijke variabele is minimaal ordinaal niveau.
* **Hypothesen:**
* $H_0$: De verdelingen van de twee groepen zijn identiek. (Impliciet: de medianen zijn gelijk.)
* $H_1$: De verdelingen van de twee groepen zijn verschillend. (Impliciet: de medianen verschillen.)
* **Toetsingsgrootheid:**
1. Rangschik alle waarnemingen van beide groepen samen van klein naar groot.
2. Ken rangnummers toe. Bij gelijke waarden wordt het gemiddelde van de rangen toegekend.
3. Bereken de som van de rangen voor elke groep afzonderlijk ($W_1$ en $W_2$).
4. De toetsingsgrootheid kan de kleinste van deze sommen zijn, of een omrekening naar een z-score.
Voor grote steekproeven kan de toetsingsgrootheid $W_s$ worden omgerekend naar een z-score:
$$ z = \frac{W_s - \frac{n_1(n_1+n_2+1)}{2}}{\sqrt{\frac{n_1 n_2 (n_1+n_2+1)}{12}}} $$
Waarbij $W_s$ de kleinste rangsom is, $n_1$ de steekproefgrootte van de ene groep, en $n_2$ de steekproefgrootte van de andere groep.
* **Beslissingsregel:**
* Gebruik overschrijdingskansen (p-waarden) gebaseerd op de z-score. Verwerp $H_0$ als de tweezijdige p-waarde kleiner is dan $\alpha$.
* **Effectgrootte:**
Voor de Wilcoxon rank-sum test kan de effectgrootte worden geschat met behulp van een correlatiecoëfficiënt, die de mate van overlap tussen de twee groepen weergeeft. Echter, er is geen eenduidige standaardmaat zoals bij de t-toets. Soms wordt een soortgelijke berekening als bij de t-toets gebruikt na transformatie van de rangen.
### 1.3 Voorbeeldtoepassing van het toetsstramien
**Onderzoeksvraag:** Wil de directeur van een lagere school nagaan of leerlingen die in de kleuterklas ingestapt zijn vóór de leeftijd van 3 jaar, hogere of lagere resultaten behalen dan leerlingen die na de leeftijd van 3 jaar zijn ingestapt, op vier vakken?
#### 1.3.1 Stap 1: Toetsingssituatie
* **Gegevens:** Scores op 4 vakken voor twee groepen leerlingen (ingestapt vóór 3 jaar vs. ingestapt na 3 jaar).
* **Concrete toetsingssituatie:** Vergelijken van gemiddelde scores tussen twee onafhankelijke groepen.
* **Onderzoeksvraag type:** Nagaan of er een significant verschil is in gemiddelde prestaties tussen twee groepen.
#### 1.3.2 Stap 2: Voorwaarden
* **Normaal verdeelde AV:** Aangenomen in de vraag.
* **Interval-niveau AV:** Scores op vakken zijn minimaal intervalniveau.
* **Onafhankelijke steekproeven:** De twee groepen leerlingen zijn onafhankelijk.
#### 1.3.3 Stap 3: Hypothesen
* **Vraagstelling:** Is er een verschil in scores tussen leerlingen die vóór 3 jaar instappen en leerlingen die na 3 jaar instappen?
* **Hypothesen (tweezijdig):**
* $H_0: \mu_{vóór 3 jaar} = \mu_{na 3 jaar}$
* $H_1: \mu_{vóór 3 jaar} \neq \mu_{na 3 jaar}$
#### 1.3.4 Stap 4: Toetsingsgrootheid
* **Te berekenen grootheid:** t-statistiek.
* **Kansverdeling:** Student t-verdeling.
* **Bepaling varianties:** Eerst de F-toets uitvoeren om te bepalen of de varianties gelijk of ongelijk zijn.
* Als de F-toets significant is ($p < 0.05$), gebruik de formule voor ongelijke varianties.
* Als de F-toets niet significant is ($p \ge 0.05$), gebruik de formule voor gelijke varianties met gepoolde variantie en $df = n_1 + n_2 - 2$.
#### 1.3.5 Stap 5: Beslissingsregel
* Gebruik de kritieke waarde methode of de p-waarde methode.
* Verwerp $H_0$ als de berekende t-statistiek de kritieke waarde overschrijdt, of als de p-waarde kleiner is dan het significantieniveau ($\alpha$, meestal 0.05).
#### 1.3.6 Stap 6: Effectgrootte
* Bereken Cohen's $d$ of een andere relevante maat om de omvang van het verschil in scores tussen de groepen te kwantificeren.
#### 1.3.7 Stap 7: Rapporteren
* Beschrijf de uitgevoerde toets, de gemiddelden en standaarddeviaties van de groepen, de waarde van de toetsingsgrootheid, de vrijheidsgraden, de p-waarde, en de effectgrootte.
**Voorbeeld rapportage:**
"Om te onderzoeken of de scores op de vier vakken verschilden tussen leerlingen die voor de leeftijd van drie jaar instapten en leerlingen die na de leeftijd van drie jaar instapten, werd een t-toets voor twee onafhankelijke steekproeven uitgevoerd. Het gemiddelde score in de groep die voor drie jaar instapte was $M = 71.68$ ($SD = \dots$), en in de groep die na drie jaar instapte was $M = 60.75$ ($SD = \dots$). Dit verschil was significant op een niveau van 0.05 ($t(19) = 2.63$, $p < 0.05$, $r = 0.52$)."
---
# Toetsen voor 2 afhankelijke populaties
Dit onderdeel behandelt de t-toets voor afhankelijke steekproeven, een statistische methode die wordt toegepast wanneer metingen herhaaldelijk worden uitgevoerd bij dezelfde subjecten of wanneer subjecten in paren worden gematcht. De focus ligt op het volledige toetsstramien, inclusief de voorwaarden, het formuleren van hypothesen, de berekening van de toetsingsgrootheid, de beslissingsregel en het bepalen van de effectgrootte.
### 2.1 Het toetsstramien
Het toetsstramien biedt een gestructureerde aanpak om statistische hypothesen te toetsen. De stappen zijn als volgt:
1. **Toetsingssituatie:** Identificeer de specifieke gegevens en de onderzoeksvraag. Bepaal welk type onderzoek dit is en welke toets het meest geschikt is.
2. **Voorwaarden:** Controleer of de statistische aannames van de gekozen toets voldaan zijn.
3. **Hypothesen:** Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) die passen bij de onderzoeksvraag.
4. **Toetsingsgrootheid:** Bereken de relevante toetsingsgrootheid en bepaal de kansverdeling die deze volgt.
5. **Beslissingsregel:** Gebruik overschrijdingskansen of kritieke waarden om te beslissen of de nulhypothese wordt verworpen.
6. **Effectgrootte:** Kwantificeer de omvang van het gevonden effect.
7. **Rapporteren:** Communiceer de resultaten op een duidelijke en correcte manier.
### 2.2 De t-toets voor afhankelijke steekproeven
De t-toets voor afhankelijke steekproeven wordt gebruikt wanneer er twee metingen worden verricht bij dezelfde groep proefpersonen (herhaalde metingen) of wanneer proefpersonen zorgvuldig in paren worden gematcht op basis van relevante kenmerken. Dit stelt ons in staat om de verschillen binnen paren te analyseren.
#### 2.2.1 Toetsingssituatie
Deze toets is geschikt voor onderzoeksvragen waarbij men wil nagaan of er een significant verschil is tussen twee metingen bij dezelfde groep of bij gematchte paren. Voorbeelden zijn:
* Het meten van een effect door een voormeting en een nameting te doen bij dezelfde groep.
* Het vergelijken van de reacties van gematchte paren op verschillende condities.
#### 2.2.2 Voorwaarden
Om de t-toets voor afhankelijke steekproeven correct toe te passen, moet aan de volgende voorwaarden worden voldaan:
* De afhankelijke variabele (AV) is continu gemeten, op minimaal intervalniveau.
* De verschillen tussen de gepaarde metingen zijn normaal verdeeld in de populatie.
#### 2.2.3 Hypothesen
De hypothesen worden geformuleerd om een potentieel verschil tussen de twee metingen te toetsen:
* Nulhypothese ($H_0$): Er is geen verschil tussen de gemiddelden van de twee metingen. Formeel: $\mu_{\text{verschil}} = 0$.
* Alternatieve hypothese ($H_1$): Er is een verschil tussen de gemiddelden van de twee metingen. Dit kan een- of tweezijdig geformuleerd worden:
* Tweezijdig: $\mu_{\text{verschil}} \neq 0$
* Eenzijdig (bijvoorbeeld): $\mu_{\text{verschil}} > 0$
#### 2.2.4 Toetsingsgrootheid
De toetsingsgrootheid is een t-statistiek die gebaseerd is op de verschillen tussen de gepaarde metingen.
1. **Bereken de verschilscores:** Voor elk paar wordt het verschil tussen de twee metingen berekend: $d_i = x_{i1} - x_{i2}$.
2. **Bereken het gemiddelde verschil ($\bar{d}$):** Dit is het gemiddelde van alle verschilscores.
$$\bar{d} = \frac{\sum_{i=1}^{n} d_i}{n}$$
3. **Bereken de standaarddeviatie van de verschilscores ($s_d$):**
$$s_d = \sqrt{\frac{\sum_{i=1}^{n} (d_i - \bar{d})^2}{n-1}}$$
4. **Bereken de t-statistiek:**
$$t = \frac{\bar{d}}{s_d / \sqrt{n}}$$
Hierbij is $n$ het aantal paren.
De kansverdeling die hierbij hoort is de **Student t-verdeling** met $df = n-1$ vrijheidsgraden.
> **Tip:** De t-toets voor afhankelijke steekproeven focust op de *verschillen* tussen de metingen, niet op de individuele metingen zelf.
#### 2.2.5 Beslissingsregel
De beslissingsregel bepaalt wanneer $H_0$ verworpen wordt. Dit kan op twee manieren:
* **Overschrijdingskans (p-waarde):** Als de berekende p-waarde kleiner is dan het vooraf bepaalde significantieniveau ($\alpha$), wordt $H_0$ verworpen.
* **Kritieke waarden:** Als de berekende t-statistiek groter is dan de kritieke t-waarde (voor een tweezijdige toets, in absolute zin) uit de t-verdeling bij de gegeven vrijheidsgraden en $\alpha$, wordt $H_0$ verworpen.
#### 2.2.6 Effectgrootte
Om de praktische significantie van het gevonden verschil te beoordelen, wordt de effectgrootte berekend. Voor de t-toets voor afhankelijke steekproeven wordt vaak Cohen's $d$ gebruikt, maar dan berekend op basis van de verschilscores:
$$d = \frac{\bar{d}}{s_d}$$
Interpretatie van Cohen's $d$:
* $d \approx 0.2$: klein effect
* $d \approx 0.5$: middelmatig effect
* $d \approx 0.8$: groot effect
#### 2.2.7 Rapporteren
Een correcte rapportage bevat de volgende elementen:
* De gebruikte toets.
* De gemiddelden en standaarddeviaties van de twee metingen.
* De berekende t-statistiek met vrijheidsgraden: $t(df)$.
* De p-waarde.
* De effectgrootte.
Voorbeeld van een rapportage:
"Om na te gaan of het energieniveau verschilt tussen het begin van de les en nu, werd een t-toets voor afhankelijke steekproeven uitgevoerd. Het gemiddelde energieniveau aan het begin van het werkcollege was $M = \text{[gemiddelde voormeting]}$, $SD = \text{[standaarddeviatie voormeting]}$, en op dit moment was dit $M = \text{[gemiddelde nameting]}$, $SD = \text{[standaarddeviatie nameting]}$. Dit verschil was significant, $t(\text{[df]}) = \text{[t-waarde]}$, $p < 0.05$, $r = \text{[effectgrootte]}$. De effectgrootte duidt op een [klein/middelmatig/groot] effect."
### 2.3 Voorbeeld: T-toets voor afhankelijke steekproeven
**Onderzoeksvraag:** Krijgen serveersters met blond haar meer fooi dan serveersters met bruin haar? Er is een dataset met fooibedragen voor zowel blonde als brunettes serveersters, waarbij de serveersters gematcht zijn op basis van ervaring.
* **Toetsingssituatie:** Vergelijken van fooibedragen (continue AV) tussen twee gerelateerde groepen (blond vs. bruin haar) door middel van een t-toets voor afhankelijke steekproeven.
* **Voorwaarden:** We nemen aan dat de verschilscores normaal verdeeld zijn en dat de fooibedragen minimaal intervalniveau hebben.
* **Hypothesen:**
* $H_0: \mu_{\text{blond}} = \mu_{\text{bruin}}$ (Er is geen verschil in gemiddelde fooi tussen blonde en bruine serveersters.)
* $H_1: \mu_{\text{blond}} \neq \mu_{\text{bruin}}$ (Er is een verschil in gemiddelde fooi tussen blonde en bruine serveersters.)
* **Toetsingsgrootheid:** De berekende verschilscores (bv. fooi blond - fooi bruin) leiden tot een t-statistiek. Stel dat de berekende gemiddelde verschilscore $\bar{d} = 71.4$ dollars is en de standaarddeviatie van de verschilscores $s_d = 88.59$ dollars, met $n=10$ paren.
$$t = \frac{71.4}{88.59 / \sqrt{10}} \approx 2.55$$
De vrijheidsgraden zijn $df = n-1 = 10-1 = 9$. De t-verdeling is dus $t(9)$.
* **Beslissingsregel:** Bij een significantieniveau $\alpha = 0.05$ en $df=9$ is de kritieke waarde voor een tweezijdige toets ongeveer $\pm 2.262$. Omdat $|2.55| > 2.262$, wordt $H_0$ verworpen.
* **Effectgrootte:**
$$d = \frac{\bar{d}}{s_d} = \frac{71.4}{88.59} \approx 0.81$$
Dit duidt op een groot effect.
* **Rapporteren:** "Om na te gaan of blonde serveersters meer fooi ontvangen dan brunettes, werd een t-toets voor afhankelijke steekproeven uitgevoerd. Gemiddeld ontvangen blonde serveersters $71.4$ dollars meer fooi dan brunettes, met een standaarddeviatie van de verschilscores van $88.59$ dollars. Dit verschil was significant, $t(9) = 2.55$, $p < 0.05$, met een grote effectgrootte ($d = 0.81$)."
---
# Toetsen voor meer dan 2 populaties: eenwegs ANOVA
Dit onderwerp introduceert de eenwegs variantieanalyse (ANOVA) als methode om gemiddelden van meer dan twee populaties te vergelijken.
### 7.1 Het toetsstramien van de eenwegs ANOVA
De eenwegs ANOVA volgt een gestructureerd toetsstramien, vergelijkbaar met eerdere toetsen, maar aangepast aan de vergelijking van meerdere groepen.
#### 7.1.1 Situatie en onderzoeksvragen
De eenwegs ANOVA wordt gebruikt wanneer de onderzoeksvraag gericht is op het nagaan of er een significant verschil bestaat in het gemiddelde van een afhankelijke variabele (Y) tussen drie of meer onafhankelijke groepen (X). Dit is het geval wanneer een categorische onafhankelijke variabele meerdere niveaus heeft.
> **Tip:** De eenwegs ANOVA is een "omnibus"-toets. Dit betekent dat de hoofdtoets aangeeft óf er een verschil is tussen *minstens twee* groepen, maar niet *welke* groepen specifiek van elkaar verschillen. Hiervoor zijn post-hoc analyses nodig.
#### 7.1.2 Voorwaarden
Om een eenwegs ANOVA correct toe te passen, moeten aan de volgende statistische voorwaarden worden voldaan:
* **Afhankelijke variabele (Y) op minstens intervalniveau:** De metingen van de afhankelijke variabele moeten numeriek zijn en voldoende interval-eigenschappen bezitten.
* **Onafhankelijke variabele (X) op nominaal niveau met drie of meer niveaus:** De onafhankelijke variabele definieert de groepen die vergeleken worden.
* **Onafhankelijke waarnemingen:** De waarnemingen binnen en tussen de groepen moeten onafhankelijk van elkaar zijn.
* **Normaliteit:** De afhankelijke variabele moet normaal verdeeld zijn binnen elke populatie waaruit de steekproeven getrokken zijn.
* **Homogeniteit van varianties (homoscedasticiteit):** De varianties van de afhankelijke variabele moeten gelijk zijn in alle populaties waaruit de steekproeven getrokken zijn. Deze voorwaarde kan worden getoetst met de Levene-toets of de F-toets (hoewel de ANOVA relatief robuust is tegen schendingen van deze voorwaarde bij gelijke steekproefgroottes).
#### 7.1.3 Hypothesen
De nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) voor een eenwegs ANOVA luiden als volgt:
* $H_0$: Alle populatiegemiddelden zijn aan elkaar gelijk.
* Formeel: $\mu_a = \mu_b = \mu_c = \dots = \mu_j$, waarbij $j$ het aantal populaties (groepen) aangeeft.
* $H_1$: Minstens twee populatiegemiddelden zijn niet gelijk aan elkaar.
* Formeel: $\mu_j \neq \mu_{j'}$ voor minstens één paar van $j$ en $j'$.
* **Belangrijk:** De $H_1$ stelt *niet* dat alle gemiddelden verschillend zijn, maar dat er ten minste één significant verschil is tussen de gemiddelden.
#### 7.1.4 Toetsingsgrootheid: de F-verdeling
De eenwegs ANOVA toetst de nulhypothese door varianties te vergelijken. Het principe is dat als de groepen echt van elkaar verschillen, de variantie *tussen* de groepen groter zal zijn dan de variantie *binnen* de groepen.
De toetsingsgrootheid is de F-statistiek, die de verhouding weergeeft tussen de tussen-groeps-variantie en de binnen-groeps-variantie. Deze toetsingsgrootheid volgt een F-verdeling.
* **Tussen-groeps-variantie (Between-groups variance):** Meet de variatie tussen de gemiddelden van de verschillende groepen. Dit wordt ook wel de "Mean Square Between" ($MS_b$) genoemd.
* **Binnen-groeps-variantie (Within-groups variance):** Meet de gemiddelde variatie binnen elke groep. Dit wordt ook wel de "Mean Square Within" ($MS_w$) genoemd.
De berekening van de F-statistiek is als volgt:
$$ F = \frac{\text{Variantie tussen de groepen}}{\text{Variantie binnen de groepen}} = \frac{MS_b}{MS_w} $$
De verschillende componenten worden berekend via "Sum of Squares" (SS) en vrijheidsgraden (df):
* **Sum of Squares Between ($SS_b$):**
$$ SS_b = \sum_{i=1}^{k} n_i (\bar{x}_i - \bar{x}_{\text{totaal}})^2 $$
waarbij $k$ het aantal groepen is, $n_i$ de steekproefgrootte in groep $i$, $\bar{x}_i$ het gemiddelde van groep $i$, en $\bar{x}_{\text{totaal}}$ het totale gemiddelde over alle groepen.
* **Vrijheidsgraden Between ($df_b$):**
$$ df_b = k - 1 $$
* **Mean Square Between ($MS_b$):**
$$ MS_b = \frac{SS_b}{df_b} $$
* **Sum of Squares Within ($SS_w$):**
Dit is de som van de varianties binnen elke groep, gewogen naar de groepsgrootte, of anders uitgedrukt, de totale som van kwadraten minus de $SS_b$.
$$ SS_w = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2 $$
* **Vrijheidsgraden Within ($df_w$):**
$$ df_w = N - k $$
waarbij $N$ het totale aantal waarnemingen is over alle groepen.
* **Mean Square Within ($MS_w$):**
$$ MS_w = \frac{SS_w}{df_w} $$
De toetsingsgrootheid is dus:
$$ F = \frac{MS_b}{MS_w} $$
Deze F-statistiek volgt een F-verdeling met $df_b$ vrijheidsgraden in de teller en $df_w$ vrijheidsgraden in de noemer.
> **Tip:** Bij de berekening van de $SS_w$ kan het soms makkelijker zijn om eerst de totale sum of squares ($SS_{\text{totaal}}$) te berekenen en vervolgens $SS_w = SS_{\text{totaal}} - SS_b$ te doen.
#### 7.1.5 Beslissingsregel
Net als bij andere toetsen, wordt de beslissing genomen door de berekende F-statistiek te vergelijken met een kritieke waarde uit de F-verdeling of door de overschrijdingskans (p-waarde) te evalueren.
* **Kritieke Waarde Methode:** Als de berekende $F$-waarde groter is dan de kritieke $F$-waarde (bij een gekozen significantieniveau $\alpha$ en de bijbehorende vrijheidsgraden $df_b$ en $df_w$), wordt $H_0$ verworpen.
* **Overschrijdingskans Methode (p-waarde):** Als de berekende p-waarde kleiner is dan het significantieniveau $\alpha$, wordt $H_0$ verworpen.
#### 7.1.6 Effectgrootte
Om de praktische significantie van het gevonden effect te beoordelen, wordt de effectgrootte berekend. Voor de eenwegs ANOVA is dit vaak $\eta^2$ (eta-kwadraat) of $r$ (correlatiecoëfficiënt) als deze kan worden afgeleid.
* **Eta-kwadraat ($\eta^2$):** Dit geeft het percentage van de totale variantie in de afhankelijke variabele dat verklaard wordt door de onafhankelijke variabele (de groepen).
$$ \eta^2 = \frac{SS_b}{SS_{\text{totaal}}} = \frac{SS_b}{SS_b + SS_w} $$
Interpretatie van $\eta^2$:
* 0.01: klein effect
* 0.06: gemiddeld effect
* 0.14: groot effect
Soms wordt ook de gecorrigeerde effectgrootte $\omega^2$ (omega-kwadraat) gebruikt, die minder bevooroordeeld is voor kleine steekproeven.
#### 7.1.7 Rapporteren
De resultaten van een eenwegs ANOVA worden gerapporteerd volgens een standaardformaat, dat informatie bevat over de toets, de groepen, de toetsingsgrootheid, de vrijheidsgraden, de p-waarde en de effectgrootte.
**Voorbeeld rapportage:**
"Om na te gaan of er een significant verschil was in [afhankelijke variabele] tussen de [aantal groepen] groepen ([naam groepen]), werd een eenwegs variantieanalyse (ANOVA) uitgevoerd. Er werd een significant effect gevonden van [onafhankelijke variabele] op [afhankelijke variabele], $F(df_b, df_w) = \text{F-waarde}, p < \alpha, \eta^2 = \text{waarde}$. Dit suggereert dat ten minste één groep significant verschilt van de andere groepen qua gemiddelde [afhankelijke variabele]."
### 7.2 Post-hoc analyses
Wanneer de $H_0$ van de eenwegs ANOVA verworpen wordt, betekent dit dat er ten minste één significant verschil is tussen de groepsgemiddelden. Om te bepalen *welke* specifieke groepen van elkaar verschillen, worden post-hoc toetsen uitgevoerd. Deze toetsen vergelijken alle mogelijke paren van groepen.
* **Veelgebruikte post-hoc toetsen:** Tukey's HSD (Honestly Significant Difference), Bonferroni, Scheffé, LSD (Least Significant Difference).
* **Belang:** Post-hoc toetsen corrigeren voor het probleem van meervoudig toetsen. Door herhaaldelijk te toetsen, neemt de kans op een Type I fout (onterecht $H_0$ verwerpen) toe. Post-hoc toetsen houden hiermee rekening om het algehele significantieniveau te handhaven.
* **Keuze van post-hoc toets:** De keuze hangt af van de specifieke situatie, de grootte van de groepen en de aannames die worden gemaakt (bijvoorbeeld over de varianties). Tukey's HSD is populair bij gelijke groepsgroottes. Bonferroni is conservatiever (minder kans op Type I fout, maar hogere kans op Type II fout).
### 7.3 Voorbeeld: Eenwegs ANOVA
Stel, we onderzoeken het effect van drie verschillende studiemethoden (A, B, C) op de examenresultaten van statistiek. Er zijn 102 studenten, met 34 studenten per studiemethode.
* **Onafhankelijke variabele:** Studiemethode (nominaal, 3 niveaus).
* **Afhankelijke variabele:** Punten op het examen statistiek (interval/ratio).
**Stap 1-4: Toetsing**
* **Hypothesen:**
* $H_0: \mu_A = \mu_B = \mu_C$
* $H_1:$ Minstens twee gemiddelden verschillen.
* **Gegeven:**
* Totaal gemiddelde $\bar{x}_{\text{totaal}} = 61,98$
* Gemiddelde groep A $\bar{x}_A = 65,50$
* Gemiddelde groep B $\bar{x}_B = 61,32$
* Gemiddelde groep C $\bar{x}_C = 59,12$
* Aantal studenten per groep $n_A = n_B = n_C = 34$. Totaal $N = 102$.
* Aantal groepen $k = 3$.
* $SS_w = 11277,471$
* **Berekening $SS_b$:**
$SS_b = n_A (\bar{x}_A - \bar{x}_{\text{totaal}})^2 + n_B (\bar{x}_B - \bar{x}_{\text{totaal}})^2 + n_C (\bar{x}_C - \bar{x}_{\text{totaal}})^2$
$SS_b = 34 (65,50 - 61,98)^2 + 34 (61,32 - 61,98)^2 + 34 (59,12 - 61,98)^2$
$SS_b = 34 (3,52)^2 + 34 (-0,66)^2 + 34 (-2,86)^2$
$SS_b = 34 (12,3904) + 34 (0,4356) + 34 (8,1796)$
$SS_b = 421,2736 + 14,8104 + 278,1064$
$SS_b = 714,19$
* **Berekening $df_b$:**
$df_b = k - 1 = 3 - 1 = 2$
* **Berekening $MS_b$:**
$MS_b = \frac{SS_b}{df_b} = \frac{714,19}{2} = 357,095$
* **Berekening $df_w$:**
$df_w = N - k = 102 - 3 = 99$
* **Berekening $MS_w$:**
$MS_w = \frac{SS_w}{df_w} = \frac{11277,471}{99} = 113,914$
* **Berekening F-statistiek:**
$F = \frac{MS_b}{MS_w} = \frac{357,095}{113,914} \approx 3,135$
**Stap 5: Beslissingsregel**
* We hebben een F-statistiek van $3,135$ met $df_b = 2$ en $df_w = 99$.
* Voor een significantieniveau $\alpha = 0,05$ en tweezijdige toets, wordt de kritieke waarde uit de F-tabel opgezocht.
* De kritieke waarde voor $F(2, 99)$ bij $\alpha = 0,05$ is ongeveer $3,09$.
* Omdat onze berekende F-statistiek ($3,135$) groter is dan de kritieke waarde ($3,09$), verwerpen we de nulhypothese $H_0$.
**Stap 6: Effectgrootte**
* **Berekening $SS_{\text{totaal}}$:**
$SS_{\text{totaal}} = SS_b + SS_w = 714,19 + 11277,471 = 11991,661$
* **Berekening $\eta^2$:**
$\eta^2 = \frac{SS_b}{SS_{\text{totaal}}} = \frac{714,19}{11991,661} \approx 0,0595$
**Stap 7: Rapporteren**
"Om te onderzoeken of er een verschil is in examenpunten statistiek tussen studenten die verschillende studiemethoden toepassen, werd een eenwegs variantieanalyse uitgevoerd. Er was een significant verschil in examenpunten tussen de studiemethoden, $F(2, 99) = 3,14, p < 0,05, \eta^2 = 0,06$. Dit suggereert dat de studiemethode een (klein tot gemiddeld) effect heeft op de examenresultaten. Gezien de significantie zal een post-hoc analyse uitgevoerd worden om te bepalen welke studiemethoden significant van elkaar verschillen."
> **Belangrijk:** Omdat de $H_0$ is verworpen, is een post-hoc analyse nodig om te bepalen welke specifieke groepen van elkaar verschillen. Bijvoorbeeld, Tukey's HSD zou gebruikt kunnen worden om de paren van groepen te vergelijken.
---
# Non-parametrische toetsen: Wilcoxon rank-sum test
Dit onderdeel behandelt de Wilcoxon rank-sum test als een non-parametrisch alternatief voor de t-toets voor onafhankelijke steekproeven wanneer aan de assumpties van de t-toets niet is voldaan.
## 4. Wilcoxon rank-sum test
De Wilcoxon rank-sum test, ook bekend als de Mann-Whitney U test, is een non-parametrische toets die gebruikt wordt om te bepalen of er een significant verschil is tussen twee onafhankelijke groepen wanneer de assumpties van de t-toets voor onafhankelijke steekproeven niet voldaan zijn. Dit kan het geval zijn wanneer de afhankelijke variabele (AV) niet op intervalniveau gemeten is, of wanneer de data niet normaal verdeeld is, met name bij kleine steekproeven.
### 4.1 Toetsingssituatie
De toetsingssituatie betreft het vergelijken van twee onafhankelijke groepen op een afhankelijke variabele die niet voldoet aan de parametrische assumpties. Dit kan bijvoorbeeld zijn bij het onderzoeken van een ordinale variabele.
### 4.2 Voorwaarden
De voorwaarden voor de Wilcoxon rank-sum test zijn:
* De steekproeven zijn onafhankelijk.
* De afhankelijke variabele is gemeten op minimaal ordinaal niveau.
* De verdelingen van de afhankelijke variabele in de twee populaties zijn gelijkvormig (hoewel dit een sterkere assumptie is die niet altijd strikt gehandhaafd wordt in de praktijk).
### 4.3 Hypothesen
De hypothesen worden geformuleerd in termen van medianen of algemene verdelingen van de twee groepen.
* **Nulhypothese ($H_0$):** Er is geen verschil in de verdeling (of mediaan) van de afhankelijke variabele tussen de twee groepen.
* Voorbeeld: $H_0$: mediaan$_1$ = mediaan$_2$
* **Alternatieve hypothese ($H_1$):** Er is een verschil in de verdeling (of mediaan) van de afhankelijke variabele tussen de twee groepen.
* Voorbeeld (tweezijdig): $H_1$: mediaan$_1$ $\ne$ mediaan$_2$
* Voorbeeld (eenzijdig): $H_1$: mediaan$_1$ $>$ mediaan$_2$
### 4.4 Berekening van de toetsingsgrootheid
De berekening van de Wilcoxon rank-sum test verloopt via de volgende stappen:
1. **Combineren en rangschikken:** Alle observaties van beide groepen worden samengevoegd en gerangschikt van de laagste naar de hoogste waarde, ongeacht tot welke groep de observatie behoort. Er wordt een rangnummer toegekend aan elke observatie. Bij gelijke waarden worden gemiddelde rangnummers toegekend.
2. **Optellen van rangsommen:** De rangnummers worden vervolgens gesommeerd per groep. Dit levert twee rangsommen op: $W_1$ en $W_2$.
* Laat $n_1$ de steekproefgrootte van groep 1 zijn en $n_2$ de steekproefgrootte van groep 2. De som van alle rangnummers is $\frac{(n_1+n_2)(n_1+n_2+1)}{2}$. Er geldt dat $W_1 + W_2 = \frac{(n_1+n_2)(n_1+n_2+1)}{2}$.
3. **Keuze van de toetsingsgrootheid:** Traditioneel wordt de kleinere van de twee rangsommen gekozen als toetsingsgrootheid, aangezien deze het meest waarschijnlijk te klein is onder de nulhypothese. Deze toetsingsgrootheid wordt vaak aangeduid met $W$ (of $U$ bij de Mann-Whitney variant, waarbij $U_1 = W_1 - \frac{n_1(n_1+1)}{2}$ en $U_2 = W_2 - \frac{n_2(n_2+1)}{2}$).
4. **Omrekening naar z-score:** Voor grotere steekproeven ($n_1$ en $n_2$ groter dan ongeveer 10-20, afhankelijk van de bron), wordt de toetsingsgrootheid (de kleinste rangsom $W$) omgerekend naar een z-score. De formules hiervoor zijn:
$$
\mu_W = \frac{n_1(n_1+n_2+1)}{2}
$$
$$
\sigma_W = \sqrt{\frac{n_1 n_2 (n_1+n_2+1)}{12}}
$$
De z-score wordt dan berekend als:
$$
z = \frac{W - \mu_W}{\sigma_W}
$$
Er kan een continuïteitscorrectie worden toegepast, waarbij $W$ wordt aangepast.
> **Tip:** Bij het omrekenen naar een z-score, neem je de kleinste rangsom ($W$) en gebruik je de formule voor $\mu_W$ en $\sigma_W$ die hierboven staan. Als je de Mann-Whitney U-statistiek gebruikt, worden andere formules voor $\mu_U$ en $\sigma_U$ gehanteerd. Het resultaat is echter equivalent.
### 4.5 Beslissingsregel
De beslissingsregel kan worden opgesteld op basis van de overschrijdingskans (p-waarde) of kritieke waarden.
* **Via overschrijdingskansen:** Als de berekende p-waarde kleiner is dan het significantieniveau $\alpha$ (meestal 0.05), wordt de nulhypothese verworpen. Aangezien de berekende z-score vaak voor een eenzijdige kans wordt gebruikt, wordt deze vermenigvuldigd met 2 voor een tweezijdige toets.
* **Via kritieke waarden:** De berekende z-score wordt vergeleken met de kritieke z-waarde uit de standaard normaalverdeling voor het gekozen significantieniveau $\alpha$ (en tweezijdigheid). Als de absolute waarde van de berekende z-score groter is dan de kritieke z-waarde, wordt de nulhypothese verworpen.
### 4.6 Effectgrootte
Een veelgebruikte maat voor de effectgrootte bij de Wilcoxon rank-sum test is de correlatiecoëfficiënt $r$, die geschat kan worden op basis van de z-score:
$$
r = z
$$
Een andere maat die soms gebruikt wordt is de rank-biserial correlatie. De interpretatie van de effectgrootte (klein, gemiddeld, groot) is afhankelijk van de conventies in het onderzoeksveld, maar algemeen geldt:
* $r \approx 0.10$: kleine effectgrootte
* $r \approx 0.30$: gemiddelde effectgrootte
* $r \approx 0.50$: grote effectgrootte
> **Tip:** De effectgrootte geeft aan hoe sterk het gevonden verschil is, onafhankelijk van de significantie. Zelfs een statistisch significante toets kan een kleine praktische relevantie hebben als de effectgrootte klein is.
### 4.7 Rapportage
De resultaten van de Wilcoxon rank-sum test worden gerapporteerd in een gestandaardiseerd format, inclusief de toetsingsstatistiek, de vrijheidsgraden (indien omgezet naar z-score, worden deze niet expliciet vermeld, maar is de z-score de toetsingsgrootheid), de p-waarde en de effectgrootte.
**Voorbeeld van rapportage:**
"Om te onderzoeken of er een verschil is in de subjectieve score van geluk tussen de groep met favoriete muziek en de groep met niet-favoriete muziek, werd een Wilcoxon rank-sum test uitgevoerd. De rangsom voor de groep met niet-favoriete muziek ($W_1 = 167.5$) was lager dan voor de groep met favoriete muziek ($W_2 = 297.5$). Na omrekening naar een z-score, bleek de groepsindeling significant samen te hangen met het subjectieve gevoel van geluk ($z = -2.70$, $p = 0.007$, $r = 0.52$). Dit duidt op een groot effect."
### 4.8 Voorbeeld: Muziek en geluk
Stel dat er een onderzoeksvraag is of twee groepen (favoriete muziek versus niet-favoriete muziek) verschillen in hun subjectieve gevoel van geluk, gemeten op een 5-puntenschaal. De AV is ordinaal en de steekproef is klein, waardoor een t-toets niet geschikt is.
* **Gegevens:** Data van beide groepen worden samengevoegd en gerangschikt.
* **Rangsommen:** De rangnummers worden per groep opgeteld, wat resulteert in $W_1$ en $W_2$.
* **Teststatistiek:** De kleinste rangsom wordt gekozen en omgezet naar een z-score.
* **Beslissing:** De z-score wordt vergeleken met de kritieke waarde of de p-waarde wordt bepaald.
* **Effectgrootte:** De z-score wordt gebruikt om de rank-biserial correlatie te berekenen.
> **Example:**
> Stel, groep 1 (niet-favoriete muziek) heeft de volgende rangsom: $W_1 = 167.5$ en groep 2 (favoriete muziek) heeft $W_2 = 297.5$, met steekproefgroottes $n_1=15$ en $n_2=15$. De gemiddelde rangsom onder $H_0$ is $\mu_W = \frac{15(15+15+1)}{2} = 232.5$. De standaarddeviatie is $\sigma_W = \sqrt{\frac{15 \times 15 \times (15+15+1)}{12}} = \sqrt{\frac{225 \times 31}{12}} \approx \sqrt{581.25} \approx 24.11$. De z-score is dan $z = \frac{167.5 - 232.5}{24.11} \approx -2.70$. Voor een tweezijdige toets is de p-waarde $2 \times P(Z < -2.70) \approx 2 \times 0.0035 = 0.0070$. Omdat $0.0070 < 0.05$, wordt $H_0$ verworpen. De effectgrootte is $r = -2.70$. Echter, de conventie is om de absolute waarde te rapporteren of de z-score te gebruiken zonder het minteken. De effectgrootte $r$ is dan $0.52$ (door de berekening van de rank-biserial correlatie).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Toetsstramien | Een systematische reeks stappen die gevolgd worden om een statistische toets uit te voeren, beginnend bij de formulering van de hypotheses tot en met het rapporteren van de resultaten. Dit omvat typisch de toetsingssituatie, voorwaarden, hypothesen, toetsingsgrootheid, beslissingsregel en effectgrootte. |
| Onafhankelijke steekproeven | Steekproeven waarbij de observaties in de ene steekproef geen invloed hebben op de observaties in de andere steekproef. De samenstelling van de ene groep staat los van de samenstelling van de andere groep. |
| Afhankelijke steekproeven | Steekproeven waarbij de observaties gerelateerd zijn aan elkaar. Dit kan het gevolg zijn van herhaalde metingen bij dezelfde personen of van het matchen van paren op basis van bepaalde kenmerken. |
| t-toets voor onafhankelijke steekproeven | Een statistische toets die gebruikt wordt om de gemiddelden van twee onafhankelijke groepen te vergelijken. De toets is geschikt voor interval- of ratiogegevens en vereist dat de afhankelijke variabele normaal verdeeld is binnen beide groepen. |
| F-toets | Een statistische toets die gebruikt wordt om te bepalen of de varianties van twee populaties gelijk zijn. Dit is een belangrijke voorwaarde voor het toepassen van bepaalde varianten van de t-toets voor onafhankelijke steekproeven. |
| Variantie | Een maat voor de spreiding van gegevens rond het gemiddelde. Het is het gemiddelde van de gekwadrateerde afwijkingen van elk datapunt ten opzichte van het gemiddelde. |
| Gepoolde variantie | Een schatting van de populatievariantie die wordt berekend wanneer wordt aangenomen dat de varianties van twee populaties gelijk zijn. Het is een gewogen gemiddelde van de varianties van de twee steekproeven. |
| Effectgrootte | Een statistische maat die de omvang van een gevonden effect kwantificeert, onafhankelijk van de steekproefgrootte. Het geeft aan hoe belangrijk het gevonden verschil of verband is in de praktijk. |
| Wilcoxon rank-sum test | Een non-parametrische statistische toets die gebruikt wordt om de medianen van twee onafhankelijke groepen te vergelijken wanneer de assumpties van de t-toets niet voldaan zijn, zoals normaliteit of gelijke varianties. |
| Rangsom | De som van de rangnummers van de observaties binnen een specifieke groep, nadat alle observaties uit alle groepen zijn samengevoegd en gerangschikt. |
| z-score | Een gestandaardiseerde score die aangeeft hoeveel standaarddeviaties een ruwe score afwijkt van het gemiddelde van de verdeling. Het wordt gebruikt om gegevens uit verschillende verdelingen te vergelijken of om toetsingsgrootheden om te zetten. |
| t-toets voor afhankelijke steekproeven | Een statistische toets die gebruikt wordt om de gemiddelden van twee gerelateerde groepen te vergelijken, zoals voormeting en nameting bij dezelfde personen. |
| Herhaalde meting | Een onderzoeksmethode waarbij metingen worden uitgevoerd bij dezelfde individuen op meerdere tijdstippen of onder verschillende condities. |
| Gematchte paren | Een onderzoeksmethode waarbij individuen in paren worden ingedeeld op basis van overeenkomsten in belangrijke kenmerken, waarna elk lid van het paar aan een verschillende conditie wordt toegewezen. |
| One-way ANOVA | Een statistische toets die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het onderzoekt of er een significant verschil is tussen de groepsgemiddelden op een afhankelijke variabele. |
| Tussen-groeps-variantie (Mean Square Between) | Een maat voor de variabiliteit van de groepsgemiddelden rond het totale gemiddelde. Het weerspiegelt de verschillen tussen de groepen. |
| Binnen-groeps-variantie (Mean Square Within) | Een maat voor de variabiliteit van de observaties binnen elke groep rond het gemiddelde van die groep. Het weerspiegelt de willekeurige fout of de variabiliteit binnen de condities. |
| F-verdeling | Een kansverdeling die wordt gebruikt in de statistische toetsing, met name bij variantieanalyse (ANOVA) en de F-toets. De vorm van de verdeling wordt bepaald door twee parameters: de vrijheidsgraden van de teller en de noemer. |
| Post hoc analyse | Een aanvullende statistische analyse die wordt uitgevoerd na een significante F-toets in ANOVA om te bepalen welke specifieke groepen significant van elkaar verschillen. |