Cover
Comença ara de franc Set 2 H07 InferentieVerdelingen.pptx
Summary
# Inferentie over de verwachting van één populatie met een geschatte standaardafwijking
Hieronder vind je een gedetailleerd overzicht van inferentie over de verwachting van één populatie met een geschatte standaardafwijking, opgesteld als een studiehandleiding voor examens.
## 1. Inferentie over de verwachting van één populatie met een geschatte standaardafwijking
Dit onderdeel behandelt statistische inferentie voor het populatiegemiddelde wanneer de populatiestandaardafwijking onbekend is, waarbij de t-verdeling centraal staat.
### 1.1 De t-verdeling
Wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$), wordt de steekproevenverdeling van het gemiddelde niet langer beschreven door de standaardnormaalverdeling, maar door de t-verdeling.
* **Kenmerken van de t-verdeling:**
* Symmetrisch rond nul.
* Een enkele top bij $0$.
* Dikkere staarten dan de standaardnormaalverdeling. Dit betekent dat er meer kans is op extreme waarden in vergelijking met de $z$-verdeling.
* **Vrijheidsgraden (degrees of freedom, $df$):**
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden. Voor inferentie over de verwachting van één populatie is het aantal vrijheidsgraden gelijk aan $df = n - 1$, waarbij $n$ de steekproefgrootte is.
* Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaardnormaalverdeling.
* **Kritieke waarden ($t^\ast$):**
* Kritieke waarden voor de t-verdeling, afhankelijk van het aantal vrijheidsgraden en het gewenste betrouwbaarheidsniveau, worden opgezocht in Tabel D (vaak te vinden in appendices van statistiekhandboeken).
> **Tip:** De dikkere staarten van de t-verdeling corrigeren voor de extra onzekerheid die ontstaat door het schatten van $\sigma$ met $s$. Dit leidt tot bredere betrouwbaarheidsintervallen en een grotere kans op het niet verwerpen van de nulhypothese (minder onderscheidingsvermogen) vergeleken met een $z$-test met bekende $\sigma$.
### 1.2 1-steekproef t-betrouwbaarheidsinterval
Het betrouwbaarheidsinterval (BI) voor de populatieverwachting $\mu$, wanneer $\sigma$ onbekend is, volgt een vergelijkbare logica als bij een bekende $\sigma$, maar maakt gebruik van de t-verdeling.
* **Formule voor het betrouwbaarheidsinterval:**
$$ \text{Steekproefgemiddelde} \pm t^\ast \times \frac{s}{\sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $t^\ast$ de kritieke t-waarde is voor het gewenste betrouwbaarheidsniveau en $df = n - 1$.
* $s$ de steekproefstandaardafwijking is.
* $n$ de steekproefgrootte is.
* **Voorwaarden voor het toepassen van het 1-steekproef t-betrouwbaarheidsinterval:**
1. **Random:** De data moeten afkomstig zijn uit een toevallige (enkelvoudige aselecte) steekproef.
2. **Normaal verdeeld:**
* Als de steekproefgrootte groot is ($n \ge 30$), is de t-procedure redelijk robuust voor afwijkingen van normaliteit.
* Voor kleine steekproeven ($n < 30$) moet de populatie redelijkerwijs als normaal verdeeld worden beschouwd. Dit kan worden beoordeeld met behulp van histogrammen, boxplots of normale kwantiel-kwantiel plots (Q-Q plots) van de steekproefdata.
3. **Onafhankelijk:** De waarnemingen binnen de steekproef moeten onafhankelijk zijn. Bij steekproeftrekking zonder teruglegging uit een eindige populatie, geldt de vuistregel dat de populatiegrootte minstens 20 keer de steekproefgrootte moet zijn ($N \ge 20n$).
> **Voorbeeld:** Kwaliteitscontrole van beeldschermen. Een steekproef van 20 schermen wordt genomen. De gemiddelde spanning is 306.32 mV en de standaardafwijking is 36.21 mV. We willen een 90% betrouwbaarheidsinterval.
> * $n = 20$, dus $df = 19$.
> * Voor een 90% BI en $df=19$, is $t^\ast = 1.729$.
> * Het interval is: $306.32 \pm 1.729 \times \frac{36.21}{\sqrt{20}} = 306.32 \pm 1.729 \times 8.10 \approx 306.32 \pm 13.99$.
> * Het 90% betrouwbaarheidsinterval is $[292.33, 320.31]$ mV. We zijn 90% zeker dat de ware gemiddelde spanning van de geproduceerde schermen op die dag tussen 292.33 en 320.31 mV ligt.
### 1.3 1-steekproef t-toets (One-Sample t Test)
De 1-steekproef t-toets wordt gebruikt om te toetsen of het populatiegemiddelde $\mu$ gelijk is aan een specifieke hypothetische waarde $\mu_0$.
* **Hypothesen:**
* Nulhypothese ($H_0$): $\mu = \mu_0$
* Alternatieve hypothese ($H_a$): $\mu \neq \mu_0$ (tweezijdig), $\mu > \mu_0$ (eenzijdig rechts), of $\mu < \mu_0$ (eenzijdig links).
* **Toetsingsgrootheid:**
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de hypothetische populatiewaarde is.
* $s$ de steekproefstandaardafwijking is.
* $n$ de steekproefgrootte is.
* **P-waarde:**
* De p-waarde is de kans om een toetsingsgrootheid te bekomen die minstens zo extreem is als de berekende waarde, onder de aanname dat $H_0$ waar is. Dit wordt bepaald met de t-verdeling met $df = n - 1$.
* Bij grote steekproeven levert de t-toets een goede benadering, zelfs als de populatie niet exact normaal verdeeld is.
* **Voorwaarden voor de 1-steekproef t-toets:**
* Dezelfde als voor het 1-steekproef t-betrouwbaarheidsinterval: Random, Normaal verdeeld (of grote steekproef), en Onafhankelijk.
> **Voorbeeld:** Meting van opgeloste zuurstof (DO) in een rivier. 15 waterstalen worden genomen met een gemiddelde DO van 4.771 mg/l en een standaardafwijking van 0.940 mg/l. Milieuactivisten beweren dat het water "onleefbaar" is, wat betekent dat de gemiddelde DO lager is dan 5 mg/l. We toetsen dit met $\alpha = 0.05$.
> * $H_0: \mu = 5$ mg/l
> * $H_a: \mu < 5$ mg/l
> * $n = 15$, dus $df = 14$.
> * De toetsingsgrootheid is $t = \frac{4.771 - 5}{0.940 / \sqrt{15}} = \frac{-0.229}{0.2426} \approx -0.944$.
> * De p-waarde voor $t = -0.944$ met $df = 14$ (eenzijdig links) ligt tussen 0.15 en 0.20.
> * Omdat $p > \alpha$ (0.15-0.20 > 0.05), verwerpen we $H_0$ niet. Er is onvoldoende bewijs dat het water onleefbaar is.
* **Rapporteren van toetsresultaten (APA-stijl):**
Bij het rapporteren van de resultaten van een t-toets worden doorgaans de volgende elementen vermeld:
* Beschrijvende maten (gemiddelde, standaardafwijking).
* De toetsingsgrootheid en de waarde daarvan.
* De vrijheidsgraden tussen haakjes direct achter de naam van de toetsingsgrootheid (bv. $t(14)$).
* De p-waarde. Als deze kleiner is dan 0.001, wordt deze gerapporteerd als $p < 0.001$. Als de toets niet significant is en de p-waarde niet bekend is, wordt "n.s." (niet significant) vermeld.
* Indien relevant, het betrouwbaarheidsinterval.
* Indien de toets eenzijdig is, wordt dit vermeld.
* Effectgrootte (bv. Cohen's $d$) kan ook worden gerapporteerd.
> **Voorbeeld rapportage:** Het zuurstofgehalte in de onderzochte stalen ($M = 4.771$ mg/l, $SD = 0.940$ mg/l) was niet significant lager dan de drempelwaarde van 5 mg/l vereist voor levende organismen ($t(14) = -0.944$, $p > 0.05$). De hypothese dat het water gezond is, kan bijgevolg niet weerlegd worden.
### 1.4 Robuustheid van t-procedures
Statistische procedures worden als robuust beschouwd als hun betrouwbaarheidsintervallen of p-waarden niet significant veranderen bij lichte overtredingen van de voorwaarden.
* **Robuustheid van 1-steekproef t-procedures:**
* De voorwaarde van random steekproeftrekking is cruciaal.
* De normaliteitsvereiste is minder kritisch voor grotere steekproeven ($n \ge 30$).
* Voor kleinere steekproeven ($n < 15$) is normaliteit belangrijker. Als de data sterk scheef zijn of uitschieters bevatten, zijn t-procedures minder geschikt.
* Voor tussenliggende steekproefgroottes ($15 \le n < 30$) kunnen t-procedures nog steeds worden toegepast, tenzij er sprake is van duidelijke scheefheid of uitschieters.
### 1.5 Onderscheidingsvermogen (Power) van de t-test
Het onderscheidingsvermogen (power) van een t-test is de kans dat de nulhypothese correct verworpen wordt wanneer de alternatieve hypothese waar is.
* Het berekenen van het onderscheidingsvermogen vereist kennis van de steekproefgrootte, het significantieniveau, de verwachte standaardafwijking, en de grootte van het effect dat men wil detecteren.
* Het is wenselijk om het onderscheidingsvermogen te maximaliseren, vaak door de steekproefgrootte te verhogen. Een groter te verwachten effect vereist een kleinere steekproef om een voldoende onderscheidingsvermogen te behalen.
* Bij het plannen van een studie wordt vaak het onderscheidingsvermogen berekend om de benodigde steekproefgrootte te bepalen.
### 1.6 Inferentie voor niet-normaal verdeelde populaties
Wanneer de populatieverdeling duidelijk niet normaal is en de steekproefgrootte klein, zijn er alternatieven voor de t-toets:
* **Data transformeren:** Logaritmische of andere transformaties kunnen de data dichter bij normaliteit brengen, waardoor t-procedures op de getransformeerde data toepasbaar worden. De interpretatie van resultaten op getransformeerde schaal kan echter complex zijn.
* **Niet-parametrische toetsen:** Deze toetsen stellen geen specifieke eisen aan de populatieverdeling en toetsen vaak hypothesen over de mediaan in plaats van het gemiddelde. Voor gekoppelde data is de **tekentoets (sign test)** een voorbeeld.
> **Voorbeeld (Tekentoets voor gekoppelde data):** Bij het vergelijken van agressieve incidenten rond volle maan versus andere dagen, wordt voor elke persoon berekend of er meer incidenten waren op volle maan dagen (+) of op andere dagen (-). Het aantal personen met meer incidenten rond volle maan (X) wordt vergeleken met een Binomiaalverdeling $B(n, 0.5)$. Als $H_0$ stelt dat de mediaan van het verschil nul is (dus 50% kans op een positief verschil), kan de significantie worden bepaald. Hoewel de tekentoets minder onderscheidingsvermogen heeft dan de t-toets, is deze geschikt voor sterk scheve data.
---
# Vergelijken van verwachtingen van twee populaties
Hier is een gedetailleerd studieonderdeel over het vergelijken van verwachtingen van twee populaties.
## 2. Vergelijken van twee verwachtingen
Dit gedeelte richt zich op het vergelijken van populatiegemiddelden tussen twee groepen, met aandacht voor zowel gekoppelde data als onafhankelijke steekproeven, waarbij t-toetsen centraal staan.
### 2.1 De t-verdeling: een alternatief voor de z-verdeling
Wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden met de steekproefstandaardafwijking ($s$), maakt men gebruik van de student t-verdeling. Deze verdeling, ontwikkeld door William Sealy Gosset, lijkt conceptueel op de standaard normaalverdeling, maar heeft dikkere staarten. Dit betekent dat extreme waarden waarschijnlijker zijn dan bij een z-verdeling, wat de kans op het onterecht verwerpen van de nulhypothese (Type I fout) vergroot.
#### 2.1.1 Eigenschappen van de t-verdeling
* **Symmetrisch:** De t-verdeling is symmetrisch rond 0.
* **Eén top:** De verdeling heeft één top bij 0.
* **Dikkere staarten:** In vergelijking met de standaard normaalverdeling zijn de staarten van de t-verdeling "dikker", wat de hogere kans op extreme waarden weerspiegelt.
* **Vrijheidsgraden (df):** De exacte vorm van de t-verdeling wordt bepaald door het aantal vrijheidsgraden ($df$). Bij het schatten van de populatieverwachting met een steekproef van grootte $n$, is het aantal vrijheidsgraden $df = n-1$. Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaard normaalverdeling.
> **Tip:** Kritieke waarden ($t^*$) voor de t-verdeling bij verschillende vrijheidsgraden en betrouwbaarheidsniveaus zijn te vinden in Tabel D in het handboek (p. 705).
### 2.2 Inferentie over de verwachting van één populatie met onbekende $\sigma$
#### 2.2.1 1-steekproef t-betrouwbaarheidsinterval
Het berekenen van een betrouwbaarheidsinterval voor de populatieverwachting ($\mu$) wanneer $\sigma$ onbekend is, volgt dezelfde logica als bij een bekende $\sigma$. Het enige verschil is dat de z-verdeling wordt vervangen door de t-verdeling met $n-1$ vrijheidsgraden.
Het interval wordt berekend als:
$$ \bar{x} \pm t^{\ast} \frac{s}{\sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $t^*$ de kritieke t-waarde is voor het gewenste betrouwbaarheidsniveau en $n-1$ vrijheidsgraden.
* $s$ de steekproefstandaardafwijking is.
* $n$ de steekproefgrootte is.
**Voorwaarden voor een 1-steekproef t-betrouwbaarheidsinterval:**
* **Random:** De data komen van een toevallige (enkelvoudige aselecte) steekproef.
* **Normaal verdeeld:** Als de steekproefgrootte klein is ($n < 30$), moet de populatie redelijkerwijs als normaal verdeeld worden beschouwd. Dit kan worden beoordeeld met behulp van histogrammen, boxplots of Q-Q plots van de steekproefdata. De t-procedures zijn robuust, wat betekent dat ze redelijk accuraat blijven, zelfs bij lichte afwijkingen van normaliteit, zeker bij grotere steekproeven.
* **Onafhankelijk:** De observaties binnen de steekproef moeten onafhankelijk zijn. Bij steekproeftrekking zonder teruglegging is de vuistregel dat de populatie minstens 20 keer zo groot moet zijn als de steekproef ($N \geq 20n$).
> **Voorbeeld (Kwaliteitscontrole beeldschermen):**
> Voor een steekproef van 20 schermen met een gemiddelde van 306.32 mV en een standaardafwijking van 36.21 mV, en met $df=19$, is de $t^*$ voor een 90% betrouwbaarheidsinterval 1.729.
> Het 90% BI is: $306.32 \pm 1.729 \times \frac{36.21}{\sqrt{20}}$, wat resulteert in het interval $[292.32, 320.32]$ mV. Dit betekent dat men voor 90% zeker is dat het ware gemiddelde van de productie op die dag binnen dit interval ligt.
#### 2.2.2 1-steekproef t-toets (One-Sample t Test)
De 1-steekproef t-toets wordt gebruikt om te toetsen of het populatiegemiddelde ($\mu$) gelijk is aan een specifieke nulhypothesewaarde ($\mu_0$).
**Nulhypothese ($H_0$):** $\mu = \mu_0$
**Alternatieve hypothese ($H_a$):** $\mu < \mu_0$, $\mu > \mu_0$, of $\mu \neq \mu_0$.
De toetsingsgrootheid wordt berekend als:
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
De p-waarde is de kans om een toetsingsgrootheid te bekomen die minstens even extreem is als de berekende waarde, onder de aanname dat $H_0$ waar is, voor een t-verdeling met $n-1$ vrijheidsgraden.
**Voorwaarden voor een 1-steekproef t-toets:**
Dezelfde voorwaarden als voor het betrouwbaarheidsinterval zijn van toepassing: Random, Normaal verdeeld (of grote steekproef) en Onafhankelijk.
> **Voorbeeld (Opgeloste zuurstof in waterloop):**
> Men wil toetsen of het zuurstofgehalte ($\mu$) lager is dan 5 mg/l ($H_a: \mu < 5$) met $\alpha = 0.05$.
> Gegeven 15 waterstalen met $\bar{x} = 4.771$ mg/l en $s = 0.940$ mg/l.
> De toetsingsgrootheid is: $t = \frac{4.771 - 5}{0.940 / \sqrt{15}} \approx -0.944$.
> Met $df = 15 - 1 = 14$, ligt de p-waarde tussen 0.15 en 0.20.
> Omdat $p > \alpha$ (0.15-0.20 > 0.05), wordt $H_0$ niet verworpen. Er is onvoldoende bewijs dat het water onleefbaar is.
**Rapporteren van toetsresultaten (APA-stijl):**
Resultaten worden gerapporteerd met de toetsingsgrootheid, vrijheidsgraden, p-waarde, en indien relevant, het betrouwbaarheidsinterval en effectgrootte.
Bijvoorbeeld: "Het zuurstofgehalte in de onderzochte stalen ($M = 4,771$ mg/l, $SD = 0,940$ mg/l) was niet significant lager dan de drempelwaarde van 5 mg/l vereist voor levende organismen ($t(14) = -0,944$, $p > 0,05$). "
### 2.3 Vergelijken van twee verwachtingen
Het vergelijken van populatiegemiddelden tussen twee groepen kan op twee manieren gebeuren: met gekoppelde (paired) data of met onafhankelijke steekproeven.
#### 2.3.1 Twee-steekproeven t-toets voor gekoppelde paren
Gekoppelde data ontstaan wanneer observaties binnen groepen systematisch aan elkaar gerelateerd zijn. Dit kan bijvoorbeeld het geval zijn bij metingen vóór en na een interventie bij dezelfde personen, of bij het vergelijken van paren (bv. identieke tweelingen). Gekoppelde t-toetsen zijn een speciaal geval van de 1-steekproef t-toets, waarbij de analyse gericht is op de verschilscores ($d_i = x_{i1} - x_{i2}$) tussen de paren.
**Nulhypothese ($H_0$):** De gemiddelde verschilscore in de populatie is nul ($\mu_d = 0$).
**Alternatieve hypothese ($H_a$):** De gemiddelde verschilscore is niet nul ($\mu_d \neq 0$), groter dan nul ($\mu_d > 0$), of kleiner dan nul ($\mu_d < 0$).
De toetsingsgrootheid is:
$$ t = \frac{\bar{d}}{s_d / \sqrt{n}} $$
waarbij:
* $\bar{d}$ het gemiddelde is van de verschilscores.
* $s_d$ de standaardafwijking is van de verschilscores.
* $n$ het aantal paren is.
* De vrijheidsgraden zijn $df = n-1$.
**Voorwaarden voor een t-toets voor gekoppelde paren:**
* **Random:** De paren zijn op een adequate manier verkregen (hoewel pure randomisatie niet altijd mogelijk is, zoals bij bepaalde observationele studies).
* **Normaal verdeeld:** De populatie van verschilscores is normaal verdeeld, of de steekproefgrootte is voldoende groot ($n \geq 15$ met enige scheefheid/uitschieters, of $n \geq 30$ zelfs bij sterkere scheefheid).
* **Onafhankelijk:** De paren zijn onafhankelijk van elkaar.
> **Voorbeeld (Agressief gedrag en volle maan):**
> Men onderzoekt agressief gedrag bij 15 demente bejaarden gedurende 3 dagen rond volle maan en 3 andere dagen.
> Gegeven de verschilscores (volle maan - andere dagen), met $n=15$, $\bar{d} = 2.432667$ en $s_d = 1.46032$.
> De toetsingsgrootheid is: $t = \frac{2.432667}{1.46032 / \sqrt{15}} \approx 6.45$.
> Met $df = 15-1 = 14$, is de p-waarde $p < 0.001$.
> $H_0$ wordt verworpen: Agressie komt significant vaker voor rond volle maan.
#### 2.3.2 Twee-steekproeven t-toets voor onafhankelijke steekproeven
Deze toets wordt gebruikt om de gemiddelden van twee onafhankelijke populaties te vergelijken.
**Nulhypothese ($H_0$):** $\mu_1 = \mu_2$ (of $\mu_1 - \mu_2 = 0$).
**Alternatieve hypothese ($H_a$):** $\mu_1 \neq \mu_2$, $\mu_1 > \mu_2$, of $\mu_1 < \mu_2$.
De toetsingsgrootheid ($t$) hangt af van de aanname over de populatievarianties:
**1. Gepoelde (Pooled) 2-steekproeven t-toets (Aanname van gelijke varianties: $\sigma_1^2 = \sigma_2^2$)**
Als de populatievarianties gelijk worden verondersteld, wordt een gepoolde schatter voor de variantie gebruikt.
$$ s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2} $$
De toetsingsgrootheid is:
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$
met $df = n_1 + n_2 - 2$ vrijheidsgraden.
**2. t-toets voor ongelijke varianties (Welch's t-test)**
Deze toets is veiliger omdat ze geen gelijke varianties veronderstelt.
De toetsingsgrootheid is:
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} $$
Het aantal vrijheidsgraden wordt berekend met een complexe formule (de Welch-Satterthwaite vergelijking), maar wordt vaak conservatief ingeschat als het minimum van $n_1-1$ en $n_2-1$, of berekend door statistische software. Dit geeft een benaderde t-verdeling.
**Voorwaarden voor een 2-steekproeven t-toets voor onafhankelijke steekproeven:**
* **Random:** Beide steekproeven moeten toevallig zijn getrokken uit hun respectieve populaties.
* **Normaal verdeeld:** Beide populaties (waaruit de steekproeven zijn getrokken) zijn normaal verdeeld, of de steekproefgroottes zijn voldoende groot ($n_1, n_2 \geq 15$ met enige scheefheid/uitschieters, of $n_1, n_2 \geq 30$ zelfs bij sterkere scheefheid). De t-procedures zijn robuuster bij ongelijke varianties, vooral als de steekproefgroottes ongeveer gelijk zijn.
* **Onafhankelijk:** De observaties binnen elke steekproef zijn onafhankelijk, en de twee steekproeven zijn onafhankelijk van elkaar. Bij steekproeftrekking zonder teruglegging geldt de $N \geq 20n$ regel voor elke populatie.
> **Voorbeeld (Calcium op bloeddruk):**
> Een experiment vergelijkt de daling in systolische bloeddruk (BD) na 12 weken tussen een calciumsupplementgroep ($n_1=10$, $\bar{x}_1 = 5.273$ mmHg) en een placebogroep ($n_2=11$, $\bar{x}_2 = -0.727$ mmHg). De nulhypothese is $\mu_1 - \mu_2 = 0$.
> De berekende t-waarde (met software, Welch's test) is $t \approx 1.90$. Met $df \approx 18.7$, is de p-waarde (tweezijdig) $p \approx 0.073$.
> Omdat $p > \alpha$ (0.073 > 0.05), wordt $H_0$ niet verworpen. Er is onvoldoende bewijs dat calcium een grotere bloeddrukverlagende werking heeft dan placebo.
> **Voorbeeld (Nieuwe leesmethode):**
> Vergelijking van leesprestaties na 12 weken tussen een groep met een nieuwe leesmethode ($n_1=21$, $\bar{x}_1 = 51.48$, $s_1 = 11.01$) en een controlegroep ($n_2=23$, $\bar{x}_2 = 41.52$, $s_2 = 17.15$). De alternatieve hypothese is $\mu_1 > \mu_2$.
> Met behulp van statistische software (bv. met Welch's t-test) wordt een t-waarde van $t \approx 2.31$ gevonden met $df \approx 37.86$. De eenzijdige p-waarde is $p \approx 0.013$.
> Omdat $p < \alpha$ (0.013 < 0.05), wordt $H_0$ verworpen. De kinderen die de nieuwe leesmethode volgden, behaalden significant hogere scores op de leestest.
#### 2.3.3 2-steekproeven betrouwbaarheidsinterval voor het verschil tussen gemiddelden
Dit interval geeft een reeks plausibele waarden voor het werkelijke verschil tussen de populatiegemiddelden ($\mu_1 - \mu_2$).
Het wordt berekend met formules die vergelijkbaar zijn met die voor het betrouwbaarheidsinterval van de 1-steekproef t-toets, maar dan gebruikmakend van de steekproefgemiddelden, steekproefstandaardafwijkingen en de t-verdeling met het juiste aantal vrijheidsgraden (conservatief geschat of berekend door software).
> **Voorbeeld (Leesmethode - BI):**
> Voor het leesmethode-voorbeeld, met behulp van statistische software, wordt een 95% betrouwbaarheidsinterval voor het verschil in gemiddelde scores berekend als $[1.23, 18.68]$. Dit betekent dat men voor 95% zeker is dat het ware verschil in leesprestaties tussen de twee methoden ergens tussen 1.23 en 18.68 punten ligt.
### 2.4 Robuustheid van t-procedures
Statistische procedures worden als robuust beschouwd als hun betrouwbaarheidsintervallen of p-waarden niet sterk veranderen wanneer de voorwaarden van de procedure licht worden geschonden.
* **Voorwaarden:** De eis van een aselecte steekproef is belangrijker dan de normaliteitsvereiste, vooral bij kleine steekproeven.
* **Grote steekproeven ($n \geq 30-40$):** t-procedures kunnen worden gebruikt, zelfs als de verdelingen duidelijk scheef zijn.
* **Kleine tot middelgrote steekproeven ($15 \leq n < 30$):** t-procedures zijn redelijk robuust, tenzij er uitschieters zijn of de verdeling sterk scheef is.
* **Zeer kleine steekproeven ($n < 15$):** t-procedures moeten alleen worden gebruikt als de data nagenoeg normaal verdeeld zijn. Bij duidelijke scheefheid of uitschieters is het gebruik van t-procedures af te raden.
* **2-steekproeven t-procedures:** Zijn over het algemeen robuuster dan 1-steekproef t-methoden, vooral wanneer de verdelingen niet symmetrisch zijn maar wel vergelijkbaar scheef lopen.
### 2.5 Onderscheidingsvermogen (Power) van de t-test
Het onderscheidingsvermogen (power) van een toets is de kans dat de nulhypothese wordt verworpen wanneer de alternatieve hypothese waar is.
* **Power van de 1-steekproef t-test:** De berekening lijkt op die voor de z-test, waarbij het overschatten van $\sigma$ beter is dan onderschatten bij het plannen van een studie om te voorkomen dat een bestaand effect gemist wordt.
* **Power van de 2-steekproeven t-test:** De principes zijn vergelijkbaar, maar de berekeningen zijn complexer (bv. met behulp van de noncentral t-distributie of software zoals G*Power). Goede planning van een studie, inclusief powerberekeningen, verhoogt de kans om een significant verschil te detecteren indien dit aanwezig is.
> **Voorbeeld (Power leesmethode):**
> Bij een studieplanning met een gewenst detecteerbaar verschil van 4 punten en een geschatte standaardafwijking, kan met G*Power een power van ongeveer 72% worden berekend voor een specifiek aantal deelnemers.
### 2.6 Inferentie voor niet-normaal verdeelde populaties
Wanneer de populatieverdeling duidelijk niet normaal is en de steekproefgrootte klein, zijn er alternatieven:
* **Data transformeren:** Soms kunnen transformaties (bv. logaritmische transformatie) de data dichter bij normaliteit brengen, waardoor t-procedures op de getransformeerde data adequaat kunnen zijn. Interpretatie op de oorspronkelijke schaal kan echter lastig zijn.
* **Niet-parametrische toetsen:** Deze verdelingsvrije toetsen stellen minder eisen aan de populatieverdeling. Ze toetsen vaak hypothesen over de mediaan in plaats van het gemiddelde.
* **Tekentoets voor gekoppelde data:** Dit is een voorbeeld van een niet-parametrische toets voor gekoppelde data. Het telt het aantal paren met een positief verschil. De p-waarde wordt berekend op basis van de binomiale verdeling $B(n, 0.5)$. Het nadeel is dat de tekentoets een kleiner onderscheidingsvermogen heeft dan de t-toets voor gekoppelde paren.
### 2.7 Inferentie voor populatiespreiding
Naast gemiddelden kunnen ook de spreidingen (varianties of standaardafwijkingen) van twee populaties worden vergeleken met de F-toets voor gelijkheid van spreidingen. Deze toets is echter niet robuust voor afwijkingen van de normaliteitsassumptie. De F-verdeling is rechts scheef en de toetsingsgrootheid is de verhouding van de steekproefvarianties. Waarden van F die sterk afwijken van 1 geven evidentie tegen de nulhypothese van gelijke spreidingen.
---
# Extra onderwerpen betreffende de vergelijking van verdelingen
Dit deel behandelt aanvullende methoden voor het vergelijken van verdelingen, waaronder de robuustheid van t-procedures, inferentie voor populatiespreidingen met de F-toets, en niet-parametrische toetsen zoals de tekentoets.
## 3 Extra onderwerpen betreffende de vergelijking van verdelingen
### 3.1 De t-verdeling en t-procedures
Tot nu toe werd voornamelijk de z-toets gebruikt, die gebaseerd is op het standaardiseren van gemiddelde waarden ten opzichte van de populatiestandaardafwijking ($\sigma$). Echter, in de praktijk is $\sigma$ vaak onbekend en moet deze geschat worden met de steekproefstandaardafwijking ($s$).
#### 3.1.1 De t-verdelingen
Wanneer de populatiestandaardafwijking $\sigma$ onbekend is en wordt geschat door de steekproefstandaardafwijking $s$, volgt de steekproevenverdeling van het gemiddelde geen standaard normaalverdeling meer, maar een t-verdeling. Deze verdeling, ontwikkeld door William Sealy Gosset (pseudoniem Student), heeft de volgende kenmerken:
* **Symmetrisch** met een top op 0.
* **Dikkere staarten** dan de standaard normaalverdeling, wat betekent dat extreme waarden waarschijnlijker zijn. Dit compenseert voor de extra onzekerheid door het schatten van $\sigma$.
* De precieze vorm van de t-verdeling hangt af van het aantal **vrijheidsgraden** (degrees of freedom, df), wat doorgaans gelijk is aan $n-1$ voor een enkelvoudige steekproef.
Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling steeds meer de standaard normaalverdeling. Kritieke waarden ($t^{\ast}$) voor t-verdelingen kunnen worden opgezocht in tabel D.
> **Tip:** De dikkere staarten van de t-verdeling betekenen dat de z-toets (die uitgaat van een bekende $\sigma$) conservatiever is dan de t-toets. Om een nulhypothese te verwerpen met een z-toets, zijn grotere afwijkingen nodig dan bij een t-toets.
#### 3.1.2 Robuustheid van t-procedures
Statistische procedures worden als robuust beschouwd wanneer hun resultaten (betrouwbaarheidsintervallen of p-waarden) niet significant veranderen bij overtreding van de voorwaarden waaraan ze moeten voldoen.
* **Voorwaarden voor t-procedures:**
* **Random:** De data komen uit een toevallige (enkelvoudige aselecte) steekproef.
* **Normaal verdeeld:** De populatie waaruit de steekproef is getrokken, is normaal verdeeld. Voor kleine steekproeven ($n < 15$) is deze voorwaarde belangrijker. Bij grotere steekproeven ($n \ge 30-40$) is de t-procedure robuust tegen scheve verdelingen. Bij steekproefgroottes tussen 15 en 30 is normaliteit belangrijk, tenzij er uitschieters zijn of de verdeling sterk scheef is.
* **Onafhankelijk:** De observaties binnen een steekproef zijn onafhankelijk, en bij vergelijking van twee groepen zijn de groepen zelf ook onafhankelijk (tenzij het gaat om gekoppelde data). Voor steekproeven zonder teruglegging geldt de vuistregel $N \ge 20n$ (populatiegrootte is minstens 20 keer de steekproefgrootte).
* **Robuustheid van 2-steekproeven t-procedures:** Deze procedures zijn over het algemeen robuuster dan 1-steekproef methoden, vooral wanneer de verdelingen van beide groepen vergelijkbaar scheef zijn.
* Bij een totale steekproefgrootte $< 15$: Gebruik t-procedures alleen bij nagenoeg normale data. Vermijd bij sterke scheefheid of uitschieters.
* Bij een totale steekproefgrootte $\ge 15$: t-procedures kunnen gebruikt worden, tenzij er uitschieters zijn of de verdeling sterk scheef is.
* Bij grote steekproeven: t-procedures zijn ook toepasbaar bij sterk scheve verdelingen.
#### 3.1.3 1-steekproef t-betrouwbaarheidsinterval en t-toets
* **1-steekproef t-betrouwbaarheidsinterval voor $\mu$ (onbekende $\sigma$)**:
Het interval wordt berekend als:
$$\bar{x} \pm t^{\ast} \frac{s}{\sqrt{n}}$$
waarbij $t^{\ast}$ de kritieke waarde is uit de t-verdeling met $n-1$ vrijheidsgraden die overeenkomt met het gewenste betrouwbaarheidsniveau.
> **Example:** Voor een 90% betrouwbaarheidsinterval bij $n=20$ deelnemers ($df=19$), wordt $t^{\ast}$ opgezocht voor 90% betrouwbaarheidsniveau (enkelzijdige p = 0.05). Uit Tabel D is dit $t^{\ast} = 1.729$.
* **1-steekproef t-toets voor $\mu$**:
Om de nulhypothese $H_0: \mu = \mu_0$ te toetsen, wordt de toetsingsgrootheid berekend:
$$t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$$
Deze toetsingsgrootheid wordt getoetst tegen een t-verdeling met $n-1$ vrijheidsgraden. De p-waarde geeft de kans weer om een toetsingsgrootheid te verkrijgen die minstens zo extreem is als de berekende waarde, onder de aanname dat $H_0$ waar is.
> **Example:** Bij de analyse van opgeloste zuurstof (DO) in een rivier (n=15), wordt $H_0: \mu = 5$ (mg/l) getoetst tegen $H_a: \mu < 5$ met $\alpha = 0.05$. Na berekening van de toetsingsgrootheid ($t = -0.944$) en het bepalen van de p-waarde (tussen 0.15 en 0.20), wordt $H_0$ niet verworpen omdat $p > \alpha$. Er is onvoldoende bewijs dat het water onleefbaar is.
#### 3.1.4 t-toets voor gekoppelde paren
Deze toets wordt gebruikt om het verschil tussen twee metingen op dezelfde individuen of op duidelijk vergelijkbare paren te analyseren. Het is een speciaal geval van de 1-steekproef t-toets toegepast op de verschilscores: $d_i = x_{i1} - x_{i2}$.
* **Hypothese:** $H_0: \mu_d = 0$ (de mediaan van de verschilscores is nul) of $H_0: \mu_d = \mu_{d0}$.
* **Toetsingsgrootheid:**
$$t = \frac{\bar{d} - \mu_{d0}}{s_d/\sqrt{n}}$$
waarbij $\bar{d}$ het gemiddelde van de verschilscores is, $s_d$ de standaardafwijking van de verschilscores, en $n$ het aantal paren. De vrijheidsgraden zijn $n-1$.
* **Vereisten:** De populatie van verschilscores is normaal verdeeld, of de steekproef is groot. De steekproef moet een enkelvoudige aselecte steekproef zijn.
> **Example:** Onderzoek naar agressief gedrag bij dementen, metingen rond volle maan versus andere dagen (n=15). Verschilscores werden berekend. De t-toets voor gekoppelde paren toonde een significant grotere agressie rond volle maan ($t(14) = 6.45, p < 0.001$).
#### 3.1.5 t-toets voor twee onafhankelijke steekproeven
Deze toets vergelijkt de gemiddelden van twee onafhankelijke groepen.
* **Hypothese:** $H_0: \mu_1 = \mu_2$ (of $H_0: \mu_1 - \mu_2 = \delta_0$).
* **Zonder bekende $\sigma$ (meest voorkomend):**
De toetsingsgrootheid is:
$$t = \frac{(\bar{x}_1 - \bar{x}_2) - \delta_0}{s_{p}\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$$
waarbij $s_p$ de gepoolde standaardafwijking is (indien gelijke varianties worden aangenomen).
* **Gepoelde t-test (gelijke varianties aangenomen):** De gepoolde variantie $\sigma^2_p$ wordt geschat als:
$$\sigma^2_p = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}$$
De t-statistiek is dan exact t-verdeeld met $n_1 + n_2 - 2$ vrijheidsgraden.
* **Ongelijke varianties (Welch's t-test):** Wanneer varianties niet gelijk zijn, wordt een conservatieve schatting van de vrijheidsgraden gebruikt: $df = \min(n_1 - 1, n_2 - 1)$. De exacte berekening van de vrijheidsgraden is complex en wordt vaak door software uitgevoerd. Deze methode is veiliger omdat het de aanname van gelijke varianties vermijdt.
* **Met bekende $\sigma$:** De z-test wordt gebruikt:
$$z = \frac{(\bar{x}_1 - \bar{x}_2) - \delta_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$$
Indien $\sigma_1 = \sigma_2 = \sigma$, vereenvoudigt dit tot:
$$z = \frac{(\bar{x}_1 - \bar{x}_2) - \delta_0}{\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$$
* **Vereisten:** Beide populaties zijn normaal verdeeld, of de steekproeven zijn voldoende groot. De steekproeven zijn onafhankelijk en aselect.
> **Example:** Vergelijking van lichaamslengte tussen jongens en meisjes. De t-toets voor onafhankelijke steekproeven met een conservatieve schatting van df gaf aan dat jongens significant groter waren dan meisjes.
> **Example:** Effect van calcium supplement op bloeddrukdaling bij gezonde zwarte mannen (calcium vs. placebo). De 2-steekproeven t-toets voor het verschil in bloeddrukdaling (met een conservatieve df) was niet significant bij $\alpha = 0.05$, wat suggereert dat calcium geen significant sterker effect heeft dan een placebo.
#### 3.1.6 Betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden ($\mu_1 - \mu_2$)
Dit interval wordt berekend op basis van de resultaten van de 2-steekproeven t-toets.
* **Met gelijke varianties (pooled):**
$$(\bar{x}_1 - \bar{x}_2) \pm t^{\ast} s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}$$
met $df = n_1 + n_2 - 2$.
* **Met ongelijke varianties (Welch):**
$$(\bar{x}_1 - \bar{x}_2) \pm t^{\ast} \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$$
met $df$ bepaald door de Welch-Satterthwaite vergelijking (of software).
> **Example:** Een 95% betrouwbaarheidsinterval voor het verschil in leestoetsen tussen een nieuwe leesmethode en een controle groep was [1.23; 18.68]. Dit betekent dat men met 95% zekerheid kan zeggen dat het ware verschil in gemiddelde scores tussen de groepen binnen dit interval ligt.
#### 3.1.7 Onderscheidingsvermogen (Power) van t-testen
* **Onderscheidingsvermogen van de 1-steekproef t-test:** De kans om de nulhypothese te verwerpen wanneer de alternatieve hypothese waar is. Exacte berekening is complex en vereist de noncentral t-verdeling; vaak wordt een benadering gebruikt met de z-verdeling (als $\sigma$ als "bekend" wordt beschouwd). Bij het schatten van $\sigma$ is het beter deze te overschatten om niet te weinig data te hebben.
* **Onderscheidingsvermogen van de 2-steekproeven t-test:** De kans om de nulhypothese $H_0: \mu_1 = \mu_2$ te verwerpen wanneer een specifiek alternatief verschil waar is. Berekeningen worden typisch uitgevoerd met gespecialiseerde software (bv. G*power). Dit vereist informatie over de standaardafwijkingen (uit een pilotstudie of literatuur) en een gedefinieerd relevant verschil. Goede planning van een studie, inclusief powerberekening, verhoogt de kans om een bestaand effect statistisch significant aan te tonen.
> **Example:** Berekening van het onderscheidingsvermogen voor een leesmethode-onderzoek met een pilotstudie die een verschil van 4 punten suggereert. Met een bepaalde steekproefgrootte is de kans op een significante toets ongeveer 72%.
> **Example:** Het bepalen van de benodigde steekproefgrootte om een verschil van 1 agressief incident per dag te detecteren rond volle maan, met een onderscheidingsvermogen van 89%.
### 3.2 Inferentie voor populatiespreiding
#### 3.2.1 De F-toets voor gelijkheid van spreidingen
Deze toets vergelijkt de standaarddeviaties ($\sigma_1, \sigma_2$) van twee populaties op basis van de standaarddeviaties van twee steekproeven ($s_1, s_2$).
* **Hypothese:** $H_0: \sigma^2_1 = \sigma^2_2$ (of $H_0: \sigma_1 = \sigma_2$).
* **Toetsingsgrootheid:** De F-statistiek, die de verhouding van de varianties is:
$$F = \frac{s_1^2}{s_2^2}$$
Hierbij wordt meestal de grootste variantie in de teller geplaatst.
* **Verdeling:** De F-statistiek volgt, onder $H_0$, een F-verdeling met $df_1 = n_1 - 1$ en $df_2 = n_2 - 1$ vrijheidsgraden.
* **Kenmerken F-verdeling:** De F-verdeling is rechts scheef en kan geen negatieve waarden aannemen. Waarden van F die sterk afwijken van 1 geven bewijs tegen de nulhypothese van gelijke spreidingen.
* **Vereisten:** De populaties worden verondersteld normaal verdeeld te zijn. Deze procedure is niet erg robuust tegen afwijkingen van de normaliteitsvoorwaarde.
* **Kritieke waarden:** Kritieke waarden voor de F-verdeling kunnen worden opgezocht in Tabel E voor verschillende overschrijdingskansen.
> **Tip:** De F-toets voor gelijkheid van varianties is gevoelig voor niet-normaliteit. Het wordt daarom vaak als minder betrouwbaar beschouwd dan de t-testen voor gemiddelden, tenzij aan de normaliteitsvoorwaarde is voldaan.
### 3.3 Niet-parametrische toetsen
Niet-parametrische toetsen, ook wel verdelingsvrije toetsen genoemd, vereisen geen specifieke aannames over de vorm van de populatieverdeling (zoals normaliteit). Ze zijn nuttig wanneer de data duidelijk niet normaal verdeeld zijn en de steekproef klein is. Vaak toetsen deze methoden hypothesen over de mediaan in plaats van het gemiddelde.
#### 3.3.1 De tekentoets voor gekoppelde data
Deze toets is een niet-parametrisch alternatief voor de t-toets voor gekoppelde paren.
* **Toepassing:** Wordt gebruikt bij gekoppelde data waarbij de verschilscores duidelijk niet normaal verdeeld zijn of wanneer de steekproefgrootte klein is en de data sterk scheef zijn.
* **Procedure:**
1. Bereken de verschilscores ($d_i$) voor elk paar.
2. Negeer paren met een verschil van 0.
3. Tel het aantal positieve verschilscores (dit is de toetsingsgrootheid $X$).
4. De nulhypothese is $H_0: p = 1/2$ (de kans op een positief verschil is 1/2), wat equivalent is aan $H_0: \mu_d = 0$.
* **Verdeling:** De p-waarden voor $X$ zijn gebaseerd op de binomiale verdeling $B(n, 1/2)$, waarbij $n$ het aantal overgebleven paren is.
* **Nadeel:** De tekentoets heeft doorgaans een kleiner onderscheidingsvermogen (power) dan de t-toets voor gekoppelde paren wanneer aan diens voorwaarden is voldaan.
> **Example:** Onderzoek naar agressief gedrag bij dementen. Met behulp van de tekentoets werd geconcludeerd dat significant meer dan de helft van de bejaarden vaker agressief gedrag vertoonde rond volle maan ($X \ge 14$, $p < 0.001$). Dit suggereert dat de mediaan van de verschilscores significant groter is dan nul.
#### 3.3.2 Data transformeren
Een alternatief voor niet-parametrische toetsen, met name bij scheve verdelingen, is het transformeren van de data om deze dichter bij normaliteit te brengen. Een veelgebruikte transformatie is de logaritmische transformatie.
* **Voordeel:** Inferentieprocedures (zoals t-testen) kunnen dan accuraat worden toegepast op de getransformeerde data, zelfs bij relatief kleine steekproeven.
* **Nadeel:** Betrouwbaarheidsintervallen die op de getransformeerde schaal worden bepaald, zijn niet direct interpreteerbaar op de oorspronkelijke schaal.
> **Tip:** Bij sterk scheve verdelingen en kleine steekproeven, overweeg eerst het transformeren van de data voordat je niet-parametrische toetsen overweegt. Evalueer wel altijd of de transformatie de data voldoende genormaliseerd heeft.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| t-verdeling | Een continue waarschijnlijkheidsverdeling die lijkt op de normaalverdeling, maar met dikkere staarten en een vorm die afhangt van het aantal vrijheidsgraden. Wordt gebruikt bij statistische inferentie wanneer de populatiestandaardafwijking onbekend is. |
| Vrijheidsgraden (df) | Een parameter die de vorm van de t-verdeling bepaalt. Voor een t-toets met één steekproef is dit typisch $n-1$, waarbij $n$ de steekproefgrootte is. |
| Standaardfout | De standaardafwijking van de steekproevenverdeling van een statistiek, zoals het steekproefgemiddelde. Het kwantificeert de variabiliteit die verwacht kan worden als gevolg van willekeurige steekproeftrekking. |
| Betrouwbaarheidsinterval | Een reeks waarden die, met een bepaalde waarschijnlijkheid, de werkelijke populatiewaarde bevat. Het geeft een bereik van plausibele waarden voor een populatieparameter. |
| p-waarde | De waarschijnlijkheid om een toetsingsgrootheid te verkrijgen die minstens zo extreem is als de waargenomen waarde, ervan uitgaande dat de nulhypothese waar is. Een lage p-waarde suggereert bewijs tegen de nulhypothese. |
| Nulhypothese (H0) | Een stelling over een populatieparameter die wordt getoetst. Het is de standaardhypothese die wordt verondersteld waar te zijn totdat er voldoende bewijs is om deze te verwerpen. |
| Alternatieve hypothese (Ha) | Een stelling die de nulhypothese tegenspreekt. Het vertegenwoordigt de conclusie die men hoopt te vinden als de nulhypothese wordt verworpen. |
| Robuustheid | De mate waarin een statistische procedure ongevoelig is voor schendingen van de onderliggende aannames, zoals normaliteit. Robuuste methoden geven betrouwbare resultaten, zelfs als de aannames niet perfect worden voldaan. |
| Gekoppelde (paired) data | Data waarbij metingen uit twee groepen of condities systematisch aan elkaar gerelateerd zijn. Dit gebeurt bijvoorbeeld wanneer dezelfde proefpersoon herhaaldelijk wordt gemeten of wanneer paren van vergelijkbare individuen worden gebruikt. |
| Onafhankelijke steekproeven | Data waarbij de metingen in de ene groep geen invloed hebben op de metingen in de andere groep. De individuen in de ene steekproef worden willekeurig geselecteerd, onafhankelijk van de individuen in de andere steekproef. |
| Niet-parametrische toetsen | Statistische toetsen die geen aannames maken over de specifieke verdeling van de populatie, in tegenstelling tot parametrische toetsen zoals de t-toets die normaliteit vereisen. |
| Tekentoets | Een niet-parametrische toets voor gekoppelde data die de tekens van de verschilscores analyseert om te bepalen of de mediaan van de verschillen significant afwijkt van nul. |
| F-toets | Een statistische toets die wordt gebruikt om de gelijkheid van varianties tussen twee of meer populaties te vergelijken. |
| Steekproevenverdeling | De waarschijnlijkheidsverdeling van een steekproefstatistiek (bijvoorbeeld het steekproefgemiddelde) berekend uit alle mogelijke steekproeven van een bepaalde grootte uit een populatie. |