Cover
Comença ara de franc Statistiek 3.docx
Summary
# Inleiding tot inductieve statistiek: betrouwbaarheidsintervallen en toetsen
Inductieve statistiek stelt ons in staat om op basis van steekproefgegevens conclusies te trekken over grotere populaties, waarbij betrouwbaarheidsintervallen en hypothesetoetsen centraal staan om onzekerheid te kwantificeren en beslissingen te onderbouwen.
## 1. Inleiding tot inductieve statistiek: betrouwbaarheidsintervallen en toetsen
Inductieve statistiek maakt gebruik van steekproefgegevens om uitspraken te doen over populaties. Hierbij is het cruciaal om rekening te houden met de onzekerheid die inherent is aan het trekken van een steekproef. Betrouwbaarheidsintervallen bieden een methode om een bereik te bepalen waarbinnen de populatieparameter waarschijnlijk ligt, terwijl hypothesetoetsen ons helpen om specifieke beweringen over de populatie te evalueren.
### 1.1 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) geeft een reeks waarden waarbinnen we verwachten dat de ware populatieparameter (bijvoorbeeld het populatiegemiddelde) zich bevindt, met een bepaalde mate van zekerheid.
#### 1.1.1 Concept van betrouwbaarheidsintervallen
Het idee achter een betrouwbaarheidsinterval is dat, hoewel we slechts één steekproef trekken, we ons kunnen voorstellen wat er zou gebeuren als we dit proces vele malen zouden herhalen. De verzameling van de steekproefgemiddelden zou een steekproevenverdeling vormen, die vaak benaderd kan worden met een normale verdeling. Een betrouwbaarheidsinterval wordt dan geconstrueerd rondom het waargenomen steekproefgemiddelde, met een foutenmarge die aangeeft hoe ver we verwachten dat het populatiegemiddelde afwijkt.
De breedte van het betrouwbaarheidsinterval wordt beïnvloed door:
* De standaardafwijking van de populatie ($\sigma$): hoe kleiner $\sigma$, hoe smaller het interval en dus hoe preciezer de schatting.
* De grootte van de steekproef ($n$): hoe groter $n$, hoe smaller het interval en hoe preciezer de schatting.
#### 1.1.2 Interpretatie van betrouwbaarheidsintervallen
Een 95% betrouwbaarheidsinterval betekent dat als we het proces van steekproeftrekking en intervalconstructie oneindig vaak zouden herhalen, 95% van deze intervallen de ware populatieparameter zou bevatten. Het betekent *niet* dat er 95% kans is dat de ware populatieparameter binnen *één specifiek berekend* interval ligt.
> **Tip:** Wees voorzichtig met de interpretatie van betrouwbaarheidsintervallen. Focus op de herhalingsinterpretatie: als je het experiment vaak zou herhalen, zou een bepaald percentage van de intervallen de ware parameter bevatten.
#### 1.1.3 Foutenmarges en schatters
De foutenmarge in een betrouwbaarheidsinterval vertegenwoordigt de onzekerheid rondom de schatting van de populatieparameter op basis van de steekproef. Schatters zijn statistieken die worden gebruikt om populatieparameters te schatten; de kwaliteit van een schatter hangt af van eigenschappen zoals zuiverheid, efficiëntie en consistentie.
#### 1.1.4 Waarschuwingen bij schatters
Het is belangrijk om te realiseren dat schatters steekproefafhankelijk zijn en dat er een kans is op toevalsfluctuaties die de schatting beïnvloeden. Systematische aannames, zoals aselecte steekproeftrekking, zijn cruciaal voor de geldigheid van de inductieve statistiek.
### 1.2 Hypothesetoetsen (Significantietoetsen)
Hypothesetoetsen zijn nauw verwant aan betrouwbaarheidsintervallen en worden gebruikt om specifieke hypothesen over een populatie te evalueren op basis van steekproefgegevens.
#### 1.2.1 De vier stappen van een significantietoets
1. **Formuleer de nul- en de alternatieve hypothesen:** De nulhypothese ($H_0$) stelt meestal dat er geen effect of verschil is, terwijl de alternatieve hypothese ($H_1$) stelt dat er wel een effect of verschil is.
2. **Bepaal de waarde van de toetsingsgrootheid:** Dit is een statistiek berekend uit de steekproefgegevens die de hypothese test.
3. **Bepaal de overschrijdingskans (p-waarde):** Dit is de kans om data te verkrijgen die minstens zo extreem zijn als de waargenomen data, ervan uitgaande dat de nulhypothese waar is. Standaard wordt vaak een significantieniveau ($\alpha$) van 0.05 gehanteerd.
4. **Formuleer de conclusie:** Op basis van de p-waarde en het significantieniveau wordt besloten of de nulhypothese verworpen wordt of niet.
#### 1.2.2 Klassieke aanpak versus resampling
* **Klassieke aanpak:** Maakt gebruik van theoretische verdelingen (zoals de normaal- of t-verdeling) om de p-waarde te berekenen. Dit vereist vaak aannames over de populatieverdeling. Een discrete verdeling kan benaderd worden door een normale verdeling als de steekproefgrootte voldoende is.
* **Resampling (bv. bootstrap):** Simuleert de steekproevenverdeling door herhaaldelijk steekproeven te trekken met teruglegging uit de oorspronkelijke steekproef. Dit vereist minder aannames over de populatieverdeling. Dit kan nuttig zijn wanneer de $n \times p \ge 10$ voorwaarden voor normale benadering niet voldaan is.
#### 1.2.3 Nulhypothese en alternatieve hypothese
* **Nulhypothese ($H_0$):** Stelt een claim die we proberen te weerleggen. Bijvoorbeeld, een medicijn heeft geen effect ($ \mu_{medicijn} = \mu_{placebo} $).
* **Alternatieve hypothese ($H_1$):** De claim die we accepteren als we de nulhypothese verwerpen. Bijvoorbeeld, een medicijn heeft wel een effect ($ \mu_{medicijn} \neq \mu_{placebo} $, $ \mu_{medicijn} > \mu_{placebo} $, of $ \mu_{medicijn} < \mu_{placebo} $).
#### 1.2.4 Overschrijdingskans (p-waarde)
De p-waarde is de kans op het waarnemen van de steekproefresultaten, of nog extremere resultaten, indien de nulhypothese waar zou zijn. Een kleine p-waarde (typisch kleiner dan $\alpha = 0.05$) leidt tot verwerping van de nulhypothese.
> **Tip:** Een p-waarde is *niet* de kans dat de nulhypothese waar is.
#### 1.2.5 Cruciale vragen bij significantietoetsen
Naast het bepalen van statistische significantie, zijn er ook conceptuele vragen:
* **Hoe groot moet een verschil zijn om praktisch relevant te zijn?** Dit gaat verder dan alleen statistische significantie.
* **Wat is het onderscheidingsvermogen (power)?** Dit is de kans dat de toets een echt effect of verschil detecteert wanneer dat aanwezig is op populatieniveau.
#### 1.2.6 Type I en Type II fouten
* **Type I fout (vals positief, $\alpha$):** Het verwerpen van de nulhypothese terwijl deze waar is. De kans hierop is gelijk aan het significantieniveau ($\alpha$).
* **Type II fout (vals negatief, $\beta$):** Het niet verwerpen van de nulhypothese terwijl deze onwaar is. Het onderscheidingsvermogen is $1 - \beta$.
> **Tip:** Een hogere $\alpha$ verhoogt de kans op een Type I fout, maar verkleint de kans op een Type II fout (en vice versa). De keuze van $\alpha$ is een afweging.
#### 1.2.7 Onderscheidingsvermogen (Power)
Onderscheidingsvermogen is de kans om een werkelijk bestaand effect of verschil te detecteren. Factoren die het onderscheidingsvermogen beïnvloeden zijn:
* Steekproefgrootte ($n$): Grotere $n$ verhoogt het onderscheidingsvermogen.
* Effectgrootte: Grotere verschillen zijn makkelijker te detecteren.
* Significantieniveau ($\alpha$): Hogere $\alpha$ verhoogt het onderscheidingsvermogen (ten koste van meer Type I fouten).
* Variabiliteit in de data: Lagere variabiliteit verhoogt het onderscheidingsvermogen.
#### 1.2.8 Z-toets versus T-toets
* **Z-toets:** Wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) bekend is of wanneer de steekproef zeer groot is (zodat de steekproefstandaardafwijking $s$ een goede benadering is van $\sigma$). Gebruikt de standaardnormaalverdeling.
* **T-toets:** Wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en wordt geschat met de steekproefstandaardafwijking ($s$). De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat een correctie is voor de extra onzekerheid door het schatten van $\sigma$. De vorm van de t-verdeling hangt af van de vrijheidsgraden ($df$).
#### 1.2.9 Vrijheidsgraden (df)
Vrijheidsgraden zijn een parameter die de vorm van de t-verdeling bepaalt. Voor een 1-steekproef t-toets is $df = n - 1$. Voor een 2-steekproeven t-toets, afhankelijk van de varianties, kan $df$ op verschillende manieren berekend worden (bv. $df = n_1 + n_2 - 2$ voor gelijke varianties, of een complexere formule voor ongelijke varianties).
#### 1.2.10 T-verdeling en de impact van vrijheidsgraden
Naarmate de vrijheidsgraden toenemen, nadert de t-verdeling de standaardnormaalverdeling. Bij lage vrijheidsgraden zijn de staarten van de t-verdeling dikker, wat betekent dat grotere t-waarden nodig zijn om significantie te bereiken. Dit is een conservatieve benadering om het risico op Type I fouten te beperken.
#### 1.2.11 Steekproevenverdeling van de toetsingsgrootheid
De steekproevenverdeling van de toetsingsgrootheid beschrijft de verdeling van de toetsingsgrootheid als de nulhypothese waar zou zijn. Deze verdeling wordt gebruikt om de p-waarde te bepalen.
#### 1.2.12 Vergelijken van twee gemiddelden
* **2-steekproeven Z-test:** Minder frequent gebruikt omdat de populatie standaardafwijking zelden bekend is.
* **2-steekproeven T-test:** De meest gebruikelijke methode. Hierbij wordt de testingsgrootheid berekend op basis van de steekproefgemiddelden en steekproefstandaardafwijkingen.
* **Gelijke varianties:** Gebruikt een gepoolde variantie. $df = n_1 + n_2 - 2$.
* **Ongelijke varianties (Welch's t-test):** Gebruikt aparte varianties. De vrijheidsgraden worden berekend met een complexere formule (Satterthwaite-Welch). Dit is vaak de conservatievere keuze.
#### 1.2.13 Voorwaarden voor T-procedures
Hoewel t-procedures relatief robuust zijn voor schendingen van aannames, zijn de volgende voorwaarden belangrijk:
* **Aselecte steekproef:** De data moeten afkomstig zijn van een aselecte steekproef.
* **Onafhankelijkheid:** Observaties binnen en tussen groepen moeten onafhankelijk zijn.
* **Normaliteit:** De populaties waaruit de steekproeven getrokken zijn, moeten ongeveer normaal verdeeld zijn. Dit is belangrijker bij kleine steekproeven. Voor grotere steekproeven (bv. $n > 30$) is de t-procedure robuuster tegen schendingen van normaliteit, vooral als de verdelingen ongeveer symmetrisch zijn.
* **Gelijke varianties (voor klassieke t-test met gelijke varianties):** De varianties in de populaties moeten ongeveer gelijk zijn. Levene's test kan gebruikt worden om dit te toetsen. Als deze aanname geschonden is, wordt Welch's t-test gebruikt.
> **Tip:** Robuustheid van t-procedures betekent dat ze nog steeds betrouwbaar kunnen zijn, zelfs als niet aan alle voorwaarden perfect is voldaan, vooral bij grote steekproeven. Echter, bij zeer kleine steekproeven is de normaliteitsassumptie belangrijker.
#### 1.2.14 Levene's test
Levene's test wordt gebruikt om te toetsen of de varianties van twee of meer groepen gelijk zijn. Als de p-waarde van Levene's test significant is (bv. $p < 0.05$), wordt de nulhypothese van gelijke varianties verworpen.
#### 1.2.15 Conservatief testen
Conservatief testen houdt in dat men strenger is bij het verwerpen van de nulhypothese. Dit kan bijvoorbeeld door lagere vrijheidsgraden te hanteren, wat leidt tot dikkere staarten in de t-verdeling. Dit verhoogt de kans op een Type II fout (minder onderscheidingsvermogen), maar verlaagt de kans op een Type I fout.
#### 1.2.16 Betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden ($\mu_1 - \mu_2$)
Een betrouwbaarheidsinterval voor het verschil tussen twee populatiegemiddelden wordt berekend op basis van de steekproefgemiddelden, standaardafwijkingen en vrijheidsgraden. Het biedt een bereik waarbinnen het werkelijke verschil waarschijnlijk ligt. Dit interval kan ook als "conservatief" worden ingeschat.
#### 1.2.17 Gepoelde variantie ($s_p^2$)
De gepoolde variantie is een gewogen gemiddelde van de varianties van twee steekproeven, gebruikt in de t-toets wanneer wordt aangenomen dat de populatievarianties gelijk zijn. De formule is:
$$ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} $$
#### 1.2.18 Robuustheid van t-procedures
T-procedures zijn over het algemeen robuust, wat betekent dat ze relatief ongevoelig zijn voor lichte schendingen van de aannames, met name de normaliteitsassumptie, vooral bij grotere steekproeven. Echter, bij zeer kleine steekproeven worden de aannames belangrijker.
#### 1.2.19 Onderscheidingsvermogen (Power) van de t-test
Het onderscheidingsvermogen van de t-test is de kans om een werkelijk bestaand verschil tussen groepsgemiddelden te detecteren. Dit wordt beïnvloed door factoren zoals steekproefgrootte, effectgrootte, significantieniveau en variabiliteit. Software zoals G\*Power kan worden gebruikt om het benodigde onderscheidingsvermogen te berekenen.
#### 1.2.20 Inferentie voor niet-normaal verdeelde populaties
Wanneer de data niet normaal verdeeld zijn en de steekproeven klein zijn, kunnen niet-parametrische toetsen worden overwogen. Data transformaties (bv. logaritmen, wortels) kunnen soms worden toegepast om de data meer normaal verdeeld te maken.
* **Tekentoets (voor gekoppelde data):** Vergelijkt de tekens van de verschillen tussen paren van observaties. Vereist geen normaliteitsassumptie. Het telt het aantal positieve en negatieve verschillen.
* **Niet-parametrische alternatieven:** Zoals de Wilcoxon rangsom test (ook bekend als Mann-Whitney U test) voor onafhankelijke steekproeven, en de Wilcoxon rangtekentoets voor gekoppelde steekproeven. Deze toetsen werken met rangnummers in plaats van de ruwe data en hebben daardoor minder onderscheidingsvermogen dan parametrische toetsen wanneer aan de aannames voor die toetsen is voldaan.
### 1.3 Inferentie voor populatiespreiding
Naast gemiddelden kunnen ook de spreidingen (varianties) van populaties worden vergeleken.
#### 1.3.1 F-toets voor varianties
De F-toets wordt gebruikt om de varianties van twee populaties te vergelijken. De toetsingsgrootheid is de ratio van de twee steekproefvarianties. De F-verdeling is scheef verdeeld en heeft twee vrijheidsgraden (één voor de teller en één voor de noemer).
### 1.4 Inferentie voor fracties (proporties en percentages)
Inductieve statistiek kan ook worden toegepast op proporties of percentages.
#### 1.4.1 Inferentie over een proportie in één populatie
* **Betrouwbaarheidsinterval voor een proportie:** Hierbij wordt vaak een aanpassing gedaan door een "plus-vier" methode, waarbij kunstmatig waarnemingen worden toegevoegd om met kleinere steekproeven te kunnen werken.
* **Significantietoets voor een proportie:** Gebruikt de normale benadering indien aan bepaalde voorwaarden is voldaan (bv. $n \times p \ge 10$ en $n \times q \ge 10$, waarbij $p$ de geschatte proportie is en $q = 1-p$). De foutenmarge is het grootst wanneer $p = 0.5$.
#### 1.4.2 Proporties in twee steekproeven vergelijken
Dit wordt gedaan om te onderzoeken of een bepaald kenmerk in de ene populatie vaker voorkomt dan in de andere. Hierbij worden soortgelijke concepten als bij de t-toetsen toegepast, inclusief het belang van het controleren van voorwaarden.
### 1.5 Niet-parametrische toetsen (uitgebreider)
Niet-parametrische toetsen bieden alternatieven wanneer de aannames van parametrische toetsen (zoals normaliteit) niet voldaan zijn, of wanneer men met ordinale data werkt.
#### 1.5.1 Bootstrap methode
De bootstrap methode is een resampling techniek waarbij men de steekproef als een populatie behandelt en herhaaldelijk steekproeven trekt met teruglegging om de steekproevenverdeling te simuleren. Dit kan worden gebruikt om betrouwbaarheidsintervallen en toetsingsstatistieken te schatten zonder specifieke aannames over de populatieverdeling.
#### 1.5.2 Procedures gebaseerd op ordenen van data
* **Wilcoxon rangsom test (Mann-Whitney U test):** Een alternatief voor de onafhankelijke 2-steekproeven t-toets. Het rangschikt alle observaties en vergelijkt de som van de rangen tussen de groepen.
* **Wilcoxon rangtekentoets:** Een alternatief voor de gepaarde t-toets. Het werkt met de rangen van de verschillen tussen gepaarde observaties.
* **Kruskal-Wallis toets:** Een niet-parametrisch alternatief voor de one-way ANOVA.
#### 1.5.3 Conversatie benaderingen en software
Verschillende statistische softwarepakketten implementeren deze toetsen, soms met kleine variaties in de berekeningen. Het is belangrijk om te begrijpen welke specifieke variant van een toets wordt gebruikt.
### 1.6 Specifieke toetsen en concepten
* **Kolmogorov-Smirnov toets:** Kan gebruikt worden om te toetsen of een variabele een bepaalde verdeling volgt (bv. normaliteit).
* **Chi-kwadraat toets:** Wordt gebruikt voor categorische data, bijvoorbeeld om de onafhankelijkheid van twee categorische variabelen te toetsen of om een waargenomen frequentieverdeling te vergelijken met een verwachte verdeling.
* **Regressieanalyse:** Hoewel niet direct een hypothesetoets op een enkele parameter, worden in regressieanalyse t-toetsen gebruikt om de significantie van regressiecoëfficiënten te beoordelen (bv. of de rico significant verschilt van nul).
#### 1.6.1 Betrouwbaarheidsinterval voor regressiecoëfficiënten
Voor elke regressiecoëfficiënt kan een betrouwbaarheidsinterval worden berekend om het bereik van plausibele waarden voor die coëfficiënt in de populatie te geven.
#### 1.6.2 Adjusted R-kwadraat
In meervoudige regressie wordt de adjusted R-kwadraat gebruikt om de R-kwadraat te corrigeren voor het aantal voorspellers in het model. Dit voorkomt dat de R-kwadraat kunstmatig wordt verhoogd door simpelweg meer variabelen toe te voegen.
#### 1.6.3 Multicollineariteit
Multicollineariteit treedt op wanneer voorspellende variabelen sterk met elkaar correleren. Dit kan leiden tot instabiele regressiecoëfficiënten en hogere standaardfouten, wat het moeilijk maakt om het unieke effect van elke variabele te bepalen. Tolerantiemaat is een indicator voor multicollineariteit; een lage tolerantie (dicht bij nul) duidt op hoge multicollineariteit.
#### 1.6.4 ANOVA (Variantieanalyse)
ANOVA wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. De hoofdtoets (omnibus test) bepaalt of er *ergens* een significant verschil is tussen de groepsgemiddelden.
* **Contrasten:** Specifieke hypotheses over groepsgemiddelden die vooraf worden gedefinieerd. Ze worden gebruikt om gerichte vergelijkingen te maken tussen groepen. De coëfficiënten in een contrast bepalen de weging van elk groepsgemiddelde.
* **Post-hoc toetsen:** Worden uitgevoerd *na* een significante ANOVA om te bepalen welke specifieke groepen significant van elkaar verschillen. Bekende post-hoc toetsen zijn Bonferroni (zeer conservatief) en LSD (Least Significant Difference, minder streng).
* **Voorwaarden voor ANOVA:** Aselecte steekproeven, onafhankelijkheid, normaliteit van de residuen, en gelijke varianties tussen de groepen (homogeniteit van varianties, getoetst met Levene's test).
Het correct toepassen van deze statistische technieken stelt ons in staat om betrouwbare conclusies te trekken uit onze gegevens en wetenschappelijk onderbouwde beslissingen te nemen.
---
# Significantietoetsen en onderscheidingsvermogen
Dit gedeelte behandelt de fundamentele concepten en methoden van significantietoetsen, inclusief hypothesestelling, de berekening van toetsingsgrootheden, het interpreteren van overschrijdingskansen, en het onderscheiden van klassieke en resampling benaderingen, met bijzondere aandacht voor type I en type II fouten en het onderscheidingsvermogen (power).
## 2. Significantietoetsen en onderscheidingsvermogen
Significantietoetsen zijn een kernonderdeel van inductieve statistiek, waarmee onderzoekers de kans op het maken van fouten evalueren wanneer zij conclusies trekken over een populatie op basis van steekproefgegevens. Het doel is om te bepalen of waargenomen verschillen of verbanden waarschijnlijk toeval zijn of dat ze duiden op een werkelijk effect in de populatie.
### 2.1 De principes van significantietoetsen
De redenering achter significantietoetsen is nauw verwant aan betrouwbaarheidsintervallen. Waar een betrouwbaarheidsinterval een reeks waarden biedt waarbinnen het populatiegemiddelde waarschijnlijk ligt, helpt een significantietoets te beoordelen of een specifieke hypothese over het populatiegemiddelde plausibel is gezien de steekproefgegevens.
#### 2.1.1 De stappen van een significantietoets
Een typisch significantietoetsproces bestaat uit vier essentiële stappen:
1. **Formuleer de nul- en de alternatieve hypothesen:**
* De **nulhypothese ($H_0$)** stelt dat er geen effect of verschil is, of dat het waargenomen effect verklaard kan worden door toeval. Dit is de hypothese die we proberen te weerleggen.
* De **alternatieve hypothese ($H_A$ of $H_1$)** stelt dat er wel een effect of verschil is, dat groter is dan wat door toeval alleen verklaard kan worden.
2. **Bepaal de waarde van de toetsingsgrootheid:** Dit is een statistiek die berekend wordt uit de steekproefgegevens en die aangeeft hoe ver de steekproefresultaten afwijken van wat verwacht wordt onder de nulhypothese. Voorbeelden zijn $z$, $t$, $\chi^2$ of $F$-statistieken. De formule hiervoor hangt af van het type toets en de data.
* Voor een gemiddelde in een populatie, zou de toetsingsgrootheid bijvoorbeeld de $z$-score kunnen zijn:
$$z = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$$
waarbij $\bar{x}$ het steekproefgemiddelde is, $\mu_0$ de waarde onder de nulhypothese, $s$ de steekproefstandaarddeviatie en $n$ de steekproefgrootte.
3. **Bepaal de overschrijdingskans (p-waarde):** De overschrijdingskans is de kans om, onder de aanname dat de nulhypothese waar is, een toetsingsgrootheid te observeren die minstens zo extreem is als degene die daadwerkelijk is berekend uit de steekproefgegevens.
* Een standaard significantieniveau is $\alpha = 0.05$ (5%). Als de p-waarde kleiner is dan $\alpha$, wordt de nulhypothese verworpen.
4. **Formuleer de conclusie:** Op basis van de p-waarde en het significantieniveau wordt een conclusie getrokken. Deze conclusie wordt vaak in APA-stijl gerapporteerd, met vermelding van de toetsingsgrootheid, de vrijheidsgraden (indien van toepassing), de p-waarde en de richting van het effect.
#### 2.1.2 Klassieke versus resampling benaderingen
Er zijn twee hoofdmanieren om significantietoetsen uit te voeren:
* **Klassieke aanpak:** Maakt gebruik van theoretische verdelingen (zoals de normaalverdeling of de $t$-verdeling) om de p-waarde te berekenen. Deze methode vereist vaak dat aan bepaalde aannames over de populatieverdeling wordt voldaan (bv. normaliteit). De $z$-toets en de $t$-toets zijn voorbeelden van klassieke benaderingen.
* **Resampling benaderingen (bv. bootstrap, permutatie):** Deze methoden simuleren de steekproevenverdeling door herhaaldelijk (met teruglegging) te samplen uit de waargenomen steekproefgegevens. Ze maken geen aannames over de theoretische verdeling van de populatie en zijn daardoor vaak robuuster, vooral bij kleinere steekproeven of wanneer aan de aannames van klassieke toetsen niet voldaan is.
### 2.2 Fouten bij significantietoetsen
Bij het toetsen van hypothesen is er altijd een kans op het maken van een fout. Twee soorten fouten zijn hierbij van belang:
* **Type I fout (vals positief):** De nulhypothese wordt verworpen, terwijl deze in werkelijkheid waar is. De kans op een Type I fout wordt gelijkgesteld aan het significantieniveau $\alpha$.
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen, terwijl deze in werkelijkheid onjuist is. De kans op een Type II fout wordt aangeduid met $\beta$.
> **Tip:** Het is cruciaal om de impact van de gekozen $\alpha$-waarde te begrijpen. Een lagere $\alpha$ verkleint de kans op een Type I fout, maar vergroot tegelijkertijd de kans op een Type II fout.
### 2.3 Onderscheidingsvermogen (Power)
Het onderscheidingsvermogen (power) van een toets is de kans dat de toets de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Met andere woorden, het is de kans om een werkelijk bestaand effect te detecteren.
* **Power = $1 - \beta$**
Factoren die het onderscheidingsvermogen beïnvloeden zijn onder andere:
* **Significantieniveau ($\alpha$):** Een hogere $\alpha$ verhoogt de power.
* **Steekproefgrootte ($n$):** Een grotere $n$ verhoogt de power.
* **Effectgrootte:** De grootte van het werkelijke verschil of verband in de populatie. Een grotere effectgrootte verhoogt de power.
* **Variabiliteit van de data:** Minder variabiliteit (bv. kleinere standaarddeviatie) verhoogt de power.
Het berekenen van het benodigde onderscheidingsvermogen wordt vaak gedaan *voorafgaand* aan een studie (bv. met G*Power) om te bepalen welke steekproefgrootte nodig is om met een bepaald onderscheidingsvermogen een specifiek effect te kunnen detecteren.
#### 2.3.1 Visualisatie van fouten en power
Schematische voorstellingen, vaak met behulp van steekproevenverdelingen, helpen bij het visualiseren van deze concepten:
* De **blauwe verdeling** representeert de steekproevenverdeling onder de nulhypothese. De kritieke waarde bepaalt de afwijzing (bv. de staart aan de rechterkant, gelijk aan $\alpha$).
* De **rode verdeling** representeert de steekproevenverdeling wanneer de alternatieve hypothese waar is. De overlap tussen de twee verdelingen illustreert de kansen op Type I en Type II fouten, en daarmee het onderscheidingsvermogen ($1 - \beta$). De afstand tussen de gemiddelden van de blauwe en rode verdeling is gerelateerd aan de effectgrootte.
#### 2.3.2 Onderscheidingsvermogen bij specifieke toetsen (z-toets, t-toets)
* **Z-toets:** Als de populatiestandaarddeviatie ($\sigma$) bekend is of de steekproefgrootte groot genoeg is, kan een $z$-toets gebruikt worden. De berekening van de power hangt dan af van de $z$-waarden die corresponderen met $\alpha$ en de verwachte effectgrootte.
* **T-toets:** Wanneer $\sigma$ onbekend is en geschat wordt met de steekproefstandaarddeviatie ($s$), wordt een $t$-toets gebruikt. De $t$-verdeling heeft dikkere staarten dan de normale verdeling, wat betekent dat er meer data nodig is om een significant verschil te detecteren vergeleken met een $z$-toets met dezelfde $\alpha$. Het onderscheidingsvermogen wordt beïnvloed door de vrijheidsgraden van de $t$-verdeling.
### 2.4 Aanpassing van toetsen en betrouwbaarheidsintervallen
#### 2.4.1 T-toetsen en vrijheidsgraden
Bij t-toetsen is het aantal **vrijheidsgraden (df)** essentieel voor de correcte interpretatie van de $t$-verdeling. Deze vrijheidsgraden hangen af van de steekproefgrootte en de specifieke toets die wordt gebruikt. Bijvoorbeeld, voor een éénsteekproef $t$-toets is $df = n-1$. Bij de vergelijking van twee onafhankelijke groepen kan het aantal vrijheidsgraden conservatief geschat worden door te kiezen voor de kleinste van de twee steekproefgroottes min één ($min(n_1, n_2) - 1$).
#### 2.4.2 Robuustheid van t-procedures
T-procedures zijn over het algemeen robuust voor schendingen van de normaliteitsaanname, vooral bij grotere steekproeven. Wanneer steekproeven echter klein zijn, wordt de aanname van normaliteit belangrijker. Schendingen van homogeniteit van varianties (gelijke spreiding in populaties) kunnen ook de resultaten beïnvloeden, wat soms wordt aangepakt met conservatieve schattingen van de vrijheidsgraden of specifieke varianten van de $t$-toets (bv. Welch's $t$-test).
#### 2.4.3 Plus-vier correcties voor proporties
Bij het toetsen van proporties, vooral bij kleinere steekproeven, kunnen plus-vier correcties worden toegepast. Hierbij worden artificieel vier waarnemingen toegevoegd aan de data (twee successen en twee mislukkingen) om de schatting te stabiliseren en de benadering met de normaalverdeling te verbeteren.
#### 2.4.4 Niet-parametrische alternatieven
Wanneer de aannames van parametrische toetsen (zoals normaliteit) niet voldaan kunnen worden, zijn niet-parametrische toetsen een alternatief. Deze toetsen maken minder of geen aannames over de populatieverdeling.
* **Voorbeelden:**
* **Wilcoxon rangtekentoets:** Een alternatief voor de éénsteekproef $t$-toets of gepaarde $t$-toets, gebaseerd op de rangordes van de data.
* **Wilcoxon rangsomtoets / Mann-Whitney U-toets:** Een alternatief voor de onafhankelijke $t$-toets, eveneens gebaseerd op rangordes.
* **Kruskal-Wallis toets:** Een niet-parametrisch alternatief voor de one-way ANOVA.
Hoewel niet-parametrische toetsen nuttig zijn, hebben ze over het algemeen een lager onderscheidingsvermogen dan hun parametrische tegenhangers wanneer de aannames wel voldaan zijn.
### 2.5 Vergelijken van varianties
Naast gemiddelden kunnen ook de varianties van populaties vergeleken worden.
* **F-toets:** De $F$-toets, gebaseerd op de $F$-verdeling, wordt gebruikt om te toetsen of de varianties van twee populaties significant verschillen. Deze verdeling is scheef en kent twee vrijheidsgraden (één voor elke steekproef).
### 2.6 Inferentie voor fracties (proporties en percentages)
De principes van significantietoetsen en betrouwbaarheidsintervallen kunnen ook worden toegepast op proporties (fracties).
* **Z-toets voor proporties:** Gebruikt wanneer de steekproefgrootte voldoende is om de binomiale verdeling te benaderen met een normale verdeling.
* **Vergelijking van proporties in twee steekproeven:** Wordt gebruikt om te bepalen of een bepaald kenmerk in twee populaties vaker voorkomt.
### 2.7 Resampling methoden
Resampling-methoden, zoals de bootstrap, bieden een krachtig alternatief voor klassieke toetsen, vooral wanneer de aannames van theoretische verdelingen niet opgaan.
* **Bootstrap methode:** De steekproef wordt behandeld als een populatie waaruit herhaaldelijk met teruglegging wordt gesampled om de steekproevenverdeling te simuleren en zo bijvoorbeeld betrouwbaarheidsintervallen of p-waarden te schatten. Dit is een manier om de steekproevenverdeling te simuleren zonder te vertrouwen op theoretische verdelingen.
---
# T-toetsen en inferentie voor gemiddelden en proporties
Hieronder volgt een gedetailleerde studiehandleiding voor het onderwerp "T-toetsen en inferentie voor gemiddelden en proporties".
## 3. T-toetsen en inferentie voor gemiddelden en proporties
Dit deel van de cursus behandelt inferentiële statistische methoden voor het analyseren van gemiddelden en proporties, met een focus op t-toetsen en betrouwbaarheidsintervallen, inclusief de controle van voorwaarden en berekeningen voor steekproefgrootte.
### 3.1 Inferentie voor gemiddelden van één populatie
Inferentie voor het gemiddelde van één populatie maakt gebruik van steekproefgegevens om uitspraken te doen over het populatiegemiddelde. Dit kan zowel via betrouwbaarheidsintervallen als via significantietoetsen.
#### 3.1.1 Betrouwbaarheidsinterval voor het gemiddelde van één populatie
* **Concept:** Een betrouwbaarheidsinterval (BI) biedt een reeks waarden waarbinnen we met een bepaalde waarschijnlijkheid verwachten dat het ware populatiegemiddelde ligt. Het wordt berekend rond het steekproefgemiddelde.
* **Formule (algemeen):**
$$ \text{Steekproefgemiddelde} \pm \text{Foutmarge} $$
De foutmarge is afhankelijk van de gekozen betrouwbaarheid en de standaardfout van het gemiddelde.
* **Voorwaarden:**
* De steekproef moet aselect zijn.
* De populatie of de steekproef moet (bij benadering) normaal verdeeld zijn, of de steekproefgrootte $n$ moet voldoende groot zijn (vuistregel: $n \times p \ge 10$, waarbij $p$ de proportie is). Bij kleine steekproeven is normaliteit essentieel.
* **1-steekproef t-betrouwbaarheidsinterval:** Wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproef standaardafwijking ($s$), wordt de t-verdeling gebruikt.
$$ \bar{x} \pm t^{\ast} \times \frac{s}{\sqrt{n}} $$
Hierbij is $\bar{x}$ het steekproefgemiddelde, $t^{\ast}$ de kritieke t-waarde voor een gegeven betrouwbaarheidsniveau en vrijheidsgraden, $s$ de steekproef standaardafwijking, en $n$ de steekproefgrootte.
* **Vrijheidsgraden ($df$):** Voor een 1-steekproef t-interval zijn de vrijheidsgraden $df = n - 1$. Deze zijn nodig om de specifieke t-verdeling te bepalen. De vrijheidsgraad is belangrijk om onderschatting van $\sigma$ te voorkomen.
* **Standaardfout van het gemiddelde:** $\frac{s}{\sqrt{n}}$.
* **Interpretatie:** Een 95% betrouwbaarheidsinterval betekent dat als we het proces van steekproeftrekken en intervalberekening oneindig vaak zouden herhalen, 95% van de berekende intervallen het ware populatiegemiddelde zou bevatten.
#### 3.1.2 1-steekproef t-toets
* **Doel:** Het toetsen of het populatiegemiddelde ($\mu$) gelijk is aan een specifieke theoretische waarde ($\mu_0$), of om na te gaan of er een significant verschil is met een verwachte waarde.
* **Stappen van een significantietoets:**
1. **Hypothesen formuleren:**
* Nulhypothese ($H_0$): Er is geen effect, geen verschil, of het populatiegemiddelde is gelijk aan een specifieke waarde (bv. $H_0: \mu = \mu_0$).
* Alternatieve hypothese ($H_a$): Er is wel een effect of verschil (bv. $H_a: \mu \ne \mu_0$, $H_a: \mu > \mu_0$, of $H_a: \mu < \mu_0$).
2. **Toetsingsgrootheid berekenen:**
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
3. **P-waarde bepalen:** De waarschijnlijkheid van het observeren van de data (of extremere data) gegeven dat de nulhypothese waar is. Een standaard significantieniveau ($\alpha$) is 0.05 (5%).
4. **Conclusie formuleren:** Als de p-waarde kleiner is dan $\alpha$, verwerpen we de nulhypothese ten gunste van de alternatieve hypothese. Anders behouden we de nulhypothese.
* **Voorwaarden:** Dezelfde als voor het betrouwbaarheidsinterval (aselecte steekproef, (bij benadering) normaliteit of grote $n$). Bij scheve verdelingen en kleine $n$ wordt de interpretatie lastiger.
* **APA-stijl:** T-waarden worden vaak positief gerapporteerd, met de richting van het effect aangegeven in de alternatieve hypothese en de conclusie.
### 3.2 Inferentie voor gemiddelden van twee populaties
Hierbij worden de gemiddelden van twee verschillende populaties met elkaar vergeleken.
#### 3.2.1 2-steekproeven t-test (onafhankelijke steekproeven)
* **Doel:** Het vergelijken van de gemiddelden van twee onafhankelijke groepen.
* **Nulhypothese (typisch):** Er is geen verschil tussen de populatiegemiddelden van de twee groepen ($H_0: \mu_1 = \mu_2$).
* **Toetsingsgrootheid:**
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$
Hierbij is $(\mu_1 - \mu_2)_0$ de verwachte verschil onder $H_0$ (meestal 0), $\bar{x}_1$ en $\bar{x}_2$ de steekproefgemiddelden, $n_1$ en $n_2$ de steekproefgroottes, en $s_p$ de gepoelde standaardafwijking.
* **Gepoelde variantie ($s_p^2$):** Een gewogen gemiddelde van de varianties van de twee groepen, gebruikt wanneer gelijke varianties worden verondersteld.
$$ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} $$
* **Vrijheidsgraden:** Voor de gepoolde variantie t-toets is $df = n_1 + n_2 - 2$.
* **Voorwaarden:**
* **Normaliteit:** Beide populaties moeten (bij benadering) normaal verdeeld zijn, of de steekproefgroottes moeten groot zijn. T-toetsen zijn robuust voor schendingen van normaliteit, zeker bij grote steekproeven.
* **Gelijke varianties:** De varianties van de twee populaties worden verondersteld gelijk te zijn. Dit kan worden gecontroleerd met bijvoorbeeld Levene's test.
* **Levene's test:** Test of de varianties van de groepen gelijk zijn. Als de p-waarde van Levene's test significant is (bv. < 0.05), dan is er bewijs tegen de aanname van gelijke varianties.
* **Onafhankelijkheid:** De steekproeven uit de twee populaties moeten onafhankelijk zijn.
* **Aanpak bij ongelijke varianties (Welch's t-test):** Als de varianties niet gelijk zijn (vastgesteld met Levene's test), wordt een aangepaste formule voor de standaardfout en vrijheidsgraden gebruikt. De vrijheidsgraden worden dan conservatiever geschat (vaak door te kijken naar de kleinste van $n_1-1$ of $n_2-1$, of via complexere formules). Deze benadering is conservatiever.
* **Betrouwbaarheidsinterval voor $\mu_1 - \mu_2$:** Wordt berekend met de t-verdeling en de berekende standaardfout. De interpretatie is analoog aan het 1-steekproef BI.
$$ (\bar{x}_1 - \bar{x}_2) \pm t^{\ast} \times \text{Standaardfout} $$
* **Onderscheidingsvermogen (Power):** De kans om een werkelijk bestaand verschil tussen de populatiegemiddelden te detecteren. Dit wordt beïnvloed door $\alpha$, steekproefgrootte, en de effectgrootte (het daadwerkelijke verschil). G*Power is een tool om dit vooraf te berekenen.
#### 3.2.2 2-steekproeven z-test (voor gemiddelden)
* **Toepassing:** Wordt zelden gebruikt omdat de populatie standaardafwijking ($\sigma_1, \sigma_2$) vrijwel nooit bekend is. Als deze wel bekend zou zijn, zou de formule analoog zijn aan de t-toets maar met z-waarden en $\sigma$ in plaats van $s$.
#### 3.2.3 Robuustheid van t-procedures
T-procedures (zowel 1- als 2-steekproef) zijn relatief robuust tegen schendingen van de normaliteitsvoorwaarde, vooral bij grotere steekproeven. Bij zeer kleine steekproeven wordt de aanname van normaliteit belangrijker. Ook robuustheid tegen ongelijke varianties is een belangrijk aspect.
### 3.3 Inferentie voor proporties
Inferentie voor proporties behandelt de schatting en toetsing van populatieproporties of percentages.
#### 3.3.1 Inferentie voor een populatieproportie
* **Concept:** Een proportie ($p$) vertegenwoordigt het deel van een populatie met een bepaalde eigenschap. We schatten deze populatieproportie met de steekproefproportie ($\hat{p}$).
* **Voorwaarden voor normaliteitsbenadering:** Om inferentie te doen met behulp van de normaalverdeling, moeten aan de volgende voorwaarden worden voldaan:
* De steekproef is aselect.
* De populatie is groot genoeg in vergelijking met de steekproef (bv. de populatie is minimaal 10 keer groter dan de steekproef).
* Het aantal "successen" ($n \times \hat{p}$) en "mislukkingen" ($n \times (1 - \hat{p})$) in de steekproef is voldoende groot (vuistregel: minimaal 10).
* **Betrouwbaarheidsinterval voor $\hat{p}$:**
$$ \hat{p} \pm z^{\ast} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $$
Hierbij is $z^{\ast}$ de kritieke z-waarde voor het gewenste betrouwbaarheidsniveau.
* **Plus-vier betrouwbaarheidsinterval:** Een methode die correcties toepast om de prestaties te verbeteren, vooral bij kleinere steekproeven of proporties dicht bij 0 of 1. Hierbij worden 2 "successen" en 2 "mislukkingen" kunstmatig toegevoegd aan de data.
* Nieuwe steekproefgrootte: $n' = n + 4$.
* Nieuwe steekproefproportie: $\hat{p}' = (\text{aantal successen} + 2) / (n + 4)$.
* Interval: $\hat{p}' \pm z^{\ast} \sqrt{\frac{\hat{p}'(1-\hat{p}')}{n'}}$.
* **Significantietoets voor $\hat{p}$:**
* **Nulhypothese:** $H_0: p = p_0$ (de populatieproportie is gelijk aan een specifieke waarde).
* **Toetsingsgrootheid (z-toets):**
$$ z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} $$
* De p-waarde wordt bepaald op basis van de standaard normaalverdeling.
* **Benodigde steekproefgrootte ($n$):** Kan worden berekend om een gewenste foutmarge te bereiken.
$$ n = \left( \frac{z^{\ast}}{E} \right)^2 \hat{p}(1-\hat{p}) $$
Waar $E$ de foutmarge is. Indien er geen voorkennis is over $\hat{p}$, wordt voor een conservatieve schatting $\hat{p} = 0.5$ gebruikt, aangezien dit de grootste foutmarge oplevert.
#### 3.3.2 Vergelijken van proporties in twee steekproeven
* **Doel:** Nagaan of er een significant verschil is tussen de proporties van twee verschillende populaties.
* **Nulhypothese (typisch):** $H_0: p_1 = p_2$.
* **Toetsingsgrootheid (z-toets voor proporties):**
$$ z = \frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)_0}{\sqrt{\hat{p}_{pooled} \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}} $$
Waarbij $\hat{p}_{pooled}$ de gepoolde proportie is ($\frac{x_1+x_2}{n_1+n_2}$).
* **Plus-vier betrouwbaarheidsinterval:** Kan ook worden toegepast om het verschil tussen twee proporties te schatten.
### 3.4 Inferentie voor populatiespreiding
Naast gemiddelden kunnen ook de spreidingen van populaties worden vergeleken.
#### 3.4.1 F-toets voor varianties
* **Doel:** Het vergelijken van de varianties van twee populaties.
* **Nulhypothese:** $H_0: \sigma_1^2 = \sigma_2^2$.
* **Toetsingsgrootheid:** De F-statistiek is de ratio van de twee steekproefvarianties.
$$ F = \frac{s_1^2}{s_2^2} $$
* **F-verdeling:** De F-toetsingsgrootheid volgt een F-verdeling, die scheef is verdeeld en afhangt van twee vrijheidsgraden ($df_1$ en $df_2$, gerelateerd aan $n_1-1$ en $n_2-1$). Deze verdeling wordt gebruikt om de p-waarde te bepalen.
### 3.5 Niet-parametrische alternatieven
Wanneer de aannames van parametrische toetsen (zoals normaliteit) geschonden worden en data transformatie niet helpt, kunnen niet-parametrische toetsen worden gebruikt.
* **Bootstrap methode:** Een resamplingtechniek waarbij de steekproef behandeld wordt als een populatie om de steekproevenverdeling te simuleren. Dit vereist geen aannames over de populatieverdeling.
* **Wilcoxon rangtekentoets:** Een niet-parametrisch alternatief voor de gepaarde t-toets, gebaseerd op de rangen van de verschillen tussen gepaarde waarnemingen.
* **Wilcoxon rangsomtoets (ook Mann-Whitney U-test genoemd):** Een niet-parametrisch alternatief voor de 2-steekproeven t-toets voor onafhankelijke groepen, gebaseerd op de rangen van alle waarnemingen samen.
**Tip:** Niet-parametrische toetsen hebben over het algemeen een lager onderscheidingsvermogen (power) dan hun parametrische tegenhangers wanneer de aannames van de parametrische toetsen wel voldaan zijn. Echter, ze zijn een waardevol alternatief wanneer deze aannames niet houdbaar zijn.
---
# Niet-parametrische toetsen en correlatie/regressie
Dit deel van de studiebegeleiding behandelt methoden die alternatieven bieden voor parametrische toetsen, met een focus op niet-parametrische toetsen, de bootstrap methode, en technieken voor correlatie en regressieanalyse.
### 4.1 Alternatieven voor parametrische toetsen
Parametrische toetsen vereisen specifieke aannames over de verdeling van de populatiegegevens (zoals normaliteit). Wanneer deze aannames niet voldaan zijn, bieden niet-parametrische toetsen een uitkomst.
#### 4.1.1 Bootstrap methode
De bootstrap methode is een resamplimg techniek die geen aannames doet over de verdeling van de populatie.
* **Werkwijze:** De steekproef wordt behandeld als een populatie, waaruit met teruglegging herhaaldelijk nieuwe steekproeven worden getrokken. Dit simuleert de steekproevenverdeling.
* **Voordelen:** Flexibel en toepasbaar op diverse distributies.
* **Nadelen:** Kan leiden tot variaties in resultaten tussen onderzoekers door de willekeurigheid van het resamplen.
#### 4.1.2 Niet-parametrische toetsen gebaseerd op rangorde
Deze toetsen maken gebruik van de rangorde van de data in plaats van de ruwe waarden.
##### 4.1.2.1 Wilcoxon rangtekentoets
Deze toets vergelijkt twee gerelateerde (gepaarde) metingen.
* **Werkwijze:** De verschillen tussen de gepaarde observaties worden berekend en vervolgens gerangschikt. De toets kijkt naar het teken van deze verschillen.
* **Hypothese:** De nulhypothese stelt dat de medianen van de twee populaties gelijk zijn, wat impliceert dat de som van positieve en negatieve rangordes gelijk zou moeten zijn.
* **Toetsingsgrootheid:** Vaak gebaseerd op de som van de rangordes (W) of de gecorrigeerde rangsom (Wcorr), afhankelijk van de specifieke berekening en tabel die gebruikt wordt.
##### 4.1.2.2 Wilcoxon rangsomtest (ook bekend als Mann-Whitney U-test of Wilcoxon-Mann-Whitney test)
Deze toets vergelijkt twee onafhankelijke groepen.
* **Werkwijze:** De data van beide groepen worden samengevoegd en gerangschikt. Vervolgens worden de rangordes van de twee groepen vergeleken. De toets kijkt naar de som van de rangordes van de kleinste groep (of de gecorrigeerde rangsom).
* **Hypothese:** De nulhypothese stelt dat de medianen van de twee populaties gelijk zijn.
* **Toetsingsgrootheid:** De rangsom van de ene groep (bijvoorbeeld de kleinste).
##### 4.1.2.3 Kruskal-Wallis toets
Dit is een niet-parametrisch alternatief voor de one-way ANOVA, gebruikt om de medianen van drie of meer onafhankelijke groepen te vergelijken.
* **Werkwijze:** Vergelijkbaar met de Wilcoxon rangsomtest, maar dan uitgebreid naar meerdere groepen. Data wordt samengevoegd en gerangschikt, waarna de rangordes per groep worden geanalyseerd.
* **Hypothese:** De nulhypothese stelt dat de medianen van alle populaties gelijk zijn.
#### 4.1.3 Kolmogorov-Smirnov toets
Deze toets wordt gebruikt om te bepalen of de gegevens uit een bepaalde verdeling komen of om te vergelijken of twee steekproeven uit dezelfde verdeling komen.
* **Werkwijze:** Vergelijkt de cumulatieve verdelingsfuncties van de waargenomen gegevens met de theoretische verdeling of met de cumulatieve verdelingsfunctie van een andere steekproef.
* **Toepassing:** Kan gebruikt worden om de normaliteit van de data te toetsen, een voorwaarde voor veel parametrische toetsen.
### 4.2 Correlatie en regressie
Dit deel behandelt lineaire relaties tussen variabelen en het gebruik van deze relaties voor voorspelling.
#### 4.2.1 Correlatie
Correlatie meet de sterkte en richting van de lineaire relatie tussen twee variabelen.
##### 4.2.1.1 Pearson correlatiecoëfficiënt ($r$)
Meet de lineaire samenhang tussen twee continue variabelen.
##### 4.2.1.2 Spearman rangcorrelatiecoëfficiënt ($\rho$)
Meet de monotone samenhang tussen twee variabelen, gebruikmakend van hun rangordes. Dit is een niet-parametrisch alternatief voor de Pearson correlatie.
#### 4.2.2 Lineaire regressie
Lineaire regressie is een techniek om de relatie tussen een afhankelijke variabele ($Y$) en een of meer onafhankelijke variabelen ($X$) te modelleren.
##### 4.2.2.1 Eenvoudige lineaire regressie
Modelleert de relatie tussen één afhankelijke variabele en één onafhankelijke variabele.
* **Model:** De regressierechte wordt beschreven door de vergelijking:
$$Y = \beta_0 + \beta_1 X + \epsilon$$
Waarbij:
* $Y$ is de afhankelijke variabele.
* $X$ is de onafhankelijke variabele.
* $\beta_0$ is het intercept (de waarde van $Y$ wanneer $X$ nul is).
* $\beta_1$ is de regressiecoëfficiënt of helling (de verwachte verandering in $Y$ voor een eenheidstoename in $X$).
* $\epsilon$ is de foutterm (residu), die de variabiliteit in $Y$ vertegenwoordigt die niet door $X$ wordt verklaard.
##### 4.2.2.2 Meervoudige lineaire regressie
Modelleert de relatie tussen één afhankelijke variabele en twee of meer onafhankelijke variabelen.
* **Model:** De vergelijking wordt uitgebreid met een coëfficiënt voor elke onafhankelijke variabele:
$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon$$
Waarbij:
* $X_1, X_2, \dots, X_k$ zijn de onafhankelijke variabelen.
* $\beta_1, \beta_2, \dots, \beta_k$ zijn de regressiecoëfficiënten voor de respectieve onafhankelijke variabelen.
#### 4.2.3 Interpretatie van regressie-uitkomsten
##### 4.2.3.1 Regressierechte
De lijn die de beste lineaire aanpassing aan de data weergeeft. De schatting van deze lijn wordt vaak verkregen via de kleinste kwadratenmethode.
##### 4.2.3.2 Residuen
De verschillen tussen de waargenomen waarden van de afhankelijke variabele en de voorspelde waarden volgens het regressiemodel.
* **Belang:** Residuen worden geanalyseerd om de aannames van het regressiemodel te controleren (bv. normaliteit, homoscedasticiteit). Een residuplot toont de residuen tegen de voorspelde waarden of tegen de onafhankelijke variabelen.
##### 4.2.3.3 $R$-kwadraat ($R^2$)
De determinatiecoëfficiënt. Het geeft het proportie van de totale variantie in de afhankelijke variabele weer die verklaard wordt door de onafhankelijke variabele(n) in het model.
* **Interpretatie:** Een $R^2$ van 0.60 betekent dat 60% van de variantie in $Y$ verklaard wordt door de $X$-variabele(n). Een hogere $R^2$ duidt op een betere fit van het model.
* **Adjusted $R^2$:** Een aangepaste versie van $R^2$ die rekening houdt met het aantal voorspellers in het model. Dit voorkomt overschatting van de verklaarde variantie bij toevoeging van irrelevante variabelen.
##### 4.2.3.4 Significantie van regressiecoëfficiënten
De regressiecoëfficiënten ($\beta_1, \beta_2, \dots$) worden getoetst op significantie om te bepalen of ze significant verschillen van nul.
* **T-toets:** Vaak gebruikt om de significantie van individuele regressiecoëfficiënten te toetsen. Een significant resultaat suggereert dat de corresponderende onafhankelijke variabele een significante bijdrage levert aan de voorspelling van de afhankelijke variabele.
* **P-waarde:** Geeft de kans aan om een dergelijk verschil of een extremer verschil te observeren als de nulhypothese (dat de coëfficiënt nul is) waar zou zijn.
##### 4.2.3.5 Invloed van verschillende variabelen op voorspellingsmodellen
* **Gestandaardiseerde coëfficiënten (Beta):** Deze coëfficiënten worden gebruikt om het relatieve belang van verschillende onafhankelijke variabelen te vergelijken, omdat ze op dezelfde schaal zijn gebracht.
* **Tolerantie en VIF (Variance Inflation Factor):** Deze maten worden gebruikt om multicollineariteit te detecteren, een situatie waarin onafhankelijke variabelen sterk met elkaar gecorreleerd zijn. Een lage tolerantie of een hoge VIF suggereert multicollineariteit, wat de interpretatie van de coëfficiënten kan bemoeilijken.
* **Toevoeging van variabelen:** Het toevoegen van nieuwe variabelen aan een regressiemodel kan de $R^2$ verhogen, maar het is belangrijk om te beoordelen of de toegevoegde variabele een significante en zinvolle bijdrage levert. Dit kan worden geëvalueerd aan de hand van de verandering in $R^2$ of door de significantie van de coëfficiënt van de nieuwe variabele te toetsen.
#### 4.2.4 F-toets (in regressiecontext)
De F-toets wordt gebruikt om de algehele significantie van het regressiemodel te toetsen.
* **Hypothese:**
* Nulhypothese ($H_0$): Alle regressiecoëfficiënten (behalve het intercept) zijn gelijk aan nul. Het model verklaart geen variantie.
* Alternatieve hypothese ($H_a$): Ten minste één regressiecoëfficiënt is niet gelijk aan nul. Het model verklaart een significante hoeveelheid variantie.
* **Interpretatie:** Een significante F-toets suggereert dat het regressiemodel als geheel significant is.
#### 4.2.5 Vergelijking van varianties (F-test)
Hoewel niet direct een deel van correlatie/regressie, wordt de F-verdeling ook gebruikt om varianties van twee groepen te vergelijken.
* **Werkwijze:** De ratio van twee varianties wordt berekend. De verdeling kent twee vrijheidsgraden, één voor elke groep.
* **Toepassing:** Kan gebruikt worden als voorwaardecontrole voor sommige statistische toetsen of om te bepalen of groepen een gelijke spreiding hebben.
> **Tip:** Bij het interpreteren van regressiemodellen is het cruciaal om de modelaannames te controleren, zoals de normaliteit van de residuen, de homoscedasticiteit (gelijke variantie van residuen over de voorspelde waarden) en de onafhankelijkheid van de observaties. Residuanalyses zijn hierbij essentieel.
---
# Variantieanalyse (ANOVA) en contrasten
Hier is een gedetailleerde studiegids over Variantieanalyse (ANOVA) en contrasten, opgesteld volgens jouw instructies.
## 5. Variantieanalyse (ANOVA) en contrasten
Dit deel van de cursus introduceert de variantieanalyse (ANOVA) als een methode om gemiddelden van meer dan twee groepen te vergelijken, inclusief de vereiste voorwaarden, interpretatie van resultaten, en de toepassing van contrasten en posthoc-vergelijkingen om specifieke hypothesen te toetsen.
### 5.1 Inleiding tot variantieanalyse (ANOVA)
Variantieanalyse (ANOVA) is een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer onafhankelijke groepen te vergelijken. Het hoofddoel is om te bepalen of er een statistisch significant verschil is tussen de gemiddelden van deze groepen. ANOVA doet dit door de totale variatie in de data op te splitsen in verschillende bronnen: variatie *tussen* de groepen en variatie *binnen* de groepen.
#### 5.1.1 De basisgedachte van ANOVA
ANOVA werkt op basis van het principe dat de totale variatie in de data kan worden ontleed in twee componenten:
* **Variatie tussen groepen (Between-group variance):** Dit is de variatie die wordt toegeschreven aan verschillen tussen de gemiddelden van de verschillende groepen. Als de groepsgemiddelden sterk van elkaar verschillen, zal deze component groot zijn.
* **Variatie binnen groepen (Within-group variance / Error variance):** Dit is de variatie die wordt toegeschreven aan willekeurige fouten of individuele verschillen binnen elke groep. Dit wordt ook wel de 'error' variatie genoemd.
De kern van ANOVA is de vergelijking van deze twee bronnen van variatie. Als de variatie *tussen* de groepen significant groter is dan de variatie *binnen* de groepen, suggereert dit dat er een statistisch significant verschil bestaat tussen de groepsgemiddelden.
#### 5.1.2 De F-statistiek
ANOVA gebruikt de F-statistiek om de verhouding tussen de tussen-groepen variantie en de binnen-groepen variantie te kwantificeren. De F-statistiek wordt als volgt berekend:
$$F = \frac{\text{Variatie tussen groepen}}{\text{Variatie binnen groepen}}$$
$$F = \frac{MS_{between}}{MS_{within}}$$
Waar:
* $MS_{between}$ staat voor Mean Square Between groups (gemiddelde kwadratensom tussen groepen).
* $MS_{within}$ staat voor Mean Square Within groups (gemiddelde kwadratensom binnen groepen).
De F-verdeling is een scheef verdeelde verdeling die wordt gekenmerkt door twee vrijheidsgraden: één voor de teller (groepen) en één voor de noemer (fouten).
#### 5.1.3 Voorwaarden voor ANOVA
Voor een correcte toepassing van ANOVA zijn er verschillende voorwaarden waaraan de data moet voldoen:
* **Onafhankelijkheid van waarnemingen:** De waarnemingen binnen en tussen de groepen moeten onafhankelijk zijn. Dit betekent dat de meting van de ene persoon geen invloed mag hebben op de meting van een andere persoon.
* **Normaliteit:** De residuen (de verschillen tussen de waargenomen waarden en de groepsgemiddelden) moeten bij benadering normaal verdeeld zijn binnen elke groep. Robuustheid van de t-test (en dus ook ANOVA) houdt in dat lichte schendingen van normaliteit, vooral bij grotere steekproeven, niet direct problematisch zijn.
* **Homogeniteit van varianties (Homoscedasticiteit):** De varianties van de afhankelijke variabele moeten gelijk zijn voor alle groepen. Dit kan worden getoetst met de Levene-test. Als de Levene-test significant is (p < 0.05), suggereert dit dat de varianties niet gelijk zijn, en men mogelijk aangepaste formules voor ongelijke varianties (zoals Welch's ANOVA) of een conservatievere benadering van de vrijheidsgraden moet overwegen.
> **Tip:** Robuustheid is een belangrijk concept. ANOVA en t-toetsen zijn relatief robuust tegen schendingen van de normaliteitsvoorwaarde, vooral bij grotere, gelijkwaardige steekproeven. De homogeniteit van varianties is iets gevoeliger, maar ook hier biedt de Levene-test een richtlijn.
#### 5.1.4 Het interpreteren van ANOVA-resultaten
Na het uitvoeren van de ANOVA, wordt de F-statistiek vergeleken met een kritieke waarde uit de F-verdeling, of er wordt gekeken naar de p-waarde.
* Als de p-waarde kleiner is dan het gekozen significantieniveau (meestal $\alpha = 0.05$), verwerpt men de nulhypothese. De nulhypothese stelt dat er geen verschil is tussen de groepsgemiddelden (alle groepsgemiddelden zijn gelijk).
* Als de p-waarde groter is dan het significantieniveau, verwerpt men de nulhypothese niet. Dit betekent dat er onvoldoende bewijs is om te concluderen dat er een verschil is tussen de groepsgemiddelden.
Het is belangrijk op te merken dat een significant resultaat van een ANOVA (het verwerpen van de nulhypothese) alleen aangeeft *dat* er ergens een verschil is tussen de groepen, maar niet *welke* specifieke groepen van elkaar verschillen. Hiervoor zijn contrasten en posthoc-tests nodig.
### 5.2 contrasten
Contrasten worden gebruikt om specifieke, vooraf gedefinieerde hypotheses te toetsen na een significante ANOVA. Ze maken het mogelijk om gerichte vergelijkingen te maken tussen groepsgemiddelden, in plaats van alleen een algemene conclusie te trekken over alle groepen tegelijk.
#### 5.2.1 Definitie en doel van contrasten
Een contrast is een lineaire combinatie van de groepsgemiddelden die wordt getest op significantie. Het doel is om specifieke, theoretisch belangrijke vragen te beantwoorden over de relaties tussen de groepsgemiddelden. Contrasten moeten *voorafgaand* aan de data-analyse worden gespecificeerd om het risico op "capitalizing on chance" (het vinden van significante resultaten door het testen van te veel hypothesen) te vermijden.
#### 5.2.2 Lineaire combinaties en coëfficiënten
Een contrast wordt uitgedrukt als een lineaire combinatie van de groepsgemiddelden:
$$c = a_1\bar{y}_1 + a_2\bar{y}_2 + \dots + a_k\bar{y}_k$$
Waar:
* $c$ is de waarde van het contrast.
* $\bar{y}_i$ is het gemiddelde van groep $i$.
* $a_i$ zijn de coëfficiënten die aan elk groepsgemiddelde worden toegekend.
Voor een geldig contrast moeten de som van de coëfficiënten ($a_i$) nul zijn: $\sum a_i = 0$. Dit weerspiegelt het idee van een vergelijking (verschil) tussen groepen.
> **Tip:** De coëfficiënten ($a_i$) geven het "gewicht" aan dat aan elk groepsgemiddelde wordt toegekend. Voor een eenvoudige vergelijking tussen twee groepen, bijvoorbeeld groep 1 en groep 2, terwijl groep 3 buiten beschouwing wordt gelaten, kunnen de coëfficiënten $a_1=1$, $a_2=-1$, en $a_3=0$ zijn.
#### 5.2.3 Het toetsen van contrasten
Nadat de coëfficiënten zijn bepaald, wordt een t-toets gebruikt om de significantie van het contrast te evalueren. De t-statistiek voor een contrast wordt berekend als:
$$t = \frac{c}{\sqrt{MS_{within} \left(\frac{a_1^2}{n_1} + \frac{a_2^2}{n_2} + \dots + \frac{a_k^2}{n_k}\right)}}$$
Waar:
* $c$ is de waarde van het contrast.
* $MS_{within}$ is de gemiddelde kwadratensom binnen groepen uit de ANOVA.
* $a_i$ zijn de contrastcoëfficiënten.
* $n_i$ is de steekproefgrootte van groep $i$.
De vrijheidsgraden voor deze t-toets zijn gelijk aan de vrijheidsgraden van de $MS_{within}$ in de ANOVA.
#### 5.2.4 Soorten contrasten
* **Eenvoudige contrasten:** Vergelijken twee groepen tegelijkertijd (bijvoorbeeld groep 1 vs. groep 2).
* **Gepoolde contrasten:** Vergelijken een groep met het gemiddelde van twee of meer andere groepen.
* **Gemanipuleerde contrasten:** Vergelijken een subset van groepen met een andere subset van groepen. Bijvoorbeeld, het vergelijken van het gemiddelde van twee nieuwe methoden met het gemiddelde van een klassieke methode. Dit kan worden uitgedrukt met coëfficiënten zoals $a_1 = 1/2$, $a_2 = 1/2$, $a_3 = -1/3$, $a_4 = -1/3$, $a_5 = -1/3$ als er vijf groepen zijn.
> **Voorbeeld:** Stel we hebben drie groepen (A, B, C) met gemiddelden $\bar{y}_A$, $\bar{y}_B$, en $\bar{y}_C$. We willen weten of groep A significant verschilt van groep B. We definiëren het contrast met coëfficiënten $a_A = 1$, $a_B = -1$, en $a_C = 0$. Het contrast is dan $c = 1 \cdot \bar{y}_A - 1 \cdot \bar{y}_B + 0 \cdot \bar{y}_C = \bar{y}_A - \bar{y}_B$. Dit contrast wordt vervolgens getoetst met een t-test.
### 5.3 Posthoc-vergelijkingen
Wanneer de ANOVA een significant resultaat oplevert, maar er geen specifieke, vooraf gedefinieerde contrasten zijn getest, worden posthoc-vergelijkingen gebruikt. Deze tests voeren systematisch alle mogelijke parenvergelijkingen tussen de groepen uit.
#### 5.3.1 Het doel van posthoc-vergelijkingen
Posthoc-vergelijkingen helpen bij het identificeren welke specifieke groepen van elkaar verschillen wanneer de algehele ANOVA significant is. Ze zijn nuttig wanneer er geen duidelijke theoretische redenen zijn om specifieke paren te vergelijken *voorafgaand* aan de analyse.
#### 5.3.2 Methoden voor posthoc-vergelijkingen
Er zijn verschillende methoden voor posthoc-vergelijkingen, die variëren in hun strengheid en gevoeligheid voor het detecteren van verschillen:
* **Least Significant Difference (LSD):** Deze methode voert t-toetsen uit voor alle paren van groepen. Het is een van de minst conservatieve methoden en kan het risico op Type I-fouten verhogen (het ten onrechte verwerpen van de nulhypothese), vooral bij veel groepen. De LSD wordt soms ook wel de "foertmethode" genoemd omdat het de t-toetsen uitvoert zonder de aanpassing voor het veelvuldig toetsen.
* **Bonferroni correctie:** Dit is een zeer conservatieve methode. Het aangepaste significantieniveau voor elke individuele vergelijking wordt verkregen door het oorspronkelijke significantieniveau ($\alpha$) te delen door het aantal gemaakte vergelijkingen. Bijvoorbeeld, als er 3 groepen zijn, zijn er 3 mogelijke parenvergelijkingen. Het nieuwe significantieniveau wordt dan $\alpha/3$. Hoewel dit het risico op Type I-fouten sterk vermindert, vergroot het de kans op Type II-fouten (het niet verwerpen van de nulhypothese wanneer deze onjuist is).
* **Tukey's Honestly Significant Difference (HSD):** Deze methode is ontworpen om de foutenkans van Type I te controleren voor alle mogelijke parenvergelijkingen. Het is een populaire en veelgebruikte methode die een goede balans biedt tussen het detecteren van werkelijke verschillen en het controleren van Type I-fouten. De berekening houdt rekening met de steekproefgroottes en de variantie binnen de groepen.
* **Scheffé methode:** Deze methode is zeer flexibel en kan ook worden gebruikt om complexe contrasten te testen (niet alleen parenvergelijkingen). Het is een van de meest conservatieve methoden, vergelijkbaar met Bonferroni, en kan leiden tot een lage power (kans om een werkelijk verschil te detecteren).
> **Tip:** De keuze voor een posthoc-methode hangt af van de specifieke onderzoeksvraag en de gewenste balans tussen Type I- en Type II-fouten. Bonferroni en Scheffé zijn strenger (minder power), terwijl LSD en Tukey's HSD iets meer power bieden, maar met een potentieel hoger risico op Type I-fouten (afhankelijk van de implementatie).
#### 5.3.3 Interpretatie van posthoc-resultaten
De resultaten van posthoc-tests worden meestal gepresenteerd in tabellen die aangeven welke paren van groepen significant van elkaar verschillen, vaak met de berekende p-waarden voor elke vergelijking. Softwarepakketten zoals SPSS zullen deze berekeningen automatiseren en de resultaten in een overzichtelijke tabel weergeven.
> **Voorbeeld:** Na een significante ANOVA met drie groepen (Methode 1, Methode 2, Methode 3), kan een posthoc-test aantonen dat Methode 1 significant verschilt van Methode 2, maar dat er geen significant verschil is tussen Methode 1 en Methode 3, of tussen Methode 2 en Methode 3. Dit zou betekenen dat de nieuwe methoden (bijvoorbeeld 2 en 3) anders presteren dan de klassieke methode (bijvoorbeeld 1), maar dat er geen significant verschil is tussen de twee nieuwe methoden onderling.
### 5.4 Relatie met andere toetsen
* **ANOVA als uitbreiding van de t-test:** Wanneer een ANOVA wordt uitgevoerd met slechts twee groepen, is het resultaat equivalent aan een tweezijdige t-toets (met $F = t^2$). ANOVA generaliseert dit principe naar situaties met meer dan twee groepen.
* **Contrasten en t-toetsen:** Het toetsen van een contrast in ANOVA is in feite een t-toets die is aangepast voor de context van een groepsvergelijking, waarbij rekening wordt gehouden met de gepoolde variantie van de ANOVA.
Dit overzicht van variantieanalyse en contrasten biedt een stevige basis voor het begrijpen en toepassen van deze krachtige statistische methoden in onderzoek.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Inductieve statistiek | Een tak van statistiek die zich bezighoudt met het trekken van conclusies over een populatie op basis van een steekproef. Het gaat om het generaliseren van bevindingen van een beperkte dataset naar een grotere groep. |
| Betrouwbaarheidsinterval | Een reeks waarden binnen welke de ware populatieparameter waarschijnlijk ligt, met een bepaalde mate van zekerheid. Het geeft een interval waarbinnen het populatiegemiddelde verwacht wordt te vallen. |
| Steekproefgemiddelde | Het gemiddelde berekend uit de gegevens van een steekproef. Dit wordt vaak gebruikt als een schatting voor het populatiegemiddelde. |
| Populatiegemiddelde | Het gemiddelde van alle individuen in een gehele populatie. Dit is meestal onbekend en wordt geschat met behulp van steekproefgegevens. |
| Toetsen (Hypothesetoetsing) | Een statistische procedure om te bepalen of er voldoende bewijs is in een steekproef om de nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Steekproevenverdeling | De verdeling van resultaten die je zou verwachten als je herhaaldelijk een steekproef zou trekken uit dezelfde populatie. Dit helpt bij het begrijpen van de variabiliteit van steekproefstatistieken. |
| Normaalverdeling (Gauss-verdeling) | Een symmetrische, klokvormige kansverdeling die veel voorkomt in de statistiek. Het is gecentreerd rond het gemiddelde en de spreiding wordt bepaald door de standaardafwijking. |
| Foutmarge | Het verschil tussen de schatting uit een steekproef en de ware populatiewaarde. Het vertegenwoordigt de onzekerheid in de schatting. |
| Standaardafwijking (sa) | Een maat voor de spreiding van gegevens rond het gemiddelde. Een kleinere standaardafwijking geeft aan dat de gegevens dichter bij het gemiddelde liggen. |
| Aselecte steekproef | Een steekproef waarbij elk individu in de populatie een gelijke kans heeft om geselecteerd te worden. Dit is cruciaal voor representativiteit. |
| Nulhypothese ($H_0$) | Een stelling die stelt dat er geen effect, verschil of relatie is tussen variabelen. Het is de hypothese die we proberen te weerleggen. |
| Alternatieve hypothese ($H_1$ of $H_a$) | Een stelling die het tegendeel beweert van de nulhypothese. Het stelt dat er wel een effect, verschil of relatie is. |
| Toetsingsgrootheid | Een waarde berekend uit steekproefgegevens die wordt gebruikt om te bepalen of de nulhypothese verworpen moet worden. |
| Overschrijdingskans (p-waarde) | De kans om een resultaat te verkrijgen dat net zo extreem of extremer is dan het waargenomen resultaat, aangenomen dat de nulhypothese waar is. |
| Significant verschil | Een verschil dat statistisch significant is, wat betekent dat het onwaarschijnlijk is dat het is opgetreden door toeval alleen. Meestal gedefinieerd door een p-waarde kleiner dan een vooraf bepaald significantieniveau (alfa). |
| Resampling | Een methode waarbij herhaaldelijk steekproeven worden getrokken uit de oorspronkelijke steekproef om de verdeling van een statistiek te schatten. |
| Onderscheidingsvermogen (Power) | De kans dat een statistische toets de nulhypothese terecht verwerpt wanneer de alternatieve hypothese waar is. Het is het vermogen om een echt effect te detecteren. |
| Type I fout (alfa) | Het verwerpen van de nulhypothese terwijl deze waar is (vals positief). |
| Type II fout (beta) | Het niet verwerpen van de nulhypothese terwijl deze onwaar is (vals negatief). |
| Standaardnormaalverdeling | Een normaalverdeling met een gemiddelde van 0 en een standaardafwijking van 1. Vaak gebruikt na standaardisering van gegevens. |
| Standaardisering (z-score) | Het proces van het transformeren van ruwe gegevens naar z-scores door het gemiddelde af te trekken en te delen door de standaardafwijking. Dit maakt vergelijking van waarden uit verschillende verdelingen mogelijk. |
| T-toets | Een statistische toets die wordt gebruikt om de gemiddelden van twee groepen te vergelijken, vooral wanneer de populatie standaardafwijking onbekend is. |
| Vrijheidsgraden (df) | Een parameter die de vorm van een t-verdeling bepaalt en gerelateerd is aan de steekproefgrootte. Het geeft het aantal onafhankelijke waarden aan dat vrij kan variëren. |
| Betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden | Een interval dat waarschijnlijk het ware verschil tussen de gemiddelden van twee populaties bevat. |
| T-verdeling | Een kansverdeling die lijkt op de normaalverdeling maar dikkere staarten heeft, vooral bij kleinere steekproeven. Gebruikt in t-toetsen. |
| Populatieproportie | Het percentage van een populatie dat een bepaalde eigenschap heeft. |
| Proportie ($ \hat{p} $) | De proportie van een kenmerk in een steekproef. |
| Significantietoets voor een populatieproportie | Een statistische toets om te bepalen of de populatieproportie verschilt van een gespecificeerde waarde. |
| Steekproefgrootte | Het aantal waarnemingen in een steekproef. |
| Foutmarge bij proporties | Het interval rond een geschatte proportie dat waarschijnlijk de ware populatieproportie bevat. |
| Niet-parametrische toetsen | Statistische toetsen die geen aannames doen over de verdeling van de populatiegegevens (bv. normaliteit). Ze zijn vaak gebaseerd op rangordes van de gegevens. |
| Bootstrap methode | Een resamplingtechniek die wordt gebruikt om de standaardfout en betrouwbaarheidsintervallen te schatten door herhaaldelijk steekproeven met teruglegging te trekken uit de oorspronkelijke steekproef. |
| Wilcoxon rangteken toets | Een niet-parametrische toets die wordt gebruikt om de medianen van twee gerelateerde groepen te vergelijken. |
| Wilcoxon rangsom test (ook bekend als Mann-Whitney U test) | Een niet-parametrische toets die wordt gebruikt om de medianen van twee onafhankelijke groepen te vergelijken. |
| Variantieanalyse (ANOVA) | Een statistische methode die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. |
| F-statistiek | De toetsingsgrootheid die wordt gebruikt in ANOVA, berekend als de ratio van de variantie tussen groepen tot de variantie binnen groepen. |
| Contrasten (in ANOVA) | Specifieke lineaire combinaties van groepsgemiddelden die worden getest om gerichte hypothesen te onderzoeken. |
| Posthoc vergelijkingen | Meervoudige vergelijkingen die na een significante ANOVA worden uitgevoerd om te bepalen welke specifieke groepsgemiddelden van elkaar verschillen. |
| Bonferroni correctie | Een methode om het significantieniveau aan te passen bij het uitvoeren van meerdere vergelijkingen, om de kans op Type I fouten te verminderen. |
| Regressieanalyse | Een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren. |
| Regressierechte | De grafische weergave van de lineaire relatie tussen variabelen in een regressieanalyse. |
| Regressielijn | Een lijn die het beste de relatie tussen de afhankelijke en onafhankelijke variabele weergeeft in een regressiemodel. |
| Residu | Het verschil tussen de waargenomen waarde van de afhankelijke variabele en de voorspelde waarde uit het regressiemodel. |
| R-kwadraat ($R^2$) | Een maat die aangeeft welk percentage van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n) in het model. |
| Gecorrigeerde $R^2$ (Adjusted $R^2$) | Een aangepaste versie van $R^2$ die rekening houdt met het aantal voorspellende variabelen in het model. Het voorkomt overschatting van de verklaarde variantie. |
| Correlatie | Een statistische maat die de sterkte en richting van de lineaire relatie tussen twee variabelen aangeeft. |
| Multi-collineariteit | Een fenomeen in regressieanalyse waarbij twee of meer voorspellende variabelen sterk met elkaar gecorreleerd zijn. |
| Tolerantie | Een maat voor multi-collineariteit, die aangeeft hoeveel van de variantie in een voorspellende variabele niet wordt verklaard door andere voorspellende variabelen in het model. |
| F-waarde | De toetsingsgrootheid in ANOVA die de variantie tussen groepen vergelijkt met de variantie binnen groepen. |
| Variantie binnen groepen | De spreiding van de gegevens binnen elke individuele groep in een ANOVA. |
| Variantie tussen groepen | De spreiding van de groepsgemiddelden rond het algemene gemiddelde in een ANOVA. |
| Levene's test | Een statistische toets die wordt gebruikt om de gelijkheid van varianties tussen groepen te controleren, een belangrijke voorwaarde voor veel statistische toetsen. |
| Kolmogorov-Smirnov test | Een niet-parametrische toets die wordt gebruikt om te bepalen of twee steekproeven uit dezelfde verdeling komen, of om te controleren of een steekproef uit een specifieke verdeling komt. |