Cover
立即免费开始 Belangrijke dingen hoc statistiek.docx
Summary
# Basisconcepten en voorwaarden voor statistische toetsen
Dit onderdeel behandelt de fundamentele principes en voorwaarden die essentieel zijn voor het correct toepassen en interpreteren van statistische toetsen.
### 1.1 Fundamentele principes van statistische toetsen
#### 1.1.1 Enkelvoudige aselecte steekproef
De geldigheid van schattingsformules in de statistiek is direct afhankelijk van de wijze waarop gegevens zijn verkregen. Deze formules gelden uitsluitend onder de voorwaarde dat de data afkomstig zijn uit een **enkelvoudige aselecte steekproef**. Dit betekent dat elk element in de populatie een gelijke kans heeft om in de steekproef te worden opgenomen, en dat de selectie van het ene element geen invloed heeft op de selectie van een ander element.
> **Tip:** Als de steekproef niet aselect is, kunnen de resultaten van statistische toetsen misleidend zijn, omdat ze niet representatief zijn voor de populatie.
#### 1.1.2 De rol van alpha ($\alpha$)
Alpha ($\alpha$) is het significantieniveau dat wordt gebruikt in hypothesetoetsing. Het vertegenwoordigt de maximale kans op het maken van een Type I fout (het verwerpen van de nulhypothese terwijl deze waar is).
* **Hoe kleiner $\alpha$**, hoe kleiner de kans op een Type I fout. Dit leidt er echter ook toe dat de nulhypothese sneller wordt aanvaard en dat het moeilijker wordt om een echt effect te detecteren. Er is dus een afweging tussen het minimaliseren van Type I fouten en het maximaliseren van het onderscheidingsvermogen (power) om Type II fouten te voorkomen.
#### 1.1.3 Betrouwbaarheidsintervallen (BI)
Een betrouwbaarheidsinterval (BI) geeft een reeks waarden aan die, met een bepaalde mate van betrouwbaarheid, de ware populatiewaarde van een onderzochte variabele bevat.
* Een **95% betrouwbaarheidsinterval** betekent dat als de steekproefprocedure vele malen herhaald zou worden, 95% van de gecreëerde intervallen de ware populatiewaarde zou bevatten.
* Een **kleiner BI** suggereert een hogere betrouwbaarheid en een kleinere foutmarge, wat betekent dat de schatting nauwkeuriger is.
* Bij te **kleine steekproeven** kan het betrouwbaarheidsinterval te breed uitvallen, wat de onzekerheid over de populatiewaarde vergroot.
#### 1.1.4 Steekproefgrootte en spreiding
Zowel de grootte van de steekproef als de spreiding van de data in de populatie hebben een significante impact op de resultaten van statistische toetsen en de precisie van schattingen.
* **Steekproefgrootte ($n$)**: De variabiliteit van een steekproefgrootheid (zoals het steekproefgemiddelde) wordt beschreven door de spreiding van zijn steekproevenverdeling. Deze variabiliteit kan verkleind worden door de **grootte van de steekproef te vergroten**. Grotere steekproeven leiden doorgaans tot nauwkeurigere schattingen en een kleiner betrouwbaarheidsinterval.
* **Spreiding in de populatie ($\sigma^2$)**: Hoe groter de spreiding in de populatie, hoe meer verschillende resultaten er ontstaan wanneer er steekproeven uit de populatie worden getrokken. Een beter meetinstrument produceert minder toevallige fouten, wat resulteert in een **kleinere spreiding in de populatie**.
> **Tip:** Het vergroten van de steekproefgrootte is een van de meest effectieve manieren om de precisie van statistische conclusies te verbeteren.
### 1.2 Robuustheid van statistische methoden
Robuustheid verwijst naar de mate waarin de resultaten van een statistische toets ongevoelig zijn voor schendingen van de onderliggende aannames.
* **Algemeen**: Statistici streven naar robuuste methoden, wat betekent dat kleine afwijkingen van de aannames (zoals normaliteit) de conclusies niet significant mogen beïnvloeden.
* **Effect van uitschieters**: Het **gemiddelde** is een maat die niet erg robuust is. Het kan sterk beïnvloed worden door uitschieters of ongewone observaties in de data.
* **Niet-parametrische toetsen**: Niet-parametrische statistische toetsen (zoals de Wilcoxon-toets) hebben doorgaans een kleiner onderscheidingsvermogen dan parametrische toetsen (zoals de t-toets), maar zijn **robuuster**. Ze gaan niet uit van een normaal verdeelde populatie.
* **T-tests en normaliteit**: T-procedures zijn relatief accuraat, zelfs als de populatie niet normaal verdeeld is, mits de steekproeven **groot genoeg** zijn en er geen uitschieters zijn of de verdeling niet duidelijk scheef is. Als de steekproef klein is (bijvoorbeeld $n < 15$), moet de populatie wel exact normaal verdeeld zijn en mag er geen sprake zijn van scheefheid of uitschieters.
* **Resampling (Bootstrap)**: Technieken zoals bootstrap, die werken met teruglegging uit de steekproef, kunnen helpen om de robuustheid van schattingen te verbeteren, vooral wanneer de aannames van parametrische toetsen geschonden worden.
> **Voorbeeld:** Als je een gemiddelde wilt berekenen van de salarissen in een bedrijf, en er is één persoon met een extreem hoog salaris, dan zal dit gemiddelde sterk omhoog worden getrokken. Een mediaan, die minder gevoelig is voor uitschieters, zou dan een betere representatie kunnen geven.
### 1.3 Specifieke concepten en hun impact
#### 1.3.1 Vrijheidsgraden en de t-verdeling
De t-verdeling wordt gebruikt in t-tests wanneer de populatievariantie ($\sigma^2$) onbekend is en geschat wordt met de steekproefvariantie ($s^2$).
* De t-verdeling heeft **dikke staarten** vergeleken met de normaalverdeling, vooral bij kleine steekproeven. Dit betekent dat er een grotere afwijking van de nulhypothese nodig is om significantie te bereiken.
* Naarmate het aantal **vrijheidsgraden toeneemt** (wat meestal correleert met een grotere steekproefgrootte, vaak $n-1$), benadert de t-verdeling meer een normaalverdeling en worden de staarten dunner. Dit maakt het gemakkelijker om de nulhypothese te verwerpen.
* **Conservatief testen**: De t-test wordt als conservatiever beschouwd omdat het veronderstelt dat de staart van de steekproevenverdeling dikker is dan deze mogelijk is onder de normale verdeling, wat beschermt tegen het te snel verwerpen van de nulhypothese. De formule $n-1$ voor de vrijheidsgraden compenseert voor het gebruik van een steekproef in plaats van de gehele populatie, wat leidt tot betrouwbaardere resultaten.
> **Tip:** Bij kleine steekproeven (bv. $n < 30$) is het extra belangrijk om de aannames van de t-toets te controleren, omdat de t-verdeling dan significant afwijkt van de normaalverdeling.
#### 1.3.2 Onderscheidingsvermogen (Power)
Het onderscheidingsvermogen van een statistische toets is de kans dat de toets de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is (dus de kans op het detecteren van een echt effect).
* **Grotere power** betekent dat de verdelingen (bijvoorbeeld van gemiddelden) verder uit elkaar liggen, waardoor een echt effect makkelijker te detecteren is.
* Factoren die de power verhogen zijn: een grotere steekproefgrootte, een groter effect (verschil tussen gemiddeldes), en een kleiner $\alpha$.
* Niet-parametrische toetsen hebben doorgaans een **kleiner onderscheidingsvermogen** dan parametrische toetsen.
#### 1.3.3 Effectgrootte
Effectgrootte meet de omvang van het verschil of de relatie in de populatie.
* Niet-parametrische toetsen geven **geen directe informatie over de effectgrootte**, terwijl veel parametrische toetsen dit wel doen.
#### 1.3.4 Proporties en benadering van de normaalverdeling
Bij het toetsen van proporties geldt dat naarmate de populatieproportie ($p$) toeneemt, de steekproevenverdeling van de proportie meer de normaalverdeling benadert.
* **Correctie bij kleine steekproeven**: Om de nauwkeurigheid van betrouwbaarheidsintervallen bij proporties te verbeteren, vooral bij kleine steekproeven, kan een correctie worden toegepast, zoals het toevoegen van denkbeeldige observaties (bijvoorbeeld 2 successen en 2 mislukkingen).
* **Grootte van de foutmarge ($m$)**: Bij het plannen van een studie kan de steekproefgrootte zo worden gekozen dat een populatieproportie geschat kan worden met een gewenste foutmarge $m$. Deze foutmarge is het grootst wanneer $p = 0.5$.
#### 1.3.5 Relatief risico
Het relatief risico is een maat om twee proporties te vergelijken, gebaseerd op de verhouding tussen deze proporties.
* Een relatief risico gelijk aan 1 betekent dat beide proporties gelijk zijn.
#### 1.3.6 Chi-kwadraat toetsen
Chi-kwadraat toetsen worden gebruikt voor het analyseren van frequentiedata en relaties tussen categorische variabelen.
* Ze zijn een **benaderende methode** die nauwkeuriger wordt naarmate de cel-frequenties toenemen.
* Een grotere vrijheidsgraad zorgt ervoor dat de chi-kwadraat verdeling meer naar rechts verschuift en meer op een normaalverdeling gaat lijken.
* Hoge chi-kwadraat waarden duiden op een groot verschil tussen de waargenomen en verwachte frequenties, wat bewijs levert tegen de nulhypothese.
#### 1.3.7 Regressieanalyse
Regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele (y) en een of meer onafhankelijke variabelen (x) te modelleren.
* **Inferentie voor regressie**: Statistische inferentie in regressie maakt het mogelijk om conclusies te trekken over de populatie regressielijn op basis van steekproefgegevens. We toetsen of de relatie tussen x en y werkelijk lineair is, of dat het patroon mogelijk door toeval is ontstaan.
* **Regressiecoëfficiënten**: $\beta_1$ vertegenwoordigt de helling (de verwachte verandering in $y$ voor een eenheidstoename in $x$), en $\beta_0$ is de constante (de verwachte waarde van $y$ wanneer $x=0$). $B_0$ en $B_1$ zijn de schatters van $\beta_0$ en $\beta_1$ uit de steekproef. De verwachte waarde wordt gegeven door $\hat{y} = \beta_0 + \beta_1 X$.
* **F-toets in regressie**: De F-waarde in regressieanalyse is de verhouding van de variantie tussen de groepen (verklaard door het model) ten opzichte van de variantie binnen de groepen (onverklaard residu). Een hogere F-waarde duidt op een beter passend model.
* **Residu**: Het residu voor een waarneming is het verschil tussen de werkelijke waarde van $y$ en de voorspelde waarde door het regressiemodel. Het minimaliseren van de som van de gekwadrateerde residuen is een kernprincipe van de kleinste kwadratenmethode.
* **$R^2$ (Determinatiecoëfficiënt)**: $R^2$ meet de proportionele reductie in de fout bij het voorspellen van $y$ met het regressiemodel, vergeleken met het voorspellen van $y$ zonder gebruik te maken van de regressievergelijking (dus met het populatiegemiddelde). Een hogere $R^2$ betekent dat een groter deel van de variantie in $y$ wordt verklaard door het model. $R^2$ wordt echter beïnvloed door het aantal verklarende variabelen.
* **Collineariteit (Multicollineariteit)**: Dit treedt op wanneer twee of meer onafhankelijke variabelen sterk met elkaar correleren. Hoge collineariteit kan de schatting van regressiecoëfficiënten en hun standaardfouten beïnvloeden.
* **Tolerance**: Meet het aandeel van de variantie in een predictor dat *niet* verklaard kan worden door de andere predictoren. Een lage tolerance (bv. $< 0.1$) duidt op problemen.
* **VIF (Variance Inflation Factor)**: VIF is de inverse van tolerance ($VIF = 1 / \text{tolerance}$). Een VIF groter dan 2 (of soms 4 of 10, afhankelijk van de conventie) duidt op mogelijke problemen met multicollineariteit.
#### 1.3.8 ANOVA (Variantieanalyse)
ANOVA wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het kan worden beschouwd als een veralgemening van de t-toets.
* **Aannames**: ANOVA vereist dat de standaardafwijkingen tussen de groepen niet te veel verschillen. Een vuistregel is dat de grootste standaardafwijking gedeeld door de kleinste niet groter mag zijn dan 2. De test is ook redelijk robuust voor schendingen van normaliteit, vooral bij grote steekproeven.
* **Beslissing**: De beslissing over significantie hangt af van twee factoren:
1. De **omvang van de effecten** (de verschillen tussen de groepsgemiddelden).
2. De **variabiliteit binnen de groepen**.
Een significant resultaat wordt verkregen bij kleine variabiliteit binnen de groepen en grote verschillen tussen de gemiddelden.
* **F-waarde in ANOVA**: De F-waarde in ANOVA is de verhouding van de variantie *tussen* de groepen ten opzichte van de variantie *binnen* de groepen. Een F-waarde van 0 betekent dat alle groepsgemiddelden gelijk zijn. Een hogere F-waarde duidt op grotere verschillen tussen de gemiddelden.
* **Post-hoc testen**: Wanneer een ANOVA een significant resultaat oplevert (de nulhypothese dat alle gemiddelden gelijk zijn wordt verworpen), is verdere analyse nodig om te bepalen welke groepen specifiek van elkaar verschillen. Dit kan via:
* **Plots**: Visuele inspectie van de groepsgemiddelden.
* **Specifieke toetsen (contrasten of meervoudige vergelijkingen)**:
* **Contrasten**: Geplande, specifieke vergelijkingen die vooraf zijn gedefinieerd op basis van theoretische verwachtingen. Ze hebben een hoger onderscheidingsvermogen dan meervoudige vergelijkingen omdat ze specifieker zijn. Een contrast van 5 kan bijvoorbeeld betekenen dat een nieuwe methode gemiddeld 5 punten hoger scoort.
* **Meervoudige vergelijkingen**: Paarsgewijze significantietoetsen die worden uitgevoerd wanneer er geen specifieke voorafgaande hypothesen zijn. Populaire methoden zijn:
* **Bonferroni-methode**: Zeer conservatief (te streng), kan leiden tot het missen van echte verschillen. Het significantieniveau wordt gedeeld door het aantal testen.
* **MSD-methode**: Geeft het minimaal significant verschil tussen twee steekproefgemiddelden aan.
#### 1.3.9 Specifieke niet-parametrische toetsen
* **Wilcoxon rangtekentoets**: Een niet-parametrische toets die wordt gebruikt als de aannames voor de t-toets niet voldaan zijn. Het rangschikt de data en vergelijkt de rangsommen om systematische verschillen tussen paren te detecteren.
* **Mann-Whitney U-toets**: Een niet-parametrische toets voor het detecteren van significante verschillen tussen de distributies van twee groepen onafhankelijke steekproeven. Het kan ook een continuïteitscorrectie toepassen.
* **Kruskal-Wallis test**: Een niet-parametrische toets die dient als alternatief voor de ANOVA F-toets voor drie of meer onafhankelijke groepen. Als de steekproeven groot genoeg zijn en de populaties dezelfde continue verdeling vertonen, is deze test bij benadering chi-kwadraat verdeeld met $k-1$ vrijheidsgraden. Als de test statistiek groot is, wordt de nulhypothese (dat alle populaties dezelfde verdeling hebben) verworpen.
#### 1.3.10 Kolmogorov-Smirnov test
Deze test wordt gebruikt om te beoordelen of de data afkomstig zijn uit een specifiek verdeelde populatie (meestal de normaalverdeling).
* **Lilieforscorrectie**: Omdat de Kolmogorov-Smirnov test soms te snel de nulhypothese aanvaardt, wordt vaak de Lilieforscorrectie gebruikt, die een meer conservatieve p-waarde genereert.
---
# Onderscheidingsvermogen en specifieke toetsen
Dit gedeelte behandelt het onderscheidingsvermogen van statistische toetsen, de verschillen tussen parametrische en niet-parametrische toetsen, en een gedetailleerde analyse van t-tests, proporties en hun niet-parametrische alternatieven.
### 2.1 Onderscheidingsvermogen (power) van statistische toetsen
Het onderscheidingsvermogen, ook wel power genoemd, verwijst naar de kans dat een statistische toets de nulhypothese correct verwerpt wanneer deze onwaar is. Een hogere power betekent dat de verdelingen van de gemiddelden van de groepen verder uit elkaar liggen, waardoor het gemakkelijker wordt om een effect te detecteren.
* **Grotere steekproefgrootte:** Verhoogt de power, omdat dit leidt tot een kleinere standaardfout ($s$), wat de variabiliteit van de steekproefgrootheid verkleint.
* **Kleinere alpha ($\alpha$):** Leidt tot een kleinere kans op het verwerpen van de nulhypothese, wat het onderscheidingsvermogen verlaagt.
### 2.2 Parametrische versus niet-parametrische toetsen
* **Parametrische toetsen:** Gaan uit van specifieke aannames over de populatie, zoals normaliteit en homogeniteit van varianties. Ze hebben doorgaans een hoger onderscheidingsvermogen dan niet-parametrische toetsen, mits aan de voorwaarden is voldaan. T-tests zijn een voorbeeld van parametrische toetsen.
* **Niet-parametrische toetsen:** Stellen minder strenge eisen aan de populatieverdeling en worden gebruikt wanneer de voorwaarden voor parametrische toetsen niet voldaan zijn. Ze zijn robuuster, maar hebben doorgaans een lager onderscheidingsvermogen en geven geen informatie over de effectgrootte. Wilcoxon- en Kruskal-Wallis-tests zijn voorbeelden van niet-parametrische toetsen.
### 2.3 T-tests
T-tests worden gebruikt om gemiddelden te vergelijken wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en de steekproefstandaardafwijking ($s$) moet worden gebruikt. De t-verdeling, die de verdeling van de t-statistiek beschrijft, heeft dikkere staarten dan de normaalverdeling, wat betekent dat hogere waarden nodig zijn om significantie te bereiken, vooral bij kleine steekproeven.
#### 2.3.1 Eigenschappen en voorwaarden van t-tests
* **Vrijheidsgraden ($df$):** Het aantal vrijheidsgraden beïnvloedt de vorm van de t-verdeling. Naarmate de vrijheidsgraden toenemen (door een grotere steekproefgrootte), benadert de t-verdeling de normaalverdeling.
* **Conservatief testen:** Bij een kleine steekproef wordt de t-test conservatiever beschouwd omdat de dikkere staarten van de t-verdeling vereisen dat de afwijking van de nulhypothese groter is om significantie te bereiken.
* **Robuustheid:** T-procedures zijn relatief robuust, wat betekent dat de betrouwbaarheidsintervallen en p-waarden niet significant veranderen wanneer de aannames van normaliteit of homogeniteit van varianties licht worden geschonden, vooral bij grotere steekproeven.
* **Voorwaarden:**
* **Normaliteit:** De populatie hoeft niet exact normaal verdeeld te zijn, zeker niet bij grote steekproeven. Een lichte afwijking is acceptabel.
* **Uitschieters:** T-tests zijn gevoelig voor uitschieters, die de schatting van het gemiddelde sterk kunnen beïnvloeden.
* **Scheefheid:** Bij kleine steekproeven (< 15) mag de verdeling niet scheef zijn en mogen er geen uitschieters zijn. Bij steekproeven groter dan 15 is de robuustheid sterker, maar een vuistregel van 30 wordt vaak aangehouden als veilige grens.
* **Homogeniteit van varianties (voor t-tests met twee onafhankelijke steekproeven):** De varianties van de twee groepen mogen niet te veel verschillen. Een vuistregel is dat de grootste variantie gedeeld door de kleinste variantie niet groter mag zijn dan 2. De F-toets voor gelijkheid van spreiding is rechts scheef en waarden die sterk afwijken van 1 pleiten tegen gelijke spreidingen.
* **Gepaarde t-test:** Is equivalent aan een tekentoets en heeft over het algemeen een kleiner onderscheidingsvermogen dan de standaard t-toets.
#### 2.3.2 T-tests voor proporties
De steekproevenverdeling van proporties benadert de normaalverdeling naarmate de populatieproportie ($\mu$) toeneemt. Voor een betere schatting bij het analyseren van proporties worden soms denkbeeldige observaties toegevoegd (bijvoorbeeld twee successen en twee mislukkingen).
* **Relatief risico:** Een vergelijking tussen twee proporties gebaseerd op de verhouding ervan. Een relatief risico van 1 betekent dat de proporties gelijk zijn.
* **Betrouwbaarheidsinterval (BI):** Het BI bij proporties is onnauwkeurig, vooral bij kleine steekproeven. Een correctie kan nodig zijn.
* **Steekproefgrootteplanning:** Een steekproefgrootte kan worden gekozen om een populatieproportie te schatten met een gewenste foutmarge ($m$). De foutmarge is het grootst wanneer $p = 0.5$.
### 2.4 Niet-parametrische alternatieven
#### 2.4.1 Wilcoxon-rangtekentoets
* **Doel:** Wordt gebruikt als alternatief voor de gepaarde t-test wanneer de aannames van normaliteit niet voldaan zijn.
* **Werkingsprincipe:** Gaat uit van rangscores in plaats van de daadwerkelijke waarden. Het toets de hypothese dat er geen systematische verschillen zijn binnen paren.
* **Robuustheid:** Hoe meer de data de aannames van een t-test benaderen, hoe beter de Wilcoxon-toets presteert.
#### 2.4.2 Mann-Whitney U-toets
* **Doel:** Wordt gebruikt als alternatief voor de t-test voor twee onafhankelijke steekproeven wanneer de aannames van normaliteit niet voldaan zijn.
* **Werkingsprincipe:** Detecteert significante verschillen tussen de distributies van twee groepen onafhankelijke steekproeven, gebaseerd op rangscores.
* **Continuïteitscorrectie:** Wordt toegepast.
#### 2.4.3 Kruskal-Wallis-toets
* **Doel:** Een niet-parametrisch alternatief voor de ANOVA F-toets, gebruikt voor het vergelijken van gemiddelden van drie of meer groepen.
* **Werkingsprincipe:** Toetst de nulhypothese dat alle populaties dezelfde verdeling hebben.
* **Benadering:** Als de steekproeven groot genoeg zijn en de populaties dezelfde continue verdeling hebben, is de Kruskal-Wallis-statistiek ($H$) bij benadering $\chi^2$-verdeeld met $k-1$ vrijheidsgraden, waarbij $k$ het aantal groepen is.
### 2.5 Chi-kwadraat toetsen
* **Doel:** Wordt gebruikt voor het analyseren van categorische data, zoals het vergelijken van waargenomen frequenties met verwachte frequenties.
* **Benadering:** De nauwkeurigheid neemt toe naarmate de cel frequenties toenemen.
* **Vrijheidsgraden:** Naarmate de vrijheidsgraden toenemen, neigt de verdeling meer naar een normaalverdeling.
* **Interpretatie:** Een hoge $\chi^2$-waarde duidt op een sterk verschil tussen waargenomen en verwachte frequenties, wat pleit tegen de nulhypothese.
### 2.6 Kolmogorov-Smirnov-toets
* **Doel:** Gaat na of de data afkomstig zijn uit een specifieke populatieverdeling, vaak de normaalverdeling.
* **Lilieforscorrectie:** Wordt gebruikt om de toets conservatiever te maken, omdat de standaard Kolmogorov-Smirnov-toets de nulhypothese te snel aanvaardt.
### 2.7 Inferentie voor regressie
#### 2.7.1 Enkelvoudige lineaire regressie
* **Doel:** Het schatten van de relatie tussen een afhankelijke variabele ($y$) en een onafhankelijke variabele ($x$), en het toetsen of deze relatie significant is.
* **Regressievergelijking:** $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x$, waarbij $\hat{\beta}_0$ de intercept is en $\hat{\beta}_1$ de helling (reactie).
* **Interpretatie van de helling ($\hat{\beta}_1$):** Geeft de verwachte verandering in $y$ aan voor een eenheidstoename in $x$.
* **R-kwadraat ($R^2$):** Geeft de proportionele reductie van de fout bij het voorspellen van $y$ met de regressievergelijking ten opzichte van de fout zonder de regressievergelijking.
#### 2.7.2 Meervoudige lineaire regressie
* **Doel:** Het voorspellen van een afhankelijke variabele ($y$) aan de hand van meerdere onafhankelijke variabelen ($x_1, x_2, \ldots, x_p$).
* **Collineariteit:** De mate waarin twee of meer onafhankelijke variabelen met elkaar correleren. Hoge collineariteit kan leiden tot instabiele schattingen van de regressiecoëfficiënten.
* **Tolerance:** Het proportie van de variantie in een predictor dat niet verklaard kan worden door andere predictoren.
* **Variance Inflation Factor (VIF):** De inverse van de tolerance ($VIF = 1/Tolerance$). Een VIF groter dan 2 duidt op potentiële problemen met multicollineariteit.
* **F-toets:** Wordt gebruikt in ANOVA voor regressie om de algehele significantie van het regressiemodel te toetsen. Een hogere F-waarde duidt op een betere beschrijving van de data door het model.
### 2.8 ANOVA (Variantieanalyse)
* **Doel:** Een veralgemening van de t-test, gebruikt om de gemiddelden van drie of meer groepen te vergelijken.
* **Werkingsprincipe:** Analyseert de variantie binnen groepen en tussen groepen.
* **Beslissingsfactoren:**
* **Effectgrootte:** De verschillen tussen de groepsgemiddelden.
* **Variabiliteit binnen groepen:** De spreiding van de data binnen elke groep.
* **Interpretatie:** Een significant resultaat suggereert dat er ten minste één groepsgemiddelde significant verschilt van de andere.
* **Vuistregel voor variantie:** De grootste standaardafwijking gedeeld door de kleinste standaardafwijking mag niet groter zijn dan 2.
* **Robuustheid:** ANOVA is zeer robuust, maar een incorrecte p-waarde door schending van de aannames kan de richting van de fout niet aangeven.
#### 2.8.1 Post-hoc toetsen na ANOVA
Wanneer een ANOVA-test significant is, zijn post-hoc toetsen nodig om te bepalen welke specifieke groepen onderling verschillen.
* **Contrasten:** Geplande vergelijkingen die voorafgaand aan de data-analyse worden gespecificeerd. Ze hebben een hoger onderscheidingsvermogen dan meervoudige vergelijkingen omdat ze specifieker zijn.
* **Meervoudige vergelijkingen:** Paarsgewijze significantietoetsen die worden uitgevoerd wanneer er geen specifieke, vooraf gedefinieerde verwachtingen zijn.
* **Bonferroni-methode:** Zeer streng, deelt het significantieniveau door het aantal testen, wat de kans op een Type I-fout verkleint maar ook de kans op een Type II-fout vergroot.
* **MSD-methode (Minimale Significant Verschil):** Geeft het minimaal vereiste verschil tussen twee steekproefgemiddelden aan om als significant te worden beschouwd.
> **Tip:** Bij het kiezen tussen parametrische en niet-parametrische toetsen, overweeg eerst of de data voldoen aan de aannames van de parametrische toets. Indien niet, of indien er twijfel is, zijn niet-parametrische toetsen een veiliger alternatief, hoewel ze potentieel minder onderscheidingsvermogen hebben.
> **Tip:** De robuustheid van t-tests en ANOVA betekent dat ze vaak toch gebruikt kunnen worden, zelfs bij lichte schendingen van de aannames, vooral bij grotere steekproeven. Het is echter essentieel om de data te visualiseren en te controleren op uitschieters en scheefheid.
> **Tip:** Wanneer de steekproefgrootte klein is en de data duidelijk niet normaal verdeeld zijn, of wanneer er uitschieters aanwezig zijn, is het gebruik van niet-parametrische toetsen cruciaal voor valide resultaten.
---
# Geavanceerde regressie- en variantieanalyse
Dit gedeelte behandelt inferentie voor regressieanalyses, inclusief enkelvoudige en meervoudige regressie, en verkent variantieanalyse (ANOVA) met focus op posthoc-vergelijkingen.
### 3.1 Inferentie voor regressie
Regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele ($y$) en een of meer onafhankelijke variabelen ($x$) te modelleren. Het doel is om de "werkelijke regressielijn" voor de populatie te schatten.
#### 3.1.1 Enkelvoudige regressie
Bij enkelvoudige regressie wordt de afhankelijke variabele ($y$) voorspeld aan de hand van één onafhankelijke variabele ($x$). De regressievergelijking wordt doorgaans weergegeven als:
$$ \hat{y} = \beta_0 + \beta_1 X $$
Hierin is:
* $\beta_0$ de intercept (de verwachte waarde van $y$ wanneer $x=0$).
* $\beta_1$ de helling (de verwachte verandering in $y$ voor een eenheidsverandering in $x$).
* $\hat{y}$ de voorspelde waarde van $y$.
De schatters voor de populatieparameters $\beta_0$ en $\beta_1$ worden aangeduid met $b_0$ en $b_1$. Het verschil tussen de waargenomen waarde van $y$ en de voorspelde waarde $\hat{y}$ wordt het residu genoemd. Het doel van de regressieanalyse is het minimaliseren van deze residuen.
> **Tip:** Regressieanalyse helpt om te bepalen of de lineaire relatie tussen $x$ en $y$ die in de steekproef wordt waargenomen, ook daadwerkelijk bestaat in de populatie, of dat dit patroon toeval is.
#### 3.1.2 Meervoudige regressieanalyse
In meervoudige regressie wordt de afhankelijke variabele ($y$) voorspeld met behulp van meerdere onafhankelijke variabelen ($x_1, x_2, \dots, x_k$). De algemene vergelijking luidt:
$$ \hat{y} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k $$
Met de bijbehorende schatters $b_0, b_1, \dots, b_k$. Meervoudige regressie biedt het voordeel dat er minder kans is op "capitalizing on chance" (het onterecht concluderen van verschillen of effecten) in vergelijking met analyses met te veel variabelen ten opzichte van het aantal waarnemingen.
#### 3.1.3 Interpretatie van coëfficiënten en R-kwadraat
* **Coëfficiënten ($\beta_1, \beta_2, \dots$):** In een meervoudige regressie geeft een coëfficiënt de verwachte verandering in de afhankelijke variabele ($y$) weer voor een eenheidsverandering in de betreffende onafhankelijke variabele, *terwijl alle andere onafhankelijke variabelen constant worden gehouden*.
* **R-kwadraat ($R^2$):** Dit is een maat voor hoe goed de regressievergelijking de variabiliteit in de afhankelijke variabele verklaart. Het vertegenwoordigt de proportionele reductie in de voorspellingsfout van $y$ door gebruik te maken van de regressievergelijking, vergeleken met de fout die gemaakt zou worden zonder kennis van de regressievergelijking (meestal de variantie van $y$ alleen).
> **Tip:** Het $R^2$ wordt beïnvloed door het aantal verklarende variabelen ten opzichte van het aantal waarnemingen. Een toename in het aantal variabelen leidt vrijwel altijd tot een hogere $R^2$, zelfs als deze variabelen niet significant bijdragen.
#### 3.1.4 Multicollineariteit
Multicollineariteit treedt op wanneer onafhankelijke variabelen in een regressiemodel sterk met elkaar correleren.
* **Tolerance:** Meet het proportionele deel van de variantie in een predictor dat *niet* verklaard kan worden door de andere predictoren in het model. Een lage tolerance (bijvoorbeeld kleiner dan 0.10) duidt op problemen.
* **Variance Inflation Factor (VIF):** De VIF is de inverse van de tolerance ($VIF = 1 / \text{tolerance}$). Een VIF groter dan 2 (of soms 4 of 10, afhankelijk van de conventie) duidt op mogelijke multicollineariteitsproblemen, wat leidt tot een inflatie van de standaardfouten van de regressiecoëfficiënten.
> **Tip:** Hoewel enige overlap tussen variabelen het model kan laten werken, kunnen hoge correlaties tussen predictoren de interpretatie van individuele coëfficiënten bemoeilijken en leiden tot instabiele schattingen.
### 3.2 Variantieanalyse (ANOVA)
Variantieanalyse (ANOVA) kan worden beschouwd als een veralgemening van de t-toets en wordt gebruikt om te testen of de gemiddelden van drie of meer groepen significant van elkaar verschillen. Het principe achter ANOVA is het vergelijken van de variantie *tussen* de groepen met de variantie *binnen* de groepen.
#### 3.2.1 De F-toets
De centrale toets in ANOVA is de F-toets. De F-waarde is de ratio van de variantie tussen de groepen tot de variantie binnen de groepen:
$$ F = \frac{\text{Variantie tussen groepen}}{\text{Variantie binnen groepen}} $$
* Als de gemiddelden van de groepen sterk van elkaar verschillen in verhouding tot de variabiliteit binnen de groepen, zal de F-waarde groot zijn.
* Indien alle groepsgemiddelden gelijk zijn ($F = 0$), duidt dit op geen verschil tussen de groepen.
Een significant resultaat (een grote F-waarde) betekent dat er ten minste één groep is waarvan het gemiddelde significant verschilt van de andere groepen.
> **Tip:** ANOVA is, net als de t-toets, robuust voor schendingen van aannames zoals normaliteit, mits de steekproeven groot genoeg zijn of de verdelingen vergelijkbaar scheef zijn. Echter, als de p-waarde foutief is, weten we niet in welke richting de fout is gemaakt.
#### 3.2.2 Aannames en robuustheid
Een vuistregel voor de gelijkheid van varianties tussen groepen is dat de grootste standaardafwijking gedeeld door de kleinste standaardafwijking niet groter mag zijn dan 2. Hoewel ANOVA robuust is, kunnen afwijkingen van de aannames leiden tot onjuiste p-waarden.
#### 3.2.3 Posthoc-vergelijkingen
Wanneer de F-toets significant is, is er sprake van een statistisch significant verschil tussen minstens twee groepsgemiddelden. Om te achterhalen welke specifieke groepen van elkaar verschillen, worden posthoc-vergelijkingen uitgevoerd.
##### 3.2.3.1 Contrasten
Contrasten zijn *geplande* vergelijkingen die voorafgaand aan de dataverzameling worden opgesteld op basis van specifieke hypotheses.
* **Voordelen:** Contrasten hebben een hoger onderscheidingsvermogen (meer power) dan meervoudige vergelijkingen, omdat ze specifieker zijn en daardoor een significant verschil beter kunnen detecteren.
* **Interpretatie:** Een contrastwaarde, bijvoorbeeld 5, kan aangeven dat een nieuwe methode gemiddeld 5 punten hoger scoort dan een andere groep of combinatie van groepen. Hoe groter de waarde, hoe significanter het verschil, mits statistisch significant.
##### 3.2.3.2 Meervoudige vergelijkingen
Meervoudige vergelijkingen worden uitgevoerd wanneer er geen specifieke, vooraf geformuleerde hypotheses zijn over de verschillen tussen groepen. Ze omvatten paarsgewijze significantietoetsen tussen alle mogelijke combinaties van groepen.
* **Bonferroni-methode:** Een zeer strenge methode die het significantieniveau deelt door het aantal uitgevoerde toetsen. Dit verhoogt de kans op een Type II fout (het niet verwerpen van een onjuiste nulhypothese), wat betekent dat er mogelijk significante verschillen gemist worden.
* **LSD-methode (Least Significant Difference):** Wordt soms ook als "foertmethode" aangeduid. Deze methode is minder streng en kan leiden tot een verhoogd risico op Type I fouten (het onterecht verwerpen van een ware nulhypothese), vooral als er veel groepen zijn.
* **MSD-methode (Minimum Significant Difference):** Deze methode bepaalt het minimale verschil tussen twee steekproefgemiddelden dat als statistisch significant beschouwd kan worden, gebaseerd op de gepoolde standaarddeviatie en vrijheidsgraden.
> **Tip:** Het doel van posthoc-vergelijkingen is om specifieke verschillen te identificeren na een significante omnibus F-toets, waarbij rekening gehouden moet worden met het verhoogde risico op Type I fouten door het uitvoeren van meerdere vergelijkingen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Enkelvoudige aselecte steekproef | Een steekproef waarbij elke mogelijke combinatie van de elementen van dezelfde grootte uit de populatie een gelijke kans heeft om geselecteerd te worden. Formules voor schatters zijn enkel geldig onder deze voorwaarde. |
| Alpha (significantieniveau) | Het niveau van significantie dat bepaalt hoe snel de nulhypothese wordt verworpen. Een kleinere alpha betekent dat er meer bewijs nodig is om de nulhypothese te verwerpen, wat leidt tot een kleinere kans op het detecteren van een effect. |
| Betrouwbaarheidsinterval (BI) | Een reeks waarden die waarschijnlijk de ware populatiewaarde van een parameter bevatten. Een 95% betrouwbaarheidsinterval betekent dat, als de steekproef oneindig vaak zou worden herhaald, 95% van de intervallen de werkelijke populatiewaarde zou bevatten. |
| Steekproevenverdeling | De verdeling van de steekproefgrootheden verkregen uit alle mogelijke steekproeven van een bepaalde grootte uit de populatie. De spreiding van deze verdeling beschrijft de variabiliteit van de steekproefgrootheid. |
| Robuustheid | Een statistische methode is robuust als deze niet sterk wordt beïnvloed door afwijkingen van de aannames, zoals schending van normaliteit of de aanwezigheid van uitschieters. T-tests en ANOVA worden als redelijk robuust beschouwd. |
| Onderscheidingsvermogen (Power) | De kans dat een statistische toets de nulhypothese correct verwerpt wanneer deze onjuist is. Een hogere power betekent een grotere kans om een werkelijk effect te detecteren. |
| Parametrische toetsen | Statistische toetsen die aannames maken over de verdeling van de populatieparameters, zoals normaliteit. Voorbeelden zijn de t-test en ANOVA. |
| Niet-parametrische toetsen | Statistische toetsen die geen specifieke aannames maken over de verdeling van de populatieparameters. Ze worden vaak gebruikt wanneer aan de voorwaarden voor parametrische toetsen niet is voldaan. Voorbeelden zijn de Wilcoxon-toets en de Kruskal-Wallis-toets. |
| T-toets | Een statistische toets die wordt gebruikt om het gemiddelde van twee groepen te vergelijken wanneer de populatiespreiding onbekend is. Deze toets is conservatiever dan de z-toets vanwege het gebruik van de steekproefstandaarddeviatie. |
| Vrijheidsgraden | Het aantal onafhankelijke waarden dat kan variëren in een statistische berekening. Bij een t-test met één steekproef is het aantal vrijheidsgraden gelijk aan de steekproefgrootte min één ($n-1$). |
| Proportie | Een maat voor het aandeel van een bepaald kenmerk binnen een populatie of steekproef. Vergelijkingen tussen proporties komen vaak voor in de statistiek. |
| Relatief risico | Een maat die de verhouding tussen twee proporties vergelijkt. Een relatief risico van 1 geeft aan dat de proporties gelijk zijn. |
| Wilcoxon rangtekentoets | Een niet-parametrische toets die wordt gebruikt om te toetsen of er een systematisch verschil is tussen gepaarde waarnemingen, zonder de aanname van normaliteit. |
| Mann-Whitney U-toets | Een niet-parametrische toets die wordt gebruikt om de medianen van twee onafhankelijke groepen te vergelijken. Het test of de ene groep consistent hogere waarden heeft dan de andere. |
| Kruskal-Wallis-toets | Een niet-parametrische alternatief voor de eenwegs-ANOVA. Het wordt gebruikt om te bepalen of er statistisch significante verschillen zijn tussen twee of meer onafhankelijke groepen. |
| Chi-kwadraat toets | Een statistische toets die wordt gebruikt om te bepalen of er een significant verschil is tussen de waargenomen frequenties en de verwachte frequenties in categorische data. De nauwkeurigheid verbetert met toenemende celrequentie. |
| Kolmogorov-Smirnov-toets | Een toets die wordt gebruikt om te bepalen of een steekproef afkomstig is uit een populatie met een specifieke verdeling, vaak de normale verdeling. |
| Regressielijn | Een lijn die de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen weergeeft. Het doel is om de beste lineaire schatting van deze relatie te vinden. |
| Beta 1 (helling) | De coëfficiënt die de verandering in de afhankelijke variabele vertegenwoordigt voor een eenheidstoename in de onafhankelijke variabele in een lineair regressiemodel. |
| Beta 0 (constante) | De interceptie in een lineair regressiemodel, die de verwachte waarde van de afhankelijke variabele weergeeft wanneer alle onafhankelijke variabelen nul zijn. |
| Meervoudige regressie-analyse | Een statistische techniek die de relatie tussen een afhankelijke variabele en twee of meer onafhankelijke variabelen onderzoekt. |
| Residue | Het verschil tussen de waargenomen waarde van de afhankelijke variabele en de voorspelde waarde volgens het regressiemodel. Minimalisatie van de residuen is een belangrijk doel. |
| $R^2$ (determinatiecoëfficiënt) | Een statistische maat die het proportionele deel van de variantie in de afhankelijke variabele weergeeft dat wordt verklaard door de onafhankelijke variabele(n) in een regressiemodel. |
| Collineariteit | Een situatie waarin twee of meer onafhankelijke variabelen in een regressiemodel sterk met elkaar correleren. Dit kan leiden tot instabiele coëfficiëntenschattingen. |
| VIF (Variance Inflation Factor) | Een maat die aangeeft in welke mate de variantie van een regressiecoëfficiënt wordt vergroot door collineariteit met andere voorspellers. Een VIF groter dan 2 duidt op mogelijke problemen. |
| ANOVA (Variantieanalyse) | Een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het kan worden gezien als een veralgemening van de t-toets. |
| Contrast | Een geplande vergelijking tussen groepsgemiddelden in een ANOVA, gebaseerd op vooraf gedefinieerde hypothesen. Contrasts hebben doorgaans meer power dan posthoc-toetsen. |
| Posthoc-methode | Statistische toetsen die worden uitgevoerd na een significante omnibus-toets (zoals ANOVA) om te bepalen welke specifieke groepsgemiddelden significant van elkaar verschillen. |
| Bonferroni-methode | Een conservatieve posthoc-methode die het significantieniveau aanpast om de kans op Type I-fouten te verminderen bij het uitvoeren van meerdere vergelijkingen. |