Cover
Jetzt kostenlos starten Statistiek 2025.docx
Summary
# Cruciale vragen bij significantietoetsen en onderscheidingsvermogen
### Kernidee
* Inferentiële statistiek beoogt conclusies te trekken over populaties op basis van steekproefdata.
* Significantietoetsen helpen bij het beoordelen of waargenomen verschillen in steekproeven waarschijnlijk niet op toeval berusten, maar wijzen op een reëel verschil in de populatie.
* Onderscheidingsvermogen (power) is de kans dat een toets een werkelijk bestaand verschil op populatieniveau kan detecteren.
### Belangrijke feiten
* Betrouwbaarheidsintervallen (BI) schatten een bereik waarbinnen de populatieparameter waarschijnlijk ligt.
* Een 95% BI betekent dat bij 95% van de herhaalde steekproeven het interval de populatiewaarde bevat.
* De breedte van een BI wordt beïnvloed door steekproefgrootte ($n$), betrouwbaarheidsniveau ($Z$), en populatiestandaardafwijking ($\sigma$).
* **Significantietoetsen beantwoorden de vraag: "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?" (gerelateerd aan $\alpha$).**
* **Onderscheidingsvermogen (power) beantwoordt de vraag: "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?"**
* Power is de kans om een werkelijk bestaand verschil te detecteren als dat verschil de moeite waard is.
* Type I fout (vals positief): $\alpha$, de kans om de nulhypothese te verwerpen terwijl deze waar is.
* Type II fout (vals negatief): $\beta$, de kans om de nulhypothese niet te verwerpen terwijl deze onwaar is.
* Onderscheidingsvermogen (power) = $1 - \beta$.
### Belangrijke concepten
* **Nulhypothese ($H_0$)**: Stelt dat er geen verschil of verband is.
* **Alternatieve hypothese ($H_A$)**: Stelt dat er wel een verschil of verband is.
* **Toetsingsgrootheid**: Een statistiek berekend uit de steekproef, gebruikt om de nulhypothese te toetsen (bv. z-score, t-score).
* **Overschrijdingskans (p-waarde)**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat $H_0$ waar is.
* **Significantieniveau ($\alpha$)**: De drempelwaarde (meestal 0,05) waaronder de p-waarde leidt tot verwerping van $H_0$.
* **Kritieke waarde**: De grens van het verwerpingsgebied voor de toetsingsgrootheid.
* **Resampling (bootstrap)**: Een methode om de steekproevenverdeling te schatten door herhaaldelijk steekproeven te trekken uit de oorspronkelijke steekproef.
* **T-verdeling**: Een waarschijnlijkheidsverdeling die lijkt op de normaalverdeling maar dikkere staarten heeft, gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt door de steekproefstandaardafwijking ($s$).
* **Vrijheidsgraden (df)**: Parameter die de vorm van de t-verdeling bepaalt (vaak $n-1$ voor een 1-steekproef t-toets).
* **Gepaarde t-toets**: Vergelijkt gemiddelden van twee gerelateerde metingen (bv. voor- en nameting) door de gemiddelde verschillen te analyseren.
* **Onafhankelijke t-toets**: Vergelijkt gemiddelden van twee onafhankelijke groepen.
### Implicaties
* Een lage p-waarde (< $\alpha$) suggereert dat het waargenomen resultaat onwaarschijnlijk is onder $H_0$, wat leidt tot verwerping van $H_0$.
* Een hoge power ($1 - \beta$) is wenselijk om werkelijke effecten te kunnen detecteren.
### Veelvoorkomende valkuilen
---
### Kernconcepten
* Inferentiële statistiek gebruikt steekproefdata om conclusies te trekken over een populatie.
* Steekproevenverdelingen beschrijven de spreiding van steekproefstatistieken (bv. gemiddelden) over meerdere herhalingen van een onderzoek.
* Betrouwbaarheidsintervallen schatten het bereik waarin de populatieparameter waarschijnlijk ligt.
* Significantietoetsen beoordelen of waargenomen verschillen groot genoeg zijn om de nulhypothese te verwerpen.
### Kernfeiten
* Een 95% betrouwbaarheidsinterval betekent dat bij 100 herhalingen 95 intervallen de werkelijke populatiewaarde bevatten.
* Het betrouwbaarheidsinterval wordt beïnvloed door het steekproefgemiddelde ($\bar{x}$), het betrouwbaarheidsniveau (Z-score), de populatiestandaardafwijking ($\sigma$) en de steekproefgrootte ($n$).
* Een grotere steekproefgrootte leidt tot een smaller, preciezer betrouwbaarheidsinterval.
* Een lager betrouwbaarheidsniveau (bv. 90% i.p.v. 95%) leidt tot een smaller interval, maar met een hoger risico op een type I-fout.
* Significantietoetsen volgen typisch vier stappen: hypothesen formuleren, toetsingsgrootheid bepalen, overschrijdingskans (p-waarde) bepalen en conclusie formuleren.
* De nulhypothese ($H_0$) stelt dat er geen verschil of verband is; de alternatieve hypothese ($H_a$) stelt dat er wel een verschil of verband is.
* De p-waarde is de kans op het waargenomen resultaat (of extremer), aangenomen dat $H_0$ waar is.
### Kernconcepten en Implicaties
* **Type I-fout (vals positief):** Het verwerpen van $H_0$ terwijl deze waar is. De kans hierop is gelijk aan het significantieniveau ($\alpha$).
* *Implicatie:* Te streng zijn met $\alpha$ kan leiden tot het missen van werkelijke effecten.
* **Type II-fout (vals negatief):** Het niet verwerpen van $H_0$ terwijl deze onwaar is. De kans hierop is $\beta$.
* *Implicatie:* Een lage power vergroot de kans op een type II-fout.
* **Onderscheidingsvermogen (Power, $1-\beta$):** De kans om $H_0$ correct te verwerpen wanneer $H_a$ waar is (dus een werkelijk effect detecteren).
* *Implicatie:* Een hoog onderscheidingsvermogen is cruciaal om kleine maar relevante effecten te kunnen detecteren.
* **Factoren die Power beïnvloeden:**
* **Effectgrootte:** Grotere werkelijke verschillen zijn makkelijker te detecteren (verhoogt power).
* **Steekproefgrootte ($n$):** Grotere steekproeven vergroten de power.
* **Significantieniveau ($\alpha$):** Een groter $\alpha$ (bv. 0,10 i.p.v. 0,05) verhoogt de power, maar ook de kans op een type I-fout.
* **Variabiliteit ($\sigma$):** Lagere populatievariantie verhoogt de power.
### Cruciale vragen
* Hoe groot is de kans dat mijn resultaat tot stand kwam als de nulhypothese waar zou zijn ($\alpha$)?
* Hoe groot is de kans dat mijn resultaat *niet* tot stand kwam als de nulhypothese waar zou zijn (en dus $H_a$ waar is) - dit raakt aan power?
### T-verdeling en inferentie bij onbekende $\sigma$
* De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en wordt geschat met de steekproefstandaardafwijking ($s$).
### Toepassingen: T-toetsen
### Rapporteren van resultaten (APA-stijl)
---
* Significantietoetsen helpen bij het interpreteren van steekproefdata om conclusies te trekken over populaties.
* De cruciale vragen draaien om de kans dat een resultaat door toeval ontstaat (alfa) en de kans om een echt bestaand verschil te detecteren (onderscheidingsvermogen/power).
* Een significantietoets evalueert de kans op waargenomen data als de nulhypothese waar zou zijn ($\alpha$).
* Onderscheidingsvermogen (power) is de kans om een echt bestaand verschil te detecteren als de alternatieve hypothese waar is (1 - $\beta$).
* Type I fout (vals positief): de nulhypothese onterecht verwerpen ($\alpha$).
* Type II fout (vals negatief): de nulhypothese onterecht aanvaarden ( $\beta$).
* Klassieke significantietoetsen gebruiken theoretische kansverdelingen (binomiaal, normaal).
* Resampling (bootstrap) methoden creëren empirische steekproevenverdelingen.
* De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking onbekend is en wordt geschat.
* T-verdelingen hebben dikkere staarten dan de normaalverdeling, vooral bij kleine steekproeven.
* Vrijheidsgraden (df) specificeren de vorm van een t-verdeling (df = n - 1).
* **Betrouwbaarheidsinterval (BI):** Een bereik rond het steekproefgemiddelde waarbinnen de populatieparameter waarschijnlijk ligt.
* Formule: $\bar{x} \pm Z \times \frac{\sigma}{\sqrt{n}}$ (voor bekende $\sigma$) of $\bar{x} \pm t^* \times \frac{s}{\sqrt{n}}$ (voor onbekende $\sigma$).
* Een kleiner BI betekent hogere precisie (grotere steekproef, lager betrouwbaarheidsniveau, kleinere spreiding).
* **Nulhypothese ($H_0$):** Stelt dat er geen effect of verschil is.
* **Alternatieve hypothese ($H_1$):** Stelt dat er wel een effect of verschil is.
* **P-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat $H_0$ waar is.
* Als $p < \alpha$, wordt $H_0$ verworpen.
* **Alfa ($\alpha$):** Het significantieniveau, de maximale kans op een Type I fout die men accepteert.
* **Bèta ($\beta$):** De kans op een Type II fout.
* **Onderscheidingsvermogen (Power = 1 - $\beta$):** De kans om $H_0$ correct te verwerpen wanneer $H_1$ waar is.
* Verhoogd door: grotere steekproefgrootte ($n$), grotere effectgrootte, grotere $\alpha$, kleinere $\sigma$.
* **Toetsingsgrootheid:** Een statistiek berekend uit de steekproefdata om hypotheses te toetsen (bv. $z$ of $t$).
* **Kritieke waarde:** De grens die bepaalt of een toetsingsgrootheid significant is.
* **Steekproevenverdeling van de verschillen:** De verdeling van mogelijke verschillen tussen steekproefgemiddelden.
### Voorbeelden
### Tips
---
* Cruciale vragen bij significantietoetsen richten zich op de kans op het waargenomen resultaat onder de nulhypothese en de kans op het waargenomen resultaat onder de alternatieve hypothese.
* Onderscheidingsvermogen (power) is de kans om een daadwerkelijk bestaand verschil op populatieniveau te detecteren.
### Sleutelbegrippen
* **Type I fout (vals positief)**: De nulhypothese wordt verworpen terwijl deze waar is ($\alpha$).
* Dit is de kans om te concluderen dat een medicijn werkt, terwijl het dat niet doet.
* **Type II fout (vals negatief)**: De nulhypothese wordt niet verworpen terwijl deze onwaar is ($\beta$).
* Dit is de kans om te concluderen dat een medicijn niet werkt, terwijl het dat wel doet.
* **Onderscheidingsvermogen (power)**: De kans om een echt verschil te detecteren wanneer dit aanwezig is ($1 - \beta$).
* Dit is de kans om correct te concluderen dat een medicijn werkt, als het ook echt werkt.
* **Alfa ($\alpha$)**: Het significantieniveau, de vooraf bepaalde kans op een Type I fout. Meestal 5%.
* **Bèta ($\beta$)**: De kans op een Type II fout.
* **Kritieke waarde**: De grens in de toetsingsverdeling waarboven (of waaronder) de nulhypothese wordt verworpen.
### Implicaties en relaties
* Alfa en bèta zijn gerelateerd; het verlagen van de ene verhoogt de andere, gegeven een vaste steekproefgrootte.
* Een grotere steekproefgrootte ($n$) vergroot het onderscheidingsvermogen.
* Een grotere effectgrootte (het werkelijke verschil tussen de groepen) vergroot het onderscheidingsvermogen.
* Een kleinere standaardafwijking ($\sigma$) vergroot het onderscheidingsvermogen.
* Het verhogen van het betrouwbaarheidsniveau (en dus het verlagen van $\alpha$) verkleint het onderscheidingsvermogen, tenzij de steekproefgrootte wordt aangepast.
* De keuze tussen een eenzijdige en tweezijdige toets beïnvloedt de kritieke waarde en daarmee het onderscheidingsvermogen.
### Toetsingsgrootheden en verdelingen
* De toetsingsgrootheid wordt berekend om te bepalen hoe ver het steekproefresultaat afwijkt van wat verwacht wordt onder de nulhypothese.
* Bij het schatten van de populatiestandaardafwijking ($\sigma$) uit een steekproef ($s$), wordt de t-verdeling gebruikt in plaats van de z-verdeling.
* De t-verdeling heeft dikkere staarten dan de z-verdeling, wat betekent dat grotere waarden nodig zijn om significantie te bereiken, vooral bij kleine steekproeven.
* Vrijheidsgraden ($df = n - 1$ voor een 1-steekproef test) specificeren de exacte vorm van de t-verdeling.
* De t-verdeling benadert de normaalverdeling naarmate de vrijheidsgraden toenemen.
* Bij het vergelijken van twee populaties met onbekende populatiestandaardafwijkingen, worden t-toetsen voor onafhankelijke of gekoppelde steekproeven gebruikt.
* Bij de t-toets voor onafhankelijke steekproeven wordt vaak een conservatieve schatting van de vrijheidsgraden gebruikt om de staarten dikker te maken en het risico op Type I fouten te minimaliseren.
### Onderscheidingsvermogen berekenen
* **Stap 1**: Bepaal de kritieke waarde onder de nulhypothese ($H_0$). Dit is de waarde waarboven/waaronder de nulhypothese wordt verworpen.
### Betrouwbaarheidsintervallen en hypothesetoetsen
---
* De focus ligt op het interpreteren van steekproefresultaten ten aanzien van de populatie, met specifieke aandacht voor het maken van beslissingen op basis van statistische toetsen.
* Twee fundamentele vragen staan centraal: de kans op het waargenomen resultaat onder de nulhypothese en de kans om een echt verschil te detecteren als de nulhypothese niet waar is.
* Een 95% betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen het populatiegemiddelde waarschijnlijk ligt, met 95% zekerheid.
* Het betrouwbaarheidsinterval wordt beïnvloed door het steekproefgemiddelde ($\bar{x}$), het betrouwbaarheidsniveau (Z-score), het significantieniveau ($\alpha$) en de populatiestandaardafwijking ($\sigma$), en de steekproefgrootte ($n$).
* Een kleinere foutenmarge (kleiner BI) leidt tot hogere betrouwbaarheid.
* Een kleiner BI wordt verkregen door een grotere steekproefgrootte of een lager betrouwbaarheidsniveau.
* De significantietoets volgt vier stappen: hypothesen formuleren, toetsingsgrootheid bepalen, overschrijdingskans (p-waarde) bepalen, en conclusie formuleren.
* Nulhypothese ($H_0$): Er is geen verschil. Alternatieve hypothese ($H_a$): Er is een verschil.
* De klassieke aanpak van hypothesetoetsen gebruikt kansrekening en theoretische verdelingen (bv. binomiaalverdeling).
* Resampling (bootstrap) is een alternatieve methode die simulaties gebruikt om een geobserveerde steekproevenverdeling te creëren.
* De p-waarde is de kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is.
* Als de p-waarde kleiner is dan $\alpha$ (het significantieniveau), wordt de nulhypothese verworpen.
* **Type I fout (vals positief):** De nulhypothese wordt onterecht verworpen ($\alpha$).
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen terwijl deze vals is ($\beta$).
* **Onderscheidingsvermogen (power):** De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is ($1 - \beta$).
* De power van een toets wordt beïnvloed door de effectgrootte (het verschil tussen populatiegemiddelden), de steekproefgrootte ($n$), en het gekozen significantieniveau ($\alpha$).
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* T-verdelingen hebben dikkere staarten dan de normale verdeling, wat betekent dat ze gevoeliger zijn voor extreme waarden.
* Vrijheidsgraden ($df$) specificeren de vorm van de t-verdeling en zijn typisch gelijk aan $n - 1$. Naarmate $df$ toeneemt, nadert de t-verdeling de normale verdeling.
* Bij het vergelijken van twee onafhankelijke groepen wordt vaak een t-toets voor onafhankelijke steekproeven gebruikt.
* Bij het vergelijken van metingen van dezelfde groep op twee verschillende momenten (bv. voor- en nameting) wordt een t-toets voor gekoppelde paren gebruikt.
* Het 1-steekproef t-betrouwbaarheidsinterval volgt dezelfde logica als bij een bekende $\sigma$, maar gebruikt de t-verdeling met $(n-1)$ vrijheidsgraden.
* Voorwaarden voor t-procedures: willekeurige steekproef, normale verdeling van de populatie (of voldoende grote steekproef ($n>30$)), en onafhankelijke waarnemingen.
* Hogere power vergroot de kans om een echt effect te detecteren en type II fouten te vermijden.
* Een grotere steekproefgrootte verhoogt de power van een toets.
---
* Significantietoetsen en onderscheidingsvermogen (power) zijn cruciaal voor het correct interpreteren van onderzoeksresultaten en het trekken van geldige conclusies over populaties op basis van steekproefdata.
* De kernvraag bij significantietoetsen betreft de kans op het waargenomen resultaat onder de nulhypothese, terwijl power gaat over de kans om een bestaand effect te detecteren.
* Een significantietoets evalueert de waarschijnlijkheid van de waargenomen data onder de aanname dat de nulhypothese (H₀) waar is.
* De p-waarde is de kans op het verkrijgen van een resultaat dat minstens zo extreem is als het waargenomen resultaat, gegeven dat H₀ waar is.
* Type I fout (vals positief) is het onterecht verwerpen van de nulhypothese (kans is $\alpha$).
* Type II fout (vals negatief) is het niet verwerpen van de nulhypothese terwijl deze vals is (kans is $\beta$).
* Onderscheidingsvermogen (power) is de kans om een echt bestaand effect (alternatieve hypothese, H₁) correct te detecteren en H₀ te verwerpen ($1 - \beta$).
* De power van een toets is afhankelijk van de effectgrootte, de steekproefgrootte, het significantieniveau ($\alpha$), en de variabiliteit in de data ($\sigma$).
* Klassieke hypothesetoetsen maken gebruik van theoretische verdelingen zoals de binomiale en normale verdeling.
* Resampling (bootstrap) methoden simuleren de steekproevenverdeling aan de hand van de geobserveerde data.
* De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking (s).
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat belangrijk is voor de interpretatie van kritieke waarden.
* Vrijheidsgraden (df), gelijk aan $n-1$ voor een één-steekproef t-test, bepalen de specifieke vorm van de t-verdeling.
* **Nulhypothese (H₀):** Stelt geen effect of verschil voor (bv. $\mu_1 = \mu_2$).
* **Alternatieve hypothese (H₁):** Stelt een effect of verschil voor (bv. $\mu_1 \neq \mu_2$, $\mu_1 > \mu_2$, of $\mu_1 < \mu_2$).
* **Significantieniveau ($\alpha$):** De vooraf bepaalde drempelwaarde voor het verwerpen van H₀ (typisch 0,05).
* **Toetsingsgrootheid:** Een statistiek berekend uit steekproefdata om H₀ te toetsen (bv. z-score, t-score).
* **Kritieke waarde:** De grens op de toetsingsverdeling die bepaalt of H₀ wordt verworpen.
* **P-waarde:** De waarschijnlijkheid van het observeren van de data, of extremere data, onder H₀.
* **Betrouwbaarheidsinterval (BI):** Een reeks waarden waarbinnen het populatieparameter waarschijnlijk ligt met een bepaald betrouwbaarheidsniveau.
* **Paired samples t-test:** Vergelijkt gemiddelden van twee gerelateerde metingen (bv. voor- en nameting).
* **Independent samples t-test:** Vergelijkt gemiddelden van twee onafhankelijke groepen.
* **Robustheid van t-procedures:** T-toetsen zijn redelijk robuust tegen schendingen van de normaliteitsaanname, vooral bij grotere steekproeven.
* Een lage p-waarde ($\leq \alpha$) leidt tot het verwerpen van H₀, wat suggereert dat het waargenomen effect waarschijnlijk niet door toeval is ontstaan.
* Een hoog onderscheidingsvermogen ($1 - \beta$) is wenselijk om reële effecten niet te missen.
---
* **Significante toetsen** onderzoeken de kans dat een onderzoeksresultaat verkregen is onder de aanname dat de nulhypothese waar is ($\alpha$).
* **Onderscheidingsvermogen (power)** onderzoekt de kans dat een significant verschil gedetecteerd kan worden wanneer de alternatieve hypothese waar is ($1-\beta$).
### Sleutelfeiten
* Een 95% betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen het populatiegemiddelde waarschijnlijk zal liggen.
* Het betrouwbaarheidsinterval wordt smaller bij een grotere steekproefgrootte ($n$) of een lager betrouwbaarheidsniveau.
* De p-waarde is de kans op een resultaat dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is.
* Als $p < \alpha$, wordt de nulhypothese verworpen.
* De steekproevenverdeling van het gemiddelde, indien $\sigma$ onbekend is, volgt een t-verdeling.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat er meer kans is op een Type I fout bij gelijke $\alpha$.
* De t-verdeling is afhankelijk van het aantal vrijheidsgraden ($df = n-1$).
* Hoge power is wenselijk om echte effecten te kunnen detecteren.
* Onderscheidingsvermogen wordt beïnvloed door:
* De effectgrootte (groter verschil = hogere power).
* Het significantieniveau $\alpha$ (grotere $\alpha$ = hogere power).
* De steekproefgrootte $n$ (grotere $n$ = hogere power).
* De standaardafwijking $\sigma$ (kleinere $\sigma$ = hogere power).
* Een kleine steekproefgrootte verhoogt de kans op een Type II fout.
* De keuze tussen een eenzijdige en tweezijdige toets kan de significantie van het resultaat beïnvloeden.
* Bij het vergelijken van meer dan twee groepen, verhoogt het aantal vergelijkingen het risico op Type I fouten (alfa-inflatie).
### Gebruik van t-verdelingen
* De **Student's t-verdeling** wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* De vorm van de t-verdeling is symmetrisch met een top op 0, maar heeft dikkere staarten dan de standaard normaalverdeling.
* De vrijheidsgraden ($df$) bepalen de specifieke t-verdeling; naarmate $df$ toeneemt, benadert de t-verdeling de normaalverdeling.
* **1-steekproef t-interval** en **1-steekproef t-toets** worden gebruikt om een populatiegemiddelde te schatten of te toetsen wanneer $\sigma$ onbekend is.
* Voorwaarden voor t-procedures: willekeurige steekproef, ongeveer normale populatieverdeling (vooral belangrijk bij kleine steekproeven), en onafhankelijke waarnemingen.
### Rapportage van toetsresultaten (APA-stijl)
---
# De t-verdeling en inferentie bij onbekende populatie standaardafwijking
### Kernidee
* De t-verdeling wordt gebruikt voor inferentie wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt uit de steekproef.
* Deze verdeling is conceptueel vergelijkbaar met de normaalverdeling maar heeft dikkere staarten, wat leidt tot conservatievere schattingen.
### Belangrijke feiten
* De t-verdeling is ontwikkeld door William Sealy Gosset ("Student").
* Een t-waarde geeft aan hoeveel standaardfouten een steekproefgemiddelde afwijkt van het populatiegemiddelde.
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden ($df$).
* Vrijheidsgraden ($df$) zijn meestal gelijk aan de steekproefgrootte minus 1 ($n-1$).
* Naarmate $df$ toeneemt, benadert de t-verdeling de standaard normaalverdeling.
* Wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$), leidt dit tot een steekproevenverdeling die dikkere staarten heeft dan de normaalverdeling.
* Het gebruik van $s$ in plaats van $\sigma$ vergroot de kans op het per ongeluk verwerpen van de nulhypothese (Type I fout) als men de normaalverdeling zou blijven gebruiken.
### Kernconcepten
* **T-verdeling**: Een continue kansverdeling die symmetrisch is rond 0, met dikkere staarten dan de normaalverdeling.
* **Vrijheidsgraden ($df$)**: Het aantal onafhankelijke gegevenspunten dat vrij kan variëren. Voor een t-test is dit meestal $n-1$.
* **Student's t-toets**: Een statistische toets die wordt gebruikt om conclusies te trekken over een populatiegemiddelde wanneer de populatiestandaardafwijking onbekend is.
* **1-steekproef t-betrouwbaarheidsinterval**: Biedt een reeks waarden waarbinnen het populatiegemiddelde naar verwachting ligt, met een bepaald betrouwbaarheidsniveau.
* De formule is: $\bar{x} \pm t^{\ast} \frac{s}{\sqrt{n}}$
* $\bar{x}$: steekproefgemiddelde
* $t^{\ast}$: kritieke t-waarde voor het gekozen betrouwbaarheidsniveau en $df$
* $s$: steekproefstandaardafwijking
* $n$: steekproefgrootte
* **1-steekproef t-toets**: Wordt gebruikt om te testen of een populatiegemiddelde significant verschilt van een hypothetische waarde.
* De toetsingsgrootheid is: $t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}}$
* $\mu$: hypothetisch populatiegemiddelde
* **Voorwaarden voor t-procedures**:
* Random steekproeftrekking.
* Populatie is min of meer normaal verdeeld, of de steekproefgrootte ($n$) is voldoende groot (bijvoorbeeld $n > 30$).
* Onafhankelijke waarnemingen binnen de steekproef en tussen de steekproeven (indien van toepassing).
### Implicaties
### Gebruik van de t-tabel
### Rapporteren van t-toets resultaten (APA-stijl)
---
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), maar wordt gebruikt wanneer de populatie standaardafwijking $\sigma$ onbekend is en geschat wordt met de steekproefstandaardafwijking $s$.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat er een grotere kans is op extreme waarden, vooral bij kleine steekproeven.
* Er bestaat niet één t-verdeling; er is een familie van t-verdelingen die wordt gespecificeerd door de vrijheidsgraden ($df$), wat meestal gelijk is aan de steekproefgrootte minus één ($n-1$).
* William Sealy Gosset ontwikkelde de t-verdeling, werkzaam onder het pseudoniem "Student".
* Wanneer $\sigma$ onbekend is en geschat wordt met $s$, leidt standaardisatie van het steekproefgemiddelde $\bar{x}$ tot een t-verdeling in plaats van een standaard normaalverdeling.
* De formule voor de t-toetsingsgrootheid is: $t = \frac{\bar{x} - \mu}{s/\sqrt{n}}$, waarbij $s$ de steekproefstandaardafwijking is.
* Als het aantal vrijheidsgraden ($df$) toeneemt, benadert de t-verdeling de normaalverdeling. Vanaf een bepaald punt kan de normaalverdeling worden gebruikt als benadering.
* De t-verdeling is symmetrisch rond nul en heeft een piek bij nul.
* Vrijheidsgraden ($df$) vertegenwoordigen het aantal onafhankelijke gegevenspunten dat vrij kan variëren bij het schatten van een parameter. Voor een enkele steekproef is dit $n-1$.
* Bij het schatten van de populatiestandaardafwijking wordt gedeeld door $n-1$ (in plaats van $n$) om een zuivere schatter te verkrijgen.
### Betrouwbaarheidsintervallen met de t-verdeling
* Het 1-steekproef t-betrouwbaarheidsinterval (BI) voor het populatiegemiddelde $\mu$ wordt berekend als: $\bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}$.
* De $t^*$-waarde is de kritieke waarde uit de t-verdeling die overeenkomt met het gekozen betrouwbaarheidsniveau en de vrijheidsgraden ($df = n-1$).
* **Voorwaarden voor een 1-steekproef t-BI:**
* Random steekproef.
* Populatiedata zijn (ongeveer) normaal verdeeld, of de steekproefgrootte is voldoende groot ($n > 30$) dankzij de centrale limietstelling.
* Onafhankelijke waarnemingen binnen de steekproef.
### Significantietsussen met de t-verdeling
* De 1-steekproef t-toets vergelijkt een steekproefgemiddelde $\bar{x}$ met een hypothesisch populatiegemiddelde $\mu_0$.
* De nulhypothese ($H_0$) stelt meestal dat er geen verschil is, bv. $\mu = \mu_0$.
* De alternatieve hypothese ($H_a$) kan eenzijdig zijn ($\mu > \mu_0$ of $\mu < \mu_0$) of tweezijdig ($\mu \neq \mu_0$).
* De t-toetsingsgrootheid $t$ kwantificeert het aantal standaardfouten dat het steekproefgemiddelde afwijkt van het hypothetische populatiegemiddelde.
* De p-waarde wordt bepaald uit de t-verdeling met de corresponderende vrijheidsgraden.
### T-toetsen voor twee gemiddelden
* **Gekoppelde t-toets (paired t-test):**
* Gebruikt voor afhankelijke steekproeven (bv. voor- en nametingen bij dezelfde personen).
* Analyseert de verschillen tussen gekoppelde paren.
* De nulhypothese is meestal dat het gemiddelde verschil $\mu_d = 0$.
---
### Kernbegrippen
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling) maar wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* Een t-waarde geeft aan hoeveel standaardfouten de waargenomen waarde verwijderd is van de verwachte waarde.
* De t-verdeling is symmetrisch rond 0 en heeft dikkere staarten dan de normaalverdeling, wat betekent dat grotere afwijkingen van het gemiddelde waarschijnlijker zijn.
### Vrijheidsgraden (degrees of freedom, df)
* De t-verdeling is niet één specifieke verdeling, maar een familie van verdelingen die worden gespecificeerd door het aantal vrijheidsgraden.
* Vrijheidsgraden hangen af van de steekproefgrootte; typisch is df = steekproefgrootte - 1 ($n-1$) voor één steekproef.
* Naarmate het aantal vrijheidsgraden toeneemt (en dus de steekproef groter wordt), benadert de t-verdeling de standaard normaalverdeling.
### -steekproef t-betrouwbaarheidsinterval
* Het 1-steekproef t-betrouwbaarheidsinterval ($BI$) voor het populatiegemiddelde ($\mu$) wordt berekend met een vergelijkbare formule als voor een bekende $\sigma$, maar gebruikt de t-verdeling met $n-1$ vrijheidsgraden.
* De formule is: $\bar{x} \pm t^\ast \times \frac{s}{\sqrt{n}}$.
* De foutenmarge bestaat uit de kritieke t-waarde ($t^\ast$) en de standaardfout ($\frac{s}{\sqrt{n}}$).
* Voorwaarden:
* Random steekproef (representativiteit).
* Populatie is normaal verdeeld of de steekproef is groot genoeg ($n > 30$) door de centrale limietstelling.
* Onafhankelijke waarnemingen.
### -steekproef t-toets
* Deze toets wordt gebruikt om te bepalen of een steekproefgemiddelde significant afwijkt van een hypothetisch populatiegemiddelde ($\mu$).
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}$.
* De p-waarde bepaalt de significantie door de kans te evalueren om het waargenomen resultaat (of extremer) te verkrijgen, aangenomen dat de nulhypothese waar is.
* Rapportage in APA-stijl omvat de toetsingsgrootheid ($t$), vrijheidsgraden ($df$), p-waarde, en indien beschikbaar, het betrouwbaarheidsinterval en de effectgrootte ($d$).
### T-toetsen voor 2 onafhankelijke steekproeven
* Gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken (between-subjects design).
* Nulhypothese: $\mu_1 = \mu_2$.
* **T-toets voor onafhankelijke steekproeven (indien $\sigma_1$ en $\sigma_2$ onbekend zijn):**
* Toetsingsgrootheid ($t$) is complexer en niet strikt t-verdeeld; vereist benadering.
* Vaak wordt een conservatieve benadering van vrijheidsgraden gebruikt (bv. $\min(n_1-1, n_2-1)$) om dikkere staarten te creëren en de kans op een type I-fout te beperken.
* **Z-test voor 2 onafhankelijke steekproeven (indien $\sigma_1$ en $\sigma_2$ bekend zijn):**
* Toetsingsgrootheid ($z$) is gebaseerd op het verschil tussen steekproefgemiddelden gedeeld door de gecombineerde standaardfout.
### T-toets voor gekoppelde paren (paired samples)
* Gebruikt wanneer metingen gekoppeld zijn (bv. voor- en nametingen bij dezelfde personen; within-subjects design).
### Overzicht van toetsen en hun toepassingen
---
* t-waarden geven aan hoeveel standaardfouten de waargenomen waarde verwijderd is van de verwachte waarde ($\mu$).
* Er is niet één enkele t-verdeling; er is een familie van t-verdelingen, elk gespecificeerd door het aantal vrijheidsgraden ($df$).
### Vrijheidsgraden
* Vrijheidsgraden ($df$) zijn het aantal gegevens dat onafhankelijk van elkaar kan variëren.
* Voor een 1-steekproef t-toets of betrouwbaarheidsinterval is $df = n - 1$, waarbij $n$ de steekproefgrootte is.
* Naarmate de vrijheidsgraden toenemen, benadert de t-verdeling de standaard normaalverdeling.
### De t-verdeling versus de standaard normaalverdeling
* De t-verdeling heeft dikkere staarten dan de standaard normaalverdeling.
* Dikkere staarten betekenen dat er een grotere kans is om extreme waarden te observeren, zelfs als de nulhypothese waar is.
* Dit vereist een aanpassing in de kritieke waarden en interpretatie van significantie.
### Toepassingen van de t-verdeling
* **1-steekproef t-betrouwbaarheidsinterval:** Schat het populatiegemiddelde ($\mu$) wanneer $\sigma$ onbekend is.
* Formule: $\bar{x} \pm t^{\ast} \times \frac{s}{\sqrt{n}}$
* Voorwaarden: willekeurige steekproef, normaal verdeelde populatie (of grote steekproef $n > 30$), en onafhankelijke waarnemingen.
* **1-steekproef t-toets:** Test of het populatiegemiddelde ($\mu$) significant afwijkt van een specifieke waarde (vaak 0).
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$
* Voorwaarden: idem als bij het betrouwbaarheidsinterval.
### Rapporteren van t-toetsresultaten in APA-stijl
* Vermeld de toetsingsgrootheid ($t$), vrijheidsgraden ($df$), de waarde ervan, en de p-waarde.
* Voorbeeld: $t(df) = \text{waarde}, p = \text{waarde}$. Rapporteer p-waarden met 3 decimalen, of $p < 0.001$ indien van toepassing.
* Vermeld ook het betrouwbaarheidsinterval (CI) en de effectgrootte (bijv. Cohen's $d$).
### T-toetsen voor vergelijking van twee gemiddelden
* **Gepaarde t-toets:** Gebruikt voor afhankelijke steekproeven (bv. voor- en nametingen bij dezelfde personen).
* Toetst de gemiddelde verschillen tussen gekoppelde waarnemingen.
* Behandeld als een 1-steekproef t-toets op de verschilscores.
* **Onafhankelijke t-toets:** Gebruikt voor onafhankelijke steekproeven (twee aparte groepen).
* Toetst of de gemiddelden van twee onafhankelijke groepen significant verschillen.
* De toetsingsgrootheid $t$ gebruikt de geschatte standaardafwijkingen van beide groepen.
* De berekening van vrijheidsgraden kan complex zijn; een conservatieve methode is het gebruik van $df = \min(n_1 - 1, n_2 - 1)$.
---
### Core idea
* De t-verdeling wordt gebruikt voor inferentie wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* De t-verdeling lijkt conceptueel op de z-verdeling (normaalverdeling) maar heeft dikkere staarten, wat betekent dat extremere waarden meer kans hebben om voor te komen.
* De vorm van de t-verdeling is afhankelijk van het aantal vrijheidsgraden ($df$), wat meestal gelijk is aan de steekproefgrootte min één ($n-1$).
### Key facts
* De t-verdeling is symmetrisch rond 0, net als de standaard normaalverdeling.
* Dikkere staarten van de t-verdeling dan de normaalverdeling zijn cruciaal voor het correct bepalen van significantieniveaus (alfa) en betrouwbaarheidsintervallen.
* Naarmate de vrijheidsgraden toenemen (grotere steekproef), benadert de t-verdeling de normaalverdeling.
* William Sealy Gosset introduceerde de t-verdeling onder het pseudoniem 'Student' bij Guinness Brewery voor analyses met kleine steekproeven.
* Bij het schatten van $\sigma$ met $s$, is de steekproevenverdeling van het gemiddelde t-verdeeld in plaats van normaal verdeeld.
* Formule voor de toetsingsgrootheid $t$: $t = \frac{\bar{x} - \mu}{s / \sqrt{n}}$
### Key concepts
* **Vrijheidsgraden ($df$)**: Het aantal onafhankelijke gegevenspunten die vrij kunnen variëren nadat een schatting is gemaakt. Voor een 1-steekproef t-test is $df = n-1$.
* **Betrouwbaarheidsinterval (BI) met t-verdeling**: De formule voor het BI wordt aangepast; de $z^*$-waarde wordt vervangen door een $t^*$-waarde, verkregen uit de t-tabel met de juiste $df$ en betrouwbaarheidsniveau.
* $\text{BI} = \bar{x} \pm t^* \times \frac{s}{\sqrt{n}}$
* **1-steekproef t-toets**: Wordt gebruikt om te toetsen of een steekproefgemiddelde significant verschilt van een bekend populatiegemiddelde ($\mu$) wanneer $\sigma$ onbekend is.
* Populatie is normaal verdeeld, of de steekproef is groot genoeg ($n > 30$) zodat de Centrale Limietstelling van toepassing is (t-procedures zijn robuust tegen schendingen van normaliteit, vooral bij grotere steekproeven).
* Onafhankelijke observaties binnen de steekproef en tussen steekproeven (indien van toepassing). Voor ongepaarde steekproeven geldt dat de populatie minstens 20 keer zo groot moet zijn als de steekproef ($N \ge 20n$).
* **Gepaarde t-toets**: Een speciaal geval van de 1-steekproef t-toets, gebruikt voor voor- en nametingen of andere afhankelijke paren. De toets wordt uitgevoerd op de *verschillen* tussen de paren.
* $H_0: \mu_d = 0$ (het gemiddelde verschil is nul).
### Implications
* Het niet kennen van $\sigma$ leidt tot de t-verdeling, wat dikkere staarten betekent en daardoor hogere kritieke waarden voor een gegeven significantieniveau.
* Dit vereist grotere verschillen om significantie te bereiken vergeleken met een z-test met bekende $\sigma$.
* De robuustheid van t-procedures betekent dat kleine afwijkingen van de normaliteitsassumptie, vooral bij grotere steekproeven, vaak acceptabel zijn.
* De t-toets voor gepaarde data is efficiënter dan een t-toets voor onafhankelijke steekproeven omdat het individuele verschillen tussen paren elimineert, wat leidt tot meer power.
* Het correct rapporteren van t-toets resultaten in APA-stijl omvat de toetsingsgrootheid ($t$), vrijheidsgraden ($df$), p-waarde, en het betrouwbaarheidsinterval.
---
* Wanneer de populatie standaardafwijking ($\sigma$) onbekend is, wordt de z-verdeling vervangen door de t-verdeling voor inferentie over populatiegemiddelden.
* De t-verdeling is conceptueel vergelijkbaar met de normaalverdeling, maar heeft dikkere staarten, wat aangeeft dat er meer variabiliteit is wanneer $\sigma$ geschat wordt.
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden ($df$), dat gerelateerd is aan de steekproefgrootte.
* William Sealy Gosset, werkzaam bij Guinness, publiceerde onder het pseudoniem "Student" en ontwikkelde de t-verdeling voor kleine steekproeven.
* De z-standaardisatie gebruikt $\sigma$, de populatie standaardafwijking, die zelden bekend is.
* De t-standaardisatie gebruikt de geschatte populatie standaardafwijking, $s$, gebaseerd op de steekproef standaardafwijking.
* De steekproevenverdeling van het gemiddelde bij onbekende $\sigma$ volgt een t-verdeling met $df = n-1$.
* De t-verdeling is symmetrisch rond 0 met dikkere staarten dan de standaard normaalverdeling.
* Naarmate de steekproefgrootte ($n$) toeneemt, benadert de t-verdeling de normaalverdeling.
* Vrijheidsgraden ($df$) vertegenwoordigen het aantal onafhankelijke gegevenspunten dat een statistische berekening kan variëren.
* Voor standaarddeviatieschattingen deelt men door $n-1$ (vrijheidsgraden).
### Belangrijke concepten
* **t-statistiek**: De toetsingsgrootheid voor de t-verdeling, berekend als $t = \frac{\bar{x} - \mu}{s/\sqrt{n}}$.
* **Vrijheidsgraden (df)**: $df = n-1$ voor een 1-steekproef t-toets.
* **t-verdeling vs. Z-verdeling**: Dikkere staarten in de t-verdeling resulteren in grotere kritieke waarden voor hetzelfde betrouwbaarheidsniveau of significantieniveau.
* **1-steekproef t-betrouwbaarheidsinterval**: Formule: $\bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}$, waarbij $t^*$ de kritieke t-waarde is voor een gegeven $df$ en betrouwbaarheidsniveau.
* **1-steekproef t-toets**: Gebruikt om te toetsen of een populatiegemiddelde afwijkt van een specifieke waarde. De toetsingsgrootheid is de t-statistiek.
* Populatie is ongeveer normaal verdeeld (vooral belangrijk bij kleine $n$).
* Onafhankelijke observaties (voor koppels: verschilscores normaal verdeeld; voor onafhankelijke groepen: beide populaties normaal verdeeld of $n$ groot genoeg).
* **Robuustheid**: t-procedures zijn relatief robuust tegen schendingen van de normaliteitsaanname, vooral bij grotere steekproeven.
* Onbekendheid van $\sigma$ leidt tot grotere onzekerheid, zichtbaar in de dikkere staarten van de t-verdeling.
* Kleinere steekproeven vereisen een t-toets omdat de schatting van $\sigma$ minder betrouwbaar is.
* Bij het bepalen van betrouwbaarheidsintervallen of significante verschillen, leiden de dikkere staarten van de t-verdeling tot grotere intervallen of hogere kritieke waarden vergeleken met de z-verdeling.
* Het correct identificeren van de vrijheidsgraden is cruciaal voor het gebruik van t-tabellen.
### Voorbeelden
---
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling) maar wordt gebruikt wanneer de populatie standaardafwijking $(\sigma)$ onbekend is en geschat moet worden uit de steekproef.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat extreme waarden waarschijnlijker zijn. Dit compenseert voor de extra onzekerheid door het schatten van $\sigma$.
* Elke t-verdeling wordt gespecificeerd door zijn vrijheidsgraden (degrees of freedom, df), wat doorgaans $n-1$ is voor een 1-steekproef context.
* Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de normaalverdeling.
* Inferentie ( conclusies trekken over een populatie uit een steekproef) met een onbekende $\sigma$ vereist de t-verdeling.
* William Sealy Gosset, werkzaam voor Guinness, introduceerde de t-verdeling onder het pseudoniem "Student" om te analyseren met kleine steekproeven.
* Wanneer $\sigma$ geschat wordt door de steekproefstandaardafwijking $(s)$, wijkt de steekproevenverdeling van het gemiddelde af van de normaalverdeling.
* De t-toets is robuuster dan de z-toets bij kleinere steekproeven en wanneer de populatie niet perfect normaal verdeeld is, mits de asymmetrie beperkt is.
* De standaardfout $(\text{SE})$ bij de t-verdeling wordt berekend met de steekproefstandaardafwijking $(s)$: $\text{SE} = \frac{s}{\sqrt{n}}$.
* Bij het vergelijken van twee populaties met onbekende en potentieel verschillende standaardafwijkingen, wordt de t-toets gebruikt, waarbij de berekening van vrijheidsgraden conservatief kan zijn (kleinste $n-1$).
### Betrouwbaarheidsintervallen met t-verdeling
* Het t-betrouwbaarheidsinterval heeft de algemene vorm: $\text{steekproefgemiddelde} \pm (\text{kritieke t-waarde} \times \text{standaardfout})$.
* De kritieke t-waarde $(t^*)$ wordt opgezocht in de t-tabel op basis van het gewenste betrouwbaarheidsniveau en de vrijheidsgraden $(df = n-1)$.
* Voorwaarden voor het t-betrouwbaarheidsinterval zijn: random steekproef, populatie is normaal verdeeld (of $n > 30$ door centrale limietstelling), en onafhankelijke waarnemingen.
### T-toetsen
* **1-steekproef t-toets:** Gebruikt om te toetsen of het populatiegemiddelde $(µ)$ significant afwijkt van een hypothetische waarde (vaak 0). De toetsingsgrootheid is $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$.
- **T-toets voor gekoppelde paren (Paired t-test):** Wordt gebruikt voor metingen op dezelfde proefpersonen (bv. voor/na behandeling) of gekoppelde eenheden. De analyse focust op de verschilscores, die vervolgens met een 1-steekproef
* Vrijheidsgraden $(df)$ zijn het aantal paren min 1.
* **T-toets voor onafhankelijke steekproeven (Independent samples t-test):** Vergelijkt de gemiddelden van twee onafhankelijke groepen.
* De standaardfout van het verschil wordt berekend op basis van de individuele steekproefstandaardafwijkingen en groottes.
* De berekening van vrijheidsgraden kan complex zijn; een conservatieve benadering gebruikt het minimum van $(n_1-1)$ en $(n_2-1)$.
- > **Tip:** Rapporteer t-toetsresultaten altijd in APA-stijl, inclusief de toetsingsgrootheid $(t)$, vrijheidsgraden $(df)$, de exacte $p$-waarde (of $p < 0,001$), het betrouwbaarheidsinterval en de effectgrootte indien relevant
- > **Voorbeeld:** Een 1-steekproef t-toets gaf aan dat het gemiddelde aantal incidenten significant hoger was tijdens volle maan $(t(14) = 6,45, p < 0,001, 95\% \text{ BI} [1,6, 3,2])$
---
* De t-verdeling lijkt conceptueel op de z-verdeling (normaalverdeling), maar heeft dikkere staarten.
* T-verdelingen zijn er in verschillende vormen, gespecificeerd door vrijheidsgraden ($df$), die meestal gelijk zijn aan de steekproefgrootte minus één ($df = n-1$).
* Naarmate de vrijheidsgraden toenemen, nadert de t-verdeling de standaard normaalverdeling.
* De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat moet worden met de steekproefstandaardafwijking ($s$).
### Belangrijke concepten en formules
* **Student's t-verdeling:**
* Symmetrisch rond het gemiddelde van 0.
* Dikkere staarten dan de normaalverdeling, wat betekent dat extremere waarden waarschijnlijker zijn.
* De specifieke vorm hangt af van het aantal vrijheidsgraden ($df$).
* **Vrijheidsgraden ($df$):**
* Representeert het aantal onafhankelijke gegevenspunten die bijdragen aan een schatting.
* Voor een 1-steekproef t-toets of t-interval: $df = n - 1$.
* **1-steekproef t-betrouwbaarheidsinterval voor $\mu$ (als $\sigma$ onbekend):**
* Vorm: $\bar{x} \pm t^{\ast} \times \frac{s}{\sqrt{n}}$
* $t^{\ast}$: kritieke t-waarde voor het gewenste betrouwbaarheidsniveau en $df$.
* **1-steekproef t-toets voor $\mu$:**
* $\mu_0$: hypothetisch populatiegemiddelde onder de nulhypothese.
* Doel: Bepalen of het steekproefgemiddelde significant afwijkt van een hypothetisch populatiegemiddelde.
### Voorwaarden voor t-procedures
* **Random:** De steekproef moet willekeurig zijn.
- **Normaal verdeeld:** De populatie waaruit de steekproef is getrokken, moet bij benadering normaal verdeeld zijn, vooral bij kleinere steekproeven. Bij grotere steekproeven ($n > 30$) is de t-procedure robuust, zelfs als de
* **Onafhankelijk:** Waarnemingen binnen de steekproef en tussen steekproeven (indien van toepassing) moeten onafhankelijk zijn. De populatiegrootte moet minstens 20 keer groter zijn dan de steekproefgrootte ($N \ge 20n$).
* **Gekoppelde (paired) t-toets:**
### Vrijheidsgraden bij twee onafhankelijke steekproeven
### Implicaties en Toepassingen
---
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling) en geeft aan hoeveel standaardfouten een waargenomen waarde verwijderd is van de verwachte waarde.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat er meer gewicht ligt in de staarten en minder in het midden.
* Er is niet één t-verdeling; er is een familie van t-verdelingen, elk gespecificeerd door het aantal vrijheidsgraden ($df$).
* Vrijheidsgraden ($df$) verwijzen naar het aantal onafhankelijke gegevenspunten dat kan variëren nadat een bepaald statistisch kenmerk (zoals het gemiddelde) is berekend; typisch $df = n - 1$.
* De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en wordt geschat met de steekproefstandaardafwijking ($s$).
* De schatting van $\sigma$ met $s$ introduceert extra onzekerheid, wat resulteert in de dikkere staarten van de t-verdeling vergeleken met de z-verdeling.
* Hoe groter het aantal vrijheidsgraden ($df$), hoe dichter de t-verdeling de standaard normaalverdeling benadert.
* Voor kleine steekproeven ($n$) zijn de staarten van de t-verdeling aanzienlijk dikker, wat leidt tot grotere kritieke waarden vergeleken met de z-verdeling.
* De t-verdeling is symmetrisch rond het gemiddelde van 0.
* De t-toets wordt gebruikt voor inferentie over populatiegemiddelden wanneer $\sigma$ onbekend is.
### Toepassingen en procedures
* **1-steekproef t-betrouwbaarheidsinterval:** Gebruikt om een interval te construeren waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt, met behulp van de t-verdeling met $n-1$ vrijheidsgraden.
* Vorm: $\bar{x} \pm t^\ast \cdot \frac{s}{\sqrt{n}}$
* Voorwaarden: Willekeurige steekproef, (ongeveer) normaal verdeelde populatie of grote steekproefgrootte ($n > 30$ via de Centrale Limietstelling).
* **1-steekproef t-toets (one-sample t-test):** Getoetst om te bepalen of een steekproefgemiddelde significant afwijkt van een hypothetisch populatiegemiddelde ($\mu_0$).
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$
* De p-waarde wordt bepaald op basis van de t-verdeling met $n-1$ vrijheidsgraden.
* **t-toets voor gekoppelde paren (Paired samples t-test):** Wordt gebruikt voor twee afhankelijke steekproeven (bv. voor- en nametingen bij dezelfde personen).
* Wordt omgezet naar een 1-steekproef t-toets op de verschilscores tussen de paren.
* Nulhypothese: het gemiddelde verschil tussen de paren is nul ($\mu_d = 0$).
* **t-toets voor onafhankelijke steekproeven (Independent samples t-test):** Wordt gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken.
* De toetsingsgrootheid $t$ gebruikt de gepoolde standaardafwijking (indien $\sigma_1 = \sigma_2$) of een aangepaste formule (indien $\sigma_1 \neq \sigma_2$).
* Vrijheidsgraden worden conservatief geschat, vaak als $\min(n_1 - 1, n_2 - 1)$ of via een complexere formule.
* Voorwaarden: Willekeurige, onafhankelijke steekproeven, (ongeveer) normaal verdeelde populaties of grote steekproefgroottes.
### Rapporteren van resultaten
* Resultaten worden gerapporteerd in APA-stijl, inclusief de toetsingsgrootheid (bv. $t$), vrijheidsgraden ($df$), p-waarde, betrouwbaarheidsinterval (CI) en effectgrootte (bv. Cohen's $d$).
* Voorbeeld APA-rapportering: "De gemiddelde bloeddruk daalde significant na de behandeling, $t(19) = -3.45, p < .001, 95\% CI [-12.5, -3.2], d = 0.77$."
### Robuustheid en aannames
---
# verschillende typen t-toetsen
### Kernbegrippen bij inferentie
* Inferentiële statistiek maakt uitspraken over een populatie op basis van steekproefgegevens.
* Steekproevenverdelingen beschrijven de variabiliteit van steekproefstatistieken (bv. gemiddelden) bij herhaaldelijke steekproeftrekking.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden uit de steekproef.
### De t-verdeling
* De t-verdeling lijkt conceptueel op de normaalverdeling (z-verdeling), met een symmetrische vorm rond nul.
* Kenmerkend voor t-verdelingen zijn dikkere staarten dan bij de standaard normaalverdeling.
* Er is niet één t-verdeling, maar een familie van verdelingen die afhangt van het aantal vrijheidsgraden ($df$).
* Vrijheidsgraden ($df$) worden doorgaans berekend als $df = n - 1$, waarbij $n$ de steekproefgrootte is.
* Naarmate $df$ toeneemt, benadert de t-verdeling de standaard normaalverdeling.
### -steekproef t-betrouwbaarheidsinterval
* Gebruikt om een interval te schatten waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt, wanneer $\sigma$ onbekend is.
* De formule volgt dezelfde logica als bij een bekende $\sigma$, maar met de t-verdeling in plaats van de z-verdeling.
* Het betrouwbaarheidsinterval (BI) wordt gevormd door het steekproefgemiddelde ($\bar{x}$) plus en min een foutenmarge.
* De foutenmarge bestaat uit een kritieke t-waarde ($t^*$) vermenigvuldigd met de standaardfout van het gemiddelde ($\frac{s}{\sqrt{n}}$).
* Voorwaarden:
* Willekeurige (random) steekproef.
* Gegevens uit de populatie zijn ongeveer normaal verdeeld (vooral belangrijk bij kleine steekproeven; bij $n > 30$ is de t-procedure robuust).
* Onafhankelijkheid van waarnemingen.
### -steekproef t-toets (one-sample t-test)
* Toetst of het populatiegemiddelde ($\mu$) significant verschilt van een gespecificeerde waarde (vaak nul).
* Toetsingsgrootheid ($t$): $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$, waarbij $\mu_0$ de hypothetische populatiewaarde is.
* Toetsen kunnen eenzijdig (links of rechts) of tweezijdig zijn.
* Bij het rapporteren van de resultaten in APA-stijl worden onder andere de toetsingsgrootheid, vrijheidsgraden ($df$), de p-waarde en het betrouwbaarheidsinterval vermeld.
### Vergelijkingen van twee gemiddelden met t-toetsen
* Twee hoofdtypes: t-toets voor gekoppelde paren en t-toets voor onafhankelijke steekproeven.
#### T-toets voor gekoppelde paren (Paired samples t-test)
* Gebruikt voor afhankelijke steekproeven, zoals voor- en nametingen bij dezelfde proefpersonen (within-subjects design).
* Wordt uitgevoerd op de verschilscores tussen de gepaarde waarnemingen.
* Effectief een 1-steekproef t-toets toegepast op de verschilscores ($d$).
* De nulhypothese is meestal dat het gemiddelde verschil gelijk is aan nul ($\mu_d = 0$).
#### T-toets voor onafhankelijke steekproeven (Independent samples t-test)
---
### Kernidee
* De t-verdeling is een theoretische verdeling die wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt op basis van de steekproefstandaardafwijking ($s$).
* Het onderscheid tussen een z-toets (wanneer $\sigma$ bekend is) en een t-toets (wanneer $\sigma$ geschat wordt) is cruciaal voor inferentiële statistiek.
### Belangrijke concepten
* **Student's t-verdeling:**
* Conceptueel vergelijkbaar met de z-verdeling (standaardnormaalverdeling).
* Symmetrisch met één top op $x=0$.
* Heeft dikkere staarten dan de normaalverdeling, wat betekent dat extreme waarden waarschijnlijker zijn.
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden ($df$).
* **Vrijheidsgraden ($df$):**
* Specificeert de specifieke t-verdeling.
* Voor een 1-steekproef t-toets: $df = n - 1$, waarbij $n$ de steekproefgrootte is.
* Naarmate $df$ toeneemt, benadert de t-verdeling de normaalverdeling.
* **Standaardfout ($SE$):**
* De standaardafwijking van de steekproevenverdeling van het gemiddelde.
* Wanneer $\sigma$ onbekend is, wordt de geschatte standaardfout gebruikt: $SE = s / \sqrt{n}$.
* **Betrouwbaarheidsinterval (BI):**
* Het 1-steekproef t-betrouwbaarheidsinterval volgt dezelfde logica als bij een bekende $\sigma$, maar gebruikt de t-verdeling en een $t^*$-waarde in plaats van een $z^*$-waarde.
* Het BI heeft de vorm: $\bar{x} \pm t^* \cdot SE$.
* **T-toetsen:**
* **1-steekproef t-toets:** Vergelijkt het steekproefgemiddelde met een hypothetisch populatiegemiddelde ($\mu$).
* Toetsingsgrootheid: $t = (\bar{x} - \mu) / SE$.
* Voorwaarden: willekeurige steekproef, populatie ongeveer normaal verdeeld (vooral belangrijk bij kleine steekproeven, de test is robuust voor matige schendingen van normaliteit), en onafhankelijke waarnemingen.
* **Gepaarde t-toets (t-toets voor gekoppelde paren):** Vergelijkt de gemiddelden van twee afhankelijke steekproeven (bv. voor- en nametingen bij dezelfde personen).
* Wordt uitgevoerd op de verschilscores tussen de gekoppelde waarnemingen.
* Effectief een 1-steekproef t-toets op de verschilscores.
* Voorwaarden: de verschilscores zijn ongeveer normaal verdeeld.
### Voorwaarden voor t-procedures
### Rapporteren van resultaten (APA-stijl)
### Vergelijking met z-toets
---
* De t-verdeling is conceptueel vergelijkbaar met de standaard normaalverdeling, maar wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en wordt geschat op basis van de steekproefstandaardafwijking ($s$).
* t-toetsen zijn essentieel voor inferentie over gemiddelden wanneer populatiespreidingen onbekend zijn, vooral bij kleine steekproeven.
* t-toetsen zijn robuust, wat betekent dat ze redelijk betrouwbaar blijven, zelfs als niet alle aannames perfect zijn voldaan, met name bij een redelijke symmetrie van de data.
### Kernconcepten
* **William Sealy Gosset (Student-t):** Werkte bij Guinness en ontwikkelde de t-verdeling om te publiceren onder het pseudoniem 'Student' vanwege bedrijfsgeheimhouding.
* Symmetrisch rond het gemiddelde (0).
* Heeft dikkere staarten dan de standaard normaalverdeling, wat betekent dat er meer kans is op extreme waarden.
* De exacte vorm hangt af van de vrijheidsgraden ($df$).
* Wordt meestal berekend als steekproefgrootte ($n$) min 1 ($df = n-1$).
* Geeft de mate van onafhankelijkheid van de gegevens aan die de schatting beïnvloeden.
* Naarmate $df$ toeneemt, nadert de t-verdeling de standaard normaalverdeling.
* **Standaardfout van het gemiddelde ($SE$):** De standaardafwijking van de steekproevenverdeling van het gemiddelde, die wordt gebruikt in de t-toetsstatistiek.
* Bij het schatten van $\sigma$ door $s$, wordt de $SE$ gebaseerd op $s$.
* **Betrouwbaarheidsinterval (BI) voor $\mu$ (wanneer $\sigma$ onbekend):**
* Vorm: $\bar{x} \pm t^{\ast} \times SE_{\bar{x}}$
* $t^{\ast}$ is de kritieke t-waarde voor het gewenste betrouwbaarheidsniveau en de vrijheidsgraden.
* $SE_{\bar{x}}$ is de geschatte standaardfout van het gemiddelde ($\frac{s}{\sqrt{n}}$).
* **1-steekproef t-toets:**
* Gebruikt om te bepalen of het gemiddelde van een populatie significant afwijkt van een bekende waarde of een hypothetisch gemiddelde ($\mu_0$).
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$
* Voorwaarden: Random steekproef, normaal verdeelde populatie (of voldoende grote steekproef $n > 30$ door de centrale limietstelling).
* **t-toetsen voor twee gemiddelden:**
* **Gekoppelde t-toets (Paired samples t-test):**
* Gebruikt voor metingen op dezelfde individuen op verschillende tijdstippen of onder verschillende condities (bv. voor- en nametingen).
### Sleutelfeiten
### Implicaties
### Voorwaarden voor t-toetsen
---
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), maar wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat extremere waarden waarschijnlijker zijn.
* Elke t-verdeling wordt gespecificeerd door het aantal vrijheidsgraden (df), wat meestal gelijk is aan de steekproefgrootte minus 1 ($n-1$).
* Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de normaalverdeling.
### Kenmerken van de t-verdeling
* Symmetrisch met een top op x = 0.
* Dikkere staarten dan de normaalverdeling, waardoor de kans op het verwerpen van de nulhypothese bij een gegeven alfa groter is wanneer $\sigma$ geschat wordt.
* De specifieke vorm van de t-verdeling hangt af van het aantal vrijheidsgraden (df).
### T-toetsen en vrijheidsgraden
* Vrijheidsgraden ($df$) vertegenwoordigen het aantal onafhankelijke gegevenspunten die kunnen variëren.
* Voor de schatting van de standaardafwijking wordt gedeeld door $n-1$ in plaats van $n$.
* Bij het gebruik van de t-tabel zijn de vrijheidsgraden cruciaal voor het vinden van de juiste kritieke waarde.
### T-verdeling versus standaard normaalverdeling
* De z-verdeling (standaard normaalverdeling) wordt gebruikt wanneer $\sigma$ bekend is.
* De t-verdeling wordt gebruikt wanneer $\sigma$ onbekend is en geschat wordt uit de steekproef.
* De dikkere staarten van de t-verdeling compenseren voor de extra onzekerheid door het schatten van $\sigma$.
### Gevolgen van het schatten van $\sigma$
* Het schatten van $\sigma$ uit de steekproef maakt de steekproevenverdeling breder (dikker staarten).
* Dit leidt tot een grotere kans op het onterecht verwerpen van de nulhypothese (Type I-fout) als de standaardprocedures worden gevolgd.
* Om dit te corrigeren, worden de kritieke waarden van de t-verdeling gebruikt.
### Toepassingen en typen t-toetsen
* **Inferentie over één populatie:**
* 1-steekproef t-betrouwbaarheidsinterval.
* 1-steekproef t-toets.
* **Inferentie over twee populaties:**
* t-toetsen voor gekoppelde paren (afhankelijke steekproeven).
* t-toetsen voor onafhankelijke steekproeven.
* Berekent het interval waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt, wanneer $\sigma$ onbekend is.
* Volgt dezelfde logica als het z-betrouwbaarheidsinterval, maar gebruikt de t-verdeling met $n-1$ vrijheidsgraden.
* Formule: $\bar{x} \pm t^* \times \frac{s}{\sqrt{n}}$.
### -steekproef t-toets
### T-toets voor gekoppelde paren (afhankelijke steekproeven)
### T-toets voor onafhankelijke steekproeven
### Rapporteren van t-toetsresultaten (APA-stijl)
---
### Kernbegrippen en context
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), maar wordt gebruikt wanneer de populatie standaardafwijking $(\sigma)$ onbekend is en geschat moet worden met de steekproefstandaardafwijking $(s)$.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat er meer kans is op extreme waarden.
* Er is niet één 't-verdeling'; voor elke steekproefgrootte is er een specifieke t-verdeling, gedefinieerd door de vrijheidsgraden $(df)$.
* Vrijheidsgraden $(df)$ zijn het aantal onafhankelijke gegevenspunten dat kan variëren in een berekening. Voor een steekproefgemiddelde is dit typisch $n-1$.
* Een 1-steekproef t-betrouwbaarheidsinterval (BI) wordt gebruikt om een populatiegemiddelde $(\mu)$ te schatten wanneer $(\sigma)$ onbekend is.
* Het interval heeft de vorm: $\bar{x} \pm t^{\ast} \times \frac{s}{\sqrt{n}}$.
* Hierbij is $\bar{x}$ het steekproefgemiddelde, $s$ de steekproefstandaardafwijking, $n$ de steekproefgrootte, en $t^{\ast}$ de kritieke t-waarde voor het gewenste betrouwbaarheidsniveau en $n-1$ vrijheidsgraden.
* Voorwaarden voor gebruik:
* **Random steekproef:** De steekproef moet representatief zijn voor de populatie.
* **Normaal verdeelde populatie:** Cruciaal voor kleine steekproeven $(n < 30)$. Bij grotere steekproeven $(n > 30)$ is de t-procedure robuust, vooral tegen scheefheid.
* Gebruikt om te testen of een steekproefgemiddelde $(\bar{x})$ significant afwijkt van een hypothetisch populatiegemiddelde $(\mu_0)$.
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$.
* Het resultaat $(t)$ geeft aan hoeveel standaardfouten het steekproefgemiddelde afwijkt van het hypothetische populatiegemiddelde.
* Kan eenzijdig (richtinggebonden hypothese) of tweezijdig (geen richtinggebonden hypothese) zijn.
* **Voorwaarden:** Idem als voor het 1-steekproef t-betrouwbaarheidsinterval.
* **Rapportage (APA-stijl):** Vermeld beschrijvende maten (bv. $\bar{x}, s$), de toetsingsgrootheid $(t)$, vrijheidsgraden $(df)$, de p-waarde $(p)$, en eventueel het betrouwbaarheidsinterval $(CI)$ en de effectgrootte $(d)$.
### T-toets voor gekoppelde paren (Paired samples t-test)
* Gebruikt om het gemiddelde verschil tussen twee gerelateerde metingen te toetsen, bijvoorbeeld voor- en nametingen bij dezelfde personen.
* De analyse wordt uitgevoerd op de verschilscores tussen de paren.
* Toetsingsgrootheid: $t = \frac{\bar{d} - \mu_{d0}}{s_d/\sqrt{n}}$, waarbij $\bar{d}$ het gemiddelde verschil is, $s_d$ de standaardafwijking van de verschillen, en $n$ het aantal paren. $\mu_{d0}$ is typisch 0 (geen verschil).
* **Voorwaarden:**
* **Gekoppelde paren:** De data moeten logisch aan elkaar gekoppeld zijn.
* **Verschillen normaal verdeeld:** De verschilscores moeten (ongeveer) normaal verdeeld zijn.
* Voordeel: Controleert voor persoonsgebonden verschillen, wat de power kan verhogen.
### T-toets voor onafhankelijke steekproeven (Independent samples t-test)
* Gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken.
---
### Kernconcepten t-verdelingen
* Een t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), waarbij een t-waarde ook aangeeft hoeveel standaardfouten een waarde van het gemiddelde af ligt.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* t-verdelingen zijn symmetrisch rond 0, maar hebben dikkere staarten dan de standaard normaalverdeling.
* Er bestaat niet één t-verdeling; het aantal vrijheidsgraden ($df = n - 1$) bepaalt de specifieke vorm van de verdeling.
### Vrijheidsgraden
* Vrijheidsgraden ($df$) vertegenwoordigen het aantal onafhankelijke gegevenspunten in een dataset die elke mogelijke waarde kunnen aannemen.
* Bij het berekenen van een steekproefgemiddelde zijn $n-1$ gegevens vrij te variëren, terwijl het laatste gegeven vastligt om de som te laten kloppen.
* Naarmate de steekproefgrootte ($n$) toeneemt, benadert de t-verdeling de normaalverdeling.
### Betrouwbaarheidsinterval voor een steekproefgemiddelde
* Het 1-steekproef t-betrouwbaarheidsinterval ($\text{BI}$) schat het populatiegemiddelde ($\mu$) wanneer $\sigma$ onbekend is.
* Het BI wordt berekend als: $\bar{x} \pm t^\ast \cdot \frac{s}{\sqrt{n}}$, waarbij $t^\ast$ de kritieke t-waarde is voor het gekozen betrouwbaarheidsniveau en $df$.
* Voorwaarden voor een 1-steekproef t-interval zijn: random steekproef, normaal verdeelde populatie (of $n > 30$ door de centrale limietstelling), en onafhankelijke waarnemingen.
* De 1-steekproef t-toets vergelijkt een steekproefgemiddelde ($\bar{x}$) met een hypothetisch populatiegemiddelde ($\mu_0$).
* De toetsingsgrootheid is: $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$.
* Toetsen kunnen eenzijdig of tweezijdig zijn, afhankelijk van de alternatieve hypothese.
* Voorwaarden zijn identiek aan die voor het t-betrouwbaarheidsinterval.
- > **Tip:** Bij het rapporteren van t-toetsen in APA-stijl vermeld je de toetsingsgrootheid, de vrijheidsgraden (t(df)), de p-waarde, en indien beschikbaar, het betrouwbaarheidsinterval en de effectgrootte
### t-toetsen voor het vergelijken van twee gemiddelden
* **t-toets voor gekoppelde paren (Paired samples t-test):**
* Gebruikt voor metingen die aan elkaar gekoppeld zijn (bv. voor- en nametingen bij dezelfde proefpersonen).
* Analyseert de verschilscores tussen de paren.
* De nulhypothese is dat het gemiddelde verschil tussen de paren nul is ($H_0: \mu_d = 0$).
* Dit is een speciaal geval van de 1-steekproef t-toets toegepast op de verschilscores.
* **t-toets voor onafhankelijke steekproeven (Independent samples t-test):**
* De nulhypothese is dat de gemiddelden van de twee populaties gelijk zijn ($H_0: \mu_1 = \mu_2$).
* Wanneer $\sigma_1$ en $\sigma_2$ onbekend zijn, worden geschatte standaardafwijkingen ($s_1, s_2$) gebruikt.
* De toetsingsgrootheid is: $t = \frac{\bar{x}_1 - \bar{x}_2}{SE_{\text{diff}}}$, waarbij $SE_{\text{diff}}$ de standaardfout van het verschil is.
### Onderscheidingsvermogen (Power) en Beslissingsfouten
---
### Kernconcepten bij t-toetsen
* **T-verdeling:** Conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), waarbij `t` aangeeft hoeveel standaardfouten de waargenomen waarde verwijderd is van het verwachte gemiddelde.
- **Vrijheidsgraden (df):** Bepalen de specifieke vorm van de t-verdeling. Bij de 1-steekproef t-toets is `df = n - 1`. Bij de 2-steekproeven t-toets voor onafhankelijke steekproeven is de berekening van
- **Dikkere staarten van de t-verdeling:** Vergeleken met de normaalverdeling, wat betekent dat er een grotere kans is op extreme waarden, waardoor een hogere kritieke waarde nodig is om significantie aan
- **Robuustheid van t-procedures:** T-toetsen zijn relatief robuust, wat betekent dat ze nog steeds redelijk nauwkeurig zijn, zelfs als niet alle aannames (zoals normale verdeling) perfect voldaan zijn, met name bij
* **Doel:** Schatting maken van het populatiegemiddelde (µ) wanneer de populatiestandaardafwijking (σ) onbekend is.
* **Formule:** Het interval is opgebouwd rond het steekproefgemiddelde (x̄) met een foutenmarge: $x̄ \pm t^* \times SE$.
* **Componenten foutenmarge:**
* `t*`: Kritieke t-waarde die afhangt van het betrouwbaarheidsniveau en de vrijheidsgraden.
* $SE$: Standaardfout van het gemiddelde, berekend als $s/\sqrt{n}$, waarbij $s$ de steekproefstandaardafwijking is.
* **Random steekproef:** Representatief voor de populatie.
* **Normaal verdeelde populatie:** Of een voldoende grote steekproef (`n > 30`) vanwege de centrale limietstelling.
* **Onafhankelijke waarnemingen:** Binnen de steekproef en tussen de populaties (indien relevant).
* **Doel:** Nagaan of het populatiegemiddelde (µ) significant afwijkt van een bepaalde hypothetische waarde (vaak 0 of een norm).
* **Toetsingsgrootheid:** $t = \frac{x̄ - \mu_0}{s/\sqrt{n}}$, waarbij $\mu_0$ de hypothetische populatiewaarde is.
* **Beslissing:** Vergelijking van de berekende t-waarde met kritieke t-waarden uit de t-tabel, afhankelijk van het gekozen significantieniveau ($\alpha$) en de richting van de hypothese (eenzijdig/tweezijdig).
* **Voorbeeld:** Testen of de gemiddelde zuurstofconcentratie in water significant lager is dan een vastgestelde norm (5 eenheden).
### T-toetsen voor 2 gemiddelden
* **Algemeen:** Vergelijken van de gemiddelden van twee groepen om te bepalen of er een significant verschil bestaat.
* **Twee hoofdtypes:**
* **Gekoppelde (paired) t-toets:** Voor afhankelijke steekproeven (bv. voor- en nametingen bij dezelfde personen).
* **Onafhankelijke (independent) t-toets:** Voor onafhankelijke steekproeven (bv. vergelijking van twee aparte groepen).
#### T-toets voor gekoppelde paren
* **Concept:** Wordt gereduceerd tot een 1-steekproef t-toets op de verschilscores binnen de paren.
* **Nulhypothese (H₀):** Het gemiddelde verschil tussen de paren is nul ($\mu_d = 0$).
* **Voordeel:** Hogere power en controle over persoonskenmerken, omdat metingen van dezelfde individuen afkomstig zijn.
* **Voorbeeld:** Vergelijken van het aantal incidenten tijdens volle maan versus andere dagen bij dezelfde groep patiënten.
#### T-toets voor onafhankelijke steekproeven
---
* t-toetsen worden gebruikt voor inferentie over populatiegemiddelden wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden op basis van steekproefgegevens.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat cruciaal is bij het nemen van statistische beslissingen, vooral bij kleinere steekproeven.
* Vrijheidsgraden ($df$) specificeren de precieze vorm van een t-verdeling en zijn meestal gelijk aan de steekproefgrootte min één ($n-1$).
### Belangrijke feiten
* William Sealy Gosset introduceerde de t-verdeling onder het pseudoniem "Student".
* De t-toets wordt gebruikt wanneer de populatiestandaardafwijking onbekend is en de steekproefstandaardafwijking ($s$) wordt gebruikt als schatter.
* De t-verdeling benadert de normaalverdeling naarmate het aantal vrijheidsgraden toeneemt.
* Vrijheidsgraden geven het aantal onafhankelijke waarden aan dat kan variëren in een dataset zonder de som of het gemiddelde te beïnvloeden.
* Voor de t-toets wordt de steekproefstandaardafwijking ($s$) gebruikt, en de foutenmarge is gebaseerd op de t-verdeling met $n-1$ vrijheidsgraden.
* De steekproefstandaardafwijking wordt berekend door te delen door $n-1$ in plaats van $n$.
* **Inferentie**: conclusies trekken over een populatie op basis van steekproefgegevens.
* **Steekproevenverdeling van het gemiddelde (bij onbekende $\sigma$)**: De verdeling van mogelijke steekproefgemiddelden wanneer de populatiestandaardafwijking onbekend is; deze volgt een t-verdeling.
* **t-verdeling**: Een kansverdeling die lijkt op de normaalverdeling, maar met dikkere staarten, afhankelijk van het aantal vrijheidsgraden.
* **Vrijheidsgraden ($df$)**: Het aantal onafhankelijke waarden dat vrij kan variëren; voor een eensteekproef t-toets is $df = n-1$.
* **Robuustheid van t-procedures**: t-toetsen zijn relatief ongevoelig voor schendingen van de normaliteitsaanname, vooral bij grotere steekproeven.
* **Betrouwbaarheidsinterval (BI)**: Een bereik van waarden dat waarschijnlijk de populatieparameter bevat. Voor een eensteekproef t-interval is de vorm $\bar{x} \pm t^* \times SE$.
* **Standaardfout ($SE$)**: De standaardafwijking van de steekproevenverdeling; voor het gemiddelde is dit $s/\sqrt{n}$.
* Het gebruik van de t-verdeling in plaats van de z-verdeling compenseert voor de extra onzekerheid die ontstaat door het schatten van de populatiestandaardafwijking.
* Dikkere staarten van de t-verdeling leiden tot bredere betrouwbaarheidsintervallen en vereisen grotere verschillen om statistische significantie te bereiken vergeleken met de z-verdeling bij dezelfde alpha.
* Voorwaarden voor t-procedures (random, normaal verdeeld, onafhankelijk) moeten worden overwogen voor geldige conclusies.
* Bij kleinere steekproeven is de vorm van de t-verdeling sterker afhankelijk van de vrijheidsgraden.
### Typen t-toetsen en hun toepassingen
* **1-steekproef t-toets**: Vergelijkt het gemiddelde van één steekproef met een bekende of verwachte populatiewaarde (bijv. $\mu_0$).
* Voorwaarden: Random steekproef, normaal verdeelde populatie (of $n > 30$ volgens de Centrale Limietstelling), onafhankelijke observaties.
* **Gepaarde t-toets (t-toets voor gekoppelde paren)**: Vergelijkt de gemiddelde verschillen tussen twee gerelateerde metingen (bv. voor- en nametingen van dezelfde personen).
* Gedrag: Transformeert gepaarde data naar verschilscores en voert een 1-steekproef t-toets uit op deze verschillen. $df = n_{paren}-1$.
### Gebruik van t-tabellen en rapportage
### Voorbeeld van een 1-steekproef t-toets
### Vergelijking van gemiddelden
---
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), maar wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* T-verdelingen zijn symmetrisch rond nul en hebben dikkere staarten dan de normaalverdeling, wat betekent dat de kans op extreme waarden groter is.
* De vorm van de t-verdeling hangt af van de vrijheidsgraden ($df$), die meestal gelijk zijn aan de steekproefgrootte min één ($n-1$). Naarmate $df$ toeneemt, nadert de t-verdeling de standaard normaalverdeling.
* Vrijheidsgraden representeren het aantal onafhankelijke waarden dat kan variëren in een dataset, gegeven een bepaald gemiddelde.
### T-toetsen en betrouwbaarheidsintervallen
- **1-steekproef t-betrouwbaarheidsinterval (BI)**: Dit is een interval rond het steekproefgemiddelde ($x̄$) waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt, wanneer $\sigma$ onbekend is. De formule is $x̄ \pm t^* \cdot SE$, waarbij $t^*$ de kritieke t-waarde
* Voorwaarden: willekeurige steekproef, populatie is normaal verdeeld (vooral belangrijk bij kleine steekproeven). De robuustheid van t-toetsen helpt bij lichte schendingen van normaliteit.
* **1-steekproef t-toets**: Gebruikt om te toetsen of een steekproefgemiddelde significant afwijkt van een hypothetisch populatiegemiddelde ($\mu_0$).
* Toetsingsgrootheid: $t = \frac{x̄ - \mu_0}{s/\sqrt{n}}$.
* Rapportering (APA-stijl): Vermeld beschrijvende maten, toetsingsgrootheid ($t$), vrijheidsgraden ($df$), overschrijdingskans ($p$), en optioneel het betrouwbaarheidsinterval en effectgrootte ($d$).
* Voorbeeld: Toetsen of de gemiddelde waterkwaliteit voldoet aan een norm.
### Vergelijkingen tussen twee gemiddelden
* **T-toets voor gekoppelde paren (paired samples t-test)**: Gebruikt om de gemiddelde verschillen tussen twee gerelateerde metingen van dezelfde proefpersonen (bv. voor- en nameting) te vergelijken.
* Dit wordt gereduceerd tot een 1-steekproef t-toets op de verschilscores.
* Voorwaarden: Verschillen zijn normaal verdeeld.
* Voorbeeld: Agressieve incidenten bij volle maan versus andere dagen.
* **T-toets voor onafhankelijke steekproeven (independent samples t-test)**: Gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken.
* Toetsingsgrootheid: De formule lijkt op de z-test, maar gebruikt de geschatte standaardafwijkingen ($s_1, s_2$) van de groepen en een aangepast aantal vrijheidsgraden.
* Zelfs als $\sigma_1 = \sigma_2$ (gelijke populatiestandaardafwijkingen) redelijk is, vereenvoudigt dit de berekening. Anders wordt er een conservatieve schatting van $df$ gebruikt (kleinste van $n_1-1$ en $n_2-1$).
* Voorwaarden: Willekeurige steekproeven, onafhankelijkheid van observaties, en normaliteit van de groepsverdelingen (of de verdeling van de verschillen).
### Onderscheidingsvermogen (Power) en Fouten
* **Type I fout (vals positief)**: Het onterecht verwerpen van de nulhypothese ($\alpha$).
* **Type II fout (vals negatief)**: Het onterecht aanvaarden van de nulhypothese ($\beta$).
* **Onderscheidingsvermogen (Power)**: De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is ($1 - \beta$).
* Power wordt verhoogd door een grotere steekproefgrootte ($n$), een groter effect (verschil tussen hypothesen), of een minder strikt significantieniveau ($\alpha$).
- De t-verdeling is cruciaal omdat de populatiestandaardafwijking ($\sigma$) meestal onbekend is en geschat moet worden, wat leidt tot dikkere staarten en een hogere kans op Type I fouten als de
### Samenvatting T-toetsen en Z-toets
* **Z-toetsen**: Gebruikt wanneer $\sigma$ bekend is. De toetsingsgrootheid volgt een standaard normaalverdeling.
* **T-toetsen**: Gebruikt wanneer $\sigma$ onbekend is en geschat wordt met $s$. De toetsingsgrootheid volgt een t-verdeling die afhankelijk is van de vrijheidsgraden.
---
* De t-verdeling wordt gebruikt voor inferentie wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* De t-verdeling heeft dikkere staarten dan de standaard normaalverdeling, wat essentieel is voor het correct interpreteren van significante verschillen, vooral bij kleinere steekproeven.
* Er zijn verschillende soorten t-toetsen, afhankelijk van of men één populatie vergelijkt met een standaard, of twee populaties vergelijkt (gekoppelde of onafhankelijke groepen).
* **Student's t-verdeling:** Een familie van verdelingen die lijken op de normaalverdeling, maar met dikkere staarten, afhankelijk van het aantal vrijheidsgraden.
* **Vrijheidsgraden (df):** Het aantal onafhankelijke waarden dat vrij kan variëren in een steekproef; voor een 1-steekproef t-toets is dit $n-1$.
* **Geschatte populatiestandaardafwijking ($s$):** Gebruikt om de standaardfout te berekenen wanneer $\sigma$ onbekend is.
* **Standaardfout (SE):** De standaardafwijking van de steekproevenverdeling van het gemiddelde ($s_{\bar{x}} = \frac{s}{\sqrt{n}}$).
* **T-toetsgrootheid ($t$):** De gestandaardiseerde waarde die aangeeft hoeveel standaardfouten het steekproefgemiddelde afwijkt van het verwachte populatiegemiddelde onder de nulhypothese: $t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}}$.
* **Robuustheid van t-procedures:** T-toetsen zijn relatief robuust, zelfs als de normaliteitsaanname van de populatie licht geschonden wordt, vooral bij grotere steekproeven.
* **Gekoppelde paren (Paired samples):** Metingen die aan elkaar gekoppeld zijn (bv. voor- en nametingen van dezelfde personen). Hierbij wordt het verschil tussen de metingen geanalyseerd.
* **Onafhankelijke steekproeven (Independent samples):** Twee groepen waarvan de metingen onafhankelijk van elkaar zijn.
### Toepassingen en berekeningen
* **1-steekproef t-betrouwbaarheidsinterval:**
* Vorm: $\bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}$.
* Gebruikt om een interval te schatten waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt, met $t^*$ uit de t-verdeling.
* Voorwaarden: Willekeurige steekproef, ongeveer normale populatieverdeling (of $n > 30$).
* Toetst of het populatiegemiddelde ($\mu$) significant afwijkt van een gespecificeerde waarde (vaak 0).
* **T-toets voor gekoppelde paren:**
* Vergelijkt de gemiddelden van twee gerelateerde metingen door de gemiddelde verschillen te toetsen.
* Effectief een 1-steekproef t-toets op de verschilscores ($d$).
* Voorwaarden: Willekeurige paren, verschilscores zijn ongeveer normaal verdeeld.
* **T-toets voor onafhankelijke steekproeven:**
* Vergelijkt de gemiddelden van twee onafhankelijke groepen.
### Overwegingen en beperkingen
---
# Vergelijken van twee proporties met betrouwbaarheidsintervallen en significantietoetsen
### Kernidee
* Inferentiële statistiek maakt het mogelijk om conclusies te trekken over een populatie op basis van een steekproef.
* Dit omvat schatten (betrouwbaarheidsintervallen) en toetsen (significantietoetsen) om uitspraken te doen over populatieparameters.
* Betrouwbaarheidsintervallen geven een bereik aan waarbinnen de populatieparameter waarschijnlijk ligt.
* Significantietoetsen evalueren of waargenomen verschillen in steekproefdata groot genoeg zijn om te concluderen dat ze niet door toeval ontstaan.
### Kernbegrippen
* **Steekproevenverdeling:** Een frequentieverdeling van de resultaten van herhaalde steekproeven; beschrijft de variabiliteit van een statistische maat (zoals gemiddelde of proportie) bij herhaalde steekproeftrekking.
* **Betrouwbaarheidsinterval (BI):** Een interval dat met een bepaalde kans (het betrouwbaarheidsniveau) de werkelijke populatieparameter bevat.
* Een 95% BI betekent dat bij 95% van de herhaalde steekproeven het interval de populatieparameter zal bevatten.
* De formule voor een BI voor het populatiegemiddelde ($\mu$) is typisch: $\bar{x} \pm Z \cdot SE$, waarbij $SE$ de standaardfout is.
* **Foutenmarge:** De breedte van het betrouwbaarheidsinterval, beïnvloed door:
* $\bar{x}$ (steekproefgemiddelde).
* $Z$ (kritieke waarde gerelateerd aan het betrouwbaarheidsniveau).
* $\alpha$ (significantieniveau, 1 - betrouwbaarheidsniveau).
* $\sigma$ (populatiestandaardafwijking).
* $n$ (steekproefgrootte).
* **Significantieniveau ($\alpha$):** De vooraf vastgestelde kans op een Type I-fout (onterecht verwerpen van de nulhypothese). Vaak ingesteld op 0,05.
* **p-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is.
* Als $p < \alpha$, wordt de nulhypothese verworpen.
* **Nulhypothese ($H_0$):** Een stelling over de populatie die wordt getoetst (bv. er is geen verschil tussen groepen).
* **Alternatieve hypothese ($H_A$):** Een stelling die de nulhypothese tegenspreekt.
* **Toetsingsgrootheid:** Een waarde berekend uit steekproefdata om de nulhypothese te toetsen (bv. z-score, t-score).
* **Type I-fout (vals positief):** De nulhypothese onterecht verwerpen ($\alpha$).
* **Type II-fout (vals negatief):** De nulhypothese onterecht niet verwerpen ($\beta$).
* **Onderscheidingsvermogen (power):** De kans om een echt effect te detecteren wanneer het bestaat ( $1 - \beta$ ).
### Sleutelfeiten
* Een kleiner BI duidt op een nauwkeurigere schatting en impliceert een hogere betrouwbaarheid.
* Een kleiner BI kan worden verkregen door:
### Implicaties
### Betrouwbaarheidsintervallen voor het gemiddelde
### Significantietoetsen voor het gemiddelde
### Rapporteren van toetsresultaten (APA-stijl)
---
* Inferentiële statistiek maakt het mogelijk uitspraken te doen over een populatie op basis van steekproefgegevens.
* Schatten via betrouwbaarheidsintervallen en toetsen via significantietoetsen zijn twee hoofdvormen van inductieve statistiek.
* Deze paginareeks focust op het vergelijken van twee proporties.
### Kernconcepten
* **Betrouwbaarheidsinterval (BI):** Een interval rond een steekproefgrootheid dat met een bepaald betrouwbaarheidsniveau (bv. 95%) de populatieparameter bevat.
* Formule voor het betrouwbaarheidsinterval voor een populatieproportie ($p$) is: $\hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$.
* $\hat{p}$ is de geschatte proportie uit de steekproef.
* $Z_{\alpha/2}$ is de kritieke waarde uit de standaard normaalverdeling voor het gekozen betrouwbaarheidsniveau.
* $\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ is de standaardfout van de proportie.
* **Significantieniveau ($\alpha$):** Het risico dat men accepteert om de nulhypothese onterecht te verwerpen (Type I fout).
* **Overschrijdingskans (p-waarde):** De kans om een resultaat te observeren dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is.
* **Type I fout (vals positief):** De nulhypothese wordt verworpen, terwijl deze waar is ($\alpha$).
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen, terwijl deze onwaar is ($\beta$).
* **Onderscheidingsvermogen (Power, 1 - $\beta$):** De kans om een werkelijk bestaand verschil (alternatieve hypothese) correct te detecteren.
### Key facts
* De focus ligt op het vergelijken van twee proporties uit onafhankelijke steekproeven.
* Een betrouwbaarheidsinterval voor het verschil tussen twee proporties geeft een bereik aan waarbinnen het ware verschil waarschijnlijk ligt.
* Bij het schatten van het betrouwbaarheidsinterval voor het verschil tussen twee proporties ($p_1 - p_2$) wordt een formule gebruikt die de geschatte proporties en standaardfouten combineert.
* Formule voor het betrouwbaarheidsinterval voor het verschil tussen twee proporties: $(\hat{p}_1 - \hat{p}_2) \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$.
* De nulhypothese ($H_0$) bij het vergelijken van twee proporties is meestal dat er geen verschil is: $p_1 = p_2$.
* De alternatieve hypothese ($H_a$) kan zijn dat $p_1 \neq p_2$ (tweezijdig), $p_1 > p_2$ (eenzijdig rechts) of $p_1 < p_2$ (eenzijdig links).
* Bij het testen van hypothesen over proporties wordt vaak gebruik gemaakt van een z-toets, die de standaard normaalverdeling benut.
- Voor het berekenen van de standaardfout in de context van twee proporties worden de twee steekproefproporties vaak "gepoold" onder de aanname dat de nulhypothese waar is, om zo een meer
* Gepoolde proportie: $\hat{p}_{pooled} = \frac{x_1 + x_2}{n_1 + n_2}$.
* Standaardfout van het verschil met gepoolde proportie: $SE_{diff} = \sqrt{\hat{p}_{pooled}(1-\hat{p}_{pooled})(\frac{1}{n_1} + \frac{1}{n_2})}$.
* De toetsingsgrootheid voor het verschil tussen twee proporties wordt berekend als het verschil tussen de steekproefproporties gedeeld door de standaardfout van het verschil.
* Betrouwbaarheidsintervallen geven een idee van de precisie van de schatting en de mogelijke waarden voor de populatieparameter.
### Tip
---
* Vergelijkingen tussen groepen zijn fundamenteel in statistiek, waarbij we kijken naar verschillen tussen populaties op basis van steekproefgegevens.
* Belangrijkste methoden omvatten betrouwbaarheidsintervallen voor schattingen en significantietoetsen voor hypothesebeoordeling.
### Sleutelbegrippen
* **Betrouwbaarheidsinterval (BI):** Een interval rond een steekproefstatistiek dat met een bepaalde waarschijnlijkheid de populatieparameter bevat.
* **Significantieniveau ($\alpha$):** De kans op een Type I fout; de kans om de nulhypothese te verwerpen terwijl deze waar is. Typisch 0.05.
* **P-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, gegeven dat de nulhypothese waar is.
* **Nulhypothese ($H_0$):** Een bewering van geen effect of geen verschil tussen populaties.
* **Alternatieve hypothese ($H_1$):** Een bewering die het tegendeel van de nulhypothese stelt.
* **Type I fout (vals positief):** $H_0$ wordt verworpen terwijl deze waar is ($\alpha$).
* **Type II fout (vals negatief):** $H_0$ wordt niet verworpen terwijl $H_1$ waar is ($\beta$).
* **Onderscheidingsvermogen (Power):** De kans dat $H_0$ correct wordt verworpen wanneer $H_1$ waar is ($1-\beta$).
### Formules en Concepten
* **Betrouwbaarheidsinterval voor het populatiegemiddelde ($\mu$) (wanneer $\sigma$ bekend is):**
- $\bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$
* $\bar{x}$: steekproefgemiddelde
* $z_{\alpha/2}$: kritieke z-waarde voor het betrouwbaarheidsniveau
* $\sigma$: populatiestandaardafwijking
* $n$: steekproefgrootte
* **Betrouwbaarheidsinterval voor het populatiegemiddelde ($\mu$) (wanneer $\sigma$ onbekend is - t-verdeling):**
- $\bar{x} \pm t_{n-1, \alpha/2} \frac{s}{\sqrt{n}}$
* $s$: steekproefstandaardafwijking
* $t_{n-1, \alpha/2}$: kritieke t-waarde met $n-1$ vrijheidsgraden.
* **T-verdeling:** Symmetrisch rond 0, met dikkere staarten dan de normaalverdeling. De vorm hangt af van de vrijheidsgraden ($df = n-1$).
* **T-toets voor gekoppelde paren:** Vergelijkt de gemiddelden van twee gerelateerde metingen (bv. voor- en nametingen).
* Bereken de verschilscores tussen de paren.
* Voer een 1-steekproef t-toets uit op deze verschilscores.
* Nulhypothese: gemiddeld verschil is 0.
### Voorwaarden voor t-procedures
### Rapportage in APA-stijl
---
* Betrouwbaarheidsintervallen en significantietoetsen worden gebruikt om conclusies te trekken over populatieproporties op basis van steekproefgegevens.
### Belangrijke feiten
* De focus ligt op het vergelijken van twee proporties uit twee verschillende populaties.
* De steekproevenverdeling van het verschil tussen twee proporties wordt gebruikt voor inferentie.
* Voor grote steekproeven kan de normale verdeling worden benaderd.
* De formule voor de standaardfout van het verschil tussen twee proporties is cruciaal.
* Betrouwbaarheidsintervallen bieden een bereik waarbinnen de werkelijke populatieproportie waarschijnlijk ligt.
* Significantietoetsen evalueren de waarschijnlijkheid van waargenomen resultaten onder de nulhypothese.
### Belangrijke concepten
* **Steekproefproportie ($\hat{p}$):** Het aandeel van een bepaald kenmerk in een steekproef.
* **Populatieproportie ($p$):** Het werkelijke aandeel van een bepaald kenmerk in de populatie.
* **Verschil tussen steekproefproporties ($\hat{p}_1 - \hat{p}_2$):** De geobserveerde discrepantie tussen twee steekproeven.
* **Standaardfout van het verschil tussen proporties ($SE_{\hat{p}_1 - \hat{p}_2}$):** Een maat voor de variabiliteit van het verschil tussen steekproefproporties.
- $$ SE_{\hat{p}_1 - \hat{p}_2} = \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} $$
* **Betrouwbaarheidsinterval voor het verschil tussen twee proporties:** Wordt berekend als:
- $$ (\hat{p}_1 - \hat{p}_2) \pm z^{\ast} \times SE_{\hat{p}_1 - \hat{p}_2} $$
- waarbij $z^{\ast}$ de kritieke waarde is voor het gewenste betrouwbaarheidsniveau
* **Nulhypothese ($H_0$):** Meestal $p_1 = p_2$ of $p_1 - p_2 = 0$.
* **Alternatieve hypothese ($H_a$):** Kan eenzijdig ($p_1 > p_2$ of $p_1 < p_2$) of tweezijdig ($p_1 \ne p_2$) zijn.
* **Toetsingsgrootheid (z-score):**
- $$ z = \frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}} $$
- Onder de nulhypothese wordt $(p_1 - p_2)$ gelijk aan 0 en de standaardfout wordt berekend met gepoolde proporties
* **Gepoolde proportie ($\hat{p}_{pool}$):** Gebruikt wanneer $H_0: p_1 = p_2$ wordt aangenomen.
- $$ \hat{p}_{pool} = \frac{x_1 + x_2}{n_1 + n_2} $$
- waar $x_1$ en $x_2$ het aantal successen in elke groep zijn
- De standaardfout wordt dan:
- $$ SE_{pooled} = \sqrt{\hat{p}_{pool}(1-\hat{p}_{pool})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)} $$
### Tips
---
* Focus op het vergelijken van parameters uit twee populaties op basis van steekproefgegevens.
* Dit omvat zowel het schatten van deze parameters (betrouwbaarheidsintervallen) als het toetsen van hypothesen (significantietoetsen).
* **Inferentie**: Het proces van het trekken van conclusies over een populatie op basis van steekproefgegevens.
* **Schatten (Betrouwbaarheidsintervallen)**: Bepalen van een interval waarbinnen de populatieparameter waarschijnlijk ligt.
* **Toetsen (Significantietoetsen)**: Hypothesen toetsen over populatieparameters op basis van steekproefgegevens.
* De stap van het onderzoeken van een **enkele populatie** naar het vergelijken van **twee populaties** is een belangrijk concept.
* Bij het vergelijken van twee groepen is de nulhypothese (H₀) meestal dat er geen verschil is tussen de populatieparameters (bv. H₀: $\mu_1 = \mu_2$).
* De **alternatieve hypothese** (H₁) stelt dat er wel een verschil is (bv. H₁: $\mu_1 \neq \mu_2$, H₁: $\mu_1 > \mu_2$, of H₁: $\mu_1 < \mu_2$).
* Bij het vergelijken van twee populaties zijn vaak twee standaardafwijkingen betrokken ($\sigma_1$ en $\sigma_2$), wat de analyse complexer maakt dan bij één populatie.
- **Steekproevenverdeling van het verschil tussen twee gemiddelden**: Wanneer twee populaties worden vergeleken, kan de steekproevenverdeling van het verschil tussen hun gemiddelden worden beschreven. Deze verdeling is cruciaal voor het berekenen
* **Z-toets voor twee onafhankelijke steekproeven**: Gebruikt wanneer de populatiestandaardafwijkingen ($\sigma_1$ en $\sigma_2$) bekend zijn of wanneer de steekproefgroottes groot zijn en de standaardafwijkingen van de steekproeven worden gebruikt als schatters.
* Toetsingsgrootheid: $z = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$ (wanneer $\mu_1 - \mu_2$ onder H₀ nul is).
* **T-toets voor twee onafhankelijke steekproeven**: Gebruikt wanneer de populatiestandaardafwijkingen onbekend zijn en worden geschat met de steekproefstandaardafwijkingen ($s_1$ en $s_2$). Dit is de meest voorkomende situatie.
* Vereist vaak het berekenen van een gecombineerde standaardfout (pooled standard error), vooral als gelijke populatievarianties worden aangenomen.
* De t-verdeling wordt gebruikt in plaats van de z-verdeling, met specifieke vrijheidsgraden die afhangen van de steekproefgroottes ($n_1$ en $n_2$).
- **T-toets voor gekoppelde/afhankelijke steekproeven**: Gebruikt wanneer metingen van dezelfde individuen op twee verschillende momenten (bv. voor en na een interventie) of van gekoppelde individuen (bv. paren) worden vergeleken. De analyse
* Deze toets wordt behandeld als een 1-steekproef t-toets op de verschilscores.
- **Vrijheidsgraden (df)**: Bij t-toetsen bepalen de vrijheidsgraden de specifieke vorm van de t-verdeling. Voor onafhankelijke steekproeven is dit vaak $n_1 + n_2 - 2$, en voor gekoppelde steekproeven is dit $n - 1$ (waarbij $n$ het
* Het kiezen van de juiste toets (z of t, onafhankelijk of gekoppeld) hangt af van de aard van de data en de aannames over de populatieparameters.
* De aanname van onafhankelijke steekproeven is cruciaal voor de onafhankelijke t-toets; schending hiervan kan leiden tot onjuiste conclusies.
- De aanname van normaliteit van de populaties (of de verdeling van de verschilscores voor gekoppelde toetsen) is belangrijk, vooral bij kleine steekproeven. De t-toets is echter redelijk robuust tegen schendingen
* De interpretatie van resultaten (p-waarde, betrouwbaarheidsinterval) moet altijd in de context van de onderzoeksvraag en de specifieke populaties worden gedaan.
* Rapporteren volgens APA-stijl vereist specifieke informatie, waaronder de toetsingsgrootheid, vrijheidsgraden, p-waarde, en het betrouwbaarheidsinterval.
- > **Tip:** Bij het vergelijken van twee onafhankelijke groepen, als de populatiestandaardafwijkingen ($\sigma_1, \sigma_2$) onbekend zijn, is de t-toets voor onafhankelijke steekproeven de standaardmethode
- Als er sterke aanwijzingen zijn dat de populatievarianties gelijk zijn, kan een 'pooled variance' t-toets worden gebruikt, anders een Welch's t-toets (die minder strenge aannames heeft over gelijke varianties)
---
* Inferentiële statistiek stelt ons in staat om conclusies te trekken over populaties op basis van steekproefgegevens.
* Betrouwbaarheidsintervallen schatten de range waarbinnen de populatieparameter waarschijnlijk ligt.
* Significantietoetsen evalueren of waargenomen verschillen tussen groepen of met een theoretische waarde waarschijnlijk niet door toeval komen.
* Betrouwbaarheidsinterval (BI): Geeft een range aan waarbinnen het populatiegemiddelde waarschijnlijk valt.
* 95% BI: Betekent dat bij 100 herhalingen van het onderzoek, 95 van de intervallen de ware populatiewaarde zullen bevatten.
* Formule BI voor populatiegemiddelde $\mu$: $\bar{x} \pm Z \times \frac{\sigma}{\sqrt{n}}$ (indien $\sigma$ bekend) of $\bar{x} \pm t^* \times \frac{s}{\sqrt{n}}$ (indien $\sigma$ onbekend, $s$ is steekproefstandaardafwijking).
* Factoren die de breedte van het BI beïnvloeden:
* Steekproefgemiddelde ($\bar{x}$): Centraal punt van het interval.
* Z-score (betrouwbaarheidsniveau): Hoger niveau (bv. 99% vs 95%) leidt tot breder interval.
* Standaardafwijking van de populatie ($\sigma$) of schatting daarvan ($s$): Grotere spreiding leidt tot breder interval.
* Steekproefgrootte ($n$): Grotere steekproef leidt tot smaller interval.
* Significantieniveau ($\alpha$): De kans op een Type I fout (onterecht verwerpen van H₀). Meestal 0,05.
* p-waarde: De kans op het waarnemen van de data (of extremer), gegeven dat de nulhypothese waar is.
* Als p-waarde < $\alpha$, verwerpen we de nulhypothese (H₀) en concluderen we een significant verschil.
* Een significantietoets in 4 stappen:
- 1
- Formuleer nul- en alternatieve hypothesen
- 2
- Bepaal de waarde van de toetsingsgrootheid
- 3
- Bepaal de overschrijdingskans (p-waarde)
- 4
- Formuleer de conclusie (vaak in APA-stijl)
* Type I fout (vals positief): H₀ verwerpen terwijl deze waar is. Kans is $\alpha$.
* Type II fout (vals negatief): H₀ niet verwerpen terwijl deze onwaar is. Kans is $\beta$.
### Algemene regels voor rapportering (APA-stijl)
---
* De focus ligt op de interpretatie en toepassing van statistische methoden voor het vergelijken van twee proporties, specifiek binnen de context van betrouwbaarheidsintervallen en significantietoetsen.
* **Statistische inferentie:** Het proces van het trekken van conclusies over een populatie op basis van steekproefgegevens.
* **Betrouwbaarheidsinterval (BI):** Een interval waarbinnen men verwacht dat de ware populatieparameter (bv. een proportie) zal liggen met een bepaald betrouwbaarheidsniveau.
* **Significantietoetsen:** Methodes om te beoordelen of waargenomen verschillen tussen steekproefgegevens en een nulhypothese statistisch significant zijn.
* **Nulhypothese (H₀):** De aanname dat er geen verschil of verband is tussen populatieparameters.
* **Alternatieve hypothese (H₁):** De hypothese die stelt dat er wel een verschil of verband is.
* **P-waarde:** De kans op het waarnemen van de steekproefresultaten (of extremere resultaten) als de nulhypothese waar is.
* **Significantieniveau (α):** Een vooraf bepaalde drempelwaarde (meestal 0,05) waaronder de nulhypothese wordt verworpen.
* **Type I fout (vals positief):** Het onterecht verwerpen van de nulhypothese (kans is α).
* **Type II fout (vals negatief):** Het onterecht aanvaarden van de nulhypothese (kans is β).
* **Onderscheidingsvermogen (power):** De kans om een echt verschil te detecteren als dat aanwezig is (1 - β).
### Sleutelconcepten
* **Betrouwbaarheidsinterval voor het verschil tussen twee proporties:**
* Wordt gebruikt om een reeks waarschijnlijke waarden te schatten voor het ware verschil tussen twee populatieproporties.
* De berekening is afhankelijk van de steekproefproporties, steekproefgroottes en een kritieke waarde (meestal een z-waarde voor grote steekproeven).
* **Z-toets voor het verschil tussen twee proporties:**
* Wordt gebruikt om de nulhypothese te toetsen dat er geen verschil is tussen twee populatieproporties ($H_0: p_1 - p_2 = 0$).
* De toetsingsgrootheid $z$ meet het verschil tussen de geobserveerde steekproefproporties, uitgedrukt in standaardfouten.
* Formule voor de toetsingsgrootheid:
- $$z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}}$$
- waarbij $\hat{p}$ de gepoolde proportie is onder de nulhypothese
* **Voorwaarden voor de z-toets voor proporties:**
* Willekeurige steekproeven.
* Onafhankelijke waarnemingen binnen en tussen de groepen.
* Voldoende grote steekproeven (bv. $n \cdot p \ge 10$ en $n \cdot (1-p) \ge 10$ voor elke groep, of gebruik van de gepoolde proportie voor deze check).
* **Interpretatie van het betrouwbaarheidsinterval voor het verschil:**
---
* Vergelijken van twee proporties uit twee onafhankelijke steekproeven.
* Gebruik van betrouwbaarheidsintervallen en significantietoetsen om conclusies te trekken over populatieproporties.
### Kernfeiten
* Formule voor het betrouwbaarheidsinterval voor het verschil tussen twee proporties: $\hat{p}_1 - \hat{p}_2 \pm z^{\ast} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$.
* De $z^{\ast}$-waarde is de kritieke waarde van de standaardnormale verdeling voor het gewenste betrouwbaarheidsniveau.
* Nulhypothese voor significantietoetsen: $H_0: p_1 = p_2$ (de proporties in de populaties zijn gelijk).
* Alternatieve hypothese: $H_a: p_1 \neq p_2$ (tweezijdige toets) of $H_a: p_1 > p_2$ / $H_a: p_1 < p_2$ (eenzijdige toets).
* Toetsingsgrootheid voor het verschil tussen twee proporties wordt berekend onder de aanname dat $H_0$ waar is, waarbij een gepoolde proportie wordt gebruikt: $\hat{p}_{pooled} = \frac{x_1 + x_2}{n_1 + n_2}$.
* Formule voor de toetsingsgrootheid $z$ bij het vergelijken van twee proporties: $$z = \frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)}{\sqrt{\hat{p}_{pooled}(1-\hat{p}_{pooled})(\frac{1}{n_1} + \frac{1}{n_2})}}$$ waarbij $(p_1 - p_2)$ onder $H_0$ gelijk is aan 0.
* **Betrouwbaarheidsinterval voor het verschil tussen proporties:** Geeft een bereik aan waarbinnen het werkelijke verschil tussen de populatieproporties waarschijnlijk ligt.
* **Significantietoets voor het verschil tussen proporties:** Test of het waargenomen verschil tussen steekproefproporties groot genoeg is om te concluderen dat er een verschil is in de populaties.
* **Gepoolde proportie ($\hat{p}_{pooled}$):** Een gewogen gemiddelde van de steekproefproporties, gebruikt om de standaardfout te berekenen onder de nulhypothese.
* **Standaardfout van het verschil tussen proporties:** Meet de variabiliteit van het verschil tussen steekproefproporties.
* **Overschreidingskans (p-waarde):** De kans om een verschil te observeren dat minstens zo extreem is als het waargenomen verschil, aangenomen dat de nulhypothese waar is.
* Een betrouwbaarheidsinterval dat 0 niet bevat, suggereert een statistisch significant verschil tussen de populatieproporties.
* Een kleine p-waarde (typisch < 0.05) leidt tot het verwerpen van de nulhypothese, wat duidt op een significant verschil tussen de proporties.
* Deze methoden zijn cruciaal voor het vergelijken van uitkomsten tussen twee groepen, bijvoorbeeld effectiviteit van behandelingen of reacties op marketingcampagnes.
### Belangrijke overwegingen
* **Onafhankelijke steekproeven:** De data uit de twee groepen moeten onafhankelijk van elkaar zijn.
* **Voldoende steekproefgrootte:** Om de benadering met de normale verdeling te rechtvaardigen, moeten $n_1\hat{p}_1 \geq 10$, $n_1(1-\hat{p}_1) \geq 10$, $n_2\hat{p}_2 \geq 10$, en $n_2(1-\hat{p}_2) \geq 10$ gelden (of alternatief, als de gepoolde proportie wordt gebruikt: $n_1\hat{p}_{pooled} \geq 10$ en $n_2\hat{p}_{pooled} \geq 10$).
* **Context bij rapportering:** Rapporteer de gevonden proporties, steekproefgroottes, de toetsingsgrootheid, de p-waarde en het betrouwbaarheidsinterval voor een volledige interpretatie.
- > **Tip:** De t-verdeling wordt gebruikt bij het schatten van de populatievariantie met de steekproefvariantie
- Voor proporties, waarbij de variantie direct kan worden geschat uit de proporties zelf, wordt de z-verdeling gebruikt, tenzij de steekproef erg klein is en de proporties extreem zijn (dicht bij
- 0 of 1)
- In de praktijk wordt voor proporties vaak de z-verdeling gebruikt vanwege de relatief grote steekproefgroottes die vaak voorkomen
- > **Tip:** Bij het interpreteren van betrouwbaarheidsintervallen voor het verschil tussen twee proporties:
- > * Als het interval (0, positief getal) bevat, is er geen significant verschil of is $p_1 < p_2$
---
# De Wilcoxon-Mann-Whitney test en gerelateerde non-parametrische toetsen
### Kernidee
* Deze sectie introduceert de basisprincipes van inductieve statistiek, waarbij conclusies over populaties worden getrokken op basis van steekproefgegevens.
* De focus ligt op het begrijpen van steekproevenverdelingen en hun rol bij het maken van inferenties, zoals het schatten van populatieparameters en het uitvoeren van significantietoetsen.
### Kernfeiten
* **Inferentiële statistiek** betreft het trekken van conclusies over een populatie op basis van een steekproef.
* Een **steekproevenverdeling** is een frequentieverdeling van resultaten verkregen uit meerdere steekproeven, niet van de populatie zelf.
* **Schatten** met betrouwbaarheidsintervallen geeft aan binnen welk bereik de populatieparameter waarschijnlijk ligt.
* **Significantietoetsen (hypothesetoetsen)** bepalen of een waargenomen verschil groot genoeg is om de nulhypothese te verwerpen.
* Een **betrouwbaarheidsinterval (BI)** geeft de grenzen aan waarbinnen het echte populatiegemiddelde naar verwachting zal liggen (met een bepaalde waarschijnlijkheid).
* Het berekenen van een BI voor het populatiegemiddelde ($\mu$) omvat het steekproefgemiddelde ($\bar{x}$), de z-score voor het betrouwbaarheidsniveau, het significantieniveau ($\alpha$), de populatiestandaardafwijking ($\sigma$), en de steekproefgrootte ($n$).
* De formule voor een betrouwbaarheidsinterval is $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$.
* De **foutenmarge** in een betrouwbaarheidsinterval wordt beïnvloed door de steekproefgrootte ($n$), het betrouwbaarheidsniveau ($Z$), en de populatiestandaardafwijking ($\sigma$).
* Een **kleiner betrouwbaarheidsinterval** impliceert een hogere betrouwbaarheid en wordt verkregen door een grotere steekproef, een lager betrouwbaarheidsniveau, of een kleinere populatiestandaardafwijking.
### Belangrijke Concepten
* **Significantieniveau ($\alpha$)**: De vooraf vastgestelde kritieke grens (meestal 0,05) die aangeeft wanneer de nulhypothese wordt verworpen.
- **p-waarde**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder aanname dat de nulhypothese waar is. Als $p < \alpha$, worden de resultaten als
* **Type I fout (vals positief)**: De nulhypothese wordt onterecht verworpen ($\alpha$).
* **Type II fout (vals negatief)**: De nulhypothese wordt niet verworpen terwijl deze vals is ($\beta$).
* **Power (onderscheidingsvermogen)**: De kans om een verschil op populatieniveau te detecteren wanneer dit verschil er daadwerkelijk is ($1 - \beta$).
* **Z-toets**: Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) bekend is. Standaardiseert de waarde tot een z-score die afgelezen kan worden uit de normaalverdeling.
* **T-verdeling**: Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden uit de steekproefstandaardafwijking ($s$). De t-verdeling heeft dikkere staarten dan de normaalverdeling, vooral bij kleine steekproeven.
* **Vrijheidsgraden (df)**: Worden bepaald door de steekproefgrootte ($df = n - 1$ voor een 1-steekproef t-test) en specificeren de exacte vorm van de t-verdeling.
* **1-steekproef t-betrouwbaarheidsinterval**: Gebruikt wanneer $\sigma$ onbekend is en vervangt de z-verdeling door de t-verdeling met $n-1$ vrijheidsgraden.
* **1-steekproef t-toets**: Vergelijkt een steekproefgemiddelde met een bekend populatiegemiddelde wanneer $\sigma$ onbekend is. De toetsingsgrootheid is $t = \frac{\bar{x} - \mu}{s/\sqrt{n}}$.
* **Gepaarde t-toets**: Vergelijkt de gemiddelde verschillen tussen twee gerelateerde metingen (bijv. voor- en nametingen) door de verschilscores te analyseren met een 1-steekproef t-toets.
* **Onafhankelijke t-toets**: Vergelijkt de gemiddelden van twee onafhankelijke groepen wanneer $\sigma$ onbekend is. De toetsingsgrootheid is complexer en maakt gebruik van gepoolde variantie of aparte schattingen van varianties.
### Implicaties
* Het begrijpen van steekproevenverdelingen is cruciaal om de onzekerheid in statistische gevolgtrekkingen te kwantificeren.
* De keuze tussen een z-toets en een t-toets hangt af van de kennis van de populatiestandaardafwijking.
### Voorwaarden voor T-procedures
### Rapporteren van Toetsresultaten (APA-stijl)
---
* Wilcoxon-Mann-Whitney test is een non-parametrische toets om twee onafhankelijke groepen te vergelijken.
* Vergelijkt de rangordes van observaties tussen de groepen, niet de ruwe data zelf.
* Is een alternatief voor de t-toets voor onafhankelijke steekproeven wanneer aannames van de t-toets niet voldaan zijn.
### Belangrijke feiten
* Vereist dat de steekproeven onafhankelijk zijn.
* Vereist dat de verdeling van de data in beide groepen vergelijkbaar is (maar niet noodzakelijk normaal).
* De nulhypothese stelt dat de kansverdelingen van de twee groepen identiek zijn.
* De alternatieve hypothese kan zijn dat de ene groep systematisch hogere of lagere waarden heeft dan de andere.
* De toets wordt uitgevoerd door alle observaties van beide groepen te combineren, te rangschikken en de rangsommen per groep te berekenen.
* De toetsingsgrootheid is gebaseerd op het verschil tussen de rangsommen van de twee groepen.
### Kernconcepten
* **Non-parametrische toets:** Een statistische toets die geen aannames doet over de parametrische verdeling van de populatie, zoals normaliteit.
* **Rangschikken:** Het toekennen van een numerieke volgorde aan observaties, van klein naar groot of andersom.
* **Rangsom:** De som van de rangnummers van alle observaties binnen een groep.
* **Onafhankelijke steekproeven:** Steekproeven waarbij de observaties in de ene steekproef geen invloed hebben op de observaties in de andere steekproef.
* **Vrijheidsgraden:** Voor de Wilcoxon-Mann-Whitney test hangen de vrijheidsgraden af van de groottes van beide steekproeven ($n_1$ en $n_2$).
* Geschikt voor data die scheef verdeeld zijn of uitschieters bevatten.
* Kan gebruikt worden wanneer de data ordinaal zijn in plaats van interval of ratio.
* Is minder krachtig dan de t-toets wanneer de aannames van de t-toets wel voldaan zijn.
* Vereist een zorgvuldige interpretatie van de rangordes, niet van de absolute waarden.
### Veelvoorkomende valkuilen
* Het ten onrechte toepassen van de test wanneer de groepen afhankelijk zijn (hiervoor is de Wilcoxon signed-rank test geschikt).
* Het niet controleren van de aanname van vergelijkbare verdelingen tussen de groepen.
* Het verwarren van de resultaten met die van een t-toets, aangezien de interpretatie verschilt.
---
* Non-parametrische toetsen zijn alternatieven voor parametrische toetsen (zoals de t-toets) wanneer de aannames van parametrische toetsen (bv. normaliteit, gelijke varianties) niet voldaan zijn.
* Ze zijn vaak gebaseerd op de rangorde van de data in plaats van op de daadwerkelijke waarden.
* De Wilcoxon-Mann-Whitney (WMW) test vergelijkt twee onafhankelijke groepen en is het non-parametrische equivalent van de onafhankelijke t-toets.
* **Rangorde:** Data worden gesorteerd van laag naar hoog en krijgen een rangnummer. Bij gelijke waarden worden de gemiddelde rangnummers toegekend.
* **Wilcoxon-Mann-Whitney test (WMW):**
* Vergelijkt de som van de rangnummers van twee onafhankelijke groepen.
* Nulhypothese: De distributies van de twee populaties zijn identiek.
* Alternatieve hypothese: De distributies van de twee populaties verschillen (bv. de ene is systematisch hoger dan de andere).
* Toetsingsgrootheid ($W$ of $U$): Gebaseerd op de som van de rangnummers.
* **Aannames WMW test:**
* Onafhankelijke steekproeven.
* De verdelingen van de twee groepen hebben dezelfde vorm en spreiding (maar dit is minder strikt dan bij de t-toets).
* **Vrijheidsgraden (df) bij WMW:** Gebaseerd op de steekproefgroottes ($n_1, n_2$).
* **Alternatieven voor parametrische toetsen:**
* WMW test vervangt de onafhankelijke t-toets.
* Wilcoxon signed-rank test vervangt de gepaarde t-toets.
* Kruskal-Wallis test vervangt de one-way ANOVA.
### Toepassingen en interpretatie
* **Geschikt voor:**
* Data die niet normaal verdeeld zijn.
* Data met extreme uitschieters.
* Ordinale data.
* **Voorbeeld:** Vergelijken van de reactietijden van twee groepen patiënten die verschillende therapieën hebben ontvangen, waarbij de reactietijden niet normaal verdeeld zijn.
* **Conclusie:** Indien de p-waarde kleiner is dan het significantieniveau (bv. 0.05), wordt de nulhypothese verworpen en geconcludeerd dat er een significant verschil is tussen de twee groepen.
### Overwegingen
- **Kracht:** Non-parametrische toetsen zijn over het algemeen minder krachtig dan parametrische toetsen wanneer aan alle aannames van de parametrische toetsen is voldaan. Ze vereisen grotere steekproeven om hetzelfde onderscheidingsvermogen te
* **Interpretatie:** De conclusie bij non-parametrische toetsen gaat vaak over verschillen in positie of rangorde, niet zozeer over specifieke gemiddelden of varianties.
### Gerelateerde non-parametrische toetsen
---
* Non-parametrische toetsen worden gebruikt wanneer aannames van parametrische toetsen (zoals normaliteit) niet voldaan zijn.
* Deze toetsen werken met rangordes van data in plaats van de ruwe data zelf.
* De Wilcoxon-Mann-Whitney test is een non-parametrisch alternatief voor de onafhankelijke t-toets.
* Non-parametrische toetsen zijn vaak robuuster tegen schendingen van aannames.
* Ze zijn nuttig bij kleine steekproeven of wanneer de data ordinaal zijn.
* De Wilcoxon-Mann-Whitney toets vergelijkt de medianen van twee onafhankelijke groepen.
* Het vergelijkt de rangordes van de waarnemingen uit beide groepen.
* De nulhypothese is dat de twee populaties identiek zijn (geen verschil in verdeling of mediaan).
* De alternatieve hypothese kan zijn dat de ene populatie stelselmatig hogere waarden heeft dan de andere.
* **Rangordes:** Data worden eerst gesorteerd en vervolgens krijgen ze een rangnummer.
* **Wilcoxon-rangsom statistiek ($W$):** De som van de rangordes in een van de groepen.
* **Vergelijking met theoretische verdeling:** De berekende $W$ wordt vergeleken met de verwachte $W$ onder de nulhypothese.
* **P-waarde:** De kans op het observeren van een teststatistiek die minstens zo extreem is als de waargenomen statistiek, aangenomen dat de nulhypothese waar is.
* **Aannames:**
* Meetniveau is minimaal ordinaal.
* Data komen uit vergelijkbare verdelingen (qua vorm).
* Geschikt wanneer de aanname van normaliteit voor de t-toets geschonden wordt.
* Kan een hogere power hebben dan de t-toets bij extreme schendingen van normaliteit.
* Interpretatie is gebaseerd op het vergelijken van de centrale tendens (vaak de mediaan).
* Vereist dat de verdelingen van de twee groepen ongeveer dezelfde vorm hebben voor een directe vergelijking van medianen.
- > **Tip:** Indien de verdelingen van de twee groepen een verschillende vorm hebben, toetst de Wilcoxon-Mann-Whitney test feitelijk of de ene populatie stelselmatig hogere of lagere waarden produceert, niet specifiek
- de medianen
* Verkeerde interpretatie van de test als enkel een medianentest wanneer de verdelingsvormen verschillen.
* Niet voldoen aan de aanname van onafhankelijkheid tussen de groepen.
---
* De t-toetsen veronderstellen dat de data normaal verdeeld zijn.
* Wanneer deze aanname niet voldaan is, vooral bij kleine steekproeven, zijn non-parametrische toetsen een alternatief.
* Non-parametrische toetsen maken minder of geen aannames over de verdeling van de populatie.
* Ze werken vaak met rangordes van de data in plaats van de ruwe waarden.
### Wilcoxon-Mann-Whitney U-test
* **Doel:** Vergelijken van twee onafhankelijke groepen.
* **Equivalent aan:** Een non-parametrisch alternatief voor de onafhankelijke t-toets.
* **Nulhypothese (H₀):** De verdelingen van beide groepen zijn identiek.
* **Werkwijze:**
* Combineer alle data van beide groepen.
* Rangschik de gecombineerde data van klein naar groot.
* Bereken de som van de rangordes voor elke groep afzonderlijk.
* Gebruik de rangordes om de U-statistiek te berekenen.
* **Interpretatie:** Een grote U-statistiek (of een kleine, afhankelijk van de berekening) suggereert dat de groepen significant verschillen.
* **Aannames:** Onafhankelijke steekproeven en minstens ordinaal meetniveau.
* **Gevoeligheid:** Minder gevoelig voor extreme uitschieters dan de t-toets.
* **Wilcoxon signed-rank test:**
* **Doel:** Vergelijken van twee gerelateerde (gepaarde) metingen.
* **Equivalent aan:** Non-parametrisch alternatief voor de gepaarde t-toets.
* **Werkwijze:** Berekent verschillen tussen paren, rangschikt de absolute verschillen en sommeert de rangordes van de positieve en negatieve verschillen.
* **Kruskal-Wallis H-test:**
* **Doel:** Vergelijken van twee of meer dan twee onafhankelijke groepen.
* **Equivalent aan:** Non-parametrisch alternatief voor de one-way ANOVA.
* **Werkwijze:** Een uitbreiding van de Mann-Whitney U-test voor meerdere groepen.
- > **Tip:** Non-parametrische toetsen zijn robuuster wanneer de aannames van parametrische toetsen geschonden worden, maar ze kunnen minder statistische power hebben als de aannames wel voldaan zijn
- > **Voorbeeld:** Stel dat je de tevredenheidsscores (ordinaal) van twee verschillende groepen respondenten wilt vergelijken
---
- Non-parametrische toetsen worden gebruikt wanneer aannames van parametrische toetsen (zoals normaliteit) geschonden zijn.
- Ze werken met rangordes in plaats van de ruwe data.
- De Wilcoxon-Mann-Whitney (WMW) toets vergelijkt twee onafhankelijke groepen.
- WMW-toets is een alternatief voor de t-toets voor onafhankelijke steekproeven.
- Aannames van de WMW-toets: onafhankelijke steekproeven, ordinale of continue data.
- De toets rangschikt alle data van beide groepen samen en berekent een statistiek gebaseerd op de som van rangordes.
- Een hoge WMW-statistiek duidt op een verschil tussen de groepen.
- De toets kijkt naar de rangordes van de observaties, niet naar de ruwe waarden.
- Geschikt voor data die niet normaal verdeeld zijn of met uitschieters.
- Minder krachtig dan de t-toets wanneer de aannames van de t-toets wel voldaan zijn.
- Biedt een robuust alternatief voor het vergelijken van twee groepen.
- **Wilcoxon signed-rank test:** Vergelijkt twee afhankelijke (gepaarde) metingen.
- Alternatief voor de gepaarde t-toets.
- Toetst of de gemiddelde *verschillen* tussen paren significant afwijken van nul.
- **Kruskal-Wallis toets:** Vergelijkt meer dan twee onafhankelijke groepen.
- Non-parametrisch alternatief voor de one-way ANOVA.
- Toetst of er een verschil is tussen de rangordes van de groepen.
- **Friedman toets:** Vergelijkt meer dan twee afhankelijke metingen.
- Non-parametrisch alternatief voor de repeated measures ANOVA.
- Toetst of er verschillen zijn tussen de rangordes over de verschillende meetmomenten.
---
* De pagina's behandelen de overgang van z-toetsen naar t-toetsen wanneer de populatie standaardafwijking $\sigma$ onbekend is en geschat moet worden met de steekproefstandaardafwijking $s$.
* De t-verdeling, met zijn dunnere staarten ten opzichte van de normaalverdeling, is essentieel voor inferentie met kleine steekproeven wanneer $\sigma$ onbekend is.
* De T-toetsen worden onderverdeeld in tests voor één populatie en tests voor twee populaties, waarbij de laatste verder worden onderverdeeld in gekoppelde en onafhankelijke steekproeven.
### Vrijheidsgraden
* Vrijheidsgraden (df) definiëren de specifieke t-verdeling, afhankelijk van de steekproefgrootte ($df = n-1$).
* Naarmate df toeneemt, benadert de t-verdeling de standaard normaalverdeling.
### T-verdeling versus standaard normaalverdeling
* De t-verdeling is symmetrisch met een top op x=0, maar heeft dikkere staarten dan de z-verdeling.
* Dikkere staarten betekenen een grotere kans om extreme waarden te observeren onder de nulhypothese, wat leidt tot een verhoogd risico op Type I fouten indien niet correct gemanaged.
* De kritieke waarden voor t-toetsen worden opgezocht in de t-tabel (Tabel D) op basis van df en het gekozen betrouwbaarheidsniveau (of significantieniveau $\alpha$).
### T-betrouwbaarheidsinterval voor één steekproef
* De vorm is $\bar{x} \pm t^{\ast} \times SE$, waarbij $SE$ de standaardfout is ($\frac{s}{\sqrt{n}}$).
* De foutenmarge bestaat uit een kritieke t-waarde ($t^{\ast}$) en de data-afhankelijke standaardfout.
* Voorwaarden:
* Random steekproef (representativiteit).
* Normaal verdeelde populatie (robuust voor n>30, of indien de verdeling niet sterk scheef is en geen uitschieters bevat).
* Onafhankelijke waarnemingen (populatiegrootte N $\ge$ 20n).
### Eenzijdige en tweezijdige t-toets voor één steekproef
* De toetsingsgrootheid $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$ meet het verschil tussen het steekproefgemiddelde en het hypothetische populatiegemiddelde in standaardfouten.
* Rapporteren in APA-stijl: $t(df) = \text{waarde}, p = \text{waarde}, 95\% CI [\text{ondergrens}, \text{bovengrens}], d = \text{waarde}$. Gebruik komma's als decimaalscheidingstekens in het Nederlands.
### T-toetsen voor twee gemiddelden
#### T-toets voor gekoppelde paren (Paired samples t-test)
* Gebruikt voor twee afhankelijke metingen van dezelfde proefpersonen (bv. voor- en nameting).
* Analyseert de verschilscores tussen de paren, waarbij de nulhypothese $H_0: \mu_{d} = 0$ is.
* Wordt behandeld als een 1-steekproef t-toets op de verschilscores.
* Voordeel: controleert voor individuele verschillen, wat de power kan verhogen.
* Voorwaarden: Gekoppelde data, verschilscores zijn normaal verdeeld of $n_{paren} > 30$.
#### T-toets voor onafhankelijke steekproeven (Independent samples t-test)
* Gebruikt om gemiddelden van twee onafhankelijke groepen te vergelijken (between-subjects design).
* $H_0: \mu_1 = \mu_2$.
* Toetsingsgrootheid $t$ vergelijkt het verschil tussen steekproefgemiddelden met de standaardfout van het verschil.
* Als populatievarianties ($\sigma_1^2$ en $\sigma_2^2$) gelijk zijn, wordt een gepoolde variantie gebruikt. Als ze ongelijk zijn, wordt een aangepaste formule gebruikt die de vrijheidsgraden beïnvloedt.
### Belangrijke concepten en implicaties
---
# De chi-kwadraat afhankelijkheidstoets
### Kernidee
* De chi-kwadraat afhankelijkheidstoets wordt gebruikt om te bepalen of er een statistisch significant verband bestaat tussen twee categorische variabelen.
* Het test of de geobserveerde frequenties in een contingentietabel significant afwijken van de frequenties die we zouden verwachten als de twee variabelen onafhankelijk van elkaar zouden zijn.
### Kernconcepten
- **Contingentietabel (kruistabel):** Een tabel die de frequentieverdeling weergeeft van twee categorische variabelen tegelijkertijd. De rijen vertegenwoordigen de categorieën van de ene variabele, en de kolommen vertegenwoordigen de categorieën van de
* **Geobserveerde frequenties ($O_{ij}$):** De daadwerkelijke aantallen waarnemingen in elke cel van de contingentietabel.
* **Verwachte frequenties ($E_{ij}$):** De frequenties die we zouden verwachten in elke cel als er geen verband zou bestaan tussen de twee variabelen (oftewel, als ze onafhankelijk zouden zijn).
* **Onafhankelijkheid:** Twee variabelen zijn onafhankelijk als de verdeling van de ene variabele niet afhangt van de categorie van de andere variabele.
* **Afhankelijkheid:** Twee variabelen zijn afhankelijk als de verdeling van de ene variabele wel afhangt van de categorie van de andere variabele.
* **Chi-kwadraat toetsingsgrootheid ($\chi^2$):** Een maat die het verschil tussen de geobserveerde en verwachte frequenties samenvat.
### Formules
* De formule voor de chi-kwadraat toetsingsgrootheid is:
- $$ \chi^2 = \sum_{i=1}^{k} \sum_{j=1}^{m} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
- waar:
* $k$ = aantal rijen (categorieën van variabele 1)
* $m$ = aantal kolommen (categorieën van variabele 2)
* $O_{ij}$ = geobserveerde frequentie in cel $(i, j)$
* $E_{ij}$ = verwachte frequentie in cel $(i, j)$
* De formule om de verwachte frequenties te berekenen is:
- $$ E_{ij} = \frac{\text{(rijtotaal}_i) \times (\text{kolomtotaal}_j)}{\text{totaal aantal waarnemingen}} $$
### Vrijheidsgraden (df)
* Het aantal vrijheidsgraden voor de chi-kwadraat afhankelijkheidstoets wordt berekend als:
- $$ df = (k-1) \times (m-1) $$
* $k$ = aantal rijen
* $m$ = aantal kolommen
### Aannames
* **Onafhankelijkheid van waarnemingen:** Elke waarneming is onafhankelijk van de andere.
* **Categorische variabelen:** Beide variabelen moeten categorisch zijn (nominaal of ordinaal).
- **Voldoende grote verwachte frequenties:** Voor een geldige chi-kwadraat toets moeten de verwachte frequenties in de meeste cellen niet te klein zijn. Een veelgebruikte vuistregel is dat ten minste 80% van
### Conclusie
---
* De chi-kwadraat afhankelijkheidstoets onderzoekt of er een statistisch significant verband bestaat tussen twee categorische variabelen.
* Deze toets wordt gebruikt om te bepalen of de observaties in een steekproef voldoen aan een verwachte verdeling of om de onafhankelijkheid van twee variabelen te toetsen.
### Belangrijke concepten
* **Contingentie tabel:** Een tabel die de frequenties weergeeft van combinaties van categorieën van twee of meer categorische variabelen.
* **Verwachte frequenties ($E_{ij}$):** De frequenties die we zouden verwachten in elke cel van de contingentie tabel als de twee variabelen onafhankelijk zouden zijn.
- $$ E_{ij} = \frac{\text{(rijtotaal)} \times \text{(kolomtotaal)}}{\text{totaal aantal observaties}} $$
* **Geobserveerde frequenties ($O_{ij}$):** De daadwerkelijke frequenties zoals gemeten in de steekproef en weergegeven in de contingentie tabel.
* **Chi-kwadraat toetsingsgrootheid ($\chi^2$):** Een maat die de discrepantie tussen de geobserveerde en verwachte frequenties kwantificeert.
- $$ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
- waarbij $r$ het aantal rijen en $c$ het aantal kolommen is
* **Vrijheidsgraden (df):** Bepaalt de vorm van de chi-kwadraat verdeling en wordt berekend als:
- $$ df = (aantal \ rijen - 1) \times (aantal \ kolommen - 1) $$
* **Nulhypothese ($H_0$):** De twee variabelen zijn onafhankelijk.
* **Alternatieve hypothese ($H_1$):** De twee variabelen zijn afhankelijk.
### Belangrijke feiten
* De toetsingsgrootheid ($\chi^2$) volgt een chi-kwadraat verdeling onder de nulhypothese.
* Een hogere $\chi^2$ waarde duidt op een grotere afwijking tussen geobserveerde en verwachte frequenties, wat wijst op mogelijke afhankelijkheid.
* De p-waarde wordt vergeleken met het significantieniveau ($\alpha$) om de nulhypothese te verwerpen of te aanvaarden.
* Als de p-waarde kleiner is dan $\alpha$, wordt de nulhypothese verworpen en concluderen we dat de variabelen afhankelijk zijn.
### Implicaties
* Kan worden gebruikt om te onderzoeken of een bepaalde behandeling effectief is door het effect te vergelijken tussen behandelde en controlegroepen.
* Helpt bij het begrijpen van relaties tussen demografische factoren (bv. geslacht, leeftijd) en gedragsmatige uitkomsten (bv. voorkeuren, meningen).
* Essentieel voor het analyseren van gegevens in surveys en experimenten waar metingen categorisch zijn.
- > **Tip:** Zorg ervoor dat de verwachte frequenties in elke cel van de contingentie tabel niet te laag zijn (meestal wordt een minimum van 5 gehanteerd)
- Als dit het geval is, overweeg dan om categorieën te combineren of gebruik te maken van Fisher's exact test voor kleine steekproeven
---
* Het test de nulhypothese dat de twee variabelen onafhankelijk van elkaar zijn.
### Kernfeiten
* De toets maakt gebruik van geobserveerde frequenties in een kruistabel.
* Vergelijkt deze geobserveerde frequenties met de verwachte frequenties onder de aanname van onafhankelijkheid.
* Een grote chi-kwadraat statistiek suggereert dat de geobserveerde frequenties significant afwijken van de verwachte frequenties.
* De p-waarde bepaalt of het waargenomen verband statistisch significant is.
* De toets is gevoelig voor steekproefgrootte; grotere steekproeven kunnen sneller een significant resultaat opleveren.
* **Kruistabel (contingentietabel):** Een tabel die de frequentieverdeling van twee categorische variabelen weergeeft.
* **Geobserveerde frequenties ($O_{ij}$):** Het werkelijke aantal waarnemingen in elke cel van de kruistabel.
* **Verwachte frequenties ($E_{ij}$):** Het aantal waarnemingen dat we zouden verwachten in elke cel als de twee variabelen onafhankelijk zouden zijn. De formule is: $E_{ij} = \frac{\text{rijtotaal} \times \text{colomtotaal}}{\text{totaal aantal waarnemingen}}$.
* **Chi-kwadraat statistiek ($\chi^2$):** De teststatistiek die de som is van de gekwadrateerde verschillen tussen geobserveerde en verwachte frequenties, gedeeld door de verwachte frequenties. De formule is: $$\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$
* **Vrijheidsgraden (df):** Het aantal onafhankelijke waarden dat kan variëren in de analyse. Voor een chi-kwadraat afhankelijkheidstoets is dit: $df = (\text{aantal rijen} - 1) \times (\text{aantal kolommen} - 1)$.
* **Overschrijdingskans (p-waarde):** De kans om een chi-kwadraat statistiek te verkrijgen die minstens zo extreem is als de waargenomen statistiek, aangenomen dat de nulhypothese waar is.
* Als de nulhypothese wordt verworpen, suggereert dit dat er een verband bestaat tussen de twee categorische variabelen.
* De sterkte van het verband kan worden onderzocht met aanvullende maten (bijvoorbeeld Cramer's V), die niet expliciet worden behandeld op deze pagina's.
* Het is belangrijk om de aannames van de toets te controleren voor geldige resultaten.
### Common pitfalls
* Het gebruik van procentuele gegevens in plaats van absolute frequenties bij het berekenen van de chi-kwadraat statistiek.
* Het vergeten te controleren of de verwachte frequenties acceptabel zijn (meestal minimaal 5 in de meeste cellen).
* Het interpreteren van correlatie als causaliteit na het vinden van een significant verband.
- > **Tip:** Gebruik de chi-kwadraat toets alleen voor categorische variabelen
- Voor het onderzoeken van verbanden tussen continue variabelen zijn andere toetsen (zoals correlatie of regressie) geschikter
---
* De chi-kwadraat afhankelijkheidstoets (ook wel chi-kwadraattoets voor onafhankelijkheid genoemd) onderzoekt of er een verband bestaat tussen twee categorische variabelen.
* **Contingentietabel (kruistabel):** Een tabel die de frequenties van twee categorische variabelen weergeeft, gegroepeerd per categorie.
* **Verwachte frequenties:** De frequenties die we zouden verwachten in elke cel van de contingentietabel als de twee variabelen onafhankelijk zouden zijn.
* **Waargenomen frequenties:** De daadwerkelijke gemeten frequenties in elke cel van de contingentietabel.
* **Chi-kwadraat toetsingsgrootheid ($\chi^2$):** Een maat die het verschil tussen de waargenomen en verwachte frequenties samenvat. Een hogere waarde duidt op een grotere afwijking van onafhankelijkheid.
* De toetsingsgrootheid wordt berekend als de som van de gekwadrateerde verschillen tussen waargenomen en verwachte frequenties, gedeeld door de verwachte frequenties, over alle cellen van de tabel.
- $$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
- waarbij:
* $O_{ij}$ = waargenomen frequentie in cel $(i,j)$
* $E_{ij}$ = verwachte frequentie in cel $(i,j)$
* De nulhypothese ($H_0$) stelt dat de twee variabelen onafhankelijk zijn.
* De alternatieve hypothese ($H_a$) stelt dat de twee variabelen afhankelijk zijn.
* De p-waarde geeft de kans weer om een $\chi^2$-waarde te observeren die minstens zo extreem is als de berekende waarde, onder de aanname dat $H_0$ waar is.
* Als de p-waarde kleiner is dan het significantieniveau ($\alpha$), wordt $H_0$ verworpen en concludeert men dat er een verband is tussen de variabelen.
* Vrijheidsgraden ($df$) voor deze toets worden berekend als $(aantal\_rijen - 1) \times (aantal\_kolommen - 1)$.
* De $\chi^2$-verdeling is asymmetrisch met de staarten aan de rechterkant en wordt gekarakteriseerd door de vrijheidsgraden.
* Een significant resultaat suggereert dat er een verband bestaat tussen de twee variabelen, wat kan leiden tot verdere analyse van de aard en sterkte van dit verband.
* Niet-significante resultaten suggereren dat er onvoldoende bewijs is om een verband tussen de variabelen aan te nemen.
* De kracht van de toets wordt beïnvloed door de steekproefgrootte en de sterkte van het verband.
- > **Tip:** Zorg ervoor dat de verwachte frequenties ($E_{ij}$) in elke cel niet te klein zijn
- Een veelgebruikte vuistregel is dat ten minste 80% van de verwachte frequenties groter dan 5 moet zijn, en geen enkele verwachte frequentie kleiner dan 1 mag zijn
- Anders kunnen de resultaten van de $\chi^2$-toets onbetrouwbaar zijn
- Kleinere tabellen (bijvoorbeeld 2x2) kunnen soms met de Fisher's exact test geanalyseerd worden indien verwachte frequenties te laag zijn
---
# het interpreteren en toepassen van statistische toetsen
### Kernconcepten
* Statistiek III bouwt voort op Statistiek I (beschrijvende statistiek) en Statistiek II (kansrekening, inferentiële statistiek).
* Inferentiële statistiek gebruikt steekproefdata om conclusies te trekken over populaties.
* Steekproevenverdelingen beschrijven de variabiliteit van statistische maten (bv. gemiddelde) over meerdere steekproeven.
* Inductieve statistiek kent twee hoofdvormen: schatten (betrouwbaarheidsintervallen) en toetsen (significantietoetsen).
### Schatting met betrouwbaarheidsintervallen
* Een betrouwbaarheidsinterval (BI) geeft een bereik aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Een 95% BI betekent dat 95% van de dergelijke intervallen de werkelijke populatiewaarde bevat.
* De formule voor een BI omvat het steekproefgemiddelde ($\bar{x}$), de kritieke waarde (Z of t) en de standaardfout ($\frac{\sigma}{\sqrt{n}}$).
* Factoren die de breedte van het BI beïnvloeden:
* Steekproefgemiddelde ($\bar{x}$): centrum van het interval.
* Betrouwbaarheidsniveau (Z of t): hogere niveaus leiden tot bredere intervallen.
* Standaardafwijking van de populatie ($\sigma$): grotere spreiding leidt tot bredere intervallen.
* Steekproefgrootte (n): grotere steekproeven leiden tot smallere intervallen.
* Een klein BI met een hoog betrouwbaarheidsniveau duidt op een nauwkeurigere schatting.
* Factoren die een kleiner BI opleveren: grote steekproef, lager betrouwbaarheidsniveau, kleinere populatiestandaardafwijking.
### Significantietoetsen
* Significantietoetsen evalueren de geldigheid van een nulhypothese (H₀) op basis van steekproefdata.
* De stappen van een significantietoets:
- 1
- Formuleer de nul- en alternatieve hypothesen (H₁)
- 2
- Bepaal de waarde van de toetsingsgrootheid (bv
- t-waarde)
- 3
- Bepaal de overschrijdingskans (p-waarde)
- 4
- Formuleer de conclusie in APA-stijl
### Cruciale vragen bij significantietoetsen
### Beslissingsfouten
### Student's t-verdelingen
### Toepassingen van t-toetsen
### Betrouwbaarheidsintervallen met t-verdeling
### Rapporteren van toetsresultaten (APA-stijl)
---
## Het interpreteren en toepassen van statistische toetsen
### Kernidee
* Statistische inferentie stelt ons in staat conclusies te trekken over een populatie op basis van een steekproef.
* We gebruiken steekproefgegevens om schattingen te maken over populatieparameters, zoals het gemiddelde.
* Statistische toetsen helpen ons om te bepalen of waargenomen verschillen of verbanden groot genoeg zijn om statistisch significant te zijn en niet enkel toe te schrijven aan toeval.
* **Steekproevenverdeling:** Een frequentieverdeling van de resultaten van meerdere steekproeven, die aangeeft hoe steekproefgrootheden (zoals het gemiddelde) variëren rond de populatieparameter.
* **Betrouwbaarheidsinterval (BI):** Een interval rond een steekproefgrootheid dat met een bepaalde waarschijnlijkheid (het betrouwbaarheidsniveau) de werkelijke populatieparameter bevat.
* Vorm: `Steekproefgemiddelde ± foutenmarge`
* Foutenmarge wordt beïnvloed door: steekproefgemiddelde (`x̄`), betrouwbaarheidsniveau (Z-score), populatiestandaardafwijking (`σ`), en steekproefgrootte (`n`).
* `σ` gedeeld door de vierkantswortel van `n` resulteert in de standaardfout.
* **Significantieniveau ($\alpha$):** De vooraf vastgestelde kritische grens die aangeeft wanneer de nulhypothese wordt verworpen (typisch 5%).
* **p-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is.
* **Hypothesetoets:** Een gestructureerde methode om conclusies te trekken over een populatie op basis van steekproefgegevens.
* Stappen:
- Formuleer de nul- en alternatieve hypothesen
- Bepaal de waarde van de toetsingsgrootheid
- Formuleer de conclusie (APA-stijl)
* **Nulhypothese ($H_0$):** Stelt meestal dat er geen verschil is of geen verband bestaat.
* **Alternatieve hypothese ($H_a$):** Stelt dat er wel een verschil of verband is.
* **Type I fout (vals positief):** $H_0$ wordt verworpen terwijl deze waar is ($\alpha$).
* **Type II fout (vals negatief):** $H_0$ wordt niet verworpen terwijl $H_a$ waar is ($\beta$).
* **Onderscheidingsvermogen (power):** De kans om $H_0$ te verwerpen wanneer $H_a$ waar is ($1 - \beta$). Dit is de kans om een werkelijk bestaand effect te detecteren.
### Toepassingen en mechanismen
### Implicaties
### Rapporteren van resultaten (APA-stijl)
---
### Kernbegrippen
* Statistische inferentie: conclusies trekken over een populatie op basis van steekproefgegevens.
* Betrouwbaarheidsinterval: een bereik waarbinnen het populatiegemiddelde waarschijnlijk ligt met een bepaald betrouwbaarheidsniveau.
* Significantietoets (hypothesetoets): een methode om te beoordelen of waargenomen verschillen in steekproefdata groot genoeg zijn om te concluderen dat er een echt verschil is in de populatie.
### Betrouwbaarheidsintervallen
* Een 95% betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen het echte populatiegemiddelde met 95% waarschijnlijkheid wordt verwacht.
* Het BI wordt berekend met de formule: $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$ (indien $\sigma$ bekend is).
* Componenten van het BI:
* $\bar{x}$: Steekproefgemiddelde.
* $Z$: Z-score die overeenkomt met het betrouwbaarheidsniveau.
* $\alpha$: Significantieniveau (bv. 0,05 voor 95% BI).
* $\sigma$: Populatie standaardafwijking.
* $n$: Steekproefgrootte.
* Een kleiner BI impliceert een hogere betrouwbaarheid (kleinere foutenmarge).
* Een kleiner BI kan verkregen worden door:
* Een grotere steekproefgrootte ($n$).
* Een lager betrouwbaarheidsniveau (bv. 90% in plaats van 95%).
* Een kleinere populatie standaardafwijking ($\sigma$).
### Significantiestoetsen
* **Stappenplan significantiestoets:**
- Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_a$)
- Bepaal de overschrijdingskans ($p$-waarde)
- Formuleer de conclusie (bv
### Beslissingsfouten en Onderscheidingsvermogen
### T-verdelingen
### Inferentie over één populatie (t-procedures)
### Inferentie over twee populaties (t-procedures)
---
### Core idea
* Statistische toetsen helpen bij het interpreteren van steekproefgegevens om conclusies te trekken over populaties.
* Het proces omvat het formuleren van hypothesen, het berekenen van toetsingsgrootheden, het bepalen van overschrijdingskansen en het formuleren van conclusies.
* Betrouwbaarheidsintervallen en significantietoetsen zijn de twee hoofdcategorieën van inductieve statistiek.
* Bij significantietoetsen wordt de nulhypothese getoetst tegen een alternatieve hypothese.
### Key facts
* De p-waarde is de kans op het waargenomen resultaat (of extremer) onder de aanname dat de nulhypothese waar is.
* Een typisch significantieniveau ($\alpha$) is 0.05 (5%), wat betekent dat er een 5% risico is op een Type I fout.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden uit de steekproef.
* T-verdelingen hebben dikkere staarten dan de normaalverdeling, wat betekent dat er meer extreme waarden mogelijk zijn.
* Vrijheidsgraden (df) specificeren een specifieke t-verdeling en zijn meestal gelijk aan de steekproefgrootte minus één ($n-1$).
* De power van een test (onderscheidingsvermogen, $1-\beta$) is de kans om een werkelijk effect (alternatieve hypothese) te detecteren.
* Type I fout (vals positief): H₀ wordt verworpen terwijl deze waar is ($\alpha$).
* Type II fout (vals negatief): H₀ wordt niet verworpen terwijl deze onwaar is ($\beta$).
### Key concepts
* **Betrouwbaarheidsinterval (BI):** Een interval rond een steekproefgrootheid dat met een bepaalde waarschijnlijkheid de populatieparameter bevat.
* Vorm: Steekproefgemiddelde $\pm$ foutenmarge.
* Foutenmarge componenten: kritieke waarde ($z^*$ of $t^*$), standaardfout ($\sigma/\sqrt{n}$ of $s/\sqrt{n}$).
* Klein BI: impliceert hoge betrouwbaarheid (kleine foutenmarge).
* **Significantietoetsen:** Procedure om te bepalen of waargenomen verschillen significant zijn of op toeval berusten.
* **Stappen:**
- Formuleer H₀ en Hₐ
- Bepaal de toetsingsgrootheid
### Implications
### Common pitfalls
---
* Een betrouwbaarheidsinterval (BI) geeft een range aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Een 95% BI betekent dat bij 95% van de replicaties het interval de werkelijke populatiewaarde bevat.
* De formule voor het BI van het populatiegemiddelde ($\mu$) is $\bar{x} \pm z^\ast \frac{\sigma}{\sqrt{n}}$.
* Factoren die het BI beïnvloeden:
* $\bar{x}$ (steekproefgemiddelde)
* $z^\ast$ (kritieke waarde voor het betrouwbaarheidsniveau)
* $\alpha$ (significantieniveau, $1 - \text{betrouwbaarheidsniveau}$)
* $\sigma$ (populatiestandaardafwijking)
* $n$ (steekproefgrootte)
* Een grotere steekproef ($n$).
* Een lager betrouwbaarheidsniveau (bv. 90% ipv 95%).
* Een kleinere standaardafwijking ($\sigma$).
### Significatietoets in 4 stappen
- Formuleer de nul- en alternatieve hypothesen (H₀ en H₁)
- steekproefgemiddelde)
- Formuleer de conclusie (vaak in APA-stijl)
### Klassieke aanpak en resampling
* **Klassieke aanpak:** Gebruikt kansrekening en theoretische verdelingen (binomiale, normale).
* De kans op een resultaat wordt berekend onder aanname van de nulhypothese.
### Onderscheidingsvermogen (Power)
### T-betrouwbaarheidsinterval en T-toetsen
---
# inferentie over regressieanalyse
### Kernidee
* Inferentie over regressieanalyse maakt het mogelijk om conclusies te trekken over populatieparameters op basis van steekproefgegevens.
### Belangrijke concepten
* De regressieanalyse tracht de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren.
* De regressiecoëfficiënten ($\beta_0$, $\beta_1$, etc.) schatten het effect van de onafhankelijke variabele(n) op de afhankelijke variabele in de populatie.
* De nulhypothese voor regressiecoëfficiënten is doorgaans dat de populatiecoëfficiënt gelijk is aan nul ($\beta_i = 0$), wat impliceert dat de betreffende onafhankelijke variabele geen lineair verband heeft met de afhankelijke variabele.
* Een significantietoets voor een regressiecoëfficiënt bepaalt of het waargenomen effect in de steekproef groot genoeg is om te concluderen dat er een lineair verband is in de populatie.
* Het betrouwbaarheidsinterval voor een regressiecoëfficiënt geeft een bereik aan waarbinnen de populatiecoëfficiënt waarschijnlijk ligt.
### Belangrijke feiten
* De steekproevenverdeling van een regressiecoëfficiënt is, onder bepaalde aannames, bij benadering normaal verdeeld.
* De standaardfout van een regressiecoëfficiënt is cruciaal voor het uitvoeren van inferentie.
* De berekening van de standaardfout is afhankelijk van de populatiestandaarddeviatie (of een schatting daarvan) en de steekproefgrootte.
* Bij het schatten van de populatiestandaarddeviatie met de residuele standaardfout ($s_e$), wordt de t-verdeling gebruikt in plaats van de z-verdeling.
* Vrijheidsgraden voor de t-verdeling in regressieanalyse worden berekend als $n - k - 1$, waarbij $n$ de steekproefgrootte is en $k$ het aantal onafhankelijke variabelen.
* De toetsingsgrootheid voor een regressiecoëfficiënt is $t = \frac{\hat{\beta}_i}{SE(\hat{\beta}_i)}$, waarbij $\hat{\beta}_i$ de geschatte regressiecoëfficiënt is en $SE(\hat{\beta}_i)$ de standaardfout ervan.
* Een kleine p-waarde (typisch < 0.05) leidt tot het verwerpen van de nulhypothese, wat suggereert dat de onafhankelijke variabele een significant lineair verband heeft met de afhankelijke variabele.
### Implicaties
* Als een regressiecoëfficiënt significant is, kunnen we concluderen dat de onafhankelijke variabele een voorspellende waarde heeft voor de afhankelijke variabele in de populatie.
* Betrouwbaarheidsintervallen bieden een bereik van plausibele waarden voor het populatie-effect, wat nuttig is voor de interpretatie van de grootte van het effect.
- Het niet significant zijn van een regressiecoëfficiënt betekent niet noodzakelijk dat er *geen* verband is, maar dat het waargenomen verband in de steekproef niet sterk genoeg is om een verband
* De interpretatie van regressieanalyse vereist aandacht voor de aannames van het model, zoals lineariteit, onafhankelijkheid van residuen, homoscedasticiteit en normaliteit van residuen.
### Gemeenschappelijke valkuilen
* Het ten onrechte interpreteren van correlatie als causaliteit bij regressieanalyse.
* Het negeren van de aannames van regressieanalyse, wat kan leiden tot ongeldige inferenties.
* Het overschatten van de precisie van de schattingen wanneer de steekproefgrootte klein is.
---
* Inferentie in regressieanalyse stelt ons in staat om conclusies te trekken over de populatieparameters op basis van steekproefgegevens.
* We schatten populatieparameters zoals de regressiecoëfficiënten en de variantie van de fouttermen uit de steekproefdata.
* **Regressiecoëfficiënten schatten:** De helling ($\beta_1$) en het intercept ($\beta_0$) worden geschat uit de steekproefdata.
* **Betrouwbaarheidsintervallen voor coëfficiënten:** Deze intervallen geven een bereik aan waarbinnen de ware populatiecoëfficiënt waarschijnlijk ligt.
* **Hypothesetoetsing voor coëfficiënten:** We toetsen hypothesen over de populatiecoëfficiënten, met name of deze gelijk zijn aan nul.
* **Standaardfout van regressiecoëfficiënten:** Cruciaal voor het berekenen van betrouwbaarheidsintervallen en toetsingsgrootheden.
* **Vrijheidsgraden (df):** Belangrijk voor de t-verdeling, afgeleid van de steekproefgrootte en het aantal parameters in het model.
* **p-waarde:** De kans op het observeren van de steekproefresultaten (of extremer) gegeven dat de nulhypothese waar is.
* **F-toets:** Een algemene toets voor het evalueren van de algehele significantie van het regressiemodel.
* **Robuustheid van t-procedures:** T-procedures zijn relatief robuust tegen schendingen van de normaliteitsassumptie bij grotere steekproeven.
### Inferentie voor regressiecoëfficiënten
* **Schattingsformules:** De geschatte regressiecoëfficiënten ($\hat{\beta}_0, \hat{\beta}_1$) worden berekend uit de steekproefdata.
* **Betrouwbaarheidsinterval voor $\beta_1$:** Gegeven door $\hat{\beta}_1 \pm t_{\alpha/2, df} \cdot SE(\hat{\beta}_1)$.
* $SE(\hat{\beta}_1)$ is de standaardfout van de geschatte helling.
* $t_{\alpha/2, df}$ is de kritieke t-waarde voor een bepaald betrouwbaarheidsniveau en aantal vrijheidsgraden.
* **Hypothesetoetsing voor $\beta_1$:**
* Nulhypothese $H_0: \beta_1 = 0$ (geen lineair verband in de populatie).
* Alternatieve hypothese $H_a: \beta_1 \neq 0$ (wel een lineair verband).
* Toetsingsgrootheid: $t = \frac{\hat{\beta}_1 - 0}{SE(\hat{\beta}_1)}$.
* **Interpretatie:** Als de p-waarde kleiner is dan het significantieniveau ($\alpha$), verwerpen we de nulhypothese en concluderen we dat er een statistisch significant lineair verband is in de populatie.
### De F-toets voor het algehele model
* **Doel:** Evalueert de algemene significantie van het regressiemodel door te testen of ten minste één van de regressiecoëfficiënten (uitzonderend het intercept) significant verschilt van nul.
* **Toetsingsgrootheid:** De F-statistiek, die de variantie verklaard door het model vergelijkt met de residuele variantie.
* **Formule:** $F = \frac{MSR}{MSE}$, waarbij MSR de Mean Square Regression is en MSE de Mean Square Error (residuele variantie).
* **Interpretatie:** Een hoge F-waarde met een kleine p-waarde suggereert dat het model als geheel significant is.
### Voorwaarden voor inferentie
* **Lineariteit:** De relatie tussen de onafhankelijke en afhankelijke variabele is lineair.
* **Onafhankelijkheid van waarnemingen:** De residuen zijn onafhankelijk van elkaar.
### Praktische overwegingen
---
* Inferentie over regressieanalyse stelt ons in staat om conclusies te trekken over populatieparameters op basis van steekproefgegevens.
* Centraal staat het concept van de steekproevenverdeling, een frequentieverdeling van resultaten van meerdere steekproeven, niet van de populatie zelf.
* Inferentiële statistiek maakt een brug van beschrijvende naar interpretatieve analyses, waarbij steekproefgegevens worden gebruikt om uitspraken te doen over de populatie.
* De steekproevenverdeling helpt bij het begrijpen van de variabiliteit van steekproefstatistieken (zoals het gemiddelde of de proportie) bij herhaalde steekproeftrekkingen.
* Twee hoofdvormen van inferentie zijn schatten (betrouwbaarheidsintervallen) en toetsen (significantietoetsen).
* Betrouwbaarheidsintervallen geven een reeks waarden aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Significantietoetsen (hypothesetoetsen) evalueren of waargenomen verschillen groot genoeg zijn om af te leiden dat deze niet door toeval zijn ontstaan.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* T-verdelingen hebben dikkere staarten dan de normaalverdeling, wat betekent dat een grotere t-waarde nodig is om significantie te bereiken, vooral bij kleine steekproeven.
* Vrijheidsgraden (df), gelijk aan steekproefgrootte min één ($n-1$), specificeren de vorm van een t-verdeling.
* Naarmate de vrijheidsgraden toenemen, benadert de t-verdeling de normaalverdeling.
* De 1-steekproef t-betrouwbaarheidsinterval wordt berekend met het steekproefgemiddelde, de steekproefstandaardafwijking, de steekproefgrootte en een kritieke t-waarde.
* De 1-steekproef t-toets evalueert of een steekproefgemiddelde significant verschilt van een hypothetisch populatiegemiddelde.
* Voorwaarde voor t-procedures zijn random steekproeven, ongeveer normale verdeling van de data (vooral bij kleine steekproeven), en onafhankelijke waarnemingen.
* Bij het vergelijken van twee onafhankelijke steekproefgemiddelden wordt een onafhankelijke t-toets gebruikt.
* Bij het vergelijken van twee afhankelijke steekproefgemiddelden (bv. voor- en nametingen) wordt een gepaarde t-toets gebruikt, die de verschillen tussen de paren analyseert.
* De t-toets voor gekoppelde paren wordt behandeld als een speciaal geval van de 1-steekproef t-toets op de verschilscores.
* Bij het vergelijken van twee gemiddelden met een z-toets wordt aangenomen dat de populatiestandaardafwijkingen bekend zijn en vaak gelijk worden verondersteld.
* Bij de t-toets voor twee onafhankelijke steekproeven worden de populatiestandaardafwijkingen geschat met $s$, wat leidt tot een t-verdeling met specifieke vrijheidsgraden, vaak conservatief berekend.
* Het onderscheidingsvermogen (power) is de kans om een echt effect te detecteren wanneer het bestaat (1 - bèta).
* Type I fout (vals positief) is het onterecht verwerpen van de nulhypothese ($\alpha$), Type II fout (vals negatief) is het onterecht aanvaarden van de nulhypothese ($\beta$).
* **Steekproevenverdeling:** Een verdeling van statistieken (bv. gemiddelden) berekend uit herhaaldelijk getrokken steekproeven.
* **Betrouwbaarheidsinterval (BI):** Een interval dat naar verwachting met een bepaald percentage (bv. 95%) de ware populatieparameter bevat.
* **Significantieniveau ($\alpha$):** De kans op een Type I fout, de drempel voor het verwerpen van de nulhypothese.
* **p-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is.
### Voorbeeld
---
* Inferentie over regressieanalyse stelt ons in staat om conclusies te trekken over populatieparameters op basis van steekproefgegevens.
* We willen uitspraken doen over de populatie (bv. verbanden, gemiddelden) op basis van een kleinere steekproef.
* **Betrouwbaarheidsinterval (BI):** Een interval waarbinnen we met een bepaalde waarschijnlijkheid verwachten dat de ware populatieparameter ligt.
* Een 95% BI betekent dat bij 95% van de steekproeven het berekende interval de populatiewaarde bevat.
* De formule voor het populatiegemiddelde (𝝁) is: $\bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}$ (wanneer $\sigma$ bekend is) of $\bar{x} \pm t \cdot \frac{s}{\sqrt{n}}$ (wanneer $\sigma$ geschat wordt).
* **Significante toetsen (Hypothesetoetsen):** Methoden om te bepalen of een waargenomen verschil of verband in de steekproef groot genoeg is om te concluderen dat het ook in de populatie aanwezig is.
* **Nulhypothese (H₀):** Stelt dat er geen effect of verschil is in de populatie.
* **Alternatieve hypothese (H₁):** Stelt dat er wel een effect of verschil is.
* **p-waarde (overschrijdingskans):** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat H₀ waar is.
* Een kleine p-waarde (bv. < 0,05) leidt tot verwerping van H₀.
* **Significantieniveau (α):** Een vooraf bepaalde drempel (bv. 0,05) die aangeeft wanneer we H₀ verwerpen.
* **Toetsingsgrootheid:** Een statistiek berekend uit de steekproefgegevens (bv. t-waarde) om hypothesen te toetsen.
* **T-verdeling:** Een kansverdeling die lijkt op de normaalverdeling, maar dikkere staarten heeft. Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking (s).
* De vorm van de t-verdeling hangt af van de vrijheidsgraden (df), die meestal $n-1$ is.
* Naarmate df toeneemt, benadert de t-verdeling de normaalverdeling.
* **Vrijheidsgraden (df):** Het aantal onafhankelijke gegevenspunten dat vrij kan variëren. Voor een 1-steekproef t-toets is dit $n-1$.
- **Onderscheidingsvermogen (Power):** De kans dat een toets een echt effect (wanneer H₁ waar is) correct detecteert en H₀ verwerpt. De kans op het niet maken van een Type II fout
### Gevolgen van onbekende populatiestandaardafwijking ($\sigma$)
* Bij gebruik van de geschatte standaardafwijking (s) in plaats van de populatiestandaardafwijking ($\sigma$), worden de staarten van de steekproevenverdeling dikker.
* Dit betekent dat bij eenzelfde $\alpha$ (bv. 5%), de kans op een Type I fout (onterecht H₀ verwerpen) groter kan zijn dan $\alpha$.
* Om dit te corrigeren, wordt de t-verdeling gebruikt in plaats van de z-verdeling.
### Verschillen tussen z- en t-verdelingen
* **z-verdeling:** Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) bekend is of de steekproefgrootte erg groot is. Dunner in de staarten.
* **t-verdeling:** Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking (s). Dikker in de staarten.
### Voorwaarden voor t-procedures
* **Random:** Steekproef moet willekeurig zijn getrokken om representativiteit te waarborgen.
* **Normaal verdeeld:** De populatie moet (ongeveer) normaal verdeeld zijn, vooral belangrijk bij kleine steekproeven ($n < 30$). Bij grotere steekproeven biedt de centrale limietstelling meer robuustheid.
* **Onafhankelijk:** Waarnemingen binnen steekproeven en tussen groepen (indien van toepassing) moeten onafhankelijk zijn. Voor ongepaarde t-toetsen is de populatie minstens 20 keer zo groot als de steekproef ($N \geq 20n$).
### Rapporteren van toetsresultaten (APA-stijl)
### Typen t-toetsen
---
* Dit omvat het schatten van de relatie tussen variabelen in de populatie en het toetsen van hypothesen over deze relatie.
* **Regressiecoëfficiënten:** De coëfficiënten die de relatie tussen de onafhankelijke en afhankelijke variabelen in de populatie vertegenwoordigen.
* **Standaardfouten van regressiecoëfficiënten:** Maat voor de onzekerheid in de schatting van de populatiecoëfficiënten.
* **Betrouwbaarheidsintervallen voor regressiecoëfficiënten:** Een bereik van waarden waarbinnen de werkelijke populatiecoëfficiënt waarschijnlijk ligt.
* **Hypothesetoetsing voor regressiecoëfficiënten:** Testen of een specifieke regressiecoëfficiënt significant verschilt van nul (of een andere gespecificeerde waarde).
* **Teststatistiek:** Een waarde berekend uit steekproefgegevens om een hypothese te toetsen (bv. t-statistiek, F-statistiek).
* **p-waarde:** De kans om een teststatistiek te observeren die minstens zo extreem is als de waargenomen waarde, onder de aanname dat de nulhypothese waar is.
* **Nulhypothese ($H_0$):** Een stelling die stelt dat er geen relatie is tussen de variabelen in de populatie (bv. de regressiecoëfficiënt is nul).
* **Alternatieve hypothese ($H_a$):** Een stelling die stelt dat er wel een relatie is tussen de variabelen in de populatie.
* **Vrijheidsgraden:** Bepaalt de vorm van de t- of F-verdeling en is gerelateerd aan de steekproefgrootte.
* **Resampling (Bootstrap):** Een methode om steekproevenverdelingen te simuleren, vooral nuttig bij kleinere steekproeven of complexe modellen.
* De t-verdeling wordt gebruikt voor inferentie over individuele regressiecoëfficiënten, vooral bij kleinere steekproeven of wanneer de populatievariantie onbekend is.
- De F-verdeling wordt gebruikt voor het toetsen van de algehele significantie van het regressiemodel (testen of ten minste één van de onafhankelijke variabelen een significante relatie heeft met de afhankelijke
* Een t-toets met $n-1$ vrijheidsgraden wordt gebruikt voor een 1-steekproef regressieanalyse.
* Voor regressieanalyses met meerdere voorspellers, worden t-toetsen gebruikt voor individuele coëfficiënten en een F-toets voor het algehele model.
* Het verwerpen van de nulhypothese suggereert dat de onafhankelijke variabele(n) een significante invloed hebben op de afhankelijke variabele in de populatie.
* Het betrouwbaarheidsinterval geeft een bereik van plausibele waarden voor de populatie-regressiecoëfficiënt.
* De grootte van de steekproef ($n$) beïnvloedt de nauwkeurigheid van de schattingen en de kracht van de toets.
* Een kleinere standaardafwijking ($\sigma$) van de populatie resulteert in kleinere standaardfouten en dus smallere betrouwbaarheidsintervallen en krachtigere toetsen.
### Onderscheidingsvermogen (Power)
* **Power:** De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is.
* Power wordt beïnvloed door het significantieniveau ($\alpha$), de effectgrootte en de steekproefgrootte ($n$).
* Een grotere steekproefgrootte verhoogt de power van de toets.
* Een grotere effectgrootte (hoe sterker de relatie in de populatie) verhoogt de power.
* Een hoger significantieniveau ($\alpha$) verhoogt de power maar verhoogt ook de kans op een Type I-fout.
### Type I en Type II Fouten
### Praktische overwegingen bij het rapporteren
### T-verdelingen en vrijheidsgraden
---
# inzicht in regressieanalyse en de interpretatie van de resultaten
### Kernidee
* Regressieanalyse stelt ons in staat om de relatie tussen variabelen te modelleren en voorspellingen te doen.
* Het doel is om een voorspellend model te creëren, waarbij de afhankelijke variabele wordt verklaard door een of meer onafhankelijke variabelen.
### Sleutelconcepten
* **Afhankelijke variabele (Y):** De variabele die we willen voorspellen of verklaren.
* **Onafhankelijke variabele(n) (X):** De variabele(n) die worden gebruikt om de afhankelijke variabele te voorspellen.
* **Regressievergelijking:** Een wiskundige formule die de relatie tussen de variabelen beschrijft.
* **Lineaire regressie:** Een regressiemodel waarbij de relatie tussen de variabelen lineair wordt verondersteld.
* **Enkelvoudige lineaire regressie:** Er is slechts één onafhankelijke variabele.
* **Meervoudige lineaire regressie:** Er zijn meerdere onafhankelijke variabelen.
* **Coëfficiënten (β):** De parameters in de regressievergelijking die de sterkte en richting van de relatie aangeven.
* **Intercept (β₀):** De voorspelde waarde van Y wanneer alle X'en nul zijn.
* **Regressiecoëfficiënt (β₁):** De verandering in Y voor een eenheidstoename in X, terwijl andere X'en constant blijven.
* **Fouten term (ε):** Vertegenwoordigt de onverklaarde variatie in Y die niet door de onafhankelijke variabelen wordt verklaard.
* **Schatting van de regressievergelijking ($\hat{Y}$):** De voorspelde waarde van Y op basis van de geschatte coëfficiënten.
### Sleutelfeiten
* De regressievergelijking voor enkelvoudige lineaire regressie is: $Y = \beta_0 + \beta_1 X + \epsilon$.
* De geschatte regressievergelijking is: $\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X$.
* De coëfficiënten ($\hat{\beta}_0$ en $\hat{\beta}_1$) worden geschat met de methode van de kleinste kwadraten (Ordinary Least Squares - OLS).
* De methode van de kleinste kwadraten minimaliseert de som van de gekwadrateerde residuen.
* **Residu:** Het verschil tussen de geobserveerde waarde van Y en de voorspelde waarde $\hat{Y}$.
* In de praktijk is de populatiestandaardafwijking ($\sigma$) onbekend, waardoor de t-verdeling wordt gebruikt in plaats van de z-verdeling voor inferentie over de coëfficiënten.
* De **standaardfout van de regressiecoëfficiënt** is cruciaal voor het beoordelen van de significantie van de variabele.
### Implicaties
* Regressieanalyse helpt bij het begrijpen van oorzaak-gevolgrelaties (met de nodige voorzichtigheid).
* Het maakt voorspellingen mogelijk voor nieuwe observaties.
* Het helpt bij het identificeren van de meest invloedrijke voorspellers voor een bepaalde uitkomst.
* Het is een veelgebruikte techniek in diverse onderzoeksgebieden zoals economie, psychologie, geneeskunde en sociale wetenschappen.
- > **Tip:** Bij de interpretatie van regressieresultaten is het essentieel om rekening te houden met de assumpties van het model (lineariteit, onafhankelijkheid van fouten, homoscedasticiteit, normaliteit van de fouten)
### Common pitfalls
---
### Kernbegrippen
* Regressieanalyse is een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren.
* Het doel is om te voorspellen hoe veranderingen in de onafhankelijke variabele(n) de afhankelijke variabele beïnvloeden.
* De relatie wordt weergegeven door een regressievergelijking.
* **Lineaire regressie:** Gaat uit van een lineaire relatie tussen de variabelen.
* De eenvoudigste vorm is enkelvoudige lineaire regressie, met één afhankelijke en één onafhankelijke variabele.
* Meervoudige lineaire regressie omvat meerdere onafhankelijke variabelen.
* **Regressievergelijking:**
* Voor enkelvoudige lineaire regressie: $Y = \beta_0 + \beta_1 X + \epsilon$.
* Voor meervoudige lineaire regressie: $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon$.
* **Interpretatie van coëfficiënten:**
* $\beta_0$ (intercept): De verwachte waarde van $Y$ wanneer alle onafhankelijke variabelen gelijk zijn aan nul.
* $\beta_i$ (hellingcoëfficiënt): De verwachte verandering in $Y$ voor een eenheidsverandering in de onafhankelijke variabele $X_i$, holding all other independent variables constant.
* $\epsilon$ (error term): Vertegenwoordigt de onverklaarde variantie in $Y$.
### Belangrijke feiten
* De coëfficiënten ($\beta_i$) worden geschat met behulp van de methode van de kleinste kwadraten (Ordinary Least Squares - OLS).
* OLS minimaliseert de som van de gekwadrateerde residuen (de verschillen tussen de geobserveerde en voorspelde waarden van $Y$).
* De schattingen van de coëfficiënten worden aangeduid met $\hat{\beta}_i$.
* Regressieanalyse maakt het mogelijk om voorspellingen te doen over de afhankelijke variabele op basis van de waarden van de onafhankelijke variabelen.
* De sterkte van de relatie wordt beoordeeld met behulp van statistische testen en betrouwbaarheidsintervallen voor de coëfficiënten.
* Het R-kwadraat ($R^2$) geeft aan welk deel van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n) in het model.
### Voorwaarden van lineaire regressie
* **Lineariteit:** De relatie tussen de afhankelijke variabele en de onafhankelijke variabelen moet lineair zijn.
* **Onafhankelijkheid van fouten:** De fouttermen ($\epsilon$) zijn onafhankelijk van elkaar.
* **Homoscedasticiteit:** De variantie van de fouttermen is constant over alle niveaus van de onafhankelijke variabelen.
* **Normaliteit van fouten:** De fouttermen zijn normaal verdeeld.
* **Geen multicollineariteit (voor meervoudige regressie):** De onafhankelijke variabelen zijn niet (sterk) gecorreleerd met elkaar.
- > **Tip:** Het controleren van deze aannames is cruciaal voor de geldigheid van de regressieresultaten
### Interpretatie van regressie-uitvoer
---
### Kernconcepten
* Regressieanalyse: een techniek om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren.
* Doel: het begrijpen van hoe veranderingen in onafhankelijke variabelen de afhankelijke variabele beïnvloeden en het voorspellen van de afhankelijke variabele.
### Sleutelfiguren en hun rol (impliciet in de context van de tekst)
* William Sealy Gosset (Student-t): introduceerde de t-verdeling, cruciaal bij inferentie wanneer de populatiestandaardafwijking onbekend is.
### Betrouwbaarheidsintervallen (BI) en Significantietoetsen
* 95% betrouwbaarheidsinterval: geeft het bereik aan waarbinnen het populatiegemiddelde naar verwachting ligt in 95% van de replicaties.
* Formule BI voor populatiegemiddelde $\mu$: $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$ (wanneer $\sigma$ bekend is).
* Componenten BI:
* $\bar{x}$: steekproefgemiddelde.
* $Z$: kritieke waarde voor betrouwbaarheidsniveau (bv. 1,96 voor 95%).
* $\alpha$: significantieniveau (kans op Type I fout).
* $\sigma$: populatiestandaardafwijking.
* $n$: steekproefgrootte.
* Klein BI impliceert hoge betrouwbaarheid (kleine foutenmarge).
* Invloed op BI breedte:
* Grote steekproefgrootte ($n$) verkleint het interval.
* Lager betrouwbaarheidsniveau (bv. 90%) verkleint het interval, maar verhoogt het risico.
* Kleinere populatiestandaardafwijking ($\sigma$) verkleint het interval.
* Significantietoets: hypothesetoets om te bepalen of een waargenomen verschil statistisch significant is.
* Stappen significantietoets:
- 1
- Formuleer nul- en alternatieve hypothesen ($H_0$, $H_a$)
- 2
- Bepaal de waarde van de toetsingsgrootheid
- 3
- Bepaal de overschrijdingskans ($p$-waarde)
- 4
### Klassieke versus Resampling (Bootstrap) Aanpak
### Cruciale Vragen bij Significantietoetsen
### Onderscheidingsvermogen (Power)
### T-verdelingen (indien $\sigma$ onbekend)
### Inferentie over de verwachting van een populatie (indien $\sigma$ te schatten is)
### Vergelijkingen van twee verwachtingen (t-toetsen)
---
* Regressieanalyse onderzoekt de relatie tussen een afhankelijke variabele en één of meerdere onafhankelijke variabelen.
* Het doel is om de afhankelijke variabele te voorspellen op basis van de onafhankelijke variabelen.
* Onafhankelijke variabelen worden ook wel predictoren of verklarende variabelen genoemd.
### Lineaire Regressie
* De relatie wordt gemodelleerd door een rechte lijn.
* De vergelijking voor enkelvoudige lineaire regressie is: $Y = \beta_0 + \beta_1 X + \epsilon$.
* $Y$: Afhankelijke variabele.
* $X$: Onafhankelijke variabele.
* $\beta_0$: Y-intercept (waarde van $Y$ als $X$ nul is).
* $\beta_1$: Richtingscoëfficiënt (verandering in $Y$ voor een eenheidstoename in $X$).
* $\epsilon$: Foutterm (residuele afwijking, niet verklaard door $X$).
### Schatting van de regressiecoëfficiënten
* Regressiecoëfficiënten ($\beta_0$, $\beta_1$) worden geschat uit steekproefgegevens.
* De meest gebruikte methode is de kleinste-kwadratenmethode (Least Squares Method).
* Deze methode minimaliseert de som van de gekwadrateerde residuen (verschillen tussen waargenomen en voorspelde waarden).
* De geschatte coëfficiënten worden aangeduid met $\hat{\beta}_0$ en $\hat{\beta}_1$.
* De regressievergelijking wordt dan: $\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X$.
### Interpretatie van de resultaten
#### De regressievergelijking
* $\hat{\beta}_0$: De voorspelde waarde van de afhankelijke variabele als de onafhankelijke variabele gelijk is aan nul. Dit kan soms een theoretische waarde zijn die in de praktijk geen betekenis heeft.
* $\hat{\beta}_1$: De verwachte verandering in de afhankelijke variabele voor elke eenheidstoename in de onafhankelijke variabele, *als alle andere variabelen constant blijven*. Dit is de kern van de interpretatie.
#### Statistische significantie van coëfficiënten
* Elke geschatte coëfficiënt wordt getest op statistische significantie.
* De nulhypothese ($H_0$) stelt meestal dat de populatiecoëfficiënt nul is ($\beta_i = 0$), wat betekent dat de onafhankelijke variabele geen lineair verband heeft met de afhankelijke variabele.
* Als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$, meestal 0,05), wordt de nulhypothese verworpen.
* Dit indiceert dat de onafhankelijke variabele een statistisch significant lineair verband heeft met de afhankelijke variabele.
#### Maatstaf voor modelkwaliteit
* **R-kwadraat ($R^2$)**: Geeft het percentage van de variatie in de afhankelijke variabele aan dat verklaard wordt door het regressiemodel.
* Een hogere $R^2$ duidt op een betere 'fit' van het model met de data.
* De formule is: $R^2 = 1 - \frac{\sum(Y_i - \hat{Y}_i)^2}{\sum(Y_i - \bar{Y})^2}$.
### Aannames van lineaire regressie
### Meervoudige Lineaire Regressie
---
* Regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meerdere onafhankelijke variabelen te modelleren.
### Belangrijke concepten
* **Regressievergelijking:** Een formule die de relatie tussen variabelen beschrijft, bijvoorbeeld $Y = \beta_0 + \beta_1 X_1 + \epsilon$.
* $Y$: de afhankelijke variabele.
* $X_1$: de onafhankelijke variabele.
* $\beta_0$: het intercept (de waarde van Y als X nul is).
* $\beta_1$: de regressiecoëfficiënt (de verandering in Y voor een eenheidstoename in X).
* $\epsilon$: de error term, die de onverklaarde variantie vertegenwoordigt.
* **Schatten van parameters:** De coëfficiënten ($\beta_0, \beta_1$) worden geschat uit steekproefgegevens, meestal met behulp van de kleinste-kwadratenmethode.
* **Foutenterm ($\epsilon$):** Vertegenwoordigt willekeurige variatie, meetfouten en invloeden van niet-gemodelleerde variabelen.
* **Kleinste-kwadratenmethode (Ordinary Least Squares - OLS):** Minimaliseert de som van de gekwadrateerde residuen (de verschillen tussen de geobserveerde en voorspelde waarden van Y).
* **Residuen:** De verschillen tussen de werkelijke waarden van de afhankelijke variabele en de voorspelde waarden uit het regressiemodel.
### Kernfeiten
* De regressiecoëfficiënt ($\beta_1$) geeft de verwachte verandering in de afhankelijke variabele aan voor elke eenheidstoename in de onafhankelijke variabele, *ceteris paribus* (alle andere variabelen gelijkblijvend).
* Het intercept ($\beta_0$) vertegenwoordigt de verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen nul zijn.
* Bij enkelvoudige lineaire regressie beschrijft de regressievergelijking een rechte lijn door de data.
* Meervoudige regressie gebruikt meerdere onafhankelijke variabelen om de afhankelijke variabele te voorspellen.
* De verdeling van de residuen is cruciaal voor de validiteit van het model; deze worden vaak getoetst op normaliteit, homoscedasticiteit en onafhankelijkheid.
### Interpretatie van resultaten
- **Statistische significantie van coëfficiënten:** Een t-toets wordt gebruikt om te bepalen of de regressiecoëfficiënt significant verschilt van nul. Een lage p-waarde (< 0.05) suggereert dat de onafhankelijke variabele een significante
* **Betrouwbaarheidsintervallen voor coëfficiënten:** Bieden een reeks waarden waarbinnen de ware populatiecoëfficiënt waarschijnlijk ligt. Een interval dat nul niet bevat, suggereert significantie.
* **Model fit:**
* **R-kwadraat ($R^2$):** Geeft het percentage van de variantie in de afhankelijke variabele aan dat verklaard wordt door het regressiemodel. Een hogere $R^2$ duidt op een betere fit.
* **Aangepaste $R^2$ (Adjusted $R^2$):** Corrigeert voor het aantal voorspellers in het model en is nuttiger bij meervoudige regressie.
* **F-toets:** Toetst de algehele significantie van het regressiemodel (d.w.z. of ten minste één van de voorspellers significant is).
* Regressieanalyse maakt het mogelijk om voorspellingen te doen over toekomstige waarden van de afhankelijke variabele.
* Het helpt bij het begrijpen van de sterkte en richting van de relaties tussen variabelen.
### Gebruikelijke valkuilen
---
* Regressieanalyse is een statistische techniek om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren.
* Het doel is om voorspellingen te doen en inzicht te krijgen in hoe veranderingen in onafhankelijke variabelen de afhankelijke variabele beïnvloeden.
* **Afhankelijke variabele (Y)**: De variabele die wordt voorspeld of verklaard.
* **Onafhankelijke variabele(n) (X)**: De variabele(n) die worden gebruikt om de afhankelijke variabele te voorspellen.
* **Regressievergelijking**: Een wiskundige formule die de relatie tussen de variabelen weergeeft.
* **Intercept ($\beta_0$)**: De verwachte waarde van Y wanneer alle X-variabelen nul zijn.
* **Regressiecoëfficiënt ($\beta_1$, $\beta_2$, ...)**: Geeft de verandering in Y aan voor een eenheidstoename in de corresponderende X-variabele, terwijl andere X-variabelen constant worden gehouden.
* **Foutterm ($\epsilon$)**: Het deel van Y dat niet door de X-variabelen wordt verklaard; vertegenwoordigt willekeurige variatie en andere ongemodelleerde factoren.
* **Kleinste kwadratenmethode (OLS)**: Een methode om de regressievergelijking te schatten door de som van de gekwadrateerde residuen (verschillen tussen geobserveerde en voorspelde waarden) te minimaliseren.
* **Residuen**: Het verschil tussen de werkelijke waarde van Y en de voorspelde waarde van Y.
* **R-kwadraat ($R^2$)**: Een maat voor de proportie van de variantie in Y die wordt verklaard door de X-variabelen in het model.
* **Getest voor 2 onafhankelijke steekproeven**: Een statistische test die wordt gebruikt om de gemiddelden van twee verschillende, onafhankelijke groepen te vergelijken.
* **Paired samples t-test**: Gebruikt voor metingen die aan elkaar gekoppeld zijn, zoals voor- en nametingen bij dezelfde proefpersonen.
* **Vrijheidsgraden (df)**: Het aantal onafhankelijke gegevenspunten dat beschikbaar is voor het schatten van een parameter. Voor een t-verdeling is dit typisch $n-1$ voor een enkele steekproef.
### Implementatie en Interpretatie
* De regressievergelijking voor een enkelvoudige lineaire regressie is: $Y = \beta_0 + \beta_1 X + \epsilon$.
* Voor meervoudige lineaire regressie is de vergelijking: $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon$.
* Een positieve $\beta$ coëfficiënt geeft een positieve relatie aan (als X toeneemt, neemt Y toe).
* Een negatieve $\beta$ coëfficiënt geeft een negatieve relatie aan (als X toeneemt, neemt Y af).
* Een $\beta$ coëfficiënt van nul betekent dat de onafhankelijke variabele geen lineaire relatie heeft met de afhankelijke variabele, rekening houdend met andere variabelen.
* De $R^2$-waarde ligt tussen 0 en 1, waarbij een hogere waarde aangeeft dat het model meer variantie in Y verklaart.
* **Tip**: Een hoge $R^2$ betekent niet noodzakelijk dat het model goed is; het kan ook duiden op overfitting.
* **Vraag 1**: "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?" (Dit is de $\alpha$-waarde of significantieniveau).
- **Vraag 2**: "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?" (Dit heeft te maken met
### Fouten bij Significantietoetsen
* **Type I fout (vals positief)**: De nulhypothese wordt onterecht verworpen. De kans hierop is gelijk aan $\alpha$.
* **Type II fout (vals negatief)**: De nulhypothese wordt niet verworpen, terwijl deze wel vals is. De kans hierop is gelijk aan $\beta$.
### T-verdelingen en de Z-verdeling
### Vergelijking van Twee Gemiddelden met T-toetsen
### Rapportage van Resultaten
---
* Het hoofddoel is het voorspellen van de afhankelijke variabele op basis van de onafhankelijke variabelen.
* Een regressiemodel kwantificeert de sterkte en richting van deze relaties.
* **Lineaire regressie**: Gaat ervan uit dat de relatie tussen variabelen lineair is.
* **Enkelvoudige lineaire regressie**: Betreft één afhankelijke variabele en één onafhankelijke variabele.
* **Meervoudige lineaire regressie**: Betreft één afhankelijke variabele en twee of meer onafhankelijke variabelen.
* **Regressievergelijking**: Beschrijft de relatie. Voor enkelvoudige lineaire regressie: $Y = \beta_0 + \beta_1 X + \epsilon$.
* $Y$: afhankelijke variabele (geobserveerde waarde).
* $\beta_0$: intercept (waarde van Y wanneer X nul is).
* $\beta_1$: helling (verandering in Y voor een eenheidstoename in X).
* $\epsilon$: foutterm (niet verklaarde variatie).
* **Schatting van de regressiecoëfficiënten**: Meestal via de kleinste kwadratenmethode (Ordinary Least Squares, OLS).
* **Intercept ($\beta_0$)**: De verwachte waarde van de afhankelijke variabele als alle onafhankelijke variabelen gelijk zijn aan nul.
- **Regressiecoëfficiënt ($\beta_1$ voor enkelvoudige, $\beta_i$ voor meervoudige)**: Geeft aan hoeveel de afhankelijke variabele naar verwachting verandert als de betreffende onafhankelijke variabele met één eenheid toeneemt, terwijl de andere onafhankelijke variabelen
* **Statistische significantie van regressiecoëfficiënten**: Toetst of de gevonden relatie tussen een onafhankelijke variabele en de afhankelijke variabele significant verschilt van nul.
* Vaak gerapporteerd met een p-waarde. Een p-waarde < 0,05 suggereert een statistisch significante relatie.
* Wordt ook vaak geassocieerd met een betrouwbaarheidsinterval voor de coëfficiënt.
* **Betrouwbaarheidsinterval (BI) voor regressiecoëfficiënten**: Geeft een bereik aan waarbinnen de werkelijke populatiecoëfficiënt waarschijnlijk ligt (bv. 95% BI).
* Als het BI voor een coëfficiënt nul niet bevat, is de relatie statistisch significant.
* **Model fit statistieken**: Beoordelen hoe goed het regressiemodel de data verklaart.
* **R-kwadraat ($R^2$)**: Het proportie van de totale variatie in de afhankelijke variabele dat verklaard wordt door het model.
* $R^2 = \frac{\text{Verklaarde variantie}}{\text{Totale variantie}}$.
* **Gecorrigeerde R-kwadraat**: Past $R^2$ aan voor het aantal voorspellers in het model; nuttig bij meervoudige regressie om overschatting te voorkomen.
* **F-toets voor het model**: Toetst de algemene significantie van het regressiemodel (of alle regressiecoëfficiënten samen significant verschillen van nul).
### Toepassingen en overige aspecten
### Onderscheidingsvermogen (Power) en fouten
### T-verdelingen en schattingen
---
* Regressieanalyse wordt gebruikt om de relatie tussen variabelen te modelleren en voorspellingen te doen.
* De focus ligt op het begrijpen van hoe een afhankelijke variabele verandert als gevolg van veranderingen in een of meer onafhankelijke variabelen.
* **Regressievergelijking:** Een wiskundige uitdrukking die de lineaire relatie tussen variabelen beschrijft.
* Voor een simpele lineaire regressie: $\hat{y} = b_0 + b_1x$
* **Afhankelijke variabele ($\hat{y}$ of $y$):** De variabele die we proberen te voorspellen of te verklaren.
* **Onafhankelijke variabele ($x$):** De variabele die wordt gebruikt om de afhankelijke variabele te voorspellen.
* **Intercept ($b_0$):** De verwachte waarde van de afhankelijke variabele wanneer de onafhankelijke variabele gelijk is aan nul.
* **Regressiecoëfficiënt ($b_1$):** Geeft de verwachte verandering in de afhankelijke variabele aan voor elke eenheidstoename in de onafhankelijke variabele.
* **Schatting van de standaardfout van de regressiecoëfficiënt ($\text{SE}(b_1)$):** Een maat voor de onzekerheid in de schatting van de regressiecoëfficiënt.
* **Toetsingsgrootheid ($t$):** Berekend als het verschil tussen de geschatte regressiecoëfficiënt en nul, gedeeld door de standaardfout van de regressiecoëfficiënt.
* $t = \frac{b_1 - 0}{\text{SE}(b_1)}$
* **Vrijheidsgraden ($df$):** Voor een simpele lineaire regressie is dit $n-2$, waarbij $n$ de steekproefgrootte is.
* **Betrouwbaarheidsinterval (BI) voor de regressiecoëfficiënt:** Geeft een reeks waarden aan waarbinnen de werkelijke populatie regressiecoëfficiënt waarschijnlijk ligt.
* **Significantie van de regressiecoëfficiënt:**
* Als de nulhypothese ($H_0: \beta_1 = 0$) wordt verworpen, is er een statistisch significant lineair verband tussen de onafhankelijke en afhankelijke variabele.
* Een $p$-waarde kleiner dan het significantieniveau (bv. $0,05$) leidt tot verwerping van $H_0$.
* **Betekenis van de regressiecoëfficiënt ($b_1$):**
* Een positieve $b_1$ betekent dat de afhankelijke variabele toeneemt wanneer de onafhankelijke variabele toeneemt.
* Een negatieve $b_1$ betekent dat de afhankelijke variabele afneemt wanneer de onafhankelijke variabele toeneemt.
* De grootte van $b_1$ geeft de verwachte verandering per eenheid van $x$ aan.
* **Betrouwbaarheidsinterval:**
* Een 95% betrouwbaarheidsinterval voor $b_1$ betekent dat we er 95% zeker van kunnen zijn dat de werkelijke populatie regressiecoëfficiënt binnen dit interval ligt.
* Als het betrouwbaarheidsinterval voor $b_1$ de nul niet bevat, is de regressiecoëfficiënt statistisch significant.
* **Grootte van de steekproef en de standaardfout:**
* Een grotere steekproefgrootte ($n$) leidt doorgaans tot een kleinere standaardfout van de regressiecoëfficiënt.
### Voorwaarden voor regressieanalyse
### Conclusies en Rapportering
---
* Regressieanalyse onderzoekt de relatie tussen variabelen om voorspellingen te doen.
* Het doel is om de sterkte en richting van het verband tussen een afhankelijke en een of meer onafhankelijke variabelen te kwantificeren.
* **Lineaire regressie:** Veronderstelt een lineair verband tussen variabelen.
* **Enkelvoudige lineaire regressie:** Eén afhankelijke variabele en één onafhankelijke variabele.
* **Meervoudige lineaire regressie:** Eén afhankelijke variabele en meerdere onafhankelijke variabelen.
* **Regressievergelijking:** Een wiskundige uitdrukking die het verband beschrijft.
* Voor enkelvoudige lineaire regressie: $Y = \beta_0 + \beta_1X + \epsilon$
* $Y$: Afhankelijke variabele
* $X$: Onafhankelijke variabele
* $\beta_0$: Intercept (waarde van Y als X nul is)
* $\beta_1$: Regressiecoëfficiënt (verandering in Y voor een eenheidstoename in X)
* $\epsilon$: Foutterm (ongeobserveerde variatie in Y)
* **Schatting van coëfficiënten:** Wordt meestal gedaan met de kleinste-kwadratenmethode (Ordinary Least Squares - OLS).
* Minimaliseert de som van de gekwadrateerde residuen (verschil tussen geobserveerde en voorspelde waarden van Y).
* **Residuen:** Het verschil tussen de werkelijke waarde van de afhankelijke variabele en de door het model voorspelde waarde.
* **Determinatiecoëfficiënt ($R^2$):** Geeft aan welk deel van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n).
* Varieert tussen 0 en 1.
* Een hogere $R^2$ duidt op een betere fit van het model.
* **Standaardfout van de regressiecoëfficiënt:** Meet de onzekerheid in de schatting van de regressiecoëfficiënt.
* **Hypothesetoetsen voor coëfficiënten:** Worden gebruikt om te bepalen of een onafhankelijke variabele een statistisch significant effect heeft op de afhankelijke variabele.
* Nulhypothese ($H_0$): De regressiecoëfficiënt is gelijk aan nul ($\beta_i = 0$).
* Alternatieve hypothese ($H_a$): De regressiecoëfficiënt is niet gelijk aan nul ($\beta_i \neq 0$).
* De $t$-toets wordt hiervoor gebruikt.
* **Interpretatie van $\beta_0$ (intercept):** De gemiddelde waarde van $Y$ wanneer alle onafhankelijke variabelen gelijk zijn aan nul. Moet wel interpreteerbaar zijn in de context van de data.
- **Interpretatie van $\beta_1$ (regressiecoëfficiënt):** Geeft de verwachte verandering in de afhankelijke variabele ($Y$) aan voor elke eenheidstoename in de betreffende onafhankelijke variabele ($X$), terwijl alle andere onafhankelijke variabelen constant worden
### Voorwaarden en assumpties
### Belangrijke overwegingen
---
* Regressieanalyse verklaart de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen.
* **Regressievergelijking:** Een wiskundige formule die de lineaire relatie weergeeft.
* Voor enkelvoudige lineaire regressie: $Y = \beta_0 + \beta_1 X + \epsilon$
* $\beta_1$: helling (verandering in Y bij een eenheidstoename in X)
* $\epsilon$: foutterm (onverklaarde variatie)
* **Schatten van de regressievergelijking:** Meestal met de methode van de kleinste kwadraten (Ordinary Least Squares - OLS).
* Minimaliseert de som van de gekwadrateerde residuen (het verschil tussen geobserveerde en voorspelde waarden).
* **Residuen:** Het verschil tussen de daadwerkelijke waarde van de afhankelijke variabele en de voorspelde waarde uit het regressiemodel ($\hat{y}$).
* Residu = $Y - \hat{y}$
* **Modelassumpties:** Essentieel voor de geldigheid van de regressieanalyse en de interpretatie van de resultaten.
* Lineariteit: De relatie tussen de variabelen is lineair.
* Onafhankelijkheid van fouten: Fouten zijn niet gecorreleerd met elkaar.
* Homoscedasticiteit: De variantie van de fouten is constant over alle niveaus van de onafhankelijke variabele.
* Normaliteit van fouten: Fouten zijn normaal verdeeld.
* **R-kwadraat ($R^2$):** Geeft aan welk percentage van de variantie in de afhankelijke variabele verklaard wordt door het regressiemodel.
* $R^2 = 1 - \frac{\text{som van gekwadrateerde residuen}}{\text{totale som van kwadraten}}$
* **Gecorrigeerde R-kwadraat:** Past $R^2$ aan voor het aantal voorspellers in het model; nuttig bij meervoudige regressie.
* **Intercept ($\beta_0$):** De verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen nul zijn. Interpreteer alleen als nul een zinvolle waarde is in de context.
* **Regressiecoëfficiënten ($\beta_i$):** De verwachte verandering in de afhankelijke variabele voor een eenheidstoename in de betreffende onafhankelijke variabele, *terwijl alle andere onafhankelijke variabelen constant worden gehouden*.
* **Statistische significantie:** Getoetst met p-waarden. Een lage p-waarde (typisch < 0,05) suggereert dat de relatie niet door toeval komt.
* De t-toets voor de coëfficiënten evalueert of de coëfficiënt significant verschilt van nul.
### Praktische overwegingen
### Toepassingen
---
# Meervoudige regressieanalyse en modelverfijning
### Kernidee
* Meervoudige regressieanalyse onderzoekt de relatie tussen een afhankelijke variabele en twee of meer onafhankelijke variabelen.
* Het model wordt verfijnd door onnodige variabelen te verwijderen, die geen significante bijdrage leveren aan de verklaring van de afhankelijke variabele.
### Belangrijke feiten
* Het model wordt opgebouwd met behulp van de stappenmethode (forward, backward, stepwise).
* De stappenmethode verwijdert variabelen met een lage statistische significantie (hoge p-waarde).
* Bij het verwijderen van een variabele, is de p-waarde voor het behoud van de variabele (de p-value for inclusion) een belangrijke indicator.
* Een variabele wordt verwijderd als de p-waarde groter is dan de ingestelde grenswaarde (meestal 0,05).
* Dit proces van toevoegen en verwijderen van variabelen kan herhaald worden om het model te optimaliseren.
### Belangrijke concepten
* **Variabelen die worden toegevoegd aan het model:** De variabele met de laagste p-waarde wordt als eerste toegevoegd.
* **Variabelen die worden verwijderd uit het model:** De variabele met de hoogste p-waarde wordt als eerste verwijderd.
* **Stapsgewijze selectie (stepwise):** Een gecombineerde methode die zowel variabelen toevoegt als verwijdert.
* **F-test voor modelselectie:** Deze test evalueert de significantie van het totale model, waarbij de nulhypothese stelt dat alle regressiecoëfficiënten gelijk zijn aan nul.
* **Adjusted R-kwadraat:** Een aangepaste versie van R-kwadraat die rekening houdt met het aantal predictoren in het model, wat helpt bij modelselectie.
### Implicaties
* Modelverfijning leidt tot een eenvoudiger en beter interpreteerbaar model.
* Het verwijdert variabelen die weinig of geen voorspellende waarde hebben.
* Dit kan helpen bij het voorkomen van overfitting, waarbij het model te veel rekening houdt met de specifieke kenmerken van de steekproef.
* Een verfijnd model generaliseert vaak beter naar nieuwe, ongeziene data.
---
* Modelverfijning omvat technieken om de geschiktheid van het regressiemodel te beoordelen en te verbeteren.
* Regressiemodellen kunnen worden gebruikt voor voorspelling en verklaring.
* Modelverfijning streeft naar een optimale balans tussen modelcomplexiteit en verklaringskracht.
* Het proces van modelverfijning omvat vaak het iteratief toevoegen of verwijderen van variabelen.
* **Afhankelijke variabele (Y):** De variabele die we proberen te verklaren of voorspellen.
* **Onafhankelijke variabelen (X1, X2, ...):** De variabelen waarvan wordt aangenomen dat ze de afhankelijke variabele beïnvloeden.
* **Regressiecoëfficiënten ($\beta_i$):** De waarden die aangeven hoeveel de afhankelijke variabele verandert wanneer een specifieke onafhankelijke variabele met één eenheid toeneemt, terwijl alle andere variabelen constant blijven.
* **Intercept ($\beta_0$):** De verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen gelijk zijn aan nul.
* **$R^2$ (Determinatiecoëfficiënt):** Geeft aan welk deel van de variantie in de afhankelijke variabele wordt verklaard door het regressiemodel.
* **Gestandaardiseerde regressiecoëfficiënten ($\beta_i^*$):** De coëfficiënten nadat de variabelen zijn gestandaardiseerd, waardoor hun relatieve belang vergeleken kan worden.
* **Modelselectiecriteria:** Methoden zoals AIC (Akaike Information Criterion) en BIC (Bayesian Information Criterion) om modellen met elkaar te vergelijken, waarbij lagere waarden duiden op een beter model.
* **Forward selection:** Een methode om variabelen stapsgewijs toe te voegen aan het model.
* **Backward elimination:** Een methode om variabelen stapsgewijs uit het model te verwijderen.
* **Stepwise regression:** Een combinatie van forward selection en backward elimination.
* **Multicollineariteit:** Een situatie waarin onafhankelijke variabelen sterk met elkaar correleren, wat de interpretatie van de coëfficiënten kan bemoeilijken.
* **Residuenanalyse:** Het onderzoeken van de verschillen tussen de waargenomen en voorspelde waarden om de assumpties van het model te controleren.
* Een goed gemodelleerd regressiemodel kan waardevolle inzichten bieden in complexe relaties.
* Het selecteren van de juiste variabelen is cruciaal voor een valide en betrouwbaar model.
* Modellen moeten worden gevalideerd op nieuwe data om overfitting te voorkomen.
* De interpretatie van coëfficiënten vereist voorzichtigheid, vooral bij multicollineariteit.
### Voorbeeld
- > **Voorbeeld:** Een onderzoeker wil de studiepunten van studenten verklaren (afhankelijke variabele)
- Onafhankelijke variabelen zijn studie-uren per week, vorige GPA, en motivatiescore
- Meervoudige regressie kan de gecombineerde invloed van deze variabelen op de studiepunten analyseren
- Modelverfijning zou kunnen inhouden dat de motivatiescore niet significant bijdraagt aan de verklaring en daarom uit het model wordt verwijderd om een eenvoudiger, even effectief model te verkrijgen
---
### Kernbegrippen
* Een betrouwbaarheidsinterval (BI) geeft een reeks waarden aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Een 95% BI betekent dat bij 95% van de herhaalde steekproeven het interval de werkelijke populatiewaarde bevat.
* Significantietoetsen beoordelen of waargenomen verschillen waarschijnlijk niet door toeval ontstaan zijn.
* De nulhypothese ($H_0$) stelt dat er geen effect of verschil is.
* De alternatieve hypothese ($H_a$) stelt dat er wel een effect of verschil is.
### Betrouwbaarheidsintervallen
* Het berekenen van een BI voor het populatiegemiddelde ($\mu$) vereist het steekproefgemiddelde ($\bar{x}$), de Z-score voor het betrouwbaarheidsniveau, het significantieniveau ($\alpha$), de populatiestandaardafwijking ($\sigma$), en de steekproefgrootte ($n$).
* De formule voor het BI is: $\bar{x} \pm Z \cdot (\sigma / \sqrt{n})$.
* De foutenmarge rondom het populatiegemiddelde wordt beïnvloed door:
* Het steekproefgemiddelde ($\bar{x}$).
* De Z-score (kritieke waarde voor het betrouwbaarheidsniveau).
* Het significantieniveau ($\alpha$).
* De populatiestandaardafwijking ($\sigma$).
* De steekproefgrootte ($n$).
* De standaardfout is $\sigma / \sqrt{n}$.
* Een kleiner BI impliceert een hogere betrouwbaarheid (kleinere foutenmarge).
* Een kleiner BI kan verkregen worden door:
* Een grotere steekproefgrootte ($n$).
* Een lager betrouwbaarheidsniveau (bv. 90% i.p.v. 95%).
* Een kleinere populatiestandaardafwijking ($\sigma$).
### Significantietoetsen
* Significantietoetsen volgen meestal 4 stappen:
- 1
- Formuleer de nul- en alternatieve hypothesen
- 2
- Bepaal de waarde van de toetsingsgrootheid
- 3
### T-verdelingen
### T-toetsen voor het vergelijken van gemiddelden
### Conclusies en implicaties
---
### Kernconcepten
* Een betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen het echte populatiegemiddelde verwacht wordt te liggen.
* Een 95% BI betekent dat in 95% van de replicaties een interval wordt gevonden dat de echte populatiewaarde bevat.
* Significante toetsen helpen bij het bepalen of een waargenomen verschil groot genoeg is om niet door toeval verklaard te worden.
* De p-waarde geeft de kans aan om een resultaat te krijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is.
* Het betrouwbaarheidsinterval wordt beïnvloed door het steekproefgemiddelde ($\bar{x}$), het betrouwbaarheidsniveau (Z), het significantieniveau ($\alpha$), de populatiestandaardafwijking ($\sigma$), en de steekproefgrootte (n).
* Een kleiner BI impliceert een hogere betrouwbaarheid door een kleinere foutenmarge.
* Een kleiner BI wordt verkregen door een grotere steekproef, een lager betrouwbaarheidsniveau, of een kleinere populatiestandaardafwijking.
* Significante toetsen volgen vier stappen: formuleren van hypothesen, bepalen toetsingsgrootheid, bepalen overschrijdingskans (p), en formuleren conclusie.
* De nulhypothese ($H_0$) stelt dat er geen verschil is tussen groepen of variabelen.
* De alternatieve hypothese ($H_a$) stelt dat er wel een verschil is.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking (s).
* t-verdelingen zijn symmetrisch rond 0, maar hebben dikkere staarten dan de normaalverdeling, wat resulteert in meer Type I fouten indien niet correct toegepast.
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden (df), wat meestal $n-1$ is.
* Bij het vergelijken van twee gemiddelden met t-toetsen, wanneer $\sigma$ onbekend is, wordt de t-toets voor onafhankelijke steekproeven of voor gekoppelde paren gebruikt.
* Voor t-procedures (betrouwbaarheidsintervallen en toetsen) zijn de voorwaarden: willekeurigheid van de steekproef, normaal verdeeldheid van de populatie (of voldoende grote steekproefgrootte door Centrale Limietstelling), en onafhankelijkheid van de waarnemingen.
* De 1-steekproef t-betrouwbaarheidsinterval wordt berekend met de formule: $\bar{x} \pm t^\ast \frac{s}{\sqrt{n}}$.
* De toetsingsgrootheid voor een 1-steekproef t-toets is $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$, waarbij $\mu_0$ de hypothetische populatiewaarde is.
* Bij het rapporteren van toetsresultaten in APA-stijl worden de toetsingsgrootheid, vrijheidsgraden, p-waarde, betrouwbaarheidsinterval en effectgrootte vermeld.
* Een kleiner betrouwbaarheidsinterval geeft meer zekerheid over de schatting van de populatieparameter.
* Het verhogen van de steekproefgrootte verkleint het betrouwbaarheidsinterval en vergroot de power van een toets.
* Het onderscheidingsvermogen (power) is de kans om een echt effect te detecteren wanneer dit aanwezig is.
* Type I fout (vals positief) treedt op wanneer de nulhypothese onterecht wordt verworpen ($\alpha$).
* Type II fout (vals negatief) treedt op wanneer de nulhypothese onterecht niet wordt verworpen ($\beta$).
* Gekoppelde t-toetsen zijn krachtiger dan onafhankelijke t-toetsen wanneer er een verband is tussen de metingen.
### Voorbeelden
* Een 95% BI voor lichaamslengte: als dit interval tussen 165 en 170 cm ligt, verwachten we dat het gemiddelde populatiegemiddelde voor lichaamslengte binnen dit bereik valt.
### Tip
---
* Een betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen men verwacht dat het echte populatiegemiddelde ligt.
* Een 95% BI betekent dat bij 95% van de herhalingen van het onderzoek het interval de werkelijke populatiewaarde bevat.
* De formule voor een BI voor het populatiegemiddelde $\mu$ is: $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$ (wanneer $\sigma$ bekend is).
* Hypothesetoetsen, of significantietoetsen, evalueren of een waargenomen verschil groot genoeg is om te concluderen dat de nulhypothese verworpen kan worden.
### Kernfeiten
* De foutenmarge van een betrouwbaarheidsinterval wordt beïnvloed door:
* $\bar{x}$ (steekproefgemiddelde)
* $Z$ (Z-score, gerelateerd aan het betrouwbaarheidsniveau)
* $\alpha$ (significantieniveau, de kritische grens voor het verwerpen van de nulhypothese)
* $\sigma$ (populatiestandaardafwijking)
* $n$ (steekproefgrootte)
* Een kleiner betrouwbaarheidsinterval impliceert een hogere betrouwbaarheid en kan verkregen worden door:
* Een lager betrouwbaarheidsniveau (bv. 90% in plaats van 95%).
* Significanteietoetsen volgen vier stappen:
* Formuleren van nul- en alternatieve hypothesen ($H_0$ en $H_a$).
* Bepalen van de toetsingsgrootheid.
* Bepalen van de overschrijdingskans ($p$-waarde).
* Formuleren van de conclusie.
* De $p$-waarde is de kans op het waargenomen resultaat (of extremer) als de nulhypothese waar is.
* Bij het verwerpen van de nulhypothese bij $\alpha = 0,05$, is er 5% kans op een Type I fout (vals positief).
* Bij het niet verwerpen van de nulhypothese als de alternatieve hypothese waar is, is er een Type II fout (vals negatief, $\beta$).
* Power (onderscheidingsvermogen) is de kans dat een statistische toets een relevant verschil detecteert als dat verschil echt bestaat ($1 - \beta$).
* **Betrouwbaarheidsinterval (BI):** Een interval rondom een steekproefstatistiek dat met een bepaalde waarschijnlijkheid de populatieparameter bevat.
* **Significantieniveau ($\alpha$):** Het risico dat men accepteert om de nulhypothese te verwerpen terwijl deze waar is (Type I fout). Typische waarden zijn 0,05, 0,01 of 0,001.
---
* Modelverfijning binnen meervoudige regressieanalyse focust op het selecteren van de beste subset van predictoren om een model te bouwen dat zowel theoretisch relevant als statistisch efficiënt is.
* **Stapsgewijze selectie (Stepwise Selection):** Een geautomatiseerde methode om predictoren toe te voegen of te verwijderen uit een regressiemodel.
* **Forward Selection:** Beginnen met een model zonder predictoren en iteratief de predictor toevoegen die de grootste verbetering geeft.
* **Backward Elimination:** Beginnen met een model dat alle predictoren bevat en iteratief de minst significante predictor verwijderen.
* **Stepwise Regression:** Een combinatie van forward selection en backward elimination, waarbij in elke stap predictoren kunnen worden toegevoegd of verwijderd.
* **Criteria voor selectie:** Beslissingen om predictoren toe te voegen of te verwijderen zijn gebaseerd op statistische criteria.
* **AIC (Akaike Information Criterion):** Meet de relatieve kwaliteit van een statistisch model ten opzichte van andere modellen. Lagere AIC-waarden geven een beter model aan.
* **BIC (Bayesian Information Criterion):** Vergelijkbaar met AIC, maar geeft een zwaardere straf voor extra parameters, wat leidt tot eenvoudigere modellen. Lagere BIC-waarden zijn beter.
* **Cross-validatie:** Een methode om de generaliseerbaarheid van een model te evalueren door het te testen op onafhankelijke subsets van de data.
* **K-fold cross-validation:** De data wordt opgedeeld in K 'folds'. Het model wordt K keer getraind, waarbij telkens één fold apart wordt gehouden voor validatie.
* **Modelcomplexiteit:** Een eenvoudig model (met minder predictoren) heeft vaak de voorkeur boven een complex model, zelfs als het iets minder verklaart, om overfitting te voorkomen.
* **Overfitting:** Een model dat te goed past op de trainingsdata, waardoor het slecht presteert op nieuwe, ongeziene data.
* **Validatie:** Het proces van het evalueren van de prestaties van een model op data die niet is gebruikt tijdens de modeltraining.
* Het correct toepassen van modelverfijningstechnieken kan leiden tot parsimoniere modellen die beter interpreteerbaar zijn.
* Het risico op overfitting wordt verminderd door selectieprocedures en validatiemethoden.
* Automatische selectiemethoden zoals stepwise regression kunnen soms 'lokale optima' vinden in plaats van het 'globale optimum'.
* Theoretische kennis over de relaties tussen variabelen blijft cruciaal voor het interpreteren en valideren van de geselecteerde modellen.
### Tips
* > **Tip:** Hoewel automatische selectiemethoden nuttig zijn, is het essentieel om de theoretische relevantie van de geselecteerde variabelen altijd te beoordelen.
* > **Tip:** Gebruik meerdere selectiecriteria (bv. AIC en BIC) en cross-validatie om een robuustere modelselectie te waarborgen.
* > **Tip:** Wees voorzichtig met het gebruik van stepwise selection in de finale analyse; het wordt vaker aanbevolen voor exploratieve doeleinden.
---
* Meervoudige regressieanalyse onderzoekt de relatie tussen een afhankelijke variabele en meerdere onafhankelijke variabelen tegelijkertijd.
* Het doel is om een lineair model te construeren dat de afhankelijke variabele zo goed mogelijk voorspelt op basis van de onafhankelijke variabelen.
* Het model neemt de algemene vorm aan van een lineaire functie: $Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_kX_k + \epsilon$.
* $\beta_0$ is het intercept, de verwachte waarde van Y als alle X'en nul zijn.
* $\beta_i$ zijn de regressiecoëfficiënten die de verandering in Y beschrijven per eenheidstoename in $X_i$, terwijl alle andere X'en constant worden gehouden.
* $\epsilon$ is de error term, die de onverklaarde variatie in Y vertegenwoordigt.
* De schatting van de coëfficiënten gebeurt middels Ordinary Least Squares (OLS), wat de som van de gekwadrateerde residuen minimaliseert.
* Het principe van "parsimonie" (eenvoud) is cruciaal: het eenvoudigste model dat de data adequaat verklaart, heeft de voorkeur.
* Modelverfijning omvat stappen om de geschiktheid en interpreteerbaarheid van het regressiemodel te verbeteren.
* Dit kan inhouden: toevoegen, verwijderen of transformeren van variabelen.
* Het selecteren van variabelen gebeurt op basis van theoretische relevantie en statistische significantie.
* **Modelselectie:** Methoden zoals forward selection, backward elimination en stepwise regression helpen bij het systematisch selecteren van de beste subset van voorspellers.
* **Regelmatige regressie (Regularization):** Technieken zoals LASSO en Ridge regressie worden gebruikt om overfitting te voorkomen, met name bij veel voorspellende variabelen.
* LASSO (Least Absolute Shrinkage and Selection Operator) kan coëfficiënten naar nul krimpen, wat resulteert in variabele selectie.
* Ridge regressie krimpt coëfficiënten naar nul, maar zelden precies naar nul.
- **Interactietermen:** Termen van de vorm $X_i X_j$ kunnen worden toegevoegd om te onderzoeken of het effect van de ene onafhankelijke variabele op Y afhangt van de waarde van een andere onafhankelijke
* **Niet-lineaire transformaties:** Variabelen kunnen worden getransformeerd (bv. logaritme, kwadraat) om niet-lineaire relaties tussen X en Y te modelleren.
* **Modeldiagnostiek:** Na het fitten van een model, is het essentieel om de aannames van de regressie te controleren (bv. lineariteit, onafhankelijkheid van residuen, homoscedasticiteit, normaliteit van residuen).
* **Indicatorvariabelen (Dummyvariabelen):** Gebruikt om categorische onafhankelijke variabelen in het model op te nemen.
* Een goed gemodelleerde meervoudige regressie kan krachtige voorspellingen genereren en inzicht verschaffen in causale verbanden.
* Zonder zorgvuldige modelverfijning kan overfitting optreden, wat leidt tot slechte generaliseerbaarheid naar nieuwe data.
* De interpretatie van coëfficiënten vereist een goed begrip van de context en de andere variabelen in het model.
* Het gebruik van modelselectie technieken kan leiden tot modellen die statistisch "optimaal" zijn maar minder theoretisch onderbouwd.
- > **Tip:** Start modelselectie altijd met een theoretisch onderbouwde set van variabelen en gebruik statistische methoden ter ondersteuning, niet als enige leidraad
- > **Voorbeeld:** In een model voor huisprijzen zou een interactieterm tussen "aantal slaapkamers" en "locatie" kunnen onderzoeken of het aantal slaapkamers anders voorspelt in stedelijke versus landelijke gebieden
---
### Kernideeën
- De focus ligt op het begrijpen van de interpretatie van regressiecoëfficiënten en de stappen die genomen worden bij modelverfijning.
- Belangrijke aspecten zijn het interpreteren van de foutenmarge, het belang van de effectgrootte en de rol van de steekproefgrootte.
- **Betrouwbaarheidsinterval (BI)**: Geeft een bereik aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
- Een 95% BI betekent dat bij 95% van de herhalingen het interval de werkelijke populatiewaarde bevat.
- Het BI wordt beïnvloed door het steekproefgemiddelde ($\bar{x}$), de Z-score (betrouwbaarheidsniveau), het significantieniveau ($\alpha$) en de populatiestandaardafwijking ($\sigma$).
- **Foutmarge**: Het deel dat rond het steekproefgemiddelde wordt toegevoegd en afgetrokken om het betrouwbaarheidsinterval te vormen.
- Verkleint met een grotere steekproefgrootte ($n$).
- Verkleint met een lager betrouwbaarheidsniveau (kleinere Z-waarde).
- **Significantieniveau ($\alpha$)**: De vooraf vastgestelde kritieke grens (meestal 5%) om de nulhypothese te verwerpen.
- **P-waarde**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is.
- Als $p < \alpha$, is het resultaat statistisch significant.
- **Standaardafwijking ($\sigma$)**: Een maat voor de spreiding van data in de populatie.
- **Standard Error (SE)**: De standaardafwijking van de steekproevenverdeling, berekend als $\sigma / \sqrt{n}$.
### Significantietoets in vier stappen
- **Stap 1**: Formuleer de nul- en alternatieve hypothesen ($H_0$ en $H_a$).
- **Stap 2**: Bepaal de waarde van de toetsingsgrootheid (bv. gemiddelde, t-waarde, z-waarde).
- **Stap 3**: Bepaal de overschrijdingskans ($p$-waarde) voor de data (theoretisch of via resampling).
- **Stap 4**: Formuleer de conclusie (vaak in APA-stijl).
### Klassieke benadering versus resampling (bootstrap)
- **Klassieke benadering**: Gebaseerd op kansberekening en theoretische verdelingen (bv. binomiale, normale verdeling).
- **Resampling/Bootstrap methode**: Simuleert steekproevenverdelingen door herhaalde steekproeftrekkingen uit de originele steekproef.
- Levert een geobserveerde steekproevenverdeling op, geen theoretische.
- De verkregen verdeling is doorgaans niet perfect symmetrisch.
### Cruciale vragen bij significantietoetsen
- **Hoe groot is de kans dat het resultaat tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?** (Dit is gerelateerd aan $\alpha$).
- **Hoe groot is de kans dat het resultaat tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?** (Dit is gerelateerd aan de power van de test).
### Onderscheidingsvermogen (Power)
- De kans dat een statistische toets een werkelijk effect (op populatieniveau) detecteert, als dat effect groot genoeg is om relevant te zijn.
- Power = $1 - \beta$, waarbij $\beta$ de kans is op een Type II fout (vals negatief).
### Beslissingsfouten
### -steekproef t-betrouwbaarheidsinterval en t-toets
### Twee-steekproeven t-toetsen
### Rapporteren van toetsresultaten (APA-stijl)
---
# Introductie tot variantieanalyse (ANOVA)
### Kernidee
* Variantieanalyse (ANOVA) is een statistische methode om de gemiddelden van drie of meer groepen te vergelijken.
* Het principe achter ANOVA is het analyseren van de totale variatie in de gegevens.
### Sleutelconcepten
* **Groepen vergelijken:** ANOVA wordt gebruikt wanneer we meer dan twee groepen willen vergelijken, in tegenstelling tot t-toetsen die slechts twee groepen kunnen vergelijken.
* **Risico op fouten (alfa):** Het herhaaldelijk uitvoeren van t-toetsen tussen alle mogelijke paren van groepen verhoogt de kans op een Type I fout (vals positief).
- **Variatie binnen en tussen groepen:** ANOVA deelt de totale variatie op in variatie *tussen* de groepen (toe te schrijven aan het onafhankelijke variabelen) en variatie *binnen* de groepen (resulterend uit
* **F-verdeling:** De verhouding van de variantie tussen de groepen tot de variantie binnen de groepen volgt een F-verdeling, die wordt gebruikt om de significantie van de groepsverschillen te testen.
* **Nulhypothese (H₀):** Alle groepsgemiddelden zijn gelijk.
* **Alternatieve hypothese (H₁):** Minstens één groepsgemiddelde verschilt van de andere.
### Belangrijke feiten
* ANOVA is een algemene methode, de t-toets is een speciaal geval van ANOVA voor twee groepen.
* De methode maakt gebruik van de variantie (spreiding) van de gegevens.
* Het doel is om te bepalen of de geobserveerde verschillen tussen groepsgemiddelden statistisch significant zijn, of dat ze verklaard kunnen worden door toeval.
* ANOVA vereist meestal dat de steekproeven onafhankelijk zijn en afkomstig zijn uit populaties die ongeveer normaal verdeeld zijn.
* De variantie binnen de groepen (error variance) dient als een schatting van de willekeurige variatie die in de gegevens aanwezig is.
* De variantie tussen de groepen (treatment variance of group variance) meet hoe sterk de groepsgemiddelden van elkaar afwijken.
### Implicaties
* ANOVA biedt een efficiëntere en nauwkeurigere manier om meerdere groepen te vergelijken dan herhaalde t-toetsen.
* Het helpt om te begrijpen of de onafhankelijke variabele (bv. verschillende behandelingen, methoden) een significant effect heeft op de afhankelijke variabele.
* Een significant resultaat van ANOVA suggereert dat er ergens een verschil is tussen de groepen, maar specificeert niet welke specifieke groepen van elkaar verschillen.
* Vervolganalyses (post-hoc tests) zijn nodig om te bepalen welke specifieke groepen significant van elkaar verschillen.
### Gemeenschappelijke valkuilen
* Het vergeten van de aanname van normaal verdeelde populaties voor de t-toets-gerelateerde aspecten van ANOVA.
* Het interpreteren van een significant ANOVA-resultaat zonder de nodige post-hoc analyses uit te voeren om specifieke groepsverschillen te identificeren.
* Het negeren van de aanname van gelijke varianties (homogeniteit van varianties) tussen de groepen, wat de resultaten van de ANOVA kan beïnvloeden.
---
* ANOVA wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken, om te zien of er een significant verschil is tussen minstens één paar groepen.
* Het is een uitbreiding van de t-toets voor onafhankelijke steekproeven, die slechts twee groepen kan vergelijken.
* ANOVA analyseert de variantie binnen en tussen de groepen om te bepalen of de groepsgemiddelden significant van elkaar verschillen.
### Belangrijke concepten
* **Variantieanalyse (ANOVA):** Een statistische techniek die de totale variantie in data opsplitst in verschillende componenten die aan verschillende bronnen van variatie worden toegeschreven.
* **Factoren:** Onafhankelijke variabelen die categorisch zijn en de groepen definiëren die vergeleken worden (bijvoorbeeld behandelgroepen, lesmethoden).
* **Niveaus:** De specifieke categorieën binnen een factor (bijvoorbeeld placebo, medicijn A, medicijn B).
* **Afhankelijke variabele:** De continue variabele die wordt gemeten om de groepen te vergelijken (bijvoorbeeld bloeddruk, leesvaardigheidsscore).
* **Totale variantie:** De totale spreiding in de data, die wordt opgesplitst in variantie tussen de groepen en variantie binnen de groepen.
* **Variantie tussen groepen (Between-group variance):** De spreiding van de groepsgemiddelden rond het algemene gemiddelde. Dit geeft aan hoeveel de groepsgemiddelden van elkaar verschillen.
* **Variantie binnen groepen (Within-group variance):** De gemiddelde spreiding van de individuele observaties binnen elke groep rond het groepsgemiddelde. Dit vertegenwoordigt de willekeurige fout of onverklaarbare variatie.
* **F-statistiek:** De toetsingsgrootheid in ANOVA, berekend als de verhouding van de variantie tussen groepen tot de variantie binnen groepen. $$F = \frac{\text{Variantie tussen groepen}}{\text{Variantie binnen groepen}}$$
* **Nulhypothese (H₀):** Alle groepsgemiddelden zijn gelijk (µ₁ = µ₂ = µ₃ = ...).
* **Alternatieve hypothese (H₁):** Minstens één groepsgemiddelde verschilt significant van de andere.
* **Vrijheidsgraden (df):** Twee waarden van vrijheidsgraden worden gebruikt bij ANOVA:
* dfbetween: aantal groepen - 1
* dfwithin: totaal aantal observaties - aantal groepen
* **p-waarde:** De kans om de geobserveerde of extremere groepsverschillen te verkrijgen als de nulhypothese waar is.
* ANOVA wordt gebruikt wanneer er meer dan twee groepen worden vergeleken.
* Een significant resultaat van de F-statistiek (lage p-waarde) betekent dat er een statistisch significant verschil is tussen ten minste twee van de groepsgemiddelden.
* Een significant F-resultaat vertelt ons NIET welke specifieke groepen van elkaar verschillen. Hiervoor zijn post-hoc toetsen nodig.
* De robuustheid van ANOVA ten opzichte van schendingen van aannames (zoals normaliteit en gelijke varianties) is redelijk goed, vooral bij grotere steekproeven.
* ANOVA maakt het mogelijk om efficiënt meerdere groepen tegelijk te vergelijken zonder het probleem van 'multiple testing' (een verhoogd alfa-niveau door talloze t-toetsen).
* Het identificeren van significante verschillen tussen groepen kan leiden tot belangrijke conclusies over de effectiviteit van verschillende behandelingen, methoden of condities.
* Post-hoc toetsen (zoals Tukey's HSD, Bonferroni) zijn noodzakelijk om specifieke groepsverschillen te identificeren na een significante ANOVA.
### Voorwaarden voor ANOVA
* **Onafhankelijke waarnemingen:** De waarnemingen binnen en tussen de groepen moeten onafhankelijk zijn.
### Uitwerking van hetconcept
---
* Variantieanalyse (ANOVA) is een statistische techniek om groepen te vergelijken.
* Het hoofddoel is om te bepalen of de gemiddelden van twee of meer groepen significant van elkaar verschillen.
* ANOVA analyseert de variatie *binnen* groepen en *tussen* groepen.
### Kernconcepten
* **Groepsgemiddelden vergelijken:** ANOVA is primair bedoeld voor het vergelijken van gemiddelden van meer dan twee groepen tegelijkertijd.
* **Variantie:** ANOVA ontleedt de totale variatie in de data in verschillende componenten.
* **Totale variantie:** De totale variatie in de dataset.
* **Variantie tussen groepen (Sum of Squares Between, SSB):** Meet de variatie tussen de gemiddelden van de verschillende groepen.
* **Variantie binnen groepen (Sum of Squares Within, SSW):** Meet de variatie van individuele observaties rond het gemiddelde van hun eigen groep.
* **Vrijheidsgraden (degrees of freedom, df):** Aantal onafhankelijke stukjes informatie die beschikbaar zijn om de variatie te schatten.
* $df_{tussen} = k - 1$ (waarbij $k$ het aantal groepen is).
* $df_{binnen} = N - k$ (waarbij $N$ het totale aantal observaties is).
* **Variantie schattingen (Mean Squares, MS):** Worden berekend door de Sum of Squares te delen door de vrijheidsgraden.
* $MS_{tussen} = \frac{SSB}{df_{tussen}}$
* $MS_{binnen} = \frac{SSW}{df_{binnen}}$
* **F-statistiek:** De ratio van de variantie tussen groepen tot de variantie binnen groepen ($F = \frac{MS_{tussen}}{MS_{binnen}}$). Een hoge F-waarde suggereert dat de groepsgemiddelden significant verschillen.
* ANOVA maakt het mogelijk om meerdere groepen tegelijk te vergelijken zonder de alfa-waarde te verhogen zoals bij meervoudige t-toetsen.
* Bij een significante F-statistiek kan worden geconcludeerd dat er ten minste één paar groepen is dat significant van elkaar verschilt.
* Vervolgonderzoek (post-hoc tests) is nodig om te bepalen welke specifieke groepen van elkaar verschillen.
* ANOVA kan worden toegepast op verschillende meetniveaus (interval of ratio) en vereist aannames zoals normaliteit en homogeniteit van varianties.
### Belangrijke Aannames (kort aangestipt)
* **Normaliteit:** De residuen (verschillen tussen observaties en groepsgemiddelden) zijn normaal verdeeld.
* **Homogeniteit van varianties:** De varianties binnen de groepen zijn ongeveer gelijk.
* **Onafhankelijkheid:** Observaties binnen en tussen groepen zijn onafhankelijk.
---
* ANOVA wordt gebruikt om gemiddelden van meer dan twee groepen te vergelijken, wat het risico op type I fouten (alfaje) minimaliseert dat optreedt bij herhaalde t-toetsen.
* Het principe is het ontbinden van de totale variatie in de data in verschillende bronnen van variatie.
* **Totale variatie**: De algehele spreiding van de data rond het algemene gemiddelde.
* **Tussen-groepsvariatie (verklaarde variatie)**: De spreiding van de groepsgemiddelden rond het algemene gemiddelde. Dit deel van de variatie wordt toegeschreven aan de verschillen tussen de groepen.
* **Binnen-groepsvariatie (onverklaarde variatie)**: De spreiding van de individuele datapunten binnen elke groep rond het groepsgemiddelde. Dit deel van de variatie wordt beschouwd als "ruis" of willekeurige fouten.
* **F-statistiek**: De ratio van de tussen-groepsvariatie ten opzichte van de binnen-groepsvariatie.
* Een grote F-statistiek suggereert dat de verschillen tussen de groepen groter zijn dan de variatie binnen de groepen.
* Formule: $$F = \frac{\text{variantie tussen groepen}}{\text{variantie binnen groepen}}$$
* **Vrijheidsgraden (df)**: Worden gebruikt om de kritieke waarde van de F-verdeling te bepalen.
* $df_{\text{tussen}} = k - 1$ (waarbij $k$ het aantal groepen is).
* $df_{\text{binnen}} = N - k$ (waarbij $N$ het totale aantal observaties is).
* **ANOVA-tabel**: Een gestructureerd overzicht van de variantieanalyse, inclusief bronnen van variatie, sommen van kwadraten, vrijheidsgraden, gemiddelde kwadraten en de F-statistiek.
* ANOVA helpt bij het identificeren of er een significant verschil bestaat tussen de gemiddelden van twee of meer groepen.
* Als de ANOVA significant is ($p < \alpha$), kan dit leiden tot post-hoc toetsen om specifieke groepsverschillen te identificeren.
* Het principe van variantieontbinding is fundamenteel voor veel geavanceerdere statistische modellen.
* ANOVA kan worden uitgebreid naar complexere ontwerpen met meerdere factoren (factoren met meer dan twee niveaus of meerdere onafhankelijke variabelen).
* Het wordt gebruikt in diverse disciplines, zoals psychologie, geneeskunde, landbouw en marketing, om experimentele resultaten te analyseren.
### Kritische overwegingen
* **Aannames**: ANOVA vereist dat de data binnen elke groep normaal verdeeld zijn en dat de varianties tussen de groepen ongeveer gelijk zijn (homogeniteit van varianties).
* **Schending van aannames**: Schending van de aannames kan leiden tot onbetrouwbare resultaten, hoewel ANOVA redelijk robuust is, met name bij grote steekproeven.
- **Post-hoc toetsen**: Een significante F-statistiek in ANOVA betekent alleen dat er *ergens* een verschil is tussen de groepen, niet *waar* het verschil zit. Post-hoc toetsen (zoals Tukey's HSD of Bonferroni)
* **Steekproefgrootte**: Een adequate steekproefgrootte per groep is cruciaal voor de kracht van de test en de betrouwbaarheid van de resultaten.
---
### Kernbegrippen en context
* Inferentiële statistiek overbrugt de kloof tussen steekproefgegevens en populatieconclusies.
* De steekproevenverdeling beschrijft de variabiliteit van steekproefstatistieken bij herhaaldelijk trekken van steekproeven.
* Betrouwbaarheidsintervallen schatten het bereik van de populatieparameter op basis van steekproefgegevens.
* Significantietoetsen evalueren hypotheses over populatieparameters door steekproefresultaten te vergelijken met verwachte waarden onder de nulhypothese.
### Betrouwbaarheidsintervallen en significantieniveau
* Een 95% betrouwbaarheidsinterval (BI) geeft het bereik aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Formule voor betrouwbaarheidsinterval voor het populatiegemiddelde ($\mu$): $\bar{x} \pm Z \times \frac{\sigma}{\sqrt{n}}$ (met bekende $\sigma$) of $\bar{x} \pm t \times \frac{s}{\sqrt{n}}$ (met geschatte $\sigma$).
* Factoren die de breedte van het BI beïnvloeden:
* $\bar{x}$ (steekproefgemiddelde)
* $Z$ of $t$ (kritieke waarde, afhankelijk van betrouwbaarheidsniveau en vrijheidsgraden)
* $\alpha$ (significantieniveau, bv. 5%)
* $\sigma$ (populatiestandaardafwijking) of $s$ (steekproefstandaardafwijking)
* $n$ (steekproefgrootte)
* Een kleiner BI impliceert hogere betrouwbaarheid (kleinere foutenmarge).
* Een kleiner BI wordt verkregen door:
* Een grotere steekproefgrootte ($n$).
* Een lager betrouwbaarheidsniveau (bv. 90% in plaats van 95%).
* Een kleinere standaardafwijking ($\sigma$ of $s$).
* Het significantieniveau ($\alpha$) is de vooraf vastgestelde kans op een Type I fout (onterecht verwerpen van de nulhypothese).
* De p-waarde is de kans op het observeren van de steekproefresultaten (of extremere) als de nulhypothese waar is. Bij $p < \alpha$ wordt de nulhypothese verworpen.
### Significantietoetsen
* **Vier stappen voor significantietoetsing:**
- 1
- Formuleer nul- en alternatieve hypothesen ($H_0$ en $H_a$)
- 2
- Bepaal de waarde van de toetsingsgrootheid (bv
- gemiddelde, $t$-score)
### T-verdelingen
### Toepassingen van t-verdelingen
### Rapportage van resultaten (APA-stijl)
---
* ANOVA wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken.
* Het vergelijken van meerdere groepen met t-toetsen verhoogt de kans op Type I fouten.
* ANOVA analyseert de totale variabiliteit in de data en deelt deze op in delen die toe te schrijven zijn aan verschillende bronnen.
* ANOVA test de nulhypothese dat alle populatiegemiddelden gelijk zijn.
* Een significant resultaat in ANOVA suggereert dat ten minste één groepsgemiddelde verschilt van de andere.
* Het is een "omnibus" test; het vertelt ons dat er een verschil is, maar niet waar.
* Post-hoc tests zijn nodig om te bepalen welke specifieke groepen van elkaar verschillen.
* **Variatie binnen groepen (Within-group variance):** De spreiding van individuele scores rond het groepsgemiddelde. Dit wordt ook wel "error variance" genoemd.
* **Variatie tussen groepen (Between-group variance):** De spreiding van de groepsgemiddelden rond het algemene gemiddelde. Dit wordt ook wel "effect variance" genoemd.
* **F-statistiek:** De ratio van de variatie tussen groepen tot de variatie binnen groepen. Een grote F-statistiek suggereert dat de groepsgemiddelden significant van elkaar verschillen. $$ F = \frac{\text{Variatie tussen groepen}}{\text{Variatie binnen groepen}} $$
* Het toepassen van ANOVA is efficiënter dan het herhaaldelijk uitvoeren van t-toetsen bij het vergelijken van meerdere groepen.
* Het kan helpen bij het identificeren van de bronnen van variabiliteit in een dataset.
* Het leidt tot een beter begrip van de relatie tussen onafhankelijke variabelen (groepen) en een afhankelijke variabele.
### Veelvoorkomende valkuilen
* Het vergeten om post-hoc tests uit te voeren na een significante ANOVA, wat leidt tot een onvolledige interpretatie.
* Het verkeerd interpreteren van een niet-significante ANOVA als bewijs dat er *geen* verschillen zijn tussen de groepen.
* Het schenden van de aannames van ANOVA, zoals normaliteit en gelijke varianties, wat de resultaten ongeldig kan maken.
---
* Het vergelijkt de variantie *tussen* groepen met de variantie *binnen* groepen.
* Een significant verschil tussen deze varianties suggereert dat ten minste één groepsgemiddelde verschilt van de anderen.
* ANOVA is een uitbreiding van de t-toets voor twee groepen.
* Het wordt toegepast wanneer er drie of meer onafhankelijke groepen zijn die worden vergeleken op een afhankelijke continue variabele.
- Het werkt door de totale variatie in de data op te splitsen in twee componenten: variantie verklaard door de groepsverschillen (tussen-groepsvariantie) en variantie die niet door de groepsverschillen wordt verklaard
* De nulhypothese (H₀) in ANOVA stelt dat alle groepsgemiddelden gelijk zijn.
* De alternatieve hypothese (H₁) stelt dat ten minste één groepsgemiddelde verschilt van de andere.
* De statistische toets in ANOVA is de F-toets, gebaseerd op de F-verdeling.
* **Tussen-groepsvariantie (Mean Square Between, MSB):** Een maat voor de variatie tussen de gemiddelden van de verschillende groepen. Dit vertegenwoordigt de door de groepen verklaarde variatie.
* **Binnen-groepsvariantie (Mean Square Within, MSW) of Error Variantie:** Een maat voor de variatie binnen elke groep, rond het gemiddelde van die groep. Dit vertegenwoordigt de niet-verklaarde variatie (ruis).
* **F-statistiek:** De ratio van de tussen-groepsvariantie tot de binnen-groepsvariantie: $F = \frac{MSB}{MSW}$. Een grotere F-waarde suggereert grotere verschillen tussen groepsgemiddelden ten opzichte van de variatie binnen de groepen.
* **Vrijheidsgraden (df):** Twee sets van vrijheidsgraden worden gebruikt:
* df_between = aantal groepen - 1
* df_within = totaal aantal observaties - aantal groepen
- **P-waarde:** De kans om een F-statistiek te verkrijgen die zo extreem is als de waargenomen waarde (of extremer), onder de aanname dat de nulhypothese waar is. Een lage p-waarde (<
* Als de ANOVA significant is (p < 0.05), weten we dat er een verschil is tussen de groepen, maar niet welke groepen specifiek verschillen.
* **Post-hoc toetsen** (zoals Tukey's HSD, Bonferroni) zijn nodig om te bepalen welke specifieke groepen significant van elkaar verschillen nadat een significante ANOVA is gevonden.
* ANOVA wordt vaak gebruikt in experimentele designs om de effecten van verschillende behandelingen of interventies te evalueren.
* Het laat toe om meerdere vergelijkingen te maken in één analyse, wat efficiënter is dan meerdere t-toetsen (die leiden tot een verhoogd Type I fout risico).
* Het vergeten uit te voeren van post-hoc toetsen na een significante ANOVA-uitkomst, wat leidt tot onvolledige conclusies.
* Het uitvoeren van meerdere t-toetsen in plaats van een ANOVA wanneer er meer dan twee groepen zijn, wat het alfa-niveau verhoogt.
* Het negeren van de aannames van ANOVA (normaliteit, homogeniteit van varianties, onafhankelijkheid), wat de geldigheid van de resultaten kan ondermijnen.
---
* De t-toets voor twee onafhankelijke steekproeven wordt gebruikt om de gemiddelden van twee verschillende groepen te vergelijken.
* Wanneer de standaardafwijkingen van de twee groepen gelijk worden verondersteld, wordt een gecombineerde standaardfout berekend.
* Als de standaardafwijkingen van de groepen significant verschillen, wordt een aangepaste t-toets gebruikt (Welch's t-toets), die geen gelijke varianties veronderstelt.
* De t-toets voor gekoppelde paren wordt gebruikt wanneer metingen van dezelfde personen of gekoppelde subjecten worden vergeleken (bv. voor- en nametingen).
- Bij de t-toets voor twee onafhankelijke steekproeven, wanneer de nulhypothese (geen verschil tussen gemiddelden) niet verworpen wordt, betekent dit dat de twee groepen niet significant van elkaar verschillen op de
* Een kleine steekproefgrootte kan leiden tot een lage power om significante verschillen te detecteren.
* Het verhogen van de steekproefgrootte of het verkleinen van de standaardafwijking vergroot de power.
* Als de populatie standaardafwijkingen ($\sigma_1, \sigma_2$) onbekend zijn, worden deze geschat met de steekproefstandaardafwijkingen ($s_1, s_2$).
* Bij de t-toets voor gekoppelde paren worden de verschilscores tussen de paren geanalyseerd.
* Het gebruik van de t-toets voor gekoppelde paren is efficiënter dan de onafhankelijke t-toets bij afhankelijke data, omdat het meer power heeft en minder fouten toelaat.
* Bij het vergelijken van meer dan twee groepen is het gebruik van meerdere t-toetsen af te raden vanwege het verhoogde risico op Type I fouten (alfacontaminatie).
* De keuze tussen een eenzijdige of tweezijdige t-toets hangt af van de specifieke onderzoeksvraag en voorafgaande hypothesen.
* Robuustheid van t-procedures suggereert dat t-toetsen relatief ongevoelig zijn voor schendingen van de normaliteitsaanname, vooral bij grotere steekproeven.
* Het ten onrechte toepassen van een onafhankelijke t-toets op gekoppelde data kan leiden tot een onderschatting van de significantie en een verhoogd risico op Type II fouten.
* Het negeren van de aannames (normaliteit, onafhankelijkheid, gelijke varianties) van de t-toetsen kan leiden tot misleidende resultaten.
* Het niet correct interpreteren van p-waarden en betrouwbaarheidsintervallen kan leiden tot verkeerde conclusies.
---
# Signicantietoetsen in stappen en klassieke benadering
### Kernidee
* Inferentiële statistiek maakt het mogelijk om conclusies te trekken over een populatie op basis van steekproefgegevens.
* Significantietoetsen (hypothesetoetsen) helpen te bepalen of waargenomen verschillen of verbanden in een steekproef waarschijnlijk ook in de populatie bestaan, of dat ze door toeval zijn ontstaan.
* De klassieke benadering van significantietoetsen maakt gebruik van kansrekening en theoretische verdelingen.
### Belangrijke feiten
* De nulhypothese ($H_0$) stelt dat er geen effect of verschil is.
* De alternatieve hypothese ($H_a$) stelt dat er wel een effect of verschil is.
* De toetsingsgrootheid is een waarde die de grootte van het waargenomen effect meet.
* De overschrijdingskans (p-waarde) is de kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is.
* Als de p-waarde kleiner is dan het significantieniveau ($\alpha$), wordt de nulhypothese verworpen.
* Een significantieniveau van 5% ($\alpha = 0.05$) wordt vaak gebruikt als drempel.
### Kernbegrippen
* **Steekproevenverdeling:** Een frequentieverdeling van resultaten van herhaalde steekproeven; deze beschrijft de variabiliteit van een statistiek (bv. steekproefgemiddelde) als gevolg van steekproeftrekking.
* **Betrouwbaarheidsinterval (BI):** Een interval van waarden waarbinnen het populatiegemiddelde waarschijnlijk ligt met een bepaald betrouwbaarheidsniveau (bv. 95%).
* **Significantieniveau ($\alpha$):** De vooraf vastgestelde drempel voor het verwerpen van de nulhypothese.
* **Type I fout (vals positief):** De nulhypothese wordt verworpen terwijl deze waar is ($\alpha$).
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen terwijl deze onwaar is ($\beta$).
* **Onderscheidingsvermogen (Power):** De kans om een werkelijk bestaand verschil te detecteren (1 - $\beta$).
* **Binomiaalverdeling:** Een discrete kansverdeling die gebruikt wordt voor het aantal successen in een vast aantal onafhankelijke experimenten met slechts twee mogelijke uitkomsten.
* **Normaalverdeling:** Een continue, symmetrische kansverdeling met een klokvorm, gekenmerkt door gemiddelde en standaardafwijking.
* **Resampling (Bootstrap):** Een methode waarbij herhaaldelijk steekproeven worden getrokken uit de originele steekproef om een empirische steekproevenverdeling te creëren.
### Implicaties
* Kleine p-waarden suggereren dat het waargenomen resultaat onwaarschijnlijk is onder de nulhypothese, wat leidt tot verwerping ervan.
* Een grotere steekproefgrootte ($n$) leidt tot een smallere standaardfout en vergroot het onderscheidingsvermogen.
* Een kleiner betrouwbaarheidsniveau verkleint het interval maar verhoogt het risico op een Type I fout.
* Het niet kennen van de populatiestandaardafwijking ($\sigma$) vereist het gebruik van de t-verdeling in plaats van de z-verdeling.
### Classieke aanpak versus resampling
* **Klassieke aanpak:** Gebruikt theoretische verdelingen (binomiaal, normaal) om kansen te berekenen.
* **Resampling (Bootstrap):** Simuleert herhaalde steekproeven om een empirische verdeling te creëren, zonder afhankelijk te zijn van theoretische aannames over populatieverdelingen.
### Student's t-verdeling
* **Kenmerken:** Symmetrisch met top op 0, maar heeft dikkere staarten dan de normaalverdeling.
### Significantietoets stappen
### Rapportage van toetsresultaten (APA-stijl)
---
* Significanteitstoetsen onderzoeken de kans dat een waargenomen resultaat in een steekproef toeval is, gegeven dat de nulhypothese waar is.
* Het doel is om conclusies te trekken over een populatie op basis van steekproefdata.
### Belangrijke concepten
* **Inferentiële statistiek**: Het proces van het trekken van conclusies over een populatie uit steekproefdata.
* **Steekproevenverdeling**: Een frequentieverdeling van resultaten van vele steekproeven; beschrijft de spreiding van steekproefstatistieken.
* **Nulhypothese ($H_0$)**: Stelt dat er geen effect of verschil is.
* **Alternatieve hypothese ($H_a$)**: Stelt dat er wel een effect of verschil is.
* **Toetsingsgrootheid**: Een statistiek berekend uit steekproefdata om hypothesen te toetsen.
* **P-waarde**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat $H_0$ waar is.
* **Significantieniveau ($\alpha$)**: Een vooraf bepaalde drempel (vaak 0.05) voor het verwerpen van $H_0$. Als p-waarde $\leq \alpha$, wordt $H_0$ verworpen.
* **Betrouwbaarheidsinterval (BI)**: Een reeks waarden die met een bepaald betrouwbaarheidsniveau de populatieparameter bevat.
* **Type I fout (vals positief)**: $H_0$ wordt verworpen terwijl deze waar is ($\alpha$ is de kans hierop).
* **Type II fout (vals negatief)**: $H_0$ wordt niet verworpen terwijl deze onwaar is ($\beta$ is de kans hierop).
* **Onderscheidingsvermogen (Power)**: De kans om $H_a$ correct te verwerpen wanneer deze waar is ($1 - \beta$).
### Stappen van significantietoetsen
* **Stap 1: Formuleer de nul- en alternatieve hypothesen ($H_0$ en $H_a$)**.
* **Stap 2: Bepaal de waarde van de toetsingsgrootheid** (bv. steekproefgemiddelde).
* **Stap 3: Bepaal de overschrijdingskans (p-waarde)** (theoretisch of via resampling).
* **Stap 4: Formuleer de conclusie** (vaak in APA-stijl).
### Klassieke benadering (met theoretische verdelingen)
* **Binomiaalverdeling**: Geschikt voor het aantal successen in een vast aantal onafhankelijke Bernoulli-experimenten (bv. genezingen).
* Kan benaderd worden door een normaalverdeling als $n \times p \geq 10$.
* **Normaalverdeling (Z-verdeling)**: Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) bekend is.
* De Z-score standaardiseert het steekproefgemiddelde.
* **Student's t-verdeling**: Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* Heeft dikkere staarten dan de normaalverdeling, vooral bij kleine steekproeven.
* De vorm hangt af van de **vrijheidsgraden (df)**, meestal $n-1$.
* Naarmate $df$ toeneemt, nadert de t-verdeling de normaalverdeling.
### Benadering met resampling (Bootstrap)
### Vergelijkingen van gemiddelden
### Voorwaarden voor t-procedures
### Rapporteren van toetsresultaten (APA-stijl)
---
### Kernconcepten
* **Inductieve statistiek** is het proces van het trekken van conclusies over een populatie op basis van steekproefgegevens.
* **Betrouwbaarheidsintervallen** schatten het bereik waarbinnen een populatieparameter waarschijnlijk ligt.
* **Significantietoetsen (hypothesetoetsen)** evalueren of een waargenomen verschil in steekproefgegevens groot genoeg is om te concluderen dat er een werkelijk verschil is in de populatie.
* De **nulhypothese ($H_0$)** stelt doorgaans dat er geen effect of verschil is.
* De **alternatieve hypothese ($H_a$)** stelt dat er wel een effect of verschil is.
### Stappen van een significantietoets (klassieke benadering)
* $H_0$: Er is geen verschil tussen groepen of condities.
* $H_a$: Er is wel een verschil.
* **Stap 2: Bepaal de waarde van de toetsingsgrootheid**.
* Dit is een statistische maat berekend uit de steekproefgegevens (bv. gemiddelde verschil).
* **Stap 3: Bepaal de overschrijdingskans (p-waarde)**.
* Dit is de kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat $H_0$ waar is.
* Dit kan theoretisch (bv. binomiaalverdeling) of via resampling (bootstrap) worden berekend.
* Verwerp $H_0$ als de p-waarde kleiner is dan het significantieniveau ($\alpha$).
* Aanvaard $H_0$ als de p-waarde groter of gelijk is aan $\alpha$.
### Klassieke benadering: Binomiaalverdeling en Normale benadering
* **Probleemstelling**: Spontane genezing versus medicijneffect (placebo-effect).
* **Aanname**: Als het medicijn niet werkt, geneest men spontaan met een kans van 1/2 (placebogroep).
* **Vraag**: Hoe groot is de kans dat bij 20 personen, 15 of meer genezen, als de kans op spontane genezing 1/2 is?
* **Binomiaalverdeling**: Gebruikt voor discrete kansberekeningen (bv. aantal successen in een reeks pogingen).
* Benaderbaar door de normaalverdeling indien $n \times p \geq 10$.
* **Normale benadering**: Kan de binomiaalverdeling benaderen, wat handig is vanwege de bekende eigenschappen (68-95-99.7 regel).
### Overschrijdingskans (p-waarde) en Besluitvorming
* **p-waarde**: De kans om het geobserveerde resultaat (of extremer) te vinden als de nulhypothese waar is.
* **Significantieniveau ($\alpha$)**: Een vooraf ingestelde drempelwaarde (meestal 0.05).
* **Beslissing**:
### Type I en Type II Fouten
### Steekproevenverdeling van het gemiddelde en t-verdelingen
### Toepassingen van t-toetsen
---
* Significantietoetsen, onderdeel van inductieve statistiek, helpen bij het interpreteren van steekproefdata om conclusies te trekken over een populatie.
* Ze beoordelen de waarschijnlijkheid dat een waargenomen resultaat toevallig is, gegeven een nulhypothese.
* **Steekproevenverdeling**: Een frequentieverdeling van resultaten van herhaalde steekproeven, die de variabiliteit van steekproefstatistieken weergeeft.
* **Betrouwbaarheidsinterval (BI)**: Een bereik van waarden waarbinnen het populatieparameter naar verwachting ligt, met een bepaald betrouwbaarheidsniveau.
* **Significantieniveau ($\alpha$)**: De vooraf bepaalde maximale kans op een Type I fout (vals positief), meestal 0,05.
* **P-waarde**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is.
* **Type I fout**: Het onterecht verwerpen van de nulhypothese (vals positief).
* **Type II fout ($\beta$)**: Het niet verwerpen van de nulhypothese terwijl deze onjuist is (vals negatief).
* **Onderscheidingsvermogen (Power)**: De kans om een echt bestaand verschil (alternatieve hypothese) correct te detecteren ($1-\beta$).
### Significantiestoets in 4 stappen
* **Stap 1**: Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$).
* **Stap 2**: Bepaal de waarde van de toetsingsgrootheid (bv. steekproefgemiddelde, t-waarde, z-waarde).
* **Stap 3**: Bepaal de overschrijdingskans (p-waarde) voor de data (theoretisch of via resampling).
* **Stap 4**: Formuleer de conclusie, vaak in APA-stijl.
### Klassieke benadering (binomiaalverdeling)
* **Aanname**: Nulhypothese klopt (bv. medicijn werkt niet, genezing is spontaan).
* **Methode**: Kansberekening om de kans op het waargenomen resultaat of extremer te bepalen onder de $H_0$.
* **Voorbeeld**: Kans op 15 of meer genezingen in een steekproef van 20 bij een spontane genezingskans van 1/2.
* **Binomiaalverdeling**: Discreet, klokvormig; kan benaderd worden door de normaalverdeling indien $n \times p \ge 10$.
### Benadering met normaalverdeling
* De normaalverdeling kan gebruikt worden om de binomiaalverdeling te benaderen onder bepaalde voorwaarden.
* Dit vereenvoudigt de berekening van kansen door gebruik te maken van bekende eigenschappen van de normaalverdeling (bv. 68-95-99.7 regel).
### Resampling (bootstrap) methode
* Alternatieve aanpak die steekproeven met teruglegging simuleert vanuit de steekproefdata.
* Levert een geobserveerde steekproevenverdeling op, die niet noodzakelijk perfect symmetrisch is.
### Cruciale vragen bij significantietoetsen
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?" ($\alpha$)
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?" (Power)
### Onderscheidingsvermogen (Power)
* De kans om een significant verschil te detecteren als dat verschil er in werkelijkheid is en van belang is.
* Wordt beïnvloed door:
### Vergelijken van twee gemiddelden
### T-verdelingen
### -steekproef t-betrouwbaarheidsinterval en t-toets
### T-toetsen voor twee groepen
---
## Signicantietoetsen in stappen en klassieke benadering
* Inferentiële statistiek gebruikt steekproefgegevens om conclusies te trekken over populaties.
* Significantietoetsen evalueren de kans dat waargenomen resultaten optreden onder een specifieke nulhypothese.
* De klassieke benadering vertrouwt op theoretische verdelingen (binomiale, normale) en kansrekening.
* Resampling-methoden (bootstrap) bieden een alternatief door simulaties van de steekproevenverdeling.
* **Toetsingsgrootheid**: Een statistiek berekend uit steekproefgegevens om hypothesen te toetsen.
* **Significantieniveau ($\alpha$)**: Een vooraf bepaalde drempelwaarde (vaak 0,05) waaronder de nulhypothese wordt verworpen.
* **Type I fout**: Het onterecht verwerpen van de nulhypothese (vals positief), met kans $\alpha$.
* **Type II fout**: Het onterecht niet verwerpen van de nulhypothese (vals negatief), met kans $\beta$.
* **Onderscheidingsvermogen (power)**: De kans om de nulhypothese terecht te verwerpen wanneer de alternatieve hypothese waar is ($1 - \beta$).
* **Binomiaalverdeling**: Geschikt voor discrete uitkomsten met twee mogelijkheden (succes/falen) en een constante kans.
* **Normaalverdeling**: Een continue verdeling met klokvorm, gebruikt als benadering voor de binomiale verdeling indien $n \cdot p \ge 10$.
* **Resampling (bootstrap)**: Een methode die de steekproevenverdeling simuleert door herhaaldelijk met teruglegging te trekken uit de oorspronkelijke steekproef.
* **Vrijheidsgraden ($df$)**: Bepalen de specifieke t-verdeling; voor een 1-steekproef t-toets is $df = n - 1$.
### Kernfeiten
* Statistische conclusies worden getrokken op basis van de p-waarde en het significantieniveau.
* Een p-waarde kleiner dan $\alpha$ leidt tot het verwerpen van de nulhypothese.
* De klassieke benadering maakt gebruik van de binomiaalverdeling voor discrete data.
* De normaalverdeling kan de binomiaalverdeling benaderen bij voldoende grote steekproeven.
* Resampling-methoden produceren empirische steekproevenverdelingen die niet noodzakelijk symmetrisch zijn.
* De foutenmarge in een betrouwbaarheidsinterval wordt beïnvloed door de steekproefgrootte ($n$), de standaardafwijking ($\sigma$), en het betrouwbaarheidsniveau ($Z$-score).
* Een grotere steekproefgrootte leidt tot een smaller betrouwbaarheidsinterval en een hoger onderscheidingsvermogen.
* Een lager betrouwbaarheidsniveau resulteert in een smaller interval, maar verhoogt het risico op een Type I fout.
* Klassieke toetsen vereisen aannames over theoretische verdelingen.
### Typische stappen voor significantietoetsen
### Overwegingen bij de klassieke aanpak
### De t-verdeling en de klassieke benadering
### T-toetsen voor twee gemiddelden
---
## Significantietsen in stappen en klassieke benadering
* Inferentiële statistiek overbrugt de kloof tussen steekproefgegevens en populatieconclusies door gebruik te maken van steekproevenverdelingen.
* Significantietoetsen helpen te bepalen of waargenomen verschillen in steekproefgegevens waarschijnlijk niet aan toeval te wijten zijn, maar een echt populatieverschil weerspiegelen.
* **Nulhypothese (H₀):** Stelt dat er geen effect of verschil is in de populatie.
* **Alternatieve hypothese (H₁):** Stelt dat er wel een effect of verschil is in de populatie.
* **Toetsingsgrootheid:** Een statistiek berekend uit steekproefgegevens om hypothesen te toetsen (bv. gemiddelde, t-waarde, z-waarde).
* **Steekproevenverdeling:** De verdeling van een statistiek over herhaaldelijke steekproeven.
* **Overschrijdingskans (p-waarde):** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is.
* **Significantieniveau (α):** Een vooraf bepaalde drempelwaarde (meestal 0,05) waaronder de nulhypothese wordt verworpen.
* **Type I fout (vals positief):** H₀ wordt verworpen terwijl deze waar is (kans is α).
* **Type II fout (vals negatief):** H₀ wordt niet verworpen terwijl deze onwaar is (kans is β).
* **Onderscheidingsvermogen (power, 1-β):** De kans om een echt effect te detecteren wanneer dit aanwezig is.
### Klassieke aanpak (met binomiaalverdeling)
* Wordt toegepast wanneer de uitkomsten discreet en binair zijn (bv. genezen/niet genezen).
* Aanname: Mensen genezen spontaan met een bepaalde kans (bv. 50%).
* De nulhypothese wordt getoetst door de kans te berekenen op een bepaald aantal successen (bv. genezingen) in een steekproef, gegeven de kans in de populatie.
* De binomiaalverdeling kan benaderd worden met de normaalverdeling indien $n \times p \ge 10$.
* Simuleert herhaalde steekproeven uit de data om een empirische steekproevenverdeling te creëren.
* Leidt tot een geobserveerde, niet theoretische, steekproevenverdeling.
* De verdeling is niet altijd perfect symmetrisch, wat gemeld dient te worden.
### T-verdelingen en de student t-toets
* **Gebruik:** Wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* **Vorm:** De t-verdeling is symmetrisch rond 0, maar heeft dikkere staarten dan de normaalverdeling. Dit compenseert voor de extra onzekerheid door het schatten van $\sigma$.
* **Vrijheidsgraden (df):** Bepalen de specifieke vorm van de t-verdeling ($df = n-1$ voor een steekproef). Naarmate $df$ toeneemt, benadert de t-verdeling de normaalverdeling.
* **Doel:** Net als bij de z-verdeling, geeft de t-waarde aan hoeveel standaardfouten een steekproefgemiddelde verwijderd is van de verwachte waarde.
### Betrouwbaarheidsintervallen met de t-verdeling
* De formule is vergelijkbaar met die voor z-intervallen, maar gebruikt een $t^*$-waarde uit de t-tabel in plaats van een $z^*$-waarde.
* Formule: $\bar{x} \pm t^*\cdot \frac{s}{\sqrt{n}}$
* **Voorwaarden:** Steekproef moet willekeurig (random) zijn, de data moeten minstens benaderend normaal verdeeld zijn (vooral bij kleine steekproeven), en de populatie moet minstens 20 keer groter zijn dan de steekproef.
### Eénsteekproef t-toets
### Vergelijking van twee gemiddelden: t-toetsen
### Implicaties voor onderzoek
---
* Inferentiële statistiek stelt ons in staat om conclusies te trekken over een populatie op basis van steekproefgegevens.
* Significantietoetsen, ook wel hypothesetoetsen genoemd, helpen bepalen of waargenomen verschillen in steekproefdata significant zijn of verklaard kunnen worden door toeval.
* **Steekproevenverdeling:** Een frequentieverdeling van statistische maten (zoals gemiddelden) uit herhaaldelijk getrokken steekproeven uit een populatie. Deze is cruciaal voor inferentiële statistiek.
* **Schatten (Betrouwbaarheidsintervallen):** Een interval rond een steekproefgemiddelde waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* **Toetsen (Significantietoetsen):** Hypothesetoetsen die nagaan of een waargenomen steekproefresultaat significant verschilt van een verwachte populatieparameter.
* **Nulhypothese (H₀):** De aanname dat er geen effect of verschil is tussen populaties of dat een steekproef afkomstig is uit een specifieke populatie.
* **Alternatieve hypothese (H₁ of Hₐ):** De hypothese die stelt dat er wel een effect of verschil is.
* **Significantieniveau ($\alpha$):** De vooraf vastgestelde kans op een Type I fout (vals positief), meestal 5% (0,05).
* **P-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is.
* **Type I fout (vals positief):** De nulhypothese wordt verworpen terwijl deze waar is. Kans hierop is $\alpha$.
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen terwijl deze onwaar is. Kans hierop is $\beta$.
* **Onderscheidingsvermogen (Power, 1 - $\beta$):** De kans om een werkelijk bestaand verschil (wanneer de alternatieve hypothese waar is) correct te detecteren.
### Significantietoets in 4 stappen
* Formuleer de nul- en alternatieve hypothesen.
* Bepaal de waarde van de toetsingsgrootheid (bv. gemiddelde).
* Bepaal de overschrijdingskans (p-waarde) voor de data.
* Formuleer de conclusie (vaak in APA-stijl).
### Klassieke benadering (met binomiale verdeling)
* **Principe:** Een aanname maken dat de nulhypothese klopt en berekenen hoe waarschijnlijk het waargenomen resultaat of een extremer resultaat is.
- **Voorbeeld:** Als spontane genezing 50% kans heeft (H₀: p = 0,5), hoe groot is de kans op 15 of meer genezingen in een steekproef van 20 als de medicatie niet
* **Binomiaalverdeling:** Gebruikt voor discrete uitkomsten (bv. genezen/niet genezen) met een vaste kans op succes per poging.
* **Benadering met normaalverdeling:** Een binomiaalverdeling kan benaderd worden met een normaalverdeling als $n \times p \geq 10$.
* **Principe:** Simuleren van de steekproevenverdeling door herhaaldelijk te "resamplen" (met teruglegging) uit de oorspronkelijke steekproefdata.
* **Resultaat:** Een geobserveerde, niet-theoretische steekproevenverdeling.
* **Definitie:** De kans om een bestaand effect te detecteren als de alternatieve hypothese waar is.
* **Factoren die power beïnvloeden:**
* Effectgrootte: Hoe groter het werkelijke verschil, hoe hoger de power.
### Vrijheidsgraden (df)
### T-verdeling vs. Z-verdeling
### T-betrouwbaarheidsinterval
### T-toets (één steekproef)
---
* Significantietoetsen (hypothesetoetsen) maken het mogelijk om conclusies te trekken over een populatie op basis van steekproefgegevens.
* Het doel is te bepalen of waargenomen verschillen significant zijn, of dat ze door toeval verklaard kunnen worden.
* De nulhypothese ($H_0$) stelt doorgaans dat er geen effect of verschil is.
### Belangrijke stappen bij significantietoetsen
* Formuleer de nul- ($H_0$) en alternatieve hypothese ($H_a$).
* Bepaal de waarde van de toetsingsgrootheid (bv. gemiddelde, t-score, z-score).
* Bereken de overschrijdingskans (p-waarde) voor de data.
* Formuleer de conclusie, vaak in APA-stijl.
### Klassieke benadering en kansrekening
* De klassieke benadering vertrouwt op theoretische verdelingen zoals de binomiale en normale verdeling.
* **Binomiale verdeling**: Geschikt voor discrete uitkomsten met een vast aantal experimenten en twee mogelijke uitkomsten per experiment.
* **Normale benadering van de binomiale verdeling**: Mogelijk wanneer $n \times p \geq 10$, waarbij de normale verdeling de discrete binomiale verdeling benadert.
* De p-waarde vertegenwoordigt de kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is.
* Een p-waarde lager dan het significantieniveau ($\alpha$) leidt tot het verwerpen van de nulhypothese.
### Betrouwbaarheidsinterval
* Een betrouwbaarheidsinterval (BI) geeft een bereik aan waarbinnen de werkelijke populatiewaarde waarschijnlijk ligt.
* Het BI is de populatiegemiddelde ($\mu$) plus of min een foutenmarge.
* De foutenmarge wordt beïnvloed door:
* Steekproefgemiddelde ($\bar{x}$).
* Betrouwbaarheidsniveau (vertegenwoordigd door een Z-score, bv. 1.96 voor 95%).
* Significantieniveau ($\alpha$).
* Populatiestandaardafwijking ($\sigma$).
* Steekproefgrootte ($n$).
* Een kleiner BI impliceert een hogere betrouwbaarheid en wordt verkregen door een grotere steekproefgrootte of een lager betrouwbaarheidsniveau.
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?" ($\alpha$)
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?" (Power)
* Power is de kans om een werkelijk bestaand verschil te detecteren (d.w.z. de nulhypothese correct te verwerpen).
* Type I fout (vals positief): $H_0$ onterecht verwerpen ($\alpha$).
### T-toetsen voor het vergelijken van gemiddelden
### Rapporteren van toetsresultaten in APA-stijl
---
* Significanteoetsen onderzoeken of waargenomen verschillen in steekproefdata waarschijnlijk te wijten zijn aan toeval of aan een echt effect in de populatie.
* De klassieke aanpak gebruikt kansrekening en theoretische verdelingen om deze vraag te beantwoorden.
* **Nulhypothese (H₀):** Stelt dat er geen verschil of effect is in de populatie.
* **Alternatieve hypothese (H₁):** Stelt dat er wel een verschil of effect is in de populatie.
* **Toetsingsgrootheid:** Een statistiek berekend uit de steekproefdata die de hypothese test.
* **Overschrijdingskans (p-waarde):** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is.
* **Significantieniveau (α):** Een vooraf bepaalde drempel (meestal 0,05) waaronder de p-waarde als 'statistisch significant' wordt beschouwd.
* **Type I-fout (vals positief):** Het verwerpen van de nulhypothese terwijl deze waar is (kans = α).
* **Type II-fout (vals negatief):** Het niet verwerpen van de nulhypothese terwijl deze onwaar is (kans = β).
* **Onderscheidingsvermogen (power):** De kans om een echt effect te detecteren wanneer dit aanwezig is (kans = 1 - β).
* Significanteoetsen helpen te besluiten of een steekproef afkomstig is uit een populatie die overeenkomt met de nulhypothese.
* De klassieke benadering maakt gebruik van bekende theoretische verdelingen zoals de binomiaalverdeling of normaalverdeling.
* De binomiaalverdeling is discreet en benadert de normaalverdeling wanneer $n \times p \ge 10$.
* Een t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt uit de steekproefstandaardafwijking ($s$).
* T-verdelingen hebben dikkere staarten dan de normaalverdeling, wat betekent dat meer extreme waarden minder zeldzaam zijn.
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden ($df = n-1$).
* Naarmate de steekproefgrootte ($n$) toeneemt, benadert de t-verdeling de normaalverdeling.
### Methoden en procedures
* **Vier stappen van significanteoetsing:**
* Formuleer nul- en alternatieve hypothesen.
* Bepaal de waarde van de toetsingsgrootheid.
* Bepaal de overschrijdingskans (p-waarde) theoretisch of via resampling.
* Formuleer de conclusie.
* **Klassieke aanpak:**
* Gebruikt kansrekening (bv. binomiaalverdeling) om de kans op een bepaald aantal successen te berekenen.
* Kan benaderd worden met een normaalverdeling indien aan voorwaarden is voldaan.
### Toepassingen en interpretatie
### Voorwaarden en assumpties
### Rapportage van resultaten
---
* Significantietoetsen onderzoeken of waargenomen verschillen in steekproefdata waarschijnlijk op toeval berusten of duiden op een werkelijk effect in de populatie.
* De klassieke benadering gebruikt kansrekening en theoretische verdelingen om de waarschijnlijkheid van resultaten onder de nulhypothese te bepalen.
* **Nulhypothese ($H_0$)**: Stelt dat er geen effect of verschil is in de populatie.
* **Alternatieve hypothese ($H_a$)**: Stelt dat er wel een effect of verschil is in de populatie.
* **Toetsingsgrootheid**: Een waarde berekend uit steekproefdata die de mate van afwijking van de nulhypothese weergeeft.
* **Overschrijdingskans (p-waarde)**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is.
* **Significantieniveau ($\alpha$)**: Een vooraf ingestelde drempelwaarde (meestal 0,05) waaronder de nulhypothese wordt verworpen.
* **Resampling/Bootstrap**: Een simulatiemethode waarbij herhaaldelijk steekproeven worden getrokken uit de originele data om een empirische steekproevenverdeling te creëren.
* Significantietoetsen beogen de nulhypothese te verwerpen ten gunste van de alternatieve hypothese.
* De klassieke benadering maakt gebruik van theoretische verdelingen zoals de binomiaal- en normaalverdeling.
* De binomiaalverdeling is discreet en kan benaderd worden door de normaalverdeling indien $n \times p \ge 10$.
* Resampling levert een geobserveerde, niet een theoretische, steekproevenverdeling op.
* De power van een toets is de kans om een werkelijk effect te detecteren wanneer de alternatieve hypothese waar is ($1 - \beta$).
* Type I fout (vals positief): Verwerpen van $H_0$ terwijl deze waar is ($\alpha$).
* Type II fout (vals negatief): Niet verwerpen van $H_0$ terwijl $H_a$ waar is ($\beta$).
* Een p-waarde lager dan $\alpha$ leidt tot het verwerpen van de nulhypothese, wat duidt op een statistisch significant resultaat.
* De interpretatie van resultaten moet rekening houden met het risico op Type I en Type II fouten.
* De power van een toets is cruciaal voor het detecteren van relevante effecten en wordt beïnvloed door steekproefgrootte en effectgrootte.
* Grotere steekproeven verhogen de power en verkleinen de foutenmarge in betrouwbaarheidsintervallen.
### Klassieke benadering in stappen
* **Stap 1**: Formuleer de nul- en alternatieve hypothesen.
* **Stap 2**: Bepaal de waarde van de toetsingsgrootheid.
* **Stap 3**: Bepaal de overschrijdingskans (p-waarde) theoretisch of via resampling.
* **Stap 4**: Formuleer de conclusie, vaak in APA-stijl.
### Studente t-verdelingen
* **Kernidee**: De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* **Kenmerken**: T-verdelingen zijn symmetrisch met een top op 0, maar hebben dikkere staarten dan de normaalverdeling, vooral bij kleine steekproeven.
### Toepassing van de t-toets
---
* Significantietoetsen zijn methoden om te bepalen of waargenomen verschillen in steekproefdata groot genoeg zijn om te concluderen dat deze verschillen ook in de populatie bestaan.
* Het proces omvat het formuleren van hypothesen, het berekenen van een toetsingsgrootheid, het bepalen van een overschrijdingskans (p-waarde) en het formuleren van een conclusie.
* **Nulhypothese ($H_0$)**: Stelt dat er geen werkelijk verschil of verband bestaat in de populatie.
* **Alternatieve hypothese ($H_A$)**: Stelt dat er wel een werkelijk verschil of verband bestaat in de populatie.
* **Toetsingsgrootheid**: Een statistiek berekend uit de steekproefdata die aangeeft hoe ver het waargenomen resultaat afwijkt van wat onder de nulhypothese verwacht wordt.
* **Overschrijdingskans (p-waarde)**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is.
* **Significantieniveau ($\alpha$)**: Een vooraf vastgestelde drempelwaarde (meestal 0.05); als p < $\alpha$, wordt de nulhypothese verworpen.
* **Type I fout**: Het onterecht verwerpen van de nulhypothese (vals positief); de kans hierop is $\alpha$.
* **Type II fout**: Het niet verwerpen van de nulhypothese terwijl deze onwaar is (vals negatief); de kans hierop is $\beta$.
* **Onderscheidingsvermogen (Power)**: De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is ($1 - \beta$).
### Stappen van een significantietoets
* **Stap 2**: Bepaal de waarde van de toetsingsgrootheid op basis van de steekproefdata.
* **Stap 3**: Bepaal de overschrijdingskans (p-waarde) voor de data.
### Klassieke benadering (met voorbeelden)
* **Kansrekenen (binomiaalverdeling)**:
* Situatie: Genezing na medicatie vergeleken met placebo. Nulhypothese: medicijn werkt niet (kans op genezing 1/2).
* Berekening: Kans op 15 of meer genezingen in een steekproef van 20, indien de nulhypothese waar is.
* Resultaat: Als deze kans (p-waarde) kleiner is dan $\alpha$ (bv. 0.05), wordt de nulhypothese verworpen.
* **Benaderen met een normaalverdeling**:
* Mogelijk wanneer $n \times p \geq 10$. De normaalverdeling kan de binomiaalverdeling benaderen.
* Gebruikt simulaties (bv. 100.000 steekproeven met teruglegging) om een geobserveerde steekproevenverdeling te creëren, in plaats van een theoretische.
* Levert een empirische p-waarde op.
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?" (gerelateerd aan $\alpha$).
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?" (gerelateerd aan power).
* De kans dat een statistische toets een significant verschil detecteert wanneer dat verschil er werkelijk is en relevant is voor het onderzoek.
### Twee populaties vergelijken
---
* Significantietoetsen beoordelen of waargenomen verschillen in steekproefdata groot genoeg zijn om te concluderen dat er een werkelijk verschil is in de populatie, of dat het verschil door toeval is ontstaan.
* De klassieke benadering vertrouwt op theoretische kansverdelingen (zoals de binomiale en normale verdeling) om de waarschijnlijkheid van resultaten onder de nulhypothese te bepalen.
* Resampling (bootstrap) methoden bieden een alternatieve, empirische benadering door vele steekproeven te simuleren uit de waargenomen data.
* **Nulhypothese ($H_0$):** Stelt dat er geen effect of geen verschil is tussen populaties.
* **Alternatieve hypothese ($H_A$):** Stelt dat er wel een effect of verschil is.
* **Toetsingsgrootheid:** Een statistiek berekend uit de steekproefdata (bv. gemiddelde, verschil in gemiddelden) om hypotheses te toetsen.
* **P-waarde:** De kans om een resultaat te observeren dat minstens zo extreem is als het waargenomen resultaat, *onder de aanname dat de nulhypothese waar is*.
* **Significantieniveau ($\alpha$):** Een vooraf bepaalde drempel (meestal 0,05) waaronder de nulhypothese wordt verworpen. Als $p < \alpha$, is het resultaat statistisch significant.
* **Type I fout (vals positief):** Het onterecht verwerpen van de nulhypothese ($p = \alpha$).
* **Type II fout (vals negatief):** Het onterecht aanvaarden van de nulhypothese ($p = \beta$).
* **Onderscheidingsvermogen (Power):** De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is ($1 - \beta$).
### Key facts
* **Significante toets in 4 stappen:**
* Gebruikt theoretische verdelingen zoals de binomiale en normale verdeling.
* Veronderstelt vaak bekende populatieparameters (bv. $\sigma$).
* **Benadering met de normaalverdeling:**
* De binomiaalverdeling kan benaderd worden door een normaalverdeling als $n \times p \ge 10$.
* **Resampling (Bootstrap):**
* Simuleert een steekproevenverdeling door herhaaldelijk met teruglegging te trekken uit de eigen steekproefdata.
* Produceert een empirische, geen theoretische, steekproevenverdeling.
* Handig als theoretische verdelingen niet voldoen of te complex zijn.
### Gebruik van t-verdelingen
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Term | Definitie |
| Betrouwbaarheidsinterval (BI) | Een betrouwbaarheidsinterval geeft de grenzen aan waarbinnen je verwacht dat het echte populatiegemiddelde zal liggen. Dit betekent dat in 95% van de replicaties een interval wordt gevonden dat de echte populatiewaarde bevat. |
| Binomiaalverdeling | De binomiaalverdeling is een discrete kansverdeling die het aantal successen in een reeks van onafhankelijke Bernoulli-experimenten weergeeft. Het lijkt op de normaalverdeling door zijn klokvorm, maar is discreet. |
| Bootstrap-methode (Resampling) | De bootstrap- of resamplingmethode is een alternatieve aanpak voor klassieke statistische benaderingen, waarbij herhaaldelijk steekproeven met teruglegging worden getrokken uit de oorspronkelijke data om een empirische steekproevenverdeling te creëren. |
| Effectgrootte | De effectgrootte is de afstand tussen de gemiddelden van de nulhypothese- en alternatieve hypothese-verdelingen, en beïnvloedt de power van een test door de kans te vergroten dat de test correct de nulhypothese verwerpt wanneer de alternatieve hypothese waar is. |
| Inferentie | Inferentie verwijst naar het proces van het trekken van conclusies of het maken van algemene uitspraken over een populatie op basis van gegevens die zijn verzameld uit een steekproef van die populatie. |
| Kritieke waarde | De kritieke waarde is een beslissingscriterium in statistische toetsen; als de berekende toetsingsgrootheid deze waarde overschrijdt, wordt de nulhypothese verworpen ten gunste van de alternatieve hypothese. |
| Nulhypothese (H0) | De nulhypothese stelt dat er geen significant verschil of verband is tussen de onderzochte groepen of variabelen. Het is de hypothese die getoetst wordt en die verworpen kan worden als er voldoende bewijs is voor de alternatieve hypothese. |
| Onderscheidingsvermogen (Power) | Het onderscheidingsvermogen, of power, is de kans dat een statistische toets een werkelijk bestaand verschil op populatieniveau correct detecteert, gegeven dat dit verschil relevant is voor het onderzoek. Het is de kans om de nulhypothese te verwerpen wanneer deze vals is. |
| Overschrijdingskans (p-waarde) | De overschrijdingskans, of p-waarde, geeft de kans aan om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot verwerping van de nulhypothese. |
| Resampling | Resampling is een techniek waarbij herhaaldelijk steekproeven worden getrokken uit een bestaande dataset, vaak met teruglegging, om de variabiliteit van statistische schatters te onderzoeken of om empirische verdelingen te construeren. |
| Significantieniveau (α) | Het significantieniveau, of alfa (α), is een vooraf vastgestelde kritische grens (meestal 5%) die aangeeft wanneer de nulhypothese wordt verworpen. Het vertegenwoordigt de kans op een Type I fout. |
| Steekproevenverdeling | Een steekproevenverdeling is de frequentieverdeling van de resultaten van verschillende steekproeven die uit dezelfde populatie zijn getrokken. Het beschrijft de variabiliteit van een statistische maat (zoals het gemiddelde) over verschillende steekproeven. |
| P-waarde | De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is. Het is de kans dat de resultaten puur door toeval zijn ontstaan. |
| Alternatieve hypothese (HA) | Een stelling die het tegendeel beweert van de nulhypothese; er is wel een verschil tussen groepen of een verband tussen variabelen. |
| Type I fout (vals positief) | De fout waarbij de nulhypothese onterecht wordt verworpen, terwijl deze eigenlijk waar is. De kans hierop is gelijk aan het significantieniveau (α). |
| Type II fout (vals negatief) | De fout waarbij de nulhypothese niet wordt verworpen, terwijl deze eigenlijk verworpen zou moeten worden (dus de alternatieve hypothese is waar). De kans hierop wordt aangeduid met β. |
| Z-toets | Een statistische toets die wordt gebruikt om het gemiddelde van een populatie te vergelijken met een bekende populatiestandaardafwijking. Het standaardiseert de waarde zodat deze direct kan worden afgelezen uit de normaalverdeling. |
| T-verdeling | Een kansverdeling die lijkt op de normaalverdeling, maar dikkere staarten heeft. Deze wordt gebruikt wanneer de populatiestandaardafwijking onbekend is en geschat moet worden uit de steekproef. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke gegevenspunten in een steekproef dat elke mogelijke waarde kan aannemen. Voor een t-verdeling is dit meestal de steekproefgrootte min één ($n-1$). |
| Significantieniveau ($\alpha$) | Het significantieniveau, vaak aangeduid met $\alpha$, is een vooraf vastgestelde kritische drempel die aangeeft hoe groot het risico is dat je accepteert om de nulhypothese onterecht te verwerpen. Een veelgebruikte waarde voor $\alpha$ is 0,05 (of 5%). |
| Significantietoets | Een significantietoets is een statistische methode om te bepalen of een waargenomen verschil of verband in steekproefgegevens groot genoeg is om aan te nemen dat dit verschil of verband ook in de populatie bestaat. Het doel is om de nulhypothese te toetsen. |
| Nulhypothese ($H_0$) | De nulhypothese ($H_0$) stelt dat er geen verschil, geen verband of geen effect is tussen de te onderzoeken groepen of variabelen in de populatie. Het is de hypothese die getoetst wordt in een significantietoets. |
| Alternatieve hypothese ($H_A$) | De alternatieve hypothese ($H_A$) stelt dat er wel een verschil, een verband of een effect is tussen de te onderzoeken groepen of variabelen in de populatie. Deze hypothese wordt geaccepteerd als de nulhypothese wordt verworpen. |
| Z-score | Een Z-score geeft aan hoeveel standaardafwijkingen een bepaalde waarde afwijkt van het gemiddelde in een standaardnormale verdeling (met een gemiddelde van 0 en een standaardafwijking van 1). Het wordt gebruikt om steekproefstatistieken te standaardiseren voor inferentie. |
| Significantietoets (Hypothesetoets) | Een statistische methode om te bepalen of de waargenomen resultaten uit een steekproef voldoende bewijs leveren om een nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| T-verdeling (Student's t-verdeling) | Een kansverdeling die lijkt op de normaalverdeling, maar dikkere staarten heeft. Het wordt gebruikt bij statistische toetsen wanneer de populatiestandaardafwijking onbekend is en geschat wordt op basis van de steekproefstandaardafwijking. |
| Standaardfout | De standaardafwijking van de steekproevenverdeling van een statistiek, zoals het gemiddelde. Het geeft een maat voor de precisie van de schatting van de populatieparameter. |
| Resampling (Bootstrap) | Een methode waarbij herhaaldelijk steekproeven met teruglegging worden getrokken uit de oorspronkelijke steekproef om een geobserveerde steekproevenverdeling te creëren, in plaats van een theoretische verdeling. |
| Steekproefgrootte (n) | Het aantal observaties of eenheden in een steekproef. Een grotere steekproefgrootte leidt over het algemeen tot een kleiner betrouwbaarheidsinterval en een groter onderscheidingsvermogen. |
| Foutmarge | Het verschil tussen de steekproefstatistiek en de grenzen van het betrouwbaarheidsinterval. Het vertegenwoordigt de onzekerheid in de schatting van de populatieparameter. |
| Populatie | De volledige groep individuen, objecten of gebeurtenissen waarover men een uitspraak wil doen. |
| Populatie standaardafwijking ($\sigma$) | Een maat voor de spreiding van de gegevens in de gehele populatie. Het geeft aan hoe individuele waarden gemiddeld afwijken van het populatiegemiddelde. |
| Steekproef | Een subset van de populatie die wordt gebruikt om informatie te verzamelen en inferenties over de populatie te maken. |
| Significantieverschil | Een verschil tussen groepen of waarden dat zo groot is dat het waarschijnlijk niet door toeval is ontstaan, maar wijst op een werkelijk effect of verschil in de populatie. |
| Toetsingsgrootheid | Een statistische maat die wordt berekend uit steekproefgegevens om de nulhypothese te toetsen. Voorbeelden zijn het gemiddelde of de z-score. |
| Alternatieve hypothese | Een bewering die het tegenovergestelde stelt van de nulhypothese en die wordt aangenomen als de nulhypothese wordt verworpen. |
| Cruciale waarde | Een drempelwaarde die wordt gebruikt om te beslissen of een statistisch resultaat significant is. |
| Inferentiële statistiek | Het proces van het trekken van conclusies over een populatie op basis van gegevens verzameld uit een steekproef. |
| Klassieke benadering | Een statistische methode die gebaseerd is op kansberekening en theoretische verdelingen zoals de binomiale en normale verdeling om hypothesen te toetsen. |
| Type I-fout (vals positief) | De fout waarbij de nulhypothese onterecht wordt verworpen, terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau (α). |
| Type II-fout (vals negatief) | De fout waarbij de nulhypothese niet wordt verworpen, terwijl deze in werkelijkheid onjuist is. De kans hierop wordt aangeduid met β. |
| t-toets | Een statistische toets die wordt gebruikt om hypothesen te toetsen over populatiegemiddelden wanneer de populatiestandaardafwijking onbekend is. Er zijn verschillende typen, zoals de 1-steekproef t-toets, de t-toets voor gekoppelde paren en de t-toets voor onafhankelijke steekproeven. |
| Alfa ($\alpha$) | Alfa is een vooraf vastgestelde kritische grens, meestal 5%, die aangeeft wanneer de nulhypothese wordt verworpen. Het vertegenwoordigt het risico op een Type I-fout, oftewel het onterecht verwerpen van de nulhypothese. |
| Dikkere staarten (t-verdeling) | De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat er meer kans is op extreme waarden. Dit is cruciaal bij het bepalen van significantie, omdat de beslissingen hierop gebaseerd zijn. |
| Steekproefgemiddelde ($\bar{x}$) | Het steekproefgemiddelde is het gemiddelde van de gegevens verzameld uit een steekproef. Het wordt gebruikt als schatting voor het populatiegemiddelde. |
| Significant verschil | Een verschil tussen groepen of variabelen dat groot genoeg is om niet verklaard te kunnen worden door toeval, wat leidt tot het verwerpen van de nulhypothese. |
| Niet-parametrische toetsen | Niet-parametrische toetsen zijn statistische methoden die geen aannames doen over de specifieke verdeling van de populatie waaruit de steekproef is getrokken, in tegenstelling tot parametrische toetsen die wel dergelijke aannames maken (bijvoorbeeld normaliteit). |
| Betrouwbaarheidsniveau | De kans dat een betrouwbaarheidsinterval de werkelijke populatieparameter bevat. Gangbare niveaus zijn 90%, 95% en 99%. |
| Z-verdeling (standaard normaalverdeling) | Een continue kansverdeling die symmetrisch is rond het gemiddelde en een klokvorm heeft. Het gemiddelde is 0 en de standaardafwijking is 1. Wordt gebruikt bij significantietoetsen wanneer de populatiestandaardafwijking bekend is. |