Cover
Mulai sekarang gratis STA3set2Hfst07InferentieVerdelingen.pptx
Summary
# Inferentie over de verwachting van één populatie met t-tests
Dit hoofdstuk behandelt inferentie over de populatieverwachting wanneer de populatiestandaardafwijking onbekend is, waarbij gebruik wordt gemaakt van t-verdelingen voor betrouwbaarheidsintervallen en t-tests.
## 1. Inferentie over de verwachting van één populatie
### 1.1 De t-verdeling
Wanneer de populatiestandaardafwijking $\sigma$ onbekend is en geschat moet worden met de steekproefstandaardafwijking $s$, dan is de steekproevenverdeling van het gestandaardiseerde gemiddelde niet langer normaal verdeeld, maar volgt deze een t-verdeling.
De t-verdeling:
* Is symmetrisch en heeft een top op nul.
* Heeft dikkere staarten dan de standaardnormaalverdeling.
* De exacte vorm van de t-verdeling hangt af van het aantal vrijheidsgraden ($df$), dat meestal gelijk is aan $n-1$ voor een enkele steekproef.
* Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaardnormaalverdeling.
Kritieke waarden $t^*$ voor t-verdelingen kunnen worden opgezocht in tabel D, op basis van het aantal vrijheidsgraden en het gewenste betrouwbaarheidsniveau.
> **Tip:** De dikkere staarten van de t-verdeling reflecteren de extra onzekerheid die ontstaat doordat de populatiestandaardafwijking geschat wordt in plaats van gekend.
### 1.2 1-steekproef t-betrouwbaarheidsinterval
Het betrouwbaarheidsinterval (BI) voor de populatieverwachting $\mu$ wanneer $\sigma$ onbekend is, volgt dezelfde logica als bij een gekende $\sigma$, maar gebruikt de t-verdeling in plaats van de z-verdeling.
Het 1-steekproef t-betrouwbaarheidsinterval wordt berekend als:
$$ \bar{x} \pm t^{\ast} \frac{s}{\sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $t^{\ast}$ de kritieke t-waarde is voor het gewenste betrouwbaarheidsniveau en $n-1$ vrijheidsgraden.
* $s$ de steekproefstandaardafwijking is.
* $n$ de steekproefgrootte is.
**Voorwaarden voor het 1-steekproef t-betrouwbaarheidsinterval:**
1. **Random:** De data komen uit een toevallige steekproef (EAS).
2. **Normaal verdeeld:** De populatie is normaal verdeeld, of de steekproefgrootte is voldoende groot ($n \ge 30$). Bij kleine steekproeven ($n < 30$) dient de normaliteit van de populatie te worden gecontroleerd (bijvoorbeeld via een histogram of normal probability plot).
3. **Onafhankelijk:** Individuele observaties zijn onafhankelijk. Bij trekking zonder teruglegging is de vereiste $N \ge 20n$.
#### 1.2.1 Voorbeeld betrouwbaarheidsinterval
Stel we hebben een steekproef van $n=20$ beeldschermen met een gemiddelde spanning van $\bar{x} = 306.32$ mV en een standaardafwijking $s$. Voor een 90% betrouwbaarheidsinterval, met $df = n-1 = 19$, is de kritieke waarde $t^{\ast} = 1.729$. Het 90% betrouwbaarheidsinterval wordt dan berekend.
### 1.3 1-steekproef t-test
De 1-steekproef t-test wordt gebruikt om een hypothese over de populatieverwachting $\mu$ te toetsen wanneer $\sigma$ onbekend is.
**Hypothesen:**
* Nulhypothese $H_0$: $\mu = \mu_0$
* Alternatieve hypothese $H_a$: $\mu < \mu_0$, $\mu > \mu_0$, of $\mu \neq \mu_0$
De t-toetsgrootheid wordt berekend als:
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de verwachte waarde onder de nulhypothese is.
* $s$ de steekproefstandaardafwijking is.
* $n$ de steekproefgrootte is.
De p-waarde wordt berekend als de kans om een toetsgrootheid te verkrijgen die minstens zo extreem is als de berekende $t$, onder aanname van $H_0$, voor een t-verdeling met $n-1$ vrijheidsgraden.
**Voorwaarden voor de 1-steekproef t-test:**
De voorwaarden zijn dezelfde als voor het 1-steekproef t-betrouwbaarheidsinterval: Random, Normaal verdeeld (of grote steekproef), en Onafhankelijk.
#### 1.3.1 Voorbeeld t-test
Stel we onderzoeken de hoeveelheid opgeloste zuurstof (DO) in een rivier en nemen 15 waterstalen. We willen toetsen of het gemiddelde DO-gehalte lager is dan 5 mg/l (wat als onleefbaar wordt beschouwd) met een significantieniveau $\alpha = 0.05$.
* $H_0$: $\mu = 5$
* $H_a$: $\mu < 5$
De berekende t-toetsgrootheid is $t = -0.9426$ met $df = 14$. De p-waarde is ongeveer 0.1809. Aangezien $p > \alpha$, wordt de nulhypothese niet verworpen. Er is onvoldoende bewijs om te concluderen dat het water onleefbaar is.
> **Tip:** Bij het rapporteren van t-tests in APA-stijl, vermeld de toetsingsgrootheid $t$, de vrijheidsgraden ($df$) tussen haakjes, en de p-waarde. Vermeld ook de beschrijvende maten (gemiddelde, standaardafwijking) en het betrouwbaarheidsinterval indien relevant.
### 1.4 Robuustheid van t-procedures
T-procedures zijn relatief robuust tegen schendingen van de normaliteitsvoorwaarde, vooral bij grotere steekproefgroottes ($n \ge 30$). Bij kleinere steekproeven ($n < 15$) is normaliteit belangrijker, en bij aanwezigheid van uitschieters of sterke scheefheid, kunnen niet-parametrische alternatieven (zoals de tekentoets) overwogen worden.
### 1.5 Onderscheidingsvermogen (Power) van de t-test
Het onderscheidingsvermogen van een t-test is de kans om een werkelijk bestaand effect (een afwijking van de nulhypothese) correct te detecteren. Het hangt af van het significantieniveau $\alpha$, de steekproefgrootte $n$, de populatiestandaardafwijking $\sigma$ (of een schatting daarvan), en de omvang van het effect dat men wil detecteren. Een groter effect, een grotere steekproef, en een hoger $\alpha$ leiden tot een hoger onderscheidingsvermogen.
#### 1.5.1 Voorbeeld poweranalyse
Bij het plannen van een studie kan men met behulp van software (zoals G*power) berekenen hoe groot de steekproefgrootte moet zijn om een bepaald effect met een gewenst onderscheidingsvermogen te kunnen detecteren. Dit helpt om te voorkomen dat bestaande effecten gemist worden door een te kleine steekproef.
---
# Vergelijken van twee verwachtingen met t-tests
Dit gedeelte van de studiehandleiding behandelt de methoden voor het vergelijken van gemiddelden van twee populaties, waarbij onderscheid wordt gemaakt tussen gekoppelde data en onafhankelijke steekproeven, en de bijbehorende t-procedures worden uiteengezet.
## 2. Vergelijken van twee verwachtingen met t-tests
Het vergelijken van gemiddelden van twee populaties is een fundamenteel aspect van statistische inferentie. Wanneer de populatiestandaardafwijking onbekend is, worden t-procedures gebruikt. Deze procedures zijn echter niet altijd exact, maar bieden vaak een goede benadering, vooral bij grotere steekproeven.
### 2.1 De Student t-verdeling
De Student t-verdeling is een kansverdeling die een rol speelt bij het schatten van de populatieverwachting wanneer de populatiestandaardafwijking onbekend is.
* **Kenmerken:**
* Symmetrisch rond nul.
* Heeft één piek op nul.
* Heeft dikkere staarten dan de standaard normaalverdeling, wat betekent dat extremere waarden waarschijnlijker zijn.
* **Vrijheidsgraden (df):** De vorm van de t-verdeling wordt bepaald door het aantal vrijheidsgraden ($df$). Voor een steekproef van grootte $n$ is het aantal vrijheidsgraden meestal $n-1$.
* **Vergelijking met de Normaalverdeling:** Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaard normaalverdeling ($N(0,1)$). Bij kleine $df$ zijn de staarten van de t-verdeling dikker, wat de grotere onzekerheid door het schatten van $\sigma$ weerspiegelt.
* **Kritieke waarden:** Kritieke waarden ($t^*$) voor t-verdelingen worden gevonden in specifieke tabellen (bijv. Tabel D in het handboek), die afhangen van het aantal vrijheidsgraden en het gewenste betrouwbaarheidsniveau of significantieniveau.
### 2.2 t-procedures voor gekoppelde data
Gekoppelde data ontstaan wanneer metingen van twee groepen afkomstig zijn van dezelfde eenheden (bijv. voor- en nametingen bij dezelfde personen) of van gematchte paren. De analyse richt zich op de verschilscores tussen de gekoppelde metingen.
* **Hypothese toetsing:**
* Nulhypothese ($H_0$): De populatiemediaan van de verschilscores is nul ($\mu_d = 0$).
* Alternatieve hypothese ($H_a$): De populatiemediaan van de verschilscores is niet gelijk aan nul, groter dan nul, of kleiner dan nul.
* **Analyse:** De verschilscores ($d_i = x_{i1} - x_{i2}$) worden berekend voor elk paar. Vervolgens wordt een 1-steekproef t-toets uitgevoerd op deze verschilscores, waarbij de nulhypothese is dat het populatiegemiddelde van de verschilscores nul is.
* **Vereisten:**
* De populatie van verschilscores is normaal verdeeld (of de steekproefgrootte is groot).
* De data zijn verkregen via een enkelvoudige aselecte steekproef.
* **Voorbeeld:** Onderzoek naar agressief gedrag bij demente bejaarden, waarbij agressieve incidenten worden geteld in de dagen rond volle maan versus andere dagen. De verschilscores tussen volle maan dagen en andere dagen worden geanalyseerd met een t-toets voor gekoppelde paren.
* `t(df) = waarde, p-waarde`
### 2.3 t-procedures voor onafhankelijke steekproeven
Bij onafhankelijke steekproeven komen de data van twee verschillende, niet-gerelateerde groepen. Er wordt onderscheid gemaakt tussen situaties waarin de populatievarianties gelijk worden verondersteld (pooled t-test) en waarin dit niet het geval is (Welch's t-test).
#### 2.3.1 t-test voor twee onafhankelijke steekproeven (ongelijke varianties - Welch's t-test)
Dit is de meest gebruikte aanpak wanneer de varianties van de twee populaties verschillend kunnen zijn.
* **Hypothese toetsing:**
* Nulhypothese ($H_0$): Het verschil tussen de populatiegemiddelden is nul ($\mu_1 - \mu_2 = 0$).
* Alternatieve hypothese ($H_a$): Het verschil tussen de populatiegemiddelden is niet gelijk aan nul, groter dan nul, of kleiner dan nul.
* **Toetsingsgrootheid:** De t-statistiek wordt berekend als het gestandaardiseerde verschil tussen de steekproefgemiddelden. De formule voor de t-statistiek is:
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} $$
waarbij $\bar{x}_1$ en $\bar{x}_2$ de steekproefgemiddelden zijn, $s_1$ en $s_2$ de steekproefstandaardafwijkingen, en $n_1$ en $n_2$ de steekproefgroottes.
* **Vrijheidsgraden:** Het aantal vrijheidsgraden wordt berekend met een complexe formule (Welch-Satterthwaite vergelijking), maar in de praktijk wordt vaak een conservatieve schatting gebruikt, namelijk $\min(n_1 - 1, n_2 - 1)$, of de exacte waarden die door statistische software worden geleverd.
* **Vereisten:**
* De twee steekproeven zijn onafhankelijk en aselect.
* De populaties zijn bij benadering normaal verdeeld, of de steekproefgroottes zijn groot ($n_1 \ge 30$ en $n_2 \ge 30$). Bij kleinere steekproeven is normaliteit belangrijker.
* **Voorbeeld:** Vergelijken van de bloeddrukdaling bij mannen die een calciumsupplement krijgen versus een placebo.
* `t(df) = waarde, p-waarde`
* **Betrouwbaarheidsinterval:** Een betrouwbaarheidsinterval voor het verschil tussen de populatiegemiddelden ($\mu_1 - \mu_2$) kan worden berekend als:
$$ (\bar{x}_1 - \bar{x}_2) \pm t^* \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} $$
waarbij $t^*$ de kritieke waarde is uit de t-verdeling met de berekende vrijheidsgraden voor het gewenste betrouwbaarheidsniveau.
#### 2.3.2 Gepoelde (Pooled) 2-steekproeven t-procedures (gelijke varianties)
Deze procedure wordt gebruikt wanneer de populatievarianties als gelijk worden verondersteld. Het is echter vaak veiliger om Welch's t-test te gebruiken omdat het controleren op gelijke varianties (met de F-test) zelf niet robuust is.
* **Aanname:** $\sigma_1^2 = \sigma_2^2$.
* **Gepoelde standaardafwijking:** Een gepoolde schatter voor de gemeenschappelijke standaardafwijking ($s_p$) wordt berekend.
$$ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} $$
* **Toetsingsgrootheid:** De t-statistiek wordt berekend als:
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$
* **Vrijheidsgraden:** Bij deze procedure is het aantal vrijheidsgraden exact $n_1 + n_2 - 2$.
* **Betrouwbaarheidsinterval:**
$$ (\bar{x}_1 - \bar{x}_2) \pm t^* s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} $$
waarbij $t^*$ de kritieke waarde is uit de t-verdeling met $n_1 + n_2 - 2$ vrijheidsgraden.
### 2.4 Robuustheid van t-procedures
Statistische procedures worden als robuust beschouwd als ze niet sterk beïnvloed worden door kleine schendingen van hun voorwaarden.
* **Invloed van steekproefgrootte:**
* **Grote steekproeven ($n \ge 30-40$):** t-procedures zijn zeer robuust, zelfs bij duidelijk scheve verdelingen. De centrale limietstelling zorgt ervoor dat de steekproevenverdeling van het gemiddelde (of het verschil tussen gemiddelden) bij benadering normaal is.
* **Kleine steekproeven ($n < 15$):** Normaliteit van de populatie is belangrijker. Als de data niet nagenoeg normaal verdeeld zijn, of als er uitschieters zijn, is het gebruik van t-procedures af te raden.
* **Matige steekproeven ($15 \le n < 30$):** t-procedures kunnen gebruikt worden, tenzij er sprake is van duidelijke scheefheid of uitschieters.
* **Onafhankelijke steekproeven vs. Gekoppelde steekproeven:** De t-procedures voor twee onafhankelijke steekproeven zijn over het algemeen robuuster dan de procedures voor één steekproef, met name wanneer de populatieverdelingen niet symmetrisch zijn, maar wel vergelijkbaar van vorm.
* **Aselecte steekproef:** De eis van aselecte steekproeven is cruciaal voor de geldigheid van de inferentie en is belangrijker dan de normaliteitsvereiste, behalve bij zeer kleine steekproeven.
### 2.5 Onderscheidingsvermogen (Power) van t-tests
Het onderscheidingsvermogen (power) van een t-test is de kans dat de test de nulhypothese verwerpt wanneer de alternatieve hypothese waar is.
* **1-steekproef t-test:** Het onderscheidingsvermogen hangt af van het significantieniveau ($\alpha$), de steekproefgrootte ($n$), de populatiestandaardafwijking ($\sigma$), en de omvang van het effect dat men wil detecteren (de afstand tussen de nulhypothese $\mu_0$ en de ware populatieverwachting $\mu$).
* **2-steekproeven t-test:** Het onderscheidingsvermogen wordt beïnvloed door $\alpha$, de steekproefgroottes ($n_1, n_2$), de populatiestandaardafwijkingen ($\sigma_1, \sigma_2$), en de omvang van het ware verschil tussen de populatiegemiddelden ($\mu_1 - \mu_2$).
* **Planning van studies:** Het berekenen van het onderscheidingsvermogen is belangrijk bij het plannen van een studie om de benodigde steekproefgrootte te bepalen. Gebruik van software zoals G\*Power kan hierbij helpen. Bij het schatten van $\sigma$ is het beter deze te overschatten om te voorkomen dat een bestaand effect niet gedetecteerd wordt door een te kleine steekproef.
### 2.6 Inferentie voor niet-normaal verdeelde populaties
Wanneer de populatieverdeling duidelijk niet normaal is en de steekproefgrootte klein, kunnen alternatieve methoden worden overwogen:
* **Data transformatie:** Scheve data kunnen soms dichter bij normaliteit worden gebracht door transformaties, zoals een logaritmische transformatie. Inferentie op getransformeerde data kan accurate resultaten opleveren, zelfs bij kleine steekproeven. Het interpreteren van resultaten op de getransformeerde schaal kan echter complex zijn.
* **Niet-parametrische methoden:** Dit zijn verdelingsvrije methoden die geen specifieke aannames doen over de populatieverdeling.
* **Tekentoets (Sign Test):** Een niet-parametrische toets voor gekoppelde data die hypothesen test over de mediaan in plaats van het gemiddelde. De toetsingsgrootheid is gebaseerd op het aantal positieve verschilscores en volgt een binomiale verdeling.
* **Voordeel:** Gebruikt minder informatie dan de t-test, wat resulteert in een lager onderscheidingsvermogen.
* **Voorbeeld:** Vergelijken van agressief gedrag rond volle maan met andere dagen met behulp van de tekentoets op de verschilscores. `Tekentoets, X = waarde, p-waarde`
### 2.7 Rapporteren van toetsresultaten
Resultaten van t-tests worden doorgaans gerapporteerd volgens de richtlijnen van APA (American Psychological Association) in de context van de vraagstelling.
* **Belangrijke elementen:**
* Beschrijvende maten (gemiddelde, standaardafwijking).
* Toetsingsgrootheid (bijv. $t$).
* Berekende waarde van de toetsingsgrootheid (afgerond op 2 decimalen).
* Vrijheidsgraden (indien van toepassing, tussen haakjes direct achter de naam van de toetsingsgrootheid, bijv. $t(df)$).
* Overschrijdingskans (p-waarde), ook als deze niet significant is (afgerond op 3 decimalen, of $p < 0,001$ indien kleiner).
* Betrouwbaarheidsinterval (CI) voor het verschil of de verwachting.
* Effectgrootte (bijv. Cohen's d).
* Besluit in de context van het onderzoek.
**Formaatvoorbeeld:** `t (df) = waarde, p = p-waarde, 95% CI [ondergrens, bovengrens], d = effectgrootte.`
Indien de toets eenzijdig is, wordt dit vermeld. Voor resultaten die niet significant zijn, kan "n.s." (niet significant) worden gebruikt in plaats van een p-waarde.
---
# Robuustheid en toepassing van t-procedures
Dit onderwerp behandelt de betrouwbaarheid van t-procedures, vooral wanneer de aannames van normaliteit niet strikt voldaan zijn, en bespreekt ook het onderscheidingsvermogen (power) van de t-test.
## 3. Robuustheid en toepassing van t-procedures
### 3.1 Student's t-verdelingen
Wanneer de populatiestandaardafwijking $\sigma$ onbekend is en geschat wordt met de steekproefstandaardafwijking $s$, volgt de steekproevenverdeling van het gemiddelde een t-verdeling in plaats van een standaard normaalverdeling.
* **Eigenschappen van de t-verdeling:**
* Symmetrisch rond 0.
* Eén top op 0.
* Dikkere staarten dan de standaard normaalverdeling, wat wijst op een grotere spreiding.
* Er is een andere t-verdeling voor elke steekproefgrootte, gespecificeerd door het aantal vrijheidsgraden ($df$).
De kritieke waarden $t^*$ voor t-verdelingen, nodig voor betrouwbaarheidsintervallen en toetsen, zijn terug te vinden in Tabel D (vaak p. 705 in handboeken). De vrijheidsgraden worden doorgaans berekend als $df = n - 1$ voor een 1-steekproefssituatie. Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaard normaalverdeling.
### 3.2 Toepassing van t-procedures
#### 3.2.1 1-steekproef t-procedures
* **1-steekproef t-betrouwbaarheidsinterval voor $\mu$:**
Dit interval volgt dezelfde logica als bij een bekende $\sigma$, maar gebruikt de t-verdeling met $n-1$ vrijheidsgraden. De voorwaarden zijn:
* **Random:** De data komen van een toevallige steekproef.
* **Normaal verdeeld:** Voor kleine steekproeven ($n < 30$) moet de populatieverdeling nagenoeg normaal zijn. Dit wordt gecontroleerd via de verdeling van de steekproefdata (histogram, normal probability plot).
* **Onafhankelijk:** Steekproeven worden onafhankelijk getrokken. Voor trekking zonder teruglegging geldt de vuistregel dat de populatiegrootte minimaal 20 keer de steekproefgrootte moet zijn ($N \geq 20n$).
> **Tip:** Voor grote populaties is het verschil tussen trekkingen met of zonder teruglegging verwaarloosbaar klein.
* **1-steekproef t-toets voor $\mu$:**
Om de nulhypothese $H_0: \mu = \mu_0$ te toetsen, wordt de t-toetsgrootheid berekend. De p-waarde geeft de kans weer om een toetsgrootheid te verkrijgen die minstens zo extreem is als de waargenomen waarde, onder aanname van $H_0$. De toets wordt uitgevoerd met een t-verdeling met $n-1$ vrijheidsgraden.
> **Tip:** Voor normaal verdeelde populaties is de p-waarde exact. Voor andere verdelingen is deze een goede benadering bij grote steekproeven.
* **Rapporteren van resultaten (APA-stijl):**
Bij het rapporteren van toetsresultaten worden doorgaans vermeld: beschrijvende maten (gemiddelde, standaardafwijking), de toetsingsgrootheid met zijn waarde, vrijheidsgraden tussen haakjes, de p-waarde (afgerond op 3 decimalen, of als $p < 0.001$ of $n.s.$ indien niet significant), en een eenzijdigheid indien van toepassing. Een betrouwbaarheidsinterval kan ook worden opgenomen.
#### 3.2.2 2-steekproeven t-procedures
Deze procedures vergelijken de gemiddelden van twee populaties.
* **t-toets voor gekoppelde paren:**
Dit is een speciaal geval van de 1-steekproef t-toets, waarbij de analyse wordt uitgevoerd op de verschilscores tussen gekoppelde waarnemingen. De nulhypothese is $H_0: \mu_d = 0$, waarbij $\mu_d$ het populatiegemiddelde van de verschilscores is. Vereisten zijn een normaal verdeelde populatie van verschilscores (of grote steekproef) en een enkelvoudige aselecte steekproef.
> **Voorbeeld:** Het vergelijken van agressief gedrag bij demente bejaarden rond volle maan versus andere dagen. De verschilscores van het aantal incidenten worden geanalyseerd.
* **t-toets voor onafhankelijke steekproeven:**
Hierbij worden de gemiddelden van twee onafhankelijke groepen vergeleken ($H_0: \mu_1 = \mu_2$).
* **z-toets (indien $\sigma_1$ en $\sigma_2$ bekend zijn):** De toetsingsgrootheid is $z = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$. Dit is minder gangbaar omdat $\sigma$ zelden bekend is.
* **t-toets (indien $\sigma_1$ en $\sigma_2$ onbekend zijn):** De toetsingsgrootheid is $t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$ (bij gelijke varianties, met $s_p$ de gepoolde standaardafwijking) of een vergelijkbare formule zonder $s_p$ bij ongelijke varianties. De t-verdeling benadert de verdeling van deze toetsingsgrootheid.
* **Vrijheidsgraden:** Bij ongelijke varianties is de exacte berekening complex; een conservatieve benadering is $df = \min(n_1 - 1, n_2 - 1)$. Software gebruikt vaak een meer accurate benadering. Bij gelijke varianties is $df = n_1 + n_2 - 2$.
* **Voorwaarden:** Random steekproeven, nagenoeg normaal verdeelde populaties (of grote steekproeven), en onafhankelijkheid.
> **Voorbeeld:** Vergelijken van de bloeddrukdaling door een calcium supplement versus een placebo. De verschillen in systolische bloeddrukdaling worden geanalyseerd.
> **Tip:** De 2-steekproeven t-procedures zijn robuuster dan 1-steekproef methoden, vooral wanneer de verdelingen niet symmetrisch zijn maar wel vergelijkbaar.
* **2-steekproeven t-betrouwbaarheidsinterval voor $\mu_1 - \mu_2$:**
Dit interval schat het verschil tussen twee populatiegemiddelden. De interpretatie is vergelijkbaar met het 1-steekproef interval, waarbij het verschil tussen de steekproefgemiddelden de punt-schatting is.
### 3.3 Robuustheid van t-procedures
Een statistische procedure is robuust als het betrouwbaarheidsinterval of de p-waarde niet significant verandert bij het schenden van de aannames.
* **Algemene robuustheid:**
* De aanname van een **aselecte steekproef** is cruciaal, vooral bij kleine steekproeven.
* **Normaliteit:**
* **Kleine steekproeven ($n < 15$):** Normaliteit is belangrijk. Bij uitschieters of sterke scheefheid de t-procedures niet gebruiken.
* **Matige steekproeven ($15 \leq n < 30-40$):** T-procedures zijn toepasbaar tenzij er uitschieters of sterk scheve verdelingen zijn.
* **Grote steekproeven ($n \geq 30-40$):** T-procedures kunnen worden toegepast, zelfs bij duidelijk scheve verdelingen.
* Bij 2-steekproeven t-procedures geldt dat als de verdelingen niet symmetrisch, maar wel *vergelijkbaar* scheef zijn, de procedure robuuster is.
> **Tip:** Indien mogelijk, probeer scheve data te transformeren (bv. met een logaritmische transformatie) om normaliteit te benaderen, wat de nauwkeurigheid van t-procedures verhoogt.
### 3.4 Onderscheidingsvermogen (Power) van de t-test
Het onderscheidingsvermogen (power) is de kans dat een test de nulhypothese verwerpt wanneer de alternatieve hypothese waar is.
* **1-steekproef t-test:**
Het onderscheidingsvermogen wordt beïnvloed door:
* **Steekproefgrootte ($n$):** Grotere $n$ leidt tot meer power.
* **Significantieniveau ($\alpha$):** Een hoger $\alpha$ (bv. $0.05$ vs $0.01$) vergroot de power, maar ook de kans op een Type I fout.
* **Effectgrootte:** Het werkelijke verschil tussen de populatieverwachting en de nulhypothese. Grotere effecten zijn makkelijker te detecteren.
* **Populatiestandaardafwijking ($\sigma$):** Kleinere $\sigma$ leidt tot meer power.
Het berekenen van het onderscheidingsvermogen bij het plannen van een studie is belangrijk om te bepalen hoeveel data nodig is om een bepaald effect te kunnen detecteren. Hierbij wordt vaak $\sigma$ geschat uit eerder onderzoek of een pilot study.
* **2-steekproeven t-test:**
De principes zijn vergelijkbaar met de 1-steekproef t-test. Het onderscheidingsvermogen hangt af van de steekproefgroottes in beide groepen, het significatieniveau, de effectgrootte (verschil tussen de populatiegemiddelden), en de populatiestandaardafwijkingen. Exacte berekeningen vereisen software zoals G\*Power en de resultaten van een pilot study of literatuur.
> **Tip:** Bij het plannen van een studie is het beter om de populatiestandaardafwijking te overschatten dan te onderschatten, om te voorkomen dat een bestaand effect niet gedetecteerd wordt door te weinig data.
### 3.5 Inferentie voor niet-normaal verdeelde populaties
Wanneer de normaliteitsaanname ernstig geschonden is, vooral bij kleine steekproeven, zijn er alternatieven:
* **Data transformatie:** Logaritmische of andere transformaties kunnen de data dichter bij normaliteit brengen. De interpretatie van resultaten op getransformeerde data kan echter lastiger zijn.
* **Niet-parametrische tests:** Deze tests stellen geen strikte eisen aan de populatieverdeling. Ze toetsen vaak hypothesen over de mediaan in plaats van het gemiddelde.
* **Tekentoets voor gekoppelde data:** Een niet-parametrisch alternatief voor de t-toets voor gekoppelde paren. Het aantal paren met een positief verschil wordt geteld en getoetst met een binomiale verdeling. Deze toets heeft echter een kleiner onderscheidingsvermogen dan de t-toets.
> **Voorbeeld:** De tekentoets kan worden gebruikt als de verschilscores tussen gekoppelde metingen niet normaal verdeeld zijn.
### 3.6 Inferentie voor populatiespreiding
De F-test voor gelijkheid van spreidingen kan worden gebruikt om te onderzoeken of twee populaties dezelfde variantie hebben. Deze procedure is echter niet robuust voor afwijkingen van de normaliteitsvoorwaarde. De F-verdeling is rechts scheef en de kritieke waarden worden in tabellen (bv. Tabel E) gegeven. Het vergelijken van populatiespreidingen op basis van steekproefstandaardafwijkingen is gevoelig voor de normaliteitsaanname.
---
# Inferentie voor populatiespreiding: de F-test
Dit onderdeel introduceert de F-test voor het vergelijken van de spreidingen van twee populaties en bespreekt de eigenschappen van F-verdelingen.
## 4.1 De F-test voor gelijkheid van spreidingen
De standaarddeviaties $\sigma_1$ en $\sigma_2$ van twee populaties kunnen worden vergeleken op basis van de standaarddeviaties van twee eenvoudige aselecte steekproeven (EAS). De procedures die hiervoor worden gebruikt, zijn echter niet robuust voor afwijkingen van de normale verdeling.
### 4.1.1 F-verdelingen
De F-verdeling is een kansverdeling die wordt gebruikt bij statistische tests, zoals de F-test. De belangrijkste eigenschappen van de F-verdeling zijn:
* **Rechts scheef:** De dichtheidskromme van de F-verdeling is scheef naar rechts.
* **Niet-negatief:** F-waarden kunnen nooit negatief zijn. Dit komt doordat de F-test gebaseerd is op de deling van varianties, die altijd positief zijn.
* **Piek nabij 1:** De piek van de F-verdeling ligt dicht bij 1. Dit is logisch, want als de twee populatiestandaarddeviaties gelijk zijn, zal de verhouding van hun varianties (of standaarddeviaties) rond de 1 liggen.
### 4.1.2 Toepassing van de F-test
De F-test wordt gebruikt om de nulhypothese te toetsen dat de varianties (of standaarddeviaties) van twee populaties gelijk zijn.
* **Nulhypothese ($H_0$):** De varianties van de twee populaties zijn gelijk ($\sigma_1^2 = \sigma_2^2$).
* **Alternatieve hypothese ($H_a$):** De varianties van de twee populaties zijn ongelijk ($\sigma_1^2 \neq \sigma_2^2$). Een eenzijdige alternatieve hypothese kan ook worden gebruikt ($\sigma_1^2 > \sigma_2^2$ of $\sigma_1^2 < \sigma_2^2$).
#### Toetsingsgrootheid
De toetsingsgrootheid voor de F-test is de verhouding van de twee steekproefvarianties. Meestal wordt de grootste steekproefvariantie in de teller geplaatst om de test eenzijdig te maken en de kritieke waarden gemakkelijker te kunnen opzoeken.
$$ F = \frac{s_1^2}{s_2^2} $$
Hierbij geldt:
* $s_1^2$: De variantie van de eerste steekproef.
* $s_2^2$: De variantie van de tweede steekproef.
Als de nulhypothese waar is, zal de F-waarde dicht bij 1 liggen. Waarden van $F$ die sterk afwijken van 1, geven bewijs tegen de nulhypothese van gelijke spreidingen.
#### Vrijheidsgraden
De F-verdeling die bij de toetsingsgrootheid $F$ hoort, wordt gespecificeerd door twee aantallen vrijheidsgraden:
* $df_1$: Vrijheidsgraden van de teller (de steekproefvariantie in de teller). Dit is meestal $n_1 - 1$, waarbij $n_1$ de steekproefgrootte is van de populatie waarvan de variantie in de teller komt.
* $df_2$: Vrijheidsgraden van de noemer (de steekproefvariantie in de noemer). Dit is meestal $n_2 - 1$, waarbij $n_2$ de steekproefgrootte is van de populatie waarvan de variantie in de noemer komt.
#### Kritieke waarden
Tabel E (p706 in het handboek) geeft kritieke $F$-waarden voor rechter overschrijdingskansen ($p$-waarden) van 0.10, 0.05, 0.025, 0.01 en 0.001. Bij een tweezijdige test wordt de alfa-waarde gedeeld door twee om de juiste kolom te vinden.
### 4.1.3 Robuustheid van de F-test
De F-test voor gelijkheid van spreidingen is niet robuust voor afwijkingen van de normale verdeling. Dit betekent dat als de populaties niet normaal verdeeld zijn, de betrouwbaarheidsintervallen en $p$-waarden van de F-test onbetrouwbaar kunnen worden. Dit is een belangrijk nadeel ten opzichte van de $t$-procedures, die over het algemeen robuuster zijn.
> **Tip:** Omdat de F-test zo gevoelig is voor afwijkingen van normaliteit, wordt deze minder vaak gebruikt in de praktijk voor het vergelijken van spreidingen, tenzij er sterke aanwijzingen zijn dat de populaties normaal verdeeld zijn. Alternatieve methoden, zoals Levene's test of de Brown-Forsythe test, zijn robuuster voor afwijkingen van normaliteit.
---
*Dit samenvattende gedeelte is gebaseerd op de informatie op pagina's 70-71 van het verstrekte document, met de nadruk op de F-test voor populatiespreiding.*
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| t-verdeling | Een kansverdeling die nauw verwant is aan de normaalverdeling, maar die dikkere staarten heeft. De vorm van de t-verdeling wordt bepaald door het aantal vrijheidsgraden. |
| Steekproevenverdeling | De kansverdeling van een statistiek (zoals het steekproefgemiddelde) die wordt verkregen door herhaaldelijk steekproeven van dezelfde grootte uit een populatie te trekken. |
| Vrijheidsgraden (df) | Een parameter die de vorm van de t-verdeling bepaalt. Bij een 1-steekproef t-test is dit gelijk aan n-1, waarbij n de steekproefgrootte is. |
| Standaardfout | De standaarddeviatie van de steekproevenverdeling van een statistiek. Het geeft een maat voor de variabiliteit van de steekproefstatistieken rondom de populatieparameter. |
| Betrouwbaarheidsinterval | Een reeks waarden binnen een bepaald betrouwbaarheidsniveau waarvan wordt aangenomen dat deze de ware populatieparameter bevat. |
| Significatieniveau (α) | De kans op het verwerpen van de nulhypothese terwijl deze waar is (Type I fout). Gangbare waarden zijn 0.05, 0.01 of 0.001. |
| Nulhypothese (H0) | Een stelling over een populatieparameter die wordt getoetst. In de context van t-tests is dit vaak dat de populatieverwachting gelijk is aan een specifieke waarde of dat twee populatieverwachtingen gelijk zijn. |
| Alternatieve hypothese (Ha) | Een stelling die de nulhypothese tegenspreekt. Het kan eenzijdig (bv. µ < µ0) of tweezijdig (bv. µ ≠ µ0) zijn. |
| p-waarde | De kans om een toetsingsgrootheid te verkrijgen die minstens zo extreem is als de geobserveerde waarde, onder de aanname dat de nulhypothese waar is. |
| Robuustheid | De mate waarin een statistische procedure ongevoelig is voor schendingen van de onderliggende aannames, zoals normaliteit. |
| Onderscheidingsvermogen (Power) | De kans dat een statistische test de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Het is 1 min de kans op een Type II fout. |
| F-test | Een statistische test die wordt gebruikt om de gelijkheid van varianties van twee of meer populaties te vergelijken. De test maakt gebruik van de F-verdeling. |
| Gepoelde t-test | Een variant van de t-test voor twee onafhankelijke steekproeven die ervan uitgaat dat de varianties van de twee populaties gelijk zijn. |
| Niet-parametrische toetsen | Statistische toetsen die geen specifieke aannames doen over de vorm van de populatieverdeling (zoals normaliteit). Voorbeelden zijn de tekentoets en de Wilcoxon-rangsomtoets. |
| Tekentoets | Een niet-parametrische toets voor gekoppelde data die de mediane verschillen test. Het telt het aantal positieve en negatieve verschillen tussen paren. |
| Data transformatie | Een wiskundige bewerking (bv. logaritme) toegepast op data om de verdeling dichter bij normaliteit te brengen, wat de toepasbaarheid van parametrische toetsen kan verbeteren. |