HC4b_LP_2025(1).pdf
Summary
# Hypothesetoetsen voor gemiddelden en proporties in twee populaties
Dit onderwerp behandelt de principes en toepassingen van het toetsen van hypothesen wanneer men twee populatiegemiddelden of twee populatieproporties met elkaar vergelijkt [3](#page=3).
### 1.1 Inleiding tot het toetsen van hypothesen in twee populaties
Net zoals bij hypothesetoetsen in één populatie, is het doel bij het vergelijken van twee populaties het formuleren en toetsen van hypothesen over hun parameters (gemiddelden of proporties). De kernconcepten van nulhypothese ($H_0$) en alternatieve hypothese ($H_A$) blijven van kracht, maar worden nu toegepast op de relatie tussen twee populaties [2](#page=2) [3](#page=3).
#### 1.1.1 Hypothesenvormen voor twee gemiddelden
Bij het vergelijken van twee populatiegemiddelden ($\mu_1$ en $\mu_2$) kunnen de hypothesen worden geformuleerd als:
* $H_0: \mu_1 \le \mu_2$ versus $H_A: \mu_1 > \mu_2$ (éénzijdige toets) [3](#page=3).
* $H_0: \mu_1 \ge \mu_2$ versus $H_A: \mu_1 < \mu_2$ (éénzijdige toets) [3](#page=3).
* $H_0: \mu_1 = \mu_2$ versus $H_A: \mu_1 \ne \mu_2$ (tweezijdige toets) [3](#page=3).
#### 1.1.2 Hypothesenvormen voor twee proporties
Voor het vergelijken van twee populatieproporties ($\pi_1$ en $\pi_2$) gelden vergelijkbare vormen:
* $H_0: \pi_1 \le \pi_2$ versus $H_A: \pi_1 > \pi_2$ (éénzijdige toets) [3](#page=3).
* $H_0: \pi_1 \ge \pi_2$ versus $H_A: \pi_1 < \pi_2$ (éénzijdige toets) [3](#page=3).
* $H_0: \pi_1 = \pi_2$ versus $H_A: \pi_1 \ne \pi_2$ (tweezijdige toets) [3](#page=3).
#### 1.1.3 Voorbeelden van het opstellen van hypothesen
* **Voorbeeld 1 (Gekoppeld):** Onderzoek naar de impact van yoga op ademhalingscapaciteit. $H_0: \mu_{yoga} \le \mu_{geen\_yoga}$ versus $H_A: \mu_{yoga} > \mu_{geen\_yoga}$, waarbij $\mu$ staat voor de gemiddelde ademhalingscapaciteit [5](#page=5).
* **Voorbeeld 2 (Onafhankelijk):** Vergelijking van ademhalingscapaciteit tussen studenten die wel en geen yoga beoefenen. $H_0: \mu_{yoga} \le \mu_{geen\_yoga}$ versus $H_A: \mu_{yoga} > \mu_{geen\_yoga}$ [6](#page=6).
* **Voorbeeld 3 (Onafhankelijk):** Effectiviteit van een nieuwe Alzheimer-behandeling. $H_0: \mu_{klassiek} \ge \mu_{nieuw}$ versus $H_A: \mu_{klassiek} < \mu_{nieuw}$, waarbij $\mu$ staat voor de gemiddelde tijd tot progressie [7](#page=7).
* **Voorbeeld 4 (Gekoppeld):** Verschil in lichaamsgewicht tussen 12-jarige jongens en meisjes, waarbij tweelingen worden gebruikt. $H_0: \mu_{jongens} = \mu_{meisjes}$ versus $H_A: \mu_{jongens} \ne \mu_{meisjes}$ [8](#page=8).
### 1.2 Gekoppelde versus onafhankelijke metingen
Een cruciaal onderscheid bij het toetsen van gemiddelden in twee populaties is of de metingen gekoppeld of onafhankelijk zijn [10](#page=10) [9](#page=9).
* **Gekoppelde metingen:** De observaties in de twee groepen zijn niet onafhankelijk. Dit kan komen doordat dezelfde subjecten op twee verschillende momenten worden gemeten (pre-test/post-test), of doordat de subjecten in de twee groepen op een andere manier aan elkaar gerelateerd zijn (bv. tweelingen, gematchte paren) [10](#page=10).
* **Onafhankelijke metingen:** De observaties in de twee groepen zijn volledig onafhankelijk van elkaar. Dit betekent dat de keuze van subjecten in de ene groep geen invloed heeft op de keuze van subjecten in de andere groep [10](#page=10).
#### 1.2.1 Herschrijven van hypothesen voor gekoppelde metingen
Bij gekoppelde metingen kan de hypothese vaak worden gereduceerd tot een één-steekproef probleem door te kijken naar de verschillen tussen de gekoppelde waarden [13](#page=13) [14](#page=14).
* **Voorbeeld 1:** $H_0: \mu_{yoga} \le \mu_{geen\_yoga}$ wordt herschreven als $H_0: \mu_{yoga - geen\_yoga} \le 0$. De toets wordt dan uitgevoerd op het gemiddelde van de verschillen [13](#page=13) [16](#page=16).
#### 1.2.2 Twee gemiddelden: gekoppelde metingen
Voor gekoppelde metingen wordt de toetsingsgrootheid berekend op basis van de verschillen tussen de gepaarde observaties [17](#page=17).
* **Voorwaarden:** Als de steekproefgrootte klein is ($n < 30$), wordt verondersteld dat de verschillen normaal verdeeld zijn [17](#page=17).
* **Teststatistiek:** De teststatistiek volgt een $t$-verdeling met $n-1$ vrijheidsgraden, waarbij $n$ het aantal paren is. De formule is:
$$t = \frac{\bar{x} - \mu_0}{s_x / \sqrt{n}}$$
waarbij $\bar{x}$ het gemiddelde verschil is, $\mu_0$ de waarde onder de nulhypothese (vaak 0), en $s_x$ de standaardafwijking van de verschillen [17](#page=17) [18](#page=18).
#### 1.2.3 Twee gemiddelden: onafhankelijke metingen
Bij onafhankelijke metingen is de situatie complexer, vooral wat betreft de vrijheidsgraden van de $t$-verdeling [24](#page=24).
* **Werkwijze in R:** Vanwege de complexiteit van het berekenen van het aantal vrijheidsgraden, wordt de hypothesetest bij onafhankelijke metingen doorgaans in R uitgevoerd [25](#page=25).
1. **Hypothese opstellen:** Formuleer de nul- en alternatieve hypothesen [28](#page=28).
2. **Aannames controleren:** Controleer de aannames, zoals normaliteit van de populaties als de steekproeven klein zijn [28](#page=28).
3. **Varianties vergelijken:** Test of de populatievarianties gelijk zijn of niet (bv. met `var.test()` in R) [25](#page=25) [29](#page=29).
4. **Hypothese toetsen:** Voer de hypothesetest uit, rekening houdend met de conclusie over de gelijkheid van varianties [25](#page=25) [30](#page=30).
* **Voorbeeld 2 (Yoga):** De toets voor de gemiddelden ($H_0: \mu_{yoga} - \mu_{geen\_yoga} \le 0$ vs $H_A: \mu_{yoga} - \mu_{geen\_yoga} > 0$) wordt uitgevoerd. Als uit de variantietest blijkt dat de varianties gelijk zijn, wordt een andere $t$-test gebruikt dan wanneer ze ongelijk zijn. De p-waarde (0.2941) is groter dan het significantieniveau (0.05), waardoor $H_0$ niet wordt verworpen [29](#page=29) [30](#page=30).
### 1.3 Twee onafhankelijke proporties
Het vergelijken van twee proporties uit onafhankelijke populaties is een veelvoorkomende statistische taak [31](#page=31).
* **Voorbeeld:** Onderzoek naar de effectiviteit van een nieuwe Alzheimer-behandeling [32](#page=32) [39](#page=39).
* $H_0: \pi_{klassiek} \le \pi_{nieuw}$ versus $H_A: \pi_{klassiek} > \pi_{nieuw}$
* Herschreven als: $H_0: \pi_{klassiek} - \pi_{nieuw} \le 0$ versus $H_A: \pi_{klassiek} - \pi_{nieuw} > 0$ [32](#page=32).
#### 1.3.1 Verdeling van de toetsingsgrootheid voor proporties
Wanneer de nulhypothese waar is en aan bepaalde voorwaarden wordt voldaan (minstens 5 successen en 5 falen in beide steekproeven), volgt de toetsingsgrootheid een normale verdeling [33](#page=33).
* **Voorwaarden:** min $n_1 \hat{p} \ge 5$ en min $n_2 \hat{p} \ge 5$ [33](#page=33) [34](#page=34).
* **Teststatistiek:**
$$\frac{\hat{p}_2 - \hat{p}_1}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}} \sim N(0,1)$$
Hierbij zijn:
* $\hat{p}_1, \hat{p}_2$: de steekproefproporties in de twee groepen [33](#page=33).
* $\hat{p}$: de gepoolde proportie, berekend als:
$$\hat{p} = \frac{n_1 \hat{p}_1 + n_2 \hat{p}_2}{n_1 + n_2} = \frac{\text{aantal successen in totaal}}{n_1 + n_2}$$ [33](#page=33) [34](#page=34).
* $n_1, n_2$: de steekproefgroottes [33](#page=33) [34](#page=34).
#### 1.3.2 Berekening en interpretatie
Bij het berekenen van de teststatistiek voor de Alzheimer-behandeling wordt de waarde 0.9110 verkregen [35](#page=35).
* **Beslissing:** Omdat 0.9110 niet groter is dan het kritische punt voor een éénzijdige toets op 5% significantieniveau (ca. 1.645), wordt $H_0$ niet verworpen [34](#page=34) [35](#page=35).
* **Conclusie:** De proportie patiënten die een volgend stadium bereiken is niet significant kleiner bij de nieuwe behandeling. De p-waarde is 0.1814 [35](#page=35).
> **Tip:** Bij het toetsen van twee proporties is het essentieel om de voorwaarden voor de normale benadering te controleren. Indien deze niet voldaan is, kunnen andere methoden zoals de exacte toets (Fisher's exact test) nodig zijn, hoewel deze buiten het bestek van dit specifieke college vallen.
#### 1.3.3 Twee proporties vergelijken met R
Software zoals R biedt functies om deze toetsen efficiënt uit te voeren [36](#page=36) [37](#page=37) [38](#page=38) [39](#page=39).
> **Tip:** Het is altijd aan te raden om software te gebruiken voor complexe statistische toetsen, vooral als het gaat om het bepalen van vrijheidsgraden of het uitvoeren van variantietests bij onafhankelijke metingen. Dit vermindert de kans op rekenfouten en zorgt voor een correcte toepassing van de statistische methoden.
---
# Gekoppelde versus onafhankelijke metingen
Dit hoofdstuk introduceert en vergelijkt het concept van gekoppelde metingen met dat van onafhankelijke metingen, met een focus op hoe deze verschillende meetmethoden de formulering en analyse van hypothesen beïnvloeden.
### 2.1 Inleiding tot gekoppelde en onafhankelijke metingen
Het onderscheid tussen gekoppelde en onafhankelijke metingen is cruciaal voor het correct uitvoeren van statistische hypothesestoetsen. Gekoppelde metingen doen zich voor wanneer dezelfde subjecten meerdere keren worden gemeten, bijvoorbeeld voor en na een interventie. Onafhankelijke metingen vinden plaats wanneer verschillende groepen subjecten worden vergeleken, waarbij er geen verband is tussen de individuen in de ene groep en de individuen in de andere [10](#page=10) [9](#page=9).
### 2.2 Gekoppelde metingen
Bij gekoppelde metingen is er een directe relatie tussen de observaties binnen een studie. Dit is typisch het geval bij een pre-test/post-test design, waarbij dezelfde groep subjecten wordt gemeten vóór en na een bepaalde interventie [10](#page=10).
#### 2.2.1 Herschrijven van hypothesen voor gekoppelde metingen
Het voordeel van gekoppelde metingen is dat de analyse kan worden herleid tot een 1-steekproef toets door te kijken naar de verschillen tussen de metingen per subject. Als we bijvoorbeeld de ademhalingscapaciteit vóór en na yoga meten, kunnen we de hypothese formuleren over het gemiddelde verschil (𝛍_yoga - 𝛍_geen_yoga) [13](#page=13) [14](#page=14).
* **Voorbeeld 1:** Het vermoeden bestaat dat yoga de ademhalingscapaciteit verhoogt. Tien studenten meten hun ademhalingscapaciteit, beoefenen vervolgens een maand yoga en meten hun capaciteit opnieuw [10](#page=10) [16](#page=16).
* Hypothese: 𝐻₀:𝜇_yoga ≤ 𝜇_geen_yoga versus 𝐻𝐴:𝜇_yoga > 𝜇_geen_yoga [10](#page=10).
* Herschreven hypothese: 𝐻₀:𝜇_yoga - 𝜇_geen_yoga ≤ 0 versus 𝐻𝐴:𝜇_yoga - 𝜇_geen_yoga > 0 [13](#page=13) [16](#page=16).
#### 2.2.2 Toetsingsprocedure voor gekoppelde metingen
De analyse van gekoppelde metingen volgt de stappen van een 1-steekproef toets op de *verschillen* tussen de metingen [17](#page=17).
1. **Stel de hypothese op:** Formuleer de nulhypothese (𝐻₀) en de alternatieve hypothese (𝐻𝐴) met betrekking tot het gemiddelde verschil.
2. **Controleer de voorwaarden:** Beoordeel de steekproefgrootte (n) en de veronderstelling van normale verdeling van de verschillen. Voor kleine steekproeven (n < 30), is de normale verdeling van de verschillen cruciaal. De teststatistiek volgt dan een t-verdeling met n-1 vrijheidsgraden: $\frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t(n-1)$ [17](#page=17).
3. **Bepaal het kritisch gebied:** Identificeer het kritieke punt op basis van het significantieniveau (s.n.) en de verdeling van de teststatistiek.
4. **Bereken de teststatistiek:** Bereken het steekproefgemiddelde van de verschillen (ҧ𝑥) en de steekproefstandaardafwijking (s) van de verschillen. Gebruik deze om de teststatistiek te berekenen: $\frac{\bar{x} - \mu_0}{s/\sqrt{n}}$ [18](#page=18).
5. **Neem een beslissing:** Vergelijk de berekende teststatistiek met het kritieke punt. Als de teststatistiek in het verwerpingsgebied valt, verwerp dan 𝐻₀.
* **Voorbeeld 1 (vervolg):**
* Gemiddelde verschil (ҧ𝑥) = 62 [18](#page=18).
* Variantie van de verschillen ($s^2$) = 4017.78 [18](#page=18).
* Teststatistiek = $\frac{62 - 0}{\sqrt{4017.78 / 10}} = 3.0931$ [18](#page=18).
* Kritisch punt bij 5% s.n. voor een eenzijdige toets met 9 vrijheidsgraden is 1.833 [17](#page=17).
* Omdat 3.0931 > 1.833, wordt 𝐻₀ verworpen [18](#page=18).
* **Besluit:** Yoga verbetert de ademhalingscapaciteit [18](#page=18).
#### 2.2.3 Voorbeeld met tweelingen
Een ander scenario met gekoppelde metingen betreft tweelingen, waarbij een jongen en een meisje uit dezelfde tweeling met elkaar worden vergeleken. Dit elimineert veel genetische en omgevingsfactoren die anders voor ruis zouden zorgen [20](#page=20).
* **Voorbeeld 4:** Het vermoeden is dat er een verschil is in het gemiddelde lichaamsgewicht tussen 12-jarige jongens en meisjes. 61 tweelingen (jongen-meisje) worden geselecteerd, dus 122 kinderen in totaal [20](#page=20).
* Hypothese: 𝐻₀:𝜇_jongens - 𝜇_meisjes = 0 versus 𝐻𝐴:𝜇_jongens - 𝜇_meisjes ≠ 0 [14](#page=14) [21](#page=21).
* De teststatistiek volgt een t-verdeling met 60 vrijheidsgraden (n-1, waarbij n=61 paren) [21](#page=21).
* De p-waarde voor de tweezijdige toets (𝐻𝐴:𝜇 ≠ 0) is 0.0002156 [21](#page=21).
* **Besluit:** 𝐻₀ wordt verworpen op 5% s.n. Er is een significant verschil in gewicht tussen jongens en meisjes [21](#page=21).
### 2.3 Onafhankelijke metingen
Bij onafhankelijke metingen worden de steekproeven uit twee (of meer) populaties getrokken die volledig los van elkaar staan. Er is geen direct verband tussen de individuen in de ene steekproef en de individuen in de andere [10](#page=10).
#### 2.3.1 Toetsingsprocedure voor onafhankelijke metingen
De analyse van twee gemiddelden uit onafhankelijke metingen is complexer en vereist een andere teststatistiek. De teststatistiek hangt af van de grootte van de steekproeven (n1 en n2) en de gelijkheid van de populatievarianties (𝜎²_1 en 𝜎²_2) [24](#page=24).
* **Formule voor de teststatistiek:**
Wanneer 𝑛₁ en 𝑛₂ beide groot zijn (≥ 30), of wanneer één van beide klein is maar de populaties normaal verdeeld zijn, kan de teststatistiek ongeveer een t-verdeling volgen:
$$ \frac{\bar{Y} - \bar{X}}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \sim t(\nu) $$
waarbij $\nu$ het aantal vrijheidsgraden vertegenwoordigt. Het berekenen van $\nu$ is afhankelijk van of de populatievarianties gelijk worden verondersteld of niet [24](#page=24) [25](#page=25).
* **Werkwijze voor een hypothesetest met onafhankelijke metingen:**
a. **Stel de hypothese op:** Formuleer de nul- en alternatieve hypothese over het verschil tussen de populatiegemiddelden (𝜇₁ - 𝜇₂) [25](#page=25).
b. **Check assumpties:** Controleer of de data uit normaal verdeelde populaties komen, met name als de steekproefgroottes klein zijn [25](#page=25).
c. **Test of varianties gelijk zijn:** Voer een variantietest uit (bv. F-test) om te bepalen of 𝜎²₁ = 𝜎²₂ [25](#page=25) [29](#page=29).
* Als de varianties gelijk worden verondersteld, wordt een gepoolde variantie gebruikt voor de berekening van de teststatistiek en de vrijheidsgraden.
* Als de varianties ongelijk zijn (Welch's t-test), wordt een complexere formule gebruikt voor de vrijheidsgraden en de teststatistiek.
d. **Test de hypothese:** Voer de t-toets uit voor twee onafhankelijke steekproeven, rekening houdend met het resultaat van stap c [25](#page=25).
#### 2.3.2 Voorbeeld met onafhankelijke metingen
* **Voorbeeld 2 (contrast met Voorbeeld 1):** Dezelfde vraag: verhoogt yoga de ademhalingscapaciteit? Nu worden echter 10 studenten die geen yoga beoefenen vergeleken met 10 *andere* studenten die wel yoga beoefenen [10](#page=10) [23](#page=23).
* Hypothese: 𝐻₀:𝜇_yoga - 𝜇_geen_yoga ≤ 0 versus 𝐻𝐴:𝜇_yoga - 𝜇_geen_yoga > 0 [23](#page=23) [28](#page=28).
* Steekproefgroottes: 𝑛₁ = 10 en 𝑛₂ = 10. Beide zijn klein, dus de normale verdeling van de populaties wordt verondersteld [23](#page=23) [28](#page=28).
* **Variantietest (stap c):** De p-waarde voor 𝐻₀:𝜎²_yoga = 𝜎²_geen_yoga versus 𝐻𝐴:𝜎²_yoga ≠ 𝜎²_geen_yoga is 0.7257. Aangezien dit groter is dan 5% s.n., worden de varianties als gelijk beschouwd [29](#page=29).
* **Hypothesetest (stap d):** De p-waarde voor 𝐻₀:𝜇_yoga - 𝜇_geen_yoga ≤ 0 versus 𝐻𝐴:𝜇_yoga - 𝜇_geen_yoga > 0 is 0.2941 [30](#page=30).
* **Besluit:** Aangezien 0.2941 > 0.05, wordt 𝐻₀ niet verworpen. De studenten die yoga beoefenen hebben geen significant hogere ademhalingscapaciteit in vergelijking met de studenten die geen yoga beoefenen [30](#page=30).
> **Tip:** De keuze tussen gekoppelde en onafhankelijke metingen heeft een grote impact op de statistische analyse. Gekoppelde metingen zijn vaak krachtiger omdat ze individuele verschillen tussen subjecten controleren, wat leidt tot een kleinere standaardfout en een grotere kans om een significant effect te detecteren, mits de effecten consistent zijn binnen subjecten.
> **Tip:** Vanwege de complexiteit van het berekenen van de vrijheidsgraden bij onafhankelijke metingen met ongelijke varianties, worden deze tests vaak uitgevoerd met statistische software zoals R. De software kan de juiste teststatistiek en p-waarde berekenen [25](#page=25).
---
# Hypothesetoetsen voor twee gemiddelden
Dit onderwerp behandelt de methodologie voor het toetsen van hypothesen over de gemiddelden van twee populaties, met een onderscheid tussen gekoppelde en onafhankelijke metingen.
### 3.1 Gekoppelde metingen
Bij gekoppelde metingen worden metingen gedaan bij dezelfde proefpersonen onder twee verschillende omstandigheden, of worden proefpersonen gepaard op basis van relevante kenmerken. Het doel is om het verschil tussen deze metingen te analyseren [15](#page=15).
#### 3.1.1 De aanpak bij gekoppelde metingen
De toetsing bij gekoppelde metingen wordt gereduceerd tot een hypothesetoets voor één gemiddelde, waarbij de steekproef bestaat uit de verschillen tussen de paren.
**Stappenplan voor hypothesetoets bij gekoppelde metingen:**
1. **Stel de hypothesen op:**
* Nulhypothese ($H_0$): Het gemiddelde verschil is kleiner dan of gelijk aan een bepaalde waarde (vaak 0).
* Alternatieve hypothese ($H_A$): Het gemiddelde verschil is groter dan, kleiner dan, of ongelijk aan die waarde.
* Voorbeeld: $H_0: \mu_{yoga-geenYoga} \le 0$ versus $H_A: \mu_{yoga-geenYoga} > 0$ [16](#page=16).
2. **Controleer de voorwaarden:**
* De steekproefgrootte ($n$) wordt bepaald door het aantal paren.
* Als $n$ klein is (bv. < 30), wordt verondersteld dat de verschillen normaal verdeeld zijn [17](#page=17).
* Als $n$ groot is ($\ge 30$), kan de centrale limietstelling worden toegepast.
3. **Bepaal het kritieke punt of de p-waarde:**
* Afhankelijk van het significantieniveau (s.n.) en de richting van de alternatieve hypothese, wordt een kritiek punt bepaald [17](#page=17).
* De teststatistiek volgt een t-verdeling met $n-1$ vrijheidsgraden. De formule voor de teststatistiek is [17](#page=17):
$$ \frac{\bar{X} - \mu_0}{S^2/n} $$
waarbij $\bar{X}$ het gemiddelde verschil is, $\mu_0$ de gemiddelde waarde onder de nulhypothese, $S^2$ de variantie van de verschillen, en $n$ het aantal paren [18](#page=18).
4. **Bereken de teststatistiek:**
* Gebruik de gegevens uit de steekproef om de gemiddelde en de variantie van de verschillen te berekenen [18](#page=18).
* Vul deze waarden in de formule voor de teststatistiek [18](#page=18).
5. **Trek een conclusie:**
* Vergelijk de berekende teststatistiek met het kritieke punt. Als de teststatistiek buiten het acceptatiegebied valt, wordt $H_0$ verworpen [17](#page=17).
* Of vergelijk de berekende p-waarde met het significantieniveau. Als de p-waarde kleiner is dan het s.n., wordt $H_0$ verworpen [18](#page=18).
* Formuleer de conclusie in de context van het probleem [18](#page=18).
> **Voorbeeld:** Bij een studie naar het effect van yoga op ademhalingscapaciteit werden 10 studenten gevolgd. De verschillen in capaciteit voor en na yoga werden berekend. De gemiddelde verschil was 62 met een variantie van 4017.78. Met $H_0: \mu_{yoga-geenYoga} \le 0$ en $H_A: \mu_{yoga-geenYoga} > 0$ (s.n. 5%), werd de teststatistiek berekend als $\frac{62-0}{\sqrt{4017.78/10}} \approx 3.0931$. Het kritieke punt voor een t-verdeling met 9 vrijheidsgraden bij 5% is 1.833. Aangezien $3.0931 > 1.833$, wordt $H_0$ verworpen, wat suggereert dat yoga de ademhalingscapaciteit verbetert [16-18](#page=16,17,18).
#### 3.1.2 Hypothesetoets bij gekoppelde metingen in R
Software zoals R kan gebruikt worden om hypothesetoetsen bij gekoppelde metingen uit te voeren. Dit automatiseert de berekeningen en maakt de analyse efficiënter. Bij tweelingen kan men bijvoorbeeld het gewicht van jongens en meisjes vergelijken, waarbij de paren bestaan uit een jongen en een meisje uit dezelfde tweeling [19](#page=19) [20](#page=20).
> **Voorbeeld:** Bij een analyse van het lichaamsgewicht van 61 tweelingen (jongen-meisje), werd de nulhypothese $H_0: \mu_{jongen-meisje} = 0$ getoetst. De steekproef was groot ($n=61 \ge 30$). De berekende waarde van de teststatistiek was -3.9394. De p-waarde voor de tweezijdige test ($H_A: \mu \ne 0$) was 0.0002156. Aangezien deze p-waarde significant lager is dan 5% s.n., wordt $H_0$ verworpen en concludeert men dat er een significant verschil is in gewicht tussen jongens en meisjes [21](#page=21).
### 3.2 Onafhankelijke metingen
Bij onafhankelijke metingen worden de steekproeven uit twee verschillende populaties getrokken, waarbij er geen verband is tussen de individuele observaties in de ene steekproef en de andere. Het doel is hier om de gemiddelden van deze twee onafhankelijke populaties te vergelijken [22](#page=22).
#### 3.2.1 De aanpak bij onafhankelijke metingen
De analyse bij onafhankelijke metingen is complexer dan bij gekoppelde metingen, omdat rekening moet worden gehouden met de varianties van beide populaties.
**Voorwaarden en teststatistiek:**
* **Grote steekproeven:** Als beide steekproefgroottes ($n_1$ en $n_2$) groot zijn ($\ge 30$), of als één van beide klein is maar de populaties normaal verdeeld zijn, volgt de teststatistiek een t-verdeling [24](#page=24).
* **Variantie gelijkheid:** Het aantal vrijheidsgraden van de t-verdeling hangt af van de vraag of de populatievarianties gelijk worden verondersteld of niet [24](#page=24).
* Wanneer de populatievarianties gelijk zijn (homoscedasticiteit), wordt de formule voor de teststatistiek als volgt:
$$ t = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)_0}{\sqrt{S_p^2 \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} $$
met gepoolde variantie $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}$ en $n_1+n_2-2$ vrijheidsgraden.
* Wanneer de populatievarianties ongelijk zijn (heteroscedasticiteit, Welch's t-test), is de formule complexer en wordt het aantal vrijheidsgraden benaderd.
#### 3.2.2 Werkwijze voor hypothesetoets met onafhankelijke metingen
Vanwege de complexiteit van het berekenen van het aantal vrijheidsgraden, wordt de hypothesetoets bij onafhankelijke metingen vaak uitgevoerd met statistische software [25](#page=25).
**Stappenplan:**
a. **Stel de hypothese op:** Zoals bij gekoppelde metingen, definieer de nul- en alternatieve hypothesen over de populatiegemiddelden, bv. $H_0: \mu_{yoga} - \mu_{geenYoga} \le 0$ versus $H_A: \mu_{yoga} - \mu_{geenYoga} > 0$ (#page=25,28) [25](#page=25) [28](#page=28).
b. **Check de assumpties:** Veronderstel normaliteit van de populaties als de steekproeven klein zijn, of controleer de steekproeven op normaliteit [28](#page=28).
c. **Test of de varianties gelijk zijn:** Voer een variantietest uit (bv. F-test) om te bepalen of de populatievarianties gelijk zijn. De p-waarde van deze test bepaalt welke t-test (met gelijke of ongelijke varianties) gebruikt moet worden [29](#page=29).
* Als de p-waarde van de variantietest groter is dan het s.n., wordt $H_0$ (varianties zijn gelijk) niet verworpen en veronderstelt men gelijke varianties [29](#page=29).
d. **Test de hypothese over de gemiddelden:** Voer de t-toets uit, rekening houdend met het resultaat van de variantietest (gelijke of ongelijke varianties). De p-waarde van deze test wordt vergeleken met het significantieniveau [30](#page=30).
> **Voorbeeld:** In een studie naar het effect van yoga op ademhalingscapaciteit bij twee groepen studenten (yoga vs. geen yoga), met $n_1 = 10$ en $n_2 = 10$, werd eerst getest of de varianties gelijk waren. De p-waarde van de variantietest was 0.7257, wat > 0.05 is. Men veronderstelde dus gelijke varianties. Vervolgens werd de hypothese over de gemiddelden getoetst met $H_0: \mu_{yoga} - \mu_{geenYoga} \le 0$ en $H_A: \mu_{yoga} - \mu_{geenYoga} > 0$. De p-waarde was 0.2941. Aangezien dit groter is dan 5% s.n., wordt $H_0$ niet verworpen. De conclusie is dat studenten die yoga beoefenen geen hogere ademhalingscapaciteit hebben vergeleken met studenten die geen yoga beoefenen [29](#page=29) [30](#page=30).
### 3.3 Hypothesetoetsen voor twee gemiddelden in R
Statistische softwarepakketten zoals R bieden functies om deze hypothesetoetsen efficiënt uit te voeren, zowel voor gekoppelde als onafhankelijke metingen (#page=19,26,27). Dit omvat het selecteren van de juiste toets (bv. `t.test()` met de `paired=TRUE` optie voor gekoppelde metingen, of de standaard t-test voor onafhankelijke metingen waarbij R automatisch de vrijheidsgraden aanpast bij ongelijke varianties) en het interpreteren van de output, inclusief de p-waarde (#page=19,21,26,27,29,30) [19](#page=19) [21](#page=21) [26](#page=26) [27](#page=27) [29](#page=29) [30](#page=30).
---
# Hypothesetoetsen voor twee proporties
Dit deel van de stof behandelt de procedures voor het toetsen van hypothesen met betrekking tot proporties in twee onafhankelijke populaties, inclusief de benodigde berekeningen en voorwaarden [31](#page=31).
### 4.1 Procedures en formulering van hypothesen
Hypothesetoetsen voor twee proporties worden gebruikt om te bepalen of er een significant verschil bestaat tussen de proporties van een bepaalde uitkomst in twee onafhankelijke populaties. De nulhypothese ($H_0$) stelt typisch dat er geen verschil is, of dat de proportie in de ene populatie kleiner of gelijk is aan die in de andere. De alternatieve hypothese ($H_A$) stelt daarentegen dat er wel een verschil is, of dat de proportie in de ene populatie groter is dan in de andere [32](#page=32) [39](#page=39).
#### 4.1.1 Voorbeeld: effectiviteit van een nieuwe behandeling
Een veelvoorkomend scenario is het vergelijken van de effectiviteit van een nieuwe behandeling met een klassieke behandeling. Bijvoorbeeld, men kan vermoeden dat een nieuwe behandeling voor de ziekte van Alzheimer de tijd tot progressie verlengt [32](#page=32) [39](#page=39).
* **Hypothesen:**
* $H_0: \pi_{klassiek} \le \pi_{nieuw}$ of equivalent $H_0: \pi_{klassiek} - \pi_{nieuw} \le 0$. Dit stelt dat de klassieke behandeling niet slechter is dan de nieuwe qua effectiviteit (langere tijd tot progressie) [32](#page=32) [39](#page=39).
* $H_A: \pi_{klassiek} > \pi_{nieuw}$ of equivalent $H_A: \pi_{klassiek} - \pi_{nieuw} > 0$. Dit stelt dat de klassieke behandeling slechter is dan de nieuwe, oftewel de nieuwe behandeling verlengt de tijd tot progressie [32](#page=32) [39](#page=39).
### 4.2 De toetsingsgrootheid en voorwaarden
Om de nulhypothese te toetsen, wordt een toetsingsgrootheid gebruikt. Wanneer de nulhypothese waar is en aan bepaalde voorwaarden is voldaan, volgt deze toetsingsgrootheid een standaard normale verdeling ($N(0,1)$) [33](#page=33).
#### 4.2.1 Voorwaarden voor de normale verdeling
De belangrijkste voorwaarde is dat het product van het aantal waarnemingen en de proportie succes (en falen) in beide groepen voldoende groot is. Specifiek, de volgende voorwaarden moeten gelden:
* $\min(n_1, n_2) \times \bar{p} \ge 5$ [33](#page=33).
* $\min(n_1, n_2) \times (1 - \bar{p}) \ge 5$ [33](#page=33).
Hierbij geldt:
* $n_1$ en $n_2$ zijn de steekproefgroottes van de twee groepen [33](#page=33).
* $\bar{p}_1$ en $\bar{p}_2$ zijn de steekproefproporties in de respectievelijke groepen [33](#page=33).
* $\bar{p}$ is de gepoolde proportie, die wordt berekend als het totale aantal successen gedeeld door het totale aantal waarnemingen [33](#page=33):
$$ \bar{p} = \frac{n_1 \bar{p}_1 + n_2 \bar{p}_2}{n_1 + n_2} = \frac{\text{# successen in totaal}}{n_1 + n_2} $$
#### 4.2.2 Formule van de toetsingsgrootheid
Wanneer aan de voorwaarden is voldaan, wordt de toetsingsgrootheid als volgt berekend:
$$ Z = \frac{\bar{p}_2 - \bar{p}_1}{\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} $$
Hierbij wordt de teller gevormd door het verschil tussen de steekproefproporties, en de noemer is de standaardfout van dit verschil, berekend onder aanname van de gepoolde proportie [33](#page=33).
> **Tip:** Zorg ervoor dat je de gepoolde proportie correct berekent voordat je de standaardfout en de toetsingsgrootheid berekent. De gepoolde proportie is essentieel voor de berekening onder de nulhypothese.
### 4.3 Beslissingsregel en interpretatie
De beslissing om de nulhypothese te verwerpen of niet, hangt af van de berekende toetsingsgrootheid en het gekozen significantieniveau (vaak 5%).
#### 4.3.1 Kritieke waarden en p-waarde
Voor een eenzijdige toets, zoals bij het testen of een nieuwe behandeling beter is, wordt de nulhypothese verworpen als de berekende toetsingsgrootheid groter is dan de kritieke waarde die correspondeert met het gekozen significantieniveau. Bij een significantieniveau van 5% is deze kritieke waarde voor een standaard normale verdeling $Z_{\alpha} = 1.645$ [34](#page=34).
Alternatief kan de p-waarde worden berekend. De p-waarde is de kans op het observeren van een toetsingsgrootheid die minstens zo extreem is als de berekende waarde, aannemende dat de nulhypothese waar is [35](#page=35).
* Als $p\text{-waarde} < \alpha$ (significantieniveau), dan wordt $H_0$ verworpen.
* Als $p\text{-waarde} \ge \alpha$, dan wordt $H_0$ niet verworpen.
#### 4.3.2 Interpretatie van het resultaat
De conclusie moet altijd in de context van de onderzoeksvraag worden geformuleerd [35](#page=35).
* **Voorbeeld interpretatie:** Als de nulhypothese niet wordt verworpen, betekent dit dat er op het gekozen significantieniveau geen statistisch significant bewijs is om aan te nemen dat de nieuwe behandeling beter is dan de klassieke behandeling. De proportie van patiënten die een volgend stadium bereiken binnen 12 maanden is niet significant kleiner bij de nieuwe behandeling [35](#page=35).
### 4.4 Gebruik van software (R)
Hypothesetoetsen voor twee proporties kunnen efficiënt worden uitgevoerd met statistische software zoals R. Deze software kan de berekeningen van de toetsingsgrootheid en de p-waarde automatiseren, wat de kans op rekenfouten vermindert en de analyse versnelt [36](#page=36) [37](#page=37) [38](#page=38).
> **Tip:** Leer de basiscommando's in R voor het uitvoeren van proportietests. Dit is een waardevolle vaardigheid voor de praktijk en kan je veel tijd besparen tijdens tentamens en bij het analyseren van data.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Hypothesetoets | Een statistische procedure om te bepalen of er voldoende bewijs is in een steekproef om een nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Nulhypothese ($H_0$) | Een stelling over de populatie die we proberen te weerleggen. Het is de status quo of de aanname van geen effect of verschil. |
| Alternatieve hypothese ($H_A$) | Een stelling die het tegenovergestelde beweert van de nulhypothese. Het vertegenwoordigt wat we proberen te bewijzen. |
| Populatiegemiddelde ($\mu$) | Het rekenkundig gemiddelde van een variabele over de gehele populatie die wordt bestudeerd. |
| Populatieproportie ($\pi$) | Het deel van de populatie dat een bepaalde eigenschap bezit of zich in een bepaalde categorie bevindt. |
| Gekoppelde metingen | Gegevens verzameld uit dezelfde eenheden onder verschillende omstandigheden, of uit gekoppelde eenheden (bv. tweelingen), waardoor een verband ontstaat tussen de metingen. |
| Onafhankelijke metingen | Gegevens verzameld uit verschillende en niet-gerelateerde eenheden, waarbij de metingen in de ene groep geen invloed hebben op de metingen in de andere groep. |
| T-verdeling ($t$-verdeling) | Een continue kansverdeling die veel wordt gebruikt bij het testen van hypothesen over gemiddelden, vooral wanneer de steekproefgrootte klein is en de populatievariantie onbekend is. |
| Vrijheidsgraden | Het aantal waarden in de uiteindelijke berekening van een statistiek dat vrij kan variëren. Dit is een parameter van de t-verdeling. |
| Significantieniveau (s.n.) | Het maximale risico dat men bereid is te nemen om de nulhypothese onterecht te verwerpen (ook wel Type I fout genoemd). Vaak ingesteld op 0.05 of 5%. |
| Kritisch punt | De grenswaarde in de steekproefverdeling van de toetsingsgrootheid, waaronder of daarboven de nulhypothese wordt verworpen. |
| Steekproefgemiddelde ($\bar{x}$) | Het rekenkundig gemiddelde van de waarden in een steekproef. |
| Standaarddeviatie ($s$) | Een maat voor de spreiding van gegevens rond het gemiddelde in een steekproef. |
| Gestandaardiseerde teststatistiek | Een toetsingsgrootheid die is omgezet naar een standaardverdeling (bv. N(0,1) of t(df)) om vergelijking en besluitvorming te vergemakkelijken. |
| P-waarde | De kans om een toetsingsgrootheid te observeren die minstens zo extreem is als de waargenomen waarde, ervan uitgaande dat de nulhypothese waar is. |
| Gepoolde proportie ($\bar{p}$) | Een gewogen gemiddelde van twee steekproefproporties, gebruikt bij het toetsen van hypothesen over proporties wanneer de nulhypothese stelt dat de populatieproporties gelijk zijn. |
| Z-verdeling (standaard normaalverdeling) | Een continue kansverdeling met een gemiddelde van 0 en een standaarddeviatie van 1, vaak gebruikt bij het toetsen van hypothesen over proporties of gemiddelden wanneer de steekproefgrootte groot is. |