Cover
ابدأ الآن مجانًا STA3set3Hfst08InferentieOverProporties.pptx
Summary
# Inferentie voor een enkele proportie
Dit onderdeel van de cursus behandelt statistische methoden om conclusies te trekken over een enkele populatieproportie op basis van steekproefgegevens, inclusief het construeren van betrouwbaarheidsintervallen en het uitvoeren van significantietoetsen.
## 1. Steekproevenverdeling van een steekproefproportie
Beschouw een populatie met een onbekende proportie successen, aangeduid met $p$ (of $\pi$). Wanneer we een eenvoudige willekeurige steekproef (EAS) van omvang $n$ trekken uit deze populatie, is de steekproefproportie $\hat{p}$ gedefinieerd als $\hat{p} = \frac{X}{n}$, waarbij $X$ het aantal successen in de steekproef is.
De standaardfout van de steekproefproportie wordt gegeven door:
$$ SE(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} $$
Wanneer de steekproefgrootte groot genoeg is, benadert de steekproevenverdeling van $\hat{p}$ een normale verdeling.
### 1.1 Betrouwbaarheidsinterval voor een proportie in een grote steekproef
Een benaderd betrouwbaarheidsinterval (BI) voor de populatieproportie $p$ in een grote steekproef wordt geconstrueerd met de volgende formule:
$$ \text{BI} = \text{Statistiek} \pm \text{Foutmarge} = \hat{p} \pm (z^{\ast} \times SE(\hat{p})) $$
Hierbij is $\hat{p}$ de steekproefproportie, $z^{\ast}$ de kritieke waarde uit de standaardnormaalverdeling die overeenkomt met het gewenste betrouwbaarheidsniveau, en $SE(\hat{p})$ de standaardfout van de steekproefproportie. Voor grote steekproeven ($n$ groot) en met de aanname dat $X$ en $n-X$ beide groter zijn dan of gelijk aan 15, en een betrouwbaarheidsniveau van ten minste 90%, kan de standaardfout worden benaderd met $SE(\hat{p}) \approx \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$.
**Voorbeeld:**
Iemand beweert dat 50% van de mensen op hun rechter zijde in slaap vallen. In een toevallige steekproef van 251 mensen zijn er 107 die op hun rechter zij inslapen. Bereken en interpreteer een 90% betrouwbaarheidsinterval voor de proportie mensen die inslapen op hun rechter zijde.
De steekproefproportie is $\hat{p} = \frac{107}{251} \approx 0.426$. Voor een 90% betrouwbaarheidsniveau is de kritieke waarde $z^{\ast} = 1.645$. De standaardfout is ongeveer $\sqrt{\frac{0.426(1-0.426)}{251}} \approx \sqrt{\frac{0.244}{251}} \approx 0.031$.
Het 90% betrouwbaarheidsinterval is dan:
$0.426 \pm (1.645 \times 0.031) \approx 0.426 \pm 0.051$, wat resulteert in het interval $[0.375, 0.477]$.
**Interpretatie:** We zijn 90% zeker dat het interval $[0.375, 0.477]$ de ware proportie mensen die inslapen op hun rechter zijde bevat. Aangezien dit interval aangeeft welke waarden voor $p$ plausibel zijn, en 0.5 niet tot het interval behoort, hebben we redenen om te twijfelen aan de stelling dat 50% van de mensen op hun rechter zijde inslaapt.
> **Tip:** Betrouwbaarheidsintervallen die worden berekend met de standaardformule kunnen onnauwkeurig zijn, vooral voor kleine steekproeven. Het feitelijke betrouwbaarheidsniveau kan lager zijn dan verwacht.
#### 1.1.1 Het plus-vier betrouwbaarheidsinterval
Een verbeterde nauwkeurigheid voor het betrouwbaarheidsinterval wordt verkregen door vier denkbeeldige observaties toe te voegen aan de steekproef: twee successen en twee mislukkingen. Dit wordt de "plus-vier" schatting genoemd.
De plus-vier schatting van $p$ is:
$$ \tilde{p} = \frac{X+2}{n+4} $$
Het plus-vier benaderde betrouwbaarheidsinterval voor een proportie is:
$$ \tilde{p} \pm z^{\ast} \sqrt{\frac{\tilde{p}(1-\tilde{p})}{n+4}} $$
Dit interval wordt over het algemeen als nauwkeuriger beschouwd, met name voor kleinere steekproeven.
### 1.2 Significantietoets voor een populatieproportie op basis van een grote steekproef
Een significantietoets voor een populatieproportie $p$ is bedoeld om te beoordelen of de beschikbare gegevens voldoende bewijs leveren om een nulhypothese ($H_0$) over de populatieproportie te verwerpen ten gunste van een alternatieve hypothese ($H_a$).
De z-statistiek voor het toetsen van de nulhypothese $H_0: p = p_0$ is gedefinieerd als:
$$ z = \frac{\hat{p} - p_0}{SE(\hat{p})} = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} $$
Hierbij is $\hat{p}$ de steekproefproportie, $p_0$ de proportie onder de nulhypothese, en $n$ de steekproefomvang. De z-statistiek is bij benadering standaard normaal verdeeld indien de nulhypothese waar is. De p-waarden worden bepaald met behulp van de standaardnormaalverdeling. Dit staat bekend als de z-test voor een proportie.
**Vereisten voor de z-test voor een proportie:**
Deze test mag alleen worden gebruikt indien:
1. De gegevens afkomstig zijn van een eenvoudige willekeurige steekproef (EAS).
2. Het aantal successen ($n p_0$) en het aantal mislukkingen ($n(1-p_0)$) ten minste 10 bedragen.
3. De populatieomvang minstens 10 keer groter is dan de steekproefomvang ($N \ge 10n$).
**Het bepalen van de p-waarde:**
De p-waarde is de kans om een steekproefstatistiek te observeren die minstens zo extreem is als de waargenomen steekproefstatistiek, gegeven dat de nulhypothese waar is. De richting van de extremiteit wordt bepaald door de alternatieve hypothese ($H_a$).
**Voorbeeld:**
Een producent van chips ontvangt een lading aardappelen. Het leveringscontract stelt dat als meer dan 8% van de aardappelen beschadigd zijn, de lading mag worden teruggestuurd. Een staal van 500 aardappelen wordt onderzocht en 47 vertonen beschadigingen. Voer een significantietoets uit met $\alpha = 0.10$ om na te gaan of deze lading moet worden teruggezonden.
* **Hypothesen:**
$H_0: p = 0.08$ (het percentage beschadigde aardappelen is 8% of minder)
$H_a: p > 0.08$ (het percentage beschadigde aardappelen is groter dan 8%)
Hierbij is $p$ de ware proportie beschadigde aardappelen.
* **Veronderstellingen controleren:**
* **Random:** De data komen van een steekproef van 500 aardappelen.
* **Normaal:** Verwachte aantal beschadigde aardappelen: $n p_0 = 500(0.08) = 40$. Verwacht aantal onbeschadigde aardappelen: $n(1-p_0) = 500(1-0.08) = 500(0.92) = 460$. Beide aantallen zijn groter dan 10, dus de normale benadering is toepasbaar.
* **Berekening z-statistiek:**
De steekproefproportie is $\hat{p} = \frac{47}{500} = 0.094$.
$$ z = \frac{0.094 - 0.08}{\sqrt{\frac{0.08(1-0.08)}{500}}} = \frac{0.014}{\sqrt{\frac{0.0736}{500}}} = \frac{0.014}{\sqrt{0.0001472}} \approx \frac{0.014}{0.01213} \approx 1.15 $$
* **P-waarde:**
De p-waarde is de kans op een z-waarde groter dan of gelijk aan 1.15, gegeven $H_0$.
$P(Z \ge 1.15) = 1 - P(Z < 1.15) = 1 - 0.8749 = 0.1251$.
* **Beslissing:**
Aangezien de p-waarde ($0.1251$) groter is dan het gekozen significantieniveau $\alpha = 0.10$, kunnen we de nulhypothese $H_0$ niet verwerpen. Er is onvoldoende bewijs om aan te nemen dat de lading meer dan de toegelaten 8% beschadigde aardappelen bevat.
### 1.3 Bepalen van de benodigde steekproefgrootte
Bij het plannen van een studie kan de steekproefgrootte $n$ zo worden gekozen dat een populatieproportie kan worden geschat met een specifieke gewenste foutmarge $m$ op een bepaald betrouwbaarheidsniveau.
De formule voor de foutmarge is $m = z^{\ast} \times SE(\hat{p})$. Door $SE(\hat{p})$ te benaderen met $\sqrt{\frac{p(1-p)}{n}}$ en te eisen dat $m$ niet groter is dan de gewenste foutmarge, kunnen we $n$ oplossen. Om dit te doen, gebruiken we vaak een conservatieve schatting voor $p$, zoals $p=0.5$, aangezien dit de maximale standaardfout oplevert en dus de grootste benodigde steekproefgrootte garandeert.
$$ m \ge z^{\ast} \sqrt{\frac{p(1-p)}{n}} $$
$$ m^2 \ge (z^{\ast})^2 \frac{p(1-p)}{n} $$
$$ n \ge \frac{(z^{\ast})^2 p(1-p)}{m^2} $$
**Voorbeeld:**
Stel dat je wilt schatten hoeveel kiezers gaan stemmen voor een bepaalde kandidaat. Bepaal de steekproefgrootte die nodig is om $p$ te schatten met een marge van $0.03$ met 95% betrouwbaarheid.
Voor een 95% betrouwbaarheidsniveau is de kritieke waarde $z^{\ast} = 1.96$. Gebruikmakend van de conservatieve schatting $p=0.5$:
$$ n \ge \frac{(1.96)^2 \times 0.5 \times (1-0.5)}{(0.03)^2} = \frac{3.8416 \times 0.25}{0.0009} = \frac{0.9604}{0.0009} \approx 1067.11 $$
We ronden altijd naar boven af om de gewenste marge te garanderen. Er zijn dus 1068 respondenten nodig.
> **Tip:** Als er enige voorkennis is over de te verwachten proportie $p$, kan een meer specifieke schatting van $p$ worden gebruikt om de benodigde steekproefgrootte te verkleinen. Echter, bij gebrek aan dergelijke voorkennis is $p=0.5$ de veiligste keuze.
---
# Inferentie voor twee proporties
Dit hoofdstuk gaat over methoden om proporties uit twee verschillende populaties of groepen te vergelijken, met behulp van betrouwbaarheidsintervallen en significantietoetsen.
### 2.1 Inferentie voor een enkele proportie
Voordat we twee proporties vergelijken, wordt kort de inferentie voor een enkele proportie herhaald. Dit omvat het berekenen van betrouwbaarheidsintervallen en het uitvoeren van significantietoetsen voor een enkele populatieproportie $p$.
#### 2.1.1 Steekproevenverdeling van een steekproefproportie
Een steekproefproportie, genoteerd als $\hat{p}$, wordt berekend als het aantal successen ($X$) gedeeld door de steekproefgrootte ($n$):
$$ \hat{p} = \frac{X}{n} $$
De standaardfout van de steekproefproportie is:
$$ SE(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} $$
Voor grote steekproeven wordt een benaderd betrouwbaarheidsinterval berekend als:
$$ \text{BI} = \hat{p} \pm z^{\ast} \times SE(\hat{p}) $$
Hierbij is $z^{\ast}$ de kritieke waarde uit de standaardnormaalverdeling voor het gewenste betrouwbaarheidsniveau. Er geldt de vuistregel dat zowel het aantal successen ($X$) als het aantal mislukkingen ($n-X$) minstens 15 moet zijn en het betrouwbaarheidsniveau minstens 90% om deze benadering te gebruiken.
> **Tip:** Voor betrouwbaarheidsintervallen van proporties, vooral bij kleine steekproeven of wanneer $X$ of $n-X$ dicht bij 0 of $n$ liggen, kan de nauwkeurigheid verbeterd worden door de "plus-vier" methode te gebruiken. Hierbij worden 2 successen en 2 mislukkingen aan de data toegevoegd alvorens het interval te berekenen.
#### 2.1.2 Significantietoets voor een populatieproportie
Bij een significantietoets voor een populatieproportie wordt een nulhypothese $H_0: p = p_0$ getoetst tegen een alternatieve hypothese $H_a$. De toetsingsgrootheid is een z-score:
$$ z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} $$
Deze $z$-statistiek is bij benadering standaard normaal verdeeld indien de nulhypothese waar is. De p-waarde wordt bepaald uit de standaardnormaalverdeling, afhankelijk van de richting van de alternatieve hypothese.
> **Belangrijk:** Deze toets is betrouwbaar indien zowel het aantal successen als het aantal mislukkingen minstens 10 bedraagt, en de populatie minstens 10 keer zo groot is als de steekproefgrootte ($N \ge 10n$).
#### 2.1.3 Nodige steekproefgrootte bepalen
Om een populatieproportie te schatten met een specifieke foutmarge $m$ en betrouwbaarheidsniveau, kan de benodigde steekproefgrootte $n$ worden berekend met de formule:
$$ n = \frac{(z^{\ast})^2 p^{\ast}(1-p^{\ast})}{m^2} $$
Hierbij is $z^{\ast}$ de kritieke waarde voor het betrouwbaarheidsniveau en $p^{\ast}$ is een conservatieve schatting van de proportie (vaak 0.5 als er geen voorkennis is). Het resultaat van $n$ wordt altijd naar boven afgerond.
### 2.2 Twee proporties vergelijken
Het vergelijken van proporties uit twee verschillende populaties of groepen is cruciaal om te bepalen of een bepaald kenmerk relatief vaker voorkomt in de ene groep dan in de andere. Dit wordt gedaan door de populatieproporties $p_1$ en $p_2$ te vergelijken. De standaardmethode is om een onafhankelijke, toevallige steekproef uit elke populatie te trekken en de steekproefproporties $\hat{p}_1$ en $\hat{p}_2$ te vergelijken.
#### 2.2.1 Betrouwbaarheidsintervallen voor het verschil tussen twee proporties
Een betrouwbaarheidsinterval voor het verschil tussen twee proporties, $p_1 - p_2$, geeft een reeks plausibele waarden voor dit verschil. Voor grote steekproeven wordt dit interval berekend als:
$$ (\hat{p}_1 - \hat{p}_2) \pm z^{\ast} \times SE(\hat{p}_1 - \hat{p}_2) $$
De standaardfout van het verschil tussen twee steekproefproporties is:
$$ SE(\hat{p}_1 - \hat{p}_2) = \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} $$
Hierbij zijn $n_1$ en $n_2$ de groottes van de respectievelijke steekproeven.
> **Voorbeeld:** Stel we onderzoeken het gebruik van sociale media bij tieners ($p_1$) en volwassenen ($p_2$) in de VS. Uit een steekproef van 800 tieners blijkt dat 73% sociale media gebruikt ($\hat{p}_1 = 0.73$), en uit een steekproef van 2253 volwassenen gebruikt 47% sociale media ($\hat{p}_2 = 0.47$). Een 95% betrouwbaarheidsinterval voor het verschil $p_1 - p_2$ wordt berekend. De geschatte standaardfout is $\sqrt{\frac{0.73(1-0.73)}{800} + \frac{0.47(1-0.47)}{2253}} \approx 0.0193$. Met $z^{\ast} = 1.96$ voor 95% betrouwbaarheid, is de foutmarge $1.96 \times 0.0193 \approx 0.0378$. Het 95% betrouwbaarheidsinterval is dan $(0.73 - 0.47) \pm 0.0378$, wat resulteert in $[0.26 - 0.0378, 0.26 + 0.0378] = [0.2222, 0.2978]$. We kunnen met 95% betrouwbaarheid stellen dat de proportie tieners die sociale media gebruikt tussen 22.22% en 29.78% hoger ligt dan bij volwassenen.
> **Tip:** Net als bij één proportie, kunnen "plus-vier" aanpassingen worden gedaan voor meer nauwkeurige betrouwbaarheidsintervallen bij vergelijking van twee proporties.
#### 2.2.2 Significantietoets voor het vergelijken van proporties
Bij een significantietoets voor twee proporties toetsen we de nulhypothese $H_0: p_1 = p_2$ (of equivalent $p_1 - p_2 = 0$) tegen een alternatieve hypothese, zoals $H_a: p_1 \neq p_2$. Als de nulhypothese waar is, worden de gegevens van beide steekproeven samengevoegd om een gepoolde (gecombineerde) proportie $\hat{p}_{\text{pooled}}$ te schatten:
$$ \hat{p}_{\text{pooled}} = \frac{X_1 + X_2}{n_1 + n_2} $$
De z-toetsingsgrootheid voor het verschil tussen twee proporties, onder de nulhypothese, is:
$$ z = \frac{(\hat{p}_1 - \hat{p}_2) - 0}{\sqrt{\hat{p}_{\text{pooled}}(1-\hat{p}_{\text{pooled}})(\frac{1}{n_1} + \frac{1}{n_2})}} $$
De p-waarde wordt bepaald op basis van de standaardnormaalverdeling.
> **Belangrijk:** Voor deze toets is het noodzakelijk dat de data afkomstig zijn van twee onafhankelijke, toevallige steekproeven. Verder moeten de aantallen successen en mislukkingen in beide groepen minstens 5 zijn (of 10, afhankelijk van de bron en de gewenste nauwkeurigheid).
> **Voorbeeld:** Onderzoekers willen weten of er een verschil is in het aantal kinderen dat zonder ontbijt naar school komt in twee scholen. In school 1 zijn er 19 van de 80 kinderen die niet ontbeten hebben ($\hat{p}_1 = 19/80 = 0.2375$). In school 2 zijn er 26 van de 150 kinderen die niet ontbeten hebben ($\hat{p}_2 = 26/150 \approx 0.1733$). Met een significantieniveau $\alpha = 0.05$.
De nulhypothese is $H_0: p_1 = p_2$ en de alternatieve hypothese is $H_a: p_1 \neq p_2$.
De gepoolde proportie is $\hat{p}_{\text{pooled}} = \frac{19 + 26}{80 + 150} = \frac{45}{230} \approx 0.1957$.
De z-statistiek is:
$$ z = \frac{(0.2375 - 0.1733)}{\sqrt{0.1957(1-0.1957)(\frac{1}{80} + \frac{1}{150})}} \approx \frac{0.0642}{\sqrt{0.1574 \times 0.01883}} \approx \frac{0.0642}{0.0544} \approx 1.18 $$
De p-waarde voor deze $z$-waarde (tweezijdig) is ongeveer 0.2378. Aangezien deze p-waarde groter is dan $\alpha=0.05$, wordt de nulhypothese niet verworpen. Er is onvoldoende bewijs om te concluderen dat er een verschil is in het percentage kinderen dat zonder ontbijt naar school komt tussen beide scholen.
#### 2.2.3 Relatief Risico (RR)
Een andere manier om twee proporties te vergelijken is door het Relatief Risico (RR) te berekenen. Dit is de verhouding tussen de twee proporties: $RR = \frac{p_1}{p_2}$. Een RR van 1 betekent dat de proporties gelijk zijn. Een RR groter dan 1 geeft aan dat de proportie in groep 1 hoger is, en een RR kleiner dan 1 geeft aan dat deze lager is. Het berekenen van betrouwbaarheidsintervallen voor het relatieve risico is complexer en vereist meestal gespecialiseerde software.
> **Voorbeeld:** Een studie naar borstkanker en de leeftijd van de eerste bevalling onderzocht vrouwen die minstens één kind hadden. Het relatieve risico op borstkanker voor vrouwen die hun eerste kind kregen na hun 30e vergeleken met degenen die dit voor hun 30e deden, was 1.45. Dit betekent dat vrouwen die op latere leeftijd hun eerste kind kregen 1.45 keer meer risico liepen op borstkanker. Het 95% betrouwbaarheidsinterval voor dit relatieve risico was [1.34; 1.57]. Aangezien dit interval geen 1 bevat, is het verschil statistisch significant.
---
# Bepalen van de benodigde steekproefgrootte
Oké, hier is de studiegids voor het bepalen van de benodigde steekproefgrootte, gebaseerd op de verstrekte informatie.
## 3. Bepalen van de benodigde steekproefgrootte
Dit onderwerp legt uit hoe de vereiste steekproefgrootte kan worden berekend om een populatieproportie te schatten met een specifieke foutmarge en betrouwbaarheidsniveau.
### 3.1 Inleiding tot steekproefgrootteberekening
Bij het ontwerpen van een studie is het cruciaal om vooraf de benodigde steekproefgrootte te bepalen. Dit stelt onderzoekers in staat om een populatieproportie te schatten met een gewenste precisie, uitgedrukt in een specifieke foutmarge, en met een bepaald betrouwbaarheidsniveau. Het doel is om een voldoende grote steekproef te verkrijgen die representatief is voor de populatie, zonder onnodig grote aantallen respondenten te verzamelen.
### 3.2 Formule voor de benodigde steekproefgrootte
De formule voor het bepalen van de benodigde steekproefgrootte ($n$) voor het schatten van een populatieproportie is afgeleid van de foutmarge van een betrouwbaarheidsinterval. De foutmarge ($m$) wordt gedefinieerd als het product van de kritieke waarde ($z^*$) en de standaardfout van de steekproefproportie.
De relatie wordt uitgedrukt als:
$$m = z^* \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$
Om $n$ te bepalen, kunnen we deze formule herschikken. Een conservatieve schatting van $p$, de populatieproportie, is $0.5$ omdat $\hat{p}(1-\hat{p})$ maximaal is bij $p=0.5$. Dit zorgt voor de grootste benodigde steekproefgrootte en garandeert dat de foutmarge niet groter zal zijn dan gewenst, ongeacht de werkelijke populatieproportie.
De herschikte formule wordt:
$$n = \left( \frac{z^*}{m} \right)^2 \times \hat{p}(1-\hat{p})$$
Voor een conservatieve schatting, wanneer geen voorafgaande data beschikbaar is over de populatieproportie, wordt $\hat{p}$ vaak ingesteld op $0.5$.
#### 3.2.1 Voorbeeld: Benodigde steekproefgrootte bepalen
Stel dat u wilt schatten hoeveel kiezers zullen stemmen op een bepaalde kandidaat. U wilt de populatieproportie ($p$) schatten met een foutmarge ($m$) van $0.03$ en een betrouwbaarheidsniveau van $95\%$.
1. **Kritieke waarde ($z^*$):** Voor een $95\%$ betrouwbaarheidsniveau is de kritieke waarde $z^* = 1.96$.
2. **Conservatieve schatting van $\hat{p}$:** Aangezien er geen voorafgaande gegevens zijn, gebruiken we $\hat{p} = 0.5$.
3. **Berekening van $n$:**
$$n = \left( \frac{1.96}{0.03} \right)^2 \times 0.5(1-0.5)$$
$$n = \left( 65.333 \right)^2 \times 0.25$$
$$n = 4268.57 \times 0.25$$
$$n \approx 1067.14$$
> **Tip:** Omdat een steekproefgrootte altijd een geheel getal moet zijn en we willen garanderen dat de foutmarge niet groter is dan de gewenste waarde, ronden we de berekende steekproefgrootte altijd naar boven af. In dit geval betekent dit dat er 1068 respondenten nodig zijn.
*Conclusie:* Er zijn 1068 respondenten nodig om de proportie stemmers voor de kandidaat te schatten met een foutmarge van $0.03$ met $95\%$ betrouwbaarheid.
### 3.3 Factoren die de steekproefgrootte beïnvloeden
De benodigde steekproefgrootte wordt beïnvloed door twee hoofdfactoren:
* **Betrouwbaarheidsniveau:** Een hoger betrouwbaarheidsniveau vereist een grotere steekproefgrootte. Dit komt doordat een hogere betrouwbaarheid een grotere kritieke waarde ($z^*$) met zich meebrengt, wat de foutmarge vergroot als de steekproefgrootte gelijk blijft.
* **Gewenste foutmarge ($m$):** Een kleinere gewenste foutmarge vereist een grotere steekproefgrootte. Een kleinere foutmarge betekent dat we dichter bij de ware populatieparameter willen komen, wat meer informatie (en dus een grotere steekproef) vereist.
### 3.4 Conservatieve schatting van $\hat{p}$
Wanneer er geen eerdere gegevens beschikbaar zijn om de populatieproportie te schatten, is het gebruikelijk om $\hat{p} = 0.5$ te gebruiken. Dit is de meest conservatieve schatting omdat het product $\hat{p}(1-\hat{p})$ maximaal is bij $\hat{p} = 0.5$. Door deze waarde te gebruiken, garandeert men dat de berekende steekproefgrootte groot genoeg zal zijn om de gewenste foutmarge te behalen, ongeacht de werkelijke proportie in de populatie.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Proportie (fractie) | Een proportie vertegenwoordigt het deel van een populatie of steekproef dat een bepaalde eigenschap bezit. Het wordt uitgedrukt als een getal tussen 0 en 1, of als een percentage. |
| Steekproevenverdeling van een steekproefproportie | Dit is de verdeling van de steekproefproporties die verkregen zouden worden als men herhaaldelijk steekproeven van dezelfde grootte uit dezelfde populatie zou trekken. |
| Betrouwbaarheidsinterval (BI) | Een interval van waarden dat met een bepaalde mate van zekerheid (het betrouwbaarheidsniveau) de ware populatieparameter bevat. |
| Foutmarge | Het deel dat wordt opgeteld bij en afgetrokken van de steekproefstatistiek om het betrouwbaarheidsinterval te construeren. Het vertegenwoordigt de onzekerheid in de schatting. |
| Kritieke waarde | Een waarde uit de steekproevenverdeling die wordt gebruikt om de foutmarge te bepalen. Deze waarde hangt af van het gekozen betrouwbaarheidsniveau. |
| Standaardfout | De standaardafwijking van de steekproevenverdeling van een steekproefstatistiek. Het geeft de typische afwijking aan tussen de steekproefstatistiek en de populatieparameter. |
| Significantietoets | Een statistische procedure om te beoordelen of de waargenomen resultaten in een steekproef significant genoeg zijn om een nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Nulhypothese ($H_0$) | Een stelling over een populatieparameter die wordt aangenomen als waar totdat er voldoende bewijs is om deze te verwerpen. |
| Alternatieve hypothese ($H_a$) | Een stelling die de nulhypothese tegenspreekt. |
| p-waarde | De kans om een steekproefresultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is. |
| Significantieniveau ($\alpha$) | De drempelwaarde die wordt gebruikt om te beslissen of een nulhypothese wordt verworpen. Als de p-waarde kleiner is dan $\alpha$, wordt de nulhypothese verworpen. |
| Plus-Vier schatting | Een methode om een betrouwbaarheidsinterval te construeren door 2 successen en 2 mislukkingen toe te voegen aan de steekproefgegevens, wat leidt tot nauwkeurigere intervallen, vooral bij kleine steekproeven. |
| Relatief Risico (RR) | Een maatstaf die wordt gebruikt om de verhouding van twee proporties te vergelijken. Het geeft aan hoeveel keer groter of kleiner het risico op een bepaalde uitkomst is in de ene groep vergeleken met de andere. |
| Gepoelde (gecombineerde) steekproefproportie | Een gewogen gemiddelde van twee steekproefproporties, gebruikt bij het toetsen van de gelijkheid van twee populatieproporties, waarbij de gewichten gebaseerd zijn op de steekproefgroottes. |