Cover
Empieza ahora gratis WPO+5+S3+proportietoetsen+2526.pdf
Summary
# Binomiale verdeling en steekproefproporties
Dit deel behandelt de binomiale verdeling, de voorwaarden waaraan voldaan moet worden om deze te gebruiken, en de concepten rond steekproevenverdelingen van steekproefproporties.
### 1.1 De binomiale verdeling
Een binomiale situatie ontstaat wanneer een toevalsproces meerdere keren wordt herhaald en we registreren hoe vaak een specifieke uitkomst ("succes") voorkomt. Om van een binomiale situatie te kunnen spreken, moet aan vier voorwaarden worden voldaan [4](#page=4):
* **Binair:** De mogelijke uitkomsten van elke poging zijn beperkt tot twee categorieën: "succes" en "mislukking" [4](#page=4).
* **Onafhankelijk:** Het resultaat van een vorige poging mag het resultaat van volgende pogingen niet beïnvloeden of voorspelbaarder maken [4](#page=4).
* **Aantal pogingen:** Het totale aantal pogingen, aangeduid met $n$, moet vooraf vastliggen [4](#page=4).
* **Succeskans:** De kans op "succes", aangeduid met $p$, moet voor elke poging constant blijven. Dit impliceert dat de bemonstering met teruglegging gebeurt [4](#page=4).
#### 1.1.1 Variabelen en notatie
Bij een binomiale verdeling wordt de populatieproportie van "successen" aangeduid met $p$ of $\pi$. De kans op een mislukking is dan $q = 1 - p$ [5](#page=5).
### 1.2 Steekproevenverdeling van steekproefproporties
Een steekproefproportie, aangeduid met $\hat{p}$, is een schatting van de populatieproportie $p$ gebaseerd op een steekproef. De steekproevenverdeling van $\hat{p}$ beschrijft de verdeling van deze steekproefproporties als we herhaaldelijk steekproeven van grootte $n$ uit de populatie zouden trekken [5](#page=5).
#### 1.2.1 Benadering van de steekproevenverdeling
Voor grote steekproeven kan de steekproevenverdeling van $\hat{p}$ worden benaderd door een normale verdeling. De belangrijkste kenmerken van deze benaderde normale verdeling zijn [5](#page=5):
* **Gemiddelde van de steekproefproporties:** Het gemiddelde van de steekproefproporties, ook wel de verwachte waarde van $\hat{p}$ genoemd, is gelijk aan de populatieproportie $p$. Dit kan worden uitgedrukt als $E(\hat{p}) = p$ [5](#page=5).
* **Standaardfout van de steekproefproportie:** De standaardafwijking van de steekproevenverdeling van $\hat{p}$, ook wel de standaardfout van $\hat{p}$ genoemd, geeft de spreiding van de steekproefproporties rond het populatiegemiddelde weer. Deze wordt berekend met de formule [5](#page=5):
$$SE(\hat{p}) = \sqrt{\frac{pq}{n}}$$
Hierbij is $p$ de populatieproportie van successen, $q = 1-p$ de populatieproportie van mislukkingen, en $n$ de steekproefgrootte [5](#page=5).
De figuur op pagina 5 illustreert de steekproevenverdeling van $\hat{p}$ als een normale curve, waarbij de horizontale as de mogelijke waarden van $\hat{p}$ weergeeft en de verticale as de dichtheid van deze waarden. De curve is gecentreerd rond de populatieproportie $p$ [5](#page=5).
> **Tip:** De normaliteitsbenadering van de binomiale verdeling, en dus ook van de steekproefproporties, is een krachtig hulpmiddel om waarschijnlijkheden te berekenen zonder de volledige binomiale kansformule te hoeven toepassen, mits de steekproefgrootte voldoende groot is. Controleer altijd de voorwaarden voor deze benadering (vaak $np \ge 10$ en $nq \ge 10$).
---
# Eén-steekproef proportietests en betrouwbaarheidsintervallen
Dit onderwerp behandelt het toetsen van hypothesen over proporties in een enkele populatie en het construeren van betrouwbaarheidsintervallen voor deze proporties.
### 2.1 Eén-steekproef proportietest
Een één-steekproef proportietest wordt gebruikt om te bepalen of de proportie van een bepaald kenmerk in een populatie significant verschilt van een vooraf bepaalde waarde [6](#page=6).
#### 2.1.1 Hypotheses
Bij deze tests worden de volgende hypothesen geformuleerd [6](#page=6):
* **Nulhypothese ($H_0$):** $p = p_0$, waarbij $p_0$ de hypothetische populatieproportie is.
* **Alternatieve hypothese ($H_A$):** Dit kan een eenzijdige test zijn ($p < p_0$ of $p > p_0$) of een tweezijdige test ($p \neq p_0$) [6](#page=6).
#### 2.1.2 Teststatistiek
De teststatistiek voor een één-steekproef proportietest wordt berekend met de volgende formule [6](#page=6):
$$z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 q_0}{n}}}$$
Waarbij:
* $\hat{p}$ de steekproefproportie is [6](#page=6).
* $p_0$ de hypothetische populatieproportie onder de nulhypothese is [6](#page=6).
* $q_0 = 1 - p_0$ de hypothetische proportie van "niet-successen" is [6](#page=6).
* $n$ de steekproefgrootte is [6](#page=6).
#### 2.1.3 Voorwaarden voor de test
Om de teststatistiek te mogen gebruiken, moet aan de volgende voorwaarden worden voldaan [6](#page=6) [9](#page=9):
* Het aantal successen in de steekproef ($X$) moet minstens 10 zijn, en het aantal niet-successen ($n-X$) moet ook minstens 10 zijn. Dit geldt zowel voor de steekproef als, bij een hypothesetoets, voor het hypothetische aantal successen en niet-successen onder de nulhypothese [6](#page=6).
* Een alternatieve formulering van deze voorwaarde, met name voor hypothesetoetsen, is dat $n p_0 \geq 10$ en $n q_0 \geq 10$ [6](#page=6).
* Voor betrouwbaarheidsintervallen (BI) geldt de voorwaarde dat $n \hat{p} \geq 10$ en $n \hat{q} \geq 10$, waarbij $\hat{q} = 1 - \hat{p}$ [6](#page=6) [9](#page=9).
> **Tip:** Deze voorwaarden zorgen ervoor dat de steekproevenverdeling van de steekproefproportie voldoende benaderd kan worden door een normaalverdeling, wat cruciaal is voor de geldigheid van de $z$-test [7](#page=7) [8](#page=8).
#### 2.1.4 Illustratief voorbeeld van voorwaarden
Stel een fabrikant beweert dat minstens 80% van hun producten aan de kwaliteitsnorm voldoet ($p_0 = 0.80$). Een controleur wil dit toetsen. Er wordt een steekproef genomen waarin 75% van de producten aan de norm voldoet ($\hat{p} = 0.75$). Om te bepalen hoeveel producten er minimaal in de steekproef moeten zitten zodat de steekproevenverdeling de normaalverdeling benadert, gebruiken we de voorwaarde $n p_0 \geq 10$ en $n q_0 \geq 10$. Met $p_0 = 0.80$ en $q_0 = 0.20$, krijgen we $n \times 0.80 \geq 10$ en $n \times 0.20 \geq 10$. De kleinste $n$ die hieraan voldoet, is 50 producten [8](#page=8).
> **Example:** Als $p_0 = 0.5$ en $n=20$, dan is $n p_0 = 20 \times 0.5 = 10$ en $n q_0 = 20 \times 0.5 = 10$. De voorwaarden zijn dan net voldaan. Als $n=19$, dan zou $n p_0 = 9.5$ zijn, en de voorwaarden niet voldaan zijn [8](#page=8).
### 2.2 Betrouwbaarheidsinterval voor een proportie
Een betrouwbaarheidsinterval (BI) biedt een reeks waarden waarbinnen de ware populatieproportie met een bepaalde mate van zekerheid wordt verwacht te liggen [9](#page=9).
#### 2.2.1 Constructie van het betrouwbaarheidsinterval
Een betrouwbaarheidsinterval voor een populatieproportie wordt geconstrueerd met de volgende formule [9](#page=9):
$$ \hat{p} \pm z^* \cdot \sqrt{\frac{\hat{p} \hat{q}}{n}} $$
Waarbij:
* $\hat{p}$ de steekproefproportie is [9](#page=9).
* $\hat{q} = 1 - \hat{p}$ de steekproefproportie van niet-successen is [9](#page=9).
* $n$ de steekproefgrootte is [9](#page=9).
* $z^*$ de kritieke waarde is die afhangt van het gewenste betrouwbaarheidsniveau (C). Een betrouwbaarheidsniveau van C = 90% (of 0.90) wordt als voorwaarde genoemd [9](#page=9).
#### 2.2.2 Voorwaarden voor het betrouwbaarheidsinterval
Voor het construeren van een betrouwbaarheidsinterval voor een proportie, moeten de volgende voorwaarden voldaan zijn [9](#page=9):
* Het gewenste betrouwbaarheidsniveau (C) moet 90% of hoger zijn.
* Het aantal successen ($X$) in de steekproef moet minstens 10 zijn, en het aantal niet-successen ($n-X$) moet ook minstens 10 zijn [6](#page=6) [9](#page=9).
* Een alternatieve formulering hiervan is dat $n \hat{p} \geq 10$ en $n \hat{q} \geq 10$ [6](#page=6) [9](#page=9).
> **Tip:** Hoe hoger het betrouwbaarheidsniveau, hoe breder het interval, omdat er meer zekerheid vereist is. De kritieke waarde $z^*$ neemt toe met het betrouwbaarheidsniveau.
---
# Twee-steekproeven proportietests en betrouwbaarheidsintervallen
Dit hoofdstuk behandelt de analyse van proporties tussen twee onafhankelijke groepen, inclusief de scenario's met gelijke en ongelijke varianties [12](#page=12).
### 3.1 Vergelijking van proporties tussen twee groepen
De kern van tweek-steekproeven proportietests is het vergelijken van de proportie van een bepaalde uitkomst in twee afzonderlijke, onafhankelijke populaties. Dit kan worden gedaan door middel van hypothesetests en het construeren van betrouwbaarheidsintervallen. De keuze van de juiste test hangt af van de aannames over de varianties van de populaties [12](#page=12).
#### 3.1.1 Aanname van gelijke varianties
Wanneer de nulhypothese ($H_0$) stelt dat de proporties gelijk zijn ($p_1 = p_2$ of $p_1 - p_2 = 0$), kan men theoretisch aannemen dat de varianties gelijk zijn ($s_1 = s_2$). In dit scenario wordt voor de berekening van de steekproefvariantie een gepoolde steekproefproportie gebruikt [12](#page=12).
##### 3.1.1.1 Hypothesetests met gelijke varianties
De nulhypothese ($H_0$) kan geformuleerd worden als $p_1 = p_2$, $p_1 - p_2 = 0$, $p_2 = p_1$ of $p_2 - p_1 = 0$. De alternatieve hypothese ($H_A$) kan eenzijdig zijn ($p_1 > p_2$, $p_1 < p_2$) of tweezijdig ($p_1 \neq p_2$) [13](#page=13).
De voorwaarden voor deze test zijn:
* $n_1 \hat{p} \geq 10$ en $n_1 (1 - \hat{p}) \geq 10$ [13](#page=13).
* $n_2 \hat{p} \geq 10$ en $n_2 (1 - \hat{p}) \geq 10$ [13](#page=13).
De toetsstatistiek voor het verschil tussen twee proporties, met de aanname van gelijke varianties, wordt gegeven door:
$$ z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}} $$
waarbij $\hat{p}$ de gepoolde proportie is, berekend als:
$$ \hat{p} = \frac{X_1 + X_2}{n_1 + n_2} $$
en $X_1, X_2$ de aantallen successen zijn in de respectievelijke steekproeven [13](#page=13).
> **Tip:** Bij de aanname van gelijke varianties wordt geen onderscheid gemaakt tussen gepaarde en ongepaarde steekproeven [13](#page=13).
##### 3.1.1.2 Betrouwbaarheidsinterval met gelijke varianties
Het betrouwbaarheidsinterval voor het verschil tussen twee proporties, met de aanname van gelijke varianties, wordt berekend met de volgende formule:
$$ (\hat{p}_1 - \hat{p}_2) \pm z^{\ast} \sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})} $$
waarbij $z^{\ast}$ de kritieke waarde is die overeenkomt met het gewenste betrouwbaarheidsniveau. De voorwaarden voor de geldigheid van dit interval zijn dezelfde als voor de hypothesetest [15](#page=15):
* $n_1 \hat{p} \geq 10$ en $n_1 (1 - \hat{p}) \geq 10$ [15](#page=15).
* $n_2 \hat{p} \geq 10$ en $n_2 (1 - \hat{p}) \geq 10$ [15](#page=15).
#### 3.1.2 Aanname van ongelijke varianties
Wanneer de aanname van gelijke varianties niet gemaakt kan worden, dient de formule voor de standaardfout van de toetsstatistiek aangepast te worden [12](#page=12).
##### 3.1.2.1 Hypothesetests met ongelijke varianties
Bij ongelijke varianties wordt de nulhypothese ($H_0$) geformuleerd als $p_1 - p_2 = (p_1 - p_2)_0$, waarbij $(p_1 - p_2)_0$ de gespecificeerde waarde van het verschil onder $H_0$ is (meestal nul). De alternatieve hypothese kan eenzijdig ($p_1 - p_2 > (p_1 - p_2)_0$ of $p_1 - p_2 < (p_1 - p_2)_0$) of tweezijdig ($p_1 - p_2 \neq (p_1 - p_2)_0$) zijn [14](#page=14).
De voorwaarden voor deze test zijn:
* $n_1 \hat{p}_1 \geq 10$, $n_1 (1 - \hat{p}_1) \geq 10$, $n_2 \hat{p}_2 \geq 10$, en $n_2 (1 - \hat{p}_2) \geq 10$ [14](#page=14).
* Of $n_1 \hat{p}_1 \geq 5$, $n_1 (1 - \hat{p}_1) \geq 5$, $n_2 \hat{p}_2 \geq 5$, en $n_2 (1 - \hat{p}_2) \geq 5$ [14](#page=14).
De toetsstatistiek voor het verschil tussen twee proporties, met de aanname van ongelijke varianties, wordt gegeven door:
$$ z = \frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)_0}{\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}} $$
Hierbij zijn $\hat{p}_1$ en $\hat{p}_2$ de afzonderlijke steekproefproporties [12](#page=12) [14](#page=14).
> **Tip:** Ook hier wordt geen onderscheid gemaakt tussen gepaarde en ongepaarde steekproeven [14](#page=14).
##### 3.1.2.2 Betrouwbaarheidsinterval met ongelijke varianties
Het betrouwbaarheidsinterval voor het verschil tussen twee proporties, met de aanname van ongelijke varianties, wordt berekend als:
$$ (\hat{p}_1 - \hat{p}_2) \pm z^{\ast} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} $$
waarbij $z^{\ast}$ de kritieke waarde is voor het gewenste betrouwbaarheidsniveau. De voorwaarden voor de geldigheid van dit interval zijn identiek aan die voor de hypothesetest bij ongelijke varianties [15](#page=15):
* $n_1 \hat{p}_1 \geq 10$, $n_1 (1 - \hat{p}_1) \geq 10$, $n_2 \hat{p}_2 \geq 10$, en $n_2 (1 - \hat{p}_2) \geq 10$ [15](#page=15).
* Of $n_1 \hat{p}_1 \geq 5$, $n_1 (1 - \hat{p}_1) \geq 5$, $n_2 \hat{p}_2 \geq 5$, en $n_2 (1 - \hat{p}_2) \geq 5$ [15](#page=15).
> **Voorbeeld:** Voor een 90% betrouwbaarheidsinterval wordt een $z^{\ast}$ waarde van 1.645 gebruikt [15](#page=15).
#### 3.1.3 Algemene overwegingen voor proportietests
Bij het uitvoeren van proportietests is het cruciaal om de juiste aannames te maken met betrekking tot de varianties. Het niet correct toepassen van deze aannames kan leiden tot incorrecte conclusies. De voorwaarden voor de geldigheid van de tests en betrouwbaarheidsintervallen, met name de minimale aantallen waarnemingen, moeten altijd worden gecontroleerd.
> **Tip:** Bij het interpreteren van de resultaten van tweek-steekproeven proportietests, is het belangrijk om de context van de studie en de steekproefgrootte in acht te nemen. Kleine steekproeven kunnen leiden tot minder betrouwbare resultaten.
---
# Oefeningen en toepassingen van proportietests
Deze sectie behandelt de toepassing van statistische methoden, specifiek proportietests, op concrete vraagstukken uit diverse domeinen, inclusief het uitvoeren van significantietests en het opstellen van betrouwbaarheidsintervallen voor proporties.
### 4.1 Oefening 1: Kwaliteitscontrole van aardappelen
Een producent van chips moet bepalen of een lading aardappelen moet worden teruggestuurd op basis van een contractuele eis dat niet meer dan 8% van de aardappelen beschadigd mag zijn [10](#page=10).
* **Probleemstelling:** Test of de proportie beschadigde aardappelen in een partij groter is dan 8%.
* **Gegeven:**
* Acceptatiecriterium: Beschadigde aardappelen ≤ 8%
* Steekproefgrootte: $n = 500$ aardappelen [10](#page=10).
* Aantal beschadigde aardappelen in steekproef: $x = 47$ [10](#page=10).
* Significantieniveau: $\alpha = 1\%$ [10](#page=10).
* **Analyse:**
* De steekproefproportie van beschadigde aardappelen is $\hat{p} = \frac{x}{n} = \frac{47}{500} = 0.094$ [10](#page=10).
* De nulhypothese ($H_0$) stelt dat de ware proportie beschadigde aardappelen gelijk is aan of kleiner is dan 8% ($p \le 0.08$) [10](#page=10).
* De alternatieve hypothese ($H_1$) stelt dat de ware proportie beschadigde aardappelen groter is dan 8% ($p > 0.08$) [10](#page=10).
* Er dient een eenzijdige toets te worden uitgevoerd.
* De toetsingsgrootheid (z-score) kan worden berekend met de formule: $Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$ [10](#page=10).
* Hierbij is $p_0 = 0.08$ de hypothetische proportie onder $H_0$ [10](#page=10).
* **Conclusie:** Op basis van de significantietoets zal worden bepaald of de lading moet worden teruggestuurd.
### 4.2 Oefening 2: Politieke verkiezingsuitslag
Na het tellen van een deel van de stemmen in Leuven wordt de voorlopige uitslag geanalyseerd om de uiteindelijke resultaten te schatten [11](#page=11).
* **Probleemstelling:**
1. Geef een intervalschatting voor het totale aantal stemmen dat de partij van de burgemeester zal behalen, met een betrouwbaarheidsniveau van 95% [11](#page=11).
2. Beargumenteer of de steekproef representatief is [11](#page=11).
* **Gegeven:**
* Totaal aantal stemmen: 35 000 [11](#page=11).
* Getelde stemmen: 2000 [11](#page=11).
* Percentage stemmen voor partij burgemeester (in getelde stemmen): 55% [11](#page=11).
* Betrouwbaarheidsniveau: 95% [11](#page=11).
* **Analyse (gedeelte 1 - intervalschatting):**
* De steekproefproportie voor de partij van de burgemeester is $\hat{p} = 0.55$ [11](#page=11).
* De steekproefgrootte is $n = 2000$ [11](#page=11).
* Het betrouwbaarheidsinterval voor een proportie wordt berekend met: $\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ [11](#page=11).
* Voor een betrouwbaarheidsniveau van 95% is $z_{\alpha/2} = 1.96$ [11](#page=11).
* Het interval voor de proportie stemmen wordt berekend.
* Dit proportie-interval wordt vervolgens vermenigvuldigd met het totale aantal stemmen (35 000) om het interval voor het aantal stemmen te verkrijgen [11](#page=11).
* **Analyse (gedeelte 2 - representativiteit):**
* Representativiteit hangt af van de steekproefmethode (is deze willekeurig en representatief voor de gehele populatie van 35 000 stemmers?) [11](#page=11).
* Het feit dat 2000 van de 35 000 stemmen (ongeveer 5.7%) zijn geteld, kan worden beoordeeld in relatie tot de verwachte variabiliteit en de gewenste precisie van de schatting [11](#page=11).
### 4.3 Oefening 3: Effectiviteit van medicatie tegen migraine
Een neurologieteam onderzoekt de effectiviteit van een nieuwe medicatie tegen migraine door patiënten willekeurig toe te wijzen aan een testgroep of een placebogroep [16](#page=16).
* **Probleemstelling:** Zijn er in verhouding minder mensen met migraine aanvallen in de testgroep dan in de placebogroep? Significantieniveau $\alpha = 5\%$ [16](#page=16).
* **Gegeven:**
* Testgroep: $n_1 = 35$ patiënten [16](#page=16).
* Testgroep met afgenomen aanvallen: $x_1 = 21$ [16](#page=16).
* Placebogroep: $n_2 = 20$ patiënten [16](#page=16).
* Placebogroep met afgenomen aanvallen: $x_2 = 10$ [16](#page=16).
* Significantieniveau: $\alpha = 5\%$ [16](#page=16).
* **Analyse:**
* Dit is een vergelijking van twee proporties uit twee onafhankelijke steekproeven.
* Steekproefproportie testgroep: $\hat{p}_1 = \frac{x_1}{n_1} = \frac{21}{35} = 0.60$ [16](#page=16).
* Steekproefproportie placebogroep: $\hat{p}_2 = \frac{x_2}{n_2} = \frac{10}{20} = 0.50$ [16](#page=16).
* Nulhypothese ($H_0$): De proportie patiënten met afgenomen aanvallen is gelijk in beide groepen ($p_1 = p_2$) [16](#page=16).
* Alternatieve hypothese ($H_1$): De proportie patiënten met afgenomen aanvallen is kleiner in de testgroep dan in de placebogroep ($p_1 < p_2$). Dit is een eenzijdige toets [16](#page=16).
* De gecombineerde proportie $\hat{p}_{pooled}$ wordt berekend om de standaardfout te schatten onder $H_0$: $\hat{p}_{pooled} = \frac{x_1 + x_2}{n_1 + n_2}$ [16](#page=16).
* De toetsingsgrootheid (z-score) voor het verschil tussen twee proporties is: $Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}_{pooled}(1-\hat{p}_{pooled})(\frac{1}{n_1} + \frac{1}{n_2})}}$ [16](#page=16).
* **Conclusie:** De berekende Z-waarde wordt vergeleken met de kritieke waarde voor $\alpha = 5\%$ om te bepalen of het nieuwe medicijn een significant grotere afname van migraineaanvallen veroorzaakt.
### 4.4 Oefening 4: Tevredenheid van werknemers in internationale filialen
Een internationaal bedrijf vergelijkt de tevredenheid van werknemers in België en Spanje. Er wordt onderzocht of het percentage tevreden werknemers lager is in Spanje dan in België [17](#page=17).
* **Probleemstelling:** Zijn er in verhouding minder tevreden werknemers in Spanje dan in België? Significantieniveau $\alpha = 1\%$ [17](#page=17).
* **Gegeven:**
* België: $n_{BE} = 100$ werknemers bevraagd, $x_{BE} = 51$ tevreden [17](#page=17).
* Spanje: $n_{ES} = 60$ werknemers bevraagd, $x_{ES,ontevreden} = 33$. Hieruit volgt dat $x_{ES} = 60 - 33 = 27$ tevreden werknemers [17](#page=17).
* Significantieniveau: $\alpha = 1\%$ [17](#page=17).
* **Analyse:**
* Dit betreft wederom een vergelijking van twee proporties uit twee onafhankelijke steekproeven.
* Steekproefproportie tevredenheid België: $\hat{p}_{BE} = \frac{51}{100} = 0.51$ [17](#page=17).
* Steekproefproportie tevredenheid Spanje: $\hat{p}_{ES} = \frac{27}{60} = 0.45$ [17](#page=17).
* Nulhypothese ($H_0$): De proportie tevreden werknemers is gelijk in beide filialen ($p_{BE} = p_{ES}$) [17](#page=17).
* Alternatieve hypothese ($H_1$): De proportie tevreden werknemers is kleiner in Spanje dan in België ($p_{ES} < p_{BE}$). Dit is een eenzijdige toets [17](#page=17).
* De gecombineerde proportie $\hat{p}_{pooled}$ wordt berekend: $\hat{p}_{pooled} = \frac{x_{BE} + x_{ES}}{n_{BE} + n_{ES}} = \frac{51 + 27}{100 + 60}$ [17](#page=17).
* De toetsingsgrootheid (z-score) voor het verschil tussen twee proporties is: $Z = \frac{\hat{p}_{ES} - \hat{p}_{BE}}{\sqrt{\hat{p}_{pooled}(1-\hat{p}_{pooled})(\frac{1}{n_{BE}} + \frac{1}{n_{ES}})}}$ [17](#page=17).
* **Conclusie:** De resulterende Z-waarde wordt getoetst tegen de kritieke waarde voor $\alpha = 1\%$ om te oordelen of er statistisch significant minder tevreden werknemers zijn in Spanje.
### 4.5 Oefening 5: Effectiviteit van antidepressivum
Een farmaceutisch bedrijf evalueert de effectiviteit van een nieuw antidepressivum ten opzichte van het standaard medicijn, en test een specifieke marketingclaim [18](#page=18).
* **Probleemstelling:**
a) Is het nieuwe medicijn effectiever dan het standaard medicijn? ($\alpha = 5\%$) [18](#page=18).
b) Is er voldoende bewijs voor de claim dat het nieuwe medicijn minstens 15 procentpunten effectiever is? ($\alpha = 5\%$) [18](#page=18).
* **Gegeven:**
* Nieuw medicijn: $n_{nieuw} = 120$ patiënten, $x_{nieuw} = 79$ met significante verbetering [18](#page=18).
* Standaard medicijn: $n_{std} = 110$ patiënten, $x_{std} = 54$ met significante verbetering [18](#page=18).
* Significantieniveau: $\alpha = 5\%$ [18](#page=18).
* **Analyse (deel a):**
* Vergelijking van twee proporties uit twee onafhankelijke groepen.
* Steekproefproportie verbetering nieuw medicijn: $\hat{p}_{nieuw} = \frac{79}{120} \approx 0.6583$ [18](#page=18).
* Steekproefproportie verbetering standaard medicijn: $\hat{p}_{std} = \frac{54}{110} \approx 0.4909$ [18](#page=18).
* Nulhypothese ($H_0$): Het nieuwe medicijn is niet effectiever dan het standaard medicijn ($p_{nieuw} \le p_{std}$) [18](#page=18).
* Alternatieve hypothese ($H_1$): Het nieuwe medicijn is effectiever dan het standaard medicijn ($p_{nieuw} > p_{std}$). Dit is een eenzijdige toets [18](#page=18).
* Berekening van $\hat{p}_{pooled} = \frac{79 + 54}{120 + 110}$ [18](#page=18).
* Toetsingsgrootheid: $Z = \frac{\hat{p}_{nieuw} - \hat{p}_{std}}{\sqrt{\hat{p}_{pooled}(1-\hat{p}_{pooled})(\frac{1}{n_{nieuw}} + \frac{1}{n_{std}})}}$ [18](#page=18).
* **Analyse (deel b):**
* Deze deelvraag onderzoekt een specifiek verschil in proporties.
* Nulhypothese ($H_0$): Het verschil in effectiviteit is kleiner dan 15 procentpunten ($p_{nieuw} - p_{std} \le 0.15$) [18](#page=18).
* Alternatieve hypothese ($H_1$): Het verschil in effectiviteit is minstens 15 procentpunten ($p_{nieuw} - p_{std} > 0.15$). Dit is een eenzijdige toets [18](#page=18).
* De toetsingsgrootheid wordt berekend met: $Z = \frac{(\hat{p}_{nieuw} - \hat{p}_{std}) - (p_{nieuw,0} - p_{std,0})}{\sqrt{\frac{p_{nieuw}(1-p_{nieuw})}{n_{nieuw}} + \frac{p_{std}(1-p_{std})}{n_{std}}}}$. Voor de berekening onder $H_0$ wordt het verschil van 0.15 gebruikt als $(p_{nieuw,0} - p_{std,0})$. Echter, bij het toetsen van een specifiek verschil is het vaak handiger om de standaardfout te schatten met de bekende proporties (indien mogelijk) of de gepoolde schatting, afhankelijk van de precieze statistische methode. Een directere methode is om de toetsingsgrootheid te construeren rond het hypothetische verschil van 0.15:
$Z = \frac{(\hat{p}_{nieuw} - \hat{p}_{std}) - 0.15}{\sqrt{\frac{\hat{p}_{nieuw}(1-\hat{p}_{nieuw})}{n_{nieuw}} + \frac{\hat{p}_{std}(1-\hat{p}_{std})}{n_{std}}}}$. Hierbij worden de eigen steekproefproporties gebruikt voor de schatting van de variantie [18](#page=18).
* **Conclusie:** Beide delen vereisen het vergelijken van de berekende Z-waarden met de kritieke Z-waarde voor $\alpha = 5\%$ om conclusies te trekken over de effectiviteit en de marketingclaim.
> **Tip:** Bij het toetsen van twee proporties is het cruciaal om te bepalen of de steekproeven onafhankelijk zijn en of de toets eenzijdig of tweezijdig is, gebaseerd op de vraagstelling.
> **Tip:** Zorg bij het berekenen van de gecombineerde proportie ($\hat{p}_{pooled}$) dat deze alleen wordt gebruikt wanneer de nulhypothese stelt dat de proporties gelijk zijn. Bij het toetsen van een specifiek verschil (zoals 15 procentpunten) worden de individuele steekproefproporties vaak gebruikt om de variantie te schatten voor een nauwkeurigere toetsing.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Binomiale verdeling | Een kansverdeling die de kans op een bepaald aantal successen beschrijft in een vast aantal onafhankelijke experimenten (pogingen), waarbij elke poging slechts twee mogelijke uitkomsten heeft (succes of mislukking) met een constante succeskans. |
| Steekproefproportie | De fractie van de observaties in een steekproef die een bepaalde eigenschap vertonen; wordt vaak gebruikt als schatting van de populatieproportie. |
| Nulhypothese ($H_0$) | Een stelling die wordt verondersteld waar te zijn totdat bewijs het tegendeel aantoont; in proportietests stelt deze vaak dat er geen verschil is tussen populatieproporties of dat een populatieproportie een specifieke waarde heeft. |
| Alternatieve hypothese ($H_A$) | Een stelling die wordt voorgesteld als alternatief voor de nulhypothese; deze stelt meestal dat er een verschil is of dat een parameter groter of kleiner is dan gespecificeerd in de nulhypothese. |
| Betrouwbaarheidsinterval | Een reeks waarden die waarschijnlijk de ware populatieparameter bevat, berekend op basis van steekproefgegevens, met een gespecificeerd betrouwbaarheidsniveau. |
| Steekproevenverdeling | De verdeling van de statistiek berekend uit alle mogelijke steekproeven van dezelfde grootte, getrokken uit dezelfde populatie. |
| Variantie | Een maat voor de spreiding van een set getallen; het is het gemiddelde van de gekwadrateerde afwijkingen van elk getal van het gemiddelde van die set. |
| Twee-steekproeven proportietest | Een statistische test die wordt gebruikt om te bepalen of er een significant verschil is tussen de proporties van twee verschillende populaties. |
| Gepoolde steekproefproportie | Een gewogen gemiddelde van de steekproefproporties van twee groepen, gebruikt in een twee-steekproeven proportietest wanneer de nulhypothese gelijke proporties veronderstelt. |
| Significantieniveau ($\alpha$) | De kans op het verwerpen van de nulhypothese wanneer deze feitelijk waar is (type I fout); vaak ingesteld op 0.05 of 0.01. |