Student - Hoorcollege 4 - Hypothesetoetsing en betrouwbaarheidsintervallen (1).pptx
Summary
# Inleiding tot betrouwbaarheidsintervallen en hypothesetoetsing
Inleiding tot betrouwbaarheidsintervallen en hypothesetoetsing
Dit onderdeel introduceert het belang van statistiek bij het doen van uitspraken over populaties op basis van steekproefgegevens en legt de basis voor het begrijpen van onzekerheid.
## 1. Inleiding tot betrouwbaarheidsintervallen en hypothesetoetsing
Inductieve statistiek maakt het mogelijk om conclusies te trekken over een populatie op basis van steekproefgegevens, waarbij de mate van onzekerheid wordt gekwantificeerd.
### 1.1 Soorten vragen in inductieve statistiek
Er zijn twee hoofdtypes vragen die met inductieve statistiek worden onderzocht:
* **Schatten van een populatieparameter:**
* Het bepalen van een populatiegemiddelde voor een variabele met behulp van een betrouwbaarheidsinterval (BI).
* Voorbeelden: "Vanaf welke leeftijd tonen baby's een sociale glimlach?" of "Hoeveel uren gamen 16 tot 18-jarigen gemiddeld?"
* **Toetsen van verschillen of samenhang:**
* Het toetsen van verschillen tussen groepen (bv. vrouwen versus mannen) of de samenhang tussen variabelen (bv. hondeneigenaarschap en welzijn).
* Voorbeelden: "Zijn vrouwen gemiddeld gezien meer empathisch dan mannen?" of "Is er een verband tussen het hebben van een hond en je algemeen welzijn?"
### 1.2 Wat is een betrouwbaarheidsinterval?
Een betrouwbaarheidsinterval (BI) is een intervalschatting van een populatieparameter. De breedte van dit interval kan door de onderzoeker worden bepaald, maar dit heeft consequenties voor de zekerheid en de informativiteit van de schatting. Er is een afweging tussen zekerheid en informativiteit: een breder interval biedt meer zekerheid, maar minder specifieke informatie. In de praktijk wordt vaak een 95% betrouwbaarheidsinterval gehanteerd.
* Een 95% betrouwbaarheidsinterval geeft bijvoorbeeld aan dat er 95% zekerheid is dat het populatiegemiddelde binnen dit interval ligt.
* Een belangrijke voorwaarde voor het berekenen van een betrouwbaarheidsinterval is een aselecte steekproef.
#### 1.2.1 Een betrouwbaarheidsinterval berekenen
Het betrouwbaarheidsinterval wordt uitgedrukt in de meeteenheid van de oorspronkelijke variabele. De formule voor een betrouwbaarheidsinterval is doorgaans:
$$
\text{Steekproefgemiddelde} \pm \text{kritieke waarde} \times \text{standaardfout}
$$
De kritieke waarde is afhankelijk van het gewenste betrouwbaarheidsniveau. Voor een 95% betrouwbaarheidsinterval wordt vaak een kritieke $Z$-waarde van $\pm 1.96$ gebruikt, wat overeenkomt met 2.5% in elke staart van de standaardnormale verdeling.
> **Tip:** Een grotere steekproefomvang ($N$) leidt over het algemeen tot een smaller betrouwbaarheidsinterval, wat meer informatief is.
#### 1.2.2 Betrouwbaarheidsintervallen bij een normaal verdeelde variabele
Bij een normaal verdeelde variabele met gemiddelde $\mu$ en standaardafwijking $\sigma$ gelden de volgende vuistregels voor de verdeling van waarnemingen:
* Ongeveer 68% van de waarnemingen ligt binnen $\pm 1$ standaardafwijking van het gemiddelde.
* Ongeveer 95% van de waarnemingen ligt binnen $\pm 1.96$ standaardafwijkingen van het gemiddelde.
* Ongeveer 99.7% van de waarnemingen ligt binnen $\pm 3$ standaardafwijkingen van het gemiddelde.
**Variërende accuraatheid:** Met een 95% betrouwbaarheidsinterval weten we met 95% zekerheid dat het populatiegemiddelde binnen het berekende interval valt. Echter, in 5% van de gevallen bevat het interval niet het werkelijke populatiegemiddelde.
### 1.3 Hypothesetoetsing
Hypothesetoetsing is een procedure om op basis van steekproefgegevens uitspraken te doen over een populatiehypothese.
#### 1.3.1 Wat is een hypothese?
Een hypothese is een veronderstelling die voortkomt uit een redenering of theorie, en wordt geformuleerd in duidelijke, meetbare termen.
#### 1.3.2 Nulhypothese en alternatieve hypothese
* **Nulhypothese ($H_0$):** Stelt dat er géén verschil of verband is tussen groepen of variabelen in de populatie. We gaan er initieel van uit dat deze waar is.
* **Alternatieve hypothese ($H_1$ of $H_a$):** Stelt dat er wél een verschil of verband is in de populatie.
Het proces van hypothesetoetsing houdt in dat we evidentie verzamelen om de nulhypothese te weerleggen. Als er onvoldoende evidentie is, behouden we de nulhypothese. Als er voldoende bewijs is dat de nulhypothese tegenspreekt, verwerpen we deze en accepteren we de alternatieve hypothese. Dit proces kan vergeleken worden met het principe "onschuldig tot het tegendeel bewezen is".
#### 1.3.3 Toetsen van de onderzoekshypothese
De onderzoekshypothese (alternatieve hypothese, $H_1$) wordt niet direct getoetst, maar altijd afgezet tegen de nulhypothese ($H_0$).
* $H_0$ wordt behouden als de kans groot is om een bepaald steekproefgemiddelde te observeren, ervan uitgaande dat $H_0$ waar is.
* $H_0$ wordt verworpen als de kans klein is om een bepaald steekproefgemiddelde te observeren, ervan uitgaande dat $H_0$ waar is.
#### 1.3.4 Grote kans en kleine kans
In de praktijk wordt een "grote kans" doorgaans gedefinieerd als $\ge 95\%$ (of $\ge 0.95$) en een "kleine kans" als $\le 5\%$ (of $\le 0.05$).
* **Significantieniveau ($\alpha$):** Dit is het vooraf vastgestelde criterium voor "kleine kans", meestal ingesteld op 0.05 (5%).
* Als de kans om het geobserveerde steekproefgemiddelde te vinden onder de $H_0$ kleiner is dan $\alpha$, wordt $H_0$ verworpen.
#### 1.3.5 Hypotheses in cijfers en kansberekening
Om te bepalen of een geobserveerd verschil significant is, wordt de kans berekend op het verkrijgen van de steekproefgegevens, aannemende dat de nulhypothese waar is. Als deze kans kleiner is dan $\alpha$, wordt de nulhypothese verworpen.
* **Voorbeeld:** Als we bij een gemiddelde $\mu = 100$ en $\sigma = 15$ een kans berekenen op een steekproefgemiddelde van 96 of lager, en deze kans $P(z < -1.6) = 0.0548$ bedraagt, dan wordt de $H_0$ niet verworpen omdat $0.0548 > 0.05$. De drummers scoren dan niet significant lager dan gemiddelde personen.
#### 1.3.6 Samenvatting van hypothesetoetsing
Hypothesetoetsing omvat het trekken van een steekproef, het berekenen van de kans op deze steekproefgegevens onder de nulhypothese, en het vergelijken van deze kans met het significantieniveau $\alpha$. Als de kans kleiner is dan $\alpha$, wordt de nulhypothese verworpen ten gunste van de alternatieve hypothese.
### 1.4 Eenzijdig en tweezijdig toetsen
Hypothesetoetsen kunnen eenzijdig of tweezijdig zijn, afhankelijk van de richting van de onderzoekshypothese.
* **Eenzijdig toetsen:** Test of een parameter groter is dan een bepaalde waarde (rechtseenzijdig) of kleiner is dan een bepaalde waarde (linkseenzijdig). Dit is enkel toegestaan als er een duidelijke theoretische reden is voor de verwachte richting van het effect.
* **Tweezijdig toetsen:** Test of een parameter significant verschilt van een bepaalde waarde, zonder specificatie van de richting van het verschil. Dit is de meer conservatieve benadering.
#### 1.4.1 Keuze tussen eenzijdig en tweezijdig toetsen
De keuze tussen eenzijdig en tweezijdig toetsen kan de significantie van de resultaten beïnvloeden. Een eenzijdige toets vereist een extremer steekproefgemiddelde om de nulhypothese te verwerpen dan een tweezijdige toets, omdat het significantieniveau $\alpha$ wordt verdeeld over één of twee staarten van de verdeling.
* Bij een tweezijdige toets met $\alpha = 0.05$, wordt het significantieniveau verdeeld als 0.025 in elke staart.
* Bij een eenzijdige toets met $\alpha = 0.05$, ligt het gehele 0.05 in één staart.
> **Tip:** Bij gebruik van software zoals SPSS, wordt vaak de "sig. (2-tailed)" waarde gerapporteerd. Deze kan direct vergeleken worden met $\alpha$ voor tweezijdige toetsen. Voor eenzijdige toetsen moet deze waarde gedeeld worden door twee (of de correcte proportie afhankelijk van de richting).
#### 1.4.2 Toetsen met kritieke waarden
Naast het toetsen via overschrijdingskansen (p-waarden), is het ook mogelijk om te toetsen met kritieke waarden. Hierbij wordt eerst de kritieke waarde(n) bepaald die hoort bij het significantieniveau $\alpha$. Vervolgens wordt de berekende toetsingsgrootheid (bv. $Z$-score) van de steekproef hiermee vergeleken.
* **Tweezijdig toetsen met $\alpha = 0.05$:** De kritieke $Z$-waarden zijn $\pm 1.96$. Als de berekende $Z$-score buiten dit interval valt (dus $> 1.96$ of $< -1.96$), wordt $H_0$ verworpen.
* **Eenzijdig toetsen met $\alpha = 0.05$:** De kritieke $Z$-waarde is $-1.64$ (linkseenzijdig) of $+1.64$ (rechtseenzijdig). Als de berekende $Z$-score aan de betreffende zijde van de kritieke waarde valt, wordt $H_0$ verworpen.
### 1.5 Onzekerheden bij hypothesetoetsing
Hypothesetoetsing is gebaseerd op kansberekening, wat betekent dat er altijd een kans op fouten bestaat.
* **Fout type I ($\alpha$):** Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau.
* **Fout type II ($\beta$):** Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onwaar is.
### 1.6 Effectgrootte
De significantie van een toets (geïndiceerd door de p-waarde) zegt alleen iets over de aanwezigheid van een verschil of verband, niet over de omvang of het belang ervan. De effectgrootte kwantificeert de omvang van het waargenomen effect.
* **Significantie:** Geeft aan of een effect statistisch significant is (werkt het of niet, is er een verschil of niet).
* **Effectgrootte:** Geeft aan hoe sterk of hoe betekenisvol een effect is (hoe goed werkt het, hoe sterk bepaalt een variabele de uitkomst).
#### 1.6.1 Interpretatie van effectgrootte
Effectgroottes kunnen worden uitgedrukt in diverse maten, zoals $r$ (correlatiecoëfficiënt).
* $r$ rond 0.10: klein effect
* $r$ rond 0.30: matig effect
* $r$ rond 0.50: sterk effect
#### 1.6.2 Hedendaags onderzoek
In modern onderzoek wordt steeds meer nadruk gelegd op zowel significantie als effectgrootte. Grote steekproeven kunnen leiden tot statistisch significante resultaten, zelfs bij kleine, praktisch irrelevante effecten. Effectgrootte biedt een maat voor de klinische of praktische relevantie, ongeacht de steekproefomvang.
### 1.7 Parametrisch en nonparametrisch toetsen
Hypothesetoetsen kunnen worden onderverdeeld in twee hoofdcategorieën:
* **Parametrische toetsen:** Vereisen dat aan bepaalde statistische voorwaarden (aannames) van de populatieverdeling wordt voldaan, zoals normaliteit.
* **Nonparametrische toetsen:** Hebben minder strikte aannames over de populatieverdeling en zijn vaak robuuster.
Het $Z$-toets voor het gemiddelde, besproken in dit hoofdstuk, is een voorbeeld van een parametrische toets. Er bestaan diverse andere toetsen binnen beide categorieën, afhankelijk van de onderzoeksvraag en de aard van de data.
---
# Het berekenen en interpreteren van betrouwbaarheidsintervallen
Hier is een gedetailleerd studieoverzicht voor het berekenen en interpreteren van betrouwbaarheidsintervallen, gebaseerd op de verstrekte documentatie.
## 2. Het berekenen en interpreteren van betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen bieden een manier om uitspraken te doen over populatieparameters op basis van steekproefgegevens, met een gekwantificeerde mate van onzekerheid.
### 2.1 Wat is een betrouwbaarheidsinterval?
In de inductieve statistiek trekken we conclusies over een populatie op basis van steekproefgegevens. Omdat steekproeven nooit perfect de gehele populatie weerspiegelen, introduceert dit onzekerheid. Een betrouwbaarheidsinterval (BI) is een intervalschatting die ons helpt deze onzekerheid te kwantificeren.
Een veelvoorkomende vraag in onderzoek is het schatten van een populatiegemiddelde. Bijvoorbeeld: "Vanaf welke leeftijd tonen baby's een sociale glimlach?" of "Hoeveel uren gamen 16 tot 18-jarigen gemiddeld?"
In plaats van een puntschatting (één enkel getal) te geven voor het populatiegemiddelde ($\mu$), biedt een betrouwbaarheidsinterval een bereik van waarden waarbinnen het populatiegemiddelde waarschijnlijk ligt.
#### 2.1.1 Afweging tussen zekerheid en informativiteit
De breedte van het betrouwbaarheidsinterval wordt door de onderzoeker zelf bepaald en heeft consequenties voor de interpretatie. Er is een fundamentele afweging tussen zekerheid en informativiteit:
* **Meer zekerheid**: Een breder interval biedt meer zekerheid dat het populatiegemiddelde erin is opgenomen, maar geeft minder precieze informatie. Bijvoorbeeld, een 100% betrouwbaarheidsinterval (theoretisch) dat aangeeft dat baby's hun eerste sociale glimlach vertonen tussen 0 en 86 dagen, is erg zeker, maar weinig informatief.
* **Meer informatie (precisie)**: Een smaller interval is informatief en preciezer, maar biedt minder zekerheid dat het werkelijk het populatiegemiddelde bevat. Bijvoorbeeld, een 95% betrouwbaarheidsinterval tussen 34 en 52 dagen is informatiever.
In de praktijk wordt vaak een 95% betrouwbaarheidsinterval gehanteerd als een gangbare balans.
#### 2.1.2 Voorwaarden voor het construeren van een betrouwbaarheidsinterval
Een cruciale voorwaarde voor het correct berekenen en interpreteren van een betrouwbaarheidsinterval is het gebruik van een **aselecte steekproef**. Als de steekproef niet aselect is, kan deze vertekend zijn en een vertekend beeld geven van de werkelijke populatieverhoudingen. Bijvoorbeeld, enkel baby's selecteren die te vroeg geboren zijn, geeft een vertekend beeld van de gemiddelde leeftijd waarop alle baby's hun eerste sociale glimlach vertonen.
### 2.2 Een betrouwbaarheidsinterval berekenen
Een betrouwbaarheidsinterval wordt uitgedrukt in dezelfde meeteenheid als de oorspronkelijke variabele. Het is opgebouwd rondom het steekproefgemiddelde ($\bar{x}$) en omvat een onder- en bovengrens.
De algemene formule voor een betrouwbaarheidsinterval rond een gemiddelde is gebaseerd op het steekproefgemiddelde, de standaardfout van het gemiddelde, en een kritieke waarde die de gewenste betrouwbaarheid bepaalt:
$$ \text{BI} = \bar{x} \pm z^{\ast} \cdot \frac{\sigma}{\sqrt{n}} $$
Waar:
* $\bar{x}$ is het steekproefgemiddelde.
* $z^{\ast}$ is de kritieke z-waarde die overeenkomt met het gewenste betrouwbaarheidsniveau (bijvoorbeeld 1.96 voor 95% betrouwbaarheid).
* $\sigma$ is de standaarddeviatie van de populatie (als deze bekend is, anders wordt de steekproefstandaarddeviatie $s$ gebruikt).
* $n$ is de steekproefgrootte.
* $\frac{\sigma}{\sqrt{n}}$ is de standaardfout van het gemiddelde (standard error of the mean, SEM).
Het interval kan ook worden geschreven als:
$$ \text{Ondergrens} = \bar{x} - z^{\ast} \cdot \frac{\sigma}{\sqrt{n}} $$
$$ \text{Bovengrens} = \bar{x} + z^{\ast} \cdot \frac{\sigma}{\sqrt{n}} $$
Er is dan een bepaald percentage (bijvoorbeeld 95%) kans dat het werkelijke populatiegemiddelde ($\mu$) tussen deze twee waarden ligt.
#### 2.2.1 Invloed van steekproefgrootte en betrouwbaarheidsniveau
* **Grotere steekproef ($n$)**: Een grotere steekproefomvang leidt tot een kleinere standaardfout ($\frac{\sigma}{\sqrt{n}}$), wat resulteert in een smaller en dus informatiever betrouwbaarheidsinterval, mits de standaarddeviatie constant blijft.
* **Hoger betrouwbaarheidsniveau**: Een hoger betrouwbaarheidsniveau (bijvoorbeeld 99% in plaats van 95%) vereist een grotere kritieke waarde ($z^{\ast}$), wat leidt tot een breder betrouwbaarheidsinterval. Voor 99% betrouwbaarheid is de $z^{\ast}$-waarde ongeveer 2.58, terwijl deze voor 95% ongeveer 1.96 is.
**Voorbeeld:**
Stel, een steekproef ($n = 121$) heeft een gemiddelde van $\bar{x} = 101$ en een standaarddeviatie van $s = 14$.
* **95% BI**: Met $z^{\ast} \approx 1.96$, is de SEM = $\frac{14}{\sqrt{121}} = \frac{14}{11} \approx 1.27$.
Het 95% BI is $101 \pm 1.96 \cdot 1.27 \approx 101 \pm 2.49$, dus het interval is ongeveer (98.51, 103.49).
* **99% BI**: Met $z^{\ast} \approx 2.58$, is de SEM nog steeds 1.27.
Het 99% BI is $101 \pm 2.58 \cdot 1.27 \approx 101 \pm 3.28$, dus het interval is ongeveer (97.72, 104.28).
Zoals te zien, is het 99% BI breder dan het 95% BI.
#### 2.2.2 Betrouwbaarheidsintervallen bij een normaal verdeelde variabele
Bij een normaal verdeelde variabele met populatiegemiddelde $\mu$ en standaardafwijking $\sigma$ geldt dat:
* Ongeveer 68% van de waarnemingen ligt binnen $\mu \pm 1\sigma$.
* Ongeveer 95% van de waarnemingen ligt binnen $\mu \pm 1.96\sigma$.
* Ongeveer 99.7% van de waarnemingen ligt binnen $\mu \pm 2.58\sigma$.
Deze eigenschappen van de normaalverdeling worden gebruikt bij het bepalen van de kritieke waarden ($z^{\ast}$) voor betrouwbaarheidsintervallen.
#### 2.2.3 Variërende accuraatheid en de 5% foutmarge
Het is belangrijk te onthouden dat met een 95% betrouwbaarheidsinterval we met 95% zekerheid kunnen zeggen dat het populatiegemiddelde binnen het interval ligt. Dit betekent echter ook dat er in 5% van de gevallen een kans is dat het berekende betrouwbaarheidsinterval het *echte* populatiegemiddelde *niet* bevat.
> **Tip:** Beschouw een betrouwbaarheidsinterval niet als een reeks waarden die het gemiddelde *zou kunnen* zijn, maar eerder als een reeks intervallen die, indien we het experiment oneindig vaak zouden herhalen, in 95% van de gevallen het werkelijke populatiegemiddelde zou bevatten.
### 2.3 Interpretatie van betrouwbaarheidsintervallen
De interpretatie van een betrouwbaarheidsinterval is cruciaal. Een 95% BI geeft aan dat we, op basis van onze steekproef, met 95% zekerheid kunnen stellen dat het populatiegemiddelde binnen de berekende grenzen ligt. De breedte van het interval weerspiegelt de precisie van onze schatting. Een smal interval duidt op een preciezere schatting dan een breed interval.
#### 2.3.1 Conclusies trekken
Als het betrouwbaarheidsinterval dat we berekenen voor een bepaalde parameter (bijvoorbeeld het gemiddelde verschil tussen twee groepen) de waarde nul (of 1, afhankelijk van de parameter en de context) niet bevat, kan dit wijzen op een statistisch significant verschil of verband op het gekozen betrouwbaarheidsniveau. Omgekeerd, als het interval de nul wel bevat, is het verschil of verband niet significant op dat niveau.
**Voorbeeld:**
Als we een 95% betrouwbaarheidsinterval berekenen voor het verschil in gemiddelde scores tussen twee behandelgroepen en het interval is bijvoorbeeld (2.5, 7.8), dan bevat dit interval de waarde nul niet. Dit suggereert dat er een statistisch significant verschil is in gemiddelde scores tussen de twee groepen. Als het interval ( -1.2, 4.5) zou zijn, bevat het de nul wel, wat aangeeft dat het verschil niet significant is op het 95% niveau.
### 2.4 Verband met hypothesetoetsing
Betrouwbaarheidsintervallen en hypothesetoetsing zijn nauw verwante concepten en kunnen elkaar aanvullen. Een betrouwbaarheidsinterval biedt meer informatie dan enkel de significantie van een hypothesetoets. Het geeft niet alleen aan *of* er een effect is (significantie), maar ook *hoe groot* het effect waarschijnlijk is en in welke richting.
Wanneer een hypothesetoets een nulhypothese verwerpt (wat aangeeft dat er een significant effect is), zal het corresponderende betrouwbaarheidsinterval de waarde die onder de nulhypothese werd getest (meestal nul) niet bevatten.
> **Tip:** Het berekenen van een betrouwbaarheidsinterval kan een alternatief zijn voor het uitvoeren van een tweezijdige hypothesetoets. Als het interval de nul niet bevat, verwerpen we de nulhypothese van geen verschil.
---
# Hypothesetoetsing: nul- en alternatieve hypotheses, en significantie
Dit segment legt de fundamenten van hypothesetoetsing uit, inclusief het formuleren van nul- en alternatieve hypotheses, het concept van 'grote kans' en 'kleine kans' (alfa), en de interpretatie van resultaten.
### 3.1 Inleiding tot hypothesetoetsing
Inductieve statistiek maakt het mogelijk om conclusies te trekken over een populatie op basis van steekproefgegevens. Hypothesetoetsing is een methode binnen de inductieve statistiek om de waarheid van een bepaalde veronderstelling (hypothese) te evalueren. Een hypothese is een duidelijke, testbare veronderstelling over de te meten variabelen, vaak voortkomend uit een theoretische redenering.
#### 3.1.1 Nulhypothese en alternatieve hypothese
Bij hypothesetoetsing onderscheiden we twee soorten hypotheses:
* **Nulhypothese ($H_0$)**: Deze hypothese stelt dat er geen verschil of verband is tussen groepen of variabelen in de populatie. Men gaat er initieel van uit dat de nulhypothese waar is. De nulhypothese wordt behouden als de kans groot is om een bepaald steekproefresultaat te observeren, ervan uitgaande dat de nulhypothese correct is.
* **Alternatieve hypothese ($H_1$)**: Deze hypothese stelt dat er wél een verschil of verband is. Men gaat er initieel van uit dat deze hypothese onwaar is. We verzamelen evidentie *tegen* de nulhypothese. Als er voldoende evidentie is die de nulhypothese tegenspreekt, wordt deze verworpen ten gunste van de alternatieve hypothese.
Dit proces kan vergeleken worden met het principe "onschuldig tot het tegendeel bewezen is": we gaan uit van de nulhypothese totdat er voldoende bewijs is om deze te verwerpen.
#### 3.1.2 Het concept van grote en kleine kans: significantie
De kern van hypothesetoetsing ligt in het beoordelen van de waarschijnlijkheid van een steekproefresultaat, gegeven dat de nulhypothese waar is.
* **Grote kans**: Als de kans om een bepaald steekproefgemiddelde te observeren groot is (in de praktijk vaak gedefinieerd als $\geq 95\%$), behouden we de nulhypothese. Dit suggereert dat het geobserveerde resultaat niet ongebruikelijk is onder de aanname van de nulhypothese.
* **Kleine kans**: Als de kans om een bepaald steekproefgemiddelde te observeren klein is (in de praktijk vaak gedefinieerd als $\leq 5\%$), verwerpen we de nulhypothese. Dit suggereert dat het geobserveerde resultaat uitzonderlijk is onder de aanname van de nulhypothese, en dat de alternatieve hypothese waarschijnlijker is.
Deze "kleine kans" wordt het significantieniveau, aangeduid met $\alpha$ (alfa). De gebruikelijke afspraak is $\alpha = 0.05$ (of $5\%$), en soms wordt ook $\alpha = 0.01$ gebruikt. Als de kans op het observeren van de steekproefgegevens kleiner is dan $\alpha$, verwerpen we de nulhypothese.
**Voorbeeld**: Stel dat we de onderzoekshypothese hebben dat drummers gemiddeld minder intelligent zijn dan de algemene populatie (met een gemiddelde IQ van 100).
* $H_1$: $\mu_{\text{drummers}} < 100$
* $H_0$: $\mu_{\text{drummers}} \geq 100$
Als we in een steekproef een gemiddeld IQ van 96 vinden, berekenen we de kans om een gemiddelde van 96 of lager te observeren als $H_0$ waar zou zijn. Als deze kans groter is dan $\alpha = 0.05$, verwerpen we $H_0$ niet.
> **Tip**: De p-waarde is de kans om een resultaat te vinden dat minstens zo extreem is als het geobserveerde resultaat, gegeven dat de nulhypothese waar is. Als $p < \alpha$, verwerpen we $H_0$.
### 3.2 Berekenen van betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) is een intervalschatting voor een populatieparameter (zoals het populatiegemiddelde $\mu$).
* **Doel**: Het schatten van een populatieparameter op basis van steekproefgegevens.
* **Werkwijze**: Omdat het onderzoeken van de volledige populatie onhaalbaar is, trekken we een steekproef. Op basis van deze steekproef wordt een puntschatting (het steekproefgemiddelde) gemaakt, en vervolgens wordt een betrouwbaarheidsinterval berekend.
* **Afweging**: De grootte van het betrouwbaarheidsinterval bepaalt de afweging tussen zekerheid en informativiteit.
* Een breed interval (bv. 95% tot 100% zekerheid) biedt meer zekerheid dat de populatieparameter erin ligt, maar is minder informatief (het interval is groot).
* Een smal interval (bv. 95% zekerheid tussen twee specifieke waarden) biedt meer informatie, maar met een grotere kans dat de populatieparameter buiten het interval valt (bv. 5% kans bij een 95% BI).
* **Standaardpraktijk**: In de praktijk wordt vaak een 95% betrouwbaarheidsinterval gebruikt.
* **Voorwaarde**: Een aselecte steekproef is een cruciale voorwaarde voor het correct berekenen van een betrouwbaarheidsinterval.
#### 3.2.1 Formule en interpretatie
Een $95\%$ betrouwbaarheidsinterval voor het populatiegemiddelde $\mu$ wordt vaak berekend rondom het steekproefgemiddelde ($\bar{x}$) met behulp van de standaardafwijking van de steekproef ($s$) en de steekproefgrootte ($n$). De formule omvat een kritieke waarde die afhangt van het gewenste betrouwbaarheidsniveau.
Voor een normaal verdeelde variabele met populatiegemiddelde $\mu$ en standaardafwijking $\sigma$:
* Ongeveer 68% van de waarnemingen ligt binnen $\mu \pm 1\sigma$.
* Ongeveer 95% van de waarnemingen ligt binnen $\mu \pm 1.96\sigma$.
* Ongeveer 99.7% van de waarnemingen ligt binnen $\mu \pm 2.58\sigma$.
Een betrouwbaarheidsinterval wordt uitgedrukt in de meeteenheid van de oorspronkelijke variabele. De interpretatie is dat er een bepaald percentage (bv. 95%) kans is dat het populatiegemiddelde binnen de berekende grenzen ligt. Het is belangrijk te beseffen dat in het resterende percentage van de gevallen (bv. 5% bij een 95% BI) het interval het echte populatiegemiddelde niet bevat.
#### 3.2.2 Invloed van steekproefgrootte ($N$)
Een grotere steekproefgrootte ($N$) leidt over het algemeen tot een smaller betrouwbaarheidsinterval, wat meer precisie betekent voor de schatting van het populatiegemiddelde.
### 3.3 Eenzijdig en tweezijdig toetsen
Hypotheses kunnen op twee manieren worden getoetst:
* **Eenzijdig toetsen**: Hierbij wordt gekeken naar afwijkingen van de nulhypothese in één specifieke richting (bv. $\mu > \mu_0$ of $\mu < \mu_0$). Dit wordt toegepast wanneer er op voorhand een duidelijke theoretische reden is om een effect in een specifieke richting te verwachten.
* **Tweezijdig toetsen**: Hierbij wordt gekeken naar afwijkingen van de nulhypothese in beide richtingen (bv. $\mu \neq \mu_0$). Dit is de standaardbenadering wanneer er geen specifieke richting wordt verwacht.
#### 3.3.1 Impact op significantie
De keuze tussen eenzijdig en tweezijdig toetsen kan bepalend zijn voor de significantie van het resultaat. Bij tweezijdig toetsen moet het steekproefgemiddelde extremer afwijken van de nulhypothese om de nulhypothese te verwerpen, vergeleken met een eenzijdig toets.
**Voorbeeld**: Bij een $\alpha = 0.05$ en een tweezijdige toets is de kritieke waarde bijvoorbeeld $\pm 1.96$. Bij een eenzijdige toets (bv. rechtszijdig) is de kritieke waarde $1.64$ voor dezelfde $\alpha$. Een resultaat dat bij een eenzijdige toets significant is, hoeft dat bij een tweezijdige toets niet te zijn.
#### 3.3.2 Keuze tussen eenzijdig en tweezijdig
* **Eenzijdig toetsen** mag enkel toegepast worden als er een duidelijk verantwoorde richting in de hypothese zit, gebaseerd op theorie of eerdere bevindingen.
* **Tweezijdig toetsen** is de veiligere en meer conservatieve keuze wanneer de richting van het effect onzeker is. In softwarepakketten zoals SPSS wordt de significantie voor tweezijdige toetsen direct gerapporteerd (sig. 2-tailed).
### 3.4 Toetsen met kritieke waarden
Naast het toetsen via overschrijdingskansen (p-waarden), is het ook mogelijk om te toetsen met kritieke waarden.
* **Methode**: Hierbij zoekt men eerst de kritieke waarde van de teststatistiek die hoort bij het gekozen significantieniveau $\alpha$. Vervolgens vergelijkt men de berekende teststatistiek uit de steekproef met deze kritieke waarde.
* **Gelijkheid**: Beide methoden (overschrijdingskansen en kritieke waarden) leiden tot dezelfde conclusie.
* Bij tweezijdig toetsen met $\alpha = 0.05$ zijn de kritieke z-waarden bijvoorbeeld $\pm 1.96$. Als de berekende z-waarde buiten dit interval valt (dus $|z| > 1.96|$), wordt $H_0$ verworpen.
* Bij eenzijdig toetsen (bv. rechtszijdig) met $\alpha = 0.05$ is de kritieke z-waarde $1.64$. Als de berekende z-waarde groter is dan $1.64$, wordt $H_0$ verworpen.
### 3.5 Onzekerheden bij hypothesetoetsing
Hypothesetoetsing is gebaseerd op kansberekening, wat betekent dat er altijd onzekerheden en mogelijke fouten zijn.
* **Fout Type I ($\alpha$)**: Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau $\alpha$.
* **Fout Type II ($\beta$)**: Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onwaar is. De kans hierop wordt aangeduid met $\beta$.
#### 3.5.1 Effectgrootte
Significantie (bepaald door de p-waarde) geeft aan of er een effect is, maar zegt niets over hoe groot of belangrijk dit effect is.
* **Definitie**: Effectgrootte (effect size) meet de hoeveelheid variatie in de resultaten die verklaard wordt door het geobserveerde effect. Het kwantificeert de sterkte van het verband of het verschil.
* **Interpretatie**:
* Kleine effectgrootte: bv. een correlatiecoëfficiënt ($r$) tussen $0.10$ en $0.30$.
* Matige effectgrootte: bv. een $r$ tussen $0.30$ en $0.50$.
* Sterke effectgrootte: bv. een $r$ groter dan $0.50$.
* **Hedendaags onderzoek**: Met grote steekproeven kunnen zelfs kleine effecten statistisch significant worden gevonden. Effectgrootte is essentieel om de praktische relevantie van bevindingen in te schatten, onafhankelijk van de steekproefomvang. Een significant effect betekent niet automatisch dat het praktisch belangrijk is.
### 3.6 Parametrisch en nonparametrisch toetsen
Hypothesetoetsing omvat diverse toetsen. Twee hoofdcategorieën zijn:
* **Parametrische toetsen**: Deze toetsen vereisen dat bepaalde statistische voorwaarden met betrekking tot de verdeling van de populatie (bv. normaliteit) voldaan zijn. De z-toets voor het gemiddelde is hier een voorbeeld van.
* **Nonparametrische toetsen**: Deze toetsen stellen minder strikte eisen aan de verdeling van de populatie.
### 3.7 Samenvatting van hypothesetoetsing
* Hypothesetoetsing evalueert de waarheid van een veronderstelling.
* Er wordt gewerkt met een nulhypothese ($H_0$) en een alternatieve hypothese ($H_1$).
* De beslissing om $H_0$ te verwerpen of te behouden hangt af van de kans (p-waarde) om het steekproefresultaat te observeren, gegeven dat $H_0$ waar is, vergeleken met het significantieniveau $\alpha$ (meestal $0.05$).
* Een kleinere kans dan $\alpha$ leidt tot het verwerpen van $H_0$ en het accepteren van $H_1$.
* Hypotheses kunnen éénzijdig of tweezijdig getoetst worden; de keuze beïnvloedt de significantiedrempel.
* Toetsen kan gebeuren via overschrijdingskansen (p-waarden) of via kritieke waarden.
* Er zijn altijd onzekerheden en mogelijke fouten (Type I en Type II) bij hypothesetoetsing.
* Effectgrootte is cruciaal om de praktische betekenis van een statistisch significant resultaat te beoordelen.
---
# Eenzijdig en tweezijdig toetsen, kritieke waarden en onzekerheden
Hier is een gedetailleerde studiehandleiding voor het onderwerp "Eenzijdig en tweezijdig toetsen, kritieke waarden en onzekerheden" in het Nederlands.
## 4. Eenzijdig en tweezijdig toetsen, kritieke waarden en onzekerheden
Dit gedeelte duikt dieper in de verschillende manieren van toetsen (eenzijdig vs. tweezijdig), het gebruik van kritieke waarden als alternatief voor overschrijdingskansen, en de inherente onzekerheden en mogelijke fouten bij hypothesetoetsing.
### 4.1 Hypothesetoetsing: een samenvatting
Hypothesetoetsing is een methode om conclusies te trekken over een populatie op basis van steekproefgegevens. Het doel is om een gestelde hypothese (een veronderstelling) te toetsen. Dit gebeurt door een steekproef te trekken en te onderzoeken of de resultaten van die steekproef voldoende afwijken van wat verwacht zou worden onder een nulhypothese ($H_0$).
#### 4.1.1 Nulhypothese en alternatieve hypothese
* **Nulhypothese ($H_0$)**: Stelt dat er geen verschil of verband is tussen groepen of variabelen in de populatie. Men gaat er initieel van uit dat deze hypothese waar is.
* **Alternatieve hypothese ($H_1$)**: Stelt dat er wel een verschil of verband is tussen groepen of variabelen in de populatie. Deze hypothese wordt ook wel de onderzoekshypothese genoemd.
Het proces van hypothesetoetsing bestaat uit het verzamelen van bewijs tegen de nulhypothese. Als er onvoldoende bewijs is om de nulhypothese te verwerpen, wordt deze behouden. Als er voldoende bewijs is dat de nulhypothese tegenspreekt, wordt deze verworpen en de alternatieve hypothese aangenomen. Dit proces is vergelijkbaar met het principe "onschuldig tot het tegendeel bewezen is".
#### 4.1.2 Significantieniveau ($\alpha$) en beslissingsregels
Om te bepalen of een waargenomen verschil significant is, wordt een significantieniveau ($\alpha$) vastgesteld. Dit niveau vertegenwoordigt de maximale kans op een fout type I (het verwerpen van een ware nulhypothese).
* **Grote kans**: Als de kans om een bepaald steekproefgemiddelde te observeren, terwijl de nulhypothese waar is, groot is (typisch $\ge$ 95%, wat overeenkomt met een kans $\ge$ 0.95), wordt de nulhypothese behouden.
* **Kleine kans**: Als de kans om een bepaald steekproefgemiddelde te observeren, terwijl de nulhypothese waar is, klein is (typisch $\le$ 5%, wat overeenkomt met een kans $\le$ 0.05), wordt de nulhypothese verworpen. Dit significantieniveau, $\alpha$, is in de praktijk vaak ingesteld op 0.05 (of soms 0.01).
De kans die hierbij berekend wordt, is de kans om het geobserveerde steekproefgemiddelde of een extremere waarde te vinden, onder aanname dat de nulhypothese waar is.
#### 4.1.3 Overschrijdingskansen en toetsen met kritieke waarden
Er zijn twee principale manieren om de nulhypothese te toetsen:
1. **Toetsen via overschrijdingskansen (p-waarde)**: Hierbij wordt de kans berekend om een steekproefresultaat te observeren dat minstens zo extreem is als het gevonden resultaat, gegeven dat de nulhypothese waar is. Als deze kans kleiner is dan het significantieniveau $\alpha$, wordt $H_0$ verworpen.
2. **Toetsen via kritieke waarden**: Bij deze methode wordt eerst de 'kritieke waarde' bepaald. Dit is de grens (een z-score) die hoort bij het vastgestelde significantieniveau $\alpha$. Vervolgens wordt de berekende toetsingsgrootheid (bijvoorbeeld een z-score van het steekproefgemiddelde) vergeleken met deze kritieke waarde. Als de berekende toetsingsgrootheid de kritieke waarde overschrijdt (afhankelijk van de richting van de toets), wordt $H_0$ verworpen.
Beide methoden leiden tot dezelfde conclusie. Het gebruik van kritieke waarden kan directer zijn omdat het niet vereist dat men in tabellen naar de exacte kans zoekt.
### 4.2 Eenzijdig en tweezijdig toetsen
De manier waarop de alternatieve hypothese wordt geformuleerd, bepaalt of er eenzijdig of tweezijdig wordt getoetst.
#### 4.2.1 Tweezijdig toetsen
Bij tweezijdig toetsen wordt onderzocht of er een verschil of verband bestaat, zonder een specifieke richting aan te geven.
* **Alternatieve hypothese ($H_1$)**: Stelt dat er een verschil is, bijvoorbeeld $\mu \ne 100$.
Bij tweezijdig toetsen wordt de kans op extreme waarden aan *beide* zijden van de verdeling in overweging genomen. Als $\alpha = 0.05$, dan wordt 2.5% van de kans aan de linkerstaart en 2.5% aan de rechterstaart van de verdeling toegewezen. De kritieke waarden voor een tweezijdige toets met $\alpha = 0.05$ zijn typisch $Z = -1.96$ en $Z = +1.96$.
#### 4.2.2 Eenzijdig toetsen
Bij eenzijdig toetsen wordt onderzocht of er een verschil of verband is in een specifieke richting. Dit is enkel toegestaan als er een duidelijke, theoretische onderbouwing is voor die specifieke richting.
* **Alternatieve hypothese ($H_1$)**: Stelt een specifieke richting, bijvoorbeeld $\mu < 100$ (linkseenzijdig) of $\mu > 100$ (rechtseenzijdig).
Bij eenzijdig toetsen wordt de gehele $\alpha$ aan één staart van de verdeling toegekend.
* **Rechtseenzijdig toetsen**: $H_1: \mu > 100$. De kritieke waarde voor $\alpha = 0.05$ is $Z = +1.64$.
* **Linkseenzijdig toetsen**: $H_1: \mu < 100$. De kritieke waarde voor $\alpha = 0.05$ is $Z = -1.64$.
#### 4.2.3 Gevolgen van de keuze voor eenzijdig of tweezijdig toetsen
De keuze tussen eenzijdig en tweezijdig toetsen kan bepalend zijn voor de significantie van de resultaten. Een eenzijdige toets kan sneller leiden tot de verwerping van de nulhypothese, omdat de kritieke waarde minder extreem is dan bij een tweezijdige toets. Om de nulhypothese te verwerpen bij een tweezijdige toets, moet het steekproefgemiddelde extremer afwijken van de nulhypothese dan bij een eenzijdige toets.
* **Voorbeeld**: Bij een tweezijdige toets met $\alpha = 0.05$ en een berekende z-waarde van 1.67, wordt $H_0$ niet verworpen. De overschrijdingskans is $2 \times P(Z \ge 1.67) = 2 \times 0.0475 = 0.095$, wat groter is dan 0.05. Echter, bij een rechtseenzijdige toets met dezelfde berekende z-waarde van 1.67, wordt $H_0$ wél verworpen, omdat de overschrijdingskans $P(Z \ge 1.67) = 0.0475$ kleiner is dan 0.05.
### 4.3 Onzekerheden bij hypothesetoetsing
Hypothesetoetsing is gebaseerd op kansberekeningen, wat betekent dat er altijd een zekere mate van onzekerheid en fouten mogelijk is.
#### 4.3.1 Fouten bij hypothesetoetsing
Er zijn twee typen fouten die gemaakt kunnen worden bij hypothesetoetsing:
* **Fout van de eerste soort (Type I fout)**: Het verwerpen van een ware nulhypothese. De kans hierop is gelijk aan het significantieniveau $\alpha$.
* **Fout van de tweede soort (Type II fout)**: Het niet verwerpen van een onware nulhypothese. De kans hierop wordt aangeduid met $\beta$.
#### 4.3.2 Betrouwbaarheidsinterval en onzekerheid
Een betrouwbaarheidsinterval (BI) geeft een reeks waarden aan waarbinnen het populatieparameter met een bepaalde mate van zekerheid zal liggen. Bijvoorbeeld, een 95% betrouwbaarheidsinterval betekent dat, als we het proces van steekproeftrekking en intervalconstructie vele malen zouden herhalen, 95% van deze intervallen de ware populatieparameter zal bevatten. In 5% van de gevallen zal het interval de ware populatieparameter echter niet bevatten. Dit illustreert de inherente onzekerheid.
#### 4.3.3 Effectgrootte
* **Significantie (p-waarde)**: Geeft aan óf er een statistisch significant verschil of verband is, maar zegt niets over de grootte of praktische belangrijkheid van dat effect. Een kleine p-waarde kan soms voortkomen uit een zeer grote steekproef, zelfs als het waargenomen effect klein is.
* **Effectgrootte (Effect Size)**: Kwantificeert de sterkte van het verband of het verschil. Het toont hoeveel van de variatie in de resultaten verklaard kan worden door het waargenomen effect. Effectgroottes helpen bij het inschatten van de praktische relevantie van bevindingen, onafhankelijk van de steekproefgrootte.
* Veelgebruikte maten voor effectgrootte zijn $r$ (correlatiecoëfficiënt) en $d$ (Cohen's d).
* Interpretatie van $r$:
* 0.10 tot 0.30: klein effect
* 0.30 tot 0.50: matig effect
* groter dan 0.50: sterk effect
Hedendaags onderzoek legt steeds meer nadruk op zowel significantie als effectgrootte om een vollediger beeld te krijgen van onderzoeksresultaten.
### 4.4 Kritieke waarden en hun relatie tot de verdeling
De kritieke waarden zijn de grenzen die worden bepaald door het significantieniveau ($\alpha$) en de gekozen toetsrichting (eenzijdig of tweezijdig). Ze markeren de grens tussen het "acceptatiegebied" van de nulhypothese en het "verwerpingsgebied".
* **Tweezijdig, $\alpha = 0.05$**: Kritieke waarden zijn $Z = -1.96$ en $Z = +1.96$.
* **Rechtseenzijdig, $\alpha = 0.05$**: Kritieke waarde is $Z = +1.64$.
* **Linkseenzijdig, $\alpha = 0.05$**: Kritieke waarde is $Z = -1.64$.
Als de berekende toetsingsgrootheid (bijvoorbeeld de z-score van het steekproefgemiddelde) in het verwerpingsgebied valt (d.w.z. groter of kleiner is dan de respectievelijke kritieke waarden), wordt de nulhypothese verworpen.
#### 4.4.1 Voorbeeld met kritieke waarden
Gegeven: populatiegemiddelde $\mu = 100$, standaardafwijking $\sigma = 20$. Steekproef van $n = 49$ met steekproefgemiddelde $\bar{x} = 106$ en standaarddeviatie $s = 18$. We toetsen $H_0: \mu = 100$ tegen $H_1: \mu \ne 100$ (tweezijdig) met $\alpha = 0.05$.
Eerst berekenen we de z-score voor het steekproefgemiddelde:
$$Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} = \frac{106 - 100}{20 / \sqrt{49}} = \frac{6}{20 / 7} = \frac{6}{2.857} \approx 2.1$$
De kritieke waarden voor een tweezijdige toets met $\alpha = 0.05$ zijn $-1.96$ en $+1.96$.
Aangezien de berekende z-score ($2.1$) groter is dan de positieve kritieke waarde ($1.96$), valt deze in het verwerpingsgebied aan de rechterkant van de verdeling. De nulhypothese $H_0$ wordt verworpen. Er is statistisch significant bewijs voor een verschil tussen het steekproefgemiddelde en het populatiegemiddelde.
Dit komt overeen met de overschrijdingskansbenadering, waarbij de kans op een z-waarde van 2.1 of extremer aan beide zijden wordt bekeken. Als de som van deze kansen kleiner is dan $\alpha$, wordt $H_0$ verworpen.
---
# Effectgrootte, parametrisch vs. nonparametrisch toetsen
Dit deel bespreekt het belang van effectgrootte ter aanvulling van significantie en introduceert de twee hoofdcategorieën van statistische toetsen: parametrisch en nonparametrisch.
### 5.1 De rol van effectgrootte in hypothesetoetsing
Bij het trekken van conclusies over populaties op basis van steekproefgegevens, is het cruciaal om niet alleen te kijken of een resultaat statistisch significant is (dus of het onwaarschijnlijk is om op toeval te berusten), maar ook hoe groot en praktisch relevant het waargenomen effect is.
#### 5.1.1 Significantie versus effectgrootte
* **Significantie (p-waarde):** Vertelt ons of er al dan niet een verschil of verband is. Het antwoordt op de vraag: "Werkt het?" of "Is er een effect van X op Y?". Een kleine p-waarde (typisch < $0.05$) suggereert dat het geobserveerde resultaat onwaarschijnlijk is onder de nulhypothese, wat leidt tot het verwerpen van de nulhypothese. Significantie is echter gevoelig voor steekproefgrootte; met een grote steekproef kunnen zelfs zeer kleine effecten significant worden.
* **Effectgrootte (effect size):** Geeft aan hoe groot of klinisch relevant een effect werkelijk is, onafhankelijk van de steekproefomvang. Het antwoordt op de vraag: "Hoe goed werkt het?" of "Hoe sterk bepaalt X de uitkomst Y?". Het kwantificeert de hoeveelheid variatie in de resultaten die verklaard kan worden door het waargenomen effect.
> **Tip:** Een klein, maar statistisch significant effect kan weinig praktische betekenis hebben, terwijl een groot effect, zelfs als het niet significant is, wel aanzienlijke gevolgen kan hebben. Effectgrootte helpt bij het inschatten van de praktische relevantie van bevindingen.
#### 5.1.2 Interpretatie van effectgrootte
Effectgroottes kunnen worden uitgedrukt in verschillende maten, zoals Cohen's $r$ (correlatie), Cohen's $d$ (verschil tussen gemiddelden), etc. Bij de correlatiecoëfficiënt $r$ (die varieert tussen $-1$ en $1$) worden vaak de volgende interpretaties gehanteerd:
* $0.10 < |r| < 0.30$: klein effect
* $0.30 < |r| < 0.50$: matig effect
* $|r| > 0.50$: sterk effect
Effectgrootte maakt resultaten gemakkelijker te interpreteren en te communiceren, omdat het de impact van een interventie of variabele directer weergeeft.
### 5.2 Parametrische versus nonparametrische toetsen
Statistische toetsen kunnen worden onderverdeeld in twee hoofdcategorieën, afhankelijk van de aannames die ze maken over de populatie waaruit de steekproef is getrokken.
#### 5.2.1 Parametrische toetsen
Parametrische toetsen maken specifieke aannames over de parameters van de populatie, met name over de verdeling van de data.
* **Aannames:** De belangrijkste aanname is vaak dat de data uit een populatie komen die normaal verdeeld is (of dat de steekproeven groot genoeg zijn voor het centrale limietstelling om te gelden). Andere mogelijke aannames zijn homogeniteit van varianties en onafhankelijkheid van waarnemingen.
* **Voorbeelden:** De $z$-toets voor het gemiddelde, de $t$-toetsen, de $F$-toets (ANOVA).
* **Voordelen:** Parametrische toetsen zijn over het algemeen krachtiger dan nonparametrische toetsen wanneer aan de aannames is voldaan, wat betekent dat ze een grotere kans hebben om een werkelijk effect te detecteren.
#### 5.2.2 Nonparametrische toetsen
Nonparametrische toetsen, ook wel "verdelingsvrije toetsen" genoemd, maken minder of geen aannames over de populatieverdeling.
* **Aannames:** Ze vereisen geen normaliteitsassumptie en zijn daarom geschikt wanneer de data niet normaal verdeeld zijn, of wanneer er sprake is van kleine steekproefgroottes waarvoor de centrale limietstelling niet volstaat. Ze zijn ook nuttig bij ordinale of nominale data.
* **Voorbeelden:** De Mann-Whitney U-toets (alternatief voor onafhankelijke $t$-toets), de Wilcoxon signed-rank test (alternatief voor gepaarde $t$-toets), de chi-kwadraat toets.
* **Nadelen:** Ze kunnen minder krachtig zijn dan parametrische toetsen wanneer de aannames van de parametrische toetsen wel voldaan zijn.
> **Tip:** De keuze tussen een parametrische en een nonparametrische toets hangt af van de aard van de data en of de onderliggende aannames van de parametrische toetsen zijn geschonden. Als de aannames niet voldaan zijn, kan een nonparametrische toets een betrouwbaardere conclusie opleveren.
#### 5.2.3 Belang van de keuze
De keuze van de toets is cruciaal voor de validiteit van de statistische conclusies. Het correct toepassen van de juiste toets, gebaseerd op de data en de onderzoeksvraag, is essentieel voor betrouwbare resultaten.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Populatiegemiddelde | Het gemiddelde van een bepaalde variabele over de gehele populatie waarover men uitspraken wil doen. Dit is vaak onbekend en wordt geschat op basis van steekproefgegevens. |
| Betrouwbaarheidsinterval (BI) | Een intervalschatting die een reeks waarden weergeeft waarvan men met een bepaalde mate van zekerheid kan zeggen dat het populatiegemiddelde erin ligt. Een 95% BI betekent dat als men het proces van steekproeftrekking en intervalconstructie 100 keer zou herhalen, ongeveer 95 van deze intervallen het werkelijke populatiegemiddelde zouden bevatten. |
| Puntestimatie | Een enkele waarde die als schatting voor een populatieparameter dient. In tegenstelling tot een betrouwbaarheidsinterval geeft een puntschatting geen indicatie van de onzekerheid rond de schatting. |
| Steekproef | Een subset van de populatie die wordt geselecteerd voor onderzoek. De eigenschappen van de steekproef worden gebruikt om conclusies te trekken over de populatie. |
| Steekproevenverdeling | De verdeling van een statistiek (zoals het gemiddelde) berekend uit meerdere steekproeven van dezelfde omvang uit dezelfde populatie. Deze verdeling is cruciaal voor hypothesetoetsing en het construeren van betrouwbaarheidsintervallen. |
| Nulhypothese (H0) | Een statistische hypothese die stelt dat er geen significant verschil of verband is tussen twee groepen of variabelen. Het is de hypothese die men initieel aanneemt en probeert te weerleggen met steekproefgegevens. |
| Alternatieve hypothese (H1) | Een statistische hypothese die stelt dat er wel een significant verschil of verband is tussen twee groepen of variabelen. Deze hypothese wordt aangenomen als de nulhypothese significant wordt verworpen. |
| Alfa (α) | Het significantieniveau dat wordt gebruikt om de nulhypothese te verwerpen. Meestal ingesteld op 0.05 (5%), wat betekent dat er een 5% kans is op het maken van een Type I fout (het verwerpen van een ware nulhypothese). |
| Overschrijdingskans (p-waarde) | De kans om een steekproefresultaat te observeren dat minstens zo extreem is als het gevonden resultaat, ervan uitgaande dat de nulhypothese waar is. Een p-waarde kleiner dan alfa leidt tot het verwerpen van de nulhypothese. |
| Eenzijdig toetsen | Een type hypothesetoets waarbij men zich richt op een specifiek richting van een verschil of verband (bijvoorbeeld groter dan of kleiner dan). Dit wordt gebruikt wanneer er een duidelijke theoretische reden is om eenrichtingsverwachtingen te hebben. |
| Tweezijdig toetsen | Een type hypothesetoets waarbij men rekening houdt met verschillen of verbanden in beide richtingen (bijvoorbeeld niet gelijk aan). Dit is de standaardbenadering wanneer er geen specifieke richting wordt verwacht. |
| Kritieke waarde | Een drempelwaarde in de verdeling van een toetsingsgrootheid. Als de berekende toetsingsgrootheid (bijvoorbeeld Z-score) groter is in absolute waarde dan de kritieke waarde, wordt de nulhypothese verworpen. |
| Effectgrootte | Een maat die aangeeft hoe groot of hoe belangrijk een waargenomen effect is, onafhankelijk van de steekproefomvang. Het kwantificeert de mate van verschil of de sterkte van een verband, wat helpt bij het interpreteren van de praktische relevantie van resultaten. |
| Parametrische toetsen | Statistische toetsen die aannames doen over de verdeling van de populatieparameters (bijvoorbeeld normaliteit, gelijke varianties). Voorbeelden zijn de t-toets en de Z-toets. |
| Nonparametrische toetsen | Statistische toetsen die minder strikte aannames doen over de populatieverdeling. Ze worden vaak gebruikt wanneer de voorwaarden voor parametrische toetsen niet zijn voldaan. Voorbeelden zijn de Mann-Whitney U-toets en de chi-kwadraattoets. |