Cover
Börja nu gratis Student - Hoorcollege 5 - Toetsen voor één populatie.pptx
Summary
# Inleiding tot hypothesetoetsing en de keuze van toetsen
Dit gedeelte introduceert het concept van hypothesetoetsing, de verschillende soorten toetsen, en de criteria om de juiste statistische toets te kiezen op basis van de onderzoeksvraag en variabelen.
## 1. Inleiding tot hypothesetoetsing en de keuze van toetsen
Hypothesetoetsing is een statistische methode die gebruikt wordt om te bepalen of een bepaalde aanname over een populatie (de nulhypothese) verworpen kan worden op basis van steekproefgegevens. De kern van elke hypothesetoets is het gebruik van kansberekening om te evalueren of de waargenomen resultaten overeenkomen met wat verwacht mag worden onder de aanname van de nulhypothese.
### 1.1 Het stramien van toetsen
Elke hypothesetoets volgt een gestructureerd stappenplan om tot een conclusie te komen:
1. **Toetsingssituatie**: Identificeren van de gegevens en de specifieke onderzoeksvraag die beantwoord moet worden. Dit omvat het vaststellen van het type onderzoeksvraag en de context waarin de toets wordt toegepast.
2. **Voorwaarden**: Nagaan of aan de statistische voorwaarden voor de gekozen toets is voldaan. Deze voorwaarden zijn cruciaal voor de validiteit van de resultaten.
3. **Hypothesen**: Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$). De nulhypothese representeert de status quo of de aanname die getest wordt, terwijl de alternatieve hypothese de theorie representeert die men hoopt te ondersteunen.
4. **Toetsingsgrootheid**: Berekenen van de toetsingsgrootheid, een waarde die de mate van afwijking van de nulhypothese samenvat. De kansverdeling van deze grootheid onder de nulhypothese is essentieel.
5. **Beslissingsregel**: Bepalen wanneer de nulhypothese verworpen wordt, meestal door te vergelijken met een kritieke waarde of door de overschrijdingskans (p-waarde) te beoordelen.
6. **Effectgrootte**: Berekenen van de effectgrootte om de sterkte of het belang van het gevonden effect te kwantificeren, onafhankelijk van de significantie.
7. **Rapporteren**: Op een correcte en volledige manier rapporteren van de resultaten van de toets, inclusief de toetsingsgrootheid, p-waarde, vrijheidsgraden en effectgrootte.
### 1.2 Criteria voor het kiezen van de juiste toets
De keuze voor de juiste statistische toets hangt af van verschillende factoren gerelateerd aan de onderzoeksvraag en de variabelen:
* **Onderzoeksvraag**: Begrijpen wat precies onderzocht wordt.
* **Variabelen**: Identificeren van afhankelijke en onafhankelijke variabelen.
* **Meetniveau van variabelen**: Bepalen of variabelen nominaal, ordinaal, interval of ratio zijn.
* **Aantal populaties**: Onderzoeken of de toets betrekking heeft op één, twee of meer populaties.
* **Steekproeven**: Vaststellen of de steekproeven afhankelijk of onafhankelijk zijn.
* **Parametrisch vs. Non-parametrisch**: Kiezen tussen parametrische toetsen (die aannames doen over de populatieverdeling, zoals normaliteit) en non-parametrische toetsen (die minder strikte aannames hebben).
* **Eenzijdig vs. Tweezijdig**: Beslissen of de alternatieve hypothese een specifieke richting van het effect voorspelt (eenzijdig) of enkel een verschil aangeeft (tweezijdig).
### 1.3 Parametrische toetsen: de t-toets voor één gemiddelde (One Sample t-test)
De t-toets voor één gemiddelde wordt gebruikt om te onderzoeken of het gemiddelde van een steekproef significant afwijkt van een bekende populatiewaarde, wanneer de populatiestandaarddeviatie onbekend is.
#### 1.3.1 Toetsingssituatie
Deze toets is geschikt wanneer men het gemiddelde van één steekproef uit één populatie wil vergelijken met een specifieke waarde (bijvoorbeeld een theoretisch gemiddelde of een historisch gemiddelde). De toets kan eenzijdig (links of rechts) of tweezijdig worden uitgevoerd.
> **Voorbeeld**: Een fabrikant beweert dat hun chocoladerepen gemiddeld 300 gram wegen. Om dit te controleren, wordt een steekproef van 40 repen gewogen. De vraag is of het gemiddelde gewicht van deze steekproef significant afwijkt van de geclaimde 300 gram. Dit is een tweezijdige toets, omdat men geïnteresseerd is in zowel afwijkingen naar boven als naar beneden.
#### 1.3.2 Voorwaarden
De belangrijkste voorwaarden voor het gebruik van de t-toets voor één gemiddelde zijn:
* De afhankelijke variabele is normaal verdeeld in de populatie. Als dit niet het geval is, is de toets robuust bij een steekproefgrootte ($N$) van 30 of meer.
* De afhankelijke variabele is gemeten op minstens intervalniveau (bv. gewicht, IQ-score, score op een taak).
#### 1.3.3 Waarom een t-toets en geen z-toets?
De z-toets wordt gebruikt wanneer de populatiestandaarddeviatie ($\sigma$) bekend is. In veel praktische situaties is $\sigma$ echter onbekend en moet deze geschat worden met de steekproefstandaarddeviatie ($s$). De t-toets is ontworpen voor deze situaties, met name bij kleinere steekproeven ($N < 100$). Bij zeer grote steekproeven ($N \geq 100$) benadert de t-verdeling de normale verdeling, waardoor de resultaten van een t-toets en z-toets vergelijkbaar worden.
#### 1.3.4 Hypothesen
* **Eenzijdig (links)**:
* $H_0$: Het populatiegemiddelde is gelijk aan of groter dan de referentiewaarde.
* $H_1$: Het populatiegemiddelde is kleiner dan de referentiewaarde.
* **Eenzijdig (rechts)**:
* $H_0$: Het populatiegemiddelde is gelijk aan of kleiner dan de referentiewaarde.
* $H_1$: Het populatiegemiddelde is groter dan de referentiewaarde.
* **Tweezijdig**:
* $H_0$: Het populatiegemiddelde is gelijk aan de referentiewaarde.
* $H_1$: Het populatiegemiddelde is niet gelijk aan de referentiewaarde.
#### 1.3.5 Toetsingsgrootheid
De t-statistiek wordt berekend met de volgende formule:
$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{N}}$$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de hypothetische populatiewaarde is.
* $s$ de steekproefstandaarddeviatie is.
* $N$ de steekproefgrootte is.
De t-toets maakt gebruik van de t-verdeling, die afhankelijk is van de vrijheidsgraden.
#### 1.3.6 Vrijheidsgraden
De vrijheidsgraden ($df$) voor de one sample t-test worden berekend als:
$$df = N - 1$$
De vrijheidsgraden bepalen de specifieke vorm van de t-verdeling en beïnvloeden de kritieke waarden.
#### 1.3.7 Beslissingsregel (Kritieke waarden en p-waarde)
De nulhypothese wordt verworpen als:
* De berekende t-waarde groter is dan de kritieke t-waarde (voor rechtseenzijdig) of kleiner is dan de kritieke t-waarde (voor linkseenzijdig).
* Voor een tweezijdige toets, de absolute waarde van de berekende t-waarde groter is dan de kritieke t-waarde die hoort bij $\alpha/2$.
* De overschrijdingskans (p-waarde) kleiner is dan het gekozen significantieniveau ($\alpha$).
> **Voorbeeld**: Een studie met $N = 29$ en een significantieniveau van $\alpha = 0.05$. De vrijheidsgraden zijn $df = 29 - 1 = 28$. Voor een rechtseenzijdige toets, met $\alpha = 0.05$ en $df = 28$, is de kritieke waarde ongeveer 1.701. Als de berekende t-score $1.28$ is, wordt de nulhypothese niet verworpen omdat $1.28 < 1.701$.
Bij een tweezijdige toets met dezelfde parameters, is de kritieke waarde voor $|t|$ ongeveer 2.048. Als de berekende t-score $1.28$ is, wordt de nulhypothese niet verworpen omdat $|1.28| < 2.048$.
#### 1.3.8 Effectgrootte
Effectgrootte meet de omvang van het effect en wordt vaak uitgedrukt met $r$:
* $0.10 < r < 0.30$: klein effect
* $0.30 < r < 0.50$: matig effect
* $r > 0.50$: sterk effect
> **Voorbeeld**: Een t-toets leverde $t(28) = 1.28$, $p > 0.05$, en een effectgrootte van $r = 0.2351$ (klein effect). Dit betekent dat er weliswaar een indicatie is van een effect, maar dit is niet statistisch significant en van geringe omvang.
#### 1.3.9 Rapporteren
Een correcte rapportage van een one sample t-test omvat:
* De toetsingssituatie en de uitgevoerde toets.
* Het steekproefgemiddelde ($M$) en de standaarddeviatie ($SD$).
* De referentiewaarde uit de populatie.
* De berekende t-statistiek met vrijheidsgraden: $t(df) = \text{waarde}$.
* De p-waarde ($p$).
* De effectgrootte ($r$).
> **Voorbeeld**: Om na te gaan of vaders uit grote gezinnen een gemiddelde intelligentie hebben, werd een one sample t-test uitgevoerd. Gemiddeld hadden de vaders uit de steekproef een hogere intelligentie ($M = 102.93$, $SD = 12.36$) dan de referentiewaarde 100 uit de populatie. Dit effect was niet significant met $t(28) = 1.28$, $p > 0.05$, $r = 0.2351$ (klein effect).
#### 1.3.10 Opmerkingen over t-toets vs. z-toets in software (SPSS)
Software zoals SPSS voert standaard een t-toets uit omdat de populatiestandaarddeviatie zelden bekend is. Belangrijk is dat de overschrijdingskansen (p-waarden) bij een t-toets over het algemeen groter zijn dan bij een z-toets. Dit betekent:
* **Type I-fout (alpha)**: De kans op een Type I-fout (onterecht verwerpen van $H_0$) is kleiner bij een t-toets dan bij een z-toets, omdat de drempel voor significantie hoger is.
* **Type II-fout (beta)**: De kans op een Type II-fout (onterecht aanvaarden van $H_0$) is groter bij een t-toets. Een echt effect kan minder snel gedetecteerd worden door de bredere t-verdeling.
### 1.4 Non-parametrische toetsen: de chikwadraattoets voor frequenties (Chi-square goodness of fit test)
De chikwadraattoets voor frequenties is een non-parametrische toets die wordt gebruikt wanneer de afhankelijke variabele categorisch is (nominaal of ordinaal) en men de geobserveerde frequenties in categorieën vergelijkt met verwachte frequenties.
#### 1.4.1 Toetsingssituatie
Deze toets is geschikt wanneer men wil nagaan of de frequentieverdeling in een steekproef overeenkomt met een verwachte verdeling uit de populatie. De variabelen worden hierbij als categorieën beschouwd, zelfs als ze oorspronkelijk ordinaal waren.
> **Voorbeeld**: Men onderzoekt of een specifieke klas van 7-8 jarigen afwijkt van de algemene populatie qua leesniveau (AVI-niveaus). Van de 26 leerlingen lezen 9 (34.62%) op AVI 5-niveau. Uit eerder onderzoek blijkt dat 23% van de 7-8 jarigen in de algemene populatie op AVI 5-niveau leest. De vraag is of deze klas uitzonderlijk is qua leesniveau vergeleken met de populatie. Dit is een test voor geobserveerde versus verwachte frequenties.
#### 1.4.2 Voorwaarden
De voorwaarden voor de chikwadraattoets voor frequenties zijn:
* De categorieën moeten elkaar uitsluiten.
* Maximaal 20% van de categorieën mag een verwachte frequentie kleiner dan 5 hebben.
* Geen enkele categorie mag een verwachte frequentie kleiner dan 1 hebben.
* Ordinale variabelen worden als nominale variabelen (categorieën) behandeld.
#### 1.4.3 Hypothesen
* $H_0$: De geobserveerde frequenties komen overeen met de verwachte frequenties.
* $H_1$: De geobserveerde frequenties wijken significant af van de verwachte frequenties.
#### 1.4.4 Toetsingsgrootheid
De chikwadraat ($\chi^2$) statistiek wordt berekend met de formule:
$$\chi^2 = \sum_{i=1}^{k} \frac{(f_{o,i} - f_{e,i})^2}{f_{e,i}}$$
waarbij:
* $f_o$ de geobserveerde frequenties zijn.
* $f_e$ de verwachte frequenties zijn.
* $k$ het aantal categorieën is.
De toetsingsgrootheid volgt een $\chi^2$-verdeling.
#### 1.4.5 Vrijheidsgraden
De vrijheidsgraden ($df$) voor de chikwadraattoets voor frequenties worden berekend als:
$$df = k - 1$$
waarbij $k$ het aantal categorieën is. Dit verschilt van de $df = N-1$ bij de t-toets.
#### 1.4.6 Beslissingsregel
De nulhypothese wordt verworpen als:
* De berekende $\chi^2$-waarde groter is dan de kritieke $\chi^2$-waarde voor het gekozen significantieniveau ($\alpha$) en de berekende vrijheidsgraden.
* De overschrijdingskans (p-waarde) kleiner is dan $\alpha$.
De $\chi^2$-toets is per definitie altijd tweezijdig, omdat de toetsingsgrootheid altijd positief is en de verdeling zich uitstrekt van 0 tot oneindig. Men kijkt dus altijd naar de rechterstaart van de verdeling.
> **Voorbeeld**: Bij een $\alpha = 0.05$ en $df = 1$ (twee categorieën), is de kritieke $\chi^2$-waarde 3.84. Als de berekende $\chi^2$-statistiek $1.95$ is, wordt de nulhypothese niet verworpen omdat $1.95 < 3.84$.
#### 1.4.7 Effectgrootte
De effectgrootte voor de chikwadraattoets is vaak "phi" ($\phi$):
* $0.10 < \phi < 0.30$: klein effect
* $0.30 < \phi < 0.50$: matig effect
* $\phi > 0.50$: sterk effect
#### 1.4.8 Rapporteren
Een correcte rapportage van een chikwadraattoets voor frequenties omvat:
* De toetsingssituatie en de uitgevoerde toets.
* De geobserveerde en verwachte frequenties per categorie.
* De berekende $\chi^2$-statistiek met vrijheidsgraden: $\chi^2(df) = \text{waarde}$.
* De p-waarde ($p$).
* De effectgrootte ($\phi$).
> **Voorbeeld**: Om na te gaan of de leesniveaus in een klas afwijken van de populatie, werd een chikwadraattoets voor frequenties uitgevoerd. De geobserveerde frequentie van leerlingen op AVI 5-niveau was 9, tegenover een verwachte frequentie van 6. De toets gaf $\chi^2(1) = 1.95$, $p > 0.05$, $\phi = 0.27$ (klein effect).
### 1.5 Conclusie: overzicht van toetsen voor één populatie
| Type Toets | Afhankelijke Variabele | Populatie(s) | Steekproef(en) | Toets Naam | Kenmerken |
| :--------------------------- | :--------------------- | :----------- | :------------- | :----------------------------- | :------------------------------------------------------ |
| **Parametrisch** | Minstens interval | 1 | 1 | T-toets voor één gemiddelde | $\sigma$ onbekend, normale verdeling (of $N \geq 30$) |
| | | | | (One Sample t-test) | Eenzijdig/tweezijdig mogelijk |
| **Non-parametrisch** | Categorisch (nominaal/ordinaal) | 1 | 1 | Chikwadraattoets voor frequenties | Vergelijkt geobserveerde met verwachte frequenties |
| | | | | (Chi square goodness of fit) | Altijd tweezijdig, $df = k-1$ |
De keuze tussen deze toetsen hangt cruciaal af van het meetniveau van de afhankelijke variabele en de specifieke onderzoeksvraag.
---
# De t-toets voor één gemiddelde
2. De t-toets voor één gemiddelde
Dit onderwerp behandelt de parametrische t-toets voor één gemiddelde, inclusief de stappen van het toetsingsproces, de voorwaarden, hypothesen, toetsingsgrootheid, beslissingsregels, effectgrootte en rapportering.
### 2.1 Inleiding tot hypothesetoetsing
Hypothesetoetsing omvat diverse toetsen die, ondanks hun variërende formules en toepassingsgebieden, hetzelfde principe hanteren: het beoordelen van de houdbaarheid van de nulhypothese aan de hand van kansberekening. Binnen de hypothesetoetsing worden parametrische en non-parametrische toetsen onderscheiden.
### 2.2 Het stramien van hypothesetoetsen
Het algemene proces voor het uitvoeren van een hypothesetoets bestaat uit de volgende stappen:
1. **Toetsingssituatie**: Bepalen van de specifieke situatie en het onderzoeksvraagstuk.
2. **Voorwaarden**: Nagaan of aan de statistische voorwaarden voor de gekozen toets is voldaan.
3. **Hypothesen**: Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$).
4. **Toetsingsgrootheid**: Berekenen van de toetsingsgrootheid en bepalen van de bijbehorende kansverdeling.
5. **Beslissingsregel**: Vaststellen van de criteria om de nulhypothese te verwerpen, gebaseerd op overschrijdingskansen of kritieke waarden.
6. **Effectgrootte**: Kwantificeren van de belangrijkheid of sterkte van het gevonden effect.
7. **Rapporteren**: Correct presenteren van de onderzoeksresultaten.
### 2.3 De t-toets voor één gemiddelde (One-sample t-test)
De t-toets voor één gemiddelde wordt gebruikt om te onderzoeken of een steekproefgemiddelde significant afwijkt van een bepaalde (populatie)waarde binnen één enkele populatie.
#### 2.3.1 Toetsingssituatie
De t-toets voor één gemiddelde is van toepassing wanneer de onderzoeksvraag luidt of een steekproefgemiddelde significant afwijkt van een specifieke waarde in de populatie. Men kan zowel eenzijdige als tweezijdige toetsen toepassen.
> **Voorbeeld:** Een fabrikant beweert dat chocoladerepen gemiddeld 300 gram wegen. Om dit te controleren, worden 40 repen gewogen en wordt het steekproefgemiddelde vergeleken met de geclaimde 300 gram. Dit is een tweezijdige toets, omdat men wil weten of het gewicht significant *afwijkt* van 300 gram (dus zowel eronder als erboven).
#### 2.3.2 Voorwaarden
Voor het correct toepassen van de t-toets voor één gemiddelde moet aan de volgende voorwaarden worden voldaan:
* De afhankelijke variabele is normaal verdeeld in de populatie. Indien de populatieverdeling niet normaal is, is de toets nog steeds bruikbaar als de steekproefomvang ($N$) groter of gelijk is aan 30.
* De afhankelijke variabele is gemeten op minstens intervalniveau (bijvoorbeeld gewicht, IQ-scores, lengte, score op een taak).
#### 2.3.3 Waarom de t-toets in plaats van de Z-toets?
De Z-toets is doorgaans niet geschikt voor kleinere steekproeven ($N < 100$) omdat de populatiestandaarddeviatie ($\sigma$) vaak onbekend is. In plaats daarvan wordt de standaarddeviatie van de steekproef ($s$) gebruikt. De t-toets gebruikt de steekproefstandaarddeviatie en hanteert een t-verdeling die afhankelijk is van de steekproefomvang. Bij grote steekproeven ($N \ge 100$) leveren de t-toets en de Z-toets vergelijkbare resultaten op.
#### 2.3.4 Hypothesen
De hypothesen voor de t-toets voor één gemiddelde kunnen als volgt geformuleerd worden:
* **Linkseenzijdig:**
* $H_0$: Het populatiegemiddelde is gelijk aan of groter dan de referentiewaarde ($\mu \ge \mu_0$).
* $H_1$: Het populatiegemiddelde is kleiner dan de referentiewaarde ($\mu < \mu_0$).
* **Rechtseenzijdig:**
* $H_0$: Het populatiegemiddelde is gelijk aan of kleiner dan de referentiewaarde ($\mu \le \mu_0$).
* $H_1$: Het populatiegemiddelde is groter dan de referentiewaarde ($\mu > \mu_0$).
* **Tweezijdig:**
* $H_0$: Het populatiegemiddelde is gelijk aan de referentiewaarde ($\mu = \mu_0$).
* $H_1$: Het populatiegemiddelde is niet gelijk aan de referentiewaarde ($\mu \neq \mu_0$).
#### 2.3.5 Toetsingsgrootheid
De toetsingsgrootheid voor de t-toets voor één gemiddelde wordt berekend met de volgende formule:
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{N}} $$
Waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de hypothetische populatiewaarde is onder de nulhypothese.
* $s$ de standaarddeviatie van de steekproef is.
* $N$ de steekproefomvang is.
De t-toets maakt gebruik van de t-verdeling, die verschilt van de standaardnormale verdeling (Z-verdeling) en afhankelijk is van de vrijheidsgraden.
**Vrijheidsgraden (df):**
De vrijheidsgraden voor de t-toets worden berekend als $df = N - 1$. Dit aantal bepaalt de specifieke t-verdeling die gebruikt wordt en dus ook de kritieke t-waarde.
> **Voorbeeld:** Bij een onderzoek met een steekproefomvang van $N = 100$ bedragen de vrijheidsgraden $df = 100 - 1 = 99$.
#### 2.3.6 Beslissingsregel
De beslissingsregel houdt in dat de nulhypothese ($H_0$) wordt verworpen als de berekende toetsingsgrootheid (t-score) buiten het acceptatiegebied valt, wat kan worden vastgesteld aan de hand van:
* **Overschrijdingskansen (p-waarde):** Als de p-waarde kleiner is dan het significantieniveau ($\alpha$), wordt $H_0$ verworpen.
* **Kritieke waarden:** Als de berekende t-score groter is dan de kritieke t-waarde (bij rechtseenzijdige toets) of kleiner is dan de negatieve kritieke t-waarde (bij linkseenzijdige toets), of als de absolute waarde van de t-score groter is dan de kritieke t-waarde (bij tweezijdige toets), wordt $H_0$ verworpen.
Bij een tweezijdige toets worden de kansen in beide staarten van de symmetrische t-verdeling in acht genomen. Als het significantieniveau $\alpha$ is, wordt vergeleken met $\alpha/2$ in elke staart.
> **Voorbeeld:** Bij een eenzijdige toets met $\alpha = 0.05$ en $df = 28$, is de kritieke t-waarde gelijk aan 1.701. Als de berekende t-score $t = 1.28$ is, wordt $H_0$ niet verworpen omdat $1.28 < 1.701$. Bij een tweezijdige toets met dezelfde parameters wordt vergeleken met een kritieke waarde van $t_{kritiek} = 2.048$. De t-score van 1.28 valt binnen het acceptatiegebied (-2.048 tot +2.048), waardoor $H_0$ niet verworpen wordt.
#### 2.3.7 Gevolgen voor Type I en Type II fouten
* **Type I fout ( $\alpha$ ):** De kans op een Type I fout is *kleiner* bij een t-toets dan bij een Z-toets. Dit komt doordat de overschrijdingskansen (p-waarden) bij een t-toets over het algemeen groter zijn, wat de kans verkleint dat een nulhypothese ten onrechte wordt verworpen.
* **Type II fout ( $\beta$ ):** De kans op een Type II fout is *groter* bij een t-toets dan bij een Z-toets. De bredere staarten van de t-verdeling vergroten de kans dat een werkelijk bestaand effect niet wordt gedetecteerd.
#### 2.3.8 Effectgrootte
De effectgrootte kwantificeert de sterkte van een gevonden effect, onafhankelijk van de significantie. Voor de t-toets voor één gemiddelde wordt vaak de effectgrootte $r$ gebruikt, die interpreteerbaar is als volgt:
* $0.10 < r < 0.30$: klein effect
* $0.30 < r < 0.50$: matig effect
* $r > 0.50$: sterk effect
> **Voorbeeld:** De resultaten van een one-sample t-test tonen een gemiddelde intelligentie van $M = 102.93$ met $SD = 12.36$ bij vaders uit grote gezinnen, vergeleken met een referentiewaarde van 100. Het effect was niet significant met $t(28) = 1.28, p > .05$, maar de effectgrootte was $r = .2351$, wat duidt op een klein effect. Dit betekent dat hoewel er een licht verhoogd gemiddelde werd gevonden, dit verschil niet groot genoeg was om statistisch significant te zijn.
#### 2.3.9 Rapporteren
Bij het rapporteren van de resultaten van een t-toets voor één gemiddelde worden de volgende elementen vermeld: de uitgevoerde toets, het gemiddelde en de standaarddeviatie van de steekproef, de referentiewaarde, de t-score, de vrijheidsgraden, de p-waarde, en de effectgrootte.
> **Voorbeeld van rapportage:** "Om na te gaan of vaders uit grote gezinnen een gemiddelde intelligentie hebben, werd een one-sample t-test uitgevoerd. Gemiddeld hadden de vaders uit de steekproef een hogere intelligentie ($M = 102.93, SD = 12.36$) dan de referentiewaarde van 100 uit de populatie. Dit effect was echter niet significant met $t(28) = 1.28, p > .05$, met een kleine effectgrootte van $r = .2351$."
### 2.4 Parametrisch versus Non-parametrisch
De t-toets is een **parametrische toets**, wat betekent dat deze gebaseerd is op aannames over de parameters van de populatie, zoals de normale verdeling. Als aan de voorwaarden voor een parametrische toets niet kan worden voldaan, bijvoorbeeld omdat de afhankelijke variabele categorisch is (nominaal of ordinaal) en er met frequenties wordt gewerkt, wordt een **non-parametrische toets** zoals de chikwadraattoets voor frequenties overwogen.
---
# De chikwadraattoets voor frequenties
Hieronder volgt een gedetailleerde studiehandleiding voor de chikwadraattoets voor frequenties.
## 3. De chikwadraattoets voor frequenties
Deze non-parametrische toets wordt gebruikt om te bepalen of de geobserveerde frequenties van een categorische variabele significant afwijken van de verwachte frequenties binnen één populatie.
### 3.1 Toetsingssituatie
De chikwadraattoets voor frequenties (ook wel chi-kwadraattoets voor één steekproef of chi square goodness of fit test genoemd) wordt toegepast wanneer je onderzoeksvraag draait om de verdeling van geobserveerde frequenties over verschillende categorieën van een variabele en je deze wilt vergelijken met een verwachte verdeling. Dit is met name relevant wanneer de afhankelijke variabele categorisch is (nominaal of ordinaal) en je de frequenties binnen deze categorieën bestudeert. Parametrische toetsen, zoals de t-toets, vereisen doorgaans variabelen op minstens intervalniveau.
**Voorbeeld:** Stel je voor dat je wilt onderzoeken of een specifieke klas van 7-8 jarigen een uitzonderlijk leesniveau heeft in vergelijking met de algemene populatie. Je observeert dat 9 van de 26 leerlingen (ongeveer 34,62%) op AVI-niveau 5 lezen. Uit eerder onderzoek weet je dat dit percentage in de algemene populatie 23% is. Je wilt weten of de geobserveerde frequenties in deze klas overeenkomen met de verwachte frequenties op basis van de populatiegegevens.
In dit voorbeeld is het AVI-niveau een ordinale variabele, maar voor deze toets wordt deze behandeld als een nominale variabele met geobserveerde frequenties.
### 3.2 Voorwaarden
Om de chikwadraattoets voor frequenties correct toe te passen, moet aan de volgende voorwaarden worden voldaan:
* **Onafhankelijke categorieën:** De categorieën van de variabele waarvan de frequenties worden bestudeerd, moeten elkaar uitsluiten. Een observatie kan slechts in één categorie vallen.
* **Verwachte frequenties:**
* Maximaal 20% van de categorieën mag een verwachte frequentie kleiner dan 5 hebben.
* Geen enkele categorie mag een verwachte frequentie kleiner dan 1 hebben.
* **Variabele type:** Ordinale variabelen worden beschouwd als nominale variabelen (categorieën) bij deze toets.
### 3.3 Hypothesen
Bij de chikwadraattoets voor frequenties worden de volgende hypothesen geformuleerd:
* **Nulhypothese ($H_0$):** Er is geen significant verschil tussen de geobserveerde frequenties en de verwachte frequenties. De steekproefverdeling komt overeen met de verwachte populatieverdeling.
$$H_0: f_o = f_e$$
* **Alternatieve hypothese ($H_1$):** Er is een significant verschil tussen de geobserveerde frequenties en de verwachte frequenties. De steekproefverdeling wijkt af van de verwachte populatieverdeling.
$$H_1: f_o \neq f_e$$
De chikwadraattoets is per definitie altijd een tweezijdige toets, omdat de toetsingsgrootheid enkel positieve waarden kan aannemen en dus altijd naar de rechterstaart wordt gekeken.
### 3.4 Toetsingsgrootheid
De toetsingsgrootheid voor de chikwadraattoets voor frequenties is de chikwadraatstatistiek, aangeduid met het symbool $\chi^2$. Deze wordt berekend met de volgende formule:
$$ \chi^2 = \sum_{i=1}^{k} \frac{(f_{o,i} - f_{e,i})^2}{f_{e,i}} $$
Waarin:
* $f_{o,i}$ staat voor de geobserveerde frequentie in categorie $i$.
* $f_{e,i}$ staat voor de verwachte frequentie in categorie $i$.
* $k$ staat voor het aantal categorieën.
De $\chi^2$-statistiek volgt een chikwadraatverdeling met $df = k - 1$ vrijheidsgraden. Dit is een belangrijk verschil met de $df$ bij de t-toets, die berekend wordt als $N-1$.
### 3.5 Beslissingsregels
De beslissing om de nulhypothese te verwerpen wordt genomen op basis van een significantieniveau ($\alpha$) en de berekende $\chi^2$-waarde in relatie tot de kritieke waarde uit de $\chi^2$-verdeling, of via de overschrijdingskans (p-waarde).
* **Via kritieke waarden:** Als de berekende $\chi^2$-waarde groter is dan de kritieke $\chi^2$-waarde die hoort bij het gekozen $\alpha$-niveau en het aantal vrijheidsgraden, wordt $H_0$ verworpen.
* **Via overschrijdingskansen:** Als de berekende p-waarde kleiner is dan het gekozen $\alpha$-niveau, wordt $H_0$ verworpen.
**Let op:** De vorm van de chikwadraatverdeling is scheef naar rechts, met waarden die lopen van 0 tot oneindig. De tabellen met kritieke waarden voor de $\chi^2$-verdeling geven doorgaans de "rechter kritieke waarde" weer, wat aansluit bij de tweezijdige aard van de toets.
**Voorbeeld berekening en beslissing:**
Stel, voor het AVI-5 voorbeeld:
* Geobserveerde frequentie ($f_o$) voor AVI-5 of hoger: 9
* Verwachte frequentie ($f_e$) voor AVI-5 of hoger: 6 (gebaseerd op 23% van 26 leerlingen)
* Geobserveerde frequentie ($f_o$) voor AVI-5 of lager: 17
* Verwachte frequentie ($f_e$) voor AVI-5 of lager: 20
Met 2 categorieën (AVI-5 of hoger, AVI-5 of lager), is het aantal vrijheidsgraden $df = 2 - 1 = 1$. Bij een significantieniveau van $\alpha = 0.05$ is de kritieke $\chi^2$-waarde uit de tabel 3.84.
De berekende $\chi^2$-statistiek is $\frac{(9-6)^2}{6} + \frac{(17-20)^2}{20} = \frac{9}{6} + \frac{9}{20} = 1.5 + 0.45 = 1.95$.
Aangezien $1.95 < 3.84$, wordt de nulhypothese niet verworpen. Dit betekent dat het waargenomen leesniveau in deze klas niet significant afwijkt van het populatieniveau.
### 3.6 Effectgrootte
De p-waarde vertelt ons of een verschil significant is, maar niets over de omvang of het belang van het gevonden effect. Daarom berekenen we de effectgrootte. Voor de chikwadraattoets voor frequenties wordt vaak de effectgrootte "Phi" ($\phi$) gebruikt, die vergelijkbaar is met Cohen's $r$ in andere contexten.
De interpretatie van $\phi$ is als volgt:
* $0.10 < \phi < 0.30$: Klein effect
* $0.30 < \phi < 0.50$: Matig effect
* $\phi > 0.50$: Sterk effect
In het AVI-voorbeeld, waar de $\chi^2$-waarde 1.95 was, zou de berekende $\phi$ wijzen op de sterkte van het gevonden (niet-significante) verschil.
### 3.7 Rapporteren
Bij het rapporteren van de resultaten van een chikwadraattoets voor frequenties worden doorgaans de volgende elementen opgenomen: de toetsingssituatie, de geobserveerde en verwachte frequenties, de berekende $\chi^2$-waarde, het aantal vrijheidsgraden, de p-waarde, de effectgrootte en de conclusie met betrekking tot de nulhypothese.
**Voorbeeld van rapportage:**
Om na te gaan of het geobserveerde leesniveau (AVI-5) in een klas significant afwijkt van het populatieniveau, werd een chikwadraattoets voor frequenties uitgevoerd. In de steekproef van 26 leerlingen lazen 9 leerlingen op AVI-5 niveau of hoger (geobserveerde frequentie $f_o = 9$), terwijl de verwachte frequentie op basis van populatiegegevens 6 was ($f_e = 6$). Voor de categorie AVI-5 of lager waren de geobserveerde en verwachte frequenties respectievelijk 17 en 20. De toets toonde geen significant verschil aan: $\chi^2(1) = 1.95$, $p > 0.05$. De effectgrootte ($\phi$) was klein, wat duidt op een beperkt verschil tussen de geobserveerde en verwachte frequenties. Daarom werd de nulhypothese behouden.
### 3.8 Samenvatting: Parametrisch vs. Non-parametrisch
| Kenmerk | T-toets voor gemiddelde (Parametrisch) | Chikwadraattoets voor frequenties (Non-parametrisch) |
| :-------------------- | :---------------------------------------------------------------------- | :---------------------------------------------------------------------------------- |
| **Afhankelijke variabele** | Minimaal intervalniveau (bijv. scores, gewichten) | Categorisch (nominaal of ordinaal), geanalyseerd op basis van frequenties |
| **Onderzoeksvraag** | Wijkt steekproefgemiddelde significant af van populatiegemiddelde? | Stemmen geobserveerde frequenties overeen met verwachte frequenties? |
| **Toetsingsgrootheid** | $t$-waarde | $\chi^2$-waarde |
| **Vrijheidsgraden** | $df = N - 1$ | $df = k - 1$ (waarbij $k$ het aantal categorieën is) |
| **Toepassing** | Eén populatie, gemiddelden vergelijken | Eén populatie, frequentieverdelingen vergelijken |
| **Aantal zijden** | Eenzijdig of tweezijdig mogelijk | Altijd tweezijdig |
| **Voorwaarden** | Normaliteit van de afhankelijke variabele (of grote steekproef $N \geq 30$) | Uitsluitende categorieën, voldoende verwachte frequenties per categorie |
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Hypothesetoetsing | Een statistische methode om te bepalen of er voldoende bewijs is om een aanname (hypothese) over een populatie te verwerpen, gebaseerd op gegevens uit een steekproef. |
| Nulhypothese (H0) | Een bewering over een populatie die wordt aangenomen waar te zijn totdat bewijs wordt gevonden om deze te weerleggen. Het vertegenwoordigt vaak de status quo of een gebrek aan effect. |
| Alternatieve hypothese (H1) | Een bewering die wordt geaccepteerd als de nulhypothese statistisch significant wordt verworpen. Het vertegenwoordigt een effect of verschil. |
| Parametrische toets | Een statistische toets die ervan uitgaat dat de populatiegegevens bepaalde kenmerken volgen, zoals een normale verdeling, en die meestal wordt gebruikt voor gegevens op interval- of rationiveau. |
| Non-parametrische toets | Een statistische toets die geen aannames doet over de verdeling van de populatiegegevens en die vaak wordt gebruikt voor categorische (nominale of ordinale) gegevens. |
| T-toets voor één gemiddelde (one sample t-test) | Een parametrische toets die wordt gebruikt om te bepalen of het gemiddelde van een steekproef significant verschilt van een bekende of veronderstelde populatiegemiddelde. |
| Chikwadraattoets voor frequenties (Chi square goodness of fit test) | Een non-parametrische toets die wordt gebruikt om te bepalen of de geobserveerde frequenties van een categorische variabele significant verschillen van de verwachte frequenties. |
| Toetsingsgrootheid | Een waarde berekend uit de steekproefgegevens die wordt gebruikt om de nulhypothese te evalueren. De verdeling van deze grootheid onder de nulhypothese is bekend. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische berekening. Voor de t-toets is dit N-1; voor de chikwadraattoets is dit k-1, waarbij k het aantal categorieën is. |
| Kritieke waarde | Een grens- of drempelwaarde die wordt gebruikt in hypothesetoetsing. Als de toetsingsgrootheid deze waarde overschrijdt (of onderschrijdt, afhankelijk van de toets), wordt de nulhypothese verworpen. |
| Overschrijdingskans (p-waarde) | De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot verwerping van de nulhypothese. |
| Effectgrootte | Een maatstaf die de sterkte of het belang van een statistisch significant effect kwantificeert, onafhankelijk van de steekproefgrootte. |
| Steekproefgemiddelde (M) | Het gemiddelde van de waarden in een steekproef. |
| Standaarddeviatie van de steekproef (SD) | Een maatstaf voor de spreiding van gegevens in een steekproef rond het steekproefgemiddelde. |
| Geobserveerde frequenties (fo) | Het werkelijke aantal waarnemingen dat in een bepaalde categorie valt in een steekproef. |
| Verwachte frequenties (fe) | Het aantal waarnemingen dat in een bepaalde categorie wordt verwacht onder de aanname dat de nulhypothese waar is. |
| Type 1-fout (alpha) | De kans om de nulhypothese te verwerpen terwijl deze in werkelijkheid waar is. Dit wordt meestal vastgesteld op 0.05. |
| Type 2-fout (beta) | De kans om de nulhypothese te aanvaarden terwijl deze in werkelijkheid onwaar is. |