Cover
Zacznij teraz za darmo WPO+7.2+S3+chi+kwadraat+2526.pptx
Summary
# Introductie tot de chi-kwadraatverdeling en toepassingen
Deze sectie introduceert de chi-kwadraatverdeling, haar kenmerken, en haar algemene toepassingen in hypothesetesten, met specifieke aandacht voor de toets voor onafhankelijkheid en de toets voor goedheid van fit.
### 1.1 De chi-kwadraatverdeling
De chi-kwadraatverdeling ($ \chi^2 $) is een continue kansverdeling die voornamelijk wordt gebruikt in hypothesetesten, met name bij het vergelijken van frequentieverdelingen.
#### 1.1.1 Kenmerken van de chi-kwadraatverdeling
* **Vrijheidsgraden ($df$)**: Dit is een cruciale parameter die de vorm van de verdeling bepaalt. Hoe meer vrijheidsgraden, hoe meer de chi-kwadraatverdeling naar rechts verschuift en symmetrischer wordt.
* **Scheefheid**: Chi-kwadraatverdelingen zijn van nature asymmetrisch. Ze hebben een lange staart aan de rechterkant. Deze scheefheid neemt af naarmate het aantal vrijheidsgraden toeneemt.
* **Kansen**: Kanswaarden onder de chi-kwadraatverdeling worden doorgaans afgelezen uit gespecialiseerde software of statistische tabellen.
#### 1.1.2 Toepassingen van de chi-kwadraatverdeling
De chi-kwadraatverdeling is van toepassing in hypothesetesten waarbij twee of meer frequentieverdelingen worden vergeleken. Twee veelvoorkomende toepassingen zijn:
1. **Chi-kwadraat toets voor onafhankelijkheid**: Deze toets onderzoekt of er een significant verband bestaat tussen twee variabelen. Minstens één van de variabelen moet gemeten zijn op nominaal niveau.
2. **Chi-kwadraat toets voor goedheid van fit (goodness of fit)**: Deze toets evalueert of de waargenomen verdeling van een variabele, gemeten op nominaal niveau, significant afwijkt van een theoretische of verwachte verdeling.
> **Voorbeeld:** Testen of het aantal mannen en vrouwen in een populatie gelijk is, of nagaan of een bepaalde fractie van de populatie linkshandig is.
>
> > **Voorbeeld:** Nagaan of de verdeling van studenten per "trimester" (6/9 nieuwe studenten, 2/9 bissers, 1/9 trissers) overeenkomt met een theoretische verdeling.
### 1.2 Voorwaarden voor de chi-kwadraat toetsen
Voor zowel de toets voor goedheid van fit als de toets voor onafhankelijkheid gelden specifieke voorwaarden met betrekking tot de verwachte frequenties:
* **Verwachte frequenties**: Niet meer dan 20% van de verwachte frequenties in de cellen mogen kleiner zijn dan 5.
* **Specifieke voorwaarde voor $df = 1$**: Indien het aantal vrijheidsgraden gelijk is aan 1, moet elke verwachte celfrequentie minimaal 5 zijn.
* **Geen nul-frequenties**: Geen enkele verwachte frequentie mag nul zijn. Een nulverwachte frequentie zou impliceren dat een bepaalde categorie volledig niet wordt gebruikt, wat de analyse van die categorie zinloos maakt.
### 1.3 Oefeningen en Toepassingsvoorbeelden
#### 1.3.1 Oefening 1: Chi-kwadraat aanpassingstoets
Jolien kweekt dahlia's en beweert dat ze deze zo heeft gekruist dat een verwachte verdeling van 65% oranje, 25% witte en 10% roze bloemen ontstaat. De vraag is of de daadwerkelijk gevonden verdeling van bloemsoorten significant afwijkt van deze verwachte verdeling, met een significantieniveau $ \alpha = 1\% $.
#### 1.3.2 Oefening 2: Chi-kwadraat afhankelijkheidstoets
De opinie van de actieve bevolking over werknemersparticipatie wordt onderzocht. Een steekproef van 500 personen uit België wordt ondervraagd, onderverdeeld in 300 arbeiders, 150 bedienden en 50 werkgevers. Van de totale groep is 36% tegen participatie. Driekwart van de bedienden is voorstander. Het aantal arbeiders dat tegenstemt is dubbel zo groot als het aantal werkgevers dat tegenstemt. De vraag is of er een verband bestaat tussen de arbeidscategorie en de opinie ten aanzien van werknemersparticipatie, met een significantieniveau $ \alpha = 5\% $.
> **Tip:** Bij het berekenen van verwachte frequenties voor de afhankelijkheidstoets, gaat men uit van de aanname van onafhankelijkheid. De verwachte frequentie in een cel is dan het product van de marginale kansen van die rij en kolom, vermenigvuldigd met het totaal aantal observaties.
>
> Bijvoorbeeld, de kans op een persoon die ziek is EN jong is, onder aanname van onafhankelijkheid, wordt berekend als de kans op ziek zijn maal de kans op jong zijn, vermenigvuldigd met het totale aantal mensen.
> $$ P(\text{ziek en jong}) = P(\text{ziek}) \times P(\text{jong}) \times \text{totaal aantal mensen} $$
---
# Soorten chi-kwadraattoetsen en hun voorwaarden
Deze sectie behandelt de twee hoofdtypen chi-kwadraattoetsen: de afhankelijkheidstoets, die de relatie tussen variabelen onderzoekt, en de aanpassingstoets, die afwijkingen van verwachte verdelingen evalueert, evenals de voorwaarden waaraan voldaan moet worden voor het correct toepassen van deze toetsen.
### 2.1 Inleiding tot chi-kwadraattoetsen
Chi-kwadraattoetsen worden vaak gebruikt in hypothesetesten om twee of meer frequentieverdelingen te vergelijken. Ze zijn met name nuttig bij het analyseren van nominale variabelen. De chi-kwadraatverdeling zelf wordt gekenmerkt door zijn asymmetrische vorm, met een langere staart aan de rechterkant. Naarmate het aantal vrijheidsgraden ($df$) toeneemt, wordt de verdeling symmetrischer en verschuift deze naar rechts. Kansberekeningen worden doorgaans uitgevoerd met behulp van software of specifieke tabellen.
### 2.2 Chi-kwadraat afhankelijkheidstoets
De chi-kwadraat afhankelijkheidstoets (ook wel onafhankelijkheidstoets genoemd) wordt toegepast om te bepalen of er een significant verband bestaat tussen twee variabelen. Cruciaal is dat ten minste één van de variabelen op nominaal niveau gemeten moet zijn. Deze toets evalueert of de waargenomen frequenties in een kruistabel significant afwijken van de frequenties die we zouden verwachten als de variabelen onafhankelijk van elkaar zouden zijn.
#### 2.2.1 Voorwaarden voor de afhankelijkheidstoets
Om de chi-kwadraat afhankelijkheidstoets correct toe te passen, moeten de volgende voorwaarden vervuld zijn:
* **Verwachte frequenties:** Niet meer dan 20% van de verwachte celfrequenties mag kleiner zijn dan 5.
* **Speciaal geval voor df = 1:** Als het aantal vrijheidsgraden gelijk is aan 1, moet elke verwachte celfrequentie minimaal 5 zijn.
* **Geen nul-frequenties:** Geen enkele verwachte frequentie mag nul zijn. Een nul verwachte frequentie impliceert dat een hele categorie niet wordt gebruikt, wat de analyse van die categorie zinloos maakt.
> **Tip:** Het begrijpen van de vrijheidsgraden is essentieel. Voor de afhankelijkheidstoets wordt dit berekend als $df = (aantal \ rows - 1) \times (aantal \ columns - 1)$, waarbij 'rows' en 'columns' verwijzen naar het aantal categorieën van de betreffende variabelen in de kruistabel.
#### 2.2.2 Voorbeeld van de afhankelijkheidstoets
Stel, we willen onderzoeken of er een verband is tussen de arbeidscategorie (arbeider, bediende, werkgever) en de mening over werknemersparticipatie (voor, tegen). We verzamelen gegevens van 500 personen. We observeren de aantallen in elke categorie en hun mening, en berekenen de verwachte aantallen onder de nulhypothese van onafhankelijkheid. Vervolgens vergelijken we de waargenomen met de verwachte frequenties met behulp van de chi-kwadraattoets.
### 2.3 Chi-kwadraat aanpassingstoets (goodness of fit)
De chi-kwadraat aanpassingstoets, ook wel toets voor goedheid van fit genoemd, wordt gebruikt om na te gaan of de verdeling van een enkele variabele, gemeten op nominaal niveau, significant afwijkt van een theoretische of verwachte verdeling. Deze toets vergelijkt de waargenomen frequenties van de categorieën van de variabele met de frequenties die verwacht worden op basis van een vooraf gespecificeerde theoretische verdeling.
#### 2.3.1 Voorwaarden voor de aanpassingstoets
Net als bij de afhankelijkheidstoets zijn er specifieke voorwaarden voor de aanpassingstoets:
* **Verwachte frequenties:** Niet meer dan 20% van de verwachte frequenties mag kleiner zijn dan 5.
* **Speciaal geval voor df = 1:** Als het aantal vrijheidsgraden gelijk is aan 1, moet elke verwachte celfrequentie minimaal 5 zijn.
* **Geen nul-frequenties:** Geen enkele verwachte frequentie mag nul zijn.
> **Tip:** Voor de aanpassingstoets is het aantal vrijheidsgraden gelijk aan het aantal categorieën van de variabele min 1 ($df = aantal \ categorieën - 1$).
#### 2.3.2 Voorbeeld van de aanpassingstoets
Een teler beweert dat bij het kruisen van dahlia's de verwachte verdeling 65% oranje, 25% witte en 10% roze bloemen is. Om dit te toetsen, telt men het aantal bloemen van elke kleur in een steekproef en vergelijkt de waargenomen verdeling met de verwachte verdeling met behulp van de chi-kwadraat aanpassingstoets.
De formule voor de chi-kwadraat statistiek ($X^2$) voor beide toetsen is:
$$ X^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} $$
waarbij:
* $O_i$ staat voor de waargenomen frequentie in categorie $i$.
* $E_i$ staat voor de verwachte frequentie in categorie $i$.
* $k$ staat voor het aantal categorieën.
---
# Praktische oefeningen met chi-kwadraattoetsen
Deze sectie bevat twee oefeningen die illustreren hoe de chi-kwadraat aanpassingstoets en de chi-kwadraat afhankelijkheidstoets worden toegepast op concrete datasets om hypothesen te toetsen.
### 3.1 De chi-kwadraat verdelings / aanpassingstoets
Deze toets gaat na of de waargenomen verdeling van een variabele, gemeten op nominaal niveau, significant afwijkt van een theoretische verdeling. Voorbeelden hiervan zijn het toetsen of er evenveel mannen als vrouwen zijn, of dat 10% van de populatie linkshandig is en 90% rechtshandig. Een ander voorbeeld is het controleren of de verdeling van studenten over verschillende groepen (bijvoorbeeld 6/9 nieuwe studenten, 2/9 bissers, 1/9 trissers) overeenkomt met een theoretische verwachting.
#### 3.1.1 Voorwaarden voor de chi-kwadraat aanpassingstoets
Om deze toets correct toe te passen, moeten aan de volgende voorwaarden voldaan worden:
* Niet meer dan 20% van de verwachte frequenties mag kleiner zijn dan 5.
* Indien het aantal vrijheidsgraden ($df$) gelijk is aan 1, dan moet elke verwachte celfrequentie groter of gelijk zijn aan 5.
* Geen enkele verwachte frequentie mag nul zijn. Een nulverwachting zou betekenen dat een volledige categorie niet wordt gebruikt, wat de zinvolheid van de opname in het onderzoek ondermijnt.
#### 3.1.2 Oefening 1: Dahlia's
**Vraag:** Jolien kweekt dahlia's en beweert dat ze de bloemen zodanig heeft gekruist dat men 65% oranje, 25% witte en 10% roze dahlia's kan verwachten. Ga na of de verdeling van de bloemsoorten die zij vindt in haar bloembedden significant afwijkt van de verwachte verdeling op basis van haar kruising, met een significantieniveau van $\alpha = 1\%$.
**Conceptuele Uitwerking:** Deze oefening past de chi-kwadraat aanpassingstoets toe. We vergelijken de waargenomen frequenties van oranje, witte en roze dahlia's met de theoretisch verwachte frequenties op basis van de opgegeven percentages.
#### 3.1.3 Berekening van de teststatistiek voor de aanpassingstoets
De chi-kwadraat teststatistiek ($X^2$) wordt berekend met de volgende formule:
$$X^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$
waarbij:
* $O_i$ de waargenomen frequentie is in categorie $i$.
* $E_i$ de verwachte frequentie is in categorie $i$.
* $k$ het aantal categorieën is.
#### 3.1.4 Vrijheidsgraden ($df$)
Voor de aanpassingstoets is het aantal vrijheidsgraden gelijk aan het aantal categorieën min 1:
$df = k - 1$
### 3.2 De chi-kwadraat afhankelijkheidstoets
Deze toets onderzoekt of er een significant verband bestaat tussen twee variabelen, waarbij minstens één van de variabelen op nominaal niveau is gemeten. De toets gaat na of de twee variabelen onafhankelijk van elkaar zijn, of dat er een afhankelijkheid tussen bestaat.
#### 3.2.1 Voorwaarden voor de chi-kwadraat afhankelijkheidstoets
De voorwaarden voor de chi-kwadraat afhankelijkheidstoets zijn identiek aan die voor de aanpassingstoets:
* Niet meer dan 20% van de verwachte frequenties mag kleiner zijn dan 5.
* Indien het aantal vrijheidsgraden ($df$) gelijk is aan 1, dan moet elke verwachte celfrequentie groter of gelijk zijn aan 5.
* Geen enkele verwachte frequentie mag nul zijn.
#### 3.2.2 Oefening 2: Werknemersparticipatie
**Vraag:** Je wenst de opinie te kennen van de actieve bevolking over werknemersparticipatie (werknemers delen mee in de winst en hebben ook een beperkte beslissingsmacht). Je hebt een Simple Random Sample (SRS) van 500 personen uit België ondervraagd, waarvan 300 arbeiders, 150 bedienden en 50 werkgevers. Uit het onderzoek blijkt dat 36% van de ondervraagden tegen participatie waren. Echter, 3/5 van de bedienden waren voorstanders. Het aantal arbeiders dat tegenstemde was dubbel zo groot als het aantal werkgevers dat tegenstemde. Bestaat er een verband tussen de arbeidscategorie en de opinie ten opzichte van werknemersparticipatie (significantieniveau $\alpha = 5\%$)?
**Conceptuele Uitwerking:** Deze oefening vereist de toepassing van de chi-kwadraat afhankelijkheidstoets. We moeten bepalen of er een statistisch significant verband is tussen de categorie van arbeid (arbeider, bediende, werkgever) en de mening over werknemersparticipatie (voor of tegen). We zullen een kruistabel moeten opstellen met waargenomen frequenties en vervolgens de verwachte frequenties berekenen onder de aanname van onafhankelijkheid.
#### 3.2.3 Berekening van de verwachte frequenties bij afhankelijkheid
Onder de nulhypothese van onafhankelijkheid, wordt de verwachte frequentie voor elke cel in de kruistabel berekend als:
$$E_{ij} = \frac{(\text{rijtotaal}_i) \times (\text{colomtotaal}_j)}{\text{totaal aantal observaties}}$$
waarbij:
* $E_{ij}$ de verwachte frequentie is voor de cel in rij $i$ en kolom $j$.
* $\text{rijtotaal}_i$ is het totaal van de waargenomen frequenties in rij $i$.
* $\text{colomtotaal}_j$ is het totaal van de waargenomen frequenties in kolom $j$.
#### 3.2.4 Vrijheidsgraden ($df$)
Voor de afhankelijkheidstoets zijn de vrijheidsgraden gelijk aan:
$df = (\text{aantal rijen} - 1) \times (\text{aantal kolommen} - 1)$
> **Tip:** Bij het opstellen van de kruistabel is het cruciaal om eerst alle gegeven informatie zorgvuldig te verwerken om de waargenomen frequenties correct te bepalen, voordat de verwachte frequenties worden berekend.
#### 3.2.5 De chi-kwadraat teststatistiek voor afhankelijkheid
De berekening van de chi-kwadraat teststatistiek is identiek aan die van de aanpassingstoets, maar wordt toegepast op de waargenomen en verwachte frequenties in de kruistabel:
$$X^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$
waarbij:
* $O_{ij}$ de waargenomen frequentie is in cel $(i, j)$.
* $E_{ij}$ de verwachte frequentie is in cel $(i, j)$.
* $r$ het aantal rijen is.
* $c$ het aantal kolommen is.
> **Belangrijk:** De kans dat iemand ziek is vermenigvuldigd met de kans dat iemand jong is, staat onder de aanname van onafhankelijkheid gelijk aan de kans op ziek *en* jong, gedeeld door het totaal aantal mensen. Bij de afhankelijkheidstoets gaat het om het controleren van deze onafhankelijkheid.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Chi-kwadraatverdeling | Een continue kansverdeling die wordt gebruikt in statistische inferentie, met name bij hypothesetesten en betrouwbaarheidsintervallen voor variantie. Deze verdeling is rechtsscheef en wordt bepaald door één parameter: de vrijheidsgraden. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische analyse. In de context van de chi-kwadraatverdeling beïnvloeden de vrijheidsgraden de vorm en de ligging van de verdeling. Hoe meer vrijheidsgraden, hoe symmetrischer de verdeling wordt. |
| Scheefheid | Een maatstaf voor de asymmetrie van een kansverdeling. Chi-kwadraatverdelingen vertonen positieve scheefheid (rechtsscheef), wat betekent dat de staart aan de rechterkant langer is dan aan de linkerkant. Deze scheefheid neemt af naarmate de vrijheidsgraden toenemen. |
| Onafhankelijkheidstoets | Een statistische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen. De toets evalueert of de verdeling van de ene variabele afhangt van de waarden van de andere variabele. |
| Goedheid van fit (Goodness of fit) | Een statistische toets die nagaat hoe goed de geobserveerde data passen bij een verwachte theoretische verdeling. Het bepaalt of de waargenomen frequenties significant afwijken van de frequenties die men zou verwachten op basis van een hypothetisch model. |
| Nominaal niveau | Een meetniveau waarbij data worden gecategoriseerd zonder inherente volgorde of rangschikking. Voorbeelden zijn haarkleur, geslacht of politieke voorkeur. Veel chi-kwadraattoetsen zijn geschikt voor variabelen op nominaal niveau. |
| Verwachte frequentie | Het aantal observaties dat men zou verwachten in een bepaalde categorie of cel, onder de aanname dat de nulhypothese waar is. Dit wordt berekend op basis van marginale totalen en de totale steekproefgrootte. |
| Significant verband | Een relatie tussen variabelen die waarschijnlijk niet het gevolg is van toeval. Statistische toetsen, zoals de chi-kwadraattoets, worden gebruikt om te beoordelen of een waargenomen verband significant genoeg is om de nulhypothese te verwerpen. |