Cover
立即免费开始 STA3set1Hfst06Inleiding%26Power.pptx
Summary
# Inleiding tot statistiek en studie-informatie
Dit document introduceert de cursus Statistiek III, de docenten en assistenten, en de praktische organisatie van de cursus, inclusief studiefiche wijzigingen, evaluatiecriteria en inschrijvingsprocedures voor werkplekonderwijs (WPO's), met een terugblik op voorkennis uit Statistiek I en II.
## 1. Inleiding tot statistiek en studie-informatie
### 1.1 Cursusoverzicht en personeel
De cursus Statistiek III behandelt univariate data-analyse. De cursus wordt gegeven door professor Peter Theuns en ondersteund door assistenten Alain Isaac, Alyson Staels en Jeroen Frans.
#### 1.1.1 Contactgegevens en kantooruren
* **Professor Peter Theuns:**
* E-mail: Peter.Theuns@vub.be
* Kantoor: C3.45
* Telefoon: +322 6292056
* Kantooruren: op afspraak via e-mail
* **Assistent Alain Isaac:**
* E-mail: Alain.Isaac@vub.be
* Kantoor: C3.19
* Kantooruren: op afspraak via e-mail
* **Assistent Alyson Staels:**
* E-mail: Alyson.Staels@vub.be
* Kantoor: C3.12
* Kantooruren: op afspraak via e-mail
* **Assistent Jeroen Frans:**
* E-mail: Jeroen.Frans@vub.be
* Kantoor: C3.19
* Kantooruren: op afspraak via e-mail
### 1.2 Wijzigingen studiefiche en evaluatiecriteria
De beoordeling van de cursus bestaat uit één onderdeel: een schriftelijk examen dat 100% van het eindcijfer bepaalt. Dit examen omvat theorie, oefeningen en software-toepassingen.
### 1.3 Werkplekonderwijs (WPO's)
#### 1.3.1 Inschrijven voor WPO-groepen
Inschrijven voor een WPO-groep is mogelijk vanaf vrijdag 26 september om 12 uur in CANVAS. Studenten kunnen zichzelf inschrijven in een groep naar keuze, maar dienen de doelgroep te respecteren vanwege mogelijke rooster-overlaps. De WPO's starten vanaf week 3 (29/09 – 03/10).
#### 1.3.2 Groepsindeling WPO's
Er zijn verschillende groepen voor WPO's, elk met een specifieke doelgroep:
* **Groep 1:** Werk-, reguliere en schakelstudenten.
* **Groep 2:** Enkel schakelstudenten.
* **Groep 3:** Momenteel geen inschrijving mogelijk.
* **Groep 4:** Schakel- (en reguliere) studenten (reserve indien andere groepen volzet zijn).
* **Groep 5-8:** Reguliere studenten.
#### 1.3.3 Praktische richtlijnen voor WPO's
* Gebruik eenvoudige wetenschappelijke rekenmachines (maximaal 30 euro). Gebruik geen mobiele telefoons of tablets.
* WPO-lesopnames zijn geen vervanging voor live lessen.
#### 1.3.4 Vragen stellen
* **Inhoudelijke vragen** (bv. over oefeningen) kunnen gesteld worden via het discussieplatform op CANVAS.
* **Praktische vragen** (bv. over lesrooster) en **persoonlijke vragen** (bv. over ziekte of studietraject) kunnen per e-mail aan het statistiekteam gestuurd worden (altijd het hele team in CC zetten).
* Tijdens het hoorcollege (HOC) of WPO kunnen vragen gesteld worden aan professor Theuns of de begeleidende assistent.
* Vragen worden opgevolgd tot het einde van de lessenreeks, met een finale Q&A tijdens de blokperiode.
#### 1.3.5 Voorbereiding WPO 1
Bereid WPO 1 goed voor, aangezien deze les een herhaling is van de z-toets en de oefeningen 1, 2 en 3 behandelt.
### 1.4 Terugblik op voorkennis: Statistiek I en II
#### 1.4.1 Statistiek I: Univariate data-analyse
Statistiek I omvatte:
* **Meetschalen:** Begrijpen van verschillende niveaus van meten.
* **Beschrijvende Statistiek:**
* **Ordeningstechnieken:** Tabellen en figuren voor het organiseren van data.
* **Reductietechnieken:** Statistische grootheden zoals positie, spreiding en vorm (bv. gemiddelde, standaarddeviatie, scheefheid).
* **Associatietechnieken:** Spreidingsdiagrammen, contingentietabellen en correlatie voor het analyseren van relaties tussen variabelen.
#### 1.4.2 Statistiek II: Kansrekening en inferentiële statistiek
Statistiek II omvatte:
* **Kansrekening:** De studie van het toeval.
* **Steekproevenverdelingen (Sampling distributions):** De verdeling van een statistiek (bv. gemiddelde) berekend uit herhaalde steekproeven.
* **Inleiding tot inferentie:**
* Betrouwbaarheidsintervallen: Schatting van populatieparameters.
* Overschrijdingskans (p-waarde): De kans op het observeren van data minstens zo extreem als de waargenomen data, onder de aanname dat de nulhypothese waar is.
* Significantietoetsen: Het testen van hypothesen over populatieparameters.
* **Inductieve technieken:** Het generaliseren van steekproefresultaten naar de populatie.
### 1.5 Steekproevenverdelingen van het steekproefgemiddelde
#### 1.5.1 Verwachting en standaarddeviatie van steekproefgemiddelden
Voor steekproeven uit een populatie met gemiddelde $\mu$ en standaarddeviatie $\sigma$:
* De verwachting van het steekproefgemiddelde $\bar{X}$ is gelijk aan het populatiegemiddelde: $E(\bar{X}) = \mu$.
* De standaarddeviatie van het steekproefgemiddelde (ook wel standaardfout genoemd) is $\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}$, waarbij $n$ de steekproefgrootte is.
#### 1.5.2 Centrale Limietstelling (CLT)
* **Stelling:** Wanneer men herhaaldelijk toevallige steekproeven met grootte $n$ trekt uit een populatie met gemiddelde $\mu$ en standaarddeviatie $\sigma$:
* Als de populatie **normaal verdeeld** is, dan is de steekproevenverdeling van de steekproefgemiddelden normaal verdeeld met gemiddelde $\mu$ en standaardafwijking $\frac{\sigma}{\sqrt{n}}$.
* Als de populatie **willekeurig verdeeld** is, dan benadert de steekproevenverdeling van de steekproefgemiddelden een normaalverdeling, mits $n$ voldoende groot is (vuistregel: $n \ge 30$). De steekproevenverdeling is dan gecentreerd rond $\mu$ en heeft een standaardafwijking van $\frac{\sigma}{\sqrt{n}}$.
> **Tip:** De Centrale Limietstelling is cruciaal voor inferentiële statistiek, omdat het ons toestaat om met behulp van de normaalverdeling uitspraken te doen over populatiegemiddelden, zelfs als de populatieverdeling onbekend of niet-normaal is, mits de steekproefgrootte voldoende groot is.
#### 1.5.3 Intuïtie voor intervalschatten (voorbeeld SAT)
Een voorbeeld met de Scholastic Aptitude Test (SAT) illustreert het concept van betrouwbaarheidsintervallen, gebaseerd op de steekproevenverdeling van het gemiddelde. Als een steekproefgemiddelde van de SAT-math sectie bijvoorbeeld 461 is, en we weten dat de standaardfout van het gemiddelde (gebaseerd op de standaarddeviatie van de populatie en de steekproefgrootte) ongeveer 4.5 is, dan impliceert de 68-95-99.7-regel dat 95% van de steekproefgemiddelden binnen 2 standaardfouten van het populatiegemiddelde $\mu$ ligt. Dit betekent dat het populatiegemiddelde met 95% betrouwbaarheid binnen een interval van $\pm 2 \times 4.5 = 9$ punten van het steekproefgemiddelde ligt. Dus, we kunnen zeggen met 95% betrouwbaarheid dat het populatiegemiddelde van de SAT-scores tussen $461-9$ en $461+9$ ligt.
### 1.6 Hypothesetoetsen
#### 1.6.1 z-toets voor onafhankelijke steekproeven
De z-toets voor onafhankelijke steekproeven wordt gebruikt om de gemiddelden van twee populaties te vergelijken.
* **Voorbeeld:** Vergelijken van gemiddelden van "gewone studenten" en "slimmeriken".
* Onder de nulhypothese ($H_0$) wordt aangenomen dat de gemiddelden van de twee populaties gelijk zijn ($\mu_1 = \mu_2$).
* De steekproevenverdeling van het verschil tussen de gemiddelden ($\bar{X}_1 - \bar{X}_2$) wordt beschouwd.
* Als de waargenomen steekproefverschillen groot zijn (bv. 39 punten), en de nulhypothese zou gelden, dan is de kans op zo'n groot verschil klein (lage p-waarde).
* De z-score wordt berekend als:
$$z = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$$
Onder de nulhypothese $\mu_1 - \mu_2 = 0$. Als de standaarddeviaties van de populaties bekend zijn (of geschat worden met de populatiestandaarddeviatie $\sigma$), kan de z-score berekend worden.
* In het voorbeeld, met een verschil van 39 en een berekende standaardfout van het verschil, kan een z-score van 8.72 worden verkregen, wat resulteert in een p-waarde van minder dan 0.001.
#### 1.6.2 Significantietoets in 4 stappen
1. **Formuleer de nul- en de alternatieve hypothesen ($H_0$ en $H_a$).**
2. **Bepaal de waarde van de toetsingsgrootheid** (bv. z-score).
3. **Bepaal de overschrijdingskans (p-waarde) voor de toetsingsgrootheid** (theoretisch of via resampling).
4. **Formuleer de conclusie in APA-stijl.**
> **Voorbeeld Conclusie APA-stijl:** Gewone studenten behalen gemiddeld (gem=461) significant lagere scores dan slimmerikken (gem=500), $z=8.72$; $p<.001$.
#### 1.6.3 Onderscheidingsvermogen (Power)
* **Definitie:** Het onderscheidingsvermogen (power) is de kans om een ware nulhypothese ($H_0$) correct te verwerpen wanneer de alternatieve hypothese ($H_a$) waar is. Het is de kans op het detecteren van een effect als dat effect daadwerkelijk bestaat.
* **Type I fout (alfa $\alpha$):** De kans om $H_0$ te verwerpen terwijl deze correct is (onjuist verwerpen). Dit wordt bepaald door het significantieniveau van de test.
* **Type II fout (bèta $\beta$):** De kans om $H_0$ niet te verwerpen terwijl deze vals is (onjuist niet verwerpen).
* **Power = 1 - $\beta$:** De kans om $H_0$ correct te verwerpen.
> **Tip:** Een hoger onderscheidingsvermogen is wenselijk omdat het de kans vergroot om werkelijke effecten te detecteren. Factoren die het onderscheidingsvermogen verhogen zijn een grotere steekproefgrootte ($n$), een groter effect (verschil tussen groepen) en een kleiner significantieniveau ($\alpha$).
#### 1.6.4 Voorbeeld: Onderscheidingsvermogen bij een z-toets (brildragers)
* **Context:** Een onderzoek naar oogbewegingen waarbij de afwijking tussen de werkelijke positie van een vlekje en de aangeklikte positie wordt gemeten.
* **Populatiegegevens (niet-brildragers):** Normaal verdeeld met $\mu = 0$ cm en $\sigma = 0.5$ cm.
* **Hypothese:** Onderzoekers vermoeden dat brildragers een systematische fout maken van + 2 mm (0.2 cm), wat leidt tot een gemiddelde afwijking van 0.2 cm. Indien de gemiddelde afwijking van brildragers 3 mm (0.3 cm) of meer bedraagt, zouden hun data als onbruikbaar worden beschouwd en zouden ze uitgesloten worden.
* **Onderzoek met 35 brildragers:**
* **Nulhypothese ($H_0$):** Brildragers hebben geen grotere afwijking dan niet-brildragers ($\mu_{brildragers} \le 0$).
* **Alternatieve hypothese ($H_a$):** Brildragers hebben een grotere afwijking ($\mu_{brildragers} > 0$).
* Er wordt een significantieniveau $\alpha$ gekozen.
* **Kritieke waarde:** De kritieke waarde voor het steekproefgemiddelde onder $H_0$ wordt bepaald. Als de gemiddelde afwijking in een steekproef van 35 brildragers groter is dan deze kritieke waarde, wordt $H_0$ verworpen.
* In het gegeven voorbeeld is de kritieke waarde voor de gemiddelde afwijking in een steekproef met $N=35$ (onder $H_0$) $0.1386$ cm.
* De onderzochte steekproef van 35 brildragers levert een gemiddelde afwijking van 0.12 cm op. Aangezien $0.12 < 0.1386$, is de z-toets "niet significant" en wordt $H_0$ niet verworpen. Dit betekent dat, op basis van deze steekproef, er geen statistisch significant bewijs is dat brildragers een grotere afwijking hebben dan niet-brildragers.
* **Berekening van Onderscheidingsvermogen:**
* Stel dat de *echte* gemiddelde afwijking van brildragers 3 mm (0.3 cm) zou zijn.
* Het onderscheidingsvermogen is de kans om deze afwijking te detecteren. Dit is de kans dat het steekproefgemiddelde groter is dan de kritieke waarde ($0.1386$) onder de aanname dat het ware gemiddelde $0.3$ cm is.
* $P(\bar{X} > 0.1386 \mid \mu = 0.3) = P(Z > \frac{0.1386 - 0.3}{0.5 / \sqrt{35}}) \approx P(Z > -1.91) \approx 0.9719$.
* Dit betekent dat als het echte gemiddelde verschil 0.3 cm is, er een 97.19% kans is dat de toets significant zal zijn (dus $H_0$ correct wordt verworpen).
> **Voorbeeld:** Als het echte verschil (gemiddelde afwijking bij brildragers) 3 mm bedraagt, dan zal dit verschil in 97% van de steekproeven gedetecteerd worden als significant, waardoor brildragers correct uitgesloten zouden worden. Dit toont een hoog onderscheidingsvermogen.
#### 1.6.5 Beslissingsfouten en overzicht
| | $H_0$ is waar | $H_0$ is vals ( $H_a$ is waar) |
| :--------------------- | :------------------------- | :---------------------------- |
| **$H_0$ niet verwerpen** | Correct niet verwerpen (1-$\alpha$) | Type II fout ($\beta$) |
| **$H_0$ verwerpen** | Type I fout ($\alpha$) | Correct verwerpen (Power, 1-$\beta$) |
* **Onderscheidingsvermogen en $\alpha$:** Een kleiner $\alpha$ (strenger significantieniveau) verlaagt de kans op een Type I fout, maar verhoogt de kans op een Type II fout en verlaagt dus het onderscheidingsvermogen.
* **Onderscheidingsvermogen en $n$ & $\sigma$:** Een grotere steekproefgrootte ($n$) en een kleinere populatiestandaarddeviatie ($\sigma$) verhogen het onderscheidingsvermogen.
* **Onderscheidingsvermogen en $\mu_0$ vs $\mu_A$:** Hoe groter het verschil tussen de nulhypothese gemiddelde ($\mu_0$) en het alternatieve hypothese gemiddelde ($\mu_A$), hoe groter het onderscheidingsvermogen.
---
# Steekproevenverdelingen en centrale limietstelling
Dit onderwerp introduceert het concept van steekproevenverdelingen, met een specifieke focus op de verdeling van het steekproefgemiddelde, en legt de centrale limietstelling uit.
### 2.1 Steekproevenverdelingen van het steekproefgemiddelde
Een steekproevenverdeling beschrijft de verdeling van een statistiek (zoals het gemiddelde) verkregen uit meerdere steekproeven van dezelfde grootte uit een populatie. Voor opeenvolgende enkelvoudige aselecte steekproeven (SRS) uit een populatie, is de steekproevenverdeling van het steekproefgemiddelde ($\bar{x}$) gecentreerd rond het populatiegemiddelde ($\mu$). De spreiding van de steekproevenverdeling is echter kleiner dan de spreiding van de populatieverdeling.
#### 2.1.1 Verwachting en standaarddeviatie van steekproefgemiddelden
De verwachting van het steekproefgemiddelde is gelijk aan het populatiegemiddelde:
$$ E(\bar{x}) = \mu $$
De standaarddeviatie van het steekproefgemiddelde, ook wel de standaardfout van het gemiddelde genoemd, wordt gegeven door:
$$ SE(\bar{x}) = \frac{\sigma}{\sqrt{n}} $$
waarbij $\sigma$ de standaardafwijking van de populatie is en $n$ de steekproefgrootte.
#### 2.1.2 Steekproevenverdeling van een steekproefgemiddelde
De steekproevenverdeling van het steekproefgemiddelde beschrijft hoe de gemiddelden van verschillende steekproeven van grootte $n$ uit een populatie zich verdelen. Deze verdeling is essentieel voor het maken van inferenties over het populatiegemiddelde.
### 2.2 Centrale limietstelling
De centrale limietstelling (CLT) is een fundamenteel resultaat in de statistiek dat stelt dat, onder bepaalde voorwaarden, de steekproevenverdeling van het steekproefgemiddelde convergeert naar een normale verdeling, ongeacht de oorspronkelijke verdeling van de populatie.
#### 2.2.1 Stelling voor normaal verdeelde populaties
Wanneer men herhaaldelijk toevallige steekproeven met grootte $n$ trekt uit een normaal verdeelde populatie met gemiddelde $\mu$ en standaardafwijking $\sigma$, dan is de steekproevenverdeling van de steekproefgemiddelden ook normaal verdeeld met gemiddelde $\mu$ en standaardafwijking $\frac{\sigma}{\sqrt{n}}$.
#### 2.2.2 Stelling voor willekeurig verdeelde populaties
Wanneer men herhaaldelijk toevallige steekproeven met grootte $n$ trekt uit een willekeurig verdeelde populatie met gemiddelde $\mu$ en standaardafwijking $\sigma$, en indien $n$ voldoende groot is (vuistregel: $n \ge 30$), dan benadert de steekproevenverdeling van de steekproefgemiddelden een normale verdeling met gemiddelde $\mu$ en standaardafwijking $\frac{\sigma}{\sqrt{n}}$.
> **Tip:** De centrale limietstelling is cruciaal omdat het ons in staat stelt normale verdelingseigenschappen te gebruiken voor inferentie, zelfs wanneer de populatie niet normaal verdeeld is, mits de steekproefgrootte voldoende groot is.
### 2.3 Illustratie: Scholastic Aptitude Test (SAT)
De Scholastic Aptitude Test (SAT) wordt gebruikt als voorbeeld om het concept van steekproevenverdelingen en betrouwbaarheidsintervallen te illustreren. De SAT-math sectie heeft een populatiegemiddelde ($\mu$) van 500 en een standaardafwijking ($\sigma$) van 100.
Stel, we trekken een steekproef van 50 studenten en vinden een gemiddelde score van 461. De standaardfout van het gemiddelde is $\frac{\sigma}{\sqrt{n}} = \frac{100}{\sqrt{50}} \approx 14.14$.
Volgens de 68-95-99.7-regel van de normale verdeling, ligt ongeveer 95% van de steekproefgemiddelden binnen 2 standaardfouten van het populatiegemiddelde. In dit geval is 2 standaardfouten $2 \times 14.14 \approx 28.28$.
Als we uitgaan van een populatiegemiddelde van 500, dan ligt 95% van de steekproefgemiddelden tussen $500 - 28.28 = 471.72$ en $500 + 28.28 = 528.28$.
Omgekeerd, met een steekproefgemiddelde van 461, kunnen we met 95% betrouwbaarheid stellen dat het populatiegemiddelde $\mu$ ligt tussen $461 - 28.28 = 432.72$ en $461 + 28.28 = 489.28$.
> **Voorbeeld:** Als 95% van de steekproefgemiddelden niet verder dan $2 \times SE$ van $\mu$ ligt, betekent dit dat in 95% van alle mogelijke steekproeven, het populatiegemiddelde $\mu$ niet meer dan $2 \times SE$ onder of boven het waargenomen steekproefgemiddelde ligt. Dit vormt de basis voor het constructie van betrouwbaarheidsintervallen. Een betrouwbaarheidsinterval van 95% voor het SAT-voorbeeld, gebaseerd op een steekproefgemiddelde van 461, zou dan liggen tussen 432.72 en 489.28. Echter, de documentatie suggereert een bereik van 461-9 tot 461+9 wat duidt op een kleinere standaarddeviatie in hun specifieke steekproef of populatiegegevens.
De 68-95-99.7-regel wordt hier toegepast om te illustreren dat extreme steekproefgemiddelden relatief zeldzaam zijn. Een steekproefgemiddelde dat meer dan 2 standaardfouten afwijkt van $\mu$ is ongebruikelijk. Dit intuïtieve begrip helpt bij het interpreteren van de uitkomsten van significantietoetsen.
### 2.4 Inferentie: Betrouwbaarheidsintervallen en Significantietoetsen
Steekproevenverdelingen vormen de theoretische basis voor inferentiële statistiek, waaronder betrouwbaarheidsintervallen en significantietoetsen.
#### 2.4.1 Betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen worden gebruikt om een reeks waarden te construeren waarvan men met een bepaalde mate van betrouwbaarheid kan zeggen dat het werkelijke populatieparameter (zoals $\mu$) erin ligt. De breedte van het betrouwbaarheidsinterval wordt beïnvloed door de standaardfout en het gewenste betrouwbaarheidsniveau.
#### 2.4.2 Significantietoetsen
Significantietoetsen, zoals de z-toets, gebruiken de steekproevenverdeling om te beoordelen of waargenomen verschillen of effecten waarschijnlijk toeval zijn of een werkelijk effect in de populatie weerspiegelen.
##### 2.4.2.1 Z-toets voor onafhankelijke steekproeven
Deze toets wordt gebruikt om gemiddelden van twee onafhankelijke populaties te vergelijken. De steekproevenverdeling van het verschil tussen twee steekproefgemiddelden is hierbij centraal.
* **Nulhypothese ($H_0$):** Er is geen verschil tussen de populatiegemiddelden ($\mu_1 = \mu_2$ of $\mu_1 - \mu_2 = 0$).
* **Alternatieve hypothese ($H_a$):** Er is een verschil tussen de populatiegemiddelden ($\mu_1 \neq \mu_2$ of $\mu_1 - \mu_2 \neq 0$).
De toetsingsgrootheid is de z-score, die aangeeft hoeveel standaardfouten het waargenomen verschil tussen de steekproefgemiddelden afwijkt van nul.
$$ z = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} $$
Wanneer de nulhypothese waar is, wordt de noemer $\sqrt{\frac{\sigma^2}{n} + \frac{\sigma^2}{n}}$ berekend onder de aanname dat $\mu_1 = \mu_2$ en $\sigma_1 = \sigma_2 = \sigma$.
> **Voorbeeld:** Als gewone studenten een gemiddelde score van 461 hebben en 'slimmeriken' een gemiddelde score van 500, met een populatiestandaarddeviatie van 100 en steekproefgroottes van 500, dan is het verschil in gemiddelden 39. De z-score wordt dan berekend als $\frac{461 - 500}{\sqrt{\frac{100^2}{500} + \frac{100^2}{500}}} = \frac{-39}{\sqrt{40}} \approx -6.17$. Een dergelijke grote afwijking, resulterend in een kleine p-waarde, leidt tot het verwerpen van de nulhypothese.
##### 2.4.2.2 Significantietoets in vier stappen
1. **Formuleer hypothesen:** Bepaal de nul- en alternatieve hypothesen.
2. **Bepaal toetsingsgrootheid:** Bereken de waarde van de gekozen toetsingsgrootheid (bv. z-score).
3. **Bepaal overschrijdingskans (p-waarde):** Vind de kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder aanname dat de nulhypothese waar is.
4. **Formuleer conclusie:** Verwerp of behoud de nulhypothese op basis van de p-waarde en het significantieniveau ($\alpha$).
##### 2.4.2.3 Conclusie in APA-stijl
De conclusie van een significantietoets wordt typisch geformuleerd volgens APA-richtlijnen, inclusief de toetsingsgrootheid, de p-waarde en de interpretatie van de bevindingen.
> **Voorbeeld:** "Gewone studenten behalen gemiddeld (gem=461) significant lagere scores dan slimmeriken (gem=500), $z=8.72$; $p<.001$." (Let op: de z-score en p-waarde in dit voorbeeld wijken af van de berekening hierboven; dit illustreert de formaat.)
### 2.5 Onderscheidingsvermogen (Power)
Onderscheidingsvermogen, of power, is de kans dat een significantietoets de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Het is de kans om een werkelijk bestaand effect te detecteren.
#### 2.5.1 Conclusies gebaseerd op een significantietoets
Significantietoetsen kunnen leiden tot twee soorten fouten:
* **Type I fout ( $\alpha$ ):** Het onterecht verwerpen van de nulhypothese (vals positief). $\alpha$ is het significantieniveau van de test.
* **Type II fout ( $\beta$ ):** Het onterecht niet verwerpen van de nulhypothese (vals negatief).
Het onderscheidingsvermogen is gelijk aan $1 - \beta$.
#### 2.5.2 Onderscheidingsvermogen (Power) berekenen
Het berekenen van het onderscheidingsvermogen vereist het specificeren van een concrete waarde voor de alternatieve hypothese.
1. **Bepaal de kritieke waarde:** Vind de grens waarboven een resultaat significant is onder de nulhypothese ($H_0$).
2. **Bereken de z-score van de kritieke waarde onder de alternatieve hypothese ($H_a$):** Evalueer hoe waarschijnlijk het is om de kritieke waarde te overschrijden als de alternatieve hypothese waar is.
3. **Onderscheidingsvermogen = Overschrijdingskans onder $H_a$:** Dit is de kans dat de toets de nulhypothese zal verwerpen wanneer de alternatieve waarde correct is.
> **Voorbeeld:** Bij een aandachtsproef met brildragers, wordt onderzocht of hun gemiddelde afwijking van de doelpositie groter is dan 0. In de populatie van niet-brildragers is de afwijking normaal verdeeld met $\mu = 0$ en $\sigma = 0.5$ cm. Voor brildragers wordt een gemiddelde afwijking van 3 millimeter (0.3 cm) of meer als reden gezien om ze uit te sluiten. Met een steekproef van 35 brildragers en een kritieke waarde voor het steekproefgemiddelde van 0.1386 cm (bepaald op basis van $\alpha$ en de standaardfout $\frac{0.5}{\sqrt{35}}$), wordt het onderscheidingsvermogen berekend. Indien het werkelijke gemiddelde afwijkingsverschil 0.3 cm is, dan is de kans om dit verschil te detecteren met een significante toets $P(\bar{x} > 0.1386 | \mu = 0.3) \approx 0.9719$. Dit betekent dat in 97.19% van de gevallen een werkelijk effect van 0.3 cm zou worden gedetecteerd.
#### 2.5.3 Factoren die het onderscheidingsvermogen beïnvloeden
Het onderscheidingsvermogen wordt vergroot door:
* Een grotere steekproefgrootte ($n$).
* Een grotere populatie-standaardafwijking ($\sigma$).
* Een groter significantieniveau ($\alpha$).
* Een groter effectgrootte (het verschil tussen $\mu_0$ en $\mu_A$).
---
# Hypothesetoetsing en onderscheidingsvermogen
Dit gedeelte behandelt de procedure van hypothesetoetsing, inclusief de z-toets voor onafhankelijke steekproeven en het concept van onderscheidingsvermogen (power). Er wordt gedetailleerd ingegaan op type I en type II fouten en hoe deze te interpreteren in de context van onderzoek.
### 3.1 De procedure van hypothesetoetsing
Hypothesetoetsing is een statistische methode om te beslissen of er voldoende bewijs is om een nulhypothese te verwerpen ten gunste van een alternatieve hypothese. De procedure omvat doorgaans vier stappen:
1. **Formuleren van de nul- en de alternatieve hypothesen:** De nulhypothese ($H_0$) stelt dat er geen effect of verschil is, terwijl de alternatieve hypothese ($H_a$) stelt dat er wel een effect of verschil is.
2. **Bepalen van de waarde van de toetsingsgrootheid:** Dit is een statistiek berekend uit de steekproefgegevens die wordt gebruikt om de hypothesen te toetsen.
3. **Bepalen van de overschrijdingskans (p-waarde):** De overschrijdingskans is de waarschijnlijkheid om een toetsingsgrootheid te observeren die minstens zo extreem is als de waargenomen waarde, aangenomen dat de nulhypothese waar is. Dit kan theoretisch bepaald worden of via resampling.
4. **Formuleren van de conclusie:** Op basis van de p-waarde en een vooraf bepaald significantieniveau ($\alpha$), wordt besloten of de nulhypothese wordt verworpen. De conclusie wordt doorgaans in APA-stijl geformuleerd.
#### 3.1.1 Z-toets voor onafhankelijke steekproeven
De z-toets voor onafhankelijke steekproeven wordt gebruikt om het gemiddelde van twee populaties te vergelijken. De nulhypothese stelt hierbij dat de gemiddelden van de twee populaties gelijk zijn ($H_0: \mu_1 - \mu_2 = 0$), terwijl de alternatieve hypothese kan stellen dat het gemiddelde van de ene populatie groter is dan dat van de andere ($H_a: \mu_1 - \mu_2 > 0$) of dat ze verschillend zijn ($H_a: \mu_1 - \mu_2 \neq 0$).
De z-toetsingsgrootheid wordt berekend als:
$$ Z = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} $$
waarbij:
- $\bar{x}_1$ en $\bar{x}_2$ de steekproefgemiddelden zijn.
- $(\mu_1 - \mu_2)_0$ het verschil in populatiegemiddelden onder de nulhypothese (meestal 0).
- $\sigma_1^2$ en $\sigma_2^2$ de populatievarianties zijn.
- $n_1$ en $n_2$ de steekproefgroottes zijn.
Wanneer de populatievarianties onbekend zijn en de steekproeven groot genoeg zijn (of de populaties normaal verdeeld zijn), wordt vaak de gepoolde variantie gebruikt of wordt de t-toets toegepast.
#### 3.1.2 Significantietoets in 4 stappen (voorbeeld)
**Context:** Een onderzoeker wil weten of "slimmeriken" significant hogere scores behalen op een test dan "gewone studenten".
1. **Hypothesen formuleren:**
* $H_0: \mu_{\text{gewone studenten}} = \mu_{\text{slimmeriken}}$ (of $\mu_{\text{slimmeriken}} - \mu_{\text{gewone studenten}} \le 0$)
* $H_a: \mu_{\text{slimmeriken}} > \mu_{\text{gewone studenten}}$
2. **Toetsingsgrootheid bepalen:** Een z-toets wordt uitgevoerd. Gesteld dat uit de steekproef een verschil van 39 wordt gevonden en de berekende z-score $Z=8.72$ is.
3. **Overschrijdingskans bepalen:** De p-waarde voor $Z=8.72$ is $p < 0.001$.
4. **Conclusie formuleren:** Aangezien de p-waarde kleiner is dan een typisch significantieniveau (bv. $\alpha = 0.05$), wordt de nulhypothese verworpen. Conclusie: "Gewone studenten behalen gemiddeld (gem=461) significant lagere scores dan slimmeriken (gem=500), $z=8.72$; $p<.001$."
### 3.2 Kans op fouten en onderscheidingsvermogen
Bij het nemen van beslissingen op basis van significantietoetsen, kunnen twee soorten fouten optreden:
* **Type I fout ($\alpha$):** Het onterecht verwerpen van de nulhypothese ($H_0$) terwijl deze wel correct is. Dit is gelijk aan het significantieniveau van de toets, dat vooraf wordt bepaald. Het evalueren van de consequenties van deze fout is cruciaal bij het kiezen van $\alpha$.
* **Type II fout ($\beta$):** Het onterecht niet verwerpen van de nulhypothese ($H_0$) terwijl deze wel vals is.
#### 3.2.1 Onderscheidingsvermogen (Power)
Het onderscheidingsvermogen, of power, van een toets is de kans om de nulhypothese ($H_0$) te verwerpen wanneer de alternatieve hypothese ($H_a$) correct is. Het is dus $1 - \beta$. Een hoge power betekent dat de toets goed in staat is om werkelijke effecten te detecteren.
> **Tip:** Een grotere steekproefgrootte ($n$) en een groter significantieniveau ($\alpha$) vergroten het onderscheidingsvermogen van een toets. Een grotere standaarddeviatie ($\sigma$) verkleint daarentegen het onderscheidingsvermogen.
#### 3.2.2 Onderscheidingsvermogen berekenen
Het berekenen van het onderscheidingsvermogen vereist het specificeren van een concrete waarde onder de alternatieve hypothese. De procedure omvat:
1. **Bepalen van de kritieke waarde:** Dit is de grens onder de nulhypothese waarboven de nulhypothese wordt verworpen. Deze waarde is afgeleid van het gekozen significantieniveau $\alpha$.
2. **Bepalen van de z-waarde van de kritieke waarde onder de alternatieve hypothese:** Gebruikmakend van de verwachte parameters onder de alternatieve hypothese.
3. **Onderscheidingsvermogen berekenen:** Dit is de overschrijdingskans van de kritieke waarde onder de alternatieve hypothese.
**Voorbeeld: Onderscheidingsvermogen bij een z-toets**
**Context:** Een onderzoek naar de nauwkeurigheid van brildragers bij een aandachtsproef. De afwijking in centimeters wordt gemeten.
* Populatie niet-brildragers: Normaal verdeeld met gemiddelde $\mu_0 = 0$ cm en standaardafwijking $\sigma = 0.5$ cm.
* Onderzoeker vermoedt dat brildragers een systematische fout maken van $+ 0.2$ cm (2 mm).
* Als de gemiddelde afwijking van brildragers $0.3$ cm (3 mm) of meer is, worden hun data als onbruikbaar beschouwd en worden ze uitgesloten.
* Onderzoek met $n = 35$ brildragers. Een significantieniveau van $\alpha = 0.05$ wordt gehanteerd.
**Stap 1: Kritieke waarde bepalen onder $H_0$**
* $H_0: \mu = 0$. Voor een eenzijdige test met $\alpha = 0.05$, is de kritieke z-waarde $1.64$.
* De kritieke waarde voor het steekproefgemiddelde is dan $1.64 \times \frac{\sigma}{\sqrt{n}} = 1.64 \times \frac{0.5}{\sqrt{35}} \approx 0.1386$ cm.
* Als het gevonden steekproefgemiddelde groter is dan $0.1386$ cm, wordt $H_0$ verworpen.
**Stap 2: z-waarde van de kritieke waarde bepalen onder $H_a$**
* Stel dat de *werkelijke* gemiddelde afwijking van brildragers $\mu_A = 0.3$ cm is.
* De z-waarde van de kritieke waarde $0.1386$ cm, onder de alternatieve hypothese met $\mu_A = 0.3$ en $\sigma_{\bar{x}} = \frac{0.5}{\sqrt{35}}$, is:
$$ Z_A = \frac{0.1386 - 0.3}{0.5 / \sqrt{35}} \approx -1.91 $$
**Stap 3: Onderscheidingsvermogen berekenen**
* Het onderscheidingsvermogen is de kans dat de toets de nulhypothese verwerpt als de werkelijke afwijking $0.3$ cm is. Dit is de kans dat de z-waarde groter is dan $-1.91$ onder de alternatieve hypothese.
$$ \text{Power} = P(Z_A > -1.91) = 1 - P(Z_A \le -1.91) $$
* Dit kan worden berekend als $1 - \Phi(-1.91)$, waarbij $\Phi$ de cumulatieve verdelingsfunctie van de standaard normaalverdeling is.
* Using a z-table or statistical software, $P(Z_A \le -1.91) \approx 0.0281$.
* Dus, $\text{Power} = 1 - 0.0281 = 0.9719$.
**Conclusie:** Als het echte gemiddelde verschil $0.3$ cm (of meer) bedraagt, zal dit in ongeveer $97.19\%$ van de steekproeven gedetecteerd worden door een significante z-toets met de nulhypothese dat er geen verschil zou zijn.
#### 3.2.3 Beslissingsfouten en hun relatie
De volgende tabel vat de mogelijke beslissingsfouten samen:
| Beslissing | $H_0$ is waar | $H_0$ is vals ( $H_a$ is waar) |
| :------------------------ | :------------------------------------------ | :----------------------------------------- |
| $H_0$ niet verwerpen | Correcte beslissing ($1-\alpha$) | Type II fout ($\beta$) |
| $H_0$ verwerpen | Type I fout ($\alpha$) | Correcte beslissing (Power, $1-\beta$) |
Het is een afweging tussen Type I en Type II fouten. Een kleinere $\alpha$ (minder kans op Type I fout) leidt tot een grotere $\beta$ (meer kans op Type II fout), en dus minder power, tenzij de steekproefgrootte toeneemt.
#### 3.2.4 Factoren die onderscheidingsvermogen beïnvloeden
Het onderscheidingsvermogen wordt beïnvloed door:
* **Grootte van het effect:** Grotere verschillen tussen de populatiegemiddelden onder $H_0$ en $H_a$ vergroten de power.
* **Steekproefgrootte ($n$):** Grotere steekproeven vergroten de power.
* **Significantieniveau ($\alpha$):** Een hoger $\alpha$ verhoogt de power (maar verhoogt ook de kans op een Type I fout).
* **Variantie van de populatie ($\sigma^2$):** Kleinere populatievarianties vergroten de power.
* **Eenzijdig of tweezijdig toetsen:** Eenzijdige toetsen hebben doorgaans meer power dan tweezijdige toetsen voor dezelfde $\alpha$.
> **Tip:** Om een gewenst onderscheidingsvermogen te bereiken, kan men op basis van deze factoren de benodigde steekproefgrootte berekenen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Univariate Data-Analyse | Een statistische methode die zich richt op de analyse van één enkele variabele tegelijkertijd om patronen en kenmerken te beschrijven. |
| Werkplekonderwijs (WPO) | Een onderwijsactiviteit die praktijkgerichte oefeningen en toepassingen van de studiestof biedt, vaak in groepsverband. |
| Schriftelijk examen | Een evaluatievorm waarbij kennis en begrip van de studiestof worden getoetst aan de hand van een schriftelijke opdracht. |
| Toetsingsgrootheid | Een statistische waarde berekend uit steekproefgegevens die wordt gebruikt om een nulhypothese te toetsen. |
| Steekproevenverdeling | De verdeling van een steekproefstatistiek (zoals het gemiddelde) verkregen uit alle mogelijke steekproeven van een bepaalde grootte uit een populatie. |
| Centrale Limietstelling | Een fundamentele stelling in de kansrekening die stelt dat de verdeling van steekproefgemiddelden, ongeacht de populatieverdeling, een normale verdeling benadert naarmate de steekproefgrootte toeneemt. |
| Populatiegemiddelde ($µ$) | Het werkelijke gemiddelde van een bepaalde eigenschap over alle leden van de gehele populatie. |
| Steekproefgemiddelde ($\bar{x}$) | Het gemiddelde van een specifieke steekproef, dat wordt gebruikt als schatter voor het populatiegemiddelde. |
| Betrouwbaarheidsinterval | Een reeks waarden die naar verwachting met een bepaalde waarschijnlijkheid (betrouwbaarheidsniveau) de ware populatieparameter bevat. |
| Significantietoets | Een statistische procedure om te bepalen of waargenomen verschillen of relaties in gegevens waarschijnlijk echt zijn of te wijten aan toeval. |
| Nulhypothese ($H_0$) | Een stelling die stelt dat er geen significant effect, verschil of relatie is tussen de onderzochte variabelen in de populatie. |
| Alternatieve hypothese ($H_a$) | Een stelling die het tegendeel beweert van de nulhypothese, namelijk dat er wel een significant effect, verschil of relatie is. |
| Overschrijdingskans (p-waarde) | De kans om een steekproefresultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is. |
| Type I fout (alfa) | Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. |
| Type II fout (beta) | Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onwaar is. |
| Onderscheidingsvermogen (Power, 1-beta) | De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is; de kans om een echt effect te detecteren. |
| Significantieniveau ($α$) | De vooraf bepaalde kans op een Type I fout; de drempelwaarde waaronder een p-waarde als statistisch significant wordt beschouwd. |
| Z-toets | Een statistische toets die wordt gebruikt om het gemiddelde van een steekproef te vergelijken met het populatiegemiddelde of om de gemiddelden van twee populaties te vergelijken wanneer de populatiestandaardafwijking bekend is of de steekproefgrootte groot is. |
| Steekproefgrootte (n) | Het aantal observaties of eenheden in een steekproef. |
| Standaarddeviatie ($σ$) | Een maat voor de spreiding of variabiliteit van gegevens rond het gemiddelde in een populatie of steekproef. |