Probability Statistics
Cover
02e8da97-4894-4f23-a62e-49811fecb8e1.pdf
Summary
# Wat is statistiek en waarom is het belangrijk
Statistiek is een methodologie voor het verzamelen, analyseren, interpreteren en presenteren van gegevens om de wereld beter te begrijpen. Het is essentieel in sociale wetenschappen om kennis te genereren over de sociale werkelijkheid door middel van sociaalwetenschappelijk onderzoek en dataverzameling [2](#page=2) [3](#page=3).
## 1.1 Wat is statistiek?
Statistiek kan gedefinieerd worden als de wetenschap die zich bezighoudt met het verzamelen, analyseren, interpreteren en presenteren van gegevens. Het fungeert als een kennismethode om de wereld om ons heen beter te doorgronden. Het proces binnen statistische analyse omvat probleemanalyse, het opzetten van een onderzoeksontwerp, dataverzameling, data-analyse en rapportage [2](#page=2).
## 1.2 Waarom is statistiek belangrijk?
Statistiek is cruciaal om beweringen te onderbouwen en vereist empirie, wat betekent dat er behoefte is aan data en gegevens. In de sociale wetenschappen is het doel kennis te genereren over de sociale werkelijkheid, wat plaatsvindt door middel van dataverzameling. Een voorbeeld hiervan is de European Social Survey, die attitudes, geloofsovertuigingen en gedragspatronen peilt om de surveymethodologie te bevorderen. Statistiek stelt ons in staat om verschillen en samenhangen te verklaren, zoals de relatie tussen opleidingsniveau en inkomen [2](#page=2) [3](#page=3).
> **Tip:** Wees alert op misleidende statistiek. Dit kan voorkomen bij het verzamelen van gegevens, de presentatie van uitkomsten, en het formuleren van conclusies [2](#page=2).
## 1.3 Soorten statistiek
Er zijn verschillende soorten statistiek die gebruikt worden binnen de analyse:
### 1.3.1 Beschrijvende statistiek
Beschrijvende statistiek, ook wel deductieve statistiek genoemd, richt zich op het beschrijven, ordenen en synthetiseren van verzamelde gegevens. Het doel is om de wereld in cijfers weer te geven [2](#page=2) [3](#page=3).
Kenmerken van beschrijvende statistiek zijn:
* **Centrummaten:** Deze beschrijven het centrum van een dataset, zoals het gemiddelde, de mediaan en de modus [2](#page=2) [3](#page=3).
* **Spreidingsmaten:** Deze geven de variatie binnen een dataset weer, zoals de standaardafwijking, variantie en interkwartielafstand [4](#page=4).
* **Grafieken:** Visuele representaties zoals histogrammen, taartdiagrammen en boxplots worden gebruikt om gegevens overzichtelijk te presenteren [4](#page=4).
### 1.3.2 Inferentiële statistiek
Inferentiële statistiek, ook wel inductieve statistiek genoemd, maakt het mogelijk om op basis van gegevens uit een beperkt aantal gevallen conclusies te trekken over een bredere groep of populatie [2](#page=2) [4](#page=4).
## 1.4 Terminologie en kernbegrippen
Voor een goed begrip van statistiek is het belangrijk om de volgende terminologie te kennen:
* **Onderzoekspopulatie:** De gehele groep waarop een onderzoek gericht is [3](#page=3).
* **Onderzoekseenheid (case):** De individuele entiteit die onderzocht wordt, zoals een persoon, dier of object. Deze worden in een datamatrix in rijen weergegeven [3](#page=3).
* **Variabele:** Een kenmerk dat bestudeerd wordt en dat kan variëren tussen onderzoekseenheden. Variabelen worden in kolommen van een datamatrix geplaatst [3](#page=3).
* **Datamatrix/dataset:** Een tabel die onderzoekseenheden (rijen) en variabelen (kolommen) bevat, met de gemeten waarden in de cellen [3](#page=3).
* **Steekproef:** Een deelverzameling van de onderzoekspopulatie die daadwerkelijk wordt onderzocht. Vaak wordt gebruikgemaakt van een eenvoudig aselecte steekproef (EAS) ] [3](#page=3).
* **Steekproefstatistieken:** Kengetallen die gemeten worden in een steekproef. Voorbeelden zijn het steekproefgemiddelde ($ \bar{x} $) en de steekproefstandaardafwijking ($s$) ] [3](#page=3).
* **Parameters:** Kengetallen die de verdeling van een kenmerk in de gehele populatie beschrijven. Voorbeelden zijn het populatiegemiddelde ($ \mu $) en de populatiestandaardafwijking ($ \sigma $) ] [3](#page=3).
> **Belangrijk:** Houd altijd het onderscheid in gedachten tussen parameters die de populatie beschrijven en statistieken die de steekproef beschrijven [3](#page=3).
### 1.4.1 Systematische steekproeffouten
Systematische fouten kunnen leiden tot vertekende resultaten:
* **Selectiebias:** De manier waarop respondenten worden geselecteerd, kan een vertekend beeld van de populatie geven [3](#page=3).
* **Non-respons bias:** Wanneer respondenten niet deelnemen aan het onderzoek, kan dit leiden tot een vertekend beeld [3](#page=3).
* **Item non-respons bias:** Dit treedt op wanneer sommige vragen wel, maar andere niet worden ingevuld door respondenten [3](#page=3).
## 1.5 Variabelen en meetniveaus
### 1.5.1 Operationalisatie
Operationalisatie is het proces waarbij variabelen meetbaar worden gemaakt voor de steekproef, vaak door het formuleren van specifieke vragen, gebaseerd op een theorie of eerder onderzoek. Het vereist een duidelijke definitie van wat er gemeten moet worden en hoe dit concreet zal gebeuren [4](#page=4).
> **Voorbeeld:** Een foute operationalisatie zou zijn het tellen van Netflix-kijkers na slechts 3 minuten kijken [4](#page=4).
### 1.5.2 Kwantitatief versus kwalitatief
Variabelen kunnen worden ingedeeld in twee hoofdcategorieën:
* **Kwalitatief of categorisch:** Variabelen die geen directe wiskundige betekenis hebben en categorieën vertegenwoordigen, zoals woonplaats, haarkleur, geslacht of opleidingsniveau [4](#page=4).
* **Kwantitatief of metrisch:** Variabelen die numerieke waarden hebben en wiskundige bewerkingen toelaten, zoals IQ, geboortejaar of temperatuur [4](#page=4).
### 1.5.3 Meetniveaus
Binnen kwalitatieve en kwantitatieve variabelen worden verschillende meetniveaus onderscheiden:
* **Nominaal:** Categorieën zonder inherente ordening. Rekenkundige bewerkingen zijn niet mogelijk (bijv. haarkleur, woonplaats) ] [4](#page=4).
* **Ordinaal:** Categorieën met een duidelijke ordening, maar de afstand tussen de categorieën is niet gelijk of meetbaar (bijv. opleidingsniveau, een 5-puntsschaal) ] [4](#page=4).
* **Dichotome variabele:** Een categorische variabele met precies twee waarden [4](#page=4).
* **Dummyvariabele:** Een speciale vorm van een dichotome variabele waarbij 0/1-codering wordt gebruikt. Dit is géén indicatie van een gemiddelde waarde van een halve categorie [4](#page=4).
* **Polytome variabele:** Een categorische variabele met meer dan twee waarden [4](#page=4).
* **Interval:** Variabelen met wiskundige waarden en gelijke afstanden tussen opeenvolgende waarden, maar zonder een absoluut nulpunt. Delen of vermenigvuldigen is niet zinvol (bijv. temperatuur in Celsius, geboortejaar) ] [4](#page=4).
* **Ratio:** (Niet uitputtend behandeld in dit fragment, maar conceptueel wel een meetniveau) Variabelen met een absoluut nulpunt en gelijke intervallen, waardoor alle wiskundige bewerkingen mogelijk zijn (bijv. lengte, gewicht, leeftijd).
---
# Variabelen en meetniveaus in statistisch onderzoek
Dit onderdeel introduceert het concept van operationalisatie en de verschillende meetniveaus die cruciaal zijn voor het correct uitvoeren van statistisch onderzoek [4](#page=4).
### 2.1 Operationalisatie van variabelen
Operationalisatie is het proces waarbij variabelen meetbaar worden gemaakt binnen een steekproef. Dit houdt in dat een abstract concept wordt vertaald naar concrete vragen of meetinstrumenten. De definitie van een variabele specificeert wat er precies gemeten of uitgedrukt moet worden, terwijl de operationalisatie bepaalt *hoe* dit concept concreet gemeten zal worden. Dit proces is vaak gebaseerd op voorafgaand onderzoek of theoretische fundamenten. Een veelvoorkomende fout is bijvoorbeeld het definiëren van "kijken" als het kijken van minimaal drie minuten naar content, wat een specifieke operationalisatie is [4](#page=4).
#### 2.1.1 Kwantitatieve versus kwalitatieve variabelen
Variabelen kunnen worden onderverdeeld in twee hoofdcategorieën:
* **Kwalitatieve (of categorische) variabelen**: Dit zijn variabelen die geen inherente wiskundige betekenis hebben en die men kan categoriseren. Voorbeelden hiervan zijn woonplaats, haarkleur, geslacht en opleidingsniveau [4](#page=4).
* **Kwantitatieve (of metrische) variabelen**: Dit zijn variabelen die numerieke waarden vertegenwoordigen waarop wiskundige bewerkingen kunnen worden uitgevoerd. Voorbeelden zijn IQ-scores, geboortejaar en temperatuur [4](#page=4).
#### 2.1.2 Meetniveaus
Het meetniveau van een variabele bepaalt welke statistische bewerkingen ermee uitgevoerd mogen worden. De vier veelvoorkomende meetniveaus zijn, van laag naar hoog [4](#page=4):
* **Nominaal niveau**: Variabelen op dit niveau bestaan uit categorieën zonder enige logische ordening. Met de waarden op dit niveau kan niet gerekend worden [4](#page=4).
* *Voorbeelden*: Haarkleur (blond, bruin, zwart), woonplaats, geslacht [4](#page=4).
* **Ordinaal niveau**: Variabelen op dit niveau bestaan uit categorieën die wel een logische ordening hebben, maar de afstanden tussen deze categorieën zijn niet gelijk of meetbaar [4](#page=4).
* *Voorbeelden*: Opleidingsniveau (basisonderwijs, middelbaar onderwijs, hoger onderwijs), een 5-puntsschaal (helemaal oneens tot helemaal eens) [4](#page=4).
* **Dichotome variabelen**: Dit zijn categorische variabelen met slechts twee mogelijke waarden [4](#page=4).
* **Dummyvariabelen**: Dit zijn speciale dichotome variabelen die worden gecodeerd met 0 en 1 om ze in analyses te kunnen gebruiken [4](#page=4).
* **Polytome variabelen**: Dit zijn categorische variabelen met meer dan twee mogelijke waarden [4](#page=4).
* **Intervalniveau**: Variabelen op dit niveau hebben numerieke waarden en een consistente afstand tussen opeenvolgende waarden. Er is echter geen absoluut nulpunt. Delen of vermenigvuldigen van deze waarden is niet zinvol [4](#page=4).
* *Voorbeelden*: Temperatuur gemeten in graden Celsius of Fahrenheit, geboortejaar [4](#page=4).
* **Rationiveau**: Dit is het hoogste meetniveau. Variabelen op dit niveau hebben numerieke waarden, consistente afstanden tussen waarden en een absoluut nulpunt. Dit betekent dat deze waarden kunnen worden vergeleken in termen van verhoudingen en dat nul ook echt de afwezigheid van de gemeten eigenschap betekent [5](#page=5).
* *Voorbeelden*: Lengte, leeftijd, gewicht, inkomen [5](#page=5).
#### 2.1.3 Kenmerken van kwantitatieve variabelen
Kwantitatieve variabelen kunnen verder worden onderverdeeld op basis van de waarden die ze kunnen aannemen:
* **Discreet**: Een variabele is discreet als deze slechts een beperkt aantal gehele getallen kan aannemen [5](#page=5).
* *Voorbeeld*: Het aantal kinderen in een gezin, het aantal studenten in een klas.
* **Continu**: Een variabele is continu als deze in theorie elke waarde binnen een bepaald bereik kan aannemen [5](#page=5).
* *Voorbeeld*: Lengte, gewicht, temperatuur.
> **Tip**: Het meetniveau van een variabele bepaalt welke rekenkundige bewerkingen toegestaan zijn. Over het algemeen geldt: bewerkingen die op een hoger meetniveau toegestaan zijn, zijn dat vaak niet op een lager niveau. De volgorde van de meetniveaus voor toelaatbare bewerkingen is Nominaal $\rightarrow$ Ordinaal $\rightarrow$ Interval $\rightarrow$ Ratio [5](#page=5).
### 2.2 Frequentieverdelingen en grafische voorstellingen
Om onderzoeksvragen te beantwoorden, worden verzamelde gegevens vaak samengevat en gevisualiseerd. Dit gebeurt met behulp van elementaire technieken zoals frequentietabellen en grafische methodes [5](#page=5).
#### 2.2.1 Frequentieverdelingen en tabellen
Een frequentieverdeling geeft aan hoe vaak elke waarde of categorie van een variabele voorkomt in de dataset, uitgedrukt in absolute of relatieve aantallen. Een frequentietabel is een gestructureerde manier om deze informatie weer te geven [5](#page=5).
Belangrijke componenten van een frequentietabel:
* $X_i$: De mogelijke antwoordopties of waarden van de variabele [6](#page=6).
* $N$: De totale steekproefgrootte [6](#page=6).
* $F_i$: De absolute frequentie, oftewel het aantal keren dat een specifieke waarde $X_i$ is waargenomen [6](#page=6).
* $f_i$: De relatieve frequentie, vaak uitgedrukt als een percentage, berekend als $\frac{F_i}{N} \times 100\%$ [5](#page=5) [6](#page=6).
* Cumulatief percentage: Het percentage van de waarnemingen dat gelijk is aan of kleiner is dan een bepaalde waarde of categorie [5](#page=5).
#### 2.2.2 Grafische voorstellingen
Grafische methoden helpen om de verdeling van gegevens snel te begrijpen. De keuze voor een grafische voorstelling hangt af van het meetniveau van de variabele [5](#page=5) [6](#page=6).
* **Nominale schaal**: Voornamelijk gebruikt men staafdiagrammen of taartdiagrammen om de frequenties van categorieën weer te geven [6](#page=6).
* **Ordinale schaal**: Naast staafdiagrammen kunnen hier ook cumulatieve percentages worden weergegeven, bijvoorbeeld om aan te geven welk percentage van de respondenten "akkoord" of "sterk akkoord" is. De absolute cumulatieve frequentie wordt weergegeven als $K(X_i)$, en de relatieve cumulatieve frequentie als $k(X_i)$ [6](#page=6).
* **Interval- en rationiveau**:
* **Niet in klassen gegroepeerde gegevens**: Hier kunnen staafdiagrammen, histogrammen, frequentiepolygonen en boxplots gebruikt worden [6](#page=6).
* **Wel in klassen gegroepeerde gegevens**: Wanneer het aantal verschillende waargenomen waarden te groot is, worden de gegevens opgedeeld in klassen. Bij het groeperen in klassen is het belangrijk dat deze regels worden nageleefd [6](#page=6):
1. **Exhaustief**: Elke waarneming moet aan één klasse kunnen worden toegewezen [6](#page=6).
2. **Wederzijds exclusief**: Klassen mogen niet overlappen [6](#page=6).
* Voor continue variabelen wordt vaak het klassenmidden gebruikt, wat het gemiddelde van de onder- en bovengrens van de klasse is [6](#page=6).
> **Tip**: Het correct identificeren van het meetniveau van een variabele is essentieel voor de keuze van de juiste statistische analysemethoden en grafische voorstellingen [4](#page=4) [5](#page=5).
> **Example**: Stel dat we de variabele "opleidingsniveau" onderzoeken. Dit is een ordinale variabele met categorieën zoals "lager onderwijs", "middelbaar onderwijs" en "hoger onderwijs". We kunnen een staafdiagram gebruiken om de absolute aantallen per opleidingsniveau weer te geven. Daarnaast kunnen we een cumulatief percentage tonen, bijvoorbeeld "75% heeft minimaal middelbaar onderwijs gevolgd", wat de ordening van de variabele benut [6](#page=6).
---
# Beschrijvende univariate statistische maten
Beschrijvende univariate statistische maten helpen bij het samenvatten en beschrijven van de verdeling van gegevens van één variabele [7](#page=7).
### 3.1 Frequentieverdelingen en grafische voorstellingen
Om onderzoeksvragen te beantwoorden, worden verzamelde kwantitatieve gegevens samengevat met behulp van elementaire technieken zoals het weergeven van frequenties in tabellen, grafische methoden (staafdiagrammen, histogrammen) en samenvattende numerieke getallen [5](#page=5).
Een frequentieverdeling geeft voor elke waarde of categorie van een variabele aan hoeveel waarnemingen er zijn, in absolute of relatieve aantallen. Een frequentietabel toont deze gegevens [5](#page=5).
* **Absolute frequentie ($F_i$)**: Het aantal keren dat een bepaalde waarde $x_i$ werd waargenomen [6](#page=6).
* **Relatieve frequentie ($f_i$)**: Het percentage van de absolute frequentie ten opzichte van de totale steekproefgrootte ($N$). $f_i = \frac{F_i}{N} \times 100$ [5](#page=5).
* **Cumulatief percentage**: Het percentage van waarnemingen dat kleiner is dan of gelijk is aan een bepaalde waarde [5](#page=5).
#### 3.1.1 Grafische voorstellingen
De keuze voor een grafische voorstelling hangt af van het meetniveau van de variabele [6](#page=6).
* **Nominale schaal**: Staafdiagram of taartdiagram [6](#page=6).
* **Ordinale schaal**: Cumulatieve percentages kunnen worden weergegeven. Absolute cumulatieve frequentie: $K(x_i)$. Relatieve cumulatieve frequentie: $k(x_i)$ [6](#page=6).
* **Interval en ratio**:
* **Niet in klassen gegroepeerde gegevens**: Staafdiagram, histogram, frequentiepolygoon [6](#page=6).
* **Wel in klassen gegroepeerde gegevens**: De waarden worden opgedeeld in klassen die exhaustief (elke waarneming kan aan een klasse worden toegewezen) en wederzijds exclusief (niet-overlappend) zijn. Voor continue variabelen is het klassenmidden het gemiddelde. Voor discrete variabelen kan een klasse zoals `waarde 23` worden weergegeven als `[22,5; 23,5[` [6](#page=6) [7](#page=7).
#### 3.1.2 Datavisualisatie
Goede datavisualisatie wordt gekenmerkt door drie eigenschappen: duidelijk, correct en esthetisch (mooi) [7](#page=7).
### 3.2 Maten van ligging of positie
Maten van ligging (of positie) laten toe om groepen efficiënt te vergelijken. Ze liggen altijd tussen de kleinste en grootste waargenomen waarde, en de keuze hangt af van het meetniveau en inhoudelijke criteria [7](#page=7).
#### 3.2.1 Centrummaten
Centrummaten geven een typische waarde voor een dataset [8](#page=8).
* **Modus**: De waargenomen waarde van de variabele met de hoogste frequentie [8](#page=8).
* **Voordelen**: Makkelijk te bepalen, bruikbaar bij elke meetschaal [8](#page=8).
* **Nadelen**: Niet noodzakelijk uniek, houdt enkel rekening met de hoogste frequentie [8](#page=8).
* Bij gegroepeerde gegevens spreekt men van de **modale klasse**, het klassenmidden van de klasse met de hoogste frequentie [8](#page=8).
* **Mediaan**: De waarde die de geordende dataset in twee gelijke helften verdeelt (evenveel waarnemingen kleiner dan/gelijk aan/groter dan de mediaan) [8](#page=8).
* **Berekening bij gegroepeerde gegevens**: $X' + \frac{F_m - K(X'_m)}{f_m} \times l$, waarbij $X'$ de ondergrens van de klasse is, $F_m$ de absolute frequentie van die klasse, $K(X'_m)$ de absolute cumulatieve frequentie van de ondergrens van die klasse, en $l$ de lengte van de klasse [8](#page=8).
* **Voordelen**: Uniek, minder gevoelig voor extreme waarden dan het gemiddelde [8](#page=8).
* **Nadelen**: Niet te berekenen voor nominale variabelen, niet alle waargenomen waarden worden in rekening gebracht [8](#page=8).
* **Gemiddelde**: De som van alle waarnemingen gedeeld door het aantal waarnemingen [9](#page=9).
* **Berekening bij gegroepeerde gegevens**: Gebruik de klassenmiddens [9](#page=9).
* **Voordelen**: Uniek, alle waargenomen waarden worden gebruikt, mathematisch gebruiksvriendelijk [9](#page=9).
* **Nadelen**: Beïnvloed door extreme scores, niet geschikt voor nominale/ordinale schalen [9](#page=9).
#### 3.2.2 Kwantielen
Kwantielen verdelen de geordende dataset in gelijke delen en zijn beschikbaar vanaf ordinaal meetniveau [9](#page=9).
* **Kwartielen**: Verdelen de data in 4 gelijke delen (K1, K2=mediaan, K3) [9](#page=9).
* **Decielen**: Verdelen de data in 10 gelijke delen [9](#page=9).
* **Percentielen**: Verdelen de data in 100 gelijke delen [9](#page=9).
#### 3.2.3 Momenten
Momenten beschrijven hoe waarden zich verhouden ten opzichte van een constante waarde. Er zijn momenten rond de oorsprong, rond het gemiddelde, en rond een andere constante waarde [10](#page=10) [9](#page=9).
### 3.3 Maten van spreiding
Maten van spreiding geven aan hoe sterk waarden zich concentreren; liggen ze dicht of ver uit elkaar [7](#page=7).
#### 3.3.1 Variatiebreedte en interkwantielen
* **Variatiebreedte (Range)**: Het verschil tussen de grootste en kleinste waargenomen waarde [10](#page=10).
* **Nadeel**: Zeer gevoelig voor extreme waarden [10](#page=10).
* Bij gegroepeerde gegevens: verschil tussen de bovengrens van de hoogste klasse en de ondergrens van de laagste klasse [10](#page=10).
* **Interkwartielafstand**: Het verschil tussen het derde kwartiel ($K_3$) en het eerste kwartiel ($K_1$). Dit geeft aan tussen welke waarden de middelste 50% van de waarnemingen vallen. De snorharen van een boxplot representeren vaak 1.5 keer de interkwartielafstand [10](#page=10).
* **Interdecielafstand**: Het verschil tussen het negende deciel ($D_9$) en het eerste deciel ($D_1$). Dit geeft aan tussen welke waarden de middelste 80% van de waarnemingen vallen [10](#page=10).
#### 3.3.2 Afwijkingen van het gemiddelde
* **Gemiddelde absolute afwijking**: De absolute waarde van de verschillen tussen de waarnemingen en het gemiddelde [11](#page=11).
* **Variantie**: Het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde [11](#page=11).
* **Kwadratensom (Sum of Squares)**: De som van de gekwadrateerde afwijkingen van het rekenkundig gemiddelde [11](#page=11).
* **Kenmerken**: Geeft meer gewicht aan grote verschillen, altijd positief of nul, zegt iets over onderlinge verschillen [11](#page=11).
* **Nadelen**: Kwadratische maat, moeilijk te interpreteren [11](#page=11).
* **Standaardafwijking**: De vierkantswortel van de variantie [11](#page=11).
* **Voordelen**: Meest gebruikte kengetal voor spreiding, uitgedrukt in dezelfde meeteenheid als de waarneming [11](#page=11).
* **Nadelen**: De waarde op zich zegt niet of de spreiding groot of klein is in verhouding met de uitkomst zelf [12](#page=12).
#### 3.3.3 Relatieve spreiding
* **Variatiecoëfficiënt**: De ratio van de standaardafwijking op het gemiddelde [12](#page=12).
* **Voordeel**: Relatieve spreidingsmaat, gebruikt om spreiding van verschillende groepen te vergelijken [12](#page=12).
#### 3.3.4 Toepassing normaalverdeling en Z-scores
* **Normaalverdeling**: Een continue, klokvormige, symmetrische verdeling waarbij het gemiddelde, de mediaan en de modus samenvallen. Verschillen in spreiding maken de verdeling spitser of platter. Dit speelt een belangrijke rol in de inferentiële statistiek [12](#page=12).
* **Z-scores**: Een gestandaardiseerde score die aangeeft hoeveel standaardafwijkingen een waarneming onder of boven het gemiddelde ligt [12](#page=12).
* Een negatieve Z-score geeft aan dat de score onder het gemiddelde ligt, een positieve Z-score dat deze erboven ligt [12](#page=12).
* Een Z-verdeling heeft een gemiddelde van 0 en een standaardafwijking van 1 [12](#page=12).
* **Voordeel**: Dimensieloos, wat vergelijkbaarheid mogelijk maakt [12](#page=12).
### 3.4 Maten van vorm
Maten van vorm beschrijven kenmerken zoals symmetrie en afplatting van een verdeling [7](#page=7).
#### 3.4.1 Symmetrie (scheefheid)
Symmetrie wordt gemeten door scheefheid. Er zijn drie situaties: symmetrisch, rechtsscheef en linksscheef [13](#page=13).
* **Rechtsscheef**: modus < mediaan < gemiddelde [13](#page=13).
* **Linksscheef**: gemiddelde < mediaan < modus [13](#page=13).
Verschillende coëfficiënten meten scheefheid:
* **Empirische coëfficiënt van Pearson ($S$)**:
* $S = 0$: Symmetrisch [13](#page=13).
* $S > 0$: Linkse asymmetrie [13](#page=13).
* $S < 0$: Rechtse asymmetrie [13](#page=13).
* **Coëfficiënt van Yule en Kendall**:
* $Y = 0$: Symmetrisch [13](#page=13).
* $Y > 0$: Linkse asymmetrie [13](#page=13).
* $Y < 0$: Rechtse asymmetrie [13](#page=13).
* **Coëfficiënt van Fisher ($g_1$)**: Gebaseerd op het derde centrale moment.
* $g_1 = 0$: Symmetrisch [13](#page=13).
* $g_1 > 0$: Linkse asymmetrie [13](#page=13).
* $g_1 < 0$: Rechtse asymmetrie [13](#page=13).
#### 3.4.2 Afplatting (kurtosis)
Afplatting wordt gemeten door de kurtosis, die de buiging of gepiektheid van de verdeling aangeeft [13](#page=13).
* **Coëfficiënt Pearson ($b_2$)**:
* Leptokurtisch: $b_2 > 3$ (meer gepiekt) [14](#page=14).
* Mesokurtisch: $b_2 = 3$ [14](#page=14).
* Platykurtisch: $b_2 < 3$ (minder gepiekt) [14](#page=14).
* **Coëfficiënt Fisher ($g_2$)**:
* Leptokurtisch: $g_2 > 0$ [14](#page=14).
* Mesokurtisch: $g_2 = 0$ [14](#page=14).
* Platykurtisch: $g_2 < 0$ [14](#page=14).
Er bestaat een formule voor de berekening van de kurtosis op basis van het centrale moment van rang 4 [14](#page=14).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Statistiek | Een wetenschap die zich bezighoudt met het verzamelen, analyseren, interpreteren en presenteren van gegevens om de wereld beter te kennen en te begrijpen. |
| Beschrijvende statistiek | Het deel van de statistiek dat zich richt op het samenvatten, ordenen en synthetiseren van verzamelde gegevens om de wereld in cijfers te beschrijven. |
| Inferentiële statistiek | Het deel van de statistiek dat zich richt op het trekken van conclusies over een grotere populatie op basis van gegevens verkregen uit een beperkte steekproef. |
| Onderzoekspopulatie | De gehele groep individuen of objecten waarover een onderzoek uitspraken wil doen en waaruit een steekproef getrokken kan worden. |
| Onderzoekseenheid | Het individuele element binnen een populatie dat wordt bestudeerd in een onderzoek; dit kunnen mensen, objecten of andere entiteiten zijn. |
| Variabele | Een kenmerk of eigenschap die wordt bestudeerd en dat kan variëren tussen verschillende onderzoekseenheden. |
| Datamatrix/dataset | Een tabelstructuur waarin onderzoekseenheden als rijen en variabelen als kolommen zijn weergegeven, met de waarden van de variabelen in de cellen. |
| Steekproef | Een subset van de onderzoekspopulatie die wordt onderzocht om representatieve informatie te verkrijgen over de gehele populatie. |
| Parameters | Kengetallen die een kenmerk van een hele populatie beschrijven, zoals het populatiegemiddelde ($\mu$) of de populatiestandaardafwijking ($\sigma$). |
| Statistieken (steekproefstatistieken) | Kengetallen die worden gemeten in een steekproef en die worden gebruikt om de parameters van de populatie te schatten, zoals het steekproefgemiddelde ($\bar{x}$) of de steekproefstandaardafwijking ($s$). |
| Operationalisatie | Het proces van het vertalen van abstracte concepten of variabelen naar concrete, meetbare criteria en procedures die in een onderzoek kunnen worden toegepast. |
| Nominaal meetniveau | Een categorisch meetniveau waarbij de waarden categorieën vertegenwoordigen zonder inherente ordening; er kunnen geen wiskundige bewerkingen mee worden uitgevoerd. |
| Ordinaal meetniveau | Een categorisch meetniveau waarbij de categorieën een inherente volgorde hebben, maar de afstanden tussen de categorieën niet noodzakelijk gelijk zijn. |
| Interval meetniveau | Een numeriek meetniveau waarbij de waarden wiskundig betekenisvol zijn, met gelijke afstanden tussen opeenvolgende waarden, maar zonder een absoluut nulpunt. |
| Ratio meetniveau | Een numeriek meetniveau waarbij de waarden wiskundig betekenisvol zijn, met gelijke afstanden en een absoluut nulpunt, waardoor verhoudingen zinvol zijn. |
| Frequentieverdeling | Een overzicht dat voor elke waarde of categorie van een variabele aangeeft hoe vaak deze voorkomt in een dataset, uitgedrukt in absolute of relatieve aantallen. |
| Modus | De waarde of categorie van een variabele die het vaakst voorkomt in een dataset; toepasbaar vanaf nominaal meetniveau. |
| Mediaan | De middelste waarde in een geordende dataset die de data in twee gelijke helften verdeelt; toepasbaar vanaf ordinaal meetniveau. |
| Gemiddelde | De som van alle waarnemingen gedeeld door het aantal waarnemingen; de meest gebruikte centrummaat voor interval- en ratiogegevens. |
| Variantie | Een maat voor spreiding die het gemiddelde is van de gekwadrateerde afwijkingen van het gemiddelde; geeft de gemiddelde kwadratische afstand van de datapunten tot het gemiddelde aan. |
| Standaardafwijking | De vierkantswortel van de variantie, die de gemiddelde afwijking van de datapunten ten opzichte van het gemiddelde weergeeft in de oorspronkelijke meeteenheid. |
| Variatiecoëfficiënt | Een relatieve maat voor spreiding, berekend als de standaardafwijking gedeeld door het gemiddelde, gebruikt om de spreiding van verschillende datasets te vergelijken. |
| Scheefheid (skewness) | Een maat voor de asymmetrie van een kansverdeling, die aangeeft of de verdeling meer gewicht heeft aan de ene kant dan aan de andere. |
| Kurtosis (afplatting) | Een maat die de "gepiektheid" of "platheid" van een kansverdeling beschrijft in vergelijking met een normale verdeling. |
Cover
1.2. Introductie statistiek(1).pptx
Summary
# Belang en toepassingen van statistiek
Statistiek is essentieel voor het begrijpen en verbeteren van de gezondheidszorg, met name in de vroedkunde, door middel van data-analyse en evidence-based practice.
## 1.1 Het belang van statistiek in de gezondheidszorg
Statistiek speelt een cruciale rol in de gezondheidszorg door het mogelijk te maken om belangrijke vragen te beantwoorden en de kwaliteit van zorg te waarborgen.
### 1.1.1 Voorbeelden van statistische toepassingen
* **Zwangerschapsduur:** Statistiek helpt bij het bepalen van de gemiddelde zwangerschapsduur (typisch 37-42 weken). Afwijkingen van deze grenzen (minder dan 37 weken of meer dan 42 weken) kunnen wijzen op problemen die nader onderzoek vereisen.
* **Effectiviteit van anticonceptiemiddelen:**
* De pil: Bij correct gebruik (dagelijkse inname op tijd, starten van een nieuwe strip binnen 7 dagen) is de kans op zwangerschap ongeveer 0.3%. Echter, door gebruiksfouten (te laat innemen of vergeten) raakt toch ongeveer 7% van de gebruikers zwanger.
* Condoom: Rekening houdend met mogelijke fouten, wordt de effectiviteit van het condoom geschat op 88%.
### 1.1.2 Statistiek als fundering voor Evidence-Based Practice
Statistisch onderzoek vormt het eerste "beentje" van Evidence-Based Practice (EBP). EBP streeft naar ethisch aanvaardbaar vroedkundig handelen op alle niveaus (micro, meso, macro), rechtvaardigt kosten-en-baten effectiviteit, en onderbouwt keuzes in de zorg.
## 1.2 Statistiek: definities en concepten
Statistiek omvat het verzamelen, bewerken, interpreteren, samenvatten en presenteren van gegevens om patronen te ontdekken en conclusies te trekken.
### 1.2.1 Kwalitatief versus Kwantitatief onderzoek
* **Kwantitatief onderzoek:** Richt zich op objectiviteit, controle en generaliseerbaarheid. Het omvat vaak grote groepen deelnemers en analyseert numerieke data om iets te zeggen over de "gemiddelde" man/vrouw of situatie. Een voorbeeld is de schatting van de prevalentie van onvruchtbaarheid (bijvoorbeeld 6% tot 18%).
* **Kwalitatief onderzoek:** Richt zich op de subjectieve beleving en betekenis, vaak met kleinere groepen deelnemers, om diepgaande inzichten te verkrijgen.
### 1.2.2 Beschrijvende en Verklarende statistiek
* **Beschrijvende statistiek:** Dit deel van de statistiek richt zich op het samenvatten en presenteren van de belangrijkste kenmerken van een kwantitatieve dataset. Het beschrijft de populatie of een steekproef op een beknopte manier, met als doel globale patronen en kenmerken te ontdekken. Voorbeelden zijn het onderzoeken van mediagebruik, en de invloed van leeftijd hierop.
* **Verklarende statistiek:** Dit maakt het mogelijk om conclusies te formuleren over een grotere groep (doelpopulatie) op basis van een kleinere groep (steekproef of onderzoekspopulatie). Het stelt hypotheses te testen en de uitkomsten te generaliseren naar de gehele doelpopulatie. Een voorbeeld is de hypothese of problematisch social mediagebruik leidt tot meer depressie tijdens de zwangerschap, waarbij bevindingen van een steekproef van 697 zwangere vrouwen worden gegeneraliseerd.
### 1.2.3 Begrippen: Populatie en Steekproef
* **Populatie:** De verzameling van alle elementen waarover men iets wil weten of zeggen.
* **Steekproef:** Een deelverzameling van de populatie die wordt onderzocht om conclusies te kunnen trekken over de gehele populatie.
* **Representativiteit:** Een steekproef moet een goede afspiegeling zijn van de populatie.
* **Soorten steekproeven:**
* **Aselecte steekproef:** Werd geheel op toeval gebaseerd (bijv. enkelvoudig willekeurig, systematisch, gestratificeerd, cluster).
* **Niet-aselecte steekproef:** De selectie is niet willekeurig, maar gebaseerd op bepaalde criteria, waarbij deelnemers vaak zelf beslissen of ze deelnemen (bijv. na een oproep). Veel onderzoek maakt gebruik van niet-aselecte steekproeven.
* **Inclusie- en exclusiecriteria:** Specificeren welke individuen wel of niet tot de studiepopulatie behoren.
### 1.2.4 Statistische variabelen en meetniveaus
* **Variabele:** Een eigenschap die gemeten kan worden bij de elementen van een populatie of steekproef.
* **Definitie van variabelen:** Het is cruciaal om eerst de variabele(n) te definiëren waarop de statistiek wordt toegepast. Bijvoorbeeld, bij het onderzoeken van social mediagebruik en depressie tijdens de zwangerschap, moeten aspecten zoals het type social media, intensiteit (tijd, frequentie), leeftijd, opleiding, pariteit, partnerstatus, geplande zwangerschap, en complicaties worden gedefinieerd.
* **Classificatie van variabelen:**
* **Kwalitatieve variabelen:** Data die in categorieën kunnen worden ingedeeld, niet numeriek gemeten.
* **Nominaal:** Categorieën zonder rangorde (bijv. 'wel/geen partner', 'geplande/ongeplande zwangerschap').
* **Ordinaal:** Categorieën met een rangorde (bijv. opleidingsniveau, waarderingscijfer).
* **Kwantitatieve variabelen:** Numerieke waarden, waarbij rekenkundige bewerkingen mogelijk zijn.
* **Discreet:** Waarden in discrete eenheden, beperkt aantal waarden (bijv. pariteit - aantal kinderen).
* **Continu:** Waarden die elke waarde kunnen aannemen binnen een bereik (bijv. tijd, lengte).
* **Interval:** Numerieke data waarbij het verschil tussen waarden exact is, maar het relatieve verschil niet (gelijke afstanden, geen vast nulpunt, bijv. lichaamstemperatuur). Optellen en aftrekken is mogelijk, vermenigvuldigen en delen niet.
* **Ratio:** Numerieke data waarbij zowel het verschil als het relatieve verschil exact is (zinvol verschil, bijv. lengte, gewicht, aantal).
## 1.3 Beschrijven van gegevens
Het beschrijven van gegevens omvat het presenteren en samenvatten van de distributie van variabelen.
### 1.3.1 Frequentietabellen en grafische voorstellingen
* **Frequentietabel:** Een tabel die weergeeft hoe vaak elke waarde (of klasse van waarden) voorkomt in een dataset.
* **Absolute frequentie ($f_i$):** Het aantal keren dat een specifieke waarde voorkomt.
* **Cumulatieve absolute frequentie ($cf_i$):** Het aantal keren dat een waarde kleiner of gelijk aan de huidige waarde voorkomt. Dit is enkel zinvol vanaf ordinaal niveau.
* **Relatieve frequentie ($h_i$):** De absolute frequentie gedeeld door het totaal aantal waarnemingen ($n$). $h_i = f_i / n$.
* **Cumulatieve relatieve frequentie ($ch_i$):** De cumulatieve absolute frequentie gedeeld door het totaal aantal waarnemingen ($n$). $ch_i = cf_i / n$.
* **Grafische voorstellingen:** Visuele weergaven van data.
* **Staafdiagram:** Geschikt voor discrete variabelen, met staven die de frequentie van elke categorie weergeven.
* **Histogram:** Geschikt voor continue variabelen, waarbij de staven aan elkaar grenzen en de frequentie van klassen weergeven.
* **Frequentiepolygoon:** Een lijn die de toppen van een histogram verbindt.
* **Ogief:** Een cumulatieve frequentiepolygoon, die de cumulatieve frequenties weergeeft.
* **Lijndiagram:** Vaak gebruikt om trends over tijd te tonen.
* **Stapeldiagram:** Vergelijkt onderdelen binnen categorieën.
* **Vergelijkend staafdiagram:** Toont vergelijkingen tussen verschillende groepen.
* **Cirkeldiagram:** Toont de proportie van verschillende categorieën binnen een geheel.
### 1.3.2 Centrummaten
Centrummaten geven een indicatie van het "midden" of de typische waarde van een dataset.
* **Modus:** De waarde of klasse met de hoogste frequentie. Kan vanaf nominaal niveau worden bepaald. Een dataset kan eentoppig, tweetoppig (bimodaal) zijn, of geen modus hebben. De modus wordt niet beïnvloed door uitschieters.
* **Mediaan:** De middelste waarneming in een geordende dataset. Bij een oneven aantal waarnemingen is dit de exacte middelste waarde. Bij een even aantal waarnemingen is het het rekenkundig gemiddelde van de twee middelste waarden. De mediaan kan vanaf ordinaal niveau worden bepaald en wordt niet beïnvloed door extremen.
* **Rekenkundig gemiddelde ($\bar{x}$):** De som van alle waarnemingen gedeeld door het totaal aantal waarnemingen. Dit is de meest gebruikte centrummaat, maar is gevoelig voor uitschieters. Het kan enkel berekend worden vanaf kwantitatief niveau.
$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$
waarbij $n$ het totaal aantal waarnemingen is en $x_i$ de $i$-de waarneming.
### 1.3.3 Spreidingsmaten
Spreidingsmaten beschrijven hoe verspreid de data liggen rondom de centrummaat.
* **Bereik:** Het verschil tussen de maximum- en minimumwaarde in een dataset. Dit houdt enkel rekening met de uiterste waarden.
Bereik = Maximum - Minimum
* **Percentielen:** De $p$-de percentiel is de waarde waaronder $p\%$ van de waarnemingen valt.
* De mediaan is het 50e percentiel ($P_{50}$ of $Q_2$).
* Het eerste kwartiel ($Q_1$) is het 25e percentiel ($P_{25}$).
* Het derde kwartiel ($Q_3$) is het 75e percentiel ($P_{75}$).
* **Interkwartielafstand (IKA):** Het verschil tussen het derde en eerste kwartiel ($Q_3 - Q_1$). Dit geeft de spreiding van de middelste 50% van de data weer.
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van alle individuele waarden ten opzichte van het gemiddelde. Het geeft aan hoe de waarnemingen rond het gemiddelde liggen.
* **Standaardafwijking ($s$):** De wortel uit de variantie ($s = \sqrt{s^2}$). Het geeft de gemiddelde afwijking van de waarnemingen ten opzichte van het gemiddelde aan. Een groot deel van de waarnemingen ligt doorgaans binnen een bepaald aantal standaardafwijkingen van het gemiddelde.
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
$$ s = \sqrt{s^2} $$
> **Tip:** Begrijpen wat een standaardafwijking betekent (hoe de data verspreid is rond het gemiddelde) is belangrijker dan de berekening ervan voor de meeste toepassingen in de gezondheidszorg.
### 1.3.4 Boxplot
Een boxplot is een grafische weergave die het bereik, de kwartielen en de mediaan van een dataset toont, wat een duidelijk beeld geeft van de spreiding en mogelijke uitschieters.
## 1.4 Quizvragen ter reflectie
* **Vraag 1:** Als een getal wordt toegevoegd aan een steekproef, en dat getal valt precies in het midden van de bestaande gegevens, welke impact heeft dit dan op het bereik?
* **Vraag 2:** Als een getal wordt toegevoegd aan een steekproef, en dat getal is veel groter dan het gemiddelde van de steekproef, welke impact heeft dit dan op de standaardafwijking?
* **Vraag 3:** Als 10 wordt opgeteld bij elk getal uit een steekproef, welke impact heeft dit dan op de mediaan? Welke impact heeft dit op de standaardafwijking?
* **Vraag 4:** Wat betekent het als een set gegevens een standaardafwijking van 0 heeft?
* **Vraag 5:** Welke van twee gegeven steekproeven heeft de kleinste standaardafwijking?
---
# Onderscheid tussen kwalitatief en kwantitatief onderzoek
Dit gedeelte behandelt de fundamentele verschillen tussen kwalitatief en kwantitatief onderzoek, met speciale aandacht voor hun focus, methodologie, steekproefgrootte en de rol van statistische dataverwerking.
### 2.1 Definities en focus
* **Kwantitatief onderzoek**: Richt zich op 'massa', objectiviteit, controleerbaarheid en generaliseerbaarheid. Het beoogt het meten en tellen van fenomenen om objectieve uitspraken te doen over een populatie.
* **Kwalitatief onderzoek**: Focust op de subjectieve beleving, betekenisgeving en diepgaande inzichten binnen een kleinere steekproef. Het verkent de 'kwaliteit' van ervaringen en perspectieven.
> **Tip:** Denk bij kwantitatief aan cijfers en statistieken, en bij kwalitatief aan verhalen en interpretaties.
### 2.2 Rol van steekproeven
#### 2.2.1 Steekproefgrootte en generaliseerbaarheid
* **Kwantitatief onderzoek** maakt doorgaans gebruik van grote steekproeven. Dit is essentieel voor het bereiken van generaliseerbaarheid; de resultaten van de steekproef moeten betrouwbaar kunnen worden toegeschreven aan de gehele doelpopulatie.
* **Kwalitatief onderzoek** werkt met kleinere steekproeven. De focus ligt hier niet op statistische generaliseerbaarheid, maar op het verkrijgen van diepgaande, kwalitatieve data en rijke inzichten van de individuele deelnemers.
#### 2.2.2 Steekproefmethoden
* **Populatie**: De volledige verzameling van elementen (personen, objecten, data) waarover men iets wil weten.
* **Steekproef**: Een deelverzameling van de populatie die daadwerkelijk wordt onderzocht. Het doel is om door middel van de steekproef conclusies te kunnen trekken over de bredere populatie.
* **Representativiteit**: Een goede steekproef is representatief, wat betekent dat deze een accurate afspiegeling vormt van de kenmerken van de doelpopulatie.
**Soorten steekproeven:**
* **Aselecte steekproef**: De selectie van deelnemers gebeurt volledig op toeval.
* *Enkelvoudig aselect*: Elke eenheid heeft gelijke kans om geselecteerd te worden.
* *Systematisch*: Selectie volgens een vast interval (bv. elke 10e persoon).
* *Gestratificeerd*: De populatie wordt ingedeeld in subgroepen (strata), en vervolgens wordt uit elk stratum een aselecte steekproef getrokken.
* *Cluster*: De populatie wordt opgedeeld in clusters, en vervolgens worden willekeurig enkele clusters geselecteerd om te onderzoeken.
* **Niet-aselecte steekproef**: De selectie is niet gebaseerd op toeval, maar op bepaalde criteria of het gemak van de onderzoeker. Deelnemers beslissen vaak zelf of ze deelnemen (bv. na een oproep voor onderzoek). Dit type steekproef komt vaker voor in de praktijk, maar beperkt de generaliseerbaarheid.
> **Tip:** Begrijp dat niet-aselecte steekproeven vaak niet-willekeurig zijn en de generaliseerbaarheid van bevindingen kunnen beperken.
### 2.3 Statistische dataverwerking in beide benaderingen
Hoewel kwalitatief onderzoek zich richt op diepgang en betekenis, kan ook dit type onderzoek baat hebben bij statistische dataverwerking, met name in de vorm van **beschrijvende statistiek**. Kwantitatief onderzoek daarentegen leunt sterk op zowel beschrijvende als verklarende statistiek.
#### 2.3.1 Beschrijvende statistiek
Beschrijvende statistiek houdt zich bezig met het verzamelen, bewerken, interpreteren, samenvatten en presenteren van de belangrijkste kenmerken van een kwantitatieve dataset. Het doel is om globale patronen en kenmerken binnen de data te ontdekken en deze op een beknopte manier weer te geven.
* **Populatie**: Het geheel van gelijksoortige objecten of data die worden bestudeerd.
* **Voorbeelden**:
* Het bijhouden van het aantal geboortes per dag in een ziekenhuis.
* Het registreren van de leeftijd van deelnemers aan een onderzoek.
#### 2.3.2 Verklarende statistiek
Verklarende statistiek maakt het mogelijk om, gebruikmakend van een kleinere groep (steekproef), conclusies te formuleren over een grotere groep (doelpopulatie). Het stelt hypothesen of veronderstellingen over de populatie te testen en de uitkomsten te generaliseren.
* **Hypothese testen**: Onderzoekers formuleren een veronderstelling (hypothese) en toetsen deze aan de hand van steekproefgegevens.
* **Generalisatie**: De bevindingen uit de steekproef worden veralgemeend naar de doelpopulatie.
> **Voorbeeld:** Een onderzoeker veronderstelt dat problematisch social media gebruik geassocieerd is met meer depressieve symptomen tijdens de zwangerschap. Door een steekproef van zwangere vrouwen te onderzoeken, kan deze hypothese getest en, indien significant, gegeneraliseerd worden naar de bredere populatie van zwangere vrouwen.
### 2.4 Variabelen en meetniveaus
Een **variabele** is een eigenschap die gemeten kan worden en die kan variëren tussen individuen of objecten. De keuze van de statistische analysemethode hangt sterk af van het meetniveau van de variabele.
#### 2.4.1 Soorten variabelen
* **Kwalitatieve variabelen**: Data die niet numeriek worden gemeten, maar in categorieën kunnen worden ingedeeld.
* **Nominaal**: Categorieën zonder inherente rangorde of waarde (bv. ja/nee, geslacht, burgerlijke staat). De ene categorie is anders dan de andere, maar er is geen volgorde.
* **Ordinaal**: Categorieën met een duidelijke rangorde of volgorde, maar de afstanden tussen de categorieën zijn niet noodzakelijk gelijk of meetbaar (bv. opleidingsniveau: lager onderwijs, middelbaar onderwijs, hoger onderwijs; waarderingscijfer).
* **Kwantitatieve variabelen**: Numerieke waarden die een hoeveelheid representeren en waarop rekenkundige bewerkingen mogelijk zijn.
* **Discreet**: Waarden worden gemeten in afzonderlijke, telbare eenheden. Er is een beperkt aantal mogelijke waarden (bv. pariteit: aantal kinderen; aantal bezoeken aan een arts).
* **Continu**: Waarden kunnen elke waarde aannemen binnen een bepaald bereik, afhankelijk van de meetprecisie (bv. lengte, gewicht, tijd, lichaamstemperatuur).
#### 2.4.2 Meetniveaus van variabelen
* **Interval**: Numerieke data waarbij de verschillen tussen waarden gelijk zijn (vaste intervallen), maar er is geen absoluut nulpunt. Optellen en aftrekken is mogelijk, maar vermenigvuldigen en delen niet zinvol (bv. temperatuur in graden Celsius). Gelijke afstanden tussen eigenschappen, maar geen vast nulpunt.
* **Ratio**: Numerieke data waarbij zowel het verschil als het relatieve verschil tussen waarden zinvol is. Er is een absoluut nulpunt (bv. lengte, gewicht, leeftijd, inkomen, aantal jaren). Bij ratio-meetniveau zijn alle rekenkundige bewerkingen mogelijk.
> **Voorbeeld:** Social media gebruik kan gemeten worden op een schaal van 1 (geen gebruik) tot 9 (meer dan 7 uur per dag). Dit is een voorbeeld van een variabele met ordinaal of interval/ratio meetniveau, afhankelijk van hoe de schaal precies is gedefinieerd.
### 2.5 Samenvatten en presenteren van kwantitatieve data
Wanneer kwantitatieve data zijn verzameld, worden deze samengevat en gepresenteerd met behulp van verschillende statistische methoden.
#### 2.5.1 Frequentietabellen
Een frequentietabel toont hoe vaak een bepaalde waarde of categorie voorkomt binnen een dataset.
* **Absolute frequentie ($f_i$)**: Het aantal keren dat een specifieke waarde voorkomt.
* **Cumulatieve absolute frequentie ($cf_i$)**: Het aantal keren dat een waarde voorkomt die kleiner dan of gelijk is aan de huidige waarde. Dit is enkel zinvol vanaf ordinaal meetniveau.
* **Relatieve frequentie ($h_i$)**: De proportie van een bepaalde waarde in de totale dataset ($h_i = f_i / n$, waarbij $n$ het totaal aantal waarnemingen is).
* **Cumulatieve relatieve frequentie ($ch_i$)**: De proportie van waarden die kleiner dan of gelijk zijn aan de huidige waarde ($ch_i = cf_i / n$).
#### 2.5.2 Grafische voorstellingen
Grafieken helpen bij het visualiseren van de distributie van data.
* **Staafdiagram**: Geschikt voor nominale en ordinale variabelen. Elke staaf representeert een categorie en de hoogte van de staaf geeft de frequentie aan.
* **Histogram**: Gebruikt voor continue of discrete variabelen met veel mogelijke waarden. Staven raken elkaar, wat de continuïteit van de variabele weergeeft.
* **Frequentiepolygoon**: Een lijndiagram dat de toppen van de staven van een histogram verbindt.
* **Ogief**: Een cumulatief frequentiepolygoon, die de cumulatieve frequenties weergeeft.
* **Lijndiagram**: Geschikt voor het weergeven van trends over tijd.
* **Stapeldiagram**: Vergelijkt delen van een geheel tussen verschillende categorieën.
* **Vergelijkend staafdiagram**: Vergelijkt frequenties van verschillende groepen voor dezelfde variabele.
* **Cirkeldiagram**: Toont de proportionele verdeling van categorieën binnen een geheel.
#### 2.5.3 Centrummaten
Centrummaten geven een indicatie van het 'centrum' of het typische waarde in een dataset.
* **Modus**: De waarde of categorie die het meest frequent voorkomt. Geschikt voor alle meetniveaus. Een dataset kan unimodaal (één modus), bimodaal (twee modi) of amodaal (geen duidelijke modus) zijn.
* **Mediaan**: De middelste waarde in een geordende dataset. Als het aantal waarnemingen ($n$) oneven is, is de mediaan de middelste waarde. Als $n$ even is, is de mediaan het gemiddelde van de twee middelste waarden. Geschikt vanaf ordinaal meetniveau. De mediaan wordt niet beïnvloed door extremen.
* **Rekenkundig gemiddelde**: De som van alle waarden gedeeld door het aantal waarnemingen ($\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$). Geschikt vanaf interval en ratio meetniveau. Het gemiddelde is gevoelig voor extreme waarden.
#### 2.5.4 Spreidingsmaten
Spreidingsmaten beschrijven hoe de data verspreid zijn rond het centrum.
* **Bereik**: Het verschil tussen de maximum- en minimumwaarde in de dataset. Het geeft enkel de extremen weer en geen informatie over de verdeling daartussen.
* Bereik = Maximum - Minimum
* **Percentielen**: Een percentiel geeft de waarde aan waaronder een bepaald percentage van de data ligt.
* De $p$-de percentiel ($P_p$) is de waarde waarvoor $p\%$ van de waarnemingen kleiner of gelijk is aan deze waarde.
* De mediaan is het 50e percentiel ($P_{50}$).
* Het eerste kwartiel ($Q_1$) is het 25e percentiel ($P_{25}$).
* Het derde kwartiel ($Q_3$) is het 75e percentiel ($P_{75}$).
* **Interkwartielafstand (IKA)**: Het verschil tussen het derde en het eerste kwartiel ($IKA = Q_3 - Q_1$). Dit is een maat voor de spreiding van de middelste 50% van de data en is minder gevoelig voor extremen dan het bereik.
* **Variantie ($s^2$)**: Het gemiddelde van de gekwadrateerde afwijkingen van elke waarneming tot het gemiddelde. Het meet de gemiddelde spreiding van de data rond het gemiddelde.
$$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$$
* **Standaardafwijking ($s$)**: De vierkantswortel van de variantie ($s = \sqrt{s^2}$). Het is de meest gebruikte spreidingsmaat en geeft de gemiddelde afwijking van de individuele waarnemingen ten opzichte van het gemiddelde aan. Een groot deel van de waarnemingen ligt binnen een afstand van één standaardafwijking van het gemiddelde.
> **Voorbeeld:** Als de standaardafwijking van de penislengte bij mannen 2,5 cm is, betekent dit dat de meeste lengtes ongeveer 2,5 cm afwijken van het gemiddelde.
> **Tip:** Wanneer er een getal wordt toegevoegd aan een steekproef:
> * Als het getal in het midden van de gegevens valt, heeft dit geen impact op het bereik.
> * Als het getal veel groter is dan het gemiddelde, zal dit de standaardafwijking vergroten.
> * Als 10 wordt opgeteld bij elk getal in een steekproef, zal de mediaan met 10 toenemen, maar de standaardafwijking blijft gelijk (de spreiding verandert niet, alleen de positie).
> * Een standaardafwijking van 0 betekent dat alle waarden in de dataset identiek zijn.
---
# Concepten van populatie, steekproef en variabelen
Dit onderdeel introduceert de fundamentele concepten van populatie, steekproef en variabelen, essentieel voor het begrijpen en toepassen van beschrijvende statistiek.
### 3.1 Populatie en steekproef
Statistiek is een cruciaal instrument in diverse domeinen, waaronder de vroedkunde, en vormt een hoeksteen van Evidence Based Practice. Het doel van statistisch onderzoek is om objectieve en neutrale uitspraken te doen over groepen mensen.
* **Populatie**: Dit is de complete verzameling van alle elementen (individuen, objecten, metingen) waarover we iets willen weten of kunnen zeggen. Het is het "geheel" van gelijksoortige objecten of data.
* **Steekproef**: Dit is een deelverzameling van de populatie. Een steekproef wordt genomen met het doel om conclusies te kunnen veralgemenen naar de gehele populatie.
* **Representativiteit**: Een goede steekproef moet een afspiegeling zijn van de populatie, wat betekent dat de kenmerken van de steekproef vergelijkbaar moeten zijn met die van de populatie.
#### 3.1.1 Inclusie- en exclusiecriteria
Om een steekproef te definiëren, worden specifieke criteria opgesteld waaraan een element moet voldoen om al dan niet te worden opgenomen in het onderzoek.
* **Inclusiecriteria**: Kenmerken die een element moet bezitten om deel te mogen uitmaken van de steekproef.
* **Exclusiecriteria**: Kenmerken die een element beletten om deel te nemen aan de steekproef, zelfs als deze aan de inclusiecriteria voldoet.
#### 3.1.2 Soorten steekproeven
Steekproeven kunnen op verschillende manieren worden getrokken, wat invloed heeft op de representativiteit en de mogelijkheid tot generalisatie.
##### 3.1.2.1 Aselecte steekproeven
Bij aselecte steekproeven heeft elk element in de populatie een bekende (en vaak gelijke) kans om in de steekproef te worden opgenomen. Dit gebeurt op basis van toeval.
* **Enkelvoudige aselecte steekproef**: Elk element wordt willekeurig geselecteerd.
* **Systematische steekproef**: Elementen worden geselecteerd met een vaste tussenpoos (bijvoorbeeld elke 10e persoon) nadat een willekeurige start is gemaakt.
* **Gestratificeerde steekproef**: De populatie wordt eerst opgedeeld in subgroepen (strata) op basis van relevante kenmerken (bijv. leeftijd, geslacht). Vervolgens wordt uit elke subgroep een aselecte steekproef getrokken, vaak proportioneel aan de grootte van de subgroep in de populatie.
* **Cluster steekproef**: De populatie wordt opgedeeld in clusters (bijv. scholen, wijken). Vervolgens worden willekeurig enkele clusters geselecteerd, en alle elementen binnen die geselecteerde clusters worden onderzocht.
##### 3.1.2.2 Niet-aselecte steekproeven
Bij niet-aselecte steekproeven is de selectie niet gebaseerd op toeval, maar op beschikbaarheid of andere criteria van de onderzoeker. De kans op selectie is niet bekend.
* **Gemakkelijkheidssteekproef**: Elementen worden geselecteerd op basis van hun nabijheid of beschikbaarheid.
* **Doelgerichte steekproef (purposive sampling)**: De onderzoeker selecteert bewust respondenten die aan specifieke criteria voldoen, omdat deze geacht worden relevante informatie te kunnen verschaffen.
* **Quota steekproef**: Vergelijkbaar met gestratificeerde steekproeven, maar de selectie binnen de strata is niet willekeurig. De onderzoeker streeft naar een bepaalde verdeling van kenmerken in de steekproef.
* **Sneeuwbalmethode**: Respondenten worden gevraagd om andere potentiële respondenten aan te wijzen. Dit is nuttig voor moeilijk bereikbare populaties.
> **Tip:** Hoewel niet-aselecte steekproeven vaak eenvoudiger en goedkoper zijn, is de generaliseerbaarheid van de resultaten naar de populatie beperkter dan bij aselecte steekproeven.
### 3.2 Statistische variabelen
Een variabele is een eigenschap of kenmerk dat gemeten kan worden en waarvan de waarden kunnen variëren tussen de elementen van een populatie of steekproef. Het is cruciaal om variabelen duidelijk te definiëren voordat statistische analyses worden uitgevoerd.
#### 3.2.1 Soorten variabelen
Variabelen worden ingedeeld op basis van hun aard en meetniveau.
##### 3.2.1.1 Kwalitatieve variabelen
Deze variabelen drukken categorieën of eigenschappen uit die niet numeriek gemeten worden, maar waarin elementen ingedeeld kunnen worden.
* **Nominale variabelen**: De waarden zijn categorieën zonder inherente volgorde of rangorde. Er is enkel een onderscheid tussen categorieën.
* **Voorbeeld**: Geslacht (man/vrouw), burgerlijke staat (ongehuwd/gehuwd/gescheiden/weduwnaar/weduwe), ja/nee-antwoorden.
* **Ordinale variabelen**: De waarden zijn categorieën die wel een logische volgorde of rangorde hebben, maar de afstanden tussen de categorieën zijn niet noodzakelijk gelijk of meetbaar.
* **Voorbeeld**: Opleidingsniveau (lager, middelbaar, hoger), mate van tevredenheid (zeer ontevreden, ontevreden, neutraal, tevreden, zeer tevreden), rangschikking van voorkeuren.
##### 3.2.1.2 Kwantitatieve variabelen
Deze variabelen drukken numerieke waarden uit die als hoeveelheid kunnen worden gemeten. Rekenkundige bewerkingen zijn mogelijk.
* **Discrete variabelen**: De waarden worden in telbare eenheden gemeten en kunnen slechts een beperkt aantal waarden aannemen, vaak gehele getallen. Er zitten "sprongen" tussen de mogelijke waarden.
* **Voorbeeld**: Aantal kinderen, aantal keren dat een medicijn is ingenomen, pariteit (aantal geboortes).
* **Continue variabelen**: De waarden kunnen in theorie elke waarde aannemen binnen een bepaald interval, mits de meetnauwkeurigheid voldoende is.
* **Voorbeeld**: Lengte, gewicht, temperatuur, bloeddruk, tijd.
#### 3.2.2 Meetniveaus
De manier waarop een variabele gemeten wordt, bepaalt het meetniveau. Dit heeft directe implicaties voor de statistische analyses die kunnen worden uitgevoerd.
* **Nominaal niveau**: Enkel categorisatie en onderscheid. (Alleen mogelijk voor kwalitatieve variabelen)
* Toegestane bewerkingen: Tellen van frequenties.
* **Ordinaal niveau**: Naast categorisatie is er ook een rangorde. (Kwalitatieve variabelen)
* Toegestane bewerkingen: Tellen van frequenties, bepalen van modus, mediaan, percentielen.
* **Intervalniveau**: Numerieke waarden met gelijke intervallen tussen opeenvolgende waarden, maar zonder een absoluut nulpunt. (Kwantitatieve variabelen)
* Toegestane bewerkingen: Optellen en aftrekken van waarden, berekenen van gemiddelde, standaardafwijking. Vermenigvuldigen en delen is niet zinvol vanwege het ontbreken van een absoluut nulpunt.
* **Voorbeeld**: Temperatuur in graden Celsius of Fahrenheit. Het verschil tussen 10°C en 20°C is gelijk aan het verschil tussen 30°C en 40°C, maar 20°C is niet twee keer zo warm als 10°C.
* **Ratio-niveau (of verhoudingsniveau)**: Numerieke waarden met gelijke intervallen en een absoluut nulpunt. Dit betekent dat nul een werkelijk afwezigheid van de gemeten eigenschap aanduidt. (Kwantitatieve variabelen)
* Toegestane bewerkingen: Alle rekenkundige bewerkingen (optellen, aftrekken, vermenigvuldigen, delen) zijn zinvol. Verhoudingen kunnen worden berekend.
* **Voorbeeld**: Lengte, gewicht, leeftijd, inkomen, tijd, afstand. Een lengte van 2 meter is twee keer zo groot als een lengte van 1 meter.
> **Tip:** De keuze van het meetniveau is cruciaal voor het correct toepassen van statistische methoden. Een variabele gemeten op een hoger niveau (bv. ratio) kan ook behandeld worden als een lagere niveau (bv. ordinaal of nominaal), maar niet andersom.
**Samenvatting meetniveaus en mogelijke analyses:**
| Meetniveau | Variabele type | Modus | Mediaan | Gemiddelde | Bereik | Standaardafwijking |
| :--------- | :-------------- | :---- | :------ | :--------- | :----- | :----------------- |
| Nominaal | Kwalitatief | Ja | Nee | Nee | Nee | Nee |
| Ordinaal | Kwalitatief | Ja | Ja | Nee | Nee | Nee |
| Interval | Kwantitatief | Ja | Ja | Ja | Ja | Ja |
| Ratio | Kwantitatief | Ja | Ja | Ja | Ja | Ja |
---
# Beschrijvende statistiek: frequentietabellen, grafieken en centrum- en spreidingsmaten
Dit onderwerp introduceert de basisprincipes van beschrijvende statistiek, met een focus op het samenvatten en visualiseren van gegevens met behulp van frequentietabellen en diverse grafische weergaven, en het kwantificeren van de centrale tendens en variabiliteit van data door middel van centrum- en spreidingsmaten.
## 4 Beschrijvende statistiek: frequentietabellen, grafieken en centrum- en spreidingsmaten
Beschrijvende statistiek omvat het verzamelen, bewerken, interpreteren, samenvatten en presenteren van de belangrijkste kenmerken van een kwantitatieve dataset. Het doel is om globale patronen en kenmerken te ontdekken en de data op een beknopte manier weer te geven.
### 4.1 Frequentietabellen
Frequentietabellen worden gebruikt om de verdeling van data weer te geven, vooral voor discrete variabelen met een beperkt aantal verschillende waarden.
#### 4.1.1 Elementen van een frequentietabel
* **Absolute frequentie ($f_i$)**: Het aantal keren dat een specifieke waarde voorkomt in de dataset.
* **Cumulatieve absolute frequentie ($cf_i$)**: Het aantal keren dat een waarde kleiner dan of gelijk aan de huidige waarde voorkomt. Dit is alleen zinvol bij variabelen op ten minste ordinaal niveau.
* **Relatieve frequentie ($h_i$)**: De absolute frequentie gedeeld door het totale aantal waarnemingen ($n$). $h_i = \frac{f_i}{n}$.
* **Cumulatieve relatieve frequentie ($ch_i$)**: De cumulatieve absolute frequentie gedeeld door het totale aantal waarnemingen ($n$). $ch_i = \frac{cf_i}{n}$.
> **Tip:** Het totale aantal waarnemingen ($n$) is de som van alle absolute frequenties. De som van alle relatieve frequenties is gelijk aan 1 (of 100%).
### 4.2 Grafische voorstellingen
Grafieken helpen bij het visualiseren van de datadistributie en het identificeren van patronen.
* **Staafdiagram**: Geschikt voor kwalitatieve en discrete kwantitatieve variabelen. Elke staaf representeert een categorie of waarde, waarbij de hoogte van de staaf de frequentie aangeeft.
* **Histogram**: Gebruikt voor continue kwantitatieve variabelen. De staven raken elkaar, wat aangeeft dat de variabele continu is. De breedte van de staven vertegenwoordigt klassenintervallen.
* **Ogief (cumulatief frequentiepolygoon)**: Een grafiek die de cumulatieve frequentie weergeeft. Het laat zien hoeveel waarnemingen kleiner of gelijk zijn aan een bepaalde waarde.
* **Lijndiagram**: Vaak gebruikt om trends over tijd weer te geven of om frequentiepolygonen te tekenen.
* **Cirkeldiagram**: Geschikt voor het weergeven van relatieve frequenties van categorieën in kwalitatieve data. Elk segment van de cirkel vertegenwoordigt een proportie van het geheel.
### 4.3 Centrummaten
Centrummaten geven een indicatie van het "midden" of de typische waarde van een dataset.
#### 4.3.1 Modus
De modus is de waarde of categorie die het vaakst voorkomt in een dataset.
* **Toepasbaarheid**: Kan worden berekend voor variabelen op nominaal niveau en hoger.
* **Eigenschappen**: Kan meer dan één modus hebben (bimodaal, multimodaal) of geen modus hebben. Wordt niet beïnvloed door extreme waarden.
#### 4.3.2 Mediaan
De mediaan is de middelste waarde in een geordende dataset.
* **Berekening**:
* Bij een oneven aantal waarnemingen ($n$): de middelste waarde.
* Bij een even aantal waarnemingen ($n$): het rekenkundig gemiddelde van de twee middelste waarden.
* **Toepasbaarheid**: Kan worden berekend voor variabelen op ordinaal niveau en hoger.
* **Eigenschappen**: Niet beïnvloed door extreme waarden.
#### 4.3.3 Gemiddelde (rekenkundig gemiddelde)
Het gemiddelde is de som van alle waarnemingen gedeeld door het totale aantal waarnemingen.
* **Formule**: $$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$
Waarbij $x_i$ de $i$-de waarneming is en $n$ het totale aantal waarnemingen.
* **Toepasbaarheid**: Kan alleen worden berekend voor variabelen op interval- of rationiveau (kwantitatief).
* **Eigenschappen**: Wordt sterk beïnvloed door extreme waarden (uitbijters).
> **Tip:** De keuze van de centrummaat hangt af van het meetniveau van de variabele en de aanwezigheid van uitbijters. Bij scheve verdelingen is de mediaan vaak een betere representatie van het centrum dan het gemiddelde.
### 4.4 Spreidingsmaten
Spreidingsmaten geven aan hoe verspreid de data zijn rond het centrum.
#### 4.4.1 Bereik
Het bereik is het verschil tussen de maximum- en minimumwaarde in een dataset.
* **Formule**: Bereik = Maximum - Minimum
* **Eigenschappen**: Houdt alleen rekening met de uiterste waarden en geeft geen informatie over de verdeling van de data daartussen.
#### 4.4.2 Percentielen
Een percentiel geeft de waarde aan waaronder een bepaald percentage van de data valt.
* **P-de percentiel ($P_p$)**: De waarde waarbij $p\%$ van de waarnemingen kleiner of gelijk is aan deze waarde.
* **Kwartielen**: Specifieke percentielen:
* Eerste kwartiel ($Q_1$ of $P_{25}$): 25% van de data ligt hieronder.
* Mediaan ($Q_2$ of $P_{50}$): 50% van de data ligt hieronder.
* Derde kwartiel ($Q_3$ of $P_{75}$): 75% van de data ligt hieronder.
* **Interkwartielafstand (IKA)**: Het verschil tussen het derde en eerste kwartiel ($Q_3 - Q_1$). Dit geeft de spreiding van de middelste 50% van de data weer en is minder gevoelig voor uitbijters dan het bereik.
* **Boxplot**: Een grafische weergave die het minimum, $Q_1$, de mediaan, $Q_3$ en het maximum (of een aangepaste maximumwaarde in aanwezigheid van uitbijters) toont.
#### 4.4.3 Variantie en standaardafwijking
Deze maten kwantificeren de gemiddelde afwijking van de waarnemingen ten opzichte van het gemiddelde.
* **Variantie ($s^2$)**: Het gemiddelde van de gekwadrateerde afwijkingen van elke waarneming ten opzichte van het gemiddelde.
* **Formule (voor een steekproef)**: $$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
* **Standaardafwijking ($s$)**: De vierkantswortel van de variantie. Dit is de meest gebruikte spreidingsmaat omdat deze in dezelfde eenheden als de originele data is uitgedrukt.
* **Formule (voor een steekproef)**: $$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$
> **Tip:** De standaardafwijking geeft aan hoe typisch de gemiddelde afwijking is. Een kleine standaardafwijking betekent dat de data dicht bij het gemiddelde liggen, terwijl een grote standaardafwijking duidt op een grotere spreiding. Een standaardafwijking van 0 betekent dat alle waarnemingen identiek zijn.
> **Voorbeeld:** Als de standaardafwijking van de penislengte 2,5 cm is, betekent dit dat de meeste gemeten lengtes ongeveer 2,5 cm afwijken van het gemiddelde.
### 4.5 Invloed van data-aanpassingen op maten
* **Toevoegen van een getal in het midden van de gegevens**: Heeft geen invloed op het bereik als het tussen het minimum en maximum valt. Kan de mediaan beïnvloeden als het precies op de mediaanwaarde valt of als het de plaats van de mediaan verandert.
* **Toevoegen van een getal dat veel groter is dan het gemiddelde**: Heeft een grote impact op het bereik door het maximum te verhogen. Heeft ook een significante impact op de standaardafwijking door deze te verhogen.
* **Optellen van een constante bij elk getal in een steekproef**:
* De mediaan zal met dezelfde constante toenemen.
* De standaardafwijking blijft onveranderd, omdat de relatieve spreiding tussen de waarden gelijk blijft.
**Quizvragen (ter reflectie):**
* Als een getal wordt toegevoegd aan een steekproef, en dat getal valt in het midden van de gegevens, welke impact heeft dit op het bereik?
* Als een getal wordt toegevoegd aan een steekproef, en dat getal is veel groter dan het gemiddelde, welke impact heeft dit op de standaardafwijking?
* Als 10 wordt opgeteld bij elk getal uit een steekproef, welke impact heeft dit op de mediaan? En op de standaardafwijking?
* Wat betekent het als een set gegevens een standaardafwijking van 0 heeft?
* Welke van 2 onderstaande steekproeven heeft de kleinste standaardafwijking? (Dit vereist concrete datasets om te vergelijken.)
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Statistiek | Een wetenschap die zich bezighoudt met het verzamelen, bewerken, analyseren, interpreteren en presenteren van gegevens om patronen te ontdekken, conclusies te trekken en voorspellingen te doen. |
| Beschrijvende statistiek | Het onderdeel van statistiek dat zich richt op het samenvatten en presenteren van de belangrijkste kenmerken van een kwantitatieve dataset om globale patronen te ontdekken. |
| Verklarende statistiek | Het onderdeel van statistiek dat conclusies trekt over een grotere populatie op basis van een kleinere steekproef en hypothesen test. |
| Populatie | De volledige verzameling van alle elementen of objecten waarover men informatie wil verzamelen en conclusies wil trekken. |
| Steekproef | Een deelverzameling van de populatie die wordt geselecteerd voor onderzoek, met als doel veralgemeningen te kunnen doen naar de gehele populatie. |
| Representativiteit | Het kenmerk van een steekproef dat aangeeft in hoeverre deze een getrouwe afspiegeling is van de populatie waaruit deze is getrokken. |
| Aselecte steekproef | Een steekproef waarbij elk element in de populatie een gelijke kans heeft om geselecteerd te worden, vaak gebaseerd op toeval. |
| Niet-aselecte steekproef | Een steekproef waarbij de selectie van elementen niet volledig op toeval berust, maar gebaseerd is op bepaalde criteria of de beslissing van de deelnemer zelf. |
| Variabele | Een eigenschap, kenmerk of meting die kan variëren tussen individuen of eenheden binnen een onderzoek, en die gemeten kan worden. |
| Kwalitatieve variabele | Een variabele waarvan de waarden niet numeriek worden gemeten, maar die kunnen worden ingedeeld in categorieën. |
| Nominale variabele | Een kwalitatieve variabele waarbij de categorieën geen inherente rangorde hebben, zoals geslacht of ja/nee antwoorden. |
| Ordinale variabele | Een kwalitatieve variabele waarbij de categorieën wel een logische rangorde hebben, zoals opleidingsniveau of waarderingscijfers. |
| Kwantitatieve variabele | Een variabele waarvan de waarden numeriek zijn en als hoeveelheid kunnen worden gemeten, waardoor rekenkundige bewerkingen mogelijk zijn. |
| Discrete variabele | Een kwantitatieve variabele waarvan de waarden in afzonderlijke eenheden worden gemeten en die een beperkt aantal waarden kan aannemen, zoals het aantal kinderen. |
| Continue variabele | Een kwantitatieve variabele die elke waarde kan aannemen binnen een bepaald bereik, mits nauwkeurig gemeten, zoals lengte of tijd. |
| Meetniveaus | De schalen waarop variabelen kunnen worden gemeten, variërend van nominaal (geen ordening) tot ratio (zinvolle nulpunten en verhoudingen), met ordinaal en interval als tussenliggende niveaus. |
| Frequentietabel | Een tabel die de absolute en/of relatieve frequenties van verschillende waarden of categorieën van een variabele weergeeft. |
| Absolute frequentie | Het aantal keren dat een specifieke waarde of categorie voorkomt in een dataset. |
| Relatieve frequentie | Het aandeel van een specifieke waarde of categorie ten opzichte van het totaal aantal waarnemingen, vaak uitgedrukt als een percentage. |
| Staafdiagram | Een grafische weergave van categorische gegevens waarbij de hoogte van de staven de frequentie of relatieve frequentie van elke categorie aangeeft. |
| Histogram | Een grafische weergave van de verdeling van continue of discrete kwantitatieve gegevens, waarbij de oppervlakte van de staven de frequentie weergeeft en de staven aaneengesloten zijn. |
| Modus | De waarde of categorie in een dataset die het vaakst voorkomt; de piek van de verdeling. |
| Mediaan | De middelste waarde in een geordende dataset; de waarde die de dataset in twee gelijke helften verdeelt. |
| Rekenkundig gemiddelde | De som van alle waarden in een dataset gedeeld door het totale aantal waarden; de meest gebruikte centrummaat. |
| Spreidingsmaten | Statistische maten die beschrijven hoe verspreid de gegevens liggen rond een centrummaat, zoals het bereik of de standaardafwijking. |
| Bereik | Het verschil tussen de maximum- en minimumwaarde in een dataset; een maat voor de spreiding van de uiterste waarnemingen. |
| Percentielen | Waarden in een dataset die aangeven welk percentage van de gegevens kleiner of gelijk is aan die waarde. |
| Kwartielen | Specifieke percentielen (Q1=25e, Q2=50e=mediaan, Q3=75e) die een dataset in vier gelijke delen verdelen. |
| Interkwartielafstand (IKA) | Het verschil tussen het derde en eerste kwartiel (Q3 - Q1), dat de spreiding van de middelste 50% van de gegevens aangeeft. |
| Variantie | Een maat voor de gemiddelde gekwadrateerde afwijking van elke waarneming ten opzichte van het gemiddelde; een maat voor de spreiding van de data rond het gemiddelde. |
| Standaardafwijking | De vierkantswortel van de variantie; geeft de typische afwijking van individuele waarnemingen ten opzichte van het gemiddelde aan. |
Cover
1-Basic Statistical Concepts.pdf
Summary
# Introduction to biostatistics and data variables
This section provides a foundational understanding of statistics and biostatistics, outlining their purpose and the critical importance of classifying data variables for effective analysis [2](#page=2) [3](#page=3).
### 1.1 Statistics and biostatistics
#### 1.1.1 What is statistics?
Statistics is the scientific discipline focused on developing and utilizing methods for collecting, analyzing, interpreting, and presenting data [2](#page=2).
#### 1.1.2 What is biostatistics?
Biostatistics applies statistical principles specifically within the domains of medicine, public health, and biology [2](#page=2).
#### 1.1.3 Utility of studying biostatistics
Studying biostatistics is valuable for several reasons:
* Designing and analyzing research studies [2](#page=2).
* Describing and summarizing collected data [2](#page=2).
* Analyzing data to generate scientific evidence supporting a hypothesis [2](#page=2).
* Determining if an observation is statistically significant or merely due to chance [2](#page=2).
* Understanding and critically evaluating published scientific research [2](#page=2).
* It forms a fundamental component of fields like clinical trials and epidemiological studies [2](#page=2).
#### 1.1.4 The statistical analysis journey
The process of statistical analysis typically involves the following steps:
* Formulating a research question from an initial research idea [2](#page=2).
* Selecting an appropriate study design and a suitable sample [2](#page=2).
* Conducting the study and gathering data [2](#page=2).
* Analyzing the data using the correct statistical method [2](#page=2).
* Obtaining and interpreting the p-value [2](#page=2).
* Drawing a conclusion or answering the research question [2](#page=2).
### 1.2 Data variables
A data variable is defined as "something that varies" or differs among individuals or groups. These are the elements about which data is collected. Examples include sex, age, weight, marital status, and satisfaction rate [3](#page=3).
#### 1.2.1 Importance of variable classification
Recognizing the type of each data variable is crucial for several reasons:
* **Data summarization:** The method used for summarization (e.g., mean with standard deviation versus frequency with percentage) depends on the variable type [3](#page=3).
* **Graphical presentation:** The choice of appropriate graph for data visualization is dictated by the variable type [3](#page=3).
* **Data analysis:** Selecting suitable statistical tests is contingent upon the type of data variables involved [3](#page=3).
#### 1.2.2 General classification of data variables
Data variables are generally classified into two main types [3](#page=3):
* **A. Categorical variables:** These are further classified as nominal or ordinal [3](#page=3).
* **B. Numerical variables:** These are further classified as discrete or continuous [3](#page=3).
### 1.3 Categorical variables
Categorical variables, also known as qualitative or nominal data, do not possess a unit of measurement. They consist of distinct categories, and individuals are assigned to one of these categories [4](#page=4).
**Examples of categorical variables:**
* Satisfaction status (e.g., satisfied, neutral, not satisfied) [4](#page=4).
* Sex (e.g., male, female) [4](#page=4).
* Nationality (e.g., listing all countries) [4](#page=4).
* Agreement level (e.g., strongly disagree, disagree, undecided, agree, strongly agree) [4](#page=4).
> **Tip:** Categorical variables can sometimes be coded with numbers (e.g., 1 for female, 2 for male). Even when represented by numbers, they remain categories, and the numbers function solely as codes, not as actual numerical values [4](#page=4).
#### 1.3.1 Types of categorical variables
Categorical variables are sub-classified into nominal and ordinal types [5](#page=5).
##### 1.3.1.1 Nominal variables
Nominal variables are categorical variables that have no intrinsic order or ranking. The order in which these categories are presented is arbitrary [5](#page=5).
**Examples of nominal variables:**
* Sex (male, female) can be listed in any order [5](#page=5).
* Blood groups (A, B, AB, O) can be ordered in various ways [5](#page=5).
* Nationality cannot be inherently ordered [5](#page=5).
> **Tip:** A nominal variable with only two categories (e.g., sex, yes/no answers, disease status) is termed a dichotomous or binomial variable [5](#page=5).
##### 1.3.1.2 Ordinal variables
Ordinal variables are categorical variables that possess an order or ranking, and this order is meaningful [5](#page=5).
**Examples of ordinal variables:**
* BMI status (e.g., underweight, normal, overweight, obese, extremely obese) [5](#page=5).
* Agreement level (e.g., strongly disagree, disagree, undecided, agree, strongly agree) [5](#page=5).
### 1.4 Numerical variables
Numerical variables are those that are measured or counted, are represented by numbers, and have a unit of measurement [6](#page=6).
**Examples of numerical variables:**
* Waist circumference (in centimeters) [6](#page=6).
* Weight (in kilograms) [6](#page=6).
* Blood glucose level (in mg/dL) [6](#page=6).
* Number of children in a family [6](#page=6).
Numerical variables are classified as either discrete or continuous [6](#page=6).
#### 1.4.1 Discrete variables
Discrete variables can only take on integer values (whole numbers) without decimals, such as 0, 1, 2, 3, etc.. They typically represent counts of something [6](#page=6).
**Examples of discrete variables:**
* Number of children in a family [6](#page=6).
* Number of stents inserted during a procedure [6](#page=6).
* Number of patient visits to a hospital [6](#page=6).
The unit of measurement in these cases indicates what is being counted (e.g., child, stent, visit) [6](#page=6).
#### 1.4.2 Continuous variables
Continuous variables can assume any real numerical value, including decimals (e.g., 14.55, 48.8, 178.2). They involve measurement and are associated with measurement units [7](#page=7).
**Examples of continuous variables:**
* Weight (in kilograms) [7](#page=7).
* Height (in centimeters) [7](#page=7).
* Blood glucose level (in mg/dL) [7](#page=7).
### 1.5 Differentiating data variable types
A systematic approach can be used to distinguish between different types of data variables [7](#page=7):
**Step 1: Check for a unit of measurement.**
* If a unit of measurement is absent, the variable is **categorical** [7](#page=7).
* If a unit of measurement is present, the variable is **numerical** [7](#page=7).
**Step 2: Further classify based on the initial determination.**
* **For categorical variables:**
* **Is there an order?**
* If No, it is **nominal** [7](#page=7).
* If Yes, it is **ordinal** [7](#page=7).
* **For numerical variables:**
* **Is it counted or measured?**
* If counted, it is **discrete** [7](#page=7).
* If measured, it is **continuous** [7](#page=7).
#### 1.5.1 Additional classifications of numerical variables
Some texts further divide numerical data into interval and ratio variables [8](#page=8).
* **Ratio variables:** Possess a true zero point, signifying complete absence. For example, zero weight means no weight, and 30 kgs is twice 15 kgs [8](#page=8).
* **Interval variables:** Lack a true zero. For instance, 0 degrees Celsius does not mean absence of heat, and 30 degrees Celsius is not twice as hot as 15 degrees Celsius [8](#page=8).
> **Tip:** Ordinal variables with many levels (e.g., a pain score on a 10-point scale) can often be treated as discrete variables in statistical analysis [8](#page=8).
> **Tip:** Continuous variables are sometimes recorded as discrete if they are measured to a certain precision. For example, age is often reported in whole years rather than exact age [8](#page=8).
### 1.6 Levels of data measurement and conversion
It is possible to convert data variables to a less precise type, but not vice versa. The hierarchy of data types, from most to least precise, is [9](#page=9):
`numerical continuous → numerical discrete → ordinal → nominal` [9](#page=9).
* Age, a numerical variable, can be converted to an ordinal variable by grouping it into age categories (e.g., young, middle-aged, old) [9](#page=9).
* These age categories (ordinal) can then be further simplified into a nominal variable with two levels (e.g., young, old) [9](#page=9).
* However, if data is collected in a categorical format, it cannot be transformed back into a numerical format [9](#page=9).
> **Tip:** Whenever feasible, collect data at the highest level of precision (numerical continuous or numerical discrete) because it offers more detail and can always be categorized later if required [9](#page=9).
### 1.7 Explanatory and response variables
When investigating a potential relationship where one variable is hypothesized to influence another, variables are termed explanatory and response variables. For instance, if BMI is thought to affect quality-of-life score, BMI is the explanatory variable, and quality-of-life score is the response variable [10](#page=10).
* The **explanatory variable** is also known as the independent variable or predictor variable [10](#page=10).
* The **response variable** is also known as the dependent variable or outcome variable [10](#page=10).
**Summary of variable types:**
* Data variables are classified as categorical or numerical based on the presence of a unit of measurement [10](#page=10).
* Categorical variables lack a unit of measurement and are either nominal (no intrinsic order) or ordinal (with meaningful order) [10](#page=10).
* Categorical variables with two levels are called binomial variables [10](#page=10).
* Numerical variables are measured or counted and are either continuous (any real value) or discrete (integer values) [10](#page=10).
---
# Data entry, exploration, and descriptive statistics
This section covers the essential steps of preparing and summarizing data for statistical analysis, from initial data entry to the calculation and interpretation of descriptive statistics.
### 2.1 Data entry
Effective data entry is crucial for ensuring the accuracy and usability of data for analysis. The primary goal is to arrange data in a spreadsheet format with specific characteristics for clarity and software compatibility [11](#page=11).
#### 2.1.1 Spreadsheet structure
A well-organized datasheet should follow these principles:
* **Columns represent variables:** Each column should contain data for a single variable. If a variable is measured multiple times (e.g., before and after an experiment), each measurement should occupy a separate column. Similarly, if a variable has components (e.g., blood pressure with systolic and diastolic), each component needs its own column [11](#page=11).
* **Uniform units:** All data within a single column must use the same unit of measurement. For instance, height should consistently be in meters or centimeters, and age in years or months [11](#page=11).
* **Rows represent cases:** Each row should represent a single unit of observation, such as a patient, animal, or location [11](#page=11).
* **Single data point per cell:** Each cell in the spreadsheet should contain only one data point, not combined values like systolic and diastolic blood pressure together [11](#page=11).
* **Numerical coding for categorical data:** Nominal and ordinal variables are best entered using numerical codes instead of text. For example, "Male" can be coded as 1 and "Female" as 2. A codebook detailing these numerical codes and their corresponding values should be maintained, ideally in a separate sheet within the same file [11](#page=11) [12](#page=12).
#### 2.1.2 Coding categorical data
Using numerical codes for categorical data simplifies entry, reduces typing errors, and enhances compatibility with statistical software. Recommended coding schemes include [12](#page=12):
* **Severity scales:** Mild Moderate Severe [12](#page=12) [1](#page=1) [2](#page=2) [3](#page=3).
* **Pain scales:** No pain Mild pain Moderate pain Severe pain [12](#page=12) [1](#page=1) [2](#page=2) [3](#page=3).
* **Binary variables:** Yes No [12](#page=12) [1](#page=1).
For questions allowing multiple answers, a separate column for each choice should be used, coded as 1 for "Yes" and 0 for "No". If a variable has open-ended answers or a very large number of possible responses, these answers must be evaluated and categorized into a limited number of groups for statistical analysis [12](#page=12) [13](#page=13).
#### 2.1.3 Tips for numerical data entry
* Be precise with decimal places [13](#page=13).
* Enter numbers as digits, not words [13](#page=13).
* Maintain consistent units (e.g., all in kilograms or all in pounds) [13](#page=13).
* Do not include units in the data cells [13](#page=13).
* Record basic measurements (e.g., weight, height) and calculate derived variables (e.g., BMI) later [13](#page=13).
* Collect exact values (e.g., exact age) rather than categorized ranges [13](#page=13).
* Ensure each cell contains only one data element (e.g., gestational age in days or weeks, not both) [13](#page=13).
#### 2.1.4 Coding missing data
Missing data should be coded using impossible values that cannot occur as valid data points for that variable. This distinguishes missing values from potential data entry errors. Examples include [13](#page=13):
* Binary variables (1, 0): Use 9 [13](#page=13).
* Categorical variables with three categories (1, 2, 3): Use 9 [13](#page=13).
* Age in years: Use 99 [13](#page=13).
* Weight in kilograms: Use 999 [13](#page=13).
It's important to note that "Refused to answer" and "Not applicable" are distinct from missing data and should be assigned different codes (e.g., 998, 997). Crucially, these missing data codes must be designated as "missing" within the statistical software to prevent them from being included in analyses inappropriately [13](#page=13).
### 2.2 Exploring data for errors
Before conducting statistical analysis, it's essential to explore the dataset for potential errors. Common techniques include [14](#page=14):
* **Checking minimum and maximum values:** Identify any extreme values that appear incorrect or inconsistent with other data [14](#page=14).
* **Frequency distribution for categorical variables:** Examine the counts and categories to detect typing mistakes or unusual codes [14](#page=14).
* **Checking missing values:** Verify if missing data is genuinely unavailable or was overlooked during entry [14](#page=14).
* **Checking data consistency:** Ensure logical relationships between variables are maintained (e.g., a male cannot be pregnant, disease duration cannot exceed age, diastolic blood pressure cannot be greater than systolic blood pressure) [14](#page=14).
* **Graphical exploration:** Use tools like histograms or boxplots for single numerical variables, and scatterplots for relationships between two numerical variables, to visually identify errors [14](#page=14).
#### 2.2.1 Dealing with missing data
Missing data can reduce statistical power and introduce bias. Several approaches exist [14](#page=14):
* **Do nothing:** Proceed with analysis, allowing the software to ignore missing values [14](#page=14).
* **List-wise deletion (complete case analysis):** Remove entire cases that have missing data. This is often applied to participants with substantial missing information or those who completed less than a certain percentage of a questionnaire [14](#page=14) [15](#page=15).
* **Last observation carried forward (LOCF):** In longitudinal studies, the last recorded value is used to fill subsequent missing data points [15](#page=15).
* **Mean imputation:** Replace missing values with the mean of the variable [15](#page=15).
* **Regression imputation:** Use a regression model based on available data to estimate missing values [15](#page=15).
> **Tip:** Always document the method used for handling missing data in your analysis.
#### 2.2.2 Summary of data entry recommendations
* Variables should be in columns, and cases in rows [15](#page=15).
* Each cell must contain a single data point [15](#page=15).
* Units of measurement must be consistent within each variable [15](#page=15).
* Use codes for categorical variables and missing values [15](#page=15).
* Always check data for potential errors [15](#page=15).
### 2.3 Descriptive statistics
Descriptive statistics are used to summarize and present data in a meaningful way, either numerically or graphically. They are fundamental in research for describing study subjects and in everyday life for reporting various metrics. The method of description depends on the type of variable [16](#page=16).
#### 2.3.1 Descriptive statistics for categorical variables
Categorical variables (e.g., sex, smoking status, disease severity) are described using:
* **Frequencies (numbers):** The count of individuals within each category [16](#page=16).
* **Relative frequencies (percentages):** The proportion of individuals in each category, calculated as (frequency / total number) \* 100 [16](#page=16).
> **Example:** If out of 200 participants, 120 are male and 80 are female:
> Males: 120 (60%)
> Females: 80 (40%)
#### 2.3.2 Descriptive statistics for numerical variables
Numerical variables are typically described using measures of central tendency (to represent the center of the data) and measures of dispersion (to represent the spread or variability of the data) [17](#page=17).
##### 2.3.2.1 Measures of central tendency
These statistics indicate the typical value in a dataset.
* **Mean:** The sum of all observed values divided by the number of observations. It is also known as the average or arithmetic mean [17](#page=17).
* Formula: $\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$
* **Sensitivity to outliers:** The mean is highly influenced by extreme values [17](#page=17) [18](#page=18).
> **Example:** For ages 7, 5, 6, 8, 2, 9, 3, the mean is $\frac{7+5+6+8+2+9+3}{7} = \frac{40}{7} \approx 5.71$ years. If 64 is added, the mean becomes $\frac{104}{8} = 13$ years, showing a significant shift [17](#page=17) [18](#page=18).
* **Median:** The middle value in a dataset when the data is ordered from smallest to largest. Half of the data points are above the median, and half are below it [18](#page=18).
* **Calculation:**
1. Order the data from smallest to largest [18](#page=18).
2. If the number of observations ($n$) is odd, the median is the middle value.
3. If $n$ is even, the median is the average of the two middle values [19](#page=19).
* **Robustness to outliers:** The median is not significantly affected by extreme values [18](#page=18) [19](#page=19).
> **Example:** For ordered ages 2, 3, 5, 6, 7, 8, 9, the median is 6 years. With age 64 added (2, 3, 5, 6, 7, 8, 9, 64), the median is the average of the two middle values: $\frac{6+7}{2} = 6.5$ years [18](#page=18) [19](#page=19).
* **Mode:** The value that occurs most frequently in the dataset. It can be used for both numerical and categorical variables. A dataset can have one mode (unimodal), multiple modes (bimodal if two, multimodal if more), or no mode. The mode is less commonly used in scientific research for numerical data [20](#page=20).
| Measure | Advantages | Disadvantages |
| :------ | :--------------------------------------- | :-------------------------------------------- |
| Mean | Uses all data values, algebraically defined | Distorted by extreme/skewed data |
| Median | Not distorted by extreme/skewed data | Ignores most information, not algebraically defined |
| Mode | Easily determined for categorical data | Ignores most information, not algebraically defined |
##### 2.3.2.2 The five-number summary and percentiles
The five-number summary divides ordered data into four quarters and consists of five key values:
* **Minimum:** The smallest value in the dataset [20](#page=20).
* **First Quartile (Q1):** The 25th percentile; 25% of the data falls below this value. It is the median of the lower half of the data [20](#page=20).
* **Median (Q2):** The 50th percentile; 50% of the data falls below this value [20](#page=20).
* **Third Quartile (Q3):** The 75th percentile; 75% of the data falls below this value. It is the median of the upper half of the data [20](#page=20).
* **Maximum:** The largest value in the dataset [20](#page=20).
> **Example:** For the data: 8, 10, 10, 10, 12, 14, 15, 15, 18, 23, 25, 27
> Minimum: 8
> Q1: 10
> Median: $\frac{14+15}{2} = 14.5$
> Q3: $\frac{18+23}{2} = 20.5$ (Note: The document's example output for Q3 is 21.75, implying a specific calculation method for quartiles that may differ slightly depending on software implementation. For exams, follow the principles: Q1 is the median of the lower half, Q3 is the median of the upper half, or consult specific textbook definitions if provided.)
> Maximum: 27
> The five-number summary can be graphically represented by a boxplot [21](#page=21).
**Percentiles:** Data is divided into 100 equal parts. The $k$-th percentile is the value below which $k$% of observations lie. The 25th, 50th, and 75th percentiles correspond to Q1, the median, and Q3, respectively. Percentiles are useful for comparing scores (e.g., test performance) and defining normal ranges in medicine (e.g., 5th to 95th percentiles for growth charts) [22](#page=22).
##### 2.3.2.3 Measures of dispersion
These statistics describe the spread or variability of data.
* **Range:** The difference between the maximum and minimum values in a dataset [23](#page=23).
* Formula: Range = Maximum value - Minimum value
* **Sensitivity to outliers:** The range is heavily affected by extreme values [23](#page=23).
* Sometimes reported as minimum and maximum values (e.g., range: 8, 27) instead of a single difference [23](#page=23).
> **Example:** For the ages 8, 10, 10, 10, 12, 14, 15, 15, 18, 23, 25, 27, the range is $27 - 8 = 19$ years [23](#page=23).
* **Inter-quartile range (IQR):** The difference between the third quartile (Q3) and the first quartile (Q1) [23](#page=23).
* Formula: $IQR = Q3 - Q1$
* Represents the spread of the middle 50% of the data [23](#page=23).
* **Robustness to outliers:** Not affected by extreme values as it doesn't use the minimum or maximum [23](#page=23).
> **Example:** For the data: 8,10,10,10,12,14,15,15,18,23,25,27, with Q1=10 and Q3=21.75 (using the document's provided Q3 for this dataset): $IQR = 21.75 - 10 = 11.75$ [23](#page=23).
* **Variance ($s^2$):** A measure of spread that considers all data points. It represents the average squared distance of data points from the mean [24](#page=24).
* **Steps to calculate:**
1. Calculate the mean ($\bar{x}$) [24](#page=24).
2. Calculate the squared difference between each data point ($x_i$) and the mean: $(x_i - \bar{x})^2$ [24](#page=24).
3. Sum all these squared differences: $\sum (x_i - \bar{x})^2$ [24](#page=24).
4. Divide the sum by the number of observations minus 1 ($n-1$) for sample variance: $s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1}$ [24](#page=24).
* **Units:** Variance is in squared units (e.g., meters squared if the data is in meters), making interpretation difficult [24](#page=24) [25](#page=25).
> **Example:** For ages 7, 5, 6, 8, 4, 9, 3 (mean = 6):
> Squared differences: $(7-6)^2=1, (5-6)^2=1, (6-6)^2=0, (8-6)^2=4, (4-6)^2=4, (9-6)^2=9, (3-6)^2=9$.
> Sum of squared differences = $1+1+0+4+4+9+9 = 28$.
> Variance $s^2 = \frac{28}{7-1} = \frac{28}{6} \approx 4.67$ years$^2$ [24](#page=24).
* **Standard deviation (s):** The square root of the variance. It is a measure of spread that represents the average distance of data values from their mean and has the same units as the original data [25](#page=25).
* Formula: $s = \sqrt{s^2}$
* A larger standard deviation indicates greater spread, while a smaller one indicates data points are clustered closely around the mean [25](#page=25).
> **Example:** For the previous ages, the standard deviation is $s = \sqrt{4.67} \approx 2.16$ years [25](#page=25).
> **Tip:** When describing numerical variables, always report a measure of central tendency along with a measure of dispersion.
#### 2.3.3 Combining measures for numerical variables
When summarizing a numerical variable, it's standard practice to present two statistics: one for central tendency and one for dispersion [26](#page=26).
* For **normally distributed data**, use the mean and standard deviation [26](#page=26).
* For **non-normally distributed data** (or when outliers are present), use the median and inter-quartile range (IQR) [26](#page=26) [33](#page=33).
> **Example of a descriptive statistics table:**
> | Baseline characteristic | Group A (n %) | Group B (n %) | Group C (n %) |
> | :-------------------- | :------------ | :------------ | :------------ |
> | **Gender** | | | |
> | Female | 25 | 20 | 23 | .
> | Male | 25 | 30 | 27 | .
> | **Marital status** | | | |
> | Single | 13 | 11 | 17 | [22](#page=22) [26](#page=26) .
> | Married | 35 | 38 | 28 | .
> | Divorced or widowed | 1 | 1 | 4 | [2](#page=2) [8](#page=8).
> | **Age, mean (SD)** | 30.3 (12.4) | 29.4 (11.6) | 32.1 (11.9) |
#### 2.3.4 Coefficient of variation (CV)
The CV expresses the standard deviation as a proportion of the mean, multiplied by 100 [27](#page=27).
* Formula: $CV = \left(\frac{\text{Standard Deviation}}{\text{Mean}}\right) \times 100\%$
* It helps compare variability between different measures or datasets with different means, by controlling for the mean's influence [27](#page=27).
> **Example:**
> PHQ measure: Mean=7.5, SD=3.7. CV = (3.7 / 7.5) \* 100% = 49.3%
> GAD7 measure: Mean=6, SD=3.5. CV = (3.5 / 6) \* 100% = 58.3%
> GAD7 shows higher variability when the mean is considered [27](#page=27).
#### 2.3.5 Weighted mean
The weighted mean accounts for different weights or frequencies of observations when calculating an average. It is used when observations do not have equal importance or sample size [27](#page=27).
* **Calculation:** Sum of (value \* weight) divided by the sum of weights.
* Formula: $\bar{x}_w = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i}$
* This is often used when combining averages from groups of different sizes [27](#page=27) [28](#page=28).
> **Example:** A student's final grade based on two assignments (15% each) and two quizzes (30% and 40%).
> Marks: Assignment 1=70, Assignment 2=85, Quiz 1=80, Quiz 2=90.
> Weights: 0.15, 0.15, 0.30, 0.40.
> Final Grade = (70 \* 0.15) + (85 \* 0.15) + (80 \* 0.30) + (90 \* 0.40)
> Final Grade = 10.5 + 12.75 + 24 + 36 = 83.25 [28](#page=28).
#### 2.3.6 Understanding the normal distribution
The normal distribution, or Gaussian distribution, is a common probability distribution characterized by a symmetrical, bell-shaped curve [29](#page=29).
* **Characteristics:**
* Symmetric around the mean [29](#page=29).
* Mean, median, and mode are approximately equal [29](#page=29).
* Denser in the center and less dense in the tails [29](#page=29).
* 50% of values are below the mean, and 50% are above [29](#page=29).
* Defined by its mean ($\mu$) and standard deviation ($\sigma$) [29](#page=29).
* **Empirical Rule (68-95-99.7 rule):**
* Approximately 68% of data falls within one standard deviation of the mean ($\mu \pm 1\sigma$) [29](#page=29).
* Approximately 95% falls within two standard deviations ($\mu \pm 2\sigma$) [29](#page=29).
* Approximately 99.7% falls within three standard deviations ($\mu \pm 3\sigma$) [29](#page=29).
> **Tip:** Normal distributions are common in biological measurements like height and blood pressure [29](#page=29).
**Standard Normal Distribution:** A normal distribution with a mean ($\mu$) of 0 and a standard deviation ($\sigma$) of 1 is called the standard normal distribution. Any normal distribution can be converted to a standard normal distribution using the z-score formula [31](#page=31):
* Formula: $z = \frac{x - \mu}{\sigma}$
* Where $z$ is the standardized score, $x$ is the original value, $\mu$ is the mean, and $\sigma$ is the standard deviation [31](#page=31).
#### 2.3.7 Non-normally distributed data
Data can be **skewed**, meaning it has a long tail on one side:
* **Positive skew (skewed to the right):** The tail is on the right side. The mean is typically pulled towards the tail (higher than the median) [33](#page=33).
* **Negative skew (skewed to the left):** The tail is on the left side. The mean is typically pulled towards the tail (lower than the median) [33](#page=33).
> **Note:** For non-normally distributed data, the median and IQR are preferred descriptive statistics over the mean and standard deviation due to the influence of extreme values in skewed distributions [33](#page=33).
#### 2.3.8 Summary of descriptive statistics
* **Categorical variables:** Use frequencies and percentages [33](#page=33).
* **Numerical variables:** Use one measure of central tendency and one measure of dispersion [33](#page=33).
* **Normally distributed data:** Mean and standard deviation [33](#page=33).
* **Non-normally distributed data:** Median and IQR [33](#page=33).
* Be aware that mean and standard deviation are sensitive to extreme values [33](#page=33).
---
# Data presentation and hypothesis testing
This section outlines effective methods for presenting data using tables and graphs and introduces the fundamental principles of hypothesis testing [34](#page=34).
### 3.1 Tabular presentation of data
Tables are crucial for presenting data in a clear and understandable manner. The method of presentation depends on the type of variable [34](#page=34).
#### 3.1.1 Nominal variables
Nominal variables, which lack an inherent order, can be presented using frequencies (counts) or relative frequencies (percentages) [34](#page=34).
* **Frequencies:** This involves listing the number of individuals in each category. Categories can be arranged alphabetically or by frequency for better readability [34](#page=34).
* **Relative frequencies (percentages):** Calculated by dividing the frequency of a category by the total number of individuals and multiplying by 100. This provides a more intuitive understanding of proportions [34](#page=34).
The formula for relative frequency is:
$$ \text{Relative frequency} = \frac{\text{Frequency of category}}{\text{Total frequency}} \times 100 $$
> **Example:** For Saudi nationals with a frequency of 55 out of 180 participants, the relative frequency is $\frac{55}{180} \times 100 \approx 30.6\%$ [34](#page=34) [35](#page=35).
#### 3.1.2 Ordinal variables
Ordinal variables have a natural order, which must be preserved in tabular presentations [35](#page=35).
* **Frequencies and relative frequencies:** Similar to nominal variables, ordinal data can be presented as counts or percentages [35](#page=35).
* **Cumulative relative frequencies:** This method leverages the ordered nature of ordinal variables. The cumulative relative frequency at a given level is the sum of its relative frequency and all preceding relative frequencies [36](#page=36).
> **Example:** If the cumulative relative frequency for "Satisfied" is 70.0%, it means 70.0% of individuals are either "Very satisfied" or "Satisfied" [36](#page=36).
#### 3.1.3 Numerical discrete variables
If a numerical discrete variable has a limited number of levels, it can be presented using frequencies, relative frequencies, and cumulative relative frequencies, much like ordinal variables [36](#page=36).
> **Example:** The number of children in a family can be presented with frequencies and cumulative relative frequencies, showing that 74.6% of families have two children or fewer [36](#page=36).
#### 3.1.4 Numerical continuous variables
For continuous numerical variables, grouping into intervals of equal width is necessary to create meaningful tables. Frequencies, relative frequencies, and cumulative relative frequencies are then calculated for these groups [37](#page=37).
* **Grouped data:** Continuous data like birth weight can be grouped into ranges (e.g., 2000-2499 grams) [37](#page=37).
* **Open-ended groups:** Sometimes, the first or last groups are defined as "less than a specific value" or "greater than a specific value" to handle data at the extremes [37](#page=37).
#### 3.1.5 Two categorical variables
Presenting two categorical variables together is achieved using a two-way table, also known as cross-tabulation [38](#page=38).
* **Cross-tabulation:** This table displays the frequencies of the joint occurrence of categories from two variables. It allows for the calculation of marginal totals (row and column sums) and cell counts [38](#page=38).
* **Percentages:** Tables can be enhanced by including percentages calculated by row or by column, providing insights into conditional relationships between the variables [38](#page=38) [39](#page=39).
> **Example:** A two-way table showing disease status by sex can reveal the proportion of males within the diseased group or the proportion of diseased individuals among males [38](#page=38).
#### 3.1.6 Three categorical variables
Three categorical variables can be presented in a three-way table. The arrangement of variables can be altered to highlight specific relationships [40](#page=40).
### 3.2 Graphical presentation of data
Appropriate graphs enhance data understanding and clarity [41](#page=41).
#### 3.2.1 Nominal variables
* **Pie chart:** Represents the whole as a circle divided into sectors, where the area of each sector corresponds to the frequency of a category [41](#page=41).
> **Tip:** Pie charts are less common in scientific papers due to limitations, especially with binary variables or many categories [41](#page=41).
* **Bar graph:** A versatile graph for categorical variables, which can be vertical or horizontal, displaying frequencies or percentages. Categories can be ordered by frequency for better visual appeal [41](#page=41) [42](#page=42).
#### 3.2.2 Ordinal variables
* **Pie chart:** Can be used for ordinal variables, similar to nominal ones [43](#page=43).
* **Bar graph:** Often the preferred method for ordinal variables, maintaining the natural order of categories [43](#page=43).
* **Stacked bar plot:** Useful for Likert scale data, allowing comparison of opinions across different groups or questions [44](#page=44).
#### 3.2.3 Two categorical variables
* **Bar plot:** Side-by-side or segmented (stacked) bar plots are suitable for visualizing the relationship between two categorical variables [45](#page=45).
#### 3.2.4 Numerical variables
* **Histogram:** Similar to a bar chart but with no gaps between bars, indicating a continuous variable. Each bar represents a range of values, and its height reflects the frequency within that range [46](#page=46).
* **Box plot (Box and whisker plot):** Summarizes numerical data using the five-number summary: minimum, maximum, median, first quartile (Q1), and third quartile (Q3) [46](#page=46).
* The box displays the interquartile range (IQR = Q3 - Q1), with the median as a line inside [46](#page=46).
* Whiskers extend to the minimum and maximum values within 1.5 times the IQR from the quartiles [47](#page=47).
* Outliers are data points falling outside this range [47](#page=47).
* **Side-by-side box plots** are used to compare the distribution of a numerical variable across different groups [47](#page=47).
#### 3.2.5 Two numerical variables
* **Scatter plot:** Used to visualize the relationship between two numerical or ordinal variables. Each point represents an individual case, plotted against the values of the two variables on the horizontal and vertical axes [48](#page=48).
#### 3.2.6 Summary of graph selection
* One categorical variable: Bar chart or pie chart [48](#page=48).
* One numerical variable: Histogram or box plot [48](#page=48).
* Two categorical variables: Side-by-side or stacked bar charts [48](#page=48).
* Two numerical variables: Scatter plot [48](#page=48).
* One numerical and one categorical variable: Side-by-side box plot [48](#page=48).
### 3.3 Hypothesis testing
Hypothesis testing is a statistical method used to make decisions about a research question based on data [49](#page=49).
#### 3.3.1 The research question
A research question should be specific, answerable, novel, and relevant to medical knowledge [49](#page=49).
#### 3.3.2 Steps for hypothesis testing
1. Define the null and alternative hypotheses [49](#page=49).
2. Choose the level of significance [49](#page=49).
3. Select an appropriate statistical test and compute the test statistic [49](#page=49).
4. Compute the p-value [49](#page=49).
5. Compare the p-value to the level of significance to decide whether to reject the null hypothesis [49](#page=49).
6. Draw a conclusion [49](#page=49).
#### 3.3.3 The null and alternative hypotheses
* **Null hypothesis ($H_0$)**: Represents the currently accepted belief or idea, stating that there is no difference, no association, or nothing is happening. The researcher may doubt its truth [50](#page=50).
* **Alternative hypothesis ($H_1$ or $H_a$)**: Represents the researcher's idea, suggesting that something is happening, there is a difference, or there is an association. The researcher believes this to be true and aims to prove it [50](#page=50).
These hypotheses are mutually exclusive; only one can be true [50](#page=50).
> **Example:**
> * **Research Question:** Is there a difference in exam scores between males and females?
> * $H_0$: Mean score of males = Mean score of females (or Mean difference = 0) [50](#page=50).
> * $H_1$: Mean score of males ≠ Mean score of females (or Mean difference ≠ 0) [50](#page=50).
After data analysis, a decision is made regarding the null hypothesis: either to "fail to reject" it (implying no sufficient evidence for the alternative) or to "reject" it (implying support for the alternative hypothesis) [51](#page=51).
#### 3.3.4 One-tailed and two-tailed tests
The type of test depends on the alternative hypothesis [51](#page=51).
* **Two-tailed tests:** The alternative hypothesis allows for a difference in either direction (e.g., drug A is not equal to drug B). The rejection region is split between both tails of the distribution [51](#page=51) [52](#page=52).
* Example $H_1$: drug A $\neq$ drug B [51](#page=51).
* **One-tailed tests:** The alternative hypothesis specifies a particular direction for the difference (e.g., drug A is better than drug B). The rejection region is located in only one tail of the distribution [51](#page=51) [52](#page=52).
* Example $H_1$: drug A $>$ drug B [51](#page=51).
Two-tailed tests are generally preferred unless there is a strong a priori justification for a one-tailed test [52](#page=52).
#### 3.3.5 Type I and Type II errors
Errors can occur during hypothesis testing [54](#page=54).
* **Type I error (False positive, $\alpha$)**: Rejecting a true null hypothesis. This means concluding a difference or effect exists when it does not [54](#page=54) [55](#page=55).
* The probability of a Type I error is the level of significance, typically set at $\alpha = 0.05$ (5%) or more conservatively at $\alpha = 0.01$ (1%) [55](#page=55) [56](#page=56).
* **Type II error (False negative, $\beta$)**: Failing to reject a false null hypothesis. This means concluding no difference or effect exists when one actually does [55](#page=55) [56](#page=56).
* The probability of a Type II error is typically set around $\beta = 0.2$ (20%) [56](#page=56).
> **Tip:** Type I errors are generally considered more serious as they lead to false positive conclusions, potentially misinterpreting drug effectiveness or risk factors [55](#page=55).
The probabilities of Type I and Type II errors are inversely related [56](#page=56).
#### 3.3.6 Level of significance
The **level of significance ($\alpha$)** is the maximum acceptable probability of committing a Type I error. A smaller $\alpha$ reduces the risk of a Type I error but increases the risk of a Type II error. The choice of $\alpha$ depends on the consequences of making a Type I error. Common values are 0.05 and 0.01 [56](#page=56).
---
# P-values, confidence intervals, and epidemiological measures
This section delves into the interpretation of p-values for statistical significance, explores the concept and application of confidence intervals, and introduces key epidemiological measures like incidence and prevalence [57](#page=57) [58](#page=58) [59](#page=59) [60](#page=60) [61](#page=61) [62](#page=62) [63](#page=63) [64](#page=64) [65](#page=65) [66](#page=66) [67](#page=67) [68](#page=68) [69](#page=69) [70](#page=70) [71](#page=71) [72](#page=72) [73](#page=73) [74](#page=74) [75](#page=75) [76](#page=76) [77](#page=77) [78](#page=78).
### 4.1 P-values and statistical significance
The p-value, standing for probability, quantifies the likelihood of observing the obtained results, or more extreme results, if the null hypothesis were true. It is a measure of the strength of evidence against the null hypothesis. A p-value is always between 0 and 1 [58](#page=58).
A commonly used significance level, denoted as $\alpha$ (alpha), is 0.05 or 5% [58](#page=58).
* **Decision Rule:**
* If the observed p-value is less than $\alpha$ ($p < \alpha$), the null hypothesis is rejected, indicating statistical significance [58](#page=58).
* If the observed p-value is greater than or equal to $\alpha$ ($p \ge \alpha$), the null hypothesis is not rejected, indicating a lack of statistical significance [58](#page=58).
#### 4.1.1 Interpreting p-values
* A statistically significant result ($p < 0.05$) suggests that the observed data is unlikely to have occurred by chance alone if the null hypothesis were true. This provides evidence against the null hypothesis [60](#page=60).
* A non-statistically significant result ($p \ge 0.05$) indicates that the observed data is consistent with the null hypothesis and could likely have occurred by chance. This provides evidence in favor of the null hypothesis, or rather, insufficient evidence to reject it [60](#page=60).
#### 4.1.2 Reporting p-values
It is crucial to report the actual p-value rather than simply stating "P<0.05" or "P≥0.05". If a statistical program outputs a very small p-value, such as 0.000, it should be reported as $p < 0.001$. Similarly, if the p-value is very close to 1, it should be reported as $p > 0.999$ [59](#page=59).
#### 4.1.3 Clinical significance versus statistical significance
While statistical significance indicates whether an observed effect is likely due to chance, clinical significance relates to the practical importance of the effect in a real-world context [61](#page=61).
* A very large sample size can lead to statistically significant results even for small differences that lack clinical importance [61](#page=61).
* Conversely, a small sample size might result in a non-statistically significant finding (due to low study power) even if the observed difference is clinically important [61](#page=61).
> **Tip:** Always consider both statistical and clinical significance when interpreting study findings.
### 4.2 Confidence intervals
A confidence interval (CI) is a range of values that is likely to contain the true population parameter. It provides a measure of uncertainty around an estimate derived from a sample [63](#page=63) [72](#page=72).
#### 4.2.1 Interpretation of confidence intervals
* **Common interpretation (less precise):** For a 95% CI, it means that we are 95% confident that the true population parameter lies within the calculated range [64](#page=64).
* **Scientifically precise interpretation:** If the same study procedure were repeated an infinite number of times, 95% of the constructed confidence intervals would contain the true population parameter. In practice, a study is usually conducted only once [64](#page=64).
#### 4.2.2 Factors affecting confidence intervals
* **Sample size:** A larger sample size leads to a narrower confidence interval, indicating a more precise estimate. A smaller sample size results in a wider confidence interval [65](#page=65).
* **Confidence level:** A higher confidence level (e.g., 99% compared to 95%) results in a wider confidence interval, reflecting a greater certainty that the true parameter is captured. A lower confidence level leads to a narrower interval but with less certainty [66](#page=66).
* **Variability in the data (Standard Error):** Higher variability, indicated by a larger standard error (SE), results in a wider confidence interval. A smaller standard error leads to a narrower interval [72](#page=72).
#### 4.2.3 Confidence intervals for different parameters
* **Single mean:** The 95% CI for a mean is calculated as:
$$ \text{Sample mean} \pm (1.96 \times \text{SE}) $$ [72](#page=72).
where SE is the standard error of the mean [72](#page=72).
* **Proportion:** A CI can also be calculated for a proportion, indicating a range for the true population proportion. For example, a 95% CI for smoking prevalence might be 10% to 14% [66](#page=66).
* **Difference between two means:** If the CI for the difference between two means includes zero, it suggests there is no statistically significant difference between the population means. If the CI does not include zero, the difference is considered statistically significant [67](#page=67).
* **Ratios (Risk Ratios - RR, Odds Ratios - OR):** For ratios like RR and OR, the confidence interval is interpreted by checking if it contains one. If the CI contains 1, there is no significant difference in risk or odds between the groups. If it does not contain 1, the difference is significant [69](#page=69).
> **Tip:** It is generally recommended to report the confidence interval alongside the p-value for a more complete interpretation of findings [73](#page=73).
### 4.3 Epidemiological measures: Incidence and prevalence
Incidence and prevalence are fundamental epidemiological measures used to describe the occurrence of diseases and health conditions in populations [74](#page=74).
#### 4.3.1 Incidence
Incidence refers to the occurrence of *new* cases of a disease or health condition within a specific population during a defined period [74](#page=74).
* **Incidence proportion (Cumulative Incidence):** This is the proportion of a disease-free population at the start of a period that develops the disease during that period. It is also known as risk [74](#page=74).
$$ \text{Incidence proportion} = \frac{\text{number of new cases during a specific period}}{\text{population free of disease at the beginning of the period}} $$ [74](#page=74).
It ranges from 0 to 1 (0% to 100%) and is unitless [74](#page=74).
* **Incidence rate (Person-time rate):** This is used when individuals have different follow-up times. It accounts for the total time contributed by all individuals in the population at risk.
$$ \text{Incidence rate} = \frac{\text{number of new cases at a specific period}}{\text{sum of follow-up times for all persons}} $$ [74](#page=74).
The denominator is typically expressed in person-time units, such as person-years [74](#page=74).
#### 4.3.2 Prevalence
Prevalence measures the proportion of individuals in a population who have a specific disease or health condition at a *single point in time* [76](#page=76).
* **Point prevalence:**
$$ \text{Prevalence} = \frac{\text{number of new and existing cases at a specific point in time}}{\text{size of the population at that time point}} $$ [76](#page=76).
Prevalence is a proportion, ranges from 0 to 1 (0% to 100%), and is unitless [76](#page=76).
* **Period prevalence:** This is the proportion of a population that has a disease at any time during an observation period, including pre-existing cases that persist into the period [76](#page=76).
#### 4.3.3 Relationship between incidence and prevalence
Prevalence is influenced by both incidence and the duration of the disease [77](#page=77).
* **Higher incidence** leads to **higher prevalence**.
* **Longer disease duration** (due to slower cure or lower mortality) leads to **higher prevalence**.
* **Faster cure** or **higher mortality** leads to **lower prevalence**.
> **Tip:** Incidence measures the rate of *new* cases, while prevalence measures the *burden* of disease (new and existing cases) at a given time.
**Summary Table:**
| Measure | Type | Range | Numerator | Denominator | Unit |
| :---------------------- | :---------- | :---------------------------------- | :------------------------- | :----------------------- | :-------- |
| Incidence proportion | Proportion | 0-1 (0-100%) | New cases | Population at risk | Unitless |
| Incidence rate | Rate | 0 - $\infty$ | New cases | Person-time at risk | 1/Time |
| Prevalence (Point) | Proportion | 0-1 (0-100%) | New and existing cases | Total population | Unitless |
| Prevalence (Period) | Proportion | 0-1 (0-100%) | Cases during the period | Total population | Unitless |
---
## Common mistakes to avoid
- Review all topics thoroughly before exams
- Pay attention to formulas and key definitions
- Practice with examples provided in each section
- Don't memorize without understanding the underlying concepts
Glossary
| Term | Definition |
|------|------------|
| Statistics | The science concerned with developing and studying methods for collecting, analyzing, interpreting, and presenting data. |
| Biostatistics | The application of statistical principles in the fields of medicine, public health, and biology. |
| Data variable | Something that varies or differs from person to person or group to group; these are the items for which data is collected. |
| Categorical variables | Variables that are qualitative in nature and can be classified into categories; they do not have a unit of measurement. |
| Nominal variables | Categorical variables that have no intrinsic order; categories can be arranged in any sequence. |
| Ordinal variables | Categorical variables that have an order, and this order has a meaningful interpretation. |
| Numerical variables | Variables that are measured or counted and are presented in numbers; they have a measurement unit. |
| Discrete variables | Numerical variables that can only take integer values (no decimals) and usually represent a count of something. |
| Continuous variables | Numerical variables that can take any real numerical value, including decimals, and involve measurement. |
| Dichotomous variable (Binomial variable) | A categorical variable with only two categories, such as sex (male/female) or disease status (diseased/not diseased). |
| Explanatory variable | A variable that is thought to affect or predict another variable; also known as an independent or predictor variable. |
| Response variable | A variable that is affected by or depends on another variable; also known as a dependent or outcome variable. |
| Data entry | The process of preparing collected data into a suitable computer file, typically arranged in a spreadsheet format. |
| Missing data | Values that are absent for a variable in a dataset, which can occur for various reasons and require specific handling. |
| Descriptive statistics | Statistical methods used to numerically describe and summarize data, including measures of central tendency and dispersion. |
| Frequencies | The number of times each category or value appears in a dataset. |
| Relative frequencies (Percentages) | The proportion of individuals in each category, expressed as a percentage of the total. |
| Measures of central tendency | Statistics that describe the center or typical value of a dataset, such as the mean, median, and mode. |
| Mean | The sum of all observed values divided by the number of observations; also known as the average. |
| Median | The middle value in a dataset when arranged in order; half of the data points are above it, and half are below it. |
| Mode | The value that occurs most frequently in a dataset. |
| Measures of dispersion | Statistics that describe the spread or variability of data, such as range, inter-quartile range, variance, and standard deviation. |
| Range | The difference between the largest and smallest values in a dataset. |
| Inter-quartile range (IQR) | The difference between the third quartile (Q3) and the first quartile (Q1), representing the middle 50% of the data. |
| Variance ($s^2$) | A measure of spread that represents the average of the squared differences from the mean; it is in square units. |
| Standard deviation (s) | The square root of the variance, representing the average distance of data values from their mean; it has the same units as the data. |
| Coefficient of variation (CV) | A measure that expresses the standard deviation as a proportion of the mean, used to compare variability across different scales. |
| Weighted mean | A type of average where each data point contributes differently to the final average, based on assigned weights. |
| Normal distribution | A symmetrical probability distribution characterized by a bell shape, where the mean, median, and mode are equal, and data clusters around the mean. |
| Standard normal distribution | A normal distribution with a mean of 0 and a standard deviation of 1. |
| Z-score | A standardized score that indicates the number of standard deviations a data point is from the mean; calculated as $z = (x - \mu) / \sigma$. |
| Skewed data | Data that is not symmetrically distributed around the mean; it has a long tail on one side. |
| Positive skew (Right skew) | A distribution where the long tail is on the right side, meaning there are more high values or outliers. |
| Negative skew (Left skew) | A distribution where the long tail is on the left side, meaning there are more low values or outliers. |
| Cross-tabulation (Two-way table) | A table that displays the frequencies or percentages of two categorical variables simultaneously, showing their relationship. |
| Histogram | A graphical representation of the distribution of numerical data, where bars represent the frequency of data within specified intervals. |
| Box plot (Box and whisker plot) | A graphical display that summarizes numerical data using the five-number summary (minimum, Q1, median, Q3, maximum) and highlights outliers. |
| Scatter plot | A graphical representation used to display the relationship between two numerical variables, with each point representing a case. |
| Hypothesis testing | A statistical method used to make decisions about a population based on sample data, involving formulating and testing hypotheses. |
| Null hypothesis ($H_0$) | A statement of no effect or no difference, which the researcher aims to disprove. |
| Alternative hypothesis ($H_1$ or $H_a$) | A statement that contradicts the null hypothesis, representing the researcher's claim or idea. |
| One-tailed test | A statistical test where the alternative hypothesis specifies a direction (greater than or less than). |
| Two-tailed test | A statistical test where the alternative hypothesis does not specify a direction (not equal to). |
| Type I error (False positive) | The error of rejecting a true null hypothesis. The probability of this error is denoted by $\alpha$. |
| Type II error (False negative) | The error of failing to reject a false null hypothesis. The probability of this error is denoted by $\beta$. |
| Level of significance ($\alpha$) | The maximum allowed probability of committing a Type I error. |
| Power of a test | The probability of correctly rejecting a false null hypothesis ($1-\beta$). |
| P-value | The probability of obtaining observed results, or more extreme results, if the null hypothesis were true. Used to decide whether to reject the null hypothesis. |
| Statistical significance | A result is considered statistically significant if the p-value is less than the chosen level of significance (typically $\alpha = 0.05$). |
| Clinical significance | Whether a statistically significant finding has practical importance or relevance in a clinical setting. |
| Confidence Interval (CI) | A range of values, calculated from sample data, that is likely to contain the true population parameter with a certain level of confidence. |
| Standard error (SE) | The standard deviation of the sampling distribution of a statistic, typically the standard deviation of sample means. |
| Incidence | The occurrence of new cases of a disease or health condition in a population over a specific period. |
| Incidence proportion (Cumulative incidence) | The proportion of a population at risk that develops a disease during a specific period. It is equivalent to risk. |
| Incidence rate (Person-time rate) | The rate at which new cases occur over a period of time, taking into account varying follow-up times for individuals, expressed per person-time. |
| Prevalence | The percentage of people in a population who have a disease or health condition at a specific point in time (point prevalence) or during an observation period (period prevalence). |
| Odds Ratio (OR) | A measure of association between an exposure and an outcome, calculated as the ratio of the odds of the outcome in the exposed group to the odds of the outcome in the unexposed group. |
| Risk Ratio (RR) | A measure of association between an exposure and an outcome, calculated as the ratio of the risk of the outcome in the exposed group to the risk of the outcome in the unexposed group. |
Cover
6-Correlation and regression.pdf
Summary
# Correlation analysis
Correlation analysis explores the relationship between two variables, providing insights into their direction and strength.
## 1. Correlation analysis
Correlation is utilized to assess the relationship between two variables, which can be either continuous or ordinal. It provides two key pieces of information: the direction of the relationship (positive or negative) and the strength of the relationship (weak, medium, or strong). Correlation is frequently explored visually using a scatterplot, where one variable is plotted on the X-axis and the other on the Y-axis. Each point on the scatterplot represents an observation with its corresponding values for the two variables [2](#page=2) [3](#page=3).
### 1.1 The correlation coefficient
The correlation coefficient (often denoted as $r$ for Pearson's and $\rho$ for Spearman's) quantifies the strength and direction of the linear relationship between two variables [3](#page=3).
#### 1.1.1 Range of the correlation coefficient
The correlation coefficient ranges from -1 to 1 [3](#page=3).
#### 1.1.2 Direction of the relationship
* **Positive correlation:** If the correlation coefficient is positive, it indicates a positive association where an increase in one variable is associated with an increase in the other [4](#page=4).
* **Negative correlation:** If the correlation coefficient is negative, it indicates a negative association where an increase in one variable is associated with a decrease in the other [4](#page=4).
* **Zero correlation:** A value of zero suggests no linear association between the variables [4](#page=4).
#### 1.1.3 Strength of the relationship
The strength of the relationship is determined by how close the correlation coefficient is to 1 or -1. While different textbooks may present slightly varied cut-off values, a general guideline for interpreting the strength is as follows [5](#page=5):
* **Perfect correlation:** A value near $\pm 1$.
* **Strong correlation:** A coefficient value between $\pm 0.50$ and $\pm 1$.
* **Moderate correlation:** A value between $\pm 0.30$ and $\pm 0.49$.
* **Small correlation:** A value below $\pm 0.29$.
* **No correlation:** A value of zero.
Some scientists suggest the following interpretation guide, irrespective of the sign:
* 0 to 0.19: Very weak
* 0.2 to 0.39: Weak
* 0.40 to 0.59: Moderate
* 0.60 to 0.79: Strong
* 0.80 to 1: Very strong
The significance of a correlation is typically determined by its p-value; a correlation is considered significant if the p-value is less than 0.05 [5](#page=5).
#### 1.1.4 Coefficient of determination ($R^2$)
The coefficient of determination ($R^2$) represents the proportion of variance in one variable that can be explained by the other variable. It is calculated by squaring the correlation coefficient ($r^2$). For example, if $r = -0.67$, then $R^2 = (-0.67)^2 = 0.44$. This indicates that 44% of the variation in one variable (e.g., BMI) can be accounted for by knowing the value of the other variable (e.g., physical activity) [6](#page=6).
> **Tip:** Always plot your data using a scatterplot before conducting a correlation analysis to visually confirm if the relationship appears linear [6](#page=6).
### 1.2 Types of correlation
The choice of correlation coefficient depends on the nature of the data.
#### 1.2.1 Pearson's correlation coefficient ($r$)
Pearson's correlation is appropriate for parametric data, meaning it is used for numerical variables that are normally distributed [6](#page=6).
#### 1.2.2 Spearman's rank correlation coefficient ($\rho$)
Spearman's rho coefficient is used for ordinal data (ranked data) or when the assumptions of normality for the data are not met. It is considered the non-parametric equivalent of Pearson's correlation [6](#page=6).
> **Tip:** The decision tree for choosing a correlation test involves considering whether the data is bivariate/multivariable, assesses difference/correlation, involves independent/paired samples, the type of outcome variable (continuous, ordinal, and its normality), and the number of groups [2](#page=2).
| Feature | Pearson's correlation ($r$) (Parametric) | Spearman's correlation ($\rho$) (Non-parametric) |
| :---------------------- | :----------------------------------------- | :----------------------------------------------- |
| **Variables** | Two numerical variables | Ordinal or numerical variables |
| **Relationship Type** | Linear relationship | Monotonic (linear or curvilinear) relationship |
| **Data Distribution** | Normal distribution (for at least one of the two variables) | No specific distribution assumption |
#### 1.2.3 When to use each
* Pearson's correlation can be used for two numerical variables with a linear relationship and normally distributed data [6](#page=6) [7](#page=7).
* Spearman's correlation can be used for ordinal variables or when normality assumptions are violated, and it assesses monotonic relationships [6](#page=6) [7](#page=7).
* Neither can be used for non-monotonic relationships [7](#page=7).
### 1.3 Important considerations
* **Correlation does not imply causation:** The presence of a correlation between two variables does not mean that one variable causes the other; there might be confounding factors or the relationship could be coincidental [7](#page=7).
> **Example:** Ice cream sales and crime rates often show a positive correlation. However, ice cream does not cause crime, nor does crime cause people to buy ice cream. The confounding variable is likely temperature – both ice cream sales and crime rates tend to increase during warmer weather.
### 1.4 Finding correlation analysis in SPSS
In SPSS, correlation analysis can typically be found under: Analyze $\rightarrow$ Correlate $\rightarrow$ Bivariate [7](#page=7).
### 1.5 Reporting significant results
When reporting a significant correlation, it is important to include the type of correlation used, whether the relationship was statistically significant, its direction, strength, the correlation coefficient ($r$ or $\rho$), the p-value, and the coefficient of determination ($R^2$) if applicable [7](#page=7).
> **Example Reporting:** "A Pearson's correlation was run to assess the relationship between BMI and physical activity among a sample of university students. There was a statistically significant, strong negative correlation between BMI and physical activity, $r = -0.67$, $p = 0.035$, with physical activity explaining about 44% of the variation in BMI." [7](#page=7).
### 1.6 Correlation matrix
A correlation matrix is a table that summarizes the correlation coefficients between several pairs of continuous variables. This format allows for easy identification of the strongest and weakest correlations among multiple variables. The diagonal of a correlation matrix always contains ones, as the correlation of a variable with itself is perfect [8](#page=8).
> **Example Correlation Matrix:**
>
> | | English | Math | Writing | Reading |
> | :------ | :------ | :---- | :------ | :------ |
> | English | 1 | | | |
> | Math | 0.271 | 1 | | |
> | Writing | 0.366 | 0.149 | 1 | |
> | Reading | 0.386 | 0.520 | 0.152 | 1 |
>
> In this matrix, the strongest correlation is between Math and Reading scores ($r=0.520$), while the weakest is between Math and Writing scores ($r=0.149$) [8](#page=8).
### 1.7 Heatmap
A heatmap provides a graphical representation of a correlation matrix. Colors are used to distinguish between positive and negative correlations, with one color (e.g., blue) typically representing positive relationships and another (e.g., red) representing negative ones. The intensity of the color indicates the strength of the correlation. Heatmaps can be generated using statistical software or spreadsheet programs like Excel [9](#page=9).
### 1.8 Online calculators
Several online calculators are available for computing correlation coefficients:
* Pearson's correlation: [https://www.socscistatistics.com/tests/pearson/default2.aspx](https://www.socscistatistics.com/tests/pearson/default2.aspx) [9](#page=9).
* Spearman's correlation: [https://www.socscistatistics.com/tests/spearman/default2.aspx](https://www.socscistatistics.com/tests/spearman/default2.aspx) [9](#page=9).
---
# Simple linear regression
Simple linear regression quantifies the linear relationship between two variables for prediction and understanding impact [13](#page=13).
### 2.1 Purpose and applications of simple linear regression
Simple linear regression is utilized for two primary purposes:
* **Studying associations:** Similar to correlation, it examines the relationship between two variables [13](#page=13).
* **Quantifying relationships:** It goes beyond correlation by generating a regression equation that describes the relationship, enabling prediction of the outcome variable [13](#page=13).
**Uses include:**
* Evaluating the impact of an independent variable on an outcome [13](#page=13).
* Predicting the outcome variable using the independent variable [13](#page=13).
> **Tip:** While it studies associations, remember that correlation and regression do not imply causation [18](#page=18).
### 2.2 Variables in simple linear regression
* **Dependent variable (outcome, y):** This is the variable being predicted and must be numerical [13](#page=13).
* **Independent variable (predictor, x):** This variable is used to predict the outcome. It can be numerical, ordinal, or categorical [13](#page=13).
### 2.3 The regression equation and its components
The fundamental equation for simple linear regression is represented as:
$$y = b_0 + b_1x$$ [14](#page=14).
**Components of the equation:**
* **y:** The outcome or dependent variable [14](#page=14).
* **x:** The predictor or independent variable [14](#page=14).
* **$b_0$ (Intercept or constant):** This represents the value of the dependent variable ($y$) when the independent variable ($x$) is zero [14](#page=14).
> **Example:** In a model predicting salary based on years of experience, an intercept of 1500 dollars signifies that a fresh graduate with zero years of experience is expected to earn 1500 dollars [15](#page=15).
> **Caveat:** The interpretation of the intercept is only meaningful if $x=0$ is a plausible or possible value within the context of the data. For instance, a waist circumference of zero is not physically possible, making the intercept in such a model uninterpretable [15](#page=15).
* **$b_1$ (Slope):** This indicates the amount of change (positive or negative) in the dependent variable ($y$) for each one-unit increase in the independent variable ($x$) [14](#page=14).
> **Example:** If the slope ($b_1$) is 0.45 in a model predicting HbA1c from blood glucose, it means that for every one mmol/L increase in blood glucose, HbA1c is expected to increase by 0.45% [13](#page=13).
> **Example:** In the salary prediction model, a slope of 250 dollars means that for each additional year of experience, an employee's salary is expected to increase by 250 dollars [15](#page=15).
### 2.4 Fitting the regression line: The least squares method
Linear regression aims to fit the best straight line through the data points. The most common method for achieving this is the **least squares method**. This method finds the line that minimizes the sum of the squared vertical distances (residuals) between each data point and the line [16](#page=16).
### 2.5 Residuals
Residuals represent the difference between the observed (actual) values and the predicted values from the regression model. They are the errors in prediction [17](#page=17).
The population model includes an error term ($e$):
$$Y = \beta_0 + \beta_1X + e$$ [17](#page=17).
The residual ($e$) for a specific observation is calculated as:
$$e = Y - (\beta_0 + \beta_1X)$$ [17](#page=17).
This is equivalent to:
$$e = \text{observed value} - \text{predicted value}$$ [17](#page=17).
* Residuals represent the vertical distance of each data point from the regression line [17](#page=17).
* A good regression model is characterized by small residuals [17](#page=17).
> **Example:** If an employee with 2 years of experience is predicted to earn 2000 dollars, their actual salary might be 2000, 2100, or 1800 dollars. The residuals would be 0, 100, and -200 dollars, respectively [17](#page=17).
### 2.6 Coefficient of determination ($R^2$)
The coefficient of determination, denoted as $R^2$, quantifies the proportion of variability in the dependent variable that can be explained by the independent variable through their linear relationship [18](#page=18).
* $R^2$ can be obtained by squaring the Pearson's correlation coefficient ($r$) between the two variables ($R^2 = r^2$) [18](#page=18).
* It is typically expressed as a percentage, indicating the proportion of variance in the outcome variable explained by the predictor [18](#page=18).
* The value of $R^2$ ranges from 0 to 1 (or 0% to 100%) [18](#page=18).
* $R^2 = 1$ indicates perfect predictability [18](#page=18).
* $R^2 = 0$ indicates no predictive capability of the model [18](#page=18).
* It's important to note that "explained" does not imply causality [18](#page=18).
> **Example:** If $R^2 = 0.83$ in a model predicting BMI from waist circumference, it means that 83% of the variability in BMI can be explained by waist circumference using this linear model [18](#page=18).
**Adjusted $R^2$ ($R^2_{adj}$):** This is a modified version of $R^2$ used primarily in multiple linear regression. It accounts for the sample size and the number of coefficients in the model, providing a more adjusted measure of the model's fit [18](#page=18).
### 2.7 Simple linear regression versus correlation
Both simple linear regression and correlation are used to assess the association between two numerical variables [19](#page=19).
* The correlation coefficient between variable X and variable Y is the same as the correlation coefficient between Y and X [19](#page=19).
* However, the regression of Y on X ($Y = b_0 + b_1X$) yields a different equation and results compared to the regression of X on Y ($X = b_0 + b_1Y$) [19](#page=19).
* The sign (positive or negative) of the slope coefficient in a regression line is consistent with the sign of the correlation coefficient [19](#page=19).
### 2.8 Checking the model fit
To determine if a simple linear regression model is a "good" model for prediction, several checks are performed [19](#page=19):
1. **Check $R^2$ (or Adjusted $R^2$):** A higher $R^2$ value generally indicates better predictive power [19](#page=19).
2. **Check the significance of the ANOVA model:** A statistically significant p-value from the ANOVA output suggests the model has a good fit [19](#page=19).
3. **Check model assumptions:** Ensuring the underlying assumptions of linear regression are met is crucial for model validity [19](#page=19).
### 2.9 Assumptions of simple linear regression
For a simple linear regression model to have a good fit and reliable predictions, the following assumptions should ideally be satisfied [20](#page=20):
1. **Linearity:** There must be a linear relationship between the predictor variable ($x$) and the outcome variable ($y$). This is best checked visually with a scatterplot of the data before modeling [20](#page=20).
2. **No significant outliers:** Outliers are data points far from the general trend of the data and can negatively impact the model's predictive ability. Techniques like case-wise diagnostics and Cook's distance (should be less than 4/n) are used to identify significant outliers [20](#page=20).
3. **Independence of observations (residuals):** The observations (or residuals) should be independent of each other. Knowing the value of one case should not provide information about the value of another. The Durbin-Watson statistic is used to check for autocorrelation; values between 1.5 and 2.5 typically indicate independence [20](#page=20).
4. **Normality of residuals:** The residuals (errors) should be approximately normally distributed. This can be assessed using histograms or normal probability plots of the residuals (or standardized residuals) [20](#page=20).
5. **Homoscedasticity:** This assumption states that the variance of the outcome variable ($y$) is constant across all levels of the predictor variable ($x$). Visually, this means the spread of residuals is consistent along the regression line. Heteroscedasticity occurs when the spread of residuals changes systematically with the predictor variable. This is checked by plotting standardized residuals against standardized predicted values; a "funnel" shape indicates heteroscedasticity, while a consistent scatter suggests homoscedasticity [20](#page=20).
> **Example of Homoscedasticity:** A plot where the residuals are evenly distributed around the regression line with a constant variance [21](#page=21).
> **Example of Heteroscedasticity:** A plot where the spread of residuals increases or decreases as the predictor variable changes, forming a 'fan' or 'cone' shape [21](#page=21).
### 2.10 Avoiding extrapolation
A critical consideration when using regression models is to avoid extrapolation. This means the model should not be used to predict outcomes for predictor variable values that fall outside the range of values used to create the model [21](#page=21).
> **Example:** If a salary prediction model was built using data from employees with 0-10 years of experience, it should not be used to predict the salary of an employee with 15 years of experience, as this falls outside the original data range [21](#page=21).
> **Example:** Similarly, using extremely small waist circumference values to predict BMI in a model derived from a broader range of waist circumferences could lead to unreliable predictions [21](#page=21).
---
# Multiple linear regression
Multiple linear regression extends simple linear regression by incorporating multiple predictor variables to estimate an outcome variable [22](#page=22).
### 3.1 Model structure and variables
Multiple linear regression models aim to explain a single dependent variable (outcome, $y$) using one or more independent variables (predictors, $x$) [22](#page=22).
* **Dependent variable:** Must be numerical [22](#page=22).
* **Independent variables:** Can be numerical, ordinal, or categorical [22](#page=22).
The general form of the multiple linear regression equation is:
$$y = b_0 + b_1x_1 + b_2x_2 + \dots$$
where:
* $y$ is the dependent variable [22](#page=22).
* $x_1, x_2, \dots$ are the independent variables [22](#page=22).
* $b_0$ is the intercept coefficient [22](#page=22).
* $b_1, b_2, \dots$ are the slope coefficients, representing the change in the dependent variable for a one-unit increase in the corresponding independent variable, while controlling for all other predictors in the model [22](#page=22).
#### 3.1.1 Handling different variable types
##### 3.1.1.1 Numerical predictor variables
Numerical predictors are directly included in the regression equation. For example, adding 'age' to a model predicting BMI based on 'waist circumference' might result in:
$$BMI = -7.53 + 0.39(\text{waist circumference}) - 0.05(\text{age})$$
Interpretation involves assessing the change in the outcome for a unit increase in a predictor, while holding other predictors constant. The intercept interpretation may not be meaningful if its value (e.g., zero waist circumference) is not plausible within the data's context [22](#page=22).
##### 3.1.1.2 Binary predictor variables
Binary categorical variables (e.g., gender coded as 1 for males and 2 for females) are included in the model. The coefficient for a binary predictor represents the difference in the outcome between the two groups, with one group serving as the reference category.
For instance, in a model predicting BMI:
$$BMI = -10.99 + 0.40(\text{waist circumference}) - 0.05(\text{age}) + 2.13(\text{gender})$$
If males are the reference category (coded as 1), the coefficient of 2.13 for gender indicates that the mean BMI for females (coded as 2) is 2.13 units higher than for males, controlling for waist circumference and age [23](#page=23).
##### 3.1.1.3 Categorical predictor variables with multiple categories
For categorical predictors with more than two levels (e.g., smoking status: non-smoker, ex-smoker, current smoker), dummy variables are created. One category is designated as the reference category (e.g., non-smoker), and dummy variables are generated for each of the remaining categories. Each dummy variable receives a code of 1 if an individual belongs to that category and 0 otherwise.
* **Example of dummy variable creation (non-smoker as reference):**
* Non-smoker: ex-smoker dummy = 0, current smoker dummy = 0
* Ex-smoker: ex-smoker dummy = 1, current smoker dummy = 0
* Current smoker: ex-smoker dummy = 0, current smoker dummy = 1
The regression model then includes these dummy variables, and their coefficients are interpreted as the difference in the outcome compared to the reference category. Some statistical software can handle categorical variables directly without manual dummy variable creation [24](#page=24).
##### 3.1.1.4 Ordinal predictor variables
Ordinal variables can be handled in two ways:
1. **Treated as continuous:** Each level increase in the ordinal variable is assigned a numerical value, and the coefficient reflects the change in the outcome for each unit increase. For example, if pain is coded 0, 1, 2, 3, 4, the coefficient represents the change in outcome per pain level increment [25](#page=25).
2. **Treated as categorical:** Similar to other categorical variables, one level is set as the reference category, and coefficients represent differences between other levels and the reference [25](#page=25).
### 3.2 Checking model fit
Assessing the quality and predictive power of a multiple linear regression model involves several key indicators:
* **Adjusted $R^2$:** This value indicates the proportion of variance in the dependent variable explained by the model, adjusted for the number of predictors and sample size. A higher adjusted $R^2$ suggests a better fit [25](#page=25).
* **ANOVA model significance:** A statistically significant p-value from the ANOVA table associated with the regression model indicates that the model as a whole is a good fit for the data [25](#page=25).
* **Model assumptions:** Verifying that the assumptions of multiple linear regression are met is crucial for the validity of the results [25](#page=25).
### 3.3 Assumptions of multiple linear regression
The assumptions for multiple linear regression are similar to simple linear regression, with the critical addition of assessing multicollinearity [26](#page=26).
* **No multicollinearity:** This occurs when two or more independent variables are highly correlated, meaning they measure similar concepts.
* **Detection methods:**
* **Correlation coefficients:** A correlation matrix of all predictor variables can reveal strong pairwise correlations (e.g., magnitude $\ge 0.80$) [26](#page=26).
* **Variance Inflation Factor (VIF):** VIF values should ideally be below 5.0, and generally below 10.0. High VIF values indicate multicollinearity [26](#page=26).
* **Linearity:** The relationship between each independent variable and the dependent variable is linear. (Implicit from simple linear regression assumptions) [26](#page=26).
* **Independence of errors:** Residuals are independent of each other. (Implicit from simple linear regression assumptions) [26](#page=26).
* **Homoscedasticity:** The variance of the errors is constant across all levels of the independent variables. (Implicit from simple linear regression assumptions) [26](#page=26).
* **Normality of errors:** The residuals are normally distributed. (Implicit from simple linear regression assumptions) [26](#page=26).
### 3.4 Model building strategies
Choosing which variables to include in the final regression model is a significant challenge. The strategy depends on the primary goal of the model (prediction vs. adjustment) [27](#page=27).
#### 3.4.1 Model building for predictive purposes
The aim is to achieve the best predictive model, balancing predictive capability with model parsimony (fewer predictors) [27](#page=27).
* **Approaches:**
1. **Automatic variable selection methods:** The software automatically selects predictors based on statistical criteria. These are generally recommended when there is little prior knowledge about which variables are relevant [27](#page=27).
* **Forward selection:** Starts with an empty model and adds variables one by one based on statistical significance (lowest p-value). Variables are assessed for significance after each addition and can be removed [27](#page=27).
* **Backward elimination:** Starts with all variables in the model and removes the least significant variable at each step (highest p-value) until no more significant variables can be removed. Variables with a p-value < 0.05 are typically retained [28](#page=28).
* **Stepwise selection:** A combination of forward and backward methods. Variables are added or removed, and then variables already in the model are re-evaluated for significance. This ensures all variables in the final model have a p-value < 0.05 [28](#page=28).
* **Criterion for selection/removal:** Change in adjusted $R^2$ upon entry or removal of a variable can also guide the process [28](#page=28).
2. **Manual variable selection method:** The researcher decides which variables to include, often based on prior knowledge, literature review, or hypotheses. This is suitable when the goal is to control for confounders or adjust for other factors. This method is often referred to as the "enter" method in software like SPSS [28](#page=28).
#### 3.4.2 Model building for non-predictive purposes (adjustment)
When the primary goal is to adjust for confounding factors, several strategies can be employed:
* **Automatic selection methods:** Similar to predictive purposes, but may risk omitting clinically important variables if they don't reach statistical significance [29](#page=29).
* **Include variables significant in univariate regression:** Select variables with a p-value below a certain threshold (e.g., 0.2) in initial simple regression analyses [29](#page=29).
* **Include all studied or clinically important variables:** Based on literature review and researcher expertise, all relevant variables or those deemed clinically important are included [29](#page=29).
* **Combination of methods:** A mixed approach incorporating elements from the above strategies [29](#page=29).
### 3.5 Reporting regression output
When reporting multiple linear regression results, several components should be included:
1. **Constant/Intercept:** Important for predictive models [30](#page=30).
2. **Coefficients (slopes):** Essential for interpretation, indicating the magnitude and direction of the relationship between predictors and the outcome [30](#page=30).
3. **P-values:** Indicate the statistical significance of each predictor [30](#page=30).
4. **95% Confidence Intervals (CI) of coefficients:** Provide a range of plausible values for the true coefficient. A CI containing zero suggests non-significance [30](#page=30).
5. **Model fit statistics:** For predictive models, report adjusted $R^2$ and the model's overall p-value [30](#page=30).
6. **Model diagnostics:** Report findings related to assumption checks [30](#page=30).
It is also common practice to present results from simple linear regressions alongside multiple regression results in the same table for comparison [30](#page=30).
**Example reporting table:**
| Variables | Coefficients | P-value | 95% CI of the coefficients |
| :--------------------- | :----------- | :------ | :------------------------- |
| Waist circumference | 0.40 | <0.001 | 0.39, 0.40 |
| Age | -0.05 | <0.001 | -0.06, -0.05 |
| Gender (Female vs Male)| 2.13 | <0.001 | 2.00, 2.26 |
| Constant | -8.86 | <0.001 | -9.27, -8.45 |
| Adjusted $R^2$ | 0.874 | | |
> **Tip:** While online calculators exist for simpler multiple regression models, complex analyses typically require statistical software such as SPSS, R, or Stata [30](#page=30).
---
# Logistic regression
Logistic regression is a statistical method used to model the relationship between a binary outcome variable and one or more predictor variables [31](#page=31).
## 4. Logistic regression
Logistic regression is a statistical technique used to analyze situations where the dependent variable is binary (dichotomous), meaning it can take on only two possible outcomes. This is in contrast to linear regression, where the outcome variable is numerical and continuous. Logistic regression is widely used in medical and epidemiological studies to investigate potential risk factors for diseases or complications, where the outcome could be "disease/no disease," "complication/no complication," or "recurrence/no recurrence" [31](#page=31) [35](#page=35).
### 4.1 Simple logistic regression
Simple logistic regression examines the association between a single predictor variable and a binary outcome [31](#page=31).
#### 4.1.1 Types of variables
* **Dependent variable (outcome, y):** Must be a binary variable [31](#page=31).
* **Independent variable (predictor, x):** Can be numerical, ordinal, or categorical [31](#page=31).
#### 4.1.2 The logistic regression equation
The core of logistic regression involves a logarithmic transformation. The probability of the outcome ($p$) is modeled using the following equation:
$$ \log\left(\frac{p}{1-p}\right) = b_0 + b_1 x $$ [31](#page=31).
Where:
* $p$ represents the probability of the outcome occurring (e.g., having a disease) [31](#page=31).
* $1-p$ represents the probability of the outcome not occurring (e.g., not having a disease) [31](#page=31).
* $b_0$ is the intercept [31](#page=31).
* $b_1$ is the regression coefficient for the predictor variable $x$ [31](#page=31).
> **Tip:** The regression equation itself is rarely used directly in medical practice. Instead, the focus is on interpreting the coefficients after they have been transformed [31](#page=31).
#### 4.1.3 Odds ratios (OR)
The regression coefficient ($b_1$) is back-transformed from the log scale to the natural scale to yield the odds ratio (OR). The OR is a crucial measure of association in logistic regression. It indicates the change in odds of the outcome occurring for a one-unit increase in the predictor variable [31](#page=31).
* If there is no association between the predictor and the outcome, the coefficient ($b$) will be 0, and the OR (exp(b)) will be 1 [31](#page=31).
> **Tip:** Be careful when interpreting logistic regression output; ensure you are looking at the coefficient ($b$) or the exponential of the coefficient (exp(b)), which is the odds ratio [31](#page=31).
#### 4.1.4 Interpretation of odds ratios
The interpretation of the OR depends on the type of predictor variable:
* **Continuous predictor variable:**
* An OR > 1 indicates that as the predictor increases, the odds of the outcome occurring also increase [34](#page=34).
* An OR < 1 indicates that as the predictor increases, the odds of the outcome occurring decrease [34](#page=34).
* An OR = 1 indicates no association or change [34](#page=34).
> **Example:** If the OR for waist circumference and diabetes is 1.04, it means that for each one-unit increase in waist circumference (e.g., 1 cm), the odds of being diabetic increase multiplicatively by 1.04. An increase of 3 units would mean the odds increase by $1.04^3$, not $1.04 \times 3$ [32](#page=32).
* **Binary predictor variable:**
* The OR compares the odds of the outcome in the group coded as '1' to the odds in the group coded as '0' [34](#page=34).
* An OR > 1 means the odds of the outcome are higher in the group coded as '1' [34](#page=34).
* An OR < 1 means the odds of the outcome are lower in the group coded as '1' [34](#page=34).
* An OR = 1 means no association [34](#page=34).
> **Example:** If hypertension is coded as 0=no and 1=yes, and the OR for hypertension and diabetes is 2.30, it means that for patients with hypertension, the odds of having diabetes are 2.3 times the odds of having diabetes among patients without hypertension [32](#page=32).
* **Categorical predictor variable:**
* The OR compares the odds of the outcome in each category to a designated **reference category**. The number of ORs reported is typically one less than the number of categories [34](#page=34).
* An OR > 1 for a category means the odds of the outcome are higher in that category compared to the reference category [34](#page=34).
* An OR < 1 means the odds of the outcome are lower in that category compared to the reference category [34](#page=34).
* An OR = 1 means no difference from the reference category [34](#page=34).
> **Example:** In a study of smoking status and bladder cancer, if "never smokers" is the reference category:
> * Occasional smokers with an OR of 1.5 have 1.5 times the odds of bladder cancer compared to never smokers [33](#page=33).
> * Former smokers with an OR of 2.3 have 2.3 times the odds of bladder cancer compared to never smokers [33](#page=33).
> * Current smokers with an OR of 5.2 have 5.2 times the odds of bladder cancer compared to never smokers [33](#page=33).
#### 4.1.5 Differences from linear regression
| Feature | Linear Regression | Logistic Regression |
| :------------------ | :--------------------------------------------------------- | :------------------------------------------------------------------ |
| **Outcome Variable**| Numerical (continuous) | Binary |
| **Interpretation** | Coefficient ($b$) | Exponential of coefficient (exp(b)), which is the Odds Ratio (OR) | [35](#page=35).
| **CI crosses...** | 0 (indicates non-significance) | 1 (indicates non-significance) | [35](#page=35).
> **Example:**
> * Linear: $b=1.08$ (95% CI 0.77 to 1.40) is statistically significant.
> * Linear: $b=1.08$ (95% CI -0.98 to 1.36) is statistically non-significant.
> * Logistic: OR = 0.60 (95% CI 0.80 to 0.98) is statistically significant.
> * Logistic: OR = 0.80 (95% CI 0.89 to 5.55) is statistically non-significant [35](#page=35).
#### 4.1.6 Checking model fit
Assessing the quality of a logistic regression model is crucial.
* **Pseudo R² values:** Similar to R² in linear regression, Cox and Snell R² and Nagelkerke R² are reported to indicate the model's explanatory power [35](#page=35).
* **Hosmer–Lemeshow test:** A significant p-value ($p < 0.05$) from this test indicates that the model is not a good fit for the data [35](#page=35).
> **Tip:** For categorical predictor variables, if the 95% confidence interval of the OR contains 1, the association is considered not statistically significant [33](#page=33).
### 4.2 Multiple logistic regression
Multiple logistic regression extends simple logistic regression by including more than one predictor variable simultaneously. This allows for the assessment of the association between each predictor and the outcome while controlling for the effects of other variables in the model (#page=31, 36) [31](#page=31) [36](#page=36).
#### 4.2.1 Types of variables
* **Dependent variable (outcome, y):** One binary variable [36](#page=36).
* **Independent variables (predictors):** Multiple variables, which can be numerical, ordinal, or categorical [36](#page=36).
#### 4.2.2 The regression equation
The equation for multiple logistic regression is an extension of the simple model:
$$ \log\left(\frac{p}{1-p}\right) = b_0 + b_1 x_1 + b_2 x_2 + \dots $$ [36](#page=36).
Where $b_1, b_2, \dots$ are the regression coefficients for predictor variables $x_1, x_2, \dots$ respectively. These coefficients are back-transformed to yield odds ratios, which are interpreted similarly to those in simple logistic regression [36](#page=36).
#### 4.2.3 Crude versus adjusted odds ratios
* **Crude (unadjusted) odds ratios:** These result from simple logistic regression and measure the association between two variables without accounting for any other factors [36](#page=36).
* **Adjusted odds ratios:** These result from multiple logistic regression and measure the association between a predictor and the outcome while controlling for other variables included in the model [36](#page=36).
> **Tip:** Reporting both unadjusted and adjusted ORs can be very informative. A significant change in an OR after adjustment might suggest confounding or effect modification [36](#page=36).
#### 4.2.4 What to report from regression output
When reporting logistic regression results, it is essential to include:
1. The ORs (unadjusted) from simple regression [37](#page=37).
2. The ORs (adjusted) from multiple regression [37](#page=37).
3. The 95% CI for the adjusted ORs [37](#page=37).
4. The p-value for the significance of the association [37](#page=37).
Sometimes, unadjusted ORs are also reported with their corresponding 95% CI and p-value [37](#page=37).
> **Example:** In a study on diabetes, hypertension showed a significant association (OR=2.30) in simple regression. However, in multiple regression, after adjusting for Age and BMI, the OR for hypertension dropped to 1.08 and was no longer statistically significant (95% CI 0.87, 1.33; p=0.500). This suggests that the initial observed effect of hypertension might have been partly due to its association with BMI and age [37](#page=37).
---
## Common mistakes to avoid
- Review all topics thoroughly before exams
- Pay attention to formulas and key definitions
- Practice with examples provided in each section
- Don't memorize without understanding the underlying concepts
Glossary
| Term | Definition |
|------|------------|
| Correlation coefficient | A statistical measure that quantifies the strength and direction of the linear relationship between two variables. It ranges from -1 to 1. |
| Pearson's correlation (r) | A statistical measure that quantifies the strength and direction of a linear relationship between two continuous variables that are normally distributed. |
| Spearman's correlation (ρ) | A non-parametric statistical measure used to assess the strength and direction of a monotonic relationship between two ranked variables or two continuous variables that do not meet the normality assumption. |
| Scatterplot | A graphical representation used to display the relationship between two continuous variables, where each point represents a pair of values for the variables. |
| Coefficient of determination (R²) | A statistical measure that represents the proportion of the variance in the dependent variable that is predictable from the independent variable(s). It is the square of the correlation coefficient in simple linear regression. |
| Regression | A statistical method used to study and quantify the relationship between a dependent variable and one or more independent variables. |
| Dependent variable (Y) | The outcome variable that is being predicted or explained by the independent variable(s). Also known as the response variable. |
| Independent variable (X) | The variable that is used to predict or explain the dependent variable. Also known as the predictor or explanatory variable. |
| Linear regression | A statistical method used when the outcome variable is continuous, aiming to model the relationship between variables using a linear equation. |
| Logistic regression | A statistical method used when the outcome variable is binary (dichotomous), modeling the probability of the outcome occurring based on one or more predictor variables. |
| Intercept (b₀) | In a regression equation, the value of the dependent variable when the independent variable(s) are all zero. It represents the baseline value. |
| Slope (b₁) | In a regression equation, the rate of change in the dependent variable for a one-unit increase in the independent variable. |
| Residual | The difference between an observed value of the dependent variable and its predicted value from the regression model. It represents the error or unexplained variation. |
| Multicollinearity | A phenomenon in multiple regression where two or more independent variables are highly correlated with each other, potentially affecting the stability and interpretation of the regression coefficients. |
| Odds Ratio (OR) | A measure of association used in logistic regression that quantifies how much the odds of an outcome occurring change for a unit change in a predictor variable. |
| Adjusted Odds Ratio | An odds ratio calculated from a multiple logistic regression model, which represents the association between an exposure and an outcome after controlling for the effects of other variables in the model. |
| Crude Odds Ratio | An odds ratio calculated from a simple logistic regression model, representing the association between an exposure and an outcome without adjusting for any other variables. |
Cover
Belangrijke dingen hoc statistiek.docx
Summary
# Basisconcepten en voorwaarden voor statistische toetsen
Dit onderdeel behandelt de fundamentele principes en voorwaarden die essentieel zijn voor het correct toepassen en interpreteren van statistische toetsen.
### 1.1 Fundamentele principes van statistische toetsen
#### 1.1.1 Enkelvoudige aselecte steekproef
De geldigheid van schattingsformules in de statistiek is direct afhankelijk van de wijze waarop gegevens zijn verkregen. Deze formules gelden uitsluitend onder de voorwaarde dat de data afkomstig zijn uit een **enkelvoudige aselecte steekproef**. Dit betekent dat elk element in de populatie een gelijke kans heeft om in de steekproef te worden opgenomen, en dat de selectie van het ene element geen invloed heeft op de selectie van een ander element.
> **Tip:** Als de steekproef niet aselect is, kunnen de resultaten van statistische toetsen misleidend zijn, omdat ze niet representatief zijn voor de populatie.
#### 1.1.2 De rol van alpha ($\alpha$)
Alpha ($\alpha$) is het significantieniveau dat wordt gebruikt in hypothesetoetsing. Het vertegenwoordigt de maximale kans op het maken van een Type I fout (het verwerpen van de nulhypothese terwijl deze waar is).
* **Hoe kleiner $\alpha$**, hoe kleiner de kans op een Type I fout. Dit leidt er echter ook toe dat de nulhypothese sneller wordt aanvaard en dat het moeilijker wordt om een echt effect te detecteren. Er is dus een afweging tussen het minimaliseren van Type I fouten en het maximaliseren van het onderscheidingsvermogen (power) om Type II fouten te voorkomen.
#### 1.1.3 Betrouwbaarheidsintervallen (BI)
Een betrouwbaarheidsinterval (BI) geeft een reeks waarden aan die, met een bepaalde mate van betrouwbaarheid, de ware populatiewaarde van een onderzochte variabele bevat.
* Een **95% betrouwbaarheidsinterval** betekent dat als de steekproefprocedure vele malen herhaald zou worden, 95% van de gecreëerde intervallen de ware populatiewaarde zou bevatten.
* Een **kleiner BI** suggereert een hogere betrouwbaarheid en een kleinere foutmarge, wat betekent dat de schatting nauwkeuriger is.
* Bij te **kleine steekproeven** kan het betrouwbaarheidsinterval te breed uitvallen, wat de onzekerheid over de populatiewaarde vergroot.
#### 1.1.4 Steekproefgrootte en spreiding
Zowel de grootte van de steekproef als de spreiding van de data in de populatie hebben een significante impact op de resultaten van statistische toetsen en de precisie van schattingen.
* **Steekproefgrootte ($n$)**: De variabiliteit van een steekproefgrootheid (zoals het steekproefgemiddelde) wordt beschreven door de spreiding van zijn steekproevenverdeling. Deze variabiliteit kan verkleind worden door de **grootte van de steekproef te vergroten**. Grotere steekproeven leiden doorgaans tot nauwkeurigere schattingen en een kleiner betrouwbaarheidsinterval.
* **Spreiding in de populatie ($\sigma^2$)**: Hoe groter de spreiding in de populatie, hoe meer verschillende resultaten er ontstaan wanneer er steekproeven uit de populatie worden getrokken. Een beter meetinstrument produceert minder toevallige fouten, wat resulteert in een **kleinere spreiding in de populatie**.
> **Tip:** Het vergroten van de steekproefgrootte is een van de meest effectieve manieren om de precisie van statistische conclusies te verbeteren.
### 1.2 Robuustheid van statistische methoden
Robuustheid verwijst naar de mate waarin de resultaten van een statistische toets ongevoelig zijn voor schendingen van de onderliggende aannames.
* **Algemeen**: Statistici streven naar robuuste methoden, wat betekent dat kleine afwijkingen van de aannames (zoals normaliteit) de conclusies niet significant mogen beïnvloeden.
* **Effect van uitschieters**: Het **gemiddelde** is een maat die niet erg robuust is. Het kan sterk beïnvloed worden door uitschieters of ongewone observaties in de data.
* **Niet-parametrische toetsen**: Niet-parametrische statistische toetsen (zoals de Wilcoxon-toets) hebben doorgaans een kleiner onderscheidingsvermogen dan parametrische toetsen (zoals de t-toets), maar zijn **robuuster**. Ze gaan niet uit van een normaal verdeelde populatie.
* **T-tests en normaliteit**: T-procedures zijn relatief accuraat, zelfs als de populatie niet normaal verdeeld is, mits de steekproeven **groot genoeg** zijn en er geen uitschieters zijn of de verdeling niet duidelijk scheef is. Als de steekproef klein is (bijvoorbeeld $n < 15$), moet de populatie wel exact normaal verdeeld zijn en mag er geen sprake zijn van scheefheid of uitschieters.
* **Resampling (Bootstrap)**: Technieken zoals bootstrap, die werken met teruglegging uit de steekproef, kunnen helpen om de robuustheid van schattingen te verbeteren, vooral wanneer de aannames van parametrische toetsen geschonden worden.
> **Voorbeeld:** Als je een gemiddelde wilt berekenen van de salarissen in een bedrijf, en er is één persoon met een extreem hoog salaris, dan zal dit gemiddelde sterk omhoog worden getrokken. Een mediaan, die minder gevoelig is voor uitschieters, zou dan een betere representatie kunnen geven.
### 1.3 Specifieke concepten en hun impact
#### 1.3.1 Vrijheidsgraden en de t-verdeling
De t-verdeling wordt gebruikt in t-tests wanneer de populatievariantie ($\sigma^2$) onbekend is en geschat wordt met de steekproefvariantie ($s^2$).
* De t-verdeling heeft **dikke staarten** vergeleken met de normaalverdeling, vooral bij kleine steekproeven. Dit betekent dat er een grotere afwijking van de nulhypothese nodig is om significantie te bereiken.
* Naarmate het aantal **vrijheidsgraden toeneemt** (wat meestal correleert met een grotere steekproefgrootte, vaak $n-1$), benadert de t-verdeling meer een normaalverdeling en worden de staarten dunner. Dit maakt het gemakkelijker om de nulhypothese te verwerpen.
* **Conservatief testen**: De t-test wordt als conservatiever beschouwd omdat het veronderstelt dat de staart van de steekproevenverdeling dikker is dan deze mogelijk is onder de normale verdeling, wat beschermt tegen het te snel verwerpen van de nulhypothese. De formule $n-1$ voor de vrijheidsgraden compenseert voor het gebruik van een steekproef in plaats van de gehele populatie, wat leidt tot betrouwbaardere resultaten.
> **Tip:** Bij kleine steekproeven (bv. $n < 30$) is het extra belangrijk om de aannames van de t-toets te controleren, omdat de t-verdeling dan significant afwijkt van de normaalverdeling.
#### 1.3.2 Onderscheidingsvermogen (Power)
Het onderscheidingsvermogen van een statistische toets is de kans dat de toets de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is (dus de kans op het detecteren van een echt effect).
* **Grotere power** betekent dat de verdelingen (bijvoorbeeld van gemiddelden) verder uit elkaar liggen, waardoor een echt effect makkelijker te detecteren is.
* Factoren die de power verhogen zijn: een grotere steekproefgrootte, een groter effect (verschil tussen gemiddeldes), en een kleiner $\alpha$.
* Niet-parametrische toetsen hebben doorgaans een **kleiner onderscheidingsvermogen** dan parametrische toetsen.
#### 1.3.3 Effectgrootte
Effectgrootte meet de omvang van het verschil of de relatie in de populatie.
* Niet-parametrische toetsen geven **geen directe informatie over de effectgrootte**, terwijl veel parametrische toetsen dit wel doen.
#### 1.3.4 Proporties en benadering van de normaalverdeling
Bij het toetsen van proporties geldt dat naarmate de populatieproportie ($p$) toeneemt, de steekproevenverdeling van de proportie meer de normaalverdeling benadert.
* **Correctie bij kleine steekproeven**: Om de nauwkeurigheid van betrouwbaarheidsintervallen bij proporties te verbeteren, vooral bij kleine steekproeven, kan een correctie worden toegepast, zoals het toevoegen van denkbeeldige observaties (bijvoorbeeld 2 successen en 2 mislukkingen).
* **Grootte van de foutmarge ($m$)**: Bij het plannen van een studie kan de steekproefgrootte zo worden gekozen dat een populatieproportie geschat kan worden met een gewenste foutmarge $m$. Deze foutmarge is het grootst wanneer $p = 0.5$.
#### 1.3.5 Relatief risico
Het relatief risico is een maat om twee proporties te vergelijken, gebaseerd op de verhouding tussen deze proporties.
* Een relatief risico gelijk aan 1 betekent dat beide proporties gelijk zijn.
#### 1.3.6 Chi-kwadraat toetsen
Chi-kwadraat toetsen worden gebruikt voor het analyseren van frequentiedata en relaties tussen categorische variabelen.
* Ze zijn een **benaderende methode** die nauwkeuriger wordt naarmate de cel-frequenties toenemen.
* Een grotere vrijheidsgraad zorgt ervoor dat de chi-kwadraat verdeling meer naar rechts verschuift en meer op een normaalverdeling gaat lijken.
* Hoge chi-kwadraat waarden duiden op een groot verschil tussen de waargenomen en verwachte frequenties, wat bewijs levert tegen de nulhypothese.
#### 1.3.7 Regressieanalyse
Regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele (y) en een of meer onafhankelijke variabelen (x) te modelleren.
* **Inferentie voor regressie**: Statistische inferentie in regressie maakt het mogelijk om conclusies te trekken over de populatie regressielijn op basis van steekproefgegevens. We toetsen of de relatie tussen x en y werkelijk lineair is, of dat het patroon mogelijk door toeval is ontstaan.
* **Regressiecoëfficiënten**: $\beta_1$ vertegenwoordigt de helling (de verwachte verandering in $y$ voor een eenheidstoename in $x$), en $\beta_0$ is de constante (de verwachte waarde van $y$ wanneer $x=0$). $B_0$ en $B_1$ zijn de schatters van $\beta_0$ en $\beta_1$ uit de steekproef. De verwachte waarde wordt gegeven door $\hat{y} = \beta_0 + \beta_1 X$.
* **F-toets in regressie**: De F-waarde in regressieanalyse is de verhouding van de variantie tussen de groepen (verklaard door het model) ten opzichte van de variantie binnen de groepen (onverklaard residu). Een hogere F-waarde duidt op een beter passend model.
* **Residu**: Het residu voor een waarneming is het verschil tussen de werkelijke waarde van $y$ en de voorspelde waarde door het regressiemodel. Het minimaliseren van de som van de gekwadrateerde residuen is een kernprincipe van de kleinste kwadratenmethode.
* **$R^2$ (Determinatiecoëfficiënt)**: $R^2$ meet de proportionele reductie in de fout bij het voorspellen van $y$ met het regressiemodel, vergeleken met het voorspellen van $y$ zonder gebruik te maken van de regressievergelijking (dus met het populatiegemiddelde). Een hogere $R^2$ betekent dat een groter deel van de variantie in $y$ wordt verklaard door het model. $R^2$ wordt echter beïnvloed door het aantal verklarende variabelen.
* **Collineariteit (Multicollineariteit)**: Dit treedt op wanneer twee of meer onafhankelijke variabelen sterk met elkaar correleren. Hoge collineariteit kan de schatting van regressiecoëfficiënten en hun standaardfouten beïnvloeden.
* **Tolerance**: Meet het aandeel van de variantie in een predictor dat *niet* verklaard kan worden door de andere predictoren. Een lage tolerance (bv. $< 0.1$) duidt op problemen.
* **VIF (Variance Inflation Factor)**: VIF is de inverse van tolerance ($VIF = 1 / \text{tolerance}$). Een VIF groter dan 2 (of soms 4 of 10, afhankelijk van de conventie) duidt op mogelijke problemen met multicollineariteit.
#### 1.3.8 ANOVA (Variantieanalyse)
ANOVA wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het kan worden beschouwd als een veralgemening van de t-toets.
* **Aannames**: ANOVA vereist dat de standaardafwijkingen tussen de groepen niet te veel verschillen. Een vuistregel is dat de grootste standaardafwijking gedeeld door de kleinste niet groter mag zijn dan 2. De test is ook redelijk robuust voor schendingen van normaliteit, vooral bij grote steekproeven.
* **Beslissing**: De beslissing over significantie hangt af van twee factoren:
1. De **omvang van de effecten** (de verschillen tussen de groepsgemiddelden).
2. De **variabiliteit binnen de groepen**.
Een significant resultaat wordt verkregen bij kleine variabiliteit binnen de groepen en grote verschillen tussen de gemiddelden.
* **F-waarde in ANOVA**: De F-waarde in ANOVA is de verhouding van de variantie *tussen* de groepen ten opzichte van de variantie *binnen* de groepen. Een F-waarde van 0 betekent dat alle groepsgemiddelden gelijk zijn. Een hogere F-waarde duidt op grotere verschillen tussen de gemiddelden.
* **Post-hoc testen**: Wanneer een ANOVA een significant resultaat oplevert (de nulhypothese dat alle gemiddelden gelijk zijn wordt verworpen), is verdere analyse nodig om te bepalen welke groepen specifiek van elkaar verschillen. Dit kan via:
* **Plots**: Visuele inspectie van de groepsgemiddelden.
* **Specifieke toetsen (contrasten of meervoudige vergelijkingen)**:
* **Contrasten**: Geplande, specifieke vergelijkingen die vooraf zijn gedefinieerd op basis van theoretische verwachtingen. Ze hebben een hoger onderscheidingsvermogen dan meervoudige vergelijkingen omdat ze specifieker zijn. Een contrast van 5 kan bijvoorbeeld betekenen dat een nieuwe methode gemiddeld 5 punten hoger scoort.
* **Meervoudige vergelijkingen**: Paarsgewijze significantietoetsen die worden uitgevoerd wanneer er geen specifieke voorafgaande hypothesen zijn. Populaire methoden zijn:
* **Bonferroni-methode**: Zeer conservatief (te streng), kan leiden tot het missen van echte verschillen. Het significantieniveau wordt gedeeld door het aantal testen.
* **MSD-methode**: Geeft het minimaal significant verschil tussen twee steekproefgemiddelden aan.
#### 1.3.9 Specifieke niet-parametrische toetsen
* **Wilcoxon rangtekentoets**: Een niet-parametrische toets die wordt gebruikt als de aannames voor de t-toets niet voldaan zijn. Het rangschikt de data en vergelijkt de rangsommen om systematische verschillen tussen paren te detecteren.
* **Mann-Whitney U-toets**: Een niet-parametrische toets voor het detecteren van significante verschillen tussen de distributies van twee groepen onafhankelijke steekproeven. Het kan ook een continuïteitscorrectie toepassen.
* **Kruskal-Wallis test**: Een niet-parametrische toets die dient als alternatief voor de ANOVA F-toets voor drie of meer onafhankelijke groepen. Als de steekproeven groot genoeg zijn en de populaties dezelfde continue verdeling vertonen, is deze test bij benadering chi-kwadraat verdeeld met $k-1$ vrijheidsgraden. Als de test statistiek groot is, wordt de nulhypothese (dat alle populaties dezelfde verdeling hebben) verworpen.
#### 1.3.10 Kolmogorov-Smirnov test
Deze test wordt gebruikt om te beoordelen of de data afkomstig zijn uit een specifiek verdeelde populatie (meestal de normaalverdeling).
* **Lilieforscorrectie**: Omdat de Kolmogorov-Smirnov test soms te snel de nulhypothese aanvaardt, wordt vaak de Lilieforscorrectie gebruikt, die een meer conservatieve p-waarde genereert.
---
# Onderscheidingsvermogen en specifieke toetsen
Dit gedeelte behandelt het onderscheidingsvermogen van statistische toetsen, de verschillen tussen parametrische en niet-parametrische toetsen, en een gedetailleerde analyse van t-tests, proporties en hun niet-parametrische alternatieven.
### 2.1 Onderscheidingsvermogen (power) van statistische toetsen
Het onderscheidingsvermogen, ook wel power genoemd, verwijst naar de kans dat een statistische toets de nulhypothese correct verwerpt wanneer deze onwaar is. Een hogere power betekent dat de verdelingen van de gemiddelden van de groepen verder uit elkaar liggen, waardoor het gemakkelijker wordt om een effect te detecteren.
* **Grotere steekproefgrootte:** Verhoogt de power, omdat dit leidt tot een kleinere standaardfout ($s$), wat de variabiliteit van de steekproefgrootheid verkleint.
* **Kleinere alpha ($\alpha$):** Leidt tot een kleinere kans op het verwerpen van de nulhypothese, wat het onderscheidingsvermogen verlaagt.
### 2.2 Parametrische versus niet-parametrische toetsen
* **Parametrische toetsen:** Gaan uit van specifieke aannames over de populatie, zoals normaliteit en homogeniteit van varianties. Ze hebben doorgaans een hoger onderscheidingsvermogen dan niet-parametrische toetsen, mits aan de voorwaarden is voldaan. T-tests zijn een voorbeeld van parametrische toetsen.
* **Niet-parametrische toetsen:** Stellen minder strenge eisen aan de populatieverdeling en worden gebruikt wanneer de voorwaarden voor parametrische toetsen niet voldaan zijn. Ze zijn robuuster, maar hebben doorgaans een lager onderscheidingsvermogen en geven geen informatie over de effectgrootte. Wilcoxon- en Kruskal-Wallis-tests zijn voorbeelden van niet-parametrische toetsen.
### 2.3 T-tests
T-tests worden gebruikt om gemiddelden te vergelijken wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en de steekproefstandaardafwijking ($s$) moet worden gebruikt. De t-verdeling, die de verdeling van de t-statistiek beschrijft, heeft dikkere staarten dan de normaalverdeling, wat betekent dat hogere waarden nodig zijn om significantie te bereiken, vooral bij kleine steekproeven.
#### 2.3.1 Eigenschappen en voorwaarden van t-tests
* **Vrijheidsgraden ($df$):** Het aantal vrijheidsgraden beïnvloedt de vorm van de t-verdeling. Naarmate de vrijheidsgraden toenemen (door een grotere steekproefgrootte), benadert de t-verdeling de normaalverdeling.
* **Conservatief testen:** Bij een kleine steekproef wordt de t-test conservatiever beschouwd omdat de dikkere staarten van de t-verdeling vereisen dat de afwijking van de nulhypothese groter is om significantie te bereiken.
* **Robuustheid:** T-procedures zijn relatief robuust, wat betekent dat de betrouwbaarheidsintervallen en p-waarden niet significant veranderen wanneer de aannames van normaliteit of homogeniteit van varianties licht worden geschonden, vooral bij grotere steekproeven.
* **Voorwaarden:**
* **Normaliteit:** De populatie hoeft niet exact normaal verdeeld te zijn, zeker niet bij grote steekproeven. Een lichte afwijking is acceptabel.
* **Uitschieters:** T-tests zijn gevoelig voor uitschieters, die de schatting van het gemiddelde sterk kunnen beïnvloeden.
* **Scheefheid:** Bij kleine steekproeven (< 15) mag de verdeling niet scheef zijn en mogen er geen uitschieters zijn. Bij steekproeven groter dan 15 is de robuustheid sterker, maar een vuistregel van 30 wordt vaak aangehouden als veilige grens.
* **Homogeniteit van varianties (voor t-tests met twee onafhankelijke steekproeven):** De varianties van de twee groepen mogen niet te veel verschillen. Een vuistregel is dat de grootste variantie gedeeld door de kleinste variantie niet groter mag zijn dan 2. De F-toets voor gelijkheid van spreiding is rechts scheef en waarden die sterk afwijken van 1 pleiten tegen gelijke spreidingen.
* **Gepaarde t-test:** Is equivalent aan een tekentoets en heeft over het algemeen een kleiner onderscheidingsvermogen dan de standaard t-toets.
#### 2.3.2 T-tests voor proporties
De steekproevenverdeling van proporties benadert de normaalverdeling naarmate de populatieproportie ($\mu$) toeneemt. Voor een betere schatting bij het analyseren van proporties worden soms denkbeeldige observaties toegevoegd (bijvoorbeeld twee successen en twee mislukkingen).
* **Relatief risico:** Een vergelijking tussen twee proporties gebaseerd op de verhouding ervan. Een relatief risico van 1 betekent dat de proporties gelijk zijn.
* **Betrouwbaarheidsinterval (BI):** Het BI bij proporties is onnauwkeurig, vooral bij kleine steekproeven. Een correctie kan nodig zijn.
* **Steekproefgrootteplanning:** Een steekproefgrootte kan worden gekozen om een populatieproportie te schatten met een gewenste foutmarge ($m$). De foutmarge is het grootst wanneer $p = 0.5$.
### 2.4 Niet-parametrische alternatieven
#### 2.4.1 Wilcoxon-rangtekentoets
* **Doel:** Wordt gebruikt als alternatief voor de gepaarde t-test wanneer de aannames van normaliteit niet voldaan zijn.
* **Werkingsprincipe:** Gaat uit van rangscores in plaats van de daadwerkelijke waarden. Het toets de hypothese dat er geen systematische verschillen zijn binnen paren.
* **Robuustheid:** Hoe meer de data de aannames van een t-test benaderen, hoe beter de Wilcoxon-toets presteert.
#### 2.4.2 Mann-Whitney U-toets
* **Doel:** Wordt gebruikt als alternatief voor de t-test voor twee onafhankelijke steekproeven wanneer de aannames van normaliteit niet voldaan zijn.
* **Werkingsprincipe:** Detecteert significante verschillen tussen de distributies van twee groepen onafhankelijke steekproeven, gebaseerd op rangscores.
* **Continuïteitscorrectie:** Wordt toegepast.
#### 2.4.3 Kruskal-Wallis-toets
* **Doel:** Een niet-parametrisch alternatief voor de ANOVA F-toets, gebruikt voor het vergelijken van gemiddelden van drie of meer groepen.
* **Werkingsprincipe:** Toetst de nulhypothese dat alle populaties dezelfde verdeling hebben.
* **Benadering:** Als de steekproeven groot genoeg zijn en de populaties dezelfde continue verdeling hebben, is de Kruskal-Wallis-statistiek ($H$) bij benadering $\chi^2$-verdeeld met $k-1$ vrijheidsgraden, waarbij $k$ het aantal groepen is.
### 2.5 Chi-kwadraat toetsen
* **Doel:** Wordt gebruikt voor het analyseren van categorische data, zoals het vergelijken van waargenomen frequenties met verwachte frequenties.
* **Benadering:** De nauwkeurigheid neemt toe naarmate de cel frequenties toenemen.
* **Vrijheidsgraden:** Naarmate de vrijheidsgraden toenemen, neigt de verdeling meer naar een normaalverdeling.
* **Interpretatie:** Een hoge $\chi^2$-waarde duidt op een sterk verschil tussen waargenomen en verwachte frequenties, wat pleit tegen de nulhypothese.
### 2.6 Kolmogorov-Smirnov-toets
* **Doel:** Gaat na of de data afkomstig zijn uit een specifieke populatieverdeling, vaak de normaalverdeling.
* **Lilieforscorrectie:** Wordt gebruikt om de toets conservatiever te maken, omdat de standaard Kolmogorov-Smirnov-toets de nulhypothese te snel aanvaardt.
### 2.7 Inferentie voor regressie
#### 2.7.1 Enkelvoudige lineaire regressie
* **Doel:** Het schatten van de relatie tussen een afhankelijke variabele ($y$) en een onafhankelijke variabele ($x$), en het toetsen of deze relatie significant is.
* **Regressievergelijking:** $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x$, waarbij $\hat{\beta}_0$ de intercept is en $\hat{\beta}_1$ de helling (reactie).
* **Interpretatie van de helling ($\hat{\beta}_1$):** Geeft de verwachte verandering in $y$ aan voor een eenheidstoename in $x$.
* **R-kwadraat ($R^2$):** Geeft de proportionele reductie van de fout bij het voorspellen van $y$ met de regressievergelijking ten opzichte van de fout zonder de regressievergelijking.
#### 2.7.2 Meervoudige lineaire regressie
* **Doel:** Het voorspellen van een afhankelijke variabele ($y$) aan de hand van meerdere onafhankelijke variabelen ($x_1, x_2, \ldots, x_p$).
* **Collineariteit:** De mate waarin twee of meer onafhankelijke variabelen met elkaar correleren. Hoge collineariteit kan leiden tot instabiele schattingen van de regressiecoëfficiënten.
* **Tolerance:** Het proportie van de variantie in een predictor dat niet verklaard kan worden door andere predictoren.
* **Variance Inflation Factor (VIF):** De inverse van de tolerance ($VIF = 1/Tolerance$). Een VIF groter dan 2 duidt op potentiële problemen met multicollineariteit.
* **F-toets:** Wordt gebruikt in ANOVA voor regressie om de algehele significantie van het regressiemodel te toetsen. Een hogere F-waarde duidt op een betere beschrijving van de data door het model.
### 2.8 ANOVA (Variantieanalyse)
* **Doel:** Een veralgemening van de t-test, gebruikt om de gemiddelden van drie of meer groepen te vergelijken.
* **Werkingsprincipe:** Analyseert de variantie binnen groepen en tussen groepen.
* **Beslissingsfactoren:**
* **Effectgrootte:** De verschillen tussen de groepsgemiddelden.
* **Variabiliteit binnen groepen:** De spreiding van de data binnen elke groep.
* **Interpretatie:** Een significant resultaat suggereert dat er ten minste één groepsgemiddelde significant verschilt van de andere.
* **Vuistregel voor variantie:** De grootste standaardafwijking gedeeld door de kleinste standaardafwijking mag niet groter zijn dan 2.
* **Robuustheid:** ANOVA is zeer robuust, maar een incorrecte p-waarde door schending van de aannames kan de richting van de fout niet aangeven.
#### 2.8.1 Post-hoc toetsen na ANOVA
Wanneer een ANOVA-test significant is, zijn post-hoc toetsen nodig om te bepalen welke specifieke groepen onderling verschillen.
* **Contrasten:** Geplande vergelijkingen die voorafgaand aan de data-analyse worden gespecificeerd. Ze hebben een hoger onderscheidingsvermogen dan meervoudige vergelijkingen omdat ze specifieker zijn.
* **Meervoudige vergelijkingen:** Paarsgewijze significantietoetsen die worden uitgevoerd wanneer er geen specifieke, vooraf gedefinieerde verwachtingen zijn.
* **Bonferroni-methode:** Zeer streng, deelt het significantieniveau door het aantal testen, wat de kans op een Type I-fout verkleint maar ook de kans op een Type II-fout vergroot.
* **MSD-methode (Minimale Significant Verschil):** Geeft het minimaal vereiste verschil tussen twee steekproefgemiddelden aan om als significant te worden beschouwd.
> **Tip:** Bij het kiezen tussen parametrische en niet-parametrische toetsen, overweeg eerst of de data voldoen aan de aannames van de parametrische toets. Indien niet, of indien er twijfel is, zijn niet-parametrische toetsen een veiliger alternatief, hoewel ze potentieel minder onderscheidingsvermogen hebben.
> **Tip:** De robuustheid van t-tests en ANOVA betekent dat ze vaak toch gebruikt kunnen worden, zelfs bij lichte schendingen van de aannames, vooral bij grotere steekproeven. Het is echter essentieel om de data te visualiseren en te controleren op uitschieters en scheefheid.
> **Tip:** Wanneer de steekproefgrootte klein is en de data duidelijk niet normaal verdeeld zijn, of wanneer er uitschieters aanwezig zijn, is het gebruik van niet-parametrische toetsen cruciaal voor valide resultaten.
---
# Geavanceerde regressie- en variantieanalyse
Dit gedeelte behandelt inferentie voor regressieanalyses, inclusief enkelvoudige en meervoudige regressie, en verkent variantieanalyse (ANOVA) met focus op posthoc-vergelijkingen.
### 3.1 Inferentie voor regressie
Regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele ($y$) en een of meer onafhankelijke variabelen ($x$) te modelleren. Het doel is om de "werkelijke regressielijn" voor de populatie te schatten.
#### 3.1.1 Enkelvoudige regressie
Bij enkelvoudige regressie wordt de afhankelijke variabele ($y$) voorspeld aan de hand van één onafhankelijke variabele ($x$). De regressievergelijking wordt doorgaans weergegeven als:
$$ \hat{y} = \beta_0 + \beta_1 X $$
Hierin is:
* $\beta_0$ de intercept (de verwachte waarde van $y$ wanneer $x=0$).
* $\beta_1$ de helling (de verwachte verandering in $y$ voor een eenheidsverandering in $x$).
* $\hat{y}$ de voorspelde waarde van $y$.
De schatters voor de populatieparameters $\beta_0$ en $\beta_1$ worden aangeduid met $b_0$ en $b_1$. Het verschil tussen de waargenomen waarde van $y$ en de voorspelde waarde $\hat{y}$ wordt het residu genoemd. Het doel van de regressieanalyse is het minimaliseren van deze residuen.
> **Tip:** Regressieanalyse helpt om te bepalen of de lineaire relatie tussen $x$ en $y$ die in de steekproef wordt waargenomen, ook daadwerkelijk bestaat in de populatie, of dat dit patroon toeval is.
#### 3.1.2 Meervoudige regressieanalyse
In meervoudige regressie wordt de afhankelijke variabele ($y$) voorspeld met behulp van meerdere onafhankelijke variabelen ($x_1, x_2, \dots, x_k$). De algemene vergelijking luidt:
$$ \hat{y} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k $$
Met de bijbehorende schatters $b_0, b_1, \dots, b_k$. Meervoudige regressie biedt het voordeel dat er minder kans is op "capitalizing on chance" (het onterecht concluderen van verschillen of effecten) in vergelijking met analyses met te veel variabelen ten opzichte van het aantal waarnemingen.
#### 3.1.3 Interpretatie van coëfficiënten en R-kwadraat
* **Coëfficiënten ($\beta_1, \beta_2, \dots$):** In een meervoudige regressie geeft een coëfficiënt de verwachte verandering in de afhankelijke variabele ($y$) weer voor een eenheidsverandering in de betreffende onafhankelijke variabele, *terwijl alle andere onafhankelijke variabelen constant worden gehouden*.
* **R-kwadraat ($R^2$):** Dit is een maat voor hoe goed de regressievergelijking de variabiliteit in de afhankelijke variabele verklaart. Het vertegenwoordigt de proportionele reductie in de voorspellingsfout van $y$ door gebruik te maken van de regressievergelijking, vergeleken met de fout die gemaakt zou worden zonder kennis van de regressievergelijking (meestal de variantie van $y$ alleen).
> **Tip:** Het $R^2$ wordt beïnvloed door het aantal verklarende variabelen ten opzichte van het aantal waarnemingen. Een toename in het aantal variabelen leidt vrijwel altijd tot een hogere $R^2$, zelfs als deze variabelen niet significant bijdragen.
#### 3.1.4 Multicollineariteit
Multicollineariteit treedt op wanneer onafhankelijke variabelen in een regressiemodel sterk met elkaar correleren.
* **Tolerance:** Meet het proportionele deel van de variantie in een predictor dat *niet* verklaard kan worden door de andere predictoren in het model. Een lage tolerance (bijvoorbeeld kleiner dan 0.10) duidt op problemen.
* **Variance Inflation Factor (VIF):** De VIF is de inverse van de tolerance ($VIF = 1 / \text{tolerance}$). Een VIF groter dan 2 (of soms 4 of 10, afhankelijk van de conventie) duidt op mogelijke multicollineariteitsproblemen, wat leidt tot een inflatie van de standaardfouten van de regressiecoëfficiënten.
> **Tip:** Hoewel enige overlap tussen variabelen het model kan laten werken, kunnen hoge correlaties tussen predictoren de interpretatie van individuele coëfficiënten bemoeilijken en leiden tot instabiele schattingen.
### 3.2 Variantieanalyse (ANOVA)
Variantieanalyse (ANOVA) kan worden beschouwd als een veralgemening van de t-toets en wordt gebruikt om te testen of de gemiddelden van drie of meer groepen significant van elkaar verschillen. Het principe achter ANOVA is het vergelijken van de variantie *tussen* de groepen met de variantie *binnen* de groepen.
#### 3.2.1 De F-toets
De centrale toets in ANOVA is de F-toets. De F-waarde is de ratio van de variantie tussen de groepen tot de variantie binnen de groepen:
$$ F = \frac{\text{Variantie tussen groepen}}{\text{Variantie binnen groepen}} $$
* Als de gemiddelden van de groepen sterk van elkaar verschillen in verhouding tot de variabiliteit binnen de groepen, zal de F-waarde groot zijn.
* Indien alle groepsgemiddelden gelijk zijn ($F = 0$), duidt dit op geen verschil tussen de groepen.
Een significant resultaat (een grote F-waarde) betekent dat er ten minste één groep is waarvan het gemiddelde significant verschilt van de andere groepen.
> **Tip:** ANOVA is, net als de t-toets, robuust voor schendingen van aannames zoals normaliteit, mits de steekproeven groot genoeg zijn of de verdelingen vergelijkbaar scheef zijn. Echter, als de p-waarde foutief is, weten we niet in welke richting de fout is gemaakt.
#### 3.2.2 Aannames en robuustheid
Een vuistregel voor de gelijkheid van varianties tussen groepen is dat de grootste standaardafwijking gedeeld door de kleinste standaardafwijking niet groter mag zijn dan 2. Hoewel ANOVA robuust is, kunnen afwijkingen van de aannames leiden tot onjuiste p-waarden.
#### 3.2.3 Posthoc-vergelijkingen
Wanneer de F-toets significant is, is er sprake van een statistisch significant verschil tussen minstens twee groepsgemiddelden. Om te achterhalen welke specifieke groepen van elkaar verschillen, worden posthoc-vergelijkingen uitgevoerd.
##### 3.2.3.1 Contrasten
Contrasten zijn *geplande* vergelijkingen die voorafgaand aan de dataverzameling worden opgesteld op basis van specifieke hypotheses.
* **Voordelen:** Contrasten hebben een hoger onderscheidingsvermogen (meer power) dan meervoudige vergelijkingen, omdat ze specifieker zijn en daardoor een significant verschil beter kunnen detecteren.
* **Interpretatie:** Een contrastwaarde, bijvoorbeeld 5, kan aangeven dat een nieuwe methode gemiddeld 5 punten hoger scoort dan een andere groep of combinatie van groepen. Hoe groter de waarde, hoe significanter het verschil, mits statistisch significant.
##### 3.2.3.2 Meervoudige vergelijkingen
Meervoudige vergelijkingen worden uitgevoerd wanneer er geen specifieke, vooraf geformuleerde hypotheses zijn over de verschillen tussen groepen. Ze omvatten paarsgewijze significantietoetsen tussen alle mogelijke combinaties van groepen.
* **Bonferroni-methode:** Een zeer strenge methode die het significantieniveau deelt door het aantal uitgevoerde toetsen. Dit verhoogt de kans op een Type II fout (het niet verwerpen van een onjuiste nulhypothese), wat betekent dat er mogelijk significante verschillen gemist worden.
* **LSD-methode (Least Significant Difference):** Wordt soms ook als "foertmethode" aangeduid. Deze methode is minder streng en kan leiden tot een verhoogd risico op Type I fouten (het onterecht verwerpen van een ware nulhypothese), vooral als er veel groepen zijn.
* **MSD-methode (Minimum Significant Difference):** Deze methode bepaalt het minimale verschil tussen twee steekproefgemiddelden dat als statistisch significant beschouwd kan worden, gebaseerd op de gepoolde standaarddeviatie en vrijheidsgraden.
> **Tip:** Het doel van posthoc-vergelijkingen is om specifieke verschillen te identificeren na een significante omnibus F-toets, waarbij rekening gehouden moet worden met het verhoogde risico op Type I fouten door het uitvoeren van meerdere vergelijkingen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Enkelvoudige aselecte steekproef | Een steekproef waarbij elke mogelijke combinatie van de elementen van dezelfde grootte uit de populatie een gelijke kans heeft om geselecteerd te worden. Formules voor schatters zijn enkel geldig onder deze voorwaarde. |
| Alpha (significantieniveau) | Het niveau van significantie dat bepaalt hoe snel de nulhypothese wordt verworpen. Een kleinere alpha betekent dat er meer bewijs nodig is om de nulhypothese te verwerpen, wat leidt tot een kleinere kans op het detecteren van een effect. |
| Betrouwbaarheidsinterval (BI) | Een reeks waarden die waarschijnlijk de ware populatiewaarde van een parameter bevatten. Een 95% betrouwbaarheidsinterval betekent dat, als de steekproef oneindig vaak zou worden herhaald, 95% van de intervallen de werkelijke populatiewaarde zou bevatten. |
| Steekproevenverdeling | De verdeling van de steekproefgrootheden verkregen uit alle mogelijke steekproeven van een bepaalde grootte uit de populatie. De spreiding van deze verdeling beschrijft de variabiliteit van de steekproefgrootheid. |
| Robuustheid | Een statistische methode is robuust als deze niet sterk wordt beïnvloed door afwijkingen van de aannames, zoals schending van normaliteit of de aanwezigheid van uitschieters. T-tests en ANOVA worden als redelijk robuust beschouwd. |
| Onderscheidingsvermogen (Power) | De kans dat een statistische toets de nulhypothese correct verwerpt wanneer deze onjuist is. Een hogere power betekent een grotere kans om een werkelijk effect te detecteren. |
| Parametrische toetsen | Statistische toetsen die aannames maken over de verdeling van de populatieparameters, zoals normaliteit. Voorbeelden zijn de t-test en ANOVA. |
| Niet-parametrische toetsen | Statistische toetsen die geen specifieke aannames maken over de verdeling van de populatieparameters. Ze worden vaak gebruikt wanneer aan de voorwaarden voor parametrische toetsen niet is voldaan. Voorbeelden zijn de Wilcoxon-toets en de Kruskal-Wallis-toets. |
| T-toets | Een statistische toets die wordt gebruikt om het gemiddelde van twee groepen te vergelijken wanneer de populatiespreiding onbekend is. Deze toets is conservatiever dan de z-toets vanwege het gebruik van de steekproefstandaarddeviatie. |
| Vrijheidsgraden | Het aantal onafhankelijke waarden dat kan variëren in een statistische berekening. Bij een t-test met één steekproef is het aantal vrijheidsgraden gelijk aan de steekproefgrootte min één ($n-1$). |
| Proportie | Een maat voor het aandeel van een bepaald kenmerk binnen een populatie of steekproef. Vergelijkingen tussen proporties komen vaak voor in de statistiek. |
| Relatief risico | Een maat die de verhouding tussen twee proporties vergelijkt. Een relatief risico van 1 geeft aan dat de proporties gelijk zijn. |
| Wilcoxon rangtekentoets | Een niet-parametrische toets die wordt gebruikt om te toetsen of er een systematisch verschil is tussen gepaarde waarnemingen, zonder de aanname van normaliteit. |
| Mann-Whitney U-toets | Een niet-parametrische toets die wordt gebruikt om de medianen van twee onafhankelijke groepen te vergelijken. Het test of de ene groep consistent hogere waarden heeft dan de andere. |
| Kruskal-Wallis-toets | Een niet-parametrische alternatief voor de eenwegs-ANOVA. Het wordt gebruikt om te bepalen of er statistisch significante verschillen zijn tussen twee of meer onafhankelijke groepen. |
| Chi-kwadraat toets | Een statistische toets die wordt gebruikt om te bepalen of er een significant verschil is tussen de waargenomen frequenties en de verwachte frequenties in categorische data. De nauwkeurigheid verbetert met toenemende celrequentie. |
| Kolmogorov-Smirnov-toets | Een toets die wordt gebruikt om te bepalen of een steekproef afkomstig is uit een populatie met een specifieke verdeling, vaak de normale verdeling. |
| Regressielijn | Een lijn die de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen weergeeft. Het doel is om de beste lineaire schatting van deze relatie te vinden. |
| Beta 1 (helling) | De coëfficiënt die de verandering in de afhankelijke variabele vertegenwoordigt voor een eenheidstoename in de onafhankelijke variabele in een lineair regressiemodel. |
| Beta 0 (constante) | De interceptie in een lineair regressiemodel, die de verwachte waarde van de afhankelijke variabele weergeeft wanneer alle onafhankelijke variabelen nul zijn. |
| Meervoudige regressie-analyse | Een statistische techniek die de relatie tussen een afhankelijke variabele en twee of meer onafhankelijke variabelen onderzoekt. |
| Residue | Het verschil tussen de waargenomen waarde van de afhankelijke variabele en de voorspelde waarde volgens het regressiemodel. Minimalisatie van de residuen is een belangrijk doel. |
| $R^2$ (determinatiecoëfficiënt) | Een statistische maat die het proportionele deel van de variantie in de afhankelijke variabele weergeeft dat wordt verklaard door de onafhankelijke variabele(n) in een regressiemodel. |
| Collineariteit | Een situatie waarin twee of meer onafhankelijke variabelen in een regressiemodel sterk met elkaar correleren. Dit kan leiden tot instabiele coëfficiëntenschattingen. |
| VIF (Variance Inflation Factor) | Een maat die aangeeft in welke mate de variantie van een regressiecoëfficiënt wordt vergroot door collineariteit met andere voorspellers. Een VIF groter dan 2 duidt op mogelijke problemen. |
| ANOVA (Variantieanalyse) | Een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het kan worden gezien als een veralgemening van de t-toets. |
| Contrast | Een geplande vergelijking tussen groepsgemiddelden in een ANOVA, gebaseerd op vooraf gedefinieerde hypothesen. Contrasts hebben doorgaans meer power dan posthoc-toetsen. |
| Posthoc-methode | Statistische toetsen die worden uitgevoerd na een significante omnibus-toets (zoals ANOVA) om te bepalen welke specifieke groepsgemiddelden significant van elkaar verschillen. |
| Bonferroni-methode | Een conservatieve posthoc-methode die het significantieniveau aanpast om de kans op Type I-fouten te verminderen bij het uitvoeren van meerdere vergelijkingen. |
Cover
boostersessies.pdf
Summary
# Inleiding tot statistisch onderzoek en ontwerp
Dit hoofdstuk introduceert de fundamentele concepten van statistisch onderzoek, waarbij de focus ligt op het definiëren van populaties en steekproeven, het ontwerpen van experimenten en de rol van beschrijvende statistiek en inferentie, met nadruk op representativiteit en steekproefgrootte [1](#page=1) [3](#page=3).
### 1.1 Kernconcepten van statistisch onderzoek
Statistisch onderzoek begint met een onderzoeksvraag. Om deze vraag te beantwoorden, is het cruciaal om de **populatie** te definiëren, wat de groep is waar de interesse van de onderzoeksvraag naar uitgaat. Vervolgens wordt een **steekproef** getrokken uit deze populatie. Het ontwerp van het onderzoek, inclusief de manier waarop de steekproef wordt genomen en het experiment wordt opgezet, is essentieel voor het verkrijgen van betrouwbare antwoorden [1](#page=1).
### 1.2 Populatie en steekproef
* **Populatie**: De gehele groep waarover uitspraken gedaan worden in de onderzoeksvraag [1](#page=1).
* **Steekproef**: Een deelverzameling van de populatie die wordt gebruikt om informatie te verzamelen [1](#page=1).
#### 1.2.1 Representativiteit van de steekproef
Het is van het grootste belang dat de steekproef **representatief** is voor de populatie. Dit betekent dat de steekproef de kenmerken van de populatie zo goed mogelijk weerspiegelt [1](#page=1).
* **Random sampling**: Een methode om elementen willekeurig uit de populatie te selecteren, wat de kans vergroot dat elk element een gelijke kans heeft om in de steekproef te komen en de representativiteit bevordert [1](#page=1).
#### 1.2.2 De rol van steekproefgrootte
De **steekproefgrootte** heeft een significante impact op de betrouwbaarheid van de resultaten [3](#page=3).
* Een **te kleine steekproef** kan leiden tot te grote variabiliteit in de resultaten, waardoor conclusies minder betrouwbaar zijn [3](#page=3).
* Een **grotere steekproef** daarentegen levert meer informatie op, waardoor de variabiliteit kleiner is en de resultaten dichter bij de werkelijke waarden in de populatie liggen [3](#page=3).
### 1.3 Experimenteel ontwerp
Het **experimenteel ontwerp** bepaalt hoe de data wordt verzameld en hoe variabelen worden gemanipuleerd om antwoorden te vinden op de onderzoeksvraag. Dit omvat het vastleggen van de analyseplannen voordat de data wordt verzameld [1](#page=1).
#### 1.3.1 Randomisatie
Randomisatie is een sleutelprincipe in experimenteel ontwerp om groepen vergelijkbaar te maken [3](#page=3).
* **Simpele randomisatie**: Elk individu wordt willekeurig toegewezen aan een behandelingsgroep. Dit kan leiden tot ongebalanceerde steekproeven, wat de nauwkeurigheid van methoden kan verminderen [3](#page=3).
* **Gebalanceerde randomisatie**: Garandeert gelijke groepsgroottes, bijvoorbeeld door individuen in paren te behandelen [3](#page=3).
* **Gestratificeerde randomisatie**: Gebruikt om de representativiteit te waarborgen voor specifieke subgroepen (strata) binnen de populatie, waarna binnen elke stratum willekeurig wordt toegewezen aan behandelingen [3](#page=3).
#### 1.3.2 Belang van controle
Een **goede controle** in experimenten is essentieel om het effect van een behandeling nauwkeurig te kunnen schatten. Zonder adequate controle kan het effect van de behandeling niet goed worden onderscheiden van andere factoren [3](#page=3).
### 1.4 Beschrijvende statistiek en inferentie
* **Beschrijvende statistiek**: Hierbij wordt gekeken naar hoe data wordt geëxploreerd en beschreven, bijvoorbeeld door het berekenen van samenvattende maten en het maken van grafieken. Dit helpt om de informatie in de steekproef op een goede manier samen te vatten. Grafische methoden zoals histogrammen en boxplots worden gebruikt om de distributie en spreiding van data te visualiseren [1](#page=1) [3](#page=3).
* **Inferentie**: Het proces waarbij conclusies over de populatie worden getrokken op basis van de resultaten uit de steekproef. Het is belangrijk te beseffen dat er altijd **onzekerheid** is bij inferentie, en statistiek kan op basis van data nooit iets definitief bewijzen [1](#page=1).
#### 1.4.1 Statistieken
Statistieken zijn formules die worden gebruikt om kenmerken te berekenen op basis van steekproefdata. Een voorbeeld is het steekproefgemiddelde ($\bar{x}$), berekend als $\bar{x} = \frac{\sum x_i}{n}$. Statistieken zijn **toevallig veranderlijk**, wat betekent dat hun waarde kan variëren afhankelijk van de specifieke steekproef die wordt getrokken [3](#page=3).
### 1.5 Confounding
Confounding treedt op wanneer het effect van een variabele wordt verward met het effect van een andere variabele. Een voorbeeld hiervan is de Salk-vaccinstudie, waarbij groepen kinderen uit verschillende klassen (3e, 2e, 1e graad) niet vergelijkbaar waren, wat leidde tot confounding [1](#page=1).
> **Tip:** Het is cruciaal om tijdens het onderzoeksontwerp rekening te houden met potentiële confounders en strategieën te implementeren om hun invloed te minimaliseren, zoals randomisatie of stratificatie.
> **Tip:** Begrip van de impact van het nemen van een steekproef is belangrijk. Simulaties kunnen helpen om te visualiseren hoe verschillende steekproeven leiden tot variatie in resultaten en gemiddeldes [1](#page=1).
---
# Concepten van data en distributie
Dit deel van de studiehandleiding verkent de fundamentele concepten van data, waaronder typen variabelen, de relatie tussen populatie- en steekproefkarakteristieken, en methoden om dataverdelingen te beschrijven aan de hand van centrale tendens en spreiding, met specifieke aandacht voor de normale verdeling en standaardisatie.
### 2.1 Typen variabelen
Variabelen kunnen worden ingedeeld in kwantitatieve (numerieke) en kwalitatieve categorieën [2](#page=2).
#### 2.1.1 Kwantitatieve variabelen
Kwantitatieve variabelen bevatten numerieke waarden en worden verder onderverdeeld in:
* **Discrete variabelen**: Dit zijn variabelen die uit tellingen bestaan, zoals het aantal items (0, 1, 2, 3, 4) [2](#page=2).
* **Continue variabelen**: Dit zijn variabelen die elke waarde binnen een bepaald bereik kunnen aannemen, zoals bloeddruk of lengte [2](#page=2).
#### 2.1.2 Kwalitatieve variabelen
Kwalitatieve variabelen beschrijven categorieën en worden onderverdeeld in:
* **Nominale variabelen**: Dit zijn groepsvariabelen zonder een inherente ordening binnen de groeperingen, zoals geslacht (man of vrouw) [2](#page=2).
* **Ordinale variabelen**: Dit zijn groepsvariabelen waarbij wel een ordening aanwezig is, zoals BMI-klassen of rookgedrag [2](#page=2).
### 2.2 Populatie- en steekproefkarakteristieken
Het onderscheid tussen populatie- en steekproefkarakteristieken is cruciaal in statistisch onderzoek [2](#page=2).
#### 2.2.1 Populatiekarakteristieken
Een populatie omvat de gehele groep waarin men geïnteresseerd is. Karakteristieken van de populatie worden vaak aangeduid met hoofdletters. Populaties kunnen toevallig veranderlijke karakteristieken bevatten die variëren, zoals de lengte van individuen, waarbij elke steekproef andere waarden kan opleveren. Deze variabelen kunnen zowel continu als niet-continu zijn [2](#page=2).
#### 2.2.2 Steekproefkarakteristieken
Steekproefkarakteristieken zijn gebaseerd op een subset van de populatie en worden gebruikt om de populatie te schatten. Karakteristieken van een steekproef worden doorgaans aangeduid met kleine letters. Het is belangrijk om rekening te houden met de onzekerheid die inherent is aan het schatten van populatiekenmerken uit een steekproef, aangezien de populatiekenmerken vaak onbekend zijn [2](#page=2).
### 2.3 Beschrijving van dataverdelingen
Het beschrijven van dataverdelingen omvat het analyseren van zowel de locatie als de variabiliteit van de gegevens [2](#page=2).
#### 2.3.1 Locatie (centrale tendens)
De locatie van een verdeling geeft aan waar de meeste data geconcentreerd is. Verschillende maten kunnen hiervoor gebruikt worden [2](#page=2):
* **Gemiddelde**: Dit is een veelgebruikte maat voor de locatie, maar kan gevoelig zijn voor uitschieters (outliers) die de verdeling scheef kunnen trekken [4](#page=4).
* **Mediaan**: De mediaan is een robuustere maat voor de locatie, vooral wanneer er sprake is van veel uitschieters of een scheve verdeling [4](#page=4).
* **Geometrisch gemiddelde**: Dit kan een nauwkeurigere maat zijn dan de mediaan wanneer data, na een log-transformatie, ongeveer normaal verdeeld is, omdat het gebaseerd is op alle gegevens [4](#page=4).
#### 2.3.2 Variabiliteit (spreiding)
Variabiliteit, ook wel spreiding genoemd, meet hoe verspreid de data is rondom de locatie. Belangrijke maten zijn [2](#page=2):
* **Variantie**: Dit meet de gemiddelde gekwadrateerde afwijking van het gemiddelde. Voor discrete verdelingen kan dit de variabiliteit van dezelfde waarden of het gemiddelde zelf betreffen. Voor continue verdelingen wordt dit berekend met een integraal [2](#page=2).
* **Standaarddeviatie**: Dit is de wortel van de variantie en biedt een maat voor de spreiding in dezelfde eenheden als de originele data [2](#page=2).
* **Interkwartielafstand (IQR)**: Dit is het verschil tussen het derde en eerste kwartiel en wordt vaak weergegeven in boxplots [4](#page=4).
### 2.4 De normale verdeling
De normale verdeling, ook wel de Gauss-verdeling genoemd, is een fundamentele theoretische verdeling in de statistiek [2](#page=2).
#### 2.4.1 Kenmerken van de normale verdeling
Een normale verdeling wordt volledig bepaald door twee modelparameters: het gemiddelde ($\mu$) en de variantie ($\sigma^2$). Dit wordt genoteerd als $N(\mu, \sigma^2)$. Het voordeel hiervan is dat wanneer deze twee parameters bekend zijn, de verdeling volledig is vastgelegd [2](#page=2).
#### 2.4.2 Evaluatie van de normale verdeling
Om te beoordelen of data normaal verdeeld is, kan een QQ-plot (Quantile-Quantile plot) worden gebruikt. Hierbij worden de kwantielen van de steekproef uitgezet tegen de theoretische kwantielen die gebaseerd zijn op een normale verdeling [4](#page=4).
#### 2.4.3 Standaardisatie
Standaardisatie is een proces om variabelen te transformeren zodat ze een standaard normale verdeling volgen. Een gestandaardiseerde waarde, ook wel een Z-waarde genoemd, wordt berekend met de formule [2](#page=2):
$$z = \frac{x - \mu}{\sigma}$$
waarbij $x$ de observatie, $\mu$ het populatiegemiddelde, en $\sigma$ de populatiestandaarddeviatie is. Gestandaardiseerde variabelen volgen een $N(0,1)$ verdeling, wat betekent dat ze een gemiddelde van 0 en een standaarddeviatie van 1 hebben [2](#page=2).
> **Tip:** Standaardisatie is nuttig om variabelen van verschillende schalen te vergelijken of om te werken met tabellen van de normale verdeling.
> **Voorbeeld:** Als de gemiddelde lengte van mannen $\mu = 180$ cm is met een standaarddeviatie $\sigma = 7$ cm, en een man een lengte van $x = 190$ cm heeft, dan is zijn Z-waarde $z = \frac{190 - 180}{7} \approx 1.43$. Dit geeft aan dat hij ongeveer 1.43 standaarddeviaties langer is dan het gemiddelde [2](#page=2).
---
# Statistische inferentie en hypothesetesten
Dit gedeelte behandelt de kern van statistische inferentie: het maken van uitspraken over een populatie op basis van een steekproef. Hieronder vallen het schatten van parameters, het berekenen van betrouwbaarheidsintervallen en het uitvoeren van hypothesetesten zoals de t-test en ANOVA, met aandacht voor de onderliggende aannames [5](#page=5).
### 3.1 Het concept van statistische inferentie
Statistische inferentie stelt ons in staat om conclusies te trekken over een gehele populatie op basis van de informatie uit een steekproef. Dit is noodzakelijk omdat het testen van de gehele populatie vaak onhaalbaar is vanwege de omvang of logistieke redenen [17](#page=17) [5](#page=5).
#### 3.1.1 Populatie en steekproef
* **Populatie:** De gehele groep waarover een uitspraak wordt gedaan (bv. alle mensen met hypertensie) [5](#page=5).
* **Steekproef:** Een willekeurig geselecteerd deel van de populatie, gebruikt om conclusies te trekken [5](#page=5).
#### 3.1.2 Van steekproef naar populatie: parameters en schatters
Het doel is om populatieparameters (zoals het populatiegemiddelde $\mu$ of de populatievariantie $\sigma^2$) te schatten met behulp van steekproefstatistieken (zoals het steekproefgemiddelde $\bar{x}$ en de steekproefstandaarddeviatie $s$) [6](#page=6) [8](#page=8).
* **Schatten van populatieparameters:** Dit gebeurt aan de hand van de data uit de steekproef [6](#page=6).
* **Onzekerheid in schattingen:** Omdat de steekproef slechts een deel van de populatie is, is er altijd onzekerheid verbonden aan de schattingen. Deze onzekerheid neemt af naarmate de steekproef groter wordt [5](#page=5) [6](#page=6) [8](#page=8).
#### 3.1.3 Aannames in statistische inferentie
Voor veel statistische methoden zijn bepaalde aannames cruciaal voor de geldigheid van de resultaten. De meest voorkomende zijn [14](#page=14) [15](#page=15) [5](#page=5) [6](#page=6) [8](#page=8):
1. **Representatieve steekproef:** De steekproef moet willekeurig getrokken zijn uit de populatie, zodat de resultaten generaliseerbaar zijn [15](#page=15) [5](#page=5) [6](#page=6).
2. **Normaliteit:** De data (of de steekproefstatistieken, via de Centrale Limietstelling) volgen een normale verdeling. Dit kan gevisualiseerd worden met behulp van een QQ-plot [15](#page=15) [5](#page=5) [6](#page=6) [8](#page=8).
3. **Onafhankelijkheid:** De metingen binnen de steekproef zijn onafhankelijk van elkaar. Bij gepaarde data worden de metingen eerst getransformeerd (bv. het verschil berekenen) om onafhankelijkheid te verkrijgen [15](#page=15) [17](#page=17) [18](#page=18) [5](#page=5) [6](#page=6) [8](#page=8).
4. **Gelijkheid van variantie (homoscedasticiteit):** De variantie van de data is in alle groepen gelijk. Als deze aanname niet voldaan is, kan een aangepaste test (zoals de Welch test) worden gebruikt [15](#page=15) [17](#page=17) [8](#page=8) [9](#page=9).
> **Tip:** Het is essentieel om de aannames van de gebruikte statistische test te controleren. Indien aannames niet voldaan zijn, kunnen transformaties van de data, niet-parametrische testen of specifieke aangepaste methoden (zoals Welch's t-test) nodig zijn [17](#page=17) [5](#page=5) [7](#page=7) [9](#page=9).
### 3.2 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) geeft een bereik van waarden waarbinnen de populatieparameter waarschijnlijk ligt, met een bepaald betrouwbaarheidsniveau (meestal 95%) [19](#page=19) [6](#page=6).
* **Interpretatie:** Een 95% betrouwbaarheidsinterval betekent dat als we het experiment duizend keer zouden herhalen, 95% van de resulterende intervallen de ware populatieparameter zouden bevatten [6](#page=6).
* **Belang bij nulhypothese:** Als een 95% BI de nulwaarde (bv. 0 bij een verschil) niet bevat, is dit een indicatie dat er een significant effect is [20](#page=20) [21](#page=21) [22](#page=22) [23](#page=23) [6](#page=6).
### 3.3 Hypothesetesten
Hypothesetesten worden gebruikt om te toetsen of een gevonden effect in de steekproef significant genoeg is om te concluderen dat het effect ook in de populatie aanwezig is [15](#page=15) [6](#page=6) [7](#page=7).
#### 3.3.1 Nulhypothese ($H_0$) en alternatieve hypothese ($H_1$)
* **Nulhypothese ($H_0$):** Er is geen effect of geen verschil in de populatie (bv. het gemiddelde verschil in bloeddruk is nul) [15](#page=15) [6](#page=6) [7](#page=7).
* **Alternatieve hypothese ($H_1$):** Er is wel een effect of een verschil in de populatie (bv. het gemiddelde verschil in bloeddruk is niet nul) [17](#page=17).
#### 3.3.2 De teststatistiek
De teststatistiek is een waarde berekend uit de steekproefdata die wordt gebruikt om de nulhypothese te evalueren. Voorbeelden zijn de t-statistiek en de F-statistiek. De teststatistiek vergelijkt het "signaal" (het waargenomen effect) met de "ruis" (de variabiliteit in de data) [14](#page=14) [15](#page=15) [6](#page=6) [7](#page=7).
#### 3.3.3 P-waarde
De p-waarde is de kans om de geobserveerde teststatistiek of een extremere waarde te verkrijgen, *aangenomen dat de nulhypothese waar is* [19](#page=19) [20](#page=20) [7](#page=7).
* **Beslissingsregel:** Als de p-waarde kleiner is dan het significantieniveau $\alpha$ (meestal 0.05), wordt de nulhypothese verworpen ten gunste van de alternatieve hypothese [10](#page=10) [7](#page=7).
* **Interpretatie:** Een lage p-waarde (bv. p < 0.001) suggereert dat het waargenomen effect onwaarschijnlijk is onder de nulhypothese [7](#page=7).
#### 3.3.4 Beslissingsfouten
Bij hypothesetesten kunnen twee soorten fouten optreden [10](#page=10) [20](#page=20) [22](#page=22):
* **Type I fout (vals positief):** De nulhypothese wordt verworpen terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau $\alpha$ [10](#page=10) [20](#page=20).
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen terwijl deze in werkelijkheid onwaar is. De kans hierop wordt aangeduid met $\beta$. De *power* van een toets is $1-\beta$ (de kans om een echt effect te detecteren) [10](#page=10) [20](#page=20) [21](#page=21).
> **Tip:** De power van een toets wordt beïnvloed door de effectgrootte, de variabiliteit van de data, het significantieniveau en de steekproefgrootte. In de designfase kan men de minimale steekproefgrootte bepalen om een gewenste power te bereiken [20](#page=20) [21](#page=21) [7](#page=7) [9](#page=9).
### 3.4 Specifieke hypothesetesten
#### 3.4.1 One-sample t-test
Toetst of het gemiddelde van een steekproef significant verschilt van een hypothetische waarde (vaak 0). De test gebruikt de t-verdeling met $n-1$ vrijheidsgraden, waarbij $n$ de steekproefgrootte is. Aannames: normaliteit van de data en onafhankelijke metingen [17](#page=17) [5](#page=5) [6](#page=6).
#### 3.4.2 Two-sample t-test
Vergelijkt de gemiddelden van twee onafhankelijke groepen. Er wordt getest of het verschil tussen de populatiegemiddelden ($\mu_2 - \mu_1$) significant is van nul. Aannames: normaliteit van de data in beide groepen en gelijkheid van variantie (homoscedasticiteit). Als de varianties ongelijk zijn, wordt de Welch two-sample t-test gebruikt [17](#page=17) [8](#page=8) [9](#page=9).
#### 3.4.3 Gepaarde t-test
Wordt gebruikt wanneer de metingen binnen paren afkomstig zijn (bv. voor en na een behandeling bij dezelfde patiënt). De test wordt uitgevoerd op de verschillen tussen de gepaarde metingen, die als onafhankelijk worden beschouwd. Aannames: normaliteit van de verschillen en onafhankelijkheid van de paren [17](#page=17) [5](#page=5) [6](#page=6).
#### 3.4.4 Variantieanalyse (ANOVA)
ANOVA wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. De primaire test, de "omnibus test", toetst de nulhypothese dat alle groepsgemiddelden gelijk zijn [14](#page=14) [15](#page=15) [17](#page=17).
* **F-statistiek:** Gebruikt om de ratio van de variantie tussen groepen (MSR) ten opzichte van de variantie binnen groepen (MSE) te evalueren [14](#page=14).
* **Post-hoc testen:** Als de omnibus test significant is, worden post-hoc testen uitgevoerd om specifieke paarsgewijze vergelijkingen tussen groepen te maken, met correcties voor multiple testing (bv. Bonferroni, Tukey) om de kans op Type I fouten te beheersen [15](#page=15) [22](#page=22).
* **Factoriële ANOVA:** Kan worden gebruikt om de effecten van meerdere factoren (onafhankelijke variabelen) en hun interacties te onderzoeken [14](#page=14).
#### 3.4.5 Tests voor proporties
* **Test voor een proportie:** Gebruikt om te toetsen of de proportie van een binaire variabele in de populatie gelijk is aan een specifieke waarde (bv. 50%). Gebaseerd op de Centrale Limietstelling (voor grote steekproeven) of de exacte binomiale test (altijd geldig) [19](#page=19) [20](#page=20).
* **Associatie tussen twee categorische binaire variabelen:**
* **Gepaarde data (McNemar test):** Gebruikt voor gepaarde binaire variabelen, met de voorkeur voor de exacte binomiale test [20](#page=20) [21](#page=21).
* **Onafhankelijke data:** Gebruikt de Chi-kwadraat test (voor grote steekproeven) of de Fisher exact test (voor 2x2 tabellen) [21](#page=21) [22](#page=22).
#### 3.4.6 Logistische regressie
Een methode om een binaire of categorische respons variabele te modelleren met behulp van continue of categorische predictoren. De uitkomst wordt gemodelleerd via de log-odds, wat overeenkomt met een lineair model voor de log-odds. De parameters worden geïnterpreteerd in termen van log-odds en log-odds ratio's [22](#page=22) [23](#page=23).
### 3.5 Conclusies trekken uit statistische analyses
Een goede conclusie omvat de volgende elementen:
* Een duidelijke verwijzing naar de onderzoeksvraag [21](#page=21) [7](#page=7).
* De resultaten van de statistische test (bv. de significantie, p-waarde) [21](#page=21) [7](#page=7).
* De geschatte effectgrootte (bv. het gemiddelde verschil, de proportie) [21](#page=21) [7](#page=7).
* Het betrouwbaarheidsinterval voor de effectgrootte [21](#page=21) [7](#page=7).
* Een interpretatie van de resultaten in de context van de onderzoeksvraag en de populatie [21](#page=21) [7](#page=7).
> **Tip:** Rapporteer altijd de effectgrootte en het betrouwbaarheidsinterval, niet alleen de p-waarde. Dit geeft een vollediger beeld van de bevindingen [7](#page=7).
---
# Lineaire regressie en modellering
Dit onderwerp introduceert lineaire regressie als een methode om de lineaire relatie tussen continue variabelen te onderzoeken, inclusief het vertalen van onderzoeksvragen naar modelparameters, het schatten van effectgroottes, het uitvoeren van hypothesetesten, en de interpretatie van resultaten en aannames [11](#page=11).
### 4.1 Basisconcepten van lineaire regressie
Lineaire regressie wordt gebruikt om de associatie tussen continue variabelen te onderzoeken. De centrale vraag hierbij is hoe een respons variabele, die continu is, gerelateerd is aan een predictor variabele, die ook continu is [11](#page=11).
**Data-exploratie:**
Voorafgaand aan de modellering is data-exploratie cruciaal. Dit omvat het inspecteren van de data, het identificeren van patronen en het rechtvaardigen van eventuele data-uitsluitingen. Een "smoother" kan helpen bij het visualiseren van (niet-)lineaire patronen [11](#page=11).
**Associatie samenvatten:**
* **Pearson correlatie:** Geschikt voor het samenvatten van lineaire associaties [11](#page=11).
* **Spearman correlatie:** Wordt gebruikt voor monotone associaties, waarbij de data eerst naar ranks wordt getransformeerd. Dit kan een betere indicatie geven als de relatie niet strikt lineair is op de originele schaal [11](#page=11).
### 4.2 Vertalen van onderzoeksvragen naar modelparameters
De onderzoeksvraag wordt vertaald naar populatieparameters [11](#page=11).
**Hellingsparameter ($\beta_1$):**
Deze parameter kwantificeert de lineaire associatie tussen de genexpressies. Het toont aan hoe de respons variabele verandert wanneer de predictor variabele met één eenheid toeneemt. Formeel, als de predictor ($X$) met 1 eenheid verandert, zal de respons ($Y$) gemiddeld met $\beta_1$ eenheden veranderen [11](#page=11).
**Hypothesetesten:**
Bij hypothesetesten wordt eerst gekeken naar de mogelijke waarden van de hellingsparameter in verschillende steekproeven, voordat een statistische test wordt ontworpen. Dit gebeurt op basis van één test met aanvullende aannames [11](#page=11).
**Aannames van lineaire regressie:**
Voor statistische inferentie zijn specifieke aannames noodzakelijk:
* De fouttermen ($\epsilon_i$) hebben een gemiddelde van 0 [11](#page=11).
* De fouttermen hebben gelijke variantie (homoscedasticiteit) [11](#page=11).
* De fouttermen zijn normaal verdeeld [11](#page=11).
* De data volgt een normale verdeling met een gemiddelde dat varieert afhankelijk van $X$, en er is een spreiding rond de regressierechte [11](#page=11).
De geschatte hellingsparameter heeft een gemiddelde dat overeenkomt met de echte waarde en een bepaalde onzekerheid die varieert per steekproef [11](#page=11).
### 4.3 Schatten van effectgrootte en inferentie
De effectgrootte wordt geschat op basis van de steekproef. Resultaten van de `lm` functie in statistische software geven geschatte waarden. P-waarden zijn alleen betrouwbaar als de aannames van het model voldaan zijn. Residuanalyses zijn essentieel om de geldigheid van deze aannames te controleren [11](#page=11) [12](#page=12).
**Standaardfout (SE) van de hellingsparameter:**
De standaardfout van de geschatte hellingsparameter ($\text{SE}(\hat{\beta}_1)$) wordt berekend op basis van de kwadratische residuen [12](#page=12).
**t-statistiek:**
De t-statistiek voor de hellingsparameter wordt berekend als:
$$t = \frac{\hat{\beta}_1 - \beta_1}{\text{SE}(\hat{\beta}_1)}$$
waarbij $\hat{\beta}_1$ de geschatte hellingsparameter is en $\beta_1$ de werkelijke waarde onder de nulhypothese. Deze statistiek volgt een t-verdeling met $n-p$ vrijheidsgraden, waar $n$ het aantal observaties is en $p$ het aantal parameters in het model [12](#page=12).
**Hypothesetesten:**
Onder de nulhypothese ($H_0$) is de ware waarde van de hellingsparameter bekend (vaak nul). De t-statistiek wordt vervolgens berekend als $t_0 = \hat{\beta}_1 / \text{SE}(\hat{\beta}_1)$, die getoetst wordt tegen een $t_{n-p}$ verdeling [12](#page=12).
### 4.4 R-output en interpretatie
De output van statistische software (zoals R) biedt inzicht in de modelparameters [12](#page=12).
**Residuanalyse:**
Als residuen niet rond 0 liggen of patronen vertonen, is een lineair verband mogelijk geen goede fit. In dat geval kan het nodig zijn het model aan te passen, bijvoorbeeld door kwadraten van variabelen toe te voegen of transformaties op de predictoren toe te passen. Als de data niet normaal verdeeld is, kan een transformatie op de respons variabele nodig zijn [12](#page=12).
**Interpretatie van modelparameters:**
* **Log-getransformeerde data:** Wanneer zowel de respons als de predictor op logschaal worden gemodelleerd (bv. $\log_2$), kan de hellingsparameter ($\beta_1$) direct geïnterpreteerd worden als een percentage of ratio [12](#page=12).
* De intercept ($\beta_0$) vertegenwoordigt de gemiddelde log-getransformeerde respons wanneer de log-getransformeerde predictor 0 is (wat overeenkomt met een waarde van 1 op de originele schaal, als $\log_2$ is gebruikt) [12](#page=12).
* Een verschil van 1 eenheid op de log-getransformeerde schaal van de predictor correspondeert met een gemiddeld verschil van $\beta_1$ op de log-getransformeerde schaal van de respons [12](#page=12).
* Als de predictor ($X$) en respons ($Y$) op $\log_2$ schaal worden gemodelleerd: $\log_2(Y_2) - \log_2(Y_1) = \beta_1$. Dit impliceert $\log_2(Y_2/Y_1) = \beta_1$, dus $Y_2/Y_1 = 2^{\beta_1}$. De hellingsparameter vertegenwoordigt dan de ratio van de gemiddelde geometrische waarden [12](#page=12).
* **Originele schaal:** Als de respons niet getransformeerd is, betekent een verschil van 1 eenheid in $X$ dat de persoon met de hoogste $X$ een $Y$-waarde heeft die $\beta_1$ hoger ligt. Als de respons wel getransformeerd is, vertegenwoordigt de teruggetransformeerde hellingsparameter een ratio in de gemiddelde parameters [12](#page=12).
> **Tip:** Bij het interpreteren van modelparameters is het cruciaal om te weten of de variabelen op hun originele schaal of een getransformeerde schaal zijn gemodelleerd. Dit beïnvloedt of de parameter geïnterpreteerd wordt als een verschil of een ratio.
### 4.5 Kwadratensommen en ANOVA-tabel
Kwadratensommen en de ANOVA-tabel worden gebruikt voor het uitvoeren van statistische toetsen [13](#page=13).
* **Totale kwadratensom (Total Sum of Squares, SST):** Representeert de totale variabiliteit in de respons variabele $Y$, gemeten als de som van de gekwadrateerde afwijkingen van de observaties tot het algemene gemiddelde van $Y$ [13](#page=13).
* **Model verklaarde kwadratensom (Regression Sum of Squares, SSR):** Meet de variabiliteit die verklaard wordt door het regressiemodel [13](#page=13).
* **Residuele kwadratensom (Residual Sum of Squares, SSE):** Meet de onverklaarbare variabiliteit, d.w.z. de variabiliteit die niet door het model kan worden verklaard [13](#page=13).
De relatie is: $SST = SSR + SSE$ [13](#page=13).
**Determinatiecoëfficiënt ($R^2$):**
De $R^2$-waarde, berekend als $SSR/SST$, geeft aan welk percentage van de totale variabiliteit in de respons verklaard kan worden door het model [13](#page=13).
**F-test:**
De F-test vergelijkt het verklaarbare deel van de variabiliteit met het onverklaarbare deel, gecorrigeerd voor vrijheidsgraden. Deze test is nuttig om de algehele significantie van het regressiemodel te beoordelen [13](#page=13).
De interpretatie van $SSR$ kan ook gezien worden als het vergelijken van een model met het regressiemodel en een model met enkel het intercept [13](#page=13).
### 4.6 Ontwerpaspecten en kracht van de toets
Bij het ontwerpen van een studie is het belangrijk om rekening te houden met mogelijke fouten, zoals Type I (onterecht verwerpen van $H_0$) en Type II fouten (niet oppikken van een werkelijke associatie) [13](#page=13).
**Kracht van de toets (Power):**
De kracht van een toets is de kans om een alternatieve hypothese te aanvaarden wanneer deze waar is. De kracht is afhankelijk van [13](#page=13):
* De grootte van de hellingsparameter [13](#page=13).
* De residuele variabiliteit (die niet direct controleerbaar is) [13](#page=13).
* Het aantal observaties ($n$) en de spreiding van de observaties. Grote afwijkingen van het gemiddelde van $X$ bieden meer informatie over de hellingsparameter [13](#page=13).
Data simulatie kan worden gebruikt om de prestaties van verschillende ontwerpen te evalueren [13](#page=13).
### 4.7 Besluitvorming, voorspellingen en intervallen
Lineaire modellen worden gebruikt voor diverse doeleinden, waaronder voorspellingen [13](#page=13).
**Voorspellingen:**
Voor elke mogelijke waarde van de predictor ($X$), kan een voorspelling voor de respons ($Y$) worden gedaan op basis van de geschatte regressierechte. De onzekerheid rond deze voorspellingen is ook bekend [13](#page=13).
**Variantie van voorspellingen:**
De variantie op voorspellingen hangt af van de variantie van de geschatte parameters ($\beta_0$, $\beta_1$) en de gekozen $X$-waarde. Hoe verder $X$ van het gemiddelde van $X$ ligt, hoe groter de onzekerheid [13](#page=13).
**Betrouwbaarheidsintervallen en voorspellingsintervallen:**
* **Betrouwbaarheidsinterval voor het gemiddelde:** Kan worden opgesteld voor het verwachte gemiddelde van de respons voor een gegeven $X$-waarde [13](#page=13).
* **Voorspellingsinterval:** Geeft een bereik aan waarbinnen een nieuwe observatie waarschijnlijk zal vallen. Dit interval houdt rekening met zowel de onzekerheid in de geschatte gemiddelde respons als de inherente variabiliteit van nieuwe observaties rond dat gemiddelde. Het interval voor een nieuwe observatie is breder dan het betrouwbaarheidsinterval voor het gemiddelde [13](#page=13).
> **Tip:** Het onderscheid tussen betrouwbaarheidsintervallen (voor het gemiddelde) en voorspellingsintervallen (voor een individuele observatie) is cruciaal voor correcte interpretatie.
**Dummy variabelen:**
Dummy variabelen kunnen worden gebruikt om categorische predictoren op te nemen in lineaire regressiemodellen [13](#page=13).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Populatie | De gehele groep individuen of objecten waar de onderzoeksinteresse naar uitgaat. Statistisch onderzoek probeert door middel van steekproeven conclusies te trekken over deze populatie. |
| Steekproef | Een subset van de populatie die wordt geselecteerd om onderzoek op uit te voeren. Een representatieve steekproef is cruciaal om generaliseerbare resultaten te verkrijgen. |
| Experimenteel design | De methode die wordt gebruikt om een onderzoeksvraag te beantwoorden, inclusief hoe de steekproef wordt genomen, welke interventies worden toegepast, en hoe de data zal worden geanalyseerd. |
| Beschrijvende statistiek | Technieken om data te organiseren, samenvatten en presenteren, zoals grafieken (histogrammen, boxplots) en samenvattende maten (gemiddelde, mediaan, standaarddeviatie, interkwartielafstand). |
| Inferentie | Het proces van het trekken van conclusies over een populatie op basis van gegevens uit een steekproef, rekening houdend met de onzekerheid die gepaard gaat met dit proces. |
| Steekproefgemiddelde ($\bar{x}$) | De som van alle waarden in een steekproef gedeeld door het aantal waarnemingen in die steekproef. Het is een schatter voor het populatiegemiddelde. |
| Standaarddeviatie ($s$) | Een maat voor de spreiding van data rond het gemiddelde. Het is de vierkantswortel van de variantie en geeft de gemiddelde afwijking van het gemiddelde aan. |
| Variabiliteit/Spreiding | De mate waarin waarden in een dataset afwijken van elkaar of van het gemiddelde. Dit kan worden gemeten met de standaarddeviatie, variantie of interkwartielafstand. |
| Normale verdeling | Een symmetrische, klokvormige kansverdeling die wordt gekenmerkt door zijn gemiddelde ($\mu$) en variantie ($\sigma^2$). Veel statistische methoden zijn gebaseerd op de aanname van normaliteit. |
| Standaardisatie (Z-score) | Het transformeren van een ruwe score naar een score die aangeeft hoeveel standaarddeviaties deze afwijkt van het gemiddelde. De formule is $Z = (x - \mu) / \sigma$. |
| Betrouwbaarheidsinterval (BI) | Een interval van waarden dat met een bepaalde mate van zekerheid (meestal 95%) de werkelijke populatieparameter bevat. Het geeft de precisie van een schatting weer. |
| Hypothese testen | Een statistische methode om te bepalen of er voldoende bewijs is in de steekproefdata om de nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Nulhypothese ($H_0$) | Een stelling die stelt dat er geen effect, verschil of verband is tussen variabelen in de populatie. Het doel van hypothesetesten is om deze hypothese te weerleggen. |
| Alternatieve hypothese ($H_1$) | Een stelling die stelt dat er wel een effect, verschil of verband is tussen variabelen in de populatie. |
| T-test | Een statistische test die wordt gebruikt om het verschil tussen de gemiddelden van twee groepen te vergelijken, of om het gemiddelde van één groep te vergelijken met een bekende waarde. |
| P-waarde | De kans om, gegeven dat de nulhypothese waar is, een teststatistiek te observeren die minstens zo extreem is als de waargenomen teststatistiek. Een lage p-waarde (bv. < 0.05) leidt tot verwerping van de nulhypothese. |
| Variantieanalyse (ANOVA) | Een statistische test die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken door de totale variabiliteit in de data op te splitsen in verschillende componenten. |
| Lineaire regressie | Een statistische methode om de lineaire relatie tussen een afhankelijke variabele (respons) en een of meer onafhankelijke variabelen (predictors) te modelleren. |
| Hellingsparameter ($\beta_1$) | In lineaire regressie is dit de parameter die de verandering in de responsvariabele voor elke eenheidstoename in de predictorvariabele aangeeft, ervan uitgaande dat de relatie lineair is. |
| Residuen | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de voorspelde waarde van de afhankelijke variabele volgens het regressiemodel. |
| Confounder | Een variabele die zowel gerelateerd is aan de onafhankelijke variabele als aan de afhankelijke variabele, en die een vertekend beeld kan geven van het werkelijke verband tussen die twee. |
| Steekproefgrootte ($n$) | Het aantal observaties of eenheden in een steekproef. Een grotere steekproefgrootte verhoogt doorgaans de statistische power en precisie van schattingen. |
| Type I fout (vals positief) | Het onterecht verwerpen van de nulhypothese wanneer deze in werkelijkheid waar is. De kans hierop wordt aangeduid met alfa ($\alpha$). |
| Type II fout (vals negatief) | Het onterecht aanvaarden van de nulhypothese wanneer deze in werkelijkheid onwaar is. De kans hierop wordt aangeduid met bèta ($\beta$). |
| Kracht van een toets (Power) | De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is. Het is gelijk aan $1 - \beta$. |
| Odds Ratio (OR) | Een maat voor de associatie tussen twee categorische variabelen. Het is de verhouding van de odds van een uitkomst in de ene groep ten opzichte van de odds van de uitkomst in de andere groep. |
| Logistische regressie | Een statistische methode die wordt gebruikt om de relatie te modelleren tussen een binaire afhankelijke variabele en een of meer predictorvariabelen. |
| Absoluut Risico Verschil (ARV) | Het verschil in de proportie van een uitkomst tussen twee groepen. |
| McNemar test | Een statistische test die wordt gebruikt om de associatie tussen twee dichotome (binaire) variabelen te analyseren bij gepaarde metingen. |
| Chi-kwadraat test ($\chi^2$) | Een statistische test die wordt gebruikt om de associatie tussen twee categorische variabelen te onderzoeken. |
Cover
definitielijst statistiek.docx
Summary
# Inleidende begrippen en meetniveaus in statistiek
Dit onderwerp introduceert de fundamentele concepten binnen de statistiek, waaronder onderzoekseenheden, populaties, steekproeven, hypothesen, typen analyses en de classificatie van meetniveaus.
### 1.1 Kernbegrippen in statistisch onderzoek
Statistisch onderzoek begint met het definiëren van de elementen die bestudeerd worden en de manier waarop deze bestudeerd worden.
#### 1.1.1 Onderzoekseenheden en populaties
* **Onderzoekseenheden:** Dit zijn de individuen of objecten waarover uitspraken gedaan worden in een onderzoek. Dit kunnen bijvoorbeeld mensen of specifieke objecten zijn.
* **Onderzoekspopulatie:** Dit is de volledige verzameling van alle individuen of objecten waarover een onderzoeker een uitspraak wil doen.
#### 1.1.2 Steekproeven
* **Steekproef:** Een steekproef is een deel (een staal) van de onderzoekspopulatie dat daadwerkelijk ondervraagd of onderzocht wordt. Het doel is om op basis van de steekproef conclusies te kunnen trekken over de gehele populatie.
> **Tip:** Het selecteren van een representatieve steekproef is cruciaal voor de generaliseerbaarheid van de onderzoeksresultaten.
#### 1.1.3 Hypothesen
Hypothesen zijn specifieke stellingen die de (veronderstelde causale) relatie tussen twee of meer concepten beschrijven en afgeleid zijn uit een bredere theorie.
* **Onderzoekshypothese:** Deze hypothese formuleert een stelling in positieve zin, conform de verwachtingen van de onderzoeker.
* **Nulhypothese ($H_0$):** De nulhypothese stelt dat er géén verband is tussen de betrokken variabelen.
* **Alternatieve hypothese ($H_1$ of $H_a$):** Wanneer de nulhypothese verworpen wordt, wordt de alternatieve hypothese aangenomen. Dit is de hypothese die de onderzoeker oorspronkelijk verwachtte.
* **Poging tot weerlegging (Falsificatie):** Wetenschappelijke hypotheses moeten falsifieerbaar zijn, wat betekent dat er een mogelijkheid moet zijn om ze te weerleggen met empirisch bewijs.
#### 1.1.4 Variabiliteit van kenmerken
* **Constante:** Een kenmerk dat niet varieert; alle onderzoekseenheden hebben dezelfde waarde voor dit kenmerk.
* **Voldoende spreiding/variabiliteit:** Dit vereist dat er per kenmerk minstens twee verschillende waarden bestaan en dat de onderzoekseenheden verspreid zijn over deze categorieën. Variabiliteit is essentieel voor statistische analyse.
#### 1.1.5 Typen analyses
Analyses worden ingedeeld op basis van het aantal variabelen dat tegelijkertijd wordt onderzocht.
* **Univariate analyse:** Analyse van één variabele.
* **Bivariate analyse:** Analyse van twee variabelen.
* **Multivariate analyse:** Analyse van meer dan twee variabelen.
#### 1.1.6 Eigenschappen van categorische variabelen
Bij het indelen van onderzoekseenheden in categorieën zijn twee eigenschappen van belang:
* **Exclusiviteit:** Elke onderzoekseenheid mag slechts in één categorie vallen. Dit hangt af van de precieze definitie van de categorieën.
* **Exhaustiviteit:** Elke onderzoekseenheid moet in een categorie geplaatst kunnen worden. Dit vereist dat de categorieën de gehele reeks van mogelijke waarden dekken.
#### 1.1.7 Soorten variabelen op basis van waarden
* **Dichotoom:** Een variabele die slechts twee waarden kan aannemen (bijvoorbeeld: goed/fout, ja/nee).
* **Polytoom:** Een variabele die meerdere categorieën heeft.
* **Trichotomie:** Een specifieke vorm van een polytome categorische variabele met precies drie categorieën.
#### 1.1.8 Continue en discrete meetschalen
Variabelen kunnen ook worden onderscheiden op basis van het type waarden dat ze kunnen aannemen:
* **Continue meetschalen:** De uitkomsten kunnen alle mogelijke waarden binnen een bepaald bereik aannemen (bijvoorbeeld lengte, gewicht).
* **Discrete meetschalen:** De uitkomsten zijn beperkt tot een telbaar aantal specifieke waarden (bijvoorbeeld aantal kinderen, aantal keren dat iets gebeurt).
#### 1.1.9 Codeboek
* **Codeboek:** Een document dat een lijst bevat met de numerieke codes die gebruikt worden om de inhoudelijke betekenis van variabelen te representeren. Dit is essentieel voor het consistent en correct verwerken van data.
### 1.2 Meetniveaus
Meetniveaus classificeren variabelen op basis van de informatie die de numerieke waarden over de relatie tussen categorieën verschaffen. Deze classificatie bepaalt welke statistische bewerkingen en analyses zinvol zijn.
De belangrijkste meetniveaus zijn:
| Meetniveau | Classificatie (Categorische informatie) | Totale ordening (Rangorde mogelijk) | Meeteenheid (Gelijke intervallen) | Absoluut nulpunt (Echt 'nul' punt) |
| :--------- | :------------------------------------- | :--------------------------------- | :-------------------------------- | :--------------------------------- |
| Nominaal | Ja | Nee | Nee | Nee |
| Ordinaal | Ja | Ja | Nee | Nee |
| Interval | Ja | Ja | Ja | Nee |
| Ratio | Ja | Ja | Ja | Ja |
#### 1.2.1 Nominaal meetniveau
* **Kenmerken:** Categorieën zijn slechts namen of labels. Er is geen inherente ordening of rangorde tussen de categorieën.
* **Mogelijkheden:** Alleen tellen (frequenties) en bepalen of twee waarden gelijk of ongelijk zijn.
* **Voorbeelden:** Geslacht (man/vrouw), haarkleur (blond/bruin/zwart), type bloedgroep (A/B/AB/O).
#### 1.2.2 Ordinaal meetniveau
* **Kenmerken:** Categorieën kunnen in een logische volgorde worden geplaatst. Er is een rangorde, maar de afstanden tussen de categorieën zijn niet noodzakelijk gelijk of bekend.
* **Mogelijkheden:** Naast tellen kan men ook de rangorde bepalen (kleiner dan, groter dan).
* **Voorbeelden:** Opleidingsniveau (laag/gemiddeld/hoog), tevredenheidsschaal (zeer ontevreden/ontevreden/neutraal/tevreden/zeer tevreden), rangschikking (1e, 2e, 3e plaats).
#### 1.2.3 Interval meetniveau
* **Kenmerken:** De categorieën hebben een logische ordening en de intervallen tussen opeenvolgende waarden zijn gelijk en betekenisvol. Er is echter geen absoluut nulpunt.
* **Mogelijkheden:** Optellen, aftrekken, en berekenen van gemiddelden.
* **Voorbeelden:** Temperatuur in Celsius of Fahrenheit (een temperatuur van 0 graden Celsius is niet het volledige afwezigheid van warmte), IQ-score (een IQ van 0 is niet mogelijk en een IQ van 200 is niet dubbel zoveel intelligent als 100).
#### 1.2.4 Ratio meetniveau
* **Kenmerken:** Dit is het hoogste meetniveau. Het heeft een logische ordening, gelijke intervallen, én een absoluut nulpunt dat de volledige afwezigheid van de gemeten eigenschap aangeeft.
* **Mogelijkheden:** Alle rekenkundige bewerkingen zijn mogelijk, inclusief vermenigvuldigen en delen. Verhoudingen zijn betekenisvol.
* **Voorbeelden:** Lengte (0 cm betekent geen lengte), gewicht (0 kg betekent geen gewicht), leeftijd (0 jaar betekent nog niet geboren), inkomen (0 euro betekent geen inkomen).
> **Tip:** Het correct identificeren van het meetniveau van een variabele is essentieel voor het kiezen van de juiste statistische analysemethoden. Analyses die geschikt zijn voor een hoger meetniveau, zijn vaak niet toepasbaar op lagere meetniveaus.
#### 1.2.5 Continue en discrete meetschalen vs. meetniveaus
Het onderscheid tussen continue en discrete schalen is gerelateerd aan, maar niet identiek aan, meetniveaus. Een variabele op ratio niveau kan continu zijn (bv. lengte) of discreet (bv. aantal verkochte producten, indien de aantallen geteld worden). Een nominale of ordinale variabele is altijd discreet. Interval variabelen kunnen zowel continu (bv. temperatuur) als discreet (bv. jaartal, hoewel dit ook als nominaal of ordinaal kan worden gezien afhankelijk van de context) zijn.
---
# Correlatie- en regressieanalyse
Dit deel van de studiehandleiding behandelt de technieken voor het analyseren van relaties tussen variabelen, inclusief concepten als puntenwolken, covariatie, regressievergelijkingen en model fit.
### 2.1 Inleidende concepten voor bivariate analyse
#### 2.1.1 Puntenwolk
Een **puntenwolk** is de verzameling van alle elementen uit een steekproef, waarbij voor elk element de waarde op een X-variabele en een Y-variabele afgelezen kan worden. Het **centrale punt van de puntenwolk**, ook wel het zwaartepunt van de tweedimensionale verdeling genoemd, wordt bepaald door de gemiddelde score op de X-variabele en de gemiddelde score op de Y-variabele.
#### 2.1.2 Covariatie
**Covariatie**, ook wel de kruisproductensom of Sum of Squares (SSxy), stelt de mate waarin twee variabelen samen variëren (covariëren). Het is de som van de kruisproducten. Een **kruisproduct** is het product van de afwijking van een onderzoekseenheid ten opzichte van de gemiddelde X-waarde, en de afwijking van dezelfde onderzoekseenheid ten opzichte van de gemiddelde Y-waarde. **Variatie** beschrijft de covariatie van een kenmerk met zichzelf, waarbij de gesommeerde deviatiescore van één variabele wordt gekwadrateerd.
> **Tip:** Covariatie is een sleutelconcept om de richting en sterkte van de lineaire relatie tussen twee variabelen te begrijpen, voordat er wordt overgegaan op regressieanalyse.
#### 2.1.3 Variabelen in regressieanalyse
* **Explanandum** of **responsvariabele**: Dit is de afhankelijke variabele, de variabele die verklaard wordt.
* **Explanans** of **predictor-variabele**: Dit is de onafhankelijke variabele, de variabele die wordt gebruikt om de responsvariabele te verklaren.
### 2.2 Regressieanalyse
Regressieanalyse is de techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren.
#### 2.2.1 De regressievergelijking
Een lineaire regressievergelijking beschrijft de verwachte waarde van de afhankelijke variabele ($Y$) als functie van de onafhankelijke variabele ($X$). De algemene vorm is:
$$Y = a + B_1X + \epsilon$$
Waar:
* $a$ is het **intercept**: de verwachte waarde van $Y$ wanneer $X$ gelijk is aan 0.
* $B_1$ is de **slope** of **richtingscoëfficiënt**: deze toont de verandering in $Y$ bij elke eenheidstoename van $X$. Dit wordt ook wel de hellingshoek genoemd.
* $\epsilon$ is de **foutenterm**: het verschil tussen de werkelijke geobserveerde waarde van $Y$ en de door het statistische regressiemodel voorspelde waarde van $Y$.
#### 2.2.2 Residu
Het **residu** of de residuele term is het verschil tussen de predictie en de geobserveerde waarde van de afhankelijke variabele. Het vertegenwoordigt de variatie in $Y$ die niet wordt verklaard door $X$.
#### 2.2.3 Ordinary Least Squares (OLS)
**Ordinary Least Squares** (OLS) is een methode om de parameters van een lineaire regressievergelijking te schatten. Het doel is om de regressielijn te vinden zodanig dat de som van de gekwadrateerde afstanden van alle datapunten tot die lijn (de residuele som van kwadraten) zo minimaal mogelijk is.
> **Tip:** OLS minimaliseert de fouten in de voorspellingen, wat leidt tot de "best passende" lijn door de datapunten.
#### 2.2.4 Model fit
**Model fit** beoordeelt hoe goed een statistisch model bij de data past. Het geeft aan hoe goed de voorspellingen van het model overeenkomen met de daadwerkelijke observaties. Een goede model fit suggereert dat het model de relaties in de data effectief vastlegt.
### 2.3 Verbanden en Meetniveaus
Bij het analyseren van de relatie tussen variabelen is het meetniveau van cruciaal belang.
* **Nominaal:** Categorieën zonder inherente volgorde. Alleen classificatie is mogelijk.
* **Ordinaal:** Categorieën met een inherente volgorde. Classificatie en ordening zijn mogelijk.
* **Interval:** Data met gelijke intervallen tussen waarden, maar zonder absoluut nulpunt. Classificatie, ordening en meting van verschillen zijn mogelijk.
* **Ratio:** Data met gelijke intervallen en een absoluut nulpunt. Classificatie, ordening, meting van verschillen en verhoudingen zijn mogelijk.
> **Tip:** Het meetniveau bepaalt welke statistische technieken (zoals correlatie en regressie) geschikt zijn en hoe de resultaten geïnterpreteerd moeten worden. Voor correlatie en regressie zijn vaak minimaal ordinale variabelen nodig, maar interval- of ratiovariabelen leveren rijkere analyses op.
### 2.4 De puntenwolk in de praktijk
Een **puntenwolk** visualiseert de relatie tussen twee continue variabelen. Door naar het patroon van de punten te kijken, kan men een indicatie krijgen van de aard van de relatie:
* **Positieve correlatie**: Punten lopen van linksonder naar rechtsboven.
* **Negatieve correlatie**: Punten lopen van linksboven naar rechtsonder.
* **Geen correlatie**: Punten zijn willekeurig verspreid.
De **centrale punt** van de puntenwolk, gevormd door de gemiddelden van de X- en Y-variabelen, fungeert als het zwaartepunt van de dataset.
### 2.5 Covariatie versus Variatie
* **Covariatie** meet de gezamenlijke variatie van twee variabelen. Als beide variabelen neigen samen te stijgen of te dalen, is de covariatie positief. Als de ene stijgt en de andere daalt, is deze negatief.
* **Variatie** meet de spreiding van één enkele variabele rond zijn gemiddelde.
De relatie tussen deze concepten is essentieel voor het begrijpen van de correlatiecoëfficiënt, die de gestandaardiseerde covariatie weergeeft.
---
# Inferentiële statistiek en schattingsmethoden
Inferentiële statistiek maakt het mogelijk om conclusies te trekken over een populatie op basis van steekproefgegevens, waarbij schattingstechnieken en significantietoetsen centraal staan.
## 3.1 Principes van inferentiële statistiek
Inferentiële statistiek is een tak van statistiek die ons toelaat om uitspraken te doen over een breder geheel aan eenheden dan degenen die we daadwerkelijk hebben onderzocht. Dit bredere geheel wordt de **relevante populatie** genoemd, zijnde de set personen of objecten waarin een onderzoeker geïnteresseerd is. Om uitspraken over deze populatie te kunnen doen, wordt een deel ervan, de **steekproef** (aangeduid met $n$), onderzocht.
In tegenstelling tot beschrijvende statistiek, die gegevens van een steekproef of populatie overzichtelijk weergeeft zonder causaliteit te 'bewijzen', richt inferentiële statistiek zich op het **veralgemenen** van steekproefgegevens naar de populatie. Dit proces, ook wel **inductieve statistiek** genoemd, gaat van het bijzondere (de steekproef) naar het algemene (de populatie). Dit staat tegenover **deductie**, waarbij specifieke veronderstellingen uit algemene theorieën worden afgeleid.
### 3.1.1 Populatie- en steekproefverdeling
* **Populatieverdeling**: Dit is de verdeling van een variabele binnen de gehele populatie, die de kans weergeeft dat een willekeurig getrokken element een bepaalde waarde aanneemt.
* **Steekproefverdeling**: Dit is de verdeling van een variabele binnen de getrokken steekproef.
## 3.2 Steekproeftrekking en schattingsmethoden
### 3.2.1 Aselecte steekproef
Een **aselecte steekproef**, ook wel toevalssteekproef genoemd, is cruciaal voor inferentiële statistiek. Hierbij heeft elke eenheid uit de empirische populatie een bekende en berekenbare kans om in de steekproef te worden opgenomen. Dit waarborgt dat de steekproef representatief is voor de populatie, wat de basis vormt voor het generaliseren van resultaten.
### 3.2.2 Puntschatting en intervalschatting
Wanneer we kenmerken van de populatie willen kennen, gebruiken we gegevens uit de steekproef. Dit kan op twee manieren:
* **Puntschatting**: Dit is een enkele waarde die een kenmerk van de populatie schat, gebaseerd op steekproefgegevens. Een **zuivere schatter** of **onvertekende schatter** is een statistische grootheid waarvan de verwachtingswaarde gelijk is aan de te schatten populatieparameter.
* **Intervalschatting**: Dit geeft de (on)zekerheid van een puntschatting weer. Het resulteert in **betrouwbaarheidsintervallen**, die een marge aangeven waarbinnen de werkelijke populatieparameter met een bepaalde mate van zekerheid zal liggen.
### 3.2.3 Betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen bieden een reeks waarden binnen welke de populatieparameter waarschijnlijk ligt. Ze kwantificeren de onzekerheid die inherent is aan het werken met een steekproef in plaats van de volledige populatie. Hoe breder het interval, hoe groter de onzekerheid.
## 3.3 Significantietoetsen
### 3.3.1 Doel en procedure
Een **significantietoets** is een procedure om gegevens, zoals uitkomsten uit een steekproef, te vergelijken met een vooraf opgestelde hypothese, meestal de **nulhypothese**. Het doel is om te bepalen of de waargenomen resultaten significant afwijken van wat we op basis van de nulhypothese zouden verwachten.
### 3.3.2 Nulhypothese en alternatieve hypothese
* **Nulhypothese ($H_0$)**: Stelt dat er geen verband of geen effect is in de populatie.
* **Alternatieve hypothese ($H_1$)**: Stelt dat er wel een verband of effect is in de populatie. Als de nulhypothese verworpen wordt, wordt de alternatieve hypothese aanvaard.
### 3.3.3 Testvariabele en p-waarde
* **Testvariabele (of toetsingsgrootheid)**: Een variabele waarvan de waarde wordt berekend op basis van de observaties in de steekproef.
* **p-waarde (overschrijdingskans)**: Geeft aan hoe extreem de gevonden waarde voor de toetsingsgrootheid is, gegeven dat de nulhypothese waar zou zijn. Het is de kans op het verkrijgen van een uitkomst die minstens zo extreem is als de waargenomen uitkomst. Een lage p-waarde (typisch onder een vooraf bepaald significantieniveau, zoals 0.05) leidt tot de verwerping van de nulhypothese.
### 3.3.4 Statistische power
De **statistische power van een test** is de mate waarin de test erin slaagt een echt effect te detecteren als het effect daadwerkelijk bestaat in de populatie. Het houdt rekening met de kans op Type I en Type II fouten en varieert van 0 tot 1. Een hogere power betekent een grotere kans om een bestaand effect te vinden.
## 3.4 Relatie met andere statistische concepten
### 3.4.1 Frequentieverdeling en prevalentie
Een **frequentieverdeling** geeft aan hoe vaak elke waarde voorkomt in een dataset. De **prevalentie** is een specifieke toepassing hiervan, die het aandeel aangeeft waarbij een bepaald kenmerk aanwezig is. Deze beschrijvende maten vormen vaak de basis voor inferentiële analyses.
### 3.4.2 Eta-kwadraat ($\eta^2$)
Eta-kwadraat ($\eta^2$) is een maat voor de effectgrootte die vergelijkbaar is met de determinatiecoëfficiënt ($R^2$) in variantie-analyse. Het interpreteert de mate van samenhang tussen variabelen, analoog aan Cramer's V. Hoe hoger de $\eta^2$-waarde, hoe sterker de samenhang tussen de onafhankelijke en afhankelijke variabele. Het wordt berekend als de verhouding van de tussengroepsvariatie tot de totale variatie in de afhankelijke variabele.
$$ \eta^2 = \frac{\text{Tussengroepsvariatie}}{\text{Totale variatie in Y}} $$
> **Tip:** Hoewel $\eta^2$ de sterkte van een verband aangeeft, zegt het niets over de richting of causaliteit van het verband. Dit vereist verdere theoretische overwegingen en mogelijk andere analysetechnieken.
---
# Complexe relaties en modellen tussen variabelen
Dit onderwerp verdiept zich in geavanceerde structuren en dynamieken tussen variabelen, inclusief causale verbanden en intermediaire effecten.
### 4.1 Variabelen in causale modellen
In de context van causale modellering worden variabelen ingedeeld op basis van hun rol in een theoretisch model.
#### 4.1.1 Exogene variabelen
Exogene variabelen zijn de onafhankelijke variabelen in padmodellen. Ze fungeren als het startpunt van effecten, gesymboliseerd door pijlen die alleen van hen uitgaan. Deze variabelen staan typisch aan de linkerkant van een padmodel.
#### 4.1.2 Endogene variabelen
Endogene variabelen zijn de afhankelijke variabelen in padmodellen. Pijlen wijzen naar hen toe, wat aangeeft dat ze worden verklaard door andere variabelen in het model. Ze bevinden zich doorgaans aan de rechterkant van een padmodel.
#### 4.1.3 Intermediaire variabelen
Intermediaire variabelen, ook wel mediërende variabelen genoemd, bevinden zich tussen exogene en endogene variabelen. Ze worden verklaard door een of meerdere onafhankelijke variabelen, terwijl ze op hun beurt verklarend zijn voor de afhankelijke variabelen. In een padmodel hebben deze variabelen zowel pijlen die van hen uitgaan als pijlen die naar hen toekomen.
> **Tip:** Intermediaire variabelen helpen ons te begrijpen *hoe* een effect van de ene variabele op de andere tot stand komt. Ze verklaren het mechanisme achter een relatie.
### 4.2 Mediërende effecten en interactie
De relatie tussen variabelen kan verder worden genuanceerd door middel van mediërende en modererende (interactie) effecten.
#### 4.2.1 Mediërende variabele (mediatorvariabele)
Een mediërende variabele staat tussen een onafhankelijke variabele (X) en een afhankelijke variabele (Y). De mediator verklaart en versterkt de relatie tussen X en Y. Dit impliceert een proces waarbij het effect van X op Y via de mediator loopt.
#### 4.2.2 Interactie-effect (moderatoreffect)
Een interactie-effect treedt op wanneer een derde variabele (de moderator) de sterkte of richting van de relatie tussen X en Y verandert. Hierbij wordt gekeken naar de impact van de moderatorvariabele op de relatie tussen X en Y.
> **Voorbeeld:** Stel dat X (aantal studiestudies) een positief effect heeft op Y (studiepunten). Een moderatorvariabele Z (mate van motivatie) kan dit effect versterken: bij hoge motivatie leidt meer studeren tot significant meer studiepunten dan bij lage motivatie.
### 4.3 Causale modellen
Causale modellen visualiseren en testen theoretische relaties tussen variabelen.
#### 4.3.1 Conceptueel of theoretisch model
Een conceptueel model is een web van theoretisch verwachte relaties tussen variabelen. Het schetst de hypothesen over hoe variabelen met elkaar verbonden zijn op een abstract niveau.
#### 4.3.2 Padmodel
Een padmodel is een statistische uitwerking van een conceptueel model, waarbij de theoretische variabelen meetbaar worden gemaakt. Het is een voorloper van Structurele Vergelijkingsmodellering (SEM) en representeert alle causale hypothesen betreffende directe en indirecte effecten tussen variabelen.
#### 4.3.3 Recursief model
Een recursief model is een specifiek type padmodel dat geen wederzijdse causale effecten bevat. Dit betekent dat de causale invloed altijd unidirectioneel is binnen het model, zonder cyclische verbanden.
#### 4.3.4 Soorten effecten in padmodellen
* **Direct effect:** Een causale invloed van de ene variabele op de andere zonder tussenkomst van een andere variabele in het model.
* **Indirect effect:** Een causale invloed die via één of meerdere intermediaire variabelen verloopt.
* **Exclusief indirect effect:** Een indirect effect waarbij men, na het volgen van een pad via andere variabelen, niet meer terug kan naar een eerdere variabele in dat pad.
#### 4.3.5 Gemeenschappelijke oorzaak
Een gemeenschappelijke oorzaak is een variabele die een effect heeft op twee of meer andere variabelen die verderop in het model staan.
* **Partiële gemeenschappelijke oorzaak:** Naast het effect van de gemeenschappelijke oorzaak, bestaat er ook nog een direct effect tussen de twee variabelen die later in het model worden verklaard.
### 4.4 Variantie en schatting
De mate waarin variabelen variëren en hoe deze variatie kan worden verklaard, is cruciaal in statistische modellen.
#### 4.4.1 Aliënatiecoëfficiënt
De aliënatiecoëfficiënt vertegenwoordigt de proportie van de variantie in een variabele die niet wordt verklaard door de andere variabelen in het model. Dit wordt ook wel de errortermen genoemd.
#### 4.4.2 Eta-kwadraat (${\eta^2}$)
Eta-kwadraat is een maat die vergelijkbaar is met de determinatiecoëfficiënt in variantieanalyse. Het interpreteert analoog aan Cramer's V en geeft de sterkte van de samenhang tussen X en Y weer. Het wordt berekend als de verhouding tussen de tussengroepsvariatie en de totale variatie in Y:
$${\eta^2 = \frac{\text{Tussengroepsvariatie in Y}}{\text{Totale variatie in Y}}}$$
Een hogere waarde van ${\eta^2}$ duidt op een sterkere samenhang.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Objecten | De onderzoekseenheden, dit kunnen mensen of personen zijn waarover informatie wordt verzameld in een onderzoek. |
| Onderzoekspopulatie | De volledige verzameling van individuen of entiteiten waarover een onderzoeker een uitspraak wil doen en waaruit eventueel een steekproef wordt getrokken. |
| Steekproef | Een selectie of deelverzameling van individuen of objecten uit een onderzoekspopulatie die daadwerkelijk worden onderzocht om informatie te verzamelen. |
| Hypothese | Een specifieke stelling die een verwachte (causale) relatie tussen twee of meer concepten of variabelen formuleert, vaak afgeleid uit een bredere theorie. |
| Nulhypothese | Een hypothese die stelt dat er geen verband of verschil is tussen de onderzochte variabelen, en die wordt getoetst om te zien of deze verworpen kan worden. |
| Constante | Een kenmerk of variabele dat geen variatie vertoont binnen de onderzochte groep; alle eenheden hebben dezelfde waarde voor dit kenmerk. |
| Univariate analyse | Een statistische analyse die zich richt op het beschrijven en samenvatten van één enkele variabele, zonder deze te relateren aan andere variabelen. |
| Bivariate analyse | Een statistische analyse die de relatie tussen twee variabelen onderzoekt, om te zien hoe ze samenhangen of elkaar beïnvloeden. |
| Multivariate analyse | Een statistische analyse die de relaties tussen drie of meer variabelen tegelijkertijd onderzoekt, wat complexere verbanden kan blootleggen. |
| Dichotoom | Een variabele die slechts twee mogelijke waarden of categorieën kan aannemen, zoals bijvoorbeeld "ja" of "nee", of "man" of "vrouw". |
| Continue meetschaal | Een meetschaal waarbij de uitkomsten alle mogelijke waarden binnen een bepaald interval kunnen aannemen, zonder beperkingen tot discrete stappen. |
| Puntenwolk | Een grafische weergave van de data in een tweedimensionaal vlak, waarbij elk punt de waarden van twee variabelen voor een specifieke onderzoekseenheid symboliseert. |
| Covariatie | Een maat die aangeeft in hoeverre twee variabelen samen variëren; een positieve covariatie duidt op een gelijktijdige stijging of daling, een negatieve op een tegengestelde beweging. |
| Regressie | Een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren en te voorspellen. |
| Intercept (a) | De voorspelde waarde van de afhankelijke variabele (Y) wanneer de onafhankelijke variabele (X) gelijk is aan nul in een regressiemodel. |
| Slope (B1) | De richtingscoëfficiënt in een regressievergelijking, die aangeeft hoeveel de afhankelijke variabele (Y) verandert bij een eenheidsverhoging van de onafhankelijke variabele (X). |
| Residu | Het verschil tussen de werkelijk geobserveerde waarde van de afhankelijke variabele en de waarde die door het regressiemodel wordt voorspeld. |
| Inferentiële statistiek | Een tak van statistiek die zich bezighoudt met het trekken van conclusies en het maken van voorspellingen over een populatie op basis van gegevens verzameld uit een steekproef. |
| Beschrijvende statistiek | Statistiek die methoden gebruikt om gegevens te organiseren, samen te vatten en overzichtelijk weer te geven, zonder conclusies te trekken over een bredere populatie. |
| Aselecte steekproef | Een steekproef waarbij elke eenheid in de populatie een bekende en berekenbare kans heeft om in de steekproef te worden opgenomen, wat willekeurig selecteren impliceert. |
| Puntschatting | Een enkele waarde die als de meest waarschijnlijke schatting van een populatieparameter wordt beschouwd, gebaseerd op steekproefgegevens. |
| Intervalschatting | Een reeks waarden die, met een bepaalde mate van betrouwbaarheid, de werkelijke populatieparameter bevat. Deze marges geven de onzekerheid van de schatting weer. |
| Significantietoets | Een procedure om te beoordelen of waargenomen verschillen of relaties in steekproefgegevens statistisch significant zijn, wat impliceert dat ze waarschijnlijk niet door toeval zijn ontstaan. |
| p-waarde | De kans op het verkrijgen van testresultaten die minstens zo extreem zijn als de waargenomen resultaten, ervan uitgaande dat de nulhypothese waar is. Een lage p-waarde (< 0.05) leidt vaak tot verwerping van de nulhypothese. |
| Exogene variabele | Een variabele in een causaal model waar alleen pijlen uit voortkomen en die niet wordt verklaard door andere variabelen binnen het model; het is een startvariabele. |
| Endogene variabele | Een variabele in een causaal model waar pijlen naar toe wijzen en die dus wordt verklaard door andere variabelen in het model; het is een uitkomstvariabele. |
| Intermediaire variabele | Een variabele die zowel verklaard wordt door een of meer onafhankelijke variabelen als zelf een verklarende rol speelt voor een afhankelijke variabele, en zich dus tussen exogene en endogene variabelen bevindt. |
| Mediërende variabele | Een variabele die het causale pad tussen een onafhankelijke en een afhankelijke variabele "bemiddelt" of verklaart, door het effect ervan door te geven. |
| Interactie-effect | Een effect waarbij de relatie tussen twee variabelen (X en Y) afhangt van de waarde van een derde variabele (de moderator). |
| Padmodel | Een grafische en statistische weergave van de verwachte causale relaties tussen variabelen, waarbij pijlen directe effecten aangeven en de sterkte van deze effecten worden gekwantificeerd. |
| Direct effect | Het causale effect van een onafhankelijke variabele op een afhankelijke variabele zonder de tussenkomst van andere variabelen in het model. |
| Indirect effect | Het causale effect van een onafhankelijke variabele op een afhankelijke variabele dat verloopt via een of meer intermediaire of mediërende variabelen. |
Cover
dia h 1.pdf
Summary
# Inleiding tot regressieanalyse en scatterplots
Dit onderdeel introduceert de basisprincipes van regressieanalyse en het gebruik van scatterplots voor het visualiseren van verbanden tussen variabelen [1](#page=1) [2](#page=2).
### 1.1 Regressieanalyse: een eerste kennismaking
Regressieanalyse is een statistische methode die wordt gebruikt om de relatie tussen variabelen te onderzoeken en te kwantificeren. Het stelt ons in staat om verbanden te identificeren, wiskundige modellen te beschrijven en statistische conclusies te formuleren op basis van steekproefgegevens [1](#page=1) [6](#page=6).
#### 1.1.1 Het verkennen van verbanden met scatterplots
Scatterplots zijn een essentiële tool om de relatie tussen twee variabelen visueel te onderzoeken. Door datapunten te plotten op een tweedimensionaal assenstelsel, waar de ene variabele op de horizontale as (X-as) staat en de andere op de verticale as (Y-as), kunnen we patronen en de aard van de relatie waarnemen [2](#page=2) [3](#page=3).
* **Visuele inspectie:** Een scatterplot kan helpen bij het identificeren van de richting (positief of negatief), de sterkte (hoe dicht de punten bij een lijn liggen) en de vorm (lineair of niet-lineair) van het verband [2](#page=2) [3](#page=3).
* **Voorbeeld: kindersterfte en geletterdheid:** Een scatterplot die kindersterfte uitzet tegenover de geletterdheid bij vrouwen toont aan dat kindersterfte lijkt te dalen naarmate de geletterdheid toeneemt, wat wijst op een mogelijk lineair verband [2](#page=2) [3](#page=3).
* **Voorbeeld: kindersterfte en inkomen:** Een scatterplot die kindersterfte uitzet tegenover het Bruto Nationaal Inkomen (BNI) per capita suggereert een niet-lineair verband, waarbij de kindersterfte sneller daalt bij lagere inkomensniveaus dan bij hogere [3](#page=3).
* **Voorbeeld: kindersterfte en vruchtbaarheidscijfer:** De relatie tussen kindersterfte en het total fertility rate (TFR) kan ook gevisualiseerd worden met een scatterplot om de aard van hun verband te bestuderen [3](#page=3).
> **Tip:** Hoewel scatterplots waardevolle inzichten bieden, is het belangrijk te onthouden dat ze geen bewijs leveren van een causaal verband. Er kunnen altijd andere, niet-gemeten variabelen (confounding variabelen) een rol spelen [6](#page=6).
### 1.2 Populatieregressiefunctie
De populatieregressiefunctie beschrijft de ware relatie tussen variabelen in de gehele populatie [4](#page=4) [5](#page=5).
#### 1.2.1 Definitie en componenten
De populatieregressiefunctie wordt vaak weergegeven als $E(Y|X = x)$, wat de verwachte waarde van de responsvariabele Y voor een gegeven waarde van de verklarende variabele X voorstelt [5](#page=5).
* **Lineaire regressie:** In het geval van lineaire regressie wordt de populatieregressiefunctie uitgedrukt als:
$$E(Y|X_i) = \beta_1 + \beta_2X_i$$
Hierin zijn $\beta_1$ en $\beta_2$ de regressiecoëfficiënten [5](#page=5).
* $\beta_1$ is het **intercept** (snijpunt) en vertegenwoordigt de verwachte waarde van Y wanneer X nul is [5](#page=5).
* $\beta_2$ is de **slope** (helling) en geeft aan hoeveel de verwachte waarde van Y verandert bij een eenheidstoename in X [5](#page=5).
* **Variabelen:**
* $Y$: de responsvariabele (afhankelijke variabele) [5](#page=5).
* $X$: de verklarende variabele (onafhankelijke variabele of predictor) [5](#page=5).
#### 1.2.2 De rol van storingstermen
Individuele waarnemingen van Y kunnen afwijken van de verwachte waarde op basis van X. Dit verschil wordt toegeschreven aan storingstermen (error terms). De relatie kan worden uitgedrukt als [5](#page=5):
$$Y_i = E(Y|X_i) + \epsilon_i$$
Hierin is $\epsilon_i$ de storingsterm voor de $i$-de waarneming [5](#page=5).
* **Systematische component:** $E(Y|X_i)$ vertegenwoordigt het systematische deel van Y dat verklaard wordt door X [5](#page=5).
* **Niet-systematische component:** $\epsilon_i$ is de niet-systematische of stochastische storingsterm en vat alle onzekere factoren samen die niet in het model zijn opgenomen [5](#page=5).
* **Volledige lineaire regressievergelijking:** De volledige vergelijking voor een individuele waarneming in een lineair regressiemodel is:
$$Y_i = \beta_1 + \beta_2X_i + \epsilon_i$$ [5](#page=5).
#### 1.2.3 Voorbeeld: huurprijs en oppervlakte
Stel dat we de huurprijs (Y) van studentenkamers willen relateren aan hun oppervlakte (X). Als we de volledige populatie van studentenkamers zouden kennen, zouden we een populatieregressiefunctie kunnen opstellen. Een scatterplot van huurprijs tegen oppervlakte zou de algemene trend kunnen tonen. De populatieregressiefunctie, $E(Y|X = x)$, zou de gemiddelde huurprijs voor een kamer van een bepaalde oppervlakte weergeven [4](#page=4) [5](#page=5) .
### 1.3 Steekproefregressiefunctie
Aangezien de volledige populatie zelden bekend is, gebruiken we steekproefgegevens om de populatieregressiefunctie te schatten [6](#page=6).
#### 1.3.1 Schatting van de populatieregressie
De steekproefregressiefunctie, ook wel de steekproefregressierechte genoemd, is een schatting van de ware populatieregressierechte. Deze schatting wordt verkregen uit de gegevens van een steekproef [6](#page=6).
* **Voorbeeld: studentenkamers:** Een steekproef van studentenkamers met hun oppervlakte en huurprijs kan worden gebruikt om een steekproefregressierechte te berekenen. De punten in de scatterplot vertegenwoordigen de individuele waarnemingen uit de steekproef, en de steekproefregressierechte wordt zo geplaatst dat deze de algemene trend van deze punten zo goed mogelijk beschrijft [6](#page=6).
* **Variabiliteit:** Het is belangrijk te beseffen dat een nieuwe steekproef kan leiden tot een andere schatting van de regressierechte, wat de inherente onzekerheid bij het schatten uit steekproeven weerspiegelt [6](#page=6).
---
# De kleinstekwadratenmethode en eigenschappen van schatters
Dit gedeelte beschrijft de kleinstekwadratenmethode voor het schatten van regressieparameters en onderzoekt de eigenschappen van deze schatters binnen het standaard lineaire regressiemodel.
## 2. De kleinstekwadratenmethode en eigenschappen van schatters
### 2.1 De kleinstekwadratenmethode
De kleinstekwadratenmethode (Least Squares, LS) is een techniek om de parameters van een regressiemodel te schatten door de som van de gekwadrateerde verticale afwijkingen tussen de waargenomen waarden en de voorspelde waarden te minimaliseren [7](#page=7).
#### 2.1.1 Afleiding van de schatters
Voor een univariate lineaire regressie, waar de steekproefregressiefunctie wordt gegeven door $\hat{Y}_i = \hat{\beta}_1 + \hat{\beta}_2 X_i$ worden de schatters $\hat{\beta}_1$ en $\hat{\beta}_2$ verkregen door de volgende som van gekwadrateerde residuen te minimaliseren [7](#page=7):
$$ S = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} (Y_i - \hat{\beta}_1 - \hat{\beta}_2 X_i)^2 $$
Dit gebeurt door de partiële afgeleiden naar $\hat{\beta}_1$ en $\hat{\beta}_2$ gelijk te stellen aan nul [7](#page=7):
$$ \frac{\partial S}{\partial \hat{\beta}_1} = \sum_{i=1}^{n} 2(Y_i - \hat{\beta}_1 - \hat{\beta}_2 X_i)(-1) = 0 $$
$$ \frac{\partial S}{\partial \hat{\beta}_2} = \sum_{i=1}^{n} 2(Y_i - \hat{\beta}_1 - \hat{\beta}_2 X_i)(-X_i) = 0 $$
Uit de eerste vergelijking volgt:
$$ \sum_{i=1}^{n} Y_i = n\hat{\beta}_1 + \hat{\beta}_2 \sum_{i=1}^{n} X_i $$
Dit leidt tot de schatter voor $\hat{\beta}_1$:
$$ \hat{\beta}_1 = \bar{Y} - \hat{\beta}_2 \bar{X} $$
waarbij $\bar{Y} = \frac{1}{n}\sum_{i=1}^{n} Y_i$ en $\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$ [8](#page=8).
Uit de tweede vergelijking volgt:
$$ \sum_{i=1}^{n} X_i Y_i = \hat{\beta}_1 \sum_{i=1}^{n} X_i + \hat{\beta}_2 \sum_{i=1}^{n} X_i^2 $$
Door $\hat{\beta}_1 = \bar{Y} - \hat{\beta}_2 \bar{X}$ te substitueren, kan de schatter voor $\hat{\beta}_2$ worden afgeleid:
$$ \hat{\beta}_2 = \frac{\sum_{i=1}^{n} X_i Y_i - \bar{Y} \sum_{i=1}^{n} X_i}{\sum_{i=1}^{n} X_i^2 - \bar{X} \sum_{i=1}^{n} X_i} $$
Dit kan worden herschreven als:
$$ \hat{\beta}_2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} $$
waarbij de teller ook geschreven kan worden als $\sum_{i=1}^{n} (X_i - \bar{X})Y_i$ en de noemer als $\sum_{i=1}^{n} (X_i - \bar{X})^2$ [9](#page=9).
#### 2.1.2 Eigenschappen van de schatters
De tweede orde partiële afgeleiden bevestigen dat de gevonden waarden voor $\hat{\beta}_1$ en $\hat{\beta}_2$ inderdaad een minimum opleveren [9](#page=9).
Voor een specifieke steekproef worden de schatters als volgt gegeven:
$$ \hat{\beta}_2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{1}{n-1} \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} $$
en
$$ \hat{\beta}_1 = \bar{Y} - \hat{\beta}_2 \bar{X} $$
[9](#page=9).
Als de covariantie tussen $X$ en $Y$ nul is ($\text{Cov}(X, Y) = 0$), dan is $\hat{\beta}_2 = 0$, wat resulteert in de regressierechte $\hat{Y}_i = \bar{Y}$ [9](#page=9).
> **Tip:** De formules voor $\hat{\beta}_1$ en $\hat{\beta}_2$ kunnen ook worden uitgedrukt met behulp van sommaties over de afwijkingen ten opzichte van het gemiddelde, wat vaak handig is voor berekeningen [9](#page=9).
> **Voorbeeld huurprijs:** Stel we hebben data over de oppervlakte ($X_i$) en huurprijs ($Y_i$) van studentenkamers. Door de kleinstekwadratenmethode toe te passen, vinden we schatters voor $\hat{\beta}_1$ en $\hat{\beta}_2$. Als bijvoorbeeld $\hat{\beta}_1 = -8.21$ en $\hat{\beta}_2 = 32.50$, dan is de regressierechte $\hat{Y}_i = -8.21 + 32.50X_i$. Dit betekent dat een studentenkamer die $1 \text{ m}^2$ groter is, gemiddeld $32.50$ euro meer kost in deze steekproef [10](#page=10).
Belangrijke eigenschappen van de kleinstekwadratenschatters in de steekproef zijn:
* De gemiddelden $\bar{X}$ en $\bar{Y}$ liggen altijd op de regressierechte: $\bar{Y} = \hat{\beta}_1 + \hat{\beta}_2 \bar{X}$ [10](#page=10).
* De som van de residuen ($\hat{e}_i = Y_i - \hat{Y}_i$) is altijd gelijk aan nul: $\sum_{i=1}^{n} \hat{e}_i = 0$ [10](#page=10).
### 2.2 Standaard lineaire regressiemodel (SLRM) en voorwaarden
Om de statistische eigenschappen van de kleinstekwadratenschatters te kunnen analyseren, worden een aantal voorwaarden opgelegd aan het model. Dit vormt het standaard lineaire regressiemodel (SLRM) [11](#page=11).
#### 2.2.1 Voorwaarden van het SLRM
1. **Lineair model:** Het regressiemodel is lineair in de parameters $\beta_1$ en $\beta_2$. De populatieregressiefunctie is $Y_i = \beta_1 + \beta_2 X_i + \epsilon_i$ [11](#page=11).
2. **Gemiddeld nul storingstermen:** Voor elke gegeven waarde van $X_i$ is de verwachtingswaarde van de storingsterm $\epsilon_i$ nul: $E(\epsilon_i | X_i) = 0$ [11](#page=11).
3. **Homoscedasticiteit:** De storingstermen $\epsilon_i$ hebben allemaal dezelfde variantie, ongeacht de waarde van $X_i$. Deze variantie wordt aangeduid met $\sigma^2$: $\text{Var}(\epsilon_i | X_i) = \sigma^2$ [11](#page=11).
* Dit betekent dat de spreiding van de storingstermen constant is voor alle waarden van $X$. In het geval van heteroscedasticiteit varieert de variantie van de storingstermen met $X$ [11](#page=11) [12](#page=12).
4. **Ongecorreleerde storingstermen:** De storingstermen $\epsilon_i$ en $\epsilon_j$ zijn niet gecorreleerd voor $i \neq j$, gegeven de waarden $X_i$ en $X_j$: $\text{Cov}(\epsilon_i, \epsilon_j | X_i, X_j) = 0$ [12](#page=12).
5. **Normale verdeling:** De storingstermen $\epsilon_i$ zijn normaal verdeeld: $\epsilon_i \sim N(\dots)$. Deze voorwaarde is niet strikt noodzakelijk voor de eigenschappen van de schatters zelf, maar wel voor hypothesetoetsing en betrouwbaarheidsintervallen [12](#page=12).
### 2.3 Gauss-Markov stelling
De Gauss-Markov stelling stelt dat, onder de eerste vier voorwaarden van het SLRM (lineariteit, gemiddeld nul storingstermen, homoscedasticiteit en ongecorreleerde storingstermen), de kleinstekwadratenschatters $\hat{\beta}_1$ en $\hat{\beta}_2$ de **beste lineaire onvertekende schatters** (BLUE - Best Linear Unbiased Estimators) zijn voor $\beta_1$ en $\beta_2$ [13](#page=13).
* **(i) Lineaire functie van $Y_i$:** De schatters $\hat{\beta}_1$ en $\hat{\beta}_2$ zijn een lineaire combinatie van de waargenomen waarden $Y_i$.
* Voor $\hat{\beta}_2$: $\hat{\beta}_2 = \sum_{i=1}^{n} c_i Y_i$, met $c_i = \frac{X_i - \bar{X}}{\sum_{j=1}^{n} (X_j - \bar{X})^2}$ [13](#page=13).
* Voor $\hat{\beta}_1$: $\hat{\beta}_1 = \sum_{i=1}^{n} ( \frac{1}{n} - c_i \bar{X} ) Y_i$ [14](#page=14).
* **(ii) Onvertekend:** De verwachtingswaarde van de schatters is gelijk aan de ware populatieparameter: $E(\hat{\beta}_1) = \beta_1$ en $E(\hat{\beta}_2) = \beta_2$ [14](#page=14) [15](#page=15).
* Bewijs voor $E(\hat{\beta}_2) = \beta_2$:
$$ E(\hat{\beta}_2) = E\left(\sum_{i=1}^{n} c_i Y_i\right) = \sum_{i=1}^{n} c_i E(Y_i) = \sum_{i=1}^{n} c_i (\beta_1 + \beta_2 X_i) $$
$$ = \beta_1 \sum_{i=1}^{n} c_i + \beta_2 \sum_{i=1}^{n} c_i X_i $$
Aangezien $\sum_{i=1}^{n} c_i = 0$ en $\sum_{i=1}^{n} c_i X_i = 1$ voor de gekozen $c_i$, volgt $E(\hat{\beta}_2) = \beta_2$ [14](#page=14).
* Bewijs voor $E(\hat{\beta}_1) = \beta_1$:
$$ E(\hat{\beta}_1) = E(\bar{Y} - \hat{\beta}_2 \bar{X}) = E(\bar{Y}) - E(\hat{\beta}_2 \bar{X}) = E(\bar{Y}) - E(\hat{\beta}_2)\bar{X} $$
$$ = E\left(\frac{1}{n}\sum_{i=1}^{n} Y_i\right) - \beta_2\bar{X} = \frac{1}{n}\sum_{i=1}^{n} E(Y_i) - \beta_2\bar{X} $$
$$ = \frac{1}{n}\sum_{i=1}^{n} (\beta_1 + \beta_2 X_i) - \beta_2\bar{X} = \beta_1 + \beta_2\bar{X} - \beta_2\bar{X} = \beta_1 $$
[15](#page=15).
* **(iii) Kleinste variantie:** Van alle lineaire en onvertekende schatters voor $\beta_1$ en $\beta_2$, hebben $\hat{\beta}_1$ en $\hat{\beta}_2$ de kleinste variantie [13](#page=13).
#### 2.3.1 Variantie van de schatters
De varianties van de kleinstekwadratenschatters worden gegeven door:
$$ \text{Var}(\hat{\beta}_2) = \frac{\sigma^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\sigma^2}{S_{XX}} $$
waarbij $S_{XX} = \sum_{i=1}^{n} (X_i - \bar{X})^2$ [16](#page=16).
$$ \text{Var}(\hat{\beta}_1) = \sigma^2 \left( \frac{1}{n} + \frac{\bar{X}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} \right) = \sigma^2 \left( \frac{1}{n} + \frac{\bar{X}^2}{S_{XX}} \right) $$
[16](#page=16) [17](#page=17).
* Een grote variatie in $X$ (grote $S_{XX}$) heeft een gunstig effect op de precisie (kleinere variantie) van $\hat{\beta}_1$ en $\hat{\beta}_2$ [17](#page=17).
* Een grotere variantie van de storingstermen ($\sigma^2$) is ongunstig voor de precisie van de schatters [17](#page=17).
#### 2.3.2 Covariantie van de schatters
De schatters $\hat{\beta}_1$ en $\hat{\beta}_2$ zijn niet onafhankelijk. Hun covariantie is:
$$ \text{Cov}(\hat{\beta}_1, \hat{\beta}_2) = - \bar{X} \text{Var}(\hat{\beta}_2) = - \bar{X} \frac{\sigma^2}{S_{XX}} = - \frac{\bar{X} \sigma^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} $$
[17](#page=17).
Als $\bar{X} > 0$, dan is de covariantie negatief, wat betekent dat als $\hat{\beta}_2$ hoger uitvalt, $\hat{\beta}_1$ waarschijnlijk lager zal zijn, en vice versa [17](#page=17).
### 2.4 Standaardfouten van de schatters
De parameter $\sigma^2$ (de variantie van de storingstermen) is meestal onbekend. Een zuivere schatter hiervoor is $\hat{\sigma}^2$:
$$ \hat{\sigma}^2 = \frac{1}{n-2} \sum_{i=1}^{n} \hat{e}_i^2 = \frac{1}{n-2} \sum_{i=1}^{n} (Y_i - \hat{\beta}_1 - \hat{\beta}_2 X_i)^2 $$
. Hierbij is de noemer $n-2$ omdat er twee parameters ($\beta_1$ en $\beta_2$) zijn geschat, wat leidt tot twee vrijheidsgraden minder [18](#page=18).
De standaardfouten (standard errors, se) van de schatters zijn de vierkantswortels van hun geschatte varianties:
* Standaardfout van $\hat{\beta}_2$:
$$ \text{se}(\hat{\beta}_2) = \sqrt{\frac{\hat{\sigma}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}} = \frac{\hat{\sigma}}{\sqrt{S_{XX}}} $$
[18](#page=18).
* Standaardfout van $\hat{\beta}_1$:
$$ \text{se}(\hat{\beta}_1) = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{\bar{X}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}} = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{\bar{X}^2}{S_{XX}}} $$
[18](#page=18).
### 2.5 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, of $R^2$, is een maat voor de 'goodness-of-fit' van de regressierechte. Het verdeelt de totale afwijking van $Y_i$ ten opzichte van het gemiddelde $\bar{Y}$ in twee componenten: de afwijking die door de regressie wordt verklaard en de afwijking die door de residuen wordt verklaard [18](#page=18).
$$ Y_i - \bar{Y} = (\hat{Y}_i - \bar{Y}) + (Y_i - \hat{Y}_i) $$
waarbij $(Y_i - \bar{Y})$ de totale afwijking is, $(\hat{Y}_i - \bar{Y})$ de afwijking verklaard door de regressie is, en $(Y_i - \hat{Y}_i) = \hat{e}_i$ de residu is [18](#page=18).
---
# Standaard lineair regressiemodel en diagnostische hulpmiddelen
Dit gedeelte behandelt de fundamentele voorwaarden van het standaard lineaire regressiemodel (SLRM) en introduceert essentiële diagnostische hulpmiddelen zoals residuplots en QQ-plots om de geldigheid van deze aannames te evalueren.
### 3.1 Voorwaarden van het standaard lineair regressiemodel
Het standaard lineaire regressiemodel (SLRM) kent vijf kernvoorwaarden die cruciaal zijn voor de geldigheid en interpreteerbaarheid van de resultaten [11](#page=11).
1. **Lineair model**: Het model moet lineair zijn in de parameters $\beta$. De modelvorm is $Y_i = \beta_1 + \beta_2 X_i + \varepsilon_i$ [11](#page=11).
2. **Gemiddeld nul voor storingstermen**: Voor elke gegeven waarde van $X_i$ moet de verwachtingswaarde van de storingsterm $\varepsilon_i$ nul zijn: $E(\varepsilon_i | X_i) = 0$ [11](#page=11).
3. **Homoscedasticiteit**: De storingstermen $\varepsilon_i$ hebben allemaal dezelfde variantie, ongeacht de waarde van $X_i$: $\text{Var}(\varepsilon_i | X_i) = \sigma^2$. Dit betekent dat de spreiding van de storingstermen constant is over het gehele bereik van de onafhankelijke variabele. Een afwijking hiervan wordt heteroscedasticiteit genoemd, waarbij de variantie toeneemt of afneemt met $X_i$ [11](#page=11) [12](#page=12).
> **Tip**: Homoscedasticiteit impliceert dat de spreiding van de waargenomen waarden rond de regressielijn constant is. Heteroscedasticiteit leidt tot inefficiënte schatters en ongeldige standaardfouten en betrouwbaarheidsintervallen.
4. **Ongecorreleerde storingstermen**: De storingstermen $\varepsilon_i$ en $\varepsilon_j$ voor verschillende observaties $i$ en $j$ (waarbij $i \neq j$) mogen niet gecorreleerd zijn: $\text{Cov}(\varepsilon_i, \varepsilon_j | X_i, X_j) = 0$. Dit betekent dat er geen systematisch verband mag zijn tussen de fouten van verschillende observaties [12](#page=12).
5. **Normale verdeling van storingstermen**: De storingstermen $\varepsilon_i$ zijn normaal verdeeld: $\varepsilon_i \sim N(\dots)$. Hoewel de Gauss-Markov-stelling (zie hieronder) niet afhankelijk is van deze aanname, is normaliteit wel cruciaal voor het uitvoeren van t-testen en F-testen, en voor het construeren van betrouwbaarheidsintervallen [12](#page=12).
### 3.2 De Gauss-Markov stelling
De Gauss-Markov stelling is een fundamenteel resultaat dat de efficiëntie van de kleinste-kwadraten (Ordinary Least Squares - OLS) schatters garandeert onder de eerste vier voorwaarden van het SLRM (lineariteit, gemiddeld nul, homoscedasticiteit en ongecorreleerde storingstermen). De stelling stelt dat de OLS-schatters $\hat{\beta}_1$ en $\hat{\beta}_2$ de beste lineaire onvertekende schatters (Best Linear Unbiased Estimators - BLUE) zijn voor $\beta_1$ en $\beta_2$ [13](#page=13).
* **Lineaire functie van $Y_i$**: De OLS-schatters $\hat{\beta}_1$ en $\hat{\beta}_2$ zijn lineaire combinaties van de waargenomen waarden $Y_i$ [13](#page=13).
* $\hat{\beta}_2 = \sum_{i=1}^n c_i Y_i$, waarbij $c_i = \frac{X_i - \bar{X}}{\sum_{j=1}^n (X_j - \bar{X})^2}$ [13](#page=13).
* $\hat{\beta}_1 = \bar{Y} - \hat{\beta}_2 \bar{X}$ [14](#page=14).
* **Onvertekendheid**: De verwachtingswaarde van de schatters is gelijk aan de werkelijke parameters: $E(\hat{\beta}_1) = \beta_1$ en $E(\hat{\beta}_2) = \beta_2$ [14](#page=14).
* Het bewijs voor $E(\hat{\beta}_2)$ maakt gebruik van de lineaire structuur van de schatter en de voorwaarde $E(\varepsilon_i|X_i)=0$ [14](#page=14).
* Het bewijs voor $E(\hat{\beta}_1)$ volgt uit de onvertekendheid van $\hat{\beta}_2$ en $E(Y_i) = \beta_1 + \beta_2 X_i$ [15](#page=15).
* **Minste variantie**: $\hat{\beta}_1$ en $\hat{\beta}_2$ hebben de kleinste variantie binnen de klasse van alle lineaire en zuivere schatters voor $\beta_1$ en $\beta_2$ [13](#page=13).
* De variantie van $\hat{\beta}_2$ wordt afgeleid als $\text{Var}(\hat{\beta}_2) = \frac{\sigma^2}{\sum_{i=1}^n (X_i - \bar{X})^2} = \frac{\sigma^2}{V_X}$ [16](#page=16).
* De variantie van $\hat{\beta}_1$ wordt afgeleid als $\text{Var}(\hat{\beta}_1) = \sigma^2 \left( \frac{1}{n} + \frac{\bar{X}^2}{\sum_{i=1}^n (X_i - \bar{X})^2} \right)$ [16](#page=16).
> **Tip**: Een grote spreiding in $X$ (grote $V_X$) leidt tot kleinere varianties voor de schatters, wat resulteert in preciezere schattingen van de parameters. Een grote variantie $\sigma^2$ van de storingstermen werkt daarentegen ongunstig op de precisie.
De covariantie tussen $\hat{\beta}_1$ en $\hat{\beta}_2$ is $\text{Cov}(\hat{\beta}_1, \hat{\beta}_2) = -\bar{X} \text{Var}(\hat{\beta}_2) = -\frac{\bar{X}\sigma^2}{V_X}$. Dit impliceert dat $\hat{\beta}_1$ en $\hat{\beta}_2$ niet onafhankelijk zijn. Als $\bar{X} > 0$, is de covariantie negatief, en als $\bar{X} < 0$, is de covariantie positief [17](#page=17).
### 3.3 Standaardfouten van de parameterschattingen
De varianties van $\hat{\beta}_1$ en $\hat{\beta}_2$ bevatten de onbekende parameter $\sigma^2$. Om deze varianties te kunnen schatten, is een zuivere schatter voor $\sigma^2$ nodig [18](#page=18).
* **Zuivere schatter voor $\sigma^2$**: $\hat{\sigma}^2 = \frac{1}{n-2} \sum_{i=1}^n \hat{\varepsilon}_i^2$. Hierbij is $\hat{\varepsilon}_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_1 + \hat{\beta}_2 X_i)$ de residu, de geschatte storingsterm. De noemer $n-2$ is het aantal vrijheidsgraden, aangezien er twee parameters ($\beta_1$ en $\beta_2$) geschat worden [18](#page=18).
* **Standaardfout van de regressie**: $\hat{\sigma} = \sqrt{\frac{1}{n-2} \sum_{i=1}^n \hat{\varepsilon}_i^2}$. Dit is de geschatte standaarddeviatie van de storingstermen [18](#page=18).
* **Standaardfouten van de parameterschattingen**:
* $\text{se}(\hat{\beta}_1) = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{\bar{X}^2}{V_X}}$ [18](#page=18).
* $\text{se}(\hat{\beta}_2) = \frac{\hat{\sigma}}{\sqrt{V_X}}$ [18](#page=18).
### 3.4 Diagnostische hulpmiddelen: het nagaan van de voorwaarden
De voorwaarden van het SLRM zijn cruciaal voor de validiteit van de inferentie. Diagnostische hulpmiddelen worden gebruikt om deze voorwaarden te controleren.
#### 3.4.1 Residuplot
Een residuplot is een scatterplot van de gestandaardiseerde residuen ($\hat{\varepsilon}_i / \hat{\sigma}$) tegen de waarden van de onafhankelijke variabele $X_i$ (of de voorspelde waarden $\hat{Y}_i$). Dit plot helpt bij het beoordelen van de lineariteit van het model en homoscedasticiteit [25](#page=25).
* **Normaal beeld (lineariteit en homoscedasticiteit)**: Een ideale residuplot toont een strook van gelijke breedte rond de horizontale as ($0$) waarin de punten lukraak verspreid liggen [25](#page=25) [26](#page=26).
* **Patroon (niet-lineair model)**: Als de puntenwolk een duidelijk patroon vertoont (bijvoorbeeld een U-vorm of omgekeerde U-vorm), duidt dit op een niet-lineair verband dat niet door het lineaire model wordt vastgelegd [25](#page=25) [27](#page=27).
* **Heteroscedasticiteit**: Als de breedte van de strook met de waarde van $X_i$ varieert (een trechtervormig patroon), duidt dit op heteroscedasticiteit [25](#page=25) [26](#page=26).
* **Uitschieter**: Een punt dat ver buiten de algemene spreiding valt (residuen buiten het bereik van ongeveer $[-2, 2]$ of $[-3, 3]$) kan een uitschieter zijn [25](#page=25) [28](#page=28).
**Voorbeelden van residuplots**:
* **Kindersterfte en geletterdheid**: De residuplot voor de regressie van kindersterfte op geletterdheid laat een redelijk willekeurige spreiding zien, wat duidt op een redelijke fit en homoscedasticiteit [28](#page=28).
* **Kindersterfte en inkomen**: De residuplot voor de regressie van kindersterfte op inkomen vertoont mogelijk een lichte toename in spreiding bij hogere inkomensniveaus, wat zou kunnen duiden op enige heteroscedasticiteit [28](#page=28).
#### 3.4.2 QQ-plot (Kwantielplot)
Een QQ-plot (Quantile-Quantile plot) is een grafische techniek om te controleren of de storingstermen normaal verdeeld zijn. Het vergelijkt de empirische kwantielen van de residuen met de theoretische kwantielen van een standaard normale verdeling [25](#page=25) [29](#page=29).
* **Constructie**: De residuen worden gesorteerd: $\hat{\varepsilon}_{ } \leq \hat{\varepsilon}_{ } \leq \dots \leq \hat{\varepsilon}_{(n)}$. De empirische kwantielen worden benaderd door $\hat{\varepsilon}_{(i)}$. De theoretische kwantielen van een standaard normale verdeling ($N(0,1)$) worden verkregen met behulp van de inverse cumulatieve verdelingsfunctie, $\Phi^{-1}(p)$. Een veelgebruikte methode voor de $i$-de geordende residu is om deze te plotten tegen het $i$-de theoretische kwantiel, berekend als $\Phi^{-1}\left(\frac{i - 0.5}{n}\right)$ [1](#page=1) [29](#page=29) [2](#page=2).
* **Normaal verdeelde storingstermen**: Als de storingstermen normaal verdeeld zijn, zullen de punten in de QQ-plot een rechtlijnig patroon volgen dat de lijn $y=x$ volgt (of de lijn die de theoretische kwantielen tegen de empirische kwantielen uitzet) [29](#page=29) [30](#page=30).
* **Afwijkingen van normaliteit**:
* Een S-vorm kan duiden op scheefheid.
* Afwijkingen in de staarten (punten die ver van de rechte lijn afwijken aan de uiteinden) kunnen wijzen op zware of lichte staarten in de verdeling van de residuen [30](#page=30) [31](#page=31) [32](#page=32).
**Voorbeelden van QQ-plots**:
* **Kindersterfte en geletterdheid**: De QQ-plot voor de regressie van kindersterfte op geletterdheid toont punten die redelijk dicht bij de diagonale lijn liggen, wat suggereert dat de storingstermen bij benadering normaal verdeeld zijn [32](#page=32).
* **Kindersterfte en inkomen**: De QQ-plot voor de regressie van kindersterfte op inkomen laat eveneens een redelijk lineair patroon zien, hoewel er enige afwijking in de staarten kan zijn, wat op een mogelijke lichte schending van de normaliteitsaanname kan duiden [32](#page=32).
### 3.5 T-testen voor parameters en betrouwbaarheidsintervallen
De normaliteitsaanname van de storingstermen is nodig voor statistische inferentie, zoals t-testen en betrouwbaarheidsintervallen. Onder de aannames van het SLRM, en met $\sigma^2$ geschat door $\hat{\sigma}^2$, volgen de gestandaardiseerde parameterschatters een t-verdeling met $n-2$ vrijheidsgraden [22](#page=22) [23](#page=23):
* $\frac{\hat{\beta}_1 - \beta_1}{\text{se}(\hat{\beta}_1)} \sim t_{n-2}$
* $\frac{\hat{\beta}_2 - \beta_2}{\text{se}(\hat{\beta}_2)} \sim t_{n-2}$
#### 3.5.1 T-test voor de slope ($\beta_2$)
Deze test evalueert of er een statistisch significant lineair verband is tussen de onafhankelijke en de afhankelijke variabele.
* **Hypothesen**:
* $H_0: \beta_2 = 0$ (geen lineair verband)
* $H_1: \beta_2 \neq 0$ (wel een lineair verband) [23](#page=23).
* **Teststatistiek**: $T = \frac{\hat{\beta}_2}{\text{se}(\hat{\beta}_2)}$ [23](#page=23).
* **Beslissingsregel**: Verwerp $H_0$ als $|T| > t_{n-2, 1-\alpha/2}$, waarbij $t_{n-2, 1-\alpha/2}$ de kritieke waarde is uit de t-verdeling met $n-2$ vrijheidsgraden voor een significantieniveau $\alpha$. De p-waarde is $2 \times P(T \geq |t|)$ met $T \sim t_{n-2}$ [23](#page=23).
#### 3.5.2 Betrouwbaarheidsinterval voor de slope ($\beta_2$)
Een betrouwbaarheidsinterval (BI) geeft een bereik van waarden waarbinnen de werkelijke parameter $\beta_2$ waarschijnlijk ligt.
* **Formule**: Een $(1-\alpha)$ betrouwbaarheidsinterval voor $\beta_2$ is:
$$ \hat{\beta}_2 \pm t_{n-2, 1-\alpha/2} \times \text{se}(\hat{\beta}_2) $$ [24](#page=24).
#### 3.5.3 T-test voor de intercept ($\beta_1$)
Deze test onderzoekt of de regressielijn significant afwijkt van de oorsprong.
* **Hypothesen**:
* $H_0: \beta_1 = 0$ (regressielijn gaat door de oorsprong)
* $H_1: \beta_1 \neq 0$ (regressielijn wijkt significant af van de oorsprong) [24](#page=24).
* **Teststatistiek**: $T = \frac{\hat{\beta}_1}{\text{se}(\hat{\beta}_1)}$ [24](#page=24).
* **Beslissingsregel**: Verwerp $H_0$ als $|T| > t_{n-2, 1-\alpha/2}$. De p-waarde is $2 \times P(T \geq |t|)$ met $T \sim t_{n-2}$.
#### 3.5.4 Betrouwbaarheidsinterval voor de intercept ($\beta_1$)
* **Formule**: Een $(1-\alpha)$ betrouwbaarheidsinterval voor $\beta_1$ is:
$$ \hat{\beta}_1 \pm t_{n-2, 1-\alpha/2} \times \text{se}(\hat{\beta}_1) $$ [24](#page=24).
**Voorbeeld kindersterfte**: Voor de regressie van kindersterfte (Y) op geletterdheid (X): $\hat{Y}_i = 273.237 - 2.404 X_i$. Met $\hat{\sigma} = 44.8$, $\text{se}(\hat{\beta}_1) = 21.590$, en $\text{se}(\hat{\beta}_2) = 0.262$.
* De t-statistiek voor $\beta_2$ is $T = \frac{-2.404}{0.262} \approx -9.18$. Voor $n=50$ (aannemende $n-2=48$ vrijheidsgraden), is deze waarde significant kleiner dan de kritieke waarde ($t_{48, 0.975} \approx 2.01$), wat leidt tot verwerping van $H_0$. Er is dus een significant verband tussen geletterdheid en gemiddelde kindersterfte [25](#page=25).
### 3.6 Voorspellingen
Het lineaire regressiemodel kan worden gebruikt om voorspellingen te doen voor de afhankelijke variabele $Y_0$ bij een gegeven waarde $X_0$.
* **Puntschatting**: De puntschatting voor $Y_0$ is $\hat{Y}_0 = \hat{\beta}_1 + \hat{\beta}_2 X_0$ [33](#page=33).
* **Betrouwbaarheidsinterval voor de gemiddelde respons $E[Y_0]$**: Dit interval geeft een bereik waarbinnen de gemiddelde waarde van $Y$ bij een specifieke $X_0$ waarschijnlijk ligt. De formule is:
$$ \hat{Y}_0 \pm t_{n-2, 1-\alpha/2} \times \hat{\sigma} \sqrt{\frac{1}{n} + \frac{(X_0 - \bar{X})^2}{V_X}} $$ [34](#page=34).
* **Predictie-interval voor een individuele respons $Y_0$**: Dit interval geeft een bereik waarbinnen een individuele waarneming $Y_0$ bij een specifieke $X_0$ waarschijnlijk valt. Dit interval is breder dan het betrouwbaarheidsinterval voor de gemiddelde respons, omdat het naast de onzekerheid in de regressielijn ook de variabiliteit van individuele waarnemingen rond de regressielijn meeneemt. De formule is:
$$ \hat{Y}_0 \pm t_{n-2, 1-\alpha/2} \times \hat{\sigma} \sqrt{1 + \frac{1}{n} + \frac{(X_0 - \bar{X})^2}{V_X}} $$ [35](#page=35).
> **Tip**: Betrouwbaarheidsintervallen voor de gemiddelde respons en predictie-intervallen voor individuele responsen worden breder naarmate $X_0$ verder af ligt van $\bar{X}$. Dit reflecteert de toegenomen onzekerheid bij extrapolatie.
---
# Toepassingen en transformaties in regressieanalyse
Dit gedeelte bespreekt de toepassing van regressieanalyse op specifieke datasets en introduceert verschillende transformatietechnieken om niet-lineaire verbanden te modelleren.
## 4. Toepassingen en transformaties in regressieanalyse
Regressieanalyse wordt gebruikt om verbanden tussen variabelen te modelleren. Hoewel lineaire modellen vaak een goed startpunt zijn, zijn niet alle relaties lineair. Dit gedeelte introduceert methoden om niet-lineaire verbanden te modelleren door transformaties toe te passen op variabelen, waardoor het model lineair wordt in de parameters, of door alternatieve modelvormen te overwegen [36](#page=36).
### 4.1 Voorbeelden van regressietoepassingen
De volgende voorbeelden illustreren de toepassing van univariate lineaire regressie op datasets:
* **Huurprijs van studentenkamers:** Hierbij wordt de huurprijs ($y_i$) geregresseerd op de oppervlakte ($x_i$). De geschatte regressievergelijking kan worden gebruikt om voorspellingen te doen en de relatie te kwantificeren [21](#page=21).
* Voorbeeld data:
| $x_i$ (oppervlakte) | $y_i$ (huurprijs) | $\hat{y}_i$ (voorspeld) | $\hat{e}_i$ (residu) |
| :------------------ | :---------------- | :---------------------- | :------------------ |
| 12 | 390 | 381.8 | 8.2 |
| 13 | 405 | 414.3 | -9.3 |
| 14 | 440 | 446.8 | -6.8 |
| 15 | 495 | 479.3 | 15.7 |
| 16 | 515 | 511.8 | 3.2 |
| 17 | 515 | 544.3 | -29.3 |
| 18 | 595 | 576.8 | 18.2 |
* Geschatte parameters (voorbeeld): $\hat{\beta}_1 = -8.21$ en $\hat{\beta}_2 = 32.50$ [21](#page=21).
* Standaardfouten: $\hat{\sigma} = 18.15$, $se(\hat{\beta}_1) = 51.895$ en $se(\hat{\beta}_2) = 3.429$ [21](#page=21).
* Determinatiecoëfficiënt ($R^2$): $0.9473$ [21](#page=21).
* **Kindersterfte en geletterdheid:** Onderzocht wordt de relatie tussen kindersterfte per 1000 geboortes ($Y$) en geletterdheid bij vrouwen in procenten ($X$). De regressievergelijking is $\hat{y}_i = 273.237 - 2.404X_i$ [21](#page=21).
* Standaardfouten: $\hat{\sigma} = 44.8$, $se(\hat{\beta}_1) = 21.590$, $se(\hat{\beta}_2) = 0.262$ [21](#page=21).
* Determinatiecoëfficiënt ($R^2$): $0.637$ [21](#page=21).
* **Kindersterfte en inkomen:** De relatie tussen kindersterfte per 1000 geboortes ($Y$) en BNI per capita in dollars ($X$) wordt geanalyseerd. De regressievergelijking is $\hat{y}_i = 146.823 - 0.046x_i$ [22](#page=22).
* Standaardfouten: $\hat{\sigma} = 56.19$, $se(\hat{\beta}_1) = 13.162$, $se(\hat{\beta}_2) = 0.008$ [22](#page=22).
* Determinatiecoëfficiënt ($R^2$): $0.429$ [22](#page=22).
### 4.2 T-testen voor parameters en verdeling van schatters
De kleinstekwadratenschatters ($\hat{\beta}_1, \hat{\beta}_2$) voor de parameters zijn lineaire combinaties van de responsvariabelen $y_i$. Als de residuen $\epsilon_i$ normaal verdeeld zijn, volgen de schatters ook een normale verdeling [22](#page=22):
* $\hat{\beta}_1 \sim N(\beta_1, \text{Var}(\hat{\beta}_1))$ [22](#page=22).
* $\hat{\beta}_2 \sim N(\beta_2, \text{Var}(\hat{\beta}_2))$ [22](#page=22).
Dit maakt het mogelijk om hypothesen te toetsen en betrouwbaarheidsintervallen te construeren voor de parameters [22](#page=22).
### 4.3 Transformaties om niet-lineaire verbanden te modelleren
Wanneer een lineair model het verband tussen variabelen niet goed beschrijft, kunnen transformaties worden toegepast om het model lineariseerbaar te maken [36](#page=36).
#### 4.3.1 Log-log model
Het log-log model wordt toegepast wanneer er een vermoeden is van een machtsverband tussen de variabelen, zoals een exponentiële afname van kindersterfte met toenemend BNI [36](#page=36).
Het algemene model is:
$y_i = \beta_1 x_i^{\beta_2} \epsilon_i$
Door beide zijden van de vergelijking logaritmisch te transformeren, verkrijgt men een lineair model in de parameters:
$\ln(y_i) = \ln(\beta_1) + \beta_2 \ln(x_i) + \ln(\epsilon_i)$
Dit kan worden herschreven als:
$Y_i^* = \beta_1^* + \beta_2 X_i^* + \epsilon_i^*$
waarbij $Y_i^* = \ln(y_i)$, $X_i^* = \ln(x_i)$, $\beta_1^* = \ln(\beta_1)$, en $\epsilon_i^* = \ln(\epsilon_i)$ [36](#page=36) [37](#page=37).
* De kleinstekwadratenschatters voor $\beta_1^*$ en $\beta_2$ zijn $\hat{\beta}_1^*$ en $\hat{\beta}_2$.
* De schatter voor $\beta_1$ is $\hat{\beta}_1 = \exp(\hat{\beta}_1^*)$. Het is belangrijk op te merken dat $\hat{\beta}_1$ geen zuivere schatter is voor $\beta_1$ omdat $E[\exp(\hat{\beta}_1^*)] > \exp(E[\hat{\beta}_1^*])$ [37](#page=37).
**Interpretatie van $\beta_2$ in een log-log model:**
$\beta_2$ vertegenwoordigt de elasticiteit van $Y$ ten opzichte van $X$. Dit betekent dat een relatiewijziging in $X$ van 1 procent leidt tot een relatiewijziging in $Y$ van $\beta_2$ procent [37](#page=37).
$\beta_2 = \frac{dy}{dx} \frac{x}{y} = \frac{\text{rel. wijziging in } y}{\text{rel. wijziging in } x}$ [37](#page=37).
**Voorbeeld: Prijselasticiteit van vraag:**
Voor de vraag naar koffie, gemodelleerd met een log-log model, wordt een geschatte elasticiteit van $-0.724$ gevonden. Dit impliceert dat een prijsstijging van 1 procent leidt tot een vraagdaling van 0.724 procent. Het model voor de vraag ($V_i$) als functie van prijs ($P_i$) is [37](#page=37):
$V_i = \exp(5.334 - 0.724 \ln(P_i)) = 207.3 P_i^{-0.724}$ [37](#page=37).
**Voorbeeld: Kindersterfte ifv BNI (log-log):**
Bij het modelleren van kindersterfte ($CM_i$) afhankelijk van BNI ($BNI_i$) met een log-log model, wordt de volgende regressievergelijking gevonden:
$\ln(CM_i) = 9.183 - 0.754 \ln(BNI_i)$ [38](#page=38).
De $R^2$ is $0.61$ [38](#page=38).
Het model voor kindersterfte ifv BNI is:
$CM_i = 9732 BNI_i^{-0.754}$ [38](#page=38).
#### 4.3.2 Log-lin model
Het log-lin model wordt gebruikt voor exponentiële groei of afname, bijvoorbeeld bij de verspreiding van ziekten. Het model heeft de vorm:
$y_i = \beta_1 \exp(\beta_2 x_i) \epsilon_i$
Door de logaritme van de responsvariabele te nemen, ontstaat een lineair model in de parameters:
$\ln(y_i) = \ln(\beta_1) + \beta_2 x_i + \ln(\epsilon_i)$
Dit kan worden herschreven als:
$Y_i^* = \beta_1^* + \beta_2 X_i + \epsilon_i^*$
waarbij $Y_i^* = \ln(y_i)$ en $\beta_1^* = \ln(\beta_1)$ [39](#page=39).
**Interpretatie van $\beta_2$ in een log-lin model:**
De parameter $\beta_2$ correspondeert met de groeiconstante ($k$) in een exponentiële functie. Het geeft de relatieve verandering in $y$ weer voor een absolute verandering in $x$ [39](#page=39).
**Voorbeeld: Verspreiding SARS-COV-2:**
Voor de vastgestelde SARS-COV-2 besmettingen ($B_i$) in België, afhankelijk van de dag van de maand ($D_i$), wordt een log-lin model gebruikt:
$\ln(B_i) = 4.146 + 0.206 D_i$ [40](#page=40).
De geschatte groeiconstante is ongeveer $21\%$ [40](#page=40).
Het model voor het aantal besmettingen ifv de dag van de maand is:
$B_i = \exp(4.146 + 0.206 D_i) = 63.2 e^{0.206 D_i}$ [40](#page=40).
#### 4.3.3 Lin-log model
Het lin-log model wordt gebruikt wanneer de absolute verandering in $y$ constant is voor een relatieve verandering in $x$.
$y_i = \beta_1 + \beta_2 \ln(x_i) + \epsilon_i$ [41](#page=41).
**Interpretatie van $\beta_2$ in een lin-log model:**
$\beta_2 = \frac{dy}{dx/x} = \frac{\text{abs. wijziging in } y}{\text{rel. wijziging in } x}$. Dit betekent dat een relatiewijziging van 1 procent in $x$ leidt tot een absolute wijziging van $\frac{\beta_2}{100}$ in $y$ [41](#page=41).
#### 4.3.4 Invers model
Het invers model wordt gebruikt om asymptotische verbanden te modelleren, waarbij de responsvariabele een limietwaarde benadert voor grote waarden van de verklarende variabele.
$y_i = \beta_1 + \beta_2 \frac{1}{x_i} + \epsilon_i$ [41](#page=41).
**Interpretatie van $\beta_1$ en $\beta_2$ in een invers model:**
* $\beta_1$ vertegenwoordigt de asymptotische waarde van $E(Y)$ voor heel grote waarden van $X$ [41](#page=41).
* De interpretatie van $\beta_2$ is afhankelijk van het teken: als $\beta_2 > 0$, dan zal $y$ gemiddeld afnemen als $x$ toeneemt. Als $\beta_2 < 0$, dan zal $y$ gemiddeld toenemen als $x$ toeneemt.
**Voorbeeld: Kindersterfte ifv BNI (invers model):**
Voor kindersterfte ($CM_i$) afhankelijk van BNI per capita ($BNI_i$), wordt het invers model toegepast:
$CM_i = 38.954 + 25710.8 \frac{1}{BNI_i}$ [41](#page=41).
De $R^2$ is $0.50$ [41](#page=41).
* Een positieve $\beta_2 = 25710.8$ duidt op een dalend verband tussen kindersterfte en BNI [41](#page=41).
* De asymptotische waarde van de kindersterfte is $38.954$ overlijdens per 1000 geboortes voor zeer hoge BNI-waarden [41](#page=41).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Univariate lineaire regressie | Een statistische methode die wordt gebruikt om de lineaire relatie tussen twee variabelen te modelleren en te analyseren, waarbij één afhankelijke variabele wordt verklaard door één onafhankelijke variabele. |
| Regressieanalyse | Een statistische techniek die wordt gebruikt om het verband tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te onderzoeken, met als doel het voorspellen van de afhankelijke variabele op basis van de onafhankelijke variabelen. |
| Scatterplot | Een grafische weergave die de relatie tussen twee numerieke variabelen toont door punten te plotten op een tweedimensionaal assenstelsel, waarbij elke as een variabele vertegenwoordigt. |
| Kindersterfte | Het aantal sterfgevallen van kinderen onder een bepaalde leeftijd, meestal uitgedrukt per 1.000 levendgeborenen in een specifieke periode en regio. |
| Geletterdheid bij vrouwen | Het percentage vrouwen in een bepaalde populatie dat de basisvaardigheden van lezen en schrijven beheerst, vaak gebruikt als indicator voor sociaal-economische ontwikkeling. |
| Bruto Nationaal Inkomen (BNI) per capita | Het totale inkomen verdiend door de inwoners van een land, gedeeld door de totale bevolking, wat een maatstaf is voor de gemiddelde welvaart. |
| Totale vruchtbaarheidspercentage (TFR) | Het gemiddelde aantal kinderen dat een vrouw gedurende haar vruchtbare jaren naar verwachting zal krijgen, onder de aanname dat de huidige leeftijsspecifieke vruchtbaarheidscijfers constant blijven. |
| Populatieregressiefunctie | De theoretische gemiddelde waarde van de afhankelijke variabele Y voor een gegeven waarde van de onafhankelijke variabele X in de gehele populatie, formeel uitgedrukt als $E(Y|X)$. |
| Intercept ($\beta_1$) | De geschatte waarde van de afhankelijke variabele wanneer de onafhankelijke variabele nul is. Het is het snijpunt van de regressielijn met de y-as. |
| Helling ($\beta_2$) | De mate waarin de afhankelijke variabele verandert voor elke eenheidstoename in de onafhankelijke variabele. Het vertegenwoordigt de steilte van de regressielijn. |
| Residu | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de door het regressiemodel voorspelde waarde. Het vertegenwoordigt de onverklaarde variatie. |
| Steekproefregressiefunctie | De regressiefunctie die geschat wordt op basis van een steekproef van data, bedoeld om de populatieregressiefunctie te benaderen. Het wordt vaak aangeduid met $\hat{Y} = \hat{\beta}_1 + \hat{\beta}_2 X$. |
| Kleinstekwadratenmethode (Least Squares, LS) | Een wiskundige techniek om de beste passende lijn (of curve) door een set datapunten te vinden door de som van de kwadraten van de verticale afstanden (residuen) tussen de datapunten en de lijn te minimaliseren. |
| Standaard lineair regressiemodel (SLRM) | Een model dat specifieke aannames maakt over de relatie tussen variabelen en de storingstermen, waaronder lineariteit, gemiddeld nul storingstermen, homoscedasticiteit en ongecorreleerde storingstermen. |
| Homoscedasticiteit | De aanname in het regressiemodel dat de variantie van de storingstermen constant is voor alle waarden van de onafhankelijke variabele(n). |
| Heteroscedasticiteit | De schending van homoscedasticiteit, waarbij de variantie van de storingstermen varieert met de waarden van de onafhankelijke variabele(n). |
| Ongecorreleerde storingstermen | De aanname dat de storingstermen voor verschillende observaties niet gecorreleerd zijn, wat betekent dat de fout in de ene observatie geen invloed heeft op de fout in een andere observatie. |
| Normale verdeling van storingstermen | De aanname dat de storingstermen in een regressiemodel normaal verdeeld zijn. |
| Gauss-Markov stelling | Een fundamentele stelling in de regressieanalyse die stelt dat onder bepaalde voorwaarden (die van het Standaard Lineair Regressiemodel), de kleinstekwadratenschatters de Best Linear Unbiased Estimators (BLUE) zijn, wat betekent dat ze een lineaire functie van de data zijn, onbevooroordeeld, en de kleinst mogelijke variantie hebben. |
| Best Linear Unbiased Estimators (BLUE) | Schatters voor regressieparameters die de beste lineaire onbevooroordeelde eigenschappen bezitten, zoals gedefinieerd door de Gauss-Markov stelling. |
| Standaardfout (se) | Een maat voor de standaarddeviatie van de steekproefverdeling van een schatter. Het kwantificeert de precisie van de schatting van een parameter. |
| Determinatiecoëfficiënt ($R^2$) | Een statistische maat die aangeeft welk deel van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n) in het regressiemodel. Een $R^2$ van 1 betekent dat het model alle variantie verklaart, terwijl een $R^2$ van 0 betekent dat het model geen variantie verklaart. |
| Residuplot | Een grafiek die de residuen van een regressiemodel uitzet tegen de voorspelde waarden of tegen de onafhankelijke variabele(n). Het wordt gebruikt om de aannames van het model, zoals lineariteit en homoscedasticiteit, te beoordelen. |
| QQ-plot (Quantile-Quantile plot) | Een grafische techniek die wordt gebruikt om te controleren of een dataset uit een specifieke theoretische verdeling komt, zoals de normale verdeling. Het vergelijkt de kwantielen van de data met de kwantielen van de theoretische verdeling. |
| Betrouwbaarheidsinterval | Een bereik van waarden dat, met een bepaalde waarschijnlijkheid (het betrouwbaarheidsniveau), de ware populatieparameter bevat. |
| Predictie-interval | Een bereik van waarden dat, met een bepaalde waarschijnlijkheid, de waarde van een toekomstige individuele observatie zal bevatten. |
| Transformaties | Wiskundige operaties (zoals logaritmes, vierkantswortels) toegepast op variabelen om niet-lineaire verbanden om te zetten in lineaire verbanden, of om de aannames van een regressiemodel te verbeteren. |
| Log-log model | Een regressiemodel waarbij zowel de afhankelijke als de onafhankelijke variabele(n) worden getransformeerd met de natuurlijke logaritme. Het wordt vaak gebruikt om elastici te modelleren. |
| Log-lin model | Een regressiemodel waarbij de afhankelijke variabele wordt getransformeerd met de natuurlijke logaritme, terwijl de onafhankelijke variabele(n) onveranderd blijven. Dit model is geschikt voor het modelleren van exponentiële groei. |
| Lin-log model | Een regressiemodel waarbij de afhankelijke variabele onveranderd blijft, terwijl de onafhankelijke variabele(n) worden getransformeerd met de natuurlijke logaritme. |
| Invers model | Een regressiemodel waarbij de onafhankelijke variabele wordt getransformeerd naar zijn reciproque (1/X). Dit model kan asymptotisch gedrag van de afhankelijke variabele modelleren. |
Cover
dia h 2.pdf
Summary
# Het standaard multivariate lineaire model en zijn voorwaarden
Dit onderwerp introduceert het standaard multivariate lineaire regressiemodel, de interpretatie van zijn coëfficiënten, de schattingsmethode, de onderliggende Gauss-Markov-stelling, en de cruciale voorwaarden waaraan voldaan moet worden voor de validiteit van de inferenties.
### 1.1 Het standaard multivariate lineaire regressiemodel
Het standaard multivariate lineaire regressiemodel beschrijft de relatie tussen een afhankelijke variabele ($Y_i$) en meerdere onafhankelijke (verklarende) variabelen ($X_{2i}, X_{3i}, \dots, X_{ki}$). Het model wordt als volgt geformuleerd [1](#page=1):
$$ Y_i = \beta_1 + \beta_2 X_{2i} + \beta_3 X_{3i} + \dots + \beta_k X_{ki} + \varepsilon_i $$
waarbij:
* $Y_i$ de waarde van de afhankelijke variabele is voor observatie $i$.
* $\beta_1$ de intercept is.
* $\beta_2, \beta_3, \dots, \beta_k$ de partiële regressiecoëfficiënten (partiële slopes) zijn voor de verklarende variabelen $X_2, X_3, \dots, X_k$.
* $X_{2i}, X_{3i}, \dots, X_{ki}$ de waarden zijn van de verklarende variabelen voor observatie $i$.
* $\varepsilon_i$ de storingsterm (of residu) is voor observatie $i$.
Dit model kan ook in matrixnotatie worden uitgedrukt:
$$ \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} $$
waarbij:
* $\mathbf{Y}$ een $n \times 1$ vector is van de afhankelijke variabele.
* $\mathbf{X}$ een $n \times k$ matrix is van de verklarende variabelen, inclusief een kolom van enen voor de intercept.
* $\boldsymbol{\beta}$ een $k \times 1$ vector is van de modelparameters (coëfficiënten).
* $\boldsymbol{\varepsilon}$ een $n \times 1$ vector is van de storingstermen.
#### 1.1.1 Interpretatie van de parameters
De coëfficiënten $\beta_j$ hebben een specifieke interpretatie in het multivariate model [2](#page=2):
* $\beta_1$ vertegenwoordigt de intercept, het snijpunt met de $Y$-as wanneer alle verklarende variabelen nul zijn.
* $\beta_2, \dots, \beta_k$ zijn de partiële slopes. $\beta_j$ geeft de gemiddelde toename in $Y$ weer wanneer $X_j$ met één eenheid toeneemt, **terwijl alle andere verklarende variabelen constant worden gehouden**. Dit meet de lineaire associatie tussen $X_j$ en de conditionele verwachtingswaarde van $Y$, gecorrigeerd voor de invloed van de andere variabelen in het model.
> **Tip:** De interpretatie van de partiële slopes is cruciaal en onderscheidt multivariate van univariate regressie. Het "controleren voor andere variabelen" is hierbij essentieel.
### 1.2 De kleinstekwadratenmethode (Ordinary Least Squares - OLS)
De parameters $\beta_j$ worden geschat met behulp van de kleinstekwadratenmethode, die de som van de gekwadrateerde residu's minimaliseert. Het doel is om de schatters $\hat{\boldsymbol{\beta}}$ te vinden die [3](#page=3):
$$ \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 $$
minimaal maken, waarbij $e_i = Y_i - \hat{Y}_i$ de geschatte residu is.
In matrixnotatie wordt de schatter voor $\boldsymbol{\beta}$ gegeven door:
$$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y} $$
Deze formule vereist dat de matrix $\mathbf{X}^T\mathbf{X}$ inverteerbaar is.
#### 1.2.1 Voorbeeld: kindersterfte
Het model voor kindersterfte (CM) als functie van geletterdheid bij vrouwen (L) en de total fertility rate (TFR) is een voorbeeld [4](#page=4):
$$ \text{CM}_i = 65.983 - 1.027 L_i + 26.593 \text{TFR}_i $$
Hier betekent $\beta_L = -1.027$ dat een toename van L met 1 eenheid, bij constante TFR, leidt tot een gemiddelde daling van de kindersterfte met 1.027. $\beta_{\text{TFR}} = 26.593$ betekent dat een toename van TFR met 1 eenheid, bij constante L, leidt tot een gemiddelde stijging van de kindersterfte met 26.593.
#### 1.2.2 Voorbeeld: Cobb-Douglas productiefunctie
De Cobb-Douglas productiefunctie, $P_i = \alpha A_i^{\beta_2} K_i^{\beta_3}$, wordt lineair in de parameters na logaritmische transformatie:
$$ \ln(P_i) = \ln(\alpha) + \beta_2 \ln(A_i) + \beta_3 \ln(K_i) + \varepsilon_i $$
Dit wordt een standaard lineair model met $\beta_1 = \ln(\alpha)$, $X_{2i} = \ln(A_i)$ en $X_{3i} = \ln(K_i)$ [4](#page=4).
> **Voorbeeld:** In het BNP van Taiwan model, $\ln(P_i) = 1.505 + 0.399 \ln(A_i) + 0.628 \ln(K_i)$, vertegenwoordigt $0.399$ de arbeidselasticiteit van de productie en $0.628$ de kapitaalelasticiteit [5](#page=5).
### 1.3 De Gauss-Markov stelling
De Gauss-Markov stelling stelt dat de kleinstekwadratenschatters ($\hat{\beta}_j$) in het Standaard Lineaire Regressiemodel (SLRM) de beste lineaire onvertekende schatters (Best Linear Unbiased Estimators - BLUE) zijn. Dit betekent dat [5](#page=5):
1. $\hat{\beta}_j$ een lineaire functie is van de waarnemingen $Y_i$.
2. $E(\hat{\beta}_j) = \beta_j$ (onvertekend).
3. $\hat{\beta}_j$ de kleinste variantie heeft binnen de klasse van alle lineaire en onvertekende schatters.
De varianties en covarianties van de schatters worden gegeven door:
$$ \text{Cov}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^T\mathbf{X})^{-1} $$
waarbij $\sigma^2$ de variantie van de storingstermen is. Een zuivere schatter voor $\sigma^2$ is:
$$ \hat{\sigma}^2 = \frac{1}{n-k} \sum_{i=1}^n e_i^2 $$
#### 1.3.1 Standaardfouten
De precisie van de schatters wordt gemeten door hun standaardfouten, die de wortel uit de variantie van de schatters zijn ($se(\hat{\beta}_j) = \sqrt{\text{Var}(\hat{\beta}_j)}$). Ze worden gebruikt voor hypothesetesten en betrouwbaarheidsintervallen [6](#page=6).
> **Voorbeeld:** In het kindersterfte voorbeeld, de geschatte coëfficiënt voor L is $-1.027$ met een standaardfout van $0.293$ [6](#page=6).
### 1.4 Determinatiecoëfficiënt ($R^2$) en Aangepaste Determinatiecoëfficiënt ($R^2_{adj}$)
* **Determinatiecoëfficiënt ($R^2$)**: Meet het percentage van de totale variatie in de afhankelijke variabele ($Y$) dat wordt verklaard door de verklarende variabelen in het model [6](#page=6).
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
waarbij $SSM$ de som van de kwadraten verklaard door het model is en $SSE$ de som van de kwadraten van de residu's.
* **Aangepaste Determinatiecoëfficiënt ($R^2_{adj}$)**: Penalisering voor modellen met te veel variabelen, met name wanneer deze variabelen weinig extra verklarende waarde toevoegen [7](#page=7).
$$ R^2_{adj} = 1 - (1 - R^2) \frac{n-1}{n-k} $$
Een hogere $R^2_{adj}$ is wenselijk, en deze kan afnemen wanneer een extra variabele niet voldoende bijdraagt aan de verklaring van de variatie.
> **Voorbeeld:** In het kindersterftevoorbeeld [7](#page=7):
> * Model met L en TFR: $R^2 = 0.8029$, $R^2_{adj} = 0.7945$.
> * Model met L, TFR en BNI: $R^2 = 0.815$, $R^2_{adj} = 0.803$.
> De toevoeging van BNI verhoogt $R^2$, maar de $R^2_{adj}$ stijgt slechts marginaal, wat aangeeft dat BNI mogelijk niet veel extra waarde toevoegt.
### 1.5 Voorwaarden van het Standaard Multivariate Lineaire Model
Voor de correcte toepassing van hypothesetesten en de geldigheid van de BLUE-eigenschappen, moet aan de volgende voorwaarden worden voldaan [1](#page=1) [7](#page=7):
1. **Lineariteit**: Het model moet lineair zijn in de parameters. Dit betekent niet noodzakelijk lineair in de variabelen zelf; transformaties zoals logaritmes of polynomiale termen zijn toegestaan [4](#page=4).
2. **Gemiddeld nul storingstermen**: $E(\varepsilon_i) = 0$ voor alle $i$.
3. **Homoscedasticiteit**: De variantie van de storingstermen is constant voor alle observaties: $\text{Var}(\varepsilon_i) = \sigma^2$ voor alle $i$.
4. **Ongecorreleerde storingstermen**: De storingstermen zijn niet gecorreleerd met elkaar: $\text{Cov}(\varepsilon_i, \varepsilon_j) = 0$ voor $i \neq j$.
5. **Normaal verdeelde storingstermen**: $\varepsilon_i \sim N(0, \sigma^2)$. Deze voorwaarde is vooral belangrijk voor kleine steekproeven om t- en F-verdelingen te rechtvaardigen.
6. **Geen perfecte multicollineariteit**: Geen enkele verklarende variabele mag een perfecte lineaire combinatie zijn van andere verklarende variabelen.
#### 1.5.1 Geen perfecte multicollineariteit
Perfecte multicollineariteit treedt op wanneer een verklarende variabele exact kan worden uitgedrukt als een lineaire combinatie van andere verklarende variabelen in het model. In dit geval is de matrix $\mathbf{X}^T\mathbf{X}$ singulier (niet-inverteerbaar), waardoor de kleinstekwadratenschatters niet berekend kunnen worden [2](#page=2).
> **Tip:** Als $X_3 = 2X_2$, dan is het onmogelijk om de afzonderlijke effecten van $\beta_2$ en $\beta_3$ te schatten, omdat ze niet van elkaar te onderscheiden zijn in de totale verklaring van $Y$.
#### 1.5.2 Niet-perfecte maar hoge multicollineariteit
Wanneer er sprake is van *hoge*, maar niet perfecte multicollineariteit, zijn de kleinstekwadratenschatters nog steeds BLUE, maar hun precisie neemt af. Dit manifesteert zich in [14](#page=14):
* Grote standaardfouten voor de coëfficiëntschatters ($\hat{\beta}_j$), zelfs als de $R^2$ van het model hoog is.
* Gevoeligheid van de parameterschattingen voor kleine veranderingen in de data.
* Ongewone tekens of onwaarschijnlijk grote waarden van de geschatte coëfficiënten.
#### 1.5.3 Meten van multicollineariteit: Variance Inflation Factor (VIF)
De Variance Inflation Factor (VIF) kwantificeert hoe sterk de variantie van een geschatte coëfficiënt wordt opgeblazen door multicollineariteit. Voor elke predictor $X_j$ wordt een regressie uitgevoerd van $X_j$ op alle andere verklarende variabelen, en de bijbehorende $R^2_j$ wordt berekend. De VIF is dan [14](#page=14):
$$ \text{VIF}(\hat{\beta}_j) = \frac{1}{1 - R_j^2} $$
* Als $R_j^2 = 0$ (geen correlatie), dan VIF = 1.
* Een VIF groter dan 10 wordt vaak beschouwd als indicatie van ernstige multicollineariteit.
> **Voorbeeld:** In het kindersterftevoorbeeld met L, TFR en BNI, de VIF-waarden zijn $2.30$ voor L, $2.72$ voor TFR en $1.69$ voor BNI. Deze waarden suggereren geen ernstige multicollineariteit [15](#page=15).
#### 1.5.4 Dummyvariabelen
Nominale variabelen (zoals geslacht, diploma) kunnen worden opgenomen in een lineair model door ze om te zetten in dummyvariabelen (met waarden 0 of 1). Als een variabele $m$ mogelijke uitkomsten heeft, worden $m-1$ dummyvariabelen aangemaakt, waarbij één uitkomst als referentiecategorie dient. Het toevoegen van $m$ dummyvariabelen in plaats van $m-1$ leidt tot perfecte multicollineariteit, aangezien de $m$-de dummy perfect te voorspellen is uit de andere $m-1$ [15](#page=15).
> **Voorbeeld:** Om 'diploma' (bachelor, master) op te nemen, kan men één dummyvariabele maken: $D_{\text{master}} = 1$ als de werknemer een masterdiploma heeft, en $D_{\text{master}} = 0$ anders (referentiecategorie is 'bachelor').
### 1.6 Testen van de modellen
* **T-testen voor parameters**: Testen of een individuele partiële slope ($\beta_j$) significant verschilt van nul. De teststatistiek volgt een t-verdeling met $n-k$ vrijheidsgraden [8](#page=8).
$$ t = \frac{\hat{\beta}_j - \beta_{j, H_0}}{se(\hat{\beta}_j)} $$
Onder de nulhypothese $H_0: \beta_j = 0$.
* **ANOVA voor fit**: Een globale test die nagaat of *alle* partiële slopes gezamenlijk significant verschillen van nul ($H_0: \beta_2 = \beta_3 = \dots = \beta_k = 0$). De teststatistiek volgt een F-verdeling met $k-1$ en $n-k$ vrijheidsgraden [9](#page=9).
$$ F = \frac{SSM / (k-1)}{SSE / (n-k)} $$
Er is een directe relatie tussen de F-statistiek en $R^2$: $F$ is een stijgende functie van $R^2$ [11](#page=11).
* **Diagnostische plots**: Residuplots en QQ-plots helpen bij het controleren van de modelaannames, zoals lineariteit, homoscedasticiteit en normaliteit van de storingstermen [12](#page=12).
> **Tip:** Het controleren van de onderstellingen met diagnostische plots is essentieel, aangezien de validiteit van de t- en F-testen afhangt van het voldoen aan deze voorwaarden.
---
# Kleinstekwadratenmethode en parameterschatting
De kleinstekwadratenmethode biedt een manier om modelparameters te schatten door de som van de gekwadrateerde afwijkingen tussen de waargenomen waarden en de voorspelde waarden te minimaliseren [3](#page=3).
### 2.1 De kleinstekwadratenmethode
#### 2.1.1 Kernconcept
De kern van de kleinstekwadratenmethode is het minimaliseren van de som van de gekwadrateerde residuen ($\hat{\epsilon}_i$). Dit wordt wiskundig uitgedrukt als [3](#page=3):
$$ \sum_{i=1}^{n} \hat{\epsilon}_i^2 = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 $$
#### 2.1.2 Matrixnotatie
Voor een multivariat model, beschreven door $Y = X\beta + \epsilon$, waarbij $Y$ de vector van afhankelijke variabelen is, $X$ de matrix van onafhankelijke variabelen (inclusief een constante term), $\beta$ de vector van parameters, en $\epsilon$ de vector van fouttermen, wordt de som van gekwadrateerde residuen uitgedrukt als $\hat{\epsilon}^T \hat{\epsilon}$. Het residu $\hat{\epsilon}$ is gedefinieerd als $\hat{\epsilon} = Y - X\hat{\beta}$ [3](#page=3).
#### 2.1.3 Afleiding van de parameterschatters
De parameterschatters $\hat{\beta}$ worden gevonden door de functie $S(\beta) = (Y - X\beta)^T (Y - X\beta)$ te minimaliseren. Door de partiële afgeleiden naar $\beta$ gelijk te stellen aan nul en op te lossen, verkrijgt men de kleinstekwadraatschatters [3](#page=3):
$$ \hat{\beta} = (X^T X)^{-1} X^T Y $$
Deze berekening wordt doorgaans uitgevoerd met behulp van statistische software [3](#page=3).
#### 2.1.4 Toepassing in economische modellen
##### 2.1.4.1 Kindersterfte model
Een voorbeeld van de toepassing van de kleinstekwadratenmethode is het modelleren van kindersterfte (CM) als functie van de geletterdheid bij vrouwen (L) en de totale vruchtbaarheidsgraad (TFR). Een multivariat model kan er als volgt uitzien [4](#page=4):
$$ \text{CM}_i = \beta_1 + \beta_2 L_i + \beta_3 \text{TFR}_i + \epsilon_i $$
In een specifiek voorbeeld:
$$ \text{CM}_i = 65.983 - 1.027 L_i + 26.593 \text{TFR}_i $$
Hieruit kan worden afgeleid dat bij een constante TFR, een toename van L met één eenheid leidt tot een gemiddelde daling van de kindersterfte met 1.027, terwijl bij een constante L, een toename van TFR met één eenheid leidt tot een gemiddelde stijging van de kindersterfte met 26.593 [4](#page=4).
##### 2.1.4.2 Cobb-Douglas productiefunctie
De Cobb-Douglas productiefunctie, $P_i = \alpha A_i^{\beta_2} K_i^{\beta_3}$, kan worden getransformeerd om lineair te zijn in de parameters door de natuurlijke logaritme te nemen [4](#page=4):
$$ \ln(P_i) = \ln(\alpha) + \beta_2 \ln(A_i) + \beta_3 \ln(K_i) + \epsilon_i $$
Dit kan worden herschreven als een lineair regressiemodel:
$$ \ln(P_i) = \beta_1 + \beta_2 \ln(A_i) + \beta_3 \ln(K_i) + \epsilon_i $$
waarbij $\beta_1 = \ln(\alpha)$. Dit model kan worden geschat met de kleinstekwadratenmethode [4](#page=4).
##### 2.1.4.3 BNP van Taiwan voorbeeld
Door de Cobb-Douglas productiefunctie voor het BNP van Taiwan toe te passen en log-getransformeerde gegevens te gebruiken, verkreeg men de volgende schatting:
$$ \ln(P_i) = 1.505 + 0.399 \ln(A_i) + 0.628 \ln(K_i) $$
Door de transformatie om te keren, verkrijgt men de geschatte productiefunctie:
$$ P_i = \exp[1.505 + 0.399 \ln(A_i) + 0.628 \ln(K_i)] = 4.503 A_i^{0.399} K_i^{0.628} $$
De arbeidselasticiteit van de productie is 0.399 en de kapitaalelasticiteit is 0.628. Omdat de som van de parameters $\beta_2 + \beta_3 \approx 1$ (0.399 + 0.628 = 1.027), suggereert dit constante schaalopbrengsten [5](#page=5).
### 2.2 Gauss-Markov stelling
#### 2.2.1 Stelling
De Gauss-Markov stelling stelt dat de kleinstekwadratenschatters $\hat{\beta}_j$ ($j=1, \dots, k$) in het Standaard Lineaire Regressie Model (SLRM) de Beste Lineaire Onvertekende Schatters (BLUE - Best Linear Unbiased Estimators) zijn. Dit betekent dat [5](#page=5):
1. $\hat{\beta}_j$ een lineaire functie is van de waargenomen waarden $Y_i$ [5](#page=5).
2. $E(\hat{\beta}_j) = \beta_j$, dus de schatters zijn onvertekend [5](#page=5).
3. $\hat{\beta}_j$ de kleinste variantie heeft binnen de klasse van zuivere en lineaire schatters [5](#page=5).
#### 2.2.2 Variantie-covariantiematrix en schatter voor variantie
De varianties en covarianties van de schatters $\hat{\beta}$ worden gegeven door de formule:
$$ \text{Cov}(\hat{\beta}) = \sigma^2 (X^T X)^{-1} $$
Een zuivere schatter voor de variantie $\sigma^2$ van de fouttermen is:
$$ \hat{\sigma}^2 = \frac{1}{n-k} \sum_{i=1}^{n} \hat{\epsilon}_i^2 $$
waarbij $n$ het aantal observaties is en $k$ het aantal te schatten parameters (inclusief de constante term) [5](#page=5).
### 2.3 Standaardfouten
#### 2.3.1 Concept
Standaardfouten meten de precisie van de parameterschatters. De standaardfout van $\hat{\beta}_j$ is de wortel van de variantie van $\hat{\beta}_j$. Aangezien $\sigma^2$ onbekend is, wordt deze geschat met $\hat{\sigma}^2$, wat leidt tot de schatting van de standaardfouten, aangeduid als $se(\hat{\beta}_j)$ [6](#page=6).
#### 2.3.2 Voorbeeld
In het kindersterfte model:
$$ \text{CM}_i = 65.983 - 1.027 L_i + 26.293 \text{TFR}_i $$
De geschatte parameters worden weergegeven met hun standaardfouten tussen haakjes eronder:
$$ \text{CM}_i = 65.983 - 1.027 L_i + 26.293 \text{TFR}_i $$
$$ (36.664) \quad (0.293) \quad (4.228) $$
met $\hat{\sigma} = 33.36$ [6](#page=6).
### 2.4 Determinatiecoëfficiënt ($R^2$)
#### 2.4.1 Concept
De determinatiecoëfficiënt ($R^2$) meet de "goodness-of-fit" van een regressiemodel. Het geeft het percentage van de totale variatie in de afhankelijke variabele $Y$ weer dat verklaard wordt door de onafhankelijke variabelen gezamenlijk [6](#page=6).
$$ R^2 = \frac{\text{SSM}}{\text{SST}} = \frac{\sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2}{\sum_{i=1}^{n} (Y_i - \bar{Y})^2} $$
Hierin is SSM de som van de kwadraten verklaard door het model (Sum of Squares Model) en SST de totale som van de kwadraten (Total Sum of Squares) [6](#page=6).
#### 2.4.2 Belang en beperkingen
Een hoge $R^2$ is wenselijk, maar mag geen doel op zich zijn. Het toevoegen van meer variabelen aan het model zal de $R^2$ altijd vergroten, zelfs als de toegevoegde variabelen niet significant zijn. Dit kan leiden tot overfitting, waarbij het model te complex wordt en slecht generaliseert naar nieuwe data [6](#page=6).
### 2.5 Aangepaste determinatiecoëfficiënt ($R^2_{adj}$)
#### 2.5.1 Concept
De aangepaste determinatiecoëfficiënt (adjusted $R^2$) penaliseert het toevoegen van onnodige variabelen aan het model. Het wordt berekend als:
$$ R^2_{\text{adj}} = 1 - \left(1 - R^2\right) \frac{n-1}{n-k} $$
waarbij $n$ het aantal observaties en $k$ het aantal geschatte parameters is [7](#page=7).
#### 2.5.2 Gedrag bij toevoegen van variabelen
Bij het toevoegen van een extra variabele kan de $R^2$ toenemen, maar de $R^2_{\text{adj}}$ kan zowel toenemen als afnemen. De $R^2_{\text{adj}}$ neemt alleen toe als de bijdrage van de extra variabele aan de verklaring van de variatie significant genoeg is om de straf voor het vergroten van $k$ te compenseren [7](#page=7).
#### 2.5.3 Voorbeeld
Bij het kindersterfte model:
* Model met alleen L: $R^2 = 0.637$, $R^2_{\text{adj}} = 0.6294$ [7](#page=7).
* Model met L en TFR: $R^2 = 0.8029$, $R^2_{\text{adj}} = 0.7945$ [7](#page=7).
* Model met L, TFR en BNI: $R^2 = 0.815$, $R^2_{\text{adj}} = 0.803$ [7](#page=7).
In dit voorbeeld neemt de $R^2_{\text{adj}}$ toe wanneer TFR wordt toegevoegd, wat duidt op een verbetering van het model. De toevoeging van BNI verhoogt de $R^2$, maar de $R^2_{\text{adj}}$ stijgt minder sterk, wat suggereert dat BNI minder belangrijke toegevoegde waarde heeft [7](#page=7).
### 2.6 Testen van parameters en model fit
#### 2.6.1 T-testen voor parameters
##### 2.6.1.1 Hypothesen en teststatistiek
Voor elke parameter $\beta_j$ kan een t-test worden uitgevoerd om te toetsen of deze parameter significant verschilt van nul. De nulhypothese is typisch $H_0: \beta_j = 0$, en de alternatieve hypothese $H_1: \beta_j \neq 0$. De teststatistiek is de t-statistiek [8](#page=8):
$$ t = \frac{\hat{\beta}_j - \beta_j}{se(\hat{\beta}_j)} $$
Onder de nulhypothese ($H_0: \beta_j = 0$), volgt de teststatistiek een t-verdeling met $n-k$ vrijheidsgraden [8](#page=8).
##### 2.6.1.2 Beslissingsregel en p-waarde
De nulhypothese wordt verworpen indien de berekende t-waarde kleiner is dan $-t_{n-k, 1-\alpha/2}$ of groter dan $t_{n-k, 1-\alpha/2}$, waar $\alpha$ het significantieniveau is. De p-waarde is de kans om een teststatistiek te observeren die minstens zo extreem is als de berekende waarde, gegeven dat de nulhypothese waar is: $p\text{-waarde} = 2 \times P(|T| \ge |t|)$ met $T \sim t_{n-k}$ [8](#page=8).
##### 2.6.1.3 Betrouwbaarheidsinterval
Een betrouwbaarheidsinterval voor $\beta_j$ wordt gegeven door:
$$ [\hat{\beta}_j - t_{n-k, 1-\alpha/2} se(\hat{\beta}_j), \hat{\beta}_j + t_{n-k, 1-\alpha/2} se(\hat{\beta}_j)] $$
Als dit interval nul niet bevat, wordt de nulhypothese verworpen op significantieniveau $\alpha$ [8](#page=8).
#### 2.6.2 ANOVA voor model fit
##### 2.6.2.1 Concept
Terwijl t-testen de significantie van individuele parameters toetsen, biedt de ANOVA (Analysis of Variance) een globale test voor de fit van het multivariate regressiemodel. De nulhypothese is dat alle partiële hellingen gelijk zijn aan nul: $H_0: \beta_2 = \beta_3 = \dots = \beta_k = 0$. De alternatieve hypothese is dat ten minste één van de parameters ongelijk is aan nul [9](#page=9).
##### 2.6.2.2 Teststatistiek
De F-teststatistiek wordt berekend als:
$$ F = \frac{\text{SSM}/(k-1)}{\text{SSE}/(n-k)} $$
waarbij SSE de som van de kwadraten van de residuen is (Sum of Squared Errors). Onder de nulhypothese volgt de F-statistiek een F-verdeling met $k-1$ en $n-k$ vrijheidsgraden [9](#page=9).
##### 2.6.2.3 Interpretatie
Een grote F-waarde suggereert dat de verklarende variabelen gezamenlijk een significant deel van de variatie in $Y$ verklaren (SSM groot, SSE klein). De nulhypothese wordt verworpen als $F > F_{k-1, n-k, 1-\alpha}$. De p-waarde is $P(F \ge f)$ met $F \sim F_{k-1, n-k}$ [9](#page=9).
##### 2.6.2.4 Voorbeeld (kindersterfte)
De output van software (R) voor het kindersterfte model toont t-testen voor individuele parameters en een F-test voor de algehele fit [10](#page=10).
Voor het model `CM ~ LitF + BNI + TFR`:
* F-statistic: 67.55 op 3 en 46 DF, p-value: < 2.2e-16. Dit wijst op een zeer significante algehele fit [10](#page=10).
Voor het model `CM ~ LitF + TFR`:
* F-statistic: 95.72 op 2 en 47 DF, p-value: < 2.2e-16. Ook hier is de algehele fit zeer significant [10](#page=10).
### 2.7 Eigenschappen van testen
#### 2.7.1 Verband tussen F en $R^2$
Er bestaat een direct verband tussen de F-statistiek en de determinatiecoëfficiënt $R^2$:
$$ F = \frac{\text{SSM}/(k-1)}{\text{SSE}/(n-k)} = \frac{\text{SSM}/(k-1)}{(SST - SSM)/(n-k)} = \frac{n-k}{k-1} \frac{\text{SSM}/SST}{1 - \text{SSM}/SST} = \frac{n-k}{k-1} \frac{R^2}{1-R^2} $$
De F-statistiek is een stijgende functie van $R^2$. Als $R^2=0$, dan $F=0$. Als $R^2$ naar 1 gaat, gaat $F$ naar oneindig [11](#page=11).
#### 2.7.2 ANOVA bij univariate regressie
Bij univariate regressie ($k=2$, met één verklarende variabele en een constante), is de t-test voor de hellingparameter equivalent aan de F-test voor de algehele model fit. De kwadraat van de t-statistiek met $\nu$ vrijheidsgraden is gelijk aan een F-statistiek met 1 en $\nu$ vrijheidsgraden ($T^2 \sim F_{1,\nu}$) [11](#page=11).
Voor univariate regressie met $n$ observaties en één verklarende variabele:
$$ F = \frac{\text{SSM}/(2-1)}{\text{SSE}/(n-2)} = \frac{\text{SSM}}{\text{SSE}/(n-2)} $$
De t-teststatistiek voor de helling $\beta_2$ is:
$$ t = \frac{\hat{\beta}_2}{se(\hat{\beta}_2)} $$
De relatie $F = t^2$ geldt hier [11](#page=11).
---
# Statistische toetsen en modeldiagnostiek
Dit deel behandelt de statistische toetsen die gebruikt worden om parameters van lineaire regressiemodellen te evalueren en de algehele fit van het model te beoordelen, evenals methoden om de onderstellingen van het model te controleren met diagnostische plots [10](#page=10) [11](#page=11) [12](#page=12) [13](#page=13) [8](#page=8) [9](#page=9).
### 3.1 T-testen voor parameters
T-testen worden gebruikt om individuele parameters in een lineair regressiemodel te toetsen. De standaardlineaire regressiemodel (SLRM) gaat ervan uit dat de storingstermen ($\epsilon_i$) normaal verdeeld zijn wat impliceert dat de geschatte coëfficiënten ($\hat{\beta}_j$) ook normaal verdeeld zijn: $\hat{\beta}_j \sim \mathcal{N}(\beta_j, \text{Var}(\hat{\beta}_j))$. De variantie van $\hat{\beta}_j$, $\text{Var}(\hat{\beta}_j)$, wordt geschat met een zuivere schatter $\hat{\sigma}^2$, wat leidt tot de t-verdeling [8](#page=8):
$$
\frac{\hat{\beta}_j - \beta_j}{\text{se}(\hat{\beta}_j)} \sim t_{n-k}
$$
waarbij $\text{se}(\hat{\beta}_j)$ de standaardfout van $\hat{\beta}_j$ is, en $n-k$ de vrijheidsgraden zijn, met $n$ het aantal observaties en $k$ het aantal parameters in het model (inclusief de intercept) [8](#page=8).
#### 3.1.1 Hypothesetesten voor $\beta_j$
De nulhypothese die getoetst wordt is $H_0: \beta_j = 0$, wat betekent dat de verklarende variabele $X_j$ geen lineair verband heeft met de afhankelijke variabele $Y$ na controle voor andere variabelen in het model. De toetsstatistiek is [8](#page=8):
$$
T = \frac{\hat{\beta}_j}{\text{se}(\hat{\beta}_j)}
$$
Onder de nulhypothese volgt $T$ een $t$-verdeling met $n-k$ vrijheidsgraden. De nulhypothese wordt verworpen als de berekende toetsstatistiek $t$ kleiner is dan de linker kritieke waarde of groter dan de rechter kritieke waarde van de $t$-verdeling bij een gegeven significantieniveau $\alpha$, oftewel $t < -t_{n-k, 1-\alpha/2}$ of $t > t_{n-k, 1-\alpha/2}$ [8](#page=8).
De p-waarde is tweezijdig gedefinieerd als $2 \times P[T > |t|]$ met $T \sim t_{n-k}$. Een betrouwbaarheidsinterval voor $\beta_j$ wordt gegeven door [8](#page=8):
$$
[\hat{\beta}_j - t_{n-k, 1-\alpha/2} \text{se}(\hat{\beta}_j), \hat{\beta}_j + t_{n-k, 1-\alpha/2} \text{se}(\hat{\beta}_j)
$$
Hierbij is $t_{n-k, 1-\alpha/2}$ de kritieke waarde uit de $t$-verdeling met $n-k$ vrijheidsgraden die $1-\alpha/2$ van de kans in de linkerstaart bevat [8](#page=8).
### 3.2 ANOVA voor model fit
De ANOVA (Analysis of Variance) toets wordt gebruikt om de algehele fit van het regressiemodel te evalueren door te testen of ten minste één van de partiële regressiecoëfficiënten ongelijk is aan nul. In tegenstelling tot de t-testen die individuele parameters toetsen, is de ANOVA een globale test voor alle partiële slopes ($\beta_2, \ldots, \beta_k$) tegelijk [9](#page=9).
#### 3.2.1 Hypotheses voor de algehele fit
De nulhypothese stelt dat alle partiële slopes gelijk zijn aan nul:
$H_0: \beta_2 = \beta_3 = \ldots = \beta_k = 0$ [9](#page=9).
De alternatieve hypothese is dat ten minste één van de $\beta_j$ ongelijk is aan nul:
$H_1: \exists j \text{ waarvoor } \beta_j \neq 0$ [9](#page=9).
#### 3.2.2 Toetsstatistiek en interpretatie
De toetsstatistiek voor de ANOVA is de F-statistiek:
$$
F = \frac{\text{SSM}/(k-1)}{\text{SSE}/(n-k)}
$$
waarbij SSM (Sum of Squares Model) de verklaarde variantie door het model is, SSE (Sum of Squares Error) de residuele variantie is, $k-1$ de vrijheidsgraden van het model zijn (het aantal verklarende variabelen), en $n-k$ de vrijheidsgraden van de residuen zijn [9](#page=9).
Onder de nulhypothese ($H_0: \beta_2 = \ldots = \beta_k = 0$) en de aannames van SLRM, volgt de F-statistiek een F-verdeling met $k-1$ en $n-k$ vrijheidsgraden: $F \sim F_{k-1, n-k}$ [9](#page=9).
* Als de invloed van de verklarende variabelen beperkt is, zal SSM klein zijn en SSE groot, wat resulteert in een kleine F-waarde [9](#page=9).
* Als de verklarende variabelen veel variatie verklaren, zal SSM groot zijn en SSE klein, wat resulteert in een grote F-waarde [9](#page=9).
De nulhypothese wordt verworpen als de berekende F-waarde groot is, specifiek als $F > F_{k-1, n-k, 1-\alpha}$, waarbij $F_{k-1, n-k, 1-\alpha}$ de kritieke waarde uit de F-verdeling is. De p-waarde is $P[F \ge f]$ met $F \sim F_{k-1, n-k}$ [9](#page=9).
#### 3.2.3 Verband tussen F en $R^2$
Er bestaat een direct verband tussen de F-statistiek en de multiple correlatiecoëfficiënt ($R^2$):
$$
F = \frac{\text{SSM}/(k-1)}{\text{SSE}/(n-k)} = \frac{\text{SSM}/(k-1)}{(SST - \text{SSM})/(n-k)} = \frac{n-k}{k-1} \frac{\text{SSM}/SST}{1 - \text{SSM}/SST} = \frac{n-k}{k-1} \frac{R^2}{1-R^2}
$$
De F-statistiek is een stijgende functie van $R^2$. Als $R^2=0$, dan $F=0$. Naarmate $R^2$ toeneemt, neemt $F$ ook toe [11](#page=11).
#### 3.2.4 ANOVA bij univariate regressie
Bij univariate regressie (slechts één verklarende variabele) zijn de t-test voor de slope en de ANOVA equivalent. De F-statistiek voor $k=2$ is gelijk aan het kwadraat van de t-statistiek ($T^2$). Dit komt omdat het kwadraat van een t-verdeelde variabele met $v$ vrijheidsgraden volgt een F-verdeling met 1 en $v$ vrijheidsgraden ($X \sim t_v \Rightarrow X^2 \sim F_{1,v}$) [11](#page=11).
> **Tip:** De ANOVA is vooral nuttig in multivariate regressie om de algehele significantie van het model te beoordelen wanneer er meerdere verklarende variabelen zijn [9](#page=9).
#### 3.2.5 Voorbeeld: kindersterfte
In het gegeven document wordt een voorbeeld gegeven van een regressieanalyse voor kindersterfte (CM) met LitF, BNI en TFR als verklarende variabelen. De output toont een F-statistiek van 67.55 met een p-waarde van minder dan 2.2e-16, wat significant is en indiceert dat ten minste één van de verklarende variabelen significant geassocieerd is met kindersterfte. Een tweede voorbeeld toont de analyse na het verwijderen van BNI, waar de F-statistiek 95.72 is met een vergelijkbaar lage p-waarde [10](#page=10).
### 3.3 Modeldiagnostiek: onderstellingen controleren
De geldigheid van t-testen en ANOVA is afhankelijk van de onderstellingen van het Standaard Lineaire Regressiemodel (SLRM). Het is daarom cruciaal om deze onderstellingen te controleren met behulp van diagnostische plots [12](#page=12).
#### 3.3.1 Diagnostische plots
Twee veelgebruikte diagnostische plots zijn de residuplot en de QQ-plot [12](#page=12).
* **Residuplot:** Deze plot toont de gestandaardiseerde residu's ($\hat{e}_i$) tegen de voorspelde waarden ($\hat{y}_i$) [12](#page=12).
* **Ideaal patroon:** Een willekeurige puntenwolk tussen de waarden -2 en 2, zonder duidelijke patronen [12](#page=12).
* **Schending:** Patronen zoals een trechtervorm (heteroscedasticiteit), krommingen (niet-lineariteit) of clustering van punten kunnen wijzen op schendingen van de SLRM-onderstellingen [12](#page=12).
> **Voorbeeld (Kindersterfte):** De voorbeeld residuplot toont een redelijk willekeurige spreiding van punten rond nul, met de meeste residu's tussen -1 en 1, wat suggereert dat de meeste onderstellingen voor dit model relatief goed worden nagekomen [12](#page=12).
* **QQ-plot (Quantile-Quantile plot):** Deze plot vergelijkt de empirische kwantielen van de residu's met de theoretische kwantielen van een normale verdeling [12](#page=12).
* **Ideaal patroon:** Een rechtlijnig patroon, wat aangeeft dat de residu's ongeveer normaal verdeeld zijn [12](#page=12).
* **Schending:** Afwijkingen van de rechte lijn, zoals S-vormige patronen of een boogvorm, duiden op afwijkingen van normaliteit [12](#page=12).
> **Voorbeeld (Kindersterfte):** De voorbeeld QQ-plot laat zien dat de steekproefkwantielen (Sample Quantiles) redelijk goed langs de theoretische kwantielen (Theoretical Quantiles) liggen, vooral in het midden. Er is een lichte afwijking aan de uitersten, wat kan wijzen op lichte schendingen van normaliteit, maar over het algemeen is het patroon redelijk lineair [13](#page=13).
> **Tip:** Bij het interpreteren van diagnostische plots is het belangrijk om te zoeken naar patronen die consistent wijzen op een schending van een specifieke onderstelling. Kleine afwijkingen zijn vaak acceptabel, vooral bij grotere steekproeven [12](#page=12).
### 3.4 Modelopbouwstrategieën
Hoewel dit deel zich voornamelijk richt op testen en diagnostiek, wordt kort ingegaan op modelopbouwstrategieën. Automatische selectie van verklarende variabelen kan tijdrovend zijn als alle mogelijke modellen worden geëvalueerd. Veelgebruikte methoden zijn [13](#page=13):
* **Voorwaartse regressie (forward selection):** Begint met een leeg model en voegt stapsgewijs de variabele toe die de grootste verbetering oplevert (bv. grootste absolute t-waarde of kleinste p-waarde, met $p < \alpha$) [13](#page=13).
* **Achterwaartse regressie (backward elimination):** Begint met een volledig model en verwijdert stapsgewijs de variabele die de minste bijdrage levert (bv. kleinste absolute t-waarde of grootste p-waarde, met $p > \alpha$) [13](#page=13).
* **Stapsgewijze regressie (stepwise regression):** Een combinatie waarbij in elke stap variabelen kunnen worden toegevoegd of verwijderd [13](#page=13).
> **Let op:** Deze automatische procedures geven niet altijd het beste model [13](#page=13).
---
# Uitbreidingen van het lineaire model: multicollineariteit, dummyvariabelen en interactietermen
Dit onderwerp verdiept de analyse van lineaire modellen door aandacht te besteden aan uitdagingen zoals multicollineariteit, het omgaan met categorische predictoren via dummyvariabelen, en het modelleren van complexere relaties met interactietermen [14](#page=14) [19](#page=19) [2](#page=2).
### 4.1 Multicollineariteit
Multicollineariteit treedt op wanneer een verklarende variabele in een lineair regressiemodel lineair geassocieerd kan worden met één of meer andere verklarende variabelen. In het standaard multivariate lineaire regressiemodel, $Y_i = \beta_1 + \beta_2 X_{2i} + \beta_3 X_{3i} + \epsilon_i$, wordt multicollineariteit een probleem als bijvoorbeeld $X_{3i} = 2X_{2i}$. In dit geval kan het model herschreven worden als $Y_i = \beta_1 + (\beta_2 + 2\beta_3) X_{2i} + \epsilon_i$, waardoor het model effectief minder parameters heeft en de oorspronkelijke parameters $\beta_2$ en $\beta_3$ niet langer individueel geschat kunnen worden [14](#page=14) [2](#page=2).
#### 4.1.1 Gevolgen van multicollineariteit
Hoewel het model nog steeds een voorspellend vermogen kan hebben, leiden (niet-perfecte) multicollineariteitsproblemen tot een verminderde precisie van de geschatte parameters ($\beta_j$). Dit uit zich in hogere varianties voor de schatters. De covariantie matrix van de parameterschatters wordt gegeven door $\text{Cov}(\hat{\boldsymbol{\beta}}) = \sigma^2 (X^T X)^{-1}$. Wanneer de determinant van $X^T X$ klein is (wat duidt op multicollineariteit), zullen de waarden in de diagonale elementen van $(X^T X)^{-1}$, die gerelateerd zijn aan de varianties van de schatters, groot zijn [14](#page=14).
#### 4.1.2 Detecteren van multicollineariteit
Kenmerken van aanzienlijke multicollineariteit zijn:
* Grote standaardfouten van de schatters, ondanks een hoge $R^2$ voor het gehele model [14](#page=14).
* Kleine wijzigingen in de gegevens die leiden tot grote verschuivingen in de parameterschattingen [14](#page=14).
* Geschatte parameters die een "verkeerd" teken hebben of onwaarschijnlijke groottes vertonen [14](#page=14).
#### 4.1.3 Meten van multicollineariteit met VIF
Een veelgebruikte maatstaf om de ernst van multicollineariteit te kwantificeren is de variance inflation factor (VIF). Om de VIF voor een predictor $X_j$ te berekenen, wordt een regressiemodel opgesteld waarbij $X_j$ wordt verklaard door alle andere verklarende variabelen in het model. De bijbehorende determinatiecoëfficiënt, $R_j^2$, wordt bepaald. De VIF voor $\beta_j$ wordt vervolgens berekend als [14](#page=14):
$$ \text{VIF}(\hat{\beta}_j) = \frac{1}{1 - R_j^2} $$
Als een predictor $X_j$ niet gecorreleerd is met de andere predictoren, is $R_j^2 = 0$ en $\text{VIF}(\hat{\beta}_j) = 1$. Wanneer $X_j$ sterk gecorreleerd is met andere predictoren, nadert $R_j^2$ naar 1, wat resulteert in een VIF groter dan 1. Een VIF groter dan 10 wordt doorgaans beschouwd als een indicatie van ernstige multicollineariteit [14](#page=14).
> **Tip:** De VIF berekent hoe sterk de variantie van de geschatte coëfficiënt $\hat{\beta}_j$ wordt "opgeblazen" door de correlatie met andere predictoren.
> **Voorbeeld:** In een studie naar kindersterfte (CM) als functie van geletterdheid bij vrouwen (L), total fertility rate (TFR) en BNI per capita (BNI), was het regressiemodel: $CM_i = 86.66 - 0.96 L_i + 23.36 TFR_i - 0.010 BNI_i$ met $R^2=0.82$. De berekende VIF's waren 2.30 voor L, 2.72 voor TFR en 1.69 voor BNI. Aangezien alle VIF's ver onder 10 liggen, is er geen aanwijzing voor sterke multicollineariteit in dit model [15](#page=15).
### 4.2 Dummyvariabelen
Dummyvariabelen worden gebruikt om nominale (categorische) predictoren, zoals geslacht, diploma, of regio, op te nemen in een lineair regressiemodel. Een nominale variabele met $m$ mogelijke uitkomsten wordt omgezet in $m-1$ dummyvariabelen, waarbij elke dummyvariabele de waarde 0 of 1 aanneemt. Eén uitkomst wordt als referentiecategorie aangeduid en krijgt geen eigen dummyvariabele. Als alle $m$ dummyvariabelen zouden worden opgenomen, zou dit leiden tot perfecte multicollineariteit, aangezien de som van de dummyvariabelen gelijk zou zijn aan een constante (of de intercept) [15](#page=15).
#### 4.2.1 Implementatie van dummyvariabelen
Stel, we willen het brutoloon modelleren als functie van ervaring en diploma (bachelor versus master). Eerst bekijken we een model met enkel ervaring: $E(B) = 2485.99 + 40.28 J$. Dit model suggereert dat starterslonen gemiddeld 2485.99 euro bedragen en dat elke extra jaar ervaring leidt tot een gemiddelde loonstijging van 40.28 euro [16](#page=16) [17](#page=17).
Om het effect van het diploma mee te nemen, creëren we een dummyvariabele, $D$, waarbij $D=0$ voor een bachelor en $D=1$ voor een master. Het model wordt uitgebreid naar: $E(B) = 1998.63 + 44.17 J + 792.85 D$ [15](#page=15) [17](#page=17).
* Voor werknemers met een bachelor ($D=0$): $E(B) = 1998.63 + 44.17 J$. Het startersloon is gemiddeld 1998.63 euro.
* Voor werknemers met een master ($D=1$): $E(B) = (1998.63 + 792.85) + 44.17 J = 2791.48 + 44.17 J$. Het startersloon is gemiddeld 2791.48 euro.
> **Tip:** De coëfficiënt van de dummyvariabele ($\beta_{diplomamaster}$ in dit geval) vertegenwoordigt het *verschil* in de gemiddelde uitkomst (brutoloon) tussen de categorie die door de dummyvariabele wordt vertegenwoordigd (master) en de referentiecategorie (bachelor), *terwijl de andere variabelen (ervaring) constant worden gehouden* [17](#page=17).
#### 4.2.2 Interpretatie van de intercept en slopes met dummyvariabelen
In het model $E(B) = 1998.63 + 44.17 J + 792.85 D$:
* De intercept ($1998.63$) is het gemiddelde startersloon voor de referentiecategorie (bachelor) [17](#page=17).
* De coëfficiënt van ervaring ($44.17$) geeft aan dat loon met 44.17 euro stijgt per extra jaar ervaring, *ongeacht het diplomaniveau* [17](#page=17).
* De coëfficiënt van de dummyvariabele ($792.85$) geeft aan dat het gemiddelde startersloon voor masters 792.85 euro hoger ligt dan dat voor bachelors [17](#page=17).
### 4.3 Interactietermen
Interactietermen worden gebruikt om te modelleren of het effect van een predictor op de responsvariabele wijzigt afhankelijk van de waarde van een andere predictor. Met andere woorden, ze vangen het *interactie-effect* tussen predictoren op. Wanneer een interactieterm van twee predictoren, $V$ en $W$, wordt toegevoegd aan een model, is het essentieel dat de onderliggende predictoren $V$ en $W$ zelf ook in het model aanwezig zijn [19](#page=19).
#### 4.3.1 Modelleren van interactie-effecten
Laten we het eerdere voorbeeld van brutoloon uitbreiden met een interactieterm tussen ervaring ($J$) en diploma ($D$, waarbij $D=0$ voor bachelor, $D=1$ voor master). Het model wordt [19](#page=19):
$$ E(B) = \beta_1 + \beta_2 J + \beta_3 D + \beta_4 (D \cdot J) $$
Hierbij wordt de interactieterm aangeduid als $J:D$ [19](#page=19).
Het geschatte model met de interactieterm is: $E(B) = 2206.10 + 34.39 J + 377.24 D + 20.85 D \cdot J$ [20](#page=20).
De interpretatie wordt nu complexer:
* **Voor bachelors ($D=0$):**
$E(B) = 2206.10 + 34.39 J + 377.24 + 20.85 (0 \cdot J)$ .
$E(B) = 2206.10 + 34.39 J$
Het gemiddelde startersloon voor bachelors is 2206.10 euro, en elke extra jaar ervaring leidt tot een stijging van 34.39 euro [20](#page=20).
* **Voor masters ($D=1$):**
$E(B) = 2206.10 + 34.39 J + 377.24 + 20.85 (1 \cdot J)$ [1](#page=1).
$E(B) = (2206.10 + 377.24) + (34.39 + 20.85) J$
$E(B) = 2583.34 + 55.24 J$
Het gemiddelde startersloon voor masters is 2583.34 euro, en elke extra jaar ervaring leidt tot een stijging van 55.24 euro [20](#page=20).
#### 4.3.2 Interpretatie van de coëfficiënten met interactietermen
In het interactiemodel $E(B) = 2206.10 + 34.39 J + 377.24 D + 20.85 D \cdot J$:
* De intercept ($2206.10$) is het gemiddelde startersloon voor de referentiegroep (bachelor, $D=0$) [20](#page=20).
* De coëfficiënt van de eerste predictor ($J$, $34.39$) is de *slope* van die predictor voor de referentiegroep (bachelor) [20](#page=20).
* De coëfficiënt van de dummyvariabele ($D$, $377.24$) is het *verschil* in de intercept tussen de niet-referentiegroep (master) en de referentiegroep (bachelor) [20](#page=20).
* De coëfficiënt van de interactieterm ($D \cdot J$, $20.85$) is de *verandering in de slope* van de eerste predictor ($J$) wanneer men overgaat van de referentiegroep (bachelor) naar de niet-referentiegroep (master). Dit betekent dat het effect van ervaring op het loon voor masters $20.85$ euro hoger is dan voor bachelors [20](#page=20).
> **Tip:** Een significant interactieterm duidt erop dat de relatie tussen een predictor en de responsvariabele verschilt voor verschillende niveaus van de andere predictor. Dit resulteert in parallelle regressielijnen (geen interactie) versus niet-parallelle regressielijnen (interactie).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Multivariate lineaire regressie | Een statistische methode die de lineaire relatie tussen een afhankelijke variabele en twee of meer onafhankelijke variabelen modelleert. Het doel is om te begrijpen hoe de onafhankelijke variabelen de afhankelijke variabele gezamenlijk beïnvloeden. |
| Standaard multivariate lineaire model (SLRM) | Een regressiemodel dat een lineair verband veronderstelt tussen de gemiddelde waarde van de afhankelijke variabele en een lineaire combinatie van de onafhankelijke variabelen, met een toevoeging van een storingsterm die aan specifieke voorwaarden voldoet. |
| Partiële slope (richtingscoëfficiënt) | De gemiddelde verandering in de afhankelijke variabele wanneer een specifieke onafhankelijke variabele met één eenheid toeneemt, terwijl alle andere onafhankelijke variabelen constant worden gehouden. |
| Intercept | De verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen gelijk zijn aan nul. In de context van multivariate regressie is dit het punt waar het regressievlak de y-as snijdt. |
| Kleinstekwadratenmethode | Een wiskundige methode om de "beste" schatting te vinden voor de parameters van een model door de som van de gekwadrateerde verschillen tussen de geobserveerde waarden en de voorspelde waarden te minimaliseren. |
| Residuen | Het verschil tussen de werkelijke geobserveerde waarde van de afhankelijke variabele en de waarde die door het regressiemodel wordt voorspeld. Residuen vertegenwoordigen de niet-verklaarde variatie in de afhankelijke variabele. |
| Multicollineariteit | Een fenomeen waarbij twee of meer onafhankelijke variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn. Dit kan leiden tot onstabiele en onbetrouwbare parameterschattingen. |
| Gauss-Markov stelling | Stelt dat de kleinstekwadratenschatters voor de parameters in een lineair regressiemodel de Best Linear Unbiased Estimators (BLUE) zijn, mits aan bepaalde voorwaarden wordt voldaan. |
| Standaardfout van een schatter | Een maat voor de precisie van een schatter. Het is de standaarddeviatie van de steekproevenverdeling van de schatter en geeft aan hoeveel de schatter naar verwachting varieert rond de ware parameterwaarde. |
| Determinatiecoëfficiënt ($R^2$) | Een statistische maat die het percentage van de totale variatie in de afhankelijke variabele weergeeft dat verklaard wordt door de onafhankelijke variabelen in het model. Een hogere $R^2$ duidt op een betere fit. |
| Aangepaste determinatiecoëfficiënt ($R^2_{adj}$) | Een aangepaste versie van de determinatiecoëfficiënt die rekening houdt met het aantal onafhankelijke variabelen in het model. Het wordt gebruikt om modellen met een verschillend aantal predictoren eerlijker te vergelijken, omdat het penaliseert voor het toevoegen van overbodige variabelen. |
| T-test voor een parameter | Een statistische toets om te bepalen of een specifieke onafhankelijke variabele een significant lineair effect heeft op de afhankelijke variabele, door te testen of de bijbehorende parameterschatting significant verschilt van nul. |
| ANOVA (Variantieanalyse) | Een statistische methode die wordt gebruikt om de variantie tussen groepen te analyseren en te bepalen of de gemiddelden van deze groepen significant van elkaar verschillen. In regressiecontext wordt het gebruikt voor een globale test van de fit van het model. |
| Diagnostische plots | Grafische hulpmiddelen die worden gebruikt om de onderstellingen van een statistisch model te controleren, zoals de lineariteit van de relatie, de homoscedasticiteit van de residuen, en de normaliteit van de storingstermen. |
| Residuplot | Een plot van de gestandaardiseerde residuen tegen de voorspelde waarden. Het helpt bij het identificeren van patronen die wijzen op schendingen van de modelonderstellingen, zoals heteroscedasticiteit of niet-lineariteit. |
| QQ-plot (Quantile-Quantile plot) | Een grafische techniek die wordt gebruikt om te beoordelen of een dataset (in dit geval de gestandaardiseerde residuen) een bepaalde theoretische verdeling volgt, meestal de normale verdeling. |
| Modelopbouw (Model building) | Het proces van het selecteren van de meest geschikte onafhankelijke variabelen en hun interacties om een regressiemodel te creëren dat de relatie tussen variabelen effectief beschrijft. Methoden zoals voorwaartse en achterwaartse selectie worden hierbij gebruikt. |
| Variance Inflation Factor (VIF) | Een maatstaf voor de mate van multicollineariteit in een regressiemodel. Een hoge VIF-waarde voor een predictor geeft aan dat deze sterk gecorreleerd is met andere predictoren in het model. |
| Dummyvariabele | Een binaire variabele die wordt gebruikt om categorische predictoren met twee of meer niveaus in een regressiemodel op te nemen. Meestal neemt deze de waarde 0 of 1 aan. |
| Interactieterm | Een term in een regressiemodel die het gecombineerde effect van twee of meer onafhankelijke variabelen op de afhankelijke variabele modelleert. Het vertegenwoordigt een afwijking van het additieve effect van de variabelen. |
Cover
dia h 3.pdf
Summary
# Inleiding tot niet-parametrische testen
Dit deel introduceert niet-parametrische testen als een alternatief voor parametrische testen wanneer aan de onderliggende aannames niet voldaan is, met specifieke aandacht voor hun bruikbaarheid bij kleine steekproeven en nominale/ordinale meetschalen.
### 1.1 Parametrische versus niet-parametrische testen
Parametrische testen, zoals de t-test en ANOVA, steunen op aannames over de verdeling van de populatie, met name de normaliteitsverdeling. Wanneer deze aannames niet voldaan zijn, of wanneer men werkt met kleine steekproeven, worden niet-parametrische testen een waardevol alternatief. Deze testen zijn niet gericht op specifieke parameters van een verdeling. Ze zijn met name nuttig bij relatief kleine steekproeven, bijvoorbeeld in pilootstudies. Soms kunnen ze ook toegepast worden bij nominale of ordinale meetschalen, waarbij ze bekend staan als rangordetesten [1](#page=1).
> **Tip:** Niet-parametrische testen zijn een belangrijke uitbreiding van de statistische analysemethoden, vooral wanneer de klassieke aannames van parametrische testen geschonden worden.
### 1.2 Power van niet-parametrische testen
De keuze tussen een parametrische en een niet-parametrische test hangt niet alleen af van de beschikbare informatie, maar ook van de statistische power van de test. Over het algemeen hebben niet-parametrische testen een lagere power dan hun parametrische tegenhangers. Echter, als de aannames van een parametrische test niet voldaan zijn, kan deze test juist een lagere power hebben en bovendien onbetrouwbare conclusies opleveren [2](#page=2).
### 1.3 Testen voor de verdeling (goodness-of-fit)
Een specifieke toepassing van statistische testen betreft het toetsen of een populatie een bepaalde verdeling volgt, zoals een normale, exponentiële of andere verdeling. Deze "goodness-of-fit" testen onderzoeken of de data uit een steekproef bewijs levert dat de werkelijke verdeling afwijkt van de voorgestelde verdeling [2](#page=2).
Er bestaan diverse goodness-of-fit testen, waaronder:
* Pearson $\chi^2$-test [2](#page=2).
* Kolmogorov-Smirnov test [2](#page=2).
* Cramér-Von Mises test [2](#page=2).
* Shapiro-Wilk test [2](#page=2).
* Anderson-Darling test [2](#page=2).
De keuze voor een specifieke test hangt af van het type verdeling, de steekproefgrootte en andere factoren [2](#page=2).
> **Tip:** Het niet verwerpen van de nulhypothese bij een goodness-of-fit test betekent niet automatisch dat de voorgestelde verdeling de juiste is. Het betekent enkel dat er onvoldoende bewijs is gevonden om de voorgestelde verdeling te verwerpen [2](#page=2).
---
# Goodness-of-fit testen voor verdelingen
Goodness-of-fit testen worden gebruikt om te bepalen of een steekproef overeenkomt met een specifieke theoretische verdeling [2](#page=2) [3](#page=3).
### 2.1 Algemene principes
* Het doel is na te gaan of een populatie normaal, exponentieel, of een andere specifieke verdeling volgt, door de steekproefgegevens te vergelijken met de theoretische verdeling [3](#page=3).
* Als de nulhypothese ($H_0$) niet verworpen wordt, betekent dit niet automatisch dat de veronderstelde verdeling correct is, maar enkel dat er onvoldoende bewijs is om deze te verwerpen [3](#page=3).
* De keuze van de test hangt af van het type verdeling, de steekproefgrootte, en de beschikbare informatie [2](#page=2) [3](#page=3).
* Niet-parametrische testen hebben doorgaans een lagere power dan parametrische testen, maar een parametrische test kan ook een lagere power hebben als de onderstellingen niet voldaan zijn, wat bovendien tot onbetrouwbare conclusies kan leiden [2](#page=2).
### 2.2 Pearson x²-test
De Pearson x²-test wordt gebruikt om te onderzoeken of een discrete of continue verdeling past bij de steekproefgegevens, waarbij de geobserveerde aantallen worden vergeleken met de verwachte aantallen [3](#page=3) [4](#page=4).
#### 2.2.1 Concept
* De test werkt met aantallen en is dus geschikt voor nominale meetschalen [3](#page=3).
* **Nulhypothese ($H_0$)**: De kansvariabele $Y$ volgt een specifieke kansverdeling $f_0$ [3](#page=3).
* **Alternatieve hypothese ($H_1$)**: De kansvariabele $Y$ volgt een andere kansverdeling [3](#page=3).
* De mogelijke uitkomsten van $Y$ worden verdeeld in $k$ klassen [3](#page=3).
* De kans op een uitkomst in klasse $i$ wordt genoteerd als $p_i$ [3](#page=3).
* Bij een steekproefgrootte $n$, is het verwachte aantal waarnemingen in klasse $i$ gelijk aan $n p_i$ [3](#page=3).
* Het werkelijke aantal waarnemingen in klasse $i$ wordt genoteerd als $N_i$ [3](#page=3).
#### 2.2.2 Teststatistiek
De teststatistiek vergelijkt de waargenomen en verwachte aantallen:
$$X^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i}$$ [4](#page=4).
* Voor twee klassen ($k=2$), kan de teststatistiek ook geschreven worden als:
$$X^2 = \frac{(N_1 - np_1)^2}{np_1} + \frac{(N_2 - np_2)^2}{np_2}$$ [4](#page=4).
Onder $H_0$ voor grote $n$, en indien $N_1 \sim B(n, p_1)$, kan deze worden herschreven als:
$$X^2 = \frac{N_1 - np_1}{\sqrt{np_1(1-p_1)}}^2$$ [4](#page=4).
Dit volgt een chi-kwadraat verdeling met $k-1$ vrijheidsgraden ($X_{k-1}^2$) [4](#page=4).
* Als $H_0$ onwaarschijnlijk is, zullen de afwijkingen in de teller groot zijn, wat resulteert in een grote $X^2$-waarde [4](#page=4).
* $H_0$ wordt verworpen als $X^2$ groter is dan de kritieke waarde $X_{k-1, 1-\alpha}^2$ [4](#page=4).
#### 2.2.3 Opmerkingen en aanpassingen
* De $X^2$-benadering is enkel betrouwbaar bij grote waarden van $n$. Een vuistregel is dat het verwachte aantal per klasse ($np_i$) minimaal 5 moet zijn [5](#page=5).
* De test kan ook gebruikt worden voor continue verdelingen, maar met beperkte power [5](#page=5).
* Als de verdeling parameters bevat die geschat moeten worden, leidt dit tot een kleinere afwijking. De vrijheidsgraden moeten dan gecorrigeerd worden: $k - 1 - m$, waarbij $m$ het aantal geschatte parameters is [5](#page=5).
#### 2.2.4 Voorbeelden
* **Eerlijke dobbelsteen:** Bij 120 worpen worden de geobserveerde aantallen vergeleken met de verwachte 20 per getal. Als de teststatistiek $X^2 = 11.30$ is en de kritieke waarde $X_{5, 0.95}^2 = 11.07$, wordt $H_0$ verworpen, wat suggereert dat de dobbelsteen vervalst is [5](#page=5).
* **Representatieve steekproef (leeftijd):** Een steekproef van 200 Gentenaars wordt vergeleken met de populatieverdeling. Na het berekenen van de kansen en verwachte aantallen per leeftijdsgroep, wordt de teststatistiek $X^2 = 6.92$ berekend. Met een kritieke waarde van $X_{5, 0.95}^2 = 11.07$ en een $p$-waarde van 0.23, wordt $H_0$ niet verworpen; de verdeling in de steekproef wijkt niet significant af van de populatie [6](#page=6).
* **Call center (Poisson verdeling):** Om te testen of het aantal oproepen per minuut Poisson verdeeld is, wordt de parameter $\lambda$ geschat uit de steekproef als $\hat{\lambda} = 3.17$. De berekende teststatistiek is $X^2 = 20.49$. Met 9 klassen en 1 geschatte parameter, zijn er $9 - 1 - 1 = 7$ vrijheidsgraden. Aangezien $20.49 > X_{7, 0.95}^2 = 14.07$, wordt $H_0$ verworpen [1](#page=1) [7](#page=7).
### 2.3 Kolmogorov-Smirnov test
De Kolmogorov-Smirnov (KS) test is een niet-parametrische test die gebruikt wordt om te bepalen of een steekproef afkomstig is uit een specifieke continue verdelingsfunctie ($F_0$) [8](#page=8).
#### 2.3.1 Concept
* **Nulhypothese ($H_0$)**: De kansvariabele $X$ heeft een cumulatieve verdelingsfunctie $F_0$ [8](#page=8).
* **Alternatieve hypothese ($H_1$)**: De kansvariabele $X$ heeft een andere cumulatieve verdelingsfunctie [8](#page=8).
* De test maakt gebruik van de empirische verdelingsfunctie ($\hat{F}_n$), die het aantal waarnemingen kleiner dan of gelijk aan $x$ deelt door $n$:
$$\hat{F}_n(x) = \frac{\text{aantal waarnemingen } \le x}{n}$$ [8](#page=8).
* De teststatistiek ($D$) is de maximale absolute afwijking tussen de theoretische en de empirische verdelingsfunctie:
$$D = \max |F_0(x) - \hat{F}_n(x)|$$ [8](#page=8).
#### 2.3.2 Toepassing en beperkingen
* De test is enkel bruikbaar voor een volledig gespecificeerde, continue verdeling $F_0$ [8](#page=8).
* De verdeling van $D$ onder $H_0$ is onafhankelijk van $F_0$, wat de test breed toepasbaar maakt [9](#page=9).
* De KS-test heeft een lagere power dan tests die specifiek zijn voor een bepaalde verdeling, zoals de Shapiro-Wilk test voor normaliteit [9](#page=9).
* De test is minder gevoelig voor afwijkingen in de staarten van de verdeling vergeleken met tests zoals de Anderson-Darling test [9](#page=9).
#### 2.3.3 Voorbeeld
* **Exponentiële wachttijd:** Om te testen of wachttijden exponentieel verdeeld zijn met $\lambda = 0.04$ (gemiddelde 25), wordt de KS-test toegepast op een steekproef van 12 waarnemingen. De grootste afwijking is $D = 0.21455$, met een $p$-waarde van 0.6386. Omdat $0.6386 > 0.05$, wordt $H_0$ niet verworpen; de verdeling van de wachttijd wijkt niet significant af van $Exp(0.04)$ [10](#page=10).
* **Tip:** De Kolmogorov-Smirnov test is gevoelig voor duplicaten in de data, wat een waarschuwing kan geven tijdens de analyse [10](#page=10).
### 2.4 Lilliefors test
De Lilliefors test is een aangepaste versie van de Kolmogorov-Smirnov test voor het geval dat de parameters van de theoretische verdeling (bijvoorbeeld het gemiddelde en de standaardafwijking van een normale verdeling) geschat moeten worden uit de steekproef [10](#page=10).
* Wanneer parameters geschat worden, is de standaard KS-test niet meer geldig omdat de empirische verdeling dichter bij de geschatte verdeling ligt, waardoor de kritieke waarden kleiner moeten zijn [10](#page=10).
* De Lilliefors test gebruikt aangepaste kritieke waarden voor de normale verdeling wanneer $\mu$ en $\sigma^2$ geschat zijn [10](#page=10).
#### 2.4.1 Voorbeeld
* **BEL20 rendement:** Om te testen of het rendement van de BEL20 normaal verdeeld is met onbekende parameters, worden $\mu$ en $\sigma^2$ geschat op respectievelijk 0.3460 en 0.3996. De standaard KS-test met deze geschatte parameters geeft een $p$-waarde van 0.4447. Echter, de Lilliefors correctie, die rekening houdt met de parameterestimatie, levert een $p$-waarde van 0.07 op. Dit wordt ook bevestigd door de SPSS output waarbij de Lilliefors gecorrigeerde $p$-waarde 0.070 is, vergeleken met de standaard KS $p$-waarde van 0.4447. Op een significantieniveau van 5% zou $H_0$ dus niet verworpen worden met de Lilliefors test [11](#page=11).
### 2.5 Shapiro-Wilk test
De Shapiro-Wilk test is specifiek ontworpen om normaliteit te toetsen en wordt algemeen beschouwd als een van de krachtigste tests voor deze aanname, vooral bij kleinere steekproeven [12](#page=12).
#### 2.5.1 Concept
* **Nulhypothese ($H_0$)**: De kansvariabele $X$ is normaal verdeeld ($X \sim N(\mu, \sigma^2)$) [12](#page=12).
* **Alternatieve hypothese ($H_1$)**: De kansvariabele $X$ is niet normaal verdeeld [12](#page=12).
* De teststatistiek $W$ is gebaseerd op de verhouding tussen een gewogen som van de geordende steekproefobservaties en de totale steekproefvariantie:
$$W = \frac{(\sum_{i=1}^{n} a_i X_{(i)})^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}$$ [12](#page=12).
waarbij $X_{(i)}$ de geordende steekproefobservaties zijn en $a_i$ coëfficiënten die afhangen van de steekproefgrootte en de verwachte waarden van geordende normaal verdeelde random variabelen.
* $W$ is altijd kleiner dan of gelijk aan 1. Waarden dicht bij 1 duiden op normaliteit [12](#page=12).
* Een normale QQ-plot, die empirische kwantielen uitzet tegenover theoretische kwantielen van de normale verdeling, kan helpen bij het visueel beoordelen van normaliteit en de aard van afwijkingen [12](#page=12).
#### 2.5.2 Toepassing en interpretatie
* De teststatistiek en de $p$-waarde worden meestal berekend met statistische software [12](#page=12).
* De Shapiro-Wilk test heeft relatief grote power [13](#page=13).
* Bij grote steekproeven kan zelfs een kleine afwijking van normaliteit leiden tot een significant resultaat. Het is daarom belangrijk om altijd diagnostische QQ-plots te gebruiken om de grootte en aard van de afwijkingen te bestuderen [13](#page=13).
#### 2.5.3 Voorbeeld
* **BEL20 rendement:** Voor de rendementen van de BEL20 wordt de Shapiro-Wilk test uitgevoerd. De teststatistiek is $W = 0.870$ met een $p$-waarde van 0.012. Op een significantieniveau van 5% wordt $H_0$ verworpen, wat aangeeft dat de verdeling van het rendement significant afwijkt van de normale verdeling. De bijbehorende QQ-plot toont dat bepaalde waarnemingen duidelijk afwijken van het lineaire patroon dat normaliteit zou impliceren [12](#page=12) [13](#page=13).
---
# De Pearson x2-test
De Pearson x2-test is een statistische methode die wordt gebruikt om te toetsen of de geobserveerde verdeling van categorische data significant afwijkt van een verwachte of hypothetische verdeling. Deze test is met name geschikt voor nominale meetschalen en vergelijkt aantallen waarnemingen [3](#page=3).
### 3.1 Basisprincipes van de Pearson x2-test
De kern van de Pearson x2-test is het vergelijken van de werkelijke aantallen waargenomen in verschillende categorieën ($N_i$) met de verwachte aantallen in diezelfde categorieën ($n p_i$), gebaseerd op een nulhypothese over de kansverdeling ($f_0$) [3](#page=3) [4](#page=4).
#### 3.1.1 Nullhypothese en Alternatieve Hypothese
* **Nulhypothese ($H_0$)**: De kansvariabele $Y$ volgt een specifieke, bekende kansverdeling ($f_0$). Bijvoorbeeld, bij een eerlijke dobbelsteen is de kans op elk getal gelijk aan $\frac{1}{6}$ [3](#page=3).
* **Alternatieve Hypothese ($H_1$)**: De kansvariabele $Y$ heeft een andere kansverdeling dan $f_0$ [3](#page=3).
#### 3.1.2 Klassen en Verwachte Aantallen
De mogelijke uitkomsten van de kansvariabele $Y$ worden verdeeld in $k$ klassen. Voor elke klasse $i$ wordt de kans op een uitkomst $\pi_i$ aangenomen onder de nulhypothese. Gegeven een steekproefgrootte $n$, is het verwachte aantal waarnemingen in klasse $i$ gelijk aan $n p_i$ [3](#page=3).
#### 3.1.3 Teststatistiek
De teststatistiek $X^2$ wordt berekend door de gekwadrateerde verschillen tussen de geobserveerde aantallen ($N_i$) en de verwachte aantallen ($n p_i$), gedeeld door de verwachte aantallen, over alle klassen te sommeren [4](#page=4).
$$ X^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i} $$
Een grote waarde van de $X^2$ statistiek duidt op significante afwijkingen tussen de geobserveerde en verwachte aantallen, wat leidt tot het verwerpen van de nulhypothese [4](#page=4).
#### 3.1.4 Vrijheidsgraden
Het aantal vrijheidsgraden ($v$) van de $X^2$-verdeling hangt af van het aantal klassen ($k$) en het aantal parameters van de kansverdeling dat geschat is uit de data [4](#page=4) [5](#page=5).
* Als de verdeling volledig gespecificeerd is onder $H_0$ (geen parameters geschat), dan is het aantal vrijheidsgraden $v = k - 1$ [4](#page=4).
* Als $m$ parameters van de verdeling worden geschat uit de data, dan wordt het aantal vrijheidsgraden gecorrigeerd tot $v = k - 1 - m$. Dit komt doordat het schatten van parameters de afwijkingen kan verminderen [5](#page=5).
#### 3.1.5 Interpretatie van Resultaten
Om de nulhypothese te toetsen, wordt de berekende $X^2$ statistiek vergeleken met een kritieke waarde uit de $X^2$-verdeling met de juiste vrijheidsgraden bij een bepaald significantieniveau ($\alpha$) [4](#page=4).
* Als $X^2 > X_{v, 1-\alpha}$, dan wordt de nulhypothese verworpen op het niveau $\alpha$ [4](#page=4).
* De p-waarde geeft de kans weer om een teststatistiek te observeren die minstens zo extreem is als de berekende $X^2$, gegeven dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot het verwerpen van $H_0$ [5](#page=5) [6](#page=6) [7](#page=7).
> **Tip:** De Pearson x2-test is een benadering die enkel betrouwbaar is bij voldoende grote steekproeven. Een veelgebruikte vuistregel is dat het verwachte aantal elementen ($np_i$) in elke klasse minimaal 5 moet zijn [5](#page=5).
### 3.2 Voorbeelden van de Pearson x2-test
#### 3.2.1 Eerlijke dobbelsteen
* **Situatie**: Men gooit een dobbelsteen 120 keer en observeert de volgende aantallen voor de getallen 1 tot 6 [3](#page=3) [5](#page=5):
* 1: 29 keer
* 2: 16 keer
* 3: 18 keer
* 4: 14 keer
* 5: 15 keer
* 6: 28 keer
* **Nulhypothese ($H_0$)**: De dobbelsteen is eerlijk, d.w.z. $P(i) = \frac{1}{6}$ voor $i = 1, \ldots, 6$ [5](#page=5).
* **Verwachte aantallen**: Bij 120 worpen verwacht men $\frac{1}{6} \times 120 = 20$ keer elk getal [3](#page=3) [5](#page=5).
* **Teststatistiek**:
$$ X^2 = \frac{(29-20)^2}{20} + \frac{(16-20)^2}{20} + \frac{(18-20)^2}{20} + \frac{(14-20)^2}{20} + \frac{(15-20)^2}{20} + \frac{(28-20)^2}{20} = 11.30 $$
* **Vrijheidsgraden**: $k=6$ klassen, $m=0$ geschatte parameters. Dus $v = 6 - 1 - 0 = 5$ [4](#page=4).
* **Interpretatie**: Bij een significantieniveau van 5% is de kritieke waarde $X_{5, 0.95} = 11.07$. Aangezien $11.30 > 11.07$, wordt de nulhypothese verworpen. De p-waarde is $P(X^2 > 11.30) = 0.046$, wat indiceert dat de dobbelsteen mogelijk vervalst is [5](#page=5).
#### 3.2.2 Representatieve steekproef van Gentenaars
* **Situatie**: Een steekproef van 200 Gentenaars tussen 20 en 79 jaar wordt vergeleken met de leeftijdsverdeling in de gehele populatie van Gentenaars [6](#page=6).
* **Nulhypothese ($H_0$)**: De leeftijdsverdeling in de steekproef wijkt niet significant af van de leeftijdsverdeling in de populatie [6](#page=6).
* **Verwachte aantallen**: Voor elke leeftijdsklasse wordt het verwachte aantal berekend op basis van de populatieproporties en de steekproefgrootte ($n=200$). Bijvoorbeeld, voor de klasse 20-29 jaar is de populatieproportie $p_1 = \frac{42483}{188550} \approx 0.2253$. Het verwachte aantal in de steekproef is dan $200 \times 0.2253 = 45.06$ [6](#page=6).
* **Teststatistiek**: Na berekening voor alle klassen is de $X^2$ teststatistiek 6.92 [6](#page=6).
* **Vrijheidsgraden**: $k=6$ klassen, $m=0$ geschatte parameters. Dus $v = 6 - 1 - 0 = 5$ [6](#page=6).
* **Interpretatie**: De kritieke waarde voor $v=5$ en $\alpha=0.05$ is $X_{5, 0.95} = 11.07$. Aangezien $6.92 < 11.07$, wordt de nulhypothese niet verworpen. De p-waarde ($0.23$) is groter dan 0.05, wat betekent dat de verdeling in de steekproef significant lijkt op die in de populatie [6](#page=6).
#### 3.2.3 Call center scenario
* **Situatie**: Men onderzoekt of het aantal oproepen per minuut in een call center Poisson-verdeeld is met parameter $\lambda=1$. De parameter $\lambda$ is echter niet gegeven [7](#page=7).
* **Nulhypothese ($H_0$)**: Het aantal oproepen per minuut is Poisson verdeeld [1](#page=1) [7](#page=7).
* **Schatten van de parameter**: De parameter $\lambda$ wordt geschat uit een steekproef van 300 tijdsblokken door het steekproefgemiddelde te berekenen. Het geschatte $\lambda$ is 3.17. Met deze geschatte parameter worden de verwachte aantallen ($np_i$) berekend voor elke categorie van oproepen per minuut [7](#page=7).
* **Teststatistiek**: De berekende $X^2$ waarde is 20.49 [7](#page=7).
* **Vrijheidsgraden**: Er zijn 9 klassen ($k=9$) en 1 parameter ($\lambda$) is geschat ($m=1$). De vrijheidsgraden zijn $v = k - 1 - m = 9 - 1 - 1 = 7$ [7](#page=7).
* **Interpretatie**: De kritieke waarde voor $v=7$ en $\alpha=0.05$ is $X_{7, 0.95} = 14.07$. Omdat $20.49 > 14.07$, wordt de nulhypothese verworpen op 5% significantieniveau. Dit suggereert dat het aantal oproepen per minuut niet Poisson verdeeld is [1](#page=1) [7](#page=7).
### 3.3 Opmerkingen bij de Pearson x2-test
* De x2-benadering is alleen betrouwbaar voor voldoende grote steekproeven. Een veelgebruikte vuistregel is dat het verwachte aantal waarnemingen in elke klasse ($np_i$) minimaal 5 moet zijn [5](#page=5).
* De test kan ook worden toegepast op continue verdelingen, maar kan dan minder krachtig zijn [5](#page=5).
* Wanneer parameters van de onderliggende verdeling geschat moeten worden, leidt dit tot een correctie van het aantal vrijheidsgraden om een te lage p-waarde te vermijden [5](#page=5).
---
# De Kolmogorov-Smirnov test en Lilliefors test
Deze sectie bespreekt de Kolmogorov-Smirnov (KS) test voor continue verdelingen en de Lilliefors test als een correctie wanneer de parameters van de te testen verdeling geschat moeten worden.
### 4.1 De Kolmogorov-Smirnov test
De Kolmogorov-Smirnov (KS) test is een niet-parametrische test die wordt gebruikt om te bepalen of een steekproef afkomstig is uit een specifieke, volledig gespecificeerde continue verdeling. De test maakt gebruik van de empirische verdelingsfunctie (EVF) om de afwijking tussen de gespecificeerde theoretische verdelingsfunctie ($F_0$) en de empirische verdelingsfunctie van de steekproef ($ \hat{F}_n $) te beoordelen [8](#page=8).
#### 4.1.1 Hypothesen
De nulhypothese ($H_0$) stelt dat de kansvariabele $X$ een cumulatieve verdelingsfunctie $F_0$ heeft. De alternatieve hypothese ($H_1$) stelt dat de cumulatieve verdelingsfunctie van $X$ anders is dan $F_0$ [8](#page=8).
* $H_0$: $X$ heeft cumulatieve verdelingsfunctie $F_0$.
* $H_1$: $X$ heeft een andere cumulatieve verdelingsfunctie.
#### 4.1.2 Empirische verdelingsfunctie ($ \hat{F}_n $)
De empirische verdelingsfunctie ($ \hat{F}_n(x) $) wordt gedefinieerd als de verhouding van het aantal waarnemingen in de steekproef dat kleiner dan of gelijk aan $x$ is, gedeeld door het totale aantal waarnemingen ($n$) [8](#page=8):
$$ \hat{F}_n(x) = \frac{\text{aantal waarnemingen} \le x}{n} $$
#### 4.1.3 De teststatistiek $D$
De kern van de KS-test is de teststatistiek $D$, die de maximale absolute afwijking meet tussen de theoretische verdelingsfunctie $F_0$ en de empirische verdelingsfunctie $ \hat{F}_n $ over alle mogelijke waarden van $x$ [8](#page=8):
$$ D = \max_{X} | F_0(x) - \hat{F}_n(x) | $$
#### 4.1.4 Toepasbaarheid en beperkingen
Een cruciaal kenmerk van de KS-test is dat deze **enkel geldig is wanneer de theoretische verdeling $F_0$ volledig gespecificeerd is**, wat betekent dat alle parameters van de verdeling bekend moeten zijn. De verdeling van de teststatistiek $D$ onder de nulhypothese is onafhankelijk van de specifieke vorm van $F_0$, wat de test breed toepasbaar maakt [8](#page=8) [9](#page=9).
Echter, wanneer de parameters van $F_0$ geschat moeten worden op basis van de steekproef, is de standaard KS-test niet langer strikt geldig. Het schatten van parameters brengt de empirische verdelingsfunctie dichter bij de theoretische verdeling, waardoor de kritieke waarden van de test kleiner zouden moeten zijn. Daarnaast heeft de KS-test doorgaans een kleinere power in vergelijking met specifieke tests voor bepaalde verdelingen (zoals de Shapiro-Wilk test voor normaliteit) en is deze minder gevoelig voor afwijkingen in de staarten van de verdeling dan bijvoorbeeld de Anderson-Darling test [10](#page=10) [9](#page=9).
#### 4.1.5 Voorbeeld: exponentiële wachttijd
Stel we willen testen of de wachttijd $X$ aan een loket exponentieel verdeeld is met een gemiddelde van 25 minuten. Dit impliceert een parameter $ \lambda = 1/25 = 0.04 $. De hypothesen zijn:
* $H_0$: $X \sim \text{Exp}(0.04)$
* $H_1$: $X \nsim \text{Exp}(0.04)$
Voor een steekproef van 12 wachttijden (18, 30, 12, 13, 7, 3, 50, 13, 41, 21, 17, 33) kan de test worden uitgevoerd. Met statistische software (zoals R) berekent men de teststatistiek $D$ en de bijbehorende p-waarde. In dit voorbeeld is $D = 0.21455$ en de p-waarde is $0.6386$. Omdat $0.6386 > 0.05$, wordt de nulhypothese niet verworpen, wat suggereert dat de verdeling van de wachttijd niet significant afwijkt van $\text{Exp}(0.04)$. Een waarschuwing kan verschijnen indien er gelijke waarden (ties) in de data zitten, wat niet ideaal is voor de KS-test [10](#page=10) [9](#page=9).
> **Tip:** Bij het interpreteren van de KS-test, onthoud dat een hoge p-waarde betekent dat er onvoldoende bewijs is om de nulhypothese te verwerpen, terwijl een lage p-waarde (typisch < 0.05) leidt tot het verwerpen van de nulhypothese.
### 4.2 De Lilliefors test
De Lilliefors test is een aanpassing van de Kolmogorov-Smirnov test, speciaal ontworpen voor het geval waarin de parameters van de te testen verdeling (zoals het gemiddelde $ \mu $ en de standaarddeviatie $ \sigma $) geschat moeten worden uit de steekproef [10](#page=10).
#### 4.2.1 Noodzaak voor de Lilliefors test
Wanneer parameters van de verdeling $F_0$ geschat worden met behulp van de steekproefgegevens, wordt de steekproefverdeling in principe "geholpen" om dichter bij de gegevens te passen. Dit betekent dat de kans op het vinden van een kleine teststatistiek $D$ toeneemt, en de standaard kritieke waarden voor de KS-test niet langer correct zijn. De Lilliefors test corrigeert hiervoor door aangepaste kritieke waarden te gebruiken voor specifieke verdelingen, met name de normale verdeling, wanneer het gemiddelde ($ \bar{x} $) en de variantie ($ s^2 $) geschat zijn [10](#page=10).
#### 4.2.2 Voorbeeld: BEL20 rendementen
Laten we het rendement van de BEL20 index in februari 2014 als voorbeeld nemen. We willen testen of de rendementen normaal verdeeld zijn ($H_0: X \sim N(\mu, \sigma^2)$) met onbekende parameters $ \mu $ en $ \sigma^2 $ [11](#page=11).
De rendementen zijn:
-1.63, 0.12, -0.02, 1.67, 0.51, 0.14, 1.02, 0.55, 0.07, 0.53, 0.42, -0.11, 0.62, 0.04, 0.45, 0.84, -0.10, 0.46, 0.58, 0.76 [11](#page=11).
Na schatting van de parameters uit deze steekproef, vinden we een gemiddelde $ \bar{x} = 0.3460 $ en een geschatte variantie $ s^2 = 0.3996 $ [11](#page=11).
#### 4.2.3 Uitvoering en interpretatie met Lilliefors correctie
Wanneer deze data wordt ingevoerd in statistische software, kan de Lilliefors correctie worden toegepast. In een output van SPSS zien we bijvoorbeeld de Kolmogorov-Smirnov test met Lilliefors correctie, resulterend in een statistiek $d = 0.185$ en een p-waarde van $0.070$. Dit is significant anders dan de p-waarde van $0.4447$ die men zou verkrijgen indien men de schatting van de parameters zou negeren en de standaard KS-test zou toepassen met de geschatte waarden. Met een p-waarde van $0.070$ (weliswaar iets boven de gangbare 0.05-drempel, maar vaak als "marginaal significant" beschouwd), is er minder reden om de nulhypothese van normaliteit te verwerpen dan wanneer men de schatting van de parameters zou negeren [11](#page=11).
> **Voorbeeld:** Het verschil tussen de p-waarde van 0.070 (met Lilliefors correctie) en 0.4447 (zonder correctie) illustreert het belang van het toepassen van de juiste test wanneer parameters geschat zijn. De correctie leidt tot een "strengere" test, wat correct is omdat de data gebruikt werd om de verdeling te definiëren.
---
# De Shapiro-Wilk test voor normaliteit
Dit deel behandelt de Shapiro-Wilk test, een robuuste methode om te toetsen of een dataset normaal verdeeld is, en de interpretatie van de bijbehorende QQ-plot, geïllustreerd met een voorbeeld van BEL20 rendementen [11](#page=11) [12](#page=12) [13](#page=13).
### 5.1 De Shapiro-Wilk test: concept en hypotheses
De Shapiro-Wilk test is een statistische test die gebruikt wordt om te bepalen of een steekproef uit een populatie komt die normaal verdeeld is [12](#page=12).
#### 5.1.1 Hypotheses
De nulhypothese ($H_0$) stelt dat de data afkomstig is uit een normale verdeling. De alternatieve hypothese ($H_1$) stelt dat de data niet afkomstig is uit een normale verdeling [12](#page=12).
* $H_0$: $X \sim N(\mu, \sigma^2)$ (De data is normaal verdeeld)
* $H_1$: $X \not\sim N(\mu, \sigma^2)$ (De data is niet normaal verdeeld)
#### 5.1.2 Teststatistiek
De teststatistiek van de Shapiro-Wilk test, aangeduid met $W$, wordt berekend op basis van de geordende steekproefwaarden en de verwachte waarden uit een normale verdeling. De formule is [12](#page=12):
$$ W = \frac{\sum_{i=1}^{n} a_i X_{(i)}}{\sum_{i=1}^{n} (X_i - \bar{X})^2} $$
waarbij:
* $X_{(i)}$ de geordende steekproefwaarden zijn ($X_{ } \leq X_{ } \leq \dots \leq X_{(n)}$) [1](#page=1) [2](#page=2).
* $\bar{X}$ het steekproefgemiddelde is.
* $a_i$ gewichten zijn die afhangen van de steekproefgrootte en de verwachte waarden van de geordende statistieken van een standaardnormale verdeling [12](#page=12).
De teststatistiek $W$ neemt altijd waarden aan die kleiner zijn dan of gelijk aan 1. Waarden van $W$ die dicht bij 1 liggen, duiden op normaliteit. De exacte berekening van de teststatistiek en de bijbehorende p-waarde gebeurt doorgaans met statistische software [12](#page=12).
### 5.2 De Normal QQ-plot
De Normal QQ-plot (Quantile-Quantile plot) is een grafische methode om de normaliteit van data te beoordelen. De plot toont de empirische kwantielen van de steekproefgegevens tegenover de theoretische kwantielen van een standaardnormale verdeling [12](#page=12).
#### 5.2.1 Interpretatie
Als de data normaal verdeeld is, vormen de punten in de QQ-plot een patroon dat grotendeels langs een rechte lijn loopt. Afwijkingen van dit lineaire patroon duiden op afwijkingen van de normaliteit. Hoe rechtlijniger het patroon, hoe beter de data normaal verdeeld is [12](#page=12) [13](#page=13).
> **Tip:** De QQ-plot is een cruciaal diagnostisch hulpmiddel. Naast de p-waarde van de Shapiro-Wilk test, helpt de QQ-plot om de grootte en de aard van eventuele afwijkingen van de normaliteit te bestuderen [13](#page=13).
### 5.3 Toepassing: BEL20 rendementen
De Shapiro-Wilk test en de QQ-plot worden geïllustreerd aan de hand van de dagelijkse rendementen van de BEL20 index in februari 2014 [11](#page=11).
#### 5.3.1 Berekening en resultaten
Voor de rendementen van de BEL20 in februari 2014 werd het steekproefgemiddelde geschat op $\bar{X} = 0.3460$ en de steekproefvariantie op $s^2 = 0.3996$ [11](#page=11).
Met behulp van statistische software werd de Shapiro-Wilk teststatistiek berekend als $W = 0.870$, met een bijbehorende p-waarde van $0.012$ [13](#page=13).
De Normal QQ-plot voor deze data toont enkele waarnemingen die duidelijk afwijken van het lineaire patroon, wat visueel de afwijking van normaliteit ondersteunt [12](#page=12) [13](#page=13).
#### 5.3.2 Conclusie en beperkingen
Gezien de p-waarde van $0.012$, die kleiner is dan het gebruikelijke significantieniveau van $5\%$, wordt de nulhypothese verworpen op een $5\%$ significantieniveau. Dit betekent dat de verdeling van de BEL20 rendementen significant afwijkt van een normale verdeling [13](#page=13).
> **Tip:** De Shapiro-Wilk test staat bekend om zijn relatief grote onderscheidingsvermogen (power). Het is echter cruciaal om voorzichtig te zijn bij het interpreteren van resultaten met grote steekproeven. In dergelijke gevallen kan zelfs een kleine afwijking van normaliteit leiden tot een statistisch significant resultaat, terwijl de afwijking in de praktijk mogelijk verwaarloosbaar is. Daarom is het essentieel om de resultaten van de test altijd te interpreteren in combinatie met de visuele analyse van de QQ-plot [13](#page=13).
Vergeleken met de Lilliefors test (een aangepaste Kolmogorov-Smirnov test), waarbij de geschatte parameters ($\mu$ en $\sigma^2$) worden genegeerd in de berekening van de p-waarde, geeft de Shapiro-Wilk test een andere interpretatie. De Lilliefors test, die ook rekening houdt met de geschatte parameters, resulteerde in een p-waarde van $0.070$ (wanneer parameters wel worden meegenomen ) of $0.4447$ (in R, wat expliciet de parameters gebruikt ), wat niet leidt tot verwerping van de nulhypothese op $5\%$ significantieniveau. Dit onderstreept het belang van de specifieke testmethodologie en de interpretatie van de p-waarde in relatie tot de gebruikte parameters [11](#page=11).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-parametrische testen | Statistische toetsen die geen aannames doen over de parametrische vorm van de populatieverdeling. Ze zijn bruikbaar bij kleinere steekproeven of wanneer de aannames van parametrische testen, zoals normaliteit, geschonden zijn. |
| Parametrische test | Een statistische toets die aannames doet over de parameters van een populatieverdeling, zoals het gemiddelde en de standaardafwijking. De t-test en ANOVA zijn voorbeelden van parametrische testen die normaliteit van de populatie veronderstellen. |
| Power (statistiek) | De kans dat een statistische test de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Een hogere power betekent een grotere kans om een werkelijk effect te detecteren. |
| Goodness-of-fit test | Een statistische test die beoordeelt hoe goed een waargenomen steekproefverdeling past bij een theoretische verdeling. Het doel is om te bepalen of de steekproef uit de populatie met de gespecificeerde verdeling kan komen. |
| Pearson x2-test | Een statistische test die wordt gebruikt om te bepalen of er een significant verschil is tussen geobserveerde frequenties en verwachte frequenties in categorieën. Het wordt vaak toegepast op nominale of ordinale data om te testen op onafhankelijkheid of goodness-of-fit. |
| Klasse (statistiek) | Een reeks waarden binnen een bepaald bereik die wordt gebruikt om data te groeperen, vooral bij het analyseren van discrete of continue variabelen. Bij de Pearson x2-test worden de uitkomsten verdeeld in klassen. |
| Verwacht aantal waarnemingen | Het aantal observaties dat men zou verwachten in een bepaalde klasse onder de nulhypothese, berekend door de steekproefgrootte te vermenigvuldigen met de kans op die klasse ($n \times p_i$). |
| Werkelijk aantal waarnemingen | Het daadwerkelijk geobserveerde aantal gebeurtenissen of metingen dat in een specifieke klasse valt in de steekproef ($N_i$). |
| Teststatistiek | Een waarde die wordt berekend uit steekproefgegevens en die wordt gebruikt om de nulhypothese te beoordelen. Voor de Pearson x2-test is dit de waarde $X^2 = \sum_{i=1}^{k} \frac{(N_i - np_i)^2}{np_i}$. |
| Vrijheidsgraden | Het aantal onafhankelijke waarden dat vrij kan variëren in een berekening van een statistiek. Voor de Pearson x2-test is het aantal vrijheidsgraden meestal $k-1$, waarbij $k$ het aantal klassen is, of $k-1-m$ als $m$ parameters geschat zijn. |
| Kolmogorov-Smirnov test | Een niet-parametrische test die de cumulatieve verdelingsfunctie van een steekproef vergelijkt met de cumulatieve verdelingsfunctie van een gespecificeerde verdeling. Het is gevoelig voor verschillen in positie, schaal en vorm van de verdelingen. |
| Empirische verdelingsfunctie | Een schatting van de ware cumulatieve verdelingsfunctie van een populatie, gebaseerd op de gegevens van een steekproef. Het wordt aangeduid als $\hat{F}_n(x)$. |
| Lilliefors test | Een aangepaste versie van de Kolmogorov-Smirnov test die wordt gebruikt wanneer de parameters van de nulhypothese verdeling (zoals gemiddelde en standaarddeviatie voor een normale verdeling) uit de steekproef geschat zijn. |
| Shapiro-Wilk test | Een krachtige statistische test om te bepalen of een steekproef afkomstig is uit een normale verdeling. De teststatistiek W meet hoe goed de geordende steekproefwaarden overeenkomen met de verwachte waarden van een normale verdeling. |
| QQ-plot (Quantile-Quantile plot) | Een grafische methode om te beoordelen of een steekproefverdeling overeenkomt met een theoretische verdeling. Het plot de kwantielen van de steekproefgegevens tegen de kwantielen van de theoretische verdeling. |
Cover
dia h 4.pdf
Summary
# Inleiding tot niet-parametrische testen voor centrale waarden
Dit hoofdstuk introduceert niet-parametrische testen als alternatief voor parametrische testen wanneer de aannames van normaliteit niet voldaan zijn, met een focus op het toetsen van de populatiemediaan [1](#page=1).
### 1.1 Waarom niet-parametrische testen?
Parametrische testen, zoals de z-test en t-test, vereisen dat de populatie normaal verdeeld is. Wanneer deze aanname geschonden wordt, of wanneer de focus ligt op de mediaan in plaats van het gemiddelde, bieden niet-parametrische testen een uitkomst. Deze testen zijn met name geschikt voor data op ordinaal niveau, waarbij enkel de rangorde van de waarden van belang is [1](#page=1) [2](#page=2).
### 1.2 De tekentest
De tekentest is een eenvoudige niet-parametrische test die gebruikt wordt om de populatiemediaan te toetsen. Het principe is dat de mediaan een populatie in twee gelijke helften verdeelt: 50% van de waarden zijn kleiner dan de mediaan, en 50% zijn groter [2](#page=2).
#### 1.2.1 Hypothesen en teststatistiek
De nulhypothese (Ho) stelt dat de populatiemediaan gelijk is aan een gespecificeerde waarde ($m_0$), terwijl de alternatieve hypothese (H1) aangeeft dat de mediaan kleiner is, groter is, of ongelijk is aan $m_0$ [2](#page=2).
De teststatistiek, N, telt het aantal waarnemingen in de steekproef dat groter is dan $m_0$. Een alternatieve teststatistiek, N\_, telt het aantal waarnemingen kleiner dan $m_0$. Waarnemingen die exact gelijk zijn aan $m_0$ worden uit de steekproef weggelaten [2](#page=2).
#### 1.2.2 Verdeling van de teststatistiek
Onder de nulhypothese, dat de populatiemediaan gelijk is aan $m_0$, volgt de teststatistiek N+ (aantal waarnemingen > $m_0$) een binomiale verdeling met parameters $n$ (steekproefgrootte) en $p=0.5$. Dus, $N_+ \sim B(n, 0.5)$. Hetzelfde geldt voor N\_ [3](#page=3).
#### 1.2.3 p-waarde berekening
De p-waarde wordt berekend op basis van de geobserveerde teststatistiek en de binomiale verdeling [3](#page=3).
* **Rechtseenzijdige test:** $p\text{-waarde} = P(N_+ \ge n_+)$, waarbij $n_+$ de geobserveerde waarde van N+ is. Dit kan ook berekend worden als $P(N_- \le n_-)$, omdat onder $H_0$ geldt dat $P(N_+ \ge n_+) = P(N_- \le n_-)$. De formule is [3](#page=3):
$$p\text{-waarde} = \sum_{k=n_+}^{n} \binom{n}{k} 0.5^n = \sum_{k=0}^{n_-} \binom{n}{k} 0.5^n$$ [3](#page=3).
* **Linkseenzijdige test:** $p\text{-waarde} = P(N_+ \le n_+)$, waarbij $n_+$ de geobserveerde waarde van N+ is [4](#page=4).
$$p\text{-waarde} = \sum_{k=0}^{n_+} \binom{n}{k} 0.5^n$$ [4](#page=4).
* **Tweezijdige test:** $p\text{-waarde} = 2 \times \min \{ P(N_+ \le n_+), P(N_+ \ge n_+) \}$ [4](#page=4).
> **Voorbeeld:** Een postorderbedrijf vermoedt dat meer dan de helft van de orders niet binnen een uur verwerkt is. Voor een steekproef van 18 orders werden 13 waarnemingen > 60 minuten ($n_+=13$) en 5 waarnemingen < 60 minuten ($n_-=5$) geteld. Met $H_0$: Med = 60 en $H_1$: Med > 60, is de p-waarde:
> $$p\text{-waarde} = P(N_+ \ge 13) = \sum_{k=13}^{18} \binom{18}{k} 0.5^{18} \approx 0.048$$ [5](#page=5).
> Aangezien $0.048 < 0.05$, wordt de nulhypothese verworpen, wat suggereert dat de mediaan verwerkingsduur significant groter is dan 60 minuten [5](#page=5).
#### 1.2.4 De binomiaaltest
De tekentest kan gezien worden als een speciaal geval van de binomiaaltest. De binomiaaltest wordt gebruikt om een proportie ($p$) te toetsen die slechts twee uitkomsten kan aannemen (bijv. "succes" of "falen"). Als het aantal successen ($N_1$) in een steekproef van grootte $n$ onder de nulhypothese ($H_0: p=p_0$) wordt geteld, dan volgt $N_1 \sim B(n, p_0)$ [5](#page=5).
> **Voorbeeld:** Een winkel wil weten of meer dan 25% van de klanten op zondag inkopen doet. Voor een steekproef van 14 klanten bleken er 6 te zijn die op zondag inkopen deden. Met $H_0: p = 0.25$ en $H_1: p > 0.25$, is onder $H_0$ de teststatistiek $N_1 \sim B(14, 0.25)$. De p-waarde is:
> $$p\text{-waarde} = P(N_1 \ge 6) = 1 - P(N_1 \le 5) = 0.112$$ [6](#page=6).
> Omdat $0.112 > 0.05$, wordt de nulhypothese niet verworpen [6](#page=6).
### 1.3 De Wilcoxon rangtekentest
De Wilcoxon rangtekentest is een krachtigere test dan de tekentest omdat deze niet alleen rekening houdt met het teken van de afwijking ten opzichte van de mediaan, maar ook met de grootte van deze afwijkingen. Deze test vereist echter wel de aanname van een continue verdeling met een symmetrische kansdichtheid [6](#page=6).
#### 1.3.1 Procedure en teststatistiek
1. Bereken de verschillen $D_i = X_i - m_0$ voor elke waarneming $X_i$ [7](#page=7).
2. Rangschik de absolute waarden $|D_i|$ en ken een rang toe. Bij identieke waarden wordt het gemiddelde van de rangen toegekend [7](#page=7).
3. Verwijder waarnemingen met een verschil van 0 uit de steekproef [7](#page=7).
4. Bereken de som $R_+$ van de rangen van de positieve verschillen en de som $R_-$ van de rangen van de negatieve verschillen. De som van alle rangen is gelijk aan $\frac{n(n+1)}{2}$, waarbij $n$ de steekproefgrootte is na het verwijderen van nullen [7](#page=7).
#### 1.3.2 Verdeling van de teststatistiek
Onder de nulhypothese ($Med = m_0$), waarbij de verdeling symmetrisch is rond $m_0$, verwacht men dat de sommen van de rangen voor positieve en negatieve afwijkingen ongeveer gelijk zijn. De verwachte waarde voor zowel $R_+$ als $R_-$ is $\frac{n(n+1)}{4}$ [8](#page=8).
* Als de populatiemediaan groter is dan $m_0$ ($Med > m_0$), dan worden er meer en grotere rangen toegekend aan positieve afwijkingen, wat resulteert in $R_+ > \frac{n(n+1)}{4}$ [8](#page=8).
* Als de populatiemediaan kleiner is dan $m_0$ ($Med < m_0$), dan worden er meer en grotere rangen toegekend aan negatieve afwijkingen, wat resulteert in $R_+ < \frac{n(n+1)}{4}$ [8](#page=8).
De nulhypothese wordt verworpen als $R_+$ (of $R_-$) te ver afwijkt van de verwachte waarde $\frac{n(n+1)}{4}$. Statistische software wordt doorgaans gebruikt om de benaderende p-waarde te berekenen [8](#page=8).
> **Voorbeeld (postorderbedrijf vervolg):** Voor de 18 orders uit het vorige voorbeeld, met $m_0 = 60$, werden de rangen berekend. De som van de rangen van de positieve verschillen ($R_+$) bleek 140.5 te zijn [7](#page=7).
> De verwachte som onder $H_0$ is $\frac{18(18+1)}{4} = 76.5$. Aangezien $140.5$ significant groter is dan $76.5$, wordt de nulhypothese verworpen. De software geeft een benaderende p-waarde van 0.00879. Dit leidt tot de conclusie dat de mediaan verwerkingsduur significant groter is dan 60 minuten [8](#page=8).
#### 1.3.3 Gepaarde waarnemingen
De Wilcoxon rangtekentest kan ook worden toegepast op gepaarde waarnemingen (X, Y). Hierbij wordt de nulhypothese geformuleerd als $H_0: Med_{X-Y} = 0$, en worden de verschillen $D_i = X_i - Y_i$ geanalyseerd op dezelfde manier als bij de test voor één mediaan [9](#page=9).
> **Voorbeeld (communicatietraining):** Om te onderzoeken of een communicatietraining de verkoopcijfers beïnvloedt, werden verkoopcijfers voor en na de training verzameld voor 8 verkopers. De verschillen werden berekend en gerangschikt. De som van de rangen van de positieve verschillen ($R_+$) was 26. Met 8 waarnemingen is de verwachte som onder $H_0$ $\frac{8(8+1)}{4} = 18$. De software gaf een p-waarde van 0.3125, wat leidt tot het niet verwerpen van de nulhypothese. Er is onvoldoende bewijs om aan te tonen dat de mediane wijziging in verkoopcijfer afwijkt van 0 [10](#page=10) [9](#page=9).
### 1.4 De Wilcoxon rangsomtest (en Mann-Whitney U test)
Deze testen worden gebruikt om twee onafhankelijke populaties te vergelijken. De onderliggende aanname is dat de continue verdelingen van beide populaties dezelfde vorm hebben. De nulhypothese stelt dat de medianen van de twee populaties gelijk zijn ($Med_1 = Med_2$), terwijl de alternatieve hypothese stelt dat ze verschillen. De Mann-Whitney U test is equivalent aan de Wilcoxon rangsomtest [10](#page=10) [12](#page=12).
#### 1.4.1 Procedure en teststatistiek
1. Breng alle waarnemingen van beide steekproeven samen en orden ze van klein naar groot [11](#page=11).
2. Ken een rang toe aan elke waarneming van 1 tot $n_1 + n_2$, waarbij $n_1$ en $n_2$ de groottes van de steekproeven zijn. Bij identieke waarden wordt het gemiddelde van de rangen toegekend [11](#page=11) [12](#page=12).
3. Bereken de som $R_1$ van de rangen van de waarnemingen uit de eerste steekproef en de som $R_2$ van de rangen uit de tweede steekproef [11](#page=11).
4. De som van alle rangen is $\frac{n(n+1)}{2}$, met $n = n_1 + n_2$ [11](#page=11).
Onder de nulhypothese ($Med_1 = Med_2$) verwachten we dat de gemiddelde rangen voor beide groepen ongeveer gelijk zijn aan $\frac{n+1}{2}$. Meer specifiek, de verwachte som $R_1$ onder $H_0$ is $\frac{n_1(n+1)}{2}$ [11](#page=11).
* Als de mediaan van de eerste populatie kleiner is dan de tweede ($Med_1 < Med_2$), dan zal $R_1 < \frac{n_1(n+1)}{2}$ [11](#page=11).
* Als de mediaan van de eerste populatie groter is dan de tweede ($Med_1 > Med_2$), dan zal $R_1 > \frac{n_1(n+1)}{2}$ [11](#page=11).
De teststatistiek U kan ook berekend worden uit de som van de rangen:
$$U_1 = R_1 - \frac{n_1(n_1 + 1)}{2}$$ [12](#page=12).
en analoog voor $U_2$ [12](#page=12).
> **Voorbeeld (MP3-spelers):** Het vergelijken van de levensduur van dure en goedkope MP3-spelers. Steekproef X1 (goedkoop) had $n_1 = 8$ en $R_1 = 40$. Steekproef X2 (duur) had $n_2 = 10$ en $R_2 = 131$. De verwachte som voor $R_1$ onder $H_0$ is $\frac{8(8+1)}{2} = 36$. Aangezien $R_1 = 40 > 36$, duidt dit op een mogelijk grotere levensduur voor goedkope spelers in deze steekproef, hoewel dit met de berekening van $U_1$ en $U_2$ verder wordt geanalyseerd [11](#page=11) [12](#page=12).
> Met behulp van software (zoals `wilcox.test` in R, die de Mann-Whitney test uitvoert) wordt een p-waarde van 0.001591 berekend. Dit leidt tot het verwerpen van de nulhypothese, wat suggereert dat er een significant verschil is in de mediane levensduur [13](#page=13).
### 1.5 De Kruskal-Wallis test
De Kruskal-Wallis test is het niet-parametrische equivalent van de one-way ANOVA en wordt gebruikt om meer dan twee onafhankelijke groepen te vergelijken. De aanname is dat de continue verdelingen van de populaties dezelfde vorm hebben. De nulhypothese stelt dat de medianen van alle $g$ groepen gelijk zijn ($Med_1 = Med_2 = \dots = Med_g$), terwijl de alternatieve hypothese stelt dat minstens één mediaan verschilt [13](#page=13).
#### 1.5.1 Teststatistiek
1. Breng alle waarnemingen van alle $g$ groepen samen en rangschik ze van 1 tot $n = \sum n_i$ [14](#page=14).
2. Bereken voor elke groep de gemiddelde rang ($\bar{R}_i$) en de globale gemiddelde rang ($R = \frac{n+1}{2}$) [14](#page=14).
3. De teststatistiek $K$ wordt berekend als:
$$K = \frac{12}{n(n+1)} \sum_{i=1}^{g} n_i (\bar{R}_i - R)^2$$ [14](#page=14).
Een alternatieve formulering is:
$$K = \frac{12}{n(n+1)} \sum_{i=1}^{g} \frac{R_i^2}{n_i} - 3(n+1)$$ [14](#page=14).
#### 1.5.2 Kritieke waarde en p-waarde
Voor grote steekproeven ($n_i \ge 5$ voor alle groepen wordt als vuistregel genomen), volgt de teststatistiek $K$ onder de nulhypothese een chi-kwadraat verdeling met $g-1$ vrijheidsgraden ($\chi^2_{g-1}$). De test is rechtseenzijdig omdat een grotere waarde van $K$ aangeeft dat de ranggemiddelden verder afwijken van de globale ranggemiddelde, wat duidt op een verschil tussen de medianen. De nulhypothese wordt verworpen als $K$ groter is dan de kritieke waarde uit de $\chi^2_{g-1}$ verdeling [14](#page=14).
> **Voorbeeld (kostprijs verwarming):** Onderzocht wordt of het type verwarming invloed heeft op de jaarlijkse verwarmingskost. Vier groepen (gas condensatie, gas klassiek, stookolie, elektriciteit) werden vergeleken. De berekende teststatistiek $K$ was 14.83. Met 3 vrijheidsgraden ($g-1 = 4-1=3$), is de kritieke waarde $\chi^2_{3, 0.95} = 7.81$. Omdat $14.83 > 7.81$, wordt de nulhypothese verworpen op een significantieniveau van 5%. De p-waarde is 0.002. Dit suggereert dat het type verwarming een significante invloed heeft op de mediane verwarmingskost. Post-hoc testen (zoals de Wilcoxon rangsomtest met Bonferroni correctie) kunnen gebruikt worden om te bepalen welke medianen precies verschillen [15](#page=15).
---
# Tekentest en binomiaaltest
Deze sectie behandelt de tekentest, een niet-parametrische methode om de populatiemediaan te toetsen tegen een hypothetische waarde, en de binomiaaltest als een generalisatie daarvan.
### 2.1 De tekentest
De tekentest is een eenvoudige niet-parametrische statistische test die wordt gebruikt om de populatiemediaan te vergelijken met een hypothetische waarde. Het bijzondere aan deze test is dat er enkel gekeken wordt naar de tekens (positief of negatief) van de afwijkingen van de steekproefwaarden ten opzichte van de hypothetische mediaan, in plaats van naar de absolute grootte van de afwijkingen. Dit maakt de test geschikt voor data op ordinaal meetniveau [2](#page=2).
#### 2.1.1 Hypothesen en teststatistiek
Bij de tekentest worden de volgende hypothesen geformuleerd [2](#page=2):
* **Nulhypothese ($H_0$):** De populatiemediaan ($Med$) is gelijk aan een hypothetische waarde ($m_0$). Formeel: $H_0: Med = m_0$.
* **Alternatieve hypothesen ($H_1$):**
* Linkseenzijdig: $H_1: Med < m_0$
* Rechtseenzijdig: $H_1: Med > m_0$
* Tweezijdig: $H_1: Med \neq m_0$
De teststatistiek wordt gedefinieerd als het aantal waarnemingen in de steekproef dat groter is dan de hypothetische mediaan ($m_0$). Dit wordt vaak aangeduid met $N^+$. Een alternatieve teststatistiek is het aantal waarnemingen kleiner dan $m_0$, aangeduid met $N^-$ [2](#page=2).
Indien een observatie exact gelijk is aan de hypothetische mediaan ($m_0$), wordt deze observatie uit de steekproef weggelaten voor de berekening van de teststatistiek [2](#page=2).
#### 2.1.2 Verdeling van de teststatistiek
Onder de nulhypothese ($H_0$), waarbij de populatiemediaan gelijk is aan $m_0$, en aangenomen dat de waarnemingen onafhankelijk zijn, volgt zowel $N^+$ als $N^-$ een binomiale verdeling. Specifiek geldt [3](#page=3):
* $N^+ \sim B(n, 0.5)$
* $N^- \sim B(n, 0.5)$
Hierbij is $n$ het totale aantal waarnemingen in de steekproef (na het eventueel verwijderen van waarnemingen die gelijk zijn aan $m_0$). De parameter $0.5$ in de binomiale verdeling geeft aan dat, onder $H_0$, de kans dat een individuele waarneming groter is dan $m_0$ gelijk is aan 0.5, en de kans dat deze kleiner is, eveneens 0.5 [3](#page=3).
#### 2.1.3 p-waarde berekening
De p-waarde geeft de kans aan om een teststatistiek te observeren die minstens zo extreem is als de gevonden waarde, gegeven dat de nulhypothese waar is.
* **Rechtseenzijdige test ($H_1: Med > m_0$):**
De p-waarde is de kans om een $N^+$ te observeren die groter of gelijk is aan de gevonden waarde $n^+$ [3](#page=3).
$p\text{-waarde} = P(N^+ \ge n^+) \text{ met } N^+ \sim B(n, 0.5)$
Vanwege de symmetrie van de binomiale verdeling met $p=0.5$, geldt dat $P(N^+ \ge n^+) = P(N^- \le n-n^+)$. Dus kan de p-waarde ook berekend worden als:
$$p\text{-waarde} = \sum_{k=n^+}^{n} \binom{n}{k} (0.5)^k (0.5)^{n-k} = \sum_{k=n^+}^{n} \binom{n}{k} (0.5)^n$$ [3](#page=3).
* **Linkseenzijdige test ($H_1: Med < m_0$):**
De p-waarde is de kans om een $N^+$ te observeren die kleiner of gelijk is aan de gevonden waarde $n^+$ [4](#page=4).
$p\text{-waarde} = P(N^+ \le n^+) \text{ met } N^+ \sim B(n, 0.5)$
$$p\text{-waarde} = \sum_{k=0}^{n^+} \binom{n}{k} (0.5)^k (0.5)^{n-k} = \sum_{k=0}^{n^+} \binom{n}{k} (0.5)^n$$ [4](#page=4).
* **Tweezijdige test ($H_1: Med \neq m_0$):**
De p-waarde is tweemaal de kleinsten van de rechtseenzijdige of linkseenzijdige kans [4](#page=4).
$p\text{-waarde} = 2 \times \min \{P(N^+ \le n^+), P(N^+ \ge n^+)\}$
$$p\text{-waarde} = 2 \times \min \left\{ \sum_{k=0}^{n^+} \binom{n}{k} (0.5)^n, \sum_{k=n^+}^{n} \binom{n}{k} (0.5)^n \right\}$$ [4](#page=4).
#### 2.1.4 Voorbeeld: postorderbedrijf
Een postorderbedrijf vermoedt dat meer dan de helft van de orders niet binnen een uur verwerkt wordt. Dit vertaalt zich naar de vraag of de mediaan verwerkingsduur groter is dan 60 minuten.
* **Hypothesen:**
* $H_0:$ Med = 60 minuten
* $H_1:$ Med > 60 minuten (rechtseenzijdige test)
* **Gegevens:** Een steekproef van 18 orders met verwerkingsduren in minuten wordt verzameld. Na het aftrekken van de observaties die gelijk zijn aan 60, worden er 13 waarnemingen groter dan 60 ($n^+=13$) en 5 waarnemingen kleiner dan 60 ($n^-=5$) geteld. De totale steekproefgrootte is dus $n = 18$ [4](#page=4) [5](#page=5).
* **p-waarde berekening:**
Onder $H_0$ volgt $N^+$ een binomiale verdeling $B(18, 0.5)$ [5](#page=5).
De p-waarde voor de rechtseenzijdige test is:
$$p\text{-waarde} = P(N^+ \ge 13) = P(N^- \le 18-13) = P(N^- \le 5) = \sum_{k=0}^{5} \binom{18}{k} (0.5)^{18}$$
Dit resulteert in een p-waarde van $0.048$ [5](#page=5).
* **Conclusie:** Met een significantieniveau ($\alpha$) van 5% wordt de nulhypothese verworpen, wat aangeeft dat er bewijs is dat de mediaan verwerkingsduur groter is dan 60 minuten [5](#page=5).
### 2.2 De binomiaaltest
De binomiaaltest is een algemenere vorm van de tekentest. Deze test wordt gebruikt wanneer een variabele slechts twee mogelijke uitkomsten kan aannemen, bijvoorbeeld 'succes' en 'mislukking', of 'wel' en 'niet'. De test richt zich op de parameter $p$, de kans op één van deze twee uitkomsten.
#### 2.2.1 Hypothesen en teststatistiek
Voor de binomiaaltest worden de volgende hypothesen geformuleerd:
* **Nulhypothese ($H_0$):** De kans op de eerste uitkomst ($p$) is gelijk aan een hypothetische waarde ($p_0$). Formeel: $H_0: p = p_0$.
* **Alternatieve hypothese ($H_1$):** $H_1: p \neq p_0$. De test kan ook eenzijdig worden uitgevoerd ($H_1: p > p_0$ of $H_1: p < p_0$).
De teststatistiek is het aantal waarnemingen ($N_1$) dat de eerste uitkomst (bijvoorbeeld 'a') aanneemt in een steekproef van grootte $n$.
Onder de nulhypothese ($H_0$) dat $p = p_0$, volgt $N_1$ een binomiale verdeling:
$N_1 \sim B(n, p_0)$ [5](#page=5).
Net als bij de tekentest wordt de nulhypothese verworpen als de geobserveerde waarde van de teststatistiek ($n_1$) te groot (of te klein) is ten opzichte van de verwachte waarde onder $H_0$. Waarnemingen worden hierbij enkel geteld, wat impliceert dat de meetschaal nominaal is [5](#page=5).
#### 2.2.2 Voorbeeld: open op zondag
Een winkel overweegt om op zondagvoormiddag open te blijven als meer dan 25% van de klanten dan inkopen doet.
* **Variabele en kansen:**
* $X$: Klant doet inkopen op zondag.
* $p$: Kans dat een klant inkopen doet op zondag.
* $1-p$: Kans dat een klant geen inkopen doet op zondag.
* **Hypothesen:**
* $H_0: p = 0.25$
* $H_1: p > 0.25$ (rechtseenzijdige test)
* **Gegevens:** In een steekproef van 14 klanten geven 6 klanten aan inkopen te willen doen op zondag. Dus $n=14$ en $N_1 = 6$ [6](#page=6).
* **p-waarde berekening:**
Onder $H_0$ is $N_1$ binomiaal verdeeld met parameters $n=14$ en $p_0=0.25$, dus $N_1 \sim B(14, 0.25)$ [6](#page=6).
De p-waarde voor de rechtseenzijdige test is:
$p\text{-waarde} = P(N_1 \ge 6) = 1 - P(N_1 \le 5)$
$$p\text{-waarde} = 1 - \sum_{k=0}^{5} \binom{14}{k} (0.25)^k (0.75)^{14-k} = 0.112$$ [6](#page=6).
* **Conclusie:** De p-waarde van 0.112 is groter dan het significantieniveau van 5%. Daarom wordt de nulhypothese niet verworpen. Er is onvoldoende bewijs om te concluderen dat meer dan 25% van de klanten inkopen doet op zondag [6](#page=6).
### 2.3 Vergelijking met Wilcoxon rangtekentest
De tekentest is ruim toepasbaar, maar kan een relatief lage power hebben omdat het enkel kijkt naar de richting van het verschil en niet naar de grootte. De Wilcoxon rangtekentest is een alternatief dat wel rekening houdt met de grootte van de afwijkingen, naast het teken ervan, en vereist als onderstelling dat de verdeling continu en symmetrisch is [6](#page=6).
---
# Wilcoxon rangtekentest voor één populatie en gepaarde waarnemingen
De Wilcoxon rangtekentest is een non-parametrische toets die, in tegenstelling tot de tekentest, niet alleen rekening houdt met het teken van de afwijkingen ten opzichte van een mediane waarde, maar ook met de grootte van deze afwijkingen. Deze test is geschikt voor continue verdelingen met een symmetrische kansdichtheid [6](#page=6).
### 3.1 Toepassing voor één populatiemediaan
Bij het testen van één populatiemediaan wordt de test toegepast op waarnemingen $X_i$ ($i = 1, \dots, n$) uit de steekproef [7](#page=7).
#### 3.1.1 Berekening van de teststatistiek
1. **Bereken de verschillen:** Bereken voor elke waarneming het verschil $D_i = X_i - m_0$, waarbij $m_0$ de mediane waarde onder de nulhypothese is [7](#page=7).
2. **Rangschik de absolute waarden:** Neem de absolute waarden $|D_i|$ en rangschik deze van klein naar groot. Geef de rangen toe. Bij identieke waarden wordt de gemiddelde rang toegekend [7](#page=7).
3. **Behandel nulverschillen:** Waarnemingen met een verschil van 0 worden weggelaten uit de steekproef. De steekproefgrootte $n$ wordt dan aangepast [7](#page=7).
4. **Bereken de sommen van de rangen:** Bereken de som $R^+$ van de rangen van de positieve verschillen $D_i$, en de som $R^-$ van de rangen van de negatieve verschillen $D_i$ [7](#page=7).
5. **Verificatie van de som:** De som van alle rangen, $R^+ + R^-$, is gelijk aan de som van de reeks gehele getallen van 1 tot en met de (aangepaste) steekproefgrootte $n$. Dit kan worden gecontroleerd met de formule:
$$R^+ + R^- = \sum_{i=1}^{n} i = \frac{n(n+1)}{2}$$ [7](#page=7).
#### 3.1.2 Teststatistiek en nulhypothese
Onder de nulhypothese dat de kansdichtheid symmetrisch is rond $m_0$ en de mediaan gelijk is aan $m_0$, wordt verwacht dat de waarden links en rechts van $m_0$ ongeveer gelijk verspreid zijn. Dit impliceert dat de sommen van de rangen ongeveer gelijk verdeeld zijn [8](#page=8):
$$R^+ \approx \frac{n(n+1)}{4}$$
$$R^- \approx \frac{n(n+1)}{4}$$ [8](#page=8).
* Als de mediaan van de populatie groter is dan $m_0$ ($Med > m_0$), worden meer en grotere rangen verwacht in $R^+$, dus $R^+ > \frac{n(n+1)}{4}$ [8](#page=8).
* Als de mediaan van de populatie kleiner is dan $m_0$ ($Med < m_0$), worden meer en grotere rangen verwacht in $R^-$, dus $R^+ < \frac{n(n+1)}{4}$ [8](#page=8).
De nulhypothese ($H_0$) wordt verworpen als $R^+$ te ver afwijkt van $\frac{n(n+1)}{4}$. De p-waarde wordt vaak benaderend berekend met statistische software [8](#page=8).
> **Voorbeeld:** Een postorderbedrijf wil testen of de mediaan verwerkingsduur van bestellingen groter is dan 60 minuten [7](#page=7).
>
> * $H_0$: $Med = 60$
> * $H_1$: $Med > 60$
>
> Gegeven de waarnemingen voor verwerkingsduur $X_i$:
> `postorder <- c(124, 105, 43, 69, 88, 79, 33, 59, 77, 58, 121, 63, 76, 56, 69, 89, 71, 76)` [8](#page=8).
>
> Na het berekenen van de verschillen $D_i = X_i - 60$, de absolute waarden $|D_i|$, en het toekennen van de rangen, wordt $R^+ = 140.5$ gevonden. De steekproefgrootte is $n=18$ [7](#page=7).
>
> Met statistische software wordt de p-waarde berekend als 0.00879. Aangezien deze p-waarde kleiner is dan het significantieniveau van 5%, wordt de nulhypothese verworpen. De mediaan verwerkingsduur is significant groter dan 60 minuten [8](#page=8).
### 3.2 Toepassing voor gepaarde waarnemingen
De Wilcoxon rangtekentest is ook zeer geschikt voor het analyseren van gepaarde waarnemingen $(X, Y)$ [9](#page=9).
#### 3.2.1 Opzet van de test
Bij gepaarde waarnemingen is het doel om te toetsen of het verschil tussen de twee metingen een mediaan van nul heeft. De nulhypothese is $H_0: Med_{X-Y} = 0$, en de alternatieve hypothese is $H_1: Med_{X-Y} \neq 0$ [9](#page=9).
De berekening verloopt vervolgens vergelijkbaar met de test voor één populatiemediaan, waarbij $m_0 = 0$ wordt gehanteerd:
1. **Bereken de verschillen:** Bereken $D_i = X_i - Y_i$ voor elk paar [9](#page=9).
2. **Rangschik en sommeer:** Rangschik de absolute waarden $|D_i|$ en bereken de som van de rangen van de positieve verschillen ($R^+$) en de som van de rangen van de negatieve verschillen ($R^-$) [9](#page=9).
3. **Toetsstatistiek:** De interpretatie van $R^+$ ten opzichte van $\frac{n(n+1)}{4}$ blijft hetzelfde, waarbij $n$ de steekproefgrootte van de paren is [8](#page=8) [9](#page=9).
> **Voorbeeld:** Een communicatietraining wordt geëvalueerd door te kijken of verkoopcijfers veranderen na de training [9](#page=9).
>
> * $H_0$: $Med_{verkoop\_na - verkoop\_voor} = 0$
> * $H_1$: $Med_{verkoop\_na - verkoop\_voor} \neq 0$
>
> Voor 8 verkopers worden de verkoopcijfers voor ($Y_i$) en na ($X_i$) de training geregistreerd [9](#page=9).
>
> | verkoper | verkoop voor ($Y_i$) | verkoop na ($X_i$) | verschil ($D_i$) | $|D_i|$ | rang | teken |
> | :------- | :------------------ | :--------------- | :------------- | :---- | :--- | :---- |
> | 1 | 95 | 121 | 26 | 26 | 7 | + |
> | 2 | 102 | 136 | 34 | 34 | 8 | + |
> | 3 | 88 | 87 | -1 | 1 | 1 | - |
> | 4 | 111 | 99 | -12 | 12 | 3 | - |
> | 5 | 102 | 122 | 20 | 20 | 5 | + |
> | 6 | 116 | 102 | -14 | 14 | 4 | - |
> | 7 | 131 | 129 | -2 | 2 | 2 | - |
> | 8 | 90 | 111 | 21 | 21 | 6 | + |
>
> De som van de rangen voor positieve verschillen is $R^+ = 7 + 8 + 5 + 6 = 26$ [9](#page=9).
> De som van de rangen voor negatieve verschillen is $R^- = 1 + 3 + 4 + 2 = 10$ [9](#page=9).
> De steekproefgrootte is $n=8$ [9](#page=9).
> De verwachte som van rangen onder $H_0$ is $\frac{8(8+1)}{4} = \frac{72}{4} = 18$.
> Aangezien $R^+=26$ significant afwijkt van 18 (dit zou verder geanalyseerd worden met kritieke waarden of een p-waarde), zou men kunnen concluderen dat de communicatietraining een significant effect heeft op de verkoopcijfers.
---
# Wilcoxon rangsomtest en Mann-Whitney U test voor twee onafhankelijke populaties
Deze niet-parametrische testen worden gebruikt om te bepalen of de medianen van twee onafhankelijke populaties van elkaar verschillen, door de ranks van de gecombineerde data te analyseren [10](#page=10) [11](#page=11).
### 4.1 Concept en toepassingen
De Wilcoxon rangsomtest en de Mann-Whitney U test zijn equivalente niet-parametrische methoden die worden ingezet om de medianen van twee onafhankelijke populaties te vergelijken. Ze zijn met name nuttig wanneer de aannames van parametrische testen, zoals de t-test, niet voldaan zijn, bijvoorbeeld bij niet-normaal verdeelde data of data op ordinaal niveau [10](#page=10).
* **Doel:** Het testen of twee continue verdelingen, met de aanname van gelijke vorm, samenvallen of verschoven zijn ten opzichte van elkaar [10](#page=10).
* **Nulhypothese ($H_0$):** De medianen van de twee populaties zijn gelijk ($Med_1 = Med_2$) [10](#page=10).
* **Alternatieve hypothese ($H_1$):** De medianen van de twee populaties verschillen ($Med_1 \neq Med_2$), of eenzijdig ($Med_1 < Med_2$ of $Med_1 > Med_2$) [10](#page=10).
### 4.2 De Wilcoxon rangsomtest
De Wilcoxon rangsomtest werkt door alle waarnemingen van beide steekproeven samen te voegen, deze te ordenen, en vervolgens rangen toe te kennen aan elke waarneming [11](#page=11).
#### 4.2.1 Stappen voor de Wilcoxon rangsomtest
1. **Voeg steekproeven samen:** Combineer alle waarnemingen uit de twee onafhankelijke steekproeven ($X_1$ en $X_2$).
2. **Orden de gecombineerde waarnemingen:** Sorteer alle waarnemingen van klein naar groot.
3. **Ken rangen toe:** Geef elke geordende waarneming een rang van 1 tot $n_1 + n_2$, waarbij $n_1$ en $n_2$ de groottes van respectievelijk steekproef 1 en steekproef 2 zijn. Bij gelijke waarden worden gemiddelde rangen toegekend [11](#page=11).
4. **Bereken sommen van rangen:** Bereken de som van de rangen voor steekproef 1 ($R_1$) en de som van de rangen voor steekproef 2 ($R_2$). De som van alle rangen is gelijk aan $\frac{(n_1 + n_2)(n_1 + n_2 + 1)}{2}$ [11](#page=11).
5. **Vergelijk gemiddelde rangen:** Onder de nulhypothese ($Med_1 = Med_2$), worden gemiddelde rangen verwacht die dicht bij $\frac{n_1 + n_2 + 1}{2}$ liggen. Dit impliceert dat de sommen van de rangen ongeveer gelijk zijn aan $R_1 \approx \frac{n_1(n_1 + n_2 + 1)}{2}$ en $R_2 \approx \frac{n_2(n_1 + n_2 + 1)}{2}$ [11](#page=11).
6. **Bepaal de teststatistiek:** De teststatistiek $W$ (vaak gelijk aan $R_1$ of $R_2$) wordt gebruikt om te toetsen.
> **Tip:** Bij het werken met R, kan de functie `wilcox.test()` gebruikt worden. Bijvoorbeeld, `wilcox.test(x, y)` vergelijkt de twee vectoren `x` en `y` [13](#page=13).
#### 4.2.2 Voorbeeld van de Wilcoxon rangsomtest
Stel we hebben de volgende waarnemingen voor twee groepen X1 en X2 [11](#page=11):
* $X_1$: 3, 17, 10, 4, 6
* $X_2$: 19, 11, 36, 8
**Stap 1 & 2:** Gecombineerd en geordend: 3, 4, 6, 8, 10, 11, 17, 19, 36.
**Stap 3:** Rangen toekennen:
| Waarneming | Rangen |
| :--------- | :----- |
| 3 | 1 |
| 4 | 2 |
| 6 | 3 |
| 8 | 4 |
| 10 | 5 |
| 11 | 6 |
| 17 | 7 |
| 19 | 8 |
| 36 | 9 |
Hier is $n_1=4$ en $n_2=5$, dus $n_1+n_2=9$.
**Stap 4:** Sommen van rangen berekenen:
* $R_1$ (rangen van X1: 3, 17, 10, 4): $1 + 7 + 5 + 2 = 15$
* $R_2$ (rangen van X2: 19, 11, 36, 8): $8 + 6 + 9 + 4 = 27$
De som van alle rangen is $\frac{9(9+1)}{2} = 45$. $R_1 + R_2 = 15 + 27 = 42$. (Let op: in het document wordt een andere berekening getoond met 5 waarnemingen voor X1 en 4 voor X2, wat leidde tot $R_1=15$ en $R_2=27$ ) [11](#page=11).
Onder $H_0$ verwachten we $R_1 \approx \frac{4(9+1)}{2} = 20$ en $R_2 \approx \frac{5(9+1)}{2} = 25$. Aangezien $R_1 < 20$ en $R_2 > 25$, suggereert dit dat $Med_1 < Med_2$.
#### 4.2.3 Interpretatie van de Wilcoxon rangsomtest
De uitkomst van de test wordt beoordeeld aan de hand van de p-waarde.
* Als de p-waarde kleiner is dan het gekozen significantieniveau (bv. 0.05), wordt de nulhypothese verworpen en is er voldoende bewijs om aan te nemen dat de medianen van de twee populaties verschillen [10](#page=10).
* Als de p-waarde groter is dan het significantieniveau, wordt de nulhypothese niet verworpen. Dit betekent dat er onvoldoende bewijs is om te concluderen dat de medianen verschillen [10](#page=10).
**Voorbeeld uit document:** Bij een communicatietraining werd het verschil in verkoopcijfers voor en na de training geanalyseerd. De resultaten gaven een p-waarde van 0.3125, wat leidde tot het niet verwerpen van de nulhypothese [10](#page=10).
### 4.3 De Mann-Whitney U test
De Mann-Whitney U test is een alternatieve formulering van de Wilcoxon rangsomtest en leidt tot dezelfde conclusies. De teststatistiek $U$ is gebaseerd op het aantal keren dat een waarneming uit de ene groep kleiner is dan een waarneming uit de andere groep [12](#page=12).
#### 4.3.1 Berekening van de Mann-Whitney U teststatistiek
De teststatistiek $U_1$ kan worden berekend door voor elke waarneming in steekproef 1 te tellen hoeveel waarnemingen in steekproef 2 kleiner zijn [12](#page=12).
Een meer directe berekening van $U_1$ kan worden gedaan met behulp van de som van de rangen ($R_1$) uit de Wilcoxon rangsomtest:
$$U_1 = R_1 - \frac{n_1(n_1 + 1)}{2}$$
Op een vergelijkbare manier kan $U_2$ worden berekend:
$$U_2 = R_2 - \frac{n_2(n_2 + 1)}{2}$$
De som van de twee U-statistieken is gelijk aan $n_1 \times n_2$:
$$U_1 + U_2 = n_1 n_2$$
#### 4.3.2 Equivalentie met de Wilcoxon rangsomtest
De verdeling van de teststatistiek $U$ vertoont dezelfde verschuiving als de rangsomtest, waardoor de conclusies identiek zijn. De functie `wilcox.test()` in R voert in feite de Mann-Whitney test uit [12](#page=12).
#### 4.3.3 Voorbeeld van de Mann-Whitney U test (MP3-spelers)
Beschouw een voorbeeld waarbij de levensduur van goedkope (X1) en dure (X2) MP3-spelers wordt vergeleken [12](#page=12).
* $n_1 = 8$ (goedkope) met $R_1 = 40$
* $n_2 = 10$ (dure) met $R_2 = 131$
De Mann-Whitney U statistieken worden berekend als volgt [13](#page=13):
$$U_1 = 40 - \frac{8(8 + 1)}{2} = 40 - \frac{8 \times 9}{2} = 40 - 36 = 4$$
$$U_2 = 131 - \frac{10(10 + 1)}{2} = 131 - \frac{10 \times 11}{2} = 131 - 55 = 76$$
Controle: $U_1 + U_2 = 4 + 76 = 80$, wat gelijk is aan $n_1 \times n_2 = 8 \times 10 = 80$.
De p-waarde die uit deze test komt, bepaalt de conclusie. In het voorbeeld met de MP3-spelers was de p-waarde 0.001591. Dit is kleiner dan een significantieniveau van 0.05, wat leidt tot het verwerpen van de nulhypothese dat de medianen van de levensduur van goedkope en dure MP3-spelers gelijk zijn [13](#page=13).
> **Tip:** Houd er rekening mee dat bij aanwezigheid van gelijke waarden (ties) in de data, software zoals R mogelijk geen exacte p-waarde kan berekenen en een benadering zal gebruiken met een continuïteitscorrectie [13](#page=13).
### 4.4 Aannames
* De data komt uit twee onafhankelijke populaties [10](#page=10).
* De verdelingen van de twee populaties zijn continu [10](#page=10).
* De verdelingen hebben dezelfde vorm. Als deze aanname niet geldt, testen de tests in feite of de cumulatieve distributiefuncties verschillen [10](#page=10).
### 4.5 Relatie tot andere testen
* **Wilcoxon signed rank test:** Gebruikt voor gepaarde waarnemingen, niet voor twee onafhankelijke populaties [10](#page=10).
* **Kruskal-Wallis test:** Een niet-parametrisch alternatief voor ANOVA, gebruikt om medianen van *meer dan twee* onafhankelijke groepen te vergelijken [13](#page=13).
---
# Kruskal-Wallis test voor meerdere onafhankelijke populaties
De Kruskal-Wallis test is een niet-parametrisch alternatief voor de variantieanalyse (ANOVA) dat wordt gebruikt om de medianen van meer dan twee onafhankelijke groepen te vergelijken [13](#page=13).
### 5.1 Introductie en toepassingsgebied
De test wordt toegepast wanneer men de medianen van drie of meer onafhankelijke groepen wil vergelijken. Het is een niet-parametrisch alternatief voor de eenweg ANOVA [13](#page=13).
#### 5.1.1 Onderstellingen
De Kruskal-Wallis test maakt de volgende onderstellingen [13](#page=13):
* De verdelingen van de populaties zijn continu [13](#page=13).
* De verdelingen hebben dezelfde vorm [13](#page=13).
#### 5.1.2 Hypothesen
De te toetsen hypothesen zijn als volgt [13](#page=13):
* **Nulhypothese ($H_0$):** De populatiemedianen van alle $g$ groepen zijn gelijk.
$$H_0: Med_1 = Med_2 = \dots = Med_g$$
* **Alternatieve hypothese ($H_1$):** Ten minste één populatiemedian verschilt van de andere.
$$H_1: \exists i,j \text{ s.t. } Med_i \neq Med_j$$
### 5.2 De teststatistiek
Om de teststatistiek te berekenen, worden alle waarnemingen uit alle groepen samengevoegd en gerangschikt van laag naar hoog [14](#page=14).
#### 5.2.1 Berekeningsstappen
1. **Combineer alle waarnemingen:** Breng alle waarnemingen $X_{ij}$ (waarbij $i$ staat voor de groep en $j$ voor de waarneming binnen die groep) samen [14](#page=14).
2. **Rangschikken:** Geef alle gecombineerde waarnemingen een rang ($R_{ij}$) van 1 tot $n = n_1 + n_2 + \dots + n_g$, waarbij $n$ het totale aantal waarnemingen is [14](#page=14).
3. **Bereken gemiddelde rangen:** Bepaal voor elke groep de gemiddelde rang ($\bar{R}_i$) [14](#page=14).
4. **Bereken de teststatistiek (K):** De teststatistiek $K$ wordt berekend met de volgende formule [14](#page=14):
$$K = \frac{12}{n(n+1)} \sum_{i=1}^{g} n_i (\bar{R}_i - \bar{R})^2$$
waarbij $\bar{R} = \frac{n+1}{2}$ de globale gemiddelde rang is [14](#page=14).
Een alternatieve vorm is:
$$K = \frac{12}{n(n+1)} \sum_{i=1}^{g} \sum_{j=1}^{n_i} (R_{ij} - \bar{R})^2$$
#### 5.2.2 Verdeling van de teststatistiek
Voor grote steekproeven heeft de teststatistiek $K$ onder de nulhypothese een chi-kwadraatverdeling ($\chi^2$) met $g-1$ vrijheidsgraden [14](#page=14).
> **Tip:** Een veelgebruikte vuistregel voor het toepassen van de chi-kwadraatbenadering is dat de steekproefgrootte per groep ($n_i$) minimaal 5 moet zijn ($n_i \ge 5$ voor alle $i$) [14](#page=14).
### 5.3 Kritieke waarde en p-waarde
#### 5.3.1 Beslissingsregel
* Als de nulhypothese waar is, zijn alle gemiddelde rangen ($\bar{R}_i$) vergelijkbaar met de globale gemiddelde rang ($\bar{R}$) [14](#page=14).
* Als de alternatieve hypothese waar is (dus één verdeling is verschoven), zullen de gemiddelde rangen ($\bar{R}_i$) verder afwijken van de globale gemiddelde rang ($\bar{R}$), waardoor de teststatistiek $K$ groter wordt [14](#page=14).
* De test is daarom een rechtseenzijdige test [14](#page=14).
* De nulhypothese $H_0$ wordt verworpen als de berekende teststatistiek $k$ groter is dan de kritieke waarde uit de $\chi^2$-verdeling met $g-1$ vrijheidsgraden voor het gekozen significantieniveau $\alpha$ [14](#page=14).
$$k > \chi^2_{g-1, 1-\alpha}$$
#### 5.3.2 P-waarde
De p-waarde is de kans om een teststatistiek te observeren die minstens zo extreem is als de berekende teststatistiek $k$, onder de aanname dat de nulhypothese waar is [14](#page=14).
$$p\text{-waarde} = P(K > k) \quad \text{met } K \sim \chi^2_{g-1}$$
### 5.4 Praktisch voorbeeld: kostprijs verwarming
Stel dat we willen onderzoeken of het type verwarming invloed heeft op de "gemiddelde" verwarmingskost. We hebben een steekproef bij 27 gezinnen met vier verschillende soorten verwarming (Gas condensatie, Gas klassiek, Stookolie, Elektriciteit) en hun jaarlijkse kostprijs in dollars [15](#page=15).
* **Gegevens:**
* Gas (condensatie): 1708, 1849, 2225, 1512, 1538, 1391 dollar (mediaan: 1623 dollar)
* Gas (klassiek): 1863, 2199, 1865, 2236, 2046, 2011, 2177, 1922 dollar (mediaan: 2028.5 dollar)
* Stookolie: 2005, 2323, 2450, 1829, 1935, 2187, 1867, 1885, 2246 dollar (mediaan: 2005 dollar)
* Elektriciteit: 2615, 2685, 2519, 3115 dollar (mediaan: 2650 dollar)
* **Resultaten:**
* De berekende teststatistiek is $k = 14.83$ [15](#page=15).
* Het aantal groepen is $g=4$, dus het aantal vrijheidsgraden is $g-1 = 3$ [15](#page=15).
* Voor een significantieniveau van $\alpha = 0.05$ is de kritieke waarde $\chi^2_{3, 0.95} = 7.81$ [15](#page=15).
* Omdat $k = 14.83 > 7.81$, wordt de nulhypothese verworpen op een significantieniveau van 5% [15](#page=15).
* De p-waarde is $P(K \ge 14.83) = 0.002$ [15](#page=15).
* **Conclusie:** Er is een sterke aanwijzing dat het soort verwarmingsketel invloed heeft op de mediane verwarmingskost [15](#page=15).
> **Tip:** Indien de nulhypothese wordt verworpen, kunnen post-hoc testen, zoals de Wilcoxon rangsomtest met Bonferroni correctie, gebruikt worden om na te gaan welke specifieke medianen van elkaar verschillen [15](#page=15).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-parametrische testen | Statistische methoden die geen aannames doen over de verdeling van de populatie, zoals normaliteit. Ze zijn vaak gebaseerd op rangen in plaats van op de feitelijke waarden, en zijn daarom geschikt voor ordinale data of wanneer parametrische aannames geschonden zijn. |
| Centrale waarden | Kengetallen die de typische of centrale positie van een dataset samenvatten. De meest voorkomende centrale waarden zijn het gemiddelde (mean), de mediaan (median) en de modus (mode). |
| Populatiemediaan | De mediaan van de gehele populatie. Dit is de middelste waarde in een geordende dataset, of het gemiddelde van de twee middelste waarden als er een even aantal waarnemingen is. Het verdeelt de populatie in twee gelijke helften. |
| Tekentest | Een eenvoudige niet-parametrische test die de mediaan van een populatie vergelijkt met een hypothetische waarde door het aantal positieve en negatieve verschillen tussen de waarnemingen en de hypothetische mediaan te tellen. |
| Binomiaaltest | Een statistische test die wordt gebruikt om de kans op een bepaald aantal successen in een reeks van onafhankelijke experimenten te evalueren, waarbij elk experiment slechts twee mogelijke uitkomsten heeft (succes of falen). |
| Wilcoxon rangtekentest | Een niet-parametrische test voor gepaarde waarnemingen of voor één populatie om te bepalen of de mediaan significant verschilt van een hypothetische waarde. Het houdt rekening met zowel de richting als de grootte van de verschillen door middel van rangen. |
| Wilcoxon rangsomtest | Een niet-parametrische test die wordt gebruikt om de medians van twee onafhankelijke groepen te vergelijken. Het combineert alle waarnemingen, rangschikt ze, en vergelijkt de sommen van de rangen binnen elke groep. |
| Mann-Whitney U test | Een niet-parametrische test die equivalent is aan de Wilcoxon rangsomtest en ook wordt gebruikt om de medians van twee onafhankelijke groepen te vergelijken. De teststatistiek U is gebaseerd op het aantal keren dat een waarneming uit de ene groep kleiner is dan een waarneming uit de andere groep. |
| Kruskal-Wallis test | Een niet-parametrische test die wordt gebruikt om de medians van drie of meer onafhankelijke groepen te vergelijken. Het is een uitbreiding van de Wilcoxon rangsomtest naar meerdere groepen en is een alternatief voor de eenweg ANOVA. |
| p-waarde | De waarschijnlijkheid om een teststatistiek te observeren die minstens zo extreem is als de gevonden teststatistiek, aangenomen dat de nulhypothese waar is. Een lage p-waarde (< significantieniveau) leidt tot verwerping van de nulhypothese. |
| Nulhypothese (Ho) | Een stelling die de afwezigheid van een effect, een verschil of een relatie postuleert. Het is de hypothese die getoetst wordt en die, indien er voldoende bewijs is, verworpen kan worden. |
| Alternatieve hypothese (H1) | Een stelling die een effect, een verschil of een relatie postuleert, als tegenhanger van de nulhypothese. Dit kan een eenzijdige (groter dan of kleiner dan) of een tweezijdige (niet gelijk aan) hypothese zijn. |
| Steekproef | Een subset van een populatie die wordt gebruikt om conclusies te trekken over de gehele populatie. De representativiteit van de steekproef is cruciaal voor de geldigheid van de statistische inferentie. |
| Populatie | De gehele verzameling van individuen, objecten of metingen waarover men een conclusie wil trekken. |
| Rang | De positie van een waarneming in een geordende reeks van waarden. Waarnemingen worden gesorteerd van klein naar groot en krijgen een nummer toegewezen dat hun relatieve positie aangeeft. |
| Symmetrische kansdichtheid | Een kansverdeling waarbij de kansdichtheidsfunctie om een centrale waarde (meestal de mediaan of het gemiddelde) gespiegeld kan worden. Een normale verdeling is een voorbeeld van een symmetrische kansdichtheid. |
Cover
dia h 5.pdf
Summary
# Introductie tot testen voor afhankelijkheid
Dit gedeelte introduceert het concept van het testen van de afhankelijkheid tussen variabelen, waarbij de nulhypothese van onafhankelijkheid en de alternatieve hypothese van afhankelijkheid worden geformuleerd.
### 1.1 Hypothesen bij het testen van afhankelijkheid
Bij het testen van afhankelijkheid tussen twee variabelen, X en Y, worden de volgende hypothesen geformuleerd [1](#page=1) [2](#page=2):
* **Nulhypothese ($H_0$)**: X en Y zijn onafhankelijk [1](#page=1) [2](#page=2).
* **Alternatieve hypothese ($H_1$)**: X en Y zijn afhankelijk [1](#page=1) [2](#page=2).
### 1.2 Onafhankelijkheid van kansvariabelen
Beschouw een kansvariabele (X, Y) met een gezamenlijke kansverdeling $p_{X,Y}$ en marginale verdelingen $p_X$ en $p_Y$. X en Y zijn onafhankelijk als hun gezamenlijke kansverdeling het product is van hun marginale kansverdelingen [1](#page=1):
$p_{X,Y}(x, y) = p_X(x)p_Y(y)$ voor alle mogelijke waarden van x en y [1](#page=1).
Dit principe geldt analoog voor kansdichtheden ($f_{X,Y}, f_X, f_Y$) in het continue geval [1](#page=1).
### 1.3 De $\chi^2$-test voor afhankelijkheid
De $\chi^2$-test kan worden aangepast om de afhankelijkheid tussen variabelen te testen. In deze context test de $\chi^2$-test of de gezamenlijke kansverdeling $p_{X,Y}$ gelijk is aan het product van de marginale kansverdelingen [2](#page=2).
De hypothesen voor de $\chi^2$-test voor afhankelijkheid zijn:
* **Nulhypothese ($H_0$)**: $p_{X,Y}(x, y) = p_X(x)p_Y(y)$ voor alle $(x, y)$ [2](#page=2).
* **Alternatieve hypothese ($H_1$)**: $p_{X,Y}(x, y) \neq p_X(x)p_Y(y)$ voor minstens één $(x, y)$ [2](#page=2).
Een uitdaging bij deze test is dat de marginale verdelingen $p_X$ en $p_Y$ vaak niet bekend zijn. In dergelijke gevallen worden de marginale verdelingen geschat aan de hand van relatieve frequenties [2](#page=2).
#### 1.3.1 Kruistabellen (Contingency Tables)
Wanneer er $r$ mogelijke waarden voor variabele X ($x_j$) en $k$ mogelijke waarden voor variabele Y ($y_j$) zijn, kunnen de frequenties van de waarnemingen worden samengevat in een kruistabel (contingency table). Hierbij kunnen $x_j$ en $y_j$ ook klassen voorstellen [2](#page=2).
* $n_{ij}$: het aantal observaties waarbij X de waarde $x_i$ aanneemt en Y de waarde $y_j$ aanneemt [2](#page=2).
* $n$: het totaal aantal observaties [2](#page=2).
De geschatte marginale relatieve frequenties kunnen worden berekend als volgt [2](#page=2):
* Geschatte relatieve frequentie voor $x_i$: $\hat{p}_X(x_i) = \frac{\sum_{j=1}^{k} n_{ij}}{n}$
* Geschatte relatieve frequentie voor $y_j$: $\hat{p}_Y(y_j) = \frac{\sum_{i=1}^{r} n_{ij}}{n}$
---
# De chikwadraat (x2) test voor afhankelijkheid
De chikwadraat (x²) test voor afhankelijkheid wordt gebruikt om te bepalen of er een statistisch significant verband bestaat tussen twee categorische variabelen [2](#page=2).
### 2.1 Concept van de x²-test voor afhankelijkheid
De test evalueert de gezamenlijke verdeling van twee categorische variabelen, $P_{X,Y}(x, y)$, en vergelijkt deze met het product van hun marginale verdelingen, $P_X(x)P_Y(y)$ [2](#page=2).
* **Nulhypothese ($H_0$):** De twee variabelen zijn onafhankelijk. Dit betekent dat de gezamenlijke kansverdeling gelijk is aan het product van de marginale kansverdelingen: $P_{X,Y}(x, y) = P_X(x)P_Y(y)$ voor alle $(x, y)$ [2](#page=2).
* **Alternatieve hypothese ($H_1$):** De twee variabelen zijn afhankelijk. Dit betekent dat de gezamenlijke kansverdeling niet gelijk is aan het product van de marginale kansverdelingen voor ten minste één combinatie van $(x, y)$ [2](#page=2).
Een belangrijk aspect is dat de marginale verdelingen $P_X(x)$ en $P_Y(y)$ vaak niet bekend zijn en geschat moeten worden uit de steekproefgegevens, meestal via relatieve frequenties [2](#page=2).
### 2.2 De kruistabel (contingency table)
Om de frequenties van de observaties voor twee categorische variabelen samen te vatten, wordt een kruistabel gebruikt [2](#page=2).
* Stel dat variabele $X$ $r$ mogelijke waarden ($x_1, \ldots, x_r$) heeft en variabele $Y$ $k$ mogelijke waarden ($y_1, \ldots, y_k$). Deze waarden kunnen ook categorieën of klassen voorstellen [2](#page=2).
* $n_{ij}$ staat voor het aantal observaties dat overeenkomt met de combinatie van $X=x_i$ en $Y=y_j$ [2](#page=2).
* $n$ is het totaal aantal observaties in de steekproef [2](#page=2).
De relatieve frequenties kunnen worden berekend als:
$P_X(x_i) \approx \sum_{j=1}^{k} \frac{n_{ij}}{n}$
$P_Y(y_j) \approx \sum_{i=1}^{r} \frac{n_{ij}}{n}$
### 2.3 Berekening van de teststatistiek
Onder de nulhypothese van onafhankelijkheid, wordt de verwachte aantal observaties in cel $(i, j)$ berekend als $n \cdot P_X(x_i) \cdot P_Y(y_j)$. Aangezien de marginale kansen geschat worden, wordt dit verwachte aantal geschat met $n \cdot \hat{P}_X(x_i) \cdot \hat{P}_Y(y_j)$ [3](#page=3).
De chikwadraat ($x^2$) teststatistiek wordt berekend als de som van de gekwadrateerde verschillen tussen de waargenomen frequenties ($n_{ij}$) en de verwachte frequenties, gedeeld door de verwachte frequenties, over alle cellen van de kruistabel [3](#page=3):
$$x^2 = \sum_{i=1}^{r} \sum_{j=1}^{k} \frac{(n_{ij} - n\hat{P}_X(x_i)\hat{P}_Y(y_j))^2}{n\hat{P}_X(x_i)\hat{P}_Y(y_j)}$$
#### 2.3.1 Voorbeeld: regio vs. belastingschaal
Stel we onderzoeken of de regio (Vlaanderen vs. Wallonië) en de belastingschaal afhankelijk zijn bij 400 gezinnen [3](#page=3).
| belastingschaal Y | 0-20% | 20-30% | 30-40% | >40% | Totaal | $\hat{P}_X$ |
| :---------------- | :---- | :----- | :----- | :--- | :----- | :---------- |
| **Regio X** | | | | | | |
| Wallonië | 28 | 42 | 30 | 24 | 124 | 0.31 |
| Vlaanderen | 44 | 78 | 78 | 76 | 276 | 0.69 |
| Totaal | 72 | 120 | 108 | 100 | 400 | |
De geschatte marginale kansen zijn: $\hat{P}_X(\text{Wallonië}) = 124/400 = 0.31$, $\hat{P}_X(\text{Vlaanderen}) = 276/400 = 0.69$. En $\hat{P}_Y(0-20\%) = 72/400 = 0.18$, $\hat{P}_Y(20-30\%) = 120/400 = 0.30$, etc. [3](#page=3).
Het verwachte aantal voor Wallonië en belasting 0-20% onder $H_0$ is $400 \times 0.31 \times 0.18 = 22.32$ [3](#page=3).
De verwachte aantallen onder $H_0$ zijn:
| belastingschaal Y | 0-20% | 20-30% | 30-40% | >40% |
| :---------------- | :----- | :----- | :----- | :---- |
| **Regio X** | | | | |
| Wallonië | 22.32 | 37.20 | 33.48 | 31.00 |
| Vlaanderen | 49.68 | 82.80 | 74.52 | 69.00 |
De berekende $x^2$ teststatistiek is $5.8075$ [3](#page=3).
### 2.4 Vrijheidsgraden
Voor de $x^2$-test voor afhankelijkheid wordt de verdeling van de teststatistiek benaderd door een $x^2$-verdeling met een bepaald aantal vrijheidsgraden ($df$) [4](#page=4).
De vrijheidsgraden worden berekend als: $df = (\text{aantal rijen} - 1) \times (\text{aantal kolommen} - 1)$. In symbolen, voor een $r \times k$ kruistabel:
$df = (r - 1)(k - 1)$
Dit aantal volgt uit het feit dat we $r-1$ parameters schatten voor de marginale verdeling van $X$ en $k-1$ parameters voor de marginale verdeling van $Y$. Het totale aantal cellen is $rk$. Dus de vrijheidsgraden zijn $rk - 1 - (r - 1) - (k - 1) = rk - r - k + 1 = (r - 1)(k - 1)$ [4](#page=4).
#### 2.4.1 Voorbeeld: regio vs. belastingschaal
In het voorbeeld van regio vs. belastingschaal hebben we 2 rijen (regio's) en 4 kolommen (belastingschalen).
$df = (2 - 1)(4 - 1) = 1 \times 3 = 3$ [4](#page=4).
### 2.5 Interpretatie van de resultaten
De nulhypothese ($H_0$) wordt verworpen als de berekende teststatistiek groter is dan de kritieke waarde uit de $x^2$-verdeling voor een gegeven significantieniveau ($\alpha$) en het berekende aantal vrijheidsgraden [4](#page=4).
* **Kritieke waarde:** Dit is de waarde uit de $x^2$-verdeling die overeenkomt met het gekozen significantieniveau (bv. $\alpha=0.05$) en de berekende vrijheidsgraden. De nulhypothese wordt verworpen als $x^2_{berekend} > x^2_{\text{kritiek}}(\alpha, df)$ [4](#page=4).
* **p-waarde:** Dit is de kans om een teststatistiek te observeren die minstens zo extreem is als de berekende waarde, aangenomen dat de nulhypothese waar is. $H_0$ wordt verworpen als de p-waarde kleiner is dan het significantieniveau ($\alpha$) [4](#page=4).
#### 2.5.1 Voorbeeld: regio vs. belastingschaal
* Teststatistiek: $x^2 = 5.8075$ [4](#page=4).
* Vrijheidsgraden: $df = 3$ [4](#page=4).
* Kritieke waarde voor $\alpha = 0.05$: $x^2_{3, 0.95} = 7.81$ [4](#page=4).
* p-waarde: $P(x^2 > 5.8075) = 0.121$ [4](#page=4).
Omdat de berekende teststatistiek ($5.8075$) kleiner is dan de kritieke waarde ($7.81$) en de p-waarde ($0.121$) groter is dan het significantieniveau van $5\%$, wordt de nulhypothese niet verworpen. Er is onvoldoende statistisch bewijs om aan te tonen dat de regio en de belastingschaal afhankelijk zijn in deze steekproef [4](#page=4).
### 2.6 Voorwaarden en aanpassingen
De $x^2$-verdeling als benadering voor de teststatistiek is geldig voor grote steekproeven [5](#page=5).
* **Vuistregel:** Een veelgebruikte vuistregel is dat het verwachte aantal observaties ($n\hat{P}_X(x_i)\hat{P}_Y(y_j)$) in elke cel van de kruistabel minstens 5 moet zijn. Als deze voorwaarde niet is voldaan voor een aanzienlijk deel van de cellen, kan de $x^2$-benadering onbetrouwbaar worden [5](#page=5).
* **Continuïteitscorrectie (Yates' correctie):** Bij 2x2 kruistabellen kan soms een continuïteitscorrectie worden toegepast om de discrete aard van de data te accommoderen. Dit houdt in dat de absolute verschillen tussen waargenomen en verwachte frequenties met 0.5 worden verminderd voordat ze gekwadrateerd worden:
$$x^2_{\text{gecorrigeerd}} = \sum_{i=1}^{r} \sum_{j=1}^{k} \frac{(|n_{ij} - n\hat{P}_X(x_i)\hat{P}_Y(y_j)| - 0.5)^2}{n\hat{P}_X(x_i)\hat{P}_Y(y_j)}$$
Deze correctie leidt tot een kleinere teststatistiek en dus een hogere p-waarde, wat de nulhypothese minder snel zal verwerpen. Echter, de continuïteitscorrectie wordt soms als te conservatief beschouwd en niet altijd toegepast [5](#page=5).
#### 2.6.1 Voorbeeld: Coke Zero vs. Light afhankelijkheid van geslacht
Stel we willen weten of de voorkeur voor Coke Zero of Light afhankelijk is van geslacht bij 20 personen [5](#page=5).
* $H_0$: Geslacht en voorkeur zijn onafhankelijk.
* $H_1$: Geslacht en voorkeur zijn afhankelijk.
| light | zero | Totaal |
| :---- | :--- | :----- |
| **Geslacht** | | |
| Man | 1 | 5 | 6 |
| Vrouw | 11 | 3 | 14 |
| Totaal | 12 | 8 | 20 |
Het verwachte aantal mannen met voorkeur voor Light onder $H_0$ is $20 \times (6/20) \times (12/20) = 3.6$. Aangezien dit aantal kleiner is dan 5, is de vuistregel voor de geldigheidsvoorwaarde voor de $x^2$-verdeling mogelijk niet voldaan in deze kleine steekproef. Voor een accurate analyse zou de continuïteitscorrectie kunnen worden overwogen, of een exacte test zoals Fisher's exact test indien de steekproef klein genoeg is [5](#page=5).
---
# Fisher's exacte test
Fisher's exacte test is een statistische test die wordt gebruikt om de significantie van de associatie tussen categorische variabelen te beoordelen, met name wanneer de verwachte aantallen in de cellen van een contingentietabel te klein zijn voor de chikwadraat test [6](#page=6).
### 3.1 Introductie en toepassingsgebied
De chikwadraat test heeft als voorwaarde dat de verwachte aantallen in de cellen van de contingentietabel voldoende groot moeten zijn. Wanneer deze voorwaarde niet voldaan is, is de chikwadraat benadering mogelijk incorrect. In dergelijke gevallen biedt Fisher's exacte test een uitkomst door de exacte verdeling van de teststatistiek onder de nulhypothese te bepalen [6](#page=6).
> **Tip:** Fisher's exacte test is met name geschikt voor 2x2 tabellen, maar kan ook worden uitgebreid naar grotere tabellen. De R-functie `fisher.test()` ondersteunt standaard 2x2 tabellen, maar kan ook grotere tabellen aan met behulp van simulaties.
#### 3.1.1 Voorwaarden voor Fisher's exacte test
De primaire voorwaarde voor het correct toepassen van Fisher's exacte test is dat de rij- en kolomtotalen van de contingentietabel vastliggen. Dit betekent dat, gegeven de marginale totalen, we de kans berekenen op het observeren van een specifieke indeling van de waarden binnen de tabel [6](#page=6).
#### 3.1.2 Contingentietabel en de nulhypothese
Voor een 2x2 tabel met variabelen ingedeeld volgens bijvoorbeeld geslacht en productvoorkeur, kan een contingentietabel als volgt worden weergegeven:
| | Light | Zero | Totaal |
| :---------- | :---- | :--- | :----- |
| Man | $a$ | $b$ | $a+b$ |
| Vrouw | $c$ | $d$ | $c+d$ |
| Totaal | $a+c$ | $b+d$| $n$ |
De centrale vraag is of er een associatie bestaat tussen deze indelingen. De nulhypothese ($H_0$) stelt dat de variabelen onafhankelijk zijn, terwijl de alternatieve hypothese ($H_1$) stelt dat er een afhankelijkheid is [6](#page=6) [7](#page=7) [9](#page=9).
### 3.2 Berekening van de exacte p-waarde
#### 3.2.1 Kansberekening bij vastliggende marginalen
Onder de aanname dat de rij- en kolomtotalen vast zijn, volgt de kans op een specifieke contingentietabel een hypergeometrische verdeling. De formule voor de kans op een bepaalde celverdeling, gegeven de marginalen, is [7](#page=7):
$$ P(\text{specifieke tabel} | \text{marginalen}) = \frac{\binom{a+b}{a} \binom{c+d}{c}}{\binom{n}{a+c}} $$
waarbij $a, b, c, d$ de aantallen in de cellen zijn, $a+b$ en $c+d$ de rijtotalen, $a+c$ en $b+d$ de kolomtotalen, en $n$ het totaal aantal observaties [7](#page=7).
#### 3.2.2 Exacte p-waarde bij eenzijdige test
De exacte p-waarde voor een eenzijdige test wordt berekend door de kans op alle kruistabellen op te tellen die minstens even onwaarschijnlijk zijn als de geobserveerde tabel, en in de richting van de alternatieve hypothese wijzen [7](#page=7).
**Voorbeeld van een eenzijdige test:**
Stel de nulhypothese is dat geslacht en productvoorkeur onafhankelijk zijn ($H_0$), en de alternatieve hypothese is dat mannen de voorkeur geven aan Coke Zero ($H_1$). Een geobserveerde steekproef levert de volgende tabel op:
| | Light | Zero | Totaal |
| :---- | :---- | :--- | :----- |
| Man | 1 | 5 | 6 |
| Vrouw | 11 | 3 | 14 |
| Totaal| 12 | 8 | 20 |
Als we aannemen dat het aantal mannen en het aantal blikjes Light vastliggen, wordt de kans dat 1 op de 6 mannen voor Light kiest als volgt berekend [6](#page=6):
$$ P(a=1) = \frac{\binom{6}{1} \binom{14}{11}}{\binom{20}{12}} = 0.0173 $$
Een nog extremere uitkomst (in de richting van $H_1$) zou zijn dat 0 mannen voor Light kiezen:
$$ P(a=0) = \frac{\binom{6}{0} \binom{14}{12}}{\binom{20}{12}} = 0.0007 $$
De p-waarde voor deze eenzijdige test is de som van deze kansen: $0.0173 + 0.0007 = 0.0180$. Als deze p-waarde lager is dan het significantieniveau (bijvoorbeeld 0.05), wordt $H_0$ verworpen [8](#page=8).
#### 3.2.3 Exacte p-waarde bij tweezijdige test
Voor een tweezijdige test ($H_1$: geslacht en voorkeur zijn afhankelijk) worden de kansen van alle kruistabellen die in beide richtingen van de nulhypothese extremere uitkomsten geven, bij elkaar opgeteld. Men bekijkt dus de tabellen die zowel extremere waarden voor $a$ (minder mannen die Light kiezen) als voor $a$ (meer mannen die Light kiezen) vertegenwoordigen, in verhouding tot de marginale totalen [9](#page=9).
In het voorbeeld van Coke Zero vs. Light, worden de kansen voor verschillende waarden van $a$ (aantal mannen met voorkeur voor Light) onder $H_0$ gegeven:
| $a$ | Kans |
| :-- | :--------- |
| 0 | 0.0007 |
| 1 | 0.0173 |
| 2 | 0.1192 |
| 3 | 0.3179 |
| 4 | 0.3576 |
| 5 | 0.1635 |
| 6 | 0.0238 |
Om de tweezijdige p-waarde te berekenen, worden de kansen van de minst waarschijnlijke uitkomsten aan beide zijden van de distributie opgeteld. In dit specifieke voorbeeld, als de geobserveerde waarde $a=1$ is, dan zijn de extremere waarden $a=0$ en $a=1$. De p-waarde wordt dan $P(a \leq 1 \text{ of } a \geq \text{een corresponderende waarde die minstens zo extreem is})$. De exacte berekening kan complex zijn, maar de software berekent dit. Voor dit voorbeeld resulteert de tweezijdige p-waarde in 0.01806 [9](#page=9).
### 3.3 Implementatie in R
De functie `fisher.test()` in R kan worden gebruikt om Fisher's exacte test uit te voeren.
**Voorbeeld met R code:**
Voor een eenzijdige test waarbij de alternatieve hypothese is dat de odds ratio kleiner is dan 1 (wat impliceert dat mannen minder geneigd zijn Light te kiezen dan vrouwen in dit scenario):
```R
> fisher.test(kruistabel, alternative="less")
```
Voor een tweezijdige test (standaardinstelling als `alternative` niet gespecificeerd is):
```R
> fisher.test(kruistabel)
```
De output van `fisher.test()` geeft de p-waarde, de geobserveerde odds ratio, en een betrouwbaarheidsinterval voor de odds ratio [8](#page=8) [9](#page=9).
> **Tip:** Bij het interpreteren van de odds ratio is het belangrijk om de richting van de associatie te overwegen. Een odds ratio kleiner dan 1 duidt op een andere associatie dan een odds ratio groter dan 1. De `alternative` parameter in `fisher.test()` stelt u in staat om te specificeren of u geïnteresseerd bent in een "less", "greater", of "two.sided" alternatieve hypothese.
---
# Spearman en Kendall rangcorrelatietesten
Deze sectie verkent niet-parametrische methoden om de sterkte en richting van de associatie tussen twee rangorde variabelen te meten, namelijk de Spearman en Kendall rangcorrelatietests [10](#page=10).
### 4.1 Spearman rangcorrelatietest
De Spearman rangcorrelatietest, ook wel bekend als de Spearman's rho ($\rho_s$), is een methode om de sterkte en richting van de associatie tussen twee gekoppelde continue variabelen te meten, waarbij de rangordes van deze variabelen worden gebruikt. Deze test vereist enkel een ordinale meetschaal [10](#page=10).
#### 4.1.1 Concept en berekening
De Spearman rangcorrelatie is equivalent aan de Pearson correlatie berekend op de rangen van de variabelen. Gegeven een steekproef van gekoppelde continue variabelen $(x_1, y_1), \dots, (x_n, y_n)$ [10](#page=10):
1. Rangschik de $x_j$ waarden van klein naar groot om de rang $u_j$ te verkrijgen [10](#page=10).
2. Rangschik de $y_i$ waarden van klein naar groot om de rang $v_i$ te verkrijgen [10](#page=10).
3. De Spearman rangcorrelatie $r_s$ wordt berekend als de Pearson correlatie van de rangen $(u, v)$ [10](#page=10):
$$
r_s = \text{corr}(u, v) = \frac{\sum_{i=1}^{n} (u_i - \bar{u})(v_i - \bar{v})}{\sqrt{\sum_{i=1}^{n} (u_i - \bar{u})^2 \sum_{i=1}^{n} (v_i - \bar{v})^2}}
$$
Een perfecte positieve correlatie ($r_s = 1$) treedt op wanneer alle rangen gelijk zijn. Een perfecte negatieve correlatie ($r_s = -1$) treedt op wanneer alle rangen tegengesteld zijn [10](#page=10).
#### 4.1.2 Hypothesen en interpretatie
Voor de populatie Spearman rangcorrelatie $\rho_s$, worden de volgende hypothesen getest [11](#page=11):
* Nulhypothese ($H_0$): $\rho_s = 0$ (geen verband)
* Alternatieve hypothese ($H_1$): $\rho_s \neq 0$ (een verband, of eenzijdig $\rho_s > 0$ of $\rho_s < 0$) [11](#page=11).
Als er een monotoon stijgend verband is tussen de variabelen $X$ en $Y$, dan is $\rho_s = 1$. Bij een monotoon dalend verband is $\rho_s = -1$. Als de variabelen onafhankelijk zijn, dan is $\rho_s = 0$. De nulhypothese wordt verworpen als de berekende $r_s$ significant afwijkt van 0 [11](#page=11).
> **Tip:** De test is gebaseerd op de aanname dat de observaties onafhankelijk zijn en de populaties symmetrisch verdeeld zijn, hoewel de test minder gevoelig is voor schendingen van normaliteit dan de Pearson correlatie [10](#page=10).
#### 4.1.3 Voorbeeld: BEL20 vs. AEX rendementen
Het is relevant om te onderzoeken of de rendementen van de BEL20 en AEX beursindices afhankelijk zijn [11](#page=11).
De hypothesen zijn $H_0: \rho_s = 0$ versus $H_1: \rho_s \neq 0$ [11](#page=11).
De berekening met behulp van software levert de volgende resultaten op [11](#page=11):
* Spearman rangcorrelatie: $r_s = 0.6406015$ [11](#page=11).
* p-waarde = 0.002943 [11](#page=11).
Aangezien de p-waarde kleiner is dan 0.05, wordt de nulhypothese verworpen op een significantieniveau van 5%. Dit duidt op een significant positief verband tussen de rendementen van de BEL20 en AEX. De tabel met de rangen toont de $x_i$, $u_i$, $y_i$ en $v_i$ voor deze analyse [11](#page=11) [12](#page=12).
#### 4.1.4 Voorbeeld: Masterproeven beoordelingen
Een andere toepassing is het vergelijken van beoordelingen van masterproeven door academici en bedrijfsleiders. De vraag is of deze beoordelingen gelijkaardig zijn en positief afhankelijk [12](#page=12).
De hypothesen zijn $H_0: \rho_s = 0$ versus $H_1: \rho_s > 0$ [12](#page=12).
De resultaten van de test zijn [13](#page=13):
* Spearman rangcorrelatie: $r_s = 0.8424242$ [13](#page=13).
* p-waarde = 0.00223 [13](#page=13).
Met een p-waarde van 0.0022, wordt de nulhypothese verworpen op een significantieniveau van 5%. Dit suggereert dat de beoordelingen van masterproeven door academici en bedrijfsleiders significant positief afhankelijk zijn [13](#page=13).
### 4.2 Kendall rangcorrelatietest
De Kendall rangcorrelatietest, vaak aangeduid met $\tau$ (tau) of $r_k$, is een andere niet-parametrische methode om de sterkte en richting van de associatie tussen twee variabelen te meten, gebaseerd op de rangordes. In tegenstelling tot Spearman, vergelijkt Kendall de rangordes over alle mogelijke paren van observaties [13](#page=13).
#### 4.2.1 Concept en berekening
Bij de Kendall rangcorrelatietest wordt gekeken naar paren van observaties $(x_i, y_i)$ en $(x_j, y_j)$. Er wordt bepaald of deze paren **concordant** of **discordant** zijn [13](#page=13).
* Een **concordant paar** treedt op als de rangordes van de twee variabelen voor beide paren in dezelfde richting gaan. Dat wil zeggen, als $x_i < x_j$ en tegelijkertijd $y_i < y_j$, of als $x_i > x_j$ en $y_i > y_j$ [13](#page=13).
* Een **discordant paar** treedt op als de rangordes van de twee variabelen voor de paren tegengesteld zijn. Dat wil zeggen, als $x_i < x_j$ en $y_i > y_j$, of als $x_i > x_j$ en $y_i < y_j$ [13](#page=13).
Laat $c$ het aantal concordante paren zijn en $d$ het aantal discordante paren. Het totale aantal mogelijke paren van observaties is $\frac{n(n-1)}{2}$ [14](#page=14).
De Kendall rangcorrelatie $r_k$ wordt berekend als:
$$
r_k = \frac{c - d}{\frac{n(n-1)}{2}}
$$
Als alle paren concordant zijn, is $c = \frac{n(n-1)}{2}$ en $d = 0$, wat resulteert in $r_k = 1$ [14](#page=14).
Als alle paren discordant zijn, is $c = 0$ en $d = \frac{n(n-1)}{2}$, wat resulteert in $r_k = -1$ [14](#page=14).
Als de variabelen onafhankelijk zijn, dan is $c \approx d$, en dus $r_k \approx 0$ [14](#page=14).
#### 4.2.2 Hypothesen en interpretatie
Voor de populatie Kendall rangcorrelatie $\tau$ (of $\rho_k$), worden de volgende hypothesen getest [14](#page=14):
* Nulhypothese ($H_0$): $\rho_k = 0$ (geen verband)
* Alternatieve hypothese ($H_1$): $\rho_k \neq 0$ (een verband, of eenzijdig $\rho_k > 0$ of $\rho_k < 0$) [14](#page=14).
Net als bij Spearman, impliceert een monotoon stijgend verband $\rho_k = 1$, en een monotoon dalend verband $\rho_k = -1$. Onafhankelijkheid impliceert $\rho_k = 0$. De nulhypothese wordt verworpen als de berekende $r_k$ significant afwijkt van 0 [14](#page=14).
> **Tip:** De Kendall tau correlatie is een robuuste maat voor associatie, vooral nuttig wanneer er veel gelijke waarden of uitschieters zijn, omdat het werkt met rangen [13](#page=13).
#### 4.2.3 Voorbeeld: BEL20 vs. AEX rendementen
Voor de BEL20 en AEX rendementen wordt de Kendall correlatie getest met de hypothesen $H_0: \rho_k = 0$ versus $H_1: \rho_k \neq 0$ [15](#page=15).
Er worden $\frac{20 \times 19}{2} = 190$ paren van observaties vergeleken [15](#page=15).
Een voorbeeld van een concordant paar is wanneer observatie 1 (BEL20 rendement: -1.63, AEX rendement: -0.83) wordt vergeleken met observatie 2 (BEL20 rendement: 0.12, AEX rendement: -0.17). Hier is $1 < 7$ en $1 < 5$ (rangen), wat een concordant paar aangeeft [15](#page=15).
Een voorbeeld van een discordant paar is wanneer observatie 4 (BEL20 rendement: 1.67, AEX rendement: 1.51) wordt vergeleken met observatie 7 (BEL20 rendement: 1.02, AEX rendement: 1.37). Hier is $4 > 7$ (rangen BEL20) maar $16 < 19$ (rangen AEX), wat een discordant paar aangeeft [15](#page=15).
De resultaten van de test met software zijn [16](#page=16):
* Aantal concordante paren: 142, aantal discordante paren: 48 [16](#page=16).
* Kendall rangcorrelatie: $r_k = \frac{142 - 48}{190} = 0.4947$ [16](#page=16).
* p-waarde = 0.00184 [16](#page=16).
Met een p-waarde van 0.0018, wordt de nulhypothese verworpen op een significantieniveau van 5%. Dit bevestigt een significant positief verband tussen de rendementen van de BEL20 en AEX [16](#page=16).
#### 4.2.4 Voorbeeld: Masterproeven beoordelingen
Voor de beoordelingen van masterproeven door academici en bedrijfsleiders, met hypothesen $H_0: \rho_k = 0$ versus $H_1: \rho_k > 0$ [16](#page=16):
* Observatie A (bedrijfsleider rang 5, academicus rang 4) en observatie B (bedrijfsleider rang 1, academicus rang 2) vormen een concordant paar omdat $5 > 1$ en $4 > 2$ [16](#page=16).
* Observatie A (bedrijfsleider rang 5, academicus rang 4) en observatie C (bedrijfsleider rang 3, academicus rang 6) vormen een discordant paar omdat $5 > 3$ maar $4 < 6$ [16](#page=16).
De resultaten van de test met software zijn [17](#page=17):
* Totaal aantal paren te vergelijken: $\frac{10 \times 9}{2} = 45$ [17](#page=17).
* Aantal concordante paren: 36, aantal discordante paren: 9 [17](#page=17).
* Kendall rangcorrelatie: $r_k = 0.6$ [17](#page=17).
* p-waarde = 0.008333 [17](#page=17).
Met een p-waarde van 0.0083, wordt de nulhypothese verworpen op een significantieniveau van 5%. De beoordelingen van masterproeven door academici en bedrijfsleiders zijn dus significant positief afhankelijk [17](#page=17).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Onafhankelijkheid | Twee variabelen worden als onafhankelijk beschouwd als de verdeling van de ene variabele niet wordt beïnvloed door de waarden van de andere variabele. Wiskundig geldt dan $P(X, Y) = P(X)P(Y)$. |
| Afhankelijkheid | Twee variabelen worden als afhankelijk beschouwd als er een relatie bestaat tussen hun waarden, wat betekent dat de verdeling van de ene variabele verandert afhankelijk van de waarde van de andere variabele. |
| Gezamenlijke kansverdeling | Een kansverdeling die de kansen beschrijft voor combinaties van uitkomsten van twee of meer willekeurige variabelen. |
| Marginale verdeling | De kansverdeling van een enkele willekeurige variabele binnen een gezamenlijke verdeling, zonder rekening te houden met de waarden van de andere variabelen. |
| Kruistabel (Contingency table) | Een tabel die de frequentieverdeling van variabelen toont. Bij het testen van afhankelijkheid wordt deze gebruikt om de waargenomen frequenties van combinaties van uitkomsten van twee categorische variabelen weer te geven. |
| Verwachte frequentie | Het aantal observaties dat verwacht wordt in een cel van een kruistabel onder de aanname van onafhankelijkheid tussen de variabelen. Dit wordt berekend als $n \times P(X=x) \times P(Y=y)$. |
| Teststatistiek | Een waarde berekend uit steekproefgegevens die wordt gebruikt om de nulhypothese te testen. De chikwadraat ($x^2$) teststatistiek meet het verschil tussen waargenomen en verwachte frequenties. |
| Vrijheidsgraden | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische berekening. Bij de $x^2$-test voor afhankelijkheid van een $r \times k$ tabel is dit $(r-1)(k-1)$. |
| p-waarde | De kans om een teststatistiek te observeren die minstens zo extreem is als de berekende waarde, gegeven dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot het verwerpen van de nulhypothese. |
| Fisher's exacte test | Een statistische test die wordt gebruikt om de afhankelijkheid tussen twee categorische variabelen te evalueren, vooral nuttig wanneer de verwachte celgroottes klein zijn. Het berekent de exacte kans van de waargenomen resultaten onder de nulhypothese van onafhankelijkheid. |
| Hypergeometrische verdeling | Een discrete kansverdeling die de kans berekent op een bepaald aantal successen in trekkingen zonder teruglegging uit een eindige populatie waarin elke trekking een succes of mislukking is. Wordt gebruikt in Fisher's exacte test. |
| Rangcorrelatie | Een statistische maat die de sterkte en richting van een monotone relatie tussen twee rangschikkingen aangeeft. Spearman's rho en Kendall's tau zijn voorbeelden. |
| Spearman rangcorrelatie ($r_s$) | Een niet-parametrische maat voor de sterkte en richting van de associatie tussen twee rangschikkingen. Het is de Pearson-correlatiecoëfficiënt toegepast op de rangen van de gegevens. |
| Kendall rangcorrelatie ($r_k$ of $T$) | Een niet-parametrische maat voor de associatie tussen twee rangschikkingen, gebaseerd op het aantal concordante en discordante paren in de gegevens. |
| Concordant paar | Een paar observaties waarbij de rangschikking van de ene variabele dezelfde richting heeft als de rangschikking van de andere variabele voor beide observaties. |
| Discordant paar | Een paar observaties waarbij de rangschikking van de ene variabele tegengesteld is aan de rangschikking van de andere variabele voor de twee observaties. |
Cover
HC 11_Het beschrijven van twee variabelen (associatiematen op ordinaal niveau) BB_.pptx
Summary
# Inleiding tot associatiematen op ordinaal niveau
Dit hoorcollege introduceert associatiematen voor variabelen gemeten op ordinaal niveau, waarbij de nadruk ligt op de keuze van de juiste maat op basis van het meetniveau en de aard van het verband, alsook de interpretatie van de richting van een verband.
### 1.1 Situering en inhoud van het hoorcollege
Dit onderdeel schetst de plaats van het hoorcollege binnen de bredere statistische context en introduceert de belangrijkste leerdoelen.
#### 1.1.1 Formules en hulpmiddelen
De formules die in dit hoorcollege worden behandeld, kunnen qua notatie enigszins afwijken van die in het boek of de online documentatie, maar komen conceptueel op hetzelfde neer. Alle relevante formules staan op het formularium dat beschikbaar is op Blackboard onder 'evaluatie' -> 'hulpmiddelen'. Dit formularium mag gebruikt worden tijdens het examen, waardoor het niet noodzakelijk is om de formules van buiten te leren. Het is wel essentieel om ermee te kunnen werken. Bij berekeningen dient altijd te worden afgerond tot twee cijfers na de komma. Kleine verschillen in uitkomsten door afrondingen tijdens tussenstappen of het ontbreken daarvan worden op het examen meegenomen binnen een foutenmarge.
#### 1.1.2 Doel van associatiematen
Associatiematen, ook wel samenhangmaten genoemd, geven aan of er een samenhang bestaat tussen twee variabelen.
#### 1.1.3 Keuze van de juiste associatiemaat
De keuze voor de geschikte associatiemaat wordt bepaald door twee hoofdfactoren:
1. **Meetniveau van de variabelen:**
* Indien minstens één variabele van nominaal meetniveau is, wordt een associatiemaat op nominaal niveau gekozen.
* Wanneer één variabele ordinaal is en de andere niet-nominaal, wordt een associatiemaat op ordinaal niveau gebruikt.
* Als beide variabelen minimaal van intervalniveau zijn, wordt een associatiemaat op interval/ratio niveau toegepast.
2. **Verondersteld verband tussen de variabelen:**
* Bij een symmetrisch verband zijn asymmetrische associatiematen niet mogelijk.
* Bij een asymmetrisch verband zijn symmetrische associatiematen wel mogelijk, hoewel dit niet de volledige asymmetrie van de analyse benut.
Binnen Statistiek 1 ligt de focus op symmetrische associatiematen op verschillende meetniveaus.
### 1.2 De richting van een verband
In tegenstelling tot maten op nominaal niveau, die enkel de sterkte van een verband aangeven, duiden maten op ordinaal niveau zowel de sterkte als de richting van een verband aan.
#### 1.2.1 Sterkte en richting
* **Sterkte van een verband:** Geeft de mate van samenhang aan, variërend van geen verband tot een perfect verband.
* **Richting van een verband:** Kan positief of negatief zijn.
* **Positief verband:** Hogere waarden van de ene variabele gaan samen met hogere waarden van de andere variabele (hoog-hoog en laag-laag).
* **Negatief verband:** Hogere waarden van de ene variabele gaan samen met lagere waarden van de andere variabele (laag-hoog en hoog-laag).
Bij nominale variabelen is er geen rangordening, waardoor het niet mogelijk is om te spreken van 'hogere' of 'lagere' waarden en dus ook niet over de richting van het verband.
#### 1.2.2 Oefeningen richting van een verband
* **Oefening 1:**
* TV/PC en beweging: negatief verband.
* TV/PC en BMI: positief verband.
* **Oefening 2:** Verwachtingen over positieve/negatieve samenhang:
* Pestgedrag: Vaak negatief samenhangend met slaapkwaliteit en positief met eenzaamheid en faalangst.
* Slaapkwaliteit: Vaak positief samenhangend met pestgedrag (negatief) en negatief met eenzaamheid en faalangst.
* Eenzaamheid: Vaak positief samenhangend met pestgedrag en faalangst, en negatief met slaapkwaliteit.
* Faalangst: Vaak positief samenhangend met pestgedrag en eenzaamheid, en negatief met slaapkwaliteit.
### 1.3 Samenhang onderzoeken op ordinaal niveau
Op ordinaal niveau kan de samenhang tussen variabelen op verschillende manieren worden onderzocht.
#### 1.3.1 Eerste indicatie via de kruistabel
Een eerste, voorzichtige indicatie van het verband kan worden verkregen aan de hand van een kruistabel. Door kolom- of rijpercentages te analyseren, kan men nagaan of de verdeling van de ene variabele verschilt binnen de categorieën van de andere variabele. Een verschil tussen de marginale verdelingen van de kolompercentages duidt op samenhang.
* **Voorbeeld vraagstelling:** Hoe vaak heeft u ruzie met uw partner? versus Hoe vaak hebt u overwogen de relatie te beëindigen?
Als de marginale verdeling van de kolompercentages verschilt (bijvoorbeeld 34.13% ≠ 72.55% ≠ 10.53% ≠ 7.14%), duidt dit op samenhang.
Bovendien kunnen celpercentages in een kruistabel een eerste inzicht geven in de richting van het verband. Een positief verband wordt gekenmerkt doordat hogere waarden op de ene variabele samengaan met hogere waarden op de andere variabele.
#### 1.3.2 Definitieve conclusie met associatiematen
Voor een definitieve en betrouwbaardere conclusie over de samenhang wordt een geschikte associatiemaat berekend.
##### 1.3.2.1 Associatiematen op ordinaal niveau
Op ordinaal niveau kunnen diverse maten worden berekend.
> **Tip:** Raadpleeg de kennisclip van vorig academiejaar op Blackboard voor gedetailleerde berekeningsstappen van deze maten.
##### 1.3.2.2 Omgaan met gelijke waarden (rangnummers)
Wanneer meerdere respondenten dezelfde waarde hebben (bijvoorbeeld bij IQ-scores), wordt het gemiddelde van de rangnummers toegekend aan deze respondenten.
* **Voorbeeld:** Sarah en Mo scoren 111 en staan daarmee op een gedeelde 2e en 3e plaats. Cindy, Grace en Ruth scoren 103 en staan daarmee op een gedeelde 5e, 6e en 7e plaats.
##### 1.3.2.3 Interpretatie van associatiematen
De interpretatie van de berekende associatiemaat gebeurt op basis van twee componenten:
* **Sterkte:** Wordt afgeleid uit de numerieke waarde van de maat:
* 0: geen verband
* 0.01 – 0.10: Zeer zwak verband
* 0.11 – 0.30: Zwak verband
* 0.31 – 0.50: Medium verband
* 0.51 – 0.80: Sterk verband
* 0.81 – 0.99: Zeer sterk verband
* 1: Perfect verband
* **Richting:** Wordt afgeleid uit het teken van de maat:
* Een negatieve maat duidt op een negatieve samenhang.
* Een positieve maat duidt op een positieve samenhang.
* Een maat van 0 duidt op geen samenhang.
> **Belangrijk:** De interpretatierichtlijnen voor de sterkte en richting van het verband moeten vanbuiten geleerd worden.
* **Voorbeeld interpretatie:** Een berekende maat van 0.65 duidt op een positieve sterke samenhang.
---
# Het onderzoeken van samenhang op ordinaal niveau met kruistabellen
Dit gedeelte legt uit hoe een eerste indicatie van de samenhang tussen ordinale variabelen verkregen kan worden met behulp van kruistabellen, inclusief de interpretatie van kolompercentages en celpercentages.
### 2.1 Introductie tot associatiematen
Associatiematen geven aan of er een samenhang (of verband) bestaat tussen twee variabelen. De keuze voor de juiste associatiemaat hangt af van het meetniveau van de variabelen en het veronderstelde verband (symmetrisch of asymmetrisch). Voor statistiek 1 ligt de focus op symmetrische associatiematen op verschillende meetniveaus.
#### 2.1.1 Symmetrische versus asymmetrische associatiematen
* **Symmetrische verbanden:** Hierbij maakt het niet uit welke variabele als onafhankelijk en welke als afhankelijk wordt beschouwd. De associatiemaat berekent de sterkte van de relatie tussen de twee variabelen.
* **Asymmetrische verbanden:** Hierbij wordt wel een onderscheid gemaakt tussen een onafhankelijke en een afhankelijke variabele. Asymmetrische associatiematen zijn niet mogelijk als minstens één variabele nominaal is. Als beide variabelen minimaal interval zijn, zijn asymmetrische associatiematen wel mogelijk, maar het gebruik ervan kan betekenen dat men de asymmetrie in de analyse niet ten volle benut.
#### 2.1.2 Richting van een verband
In tegenstelling tot maten op nominaal niveau, die enkel de sterkte van een verband aangeven, duiden maten op ordinaal niveau naast de sterkte ook de richting van een verband aan:
* **Positief verband:** Hogere waarden van de ene variabele gaan samen met hogere waarden van de andere variabele (hoog-hoog, laag-laag).
* **Negatief verband:** Hogere waarden van de ene variabele gaan samen met lagere waarden van de andere variabele (laag-hoog, hoog-laag).
### 2.2 Samenhang onderzoeken op ordinaal niveau
Op ordinaal niveau kan samenhang op verschillende manieren worden onderzocht. Een eerste, voorzichtige indicatie van het verband kan worden verkregen met behulp van kruistabellen. Voor een definitieve en meer betrouwbare conclusie is het berekenen van een gepaste associatiemaat noodzakelijk.
#### 2.2.1 Een eerste indicatie met kruistabellen
Kruistabellen, in combinatie met kolom- of rijpercentages, kunnen een eerste indruk geven van een mogelijke samenhang tussen twee ordinale variabelen.
* **Samenhang vaststellen:** Er is sprake van samenhang als de verdeling van de ene variabele significant verschilt binnen de categorieën van de andere variabele. Dit kan worden waargenomen wanneer de marginale verdelingen van de kolompercentages niet gelijk zijn.
> **Tip:** Als de kolompercentages binnen elke kolom sterk van elkaar verschillen, duidt dit op een mogelijke samenhang.
* **Richting van het verband met celpercentages:** De celpercentages in een kruistabel kunnen een eerste indicatie geven van de richting van het verband.
> **Voorbeeld:** Stel, we onderzoeken de samenhang tussen "Frequentie ruzie met partner" en "Overwegen relatie te beëindigen". Als in de cel waar "vaak ruzie" en "vaak overwegen relatie te beëindigen" zich bevinden, een relatief hoog celpercentage wordt gevonden, kan dit wijzen op een positief verband (meer ruzie hangt samen met vaker overwegen de relatie te beëindigen).
#### 2.2.2 Interpretatie van kolom- en celpercentages
* **Kolompercentages:** Deze laten zien hoe de ene variabele verdeeld is binnen de categorieën van de andere variabele. Als deze verdelingen significant van elkaar verschillen, is er waarschijnlijk sprake van samenhang.
> **Voorbeeld:** Als 70% van de respondenten die "vaak ruzie" aangeven ook "vaak relatie overwegen te beëindigen", terwijl slechts 10% van de respondenten die "nooit ruzie" aangeven dit doen, is er een duidelijk verschil in verdeling en dus een mogelijke samenhang.
* **Celpercentages:** Deze geven het percentage aan van de totale steekproef dat in een specifieke cel van de kruistabel valt. Ze kunnen helpen bij het inschatten van de sterkte en richting van het verband.
#### 2.2.3 Associatiematen op ordinaal niveau
Voor een definitieve conclusie over de samenhang op ordinaal niveau, worden specifieke associatiematen berekend. Deze maten kwantificeren zowel de sterkte als de richting van het verband.
* **Sterkte van het verband:** De sterkte wordt beoordeeld aan de hand van de numerieke waarde van de associatiemaat:
* $0$: geen verband
* $0.01$ – $0.10$: zeer zwak verband
* $0.11$ – $0.30$: zwak verband
* $0.31$ – $0.50$: medium verband
* $0.51$ – $0.80$: sterk verband
* $0.81$ – $0.99$: zeer sterk verband
* $1$: perfect verband
* **Richting van het verband:** De richting wordt bepaald door het teken van de associatiemaat:
* Een positief teken ($+$) duidt op een positieve samenhang.
* Een negatief teken ($-$) duidt op een negatieve samenhang.
* Een waarde van $0$ duidt op geen samenhang.
> **Tip:** De interpretatierichtlijnen voor de sterkte van het verband op ordinaal niveau moeten vanbuiten geleerd worden.
#### 2.2.4 Omgaan met gelijke waarden (ties)
Bij het berekenen van associatiematen op ordinaal niveau, kan het voorkomen dat meerdere respondenten dezelfde waarde hebben op een variabele. In dergelijke gevallen krijgen de respondenten met dezelfde waarde het gemiddelde van hun rangnummers toegewezen.
> **Voorbeeld:** Als twee respondenten de score $111$ hebben en daarmee op een gedeelde $2^{e}$ en $3^{e}$ plaats staan, krijgen ze beiden het gemiddelde rangnummer $\frac{2+3}{2} = 2.5$.
> Als drie respondenten de score $103$ hebben en daarmee op een gedeelde $5^{e}$, $6^{e}$ en $7^{e}$ plaats staan, krijgen ze allen het gemiddelde rangnummer $\frac{5+6+7}{3} = 6$.
Het is aan te raden de specifieke kennisclips en het formularium te raadplegen voor de precieze berekeningsstappen van de associatiematen op ordinaal niveau. Bij alle berekeningen wordt afgerond tot twee cijfers na de komma.
---
# Associatiematen op ordinaal niveau: sterkte en richting
Dit gedeelte behandelt de berekening en interpretatie van associatiematen voor variabelen op ordinaal niveau, waarbij zowel de sterkte als de richting van het verband worden geanalyseerd, inclusief de omgang met gelijke scores.
### 3.1 Inleiding tot associatiematen
Associatiematen, ook wel samenhangmaten genoemd, geven aan of er een verband bestaat tussen twee variabelen. De keuze van de juiste associatiemaat hangt af van het meetniveau van de variabelen en het veronderstelde verband. Voor de analyse binnen Statistiek 1 focussen we op symmetrische associatiematen.
#### 3.1.1 Het kiezen van de geschikte associatiemaat
De keuze voor een specifieke associatiemaat is gebaseerd op twee criteria:
* **Meetniveau van de variabelen:**
* Indien minstens één variabele nominaal is, wordt een associatiemaat op nominaal niveau gebruikt.
* Als één variabele ordinaal is en de andere niet-nominaal, wordt een associatiemaat op ordinaal niveau toegepast.
* Wanneer beide variabelen minimaal intervalniveau hebben, worden associatiematen op interval- of rationiveau gebruikt.
* **Verondersteld verband tussen de variabelen:**
* Bij een symmetrisch verband zijn enkel symmetrische associatiematen mogelijk.
* Bij een asymmetrisch verband zijn zowel symmetrische als asymmetrische associatiematen mogelijk. Binnen Statistiek 1 wordt echter gefocust op symmetrische maten.
### 3.2 De richting van een verband
Associatiematen op ordinaal niveau bieden, in tegenstelling tot maten op nominaal niveau, informatie over zowel de sterkte als de richting van een verband.
* **Sterkte van een verband:** Geeft de mate van samenhang aan, variërend van geen verband tot een perfect verband.
* **Richting van een verband:**
* **Positief verband:** Hogere waarden van de ene variabele gaan samen met hogere waarden van de andere variabele (hoog-hoog en laag-laag).
* **Negatief verband:** Hogere waarden van de ene variabele gaan samen met lagere waarden van de andere variabele (laag-hoog en hoog-laag).
Bij nominale variabelen is er geen rangordening, waardoor de begrippen "hogere" en "lagere" waarden niet van toepassing zijn en er geen uitspraak gedaan kan worden over de richting van het verband.
### 3.3 Samenhang onderzoeken op ordinaal niveau
Op ordinaal niveau kan samenhang op verschillende manieren worden onderzocht, beginnend met een voorlopige analyse van een kruistabel en gevolgd door de berekening van een specifieke associatiemaat voor een meer betrouwbare conclusie.
#### 3.3.1 Samenhang onderzoeken a.d.h.v. de kruistabel
Een eerste indicatie van de samenhang kan verkregen worden door de kolom- of rijpercentages in een kruistabel te analyseren. Er is sprake van samenhang wanneer de verdeling van de ene variabele significant verschilt binnen de categorieën van de andere variabele, wat tot uiting komt in verschillen tussen de marginale verdelingen van de kolom- of rijpercentages.
> **Voorbeeld:** Als de kolompercentages van de variabele Y sterk verschillen binnen de categorieën van variabele X, duidt dit op samenhang. Bijvoorbeeld, als 34.13% in de ene kolom anders is dan 72.55% in een andere kolom, is er sprake van samenhang.
Celpercentages in een kruistabel kunnen tevens een eerste indicatie geven van de richting van het verband. Een positief verband is zichtbaar wanneer hogere waarden op beide variabelen samengaan.
#### 3.3.2 Overzicht associatiematen op ordinaal niveau
Voor een definitieve en betrouwbare conclusie over de samenhang op ordinaal niveau, wordt een specifieke associatiemaat berekend. Deze maten geven zowel de sterkte als de richting aan.
##### 3.3.2.1 Omgaan met gelijke scores
Bij variabelen op ordinaal niveau kan het voorkomen dat meerdere respondenten dezelfde score behalen. Dit vereist een specifieke aanpak bij het toekennen van rangnummers:
* Wanneer meerdere respondenten dezelfde waarde hebben, wordt aan hen het gemiddelde van de toe te wijzen rangnummers toegekend.
* **Voorbeeld:** Als Sarah en Mo beiden de score 111 hebben, en dit hen respectievelijk de 2e en 3e plaats zou geven, krijgen zij beiden het gemiddelde rangnummer $(2+3)/2 = 2.5$.
* **Voorbeeld:** Als Cindy, Grace en Ruth allen de score 103 hebben, en dit hen respectievelijk de 5e, 6e en 7e plaats zou geven, krijgen zij allen het gemiddelde rangnummer $(5+6+7)/3 = 6$.
##### 3.3.2.2 Interpretatie van de associatiemaat
De berekende associatiemaat op ordinaal niveau wordt geïnterpreteerd op basis van zijn numerieke waarde en teken:
* **Sterkte (het getal):**
* $0$: Geen verband
* $0.01$ – $0.10$: Zeer zwak verband
* $0.11$ – $0.30$: Zwak verband
* $0.31$ – $0.50$: Medium verband
* $0.51$ – $0.80$: Sterk verband
* $0.81$ – $0.99$: Zeer sterk verband
* $1$: Perfect verband
* **Richting (het teken):**
* Een negatief teken ($−$) duidt op een negatieve samenhang.
* Een positief teken ($+$) duidt op een positieve samenhang.
* Een teken van $0$ duidt op geen samenhang.
> **Tip:** De interpretatierichtlijnen voor zowel de sterkte als de richting van het verband moeten gememoriseerd worden voor het examen.
> **Tip:** Gebruik het formularium dat beschikbaar is op het examen. Het is essentieel om te weten hoe je hiermee kunt werken, aangezien de formules niet uit het hoofd geleerd hoeven te worden. Rond bij berekeningen altijd af tot twee cijfers na de komma. Kleine verschillen in de uitkomst door afrondingen tijdens tussenstappen worden op het examen meegenomen in een foutenmarge.
> **Voorbeeld van een interpretatie:** Een berekende maat van $0.65$ duidt op een **sterke positieve samenhang**.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Associatiemaat | Een maat die aangeeft of er sprake is van samenhang tussen twee variabelen. Associatiematen worden ook wel samenhangmaten genoemd en helpen bij het kwantificeren van de relatie tussen variabelen. |
| Meetniveau | De schaal waarop een variabele gemeten wordt, wat bepaalt welke statistische analyses mogelijk zijn. De belangrijkste meetniveaus zijn nominaal, ordinaal, interval en ratio. |
| Nominaal niveau | Een meetniveau waarbij variabelen worden ingedeeld in categorieën zonder inherente volgorde of rangorde. Voorbeelden zijn geslacht of haarkleur. |
| Ordinaal niveau | Een meetniveau waarbij variabelen worden ingedeeld in categorieën die een logische volgorde hebben, maar de afstanden tussen de categorieën zijn niet noodzakelijk gelijk. Voorbeelden zijn opleidingsniveau of tevredenheidsschaal. |
| Intervalniveau | Een meetniveau waarbij variabelen een geordende schaal hebben met gelijke afstanden tussen opeenvolgende punten. Er is echter geen absoluut nulpunt. Een voorbeeld is temperatuur in Celsius. |
| Rationiveau | Een meetniveau waarbij variabelen een geordende schaal hebben met gelijke afstanden en een absoluut nulpunt. Hierdoor zijn alle rekenkundige bewerkingen mogelijk. Een voorbeeld is lengte of gewicht. |
| Kruistabel | Een tabel die de frequentieverdeling van twee of meer categorische variabelen weergeeft. Het helpt bij het visueel inspecteren van de relatie tussen variabelen door de frequenties in de cellen te tonen. |
| Kolompercentages | Percentages berekend ten opzichte van het totaal van een kolom in een kruistabel. Deze worden gebruikt om de verdeling van de ene variabele te vergelijken binnen de categorieën van de andere variabele. |
| Celpercentages | Percentages berekend ten opzichte van het totaal aantal observaties in de gehele kruistabel. Deze geven de proportie van het totale monster weer die tot een specifieke cel behoort. |
| Symmetrisch verband | Een verband tussen twee variabelen waarbij de relatie in beide richtingen gelijk is. De analyse verandert niet, ongeacht welke variabele als afhankelijk of onafhankelijk wordt beschouwd. |
| Asymmetrisch verband | Een verband tussen twee variabelen waarbij de ene variabele de andere beïnvloedt of voorspelt. De analyse is afhankelijk van welke variabele als afhankelijk en welke als onafhankelijk wordt beschouwd. |
| Positief verband | Een verband waarbij hogere waarden van de ene variabele de neiging hebben samen te gaan met hogere waarden van de andere variabele, en lagere waarden samen met lagere waarden. |
| Negatief verband | Een verband waarbij hogere waarden van de ene variabele de neiging hebben samen te gaan met lagere waarden van de andere variabele, en vice versa. |
Cover
HC1_LP_2025.pdf
Summary
# Concepten van kansen, universum en gebeurtenissen
Dit onderdeel introduceert de fundamentele elementen van kansrekening: experimenten, het universum van mogelijke uitkomsten en de definitie van gebeurtenissen als specifieke deelverzamelingen van dit universum [4](#page=4).
### 1.1 Experimenten
Een experiment is een proces dat wordt uitgevoerd om situaties te onderzoeken die aan het toeval onderhevig zijn. Voorbeelden van experimenten zijn [4](#page=4):
* Het gooien van een dobbelsteen [4](#page=4).
* Het gooien van twee dobbelstenen [4](#page=4).
* Het tellen van het aantal patiënten met rugpijn bij een dokter op een dag [4](#page=4).
* Het kiezen van een getal tussen 0 en 1 [4](#page=4).
* Het meten van de bloeddruk van een patiënt [4](#page=4).
### 1.2 Het universum van uitkomsten
Het universum, aangeduid met het symbool $\Omega$ (Omega), is de verzameling van alle mogelijke uitkomsten van een gegeven experiment [4](#page=4).
**Voorbeelden van universa:**
* Bij het gooien van een dobbelsteen is het universum $\Omega = \{1, 2, 3, 4, 5, 6 \}$ [5](#page=5).
* Bij het gooien van twee dobbelstenen is het universum $\Omega = \{(1,1), (1,2), (1,3), \dots, (6,6) \}$ [5](#page=5).
* Bij het tellen van patiënten met rugpijn op een dag is het universum $\Omega = \{0, 1, 2, 3, 4, 5, \dots \}$. Dit is een oneindige verzameling [5](#page=5).
* Bij het kiezen van een getal tussen 0 en 1 is het universum $\Omega = $. Dit is een continu interval [1](#page=1) [5](#page=5).
### 1.3 Gebeurtenissen
Een gebeurtenis, aangeduid met een hoofdletter zoals $A$, is een deelverzameling van het universum $\Omega$ waarin men geïnteresseerd is. Met andere woorden, een gebeurtenis bestaat uit één of meerdere specifieke uitkomsten van het experiment [5](#page=5).
**Voorbeelden van gebeurtenissen:**
* Bij het gooien van een dobbelsteen, de gebeurtenis $A$ "een even getal gooien" is $A = \{2, 4, 6 \}$ [5](#page=5).
* Bij het gooien van twee dobbelstenen, de gebeurtenis $A$ "de som van de worpen is 12" is $A = \{(6,6) \}$ [5](#page=5).
* Bij het tellen van patiënten met rugpijn, de gebeurtenis $A$ "5 of minder patiënten" is $A = \{0, 1, 2, 3, 4, 5 \}$ [5](#page=5).
* Bij het kiezen van een getal tussen 0 en 1, de gebeurtenis $A$ "kleiner dan een half" is $A = [0, 0.5[$ [5](#page=5).
#### 1.3.1 De complementaire gebeurtenis
Het complement van een gebeurtenis $A$, aangeduid met $A^c$ of $\Omega^c$, is de verzameling van alle uitkomsten in het universum $\Omega$ die **niet** tot gebeurtenis $A$ behoren. Formeel wordt dit geschreven als $A^c = \Omega \setminus A$ [6](#page=6).
* Als een gebeurtenis $A$ het volledige universum omvat ($A = \Omega$), dan is het complement de lege verzameling: $A^c = \Omega^c = \emptyset$ [6](#page=6).
> **Tip:** Denk aan het complement als "alles behalve A". Als $A$ is "een even getal gooien" met een dobbelsteen, dan is $A^c$ "een oneven getal gooien".
#### 1.3.2 Doorsnede en vereniging van twee gebeurtenissen
Gegeven twee gebeurtenissen, $A_1$ en $A_2$, binnen hetzelfde universum $\Omega$, kunnen we nieuwe gebeurtenissen construeren:
* **Doorsnede ($A_1 \cap A_2$):** De doorsnede van $A_1$ en $A_2$ is de deelverzameling van uitkomsten waarbij **beide** gebeurtenissen tegelijkertijd optreden [7](#page=7).
* **Voorbeeld:** Als $A_1$ "5 of minder rugpijnpatiënten" is en $A_2$ "minstens 3 en ten hoogste 8 rugpijnpatiënten", dan is de doorsnede $A_1 \cap A_2$ de gebeurtenis dat er precies 3, 4 of 5 patiënten zijn: $\{3, 4, 5 \}$ [7](#page=7).
* **Vereniging ($A_1 \cup A_2$):** De vereniging van $A_1$ en $A_2$ is de deelverzameling van uitkomsten waarbij **ten minste één** van de gebeurtenissen optreedt (dus $A_1$ of $A_2$ of beide) [7](#page=7).
* **Voorbeeld:** Met dezelfde gebeurtenissen $A_1$ en $A_2$ als hierboven, is de vereniging $A_1 \cup A_2$ de gebeurtenis dat er 0 tot en met 8 patiënten zijn: $\{0, 1, 2, 3, 4, 5, 6, 7, 8 \}$ [7](#page=7).
> **Tip:** Visualiseer de doorsnede als de overlappende delen van twee cirkels in een Venn-diagram, en de vereniging als het totale gebied dat door beide cirkels wordt bedekt.
Het concept van gebeurtenissen als deelverzamelingen van het universum is cruciaal voor het definiëren en berekenen van kansen.
$A \subset \Omega$ [6](#page=6).
$A^c = \Omega \setminus A$ [6](#page=6).
$A^c = \Omega^c = \emptyset$ [6](#page=6).
Voorbeelden met diagrammen zijn te vinden op en [6](#page=6) [7](#page=7).
---
# Het intuïtieve begrip en basiseigenschappen van kansen
Dit deel verkent de intuïtieve betekenis van kans en de fundamentele regels die kansen beheersen.
### 2.1 Wat is een kans? Intuïtieve benaderingen
De intuïtieve definitie van kans kan op verschillende manieren worden benaderd, gebaseerd op de aard van het experiment.
#### 2.1.1 De klassieke benadering: verhouding van uitkomsten
Bij experimenten waarbij alle uitkomsten even waarschijnlijk zijn, kan de kans op een gebeurtenis worden berekend als de verhouding van het aantal gunstige uitkomsten tot het totale aantal mogelijke uitkomsten [10](#page=10).
Beschouw het gooien van een dobbelsteen als een eenvoudig experiment met een uitkomstenuniversum $\Omega = \{1, 2, 3, 4, 5, 6\}$. Als we de kans willen weten om een getal te gooien dat deelbaar is door 3 (gebeurtenis A = {3, 6}), dan is het aantal gunstige uitkomsten 2 en het totale aantal mogelijke uitkomsten 6. De kans P(A) wordt dan berekend als [9](#page=9):
$$P(A) = \frac{\text{aantal gunstige gevallen voor A}}{\text{aantal mogelijke gevallen}}$$
Voor A = {3, 6} geldt:
$$P(A) = \frac{2}{6}$$ [10](#page=10).
#### 2.1.2 De frequentistische benadering: limiet van relatieve frequentie
Wanneer uitkomsten niet even waarschijnlijk zijn, of wanneer het aantal mogelijke uitkomsten te groot is om direct te tellen, biedt de frequentistische benadering een alternatief. Hierbij wordt een experiment een groot aantal keren herhaald en wordt de kans benaderd door de relatieve frequentie waarmee een gebeurtenis zich voordoet [11](#page=11).
Als een experiment met een dobbelsteen $n$ keer wordt herhaald en gebeurtenis A zich $n(A)$ keer voordoet, dan benadert de kans op A de volgende limiet:
$$P(A) = \lim_{n \to \infty} \frac{n(A)}{n}$$ [11](#page=11).
Dit betekent dat naarmate het aantal herhalingen $n$ toeneemt, de verhouding $\frac{n(A)}{n}$ steeds dichter bij de werkelijke kans op gebeurtenis A komt [11](#page=11).
> **Tip:** De klassieke benadering is nuttig voor theoretische berekeningen bij eerlijke kansmodellen, terwijl de frequentistische benadering meer praktisch is voor het schatten van kansen in reële situaties waar eerlijkheid niet gegarandeerd is.
### 2.2 Basiseigenschappen van kansen
Kansen volgen specifieke wiskundige regels die hun gedrag bepalen.
#### 2.2.1 De range van kansen
De kans op elke gebeurtenis A, aangeduid als $P(A)$, ligt altijd tussen 0 en 1, inclusief deze grenzen [16](#page=16).
* $P(A) = 0$ betekent dat de gebeurtenis onmogelijk is. Dit is bijvoorbeeld het geval bij het gooien van een dobbelsteen en het verkrijgen van een getal dat niet tussen 1 en 6 ligt ($A = \emptyset$) [16](#page=16).
* $P(A) = 1$ betekent dat de gebeurtenis zeker is. Dit is het geval bij het gooien van een dobbelsteen en het verkrijgen van een getal tussen 1 en 6 ($A = \Omega$) [16](#page=16).
Kansen kunnen ook worden uitgedrukt als percentages, variërend van 0% tot 100% [16](#page=16).
#### 2.2.2 Optelregels voor kansen
De manier waarop kansen worden opgeteld, hangt af van of de gebeurtenissen elkaar uitsluiten (disjunct zijn) of niet.
##### 2.2.2.1 Disjuncte gebeurtenissen
Twee gebeurtenissen $A_1$ en $A_2$ zijn disjunct als ze niet tegelijkertijd kunnen plaatsvinden, wat betekent dat hun doorsnede leeg is ($A_1 \cap A_2 = \emptyset$). Voor disjuncte gebeurtenissen geldt de volgende optelregel [17](#page=17):
$$P(A_1 \cup A_2) = P(A_1) + P(A_2)$$ [17](#page=17).
* **Voorbeeld:** Gooien met een dobbelsteen. Gebeurtenis $A_1$: een even aantal ogen gooien ($A_1 = \{2, 4, 6\}$) en gebeurtenis $A_2$: een 5 gooien ($A_2 = \{5\}$). Deze gebeurtenissen zijn disjunct. De kans om een even getal of een 5 te gooien is:
$$P(A_1 \cup A_2) = P(\text{even of } 5) = P(\text{even}) + P = \frac{3}{6} + \frac{1}{6} = \frac{4}{6}$$ [17](#page=17) [5](#page=5).
##### 2.2.2.2 Niet-disjuncte gebeurtenissen
Als gebeurtenissen $A_1$ en $A_2$ niet disjunct zijn, hebben ze een niet-lege doorsnede ($A_1 \cap A_2 \neq \emptyset$), wat betekent dat ze wel tegelijkertijd kunnen plaatsvinden. De optelregel wordt dan uitgebreid met een aftrekterm voor de overlappende kans:
$$P(A_1 \cup A_2) = P(A_1) + P(A_2) - P(A_1 \cap A_2)$$ [18](#page=18).
* **Voorbeeld:** Gooien met een dobbelsteen. Gebeurtenis $A_1$: een even aantal ogen gooien ($A_1 = \{2, 4, 6\}$) en gebeurtenis $A_2$: minder dan 3 ogen gooien ($A_2 = \{1, 2\}$). De doorsnede is $A_1 \cap A_2 = \{2\}$. De kans om een even getal of minder dan 3 te gooien is:
$$P(A_1 \cup A_2) = P(\text{even of } < 3) = P(\text{even}) + P(<3) - P(\text{even en } <3)$$
$$P(A_1 \cup A_2) = \frac{3}{6} + \frac{2}{6} - \frac{1}{6} = \frac{4}{6}$$ [18](#page=18).
#### 2.2.3 Monotoniciteit van kansen
Als een gebeurtenis $A_1$ volledig is vervat in een andere gebeurtenis $A_2$ (genoteerd als $A_1 \subseteq A_2$), dan is de kans op $A_1$ kleiner dan of gelijk aan de kans op $A_2$ [19](#page=19).
* **Voorbeeld:** Gooien met een dobbelsteen. Gebeurtenis $A_1$: een 2 of een 6 gooien ($A_1 = \{2, 6\}$) en gebeurtenis $A_2$: een even aantal ogen gooien ($A_2 = \{2, 4, 6\}$). Hierbij geldt $A_1 \subseteq A_2$.
$$P(A_1) = \frac{2}{6}$$ en $$P(A_2) = \frac{3}{6}$$
Duidelijk is dat $P(A_1) \le P(A_2)$ [19](#page=19).
#### 2.2.4 De kans op het complement van een gebeurtenis
Het complement van een gebeurtenis A, genoteerd als $A^c$, omvat alle uitkomsten in het universum $\Omega$ die niet in A zitten. De kans op het complement is gelijk aan 1 min de kans op de gebeurtenis zelf [20](#page=20).
$$P(A^c) = 1 - P(A)$$ [20](#page=20).
* **Voorbeeld:** Gooien met een dobbelsteen. Gebeurtenis A: een 1 of een 2 gooien ($A = \{1, 2\}$). Het complement $A^c$ is dan het gooien van een 3, 4, 5 of 6 ($A^c = \{3, 4, 5, 6\}$).
$$P(A) = \frac{2}{6}$$
$$P(A^c) = \frac{4}{6} = 1 - \frac{2}{6} = 1 - P(A)$$ [20](#page=20).
> **Tip:** Het concept van het complement is vaak handig om de kans op "iets anders dan" een bepaalde gebeurtenis te berekenen, wat soms eenvoudiger is dan direct de kans op die "iets anders dan" gebeurtenissen te berekenen.
---
# Voorwaardelijke kans en de regel van Bayes
Dit onderdeel introduceert het concept van voorwaardelijke kans en de toepassing ervan met de regel van Bayes en de wet van de totale kans, met een focus op diagnostische toepassingen [21](#page=21).
### 3.1 Voorwaardelijke kans
Voorwaardelijke kans, genoteerd als $P(A|B)$, vertegenwoordigt de kans op gebeurtenis A, gegeven dat gebeurtenis B reeds is opgetreden [28](#page=28).
#### 3.1.1 Definitie van voorwaardelijke kans
De definitie van voorwaardelijke kans luidt als volgt [28](#page=28):
$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$
waarbij $P(A \cap B)$ de kans is dat zowel gebeurtenis A als gebeurtenis B tegelijkertijd optreden, en dit geldt indien $P(B) > 0$ [28](#page=28).
#### 3.1.2 Rekenregels voor kansen
Door de definitie van voorwaardelijke kans om te vormen, kunnen we de volgende rekenregels voor kansen afleiden [29](#page=29):
* $P(A \cap B) = P(A|B) P(B)$
* $P(A \cap B) = P(B|A) P(A)$
* $P(A|B) = \frac{P(A \cap B)}{P(B)}$
* $P(B|A) = \frac{P(A \cap B)}{P(A)}$
> **Tip:** Deze regels zijn fundamenteel voor het berekenen van kansen in complexere scenario's en vormen de basis voor de wet van de totale kans en de regel van Bayes.
#### 3.1.3 Voorbeeld: Twee dobbelstenen
Bij het gooien van twee dobbelstenen na elkaar is het universum $\Omega$ van alle mogelijke uitkomsten 36, en elke uitkomst heeft een kans van $\frac{1}{36}$ [22](#page=22).
Beschouw de gebeurtenis A: de som van de ogen is 10. De kans hierop is $P(A) = \frac{3}{36}$ [24](#page=24).
Beschouw de gebeurtenis B: de eerste dobbelsteen toont meer ogen dan de tweede. De kans hierop is $P(B) = \frac{15}{36}$ [26](#page=26).
De voorwaardelijke kans $P(A|B)$, de kans dat de som van de ogen 10 is, gegeven dat de eerste dobbelsteen meer ogen toont dan de tweede, is $\frac{1}{15}$ [27](#page=27).
### 3.2 Wet van de totale kans
De wet van de totale kans maakt het mogelijk de kans op een gebeurtenis te berekenen door deze te partitioneren op basis van een reeks disjuncte gebeurtenissen die het gehele universum omvatten.
#### 3.2.1 Algemene formulering
Indien $\Omega = A_1 \cup A_2 \cup \dots \cup A_n$ en $A_i \cap A_j = \emptyset$ voor alle $i \neq j$, dan geldt voor elke gebeurtenis B [33](#page=33):
$$P(B) = \sum_{i=1}^{n} P(B|A_i)P(A_i)$$
#### 3.2.2 Voorbeeld: Mexicaanse griep vaccin
Bij het testen van een vaccin voor de Mexicaanse griep bij kinderen en jongeren werden de volgende gegevens verzameld:
* Kinderen van 0,5 tot 3 jaar (groep 1): 21% hoofdpijn ($P(H|g1) = 0.21$).
* Kinderen van 3 tot 12 jaar (groep 2): 16% hoofdpijn ($P(H|g2) = 0.16$).
* Jongeren van 12 tot 18 jaar (groep 3): 15% hoofdpijn ($P(H|g3) = 0.15$).
De verdeling van de groepen in de onderzochte populatie is:
* Groep 1: 12% ($P(g1) = 0.12$).
* Groep 2: Onbekend uit de tekst, maar uit de rest van de informatie kan worden afgeleid dat $P(g2) = 1 - P(g1) - P(g3) = 1 - 0.12 - 0.40 = 0.48$.
* Groep 3: 40% ($P(g3) = 0.40$).
De kans op hoofdpijn bij een willekeurig kind/jongere is $P(H)$:
$P(H) = P(H|g1)P(g1) + P(H|g2)P(g2) + P(H|g3)P(g3)$ [32](#page=32).
$P(H) = (0.21 \times 0.12) + (0.16 \times 0.48) + (0.15 \times 0.40) = 0.0252 + 0.0768 + 0.06 = 0.162$ [32](#page=32).
Dus, 16.2% van de kinderen/jongeren ervaart hoofdpijn [32](#page=32).
De kans dat iemand die hoofdpijn kreeg, tussen 12 en 18 jaar oud is, is $P(g3|H)$. Dit wordt berekend met de regel van Bayes, die later in detail wordt besproken.
> **Tip:** De groepen (kinderen/jongeren van verschillende leeftijden) vormen een partitie van het universum. De wet van de totale kans laat ons toe de totale kans op hoofdpijn te berekenen door de kansen binnen elke groep te middelen, gewogen naar de grootte van elke groep.
### 3.3 Regel van Bayes
De regel van Bayes is een krachtige methode om de kans van een gebeurtenis te actualiseren wanneer nieuwe informatie beschikbaar komt. Het stelt ons in staat om "omgekeerde" conditionele kansen te berekenen.
#### 3.3.1 Algemene formulering
Als $\Omega = A_1 \cup A_2 \cup \dots \cup A_n$ met $A_i \cap A_j = \emptyset$ voor alle $i \neq j$, en B is een gebeurtenis met $P(B) > 0$, dan geldt voor $i = 1, 2, \dots, n$ [35](#page=35):
$$P(A_i|B) = \frac{P(B|A_i) P(A_i)}{\sum_{k=1}^{n} P(B|A_k) P(A_k)}$$
De noemer is de wet van de totale kans voor gebeurtenis B [35](#page=35).
#### 3.3.2 Voorbeeld: Mexicaanse griep vaccin (vervolg)
Om de kans te berekenen dat iemand die hoofdpijn kreeg, tussen 12 en 18 jaar oud is ($P(g3|H)$):
$$P(g3|H) = \frac{P(H|g3) P(g3)}{P(H)}$$ [34](#page=34).
$$P(g3|H) = \frac{0.15 \times 0.40}{0.162} = \frac{0.06}{0.162} \approx 0.3704$$ [34](#page=34).
Dus, ongeveer 37.04% van de mensen die hoofdpijn kregen, behoort tot de groep van 12 tot 18 jaar [34](#page=34).
#### 3.3.3 Toepassing: diagnostiek
De regel van Bayes is cruciaal bij het evalueren van medische tests. We willen niet alleen de sensitiviteit ($P(T+|Z+)$) en specificiteit ($P(T-|Z-)$) van een test weten, maar ook de voorspellende waarde van een positieve test ($P(Z+|T+)$) en een negatieve test ($P(Z-|T-)$) [36](#page=36) [37](#page=37).
De voorspellende waarden kunnen worden berekend met de regel van Bayes en de wet van de totale kans [38](#page=38):
* **Voorspellende waarde van een positieve test:**
$$P(Z+|T+) = \frac{P(T+|Z+) P(Z+)}{P(T+)} = \frac{P(T+|Z+) P(Z+)}{P(T+|Z+) P(Z+) + P(T+|Z−) P(Z−)}$$ [38](#page=38).
* **Voorspellende waarde van een negatieve test:**
$$P(Z−|T−) = \frac{P(T−|Z−) P(Z−)}{P(T−)} = \frac{P(T−|Z−) P(Z−)}{P(T−|Z−) P(Z−) + P(T−|Z+) P(Z+)}$$ [38](#page=38).
Hierbij zijn:
* $P(T+|Z+)$: Sensitiviteit van de test [36](#page=36).
* $P(T−|Z−)$: Specificiteit van de test [36](#page=36).
* $P(Z+)$: Prevalentie van de ziekte in de populatie [38](#page=38).
* $P(Z−) = 1 - P(Z+)$ [38](#page=38).
* $P(T−|Z+) = 1 - P(T+|Z+)$ [38](#page=38).
* $P(T+|Z−) = 1 - P(T−|Z−)$ [38](#page=38).
##### 3.3.3.1 Voorbeeld: ELISA test voor HIV
Gegeven:
* Sensitiviteit: 99.7% ($P(T+|Z+) = 0.997$).
* Specificiteit: 98.5% ($P(T-|Z-) = 0.985$).
Voor België:
* Prevalentie: 0.2% ($P(Z+) = 0.002$).
* $P(Z-) = 1 - 0.002 = 0.998$.
* $P(T+|Z−) = 1 - P(T−|Z−) = 1 - 0.985 = 0.015$.
* $P(T−|Z+) = 1 - P(T+|Z+) = 1 - 0.997 = 0.003$.
Voorspellende waarde positieve test in België:
$$P(Z+|T+) = \frac{0.997 \times 0.002}{0.997 \times 0.002 + 0.015 \times 0.998} \approx 0.1175$$ [39](#page=39).
Voorspellende waarde negatieve test in België:
$$P(Z−|T−) = \frac{0.985 \times 0.998}{0.985 \times 0.998 + 0.003 \times 0.002} \approx 0.99999$$ [39](#page=39).
Voor Zambia:
* Prevalentie: 15.2% ($P(Z+) = 0.152$).
* $P(Z-) = 1 - 0.152 = 0.848$.
Voorspellende waarde positieve test in Zambia:
$$P(Z+|T+) = \frac{0.997 \times 0.152}{0.997 \times 0.152 + 0.015 \times 0.848} \approx 0.9226$$ [39](#page=39).
Voorspellende waarde negatieve test in Zambia:
$$P(Z−|T−) = \frac{0.985 \times 0.848}{0.985 \times 0.848 + 0.003 \times 0.152} \approx 0.9995$$ [39](#page=39).
> **Tip:** De prevalentie van een ziekte in een populatie heeft een significant effect op de voorspellende waarde van een diagnostische test. In populaties met een lage prevalentie kan een positieve testuitslag zelfs bij een zeer nauwkeurige test, nog steeds een relatief lage kans op de daadwerkelijke ziekte betekenen.
---
# Onafhankelijkheid van gebeurtenissen en introductie tot toevalsvariabelen
Dit deel behandelt het concept van onafhankelijkheid tussen gebeurtenissen en definieert toevalsvariabelen als meetbare uitkomsten die afhankelijk zijn van toeval.
### 4.1 Onafhankelijkheid van gebeurtenissen
Onafhankelijkheid van gebeurtenissen in de kansrekening houdt in dat de uitkomst van de ene gebeurtenis geen invloed heeft op de waarschijnlijkheid van de andere gebeurtenis [42](#page=42).
#### 4.1.1 Definitie van onafhankelijkheid
Twee gebeurtenissen, A1 en A2, worden als onafhankelijk beschouwd als aan een van de volgende equivalente voorwaarden is voldaan [42](#page=42):
* De conditionele kans van A1 gegeven A2 is gelijk aan de kans van A1:
$P(A1 | A2) = P(A1)$ [42](#page=42).
* De kans op de doorsnede van A1 en A2 is gelijk aan het product van hun individuele kansen:
$P(A1 \cap A2) = P(A1)P(A2)$ [42](#page=42).
* De conditionele kans van A2 gegeven A1 is gelijk aan de kans van A2:
$P(A2 | A1) = P(A2)$ [42](#page=42).
#### 4.1.2 Illustratie van afhankelijkheid
Als de kans op het optreden van een gebeurtenis significant verschilt tussen verschillende groepen, duidt dit op afhankelijkheid. Bijvoorbeeld, als de kans op hoofdpijn na vaccinatie varieert per leeftijdsgroep (0.21 voor groep 1, 0.16 voor groep 2, en 0.15 voor groep 3), is het hebben van hoofdpijn afhankelijk van de leeftijdsgroep [41](#page=41).
> **Tip:** De formule $P(A1 \cap A2) = P(A1)P(A2)$ is een krachtige definitie van onafhankelijkheid, omdat deze direct de kans op het gelijktijdig optreden van twee gebeurtenissen koppelt aan hun individuele kansen.
### 4.2 Introductie tot toevalsvariabelen
Een toevalsvariabele, ook wel een stochastische variabele genoemd, is een meetbare grootheid waarvan de uitkomst afhankelijk is van toeval en die zich voordoet met een specifieke waarschijnlijkheid [45](#page=45).
#### 4.2.1 Notatie en concept
Toevalsvariabelen worden meestal aangeduid met hoofdletters, zoals $X$ [45](#page=45).
#### 4.2.2 Voorbeelden van toevalsvariabelen
* **Experiment:** Willekeurig 100 personen uit een groep kiezen.
**Toevalsvariabele $X$:** Het aantal personen met rugpijn in de gekozen groep [46](#page=46).
**Voorbeelden van kansen:** $P(X \le 40)$, $P(50 < X < 60)$ [47](#page=47).
* **Experiment:** Willekeurig een pasgeboren kind kiezen.
**Toevalsvariabele $X$:** De lengte van het kind bij geboorte [46](#page=46).
**Voorbeelden van kansen:** $P(X > Q3)$, $P(48 < X \le 50)$ [46](#page=46) [47](#page=47).
* **Experiment:** Eén worp met een dobbelsteen.
**Toevalsvariabele $X$:** De uitkomst van de worp [47](#page=47).
**Voorbeelden van kansen:** $P(X = 6)$, $P(X > 3)$, $P(2 \le X \le 4)$ [47](#page=47).
* **Experiment:** Willekeurig een getal kiezen uit het interval [1](#page=1).
**Toevalsvariabele $X$:** Het gekozen getal [47](#page=47).
**Voorbeelden van kansen:** $P(\frac{1}{4} \le X \le \frac{3}{4})$ [47](#page=47).
#### 4.2.3 Classificatie van toevalsvariabelen
Toevalsvariabelen kunnen worden onderverdeeld in twee hoofdcategorieën [47](#page=47):
* **Discreet:** Variabelen die telbare waarden kunnen aannemen. Dit zijn vaak gehele getallen.
* **Continu:** Variabelen die elke waarde binnen een bepaald interval kunnen aannemen.
> **Tip:** Begrijpen of een toevalsvariabele discreet of continu is, is cruciaal voor het kiezen van de juiste analysemethoden en het berekenen van kansen. Continue variabelen vereisen vaak integratie om kansen over een bereik te bepalen.
---
# Discrete en continue kansverdelingen
Dit onderwerp introduceert de concepten van discrete en continue kansverdelingen, inclusief hun definities, eigenschappen en hoe kansen berekend worden voor beide typen.
### 5.1 Discrete kansverdelingen
Een discrete toevalsvariabele $X$ kan verschillende, telbare waarden aannemen. De kansverdeling van een discrete toevalsvariabele geeft voor elke mogelijke waarde $k$ van $X$, de bijbehorende kans $P(X=k)$ weer [48](#page=48).
#### 5.1.1 Voorwaarden voor een discrete kansverdeling
Een discrete kansverdeling moet voldoen aan twee cruciale voorwaarden [48](#page=48):
1. De afzonderlijke kansen voor elke mogelijke waarde van de toevalsvariabele moeten liggen tussen 0 en 1, inclusief de grenzen: $0 \leq P(X = k) \leq 1$ [48](#page=48).
2. De som van alle afzonderlijke kansen voor alle mogelijke waarden van $X$ moet gelijk zijn aan 1: $\sum_{k} P(X=k) = 1$ [48](#page=48).
#### 5.1.2 Notatie en representatie
Discrete kansverdelingen worden vaak weergegeven in een tabel [48](#page=48).
> **Voorbeeld:** Het gooien van twee dobbelstenen [49](#page=49).
> Laat $X$ de som zijn van de ogen van de twee dobbelstenen. De mogelijke waarden voor $X$ zijn 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, en 12 [49](#page=49).
> De bijbehorende kansen worden weergegeven in de volgende tabel:
>
> | $k$ | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
> | :------------ | :----- | :----- | :----- | :----- | :----- | :----- | :----- | :----- | :----- | :----- | :----- |
> | $P(X=k)$ | 1/36 | 2/36 | 3/36 | 4/36 | 5/36 | 6/36 | 5/36 | 4/36 | 3/36 | 2/36 | 1/36 |
>
> De som van deze kansen is:
> $$ \frac{1+2+3+4+5+6+5+4+3+2+1}{36} = \frac{36}{36} = 1 $$ [49](#page=49).
> **Voorbeeld:** Het gooien van een correct muntstuk [50](#page=50).
> Het universum $\Omega$ is {kop, munt}. Laten we een discrete toevalsvariabele $X$ definiëren waarbij $X=1$ bij kop en $X=0$ bij munt [50](#page=50).
> De mogelijke waarden voor $X$ zijn 0 en 1 [50](#page=50).
> De kansverdeling is:
>
> | $k$ | 0 | 1 |
> | :------- | :-- | :-- |
> | $P(X=k)$ | 0.5 | 0.5 |
>
> Dit volgt uit de definitie van een correct muntstuk, waarbij:
> $$ P(X=0) = P(\text{munt}) = \frac{1}{2} $$
> $$ P(X=1) = P(\text{kop}) = \frac{1}{2} $$ [50](#page=50).
### 5.2 Continue kansverdelingen
Een continue toevalsvariabele $X$ kan elke waarde aannemen binnen een bepaald interval $[x_{min}, x_{max}]$, of zelfs in het gehele interval $]-\infty, +\infty[$ [51](#page=51).
#### 5.2.1 De nul-kans voor unieke uitkomsten
Bij continue toevalsvariabelen is de kans dat $X$ *exact* een specifieke waarde $k$ aanneemt gelijk aan nul: $P(X=k) = 0$. Dit komt omdat er oneindig veel mogelijke waarden zijn binnen een interval, waardoor de kans op elk individueel punt oneindig klein wordt [53](#page=53).
> **Tip:** Dit is een fundamenteel verschil met discrete kansverdelingen. Bij discrete variabelen is $P(X=k)$ zinvol en kan deze groter zijn dan nul, terwijl dit bij continue variabelen niet het geval is.
#### 5.2.2 Kansen op deelintervallen
In plaats van de kans op een exacte waarde te berekenen, berekenen we bij continue kansverdelingen de kans op een bepaald deelinterval [53](#page=53).
> **Voorbeeld:** Kies willekeurig een getal tussen 0 en 1 [53](#page=53).
> Als we de kans willen berekenen dat een willekeurig gekozen getal $X$ tussen 0.5 en 0.75 ligt, dan is dit een kans op een interval.
> $$ P(0.5 \leq X \leq 0.75) = \frac{0.75 - 0.5}{1 - 0} = \frac{0.25}{1} = 0.25 $$
> In het document wordt dit vereenvoudigd weergegeven als $P(0.5 \leq X \leq 0.75) = \frac{1}{4}$ [53](#page=53).
#### 5.2.3 De dichtheidsfunctie
Formeel wordt de kansverdeling van een continue toevalsvariabele $X$ gekarakteriseerd door een dichtheidsfunctie, aangeduid met $f(x)$ [54](#page=54).
> **Voorwaarden voor een dichtheidsfunctie $f(x)$:**
> 1. $f(x) \geq 0$ voor alle $x$. De dichtheidsfunctie kan geen negatieve waarden aannemen [54](#page=54).
> 2. De integraal van de dichtheidsfunctie over het gehele domein is gelijk aan 1: $\int_{-\infty}^{\infty} f(x) dx = 1$. Dit vertegenwoordigt de totale kans, die altijd 1 moet zijn [54](#page=54).
#### 5.2.4 Kansen berekenen met de dichtheidsfunctie
De kans dat een continue toevalsvariabele $X$ een waarde aanneemt tussen $x_0$ en $x_1$ wordt berekend door de integraal van de dichtheidsfunctie over dat interval:
$$ P(x_0 \leq X \leq x_1) = \int_{x_0}^{x_1} f(x) dx $$ [54](#page=54).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Experiment | Een proces of procedure waarvan de uitkomst niet zeker is en die aan het toeval onderhevig is, uitgevoerd om situaties te onderzoeken. |
| Universum (Ω) | De verzameling van alle mogelijke uitkomsten van een experiment. |
| Gebeurtenis (A) | Een deelverzameling van het universum, die een specifiek resultaat of een reeks resultaten van een experiment vertegenwoordigt waarin men geïnteresseerd is. |
| Complement van een gebeurtenis (Ac) | De verzameling van alle uitkomsten in het universum die niet tot gebeurtenis A behoren. Dit wordt genoteerd als $A^c$ of $\Omega \setminus A$. |
| Doorsnede van gebeurtenissen (A ∩ B) | De verzameling van uitkomsten die zowel tot gebeurtenis A als tot gebeurtenis B behoren. |
| Vereniging van gebeurtenissen (A U B) | De verzameling van uitkomsten die tot gebeurtenis A, of tot gebeurtenis B, of tot beide behoren. |
| Kans (P(A)) | Een numerieke waarde tussen 0 en 1 die de waarschijnlijkheid aangeeft dat een bepaalde gebeurtenis A zich voordoet. |
| Kans van een gebeurtenis (Frequentistische benadering) | De limiet van de relatieve frequentie van het optreden van een gebeurtenis wanneer een experiment een oneindig aantal keren wordt herhaald. Genoteerd als $P(A) = \lim_{n \to \infty} \frac{n(A)}{n}$. |
| Disjuncte gebeurtenissen | Gebeurtenissen die geen gemeenschappelijke uitkomsten hebben; hun doorsnede is de lege verzameling (∅). |
| Voorwaardelijke kans (P(A|B)) | De kans dat gebeurtenis A optreedt, gegeven dat gebeurtenis B reeds is opgetreden. Gedefinieerd als $P(A|B) = \frac{P(A \cap B)}{P(B)}$, mits $P(B) > 0$. |
| Onafhankelijke gebeurtenissen | Twee gebeurtenissen A en B zijn onafhankelijk als het optreden van de ene gebeurtenis geen invloed heeft op de kans van de andere. Dit is equivalent aan $P(A|B) = P(A)$ of $P(A \cap B) = P(A)P(B)$. |
| Toevalsvariabele (X) | Een variabele waarvan de waarde een numerieke uitkomst is van een willekeurig verschijnsel of experiment. |
| Discrete toevalsvariabele | Een toevalsvariabele die een aftelbaar aantal waarden kan aannemen, vaak gehele getallen. |
| Continue toevalsvariabele | Een toevalsvariabele die elke waarde binnen een bepaald interval kan aannemen. |
| Kansverdeling | Een functie die de kans specificeert die een toevalsvariabele toekent aan elke mogelijke waarde die deze kan aannemen. |
| Dichtheidsfunctie f(x) | Een functie die de relatieve waarschijnlijkheid beschrijft van een continue toevalsvariabele op elk gegeven punt. De integraal van de dichtheidsfunctie over een interval geeft de kans dat de variabele binnen dat interval valt. |
Cover
HC2_LP_2024.pdf
Summary
# Gemiddelde en variantie van een stochastische veranderlijke
Dit gedeelte behandelt de berekening van het gemiddelde en de variantie voor zowel discrete als continue stochastische veranderlijken, inclusief de bijbehorende definities en notaties [2](#page=2) [3](#page=3).
### 1.1 Gemiddelde van een discrete stochastische veranderlijke
Het gemiddelde van een discrete stochastische veranderlijke (s.v.) vertegenwoordigt de verwachte waarde van de uitkomsten wanneer een experiment herhaaldelijk wordt uitgevoerd. De notatie hiervoor is $E(X)$ [4](#page=4).
#### 1.1.1 Berekening met gelijke kansen
Als alle mogelijke uitkomsten van een discrete s.v. dezelfde kans hebben, kan het gemiddelde worden berekend door de som van de mogelijke uitkomsten te delen door het aantal uitkomsten [4](#page=4).
* **Voorbeeld:** Bij het gooien met één dobbelsteen, waarbij elke uitkomst $x \in \{1, 2, 3, 4, 5, 6\}$ een kans $P(X=x) = 1/6$ heeft [4](#page=4).
Het gemiddelde wordt berekend als:
$$E(X) = \frac{1+2+3+4+5+6}{6} = 3.5$$ [4](#page=4).
#### 1.1.2 Berekening met ongelijke kansen
Wanneer de uitkomsten van een discrete s.v. niet met dezelfde kans voorkomen, moet elke waarde worden vermenigvuldigd met zijn respectievelijke kans voordat ze worden opgeteld [5](#page=5).
* **Voorbeeld:** Bij het gooien met twee dobbelstenen, waarbij $X$ de som van de ogen representeert [5](#page=5).
De kansverdeling is niet uniform. De berekening van het gemiddelde is:
$$E(X) = \sum_{i} x_i \cdot P(X=x_i)$$ [7](#page=7).
Voor het voorbeeld van twee dobbelstenen:
$$E(X) = 2 \cdot \frac{1}{36} + 3 \cdot \frac{2}{36} + 4 \cdot \frac{3}{36} + \dots + 12 \cdot \frac{1}{36} = 7$$ [5](#page=5).
#### 1.1.3 Definitie van het gemiddelde
De algemene definitie voor het gemiddelde van een discrete s.v. is:
$$E(X) = \sum_{i} x_i \cdot P(X=x_i)$$ [7](#page=7).
### 1.2 Variantie van een discrete stochastische veranderlijke
De variantie, genoteerd als $\text{Var}(X)$, meet de spreiding van de uitkomsten van een discrete s.v. rond het gemiddelde [6](#page=6) [7](#page=7).
#### 1.2.1 Definitie van de variantie
De variantie kan worden berekend met behulp van de volgende definities:
$$ \text{Var}(X) = \sum_{i} (x_i - E(X))^2 \cdot P(X=x_i) $$ [7](#page=7).
Een alternatieve en vaak handigere formule is:
$$ \text{Var}(X) = \sum_{i} x_i^2 \cdot P(X=x_i) - [E(X)]^2 $$ [7](#page=7).
* **Voorbeeld:** Voor het gooien met één dobbelsteen ($E(X) = 3.5$) [6](#page=6).
Met de tweede formule:
$$ \text{Var}(X) = \left(1^2 \cdot \frac{1}{6} + 2^2 \cdot \frac{1}{6} + 3^2 \cdot \frac{1}{6} + 4^2 \cdot \frac{1}{6} + 5^2 \cdot \frac{1}{6} + 6^2 \cdot \frac{1}{6}\right) - (3.5)^2 $$
$$ \text{Var}(X) = \frac{1+4+9+16+25+36}{6} - 12.25 = \frac{91}{6} - 12.25 = 15.1667 - 12.25 = 2.9167 $$ [6](#page=6).
#### 1.2.2 Standaardafwijking
De standaardafwijking is de positieve vierkantswortel van de variantie en geeft de typische afwijking van de uitkomsten ten opzichte van het gemiddelde aan [7](#page=7).
#### 1.2.3 Oefening
Gegeven de volgende kansverdeling voor een discrete s.v. $X$ [8](#page=8):
$x$ | 0 | 1 | 2 | 3
------- | -------- | -------- | -------- | --------
$P(X=x)$ | 3/8 | 1/8 | 1/8 | 3/8
* **Berekening van het gemiddelde:**
$$E(X) = 0 \cdot \frac{3}{8} + 1 \cdot \frac{1}{8} + 2 \cdot \frac{1}{8} + 3 \cdot \frac{3}{8} = \frac{0+1+2+9}{8} = \frac{12}{8} = \frac{3}{2}$$ [8](#page=8).
* **Berekening van de variantie:**
$$ \text{Var}(X) = \left(0^2 \cdot \frac{3}{8} + 1^2 \cdot \frac{1}{8} + 2^2 \cdot \frac{1}{8} + 3^2 \cdot \frac{3}{8}\right) - \left(\frac{3}{2}\right)^2 $$
$$ \text{Var}(X) = \left(0 \cdot \frac{3}{8} + 1 \cdot \frac{1}{8} + 4 \cdot \frac{1}{8} + 9 \cdot \frac{3}{8}\right) - \frac{9}{4} $$
$$ \text{Var}(X) = \frac{0+1+4+27}{8} - \frac{9}{4} = \frac{32}{8} - \frac{9}{4} = 4 - 2.25 = 1.75 $$ [8](#page=8).
De oefening in het document geeft $\frac{7}{4}$ wat overeenkomt met $1.75$ [8](#page=8).
### 1.3 Gemiddelde en variantie van een continue stochastische veranderlijke
Net als bij discrete stochastische veranderlijken, kunnen ook voor continue stochastische veranderlijken een gemiddelde en een variantie worden berekend. Hierbij worden sommaties vervangen door integralen [9](#page=9).
> **Tip:** Hoewel de documentatie dit gedeelte introduceert, worden de specifieke formules voor continue s.v.'s niet gedetailleerd uitgewerkt op de betreffende pagina's. De kernprincipes van het concept blijven echter hetzelfde: integratie vervangt sommatie [9](#page=9).
---
# Binomiale verdeling
De binomiale verdeling is een kansverdeling die wordt gebruikt om het aantal successen te beschrijven in een vast aantal onafhankelijke experimenten, waarbij elk experiment slechts twee mogelijke uitkomsten heeft (succes of falen) en de kans op succes bij elk experiment constant is [18](#page=18).
### 2.1 Voorwaarden voor een binomiale verdeling
Een stochastische variabele volgt een binomiale verdeling indien aan de volgende vier voorwaarden is voldaan [18](#page=18):
* **Herhaalde experimenten:** Het experiment wordt meerdere keren op dezelfde manier uitgevoerd [18](#page=18).
* **Onafhankelijkheid:** De experimenten zijn onafhankelijk van elkaar. Dit betekent dat de uitkomst van het ene experiment geen invloed heeft op de uitkomst van een ander experiment [18](#page=18).
* **Constante succeskans:** Elk experiment heeft dezelfde kans op succes. Deze kans wordt aangeduid met $p$ [18](#page=18) [19](#page=19).
* **Aantal successen:** De stochastische variabele telt het aantal successen in deze reeks experimenten [18](#page=18).
#### 2.1.1 Notatie
Als een stochastische variabele $X$ een binomiale verdeling volgt, wordt dit genoteerd als $X \sim B(n, p)$. Hierbij staat [19](#page=19):
* $n$: Het totale aantal experimenten [19](#page=19).
* $p$: De kans op succes in één enkel experiment [19](#page=19).
#### 2.1.2 De kansformule
De kans op exact $x$ successen in $n$ experimenten, waarbij de succeskans $p$ is, wordt berekend met de volgende formule [19](#page=19):
$$P(X = x) = \binom{n}{x} p^x (1-p)^{n-x}$$
waarbij $\binom{n}{x}$ (de binomiaalcoëfficiënt) wordt berekend als:
$$\binom{n}{x} = \frac{n!}{x!(n-x)!}$$
Hierbij staat $n!$ voor de faculteit van $n$ ($n \times (n-1) \times \dots \times 1$) [19](#page=19).
> **Tip:** De binomiaalcoëfficiënt $\binom{n}{x}$ staat voor het aantal manieren waarop $x$ successen kunnen worden behaald in $n$ experimenten. De formule $p^x (1-p)^{n-x}$ vertegenwoordigt de kans op één specifieke volgorde van $x$ successen en $n-x$ mislukkingen. Door deze met de binomiaalcoëfficiënt te vermenigvuldigen, tellen we alle mogelijke volgordes mee.
##### 2.1.2.1 Voorbeeld van de kansformule
Stel we hebben een groep van 5 bloeddonoren ($n=5$) en de kans op bloedgroep O is 0.46 ($p=0.46$). Wat is de kans dat er precies 3 donoren met bloedgroep O zijn ($x=3$) [13](#page=13) [19](#page=19)?
$P(X=3) = \binom{5}{3} (0.46)^3 (1-0.46)^{5-3}$ [19](#page=19).
Eerst berekenen we de binomiaalcoëfficiënt:
$\binom{5}{3} = \frac{5!}{3!(5-3)!} = \frac{5!}{3!2!} = \frac{5 \times 4 \times 3 \times 2 \times 1}{(3 \times 2 \times 1)(2 \times 1)} = \frac{120}{6 \times 2} = 10$ [19](#page=19).
Vervolgens passen we de volledige formule toe:
$P(X=3) = 10 \times (0.46)^3 \times (0.54)^2$
$P(X=3) = 10 \times 0.097336 \times 0.2916$
$P(X=3) \approx 0.2838$ [20](#page=20).
De kans dat er 3 donoren met bloedgroep O zijn in een groep van 5 is dus ongeveer 0.2838 of 28.38%.
> **Voorbeeld:** In België heeft 46% van de bevolking bloedgroep O. Als we willekeurig 5 personen selecteren, kunnen we de binomiale verdeling gebruiken om de kans op het aantal personen met bloedgroep O te berekenen. $X \sim B(5, 0.46)$ [13](#page=13).
>
> * Kans op 0 personen met bloedgroep O ($X=0$): $P(X=0) = \binom{5}{0} (0.46)^0 (0.54)^5 \approx 0.0459$ [15](#page=15).
> * Kans op 1 persoon met bloedgroep O ($X=1$): $P(X=1) = \binom{5}{1} (0.46)^1 (0.54)^4 \approx 0.1956$ [16](#page=16).
> * Kans op 2 personen met bloedgroep O ($X=2$): $P(X=2) = \binom{5}{2} (0.46)^2 (0.54)^3 \approx 0.3332$ [17](#page=17).
> * Kans op 3 personen met bloedgroep O ($X=3$): $P(X=3) = \binom{5}{3} (0.46)^3 (0.54)^2 \approx 0.2838$ [17](#page=17) [20](#page=20).
> * Kans op 4 personen met bloedgroep O ($X=4$): $P(X=4) = \binom{5}{4} (0.46)^4 (0.54)^1 \approx 0.1209$ [17](#page=17).
> * Kans op 5 personen met bloedgroep O ($X=5$): $P(X=5) = \binom{5}{5} (0.46)^5 (0.54)^0 \approx 0.0206$ [17](#page=17).
### 2.2 Gebruik van tabellen voor kansberekeningen
Voor bepaalde waarden van $n$ en $p$ kunnen de kansen ook worden opgezocht in specifieke tabellen van de binomiale verdeling. Deze tabellen vermelden de cumulatieve kansen of individuele kansen voor specifieke parameters [21](#page=21).
> **Voorbeeld met tabel:** Gegeven is een binomiale verdeling met $n=14$ en $p=0.45$. We willen de kans weten op $X=3$. Door in de juiste tabel op te zoeken voor $n=14$, $p=0.45$ en $x=3$, kunnen we de bijbehorende kans aflezen [23](#page=23).
>
> **Voorbeeld met tabel:** Gegeven is een binomiale verdeling met $n=10$ en $p=0.15$. We willen de kans weten op $X > 5$. Dit betekent dat we de som van de kansen voor $X=6, X=7, X=8, X=9$ en $X=10$ moeten berekenen. Vaak bieden tabellen cumulatieve kansen, bijvoorbeeld $P(X \le k)$, wat het berekenen van $P(X > 5)$ vereenvoudigt tot $1 - P(X \le 5)$ [25](#page=25).
### 2.3 Gemiddelde en variantie van de binomiale verdeling
Voor een stochastische variabele $X$ die een binomiale verdeling volgt met parameters $n$ en $p$, gelden de volgende formules voor het gemiddelde (verwachtingswaarde) en de variantie [26](#page=26):
* **Gemiddelde (verwachtingswaarde):** $E(X) = np$ [26](#page=26).
* **Variantie:** $Var(X) = npq$, waarbij $q = 1-p$ [26](#page=26).
> **Tip:** Het gemiddelde $E(X)$ geeft het verwachte aantal successen aan in $n$ experimenten. De variantie $Var(X)$ geeft een maat voor de spreiding van de mogelijke uitkomsten rondom het gemiddelde. Een grotere variantie betekent een grotere spreiding.
---
# Multinomiale verdeling
Dit gedeelte breidt de binomiale verdeling uit naar situaties met meer dan twee uitkomstcategorieën, met behulp van de multinomiale verdeling.
### 3.1 Introductie tot de multinomiale verdeling
De multinomiale verdeling is een uitbreiding van de binomiale verdeling wanneer er meer dan twee mogelijke uitkomsten zijn voor een experiment. Waar de binomiale verdeling het aantal successen in $n$ onafhankelijke Bernoulli-experimenten telt, beschrijft de multinomiale verdeling het aantal keren dat elk van $k$ mogelijke uitkomsten voorkomt in $n$ onafhankelijke experimenten [28](#page=28) [29](#page=29) [30](#page=30).
### 3.2 Voorwaarden voor de multinomiale verdeling
Een set van $k$ stochastische variabelen $X_1, X_2, \ldots, X_k$ volgen gezamenlijk een multinomiale verdeling als aan de volgende voorwaarden wordt voldaan [30](#page=30):
* **Herhaalde experimenten:** Hetzelfde experiment wordt meerdere keren uitgevoerd [30](#page=30).
* **Onafhankelijkheid:** De experimenten worden onafhankelijk van elkaar uitgevoerd [30](#page=30).
* **Vaste categorieën en kansen:** Elk experiment heeft $k$ uitkomstcategorieën, met voor elke categorie constante kansen $p_1, p_2, \ldots, p_k$ die optellen tot 1 [30](#page=30).
* **Aantal per categorie:** De stochastische variabelen $X_1, X_2, \ldots, X_k$ beschrijven het aantal observaties dat in de respectievelijke categorieën valt [30](#page=30).
### 3.3 Notatie
Als $n$ het totale aantal keren is dat een experiment wordt uitgevoerd en $p_1, p_2, \ldots, p_k$ de kansen zijn om in de respectievelijke categorieën te vallen, dan wordt een multinomiale verdeling genoteerd als:
$(X_1, X_2, \ldots, X_k) \sim MN(n, (p_1, p_2, \ldots, p_k))$ [31](#page=31).
Hierin geldt dat $\sum_{i=1}^{k} x_i = n$ en $\sum_{i=1}^{k} p_i = 1$ [32](#page=32).
### 3.4 Kansberekening
De kans om exact $x_1$ observaties in categorie 1, $x_2$ in categorie 2, ..., en $x_k$ in categorie $k$ te hebben, wordt gegeven door de volgende formule:
$$ P(X_1 = x_1, X_2 = x_2, \ldots, X_k = x_k) = \frac{n!}{x_1! x_2! \ldots x_k!} p_1^{x_1} p_2^{x_2} \ldots p_k^{x_k} $$ [32](#page=32).
Hierbij moeten de aantallen observaties optellen tot het totale aantal experimenten, dus $\sum_{i=1}^{k} x_i = n$ [32](#page=32).
> **Voorbeeld:** Beschouw een groep van 10 donoren, waarbij de kansen op bloedgroepen O, A, B en AB respectievelijk 0.46, 0.42, 0.09 en 0.03 zijn. De kans om 4 donoren met bloedgroep O, 3 met bloedgroep A, 2 met bloedgroep B en 1 met bloedgroep AB te hebben, is [28](#page=28):
>
> $$ P(X_O = 4, X_A = 3, X_B = 2, X_{AB} = 1) = \frac{10!}{4!3!2!1!} (0.46)^4 (0.42)^3 (0.09)^2 (0.03)^1 $$
>
> Dit resulteert in een kans van ongeveer 0.0102 of 1.02% [29](#page=29).
### 3.5 Gemiddelde en variantie
Voor een multinomiale verdeling met parameters $n$ en $(p_1, p_2, \ldots, p_k)$, geldt voor elke individuele stochastische variabele $X_i$ het volgende:
* **Verwachtingswaarde (gemiddelde):**
$E[X_i = n p_i$ [33](#page=33).
* **Variantie:**
$Var(X_i) = n p_i q_i$, waarbij $q_i = 1 - p_i$ [33](#page=33).
> **Voorbeeld:** Voor de bloedgroepenverdeling met $n=10$ en kansen $(0.46, 0.42, 0.09, 0.03)$:
>
> * Het verwachte aantal donoren met bloedgroep O is:
> $E[X_1 = 10 \times 0.46 = 4.6$ [33](#page=33).
> * De variantie van het aantal donoren met bloedgroep O is:
> $Var(X_1) = 10 \times 0.46 \times (1 - 0.46) = 10 \times 0.46 \times 0.54 = 2.48$ [33](#page=33).
---
# Normale verdeling
De normale verdeling is een fundamentele continue kansverdeling die wijdverbreid wordt gebruikt vanwege haar frequentie in natuurlijke verschijnselen en haar vermogen om andere verdelingen te benaderen [35](#page=35).
### 4.1 De dichtheidsfunctie van de normale verdeling
De kansverdeling van een continue stochastische variabele wordt beschreven door een dichtheidsfunctie. Voor een normale verdeling wordt deze dichtheidsfunctie bepaald door twee parameters: $\mu$ (het gemiddelde) en $\sigma$ (de standaardafwijking). De algemene formule voor de dichtheidsfunctie is [35](#page=35) [36](#page=36):
$$
f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2\sigma^2}(x-\mu)^2} \quad -\infty < x < \infty
$$
De parameter $\mu$ bepaalt de locatie van de piek van de curve, terwijl $\sigma$ de breedte van de grafiek beïnvloedt. Een normale verdeling wordt genoteerd als $X \sim N(\mu, \sigma^2)$ [38](#page=38).
#### 4.1.1 Kenmerken van de parameters $\mu$ en $\sigma^2$
Indien $X \sim N(\mu, \sigma^2)$:
* $\mu$ vertegenwoordigt het gemiddelde van de stochastische variabele $X$ [39](#page=39).
* $\sigma^2$ vertegenwoordigt de variantie van de stochastische variabele $X$ [39](#page=39).
De mogelijke waarden voor deze parameters zijn:
* $-\infty < \mu < +\infty$ [39](#page=39).
* $\sigma^2 > 0$ [39](#page=39).
> **Tip:** De variantie ($\sigma^2$) is altijd groter dan nul, aangezien een standaardafwijking ($\sigma$) een positieve waarde is die de spreiding aangeeft.
### 4.2 De standaard normale verdeling
De standaard normale verdeling is een speciaal geval van de normale verdeling waarbij het gemiddelde $\mu = 0$ en de standaardafwijking $\sigma = 1$. Een stochastische variabele die standaard normaal verdeeld is, wordt vaak aangeduid met de letter $Z$ [42](#page=42).
De cumulatieve verdelingsfunctie (CDF) van de standaard normale verdeling, die de kans $P(Z \le x)$ aangeeft, wordt genoteerd als $\Phi(x)$ [42](#page=42).
#### 4.2.1 Eigenschappen van de standaard normale verdeling
De standaard normale verdeling bezit de volgende belangrijke eigenschappen:
* $P(Z = x) = 0$, wat betekent dat $P(Z \le x) = P(Z < x)$ [43](#page=43).
* De totale oppervlakte onder de curve is gelijk aan 1 [43](#page=43).
* $P(Z > x) = 1 - P(Z < x)$ [43](#page=43).
* De curve is symmetrisch rond $x = 0$. Hieruit volgt [43](#page=43):
* $P(Z < -x) = P(Z > x)$ [43](#page=43).
* $P(Z > x) = 1 - P(Z < x)$ [43](#page=43).
* $\Phi(-x) = 1 - \Phi(x)$ [43](#page=43).
* De kans op een interval kan berekend worden als:
* $P(x_1 < Z < x_2) = P(Z < x_2) - P(Z < x_1)$ [44](#page=44).
* $P(x_1 < Z < x_2) = \Phi(x_2) - \Phi(x_1)$ [44](#page=44).
> **Tip:** Door deze symmetrie-eigenschappen hoeft u slechts de kansen voor positieve waarden van $Z$ te kennen. Kansen voor negatieve waarden kunnen hieruit worden afgeleid.
### 4.3 Het berekenen van kansen met de standaard normale verdeling
Kansen voor de standaard normale verdeling kunnen worden afgelezen uit tabellen die de waarden van $\Phi(x)$ weergeven voor verschillende $x$-waarden [45](#page=45).
#### 4.3.1 Voorbeelden met de standaard normale verdeling
Gegeven dat $Z \sim N(0,1)$:
* $P(Z < 0.23) = \Phi(0.23) = 0.5910$ [45](#page=45).
* $P(Z < 0.46) = 0.6772$ [46](#page=46).
* $P(Z > 0.46) = 1 - P(Z < 0.46) = 1 - 0.6772 = 0.3228$ [46](#page=46).
* $P(Z < 0.05) = 0.5199$ [46](#page=46).
* $P(0.05 < Z < 0.46) = P(Z < 0.46) - P(Z < 0.05) = 0.6772 - 0.5199 = 0.1573$ [46](#page=46).
* $P(Z < -0.46) = 0.3228$ (gebruikmakend van $\Phi(-x) = 1 - \Phi(x)$) [46](#page=46).
* $P(Z > -0.46) = 1 - P(Z < -0.46) = 1 - 0.3228 = 0.6772$ [46](#page=46).
* $P(-0.46 < Z < 0.05) = P(Z < 0.05) - P(Z < -0.46) = 0.5199 - 0.3228 = 0.1971$ [46](#page=46).
#### 4.3.2 Oefeningen met de standaard normale verdeling
Gegeven dat $Z \sim N(0,1)$:
* $P(Z < 2.05) = 0.9798$ [47](#page=47).
* $P(Z > 1.96) = 1 - P(Z < 1.96) = 1 - 0.9750 = 0.0250$ [47](#page=47).
* $P(1.96 < Z < 2.05) = P(Z < 2.05) - P(Z < 1.96) = 0.9798 - 0.9750 = 0.0048$ [47](#page=47).
* $P(Z < -2.05) = 1 - P(Z < 2.05) = 1 - 0.9798 = 0.0202$ [47](#page=47).
### 4.4 Willekeurige normale verdeling omzetten naar standaard normale verdeling
Elke normale verdeling $X \sim N(\mu, \sigma^2)$ kan worden herleid tot de standaard normale verdeling $Z \sim N(0,1)$ met behulp van de volgende transformatie:
$$
Z = \frac{X - \mu}{\sigma}
$$
Deze transformatie maakt het mogelijk om kansen te berekenen voor elke normale verdeling door gebruik te maken van de standaard normale verdelingstabellen.
#### 4.4.1 Kansen berekenen voor een willekeurige normale verdeling
De kans $P(X \le x)$ voor een willekeurige normale verdeling kan worden omgerekend naar een kans met de standaard normale verdeling als volgt:
$$
P(X \le x) = P\left(Z \le \frac{x - \mu}{\sigma}\right) = \Phi\left(\frac{x - \mu}{\sigma}\right)
$$
Voor een interval geldt:
$$
P(x_0 \le X \le x_1) = P\left(\frac{x_0 - \mu}{\sigma} \le Z \le \frac{x_1 - \mu}{\sigma}\right) = \Phi\left(\frac{x_1 - \mu}{\sigma}\right) - \Phi\left(\frac{x_0 - \mu}{\sigma}\right)
$$
##### 4.4.1.1 Voorbeeld: Cadmiumconcentratie in bloed
Beschouw de cadmiumconcentratie $X$ in bloed (in $\mu g/l$) met $X \sim N(0.15; 0.00005)$. We willen de volgende kansen berekenen:
1. **Kans dat de concentratie kleiner is dan 0.14:**
$P(X < 0.14) = P\left(Z < \frac{0.14 - 0.15}{\sqrt{0.00005}}\right) = P\left(Z < \frac{-0.01}{0.007071}\right) \approx P(Z < -1.41)$ [49](#page=49).
Met behulp van de standaard normale tabel is $P(Z < -1.41) = 1 - \Phi(1.41) = 1 - 0.9207 = 0.0793$ [49](#page=49).
2. **Kans dat de concentratie groter is dan 0.16:**
$P(X > 0.16) = P\left(Z > \frac{0.16 - 0.15}{\sqrt{0.00005}}\right) = P\left(Z > \frac{0.01}{0.007071}\right) \approx P(Z > 1.41)$ [49](#page=49).
$P(Z > 1.41) = 1 - P(Z < 1.41) = 1 - 0.9207 = 0.0793$ [49](#page=49).
3. **Kans dat de concentratie tussen 0.14 en 0.16 ligt:**
$P(0.14 < X < 0.16) = P(-1.41 < Z < 1.41)$ [49](#page=49).
$P(-1.41 < Z < 1.41) = P(Z < 1.41) - P(Z < -1.41) = 0.9207 - 0.0793 = 0.8414$ [49](#page=49).
> **Voorbeeld:** De standaardafwijking van de cadmiumconcentratie is $\sigma = \sqrt{0.00005} \approx 0.007071$. Bij het omrekenen van de waarden 0.14 en 0.16 naar $Z$-scores, worden deze getransformeerd naar -1.41 en 1.41 respectievelijk.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Stochastische veranderlijke | Een observeerbare grootheid waarvan de uitkomst afhankelijk is van toeval en die zich voordoet met een bepaalde kans. |
| Gemiddelde (verwachtingswaarde) | De verwachte waarde van een stochastische veranderlijke, berekend door elke mogelijke uitkomst te vermenigvuldigen met zijn kans en deze producten op te tellen. |
| $E(X)$ | Notatie voor de verwachtingswaarde of het gemiddelde van een stochastische veranderlijke $X$. |
| Kansverdeling | Een functie die de kans specificeert dat een stochastische veranderlijke een bepaalde waarde aanneemt. Voor discrete variabelen is dit een kansmassafunctie, voor continue variabelen een kansdichtheidsfunctie. |
| Discrete toevalsvariabele | Een variabele die een aftelbaar aantal waarden kan aannemen, vaak gehele getallen. |
| Continue toevalsvariabele | Een variabele die elke waarde kan aannemen binnen een bepaald interval. |
| Variantie | Een maat voor de spreiding van de waarden van een stochastische veranderlijke rond het gemiddelde. Het is het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde. |
| $Var(X)$ | Notatie voor de variantie van een stochastische veranderlijke $X$. |
| Standaardafwijking | De positieve vierkantswortel van de variantie. Het geeft een indicatie van de typische afwijking van de waarden ten opzichte van het gemiddelde. |
| Binomiale verdeling | Een kansverdeling die het aantal successen in een vast aantal onafhankelijke experimenten beschrijft, waarbij elk experiment slechts twee mogelijke uitkomsten heeft (succes of mislukking) en de succeskans constant is. |
| $B(n,p)$ | Notatie voor een binomiale verdeling met $n$ experimenten en een succeskans $p$. |
| $nCx$ | De binomiale coëfficiënt, ook wel 'n kies x' genoemd, die het aantal manieren aangeeft om $x$ successen te kiezen uit $n$ experimenten. Formule: $\frac{n!}{x!(n-x)!}$. |
| Multinomiale verdeling | Een uitbreiding van de binomiale verdeling naar situaties met meer dan twee mogelijke uitkomsten per experiment, waarbij het aantal successen in elke categorie wordt geteld over een vast aantal onafhankelijke experimenten. |
| $MN(n, (p1, p2, ..., pk))$ | Notatie voor een multinomiale verdeling met $n$ experimenten en kansen $(p1, p2, ..., pk)$ voor respectievelijk $k$ categorieën. |
| Normale verdeling | Een continue kansverdeling die klokvormig en symmetrisch is, gedefinieerd door een gemiddelde ($\mu$) en een variantie ($\sigma^2$). Veel natuurlijke verschijnselen volgen deze verdeling. |
| $\mu$ | Parameter van de normale verdeling die het gemiddelde of de locatie van de piek van de curve aangeeft. |
| $\sigma^2$ | Parameter van de normale verdeling die de variantie aangeeft en de breedte van de curve bepaalt. |
| $N(\mu, \sigma^2)$ | Notatie voor een normale verdeling met gemiddelde $\mu$ en variantie $\sigma^2$. |
| Standaard normale verdeling | Een speciale normale verdeling met een gemiddelde van 0 en een variantie van 1, genoteerd als $N(0,1)$ of $Z$. |
| $\Phi(x)$ | De cumulatieve distributiefunctie van de standaard normale verdeling, die de kans aangeeft dat een standaard normaal verdeelde variabele kleiner of gelijk is aan $x$. |
| Dichtheidsfunctie | Een functie die voor een continue toevalsvariabele de relatieve waarschijnlijkheid van elke uitkomst specificeert. De oppervlakte onder de curve over een interval geeft de kans op die uitkomst. |
Cover
HC3_LP_student_2025(1).pdf
Summary
# Populatie en steekproef
Dit deel van de cursus introduceert de fundamentele concepten van populatie en steekproef, met de nadruk op de representativiteit van een steekproef voor de populatie, en onderscheidt het theoretische model van een steekproef van de daadwerkelijke waargenomen steekproefwaarden [1](#page=1) [3](#page=3) [9](#page=9).
### 1.1 Populatie
De populatie is de volledige verzameling van alle individuen, objecten of gebeurtenissen waarover men informatie wil verkrijgen. In veel gevallen is het niet praktisch of mogelijk om de gehele populatie te observeren of te meten [3](#page=3).
### 1.2 Steekproef
Een steekproef is een deelverzameling van de populatie die wordt geselecteerd om informatie over de populatie te verzamelen. Het primaire doel bij het trekken van een steekproef is dat deze representatief is voor de populatie. Dit betekent dat de kenmerken van de steekproef zo goed mogelijk de kenmerken van de populatie moeten weerspiegelen [3](#page=3) [4](#page=4).
#### 1.2.1 De rol van de populatieverdeling
Stel dat we geïnteresseerd zijn in een bepaalde eigenschap of variabele binnen de populatie. Deze variabele kan worden gemodelleerd als een toevalsvariabele, de zogenaamde populatie-toevalsvariabele $X$. De verdeling van deze toevalsvariabele wordt de populatieverdeling genoemd [5](#page=5).
> **Voorbeeld:** In een labokoelkast bevinden zich 1000 bloedstalen. Deze kunnen worden gecodeerd op basis van de biomarkerwaarde: 500 met een lage waarde (code 1), 300 met een normale waarde (code 2), en 200 met een hoge waarde (code 3). De populatie is hier de verzameling van alle 1000 stalen. De toevalsvariabele $X$ vertegenwoordigt de biomarkercode van een willekeurig getrokken staal, en de bijbehorende verdeling is de populatieverdeling [5](#page=5).
#### 1.2.2 Het trekken van een steekproef
Wanneer we herhaaldelijk een experiment uitvoeren (bijvoorbeeld het trekken van een bloedstaal), verkrijgen we een reeks observaties. Elke observatie kan worden gemodelleerd als een toevalsvariabele die dezelfde verdeling heeft als de populatie-toevalsvariabele $X$. Dus, voor het $i$-de getrokken staal, is de biomarkercode $X_i$, en de kansverdeling van $X_i$ is gelijk aan die van $X$: $P(X_i = x) = P(X = x)$ voor elke mogelijke waarde $x$ [6](#page=6) [7](#page=7).
Een steekproef van grootte $n$ uit een populatie, gemodelleerd door de populatie-toevalsvariabele $X$, is formeel gedefinieerd als een rij van $n$ toevalsvariabelen $X_1, X_2, \dots, X_n$ die voldoen aan twee voorwaarden [7](#page=7) [8](#page=8):
1. **Dezelfde verdeling:** Elke $X_i$ heeft dezelfde verdeling als $X$, d.w.z., $P(X_i = x) = P(X = x)$ voor alle $i=1, \dots, n$ [7](#page=7).
2. **Onafhankelijkheid:** De toevalsvariabelen $X_1, X_2, \dots, X_n$ zijn onderling onafhankelijk. Dit betekent dat de uitkomst van het trekken van het ene staal geen invloed heeft op de uitkomst van het trekken van een ander staal ($P(X_i = x_i, X_j = x_j) = P(X_i = x_i) \cdot P(X_j = x_j)$ voor $i \neq j$) [7](#page=7).
De grootte van de steekproef wordt aangeduid met $n$ [8](#page=8).
### 1.3 Theoretisch model versus steekproefwaarden
Het is cruciaal om onderscheid te maken tussen het theoretische model van een steekproef en de feitelijke waarden die we observeren [9](#page=9).
* **Theoretische steekproef ($X_1, \dots, X_n$):** Dit vertegenwoordigt het wiskundige model van wat er *kan* gebeuren wanneer men $n$ trekkingen uitvoert uit de populatie. Het beschrijft de mogelijke uitkomsten en hun waarschijnlijkheden [9](#page=9).
* **Steekproefwaarden ($x_1, \dots, x_n$):** Dit zijn de specifieke, geobserveerde waarden die we daadwerkelijk vinden wanneer we een steekproef trekken in de praktijk. Elke set van steekproefwaarden is een mogelijke realisatie van het theoretische steekproefmodel. Het is goed mogelijk om meerdere steekproeven te trekken en telkens andere steekproefwaarden te verkrijgen, omdat de observaties gebaseerd zijn op toeval [9](#page=9).
> **Tip:** Dit onderscheid is essentieel voor statistische inferentie. Het theoretische model stelt ons in staat om waarschijnlijkheden te berekenen en conclusies te trekken over de populatie, terwijl de steekproefwaarden de empirische basis vormen voor onze analyses.
---
# Statistieken en steekproefgemiddelde
Dit gedeelte introduceert statistieken als berekeningen gebaseerd op steekproeven, met een focus op het steekproefgemiddelde en de steekproefvariantie, inclusief hun basiseigenschappen en de t-verdeling [10](#page=10) [11](#page=11).
### 2.1 Statistieken
Statistieken zijn berekeningen die worden uitgevoerd op basis van een steekproef, in tegenstelling tot parameters die betrekking hebben op de gehele populatie [11](#page=11).
* **Populatie:** De gehele groep waarover men informatie wil verzamelen (bijvoorbeeld alle eerstejaarsstudenten aan de UHasselt). Een toevalsvariabele kan bijvoorbeeld de lengte van een willekeurige student uit deze populatie zijn [11](#page=11).
* **Steekproef:** Een subset van de populatie die wordt geselecteerd voor analyse (bijvoorbeeld 𝑛 eerstejaarsstudenten). De gerealiseerde waarden van de steekproef kunnen specifieke metingen zijn, zoals lengtes in centimeters [11](#page=11).
* **Statistiek:** Elke waarde die berekend kan worden op basis van de steekproefgegevens. Voorbeelden hiervan zijn het minimum, maximum, gemiddelde, mediaan en de variantie [11](#page=11).
Het is belangrijk te realiseren dat steekproefwaarden niet uniek zijn en dat een statistiek kan veranderen bij elke nieuwe steekproef die wordt getrokken [14](#page=14).
#### 2.1.1 Steekproefgemiddelde en steekproefvariantie
Gegeven een steekproef $X_1, \dots, X_n$ uit een populatie $X$, worden de volgende statistieken gedefinieerd [13](#page=13):
* **Steekproefgemiddelde ($\overline{X}$):**
$$ \overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i $$
Dit is het gemiddelde van de waarnemingen in de steekproef [13](#page=13).
* **Steekproefvariantie ($S^2$):**
$$ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 $$
Dit is een maat voor de spreiding van de steekproefgegevens rondom het steekproefgemiddelde. De deling door $n-1$ in plaats van $n$ zorgt voor een zuivere schatter van de populatievariantie [13](#page=13).
> **Tip:** De waarden $x_1, x_2, \dots, x_n$ zijn de *realisaties* van de toevalsvariabelen $X_1, X_2, \dots, X_n$. De statistiek $\overline{X}$ leidt tot een gerealiseerde waarde $\overline{x}$ [14](#page=14).
### 2.2 Basiseigenschappen van het steekproefgemiddelde
Het steekproefgemiddelde $\overline{X}$ is zelf een toevalsvariabele, waarvan de verdeling interessant is om te bestuderen [15](#page=15) [16](#page=16).
#### 2.2.1 Gemiddelde en variantie van het steekproefgemiddelde
Als de populatie $X$ een gemiddelde $\mu$ en een variantie $\sigma^2$ heeft, dan gelden de volgende eigenschappen voor het steekproefgemiddelde $\overline{X}$ [17](#page=17):
* **Verwachtingswaarde van het steekproefgemiddelde:**
$$ E(\overline{X}) = \mu $$
Het gemiddelde van het steekproefgemiddelde is gelijk aan het populatiegemiddelde. Dit betekent dat het steekproefgemiddelde een zuivere schatter is voor het populatiegemiddelde [17](#page=17).
* **Variantie van het steekproefgemiddelde:**
$$ Var(\overline{X}) = \frac{\sigma^2}{n} $$
De variantie van het steekproefgemiddelde is gelijk aan de populatievariantie gedeeld door de steekproefgrootte $n$. Dit impliceert dat naarmate de steekproefgrootte toeneemt, de variantie van het steekproefgemiddelde afneemt, wat betekent dat de schatting nauwkeuriger wordt [17](#page=17).
#### 2.2.2 Verdeling van het steekproefgemiddelde
De verdeling van het steekproefgemiddelde $\overline{X}$ hangt af van de steekproefgrootte $n$ en de vorm van de populatieverdeling [18](#page=18).
* **Grote steekproef ($n \geq 30$):** Volgens de Centrale Limietstelling zal $\overline{X}$ bij benadering normaal verdeeld zijn, ongeacht de oorspronkelijke populatieverdeling [18](#page=18).
* **Kleine steekproef ($n < 30$) en normaal verdeelde populatie:** Als de populatie $X$ normaal verdeeld is, dan is $\overline{X}$ ook exact normaal verdeeld [18](#page=18).
Wanneer de populatieverdeling onbekend is en $n$ klein is, komt de t-verdeling in beeld [18](#page=18).
##### 2.2.2.1 De t-verdeling
De t-verdeling, of Student's t-verdeling, wordt gebruikt voor inferentie over het populatiegemiddelde $\mu$ wanneer de populatievariantie $\sigma^2$ onbekend is en de steekproefgrootte klein is, of wanneer de populatie niet noodzakelijk normaal verdeeld is maar we toch een uitspraak willen doen over $\mu$.
* **Relatie met de normale verdeling:** Voor zeer grote aantallen vrijheidsgraden benadert de t-verdeling de standaard normale verdeling $N(0,1)$ [19](#page=19).
$$ t_{\infty} = N(0,1) $$
* **Gekwadrateerde standaardisatie met onbekende variantie:** Als de populatie $X$ een gemiddelde $\mu$ en een variantie $\sigma^2$ heeft, dan is de gestandaardiseerde variabele $\frac{\overline{X} - \mu}{S/\sqrt{n}}$ t-verdeeld met $n-1$ vrijheidsgraden, mits de populatie normaal verdeeld is. Als $\sigma^2$ bekend is, gebruiken we de Z-verdeling. Hier wordt echter gekeken naar de verdeling van $\frac{\overline{X} - \mu}{S^2 / n}$ wat een misinterpretatie is in de documentatie. De correcte relatie is dat als de populatie $X$ normaal verdeeld is met gemiddelde $\mu$ en variantie $\sigma^2$, dan is [18](#page=18):
$$ \frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n-1) $$
Hierbij is $S$ de standaarddeviatie van de steekproef, afgeleid van de steekproefvariantie $S^2$. De $t$-verdeling met $k$ vrijheidsgraden wordt genoteerd als $t(k)$ [18](#page=18) [19](#page=19).
* **Vrijheidsgraden:** Het aantal vrijheidsgraden $(n-1)$ bepaalt de specifieke vorm van de t-verdeling. Meer vrijheidsgraden leiden tot een verdeling die dichter bij de standaard normale verdeling ligt [19](#page=19).
> **Voorbeeld t-verdeling:** Als we werken met een $t$-verdeling met 5 vrijheidsgraden ($t $) en we zoeken de waarde $x$ waarvoor $P(X > x) = 0.05$, dan vinden we uit de tabel dat $x = 2.015$ [20](#page=20) [5](#page=5).
* **Tabellen van de t-verdeling:** Deze tabellen geven kritische waarden voor verschillende aantallen vrijheidsgraden en waarschijnlijkheden (P-waarden), wat cruciaal is voor het uitvoeren van hypothesestoetsen [20](#page=20).
> **Fact:** $t_{\infty} = N(0,1)$ [19](#page=19).
Het is nog te bespreken wat er gebeurt als de steekproefgrootte klein is en de populatieverdeling niet bekend is [18](#page=18).
---
# Schatten van populatieparameters
Dit deel behandelt puntschattingen en intervalschattingen voor zowel populatiegemiddelden als populatieproporties, inclusief methoden voor het construeren en interpreteren van betrouwbaarheidsintervallen en hun toepassing in R [22](#page=22).
## 3. Schatten van populatieparameters
### 3.1 Puntschatten
Puntschatten is het proces waarbij een enkele waarde wordt gebruikt om een populatieparameter te benaderen. Bijvoorbeeld, om de gemiddelde geboortelengte van alle kinderen (populatiegemiddelde $\mu$) te schatten, wordt een steekproef van 30 geboortelengtes genomen, en het steekproefgemiddelde $\bar{x}$ wordt berekend [23](#page=23).
Het steekproefgemiddelde $\bar{X}$ is een schatter van het populatiegemiddelde $\mu$, en de concrete waarde $\bar{x}$ van een steekproef is een schatting van $\mu$. Het is belangrijk om te weten dat een puntschatting niet exact gelijk is aan de populatieparameter; elke nieuwe steekproef levert een andere schatting op. Een "goede schatter" is een onvertekende schatter, wat betekent dat het gemiddelde van alle mogelijke schattingen gelijk is aan de populatieparameter [24](#page=24) [25](#page=25).
### 3.2 Intervalschatten voor het populatiegemiddelde
Intervalschatten bouwt voort op puntschatten door een interval te construeren waarvan men met een bepaalde waarschijnlijkheid kan zeggen dat de populatieparameter erin ligt. Dit geeft een indicatie van de nauwkeurigheid van de puntschatting [26](#page=26).
#### 3.2.1 Betrouwbaarheidsinterval voor $\mu$ (standaarddeviatie populatie onbekend)
Wanneer de populatiestandaarddeviatie ($\sigma$) onbekend is en de steekproefgrootte $n$ groot is (of de populatie normaal verdeeld is), kunnen we gebruik maken van de $t$-verdeling om een betrouwbaarheidsinterval (BI) voor het populatiegemiddelde $\mu$ te construeren [27](#page=27).
De formule voor een $(1-\alpha) \times 100\%$ betrouwbaarheidsinterval voor $\mu$ is:
$$ \bar{x} \pm t_{\alpha/2}(n-1) \frac{s}{\sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is [31](#page=31).
* $s$ de steekproefstandaarddeviatie is [30](#page=30).
* $n$ de steekproefgrootte is [30](#page=30).
* $t_{\alpha/2}(n-1)$ de kritische waarde is uit de $t$-verdeling met $n-1$ vrijheidsgraden, die overeenkomt met de gekozen betrouwbaarheid (bijvoorbeeld, voor een 95% BI is $\alpha = 0.05$, dus $\alpha/2 = 0.025$ en de kritische waarde is $t_{0.025}(n-1)$) [32](#page=32).
**Voorbeeld:**
Voor een steekproef van $n=30$ met $\bar{x}=50.3$ en $s^2=28$ (dus $s \approx 5.29$), is een 95% BI:
$$ 50.3 \pm 2.045 \frac{\sqrt{28}}{\sqrt{30}} \approx 50.3 \pm 2.045 \times 0.966 = 50.3 \pm 1.975 $$
Dit resulteert in het interval $[48.325, 52.275]$. De kritische waarde $2.045$ is de $t$-waarde voor $n-1=29$ vrijheidsgraden en een $\alpha/2 = 0.025$ [30](#page=30) [33](#page=33).
> **Tip:** De kritische waarde $t_{\alpha/2}(n-1)$ verandert met de steekproefgrootte en het gewenste betrouwbaarheidsniveau [32](#page=32).
#### 3.2.2 Interpretatie van een betrouwbaarheidsinterval voor $\mu$
De interpretatie van een 95% betrouwbaarheidsinterval is cruciaal: als men 100 steekproeven zou nemen en telkens een 95% BI zou berekenen, dan zouden 95 van die 100 intervallen de werkelijke waarde van het populatiegemiddelde $\mu$ bevatten. Het steekproefgemiddelde $\bar{x}$ ligt altijd in het midden van het betrouwbaarheidsinterval voor $\mu$ [38](#page=38).
#### 3.2.3 Toepassing in R
R kan gebruikt worden om betrouwbaarheidsintervallen voor het populatiegemiddelde te berekenen.
**Voorbeeld (Obesitasstudie):**
Voor de variabele 'Wpiek' uit de obesitasstudie met $n=66$:
* Een 95% BI wordt berekend met de R-code, wat resulteert in het interval $[151.922, 173.381]$ [42](#page=42).
* Een 99% BI wordt berekend, wat resulteert in het interval $[148.3952, 176.9079]$ [43](#page=43).
### 3.3 Schatten van de populatieproportie
Net als bij het populatiegemiddelde kunnen we ook een populatieproportie schatten. Een proportie kan worden gezien als de fractie, het percentage, of de kans op een bepaalde uitkomst. Een voorbeeld is de proportie vrouwen in de wereldbevolking of de proportie Belgen met bloedgroep AB [45](#page=45).
#### 3.3.1 Puntschatten van de populatieproportie
Een goede schatter voor de populatieproportie $\pi$ is de steekproefproportie $\hat{p}$. Deze wordt berekend als het aantal successen in de steekproef gedeeld door de steekproefgrootte [46](#page=46):
$$ \hat{p} = \frac{\text{Aantal successen in de steekproef}}{n} $$
Het aantal successen in een steekproef volgt een binomiale verdeling $B(n; \pi)$, waarbij $\pi$ de succeskans is [47](#page=47).
#### 3.3.2 Intervalschatten voor de populatieproportie
Bij een voldoende grote steekproef kunnen we de normale benadering van de binomiale verdeling gebruiken. De voorwaarden voor een voldoende grote steekproef zijn:
* $n \cdot \hat{p} \geq 5$ (minstens 5 successen in de steekproef) [49](#page=49).
* $n \cdot (1-\hat{p}) \geq 5$ (minstens 5 mislukkingen in de steekproef) [49](#page=49).
Indien aan deze voorwaarden is voldaan, wordt een $(1-\alpha) \times 100\%$ betrouwbaarheidsinterval voor $\pi$ gegeven door:
$$ \hat{p} \pm z_{1-\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $$
waarbij:
* $\hat{p}$ de steekproefproportie is [51](#page=51).
* $n$ de steekproefgrootte is [51](#page=51).
* $z_{1-\alpha/2}$ de kritische waarde uit de standaard normale verdeling is. Voorbeelden van kritische waarden zijn [51](#page=51):
* 90% BI $\implies z_{0.95} = 1.645$
* 95% BI $\implies z_{0.975} = 1.960$
* 99% BI $\implies z_{0.995} = 2.576$
**Voorbeeld:**
Voor een steekproef van $n=54$ studenten, waarbij 23 bloedgroep O hebben ($\hat{p} = 23/54 \approx 0.4259$), is een 95% BI:
$$ 0.4259 \pm 1.96 \sqrt{\frac{0.4259(1-0.4259)}{54}} \approx 0.4259 \pm 1.96 \times 0.0676 $$
$$ \approx 0.4259 \pm 0.1325 $$
Dit resulteert in het interval $[0.2934, 0.5584]$. De voorwaarden $n\hat{p} = 23 \geq 5$ en $n(1-\hat{p}) = 31 \geq 5$ zijn voldaan [52](#page=52).
> **Tip:** De voorwaarden $n \hat{p} \geq 5$ en $n(1-\hat{p}) \geq 5$ zijn essentieel voor de betrouwbaarheid van het interval berekend met de normale benadering [49](#page=49).
#### 3.3.3 Interpretatie van een betrouwbaarheidsinterval voor $\pi$
De interpretatie van een 95% betrouwbaarheidsinterval voor een proportie is vergelijkbaar met die voor een gemiddelde: als we 100 steekproeven zouden nemen, zouden 95 van de 100 intervallen de werkelijke populatieproportie $\pi$ bevatten. De steekproefproportie $\hat{p}$ ligt altijd in het midden van het betrouwbaarheidsinterval voor $\pi$ [54](#page=54).
#### 3.3.4 Toepassing in R
R kan ook gebruikt worden om betrouwbaarheidsintervallen voor populatieproporties te berekenen.
**Voorbeeld (Obesitasstudie):**
Om een 95% BI te geven voor de proportie jongens (waarvoor 1=jongen codeert) in de populatie:
* Gegeven is dat er 38 jongens zijn op $n=66$ kinderen [57](#page=57).
* De R-code levert een 95% BI op van $[0.4556, 0.6876]$ [57](#page=57).
**Voorbeeld met niet-voldane voorwaarden:**
Voor een studie met 16 patiënten waarbij 4 neveneffecten ondervonden, is $n=16$ en $\hat{p}=4/16=0.25$. De voorwaarden zijn niet volledig voldaan, aangezien $n\hat{p}=4 < 5$. Desondanks kan een 90% BI worden berekend met R, wat resulteert in een specifiek interval. Dit benadrukt het belang van het controleren van de voorwaarden voor de gebruikte formules [55](#page=55) [58](#page=58).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Populatie | De volledige verzameling van alle elementen of individuen waarover een onderzoek of analyse gaat. Dit kan bijvoorbeeld alle inwoners van een land zijn, of alle bloedstalen in een labokoelkast. |
| Steekproef | Een subset van de populatie die wordt geselecteerd om de populatie te vertegenwoordigen. De kenmerken van de steekproef worden geanalyseerd om conclusies te trekken over de populatie. |
| Representatief | Een steekproef wordt als representatief beschouwd wanneer de kenmerken van de steekproef de kenmerken van de populatie weerspiegelen, zodat conclusies die op de steekproef gebaseerd zijn, gegeneraliseerd kunnen worden naar de populatie. |
| Toevalsvariabele | Een variabele waarvan de waarde wordt bepaald door een willekeurig proces of experiment. De mogelijke waarden en hun kansen worden beschreven door een kansverdeling. |
| Steekproefgrootte | Het aantal elementen of observaties dat deel uitmaakt van een steekproef. Dit wordt vaak aangeduid met de letter $n$. |
| Onafhankelijk | Twee of meer gebeurtenissen of variabelen zijn onafhankelijk als de uitkomst van de ene de uitkomst van de andere niet beïnvloedt. In een steekproef betekent dit dat elke trekking van een element niet afhankelijk is van voorgaande of volgende trekkingen. |
| Statistiek | Een waarde die wordt berekend op basis van de gegevens in een steekproef. Statistieken worden gebruikt om populatieparameters te schatten. Voorbeelden zijn het steekproefgemiddelde en de steekproefvariantie. |
| Steekproefgemiddelde | Het gemiddelde van de waarden in een steekproef. Het is een schatter voor het populatiegemiddelde en wordt berekend door de som van de steekproefwaarden te delen door de steekproefgrootte. Formule: $\overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$. |
| Steekproefvariantie | Een maat voor de spreiding van de gegevens in een steekproef rondom het steekproefgemiddelde. De populatievariantie wordt geschat met behulp van de steekproefvariantie. Formule: $S^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i - \overline{X})^2$. |
| Populatiegemiddelde ($\mu$) | Het theoretische gemiddelde van de waarden in de gehele populatie. Dit is een parameter die vaak wordt geschat met behulp van het steekproefgemiddelde. |
| Populatievariantie ($\sigma^2$) | De theoretische variantie van de waarden in de gehele populatie. Dit is een parameter die vaak wordt geschat met behulp van de steekproefvariantie. |
| T-verdeling | Een kansverdeling die vergelijkbaar is met de normale verdeling, maar die wordt gebruikt bij het schatten van populatiegemiddelden wanneer de populatievariantie onbekend is en de steekproefgrootte klein is. De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden. |
| Vrijheidsgraden | Een parameter die de vorm van de t-verdeling bepaalt. Bij het schatten van een populatiegemiddelde met een kleine steekproef is het aantal vrijheidsgraden gelijk aan $n-1$, waarbij $n$ de steekproefgrootte is. |
| Puntschatting | Een enkele waarde die wordt gebruikt om een populatieparameter te benaderen. Het steekproefgemiddelde is een puntschatting voor het populatiegemiddelde. |
| Intervalschatten | Het proces van het construeren van een interval dat naar verwachting de populatieparameter bevat met een bepaalde mate van zekerheid. |
| Betrouwbaarheidsinterval (BI) | Een reeks waarden die waarschijnlijk een populatieparameter bevat. Het wordt gedefinieerd door een onder- en bovengrens, en een betrouwbaarheidsniveau. |
| Betrouwbaarheidsniveau | De kans dat het betrouwbaarheidsinterval de werkelijke populatieparameter bevat. Gangbare niveaus zijn 90%, 95% en 99%. |
| Kritische waarde | Een waarde uit een kansverdeling die wordt gebruikt om de grenzen van een betrouwbaarheidsinterval te bepalen. Voor de t-verdeling wordt deze aangeduid als $t_{\alpha/2}(n-1)$ en voor de standaard normale verdeling als $z_{\alpha/2}$. |
| Populatieproportie ($\pi$) | Het aandeel of percentage van de populatie dat een bepaalde eigenschap bezit. Dit wordt vaak geschat met behulp van de steekproefproportie. |
| Steekproefproportie ($\overline{p}$) | Het aandeel of percentage van de steekproef dat een bepaalde eigenschap bezit. Het is een schatter voor de populatieproportie. Formule: $\overline{p} = \frac{\text{Aantal successen in de steekproef}}{\text{steekproefgrootte}}$. |
| Succes | In de context van proportieschatting verwijst 'succes' naar het voorkomen van de eigenschap waarin men geïnteresseerd is in een individu of observatie. |
| Mislukking | In de context van proportieschatting verwijst 'mislukking' naar het niet voorkomen van de eigenschap waarin men geïnteresseerd is in een individu of observatie. |
| Normale benadering | Een techniek die wordt gebruikt om een binomiale verdeling te benaderen met een normale verdeling, wanneer de steekproefgrootte voldoende groot is. Dit vereenvoudigt de berekening van betrouwbaarheidsintervallen voor proporties. |
| Onvertekende schatter (unbiased estimator) | Een schatter waarvan de verwachte waarde gelijk is aan de te schatten populatieparameter. Dit betekent dat de schatter gemiddeld genomen de parameter correct inschat. |
| $t$-verdeling met $k$ vrijheidsgraden | Een continue kansverdeling die lijkt op de normale verdeling, maar met zwaardere staarten, wat betekent dat extremere waarden waarschijnlijker zijn. De parameter $k$ geeft het aantal vrijheidsgraden aan, dat de vorm van de verdeling bepaalt. |
| $N(0,1)$ | Standaard normale verdeling, een normale verdeling met een gemiddelde van 0 en een standaarddeviatie van 1. |
| $z_{1-\alpha/2}$ | De kritische waarde uit de standaard normale verdeling die een oppervlakte van $1-\alpha/2$ naar links heeft. Deze waarde wordt gebruikt om betrouwbaarheidsintervallen te berekenen. |
Cover
HC4a_LP_2025_student(1).pdf
Summary
# Het opstellen van hypothesen
Dit deel van de studiehandleiding richt zich op het formuleren van de nulhypothese en de alternatieve hypothese, die voortkomen uit een onderzoeksvraag en essentieel zijn voor het opzetten van statistisch onderzoek [2](#page=2).
### 1.1 De relatie tussen onderzoeksvraag en hypothesen
Een onderzoeksvraag introduceert een vermoeden, verwachting of een specifieke vraag die onderzocht moet worden. Deze onderzoeksvraag wordt vertaald naar twee concurrerende hypothesen: de alternatieve hypothese ($H_A$) en de nulhypothese ($H_0$) [6](#page=6) [7](#page=7).
#### 1.1.1 De alternatieve hypothese ($H_A$)
De alternatieve hypothese vertegenwoordigt de stelling die de onderzoeker hoopt te bewijzen, oftewel het vermoeden, de verwachting of de vraag die men wil aantonen [7](#page=7).
> **Voorbeelden van alternatieve hypothesen:**
> * Gemiddelde tijd tot progressie bij nieuwe behandeling langer dan 24 maanden? ($H_A: \mu > 24$) [6](#page=6).
> * Is de gemiddelde geboortelengte bij meisjes kleiner dan 51 cm? ($H_A: \mu < 51$) [6](#page=6).
> * Is het gemiddelde gewicht bij hartpatiënten verschillend van 77kg? ($H_A: \mu \neq 77$) [6](#page=6).
#### 1.1.2 De nulhypothese ($H_0$)
De nulhypothese is het tegenovergestelde van de alternatieve hypothese en stelt doorgaans dat er geen effect, geen verschil of geen verband is. Het is de hypothese die we proberen te weerleggen [7](#page=7).
> **Voorbeelden van nulhypothesen (in relatie tot de alternatieve hypothesen hierboven):**
> * $H_0: \mu \leq 24$ [7](#page=7).
> * $H_0: \mu \geq 51$ [7](#page=7).
> * $H_0: \mu = 77$ [7](#page=7).
### 1.2 Essentiële principes bij het opstellen van hypothesen
Het correct opstellen van hypothesen is cruciaal voor een valide statistische analyse. Er zijn twee belangrijke principes die hierbij in acht genomen moeten worden [8](#page=8).
#### 1.2.1 Opstellen vóór steekproeftrekking
Het is van fundamenteel belang dat zowel de nulhypothese als de alternatieve hypothese worden geformuleerd op basis van de onderzoeksvraag, *voordat* er gegevens uit een steekproef worden verzameld. Dit voorkomt dat de hypothesen worden beïnvloed door de resultaten van de steekproef, wat kan leiden tot subjectiviteit en onbetrouwbare conclusies [8](#page=8).
> **Tip:** Zie het opstellen van hypothesen als het vastleggen van de spelregels voordat het spel begint. De uitkomst van het spel (de steekproef) mag de spelregels niet beïnvloeden [8](#page=8).
#### 1.2.2 Testen met focus op de nulhypothese
Bij het toetsen van hypothesen ligt de focus op het beoordelen van de geldigheid van de nulhypothese. Het doel is om te bepalen of er voldoende statistisch bewijs is om de nulhypothese te verwerpen. Indien de nulhypothese verworpen kan worden, wordt de alternatieve hypothese als waarschijnlijk correct beschouwd [8](#page=8).
> **Voorbeeld:** Als we $H_0: \mu = 77$ willen toetsen tegen $H_A: \mu \neq 77$, zullen we kijken of de data uit de steekproef sterk genoeg afwijkt van 77 om de nulhypothese te verwerpen. Als dat zo is, ondersteunt dit de alternatieve hypothese dat het gemiddelde gewicht verschillend is van 77kg [5](#page=5) [7](#page=7).
---
# Het testen van hypothesen voor een populatiegemiddelde
Dit onderdeel behandelt het proces van het toetsen van hypothesen met betrekking tot een populatiegemiddelde, inclusief de criteria voor het verwerpen van de nulhypothese, het concept van type I en type II fouten, en de stappen die gevolgd moeten worden tijdens het testen [9](#page=9).
### 2.1 Het verwerpen van de nulhypothese
De beslissing om de nulhypothese ($H_0$) te verwerpen, hangt af van de aard van de alternatieve hypothese ($H_A$) en de relatie tussen het steekproefgemiddelde ($\bar{x}$) en een kritieke waarde ($c$ of $c_1, c_2$) [10](#page=10) [11](#page=11) [12](#page=12).
* **Voorbeeld 1: Rechtseenzijdige toets** ($H_0: \mu \le 24$ versus $H_A: \mu > 24$) [10](#page=10) [18](#page=18).
De nulhypothese wordt verworpen wanneer het steekproefgemiddelde $\bar{x}$ groter is dan een bepaalde waarde $c$. Dit betekent dat de geobserveerde waarde in het rechterdeel van de verdeling ligt, wat bewijs levert tegen $H_0$ ten gunste van $H_A$ [10](#page=10) [19](#page=19).
* **Voorbeeld 2: Linkseenzijdige toets** ($H_0: \mu \ge 51$ versus $H_A: \mu < 51$) [11](#page=11) [23](#page=23).
De nulhypothese wordt verworpen wanneer het steekproefgemiddelde $\bar{x}$ kleiner is dan een bepaalde waarde $c$. Dit suggereert dat de geobserveerde waarde zich in het linkermidden van de verdeling bevindt, wat bewijs is tegen $H_0$ [11](#page=11) [23](#page=23).
* **Voorbeeld 3: Tweezijdige toets** ($H_0: \mu = 77$ versus $H_A: \mu \ne 77$) [12](#page=12) [27](#page=27).
De nulhypothese wordt verworpen wanneer het steekproefgemiddelde $\bar{x}$ kleiner is dan een bepaalde waarde $c_1$ of groter is dan een bepaalde waarde $c_2$. Dit houdt in dat zowel extreem lage als extreem hoge steekproefgemiddelden redenen zijn om $H_0$ te verwerpen [12](#page=12) [27](#page=27).
#### 2.1.1 De teststatistiek
Voor het bepalen van de kritieke waarden $c$, $c_1$ en $c_2$ maken we gebruik van een teststatistiek. Indien de steekproefomvang ($n$) voldoende groot is, of indien $n$ klein is maar de populatie normaal verdeeld, dan wordt de volgende uitdrukking gebruikt als teststatistiek (ook wel toetsingsgrootheid genoemd) [17](#page=17):
$$
T = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}
$$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de hypothesische populatiegemiddelde onder de nulhypothese.
* $s$ de standaarddeviatie van de steekproef.
* $n$ de steekproefomvang is.
Deze teststatistiek volgt een $t$-verdeling met $n-1$ vrijheidsgraden, genoteerd als $T \sim t(n-1)$ [17](#page=17).
> **Tip:** De kritieke waarden ($c, c_1, c_2$) worden bepaald op basis van de verdeling van de teststatistiek onder de aanname dat de nulhypothese waar is, en dit moet gebeuren op een bepaald significantieniveau $\alpha$ [18](#page=18).
### 2.2 Type I en type II fouten
Bij het nemen van een statistische beslissing over een hypothese zijn er twee soorten fouten mogelijk [13](#page=13):
* **Type I fout:** Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. De kans hierop wordt aangeduid met $\alpha$, het significantieniveau [13](#page=13) [15](#page=15).
* **Type II fout:** Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onwaar is. De kans hierop wordt aangeduid met $\beta$ [13](#page=13).
Er is een omgekeerde relatie tussen de kans op een type I fout en de kans op een type II fout: als de kans op een type I fout daalt, stijgt de kans op een type II fout, en vice versa. Vaak wordt de focus gelegd op het minimaliseren van de 'ergste' fout [13](#page=13) [14](#page=14).
#### 2.2.1 Het significantieniveau ($\alpha$)
Het significantieniveau ($\alpha$) is de vastgelegde maximale kans op een type I fout. Een veelgebruikte waarde voor $\alpha$ is 0.05 (of 5%). Dit betekent dat in 5% van de gevallen waarin de nulhypothese waar is, we ten onrechte besluiten deze te verwerpen [15](#page=15).
> **Voorbeeld:** Als er 100 onschuldigen voor de rechtbank verschijnen en de nulhypothese is dat de man onschuldig is, dan zullen bij een $\alpha = 0.05$ gemiddeld 5 van hen ten onrechte schuldig worden bevonden en mogelijk de doodstraf krijgen [15](#page=15).
#### 2.2.2 Bepalen van kritieke waarden met $\alpha$
Het significantieniveau $\alpha$ wordt gebruikt om de kritieke waarden ($c$, $c_1$, $c_2$) te bepalen, zodanig dat de kans op een type I fout gelijk is aan $\alpha$ [17](#page=17).
* **Rechtseenzijdige toets** ($H_A: \mu > \mu_0$): We verwerpen $H_0$ als de teststatistiek groter is dan de kritieke waarde $k.p.$, waarbij $P(T > k.p. | H_0 \text{ waar}) = \alpha$. Bij $\alpha = 0.05$ en $n-1 = 99$ vrijheidsgraden, is de kritieke waarde ongeveer 1.658 [19](#page=19) [20](#page=20).
* **Linkseenzijdige toets** ($H_A: \mu < \mu_0$): We verwerpen $H_0$ als de teststatistiek kleiner is dan de kritieke waarde $k.p.$, waarbij $P(T < k.p. | H_0 \text{ waar}) = \alpha$. Bij $\alpha = 0.05$ en $n-1 = 40$ vrijheidsgraden, is de kritieke waarde ongeveer -1.684 [23](#page=23) [24](#page=24).
* **Tweezijdige toets** ($H_A: \mu \ne \mu_0$): We verwerpen $H_0$ als de teststatistiek kleiner is dan $-k.p.$ of groter is dan $+k.p.$, waarbij $P(T < -k.p. | H_0 \text{ waar}) = \alpha/2$ en $P(T > k.p. | H_0 \text{ waar}) = \alpha/2$. Bij $\alpha = 0.05$ (dus $\alpha/2 = 0.025$) en $n-1 = 22$ vrijheidsgraden, zijn de kritieke waarden ongeveer -2.074 en +2.074 [27](#page=27) [28](#page=28).
### 2.3 Het toetsen van hypothesen: stappenplan
Het proces van het testen van hypothesen kan worden gestructureerd aan de hand van de volgende stappen [22](#page=22):
1. **Stel je hypotheses op:** Formuleer duidelijk de nulhypothese ($H_0$) en de alternatieve hypothese ($H_A$). Bepaal of het een rechtseenzijdige, linkseenzijdige of tweezijdige toets betreft [22](#page=22) [30](#page=30).
2. **Ga de voorwaarden na:** Controleer of de aannames voor de gekozen statistische test (zoals normaliteit van de populatie of voldoende grote steekproefomvang) voldaan zijn [22](#page=22).
3. **Bepaal wanneer je de hypothese (niet) zult verwerpen:** Stel de kritieke waarden vast op basis van het gekozen significantieniveau ($\alpha$) en de verdeling van de teststatistiek [22](#page=22).
4. **Doe een steekproef en bereken de gepaste statistieken:** Verzamel data uit een steekproef en bereken het steekproefgemiddelde ($\bar{x}$), de steekproefstandaarddeviatie ($s$) en de waarde van de teststatistiek [22](#page=22).
5. **Trek je conclusie:** Vergelijk de berekende teststatistiek met de kritieke waarden. Formuleer de conclusie in statistische termen (verwerpen of niet verwerpen van $H_0$ op een bepaald significantieniveau) en in de context van de onderzoeksvraag [22](#page=22).
#### 2.3.1 Voorbeeld 1: Tijd tot progressie
Onderzoekers onderzoeken de tijd tot progressie bij 100 patiënten na een experimentele behandeling. De nulhypothese is dat de gemiddelde tijd tot progressie $\mu \le 24$ maanden ($H_0: \mu \le 24$ versus $H_A: \mu > 24$) [21](#page=21).
* **Stap 1:** Hypotheses zijn $H_0: \mu \le 24$ en $H_A: \mu > 24$. Dit is een rechtseenzijdige toets [21](#page=21).
* **Stap 2:** Voorwaarden: $n=100 \ge 30$, dus de teststatistiek volgt een $t$-verdeling [21](#page=21).
* **Stap 3:** We bepalen de kritieke waarde op basis van $\alpha = 0.05$ en $n-1 = 99$ vrijheidsgraden. De kritieke waarde is ongeveer 1.658. We verwerpen $H_0$ als $\frac{\bar{x}-24}{s/\sqrt{n}} > 1.658$ [20](#page=20) [21](#page=21).
* **Stap 4:** Het steekproefgemiddelde is $\bar{x} = 27$ maanden en de steekproefvariantie is $s^2 = 81$. De teststatistiek is:
$$
\frac{27 - 24}{\sqrt{81} / \sqrt{100}} = \frac{3}{9 / 10} = \frac{3}{0.9} = 3.333
$$
[21](#page=21).
* **Stap 5:** De berekende teststatistiek (3.333) is groter dan de kritieke waarde (1.658). **Conclusie:** Op een significantieniveau van 5% verwerpen we de nulhypothese. De tijd tot progressie bij de experimentele behandeling is significant meer dan 24 maanden [21](#page=21).
#### 2.3.2 Voorbeeld 2: Geboortelengte bij meisjes
Onderzocht wordt of de gemiddelde geboortelengte van meisjes significant kleiner is dan 51 cm. Een steekproef van 41 meisjes levert een gemiddelde van 50.8 cm en een variantie van 1.6 op [25](#page=25).
* **Stap 1:** Hypotheses zijn $H_0: \mu \ge 51$ en $H_A: \mu < 51$. Dit is een linkseenzijdige toets [23](#page=23).
* **Stap 2:** Voorwaarden: $n=41 \ge 30$, dus de teststatistiek volgt een $t$-verdeling met 40 vrijheidsgraden [23](#page=23).
* **Stap 3:** Bij $\alpha = 0.05$ en 40 vrijheidsgraden is de kritieke waarde ongeveer -1.684. We verwerpen $H_0$ als $\frac{\bar{x}-51}{s/\sqrt{n}} < -1.684$ [24](#page=24) [25](#page=25).
* **Stap 4:** De teststatistiek is:
$$
\frac{50.8 - 51}{\sqrt{1.6} / \sqrt{41}} = \frac{-0.2}{\sqrt{1.6 / 41}} \approx \frac{-0.2}{0.198} \approx -1.012
$$
[25](#page=25).
* **Stap 5:** De berekende teststatistiek (-1.012) is groter dan de kritieke waarde (-1.684). **Conclusie:** Op een significantieniveau van 5% verwerpen we de nulhypothese niet. De gemiddelde geboortelengte van meisjes is niet significant kleiner dan 51 cm [26](#page=26).
#### 2.3.3 Voorbeeld 3: Gewicht bij hartpatiënten
Er wordt onderzocht of het gemiddelde gewicht bij hartpatiënten significant verschilt van 77 kg. Uit een steekproef van 23 patiënten blijkt het gemiddelde gewicht 83 kg en de variantie 64 kg² [27](#page=27) [29](#page=29).
* **Stap 1:** Hypotheses zijn $H_0: \mu = 77$ en $H_A: \mu \ne 77$. Dit is een tweezijdige toets [27](#page=27).
* **Stap 2:** Voorwaarden: $n=23 < 30$, maar de populatie komt uit een normaal verdeelde populatie, dus de teststatistiek volgt een $t$-verdeling met 22 vrijheidsgraden [27](#page=27).
* **Stap 3:** Bij $\alpha = 0.05$ (dus $\alpha/2 = 0.025$) en 22 vrijheidsgraden zijn de kritieke waarden ongeveer -2.074 en +2.074. We verwerpen $H_0$ als $\frac{\bar{x}-77}{s/\sqrt{n}} < -2.074$ of $\frac{\bar{x}-77}{s/\sqrt{n}} > 2.074$ [28](#page=28) [29](#page=29).
* **Stap 4:** De teststatistiek is:
$$
\frac{83 - 77}{\sqrt{64} / \sqrt{23}} = \frac{6}{8 / \sqrt{23}} \approx \frac{6}{8 / 4.796} \approx \frac{6}{1.668} \approx 3.5969
$$
[29](#page=29).
* **Stap 5:** De berekende teststatistiek (3.5969) ligt buiten het interval [-2.074, +2.074. **Conclusie:** Op een significantieniveau van 5% verwerpen we de nulhypothese. Het gemiddelde gewicht bij hartpatiënten is significant verschillend van 77 kg [29](#page=29).
#### 2.3.4 Soorten hypothesetesten
Er zijn drie algemene soorten hypothesetesten voor het populatiegemiddelde [30](#page=30):
* **Rechtseenzijdige toets:** $H_0: \mu \le \mu_0$ versus $H_A: \mu > \mu_0$.
* **Linkseenzijdige toets:** $H_0: \mu \ge \mu_0$ versus $H_A: \mu < \mu_0$.
* **Tweezijdige toets:** $H_0: \mu = \mu_0$ versus $H_A: \mu \ne \mu_0$.
---
# De p-waarde en de interpretatie ervan
Dit deel behandelt de p-waarde als een instrument voor hypothesetoetsing, inclusief de berekening en interpretatie ervan voor verschillende eenzijdige en tweezijdige toetsen.
## 3 De p-waarde en de interpretatie ervan
De p-waarde is een cruciale maatstaf binnen de statistiek om nulhypothesen te toetsen. Het vertegenwoordigt de waarschijnlijkheid om een teststatistiek te observeren die minstens zo extreem is als de geobserveerde waarde, uitgaande van de geldigheid van de nulhypothese. De interpretatie en berekening van de p-waarde variëren afhankelijk van het type toets dat wordt uitgevoerd: rechtseenzijdig, linkseenzijdig of tweezijdig [31](#page=31) [44](#page=44).
### 3.1 De p-waarde bij een rechtseenzijdige test
Bij een rechtseenzijdige test wordt de p-waarde gedefinieerd als de kans om een teststatistiek te observeren die groter is dan of gelijk is aan de geobserveerde waarde, aangenomen dat de nulhypothese waar is [34](#page=34).
De formule voor de p-waarde bij een rechtseenzijdige test is:
$$ p = P(T_{n-1} \geq \text{geobserveerde waarde}) $$
Hierbij is $T_{n-1}$ de teststatistiek met $n-1$ vrijheidsgraden [34](#page=34).
De beslissingsregel is als volgt:
* Verwerp de nulhypothese ($H_0$) als $p < \alpha$, waarbij $\alpha$ het significantieniveau is (meestal 0.05) [34](#page=34).
* Verwerp de nulhypothese ($H_0$) niet als $p \geq \alpha$ [34](#page=34).
Op de grafieken wordt dit geïllustreerd door de oppervlakte onder de kansdichtheidsfunctie vanaf de geobserveerde waarde naar rechts. Als de geobserveerde waarde aan of onder het kritische punt (k.p.) ligt, is de p-waarde groter dan of gelijk aan 0.05, en wordt de nulhypothese niet verworpen. Ligt de geobserveerde waarde boven het kritische punt, dan is de p-waarde kleiner dan 0.05 en wordt de nulhypothese verworpen [32](#page=32) [33](#page=33).
> **Tip:** Bij een rechtseenzijdige test zoek je naar bewijs in de richting van een grotere waarde dan de nulhypothese suggereert. De p-waarde kwantificeert hoe onwaarschijnlijk de geobserveerde resultaten zijn onder de nulhypothese.
### 3.2 De p-waarde bij een linkseenzijdige test
Voor een linkseenzijdige test wordt de p-waarde gedefinieerd als de kans om een teststatistiek te observeren die kleiner is dan of gelijk is aan de geobserveerde waarde, onder de aanname dat de nulhypothese waar is [37](#page=37).
De formule voor de p-waarde bij een linkseenzijdige test is:
$$ p = P(T_{n-1} \leq \text{geobserveerde waarde}) $$
Hierbij is $T_{n-1}$ de teststatistiek met $n-1$ vrijheidsgraden [37](#page=37).
De beslissingsregel is identiek aan die van de rechtseenzijdige test:
* Verwerp $H_0$ als $p < \alpha$ [37](#page=37).
* Verwerp $H_0$ niet als $p \geq \alpha$ [37](#page=37).
Grafisch wordt dit weergegeven door de oppervlakte onder de kansdichtheidsfunctie vanaf de geobserveerde waarde naar links. Als de geobserveerde waarde aan of boven het kritische punt ligt, is de p-waarde groter dan of gelijk aan 0.05, wat leidt tot het niet verwerpen van de nulhypothese. Wanneer de geobserveerde waarde kleiner is dan het kritische punt, is de p-waarde kleiner dan 0.05 en wordt de nulhypothese verworpen [35](#page=35) [36](#page=36).
> **Tip:** Een linkseenzijdige test wordt gebruikt wanneer je geïnteresseerd bent in bewijs voor een kleinere waarde dan de nulhypothese stelt.
### 3.3 De p-waarde bij een tweezijdige test
Bij een tweezijdige test wordt de p-waarde berekend op een manier die extremen in beide staarten van de verdeling meeneemt. Dit om de beslissingsregel consistent te houden voor elke test [42](#page=42) [43](#page=43).
Er zijn twee manieren om de p-waarde voor een tweezijdige test te definiëren, afhankelijk van het teken van de geobserveerde waarde:
1. **Indien de geobserveerde waarde negatief is:**
De p-waarde, vaak aangeduid als $p^*$, wordt berekend als de kans om een teststatistiek te observeren die kleiner is dan of gelijk is aan de geobserveerde waarde. De uiteindelijke p-waarde ($p$) wordt vervolgens verkregen door dit te vermenigvuldigen met 2 om rekening te houden met extremen in beide staarten [42](#page=42) [43](#page=43).
$$ p^* = P(T_{n-1} \leq \text{geobserveerde waarde}) $$
$$ p = 2 \times P(T_{n-1} \leq \text{geobserveerde waarde}) $$
Beslissingsregel: Verwerp $H_0$ als $p < \alpha$ [42](#page=42) [43](#page=43).
2. **Indien de geobserveerde waarde positief is:**
De p-waarde, $p^*$, wordt berekend als de kans om een teststatistiek te observeren die groter is dan of gelijk is aan de geobserveerde waarde. De uiteindelijke p-waarde ($p$) is tweemaal deze kans [42](#page=42) [43](#page=43).
$$ p^* = P(T_{n-1} \geq \text{geobserveerde waarde}) $$
$$ p = 2 \times P(T_{n-1} \geq \text{geobserveerde waarde}) $$
Beslissingsregel: Verwerp $H_0$ als $p < \alpha$ [42](#page=42) [43](#page=43).
Voor een tweezijdige test wordt de nulhypothese verworpen als de berekende p-waarde kleiner is dan $\alpha/2$ wanneer $p^*$ wordt gebruikt of als de berekende p-waarde kleiner is dan $\alpha$ wanneer $p$ (de verdubbelde waarde) wordt gebruikt. De tweede benadering met de verdubbelde kans ($p$) maakt de beslissingsregel identiek ($p < \alpha$) voor alle soorten toetsen [42](#page=42) [43](#page=43) [44](#page=44).
Op de bijbehorende figuren wordt voor negatieve geobserveerde waarden de linkerstaart ($ \leq \text{geobs. waarde}$) met een oppervlakte van $\alpha/2$ getoond, en voor positieve geobserveerde waarden de rechterstaart ($ \geq \text{geobs. waarde}$) met een oppervlakte van $\alpha/2$. Als de geobserveerde waarde buiten de intervallen ($-\text{k.p.}, +\text{k.p.}$) valt, wordt de nulhypothese verworpen [38](#page=38) [39](#page=39) [40](#page=40) [41](#page=41).
### 3.4 Overzicht van de p-waarde en verwerpingsregel
De p-waarde is een samenvattende statistiek die de mate van ondersteuning voor de nulhypothese weergeeft. De berekening ervan hangt af van de richting van de alternatieve hypothese [44](#page=44):
* **Linkseenzijdige test:** $ p = P(T_{n-1} \leq \text{geobserveerde waarde}) $ [44](#page=44).
* **Rechtseenzijdige test:** $ p = P(T_{n-1} \geq \text{geobserveerde waarde}) $ [44](#page=44).
* **Tweezijdige test:**
* Indien de geobserveerde waarde negatief is: $ p = 2 \times P(T_{n-1} \leq \text{geobserveerde waarde}) $ [44](#page=44).
* Indien de geobserveerde waarde positief is: $ p = 2 \times P(T_{n-1} \geq \text{geobserveerde waarde}) $ [44](#page=44).
De algemene regel voor het verwerpen van de nulhypothese ($H_0$) op basis van de p-waarde is:
* Verwerp $H_0$ als $p < \alpha$ [44](#page=44).
* Verwerp $H_0$ niet als $p \geq \alpha$ [44](#page=44).
### 3.5 Voorbeelden van p-waarde berekening
#### 3.5.1 Voorbeeld 1
Gegeven is de nulhypothese $H_0: \mu \leq 24$ tegen de alternatieve hypothese $H_A: \mu > 24$ met een steekproefgrootte $n=100$. De geobserveerde waarde is 3.33 [45](#page=45).
Dit betreft een rechtseenzijdige test, dus de p-waarde wordt berekend als:
$$ p = P(T_{n-1} \geq \text{geobserveerde waarde}) = P(T_{99} \geq 3.33) $$
Aangezien deze waarde niet direct in de standaard t-verdelingstabellen staat, wordt deze benaderd. De p-waarde is kleiner dan 0.001 [45](#page=45).
**Besluit:** Omdat de berekende p-waarde ($p < 0.001$) kleiner is dan het significantieniveau $\alpha = 0.05$, wordt de nulhypothese verworpen op een significantieniveau van 5% [45](#page=45).
#### 3.5.2 Voorbeeld 2 en 3
Pagina 46 en 47 bevatten verder geen specifieke uitgewerkte voorbeelden van p-waarde berekeningen die hier expliciet samengevat kunnen worden [46](#page=46) [47](#page=47).
> **Tip:** De p-waarde geeft de kans op de geobserveerde data (of extremere data) onder de nulhypothese. Een lage p-waarde (< $\alpha$) suggereert dat de data onwaarschijnlijk zijn onder $H_0$, wat leidt tot verwerping van $H_0$. Een hoge p-waarde ($\geq \alpha$) betekent dat de data plausibel zijn onder $H_0$, dus er is onvoldoende bewijs om $H_0$ te verwerpen.
---
# Hypothesetesten voor een proportie
Dit deel introduceert de procedure voor het testen van hypothesen met betrekking tot een populatieproportie, inclusief de voorwaarden, berekening van de teststatistiek, en interpretatie van resultaten zoals de p-waarde [52](#page=52).
### 4.1 Algemene principes
Net als bij het testen van gemiddelden, is het testen van proporties gebaseerd op de verdeling van een toetsingsgrootheid. De procedure omvat het formuleren van hypothesen, het controleren van de voorwaarden voor de test, het berekenen van de toetsingsgrootheid, en het trekken van een conclusie op basis van de p-waarde of een kritieke waarde [54](#page=54) [55](#page=55).
### 4.2 Formuleren van hypothesen
Hypothesen worden geformuleerd in termen van de populatieproportie, aangeduid met $\pi$. De nulhypothese ($H_0$) stelt een specifieke waarde of een bereik van waarden voor de populatieproportie voor, terwijl de alternatieve hypothese ($H_A$) het tegenovergestelde stelt [53](#page=53).
* **Voorbeeld:** Bij het evalueren van een nieuwe therapie voor Alzheimer, is de klassieke behandeling geassocieerd met 21% van de patiënten die na 12 maanden in een verder stadium van de ziekte zitten. Voor de nieuwe therapie worden de hypothesen geformuleerd als $H_0: \pi \geq 0.21$ versus $H_A: \pi < 0.21$. Dit is een links-eenzijdig toetsingsprobleem omdat men wil weten of de nieuwe therapie *lager* is dan 21% [53](#page=53).
### 4.3 Voorwaarden voor de test
Om de toetsingsgrootheid te kunnen benaderen met een normale verdeling, moeten de volgende voorwaarden voldaan zijn:
* $n\pi_0 \geq 5$
* $n(1-\pi_0) \geq 5$
Hierbij is $n$ de steekproefgrootte en $\pi_0$ de proportie onder de nulhypothese [54](#page=54).
> **Tip:** Als deze voorwaarden niet voldaan zijn, kan de test enkel betrouwbaar worden uitgevoerd met behulp van statistische software zoals R [57](#page=57).
### 4.4 Berekening van de teststatistiek
Wanneer de voorwaarden voldaan zijn, volgt de toetsingsgrootheid bij benadering een standaard normale verdeling, $N(0,1)$. De formule voor de teststatistiek ($Z$) is [54](#page=54):
$$Z = \frac{\bar{p} - \pi_0}{\sqrt{\frac{\pi_0(1-\pi_0)}{n}}}$$
Hierbij is $\bar{p}$ de steekproefproportie [54](#page=54).
* **Voorbeeld (vervolg):** Gegeven $n=100$ patiënten en $\bar{p} = \frac{16}{100} = 0.16$. De teststatistiek wordt berekend als:
$$Z = \frac{0.16 - 0.21}{\sqrt{\frac{0.21(1-0.21)}{100}}} = \frac{-0.05}{\sqrt{\frac{0.21 \ast 0.79}{100}}} = \frac{-0.05}{\sqrt{\frac{0.1659}{100}}} = \frac{-0.05}{0.04073} \approx -1.228$$
### 4.5 Interpretatie van de resultaten
De interpretatie gebeurt op basis van de p-waarde of door de berekende teststatistiek te vergelijken met een kritieke waarde.
#### 4.5.1 Kritieke waarde benadering
Voor een links-eenzijdig toetsingsprobleem met een significantieniveau $\alpha = 0.05$, is de kritieke waarde voor een $N(0,1)$ verdeling -1.645. Als de berekende teststatistiek kleiner is dan de kritieke waarde, wordt de nulhypothese verworpen [55](#page=55).
* **Voorbeeld (vervolg):** De berekende teststatistiek is ongeveer -1.2276. Aangezien -1.2276 niet kleiner is dan -1.645, wordt de nulhypothese $H_0$ niet verworpen op een significantieniveau van 5%. Dit betekent dat we niet kunnen concluderen dat de proportie in een volgend stadium na 12 maanden significant kleiner is dan 21% [56](#page=56).
#### 4.5.2 P-waarde benadering
De p-waarde is de kans om een teststatistiek te observeren die minstens zo extreem is als de geobserveerde waarde, aannemende dat de nulhypothese waar is [57](#page=57).
* **Voorbeeld (vervolg):** Voor een links-eenzijdig test is de p-waarde:
$p = P(Z \leq \text{geobserveerde waarde}) = P(Z \leq -1.2276)$ [57](#page=57).
Met behulp van een standaard normale verdelingstabel of software: $P(Z \leq -1.2276) \approx 1 - 0.8907 = 0.1093$ [57](#page=57).
Aangezien de p-waarde (0.1093) groter is dan het significantieniveau van 0.05, wordt de nulhypothese niet verworpen [57](#page=57).
### 4.6 Hypothesetest voor een proportie in R
Statistische software zoals R kan worden gebruikt om hypothesetesten voor proporties uit te voeren. De functie vereist het aantal successen ($x$), de steekproefgrootte ($n$), de proportie onder de nulhypothese ($p = \pi_0$), en de specificatie van de alternatieve hypothese (`alternative = “two.sided”`, `“left”` of `“right”`) [58](#page=58).
* **Voorbeeld (vervolg) in R:**
* De input zou zijn: $x=16$, $n=100$, $p=0.21$, `alternative = "left"` (#page=53 58) [53](#page=53) [58](#page=58).
* De output in R kan de teststatistiek en de p-waarde opleveren. In een gerelateerd voorbeeld met een tweezijdige test, wordt vermeld dat de teststatistiek $\frac{\bar{p} - \pi_0}{\sqrt{\frac{\pi_0(1-\pi_0)}{n}}}$ weliswaar een chi-kwadraatverdeling met 1 vrijheidsgraad volgt (wat equivalent is aan $N(0,1)^2$), maar dat voor de oorspronkelijke links-eenzijdige test de $N(0,1)$ teststatistiek directer is. De p-waarde voor de alternatieve hypothese $H_a: \pi > 0.21$ wordt gegeven als 0.1098 [60](#page=60).
* **Besluit:** De p-waarde (0.1098) is groter dan 0.05, dus $H_0$ wordt niet verworpen op 5% significantieniveau. De proportie patiënten die met de nieuwe therapie na 12 maanden in een volgend stadium zitten, is niet significant kleiner dan 21% [61](#page=61).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Nulhypothese (H0) | De hypothese die het tegenovergestelde beweert van wat men wil aantonen of vermoeden. In de statistiek wordt deze hypothese gebruikt als uitgangspunt om te testen of er voldoende bewijs is om deze te verwerpen ten gunste van de alternatieve hypothese. |
| Alternatieve hypothese (HA) | De hypothese die men verwacht, vermoedt of wil aantonen. Bij het testen van hypothesen wordt getracht voldoende statistisch bewijs te vinden om de nulhypothese te verwerpen en de alternatieve hypothese te ondersteunen. |
| Steekproefgemiddelde (ҧx) | Het gemiddelde dat wordt berekend op basis van een steekproef uit een populatie. Dit is een schatting van het werkelijke populatiegemiddelde en wordt gebruikt om conclusies te trekken over de populatie. |
| Steekproefproportie (ҧp) | Het percentage of aandeel van een bepaalde kenmerk binnen een steekproef. Dit is een schatting van de populatieproportie en wordt gebruikt in hypothesestoetsen voor proporties. |
| Populatiegemiddelde (μ) | Het gemiddelde van een bepaald kenmerk over de gehele populatie. Dit is een theoretische waarde die vaak onbekend is en wordt geschat met behulp van steekproefgemiddelden. |
| Populatieproportie (π) | Het werkelijke aandeel van een bepaald kenmerk in de gehele populatie. Net als het populatiegemiddelde is dit een theoretische waarde die meestal onbekend is. |
| Significantieniveau (α) | De kans op het maken van een Type I fout, oftewel het verwerpen van de nulhypothese terwijl deze waar is. Meestal wordt een significantieniveau van 0.05 (of 5%) gehanteerd. |
| Type I fout | Een fout die optreedt wanneer de nulhypothese ten onrechte wordt verworpen, terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau (α). |
| Type II fout | Een fout die optreedt wanneer de nulhypothese ten onrechte niet wordt verworpen, terwijl deze in werkelijkheid onwaar is. De kans hierop wordt aangeduid met β. |
| Teststatistiek of toetsingsgrootheid | Een statistiek berekend uit steekproefgegevens die wordt gebruikt om de nulhypothese te testen. Afhankelijk van de situatie kan dit een z-statistiek of een t-statistiek zijn. |
| Kritisch punt (k.p.) | Een waarde uit de verdeling van de teststatistiek die de grens bepaalt tussen het gebied waar de nulhypothese niet wordt verworpen en het gebied waar deze wel wordt verworpen. |
| p-waarde | De kans om een teststatistiek te observeren die minstens zo extreem is als de geobserveerde waarde, aangenomen dat de nulhypothese waar is. Een lage p-waarde (< α) leidt tot het verwerpen van de nulhypothese. |
| Rechtseenzijdige toets | Een hypothesetest waarbij de alternatieve hypothese een "groter dan" relatie aangeeft (bv. H A: μ > μ0). Het kritieke gebied ligt aan de rechterkant van de verdeling. |
| Linkseenzijdige toets | Een hypothesetest waarbij de alternatieve hypothese een "kleiner dan" relatie aangeeft (bv. H A: μ < μ0). Het kritieke gebied ligt aan de linkerkant van de verdeling. |
| Tweezijdige toets | Een hypothesetest waarbij de alternatieve hypothese een "ongelijk aan" relatie aangeeft (bv. H A: μ ≠ μ0). Het kritieke gebied is verdeeld over beide staarten van de verdeling. |
| t-verdeling (t(n-1)) | Een kansverdeling die lijkt op de normale verdeling, maar met dikkere staarten. Deze wordt gebruikt bij het testen van hypothesen over populatiegemiddelden wanneer de populatiestandaarddeviatie onbekend is en de steekproefomvang klein is of de populatie niet normaal verdeeld is. |
| N(0,1) verdeling | De standaard normale verdeling, met een gemiddelde van 0 en een standaarddeviatie van 1. Deze wordt gebruikt bij het testen van hypothesen over populatieproporties wanneer bepaalde voorwaarden zijn voldaan. |
| Chi-kwadraatverdeling (χ²) | Een kansverdeling die wordt gebruikt in statistische tests, waaronder hypothesetesten voor proporties wanneer de teststatistiek gekwadrateerd wordt. |
Cover
HC4b_LP_2025(1).pdf
Summary
# Hypothesetoetsen voor gemiddelden en proporties in twee populaties
Dit onderwerp behandelt de principes en toepassingen van het toetsen van hypothesen wanneer men twee populatiegemiddelden of twee populatieproporties met elkaar vergelijkt [3](#page=3).
### 1.1 Inleiding tot het toetsen van hypothesen in twee populaties
Net zoals bij hypothesetoetsen in één populatie, is het doel bij het vergelijken van twee populaties het formuleren en toetsen van hypothesen over hun parameters (gemiddelden of proporties). De kernconcepten van nulhypothese ($H_0$) en alternatieve hypothese ($H_A$) blijven van kracht, maar worden nu toegepast op de relatie tussen twee populaties [2](#page=2) [3](#page=3).
#### 1.1.1 Hypothesenvormen voor twee gemiddelden
Bij het vergelijken van twee populatiegemiddelden ($\mu_1$ en $\mu_2$) kunnen de hypothesen worden geformuleerd als:
* $H_0: \mu_1 \le \mu_2$ versus $H_A: \mu_1 > \mu_2$ (éénzijdige toets) [3](#page=3).
* $H_0: \mu_1 \ge \mu_2$ versus $H_A: \mu_1 < \mu_2$ (éénzijdige toets) [3](#page=3).
* $H_0: \mu_1 = \mu_2$ versus $H_A: \mu_1 \ne \mu_2$ (tweezijdige toets) [3](#page=3).
#### 1.1.2 Hypothesenvormen voor twee proporties
Voor het vergelijken van twee populatieproporties ($\pi_1$ en $\pi_2$) gelden vergelijkbare vormen:
* $H_0: \pi_1 \le \pi_2$ versus $H_A: \pi_1 > \pi_2$ (éénzijdige toets) [3](#page=3).
* $H_0: \pi_1 \ge \pi_2$ versus $H_A: \pi_1 < \pi_2$ (éénzijdige toets) [3](#page=3).
* $H_0: \pi_1 = \pi_2$ versus $H_A: \pi_1 \ne \pi_2$ (tweezijdige toets) [3](#page=3).
#### 1.1.3 Voorbeelden van het opstellen van hypothesen
* **Voorbeeld 1 (Gekoppeld):** Onderzoek naar de impact van yoga op ademhalingscapaciteit. $H_0: \mu_{yoga} \le \mu_{geen\_yoga}$ versus $H_A: \mu_{yoga} > \mu_{geen\_yoga}$, waarbij $\mu$ staat voor de gemiddelde ademhalingscapaciteit [5](#page=5).
* **Voorbeeld 2 (Onafhankelijk):** Vergelijking van ademhalingscapaciteit tussen studenten die wel en geen yoga beoefenen. $H_0: \mu_{yoga} \le \mu_{geen\_yoga}$ versus $H_A: \mu_{yoga} > \mu_{geen\_yoga}$ [6](#page=6).
* **Voorbeeld 3 (Onafhankelijk):** Effectiviteit van een nieuwe Alzheimer-behandeling. $H_0: \mu_{klassiek} \ge \mu_{nieuw}$ versus $H_A: \mu_{klassiek} < \mu_{nieuw}$, waarbij $\mu$ staat voor de gemiddelde tijd tot progressie [7](#page=7).
* **Voorbeeld 4 (Gekoppeld):** Verschil in lichaamsgewicht tussen 12-jarige jongens en meisjes, waarbij tweelingen worden gebruikt. $H_0: \mu_{jongens} = \mu_{meisjes}$ versus $H_A: \mu_{jongens} \ne \mu_{meisjes}$ [8](#page=8).
### 1.2 Gekoppelde versus onafhankelijke metingen
Een cruciaal onderscheid bij het toetsen van gemiddelden in twee populaties is of de metingen gekoppeld of onafhankelijk zijn [10](#page=10) [9](#page=9).
* **Gekoppelde metingen:** De observaties in de twee groepen zijn niet onafhankelijk. Dit kan komen doordat dezelfde subjecten op twee verschillende momenten worden gemeten (pre-test/post-test), of doordat de subjecten in de twee groepen op een andere manier aan elkaar gerelateerd zijn (bv. tweelingen, gematchte paren) [10](#page=10).
* **Onafhankelijke metingen:** De observaties in de twee groepen zijn volledig onafhankelijk van elkaar. Dit betekent dat de keuze van subjecten in de ene groep geen invloed heeft op de keuze van subjecten in de andere groep [10](#page=10).
#### 1.2.1 Herschrijven van hypothesen voor gekoppelde metingen
Bij gekoppelde metingen kan de hypothese vaak worden gereduceerd tot een één-steekproef probleem door te kijken naar de verschillen tussen de gekoppelde waarden [13](#page=13) [14](#page=14).
* **Voorbeeld 1:** $H_0: \mu_{yoga} \le \mu_{geen\_yoga}$ wordt herschreven als $H_0: \mu_{yoga - geen\_yoga} \le 0$. De toets wordt dan uitgevoerd op het gemiddelde van de verschillen [13](#page=13) [16](#page=16).
#### 1.2.2 Twee gemiddelden: gekoppelde metingen
Voor gekoppelde metingen wordt de toetsingsgrootheid berekend op basis van de verschillen tussen de gepaarde observaties [17](#page=17).
* **Voorwaarden:** Als de steekproefgrootte klein is ($n < 30$), wordt verondersteld dat de verschillen normaal verdeeld zijn [17](#page=17).
* **Teststatistiek:** De teststatistiek volgt een $t$-verdeling met $n-1$ vrijheidsgraden, waarbij $n$ het aantal paren is. De formule is:
$$t = \frac{\bar{x} - \mu_0}{s_x / \sqrt{n}}$$
waarbij $\bar{x}$ het gemiddelde verschil is, $\mu_0$ de waarde onder de nulhypothese (vaak 0), en $s_x$ de standaardafwijking van de verschillen [17](#page=17) [18](#page=18).
#### 1.2.3 Twee gemiddelden: onafhankelijke metingen
Bij onafhankelijke metingen is de situatie complexer, vooral wat betreft de vrijheidsgraden van de $t$-verdeling [24](#page=24).
* **Werkwijze in R:** Vanwege de complexiteit van het berekenen van het aantal vrijheidsgraden, wordt de hypothesetest bij onafhankelijke metingen doorgaans in R uitgevoerd [25](#page=25).
1. **Hypothese opstellen:** Formuleer de nul- en alternatieve hypothesen [28](#page=28).
2. **Aannames controleren:** Controleer de aannames, zoals normaliteit van de populaties als de steekproeven klein zijn [28](#page=28).
3. **Varianties vergelijken:** Test of de populatievarianties gelijk zijn of niet (bv. met `var.test()` in R) [25](#page=25) [29](#page=29).
4. **Hypothese toetsen:** Voer de hypothesetest uit, rekening houdend met de conclusie over de gelijkheid van varianties [25](#page=25) [30](#page=30).
* **Voorbeeld 2 (Yoga):** De toets voor de gemiddelden ($H_0: \mu_{yoga} - \mu_{geen\_yoga} \le 0$ vs $H_A: \mu_{yoga} - \mu_{geen\_yoga} > 0$) wordt uitgevoerd. Als uit de variantietest blijkt dat de varianties gelijk zijn, wordt een andere $t$-test gebruikt dan wanneer ze ongelijk zijn. De p-waarde (0.2941) is groter dan het significantieniveau (0.05), waardoor $H_0$ niet wordt verworpen [29](#page=29) [30](#page=30).
### 1.3 Twee onafhankelijke proporties
Het vergelijken van twee proporties uit onafhankelijke populaties is een veelvoorkomende statistische taak [31](#page=31).
* **Voorbeeld:** Onderzoek naar de effectiviteit van een nieuwe Alzheimer-behandeling [32](#page=32) [39](#page=39).
* $H_0: \pi_{klassiek} \le \pi_{nieuw}$ versus $H_A: \pi_{klassiek} > \pi_{nieuw}$
* Herschreven als: $H_0: \pi_{klassiek} - \pi_{nieuw} \le 0$ versus $H_A: \pi_{klassiek} - \pi_{nieuw} > 0$ [32](#page=32).
#### 1.3.1 Verdeling van de toetsingsgrootheid voor proporties
Wanneer de nulhypothese waar is en aan bepaalde voorwaarden wordt voldaan (minstens 5 successen en 5 falen in beide steekproeven), volgt de toetsingsgrootheid een normale verdeling [33](#page=33).
* **Voorwaarden:** min $n_1 \hat{p} \ge 5$ en min $n_2 \hat{p} \ge 5$ [33](#page=33) [34](#page=34).
* **Teststatistiek:**
$$\frac{\hat{p}_2 - \hat{p}_1}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}} \sim N(0,1)$$
Hierbij zijn:
* $\hat{p}_1, \hat{p}_2$: de steekproefproporties in de twee groepen [33](#page=33).
* $\hat{p}$: de gepoolde proportie, berekend als:
$$\hat{p} = \frac{n_1 \hat{p}_1 + n_2 \hat{p}_2}{n_1 + n_2} = \frac{\text{aantal successen in totaal}}{n_1 + n_2}$$ [33](#page=33) [34](#page=34).
* $n_1, n_2$: de steekproefgroottes [33](#page=33) [34](#page=34).
#### 1.3.2 Berekening en interpretatie
Bij het berekenen van de teststatistiek voor de Alzheimer-behandeling wordt de waarde 0.9110 verkregen [35](#page=35).
* **Beslissing:** Omdat 0.9110 niet groter is dan het kritische punt voor een éénzijdige toets op 5% significantieniveau (ca. 1.645), wordt $H_0$ niet verworpen [34](#page=34) [35](#page=35).
* **Conclusie:** De proportie patiënten die een volgend stadium bereiken is niet significant kleiner bij de nieuwe behandeling. De p-waarde is 0.1814 [35](#page=35).
> **Tip:** Bij het toetsen van twee proporties is het essentieel om de voorwaarden voor de normale benadering te controleren. Indien deze niet voldaan is, kunnen andere methoden zoals de exacte toets (Fisher's exact test) nodig zijn, hoewel deze buiten het bestek van dit specifieke college vallen.
#### 1.3.3 Twee proporties vergelijken met R
Software zoals R biedt functies om deze toetsen efficiënt uit te voeren [36](#page=36) [37](#page=37) [38](#page=38) [39](#page=39).
> **Tip:** Het is altijd aan te raden om software te gebruiken voor complexe statistische toetsen, vooral als het gaat om het bepalen van vrijheidsgraden of het uitvoeren van variantietests bij onafhankelijke metingen. Dit vermindert de kans op rekenfouten en zorgt voor een correcte toepassing van de statistische methoden.
---
# Gekoppelde versus onafhankelijke metingen
Dit hoofdstuk introduceert en vergelijkt het concept van gekoppelde metingen met dat van onafhankelijke metingen, met een focus op hoe deze verschillende meetmethoden de formulering en analyse van hypothesen beïnvloeden.
### 2.1 Inleiding tot gekoppelde en onafhankelijke metingen
Het onderscheid tussen gekoppelde en onafhankelijke metingen is cruciaal voor het correct uitvoeren van statistische hypothesestoetsen. Gekoppelde metingen doen zich voor wanneer dezelfde subjecten meerdere keren worden gemeten, bijvoorbeeld voor en na een interventie. Onafhankelijke metingen vinden plaats wanneer verschillende groepen subjecten worden vergeleken, waarbij er geen verband is tussen de individuen in de ene groep en de individuen in de andere [10](#page=10) [9](#page=9).
### 2.2 Gekoppelde metingen
Bij gekoppelde metingen is er een directe relatie tussen de observaties binnen een studie. Dit is typisch het geval bij een pre-test/post-test design, waarbij dezelfde groep subjecten wordt gemeten vóór en na een bepaalde interventie [10](#page=10).
#### 2.2.1 Herschrijven van hypothesen voor gekoppelde metingen
Het voordeel van gekoppelde metingen is dat de analyse kan worden herleid tot een 1-steekproef toets door te kijken naar de verschillen tussen de metingen per subject. Als we bijvoorbeeld de ademhalingscapaciteit vóór en na yoga meten, kunnen we de hypothese formuleren over het gemiddelde verschil (𝛍_yoga - 𝛍_geen_yoga) [13](#page=13) [14](#page=14).
* **Voorbeeld 1:** Het vermoeden bestaat dat yoga de ademhalingscapaciteit verhoogt. Tien studenten meten hun ademhalingscapaciteit, beoefenen vervolgens een maand yoga en meten hun capaciteit opnieuw [10](#page=10) [16](#page=16).
* Hypothese: 𝐻₀:𝜇_yoga ≤ 𝜇_geen_yoga versus 𝐻𝐴:𝜇_yoga > 𝜇_geen_yoga [10](#page=10).
* Herschreven hypothese: 𝐻₀:𝜇_yoga - 𝜇_geen_yoga ≤ 0 versus 𝐻𝐴:𝜇_yoga - 𝜇_geen_yoga > 0 [13](#page=13) [16](#page=16).
#### 2.2.2 Toetsingsprocedure voor gekoppelde metingen
De analyse van gekoppelde metingen volgt de stappen van een 1-steekproef toets op de *verschillen* tussen de metingen [17](#page=17).
1. **Stel de hypothese op:** Formuleer de nulhypothese (𝐻₀) en de alternatieve hypothese (𝐻𝐴) met betrekking tot het gemiddelde verschil.
2. **Controleer de voorwaarden:** Beoordeel de steekproefgrootte (n) en de veronderstelling van normale verdeling van de verschillen. Voor kleine steekproeven (n < 30), is de normale verdeling van de verschillen cruciaal. De teststatistiek volgt dan een t-verdeling met n-1 vrijheidsgraden: $\frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t(n-1)$ [17](#page=17).
3. **Bepaal het kritisch gebied:** Identificeer het kritieke punt op basis van het significantieniveau (s.n.) en de verdeling van de teststatistiek.
4. **Bereken de teststatistiek:** Bereken het steekproefgemiddelde van de verschillen (ҧ𝑥) en de steekproefstandaardafwijking (s) van de verschillen. Gebruik deze om de teststatistiek te berekenen: $\frac{\bar{x} - \mu_0}{s/\sqrt{n}}$ [18](#page=18).
5. **Neem een beslissing:** Vergelijk de berekende teststatistiek met het kritieke punt. Als de teststatistiek in het verwerpingsgebied valt, verwerp dan 𝐻₀.
* **Voorbeeld 1 (vervolg):**
* Gemiddelde verschil (ҧ𝑥) = 62 [18](#page=18).
* Variantie van de verschillen ($s^2$) = 4017.78 [18](#page=18).
* Teststatistiek = $\frac{62 - 0}{\sqrt{4017.78 / 10}} = 3.0931$ [18](#page=18).
* Kritisch punt bij 5% s.n. voor een eenzijdige toets met 9 vrijheidsgraden is 1.833 [17](#page=17).
* Omdat 3.0931 > 1.833, wordt 𝐻₀ verworpen [18](#page=18).
* **Besluit:** Yoga verbetert de ademhalingscapaciteit [18](#page=18).
#### 2.2.3 Voorbeeld met tweelingen
Een ander scenario met gekoppelde metingen betreft tweelingen, waarbij een jongen en een meisje uit dezelfde tweeling met elkaar worden vergeleken. Dit elimineert veel genetische en omgevingsfactoren die anders voor ruis zouden zorgen [20](#page=20).
* **Voorbeeld 4:** Het vermoeden is dat er een verschil is in het gemiddelde lichaamsgewicht tussen 12-jarige jongens en meisjes. 61 tweelingen (jongen-meisje) worden geselecteerd, dus 122 kinderen in totaal [20](#page=20).
* Hypothese: 𝐻₀:𝜇_jongens - 𝜇_meisjes = 0 versus 𝐻𝐴:𝜇_jongens - 𝜇_meisjes ≠ 0 [14](#page=14) [21](#page=21).
* De teststatistiek volgt een t-verdeling met 60 vrijheidsgraden (n-1, waarbij n=61 paren) [21](#page=21).
* De p-waarde voor de tweezijdige toets (𝐻𝐴:𝜇 ≠ 0) is 0.0002156 [21](#page=21).
* **Besluit:** 𝐻₀ wordt verworpen op 5% s.n. Er is een significant verschil in gewicht tussen jongens en meisjes [21](#page=21).
### 2.3 Onafhankelijke metingen
Bij onafhankelijke metingen worden de steekproeven uit twee (of meer) populaties getrokken die volledig los van elkaar staan. Er is geen direct verband tussen de individuen in de ene steekproef en de individuen in de andere [10](#page=10).
#### 2.3.1 Toetsingsprocedure voor onafhankelijke metingen
De analyse van twee gemiddelden uit onafhankelijke metingen is complexer en vereist een andere teststatistiek. De teststatistiek hangt af van de grootte van de steekproeven (n1 en n2) en de gelijkheid van de populatievarianties (𝜎²_1 en 𝜎²_2) [24](#page=24).
* **Formule voor de teststatistiek:**
Wanneer 𝑛₁ en 𝑛₂ beide groot zijn (≥ 30), of wanneer één van beide klein is maar de populaties normaal verdeeld zijn, kan de teststatistiek ongeveer een t-verdeling volgen:
$$ \frac{\bar{Y} - \bar{X}}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \sim t(\nu) $$
waarbij $\nu$ het aantal vrijheidsgraden vertegenwoordigt. Het berekenen van $\nu$ is afhankelijk van of de populatievarianties gelijk worden verondersteld of niet [24](#page=24) [25](#page=25).
* **Werkwijze voor een hypothesetest met onafhankelijke metingen:**
a. **Stel de hypothese op:** Formuleer de nul- en alternatieve hypothese over het verschil tussen de populatiegemiddelden (𝜇₁ - 𝜇₂) [25](#page=25).
b. **Check assumpties:** Controleer of de data uit normaal verdeelde populaties komen, met name als de steekproefgroottes klein zijn [25](#page=25).
c. **Test of varianties gelijk zijn:** Voer een variantietest uit (bv. F-test) om te bepalen of 𝜎²₁ = 𝜎²₂ [25](#page=25) [29](#page=29).
* Als de varianties gelijk worden verondersteld, wordt een gepoolde variantie gebruikt voor de berekening van de teststatistiek en de vrijheidsgraden.
* Als de varianties ongelijk zijn (Welch's t-test), wordt een complexere formule gebruikt voor de vrijheidsgraden en de teststatistiek.
d. **Test de hypothese:** Voer de t-toets uit voor twee onafhankelijke steekproeven, rekening houdend met het resultaat van stap c [25](#page=25).
#### 2.3.2 Voorbeeld met onafhankelijke metingen
* **Voorbeeld 2 (contrast met Voorbeeld 1):** Dezelfde vraag: verhoogt yoga de ademhalingscapaciteit? Nu worden echter 10 studenten die geen yoga beoefenen vergeleken met 10 *andere* studenten die wel yoga beoefenen [10](#page=10) [23](#page=23).
* Hypothese: 𝐻₀:𝜇_yoga - 𝜇_geen_yoga ≤ 0 versus 𝐻𝐴:𝜇_yoga - 𝜇_geen_yoga > 0 [23](#page=23) [28](#page=28).
* Steekproefgroottes: 𝑛₁ = 10 en 𝑛₂ = 10. Beide zijn klein, dus de normale verdeling van de populaties wordt verondersteld [23](#page=23) [28](#page=28).
* **Variantietest (stap c):** De p-waarde voor 𝐻₀:𝜎²_yoga = 𝜎²_geen_yoga versus 𝐻𝐴:𝜎²_yoga ≠ 𝜎²_geen_yoga is 0.7257. Aangezien dit groter is dan 5% s.n., worden de varianties als gelijk beschouwd [29](#page=29).
* **Hypothesetest (stap d):** De p-waarde voor 𝐻₀:𝜇_yoga - 𝜇_geen_yoga ≤ 0 versus 𝐻𝐴:𝜇_yoga - 𝜇_geen_yoga > 0 is 0.2941 [30](#page=30).
* **Besluit:** Aangezien 0.2941 > 0.05, wordt 𝐻₀ niet verworpen. De studenten die yoga beoefenen hebben geen significant hogere ademhalingscapaciteit in vergelijking met de studenten die geen yoga beoefenen [30](#page=30).
> **Tip:** De keuze tussen gekoppelde en onafhankelijke metingen heeft een grote impact op de statistische analyse. Gekoppelde metingen zijn vaak krachtiger omdat ze individuele verschillen tussen subjecten controleren, wat leidt tot een kleinere standaardfout en een grotere kans om een significant effect te detecteren, mits de effecten consistent zijn binnen subjecten.
> **Tip:** Vanwege de complexiteit van het berekenen van de vrijheidsgraden bij onafhankelijke metingen met ongelijke varianties, worden deze tests vaak uitgevoerd met statistische software zoals R. De software kan de juiste teststatistiek en p-waarde berekenen [25](#page=25).
---
# Hypothesetoetsen voor twee gemiddelden
Dit onderwerp behandelt de methodologie voor het toetsen van hypothesen over de gemiddelden van twee populaties, met een onderscheid tussen gekoppelde en onafhankelijke metingen.
### 3.1 Gekoppelde metingen
Bij gekoppelde metingen worden metingen gedaan bij dezelfde proefpersonen onder twee verschillende omstandigheden, of worden proefpersonen gepaard op basis van relevante kenmerken. Het doel is om het verschil tussen deze metingen te analyseren [15](#page=15).
#### 3.1.1 De aanpak bij gekoppelde metingen
De toetsing bij gekoppelde metingen wordt gereduceerd tot een hypothesetoets voor één gemiddelde, waarbij de steekproef bestaat uit de verschillen tussen de paren.
**Stappenplan voor hypothesetoets bij gekoppelde metingen:**
1. **Stel de hypothesen op:**
* Nulhypothese ($H_0$): Het gemiddelde verschil is kleiner dan of gelijk aan een bepaalde waarde (vaak 0).
* Alternatieve hypothese ($H_A$): Het gemiddelde verschil is groter dan, kleiner dan, of ongelijk aan die waarde.
* Voorbeeld: $H_0: \mu_{yoga-geenYoga} \le 0$ versus $H_A: \mu_{yoga-geenYoga} > 0$ [16](#page=16).
2. **Controleer de voorwaarden:**
* De steekproefgrootte ($n$) wordt bepaald door het aantal paren.
* Als $n$ klein is (bv. < 30), wordt verondersteld dat de verschillen normaal verdeeld zijn [17](#page=17).
* Als $n$ groot is ($\ge 30$), kan de centrale limietstelling worden toegepast.
3. **Bepaal het kritieke punt of de p-waarde:**
* Afhankelijk van het significantieniveau (s.n.) en de richting van de alternatieve hypothese, wordt een kritiek punt bepaald [17](#page=17).
* De teststatistiek volgt een t-verdeling met $n-1$ vrijheidsgraden. De formule voor de teststatistiek is [17](#page=17):
$$ \frac{\bar{X} - \mu_0}{S^2/n} $$
waarbij $\bar{X}$ het gemiddelde verschil is, $\mu_0$ de gemiddelde waarde onder de nulhypothese, $S^2$ de variantie van de verschillen, en $n$ het aantal paren [18](#page=18).
4. **Bereken de teststatistiek:**
* Gebruik de gegevens uit de steekproef om de gemiddelde en de variantie van de verschillen te berekenen [18](#page=18).
* Vul deze waarden in de formule voor de teststatistiek [18](#page=18).
5. **Trek een conclusie:**
* Vergelijk de berekende teststatistiek met het kritieke punt. Als de teststatistiek buiten het acceptatiegebied valt, wordt $H_0$ verworpen [17](#page=17).
* Of vergelijk de berekende p-waarde met het significantieniveau. Als de p-waarde kleiner is dan het s.n., wordt $H_0$ verworpen [18](#page=18).
* Formuleer de conclusie in de context van het probleem [18](#page=18).
> **Voorbeeld:** Bij een studie naar het effect van yoga op ademhalingscapaciteit werden 10 studenten gevolgd. De verschillen in capaciteit voor en na yoga werden berekend. De gemiddelde verschil was 62 met een variantie van 4017.78. Met $H_0: \mu_{yoga-geenYoga} \le 0$ en $H_A: \mu_{yoga-geenYoga} > 0$ (s.n. 5%), werd de teststatistiek berekend als $\frac{62-0}{\sqrt{4017.78/10}} \approx 3.0931$. Het kritieke punt voor een t-verdeling met 9 vrijheidsgraden bij 5% is 1.833. Aangezien $3.0931 > 1.833$, wordt $H_0$ verworpen, wat suggereert dat yoga de ademhalingscapaciteit verbetert [16-18](#page=16,17,18).
#### 3.1.2 Hypothesetoets bij gekoppelde metingen in R
Software zoals R kan gebruikt worden om hypothesetoetsen bij gekoppelde metingen uit te voeren. Dit automatiseert de berekeningen en maakt de analyse efficiënter. Bij tweelingen kan men bijvoorbeeld het gewicht van jongens en meisjes vergelijken, waarbij de paren bestaan uit een jongen en een meisje uit dezelfde tweeling [19](#page=19) [20](#page=20).
> **Voorbeeld:** Bij een analyse van het lichaamsgewicht van 61 tweelingen (jongen-meisje), werd de nulhypothese $H_0: \mu_{jongen-meisje} = 0$ getoetst. De steekproef was groot ($n=61 \ge 30$). De berekende waarde van de teststatistiek was -3.9394. De p-waarde voor de tweezijdige test ($H_A: \mu \ne 0$) was 0.0002156. Aangezien deze p-waarde significant lager is dan 5% s.n., wordt $H_0$ verworpen en concludeert men dat er een significant verschil is in gewicht tussen jongens en meisjes [21](#page=21).
### 3.2 Onafhankelijke metingen
Bij onafhankelijke metingen worden de steekproeven uit twee verschillende populaties getrokken, waarbij er geen verband is tussen de individuele observaties in de ene steekproef en de andere. Het doel is hier om de gemiddelden van deze twee onafhankelijke populaties te vergelijken [22](#page=22).
#### 3.2.1 De aanpak bij onafhankelijke metingen
De analyse bij onafhankelijke metingen is complexer dan bij gekoppelde metingen, omdat rekening moet worden gehouden met de varianties van beide populaties.
**Voorwaarden en teststatistiek:**
* **Grote steekproeven:** Als beide steekproefgroottes ($n_1$ en $n_2$) groot zijn ($\ge 30$), of als één van beide klein is maar de populaties normaal verdeeld zijn, volgt de teststatistiek een t-verdeling [24](#page=24).
* **Variantie gelijkheid:** Het aantal vrijheidsgraden van de t-verdeling hangt af van de vraag of de populatievarianties gelijk worden verondersteld of niet [24](#page=24).
* Wanneer de populatievarianties gelijk zijn (homoscedasticiteit), wordt de formule voor de teststatistiek als volgt:
$$ t = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)_0}{\sqrt{S_p^2 \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} $$
met gepoolde variantie $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}$ en $n_1+n_2-2$ vrijheidsgraden.
* Wanneer de populatievarianties ongelijk zijn (heteroscedasticiteit, Welch's t-test), is de formule complexer en wordt het aantal vrijheidsgraden benaderd.
#### 3.2.2 Werkwijze voor hypothesetoets met onafhankelijke metingen
Vanwege de complexiteit van het berekenen van het aantal vrijheidsgraden, wordt de hypothesetoets bij onafhankelijke metingen vaak uitgevoerd met statistische software [25](#page=25).
**Stappenplan:**
a. **Stel de hypothese op:** Zoals bij gekoppelde metingen, definieer de nul- en alternatieve hypothesen over de populatiegemiddelden, bv. $H_0: \mu_{yoga} - \mu_{geenYoga} \le 0$ versus $H_A: \mu_{yoga} - \mu_{geenYoga} > 0$ (#page=25,28) [25](#page=25) [28](#page=28).
b. **Check de assumpties:** Veronderstel normaliteit van de populaties als de steekproeven klein zijn, of controleer de steekproeven op normaliteit [28](#page=28).
c. **Test of de varianties gelijk zijn:** Voer een variantietest uit (bv. F-test) om te bepalen of de populatievarianties gelijk zijn. De p-waarde van deze test bepaalt welke t-test (met gelijke of ongelijke varianties) gebruikt moet worden [29](#page=29).
* Als de p-waarde van de variantietest groter is dan het s.n., wordt $H_0$ (varianties zijn gelijk) niet verworpen en veronderstelt men gelijke varianties [29](#page=29).
d. **Test de hypothese over de gemiddelden:** Voer de t-toets uit, rekening houdend met het resultaat van de variantietest (gelijke of ongelijke varianties). De p-waarde van deze test wordt vergeleken met het significantieniveau [30](#page=30).
> **Voorbeeld:** In een studie naar het effect van yoga op ademhalingscapaciteit bij twee groepen studenten (yoga vs. geen yoga), met $n_1 = 10$ en $n_2 = 10$, werd eerst getest of de varianties gelijk waren. De p-waarde van de variantietest was 0.7257, wat > 0.05 is. Men veronderstelde dus gelijke varianties. Vervolgens werd de hypothese over de gemiddelden getoetst met $H_0: \mu_{yoga} - \mu_{geenYoga} \le 0$ en $H_A: \mu_{yoga} - \mu_{geenYoga} > 0$. De p-waarde was 0.2941. Aangezien dit groter is dan 5% s.n., wordt $H_0$ niet verworpen. De conclusie is dat studenten die yoga beoefenen geen hogere ademhalingscapaciteit hebben vergeleken met studenten die geen yoga beoefenen [29](#page=29) [30](#page=30).
### 3.3 Hypothesetoetsen voor twee gemiddelden in R
Statistische softwarepakketten zoals R bieden functies om deze hypothesetoetsen efficiënt uit te voeren, zowel voor gekoppelde als onafhankelijke metingen (#page=19,26,27). Dit omvat het selecteren van de juiste toets (bv. `t.test()` met de `paired=TRUE` optie voor gekoppelde metingen, of de standaard t-test voor onafhankelijke metingen waarbij R automatisch de vrijheidsgraden aanpast bij ongelijke varianties) en het interpreteren van de output, inclusief de p-waarde (#page=19,21,26,27,29,30) [19](#page=19) [21](#page=21) [26](#page=26) [27](#page=27) [29](#page=29) [30](#page=30).
---
# Hypothesetoetsen voor twee proporties
Dit deel van de stof behandelt de procedures voor het toetsen van hypothesen met betrekking tot proporties in twee onafhankelijke populaties, inclusief de benodigde berekeningen en voorwaarden [31](#page=31).
### 4.1 Procedures en formulering van hypothesen
Hypothesetoetsen voor twee proporties worden gebruikt om te bepalen of er een significant verschil bestaat tussen de proporties van een bepaalde uitkomst in twee onafhankelijke populaties. De nulhypothese ($H_0$) stelt typisch dat er geen verschil is, of dat de proportie in de ene populatie kleiner of gelijk is aan die in de andere. De alternatieve hypothese ($H_A$) stelt daarentegen dat er wel een verschil is, of dat de proportie in de ene populatie groter is dan in de andere [32](#page=32) [39](#page=39).
#### 4.1.1 Voorbeeld: effectiviteit van een nieuwe behandeling
Een veelvoorkomend scenario is het vergelijken van de effectiviteit van een nieuwe behandeling met een klassieke behandeling. Bijvoorbeeld, men kan vermoeden dat een nieuwe behandeling voor de ziekte van Alzheimer de tijd tot progressie verlengt [32](#page=32) [39](#page=39).
* **Hypothesen:**
* $H_0: \pi_{klassiek} \le \pi_{nieuw}$ of equivalent $H_0: \pi_{klassiek} - \pi_{nieuw} \le 0$. Dit stelt dat de klassieke behandeling niet slechter is dan de nieuwe qua effectiviteit (langere tijd tot progressie) [32](#page=32) [39](#page=39).
* $H_A: \pi_{klassiek} > \pi_{nieuw}$ of equivalent $H_A: \pi_{klassiek} - \pi_{nieuw} > 0$. Dit stelt dat de klassieke behandeling slechter is dan de nieuwe, oftewel de nieuwe behandeling verlengt de tijd tot progressie [32](#page=32) [39](#page=39).
### 4.2 De toetsingsgrootheid en voorwaarden
Om de nulhypothese te toetsen, wordt een toetsingsgrootheid gebruikt. Wanneer de nulhypothese waar is en aan bepaalde voorwaarden is voldaan, volgt deze toetsingsgrootheid een standaard normale verdeling ($N(0,1)$) [33](#page=33).
#### 4.2.1 Voorwaarden voor de normale verdeling
De belangrijkste voorwaarde is dat het product van het aantal waarnemingen en de proportie succes (en falen) in beide groepen voldoende groot is. Specifiek, de volgende voorwaarden moeten gelden:
* $\min(n_1, n_2) \times \bar{p} \ge 5$ [33](#page=33).
* $\min(n_1, n_2) \times (1 - \bar{p}) \ge 5$ [33](#page=33).
Hierbij geldt:
* $n_1$ en $n_2$ zijn de steekproefgroottes van de twee groepen [33](#page=33).
* $\bar{p}_1$ en $\bar{p}_2$ zijn de steekproefproporties in de respectievelijke groepen [33](#page=33).
* $\bar{p}$ is de gepoolde proportie, die wordt berekend als het totale aantal successen gedeeld door het totale aantal waarnemingen [33](#page=33):
$$ \bar{p} = \frac{n_1 \bar{p}_1 + n_2 \bar{p}_2}{n_1 + n_2} = \frac{\text{# successen in totaal}}{n_1 + n_2} $$
#### 4.2.2 Formule van de toetsingsgrootheid
Wanneer aan de voorwaarden is voldaan, wordt de toetsingsgrootheid als volgt berekend:
$$ Z = \frac{\bar{p}_2 - \bar{p}_1}{\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} $$
Hierbij wordt de teller gevormd door het verschil tussen de steekproefproporties, en de noemer is de standaardfout van dit verschil, berekend onder aanname van de gepoolde proportie [33](#page=33).
> **Tip:** Zorg ervoor dat je de gepoolde proportie correct berekent voordat je de standaardfout en de toetsingsgrootheid berekent. De gepoolde proportie is essentieel voor de berekening onder de nulhypothese.
### 4.3 Beslissingsregel en interpretatie
De beslissing om de nulhypothese te verwerpen of niet, hangt af van de berekende toetsingsgrootheid en het gekozen significantieniveau (vaak 5%).
#### 4.3.1 Kritieke waarden en p-waarde
Voor een eenzijdige toets, zoals bij het testen of een nieuwe behandeling beter is, wordt de nulhypothese verworpen als de berekende toetsingsgrootheid groter is dan de kritieke waarde die correspondeert met het gekozen significantieniveau. Bij een significantieniveau van 5% is deze kritieke waarde voor een standaard normale verdeling $Z_{\alpha} = 1.645$ [34](#page=34).
Alternatief kan de p-waarde worden berekend. De p-waarde is de kans op het observeren van een toetsingsgrootheid die minstens zo extreem is als de berekende waarde, aannemende dat de nulhypothese waar is [35](#page=35).
* Als $p\text{-waarde} < \alpha$ (significantieniveau), dan wordt $H_0$ verworpen.
* Als $p\text{-waarde} \ge \alpha$, dan wordt $H_0$ niet verworpen.
#### 4.3.2 Interpretatie van het resultaat
De conclusie moet altijd in de context van de onderzoeksvraag worden geformuleerd [35](#page=35).
* **Voorbeeld interpretatie:** Als de nulhypothese niet wordt verworpen, betekent dit dat er op het gekozen significantieniveau geen statistisch significant bewijs is om aan te nemen dat de nieuwe behandeling beter is dan de klassieke behandeling. De proportie van patiënten die een volgend stadium bereiken binnen 12 maanden is niet significant kleiner bij de nieuwe behandeling [35](#page=35).
### 4.4 Gebruik van software (R)
Hypothesetoetsen voor twee proporties kunnen efficiënt worden uitgevoerd met statistische software zoals R. Deze software kan de berekeningen van de toetsingsgrootheid en de p-waarde automatiseren, wat de kans op rekenfouten vermindert en de analyse versnelt [36](#page=36) [37](#page=37) [38](#page=38).
> **Tip:** Leer de basiscommando's in R voor het uitvoeren van proportietests. Dit is een waardevolle vaardigheid voor de praktijk en kan je veel tijd besparen tijdens tentamens en bij het analyseren van data.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Hypothesetoets | Een statistische procedure om te bepalen of er voldoende bewijs is in een steekproef om een nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Nulhypothese ($H_0$) | Een stelling over de populatie die we proberen te weerleggen. Het is de status quo of de aanname van geen effect of verschil. |
| Alternatieve hypothese ($H_A$) | Een stelling die het tegenovergestelde beweert van de nulhypothese. Het vertegenwoordigt wat we proberen te bewijzen. |
| Populatiegemiddelde ($\mu$) | Het rekenkundig gemiddelde van een variabele over de gehele populatie die wordt bestudeerd. |
| Populatieproportie ($\pi$) | Het deel van de populatie dat een bepaalde eigenschap bezit of zich in een bepaalde categorie bevindt. |
| Gekoppelde metingen | Gegevens verzameld uit dezelfde eenheden onder verschillende omstandigheden, of uit gekoppelde eenheden (bv. tweelingen), waardoor een verband ontstaat tussen de metingen. |
| Onafhankelijke metingen | Gegevens verzameld uit verschillende en niet-gerelateerde eenheden, waarbij de metingen in de ene groep geen invloed hebben op de metingen in de andere groep. |
| T-verdeling ($t$-verdeling) | Een continue kansverdeling die veel wordt gebruikt bij het testen van hypothesen over gemiddelden, vooral wanneer de steekproefgrootte klein is en de populatievariantie onbekend is. |
| Vrijheidsgraden | Het aantal waarden in de uiteindelijke berekening van een statistiek dat vrij kan variëren. Dit is een parameter van de t-verdeling. |
| Significantieniveau (s.n.) | Het maximale risico dat men bereid is te nemen om de nulhypothese onterecht te verwerpen (ook wel Type I fout genoemd). Vaak ingesteld op 0.05 of 5%. |
| Kritisch punt | De grenswaarde in de steekproefverdeling van de toetsingsgrootheid, waaronder of daarboven de nulhypothese wordt verworpen. |
| Steekproefgemiddelde ($\bar{x}$) | Het rekenkundig gemiddelde van de waarden in een steekproef. |
| Standaarddeviatie ($s$) | Een maat voor de spreiding van gegevens rond het gemiddelde in een steekproef. |
| Gestandaardiseerde teststatistiek | Een toetsingsgrootheid die is omgezet naar een standaardverdeling (bv. N(0,1) of t(df)) om vergelijking en besluitvorming te vergemakkelijken. |
| P-waarde | De kans om een toetsingsgrootheid te observeren die minstens zo extreem is als de waargenomen waarde, ervan uitgaande dat de nulhypothese waar is. |
| Gepoolde proportie ($\bar{p}$) | Een gewogen gemiddelde van twee steekproefproporties, gebruikt bij het toetsen van hypothesen over proporties wanneer de nulhypothese stelt dat de populatieproporties gelijk zijn. |
| Z-verdeling (standaard normaalverdeling) | Een continue kansverdeling met een gemiddelde van 0 en een standaarddeviatie van 1, vaak gebruikt bij het toetsen van hypothesen over proporties of gemiddelden wanneer de steekproefgrootte groot is. |
Cover
HC4c_LP_2025.pdf
Summary
# Inleiding tot niet-parametrische methoden
Niet-parametrische methoden zijn statistische technieken die gebruikt worden wanneer de aannames van parametrische methoden, zoals normaliteit van de populatieverdeling, niet voldaan zijn [6](#page=6).
### 1.1 De noodzaak van niet-parametrische methoden
Parametrische methoden vereisen specifieke aannames over de populatieparameters, zoals de gemiddelde waarde en de standaarddeviatie, en gaan er vaak van uit dat de gegevens uit een normale verdeling komen. Echter, in de praktijk zijn deze aannames niet altijd realistisch of verifieerbaar [3](#page=3).
Situaties waarin parametrische methoden ontoereikend zijn:
* **Kleine steekproeven met een niet-normale populatie:** Wanneer de steekproefgrootte klein is ($n$ klein) en er geen reden is om aan te nemen dat de populatie normaal verdeeld is, zijn de standaard t-testen niet toepasbaar. De exacte verdeling van de toetsingsgrootheid is dan onbekend [3](#page=3) [4](#page=4).
* **Kwalitatieve of ordinale data:** Parametrische toetsen zijn primair ontworpen voor numerieke, interval- of ratio-schaal gegevens. Voor kwalitatieve (nominale) of ordinale gegevens, waar alleen rangordes of categorieën relevant zijn, zijn niet-parametrische methoden noodzakelijk [6](#page=6).
* **Ontbrekende of extreme data:** Wanneer de data sterk afwijkt van een normale verdeling, bijvoorbeeld door uitschieters, kunnen niet-parametrische methoden robuuster zijn [6](#page=6).
#### 1.1.1 Illustratie van de beperkingen van parametrische methoden
Bij het testen van hypothesen over gemiddelden, zoals $H_0: \mu = \mu_0$ of $H_0: \mu_1 = \mu_2$, worden parametrische methoden (zoals de t-test) gebruikt onder specifieke voorwaarden. Als deze voorwaarden, met name de normaliteit van de populatie bij kleine steekproeven, niet voldaan zijn, ontstaat er een '???' situatie, wat aangeeft dat de gebruikelijke methoden niet volstaan en niet-parametrische alternatieven overwogen moeten worden [3](#page=3) [4](#page=4).
### 1.2 Algemene kenmerken van niet-parametrische methoden
Niet-parametrische methoden, ook wel "distribution-free" methoden genoemd, maken minder stringente aannames over de verdeling van de onderliggende populatie(s). Dit maakt ze flexibeler en breder toepasbaar [6](#page=6).
Belangrijke kenmerken:
* **Minder aannames:** Ze veronderstellen geen specifieke verdelingsvorm, zoals de normale verdeling [6](#page=6).
* **Brede toepasbaarheid:** Geschikt voor zowel numerieke als kwalitatieve (ordinale en nominale) gegevens [6](#page=6).
* **Minder krachtig:** Het nadeel van niet-parametrische methoden is dat ze doorgaans minder statistische kracht hebben dan hun parametrische tegenhangers wanneer aan de aannames van de parametrische tests voldaan zou zijn. Dit betekent dat de kans op een Type II fout (het niet verwerpen van een onjuiste nulhypothese) groter is [6](#page=6).
#### 1.2.1 Wanneer niet-parametrische methoden te verkiezen zijn
Het gebruik van niet-parametrische methoden is dus primair gerechtvaardigd wanneer de voorwaarden voor parametrische toetsen geschonden worden. Ze dienen als een essentieel hulpmiddel in de statistische analyse wanneer de data niet voldoet aan de vereisten van parametrische technieken [6](#page=6).
> **Tip:** Gebruik niet-parametrische methoden alleen wanneer dit strikt noodzakelijk is. Als de aannames van een parametrische test wel voldaan zijn, biedt de parametrische test meer statistische kracht om een effect te detecteren.
### 1.3 Voorbeeld van een situatie die niet-parametrische methoden vereist
Een experimentele studie vergelijkt twee zonnecrèmes, A en B, door ze op verschillende armen van proefpersonen aan te brengen. De observaties zijn de subjectieve beoordelingen van roodheid: "arm A minder rood dan arm B", "arm A meer rood dan arm B", of "arm A en B even rood" [5](#page=5).
In dit scenario zijn de gegevens niet numeriek, maar eerder ordinaal of zelfs categorisch. Er zijn geen kwantitatieve metingen van roodheid (bv. een schaal van 0-10). Daarom kunnen gebruikelijke parametrische toetsen die gemiddelden vergelijken, niet direct worden toegepast, wat de noodzaak voor niet-parametrische methoden illustreert [5](#page=5) [6](#page=6).
---
# De sign-test
De sign-test is een non-parametrische statistische toets die wordt gebruikt om te bepalen of er een significant verschil is tussen twee gerelateerde (afhankelijke) steekproeven, gebaseerd op het teken van de verschillen tussen paren van waarnemingen. Deze test is vooral nuttig wanneer de exacte magnitude van de verschillen niet bekend is of niet relevant is, maar enkel de richting van het verschil (beter dan, slechter dan, of gelijk) [13](#page=13) [8](#page=8) [9](#page=9).
### 2.1 Beschrijving van de sign-test
De sign-test analyseert de tekens (positief of negatief) van de verschillen tussen gepaarde waarnemingen. Het gaat ervan uit dat de verschillen afkomstig zijn uit een populatie met een mediane waarde van nul, indien de nulhypothese waar is [9](#page=9).
#### 2.1.1 Opstellen van hypothesen
Voor de sign-test worden de nul- en alternatieve hypothesen opgesteld met betrekking tot de mediaan van de verschillen tussen de twee gerelateerde metingen.
* **Nulhypothese ($H_0$)**: Er is geen verschil tussen de twee gerelateerde metingen, wat betekent dat de mediaan van de verschillen nul is ($\Delta = 0$). Beide groepen of condities zijn evenwaardig [9](#page=9).
* **Alternatieve hypothese ($H_A$)**: Er is een verschil tussen de twee gerelateerde metingen. Dit kan eenrichtingsverkeer zijn ($\Delta \neq 0$) of meer specifiek:
* $\Delta > 0$: De eerste meting is groter dan de tweede.
* $\Delta < 0$: De eerste meting is kleiner dan de tweede [9](#page=9).
Het is belangrijk om metingen waarbij het verschil nul is ($d_i = 0$) niet mee te nemen in de analyse, omdat deze geen informatie geven over de richting van het verschil [10](#page=10).
#### 2.1.2 De statistische grootheid
De statistische grootheid voor de sign-test wordt berekend op basis van het aantal positieve verschillen in de steekproef.
* Laat $n$ het totale aantal waarnemingen zijn waarbij het verschil niet nul is.
* Laat $C$ het aantal waarnemingen zijn waarbij het verschil groter is dan nul ($d_i > 0$).
Voor grote steekproeven (typisch $n \ge 30$), kan de volgende statistische grootheid worden benaderd met een standaard normaalverdeling:
$$Z = \frac{C - \frac{n}{2}}{\sqrt{\frac{n}{4}}}$$
Als de nulhypothese ($H_0: \Delta = 0$) waar is, dan wordt verwacht dat $C$ ongeveer gelijk is aan $n/2$. De formule kan ook worden herschreven als:
$$Z = \frac{C - n/2}{\sqrt{n}/2}$$
Deze $Z$-waarde kan vervolgens worden vergeleken met de kritieke waarden van de standaard normaalverdeling om een beslissing te nemen over het verwerpen van de nulhypothese [10](#page=10).
> **Tip:** De R-implementatie van de sign-test kan iets andere (ingewikkeldere) formules gebruiken, maar de interpretatie van de resultaten blijft hetzelfde. Voor kleine steekproeven ($n < 30$) is het aan te raden om de sign-test in R te gebruiken [13](#page=13).
#### 2.1.3 Toepassing en voorbeeld
De sign-test is geschikt voor situaties met afhankelijke steekproeven waarbij men enkel informatie heeft over ‘beter dan’ of ‘slechter dan’, maar niet over de precieze omvang van het verschil. De test kan ook worden toegepast op continue gegevens [13](#page=13).
**Voorbeeld: Zonnecrèmes**
Stel dat men de effectiviteit van twee zonnecrèmes, A en B, wil vergelijken op basis van de roodheid van de arm na blootstelling aan de zon. Roodheid van de arm is hier een kwantitatief gegeven, maar de analyse focust op of arm A minder rood is dan arm B, arm A roder is dan arm B, of dat ze even rood zijn.
* Voor patiënt $i$ noteren we $a_i$ als de roodheid van arm A en $b_i$ als de roodheid van arm B.
* Het verschil is $d_i = a_i - b_i$.
* $d_i < 0$ betekent dat arm A minder rood is dan arm B [1](#page=1).
* $d_i > 0$ betekent dat arm A roder is dan arm B [2](#page=2).
* $d_i = 0$ betekent dat arm A en B even rood zijn [3](#page=3).
In een steekproef van 45 patiënten worden de volgende resultaten verkregen:
| Verschil in roodheid | Aantal | Categorie |
| :----------------------------------- | :----- | :-------- |
| Arm A minder rood dan arm B | 22 | $d_i < 0$ |
| Arm A roder dan arm B | 18 | $d_i > 0$ |
| Arm A en arm B even rood | 5 | $d_i = 0$ |
Hierbij is de exacte meting van roodheid niet bekend, enkel de categorische informatie over het verschil [8](#page=8).
**Stap 1: Opstellen van de hypothesen**
We willen aantonen dat er een verschil is tussen zonnecrème A en B.
* $H_0: \Delta = 0$ (A en B zijn evenwaardig)
* $H_A: \Delta \neq 0$ (A en B zijn verschillend) [9](#page=9).
**Stap 2: Kies de test en bepalen van $n$ en de statistische grootheid**
De steekproefgrootte $n$ (aantal metingen waarbij het verschil niet nul is) is $22 + 18 = 40$. Aangezien $n = 40 \ge 30$, gebruiken we de normale benadering.
De statistische grootheid is: $Z = \frac{C - n/2}{\sqrt{n/4}}$ [10](#page=10).
**Stap 3: Bepalen van de kritieke regio**
Op een significantieniveau van 5% (s.n.), zijn de kritieke waarden voor een tweezijdige test voor de standaard normaalverdeling $\pm 1.96$. We verwerpen $H_0$ als de geobserveerde $Z$-waarde buiten het interval $[-1.96, 1.96]$ ligt [11](#page=11).
**Stap 4: Berekenen van de geobserveerde teststatistiek**
Het aantal gevallen met een positief verschil ($d_i > 0$) is $C = 18$. Het totale aantal niet-nul verschillen is $n = 40$.
De geobserveerde $Z$-waarde is:
$$Z = \frac{18 - \frac{40}{2}}{\sqrt{\frac{40}{4}}} = \frac{18 - 20}{\sqrt{10}} = \frac{-2}{3.162} \approx -0.6325$$ [12](#page=12).
**Stap 5: Conclusie trekken**
De geobserveerde $Z$-waarde van $-0.6325$ ligt binnen de kritieke regio $[-1.96, 1.96]$. Daarom verwerpen we de nulhypothese niet op een significantieniveau van 5%.
Er is geen significant verschil gevonden tussen zonnecrème A en B wat betreft de roodheid van de arm [12](#page=12).
De p-waarde wordt berekend als $2P(Z \le -0.6325)$. Met behulp van een standaard normaalverdelingstabel of software is $P(Z \le -0.6325) \approx 0.2643$.
De p-waarde is dus $2 \times 0.2643 = 0.5286$. Aangezien de p-waarde (0.5286) groter is dan het significantieniveau van 0.05, wordt $H_0$ niet verworpen [12](#page=12).
> **Voorbeeld in R (met vermelding van context uit de documentatie):**
> * **Voorbeeld 1 (oogdruppels):** Vergelijken van twee oogdruppels A en B. 15 personen.
> * Gegevens: 8 keer A minder rood dan B ($d_i < 0$), 2 keer A roder dan B ($d_i > 0$), 5 keer even rood ($d_i = 0$).
> * $n = 8 + 2 = 10$. $C = 2$ (aantal keren dat A roder is dan B, dus $d_i > 0$).
> * Hypothese: Wil nagaan of B beter is dan A. A werd aan één oog toegediend, B aan het andere.
> * Oog A = 0, Oog B = 1: A minder rood dan B.
> * Oog A = 1, Oog B = 0: B minder rood dan A.
> * Oog A = 0, Oog B = 0: A en B even rood.
> * Als men wil nagaan of B beter is dan A, en A hogere waarden heeft dan B (dus A is roder), dan is dit $d_{A-B} > 0$. Als we echter de verschillen interpreteren als $d_{A-B} = \text{roodheid}_A - \text{roodheid}_B$, dan is B beter als roodheid$_A$ lager is dan roodheid$_B$, dus $d_{A-B} < 0$.
> * In dit voorbeeld is de indeling "A minder rood dan B" vertaald als $d_i < 0$, en "A roder dan B" als $d_i > 0$. Als de vraag is "is B beter dan A", en een lagere roodheid is beter, dan willen we weten of er meer gevallen zijn van "A minder rood dan B" ($d_i < 0$) dan "A roder dan B" ($d_i > 0$).
> * De R-output voor een rechts-éénzijdige test ($\Delta_{A-B} \le 0$ vs $\Delta_{A-B} > 0$) gaf een p-waarde van 0.9893. Dit betekent dat we $H_0$ niet verwerpen, en er is geen significant bewijs dat B beter is dan A (of dat A roder is dan B) [15](#page=15) [16](#page=16).
> * **Voorbeeld 2 (multitasking):** Vergelijken van multitasking vaardigheden tussen mannen en vrouwen. 38 koppels.
> * Vrouw snelst: vrouw=0, man=1. Man snelst: vrouw=1, man=0.
> * Als de vrouw sneller is, is het verschil Vrouw-Man negatief. Als de man sneller is, is het verschil Vrouw-Man positief.
> * $H_0: \Delta_{Man-Vrouw} < 0$ (man is minder goed dan vrouw)
> * $H_A: \Delta_{Man-Vrouw} \ge 0$ (man is beter of gelijk aan vrouw) [17](#page=17).
> * De R output voor dit voorbeeld wordt vervolgens geanalyseerd om een besluit te trekken [18](#page=18).
#### 2.1.4 Wanneer de sign-test gebruiken?
De sign-test wordt aanbevolen onder de volgende omstandigheden:
* Wanneer er sprake is van afhankelijke (gepaarde) steekproeven [13](#page=13).
* Wanneer de beschikbare gegevens enkel de richting van het verschil aangeven (beter, slechter, gelijk) en niet de exacte kwantitatieve verschillen [13](#page=13).
* Bij continue gegevens, hoewel parametrische methoden de voorkeur hebben bij grote steekproeven [13](#page=13).
* Vooral wanneer de aannames van parametrische toetsen (zoals normaliteit van de residuen) niet voldaan zijn, of wanneer de steekproefgrootte klein is [13](#page=13).
Als $n \ge 30$, kan de test met de normale benadering worden uitgevoerd. Voor kleinere steekproeven wordt het gebruik van software zoals R aangeraden [13](#page=13).
---
# De signed-rank test
De signed-rank test is een non-parametrische statistische test die wordt gebruikt om te bepalen of er een significant verschil is tussen twee gerelateerde metingen, of om te testen of de mediaan van een populatie gelijk is aan nul. Dit kan worden toegepast op afhankelijke steekproeven of op één steekproef met gepaarde metingen. De test is geschikt voor ordinale en continue gegevens. Bij grote, continue steekproeven wordt echter de voorkeur gegeven aan een parametrische methode [26](#page=26).
### 3.1 Het idee achter de signed-rank test
Het centrale idee van de signed-rank test is het onderzoeken of 50% van de observaties links van nul ligt en 50% rechts daarvan. De test werkt niet direct met de gemeten verschillen ($d_i$), maar met de rangnummers van de absolute waarden van deze verschillen ($|d_i|$) [22](#page=22).
#### 3.1.1 Berekening van de rangnummers
De procedure omvat de volgende stappen:
1. Bereken de verschillen ($d_i$) tussen de gepaarde observaties voor elke eenheid [20](#page=20).
2. Negeer observaties waarbij het verschil nul is [21](#page=21).
3. Neem de absolute waarden van de overgebleven verschillen ($|d_i|$) [22](#page=22).
4. Rangschik deze absolute waarden van klein naar groot [22](#page=22).
5. Wanneer er gelijke waarden ($|d_i|$) zijn, wordt het gemiddelde van hun rangposities toegekend [22](#page=22).
6. Wijs vervolgens aan de oorspronkelijke verschillen ($d_i$) de rangnummers toe die overeenkomen met hun absolute waarden. Positieve verschillen ($d_i > 0$) krijgen de positieve rangen, en negatieve verschillen ($d_i < 0$) krijgen de negatieve rangen (dit gebeurt impliciet door de toekenning van rangen aan de oorspronkelijke getekende verschillen) [22](#page=22) [23](#page=23).
#### 3.1.2 De statistische grootheid $R^+$
De teststatistiek wordt gebaseerd op de som van de rangnummers van de positieve verschillen. Dit wordt aangeduid als $R^+$. De berekening van $R^+$ gebeurt door de gemiddelde rangnummers te vermenigvuldigen met het aantal waarnemingen dat tot die rangnummers behoort, en deze producten op te tellen voor alle positieve verschillen [23](#page=23) [24](#page=24).
* **Interpretatie van $R^+$:**
* Een grote waarde van $R^+$ suggereert dat de rangnummers voor positieve verschillen groot zijn, wat kan duiden op een significant verschil [24](#page=24).
* Een kleine waarde van $R^+$ suggereert dat de rangnummers voor positieve verschillen klein zijn, wat eveneens kan duiden op een significant verschil [24](#page=24).
#### 3.1.3 De verdeling van de teststatistiek
Wanneer de steekproefgrootte $n$ groot is (typisch $n \geq 16$), kan de teststatistiek benaderd worden door een normale verdeling. De formule voor de teststatistiek in de benadering is [25](#page=25):
$$ Z = \frac{R^+ - \frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}}} $$
Hierbij is $n$ het aantal waarnemingen waarvoor het verschil niet nul is. De teller is het verschil tussen de geobserveerde som van de positieve rangen en de verwachte som onder de nulhypothese, en de noemer is de standaardafwijking van deze som. De noemer kan ook worden geschreven als [25](#page=25) [28](#page=28):
$$ \sigma_{R^+} = \sqrt{\frac{1}{24} \sum_{j=1}^n r_j^2} $$
waar $r_j$ de rangen zijn van de absolute verschillen [25](#page=25).
### 3.2 Toepassingen in R met voorbeelden
De signed-rank test wordt in R uitgevoerd met de functie `wilcox.test()`.
#### 3.2.1 Voorbeeld 1: Verschil in zonnecrème effectiviteit
Stel dat het verschil in roodheid tussen arm A en arm B (gedefinieerd als roodheid van A min roodheid van B) voor 45 personen is genoteerd. De nulhypothese is dat er geen verschil is tussen de zonnecrèmes ($H_0: \Delta = 0$), en de alternatieve hypothese is dat er wel een verschil is ($H_A: \Delta \neq 0$) [28](#page=28).
* **Gegevens:** De gemeten verschillen ($d_i$) kunnen variëren van -8 tot 3 [21](#page=21).
* **Berekeningen:** Voor een steekproef van $n=40$ (na verwijdering van 5 observaties met een verschil van 0) is de berekende $R^+$ waarde 248 [28](#page=28).
* **Output R:** De p-waarde die door R wordt verkregen is 0.02869 [28](#page=28).
* **Conclusie:** Op een significantieniveau van 5% wordt de nulhypothese verworpen. Dit betekent dat de zonnecrèmes A en B significant van elkaar verschillen in effectiviteit [28](#page=28).
> **Tip:** Let op dat R interne formules kan gebruiken die iets afwijken van de theoretische benadering, wat kan leiden tot kleine verschillen in de uitkomst, vooral bij het gebruik van `exact=TRUE` [30](#page=30).
#### 3.2.2 Voorbeeld 2: Behandeling van een oogprobleem
Bij 19 patiënten met een oogprobleem wordt de verandering in elektrische activiteit voor en na een behandeling gemeten. De steekproef is klein en komt uit een niet-normaal verdeelde populatie, wat de signed-rank test een geschikte methode maakt [29](#page=29).
* **Hypothesen:**
* $H_0: \Delta_{scoreverandering} = 0$ (Er is geen verandering in elektrische activiteit)
* $H_A: \Delta_{scoreverandering} \neq 0$ (Er is een verandering in elektrische activiteit)
* **Gegevens:** De dataset bevat de verschillen (na-voor) [29](#page=29).
* **Toepassing in R:** De `wilcox.test()` functie kan worden gebruikt. De optie `exact=TRUE` kan worden overwogen voor kleine steekproeven als de normale benadering niet volstaat, wat kan leiden tot een exacte p-waarde zonder gebruik te maken van de normale benadering [30](#page=30).
#### 3.2.3 Voorbeeld 3: Multitasking (uit een tussentijdse test)
In een vraagstuk over multitasking werden de effectieve tijden (in minuten) bijgehouden van 38 koppels. De vraag is welke p-waarde gebruikt moet worden uit de output om na te gaan of vrouwen sneller zijn in het uitvoeren van 5 taken dan mannen. Dit scenario impliceert een gekoppelde t-test of een signed-rank test, afhankelijk van de verdeling van de verschillen. Als de vraag is "of vrouwen sneller zijn", dan is dit een éénzijdige test. De correcte p-waarde uit de output moet worden geselecteerd, die aangeeft of het verschil significant is op een bepaald significantieniveau [31](#page=31).
---
# De rank-sum test
De rank-sum test, ook bekend als de Mann-Whitney U-test, is een non-parametrische statistische test die wordt gebruikt om te bepalen of twee onafhankelijke groepen significant van elkaar verschillen op het niveau van de mediane waarde [35](#page=35).
### 4.1 Toepassingsgebieden van de rank-sum test
De rank-sum test wordt toegepast in de volgende situaties [36](#page=36):
* Wanneer er twee onafhankelijke steekproeven zijn.
* Wanneer de gegevens van ordinaal of continu van aard zijn.
* Bij grote, continue steekproeven heeft een parametrische methode de voorkeur.
* Wanneer in één van de groepen minder dan tien observaties zijn, dient de exacte rank-sum test te worden uitgevoerd.
### 4.2 Werkwijze en hypotheses
De rank-sum test is, analoog aan de signed-rank test, gebaseerd op rangnummers. Het idee is dat indien er veel en/of grote rangnummers in één groep voorkomen in vergelijking met de andere groep, er waarschijnlijk een verschil is tussen de groepen [35](#page=35).
De hypotheses die getoetst worden zijn doorgaans:
$H_0: \Delta_1 = \Delta_2$ (Er is geen verschil in de mediane waarden van de twee groepen)
$H_A: \Delta_1 \neq \Delta_2$ (Er is een verschil in de mediane waarden van de twee groepen) [35](#page=35).
Of, wanneer een richting van het verschil wordt verwacht:
$H_0: \Delta_1 - \Delta_2 = 0$
$H_A: \Delta_1 - \Delta_2 \neq 0$ of $H_A: \Delta_1 - \Delta_2 > 0$ of $H_A: \Delta_1 - \Delta_2 < 0$ [38](#page=38) [41](#page=41).
### 4.3 De rank-sum test in R
De rank-sum test kan met behulp van R worden uitgevoerd. Het is belangrijk dat R de ordening van de gegevens correct interpreteert. Wanneer gegevens bijvoorbeeld een ordinale schaal vertegenwoordigen die R niet direct herkent als geordend (zoals 'gezichtsscherpte' van beste naar slechtste), kan het nodig zijn om een continue variabele te definiëren die deze ordening wel weergeeft [38](#page=38).
> **Tip:** De rank-sum test hoeft niet handmatig uitgerekend te worden; de interpretatie van de resultaten in R is het belangrijkst [35](#page=35).
#### 4.3.1 Voorbeeld 1: Gezichtsscherpte bij retinitis pigmentosa
**Probleem:** Verschil in gezichtsscherpte tussen patiënten met de dominante (D) en de geslachtsgebonden (SL) vorm van retinitis pigmentosa [34](#page=34).
**Gegevens:**
| Gezichtsscherpte | Dominant (D) | Geslachtsgebonden (SL) |
| :--------------- | :----------- | :--------------------- |
| 20-20 (beste) | 5 | 1 |
| 20-25 | 9 | 5 |
| 20-30 | 6 | 4 |
| 20-40 | 3 | 4 |
| 20-50 | 2 | 8 |
| 20-60 | 0 | 5 |
| 20-70 | 0 | 2 |
| 20-80 (slechtste)| 0 | 1 |
**Hypotheses:**
$H_0: \Delta_D = \Delta_{SL}$
$H_A: \Delta_D \neq \Delta_{SL}$ [35](#page=35).
**R-code en interpretatie:**
Wanneer de data is ingevoerd in R, en de 'gezichtsscherpte' als een continue variabele is gedefinieerd (bijvoorbeeld door een nummer toe te kennen aan elke categorie van beste naar slechtste zicht) kan de rank-sum test worden uitgevoerd [38](#page=38).
Stel dat de output van de test een p-waarde van 0.0001513 oplevert voor de alternatieve hypothese $H_A: \Delta_D - \Delta_{SL} \neq 0$ [40](#page=40).
Aangezien deze p-waarde kleiner is dan het significantieniveau van 0.05, wordt de nulhypothese verworpen [40](#page=40).
**Conclusie:** Er is een significant verschil in de mediane gezichtsscherpte tussen patiënten met retinitis pigmentosa met de geslachtsgebonden vorm en de dominante vorm [40](#page=40).
> **Opmerking:** De rank-sum test is hier geschikt omdat voor de t-test de aannames (zoals normaliteit of voldoende grote steekproeven) mogelijk niet voldaan zijn. Hier geldt $n_D = 25 < 30$ en er is geen informatie over normaliteit. Aangezien $n_D \ge 10$ en $n_{SL} \ge 10$, kan `exact=FALSE` worden gebruikt in R [40](#page=40).
#### 4.3.2 Voorbeeld 2: Scores van twee klassen in het lager onderwijs
**Probleem:** Nagaan of klas 1 (met een ervaren leraar) beter scoort dan klas 2 (met een jonge leerkracht) [41](#page=41).
**Gegevens:**
* Klas 1: 18 leerlingen
* Klas 2: 21 leerlingen
* Resultaten in klas 1 zijn niet normaal verdeeld.
**Hypotheses:**
$H_0: \Delta_1 = \Delta_2$
$H_A: \Delta_1 > \Delta_2$ [41](#page=41).
**R-code en interpretatie:**
De aannames voor een t-test zijn hier niet voldaan: $n_1 = 18 < 30$ en $n_2 = 21 < 30$, en er is geen normaliteit. Daarom wordt de rank-sum test met `exact=FALSE` gebruikt [41](#page=41).
Stel dat de p-waarde voor de alternatieve hypothese $H_A: \Delta_1 - \Delta_2 > 0$ 0.02787 is [41](#page=41).
Aangezien deze p-waarde kleiner is dan het significantieniveau van 0.05, wordt de nulhypothese verworpen [41](#page=41).
**Conclusie:** Er is een significant hogere mediane score in klas 1 ten opzichte van klas 2 [41](#page=41).
---
# Overzicht van niet-parametrische en parametrische methoden
Deze sectie biedt een overzicht van statistische tests en hun toepassingen, rekening houdend met het datatype en de kenmerken van de steekproef [42](#page=42).
### 5.1 Continue gegevens
Voor continue gegevens worden de volgende tests onderscheiden op basis van het aantal steekproeven en de voorwaarden voor de distributie [43](#page=43).
#### 5.1.1 Eén steekproef of gepaarde metingen
* **Voorwaarden:** De steekproefgrootte moet $n \geq 30$ zijn, of de populatie moet normaal verdeeld zijn [43](#page=43).
* **Voldaan aan voorwaarden:**
* Manueel: Gebruik de $t$-verdeling met $n-1$ vrijheidsgraden [43](#page=43).
* In R: Gebruik `t.test()` met één variabele of `paired=TRUE` [43](#page=43).
* **Niet voldaan aan voorwaarden:**
* Manueel: Gebruik de signed-rank test, mits $n \geq 16$ [43](#page=43).
* In R: Gebruik `wilcox.test()` met één variabele of `paired=TRUE` [43](#page=43).
#### 5.1.2 Twee steekproeven
* **Voorwaarden:** De minimale steekproefgrootte van de twee groepen moet $\min(n_1, n_2) \geq 30$ zijn, of beide populaties moeten normaal verdeeld zijn [43](#page=43).
* **Voldaan aan voorwaarden:**
* De test kan enkel in R worden uitgevoerd met `t.test()` (met `paired=FALSE`) [43](#page=43).
* Voer eerst `var.test()` uit om de gelijkheid van varianties te controleren [43](#page=43).
* Bij gelijkheid van varianties: Gebruik `var.equal=TRUE` voor de 2-sample $t$-test [43](#page=43).
* Bij ongelijkheid van varianties: Gebruik `var.equal=FALSE` voor de Welch 2-sample $t$-test [43](#page=43).
* **Niet voldaan aan voorwaarden:**
* De rank-sum test kan enkel in R worden uitgevoerd met `wilcox.test()` (met `paired=FALSE`) [43](#page=43).
### 5.2 Binaire gegevens
Voor binaire gegevens worden proportietests gebruikt, waarbij de voorwaarden afhangen van de steekproefgrootte en de te verwachten proporties [44](#page=44).
#### 5.2.1 Eén steekproef
* **Voorwaarden:** $n\pi_0 \geq 5$ en $n(1-\pi_0) \geq 5$, waarbij $\pi_0$ de verwachte proportie onder de nulhypothese is [44](#page=44).
* **Voldaan aan voorwaarden:**
* Manueel: Gebruik de normale verdeling [44](#page=44).
* In R: Gebruik `prop.test()` [44](#page=44).
* **Niet voldaan aan voorwaarden:**
* De test kan enkel in R worden uitgevoerd met `binom.test()` [44](#page=44).
#### 5.2.2 Twee steekproeven
* **Voorwaarden:** $\min(n_1, n_2)\bar{p} \geq 5$ en $\min(n_1, n_2)(1-\bar{p}) \geq 5$, waarbij $\bar{p}$ de gepoolde proportie is [44](#page=44).
* **Voldaan aan voorwaarden:**
* Manueel: Gebruik de normale verdeling [44](#page=44).
* In R: Gebruik `prop.test()` [44](#page=44).
* **Niet voldaan aan voorwaarden:**
* De test kan enkel in R worden uitgevoerd met `fisher.test()` [44](#page=44).
### 5.3 Ordinale gegevens
Voor ordinale gegevens worden uitsluitend niet-parametrische methoden gebruikt [45](#page=45).
#### 5.3.1 Eén steekproef of gepaarde metingen
* **Sign test:**
* Deze test vergelijkt of observatie A beter is dan B, of vice versa, zonder rekening te houden met de mate van verschil [45](#page=45).
* Manueel: Gebruik de normale verdeling indien $n \geq 30$ [45](#page=45).
* In R: Gebruik `SIGN.test()` [45](#page=45).
* **Signed-rank test:**
* Deze test neemt ook de gradatie van het verschil mee (hoeveel beter is A dan B?) [45](#page=45).
* In R: Gebruik `wilcox.test()` met één variabele of `paired=TRUE` [45](#page=45).
#### 5.3.2 Twee steekproeven
* **Rank-sum test:**
* Deze test is enkel uit te voeren in R [45](#page=45).
* In R: Gebruik `wilcox.test()` met `paired=FALSE` [45](#page=45).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-parametrische methoden | Statistische methoden die minder strikte aannames doen over de verdeling van de data dan parametrische methoden. Ze zijn nuttig bij kleine steekproeven, niet-normaal verdeelde data, of ordinale data. |
| Parametrische methoden | Statistische methoden die aannames maken over de parameters van de populatie, zoals de normale verdeling. Ze zijn over het algemeen krachtiger dan niet-parametrische methoden wanneer de aannames voldaan zijn. |
| Power (Statistiek) | De kans om de nulhypothese te verwerpen wanneer deze onwaar is (dus de kans om een werkelijk effect te detecteren). Een hogere power is wenselijk. |
| Type II fout | Het niet verwerpen van de nulhypothese wanneer deze onwaar is. Dit wordt ook wel een "fout van de tweede soort" genoemd. |
| Sign-test | Een niet-parametrische test voor gepaarde metingen of één steekproef, die alleen kijkt naar het teken (positief of negatief) van de verschillen en niet naar de grootte ervan. |
| Mediaan | De middelste waarde in een geordende dataset. 50% van de data ligt onder de mediaan en 50% erboven. |
| Hypothese | Een uitspraak die getest wordt. De nulhypothese ($H_0$) stelt meestal dat er geen effect of verschil is, terwijl de alternatieve hypothese ($H_A$) stelt dat er wel een effect of verschil is. |
| Signed-rank test | Een niet-parametrische test voor gepaarde metingen of één steekproef die rekening houdt met zowel het teken als de rangorde van de absolute verschillen. |
| Rangnummers | De volgorde van de waarden in een dataset, waarbij de kleinste waarde rang 1 krijgt, de volgende rang 2, enzovoort. |
| Rank-sum test | Een niet-parametrische test voor twee onafhankelijke groepen, die de rangnummers van de data in beide groepen vergelijkt om te bepalen of er een significant verschil is tussen de medianen. |
| Steekproef | Een deelverzameling van een populatie die wordt onderzocht om conclusies te trekken over de gehele populatie. |
| Populatie | De gehele groep waarover een uitspraak wordt gedaan. |
| Afhankelijke steekproeven | Steekproeven waarbij de metingen binnen de ene groep gerelateerd zijn aan de metingen in de andere groep, bijvoorbeeld herhaalde metingen bij dezelfde personen. |
| Onafhankelijke steekproeven | Steekproeven waarbij de metingen in de ene groep geen invloed hebben op de metingen in de andere groep. |
| Continue gegevens | Data die elke waarde binnen een bepaald bereik kunnen aannemen, zoals lengte, gewicht of temperatuur. |
| Ordinale gegevens | Data die een natuurlijke volgorde hebben, maar waarbij de afstanden tussen de waarden niet noodzakelijk gelijk zijn, zoals ranglijsten of beoordelingen (bijv. "goed", "matig", "slecht"). |
| Binaire gegevens | Data die slechts twee mogelijke uitkomsten hebben, zoals "ja/nee" of "geslaagd/gezakt". |
| Significantieniveau (s.n.) | Het risico dat wordt aanvaard om de nulhypothese te verwerpen terwijl deze waar is (type I fout). Vaak ingesteld op 5% (0.05). |
| P-waarde | De kans om de geobserveerde resultaten of extremere resultaten te verkrijgen, aannemende dat de nulhypothese waar is. Een lage p-waarde (typisch < significantieniveau) leidt tot verwerping van de nulhypothese. |
| Normaal verdeelde populatie | Een populatie waarvan de waarden een symmetrische, klokvormige verdeling volgen, de zogenaamde Gauss-curve. |
| Variantie | Een maat voor de spreiding van data rondom het gemiddelde. Het is het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde. |
Cover
HC5_LP_2025.pdf
Summary
# Verdelingstesten
Dit gedeelte behandelt het gebruik van chi-kwadraat verdelingstesten om te bepalen of waargenomen frequenties overeenkomen met verwachte frequenties, met een focus op de 𝜒2-test voor een multinomiale verdeling [2](#page=2).
## 1.1 De 𝜒2-test voor een multinomiale verdeling
De 𝜒2-test voor een multinomiale verdeling wordt gebruikt om te toetsen of de waargenomen frequenties van categorische data overeenkomen met verwachte frequenties, die gebaseerd zijn op een specifieke hypothetische verdeling [2](#page=2).
### 1.1.1 Toepassingsvoorbeeld: Bloedgroepen
Stel dat uit eerder onderzoek de kansen voor bloedgroepen in België als volgt waren [3](#page=3):
* Bloedgroep O: 0.46
* Bloedgroep A: 0.42
* Bloedgroep B: 0.09
* Bloedgroep AB: 0.03
Er wordt een steekproef genomen van 200 willekeurige Belgen, waarbij de volgende aantallen worden geobserveerd [4](#page=4):
* Bloedgroep O: 96
* Bloedgroep A: 79
* Bloedgroep B: 13
* Bloedgroep AB: 12
De vraag is of deze waargenomen frequenties significant afwijken van de verwachte frequenties gebaseerd op de oude kansen, wat zou impliceren dat de kansen veranderd zijn [4](#page=4).
### 1.1.2 Hypothesen formuleren
De nulhypothese ($H_0$) stelt dat de kansen voor de bloedgroepen onveranderd zijn ten opzichte van de oudere schattingen. De alternatieve hypothese ($H_A$) stelt dat minstens één van de kansen is veranderd [5](#page=5).
* $H_0$: De kansen zijn respectievelijk 0.46, 0.42, 0.09 en 0.03.
* $H_A$: Minstens één van de kansen is veranderd.
### 1.1.3 Verwachte frequenties berekenen
Als de nulhypothese waar is, kunnen de verwachte frequenties ($E_i$) voor elke categorie berekend worden door de totale steekproefgrootte ($n$) te vermenigvuldigen met de hypothetische kans ($p_i$) voor die categorie [5](#page=5):
$E_i = n \times p_i$
Voor het bloedgroepvoorbeeld, met $n=200$ en de kansen uit de nulhypothese [7](#page=7):
* Verwacht O: $200 \times 0.46 = 92$
* Verwacht A: $200 \times 0.42 = 84$
* Verwacht B: $200 \times 0.09 = 18$
* Verwacht AB: $200 \times 0.03 = 6$
### 1.1.4 De toetsingsgrootheid: Chi-kwadraat (𝜒2)
Om te bepalen hoe groot de afwijking tussen de geobserveerde ($O_i$) en verwachte ($E_i$) frequenties mag zijn zonder de nulhypothese te verwerpen, wordt de chi-kwadraat toetsingsgrootheid gebruikt. Deze grootheid is gedefinieerd als [9](#page=9):
$$ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} $$
waarbij $k$ het aantal categorieën is [10](#page=10).
* De term $\frac{(O_i - E_i)^2}{E_i}$ meet de gekwadrateerde afwijking voor categorie $i$, gewogen door de verwachte frequentie. Het kwadrateren zorgt ervoor dat zowel positieve als negatieve afwijkingen bijdragen aan de totale afwijking [10](#page=10).
### 1.1.5 Verdelingskenmerken van de toetsingsgrootheid
Onder de nulhypothese en mits de steekproef voldoende groot is, volgt de toetsingsgrootheid een chi-kwadraat verdeling met $k-1$ vrijheidsgraden [10](#page=10).
> **Tip:** De vuistregel voor een "voldoende grote" steekproef is dat de verwachte frequentie ($E_i$) in elke categorie minstens 5 moet zijn. Indien deze regel niet voldaan is, kunnen categorieën worden samengenomen [14](#page=14).
In het bloedgroepvoorbeeld zijn er $k=4$ categorieën, dus de toetsingsgrootheid volgt een $\chi^2$-verdeling met $4-1 = 3$ vrijheidsgraden [15](#page=15).
### 1.1.6 Het verwerpingsgebied bepalen
Om een beslissing te nemen over de nulhypothese, wordt de berekende 𝜒2-waarde vergeleken met een kritische waarde uit de 𝜒2-verdelingstabel, bij een bepaald significantieniveau (bv. 5%) en het berekende aantal vrijheidsgraden [16](#page=16).
* Voor een significantieniveau van 5% en 3 vrijheidsgraden is de kritische waarde 7.81 [16](#page=16).
* Als de berekende 𝜒2-waarde groter is dan de kritische waarde, wordt de nulhypothese verworpen [16](#page=16).
> **Tip:** Een alternatieve benadering is het berekenen van de p-waarde. Als de p-waarde kleiner is dan het significantieniveau, wordt de nulhypothese verworpen.
### 1.1.7 Berekeningen en besluit (bloedgroepvoorbeeld)
De geobserveerde en verwachte frequenties zijn:
* O: Geobserveerd 96, Verwacht 92
* A: Geobserveerd 79, Verwacht 84
* B: Geobserveerd 13, Verwacht 18
* AB: Geobserveerd 12, Verwacht 6 [17](#page=17).
De bijdragen aan de 𝜒2-toetsingsgrootheid per categorie zijn:
* O: $\frac{(96-92)^2}{92} = \frac{16}{92} \approx 0.1739$
* A: $\frac{(79-84)^2}{84} = \frac{25}{84} \approx 0.2976$
* B: $\frac{(13-18)^2}{18} = \frac{25}{18} \approx 1.3889$
* AB: $\frac{(12-6)^2}{6} = \frac{36}{6} = 6.0000$ [17](#page=17).
De totale 𝜒2-waarde is de som van deze bijdragen:
$$ \chi^2 = 0.1739 + 0.2976 + 1.3889 + 6.0000 = 7.8604 $$ [17](#page=17).
Vergelijking met de kritische waarde:
* De berekende 𝜒2-waarde (7.8604) is groter dan de kritische waarde (7.81) [18](#page=18).
* De p-waarde is $P(\chi^2_{3} > 7.8604)$, wat kleiner is dan 0.05 [18](#page=18).
**Besluit:** Op een significantieniveau van 5% wordt de nulhypothese verworpen. Er is voldoende bewijs om te concluderen dat minstens één van de bloedgroepkansen significant is veranderd ten opzichte van 20 jaar geleden [18](#page=18).
> **Opmerking:** De kritische waarde en de berekende toetsingsgrootheid liggen erg dicht bij elkaar, wat aangeeft dat het een randgeval is. De grote bijdrage van de AB-bloedgroep aan de 𝜒2-waarde (6.0000) suggereert dat dit de categorie is die het meest afwijkt [18](#page=18).
### 1.1.8 Voorwaarden voor de 𝜒2-test
De 𝜒2-test voor een multinomiale verdeling vereist dat de steekproef voldoende groot is, met als vuistregel dat de verwachte frequenties ($E_i$) voor alle categorieën minstens 5 moeten zijn. Indien dit niet het geval is, moeten categorieën gecombineerd worden. De vrijheidsgraden voor de 𝜒2-verdeling zijn het aantal categorieën minus 1 ($k-1$) [14](#page=14) [15](#page=15).
### 1.1.9 De 𝜒2-verdelingstabel
De 𝜒2-verdelingstabel toont kritische waarden voor verschillende aantallen vrijheidsgraden en cumulatieve kansen. Deze tabel wordt gebruikt om de p-waarde te bepalen of om direct de nulhypothese te verwerpen door de berekende toetsingsgrootheid te vergelijken met de kritische waarde [12](#page=12).
> **Voorbeeld oefening:** Stel dat $X \sim \chi^2 $. Zoek $x$ zodat $P(X < x) = 0.95$. Dit betekent dat we de waarde zoeken die 95% van de verdeling links van zich heeft bij 8 vrijheidsgraden. Door de tabel te raadplegen, vinden we deze waarde [12](#page=12) [8](#page=8).
---
# Nagaan van normaliteit
Het nagaan van normaliteit is een cruciale stap in de statistische analyse om te bepalen of een steekproef afkomstig is uit een normaal verdeelde populatie, wat essentieel is voor de correcte toepassing van parametrische testen [20](#page=20).
### 7.2.1 Waarom normaliteit nagaan?
Het controleren op normaliteit is met name belangrijk in de volgende situaties:
* **Hypothesetesten:** Normaliteit is een voorwaarde voor veel parametrische testen, vooral wanneer de populatieomvang klein is [20](#page=20).
* **Onzekerheid over populatieverdeling:** Als er geen voorkennis is over de verdeling van de populatie waaruit de steekproef afkomstig is, is het raadzaam om de normaliteit te controleren [20](#page=20).
* **Besluitvorming over testtype:** Op basis van de resultaten van normaliteitstesten kan worden besloten of een parametrische of een niet-parametrische test de meest geschikte analysemethode is [20](#page=20).
### 7.2.2 Methoden voor het nagaan van normaliteit
Er zijn verschillende manieren om de normaliteit van gegevens te onderzoeken:
* **Classificatie in klassen:** Hoewel gegevens in klassen kunnen worden ingedeeld om ze te analyseren op een vergelijkbare manier als bij de multinomiale verdeling, gaat hierbij informatie verloren [21](#page=21).
* **Informeel (grafisch):** De QQ-plot (quantile-quantile plot), ook wel bekend als een normal probability plot, biedt een visuele indicatie van de normaliteit [21](#page=21) [22](#page=22).
* **Formeel (statistisch):** De Shapiro-Wilk test is een statistische test die formeel de hypothese van normaliteit toetst [21](#page=21).
### 7.2.3 De QQ-plot
De QQ-plot is een grafische methode om te beoordelen of een steekproef normaal verdeeld is [22](#page=22).
* **Constructie:** De exacte berekening van de plot wordt doorgaans niet zelf uitgevoerd, maar het onderliggende principe is belangrijk [22](#page=22).
* **Idee:** De plot vergelijkt de geobserveerde waarden in de steekproef met de waarden die theoretisch verwacht zouden worden als de populatie normaal verdeeld was [22](#page=22).
* **Grafische weergave:** De verwachte kwantielen onder normaliteit worden uitgezet op de x-as en de geobserveerde kwantielen van de steekproef op de y-as [22](#page=22).
* **Interpretatie:** Als de gegevens inderdaad normaal verdeeld zijn, zullen de punten in de QQ-plot ongeveer op de rechte lijn $y=x$ liggen. In de praktijk wordt vaak gekeken naar gestandaardiseerde verwachte en geobserveerde waarden [22](#page=22) [24](#page=24).
> **Tip:** Een kwantiel is equivalent aan een percentiel en vertegenwoordigt de waarde waarbinnen een bepaald percentage van de gegevens valt [22](#page=22).
* **Beoordeling:** De beoordeling van een QQ-plot is subjectief en vereist visuele inspectie van de afwijking van de punten ten opzichte van de rechte lijn [25](#page=25) [26](#page=26).
### 7.2.4 De Shapiro-Wilk test
De Shapiro-Wilk test is een statistische toets voor normaliteit die een meer objectieve beoordeling biedt dan de QQ-plot [28](#page=28).
* **Hypotheses:**
* $H_0$: De steekproef komt uit een normaal verdeelde populatie.
* $H_A$: De steekproef komt niet uit een normaal verdeelde populatie.
* **Berekening en interpretatie:** De test zelf hoeft niet handmatig berekend te worden. De belangrijkste stap is het correct interpreteren van de p-waarde die door software (zoals R) wordt gegenereerd [28](#page=28).
* **Beslissingsregel (bij een significantieniveau van 5%):**
* Als $p < 0.05$: verwerp $H_0$. Dit betekent dat er onvoldoende bewijs is om aan te nemen dat de steekproef normaal verdeeld is [28](#page=28).
* Als $p \geq 0.05$: verwerp $H_0$ niet. Dit suggereert dat er geen significant bewijs is tegen de normaliteit van de steekproef [28](#page=28).
### 7.2.5 Normaliteit nagaan in R
Softwarepakketten zoals R bieden functies om normaliteitstesten uit te voeren en visualisaties te genereren [29](#page=29) [30](#page=30).
#### 7.2.5.1 De obesitasstudie: voorbeeld
Een voorbeeld dat de toepassing van deze methoden illustreert, is de obesitasstudie uit 2013 in het Jessa ziekenhuis. In deze studie wordt onderzocht of het gemiddelde belastingsniveau van meisjes (n=28) bij uitputting lager is dan 150. Om dit te kunnen toetsen met parametrische methoden, moet eerst de normaliteit van het belastingsniveau ($Wpiek$) bij de meisjes worden nagegaan. Dit kan visueel worden gedaan met een QQ-plot en formeel met de Shapiro-Wilk test [31](#page=31) [32](#page=32) [34](#page=34).
---
# Onafhankelijkheidstesten
Dit gedeelte behandelt methoden om te toetsen of twee categorische variabelen onafhankelijk zijn, met een focus op de chi-kwadraat toets voor onafhankelijkheid en de interpretatie van de resultaten [36](#page=36).
### 7.3.1 Het concept van onafhankelijkheid
Onafhankelijkheid tussen twee variabelen betekent dat de verdeling van de ene variabele niet afhangt van de categorie van de andere variabele. Anders gezegd, de kans op een bepaalde uitkomst in de ene variabele is hetzelfde, ongeacht de uitkomst van de andere variabele [40](#page=40).
**Voorbeeld: HPV-virus en baarmoederhalskanker** [37](#page=37).
Stel dat we willen onderzoeken of er een verband is tussen het type HPV-virus (type 6 of 11) en de ernst van baarmoederhalskanker (licht, gevorderd, metastasen). De nulhypothese ($H_0$) zou zijn dat het type HPV en de ernst van de kanker onafhankelijk zijn. De alternatieve hypothese ($H_A$) stelt dat ze niet onafhankelijk zijn. Als $H_0$ waar is, zou de kans op een meer kwaadaardige kanker hetzelfde moeten zijn voor patiënten met type 6 en type 11 virus [40](#page=40).
### 7.3.2 De chi-kwadraat toets voor onafhankelijkheid
De chi-kwadraat toets voor onafhankelijkheid wordt gebruikt om te bepalen of de geobserveerde aantallen in een kruistabel significant afwijken van de verwachte aantallen onder de aanname van onafhankelijkheid [45](#page=45).
#### 7.3.2.1 Stappen in de toets
1. **Opstellen van een kruistabel (contingentietabel):** Dit is een tabel die de geobserveerde frequenties weergeeft voor de combinaties van de categorieën van de twee variabelen [39](#page=39).
**Voorbeeld (HPV-virus en kanker-ernst):** [39](#page=39).
| Type HPV | Licht | Gevorderd | Metastasen | Totaal |
| :------- | :---- | :-------- | :--------- | :----- |
| 6 | 95 | 32 | 8 | 135 |
| 11 | 86 | 42 | 8 | 136 |
| Totaal | 181 | 74 | 16 | 271 |
2. **Berekenen van de verwachte aantallen ($E_{ij}$) onder de aanname van onafhankelijkheid:** Als de twee variabelen onafhankelijk zijn, kan het verwachte aantal in een cel $(i,j)$ berekend worden met de volgende formule:
$$E_{ij} = \frac{\text{rijtotaal} \times \text{kolomtotaal}}{\text{algemeen totaal}}$$
**Voorbeeld (verwachte aantallen):** [43](#page=43).
| Type HPV | Licht | Gevorderd | Metastasen | Totaal |
| :------- | :------- | :-------- | :--------- | :----- |
| 6 | 90.1661 | 36.8635 | 7.9705 | 135 |
| 11 | 90.8340 | 37.1365 | 8.0295 | 136 |
| Totaal | 181 | 74 | 16 | 271 |
3. **Berekenen van de chi-kwadraat teststatistiek ($\chi^2$):** De teststatistiek wordt berekend door de gekwadrateerde verschillen tussen geobserveerde ($O_{ij}$) en verwachte ($E_{ij}$) aantallen te wegen met de verwachte aantallen, en dit vervolgens te sommeren over alle cellen van de tabel:
$$\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$
waarbij $r$ het aantal rijen en $c$ het aantal kolommen is [45](#page=45).
**Voorbeeld (chi-kwadraat bijdragen per cel):** [47](#page=47).
| Type HPV | Licht | Gevorderd | Metastasen |
| :------- | :----- | :-------- | :--------- |
| 6 | 0.2592 | 0.6417 | 0.0001 |
| 11 | 0.2573 | 0.6369 | 0.0001 |
De som van deze bijdragen is de $\chi^2$-teststatistiek: $1.7952$ [47](#page=47).
4. **Bepalen van de vrijheidsgraden:** De vrijheidsgraden voor de chi-kwadraat toets voor onafhankelijkheid zijn $(r-1)(c-1)$. In het HPV-voorbeeld is dit $(2-1)(3-1) = 1 \times 2 = 2$ vrijheidsgraden [45](#page=45) [50](#page=50).
5. **Vergelijken met de kritieke waarde of interpreteren van de p-waarde:** De berekende $\chi^2$-statistiek wordt vergeleken met een kritieke waarde uit de $\chi^2$-verdeling bij een gekozen significantieniveau ($\alpha$, vaak 0.05) en het berekende aantal vrijheidsgraden [46](#page=46).
* Als de berekende $\chi^2$-statistiek groter is dan de kritieke waarde, wordt de nulhypothese verworpen.
* Als de p-waarde kleiner is dan $\alpha$, wordt de nulhypothese verworpen.
**Voorbeeld (vergelijking met kritieke waarde):** [48](#page=48) [50](#page=50).
Voor $\alpha = 0.05$ en 2 vrijheidsgraden is de kritieke waarde van de $\chi^2$-verdeling $5.99$.
De berekende $\chi^2$-statistiek is $1.7952$.
Omdat $1.7952 < 5.99$, wordt de nulhypothese niet verworpen op een significantieniveau van 5%. Dit betekent dat er geen statistisch significant bewijs is om te concluderen dat het type HPV en de ernst van baarmoederhalskanker afhankelijk zijn [50](#page=50).
#### 7.3.2.2 Voorwaarden voor de chi-kwadraat toets
* Alle verwachte aantallen ($E_{ij}$) moeten groter zijn dan of gelijk zijn aan 5. Als deze voorwaarde niet voldaan is, bijvoorbeeld in kleine tabellen of wanneer er weinig frequenties zijn, kan Fisher's exact test gebruikt worden voor 2x2 tabellen [45](#page=45) [51](#page=51).
* De data moet uit een willekeurige steekproef komen.
* De variabelen moeten categorisch zijn.
> **Tip:** Als de verwachte waarden lager zijn dan 5, kan de chi-kwadraat toets onbetrouwbaar zijn. Overweeg dan andere toetsen zoals Fisher's exact test [51](#page=51).
### 7.3.3 Onafhankelijkheidstesten in R
R biedt functies om onafhankelijkheidstesten uit te voeren [51](#page=51).
1. **Kruistabel opstellen:** Dit kan handmatig of met de functie `table()`.
2. **Voorwaarden nagaan:** De verwachte waarden kunnen gecontroleerd worden met `chisq.test(tabel)USDexpected`.
3. **Chi-kwadraat toets uitvoeren:** Als de voorwaarden voldaan zijn, kan de toets uitgevoerd worden met `chisq.test(tabel)`.
4. **Alternatief bij niet-voldane voorwaarden:** Indien de voorwaarden niet voldaan zijn, kan `fisher.test(tabel)` gebruikt worden voor 2x2 tabellen [51](#page=51).
**Voorbeeld: Ziek zijn en garnalen eten in een restaurant** [52](#page=52) [53](#page=53).
* $H_0$: Ziek zijn en garnalen eten zijn onafhankelijk.
* $H_A$: Ziek zijn en garnalen eten zijn afhankelijk.
* Als de p-waarde 0.2832 is en we een significantieniveau van 5% hanteren, verwerpen we $H_0$ niet. Er is geen statistisch significant verband tussen ziek zijn en garnalen eten [53](#page=53).
**Correctie voor continuïteit (Yates' correctie):** Voor 2x2 tabellen wordt standaard een correctie uitgevoerd. Om dichter bij de handmatige berekening te komen, kan `correct = FALSE` gebruikt worden in de `chisq.test()` functie [54](#page=54).
**Voorbeeld: Geslacht en beginletter van familienaam** [55](#page=55).
Stel dat we onderzoeken of het beginnen van de familienaam met een 'V' onafhankelijk is van het geslacht van de student.
| | V | Geen V | Totaal |
| :----- | :--- | :----- | :----- |
| Meisje | 17 | 103 | 120 |
| Jongen | 9 | 49 | 58 |
| Totaal | 26 | 152 | 178 |
$H_0$: Geslacht en beginletter V zijn onafhankelijk [56](#page=56).
$H_A$: Geslacht en beginletter V zijn niet onafhankelijk [56](#page=56).
**Voorbeeld: Overgewicht en geslacht in een obesitasstudie** [57](#page=57) [58](#page=58).
In een obesitasstudie wordt onderzocht of de overgewichtcategorie (geen, matig, ernstig) onafhankelijk is van het geslacht van het kind.
* $H_0$: Geslacht en overgewicht categorie zijn onafhankelijk.
* $H_A$: Geslacht en overgewicht categorie zijn niet onafhankelijk.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Verdelingstesten | Statistieke toetsen die worden gebruikt om te beoordelen of de waargenomen verdeling van gegevens overeenkomt met een theoretische verdeling of om verschillen tussen verwachte en geobserveerde frequenties te analyseren. |
| Multinomiale verdeling | Een kansverdeling die de kans op een bepaald aantal uitkomsten van een reeks onafhankelijke experimenten beschrijft, waarbij elk experiment meer dan twee mogelijke uitkomsten heeft. |
| Nulhypothese (H0) | Een stelling die stelt dat er geen significant verschil of verband is tussen variabelen, of dat een bepaalde parameter gelijk is aan een specifieke waarde. |
| Alternatieve hypothese (HA) | Een stelling die het tegenovergestelde beweert van de nulhypothese en die wordt aangenomen als de nulhypothese wordt verworpen. |
| Geobserveerde frequentie (Oi) | Het aantal keren dat een bepaalde gebeurtenis of categorie voorkomt in een steekproef. |
| Verwachte frequentie (Ei) | Het aantal keren dat een bepaalde gebeurtenis of categorie naar verwachting zou voorkomen in een steekproef als de nulhypothese waar zou zijn. |
| Chi-kwadraat (𝜒2) verdeling | Een continue kansverdeling die vaak wordt gebruikt bij het testen van hypothesen, met name voor het analyseren van variantie of het vergelijken van verwachte en geobserveerde frequenties. |
| Vrijheidsgraden | Het aantal waarden in de laatste berekening van een statistische toets dat vrij kan variëren. Dit bepaalt de specifieke vorm van de kansverdeling. |
| QQ-plot (Quantile-Quantile plot) | Een grafische methode om te beoordelen of een steekproef afkomstig is uit een theoretische populatieverdeling, door de kwantielen van de steekproef te vergelijken met de kwantielen van de theoretische verdeling. |
| Normaliteitstest | Een statistische toets die wordt gebruikt om te bepalen of een dataset is getrokken uit een normaal verdeelde populatie. |
| Shapiro-Wilk test | Een specifieke normaliteitstest die de gelijkenis van de kwantielen van de geordende steekproefdata met de verwachte kwantielen van een normaal verdeelde populatie evalueert. |
| Onafhankelijkheidstest | Een statistische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen in een populatie. |
| Contingentietabel (Kruistabel) | Een tabel die de frequentieverdeling van twee of meer categorische variabelen weergeeft, waarbij de rijen en kolommen de categorieën van de variabelen vertegenwoordigen. |
| P-waarde | De kans om resultaten te observeren die minstens zo extreem zijn als de waargenomen resultaten, onder de aanname dat de nulhypothese waar is. |
| Significantieniveau (s.n.) | Het drempelniveau (vaak 0.05 of 5%) dat wordt gebruikt om te beslissen of de nulhypothese wordt verworpen; als de p-waarde kleiner is dan het significantieniveau, wordt de nulhypothese verworpen. |
| Parametrische test | Een statistische toets die aannames doet over de verdeling van de populatieparameters, zoals normaliteit en homogeniteit van varianties. |
| Niet-parametrische test | Een statistische toets die geen sterke aannames doet over de verdeling van de populatieparameters en daarom kan worden gebruikt wanneer de aannames van parametrische tests niet worden voldaan. |
Cover
Hoorcollege 1_2025.pdf
Summary
# Algemene informatie en studievoorbereiding
Dit gedeelte biedt een overzicht van het vak statistiek, de benodigde voorbereiding, beschikbare studiematerialen, communicatiekanalen en evaluatiemethoden.
### 1.1 Algemeen
* Het vak statistiek is bedoeld om studenten een grondig inzicht te verschaffen in de basisbegrippen van de statistiek [4](#page=4).
* Het succesvol afronden van dit vak vereist een stevige kennis van statistiek, wat essentieel is voor de studie van menselijk gedrag [4](#page=4).
* Deze kennis bereidt studenten direct voor op andere statistiekvakken, stelt hen in staat om gegevens van eigen onderzoek te verwerken (zoals voor een masterproef of practicum methoden), en helpt bij het lezen van wetenschappelijke artikelen [4](#page=4).
* Bovendien traint het vak het vermogen om nieuwe problemen te vatten, te structureren en scherp te denken [4](#page=4).
* Het vak telt 7 studiepunten, wat neerkomt op 25 tot 30 studie-uren per studiepunt [4](#page=4).
* Het is cruciaal om de studiewijzer op Toledo aandachtig te lezen [4](#page=4).
### 1.2 Voorkennis en voorbereiding
* Statistiek bouwt voort op wiskundige voorkennis uit het secundair onderwijs [5](#page=5).
* Studenten die hun voorkennis willen controleren, kunnen een voorkennistoets op Toledo afleggen. Deze toets is de enige manier om ingedeeld te worden in een practicumgroep en mag zonder rekenmachine gemaakt worden. De deadline voor deze toets is 26 september [5](#page=5).
* Om de voorkennis bij te spijkeren, kan gebruik gemaakt worden van ALEKS [5](#page=5).
### 1.3 Communicatiekanalen
* Het primaire communicatieplatform is Toledo, specifiek de cursus P0X74a Statistiek voor psychologen, deel 1: theorie. Hier worden mededelingen, praktische informatie, lesmateriaal per hoorcollege en practicum, en een discussieforum gedeeld [6](#page=6).
* E-mail dient zo weinig mogelijk gebruikt te worden. Inhoudelijke vragen horen niet via e-mail of Toledo gesteld te worden. Voor praktische vragen die niet in de studiewijzer of FAQ worden behandeld, kan men terecht op statistiekpsy1@kuleuven.be [6](#page=6).
### 1.4 Studiemateriaal
* Het studiemateriaal omvat slides die beschikbaar zijn op Toledo [7](#page=7).
* Daarnaast worden practicumopgaven en bijbehorende oplossingen via Toledo aangeboden [7](#page=7).
* De voorgeschreven rekenmachine is de TI-30XS/XB MultiView (CuDi) [7](#page=7).
### 1.5 Onderwijsactiviteiten
* **Hoorcolleges:** Deze sessies behandelen de eigenlijke leerstof [8](#page=8).
* **Vragencolleges:** Er zijn twee vragencolleges gepland. Studenten dienen hun vragen vooraf in te dienen via Toledo, uiterlijk op maandagochtend om 9 uur. Opnames van deze colleges zijn achteraf beschikbaar op Toledo, tenzij er technische problemen zijn [8](#page=8).
> **Tip:** Het is strikt verboden om geluids- of beeldopnames te maken van onderwijsactiviteiten omwille van auteursrecht. Het is tevens verboden om leermateriaal verder te vermenigvuldigen en verspreiden [8](#page=8).
* **Practica:** In kleinere groepen worden oefeningen gemaakt onder begeleiding van een practicumbegeleider. Studenten die nieuw zijn in de opleiding worden automatisch ingedeeld in een reguliere practicumgroep na het afleggen van de voorkennistoets. Studenten die het vak herkansen, kunnen zich inschrijven voor een reguliere groep of een bisgroep indien er een grote achterstand is, via een link in de studiewijzer [9](#page=9).
* **Begeleidingssessies:** Dit zijn sessies op afspraak waarbij studenten vragen kunnen stellen aan een practicumbegeleider over zowel theorie als oefeningen. Per tijdslot zijn er maximaal 4 studenten. Studenten die zich inschrijven maar zonder geldige reden niet komen opdagen, verliezen de kans om zich nadien nog in te schrijven [10](#page=10).
* **Proefexamen:** Er wordt een proefexamen georganiseerd op 3 november. Dit examen telt niet mee voor het eindresultaat, maar is sterk aanbevolen. Het vindt on campus plaats, vergelijkbaar met het echte examen, maar duurt slechts 1,5 uur en behandelt een beperkt deel van de leerstof [11](#page=11).
### 1.6 Leerstrategieën
* Vermijd uitstelgedrag [12](#page=12).
* Verwerk de leerstof actief [12](#page=12).
* Oefeningen mogen niet "verbrand" worden; ze moeten actief gebruikt worden om begrip te bevorderen [12](#page=12).
* Maak optimaal gebruik van de geboden begeleidingsmogelijkheden [12](#page=12).
### 1.7 Evaluatie
* Het examen vindt plaats op 12 januari 2026 [13](#page=13).
* Het examen is schriftelijk, duurt 3 uur, en mag enkel met de rekenmachine gemaakt worden [13](#page=13).
* Het examen bestaat uit 16 meerkeuzevragen met giscorrectie en 4 open vragen [13](#page=13).
* De oefeningen op het examen peilen naar inzicht en transfer van de leerstof [13](#page=13).
* Examenfeedback wordt voorzien in de periodes van 9 tot 12 februari en 11 tot 17 september. Tijdens deze momenten kan de eigen examenkopie samen met de modelantwoorden ingekeken worden; dit is achteraf niet meer mogelijk [14](#page=14).
### 1.8 Veelgestelde vragen (FAQ)
* **Bijles:** De meest efficiënte manier om bijstand te krijgen, is door wekelijks gratis gebruik te maken van de begeleidingssessies bij de practicumbegeleiders. Externe bijlesgevers zijn niet op de hoogte van de recente wijzigingen aan het vak, en de universiteit werkt nooit samen met dergelijke bijlesgevers [15](#page=15).
---
# Objectieven en situering van de statistiek
Statistiek kent drie hoofddoelstellingen: het ontwerpen van proefopzetten voor gegevensverzameling, het beschrijven van verzamelde gegevens, en het induceren van algemenere informatie vanuit deze gegevens. Dit vak deelt de statistiek in over deze doelstellingen heen [17](#page=17).
### 2.1 De hoofddoelstellingen van de statistiek
#### 2.1.1 Ontwerpen van proefopzetten voor gegevensverzameling
Het ontwerpen van een geschikte proefopzet (experimental design) is de eerste cruciale stap voor een onderzoeker, zoals een psycholoog, die specifieke vragen wil beantwoorden. Dit plan bepaalt hoe gegevens zodanig verzameld moeten worden dat er een efficiënt antwoord op de onderzoeksvragen mogelijk is [18](#page=18).
#### 2.1.2 Methoden om aspecten van gegevens te beschrijven (beschrijvende statistiek)
* **Functie:** De beschrijvende statistiek, ook wel exploratieve data-analyse genoemd, richt zich op het omgaan met gegevens die vaak een veelheid van ongeordende informatie vormen [19](#page=19).
* **Taken:** De beschrijvende statistiek omvat taken zoals het controleren van de juistheid van gegevens, het systematisch ordenen en presenteren van gegevens om inzicht te verschaffen, het identificeren van ongebruikelijke observaties, patronen en relaties, en het samenvatten en communiceerbaar maken van de gegevens [19](#page=19).
* **Belang van grafische representaties:** Grafische voorstellingen spelen een groot belang in het proces van beschrijvende statistiek [19](#page=19).
* **Publieke perceptie:** Veel 'leken' identificeren statistiek uitsluitend met de producten van de beschrijvende statistiek [19](#page=19).
#### 2.1.3 Methoden om vanuit gegevens algemenere informatie te induceren (inductieve statistiek)
* **Context:** De gegevens waarmee een onderzoeker werkt en waarop conclusies gebaseerd worden, zijn altijd specifiek. Echter, in veel gevallen is de onderzoeker geïnteresseerd in het trekken van algemenere conclusies [20](#page=20).
* **Inductie:** Dit proces van algemenisering impliceert een overstijgen van de specifieke gegevens, wat neerkomt op een vorm van inductie [20](#page=20).
* **Redenering:**
* **Deductie:** Gaat van het algemene naar het bijzondere. Een voorbeeld is: "Alle mensen zijn sterfelijk. Harry Styles is een mens. Dus, Harry Styles is sterfelijk." [21](#page=21).
* **Inductie:** Gaat van het bijzondere naar het algemene. Een voorbeeld is: "Einstein is sterfelijk. Queen Elizabeth is sterfelijk. Mijn grootmoeder is sterfelijk. [...] Dus, alle mensen zijn sterfelijk." [21](#page=21).
* **Populatie en steekproef:** Inductieve statistiek werkt met concepten van populatie en steekproef [22](#page=22).
* **Steekproef:** De specifieke onderzoekseenheden (personen, objecten, meetmomenten, etc.) die betrokken zijn bij het onderzoek en geselecteerd zijn uit de populatie [22](#page=22).
* **Populatie:** Het totale geheel van alle onderzoekseenheden waarover conclusies getrokken willen worden [22](#page=22).
* **Zekerheid en kans:** Deductieve afleidingen zijn zeker. Inductieve afleidingen daarentegen zijn meestal niet zeker en maken gebruik van het begrip kans of waarschijnlijkheid. De inductieve statistiek biedt de hulpmiddelen om inductieve redeneringen op basis van gegevens uit te voeren [23](#page=23).
### 2.2 Situering van het vak 'Statistiek voor Psychologen: deel 1'
Het vak 'Statistiek voor Psychologen: deel 1' is gestructureerd rond de genoemde objectieven [24](#page=24):
* **Deel I:** Behandelt de beschrijvende statistiek (hoorcolleges 1 t.e.m. 4) [24](#page=24).
* **Deel II:** Behandelt de inductieve statistiek (hoorcolleges 5 t.e.m. 12). Hierbij worden de basisbegrippen van inductieve statistiek geïntroduceerd, met verdere uitdieping in 'Statistiek voor Psychologen: deel 2' [24](#page=24).
---
# Beschrijvende statistiek: conceptueel kader en variabelen
Dit deel introduceert de fundamentele concepten van beschrijvende statistiek, met een focus op populatie, steekproef, en de verschillende soorten variabelen die in onderzoek worden gebruikt [26](#page=26).
### 3.1 Populatie, steekproef en variabele
Beschrijvende statistiek omvat het samenvatten en presenteren van gegevens op een zinvolle manier. De kernbegrippen hierbij zijn [26](#page=26):
* **Populatie:** Dit is de volledige verzameling van onderzoekseenheden (zoals personen, gezinnen, dagen, situaties) waarover uitspraken gedaan willen worden in een studie [27](#page=27).
* **Steekproef:** Dit is een selectie van onderzoekseenheden uit de populatie. Op deze geselecteerde eenheden wordt daadwerkelijk een proef of experiment uitgevoerd [27](#page=27).
* **Variabele:** Dit is een eigenschap van de onderzoekseenheden. Concreet koppelt een variabele aan elk lid van de populatie een specifieke uitkomst of eigenschap. Een steekproef kan dus beschouwd worden als een set van uitkomsten die voortkomen uit een experiment [27](#page=27).
> **Tip:** Het is cruciaal om het onderscheid tussen populatie en steekproef te begrijpen, aangezien conclusies over de populatie gebaseerd worden op de observaties uit de steekproef.
### 3.2 Soorten variabelen
Een belangrijk onderscheid binnen variabelen is dat tussen kwalitatieve en kwantitatieve variabelen [28](#page=28).
#### 3.2.1 Kwalitatieve variabele
Een kwalitatieve variabele koppelt elk lid van de populatie aan iets niet-numerieks. Bij dit soort variabelen is ordening, optellen of aftrekken niet zinvol [28](#page=28).
* **Voorbeeld:** De onderwijsvorm die een leerling volgt (bijvoorbeeld ASO, TSO, BSO, KSO, thuisonderwijs) is een kwalitatieve variabele [31](#page=31).
#### 3.2.2 Kwantitatieve variabele
Een kwantitatieve variabele koppelt elk lid van de populatie aan een numerieke waarde. Voor deze waarden is ordening, optellen en aftrekken zinvol [28](#page=28).
* **Voorbeeld 1:** Een IQ-score is een numerieke waarde die een eigenschap van een leerling meet [29](#page=29).
* **Voorbeeld 2:** Hartslag, gemeten in slagen per minuut, is een numerieke waarde die de toestand van een patiënt beschrijft [30](#page=30).
### 3.3 Illustratieve voorbeelden
De volgende voorbeelden verduidelijken de concepten van populatie, steekproef en variabelen:
* **Voorbeeld 1: IQ-scores**
* Onderzoeksvraag: Wat is de gemiddelde IQ-score van leerlingen in het vijfde middelbaar [29](#page=29)?
* Populatie: Alle Vlaamse leerlingen ingeschreven in het vijfde middelbaar [29](#page=29).
* Variabele: IQ-score (kwantitatief) [29](#page=29).
* Steekproef: 200 leerlingen willekeurig gekozen uit secundaire scholen verspreid over de provincies [29](#page=29).
* **Voorbeeld 2: Hartslag variatie**
* Onderzoeksvraag: Hoe varieert de hartslag van een patiënt doorheen de dag [30](#page=30)?
* Populatie: Alle mogelijke tijdstippen waarop een hartslagmeting zou kunnen gebeuren [30](#page=30).
* Variabele: Hartslag (kwantitatief) [30](#page=30).
* Steekproef: Meetmomenten elke 10 minuten tussen 8 uur en 16 uur [30](#page=30).
* **Voorbeeld 3: Onderwijsvorm**
* Onderzoeksvraag: Welke onderwijsvorm volgen de meeste 14-jarigen in België [31](#page=31)?
* Populatie: Alle 14-jarigen in België [31](#page=31).
* Variabele: Onderwijsvorm (ASO, TSO, BSO, KSO, thuisonderwijs) (kwalitatief) [31](#page=31).
* Steekproef: 500 leerlingen willekeurig gekozen uit secundaire scholen verspreid over de provincies [31](#page=31).
* **Voorbeeld 4: Patiëntgegevens**
* Gegevens verzameld: Plaats, aantal aanwezige anderen, en angstniveau op 30 meetmomenten. Hierbij zouden 'plaats' en 'aantal aanwezige anderen' (indien geteld als discrete getallen) mogelijks als kwantitatief beschouwd kunnen worden, terwijl 'angstniveau' afhankelijk van de schaal (bv. numeriek van 1 tot 10) ook kwantitatief is [32](#page=32).
---
# Frequentie- en proportiefuncties en grafische voorstellingen
Dit gedeelte behandelt de concepten van frequentie- en proportiefuncties en hoe deze gevisualiseerd kunnen worden met verschillende grafische methoden [33](#page=33).
### 4.1 Frequentie- en proportiefuncties
#### 4.1.1 Frequentiefunctie
Een frequentiefunctie geeft aan hoe vaak een bepaalde waarde of uitkomst voorkomt binnen een dataset. Voor een variabele $X$ met observaties $x_1, x_2, \dots, x_n$, waarbij $n$ de steekproefgrootte is en $i$ varieert van 1 tot $n$, kunnen we de mogelijke waarden of uitkomsten aanduiden als $x_1, x_2, \dots, x_m$, waarbij $m$ het totale aantal unieke uitkomsten is en $j$ varieert van 1 tot $m$. De frequentie van een specifieke waarde $x_j$ wordt genoteerd als $\text{freq}(x_j)$ [36](#page=36) [37](#page=37).
> **Tip:** Let op de gereserveerde indexletters: $i, j, n, m$ hebben een specifieke betekenis en moeten op het examen correct worden toegepast [37](#page=37).
> **Voorbeeld:** Als we kijken naar de variabele 'plaats' en de observaties zijn 'buitenshuis', 'thuis', en 'werk', dan is de frequentie van 'thuis' 15 uit een totaal van 30 observaties. Hier is $m=3$ en bijvoorbeeld $x_1$ kan 'buitenshuis' zijn, $x_2$ 'thuis', en $x_3$ 'werk'. $\text{freq}(x_2) = 15$ [34](#page=34) [35](#page=35) [37](#page=37).
#### 4.1.2 Proportiefunctie
De proportiefunctie, ook wel relatieve frequentie genoemd, geeft de frequentie van een waarde weer ten opzichte van het totale aantal observaties $n$. De proportie van een waarde $x_j$ wordt berekend met de formule [38](#page=38):
$$ p(x_j) = \frac{\text{freq}(x_j)}{n} $$
De som van alle frequenties moet gelijk zijn aan de steekproefgrootte:
$$ \sum_{j=1}^{m} \text{freq}(x_j) = n $$
En de som van alle proporties moet gelijk zijn aan 1:
$$ \sum_{j=1}^{m} p(x_j) = 1 $$
> **Tip:** De kolom met frequenties of proporties bevat de waarden voor alle uitkomsten $x_j$ (voor $j=1, \dots, m$). Daarom wordt vaak $\text{freq}(x)$ of $p(x)$ geschreven, in plaats van $\text{freq}(x_j)$ of $p(x_j)$. De proporties liggen altijd tussen 0 en 1 inclusief [38](#page=38).
> **Voorbeeld:** Voor de variabele 'plaats', met $\text{freq}(\text{buitenshuis})=4$, $\text{freq}(\text{thuis})=15$, en $\text{freq}(\text{werk})=11$, en $n=30$, zijn de proporties:
> $p(\text{buitenshuis}) = \frac{4}{30} \approx 0.1333$
> $p(\text{thuis}) = \frac{15}{30} = 0.5$
> $p(\text{werk}) = \frac{11}{30} \approx 0.3667$
> [38](#page=38).
### 4.2 Grafische voorstellingen
Grafische voorstellingen helpen bij het visualiseren van de frequentie- en proportieverdelingen van data. De keuze van de grafiek hangt af van het type variabele (kwalitatief of kwantitatief).
#### 4.2.1 Grafische voorstellingen voor kwalitatieve variabelen
Kwalitatieve variabelen, zoals 'plaats', kunnen worden weergegeven met lijndiagrammen, staafdiagrammen en taartdiagrammen.
##### 4.2.1.1 Lijndiagram
Een lijndiagram wordt gebruikt om de frequentie of proportie van verschillende categorieën weer te geven. De categorieën staan op de horizontale as en de frequentie/proportie op de verticale as. Lijnen verbinden de punten die de frequentie/proportie voor elke categorie aangeven [41](#page=41).
> **Voorbeeld:** Een lijndiagram voor de variabele 'plaats' toont de frequentie van 'buitenshuis', 'thuis' en 'werk' [41](#page=41).
##### 4.2.1.2 Staafdiagram
Een staafdiagram is zeer geschikt voor het visualiseren van de frequenties of proporties van kwalitatieve variabelen. Elke categorie heeft een staaf waarvan de hoogte overeenkomt met de frequentie of proportie. De staven staan los van elkaar, wat de discrete aard van de categorieën benadrukt [42](#page=42).
> **Voorbeeld:** Een staafdiagram voor de variabele 'plaats' toont staven voor 'buitenshuis', 'thuis' en 'werk' met hoogtes die hun respectievelijke frequenties representeren [42](#page=42).
##### 4.2.1.3 Taartdiagram
Een taartdiagram (of cirkeldiagram) verdeelt een cirkel in sectoren, waarbij elke sector een categorie vertegenwoordigt. De grootte van elke sector is proportioneel aan de frequentie of proportie van die categorie. Dit diagram is nuttig om de relatieve bijdrage van elke categorie aan het geheel te tonen [43](#page=43).
> **Voorbeeld:** Een taartdiagram voor 'plaats' toont sectoren voor 'buitenshuis' (13%), 'thuis' (50%) en 'werk' (37%) [43](#page=43).
#### 4.2.2 Grafische voorstellingen voor kwantitatieve variabelen
Voor kwantitatieve variabelen, zoals 'aantal anderen', zijn grafische methoden zoals lijndiagrammen en histogrammen geschikt.
##### 4.2.2.1 Lijndiagram
Net als bij kwalitatieve variabelen kan een lijndiagram gebruikt worden voor kwantitatieve data, waarbij de waarden op de horizontale as worden geplaatst. Dit kan nuttig zijn om trends of patronen te identificeren, vooral als de kwantitatieve variabele een ordinale schaal heeft of als de waarden in een reeks geordend kunnen worden [45](#page=45).
> **Voorbeeld:** Een lijndiagram voor de variabele 'aantal anderen' kan de frequentie van elk specifiek aantal (bijvoorbeeld 0, 1, 2, etc.) weergeven [45](#page=45).
##### 4.2.2.2 Histogram
Een histogram is de meest geschikte grafiek voor het weergeven van de verdeling van een kwantitatieve variabele. In tegenstelling tot een staafdiagram, staan de staven in een histogram aan elkaar vast, wat de continue aard van kwantitatieve data symboliseert. De horizontale as wordt verdeeld in klassen of intervallen, en de hoogte van elke staaf representeert de frequentie of proportie van observaties binnen dat interval [46](#page=46).
> **Vragen die een histogram kan helpen beantwoorden:**
> * Zijn er uitbijters [47](#page=47)?
> * Welke vorm neemt de verdeling aan [47](#page=47)?
> * Is er één of zijn er meerdere toppen (modi) [47](#page=47)?
> * Is de verdeling symmetrisch of scheef (positief of negatief) [47](#page=47)?
> **Tip:** Zorg ervoor dat de verticale as van een histogram altijd begint op de waarde 0 om misleidende interpretaties te voorkomen [49](#page=49).
> **Tip:** Bij het maken van een histogram met gegroepeerde frequenties, kies zoveel mogelijk voor gelijke klassenbreedtes. Dit voorkomt een misleidende indruk van de concentratie van waarden. De frequentiedichtheid wordt berekend als $\frac{\text{frequentie}}{\text{klassenbreedte}}$ [50](#page=50).
##### 4.2.2.3 Stam-en-loofdiagram (Stem-and-leaf plot)
Een stam-en-loofdiagram is een grafische methode die kenmerken van zowel een staafdiagram als een frequentieverdeling combineert, terwijl de individuele gegevenspunten behouden blijven. Het splitst elk gegevenspunt in een 'stam' (meestal de voorste cijfers) en een 'loof' (meestal het laatste cijfer) [51](#page=51).
> **Voorbeeld:** Voor de angstscore van 38, is de stam '3' en het loof '8'. Voor de scores 12, 13, 15, 15, 15, 16 [51](#page=51):
> Stam | Loof
> -----|------
> 1 | 235556
> [51](#page=51) [52](#page=52) [54](#page=54).
> **Variaties:**
> * **Tweede stam- en loofdiagram:** Kan worden gebruikt om de gegevens fijner te groeperen, waarbij de stam meer informatie bevat of de loof-waarden worden opgesplitst [52](#page=52).
> * **Rug-aan-rug stam-en-loofdiagram:** Twee stam-en-loofdiagrammen die rug-aan-rug worden geplaatst om de verdelingen van twee groepen te vergelijken [53](#page=53).
> **Formule bij stam-en-loofdiagram:** De oorspronkelijke getallen kunnen worden gereconstrueerd met de formule: $\text{getal} = (\text{stam} \times 10^k) + (\text{loof} \times 10^l)$, waar $k$ en $l$ afhangen van de plaatsing van de stam en het loof. Bijvoorbeeld, als de stam het tiental vertegenwoordigt en het loof het eenheidscijfer, dan is het getal gelijk aan (stam $\times$ 10) + loof [54](#page=54).
---
# Cumulatieve proportiefunctie en kwantielen
Dit deel introduceert de cumulatieve proportiefunctie en het concept van kwantielen, welke essentieel zijn voor het samenvatten en interpreteren van data van kwantitatieve variabelen.
### 5.1 De cumulatieve proportiefunctie
De cumulatieve proportiefunctie, aangeduid als $F(x)$ is een functie die voor elke waarde $x$ van een kwantitatieve variabele de proportie van de observaties weergeeft die kleiner dan of gelijk aan $x$ zijn. Deze functie is enkel zinvol voor kwantitatieve variabelen [56](#page=56) [57](#page=57).
#### 5.1.1 Berekening van de cumulatieve proportie
De cumulatieve proportie voor een bepaalde waarde $x$ wordt berekend door de proporties van alle waarden kleiner dan of gelijk aan $x$ op te tellen. Dit kan worden weergegeven met de formule [57](#page=57):
$$F(x) = \sum_{j \le x} p(j) = \sum_{j \le x} \frac{\text{freq}(j)}{n}$$
waarbij $p(j)$ de proportie is van waarde $j$, $\text{freq}(j)$ de frequentie van waarde $j$ is, en $n$ het totale aantal observaties is [57](#page=57).
**Voorbeeld van berekening:**
Gegeven de frequentieverdeling voor 'aantal anderen (X)':
| Aantal anderen (X) | freq(x) | cfreq(x) | p(x) | F(x) |
| :----------------- | :------ | :------- | :----- | :----- |
| 0 | 7 | 7 | .2333 | .2333 |
| 1 | 8 | 15 | .2667 | .50 |
| 2 | 4 | 19 | .1333 | .6333 |
| 3 | 5 | 24 | .1667 | .80 |
| 4 | 1 | 25 | .0333 | .8333 |
| 5 | 3 | 28 | .1 | .9333 |
| 6 | 0 | 28 | 0 | .9333 |
| 7 | 1 | 29 | .0333 | .9667 |
| 8 | 0 | 29 | 0 | .9667 |
| ... | ... | ... | ... | ... |
| 15 | 1 | 30 | .0333 | 1 |
De cumulatieve proportie voor $X=2$ is $F = \text{p} + \text{p} + \text{p} =.2333 +.2667 +.1333 =.6333$. Dit betekent dat in 63.33% van de geobserveerde meetmomenten het aantal anderen aanwezig 2 of minder was [1](#page=1) [2](#page=2) [57](#page=57).
#### 5.1.2 Grafische weergave van de cumulatieve proportiefunctie
De cumulatieve proportiefunctie ($F(x)$) en de cumulatieve frequentiefunctie ($cfreq(x)$) worden grafisch voorgesteld als niet-strikt stijgende stapfuncties. De functie begint met een waarde van 0 (of de proportie van de kleinste waarde) en eindigt altijd met de waarde 1 [57](#page=57) [58](#page=58) [66](#page=66).
> **Tip:** Let op de specifieke manier waarop de grafiek wordt getekend. De horizontale lijnen vertegenwoordigen de waarden tussen twee opeenvolgende observaties, en de verticale sprongen markeren de cumulatieve proporties op specifieke datapunten [58](#page=58).
### 5.2 Kwantielen
Kwantielen zijn waarden van de variabele $x$ waarvoor de cumulatieve proportie een bepaalde drempelwaarde $r$ bereikt of overschrijdt, waarbij $r$ een getal is tussen 0 en 1 ($0 \le r \le 1$). Het $r$-de kwantiel, genoteerd als $x_r$, is dus de waarde van $x$ waarvoor geldt dat $F(x) \ge r$ [61](#page=61).
#### 5.2.1 Berekening van kwantielen
De berekening van een kwantiel hangt af van hoe de cumulatieve proportie zich verhoudt tot de drempelwaarde $r$ [63](#page=63).
* **Als de gezochte cumulatieve proportie samenvalt met een trap in de grafiek:** Neem de waarde in het midden van de lijn. Dit is het gemiddelde van de begin- en eindwaarde van de horizontale lijnsegmenten van de trap [63](#page=63).
* **Als de gezochte cumulatieve proportie niet samenvalt met een trap in de grafiek:** Neem de waarde van het eerste bolletje (datapunten) van de trap die hoger ligt dan de gezochte proportie [63](#page=63).
**Voorbeeld van berekening van kwantielen:**
Gebruikmakend van de tabel met cumulatieve proporties [61](#page=61):
* **Het.75ste kwantiel ($x_{.75}$):** We zoeken de waarde $x$ waarvoor $F(x) \ge.75$. De cumulatieve proportie 0.80 bereikt deze drempel. De waarde van $x$ die hierbij hoort is 3. Dus, $x_{.75} = 3$ [61](#page=61).
* **Het.97ste kwantiel ($x_{.97}$):** Hier moeten we de regel toepassen voor wanneer de gezochte proportie niet direct samenvalt met een trap. $F =.9333$ en $F =.9667$. Omdat we de waarde zoeken waarvoor $F(x) \ge.97$, moeten we naar de volgende stap kijken. Echter, de formule geeft hier aan dat $x_{.97} = (7+15)/2 = 11$. Dit suggereert een specifieke interpretatie waarbij als de proportie exact op een lijnstuk valt, het gemiddelde wordt genomen, en als het een sprong is, de waarde van het datapunten na de sprong wordt gebruikt. De tabel op pagina 61 laat zien [61](#page=61) [63](#page=63) [6](#page=6) [7](#page=7):
* $F =.9333$ [6](#page=6).
* $F =.9667$ [7](#page=7).
* $F = 1$ [15](#page=15).
Voor $x_{.97}$, waar $F(x) \ge.97$, moeten we kijken naar de waarde waar de stap groter of gelijk wordt aan.97. De tabel toont dat $F =.9667$. De volgende stap is bij $X=15$, met $F =1$. De interpretatie voor $x_{.97}$ als $(7+15)/2$ suggereert dat bij een situatie waar een waarde precies op de grens ligt van een interval, het gemiddelde wordt gebruikt, of een specifieke interpolatiemethode die hieruit volgt. Meer specifiek, als de gezochte proportie $r$ precies samenvalt met de beginwaarde van een horizontale lijnsegment, dan wordt dat punt genomen. Als het ergens op het segment valt, wordt het gemiddelde van de x-waarden die bij de begin- en eindpunten van het segment horen genomen. Echter, de tabel zelf toont $x_{.97} = (7+15)/2 = 11$. Dit kan duiden op een interpolatie waarbij, als de cumulatieve proportie exact op een stap valt, het gemiddelde van de x-waarden gebruikt wordt die bij het begin- en eindpunt van die stap horen. Een meer gangbare definitie is de kleinste $x$ zodanig dat $F(x) \ge r$. Volgens die definitie zou $x_{.97}$ de waarde 15 zijn. De uitwerking op pagina 61 is specifiek: $x_{.97} = (7 + 15)/2 = 11$. Dit impliceert dat als de cumulatieve proportie tussen twee getallen valt, we interpoleren [15](#page=15) [63](#page=63) [7](#page=7).
* **Het.80ste kwantiel ($x_{.80}$):** $F =.80$. Omdat de cumulatieve proportie hier exact samenvalt met een trap, nemen we het gemiddelde van de begin- en eindwaarde van de trap. De voorgaande cumulatieve proportie is $F =.6333$ en de huidige is $F =.80$. De stap bij $X=3$ is van $0.6333$ naar $0.80$. De interpretatie op pagina 61 geeft $x_{.80} = (3+4)/2 = 3.5$. Dit betekent dat de waarde 3.5 de grens is waar de cumulatieve proportie.80 bereikt [2](#page=2) [3](#page=3) [61](#page=61) [63](#page=63).
#### 5.2.2 Bijzondere kwantielen
Er zijn specifieke kwantielen die veel gebruikt worden:
* **Percentielen ($Pc_k$):** Dit zijn de kwantielen $x_{0.01}, x_{0.02}, \dots, x_{0.99}$. Het $k$-de percentiel is de waarde $x$ waarvoor $k\%$ van de data kleiner of gelijk is aan $x$ [64](#page=64).
* **Decielen ($D_k$):** Dit zijn de kwantielen $x_{0.1}, x_{0.2}, \dots, x_{0.9}$. Het $k$-de deciel verdeelt de data in tien gelijke delen [64](#page=64).
* **Kwartielen ($Q_k$):** Dit zijn de kwantielen $x_{0.25}, x_{0.50}, x_{0.75}$ [64](#page=64).
* $Q_1$ (eerste kwartiel): De waarde waarvoor 25% van de data kleiner of gelijk is aan deze waarde ($x_{0.25}$) [64](#page=64).
* $Q_2$ (tweede kwartiel): De waarde waarvoor 50% van de data kleiner of gelijk is aan deze waarde. Dit is ook de mediaan ($x_{0.50}$) [64](#page=64).
* $Q_3$ (derde kwartiel): De waarde waarvoor 75% van de data kleiner of gelijk is aan deze waarde ($x_{0.75}$) [64](#page=64).
> **Studiehulp:** Probeer te focussen op de relatie tussen frequentie, proportie, cumulatieve frequentie en cumulatieve proportie. Begrijp hoe je van de ene naar de andere rekent en wat de specifieke kenmerken zijn van de cumulatieve proportiefunctie, zowel in tabelvorm als grafisch. Oefen met het berekenen van verschillende kwantielen en het interpreteren van hun betekenis [66](#page=66).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Studiepunten | Een studiepunt vertegenwoordigt een bepaalde hoeveelheid studietijd die nodig is om de leerstof van een vak te beheersen, typisch tussen 25 en 30 uren per studiepunt. |
| Steekproef | Een selectie van onderzoekseenheden uit een grotere populatie, waarop effectief een proef of experiment wordt uitgevoerd om conclusies te kunnen trekken. |
| Populatie | De volledige set van onderzoekseenheden (zoals personen, objecten, of situaties) waarover men in een studie uitspraken wil doen. |
| Variabele | Een eigenschap van onderzoekseenheden die kan variëren. Concreet koppelt een variabele aan elk lid van de populatie een bepaalde uitkomst of eigenschap. |
| Kwalitatieve variabele | Een variabele waarbij de uitkomsten niet-numeriek zijn (bv. woorden) en waarop ordening, optelling of aftrekking geen zinvolle betekenis hebben. |
| Kwantitatieve variabele | Een variabele waarbij de uitkomsten numerieke waarden zijn, waarvoor ordening, optelling en aftrekking zinvol is. |
| Frequentiefunctie | Een functie die aangeeft hoe vaak een bepaalde waarde of uitkomst voorkomt binnen een set van observaties of gegevens. |
| Proportiefunctie | De relatieve frequentie van een bepaalde waarde of uitkomst ten opzichte van het totaal aantal observaties, berekend als de frequentie gedeeld door het totale aantal observaties (n). |
| Grafische voorstelling | Visuele methoden om gegevens weer te geven, zoals lijndiagrammen, staafdiagrammen, taartdiagrammen en histogrammen, om patronen en inzichten te onthullen. |
| Lijndiagram | Een grafische voorstelling die punten verbindt met lijnen, vaak gebruikt om de relatie tussen twee variabelen te tonen of de frequentiefunctie weer te geven. |
| Staafdiagram | Een grafische voorstelling die rechthoekige staven gebruikt om de frequentie of proportie van verschillende categorieën van een variabele weer te geven. |
| Taartdiagram | Een cirkelvormige grafiek die is verdeeld in sectoren, waarbij elke sector de proportie van een categorie ten opzichte van het geheel voorstelt. |
| Histogram | Een grafische voorstelling die de frequentieverdeling van continue kwantitatieve gegevens weergeeft, met staven die de frequentie binnen bepaalde klassen of intervallen tonen. |
| Stam- en loofdiagram | Een grafische methode om de verdeling van gegevens weer te geven, waarbij de stammen de eerste cijfers van de data vertegenwoordigen en de loof de laatste cijfers. |
| Cumulatieve frequentie | De som van de frequenties van alle waarden die kleiner zijn dan of gelijk zijn aan een bepaalde waarde. |
| Cumulatieve proportie | De som van de proporties van alle waarden die kleiner zijn dan of gelijk zijn aan een bepaalde waarde. Dit is de proportie van observaties die tot en met die waarde vallen. |
| Kwantiel | Een waarde die een dataset opdeelt in een aantal gelijke delen. Voorbeelden zijn percentielen, decielen en kwartielen. |
| Percentiel | Een kwantiel dat een dataset opdeelt in 100 gelijke delen; de $p$-de percentiel is de waarde waarvoor $p\%$ van de gegevens eronder ligt. |
| Deciel | Een kwantiel dat een dataset opdeelt in 10 gelijke delen; het $d$-de deciel is de waarde waarvoor $d/10$ van de gegevens eronder ligt. |
| Kwartiel | Een kwantiel dat een dataset opdeelt in 4 gelijke delen. Het eerste kwartiel ($Q1$) is de waarde waarvoor 25% van de gegevens eronder ligt, het tweede kwartiel ($Q2$) is de mediaan (50%), en het derde kwartiel ($Q3$) is de waarde waarvoor 75% van de gegevens eronder ligt. |
| Deductie | Een vorm van redeneren waarbij men vanuit algemene principes tot specifieke conclusies komt. De conclusie is noodzakelijkerwijs waar als de premissen waar zijn. |
| Inductie | Een vorm van redeneren waarbij men vanuit specifieke observaties tot algemene conclusies komt. De conclusie is waarschijnlijk, maar niet noodzakelijk waar. |
| Beschrijvende statistiek | Het deel van statistiek dat zich bezighoudt met methoden om aspecten van gegevens te ordenen, samenvatten en presenteren op een inzichtelijke manier. |
| Inductieve statistiek | Het deel van statistiek dat methoden verschaft om vanuit specifieke gegevens algemenere informatie te induceren, wat vaak gepaard gaat met kansberekening. |
Cover
Hoorcollege 14 student.pptx
Summary
# Basisprincipes en structuur van het examen Statistiek II
Dit document biedt een gedetailleerd overzicht van de structuur, inhoud en evaluatiecriteria van het examen Statistiek II, met specifieke aandacht voor de basisprincipes en de te kennen leerdoelen.
## 1. Basisprincipes en structuur van het examen Statistiek II
### 1.1 Algemene opzet van het examen
Het examen Statistiek II wordt afgenomen op campus en maakt gebruik van de toetsomgeving Toets.ap.be. De duur van het examen is twee uur. Formularium en tabellen zijn ter plaatse beschikbaar en hoeven niet zelf meegebracht te worden. Een eenvoudig zakrekenapparaat is toegestaan, maar grafische rekentoestellen zijn niet toegelaten.
### 1.2 Verdeling van kennis/inzicht en vaardigheidstoetsen
Het examen is opgedeeld in twee componenten:
* **Kennis- en inzichtstoets**: Dit deel telt voor 30% mee en is gebaseerd op leerdoelen 2.1 tot en met 2.4.
* **Vaardigheidstoets**: Dit deel telt voor 70% mee en is gebaseerd op leerdoelen 2.5 tot en met 2.13.
### 1.3 Relevante hoofdstukken en te kennen leerstof
De volgende hoofdstukken zijn van belang voor het examen:
* **Hoofdstuk 1**: Inductieve statistiek in onderzoek
* **Hoofdstuk 2**: Kansverdelingen en kansberekening
* **Hoofdstuk 3**: Hypothesetoetsing en betrouwbaarheidsintervallen
* **Hoofdstuk 4**: Toetsen voor één populatie (o.a. t-toets voor het gemiddelde (one sample), chikwadraattoets voor frequenties)
* **Hoofdstuk 5**: Toetsen voor twee populaties (onafhankelijk) (o.a. t-toets voor onafhankelijke populaties (independent samples t-test), Wilcoxon ranksum)
* **Hoofdstuk 6**: Toetsen voor twee populaties (afhankelijk)
* **Wel**: t-toets voor twee afhankelijke steekproeven.
* **Niet**: Wilcoxon signed-rank.
* **Hoofdstuk 7**: Toetsen voor meer dan twee populaties
* **Wel**: Eenwegs variantieanalyse (ANOVA).
* **Niet**: Tweewegs variantieanalyse, Kruskal-Wallis toets.
* **Hoofdstuk 8**: Toetsen voor herhaalde metingen bij meer dan twee populaties (Niet te kennen)
* **Hoofdstuk 9**: Toetsen voor het verband tussen twee variabelen (Pearson correlatietoets, Spearman correlatietoets, chikwadraattoets voor kruistabellen)
* **Hoofdstuk 11**: Tot slot: hoe kies je de juiste toets
Daarnaast zijn de lessen over Statistiek in Wetenschappelijk Onderzoek (slides HC 12) en Kwalitatieve Data-analyse (slides in HC 13) relevant.
### 1.4 Leerdoelen en hun relatie tot de examenonderdelen
De leerdoelen worden opgesplitst in kennis/inzicht en toepassing:
#### 1.4.1 Kennis- en inzichtsvragen (30%)
Deze vragen peilen naar een begrip van de volgende leerdoelen:
* **2.1**: De basisprincipes van de inductieve statistiek in eigen woorden uitleggen.
* **2.2**: Het principe en belang van hypothesetoetsing in eigen woorden uitleggen.
* **2.3**: De basisprincipes van kwalitatieve data-analyse in eigen woorden uitleggen.
* **2.4**: De keuze voor eenzijdig of tweezijdig toetsen verantwoorden.
**Tip**: Kennis- en inzichtsvragen zijn vaak gesloten vragen waarbij je één of meerdere juiste antwoorden moet aanduiden. Een goed begrip van concepten zoals statistische significantie, het interpreteren van een alfa-niveau (kans op een Type-I fout), en het belang van effectgrootte is cruciaal.
> **Voorbeeld Kennis/Inzicht**:
> * Met statistische significantie gaan we na of er een significant verschil is tussen bijvoorbeeld twee condities.
> * Een alfa van .05 betekent dat er 5% kans is op een Type-I fout.
> * De effectgrootte laat zien hoe betekenisvol de relatie tussen variabelen of het verschil tussen groepen is.
#### 1.4.2 Toepassingsvragen (70%)
Deze vragen vereisen het toepassen van statistische kennis op specifieke scenario's, gebaseerd op de volgende leerdoelen:
* **2.5**: De gepaste inductieve statistische techniek selecteren op basis van het type populatie (afhankelijk vs. onafhankelijk), de alternatieve hypothese en nulhypothese, en het meetniveau van de variabelen.
* **2.6**: De resultaten van statistische analyses correct interpreteren in relatie tot de nulhypothese en de resterende onzekerheid (Type I en Type II fouten).
* **2.7**: De resultaten van statistische analyses correct rapporteren in functie van de onderzoeksvraag en hypothesen.
* **2.8**: Een SPSS- of Excel-output correct interpreteren in relatie tot de nulhypothese en de resterende onzekerheid (Type I en Type II fouten).
* **2.9**: Eigenschappen van kansverdelingen en frequentieverdelingen toepassen bij data-analyse.
* **2.10**: In een wetenschappelijke publicatie de statistische analyses correct interpreteren.
* **2.11**: Non-parametrische toetsen (inclusief hun betrouwbaarheidsintervallen) hanteren om de nulhypothese te toetsen.
* **2.12**: Parametrische toetsen (inclusief hun betrouwbaarheidsintervallen) hanteren om de nulhypothese te toetsen.
* **2.13**: Op basis van een onderzoeksvraag de alternatieve hypothese en de nulhypothese formuleren.
**Tip**: Voor toepassingsvragen is het essentieel om systematisch te werk te gaan: identificeer het onderzoeksprobleem, de variabelen (meetniveau, afhankelijk/onafhankelijk), het aantal groepen en hun relatie (afhankelijk/onafhankelijk), en de hypotheses. Dit helpt bij het selecteren van de juiste toets. Het interpreteren van outputs en het rapporteren van resultaten vereist aandacht voor significantie, effectgrootte en de specifieke onderzoeksvraag.
> **Voorbeeld Toepassing (Keuze van toets)**:
> Een onderzoeker wil nagaan of slaap een invloed heeft op de studieprestaties. 50 studenten werden getest onder twee slaapcondities (8 uur slaap vs. 5 uur slaap). De hypothesen zijn H0: Er is geen significant verschil tussen de slaapcondities en de studieprestaties, en H1: Er is een significant verschil. Omdat dezelfde studenten twee keer getest worden, zijn de steekproeven afhankelijk. Met 50 proefpersonen is de steekproefgrootte voldoende voor een parametrische toets. De afhankelijke variabele (studieprestatie) is op intervalniveau. Daarom is een **t-toets voor afhankelijke steekproeven (paired samples t-test)** de gepaste keuze.
> **Voorbeeld Toepassing (Interpretatie van resultaten)**:
> Uit een onderzoek komen volgende resultaten: $\alpha = .05$, $t(10) = 2.564$, $p = 0.046$.
> * **Wordt H nul verworpen of aanvaard?** De nulhypothese wordt verworpen, omdat de p-waarde ($0.046$) kleiner is dan het significantieniveau ($\alpha = 0.05$).
> * **Welke type fout zou je hierbij gemaakt kunnen hebben?** Men zou een Type-I fout gemaakt kunnen hebben.
> * **Wat betekent dit type fout?** Een Type-I fout betekent dat de nulhypothese ten onrechte werd verworpen; er is geconcludeerd dat er een effect is, terwijl dit in werkelijkheid door toeval werd veroorzaakt.
> **Voorbeeld Toepassing (Formuleren van hypothesen voor ANOVA)**:
> We willen nagaan of er een verschil is in het ervaren stressniveau voor een dansoptreden afhankelijk van het aantal gegeten repen chocolade (0, 1, of 2).
> * **H0**: Rekening houdend met de hoeveelheid chocolade is er geen beduidend verschil tussen de groepen wat betreft de totale stressscore voor een optreden.
> * **H1**: Rekening houdend met de hoeveelheid chocolade is er minstens één beduidend verschil tussen de groepen wat betreft de totale stressscore voor een optreden.
> **Voorbeeld Toepassing (Rapporteren van resultaten - Independent Samples T-test)**:
> Om na te gaan of mensen die mindfulness hebben gevolgd verschillen in fysiologische reacties van diegenen die EMDR hebben gevolgd, werd een independent samples t-test uitgevoerd. Gemiddeld werd er meer fysiologische respons gemeten in de conditie met mindfulness ($M = 16.93$, $SD = 2.66$) dan in de conditie met EMDR ($M = 13.96$, $SD = 2.94$). Dit effect was significant op niveau $\alpha = .05$, $t(58) = 2.86$, $p = .006$, met een effectgrootte van $r = .35$.
---
# Studeren op basis van leerdoelen en de keuze van statistische toetsen
Hier is een gedetailleerd overzicht voor het onderwerp "Studeren op basis van leerdoelen en de keuze van statistische toetsen".
## 2. Studeren op basis van leerdoelen en de keuze van statistische toetsen
Dit gedeelte van de studiegids biedt een gestructureerde aanpak voor het studeren door middel van leerdoelen, met speciale aandacht voor de aard van examenvragen en de strategische keuze van statistische toetsen op basis van variabelen en onderzoeksvragen.
### 2.1 Structuur van het examen Statistiek II
Het examen Statistiek II is opgebouwd uit twee componenten:
* **Kennis- en inzichttoets (30%):** Deze toets beoordeelt kennis en inzicht gerelateerd aan leerdoelen 2.1 tot en met 2.4.
* **Vaardigheidstoets (70%):** Deze toets beoordeelt de toepassing van statistische technieken en is gebaseerd op leerdoelen 2.5 tot en met 2.13.
#### 2.1.1 Inhoudelijke afbakening
De te kennen leerstof voor het examen omvat voornamelijk de volgende hoofdstukken:
* Hoofdstuk 1: Inductieve statistiek in onderzoek
* Hoofdstuk 2: Kansverdelingen en kansberekening
* Hoofdstuk 3: Hypothesetoetsing en betrouwbaarheidsintervallen
* Hoofdstuk 4: Toetsen voor één populatie (o.a. one-sample t-toets, chikwadraattoets voor frequenties)
* Hoofdstuk 5: Toetsen voor twee onafhankelijke populaties (o.a. independent samples t-test, Wilcoxon ranksum toets)
* Hoofdstuk 6: Toetsen voor twee afhankelijke populaties (enkel de t-toets voor twee afhankelijke steekproeven)
* Hoofdstuk 7: Toetsen voor meer dan twee populaties (enkel de eenwegsvariantieanalyse - ANOVA)
* Hoofdstuk 9: Toetsen voor het verband tussen twee variabelen (Pearson correlatietoets, Spearman correlatietoets, chikwadraattoets voor kruistabellen)
* Hoofdstuk 11: Kiezen van de juiste toets
* Les Statistiek in Wetenschappelijk Onderzoek (slides HC 12)
* Les kwalitatieve Data-analyse (slides in HC 13)
**Niet te kennen stof:**
* Hoofdstuk 8: Toetsen voor herhaalde metingen bij meer dan twee populaties.
* Specifieke niet-parametrische toetsen zoals Wilcoxon signed-rank, Kruskal-Wallis, en tweewegs variantieanalyse.
### 2.2 Studeren op basis van leerdoelen
Het studeren dient gericht te zijn op de specifieke leerdoelen die het examenonderwerp bepalen. Deze leerdoelen zijn onderverdeeld naar het type vragen dat hieruit kan voortvloeien.
#### 2.2.1 Kennis- en inzichtvragen (30%)
Deze vragen toetsen het begrip van de basisprincipes van statistische concepten en methoden.
* **Leerdoel 2.1:** De basisprincipes van inductieve statistiek in eigen woorden uitleggen.
* **Leerdoel 2.2:** Het principe en belang van hypothesetoetsing in eigen woorden uitleggen.
* **Leerdoel 2.3:** De basisprincipes van kwalitatieve data-analyse in eigen woorden uitleggen.
* **Leerdoel 2.4:** De keuze voor eenzijdig of tweezijdig toetsen verantwoorden.
**Kernconcepten voor kennis- en inzichtvragen:**
* **Statistische significantie:** Nagaan of een waargenomen verschil tussen groepen of een verband tussen variabelen onwaarschijnlijk is om puur door toeval te zijn verklaard.
* **Type I fout (alpha):** De kans dat de nulhypothese ten onrechte wordt verworpen, terwijl deze in werkelijkheid waar is. Een gebruikelijke grenswaarde is $\alpha = 0.05$ (5% kans op een Type I fout).
* **Effectgrootte:** Een maat die de betekenisvolheid van een relatie of verschil aangeeft, onafhankelijk van de steekproefgrootte. Voorbeelden zijn Pearson's $r$ of Cohen's $D$.
* Voor Pearson's $r$:
* Klein effect: $0.1$ tot $0.3$
* Medium effect: $0.3$ tot $0.5$
* Groot effect: $> 0.5$ (zelfde voor negatieve waarden)
* **Nulhypothese ($H_0$):** De hypothese die wordt getoetst. Men vertrekt vanuit de aanname dat deze waar is en probeert deze te weerleggen.
* **Alternatieve hypothese ($H_1$):** De hypothese die men aanneemt als de nulhypothese wordt verworpen.
* **Eenzijdig vs. tweezijdig toetsen:** De keuze hangt af van of men een richting van het effect verwacht (eenzijdig) of enkel een verschil wil aantonen (tweezijdig).
> **Tip:** Kennis- en inzichtvragen zijn vaak gesloten vragen waarbij men meerdere antwoorden moet selecteren of juist beoordelen. Concentreer u op de definitie en implicaties van de kernbegrippen.
#### 2.2.2 Toepassingsvragen (70%)
Deze vragen vereisen de toepassing van statistische technieken op concrete datasets en onderzoeksvragen.
* **Leerdoel 2.5:** De gepaste inductieve statistische techniek selecteren in functie van het type populatie (afhankelijk vs. onafhankelijk), de alternatieve hypothese en nulhypothese, en het meetniveau van de variabelen.
* **Leerdoel 2.6:** De resultaten van de statistische analyse correct interpreteren in functie van de nulhypothese en de resterende onzekerheid (Type I en Type II fouten).
* **Leerdoel 2.7:** De resultaten van de statistische analyse correct rapporteren in functie van de onderzoeksvraag en hypothesen.
* **Leerdoel 2.8:** Een SPSS- of Excel-output correct interpreteren in functie van de nulhypothese en de resterende onzekerheid (Type I en Type II fouten).
* **Leerdoel 2.9:** Eigenschappen van kansverdelingen en frequentieverdelingen toepassen bij data-analyse.
* **Leerdoel 2.10:** In een wetenschappelijke (inter)nationale publicatie in het psychologisch werkveld de statistische analyses correct interpreteren.
* **Leerdoel 2.11:** Non-parametrische toetsen (incl. hun betrouwbaarheidsintervallen) hanteren om de nulhypothese te toetsen (bv. Spearman correlatie, Wilcoxon rangtekentoets).
* **Leerdoel 2.12:** Parametrische toetsen (incl. hun betrouwbaarheidsintervallen) hanteren om de nulhypothese te toetsen (bv. t-toets, ANOVA).
* **Leerdoel 2.13:** Op basis van een onderzoeksvraag de alternatieve hypothese en de nulhypothese formuleren.
### 2.3 De keuze van de juiste statistische toets
Het correct selecteren van een statistische toets is cruciaal en hangt af van verschillende factoren:
1. **Onderzoeksvraag/hypothese:** Wat wil men precies te weten komen? Gaat het om verschillen tussen groepen, verbanden tussen variabelen, of voorspellingen?
2. **Meetniveau van de variabelen:**
* **Nominaal:** Categorieën zonder ordening (bv. geslacht, haarkleur).
* **Ordinaal:** Categorieën met een logische volgorde, maar ongelijke afstanden tussen categorieën (bv. rangordes, Likert-schalen).
* **Interval:** Numerieke waarden met gelijke afstanden, maar geen echt nulpunt (bv. temperatuur in Celsius).
* **Ratio:** Numerieke waarden met gelijke afstanden en een echt nulpunt (bv. lengte, gewicht, inkomen). Parametrische toetsen vereisen meestal minstens intervalniveau.
3. **Aantal populaties/steekproeven:** Worden één, twee, of meer dan twee groepen vergeleken?
4. **Onafhankelijke of afhankelijke steekproeven:**
* **Onafhankelijk:** De metingen in de ene groep hebben geen invloed op de metingen in de andere groep (bv. verschillende groepen respondenten).
* **Afhankelijk (gepaard):** De metingen zijn gerelateerd, bijvoorbeeld doordat dezelfde personen herhaaldelijk gemeten worden, of doordat personen gematcht zijn (bv. voor- en nameting bij dezelfde patiënten).
5. **Aannames van de toets:** Parametrische toetsen hebben specifieke aannames die vervuld moeten zijn (bv. normaliteit van de verdeling, homogeniteit van varianties). Niet-parametrische toetsen zijn minder strikt qua aannames.
#### 2.3.1 Overzicht van veelgebruikte statistische toetsen en hun selectiecriteria
Hieronder een gestructureerd overzicht gebaseerd op de leerdoelen en voorbeelden uit de stof.
##### Toetsen voor één populatie
* **One-sample t-toets (t-toets voor het gemiddelde):**
* **Doel:** Vergelijken van het gemiddelde van één steekproef met een bekend populatiegemiddelde of een theoretisch gemiddelde.
* **Variabelen:** Eén afhankelijke variabele van minimaal intervalniveau.
* **Aannames:** Normaliteit van de steekproefverdeling, bekend populatiegemiddelde.
* **Voorbeeldvraag:** Is het gemiddelde IQ van studenten in een specifieke klas significant anders dan het Vlaamse gemiddelde?
* **Chikwadraattoets voor frequenties:**
* **Doel:** Toetsen of de frequenties van waarnemingen in verschillende categorieën afwijken van een verwachte verdeling.
* **Variabelen:** Eén categorische variabele (nominaal of ordinaal).
* **Aannames:** Verwachte frequenties in de categorieën.
* **Voorbeeldvraag:** Verschillen de aantallen studenten die slagen voor een vak per studierichting zoals verwacht op basis van historische data?
##### Toetsen voor twee populaties
* **T-toets voor onafhankelijke populaties (Independent samples t-test):**
* **Doel:** Vergelijken van de gemiddelden van twee onafhankelijke groepen.
* **Variabelen:** Eén afhankelijke variabele van minimaal intervalniveau, één onafhankelijke variabele met twee niveaus die de groepen definieert.
* **Aannames:** Normaliteit van de afhankelijke variabele in beide groepen, homogeniteit van varianties (kan worden getoetst met Levene's test). Steekproefgrootte $> 30$ is wenselijk, maar met normaal verdeelde data kan het ook met kleinere aantallen.
* **Voorbeeldvraag:** Verschillen de studieresultaten tussen studenten die online les volgen en studenten die fysiek les volgen?
* **T-toets voor afhankelijke steekproeven (Paired samples t-test):**
* **Doel:** Vergelijken van de gemiddelden van twee gerelateerde metingen (bv. voor- en nameting bij dezelfde personen).
* **Variabelen:** Eén afhankelijke variabele van minimaal intervalniveau, waarbij metingen van dezelfde subjecten worden vergeleken.
* **Aannames:** Normaliteit van de verschilscores tussen de gepaarde metingen.
* **Voorbeeldvraag:** Heeft een nieuwe coachingsmethode invloed op de prestaties van dezelfde groep spelers gemeten voor en na de methode?
* **Wilcoxon ranksum toets (ook Mann-Whitney U toets genoemd):**
* **Doel:** Vergelijken van de medianen van twee onafhankelijke groepen wanneer de aannames van de t-toets voor onafhankelijke steekproeven niet voldaan zijn (bv. bij ordinale data of niet-normaal verdeelde intervaldata, vooral bij kleine steekproeven).
* **Variabelen:** Eén afhankelijke variabele (ordinaal of interval) en één onafhankelijke variabele met twee niveaus.
* **Voorbeeldvraag:** Is er een verschil in het ervaren stressniveau tussen twee groepen werknemers, waarbij de data niet normaal verdeeld is?
##### Toetsen voor meer dan twee populaties
* **Eenwegs variantieanalyse (One-way ANOVA):**
* **Doel:** Vergelijken van de gemiddelden van drie of meer onafhankelijke groepen.
* **Variabelen:** Eén afhankelijke variabele van minimaal intervalniveau, één onafhankelijke variabele met drie of meer niveaus.
* **Aannames:** Normaliteit van de afhankelijke variabele binnen elke groep, homogeniteit van varianties.
* **Toetsingsgrootheid:** $F$-waarde, berekend als de ratio van de variantie *tussen* de groepen en de variantie *binnen* de groepen.
* **Formules (schematisch):**
* Sum of Squares Between Groups ($SS_{between}$): $\sum_{i=1}^k n_i (\bar{y}_i - \bar{y}_{\text{grand}})^2$
* Degrees of Freedom Between Groups ($df_{between}$): $k - 1$ (waarbij $k$ het aantal groepen is)
* Mean Square Between Groups ($MS_{between}$): $\frac{SS_{between}}{df_{between}}$
* Sum of Squares Within Groups ($SS_{within}$): $\sum_{i=1}^k \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_i)^2$
* Degrees of Freedom Within Groups ($df_{within}$): $N - k$ (waarbij $N$ het totale aantal deelnemers is)
* Mean Square Within Groups ($MS_{within}$): $\frac{SS_{within}}{df_{within}}$
* $F$-toetsingsgrootheid: $F = \frac{MS_{between}}{MS_{within}}$
* **Onderlinge vergelijking:** Indien de ANOVA significant is, volgt post-hoc analyse (bv. paarsgewijze contrasten met Bonferroni correctie) om specifieke groepsverschillen te identificeren.
* **Voorbeeldvraag:** Verschillen de stressniveaus tussen mensen die 0, 1, of 2 repen chocolade hebben gegeten voor een optreden?
##### Toetsen voor verbanden tussen twee variabelen
* **Pearson correlatietoets:**
* **Doel:** Nagaan van de lineaire relatie tussen twee interval- of rationiveau variabelen.
* **Variabelen:** Twee variabelen van minimaal intervalniveau.
* **Aannames:** Lineariteit van de relatie, normaliteit van beide variabelen, homoscedasticiteit.
* **Correlatiecoëfficiënt:** $r$, variërend van -1 tot +1.
* **Spearman correlatietoets (Rangcorrelatie):**
* **Doel:** Nagaan van de monotone relatie tussen twee ordinaal niveau variabelen, of wanneer de aannames van Pearson's $r$ niet voldaan zijn (bv. niet-normaal verdeelde intervaldata, kleine steekproeven).
* **Variabelen:** Twee variabelen van minimaal ordinaal niveau.
* **Chikwadraattoets voor kruistabellen:**
* **Doel:** Nagaan van de associatie (verband) tussen twee categorische variabelen.
* **Variabelen:** Twee nominale of ordinale variabelen.
* **Voorbeeldvraag:** Bestaat er een verband tussen het geslacht van een student en de keuze voor een bepaalde studierichting?
#### 2.3.2 Interpretatie van resultaten
* **P-waarde:** De kans om het waargenomen onderzoeksresultaat (of extremere resultaten) te verkrijgen, *gegeven dat de nulhypothese waar is*.
* Als $p < \alpha$ (significantieniveau, bv. 0.05), dan wordt de nulhypothese verworpen.
* Als $p \geq \alpha$, dan wordt de nulhypothese niet verworpen.
* **Type I en Type II fouten bij hypothesetoetsing:**
* **Type I fout:** $H_0$ wordt verworpen, terwijl $H_0$ waar is (vals positief). De kans hierop is $\alpha$.
* **Type II fout:** $H_0$ wordt niet verworpen, terwijl $H_0$ onwaar is (vals negatief). De kans hierop wordt aangeduid met $\beta$.
* **Rapportage:** Resultaten moeten correct gerapporteerd worden, inclusief de gebruikte toets, de toetsingsgrootheid (bv. $t$, $F$, $\chi^2$), de vrijheidsgraden, de p-waarde, en de effectgrootte. De interpretatie moet in de context van de onderzoeksvraag worden geplaatst.
> **Tip:** Begin altijd met het identificeren van het meetniveau van de variabelen en het aantal groepen/metingen. Dit leidt u snel naar de mogelijke statistische toetsen. Denk vervolgens na over de aannames.
> **Voorbeeld:** Een onderzoeker wil weten of een nieuwe therapie effectiever is dan de standaardtherapie voor het verminderen van depressieve symptomen. Er zijn twee groepen patiënten: één groep krijgt de nieuwe therapie, de andere de standaardtherapie. De depressiescores worden gemeten met een gevalideerde vragenlijst op intervalniveau (bv. BDI). De groepen zijn onafhankelijk.
>
> * **Onderzoeksvraag:** Verschilt de effectiviteit van de nieuwe therapie van de standaardtherapie?
> * **Variabelen:** Depressiescore (afhankelijk, interval), therapievorm (onafhankelijk, nominaal met 2 niveaus).
> * **Groepen:** Twee onafhankelijke groepen.
> * **Aannames:** Indien de depressiescores normaal verdeeld zijn binnen beide groepen en de varianties ongeveer gelijk zijn, kan een **independent samples t-test** worden gebruikt. Indien de data niet normaal verdeeld is of de steekproefgrootte klein is, zou de **Wilcoxon ranksum toets** een alternatief zijn.
### 2.4 Vragencollege en voorbeeldvragen
De studiegids bevat voorbeelden van zowel kennis- en inzichtvragen als toepassingsvragen om studenten voor te bereiden op het examen. Deze voorbeelden demonstreren de toepassing van de hierboven besproken concepten en statistische toetsen.
* **Voorbeeld Kennis/Inzicht:** Vragen over de definitie van statistische significantie, de betekenis van de $\alpha$-waarde, en het belang van effectgrootte. Ook de correcte formulering van hypothesen en de keuze tussen eenzijdige en tweezijdige toetsen komen aan bod.
* **Voorbeeld Toepassing:** Vragen die vereisen dat men de juiste toets kiest op basis van een beschreven onderzoekssituatie, de resultaten van een analyse (bv. een SPSS-output) interpreteert, of de stappen van een specifieke toets uitvoert (bv. ANOVA).
> **Tip:** Werk de voorbeeldvragen grondig uit. Analyseer waarom een bepaalde toets wordt gekozen en hoe de resultaten geïnterpreteerd moeten worden. Oefen met het herkennen van de verschillende scenario's die leiden tot de selectie van specifieke toetsen.
---
# Toepassing van statistische toetsen met concrete voorbeelden
Deze sectie van de studiehandleiding concentreert zich op de praktische toepassing van diverse statistische toetsen, met concrete voorbeelden om de keuzes en interpretaties te verduidelijken.
## 3. Toepassing van statistische toetsen met concrete voorbeelden
Dit hoofdstuk biedt gedetailleerde voorbeelden van hoe verschillende statistische toetsen worden toegepast in casestudies om onderzoeksvragen te beantwoorden en hypothesen te toetsen.
### 3.1 Kennis- en inzichtvragen in statistiek
Kennis- en inzichtvragen op het examen toetsen het begrip van de basisprincipes van statistiek. Dit omvat het herkennen van de functie van statistische significantie, het correct interpreteren van het significantieniveau ($\alpha$), en het belang van effectgrootte.
#### 3.1.1 Statistische significantie en het belang van p-waarden
* Statistische significantie wordt gebruikt om na te gaan of er een significant verschil is tussen bijvoorbeeld twee groepen of condities.
* Een significant resultaat impliceert dat het onwaarschijnlijk is dat het resultaat puur door toeval is verklaard.
* De p-waarde wordt vergeleken met een vooraf bepaald significantieniveau (vaak $\alpha = 0.05$) om de nulhypothese te verwerpen.
#### 3.1.2 Type I en Type II fouten
* **Type I fout**: De nulhypothese wordt ten onrechte verworpen. Dit betekent dat er een effect wordt geconcludeerd terwijl dit in werkelijkheid puur door toeval wordt veroorzaakt. De kans op deze fout is gelijk aan $\alpha$.
* **Type II fout**: De nulhypothese wordt ten onrechte aanvaard. Dit betekent dat er geen effect wordt geconcludeerd, terwijl er in werkelijkheid wel een effect is.
#### 3.1.3 Effectgrootte (effect size)
* De effectgrootte geeft de betekenisvolheid van een relatie tussen variabelen of een verschil tussen groepen aan. Dit wordt ook wel "praktische significantie" genoemd.
* Het meet in welke mate een variabele de variantie in een andere variabele verklaart.
* Vuistregels voor Pearson's $r$:
* Klein effect: tussen 0.1 en 0.3 (of -0.1 tot -0.3)
* Medium effect: tussen 0.3 en 0.5 (of -0.3 tot -0.5)
* Groot effect: groter dan 0.5 (of kleiner dan -0.5)
#### 3.1.4 Hypothesevorming en toetskeuze
* Onderzoek vertrekt meestal vanuit de alternatieve hypothese ($H_1$) die een verschil of verband suggereert.
* Hypothesetoetsen worden uitgevoerd *onder* de nulhypothese ($H_0$). De nulhypothese wordt verworpen als de kans om het onderzoeksresultaat te observeren, gegeven dat $H_0$ waar is, uitzonderlijk klein is.
* **Eenzijdige toets**: Wordt gebruikt wanneer men specifiek onderzoekt of een groep hoger of lager scoort op een bepaalde variabele dan een andere groep (bv. de ene groep scoort hoger op een examen).
* **Tweezijdige toets**: Wordt gebruikt wanneer men onderzoekt of er *een* significant verschil is, zonder een specifieke richting te specificeren.
### 3.2 Toepassingsvragen: selectie en interpretatie van statistische toetsen
Dit deel behandelt concrete casussen om de keuze en interpretatie van verschillende statistische toetsen te illustreren.
#### 3.2.1 T-toets voor afhankelijke steekproeven (paired samples t-test)
* **Toepassing**: Vergelijken van twee metingen binnen dezelfde groep of bij gematchte paren (bv. meting voor en na een interventie).
* **Voorwaarden**:
* Afhankelijke variabele van minimaal intervalniveau.
* Voldoende aantal proefpersonen (vaak N>30 wordt als richtlijn gegeven, maar bij normaal verdeelde data ook bruikbaar bij kleinere N).
* Afhankelijke steekproeven (dezelfde participanten of gematchte paren).
* **Voorbeeldcasus**: Een onderzoeker wil nagaan of slaap een invloed heeft op studieprestaties. 50 studenten ondergaan twee testen: één na 8 uur slaap en één na 5 uur slaap. De data is van intervalniveau en de metingen zijn afhankelijk.
#### 3.2.2 Interpreteren van t-toets resultaten
* **Hypothese toetsing**: Als de p-waarde kleiner is dan het significantieniveau ($\alpha$), wordt de nulhypothese verworpen.
* **Foutanalyse**: Bij het verwerpen van $H_0$ kan een Type I fout gemaakt zijn.
#### 3.2.3 T-toets voor één populatie (one sample t-test)
* **Toepassing**: Vergelijken van het gemiddelde van één steekproef met een bekend populatiegemiddelde.
* **Voorwaarden**:
* Afhankelijke variabele van minimaal intervalniveau.
* Steekproef is willekeurig getrokken uit de populatie.
* Data is (ongeveer) normaal verdeeld, of de steekproefgrootte is voldoende groot (N>30).
* **Voorbeeldcasus**: Lynn wil onderzoeken of haar 24 leerlingen in het zesde leerjaar beter scoren op IQ dan het Vlaamse gemiddelde. De data is normaal verdeeld. De toets is tweezijdig omdat er geen eerder onderzoek is dat een specifieke richting aangeeft.
#### 3.2.4 T-toets voor onafhankelijke steekproeven (independent samples t-test)
* **Toepassing**: Vergelijken van de gemiddelden van twee onafhankelijke groepen.
* **Voorwaarden**:
* Afhankelijke variabele van minimaal intervalniveau.
* Onafhankelijke steekproeven.
* Data is (ongeveer) normaal verdeeld binnen beide groepen, of de steekproefgroottes zijn voldoende groot (bv. n>19 per groep indien normaal verdeeld wordt aangenomen).
* **Voorbeeldcasus**: Zora wil weten of er een verschil is tussen werknemers met een lage assertiviteitsscore en die met een hoge assertiviteitsscore wat betreft een gemeten kenmerk. Ze heeft twee groepen (lage vs. hoge assertiviteit) en 19 cliënten per groep. De data is normaal verdeeld.
* **Alternatief bij niet-normale verdeling**: Wilcoxon ranksum toets.
#### 3.2.5 T-toets voor het gemiddelde (one sample t-test) met een populatiegemiddelde
* **Berekening van de kans**:
* Bereken eerst de $z$-score met de formule: $z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}$, waarbij $\bar{x}$ het steekproefgemiddelde is, $\mu$ het populatiegemiddelde, $\sigma$ de populatiestandaarddeviatie en $n$ de steekproefgrootte.
* De $z$-score wordt vervolgens gebruikt om de kans op dat gemiddelde of hoger/lager te vinden in een standaard normaalverdelingstabel.
* Als de standaarddeviatie van de populatie ($\sigma$) niet bekend is, maar wel de standaarddeviatie van de steekproef ($s$), en de populatie wordt als normaal verdeeld aangenomen, dan wordt de $t$-verdeling gebruikt.
* **Voorbeeldcasus**: Een onderzoeker neemt een SASKO-vragenlijst af bij 105 volwassenen. Het populatiegemiddelde is 68 met $\sigma=15$. De steekproef toont een gemiddelde van 72. De kans om dit steekproefgemiddelde of hoger te observeren, wordt berekend via de $z$-score.
* $z = \frac{72 - 68}{15/\sqrt{105}} \approx 2.74$
* De kans op een $z$-score van 2.74 of hoger is $1 - P(Z \leq 2.74) = 1 - 0.9969 = 0.0031$, wat overeenkomt met 0.31%.
#### 3.2.6 One-way variantieanalyse (ANOVA)
* **Toepassing**: Vergelijken van de gemiddelden van drie of meer onafhankelijke groepen.
* **Hypothesen**:
* $H_0$: Er is geen significant verschil tussen de gemiddelden van de groepen.
* $H_1$: Er is minstens één groep waarvan het gemiddelde significant verschilt van de andere groepen.
* **Voorwaarden**:
* Afhankelijke variabele van minimaal intervalniveau.
* Onafhankelijke groepen.
* Data is (ongeveer) normaal verdeeld binnen elke groep.
* Homogeniteit van varianties (varianties in de groepen zijn ongeveer gelijk).
* **Stappen en berekeningen**:
* **Sum of Squares (SS)**:
* $SS_{between}$ (tussen-groepen variantie): Meet de variatie tussen de groepsgemiddelden en het totaalgemiddelde.
* $SS_{within}$ (binnen-groepen variantie): Meet de variatie binnen elke groep rond het groepsgemiddelde.
* **Vrijheidsgraden (df)**:
* $df_{between} = k-1$, waarbij $k$ het aantal groepen is.
* $df_{within} = N-k$, waarbij $N$ het totale aantal deelnemers is.
* **Mean Sum of Squares (MS)**:
* $MS_{between} = \frac{SS_{between}}{df_{between}}$
* $MS_{within} = \frac{SS_{within}}{df_{within}}$
* **Toetsingsgrootheid (F-statistiek)**: $F = \frac{MS_{between}}{MS_{within}}$
* **Kritieke waarde**: Aflezen uit de F-verdelingstabel op basis van $df_{between}$ en $df_{within}$ en het gekozen significantieniveau ($\alpha$).
* **Conclusie**: Als de berekende F-statistiek groter is dan de kritieke waarde, wordt $H_0$ verworpen.
* **Voorbeeldcasus**: Een onderzoek gaat na of het eten van 0, 1 of 2 repen chocolade een verschil maakt in ervaren stress voor een dansoptreden. Er zijn 102 proefpersonen, 34 per conditie.
* $SS_{between}$ berekenen op basis van groepsgemiddelden en totaalgemiddelde.
* $df_{between} = 3 - 1 = 2$.
* $SS_{within}$ is gegeven als 11277.471.
* $df_{within} = 102 - 3 = 99$.
* $MS_{within} = \frac{11277.471}{99} \approx 113.91$.
* Na berekening van $SS_{between}$ en $MS_{between}$, wordt de F-statistiek berekend. Als deze kleiner is dan de kritieke waarde (bv. 3.83 voor $\alpha=.05$, $df_1=2$, $df_2=99$), wordt $H_0$ aanvaard.
#### 3.2.7 Onafhankelijke t-toets met p-waarde en effectgrootte
* **Rapportage**: Resultaten worden gerapporteerd met het gemiddelde, standaarddeviatie, de t-statistiek, vrijheidsgraden, de p-waarde en de effectgrootte.
* **Voorbeeldcasus**: Een onderzoek vergelijkt fysiologische reacties (huidgeleiding) tussen mindfulness (MF) en EMDR therapie bij PTSS-patiënten.
* Gemiddelde huidgeleiding na MF: $M = 16.03$, $SD = 2.66$.
* Gemiddelde huidgeleiding na EMDR: $M = 13.96$, $SD = 2.94$.
* Resultaten: $t(58) = 2.86$, $p = .006$, effectgrootte $r = .35$.
* Conclusie: Het effect is significant ($p < .05$). De gemiddelde huidgeleiding is hoger na MF dan na EMDR. De effectgrootte ($r=.35$) duidt op een medium effect.
#### 3.2.8 Chikwadraattoets voor kruistabellen
* **Toepassing**: Onderzoeken van het verband tussen twee categorische variabelen (nominaal of ordinaal). Controleert of de geobserveerde frequenties significant afwijken van de verwachte frequenties.
* **Voorwaarden**:
* Twee categorische variabelen.
* Data bestaat uit frequenties.
* De verwachte frequenties in de cellen van de kruistabel moeten over het algemeen niet te klein zijn (bv. de meeste cellen > 5, geen enkele cel < 1).
* **Voorbeeldcasus**: Kilian vraagt zich af of studenten uit verschillende richtingen van het secundair onderwijs even succesvol (geslaagd/niet-geslaagd) zijn in statistiek. Dit betreft twee categorische variabelen: "richting secundair" en "succes in statistiek".
#### 3.2.9 Chikwadraattoets voor frequenties (one-sample)
* **Toepassing**: Vergelijken van geobserveerde frequenties van één categorische variabele met verwachte frequenties (bv. een gelijkmatige verdeling of een theoretische verdeling).
* **Voorwaarden**:
* Eén categorische variabele.
* Data bestaat uit frequenties.
* Kleine aantallen kunnen leiden tot het gebruik van deze toets indien niet normaal verdeeld.
* **Voorbeeldcasus**: Jill onderzoekt of de scores op een sociale gedragsschaal significant afwijken van een nationaal gemiddelde bij 9 mensen in een leefgroep. Als de data niet als normaal verdeeld kan worden beschouwd, kan dit een geschikte toets zijn.
#### 3.2.10 T-toets voor twee afhankelijke populaties (paired samples t-test)
* **Toepassing**: Vergelijken van twee metingen van dezelfde afhankelijke variabele bij dezelfde proefpersonen of bij gematchte paren.
* **Voorwaarden**:
* Afhankelijke variabele van intervalniveau.
* Data is normaal verdeeld.
* Gematchte of afhankelijke steekproeven.
* **Voorbeeldcasus**: Fauve heeft een coachingsmethode ontwikkeld. Ze test deze op 15 personen en vergelijkt de resultaten met 15 gematchte personen die de behandeling niet ondergaan. De data is normaal verdeeld.
#### 3.2.11 T-toets voor één gemiddelde (one sample t-test)
* **Toepassing**: Vergelijken van het gemiddelde van één steekproef met een bekend populatiegemiddelde.
* **Voorwaarden**:
* Afhankelijke variabele van intervalniveau.
* Data is normaal verdeeld of de steekproef is groot genoeg.
* **Voorbeeldcasus**: Lynn wil weten of haar 24 leerlingen beter scoren qua IQ dan het Vlaamse gemiddelde. De data is normaal verdeeld. Een tweezijdige toets is gepast omdat er geen eerdere publicaties zijn die een specifieke richting aangeven.
#### 3.2.12 T-toets voor onafhankelijke populaties
* **Toepassing**: Vergelijken van de gemiddelden van twee onafhankelijke groepen.
* **Voorwaarden**:
* Afhankelijke variabele van intervalniveau.
* Twee onafhankelijke groepen.
* Data is normaal verdeeld in beide groepen of de steekproefgroottes zijn voldoende groot (bv. 19 per groep).
* **Voorbeeldcasus**: Zora vergelijkt twee groepen cliënten met een lage en een hoge assertiviteitsscore. Elke groep bevat 19 cliënten en de data is normaal verdeeld.
* **Alternatief bij niet-normale verdeling**: Wilcoxon ranksum toets.
#### 3.2.13 Wilcoxon ranksum toets
* **Toepassing**: Een non-parametrische toets voor het vergelijken van twee onafhankelijke populaties. Wordt gebruikt wanneer de assumpties van de t-toets voor onafhankelijke steekproeven niet voldaan zijn (kleine aantallen, niet-normaal verdeeld, of ordinale variabelen).
* **Voorbeeldcasus**: Indien de data bij Zora's onderzoek niet normaal verdeeld zou zijn geweest, zou de Wilcoxon ranksum toets een alternatief zijn geweest.
#### 3.2.14 Chikwadraattoets voor frequenties (met ordinale variabele)
* **Toepassing**: Kan gebruikt worden wanneer een variabele ordinaal is en er een vergelijking van frequenties nodig is.
* **Voorbeeldcasus**: Mustafa wil nagaan of een groep met veel autonomie beter scoort op algemeen welbevinden dan het populatiegemiddelde. De eindscore (laag, gemiddeld, hoog welbevinden) is ordinaal. Ondanks een grote steekproefgrootte (40), is de toets non-parametrisch vanwege de ordinale variabele. Een chikwadraattoets voor frequenties is hier gepast.
#### 3.2.15 Rapportage van SPSS-output (Wilcoxon ranksum toets)
* **Interpretatie**: Bij het rapporteren van een Wilcoxon ranksum toets, let op:
* Het betreft een non-parametrische toets.
* Vergelijking van twee onafhankelijke populaties.
* Geschikt voor kleine aantallen, niet-normaal verdeelde data of ordinale variabelen.
* Een significante p-waarde (bv. 0.006) impliceert een significant verschil tussen de groepen.
#### 3.2.16 ANOVA en post-hoc toetsen
* **ANOVA als omnibus test**: De ANOVA test of er *enig* verschil is tussen de groepen.
* **Paarsgewijze contrasten**: Indien de ANOVA significant is, worden post-hoc toetsen (bv. paarsgewijze contrasten met Bonferroni correctie) gebruikt om te bepalen welke specifieke groepen van elkaar verschillen.
* **Voorbeeldcasus**: Mohamed vergelijkt de effectiviteit van drie therapieën (CGT, ACT, psychodynamische therapie) bij angstige patiënten. Elke groep heeft 34 patiënten en de data is van intervalniveau. ANOVA wordt gebruikt, gevolgd door paarsgewijze contrasten om specifieke therapieën te vergelijken.
#### 3.2.17 Pearson correlatie
* **Toepassing**: Onderzoeken van de sterkte en richting van een lineair verband tussen twee interval- of ratio-variabelen.
* **Voorwaarden**:
* Twee interval- of ratio-variabelen.
* Lineair verband tussen de variabelen.
* Data is (ongeveer) normaal verdeeld.
* **Interpretatie**: Een sterretje (*) in een correlatiematrix duidt op significantie op $\alpha = .05$, twee sterretjes (**) op significantie op $\alpha = .01$.
* **Voorbeeldcasus**: Liesbeth onderzoekt het verband tussen sociaal inlevingsvermogen (40 Likert-items, interval) en burn-out (60 Likert-items, interval) bij 42 cliënten. Aangezien N>30, is de normaliteitsassumptie waarschijnlijk voldaan. Een Pearson correlatietoets is geschikt.
#### 3.2.18 Spearman correlatie
* **Toepassing**: Onderzoeken van de sterkte en richting van een verband tussen twee ordinale variabelen, of wanneer de assumpties voor Pearson correlatie niet voldaan zijn (bv. niet-lineair verband, niet-normaal verdeelde data, kleine steekproef).
* **Voorwaarden**:
* Twee ordinale variabelen, of interval/ratio variabelen die als ordinaal behandeld worden.
* Monotoon verband (het verband neemt consistent toe of af).
* **Voorbeeldcasus**: Sandra wil de link nagaan tussen prikkelgevoeligheid (één Likert-item, ordinaal) en pijnklachten (ordinaal geschaald) bij 28 mensen. De variabelen zijn ordinaal en de steekproef is klein ($n < 30$), waardoor een Spearman correlatie de gepaste toets is.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Inductieve statistiek | Een tak van statistiek die zich richt op het trekken van conclusies over een populatie op basis van gegevens uit een steekproef. Het omvat technieken zoals hypothesetoetsing en betrouwbaarheidsintervallen om algemene uitspraken te doen. |
| Kansverdelingen | Wiskundige functies die de waarschijnlijkheid beschrijven dat een continue of discrete willekeurige variabele een bepaalde waarde aanneemt. Bekende voorbeelden zijn de normale verdeling en de binomiale verdeling. |
| Hypothesetoetsing | Een statistische methode om te bepalen of er voldoende bewijs is om een bepaalde hypothese over een populatie te verwerpen, gebaseerd op een steekproef. Dit proces omvat het formuleren van een nulhypothese en een alternatieve hypothese. |
| Betrouwbaarheidsinterval | Een reeks waarden die met een bepaalde mate van zekerheid (het betrouwbaarheidsniveau) de werkelijke populatiewaarde van een parameter, zoals het gemiddelde, bevat. Een 95% betrouwbaarheidsinterval geeft aan dat bij herhaalde steekproeftrekkingen 95% van de intervallen de populatieparameter bevat. |
| T-toets voor het gemiddelde (one sample) | Een statistische toets die wordt gebruikt om te bepalen of het gemiddelde van een enkelvoudige steekproef significant verschilt van een bekende of hypothetische populatiegemiddelde, wanneer de populatiestandaarddeviatie onbekend is. |
| Chikwadraattoets voor frequenties | Een non-parametrische statistische toets die wordt gebruikt om te onderzoeken of er een significant verschil is tussen de geobserveerde frequenties van een categorische variabele en de verwachte frequenties onder de nulhypothese. |
| T-toets voor onafhankelijke populaties (independent samples t-test) | Een parametrische statistische toets die wordt gebruikt om te vergelijken of de gemiddelden van twee onafhankelijke groepen significant van elkaar verschillen. De data wordt verondersteld normaal verdeeld te zijn binnen elke groep en de varianties worden vergeleken. |
| T-toets voor twee afhankelijke steekproeven (paired samples t-test) | Een parametrische statistische toets die wordt gebruikt om te vergelijken of de gemiddelden van twee gerelateerde of afhankelijke metingen significant van elkaar verschillen, zoals metingen voor en na een interventie bij dezelfde personen. |
| Eenwegs variantieanalyse (ANOVA) | Een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het analyseert de variatie binnen en tussen de groepen om te bepalen of er een significant verschil is tussen ten minste twee van de groepsgemiddelden. |
| Pearson correlatietoets | Een statistische maat die de lineaire relatie tussen twee continue variabelen kwantificeert. De correlatiecoëfficiënt (r) varieert van -1 tot +1, waarbij waarden dichter bij de extremen een sterkere lineaire relatie aangeven. |
| Spearman correlatietoets | Een non-parametrische rangcorrelatiemaat die de sterkte en richting van de associatie tussen twee gerangschikte variabelen meet. Het is een alternatief voor de Pearson correlatie wanneer de data niet normaal verdeeld is of wanneer de variabelen ordinaal zijn. |
| Chikwadraattoets voor kruistabellen | Een non-parametrische statistische toets die wordt gebruikt om te onderzoeken of er een significante associatie bestaat tussen twee categorische variabelen, georganiseerd in een kruistabel. |
| Statistisch significant | Een resultaat van een statistische test dat onwaarschijnlijk is om door toeval te zijn ontstaan, meestal gedefinieerd als een p-waarde lager dan een vooraf bepaald significantieniveau (alpha). |
| Alpha (significantieniveau) | Het vooraf bepaalde niveau van significantie (meestal 0.05) dat wordt gebruikt om te beslissen of de nulhypothese wordt verworpen. Het vertegenwoordigt de maximale kans op het maken van een Type I-fout. |
| Type I-fout | Het onterecht verwerpen van de nulhypothese wanneer deze in werkelijkheid waar is. De kans hierop is gelijk aan het alpha-niveau. |
| Type II-fout | Het onterecht aanvaarden van de nulhypothese wanneer deze in werkelijkheid onwaar is. De kans hierop wordt aangeduid met beta ($\beta$). |
| Effectgrootte | Een maat die de omvang van een effect of het verschil tussen groepen kwantificeert, onafhankelijk van de steekproefgrootte. Het helpt bij het beoordelen van de praktische significantie van de resultaten. |
| Pearson r | Een specifieke maat voor effectgrootte die de sterkte van de lineaire relatie tussen twee continue variabelen weergeeft. De interpretatie varieert, maar algemene richtlijnen zijn: 0.1-0.3 (klein), 0.3-0.5 (medium), >0.5 (groot). |
| Cohen’s D | Een veelgebruikte maat voor effectgrootte die het gestandaardiseerde verschil tussen twee gemiddelden weergeeft. |
| Nulhypothese ($H_0$) | Een stelling die stelt dat er geen effect, verschil of relatie is in de populatie. Het is de hypothese die wordt getoetst. |
| Alternatieve hypothese ($H_1$) | Een stelling die stelt dat er wel een effect, verschil of relatie is in de populatie. Het is het tegenovergestelde van de nulhypothese. |
| Een- of tweezijdig toetsen | Bij eenzijdig toetsen wordt de alternatieve hypothese gericht op een specifieke richting van het effect (bijvoorbeeld groter dan of kleiner dan). Bij tweezijdig toetsen wordt gekeken naar een verschil in beide richtingen. |
| Vrijheidsgraden ($df$) | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische berekening. Het is vaak gerelateerd aan de steekproefgrootte en het aantal groepen of variabelen. |
| p-waarde | De waarschijnlijkheid van het observeren van de steekproefresultaten (of extremere resultaten) als de nulhypothese waar zou zijn. Een lage p-waarde (< alpha) leidt tot het verwerpen van de nulhypothese. |
| Non-parametrische toetsen | Statistische toetsen die geen aannames doen over de verdeling van de populatieparameters, zoals normaliteit. Ze worden vaak gebruikt bij ordinale of nominale data, of wanneer de assumpties van parametrische toetsen geschonden zijn. |
| Parametrische toetsen | Statistische toetsen die aannames doen over de parameters van de populatie, zoals de normale verdeling. Voorbeelden zijn de t-toets en ANOVA. |
| Wilcoxon ranksum toets | Een non-parametrische toets voor twee onafhankelijke groepen, gebruikt als alternatief voor de onafhankelijke t-toets wanneer de data niet normaal verdeeld is. |
| Wilcoxon signed-rank toets | Een non-parametrische toets voor twee gerelateerde metingen, gebruikt als alternatief voor de gepaarde t-toets wanneer de data niet normaal verdeeld is. |
| Kruskal-Wallis toets | Een non-parametrische éénwegs variantieanalyse, gebruikt om de medianen van drie of meer onafhankelijke groepen te vergelijken wanneer de data niet normaal verdeeld is. |
| SASKO-vragenlijst | Een specifieke vragenlijst voor sociale angst, gebruikt in het voorbeeld om het gemiddelde angstniveau te analyseren. |
| Z-waarde | Een gestandaardiseerde score die aangeeft hoeveel standaarddeviaties een bepaald datapunt verwijderd is van het gemiddelde van de populatie. |
| Sum of Squares (SS) | Een statistische maat die de totale variatie in een dataset weergeeft. Het is de som van de gekwadrateerde afwijkingen van elk datapunt ten opzichte van het gemiddelde. |
| Mean Sum of Squares (MS) | De gemiddelde Sum of Squares, berekend door de Sum of Squares te delen door de bijbehorende vrijheidsgraden. Het is een schatter van de variantie. |
| Toetsingsgrootheid | De waarde die wordt berekend tijdens een statistische toets, zoals de t-waarde, F-waarde of chikwadraatwaarde, om de nulhypothese te evalueren. |
| Kritieke waarde | Een drempelwaarde in de verdeling van de toetsingsgrootheid. Als de berekende toetsingsgrootheid deze waarde overschrijdt (of kleiner is, afhankelijk van de richting), wordt de nulhypothese verworpen. |
| Paarsgewijze contrasten | Post-hoc testen die worden uitgevoerd na een significante ANOVA om te bepalen welke specifieke groepen van elkaar verschillen. |
| Bonferroni correctie | Een methode om de significantieniveaus van meerdere vergelijkingen aan te passen om het risico op Type I-fouten te verminderen. |
Cover
Hoorcollege 2_2025.pdf
Summary
# Beschrijvende statistiek met één variabele
Dit deel van de cursus behandelt de basisprincipes van beschrijvende statistiek voor één variabele, inclusief frequentieverdelingen, proporties en samenvattende maten zoals centrale tendens en spreiding [2](#page=2) [4](#page=4).
## 1. Beschrijvende statistiek met één variabele
Beschrijvende statistiek met één variabele heeft als doel het samenvatten en beschrijven van een dataset die bestaat uit observaties van één enkele variabele. Dit gebeurt middels frequentieverdelingen en samenvattende maten [2](#page=2) [4](#page=4).
### 1.1 Frequentie, proportie en cumulatieve proportie
* **Frequentie:** Het aantal keren dat een bepaalde waarde of categorie voorkomt in de dataset [5](#page=5).
* **Proportie:** De frequentie van een waarde gedeeld door het totaal aantal observaties. Dit geeft de relatieve frequentie weer [5](#page=5).
* **Cumulatieve proportie:** De som van de proporties van alle waarden tot en met een bepaalde waarde. Dit geeft aan welk percentage van de observaties kleiner is dan of gelijk is aan die waarde [6](#page=6).
> **Tip:** Frequentieverdelingen, proporties en cumulatieve proporties helpen om de distributie van de data visueel voor te stellen, bijvoorbeeld via een histogram [5](#page=5) [7](#page=7).
### 1.2 Samenvattende maten
Samenvattende maten worden gebruikt om de belangrijkste kenmerken van een dataset te kwantificeren. Ze kunnen grofweg worden ingedeeld in maten van centrale tendens en maten van spreiding [3](#page=3) [4](#page=4).
#### 1.2.1 Centrale tendensmaten
Centrale tendensmaten geven een indicatie van het 'middelpunt' of 'centrum' van de geobserveerde gegevens [3](#page=3).
* **Modus:** De waarde die het vaakst voorkomt in een dataset. Een dataset kan één modus (unimodaal), meerdere modi (multimodaal) of geen duidelijke modus hebben [5](#page=5).
* **Mediaan (Me):** De middelste waarde in een geordende dataset. Als de dataset een even aantal observaties heeft, is de mediaan het gemiddelde van de twee middelste waarden. De mediaan is ook gelijk aan het 50e percentiel ($P_{50}$), de 5e deciel ($D_5$), en het tweede kwartiel ($Q_2$) [6](#page=6) [8](#page=8).
* **Berekening:**
1. Orden de observaties van klein naar groot: $x_1 \leq x_2 \leq \dots \leq x_n$ [8](#page=8).
2. Als $n$ oneven is, is de mediaan de middelste observatie: $Me = x_{\frac{n+1}{2}}$ [8](#page=8).
3. Als $n$ even is, is de mediaan het gemiddelde van de twee middelste observaties: $Me = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2}$ [8](#page=8).
* **Gemiddelde (rekenkundig):** De som van alle observaties gedeeld door het aantal observaties [10](#page=10) [11](#page=11) [9](#page=9).
* **Formule:**
$$ \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$ [10](#page=10) [11](#page=11) [9](#page=9).
* **Formule met frequenties:** Als er herhaalde waarden zijn, kan het gemiddelde berekend worden met frequenties ($f_j$):
$$ \overline{x} = \frac{\sum_{j=1}^{m} f_j x_j}{n} $$ of
$$ \overline{x} = \sum_{j=1}^{m} p_j x_j $$ waar $p_j = \frac{f_j}{n}$ de proportie is [13](#page=13) [14](#page=14) [16](#page=16).
* **Eigenschap:** De som van de afwijkingen van elke observatie ten opzichte van het gemiddelde is altijd nul: $\sum_{i=1}^{n} (x_i - \overline{x}) = 0$ [19](#page=19) [20](#page=20).
> **Tip:** De keuze tussen mediaan en gemiddelde hangt af van de verdeling van de data. Bij scheve verdelingen (met uitschieters) is de mediaan een meer robuuste maat voor centrale tendens [18](#page=18).
#### 1.2.2 Spreidingsmaten
Spreidingsmaten geven aan hoe ver de gegevens van het middelpunt verwijderd zijn, of hoe ver de gegevens van elkaar verwijderd zijn [3](#page=3).
* **Bereik:** Het verschil tussen de grootste en de kleinste geobserveerde score [22](#page=22).
* **Formule:** $Bereik = max(X) - min(X)$ [22](#page=22).
* **Nadeel:** Erg gevoelig voor uitbijters (extreme waarden) [22](#page=22).
* **Interkwartielbereik (IQR):** Het verschil tussen het derde kwartiel ($Q_3$ of $P_{75}$) en het eerste kwartiel ($Q_1$ of $P_{25}$) [22](#page=22).
* **Formule:** $IQR = Q_3 - Q_1$ [22](#page=22).
* **Betekenis:** Omvat ongeveer het middelste 50% van de observaties. Minder gevoelig voor uitbijters dan het bereik [22](#page=22).
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van de observaties ten opzichte van het rekenkundig gemiddelde [23](#page=23) [24](#page=24) [25](#page=25) [26](#page=26).
* **Formule (standaarddeviatie in de populatie gedeeld door N, voor steekproeven wordt dit vaak N-1):**
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n} $$ [23](#page=23) [24](#page=24) [25](#page=25) [26](#page=26).
* **Chiastische eigenschap:** De variantie is gelijk aan het gemiddelde van de kwadraten min het kwadraat van het gemiddelde. Dit is een alternatieve, computationeel handige formule [29](#page=29) [30](#page=30) [31](#page=31) [34](#page=34).
$$ s^2 = \frac{\sum_{i=1}^{n} x_i^2}{n} - (\overline{x})^2 $$ [29](#page=29) [30](#page=30) [31](#page=31) [34](#page=34).
* **Betekenis:** De variantie meet de gemiddelde gekwadrateerde afstand van de observaties tot het gemiddelde [23](#page=23) [32](#page=32) [38](#page=38).
* **Complexere definitie:** De variantie kan ook worden gezien als het gemiddelde gekwadrateerde verschil tussen *alle paren* van observaties onderling [35](#page=35) [36](#page=36).
$$ s^2 = \frac{\sum_{i=1}^{n} \sum_{i'=1}^{n} (x_i - x_{i'})^2}{n^2} $$ [35](#page=35) [36](#page=36).
* **Standaarddeviatie ($s$):** De vierkantswortel van de variantie [28](#page=28).
* **Formule:**
$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n}} $$ [28](#page=28).
* **Betekenis:** De standaarddeviatie heeft dezelfde eenheid als de oorspronkelijke data en vertegenwoordigt de typische of gemiddelde afwijking van een observatie tot het gemiddelde [28](#page=28).
### 1.3 Eigenschappen van gemiddelde en variantie
#### 1.3.1 De regel van Steiner
De regel van Steiner stelt dat voor een willekeurig getal $c$, de som van de gekwadrateerde afwijkingen ten opzichte van $c$ altijd groter is dan of gelijk is aan de variantie, en dat deze som minimaal is wanneer $c$ gelijk is aan het gemiddelde $\overline{x}$ [42](#page=42) [43](#page=43) [44](#page=44).
* **Formule:** Voor elke willekeurige waarde $c$ geldt:
$$ \sum_{i=1}^{n} (x_i - c)^2 = \sum_{i=1}^{n} (x_i - \overline{x})^2 + n(c - \overline{x})^2 $$ [42](#page=42) [43](#page=43).
* **Interpretatie:** Het gemiddelde $\overline{x}$ is dus de waarde $c$ waarvoor de gemiddelde gekwadrateerde afwijking van $c$ tot de observaties ($x_i$) minimaal is. Dit bevestigt dat het gemiddelde een goed centrum van de gegevens is wanneer de spreiding wordt gemeten met kwadratische verschillen [44](#page=44).
#### 1.3.2 De ongelijkheid van Tchebychev
De ongelijkheid van Tchebychev biedt een manier om uitspraken te doen over de spreiding van de data, zelfs zonder de specifieke waarden van de observaties te kennen, enkel op basis van het gemiddelde en de variantie [46](#page=46) [47](#page=47) [48](#page=48) [49](#page=49) [50](#page=50) [51](#page=51).
* **Stelling:** Voor elke dataset en elke waarde $k > 0$, is de proportie geobserveerde scores die zich op een afstand van minstens $k$ standaarddeviaties tot het gemiddelde bevinden, gelijk aan of kleiner dan $1/k^2$ [46](#page=46) [47](#page=47).
* **Formule:**
$$ P(|x - \overline{x}| \geq ks) \leq \frac{1}{k^2} $$ of equivalent hiermee:
$$ P(|x - \overline{x}| < ks) \geq 1 - \frac{1}{k^2} $$ [46](#page=46) [48](#page=48) [49](#page=49) [50](#page=50) [51](#page=51).
* **Interpretatie:** Dit betekent dat ten hoogste $1/k^2$ deel van de observaties verder weg ligt van het gemiddelde dan $k$ standaarddeviaties. Bijvoorbeeld, met $k=2$, ligt ten hoogste $1/2^2 = 1/4$ (of 25%) van de observaties meer dan 2 standaarddeviaties van het gemiddelde verwijderd. Daarmee ligt minstens $1 - 1/k^2$ deel van de observaties binnen deze $k$ standaarddeviaties [46](#page=46) [50](#page=50) [51](#page=51).
* **Voorbeeld:** Als een score van 25 wordt gemeten met een gemiddelde van 15 en een standaarddeviatie van 4, kan de ongelijkheid van Tchebychev worden gebruikt om te bepalen of dit een extreme score is. Met $k=2.5$, $x=25$, $\overline{x}=15$, $s=4$, geldt $k \cdot s = 2.5 \cdot 4 = 10$. De score van 25 ligt 10 punten boven het gemiddelde, wat exact 2.5 standaarddeviaties is. Volgens de ongelijkheid ligt maximaal $1/(2.5)^2 = 1/6.25 = 0.16$ (of 16%) van de observaties op of boven deze score. Dit suggereert dat de score van 25 relatief hoog is binnen deze groep [52](#page=52).
---
# Transformaties van variabelen
Het transformeren van ruwe scores naar andere score-eenheden is vaak noodzakelijk omdat ruwe scores arbitrair kunnen zijn en moeilijk te interpreteren. Een transformatie zet een input (argument) om in een output (functiewaarde) met behulp van een functie [57](#page=57) [58](#page=58).
### 1.3.1 Lineaire transformaties
Een lineaire transformatie van een variabele $x$ heeft de algemene vorm $f(x) = ax + b$, waarbij $a$ en $b$ constanten zijn. Hierbij is $a$ de vermenigvuldigingsfactor en $b$ de optelconstante [62](#page=62).
#### 1.3.1.1 Invloed van lineaire transformaties op samenvattende maten
Lineaire transformaties hebben een voorspelbare invloed op het rekenkundig gemiddelde en de variantie van een dataset [63](#page=63).
* **Gemiddelde:** Als elke score $x_i$ getransformeerd wordt volgens $f(x_i) = ax_i + b$, dan wordt het nieuwe gemiddelde $\bar{f(x)} = a\bar{x} + b$. Met andere woorden, het gemiddelde wordt op dezelfde lineaire manier getransformeerd als de individuele scores [64](#page=64) [65](#page=65).
> **Tip:** De eigenschap $\bar{f(x)} = af(x) + b$ geldt uitsluitend voor lineaire transformaties [65](#page=65).
* **Variantie:** Als elke score $x_i$ getransformeerd wordt volgens $f(x_i) = ax_i + b$, dan wordt de nieuwe variantie $s^2_{f(x)} = a^2 s^2_x$. De variantie wordt vermenigvuldigd met het kwadraat van de vermenigvuldigingsfactor $a$. De optelconstante $b$ heeft geen invloed op de variantie [66](#page=66) [67](#page=67).
> **Opmerking:** Dit komt doordat variantie een maat is voor de spreiding, en het optellen of aftrekken van een constante de spreiding niet verandert [67](#page=67).
### 1.3.2 Z-transformatie (standaardscores)
De Z-transformatie is een bijzondere vorm van een lineaire transformatie die ruwe scores omzet naar standaardscores. Deze scores geven aan hoeveel standaarddeviaties een bepaalde score verwijderd is van het gemiddelde [68](#page=68) [69](#page=69) [70](#page=70).
De formule voor de Z-transformatie van een score $x$ is:
$$Z_x = \frac{x - \bar{x}}{s_x}$$
waarbij:
* $x$ de ruwe score is [71](#page=71).
* $\bar{x}$ het gemiddelde is van de variabele X [72](#page=72).
* $s_x$ de standaarddeviatie is van de variabele X [72](#page=72).
#### 1.3.2.1 Interpretatie van Z-scores
* Een Z-score van $-2$ betekent dat de score 5 twee standaarddeviaties onder het gemiddelde ligt [71](#page=71).
* Een Z-score van $1.5$ betekent dat de score 3.5 anderhalve standaarddeviatie boven het gemiddelde ligt [71](#page=71).
De Z-transformatie wordt vaak genoteerd als $Z_X(x)$, waar het subscript (X) de variabele aangeeft waarvoor het gemiddelde en de standaarddeviatie worden gebruikt, en de waarde tussen haakjes ($x$) de input (ruwe score) is waarvan de Z-score berekend wordt [72](#page=72).
> **Voorbeeld:** Gegeven een dataset met een gemiddelde ($\bar{x}$) van 3 en een standaarddeviatie ($s_x$) van 2. De Z-score voor een ruwe score van 5 wordt als volgt berekend:
> $$Z_5 = \frac{5 - 3}{2} = \frac{2}{2} = 1$$
> Dit betekent dat de score 5 één standaarddeviatie boven het gemiddelde ligt [73](#page=73).
#### 1.3.2.2 Kenmerken van Z-transformatie
* De getransformeerde X-scores, oftewel de Z-scores, worden ook wel standaardscores genoemd [74](#page=74).
* De Z-transformatie kan op elke waarde worden toegepast, niet alleen op geobserveerde X-waarden [74](#page=74).
* De Z-transformatie is een lineaire transformatie. Wanneer we een Z-score transformeren met $a = \frac{1}{s_x}$ en $b = -\frac{\bar{x}}{s_x}$, krijgen we [75](#page=75):
$$f(Z_x) = aZ_x + b = \frac{1}{s_x} \left( \frac{x - \bar{x}}{s_x} \right) - \frac{\bar{x}}{s_x} = \frac{x - \bar{x}}{s_x^2} - \frac{\bar{x}}{s_x}$$
Dit is niet de oorspronkelijke score $x$. Echter, de Z-transformatie zelf resulteert in scores met een gemiddelde van 0 en een standaarddeviatie van 1:
* Gemiddelde van Z-scores: $E(Z_x) = E\left(\frac{x - \bar{x}}{s_x}\right) = \frac{E(x) - \bar{x}}{s_x} = \frac{\bar{x} - \bar{x}}{s_x} = 0$ [75](#page=75).
* Variantie van Z-scores: $Var(Z_x) = Var\left(\frac{x - \bar{x}}{s_x}\right) = \left(\frac{1}{s_x}\right)^2 Var(x) = \frac{1}{s_x^2} s_x^2 = 1$ [75](#page=75).
> **Tip:** Een Z-score van 0 betekent dat de score gelijk is aan het gemiddelde. De standaarddeviatie van Z-scores is altijd 1 [71](#page=71) [75](#page=75).
---
# Studiehulp en samenvatting
Dit gedeelte biedt een overzicht van belangrijke studiehulpmiddelen en samenvattingen van centrale concepten, met focus op gemiddelde, variantie, de ongelijkheid van Tchebychev, boxplots en Z-scores [77](#page=77) [78](#page=78) [79](#page=79) [80](#page=80).
### 3.1 Gemiddelde en variantie
Het is essentieel om de definities van gemiddelde en variantie vloeiend te kunnen formuleren met behulp van de correcte formules. Bovendien moeten deze definities zowel met frequenties als met proporties herschreven kunnen worden [77](#page=77).
#### 3.1.1 Betekenis en berekening
De variantie geeft inzicht in de spreiding van gegevens rondom het gemiddelde. Het is belangrijk om te begrijpen wanneer de berekening van de variantie zinvol is. Men moet tevens vertrouwd zijn met de berekeningsmethoden op een rekenmachine [77](#page=77).
> **Tip:** Zorg ervoor dat je bij het noteren van formules voor de variantie nauwkeurig bent. Benoem de boven- en ondergrens van je sommatieteken en gebruik de juiste indices [77](#page=77).
#### 3.1.2 De chiastische eigenschap
De chiastische eigenschap van de variantie kan worden opgeschreven met behulp van de correcte formule en kan vervolgens worden geformuleerd met zowel frequenties als proporties [77](#page=77).
### 3.2 Ongelijkheid van Tchebychev
De ongelijkheid van Tchebychev kan in woorden worden beschreven en geïllustreerd met voorbeelden en een getallenas [78](#page=78).
#### 3.2.1 Wiskundige formulering
Het is cruciaal om de ongelijkheid van Tchebychev nauwkeurig te formuleren met de correcte wiskundige notatie, waarbij de richting van de ongelijkheden en het al dan niet strikt zijn hiervan correct worden weergegeven. Alle elementen van de formule moeten worden benoemd en gekoppeld aan de verbale beschrijving [78](#page=78).
### 3.3 Boxplots
Boxplots bieden visuele informatie over de spreiding en de scheefheid van gegevens [79](#page=79).
#### 3.3.1 Elementen en interpretatie
Men dient alle elementen van een boxplot te kunnen benoemen, zoals het interkwartielbereik. Het is belangrijk te begrijpen wat een boxplot zegt over de spreiding en scheefheid van de gegevens. Tevens moet men het concept van uitbijters begrijpen en boxplots met en zonder uitbijters kunnen tekenen [79](#page=79).
### 3.4 Z-scores
Z-scores bieden een gestandaardiseerde manier om de positie van een datapunten ten opzichte van het gemiddelde en de standaardafwijking te meten [80](#page=80).
#### 3.4.1 Betekenis en definitie
Een Z-score verklaart in woorden hoe ver een datapunt van het gemiddelde ligt, uitgedrukt in standaardafwijkingen. Een positieve Z-score geeft aan dat het datapunt boven het gemiddelde ligt, terwijl een negatieve Z-score aangeeft dat het datapunt eronder ligt. De definitie van een Z-score kan worden opgeschreven in formulevorm [80](#page=80).
#### 3.4.2 Wiskundige notatie en toepassingen
De wiskundige notatie $Z_X(r)$ vereist begrip van het argument en de variabele. Het verschil tussen $Z_X(3x + 5)$ en $Z_{3x+5}(x)$ moet duidelijk zijn en uitgewerkt kunnen worden. Tevens dient men te kunnen aantonen dat $Z_X(r) = 0$ en dat $Z_X(s) = 1$. Tot slot kan de ongelijkheid van Tchebychev geformuleerd worden in termen van Z-scores [80](#page=80).
> **Tip:** Begrijp dat een Z-score vertelt hoeveel standaardafwijkingen een observatie verwijderd is van het gemiddelde [80](#page=80).
> **Voorbeeld:** Een Z-score van 2 betekent dat de observatie 2 standaardafwijkingen boven het gemiddelde ligt. Een Z-score van -1 betekent dat de observatie 1 standaardafwijking onder het gemiddelde ligt [80](#page=80).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Beschrijvende statistiek | Een tak van statistiek die zich bezighoudt met het samenvatten, organiseren en presenteren van gegevens op een informatieve manier, vaak door middel van grafieken en samenvattende maten. |
| Centrale tendens | Maatstaven die het 'middelpunt' of 'centrum' van een dataset aanduiden, wat aangeeft waar de meeste gegevenswaarden zich bevinden. Voorbeelden zijn modus, mediaan en gemiddelde. |
| Modus | De waarde of categorie in een dataset die het vaakst voorkomt. Een dataset kan één, meerdere (multimodaal) of geen modus hebben. |
| Mediaan (Me) | De middelste waarde in een geordende dataset. De mediaan verdeelt de dataset in twee gelijke helften: 50% van de waarden is kleiner en 50% is groter. |
| Gemiddelde (rekenkundig) | De som van alle observaties gedeeld door het totale aantal observaties. Het is een veelgebruikte maat voor centrale tendens, maar gevoelig voor uitschieters. |
| Spreiding | Maatstaven die aangeven hoe verspreid de gegevens in een dataset zijn rondom het centrum. Hoge spreiding betekent dat de waarden ver uit elkaar liggen, lage spreiding betekent dat ze dicht bij elkaar liggen. |
| Bereik | Het verschil tussen de hoogste en de laagste geobserveerde score in een dataset. Het is een eenvoudige maat voor spreiding, maar erg gevoelig voor uitschieters. |
| Interkwartielbereik (IQR) | Het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1) van een dataset. Het omvat de middelste 50% van de geordende gegevens en is minder gevoelig voor uitschieters dan het bereik. |
| Variantie ($s^2$) | Het gemiddelde van de gekwadrateerde afwijkingen van de observaties ten opzichte van het rekenkundig gemiddelde. Het geeft een maat voor de gemiddelde spreiding van de data rond het gemiddelde. |
| Standaarddeviatie ($s$) | De vierkantswortel van de variantie. Het is de meest gebruikte maat voor spreiding en geeft de gemiddelde afstand aan van de observaties tot het gemiddelde, in dezelfde eenheden als de oorspronkelijke data. |
| Chiastische eigenschap | Een eigenschap van de variantie die stelt dat de variantie gelijk is aan het gemiddelde van de kwadraten min het kwadraat van het gemiddelde. Dit biedt een alternatieve berekeningsmethode. |
| Regel van Steiner | Stelt dat voor een willekeurig getal $c$, de som van de gekwadrateerde afwijkingen van $c$ tot de observaties minimaal is wanneer $c$ gelijk is aan het gemiddelde van de observaties. |
| Ongelijkheid van Tchebychev | Een wiskundige ongelijkheid die stelt dat voor elke dataset, de proportie van scores die meer dan $k$ standaarddeviaties van het gemiddelde afwijken, maximaal $1/k^2$ is. |
| Boxplot | Een grafische weergave van de spreiding van gegevens, gebaseerd op vijf statistische maten: minimum, eerste kwartiel (Q1), mediaan (Me), derde kwartiel (Q3) en maximum. Het kan ook uitschieters weergeven. |
| Ruwe score | De oorspronkelijke, onbewerkte score die direct is geregistreerd bij een meting of observatie. Deze scores zijn soms niet direct interpreteerbaar. |
| Transformatie van variabelen | Het proces van het omzetten van ruwe scores naar een andere schaal of eenheid om de interpreteerbaarheid te verbeteren of om aan bepaalde statistische vereisten te voldoen. |
| Lineaire transformatie | Een transformatie van de vorm $f(x) = ax + b$, waarbij $a$ en $b$ constanten zijn. Deze transformaties veranderen de positie en schaal van de gegevens, maar niet de onderliggende relaties. |
| Z-score (gestandaardiseerde score) | Een score die aangeeft hoeveel standaarddeviaties een observatie verwijderd is van het gemiddelde van de dataset. Het heeft een gemiddelde van 0 en een standaarddeviatie van 1. |
Cover
Les_5_SPC_IKZ_25.pdf
Summary
# Statistische procescontrole en grafische weergave
Statistische procescontrole (SPC) omvat het weergeven van data op een overzichtelijke manier met behulp van verschillende soorten grafieken om inzicht te krijgen in processen [4](#page=4).
### 1.1 Basisprincipes van SPC
SPC richt zich op het gebruik van statistische methoden om de kwaliteit van een proces te bewaken en te verbeteren. Het hoofddoel is het identificeren van variabiliteit binnen een proces en het onderscheiden van willekeurige variatie (common cause variation) van systematische oorzaken (special cause variation). Door deze variatie te begrijpen, kunnen bedrijven proactief ingrijpen om fouten te voorkomen en de procesprestaties te optimaliseren [2](#page=2) [3](#page=3) [9](#page=9).
### 1.2 Grafische weergavemethoden
Een cruciaal onderdeel van SPC is het visualiseren van data om trends, patronen en afwijkingen gemakkelijk te herkennen. Verschillende soorten grafieken worden hiervoor gebruikt [4](#page=4):
#### 1.2.1 Staafdiagram (Bar Chart)
Een staafdiagram toont de frequentie of het aantal metingen voor verschillende categorieën. De lengte van elke staaf is proportioneel aan de waarde die het vertegenwoordigt. Dit type grafiek is nuttig voor het vergelijken van discrete data tussen groepen [4](#page=4) [5](#page=5).
> **Tip:** Staafdiagrammen zijn uitstekend geschikt om snel te zien welke categorie het meest voorkomt of om verschillen tussen categorieën te benadrukken [5](#page=5).
#### 1.2.2 Naalddiagram (Needle Chart / Dot Plot)
Een naalddiagram toont individuele datapunten als stippen of korte lijnen die vanuit een basislijn omhoog schieten. Dit type grafiek is effectief voor het visualiseren van de distributie van data, het identificeren van clusters en het opsporen van uitschieters, vooral bij middelgrote tot grote datasets [4](#page=4) [6](#page=6).
> **Voorbeeld:** Bij het monitoren van de diameter van geproduceerde onderdelen kan een naalddiagram snel laten zien hoe de diameters verdeeld zijn en of er exemplaren buiten de acceptabele toleranties vallen [6](#page=6).
#### 1.2.3 Lijndiagram (Line Chart)
Een lijndiagram wordt gebruikt om de verandering van een variabele over tijd te tonen. De datapunten worden met elkaar verbonden door lijnen, wat de trend en de continuïteit van de data benadrukt. Dit is een van de meest voorkomende grafieken in SPC, met name voor controlekaarten die de procesprestaties over opeenvolgende metingen volgen [4](#page=4) [7](#page=7).
> **Tip:** Lijndiagrammen zijn ideaal om te observeren of een proces stabiel blijft, verbetert of verslechtert over een bepaalde periode [7](#page=7).
#### 1.2.4 Cirkeldiagram (Pie Chart)
Een cirkeldiagram wordt gebruikt om de proportionele verdeling van verschillende categorieën binnen een geheel weer te geven. Het hele diagram vertegenwoordigt 100%, en elke 'taartpunt' toont het relatieve aandeel van een specifieke categorie [4](#page=4) [8](#page=8).
> **Voorbeeld:** Een cirkeldiagram kan gebruikt worden om de verdeling van verschillende soorten defecten in een productieproces te visualiseren [8](#page=8).
> **Let op:** Cirkeldiagrammen zijn minder geschikt voor het vergelijken van precieze waarden tussen categorieën, vooral als er veel kleine segmenten zijn. Voor vergelijkingen zijn staafdiagrammen vaak duidelijker [5](#page=5) [8](#page=8).
* * *
# De frequentietabel en bijbehorende berekeningen
Dit onderdeel behandelt de constructie en interpretatie van frequentietabellen, inclusief de bepaling van het aantal klassen, de klassebreedte, klassegrenzen en verschillende soorten frequenties [10](#page=10).
### 2.1 Constructie van een frequentietabel
Een frequentietabel is een methode om resultaten in te delen in verschillende groepen, genaamd klassen. De constructie omvat het bepalen van het aantal klassen, de klassebreedte en de klassegrenzen [10](#page=10).
#### 2.1.1 Aantal klassen
Het aantal klassen wordt vaak bepaald met een vuistregel: de vierkantswortel van het aantal waarnemingen ($n$) [11](#page=11). $$ \\text{aantal klassen} = \\sqrt{n} $$ waarbij $n$ het aantal waarnemingen is [11](#page=11).
#### 2.1.2 Klassebreedte
De klassebreedte ($b$) wordt berekend door het verschil tussen de grootste en de kleinste waarneming te delen door het aantal klassen [12](#page=12). $$ b = \\frac{m\_{max} - m\_{min}}{n} $$ waarbij $m\_{max}$ de grootste waarneming is, $m\_{min}$ de kleinste waarneming en $n$ het aantal klassen [12](#page=12).
#### 2.1.3 Klassegrenzen
Klassegrenzen worden bepaald met een nauwkeurigheid van 1 eenheid meer dan de waarneming zelf. De onderste klassegrens wordt berekend door de helft van de klassebreedte af te trekken van de kleinste waarneming. Daarna wordt de klassebreedte steeds opgeteld om de volgende grenzen te verkrijgen [13](#page=13). $$ \\text{onderste klassegrens} = m\_{min} - \\frac{b}{2} $$
> **Tip:** Bij het bepalen van de klassegrenzen is het belangrijk om consistent te zijn met de nauwkeurigheid van de data. Indien de waarnemingen bijvoorbeeld gehele getallen zijn, worden de klassegrenzen met een halve eenheid nauwkeuriger bepaald (bijvoorbeeld `.5` grenzen) [16](#page=16).
### 2.2 Soorten frequenties
Een frequentietabel kan verschillende soorten frequenties bevatten:
* **Frequentie:** Het aantal keren dat een bepaalde waarde of klasse voorkomt in de dataset [18](#page=18).
* **Cumulatieve frequentie:** Het aantal keren dat een bepaalde waarde of klasse, \_plus alle voorgaande waarden of klassen, voorkomt [18](#page=18).
* **Relatieve frequentie:** De frequentie van een waarde of klasse gedeeld door het totale aantal waarnemingen. Dit geeft het aandeel aan van die specifieke klasse [18](#page=18). $$ \\text{relatieve frequentie} = \\frac{\\text{frequentie}}{\\text{totaal aantal waarnemingen}} $$
* **Cumulatieve relatieve frequentie:** De cumulatieve frequentie gedeeld door het totale aantal waarnemingen. Dit geeft het aandeel aan van waarnemingen tot en met die specifieke klasse [18](#page=18).
### 2.3 Voorbeeld van een frequentietabel
Gegeven de volgende waarnemingen (pagina 15-22), kunnen we een frequentietabel construeren. Stel, we hebben de volgende gegevens:
* Minimum: 494 [15](#page=15).
* Maximum: 519 [15](#page=15).
* Aantal waarnemingen: 10 [15](#page=15).
We passen de eerder besproken regels toe:
* Aantal klassen ($n$): 10 waarnemingen, dus we nemen 10 klassen [15](#page=15).
* Klassebreedte ($b$): $b = \\frac{519 - 494}{10} = \\frac{25}{10} = 2.5$. Echter, het voorbeeld op pagina 15 geeft een klassebreedte van 2, mogelijk afgerond of gebaseerd op een andere vuistregel. Laten we uitgaan van een klassebreedte van 2 voor dit specifieke voorbeeld [15](#page=15).
* Onderste klassegrens: $494 - \\frac{2}{2} = 493$ [15](#page=15).
De klassen zouden dan zijn: \[493-495), \[495-497), ..., \[511-513). De exacte grenzen en berekeningen zijn gedetailleerd weergegeven in de documentatie, inclusief hoe de frequenties, cumulatieve frequenties en relatieve frequenties worden berekend en ingevuld in de tabel [14-22](#page=14-22).
### 2.4 Polygoondiagram
Een polygoondiagram is een grafische weergave van de frequentieverdeling, waarbij de toppen van de staven van een histogram met elkaar worden verbonden door een gebroken lijn. Theoretisch kan, bij een oneindig aantal klassen en een klassebreedte die naar nul nadert, de polygoon een vloeiende lijn worden. In dit theoretische geval kan de kans berekend worden door middel van integreren, waarbij de oppervlakte onder de curve een maat is voor de kansdichtheid [23](#page=23).
* * *
# Kengetallen van de normale verdeling
Dit onderwerp behandelt de centrale tendens en spreiding van data binnen een normale verdeling door middel van specifieke kengetallen [30](#page=30).
### 3.1 Centrale tendens
Kengetallen voor centrale tendens geven een idee van de doorsneewaarde van de resultaten [30](#page=30).
#### 3.1.1 Rekenkundig gemiddelde
Het rekenkundig gemiddelde ($\\overline{X}$) is het belangrijkste en meest gebruikte kengetal voor de ligging van meetresultaten. Het wordt berekend met de formule [31](#page=31): $$ \\overline{X} = \\frac{1}{n} \\sum\_{i=1}^{n} X\_i $$
> **Voorbeeld:** Gegeven de getallen 6, 8, 7, 8, 7, 6, 7, 7, 6 [31](#page=31). Het rekenkundig gemiddelde is: $$ \\overline{X} = \\frac{6+8+7+8+7+6+7+7+6}{9} = \\frac{66}{9} \\approx 6,89 $$[31](#page=31).
#### 3.1.2 Mediaan
De mediaan (Me) is de middelste waarneming van een groep op volgorde gerangschikte waarnemingsresultaten. In tegenstelling tot het gemiddelde wordt de mediaan niet beïnvloed door uitschieters [32](#page=32).
> **Voorbeeld:** Gegeven de getallen 6, 8, 7, 8, 7, 6, 7, 7, 6 [32](#page=32). Na sortering: 6, 6, 6, 7, 7, 7, 7, 8, 8 [32](#page=32). De mediaan is het middelste getal: 7 [32](#page=32).
Bij een even aantal getallen wordt het gemiddelde van de middelste twee getallen als mediaan genomen [33](#page=33).
> **Voorbeeld:** Gegeven de getallen 6, 8, 7, 8, 7, 6, 7, 7 [33](#page=33). Na sortering: 6, 6, 7, 7, 7, 7, 8, 8 [33](#page=33). De middelste twee getallen zijn 7 en 7. $$ Me = \\frac{7 + 7}{2} = 7 $$[33](#page=33).
#### 3.1.3 Modus
De modus (Mo) is het waarnemingsresultaat dat het meest voorkomt, oftewel dat de hoogste frequentie heeft [34](#page=34).
> **Voorbeeld:** Gegeven de getallen 6, 8, 7, 8, 7, 6, 7, 7, 6 [34](#page=34). Het getal 7 komt het meest voor (4 keer), dus de modus is 7 [34](#page=34).
Bij gelijke maxima spreekt men van een bimodale (bij 2 maxima) of multimodale verdelingen [35](#page=35).
### 3.2 Spreiding
Kengetallen kunnen ook de spreiding van data aanduiden. Ze geven aan hoever de gegevens uit elkaar liggen [36](#page=36).
#### 3.2.1 Range of variatiebreedte
De range (R), ook wel variatiebreedte genoemd, wordt gegeven door het grootste en het kleinste waarnemingsresultaat. Het duidt de grenzen aan waartussen de waarnemingsresultaten voorkomen [37](#page=37).
> **Voorbeeld:** Gegeven de getallen 6, 8, 7, 8, 7, 6, 7, 7, 6 [37](#page=37). Het grootste resultaat is 8 en het kleinste is 6. De range is dus 8 - 6 = 2 [37](#page=37).
#### 3.2.2 Standaarddeviatie
De standaarddeviatie (s) is de belangrijkste en meest gebruikte spreidingsmaatstaf voor waarnemingsresultaten. De formule voor de variantie ($s^2$) is [38](#page=38) [39](#page=39): $$ s^2 = \\frac{1}{n-1} \\sum\_{i=1}^{n} (X\_i - \\overline{X})^2 $$
> **Tip:** De standaarddeviatie kan handmatig berekend worden, maar is ook eenvoudig te bepalen met statistische software of functies zoals `=STDEV.S(...)` in Excel [39](#page=39).
### 3.3 Oefenvoorbeeld
Bepaal voor het volgende voorbeeld (manueel) het gemiddelde, de mediaan, de modus, de range en de standaarddeviatie [40](#page=40): 25, 23, 21, 22, 24 22, 23, 24, 22, 24 23, 22, 24, 22, 21 24, 22, 22, 25, 21
De oplossing hiervan wordt gegeven op het bord [41](#page=41).
* * *
# Theoretische benadering van de Gaussverdeling en uitschieters
Dit gedeelte behandelt de theoretische eigenschappen van de normale (Gauss)verdeling en methoden voor het identificeren en behandelen van uitschieters in data.
### 4.1 De gaussverdeling
De normale verdeling, ook wel de gaussverdeling genoemd, is een continue kansverdeling die gekenmerkt wordt door twee parameters: de verwachtingswaarde ($\\mu$) en de standaardafwijking ($\\sigma$). De kansdichtheid van deze verdeling wordt weergegeven door een symmetrische curve die het hoogst is rond het gemiddelde ($\\mu$) en afneemt naarmate de afstand tot het gemiddelde groter wordt, zonder ooit exact nul te worden. Deze curve wordt ook wel de gausscurve genoemd. De normale verdeling loopt theoretisch van min oneindig ($-\\infty$) tot plus oneindig ($+\\infty$) en wordt volledig bepaald door het gemiddelde ($\\mu$) en de spreiding ($\\sigma$) [42](#page=42) [43](#page=43).
#### 4.1.1 Kenmerken van de gaussverdeling
* **Symmetrie**: De kansdichtheid is perfect symmetrisch rond de verwachtingswaarde ($\\mu$) [43](#page=43).
* **Top**: De curve is het hoogst bij het gemiddelde ($\\mu$) [43](#page=43).
* **Spreiding**: De kansdichtheid neemt af naarmate de afstand tot het gemiddelde toeneemt, zonder ooit nul te worden [43](#page=43).
* **Parameters**: De verdeling wordt volledig bepaald door $\\mu$ (locatie) en $\\sigma$ (schaal/spreiding) [43](#page=43).
#### 4.1.2 Interpretatie van standaardafwijking grenzen
De standaardafwijking ($\\sigma$) is cruciaal voor het begrijpen van de spreiding van data binnen een normale verdeling. Specifieke grenzen rond het gemiddelde ($\\mu$) geven een indicatie van het percentage waarnemingen dat binnen die grenzen valt:
* **1 $\\sigma$ grens**: Ongeveer 68,8% van de data ligt binnen de grenzen $\\mu - \\sigma$ en $\\mu + \\sigma$ [45](#page=45).
* **2 $\\sigma$ grens**: Ongeveer 95,4% van de data ligt binnen de grenzen $\\mu - 2\\sigma$ en $\\mu + 2\\sigma$ [45](#page=45).
* **3 $\\sigma$ grens**: Ongeveer 99,73% van de data ligt binnen de grenzen $\\mu - 3\\sigma$ en $\\mu + 3\\sigma$ [45](#page=45).
> **Tip**: Deze grenzen bieden een snelle manier om te beoordelen of een datapunten binnen de verwachte spreiding valt. Waarnemingen buiten de $3\\sigma$ grens kunnen potentieel als uitschieters worden beschouwd.
### 4.2 Uitschieters (outliers)
Uitschieters, ook wel uitbijters genoemd, zijn extreme waarden in een dataset die significant afwijken van de rest van de data. Ze kunnen een grote invloed hebben op het gemiddelde, maar hebben doorgaans weinig tot geen invloed op de mediaan. Het identificeren en omgaan met uitschieters is niet altijd eenvoudig en er is vaak discussie over de vraag of en hoe deze verwijderd moeten worden [47](#page=47).
#### 4.2.1 Methodes voor het identificeren van uitschieters
Er zijn diverse methoden om uitschieters te detecteren:
* **Vuistregels**: Zoals het criterium van meer dan 3 standaardafwijkingen ($\\sigma$) van het gemiddelde [48](#page=48).
* **Statistische tests**:
* Criterium van Chauvenet [48](#page=48).
* Grubbs’ test voor uitbijters [48](#page=48).
* Peirces criterium [48](#page=48).
* **Standaardmethoden**: ASTM E178 standaardmethode [48](#page=48).
* **Criteria gebaseerd op kwartielafstand**: Zoals Tukey’s fences [48](#page=48).
#### 4.2.2 Tukey’s fences
Tukey’s fences is een methode om uitschieters te identificeren op basis van de interkwartielafstand (IQR). Deze methode maakt gebruik van de mediaan (Q2), het eerste kwartiel (Q1 - de waarde op het 25e percentiel) en het derde kwartiel (Q3 - de waarde op het 75e percentiel). De grenzen worden bepaald met behulp van een constante factor ($k$) [49](#page=49):
De formule voor de grenzen is: $$Q1 - k(Q3 - Q1) \\quad \\text{en} \\quad Q3 + k(Q3 - Q1)$$
* Voor "outliers" wordt doorgaans een $k$ van 1,5 gebruikt [49](#page=49).
* Voor "far outs" (meer extreme uitschieters) wordt een $k$ van 3 gebruikt [49](#page=49).
##### 4.2.2.1 Voorbeeld van Tukey’s fences
Stel we hebben de volgende datareeks: 22, 24, 23, 23, 23, 21, 18, 23, 24, 23, 39, 22 [50](#page=50).
Om de Tukey’s fences te bepalen, moeten eerst Q1, Q3 en de mediaan (Q2) berekend worden (dit is uitgewerkt op het bord ) [50](#page=50).
> **Example**: Als na berekening de datareeks gesorteerd zou zijn en Q1 = 22.5, Q3 = 23.5, dan is de IQR = 23.5 - 22.5 = 1.
>
> * Voor "outliers" ($k=1.5$):
>
> * Ondergrens: $22.5 - 1.5 \\times 1 = 21$
>
> * Bovengrens: $23.5 + 1.5 \\times 1 = 25$ Waarden kleiner dan 21 of groter dan 25 worden beschouwd als "outliers".
>
> * Voor "far outs" ($k=3$):
>
> * Ondergrens: $22.5 - 3 \\times 1 = 19.5$
>
> * Bovengrens: $23.5 + 3 \\times 1 = 26.5$ Waarden kleiner dan 19.5 of groter dan 26.5 worden beschouwd als "far outs". In dit voorbeeld zou de waarde 39 een "far out" zijn.
>
* * *
## Veelgemaakte fouten om te vermijden
* Bestudeer alle onderwerpen grondig voor examens
* Let op formules en belangrijke definities
* Oefen met de voorbeelden in elke sectie
* Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Statistische Procescontrole (SPC) | Een methode die statistische technieken gebruikt om de kwaliteit van een proces te monitoren en te controleren, met als doel afwijkingen te identificeren en te minimaliseren. |
| Staafdiagram | Een grafische weergave van data waarbij rechthoekige staven worden gebruikt om discrete categorieën te representeren; de lengte van elke staaf is proportioneel aan de waarde die het weergeeft. |
| Naalddiagram | Een type grafiek dat lijnen gebruikt die van een basislijn naar een datapunkt lopen, vaak gebruikt om trends of patronen weer te geven; lijkt op een lijndiagram maar de punten zijn vaak gemarkeerd met symbolen. |
| Lijndiagram | Een grafische weergave die punten verbindt met lijnsegmenten om de trend van gegevenspunten over een interval of tijd te tonen. |
| Pie-chart (Cirkeldiagram) | Een ronde grafiek die is verdeeld in sectoren om de proportionele frequentie van categorieën in een dataset weer te geven; de grootte van elke sector is proportioneel aan de hoeveelheid die het vertegenwoordigt. |
| Frequentietabel | Een tabel die de frequentie van elk voorkomend datapunt of elke categorie in een dataset weergeeft, vaak ingedeeld in klassen of intervallen. |
| Aantal klassen | Het aantal intervallen of groepen waarin een dataset wordt verdeeld voor de constructie van een frequentietabel of histogram. |
| Klassebreedte | Het verschil tussen de bovengrens en de ondergrens van een klasse in een frequentietabel; de breedte van elk interval. |
| Klassegrenzen | De waarden die het begin en einde van elke klasse in een frequentietabel definiëren; deze grenzen helpen bij het indelen van gegevenspunten in specifieke intervallen. |
| Vuistregel | Een algemene richtlijn of methode die wordt gebruikt om een schatting te maken of een beslissing te nemen, vaak gebaseerd op ervaring in plaats van strikte berekeningen. |
| Vierkantswortel | Het getal dat, wanneer vermenigvuldigd met zichzelf, een gegeven getal oplevert; genoteerd als $\sqrt{n}$. |
| Waarneming | Een individueel gemeten of geregistreerd datapunt in een dataset. |
| Frequentie | Het aantal keren dat een specifiek datapunt of een waarde binnen een klasse voorkomt in een dataset. |
| Cumulatieve frequentie | Het totaal aantal waarnemingen in een klasse en alle voorgaande klassen in een frequentietabel. |
| Relatieve frequentie | De verhouding van de frequentie van een klasse tot het totale aantal waarnemingen in de dataset; berekend als frequentie / totaal aantal waarnemingen. |
| Cumulatieve relatieve frequentie | De som van de relatieve frequenties van een klasse en alle voorgaande klassen in een frequentietabel. |
| Polygoondiagram | Een lijngrafiek die de frequentiepunten van opeenvolgende klassen van een histogram verbindt om de algemene vorm van de verdeling te tonen. |
| Kans | De waarschijnlijkheid dat een bepaalde gebeurtenis zal plaatsvinden, uitgedrukt als een getal tussen 0 en 1. |
| Integraalrekening | Een tak van de wiskunde die zich bezighoudt met het bepalen van integralen, wat gebruikt kan worden om oppervlaktes onder curves te berekenen, gerelateerd aan kansdichtheid. |
| Kansdichtheid | Een functie die de relatieve waarschijnlijkheid van het voorkomen van een continue willekeurige variabele op een bepaald punt aangeeft; de integraal van de kansdichtheidsfunctie over een interval geeft de kans op die gebeurtenis aan. |
| Normale verdeling (Gaussverdeling) | Een continue kansverdeling die de vorm heeft van een symmetrische klokcurve, gekarakteriseerd door zijn gemiddelde en standaarddeviatie. |
| Verwachtingswaarde (µ) | Het gemiddelde van een kansverdeling; de langetermijn gemiddelde waarde van een willekeurige variabele. |
| Standaardafwijking (σ) | Een maat voor de spreiding van een dataset rond het gemiddelde; geeft aan hoe ver de gegevenspunten gemiddeld van het gemiddelde liggen. |
| Rekenkundig gemiddelde ($\bar{X}$) | De som van alle waarden in een dataset gedeeld door het aantal waarden; een maat voor centrale tendens. |
| Mediaan (Me) | De middelste waarde in een geordende dataset; de waarde die de dataset in twee gelijke helften verdeelt. |
| Modus (Mo) | De waarde die het vaakst voorkomt in een dataset. |
| Bi-modale verdeling | Een kansverdeling met twee moda, of twee pieken. |
| Multimodale verdeling | Een kansverdeling met meer dan twee moda, of meer dan twee pieken. |
| Spreiding | De mate waarin data in een dataset verspreid zijn rond het gemiddelde. |
| Range (Variatiebreedte) (R) | Het verschil tussen de hoogste en laagste waarde in een dataset. |
| Standaarddeviatie (s) | Een statistische maat die de spreiding van een dataset aangeeft ten opzichte van het gemiddelde; de vierkantswortel van de variantie. |
| Kwartielafstand (Interkwartielafstand) | Het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1) van een dataset; een maat voor de spreiding van de middelste 50% van de data. |
| Q1 (Eerste kwartiel) | De waarde waaronder 25% van de data in een geordende dataset valt. |
| Q3 (Derde kwartiel) | De waarde waaronder 75% van de data in een geordende dataset valt. |
| Tukey's fences | Een methode die gebruikmaakt van kwartielen en een constante factor (k) om grenzen te definiëren waarbuiten datapunten als uitschieters worden beschouwd. |
| Outlier | Een datapunt dat significant afwijkt van andere waarden in een dataset. |
| Far out | Een datapunt dat nog verder van de rest van de dataset af ligt dan een "outlier", zoals gedefinieerd door Tukey's fences. |
Cover
Les_6_SPC_IKZ_25.pdf
Summary
# De normale verdeling en haar toepassingen
De normale verdeling, ook wel Gaussverdeling genoemd, is een fundamentele continue kansverdeling die veel gebruikt wordt in statistiek en waarschijnlijkheidsrekening om natuurlijke fenomenen te modelleren [4](#page=4).
## 1. De normale verdeling en haar toepassingen
### 1.1 Theoretische benadering van de normale verdeling
De normale verdeling wordt gekenmerkt door twee parameters: de verwachtingswaarde ($\mu$) en de standaardafwijking ($\sigma$). De kansdichtheid van deze verdeling wordt grafisch weergegeven door de Gausscurve [4](#page=4) [5](#page=5).
**Kenmerken van de Gausscurve:**
* De kansdichtheid is symmetrisch rond de verwachtingswaarde ($\mu$) [5](#page=5).
* De curve is het hoogst bij het gemiddelde en neemt af naarmate de afstand tot het gemiddelde toeneemt, zonder ooit exact nul te worden [5](#page=5).
* De verdeling loopt theoretisch van $-\infty$ tot $+\infty$ [5](#page=5).
* De vorm van de verdeling wordt volledig bepaald door $\mu$ en $\sigma$ [5](#page=5).
### 1.2 De standaard normale verdeling
Een speciale vorm van de normale verdeling is de **standaard normale verdeling**, waarbij de parameters vastliggen op:
* Verwachtingswaarde ($\mu$ of $x$) = 0 [7](#page=7).
* Standaardafwijking ($\sigma$ of $s$) = 1 [7](#page=7).
De **excentriciteit ($u$)** is een maatstaf die aangeeft hoeveel standaardafwijkingen een specifieke waarde ($X$) verwijderd is van het gemiddelde ($\mu$). Deze waarde wordt berekend met de formule [7](#page=7):
$$u = \frac{X - \mu}{\sigma}$$
of, met de gebruikte notatie in de oefeningen:
$$u = \frac{X - \bar{x}}{s}$$
De $u$-waarde kan worden gebruikt om kansen te bepalen door deze te vergelijken met tabellen van de normale verdeling, die de oppervlakte onder de curve weergeven voor een gegeven $u$-waarde [7](#page=7).
### 1.3 Berekening van kansen met de standaardafwijking
Om te bepalen welk percentage van de data binnen bepaalde grenzen valt, wordt de $u$-score berekend, waarna de bijbehorende oppervlakte (kans) uit een standaard normale verdelingstabel kan worden afgelezen.
#### 1.3.1 Voorbeeld: Lengte van studenten
**Oefening 1:** Gegeven is dat de gemiddelde lengte van studenten $\bar{x} = 180,7$ cm is en de standaardafwijking $s = 7,1$ cm [10](#page=10) [11](#page=11).
1. **Hoeveel procent is groter dan 186 cm?**
* Bereken de $u$-score voor $X = 186$ cm:
$$u = \frac{186 - 180,7}{7,1} = \frac{5,3}{7,1} \approx 0,746 \approx 0,75$$
* Zoek de corresponderende kans in de tabel. De tabel geeft de kans aan voor $u \le 0,75$. Als $f(u)$ de oppervlakte tot $u$ is, dan is $f(0,75) \approx 0,7734$ [13](#page=13).
* De kans op een lengte groter dan 186 cm is $1 - f(u)$:
$$1 - 0,7734 = 0,2264$$
Dit betekent dat 22,64% van de studenten groter is dan 186 cm [13](#page=13).
2. **Hoeveel procent is kleiner dan 165 cm?**
* Bereken de $u$-score voor $X = 165$ cm:
$$u = \frac{165 - 180,7}{7,1} = \frac{-15,7}{7,1} \approx -2,211$$
* Voor negatieve $u$-waarden leest men de kans af voor de positieve tegenhanger ($u'$) en gebruikt men de symmetrie van de verdeling. De tabel geeft de kans voor $u \le -2,211$ als $1 - f(u')$ waarbij $u'$ de positieve waarde is. Als $f(u')$ de oppervlakte tot $u'$ weergeeft, dan is $1 - f(u')$ de kans op $u < -u'$.
De kans voor $u' \approx 2,21$ uit de tabel is $f(2,21) \approx 0,9864$ [14](#page=14).
* De kans op een lengte kleiner dan 165 cm is direct af te lezen als de oppervlakte tot $u=-2,211$.
De tabel geeft direct de kans voor $u \le -2,211$ als $1 - f(2,21)$ wanneer de tabel de oppervlakte vanaf het midden tot $u'$ weergeeft. Als de tabel de totale oppervlakte tot $u$ weergeeft, is de kans $0,0136$.
$$1 - 0,9864 = 0,0136$$
Dit betekent dat 1,36% van de studenten kleiner is dan 165 cm [14](#page=14).
3. **Hoeveel procent heeft een lengte tussen 182 cm en 187 cm?**
* Bereken de $u$-score voor $X = 182$ cm:
$$u_1 = \frac{182 - 180,7}{7,1} = \frac{1,3}{7,1} \approx 0,183 \approx 0,18$$
* De kans op een lengte kleiner dan 182 cm (oppervlakte tot $u_1 = 0,18$) is $f(0,18) \approx 0,5714$ [15](#page=15).
* Bereken de $u$-score voor $X = 187$ cm:
$$u_2 = \frac{187 - 180,7}{7,1} = \frac{6,3}{7,1} \approx 0,887 \approx 0,89$$
* De kans op een lengte kleiner dan 187 cm (oppervlakte tot $u_2 = 0,89$) is $f(0,89) \approx 0,8133$ [16](#page=16).
* De kans op een lengte tussen 182 cm en 187 cm is het verschil tussen de twee kansen:
$$f(u_2) - f(u_1) = 0,8133 - 0,5714 = 0,2419$$
Dit betekent dat 24,19% van de studenten een lengte heeft tussen 182 cm en 187 cm [17](#page=17).
#### 1.3.2 Voorbeeld: Vulgewicht van suikerzakjes
**Oefening 2:** Een suikerfabrikant vult pakken suiker met een normale verdeling en een standaardafwijking van $s = 10$ gram. De eis is dat maximaal 5% van de pakken een gewicht lager dan 1000 gram mag hebben. Gevraagd wordt op welk gemiddeld vulgewicht ($\bar{x}$) de machine ingesteld moet worden [18](#page=18) [19](#page=19).
* Gegeven is dat $P(X < 1000) = 0,05$ en $s = 10$ [19](#page=19).
* We zoeken de $u$-waarde waarvoor $P(u < u) = 0,05$. In de standaard normale verdelingstabel vinden we dat de kans van 0,05 overeenkomt met een $u$-waarde van ongeveer $-1,64$ (dit is de waarde waarbij 5% van de oppervlakte links ervan ligt) [20](#page=20).
$$u \approx -1,64$$
* Nu kunnen we de formule voor $u$ herschrijven om $\bar{x}$ te berekenen:
$$u = \frac{X - \bar{x}}{s} \implies \bar{x} = X - (u \times s)$$
* Invullen van de waarden:
$$\bar{x} = 1000 - (-1,64 \times 10)$$
$$\bar{x} = 1000 - (-16,4)$$
$$\bar{x} = 1016,4 \text{ gram}$$
* De vulmachine moet dus ingesteld worden op een gemiddeld vulgewicht van 1016,4 gram om aan de eis te voldoen [20](#page=20).
#### 1.3.3 Voorbeeld: Levensduur van vrachtwagenbanden
**Oefening 3:** Een transportbedrijf heeft 100 vrachtwagenbanden. De levensduur van een band is normaal verdeeld met een gemiddelde van $\mu = 120.000$ km en een standaardafwijking van $\sigma = 12.500$ km [26](#page=26).
1. **Hoeveel banden (%) mag men verwachten die niet langer dan 140.000 km zullen meegaan?**
* Bereken de $u$-score voor $X = 140.000$ km:
$$u = \frac{140.000 - 120.000}{12.500} = \frac{20.000}{12.500} = 1,6$$
* De kans op een levensduur kleiner dan 140.000 km is de oppervlakte tot $u = 1,6$. Met behulp van een tabel is deze kans $f(1,6) \approx 0,9452$.
* Dit betekent dat 94,52% van de banden niet langer dan 140.000 km meegaat [26](#page=26).
2. **Hoeveel banden zal men moeten vervangen tussen 100.000 en 130.000 km?**
* Bereken de $u$-score voor $X = 100.000$ km:
$$u_1 = \frac{100.000 - 120.000}{12.500} = \frac{-20.000}{12.500} = -1,6$$
* De kans op een levensduur kleiner dan 100.000 km is de oppervlakte tot $u_1 = -1,6$. Dit is $1 - f(1,6) = 1 - 0,9452 = 0,0548$.
* Bereken de $u$-score voor $X = 130.000$ km:
$$u_2 = \frac{130.000 - 120.000}{12.500} = \frac{10.000}{12.500} = 0,8$$
* De kans op een levensduur kleiner dan 130.000 km is de oppervlakte tot $u_2 = 0,8$. Dit is $f(0,8) \approx 0,7881$.
* De kans op een levensduur tussen 100.000 en 130.000 km is het verschil:
$$f(u_2) - f(u_1) = 0,7881 - 0,0548 = 0,7333$$
* Bij 100 banden is dit $0,7333 \times 100 = 73,33$ banden. Men zal dus ongeveer 73 banden moeten vervangen in dit interval [26](#page=26).
3. **Na hoeveel km zal 12% van de banden versleten zijn?**
* Dit betekent dat we de $X$-waarde zoeken waarvoor de kans op versleten zijn (minder kilometers dan $X$) gelijk is aan 0,12. We zoeken dus de $X$ waarvoor $P(X < X) = 0,12$.
* We zoeken de $u$-waarde waarvoor $f(u) = 0,12$. In de tabel vinden we dat dit overeenkomt met $u \approx -1,176$ (aangezien 12% erg aan de lage kant van de verdeling ligt, verwachten we een negatieve $u$-waarde).
* Nu gebruiken we de formule om $X$ te berekenen:
$$u = \frac{X - \mu}{\sigma} \implies X = \mu + (u \times \sigma)$$
* Invullen van de waarden:
$$X = 120.000 + (-1,176 \times 12.500)$$
$$X = 120.000 - 14.700$$
$$X = 105.300 \text{ km}$$
* Na ongeveer 105.300 km zal 12% van de banden versleten zijn [26](#page=26).
> **Tip:** Bij het werken met normale verdelingstabellen is het cruciaal om te onthouden of de tabel de oppervlakte tot een bepaalde $u$-waarde weergeeft, of de oppervlakte tussen het gemiddelde en $u$. Dit bepaalt hoe je kansen berekent voor intervallen en voor waarden buiten het gemiddelde.
> **Tip:** Rond $u$-waarden altijd af naar twee decimalen voor het opzoeken in standaardtabellen, tenzij anders gespecificeerd. Gebruik de meest accurate afgeronde waarde die in de tabel voorkomt.
> **Tip:** Controleer altijd of je antwoord logisch is. Als je bijvoorbeeld vraagt naar het percentage boven het gemiddelde, verwacht dan ongeveer 50%. Als je vraagt naar het percentage ver van het gemiddelde, verwacht dan een kleine waarde.
---
# Statistische procescontrole (SPC)
Statistische procescontrole (SPC) omvat het gebruik van statistische methoden om processen te monitoren en te beheersen, met een specifieke focus op het interpreteren van werppatronen om zowel systematische als toevallige fouten te identificeren [2](#page=2).
### 2.1 Kernconcepten van SPC
SPC is gebaseerd op het principe dat elk proces variatie kent, die kan worden opgedeeld in twee hoofdcategorieën: systematische fouten en toevallige fouten [21](#page=21).
#### 2.1.1 Systematische fouten
Systematische fouten vertegenwoordigen een consistente afwijking van de gewenste waarde. Ze zijn vaak het gevolg van een structureel probleem in het proces, zoals een verkeerd ingestelde machine of een consistente fout in de materiaallevering. In de context van het werppatroon (darts op een bord) wordt een systematische fout herkend wanneer het gemiddelde van de worpen buiten de tolerantiegrenzen valt. Als het gemiddelde samenvalt met het midden van de tolerantie, duidt dit op een optimale regeling met minimale systematische fouten. Wanneer het gemiddelde echter niet in de roos (het ideale punt) ligt, is er sprake van een systematische afwijking ten opzichte van de ideale waarde, zelfs als de spreiding klein is [21](#page=21) [22](#page=22) [23](#page=23).
#### 2.1.2 Toevallige fouten
Toevallige fouten zijn willekeurige, onvoorspelbare variaties binnen een proces. Ze worden vaak veroorzaakt door kleine, oncontroleerbare factoren die inherent zijn aan het proces. Een grote spreiding in de worpen duidt op een aanzienlijke invloed van toevallige fouten. Zelfs als er geen uitval is (alle producten binnen de tolerantiegrenzen vallen), kan een grote spreiding een reëel gevaar voor toekomstige uitval betekenen. Een kleine spreiding daarentegen, betekent dat het proces onder controle is met weinig tot geen invloed van toevallige fouten [21](#page=21) [22](#page=22) [23](#page=23).
### 2.2 Interpreteren van werppatronen
De analyse van werppatronen, vaak visueel voorgesteld met behulp van controlekaarten (later te bespreken ), is cruciaal voor het begrijpen van de processtatus [35](#page=35).
#### 2.2.1 Worp 1: Slecht geregeld proces
* **Observatie:** De meeste darts vallen naast het bord.
* **Interpretatie:** Het gemiddelde en de spreiding liggen buiten de bordgrenzen. Het gemiddelde ligt buiten de tolerantie, wat duidt op een systematische fout. De spreiding is groot, wat wijst op veel toevallige fouten [21](#page=21).
* **Besluit:** Er is veel uitval, en het proces is slecht geregeld met een grote spreiding [21](#page=21).
#### 2.2.2 Worp 2: Optimale regeling met grote spreiding
* **Observatie:** Alle darts vallen binnen het bord.
* **Interpretatie:** Het gemiddelde en de spreiding liggen binnen de bordgrenzen. Het gemiddelde valt samen met het midden van de tolerantie, wat duidt op optimale regeling en minimale systematische fouten. De spreiding is echter groot, wat wijst op aanzienlijke toevallige fouten [22](#page=22).
* **Besluit:** Hoewel er geen uitval is, moeten toevallige fouten worden opgespoord, omdat er een reëel gevaar voor uitval bestaat [22](#page=22).
#### 2.2.3 Worp 3: Kleine spreiding, systematische afwijking
* **Observatie:** Alle darts vallen binnen het bord en dicht bij elkaar, maar het gemiddelde ligt niet in de roos.
* **Interpretatie:** De spreiding is klein, wat aangeeft dat het proces onder controle is met weinig tot geen invloed van toevallige fouten. Het gemiddelde ligt echter niet in de roos, wat duidt op een systematische afwijking ten opzichte van de ideale waarde [23](#page=23).
* **Besluit:** Het proces is niet optimaal geregeld, en producten wijken systematisch af van de ideale waarde [23](#page=23).
#### 2.2.4 Worp 4: Volledig onder controle
* **Observatie:** De meeste darts vallen in het bord en in de roos.
* **Interpretatie:** Het gemiddelde en de spreiding liggen binnen de bordgrenzen. Het gemiddelde ligt op de ideale waarde, wat aangeeft dat het proces onder controle is. De spreiding is klein, wat duidt op weinig tot geen toevallige fouten [24](#page=24).
* **Besluit:** Het proces is volledig onder controle. Het gemiddelde van de producten valt samen met de tolerantiemidden, en er zijn kleine afwijkingen [24](#page=24).
### 2.3 Praktische Toepassingen en Case Studies
Het bepalen van de klanttevredenheid vereist de analyse van de productvariatie ten opzichte van de gestelde eisen [31](#page=31).
#### 2.3.1 Eisen van de klant
Een typische eis van de klant kan worden geformuleerd als een doelwaarde met een acceptabele tolerantie, bijvoorbeeld 500 ± 10 [25](#page=25).
#### 2.3.2 Analyse van processen
Bij de beoordeling van processen wordt gekeken naar het gemiddelde ($\bar{x}$) en de spreiding (vaak weergegeven door de standaardafwijking $s$) [25](#page=25).
* **Oefening 6 Voorbeelden:**
* **Proces A:** $\bar{x} = 503$ en $s = 2$ [25](#page=25).
* **Proces B:** $\bar{x} = 501$ en $s = 4$ [25](#page=25).
* **Proces C:** $\bar{x} = 508$ en $s = 2$ [25](#page=25).
De volgende stappen bij de analyse van een casestudy zijn:
1. Bepaal de minimale en maximale waarden van de producten [31](#page=31).
2. Controleer op uitval en kwantificeer deze [31](#page=31).
3. Identificeer het betreffende proces en bepaal welke bijregeling nodig is [31](#page=31).
#### 2.3.3 Evaluatie na bijregeling
Na een bijregeling kan de status van het proces opnieuw worden geëvalueerd. Stel dat na bijregeling de resultaten zijn:
$$ \bar{x} = 500 $$
$$ s = 3.64 $$
De vraag is of dit nu voldoende is en, zo niet, wat de volgende stappen zijn [33](#page=33).
> **Tip:** Bij continue procesverbetering is het belangrijk om niet alleen de uitval te elimineren, maar ook de spreiding te minimaliseren om de algehele procesefficiëntie te optimaliseren. Dit kan leiden tot een overschakeling van 100% controle naar steekproefsgewijze controle met behulp van controlekaarten [35](#page=35).
---
# Casestudy en praktijkvoorbeelden
Dit deel van het document verkent concrete casestudies en oefeningen om de theoretische concepten van statistische procescontrole en normale verdelingen in de praktijk toe te passen en te analyseren [26](#page=26) [28](#page=28) [29](#page=29) [30](#page=30) [31](#page=31) [32](#page=32) [33](#page=33) [34](#page=34).
### 3.1 Casestudy 1: Vrachtwagenbanden
Een transportbedrijf koopt 100 vrachtwagenbanden. De levensduur van een band is normaal verdeeld met een gemiddelde ($\mu$) van 120.000 km en een spreiding ($\sigma$) van 12.500 km [26](#page=26).
#### 3.1.1 Berekeningen en analyses
**Vraag 1: Hoeveel banden (%) mag men verwachten die niet langer dan 140.000 km zullen meegaan?**
Dit vereist het berekenen van de kans dat een band minder dan of gelijk aan 140.000 km meegaat. Dit kan worden gedaan door de Z-score te berekenen en de bijbehorende kans op te zoeken in een standaard normale verdelingstabel.
De Z-score wordt berekend met de formule: $Z = \frac{X - \mu}{\sigma}$ [26](#page=26).
Met $X = 140.000$ km, $\mu = 120.000$ km, en $\sigma = 12.500$ km:
$Z = \frac{140.000 - 120.000}{12.500} = \frac{20.000}{12.500} = 1,6$ [26](#page=26).
De kans $P(X \le 140.000)$ is gelijk aan $P(Z \le 1,6)$. Uit de tabel van de standaard normale verdeling is deze kans ongeveer 0,9452 [26](#page=26).
Men mag verwachten dat ongeveer 94,52% van de banden niet langer dan 140.000 km meegaat [26](#page=26).
**Vraag 2: Hoeveel banden zal men moeten vervangen tussen 100.000 en 130.000 km?**
Dit vereist het berekenen van de kans dat een band tussen 100.000 en 130.000 km meegaat.
Eerste Z-score voor 100.000 km:
$Z_1 = \frac{100.000 - 120.000}{12.500} = \frac{-20.000}{12.500} = -1,6$ [26](#page=26).
Tweede Z-score voor 130.000 km:
$Z_2 = \frac{130.000 - 120.000}{12.500} = \frac{10.000}{12.500} = 0,8$ [26](#page=26).
De kans $P(100.000 \le X \le 130.000)$ is gelijk aan $P(-1,6 \le Z \le 0,8)$.
Dit wordt berekend als $P(Z \le 0,8) - P(Z \le -1,6)$.
Uit de tabel van de standaard normale verdeling: $P(Z \le 0,8) \approx 0,7881$ en $P(Z \le -1,6) \approx 0,0548$ [26](#page=26).
De kans is dus $0,7881 - 0,0548 = 0,7333$ [26](#page=26).
Men mag verwachten dat ongeveer 73,33% van de banden tussen 100.000 en 130.000 km vervangen moet worden [26](#page=26).
**Vraag 3: Na hoeveel km zal 12% van de banden versleten zijn?**
Dit betekent dat we de waarde $X$ zoeken waarvoor $P(X \le X) = 0,12$. We zoeken dus de X-waarde die correspondeert met een kans van 0,12 in de standaard normale verdeling.
We zoeken de Z-score waarvoor $P(Z \le Z) = 0,12$. Uit de tabel van de standaard normale verdeling is deze Z-score ongeveer -1,175 [26](#page=26).
Nu gebruiken we de Z-score formule om X te berekenen: $Z = \frac{X - \mu}{\sigma}$.
$-1,175 = \frac{X - 120.000}{12.500}$ [26](#page=26).
$X = 120.000 + (-1,175 \times 12.500)$ [26](#page=26).
$X = 120.000 - 14.687,5$ [26](#page=26).
$X = 105.312,5$ km [26](#page=26).
12% van de banden zal versleten zijn na ongeveer 105.312,5 km [26](#page=26).
> **Tip:** Bij het oplossen van dit soort problemen is het cruciaal om de Z-score correct te berekenen en de bijbehorende kansen uit de standaard normale verdelingstabel nauwkeurig af te lezen.
### 3.2 Casestudy 2: Procescontrole en Kwaliteitseisen
Deze casestudy richt zich op de evaluatie van een productieproces ten opzichte van de eisen van een klant [31](#page=31) [33](#page=33).
#### 3.2.1 Initiële procesevaluatie
Het proces produceert voorwerpen met een bepaalde dimensie. De eerste stap is het bepalen van de minimale en maximale gemeten waarden en de spreiding van het proces [31](#page=31) [33](#page=33).
Gegeven de metingen:
Gemiddelde ($\bar{x}$) = 503,58
Spreiding (s) = 3,62 [30](#page=30).
De berekening van het gemiddelde ($\bar{x}$) en de spreiding ($s$) wordt als volgt weergegeven:
$$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} X_i $$
$$ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$ [30](#page=30).
#### 3.2.2 Voldoen aan klantvereisten
De kernvragen in deze casestudy zijn:
1. Zijn de minimale en maximale waarden bepaald [31](#page=31) [33](#page=33)?
2. Is er sprake van uitval (stukken die buiten de specificaties vallen)? Zo ja, hoeveel [31](#page=31) [33](#page=33)?
3. Welk type proces wordt hier geanalyseerd en is bijregeling nodig [31](#page=31) [33](#page=33)?
#### 3.2.3 Evaluatie na bijregeling
Na een mogelijke bijregeling zijn de proceskenmerken veranderd [33](#page=33).
Nieuwe metingen:
Nieuw gemiddelde ($\bar{x}$) = 500
Nieuwe spreiding (s) = 3,64 [33](#page=33).
De vraag is nu:
4. Is dit voldoende (voldoet het aan de klanteisen)? Zo niet, wat zijn de volgende stappen [33](#page=33)?
> **Tip:** Het vergelijken van de procesgemiddelde en spreiding met de klantspecificaties (min en max waarden) is cruciaal om uitval te identificeren en de procesprestatie te beoordelen.
### 3.3 Casestudy 3: Fabricage met specificaties
Dit is een oefening waarbij objecten worden gefabriceerd met een specifieke afmeting [34](#page=34).
#### 3.3.1 Specificaties en initiële metingen
Het proces produceert objecten met een specificatie van 500 ± 10. Dit betekent dat de gewenste waarde 500 is, met een tolerantie van 10 eenheden naar boven en naar beneden. De toegestane limieten zijn dus 490 (min) en 510 (max) [34](#page=34).
De eerste metingen geven:
Gemiddelde ($\bar{x}$) = 503,5
Standaarddeviatie ($\sigma$) = 4 [34](#page=34).
#### 3.3.2 Analyse van uitval en procesverbetering
**Vraag 1-3: Hoe groot is het grootste/kleinste individu, is er uitval en hoeveel procent uitval mag men verwachten?**
We gaan ervan uit dat de metingen ook normaal verdeeld zijn rond het gemiddelde.
* **Grootste individu:** Het grootste individu zal ruwweg $\bar{x} + 3\sigma$ zijn, wat 503,5 + 3*4 = 515 is. Echter, we moeten rekening houden met de definitie van de spreiding die gebruikt wordt (populatie $\sigma$ of steekproef $s$). Als we $\sigma=4$ als populatie standaaarddeviatie beschouwen, dan is 503,5 + 3*4 = 515. Als we de gemeten spreiding als steekproef beschouwen ($s=4$), dan is de schatting met de empirische regel (68-95-99.7) nog steeds een goede benadering. Voor een exact antwoord met de normale verdeling, kijken we naar de Z-score voor de grenzen.
* **Kleinste individu:** Het kleinste individu zal ruwweg $\bar{x} - 3\sigma$ zijn, wat 503,5 - 3*4 = 491,5 is.
Om de uitval te berekenen, vergelijken we de specificaties (490-510) met de procesresultaten.
We berekenen de Z-scores voor de specificatiegrenzen:
Z-score voor de ondergrens: $Z_{onder} = \frac{490 - 503,5}{4} = \frac{-13,5}{4} = -3,375$ [34](#page=34) .
Z-score voor de bovengrens: $Z_{boven} = \frac{510 - 503,5}{4} = \frac{6,5}{4} = 1,625$ [34](#page=34) .
* **Uitval:**
* Uitval onder de ondergrens: $P(Z \le -3,375)$. Dit is een zeer kleine kans, nagenoeg 0%.
* Uitval boven de bovengrens: $P(Z \ge 1,625) = 1 - P(Z \le 1,625)$. Uit een Z-tabel is $P(Z \le 1,625) \approx 0,9479$. Dus, $1 - 0,9479 = 0,0521$ [34](#page=34).
* Totale uitval: ongeveer 5,21% [34](#page=34).
**Vraag 4: Wat gaan we in eerste instantie doen om de uitval te verkleinen?**
Om uitval te verkleinen, kunnen we proberen het proces te centreren rond de doelwaarde en de spreiding te reduceren. Een eerste stap zou kunnen zijn om het gemiddelde bij te stellen .
**Vraag 5: Hoeveel % uitval mogen we nu nog verwachten (na bijregeling naar 500)?**
Als we aannemen dat na bijregeling het gemiddelde 500 is en de spreiding ($\sigma$) ongewijzigd blijft dan zijn de Z-scores voor de specificaties (490-510) [4](#page=4):
Z-score voor de ondergrens: $Z_{onder} = \frac{490 - 500}{4} = \frac{-10}{4} = -2,5$ [34](#page=34) .
Z-score voor de bovengrens: $Z_{boven} = \frac{510 - 500}{4} = \frac{10}{4} = 2,5$ [34](#page=34) .
* **Uitval:**
* Uitval onder de ondergrens: $P(Z \le -2,5)$. Dit is ongeveer 0,0062 [34](#page=34).
* Uitval boven de bovengrens: $P(Z \ge 2,5) = 1 - P(Z \le 2,5)$. Dit is ongeveer $1 - 0,9938 = 0,0062$ [34](#page=34).
* Totale uitval: $0,0062 + 0,0062 = 0,0124$, ofwel 1,24% [34](#page=34).
**Vraag 6: Wat kunnen we doen om de klant tevreden te stellen?**
Om de klant tevreden te stellen, kan men de volgende strategieën overwegen:
* Verdere procesoptimalisatie om de spreiding te reduceren.
* Bespreken van de klanteisen en mogelijk onderhandelen over toleranties indien haalbaar.
* Inspectie en selectie van producten (hoewel 100% controle duur kan zijn).
**Vraag 7: Veronderstel dat de klant akkoord is met volgende voorwaarden: geen enkel stuk onder de 490, bovengrens vrij. Hoe realiseren wij dit? Hoeveel % van de productie is nu boven 500? Bepaal de maximumwaarde die $\sigma$ mag hebben om juist geen uitval te hebben?**
* **Realiseren van de eis:** Om geen enkel stuk onder de 490 te hebben, moet het gemiddelde ($\bar{x}$) zodanig gekozen worden dat zelfs met de bestaande spreiding, de ondergrens van 490 niet wordt overschreden. Als we de $\sigma$ gelijk houden aan 4, dan moet het gemiddelde gelijk zijn aan of groter zijn dan 490. Omdat de klant geen bovengrens stelt, hoeven we daar geen rekening mee te houden.
Om er zeker van te zijn dat er geen uitval is onder 490, moet de ondergrens van de specificatie minstens 3 tot 4 standaarddeviaties boven het gemiddelde liggen, of het gemiddelde moet ruim boven de 490 liggen .
Als we uitgaan van de oorspronkelijke $\sigma = 4$:
Om geen uitval te hebben onder 490, moet $\bar{x} \ge 490$. Als we $\bar{x} = 500$ aanhouden, dan ligt de ondergrens $500 - 3 \times 4 = 488$. Dit betekent dat er nog steeds uitval is.
Om geen uitval te hebben, moet de ondergrens van het proces (die $\bar{x} - 3\sigma$ is) groter zijn dan of gelijk aan 490.
$\bar{x} - 3\sigma \ge 490$ [34](#page=34).
Als we $\bar{x} = 500$ behouden, dan $500 - 3\sigma \ge 490 \implies 10 \ge 3\sigma \implies \sigma \le \frac{10}{3} \approx 3,33$ [34](#page=34).
Als de spreiding echter 4 blijft en de klant eist dat geen enkel stuk onder de 490 is, dan moet het gemiddelde dusdanig worden bijgesteld dat dit gegarandeerd is. De z-score voor 490 moet negatief genoeg zijn. Om **absoluut geen uitval** te garanderen, moet men idealiter op $\bar{x} = 490$ en $\sigma = 0$ zitten, wat niet realistisch is.
Met $\bar{x} = 503,5$ en $\sigma = 4$:
$Z_{490} = \frac{490 - 503,5}{4} = -3,375$. De kans op uitval is heel klein.
Met $\bar{x} = 500$ en $\sigma = 4$:
$Z_{490} = \frac{490 - 500}{4} = -2,5$. De kans op uitval is 0,62%.
Om de eis "geen enkel stuk onder de 490" te realiseren, is het cruciaal dat het procesgemiddelde zodanig is dat, rekening houdend met de spreiding, de ondergrens van 490 niet wordt overschreden. Als we de huidige spreiding $\sigma = 4$ aanhouden, dan moet het gemiddelde ten minste $\bar{x} \ge 490 + 3 \times 4 = 502$ zijn om een zeer lage kans op uitval te hebben, of idealiter $\bar{x} \ge 490$ zelf indien de specificatie de effectieve ondergrens is. Gezien de oorspronkelijke $\bar{x} = 503,5$, is deze eis waarschijnlijk al ruimschoots voldaan. Als we het proces naar $\bar{x}=500$ hebben bijgesteld, dan moet $\sigma \le 10/3$ zijn om geen uitval te hebben onder 490.
* **Hoeveel % van de productie is nu boven 500?**
Als het gemiddelde nu 500 is en de spreiding $\sigma = 4$, dan is 50% van de productie boven 500, aangezien 500 de centrale waarde is [34](#page=34).
* **Bepaal de maximumwaarde die $\sigma$ mag hebben om juist geen uitval te hebben?**
Voor de eis "geen enkel stuk onder de 490" met een bovengrens die vrij is, moeten we de ondergrens van het proces (meestal $\bar{x} - 3\sigma$) gelijkstellen aan of groter maken dan 490.
Als we aannemen dat het gemiddelde op 500 wordt gehouden, dan:
$500 - 3\sigma \ge 490$ [34](#page=34).
$10 \ge 3\sigma$ [34](#page=34).
$\sigma \le \frac{10}{3} \approx 3,33$ [34](#page=34).
De maximumwaarde die $\sigma$ mag hebben om juist geen uitval te hebben (met het gemiddelde op 500) is ongeveer 3,33 [34](#page=34).
### 3.4 Volgende stappen in procescontrole
Het document verwijst naar de volgende les die zal ingaan op steekproeftheorie en controlekaarten. Dit suggereert een overschakeling van 100% controle naar steekproefsgewijze controle om efficiëntie te verhogen en toch processtabiliteit te waarborgen [35](#page=35).
> **Tip:** Casestudies en oefeningen zijn essentieel om de theoretische kennis over statistische procescontrole en normale verdelingen te verstevigen. Ze tonen aan hoe deze concepten worden toegepast om real-world productieproblemen op te lossen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Gaussverdeling | Een continue kansverdeling die wordt gekenmerkt door een symmetrische klokvormige curve, gedefinieerd door een verwachtingswaarde ($\mu$) en een standaardafwijking ($\sigma$). De verdeling loopt theoretisch van $-\infty$ tot $+\infty$. |
| Verwachtingswaarde ($\mu$) | Het gemiddelde van een kansverdeling, dat het centrum van de verdeling aangeeft. In de context van de normale verdeling is dit het punt waar de curve symmetrisch omheen is gebogen. |
| Standaardafwijking ($\sigma$) | Een maat voor de spreiding of variabiliteit van een dataset rond het gemiddelde. Een grotere standaardafwijking duidt op een grotere spreiding van de gegevens. |
| Kansdichtheid | De hoogte van de curve van een kansverdelingsfunctie op een bepaald punt, die de relatieve waarschijnlijkheid van dat punt aangeeft. |
| Gausscurve | Een andere naam voor de curve die de normale verdeling voorstelt, herkenbaar aan zijn symmetrische, klokvormige uiterlijk. |
| Standaard normaal verdeling | Een speciale vorm van de normale verdeling waarbij de verwachtingswaarde ($\mu$) gelijk is aan 0 en de standaardafwijking ($\sigma$) gelijk is aan 1. |
| Excentriciteit (u) | Een gestandaardiseerde waarde die aangeeft hoeveel standaardafwijkingen een bepaalde datapunkt verwijderd is van het gemiddelde. Het wordt berekend als $u = (X - \mu) / \sigma$. |
| Systematische fout | Een fout die consistent optreedt in een proces, wat resulteert in een afwijking van de werkelijke waarde naar een bepaalde kant. Dit leidt vaak tot een gemiddelde dat buiten de tolerantiegrenzen valt. |
| Toevallige fouten | Variaties die optreden als gevolg van onvoorspelbare factoren in een proces, wat leidt tot spreiding in de meetresultaten. Grote spreiding duidt op veel toevallige fouten. |
| Uitval | Producten of resultaten die buiten de gespecificeerde tolerantiegrenzen vallen en daardoor als onbruikbaar worden beschouwd. |
| Steekproeftheorie | Een tak van statistiek die zich bezighoudt met het trekken van conclusies over een populatie op basis van een representatieve steekproef van die populatie. |
| Controlekaarten | Grafische hulpmiddelen die worden gebruikt in statistische procescontrole om de stabiliteit en variabiliteit van een proces over tijd te volgen. |
| Integrale kwaliteitszorg | Een managementfilosofie die zich richt op het continu verbeteren van alle aspecten van een organisatie om te voldoen aan de eisen van de klant. |
| SPC (Statistical Process Control) | Een methode om processen te monitoren en te controleren met behulp van statistische technieken, om de kwaliteit te verbeteren en afval te verminderen. |
Cover
les_7_SPC_IKZ_2526.pdf
Summary
# Steekproeftheorie en kwaliteitscontrole
Dit document beschrijft de principes van steekproeftheorie, inclusief de vergelijking tussen 100% controle en steekproeven, AQL-concepten, en de relatie tussen populatie- en steekproefparameters.
### 1.1 Introductie tot steekproeftheorie
Productieprocessen dienen gecontroleerd te worden op afwijkingen en toleranties. Er zijn twee primaire methoden voor kwaliteitscontrole: 100% controle en steekproeven [3](#page=3).
#### 1.1.1 100% controle
Bij 100% controle wordt de gehele productie geïnspecteerd om alle afkeuringswaardige producten te verwijderen. Deze methode wordt echter zelden toegepast omdat deze kostbaar is en niet altijd praktisch uitvoerbaar. Een voorbeeld is het wegen van elke puzzelzak na het samenstellen om te controleren of er stukjes ontbreken of te veel zijn [4](#page=4).
#### 1.1.2 Steekproef
Een steekproef is een methode waarbij slechts een deel van de productie wordt gecontroleerd, omdat volledige controle vaak onmogelijk of economisch onverantwoord is. Een steekproef bestaat uit een bepaald aantal waarden dat uit het universum (de volledige productie) wordt gehaald. Het is cruciaal dat de steekproef representatief is, wat betekent dat de selectie aselect (willekeurig) moet zijn en dat de genomen monsters elkaar niet mogen beïnvloeden. De ISO-2859 normering wordt gebruikt om de steekproefgrootte te bepalen [5](#page=5).
### 1.2 AQL: Acceptable Quality Level
Het Acceptable Quality Level (AQL) verwijst naar tabellen binnen het steekproefsysteem die voor elke partijgrootte de juiste steekproefgrootte specificeren. Er zijn verschillende inspectieniveaus die de mate van toelaatbaarheid van een partij aangeven [6](#page=6).
* **Niveaus G1 tot G3:** Deze niveaus betreffen niet-destructieve controlemethoden, waarbij G3 strenger is dan G2, en G2 weer strenger is dan G1 [6](#page=6).
* **Steekproefgrootte:** Niveau G3 vereist een grotere steekproefgrootte dan de lagere niveaus. Veel sectoren hanteren niveau G2 als de standaardnorm [6](#page=6).
* **ISO-2859-1:1999:** Dit is een specifieke norm die gerelateerd is aan AQL en steekproefsystemen [7](#page=7) [8](#page=8) [9](#page=9).
### 1.3 Parameters van een steekproef en hun relatie tot het universum
#### 1.3.1 Populatieparameters
De parameters van het universum (de volledige populatie) zijn onder andere:
* Gemiddelde: Vaak aangeduid met $\mu$.
* Spreiding: Vaak aangeduid met $\sigma$ of $s$ voor de steekproefspreiding.
#### 1.3.2 Steekproefparameters
De parameters van een steekproef zijn onder andere:
* Gemiddelde: Aangeduid met $\bar{x}$ (steekproefgemiddelde) of $\bar{\bar{x}}$ (gemiddelde van steekproefgemiddelden) [10](#page=10).
* Spreiding: Aangeduid met $s_x$ (spreiding van steekproefgemiddelden) [10](#page=10).
#### 1.3.3 Verband tussen de spreiding van het universum ($s$) en het steekproefgemiddelde ($\bar{x}$)
Wanneer wordt aangenomen dat het universum normaal verdeeld is met parameters $\sigma$ en $\mu$, en er worden telkens steekproeven van een vast aantal ($N$) eenheden genomen, dan zullen de gemiddelden van deze steekproeven zich spreiden rond het gemiddelde van het universum. Bij een oneindig aantal steekproeven zullen deze steekproefgemiddelden ($\bar{x}_i$) zich normaal verdelen rond het universumgemiddelde ($\mu$) [11](#page=11) [12](#page=12).
* Het gemiddelde van alle steekproefgemiddelden is gelijk aan het universumgemiddelde: $\bar{\bar{x}} = \mu$ [13](#page=13).
* De spreiding van de steekproefgemiddelden ($s_{\bar{x}}$) is gelijk aan de spreiding van het universum ($s$) gedeeld door de vierkantswortel van het aantal eenheden in de steekproef ($N$): $s_{\bar{x}} = \frac{s}{\sqrt{N}}$ [13](#page=13).
#### 1.3.4 Praktische betekenis
De waarde van een steekproefgemiddelde varieert van steekproef tot steekproef. Gemiddeld genomen liggen deze waarden echter dicht bij het universumgemiddelde $\mu$, omdat het gemiddelde van de steekproefgemiddelden gelijk is aan $\mu$. De steekproefgemiddelden zijn normaal verdeeld rond het universumgemiddelde. De minimale en maximale waarden die men kan verwachten voor een steekproefgemiddelde, met een betrouwbaarheid van ongeveer 99,7%, liggen binnen drie standaardafwijkingen van het gemiddelde van de steekproefgemiddelden [14](#page=14):
$$ \text{Min} = \bar{\bar{x}} - 3 s_{\bar{x}} $$
$$ \text{Max} = \bar{\bar{x}} + 3 s_{\bar{x}} $$
Dit principe maakt het mogelijk om aan de hand van steekproeven uitspraken te doen over het universum [15](#page=15).
### 1.4 Oefening en toepassingen
#### 1.4.1 Oefening 1
Gegeven: steekproeven van $N=5$ stuks, het gemiddelde van de steekproefgemiddelden $\bar{\bar{x}} = 152$ gram, en de spreiding van de steekproefgemiddelden $s_{\bar{x}} = 2$ gram [17](#page=17).
1. **Kleinste en grootste gemiddelde dat kan voorkomen:**
Gebruikmakend van de formule $\text{Min/Max} = \bar{\bar{x}} \pm 3 s_{\bar{x}}$ [18](#page=18):
Min: $152 - 3 \times 2 = 146$ gram [18](#page=18).
Max: $152 + 3 \times 2 = 158$ gram [18](#page=18).
2. **Kleinste en grootste individu dat kan voorkomen:**
Eerst moet de spreiding van het universum ($s$) bepaald worden met behulp van de relatie $s_{\bar{x}} = \frac{s}{\sqrt{N}}$ [20](#page=20):
$s = s_{\bar{x}} \times \sqrt{N} = 2 \times \sqrt{5} \approx 4.47$ gram [20](#page=20).
De kleinste en grootste individuele waarden worden geschat met $\text{Min/Max} = \bar{\bar{x}} \pm 3s$:
Min: $152 - 3 \times 4.47 \approx 138.6$ gram [21](#page=21).
Max: $152 + 3 \times 4.47 \approx 165.4$ gram [21](#page=21).
3. **Uitval bij eis 150 ± 10 gram:**
De toegestane range voor individuele producten is 140 gram tot 160 gram. De geschatte range van individuele producten is 138.6 gram tot 165.4 gram. Aangezien de geschatte range buiten de toegestane range valt, is er uitval. Het percentage uitval kan bepaald worden door de oppervlakte onder de normaalverdelingscurve buiten de grenzen te berekenen [21](#page=21) [23](#page=23).
4. **Bijregelen om uitval te verkleinen:**
Om de uitval te verkleinen, kan er bijgeregeld worden. Dit impliceert een aanpassing van het productieproces om het gemiddelde en/of de spreiding te verbeteren.
#### 1.4.2 Oefening 2 (Gebaseerd op pagina's 24, 27, 28)
Deze oefening illustreert het bepalen van de universumspreiding uit de gemiddelde Range ($\bar{R}$) van steekproeven met behulp van de formule $s = \frac{\bar{R}}{d_2}$ [24](#page=24).
Gegeven: $\bar{\bar{x}} = 22.025$, $\bar{R} = 5$, $N = 5$. De constante $d_2$ voor $N=5$ is 2.33 [27](#page=27) [28](#page=28).
* **Bepaal de universumspreiding ($s$):**
$s = \frac{\bar{R}}{d_2} = \frac{5}{2.33} \approx 2.146$ [28](#page=28).
* **Bepaal de grenzen voor het gemiddelde (met 3s):**
Min: $\bar{\bar{x}} - 3s = 22.025 - 3 \times 2.146 \approx 15.587$ [28](#page=28).
Max: $\bar{\bar{x}} + 3s = 22.025 + 3 \times 2.146 \approx 28.463$ [28](#page=28).
### 1.5 Relatie tussen populatie- en steekproefparameters
Het is mogelijk om aan de hand van steekproefresultaten conclusies te trekken over de parameters van het universum. Door het gemiddelde van steekproefgemiddelden ($\bar{\bar{x}}$) en de spreiding van steekproefgemiddelden ($s_{\bar{x}}$) te bepalen, kan men schattingen maken van het populatiegemiddelde ($\mu$) en de populatiespreiding ($s$). Dit is de kern van inferentiële statistiek, waarbij men de steekproef gebruikt om het gedrag van de gehele populatie te voorspellen [13](#page=13) [15](#page=15).
> **Tip:** Begrijp de wiskundige relatie tussen de spreiding van individuele eenheden ($s$) en de spreiding van steekproefgemiddelden ($s_{\bar{x}}$) die $s_{\bar{x}} = \frac{s}{\sqrt{N}}$ is. Dit is essentieel om van steekproefgemiddelden naar individuele eenheden te kunnen extrapoleren.
> **Tip:** Wees consistent in het gebruik van notatie voor populatieparameters (vaak Griekse letters zoals $\mu$ en $\sigma$) en steekproefparameters (vaak Romeinse letters zoals $\bar{x}$ en $s$). In de documentatie wordt $s$ soms zowel voor populatie- als steekproefspreiding gebruikt, wat contextgevoelig is.
> **Tip:** De regel van '3 sigma' (of $3s$) is een veelgebruikte vuistregel om de grenzen van normale spreiding te schatten (ongeveer 99,7% van de data valt binnen deze grenzen voor een normale verdeling). Dit principe wordt toegepast op zowel steekproefgemiddelden als individuele waarden.
---
# Controlekaarten en foutenanalyse
Dit gedeelte introduceert controlekaarten, specifiek de x-R controlekaart, als instrumenten voor procesbeheersing, het stabiliseren van processen en het herkennen van diverse fouten.
### 2.1 De rol van controlekaarten
Controlekaarten zijn hulpmiddelen die worden gebruikt om de stabiliteit van een proces te bepalen. Ze maken gebruik van controlelimieten, die berekend worden op basis van het proces zelf, om aan te geven wanneer de kans groot is dat het proces is veranderd. Wanneer alle punten binnen deze limieten blijven en er geen speciale patronen worden waargenomen, wordt de toestand van het proces als stabiel beschouwd. Het doel van controlekaarten is dan ook het beheersen van het proces door de stabiliteit ervan te beoordelen. Deze limieten dienen berekend te worden vanuit een stabiel proces [29](#page=29) [30](#page=30).
### 2.2 De x-R controlekaart
De x-R controlekaart is specifiek ontworpen om zowel het gemiddelde als de spreiding (range) van metingen binnen een proces te beheersen. Dit type kaart wordt gebruikt om de kwaliteit en productieomstandigheden van een proces te reguleren, waarbij $x$ staat voor het procesgemiddelde en $R$ voor de spreiding. De formules voor het bepalen van de controle- of regelgrenslimieten zijn afgeleid uit de steekproeftheorie [31](#page=31).
#### 2.2.1 Berekening van controlelimieten voor de x-R kaart
De x-R kaart houdt rekening met het gemiddelde van een kleine reeks metingen (steekproef) en de spreiding van iedere reeks metingen. De theoretische formule voor de controlelimieten van het gemiddelde ($x$-kaart) is [32](#page=32):
$$ \bar{x} \pm 3s_{\bar{x}} $$
waarbij $s_{\bar{x}}$ de standaarddeviatie van de steekproefgemiddelden is. Met behulp van steekproeftheorie kan dit verder uitgewerkt worden [32](#page=32):
$$ s_{\bar{x}} = \frac{s}{\sqrt{N}} $$
waarbij $s$ de standaarddeviatie van de steekproef is en $N$ de steekproefgrootte [32](#page=32).
Voor de praktijk wordt vaak de volgende vereenvoudigde formule gebruikt, die rekening houdt met de range ($R$):
$$ \bar{x} \pm A_2 \bar{R} $$
waarbij $\bar{R}$ het gemiddelde van de ranges is en $A_2$ een constante die afhangt van de steekproefgrootte $N$. De relatie tussen $A_2$, $d_2$ (een factor uit steekproeftheorie gerelateerd aan de range) en $N$ is [33](#page=33):
$$ A_2 = \frac{3}{d_2 \sqrt{N}} $$
Er wordt ook een aparte controlekaart voor de range ($R$-kaart) gehanteerd. De controlelimieten voor de range worden berekend met behulp van de gemiddelde range $\bar{R}$ en een constante $D_4$ en $D_3$ uit de steekproeftheorie, die afhangen van de steekproefgrootte $N$ [34](#page=34) [35](#page=35).
* **Regellimieten voor de $\bar{x}$-kaart:**
$$ UCL_{\bar{x}} = \bar{\bar{x}} + A_2 \bar{R} $$
$$ LCL_{\bar{x}} = \bar{\bar{x}} - A_2 \bar{R} $$
Hierbij is $\bar{\bar{x}}$ het gemiddelde van de steekproefgemiddelden [33](#page=33).
* **Regellimieten voor de $R$-kaart:**
$$ UCL_R = D_4 \bar{R} $$
$$ LCL_R = D_3 \bar{R} $$
Voor $N > 1$, is $D_3$ vaak 0 [34](#page=34) [35](#page=35).
### 2.3 Herkennen van fouten met controlekaarten
Controlekaarten helpen bij het identificeren van twee hoofdtypes van fouten: systematische fouten en toevallige fouten [36](#page=36).
#### 2.3.1 Systematische fouten
Een systematische fout manifesteert zich doordat het gemiddelde van het proces niet meer op het gewenste niveau ligt. Dit duidt op een structureel probleem dat bijregeling van het proces vereist, bijvoorbeeld door het bijstellen van machines. Een voorbeeld hiervan is een versleten beitel die ertoe leidt dat alle geproduceerde onderdelen consequent te groot zijn. Dit type fout is direct zichtbaar op de $\bar{x}$-kaart [37](#page=37).
> **Voorbeeld:** Een versleten beitel zorgt ervoor dat alle onderdelen een afmeting hebben die systematisch boven de specificatie ligt. Dit wordt waargenomen als een verschuiving van het procesgemiddelde op de $\bar{x}$-kaart.
#### 2.3.2 Toevallige fouten
Toevallige fouten uiten zich in een te grote spreiding van de meetresultaten, wat resulteert in een te hoge $R$ op de $R$-kaart. Het verkleinen van deze spreiding vereist vaak een grondige analyse, bijvoorbeeld met behulp van een Ishikawa-diagram (visgraatdiagram) voor inventarisatie en Pareto-analyse voor prioritering. Mogelijke oorzaken van toevallige fouten zijn menselijke factoren (zoals vermoeidheid van een operator), machinegerelateerde problemen (zoals een versleten lager) of variaties in materiaal van verschillende leveranciers [39](#page=39).
> **Voorbeeld:** Variaties in de kwaliteit van het aangeleverde materiaal van verschillende leveranciers kunnen leiden tot een grotere spreiding in de productafmetingen, wat zichtbaar wordt als een hoge $R$-waarde op de $R$-kaart.
### 2.4 Het opstellen van een x-R controlekaart
Het proces van het uittekenen van een x-R controlekaart omvat de volgende stappen [41](#page=41) [56](#page=56):
1. **Steekproeven nemen:** Verzamel minimaal 20 tot 25 steekproeven, waarbij elke steekproef uit een groep metingen bestaat [41](#page=41) [56](#page=56).
2. **Gemiddelden berekenen:** Bepaal voor elke steekproefgroep het gemiddelde ($x$-waarde) [41](#page=41) [56](#page=56).
3. **Ranges berekenen:** Bereken voor elke steekproefgroep het minimum en maximum en bepaal daaruit de range ($R$-waarde) [41](#page=41) [56](#page=56).
4. **Uitvoeren in diagram:** Zet de berekende $x$- en $R$-waarden uit in een grafisch diagram (de controlekaart) [41](#page=41) [56](#page=56).
5. **Gemiddelde waarden bepalen:** Bereken de gemiddelde waarde van alle $x$-waarden ($\bar{\bar{x}}$) en de gemiddelde waarde van alle $R$-waarden ($\bar{R}$) [41](#page=41) [56](#page=56).
6. **Regellimieten berekenen:** Bereken de bovenste en onderste regelgrenzen voor zowel de $\bar{x}$-kaart als de $R$-kaart [41](#page=41) [56](#page=56).
7. **Grenzen plaatsen:** Plaats de berekende regelgrenzen op de controlekaart [41](#page=41) [56](#page=56).
8. **Controleren op stabiliteit:** Verifieer of de uitgezette punten binnen de toegestane bereiken tussen de bovenste en onderste grenzen vallen [41](#page=41) [56](#page=56).
### 2.5 Illustratieve voorbeelden van procesafwijkingen
Diverse patronen op controlekaarten kunnen wijzen op specifieke problemen [43](#page=43) [44](#page=44) [45](#page=45) [46](#page=46) [47](#page=47) [48](#page=48) [49](#page=49):
* **Opwaarts verloop van gemiddelden:** Een stijgende trend in de steekproefgemiddelden over zes of meer opeenvolgende metingen kan duiden op "drift" in het proces, mogelijk veroorzaakt door slijtage aan gereedschap. Dit vereist herhaalde bijstellingen om de drift te compenseren [43](#page=43).
* **Gemiddelde buiten limieten:** Wanneer het gemiddelde voortdurend buiten de controlelimieten valt, zowel aan de bovenzijde (BKG) als de onderzijde (OKG), kan dit wijzen op te grote bijstellingen door de operator, wat scholing vereist [44](#page=44).
* **Gemiddelden naar één limiet:** Als de gemiddelden structureel naar de bovengrens (of ondergrens) neigen in plaats van rond het midden te liggen, is het proces niet onder controle en kan een groter percentage uitval verwacht worden, zelfs als de waarden nog binnen de grenzen vallen. Een mogelijke oorzaak is de inloopperiode van een machine [45](#page=45).
* **Voorspelbare proceswijziging:** Een voorspelbare, extreme wijziging in het proces, zoals aan het begin van een dienst of na een pauze, kan duiden op een machine die nog niet op temperatuur is. In zo'n geval kan 100% controle tijdens de opwarmperiode noodzakelijk zijn [46](#page=46).
* **Negatieve proceswijziging met toegenomen spreiding:** Wanneer de spreiding in elke steekproef toeneemt en buiten de controlelimieten valt, duidt dit op een negatieve proceswijziging. Dit vereist nader onderzoek en correctie [47](#page=47).
* **Range die naar nul gaat:** Als de range herhaaldelijk richting nul gaat, terwijl het proces ogenschijnlijk onder controle lijkt, kan dit een indicator zijn van problemen bij de operator, zoals het slechts controleren van één stuk, onkunde met meetapparatuur of het verzinnen van data. Dit vereist direct onderzoek omdat de verzamelde gegevens waardeloos kunnen zijn [48](#page=48).
* **Positieve wijziging in range:** Een positieve verandering in de range, waarbij de waarden dichter bij elkaar liggen, kan wijzen op een succesvolle procesverbetering. Na het uitvoeren van verbeteringen en het nemen van voldoende nieuwe steekproeven (20-25), is het raadzaam om de controlegrenzen opnieuw te berekenen [49](#page=49).
### 2.6 Keuze van waarden voor berekeningen
#### 2.6.1 De waarde van $\bar{\bar{x}}$
* **Theoretisch:** $\bar{\bar{x}}$ vertegenwoordigt het gemiddelde van alle steekproefgemiddelden [51](#page=51).
* **Praktisch:** In de praktijk kan $\bar{\bar{x}}$ vervangen worden door de nominale waarde van de klantenspecificatie. Dit levert extra informatie op met betrekking tot de instelling van het proces [51](#page=51).
#### 2.6.2 De waarde van $\bar{R}$
* **Wanneer het proces nog niet bekend is:** Als het proces nieuw is of nog niet goed gekend, worden eerst ongeveer tien steekproeven uitgevoerd om $\bar{R}$ te bepalen. Vervolgens kunnen de standaarddeviatie ($s$), de regelgrenzen van $\bar{\bar{x}}$ en $\bar{R}$ berekend worden, uitgaande van voldoende steekproeven voor een correcte bepaling [52](#page=52).
* **Wanneer $\bar{R}$ uit het verleden bekend is:** Als het proces al langer draait, wordt een gekende waarde van $\bar{R}$ gebruikt om $s$ te bepalen en de regelgrenzen van de controlekaart op te stellen. De meest recente resultaten worden dan ingevuld. Als blijkt dat de gekende waarde van $\bar{R}$ niet meer voldoet, wordt een nieuw berekende waarde van $\bar{R}$ genomen, wat tevens een herberekening van $s$ en de regelgrenzen tot gevolg heeft [53](#page=53).
### 2.7 Oefeningen en toepassingen
Oefeningen kunnen betrekking hebben op het opstellen van een x-R kaart, het bepalen van regelgrenzen, het controleren of de machine de tolerantie kan aan, het berekenen van uitvalpercentages, het bepalen van ideale machine-instellingen en het noodzakelijke tolerantieveld. Dit leidt tot gemotiveerde beslissingen over te ondernemen acties [54](#page=54) [55](#page=55).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| SPC (Statistical Process Control) | Een methode die statistische technieken gebruikt om de kwaliteit van processen te monitoren en te beheersen, met als doel variatie te verminderen en de stabiliteit te verbeteren. |
| Steekproeftheorie | Het vakgebied dat zich bezighoudt met het trekken van representatieve monsters uit een grotere populatie (universum) om conclusies te trekken over die populatie, zonder de gehele populatie te hoeven onderzoeken. |
| Universum | De volledige productie of de gehele verzameling van items die onderzocht worden in de context van kwaliteitscontrole. |
| Steekproef | Een selectie van een bepaald aantal items uit het universum, die representatief moet zijn voor de gehele productie. |
| Aselecte staalname | Een methode van steekproeftrekking waarbij elk item uit het universum een gelijke kans heeft om geselecteerd te worden, wat zorgt voor onafhankelijkheid van de steekproeven. |
| AQL (Acceptable Quality Level) | Het maximaal aanvaardbare percentage defecte eenheden in een productpartij dat, voor doeleinden van continue productie-inspectie, als acceptabel wordt beschouwd. |
| ISO-2859 | Een internationale norm die richtlijnen geeft voor steekproefinspectieprocedures voor de acceptatie van goederen, inclusief tabellen voor steekproefgroottes en acceptatiecriteria. |
| Gemiddelde ($\bar{x}$ of $x_{double-bar}$) | De som van alle waarden gedeeld door het aantal waarden. In steekproeftheorie kan dit verwijzen naar het gemiddelde van het universum of het gemiddelde van steekproefgemiddelden. |
| Spreiding ($s$ of $s_{\bar{x}}$) | Een maat voor de variabiliteit van gegevens. In dit document verwijst het naar de spreiding van individuele waarden in het universum ($s$) of de spreiding van steekproefgemiddelden ($s_{\bar{x}}$). |
| Steekproefgemiddelde ($x_{bar}$) | Het gemiddelde berekend uit de waarden van een individuele steekproef. |
| Variantie | Een statistische maat die aangeeft hoe ver de waarden in een dataset gemiddeld genomen van het gemiddelde af liggen. De vierkantswortel van de variantie is de standaarddeviatie. |
| Controlelimieten | De grenzen (boven- en ondergrens) die worden berekend uit procesgegevens om te bepalen of een proces binnen statistische controle is. Punten buiten deze limieten duiden op speciale oorzaken van variatie. |
| Control Chart | Een grafiek die wordt gebruikt om de stabiliteit van een proces in de loop van de tijd te volgen. Het bevat een centrale lijn, een bovengrens en een ondergrens. |
| x-R controlekaart | Een type controlekaart dat tegelijkertijd het gemiddelde ($x$) en de spreiding (Range, $R$) van steekproeven monitort om de procescontrole te waarborgen. |
| Range ($R$) | Het verschil tussen de hoogste en de laagste waarde binnen een steekproef of groep metingen. |
| Systematische fout | Een fout die consequent en voorspelbaar optreedt, vaak veroorzaakt door een probleem in het proces of de apparatuur dat tot afwijkingen in één richting leidt. |
| Toevallige fout | Een onvoorspelbare fout die willekeurig optreedt en meestal wordt veroorzaakt door natuurlijke variatie binnen het proces. |
| Ishikawa diagram (Visgraatdiagram) | Een visuele tool die wordt gebruikt om mogelijke oorzaken van een probleem te identificeren en te categoriseren, vaak gebruikt bij het oplossen van problemen. |
| Pareto-analyse | Een analyse die de principes van het Pareto-principe (80/20 regel) toepast om de meest significante oorzaken van een probleem te identificeren en prioriteren. |
Cover
Mock exam notes .pdf
Summary
# Experimental design and statistical concepts
This section provides a foundational understanding of experimental design principles and essential statistical concepts used in data analysis.
### 1.1 Types of studies
* **Observational study:** Involves making observations and analyzing data without any intervention. An example is assessing the correlation between a person's daily fruit intake and their blood pressure [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Experimental study:** Involves making an intervention to test a hypothesis. An example is regimenting fruit consumption and recording blood pressure changes [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.2 Variables in experimental studies
Experimental studies aim to assess the effect of one variable while controlling others [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Independent/explanatory variable:** The variable that is changed or manipulated, and is hypothesized to cause an effect [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Dependent/response variable:** The variable that is measured and is expected to be affected by the independent variable [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Confounding variable:** A variable that can influence the measurements of both the independent and dependent variables, potentially distorting the observed relationship. For instance, in an experiment measuring gene expression in response to glucose concentrations, other sugars present in the cell culture media could act as confounding variables. Awareness of confounding variables is crucial for interpreting experimental results correctly [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.3 Experimental replicates
* **Technical replicates:** Multiple measurements taken from the same sample to assess the precision and reliability of the experimental technique [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Biological replicates:** Involve using different samples that are biologically distinct but treated identically, helping to account for natural biological variability [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.4 Control groups
* **Negative control:** A condition where no effect is expected; used as a baseline for comparison [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Positive control:** A condition where an effect on the dependent variable is known to occur; used to confirm the assay or experimental setup is working as expected [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.5 Descriptive and inferential statistics
* **Descriptive statistics:** Summarize and describe the main features of a dataset. Examples include mean, median, mode, range, standard deviation, and visualizations like graphs and plots [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Inferential statistics:** Make conclusions or predictions about a larger population based on a sample of data. Examples include t-tests, chi-squared tests, confidence intervals, regression analysis, and hypothesis testing [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.6 Measures of central tendency and spread
* **Mean:** The average of a dataset. It is sensitive to outliers [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Median:** The middle value in a sorted dataset. It is less affected by outliers than the mean [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* If a distribution is skewed left, the mean is typically less than the median [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* If a distribution is skewed right, the mean is typically greater than the median [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* A larger difference between the mean and median indicates the presence of more outliers [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Standard Deviation (SD):** A measure of the dispersion of data points around the mean [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Standard Error of the Mean (SEM):** Calculated as $SEM = \frac{SD}{\sqrt{n}}$, where $n$ is the sample size. It estimates the variability of sample means around the population mean [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.7 Correlation
Correlation quantifies the strength and direction of a linear relationship between two variables [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Correlation Coefficient ($r$):** Ranges from -1 to +1 [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* $r > 0$: Positive linear association, where both variables increase together [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* $r < 0$: Negative linear correlation, where one variable increases as the other decreases [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* $r = +1$: Perfect positive linear correlation [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* $r = -1$: Perfect negative linear correlation [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Strength of correlation:**
* 0.0 - 0.2: Very weak, negligible [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* 0.2 - 0.4: Weak, low [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* 0.4 - 0.7: Moderate [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* 0.7 - 0.9: Strong, high, marked [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* 0.9 - 1.0: Very strong, very high [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **$R^2$ (coefficient of determination):** The square of the correlation coefficient, indicating the proportion of variation in the dependent variable explained by the independent variable [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Important Note:** Correlation does **not** imply causation [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.8 Regression
Regression analysis models the relationship between a dependent variable and one or more independent variables by fitting a linear equation [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Linear regression:** A statistical method used to model relationships where a straight line can best represent the data [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Line of best fit:** The regression equation represents this line, used to estimate variables within a linear relationship [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Goodness of fit:** Assesses how well the regression equation represents the data [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **$R^2$ value:** A key indicator of goodness of fit [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Residuals:** The difference between actual data points and values predicted by the model. Analyzing residual plots helps identify if a linear model is appropriate [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Even distribution:** Points should be evenly distributed vertically and horizontally around the zero line [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Outliers:** Clearly indicate data points not well predicted by the model [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Clear shape:** A lack of clear patterns or shapes in the residuals suggests a good fit [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Prediction:** A linear regression model can be used to predict values of the dependent variable for given values of the independent variable, often with confidence intervals [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.9 Probability and risk
* **Uncertainty:** Living systems are complex, leading to variability and uncertainty in results [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Probability ($P$):** The proportion of times a specific outcome occurs from a large number of independent trials; scales from 0 (impossible) to 1 (certain) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* For mutually exclusive outcomes (outcomes that cannot happen simultaneously), probabilities can be added: $P(A \text{ or } B) = P(A) + P(B)$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* For independent events (where the outcome of one does not affect the other), probabilities are multiplied: $P(A \text{ and } B) = P(A) \times P(B)$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Risk:** The probability of undesirable things happening [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.10 Probability distributions
A probability distribution graphically represents the probability of different outcomes [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Binomial distribution:** Applies to situations with a fixed number of independent trials, each with two possible outcomes (success/failure) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* `dbinom(x, size, prob)`: Calculates the probability of exactly $x$ successes in $size$ trials with probability $prob$ of success [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* `pbinom(q, size, prob)`: Calculates the cumulative probability of $q$ or fewer successes in $size$ trials [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Discrete vs. Continuous Data:**
* **Discrete data:** Typically follows binomial distributions (use `dbinom`, `pbinom`, `qbinom`) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Continuous data:** Often follows normal distributions (use `pnorm`) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.11 Hypothesis testing
Hypothesis testing involves formulating a null hypothesis ($H_0$) and an alternative hypothesis ($H_A$) and using sample data to decide whether to reject $H_0$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Null hypothesis ($H_0$):** Assumes no effect, no difference, or no bias [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Alternative hypothesis ($H_A$):** Proposes that there is an effect, difference, or bias [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Significance level ($\alpha$):** The probability of rejecting the null hypothesis when it is actually true (Type I error). Commonly set at 0.05 [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **P-value:** The probability of obtaining results as extreme as, or more extreme than, the observed data, assuming the null hypothesis is true [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* If P-value < $\alpha$, reject $H_0$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* If P-value $\geq \alpha$, fail to reject $H_0$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Critical region:** The range of values for which the null hypothesis is rejected [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **One-tailed vs. Two-tailed tests:**
* **One-tailed test:** Used when the direction of the effect is clearly defined and justified. It has a larger critical region, making it more likely to reject $H_0$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Two-tailed test:** Used when the direction of the effect is not specified [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.12 Errors in hypothesis testing
* **Type I error (False positive):** Rejecting the null hypothesis when it is actually true. The probability of a Type I error is equal to $\alpha$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Type II error (False negative):** Failing to reject the null hypothesis when it is actually false. The probability of a Type II error is denoted by $\beta$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Power:** The probability of correctly rejecting the null hypothesis when it is false (i.e., avoiding a Type II error). Power is calculated as $1 - \beta$. A higher power indicates a greater likelihood of detecting a true effect [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.13 Effect size
Effect size measures the practical significance or meaningfulness of a statistical finding, independent of sample size [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Importance:** A statistically significant result (small P-value) may not be practically important if the effect size is small, especially with large sample sizes [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Measures:** Can be expressed as Cohen's $d$, correlation coefficient ($r$), or $R^2$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Cohen's d:** Calculated as $d = \frac{X_1 - X_2}{\text{pooled SD}}$, where $X_1$ and $X_2$ are means of two groups and pooled SD is a measure of combined standard deviation [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Factors increasing effect size:** Larger true difference between groups, lower variability, less measurement error, and well-controlled experimental designs [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.14 Confidence intervals and error bars
* **Confidence Interval (CI):** A range of values that is likely to contain the true population parameter with a certain level of confidence (e.g., 95% CI) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* For the difference between two means, if the 95% CI does not include 0, it suggests a statistically significant difference [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Error Bars:** Visual representations of variability or uncertainty.
* **Standard Deviation (SD) error bars:** Represent the spread of data points around the mean. Overlapping SD bars do not allow for conclusions about statistical significance [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Standard Error (SE) error bars:** Represent the accuracy of the sample mean as an estimate of the population mean. SE bars typically do not overlap if the difference is not significant (P > 0.05) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **95% Confidence Interval (CI) error bars:** Represent the range where the true population mean is likely to lie. If CI error bars do not overlap, the difference is likely statistically significant (P < 0.05) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.15 T-tests and ANOVA
* **T-test:** A statistical test used to determine if there is a significant difference between the means of two groups [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Assumptions:**
1. Dependent variable is continuous; independent variable is categorical with two outcomes [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
2. Data are normally distributed in the population [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
3. The two populations have equal variances (homoscedasticity) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **ANOVA (Analysis of Variance):** A statistical test used to compare the means of three or more groups. It compares the variance within groups to the variance between groups [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Assumptions:** Similar to t-tests: normally distributed data, independent observations, and equal variances across groups [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Post-hoc tests (e.g., Tukey's HSD):** Used after a significant ANOVA result to determine which specific group pairs differ significantly [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.16 Multiple testing
Performing multiple statistical tests increases the probability of obtaining at least one false positive (Type I error) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Family-Wise Error Rate (FWER):** The probability of making at least one Type I error across a set of tests. Methods like Bonferroni correction control FWER by adjusting significance levels [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **False Discovery Rate (FDR):** The expected proportion of rejected null hypotheses that are actually false positives. Methods like the Benjamini-Hochberg (BH) procedure control FDR and are often used for a larger number of tests [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.17 Improving experimental design
Reducing error and bias is crucial for reliable experimental outcomes [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Types of error:**
* **Sampling error:** Occurs because a sample may not perfectly represent the population. Can be reduced through replication, balance, and blocking [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Bias:** Systematic error that distorts results. Can be introduced by study design, data collection, analysis, or publication practices [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Techniques to control bias:**
* **Simultaneous control groups:** Using negative and positive controls run concurrently with experimental groups [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Blinding:** Preventing participants and/or researchers from knowing who is receiving the treatment or placebo [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Randomization:** Randomly assigning subjects to experimental groups to minimize systematic bias [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.18 Questionable research practices (QRPs)
These practices can lead to misleading results and include cherry-picking data, p-hacking, and HARKing (Hypothesizing After the Results are Known). Fabrication and falsification of data are more severe forms of misconduct [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
---
# Probability and hypothesis testing
This section delves into the foundational concepts of probability and their critical application in statistical hypothesis testing, covering essential elements such as hypothesis formulation, significance levels, critical regions, and the interpretation of p-values.
### 2.1 Core probability concepts
Probability quantifies the likelihood of specific outcomes in uncertain situations. It is represented on a scale from 0 to 1, where 1 indicates certainty and 0 indicates impossibility. The probability of mutually exclusive events (those that cannot occur simultaneously) occurring can be found by adding their individual probabilities. For independent events, where the occurrence of one does not affect the other, the probability of both occurring is found by multiplying their individual probabilities [2](#page=2).
### 2.2 Probability distributions
A probability distribution visually represents the probability of each possible outcome in a given scenario. The area under the curve of a probability distribution corresponds to the probability of observing a particular outcome or range of outcomes [2](#page=2).
#### 2.2.1 Binomial distribution
The binomial distribution is used to model situations with a fixed number of independent trials, each having only two possible outcomes, typically defined as "success" and "failure". These two outcomes must be mutually exclusive and exhaustive, meaning they sum to 1 [2](#page=2).
The conditions for a binomial distribution are:
* Two outcomes per trial: success and failure [2](#page=2).
* A fixed number of trials [2](#page=2).
* Each trial is independent [2](#page=2).
* The probability of success remains constant across all trials [2](#page=2).
The probability of observing a specific number of successes in a binomial distribution can be calculated using the `dbinom()` function in R. For example, the probability of getting exactly 2 heads in 4 coin tosses (where probability of heads is 0.5) is `dbinom(2, 4, 0.5)` which results in 0.375 [2](#page=2).
#### 2.2.2 Cumulative probability
Cumulative probability refers to the probability of a range of outcomes occurring, up to and including a certain value. In R, the `pbinom()` function is used to calculate cumulative binomial probabilities. For instance, `pbinom(2, 4, 0.5)` calculates the probability of getting up to and including 2 heads in 4 coin tosses, which is 0.6875. To find the probability of getting 3 or more heads, one would subtract the cumulative probability of getting up to 3 heads from 1 [2](#page=2).
#### 2.2.3 Discrete vs. continuous data
* **Discrete data** typically follows a binomial distribution and is analyzed using functions like `dbinom()` and `pbinom()` [2](#page=2).
* **Continuous data** is often analyzed using a normal distribution and functions like `pnorm()` [2](#page=2).
### 2.3 Hypothesis testing
Hypothesis testing is a statistical method used to make conclusions or predictions about a population based on a sample of data. It involves formulating hypotheses, analyzing data, and determining if the observed results provide sufficient evidence to reject a default assumption [1](#page=1).
#### 2.3.1 Null and alternative hypotheses
* **Null hypothesis ($H_0$)**: This is the default assumption, stating that there is no effect, no difference, or no bias. It generally represents the status quo or the absence of a phenomenon of interest. For example, $H_0$: a coin is not biased to heads [2](#page=2) [3](#page=3).
* **Alternative hypothesis ($H_A$)**: This hypothesis states that there is an effect, a difference, or a bias in a specific direction. It is mutually exclusive with the null hypothesis. For example, $H_A$: a coin is biased to heads [2](#page=2) [3](#page=3).
The process of hypothesis testing involves assuming the null hypothesis is true and then assessing the probability of observing the data (or more extreme data) under this assumption [3](#page=3).
#### 2.3.2 Significance level (alpha)
The significance level, denoted by $\alpha$, is a threshold set before conducting the test, typically at 0.05 (or 5%). It represents the probability of making a Type I error, which is rejecting the null hypothesis when it is actually true [3](#page=3).
> **Tip:** The sample size has no effect on the probability of a Type I error; it is solely determined by the chosen significance level ($\alpha$) [3](#page=3).
#### 2.3.3 Critical region and threshold value
The **threshold value** separates the regions where the null hypothesis is rejected from where it is accepted. The **critical region** encompasses the outcomes that are considered unlikely if the null hypothesis were true, leading to its rejection [2](#page=2).
For instance, when testing if a coin is fair by tossing it 100 times at a 5% significance level ($\alpha = 0.05$), we might calculate the critical values. Using `qbinom(0.025, 100, 0.5)` gives a lower critical value of 40, and `qbinom(0.975, 100, 0.5)` gives an upper critical value of 60. Therefore, the critical region for the number of heads is outside the range of 40 to 60. If the observed number of heads falls into this critical region (e.g., 59 heads), the null hypothesis would be rejected, suggesting the coin is not fair [2](#page=2).
#### 2.3.4 P-value
The **p-value** is the probability of obtaining results as extreme as, or more extreme than, the observed results, assuming that the null hypothesis is true. It is a crucial metric for interpreting the strength of evidence against the null hypothesis [2](#page=2).
* If the p-value is less than the significance level ($\alpha$), the null hypothesis is rejected.
* If the p-value is greater than or equal to the significance level ($\alpha$), the null hypothesis is not rejected.
> **Tip:** The p-value does not measure the effect size or confirm the truth of a hypothesis; it only indicates how compatible the observed data is with the null hypothesis [2](#page=2).
### 2.4 Errors in hypothesis testing
Two types of errors can occur in hypothesis testing:
* **Type I error (False positive)**: Rejecting the null hypothesis ($H_0$) when it is actually true. The probability of this error is equal to the significance level ($\alpha$) [3](#page=3).
* **Type II error (False negative)**: Failing to reject the null hypothesis ($H_0$) when it is actually false. The probability of this error is denoted by $\beta$ [3](#page=3).
### 2.5 Power of a test
The **power** of a statistical test is the probability of correctly rejecting the null hypothesis when it is false, thus avoiding a Type II error. It is calculated as Power = $1 - \beta$. A test with higher power is more reliable as it increases the chance of detecting a real effect [3](#page=3).
Factors that increase power include:
* A larger sample size [3](#page=3).
* A larger effect size [3](#page=3).
* A higher significance level ($\alpha$), though this also increases the risk of Type I error [3](#page=3).
* Using a one-tailed test when justified [3](#page=3).
### 2.6 Effect size
Effect size quantifies the meaningfulness or practical importance of a statistical difference or relationship. While a p-value indicates statistical significance, the effect size tells us if the observed effect is practically relevant in the real world. A large sample size can lead to a statistically significant p-value even with a small effect size, which might not be practically important [2](#page=2) [3](#page=3).
Common measures of effect size include:
* Cohen's $d$: calculated as $d = \frac{\bar{X}_1 - \bar{X}_2}{s_{\text{pooled}}}$ where $\bar{X}_1$ and $\bar{X}_2$ are the means of two groups and $s_{\text{pooled}}$ is the pooled standard deviation [2](#page=2).
* Correlation coefficient ($r$) [2](#page=2).
* Coefficient of determination ($R^2$) [2](#page=2).
### 2.7 Interpreting inferential statistics
When interpreting statistical results, several measures provide insights:
* **$R^2$ (Coefficient of Determination)**: This value, the square of the correlation coefficient, indicates the proportion of the variance in the dependent variable that is explained by the independent variable(s). A higher $R^2$ suggests a better fit of the linear model to the data [1](#page=1) [2](#page=2).
* **Adjusted $R^2$**: This is a modified version of $R^2$ that accounts for the number of independent variables in the model. It penalizes the addition of predictors that do not improve the model's fit, making it a more robust measure for comparing models with different numbers of predictors [2](#page=2).
* **Confidence Intervals (CI)**: A 95% CI provides a range within which the true population mean is likely to lie 95% of the time. For the difference between two means, if the 95% CI does not include zero, it suggests a statistically significant difference. Overlapping 95% CIs can sometimes obscure significance, but if they touch or do not overlap at all, the difference is likely significant [1](#page=1) [2](#page=2).
* **Standard Error (SE)**: The standard error of the mean (SEM) estimates how much the sample mean is likely to differ from the population mean. It is calculated as $SEM = \frac{\text{Standard Deviation}}{\sqrt{n}}$. SE bars typically do not overlap and are used to calculate confidence intervals [2](#page=2).
* **Standard Deviation (SD)**: The standard deviation represents the spread or dispersion of data points around the mean. SD error bars can be large and indicate data variation, but do not directly indicate statistical significance on their own [1](#page=1) [2](#page=2) [3](#page=3).
### 2.8 Visualizing data and error
Error bars are crucial for visualizing uncertainty in data.
* **SD error bars**: Represent the spread of data within a sample. No conclusion about statistical significance can be drawn if SD bars overlap [2](#page=2) [3](#page=3).
* **SE error bars**: Represent the accuracy of the sample mean as an estimate of the population mean. If SE bars do not overlap, it may suggest a significant difference, but this is not as definitive as 95% CI [2](#page=2) [3](#page=3).
* **95% CI error bars**: These are generally the most informative for inferential statements about the population mean. If 95% CIs for the difference between two means do not overlap, it strongly suggests a statistically significant difference ($p < 0.05$) [2](#page=2) [3](#page=3).
---
# Statistical errors and study quality
This section explores the fundamental types of statistical errors and the critical elements that define the quality of a research study.
### 3.1 Statistical errors
Statistical errors are inherent risks in hypothesis testing that can lead to incorrect conclusions. The two primary types of errors are Type I and Type II errors, which are closely related to the concepts of significance level and power.
#### 3.1.1 Type I and Type II errors
* **Type I error (False Positive):** This occurs when the null hypothesis ($H_0$) is rejected when it is actually true. In simpler terms, you conclude there is an effect or difference when there isn't one. The probability of making a Type I error is denoted by $\alpha$ (alpha), which is the significance level of the test. A common significance level is $0.05$, meaning there is a $5\%$ chance of incorrectly rejecting a true null hypothesis. The sample size does not affect the probability of a Type I error [6](#page=6) [7](#page=7).
* **Type II error (False Negative):** This occurs when the null hypothesis ($H_0$) is not rejected when it is actually false. This means you fail to detect an effect or difference that actually exists. The probability of making a Type II error is denoted by $\beta$ (beta). A common threshold for beta is $0.20$ (or $20\%$), indicating a $20\%$ chance of failing to reject a false null hypothesis [6](#page=6) [7](#page=7).
#### 3.1.2 Power
**Power** is the probability that a statistical test will correctly reject a false null hypothesis. It is calculated as $1 - \beta$. A study with $80\%$ power, for example, means that if a real effect exists, there is an $80\%$ chance the test will detect it. Higher power is desirable as it reduces the chance of a Type II error and increases the reliability of a study [6](#page=6) [7](#page=7).
**Factors that increase power:**
* **Bigger sample size:** Larger samples generally lead to increased power [7](#page=7).
* **Bigger effect size:** A larger true difference or relationship between variables makes it easier to detect, thus increasing power [7](#page=7).
* **Higher significance level ($\alpha$):** While this increases power, it also increases the probability of a Type I error [7](#page=7).
* **Using a one-tailed test:** This should only be used when the direction of the effect is clearly justified [7](#page=7).
* **Lower variance:** Less variability in the data makes it easier to detect a real effect, leading to higher power [7](#page=7).
> **Tip:** Power analysis is crucial for experimental design to ensure a study has a sufficient chance of detecting a meaningful effect if one exists.
### 3.2 Study quality
The quality of a study is paramount for ensuring the validity and reliability of its findings. Key aspects include controlling for error, minimizing bias, and avoiding questionable research practices.
#### 3.2.1 Controlling for error
Error in research can be broadly categorized into sampling error and bias.
* **Sampling error:** This arises because a sample is used to represent a larger population, and the sample may not perfectly reflect that population. Sampling error should ideally be normally distributed and can be estimated. Techniques to control sampling error include [6](#page=6) [7](#page=7):
* **Replication:** Repeating measurements or experiments increases the amount of data and improves accuracy [6](#page=6) [7](#page=7).
* **Technical replicates:** Multiple measurements from the same sample to assess precision [6](#page=6).
* **Biological replicates:** Using distinct biological samples treated identically to account for natural variability [6](#page=6).
* **Balance:** Using groups of similar sizes in comparisons helps maintain consistent variance, which is important for power [7](#page=7).
* **Blocking:** Grouping similar experimental units (e.g., by age, gender) and then randomly assigning treatments within each block can help control for systematic variation and reduce sampling error [7](#page=7).
* **Bias:** Bias is a systematic error that leads to distorted results, consistently skewing them in one direction. Factors contributing to bias include [6](#page=6) [7](#page=7):
* **Study design:** For example, only measuring the largest neurons might introduce bias if they have different membrane potentials than smaller ones [7](#page=7).
* **Data collection:** Equipment that consistently reads off a value higher or lower than the true value [6](#page=6) [7](#page=7).
* **Data analysis:** Using a model that systematically underestimates or overestimates values [6](#page=6) [7](#page=7).
* **Publication bias:** The tendency to publish results that align with expectations or are statistically significant [6](#page=6) [7](#page=7).
**Techniques to control bias:**
* **Simultaneous control groups:** Comparing test samples to control groups (negative, positive, or best available therapy) run concurrently ensures valid comparisons [7](#page=7).
* **Blinding:** Keeping patients and/or researchers unaware of group assignments (experimental vs. placebo) prevents expectations from influencing results [6](#page=6) [7](#page=7).
* **Randomization:** Randomly assigning subjects to groups is crucial, though it may be balanced with blocking to manage sampling error. Proper randomization protocols are a hallmark of good experimental design [6](#page=6) [7](#page=7).
#### 3.2.2 The placebo effect
The placebo effect highlights how a participant's expectations can influence their response to a treatment, even if the treatment is inert. Factors influencing its efficiency include the route of administration, number and color of pills, packaging, and the clinician's beliefs [7](#page=7).
#### 3.2.3 Questionable research practices (QRPs)
QRPs are methods that can inflate the likelihood of obtaining a statistically significant result without necessarily indicating a true effect. They are distinct from outright fabrication or falsification of data but undermine research integrity. Examples include [7](#page=7):
* **Cherry-picking:** Selectively presenting data or analyses that support a desired outcome [6](#page=6) [7](#page=7).
* **P-hacking:** Manipulating data or analysis until a statistically significant p-value is achieved. This can involve [7](#page=7):
* Checking statistical significance before collecting more data [7](#page=7).
* Stopping data collection early once a significant (or non-significant) result is reached [7](#page=7).
* Removing data without clear justification [7](#page=7).
* Rounding p-values to meet significance thresholds (e.g., $0.053$ to $0.05$) [7](#page=7).
* Hiding multiple tests performed and not adjusting p-values accordingly [7](#page=7).
* Adjusting statistical models based on whether a significant result is obtained, without proper justification [7](#page=7).
* **Hypothesizing after results are known (HARKing):** Presenting exploratory findings as if they were the original, pre-defined hypothesis [7](#page=7).
> **Tip:** Always look for transparency in methodology, especially regarding randomization and data analysis. If these details are absent or vague, it can be a red flag.
---
# Advanced statistical tests and their assumptions
This section details specific statistical tests, focusing on their underlying assumptions, how to perform them, and how to interpret their results, while also discussing methods for correcting multiple testing [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 4.1 Hypothesis testing and inferential statistics
Inferential statistics aim to make conclusions or predictions about a population based on a sample. Hypothesis testing is a core component, involving the formulation of a null hypothesis ($H_0$) and an alternative hypothesis ($H_A$). The null hypothesis typically states no effect or no difference, while the alternative hypothesis posits a specific trend or effect. The process assumes $H_0$ is true and evaluates the likelihood of observing the data under this assumption [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Significance level ($\alpha$)**: This is the probability of making a Type I error (false positive), which is the probability of rejecting $H_0$ when it is actually true. A common $\alpha$ is 0.05, meaning there is a 5% chance of a false positive [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **P-value**: The probability of obtaining results as extreme as, or more extreme than, the observed data, assuming the null hypothesis is true. If the p-value is less than $\alpha$, $H_0$ is rejected [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Critical Region**: This is the range of values for the test statistic for which $H_0$ is rejected [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Type II error ($\beta$)**: The probability of failing to reject $H_0$ when it is actually false (false negative) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Power**: The probability of correctly rejecting $H_0$ when it is false, calculated as $1 - \beta$. Higher power increases the likelihood of detecting a real effect [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 4.2 T-tests
T-tests are statistical tests used to evaluate if there is a statistically significant difference between the means of up to two samples [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.2.1 Assumptions of the t-test
Before conducting a t-test, several assumptions about the data must be met to ensure the validity of the probability calculations [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
1. **Variable types**: The dependent variable must be continuous, and the independent variable must be bivariate (categorical with only two outcomes) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
2. **Normal distribution**: The populations from which the samples are drawn should be approximately normally distributed. This can be assessed using a normal quantile-quantile plot (Q-Q plot) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
3. **Equal variances**: The two populations should have equal variances. This can be checked by examining the ratio of the larger variance to the smaller variance; if it's less than 4, variances are often considered equal [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.2.2 Types of t-tests
* **Two-sample t-test**: Compares the means of two independent groups, such as a drug treatment group versus a control group. R does not assume equal variances by default, but `var.equal = TRUE` can be specified if this assumption is met [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **One-sample t-test**: Compares the mean of a single group to a known or hypothesized population mean [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Paired t-test**: Used when samples are related, analyzing data in pairs, such as measurements before and after an intervention on the same subjects [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 4.3 Analysis of Variance (ANOVA)
ANOVA is an F-test used to compare the means of three or more samples simultaneously. It works by comparing the variance within the different samples to the variance between the different samples. The outcome determines if all samples likely come from the same population or if at least one group originates from a different population [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.3.1 Assumptions of ANOVA
Similar to t-tests, ANOVA has assumptions:
1. **Normal distribution**: The data within each group should be normally distributed [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
2. **Independence**: Observations within each group and between groups must be independent [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
3. **Equal variances (homoscedasticity)**: The groups must have equal variances [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.3.2 Performing and interpreting ANOVA
In R, the `aov()` function is used to perform ANOVA, followed by `summary()` to view the output [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Output Interpretation**: The ANOVA output includes sum of squares, degrees of freedom (DF), mean squares, F-statistic, and the p-value [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **F-statistic**: Calculated as the ratio of mean squares between groups to mean squares within groups. A high F-statistic suggests a statistically relevant effect, leading to the rejection of $H_0$ [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Degrees of freedom**: DF between groups = K (number of groups) - 1; DF within groups = N (total number of observations) - K [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Reporting ANOVA**: Results are typically reported as F(DF between, DF within) = F-value, p = p-value [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.3.3 Post-hoc tests
If ANOVA indicates a significant difference between group means, post-hoc tests are used to determine which specific groups differ. The Tukey honest significance test is a common post-hoc test, providing adjusted p-values for pairwise comparisons [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 4.4 Correcting for multiple testing
When conducting multiple statistical tests, the probability of a Type I error (false positive) increases. Multiple testing correction methods aim to control this [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Bonferroni correction**: A strict method that controls the family-wise error rate (FWER), ensuring the probability of at least one false positive remains at the chosen alpha level. It involves dividing the original alpha by the number of tests. This method increases the false negative rate and decreases power [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Benjamini-Hochberg (BH) procedure**: Controls the false discovery rate (FDR), which is the expected proportion of false positives among all rejected null hypotheses. This is often preferred for exploratory data analysis with a large number of tests, as it offers increased power compared to Bonferroni [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 4.5 Error and its implications
Understanding and minimizing error is crucial for reliable statistical inference [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Types of Error**:
* **Sampling error**: Occurs because a sample may not perfectly represent the entire population. Techniques like replication, balance (equal sample sizes), and blocking help reduce this error [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Bias**: Systematic error that distorts results, stemming from study design, data collection, data analysis, or publication practices [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Controlling Bias**: Methods include using simultaneous control groups, blinding (where participants or researchers are unaware of treatment assignments), and randomization [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 4.6 Effect Size and Confidence Intervals
* **Effect Size**: Quantifies the magnitude of a statistical difference or relationship, indicating its practical importance. Common measures include Cohen's d and $R^2$ [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Cohen's d**: Calculated as the difference between two means divided by the pooled standard deviation. The formula for pooled standard deviation is: $$ \text{Pooled SD} = \sqrt{\frac{\text{SD}_1^2 + \text{SD}_2^2}{2}} $$ [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Confidence Intervals (CI)**: Provide a range of plausible values for a population parameter (e.g., the mean). For a 95% CI, this range is expected to contain the true population mean 95% of the time [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* For t-tests, the 95% CI for the difference between means is particularly informative. If this interval does not include 0, it suggests a statistically significant difference [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Error Bars**:
* **Standard Deviation (SD)** error bars represent data spread and do not directly indicate significance [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Standard Error (SE)** error bars represent the accuracy of the sample mean as an estimate of the population mean and are used to calculate CIs [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **95% Confidence Interval (CI)** error bars are used for inferential statements about the population mean. If CI bars do not overlap, it suggests a statistically significant difference (p < 0.05). Even with up to 50% overlap, a difference can still be significant [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 4.7 Questionable Research Practices (QRPs)
These are practices that can distort results or lead to false conclusions, often without amounting to outright fabrication or falsification. Examples include [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7):
* **Cherry-picking**: Presenting only data that supports a desired outcome [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **P-hacking**: Manipulating data or analysis until a statistically significant p-value is obtained. This includes stopping data collection early when a significant result is found or removing data without justification [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Hypothesizing after results are known (HARKing)**: Presenting a post-hoc hypothesis as if it were an a priori one [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Publication Bias**: The tendency to publish studies with statistically significant results more often than those with non-significant findings, leading to an overrepresentation of positive findings in the literature [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
---
## Common mistakes to avoid
- Review all topics thoroughly before exams
- Pay attention to formulas and key definitions
- Practice with examples provided in each section
- Don't memorize without understanding the underlying concepts
Glossary
| Term | Definition |
|------|------------|
| Observational study | A type of study where data is collected by observing subjects without intervention or manipulation. |
| Experimental study | A study where an intervention or manipulation is applied to one or more variables to observe its effect on a dependent variable. |
| Independent variable | The variable that is changed or manipulated by the researcher in an experiment to observe its effect. |
| Dependent variable | The variable that is measured in an experiment to assess the effect of the independent variable. |
| Confounding variable | An extraneous variable that can influence the relationship between the independent and dependent variables, potentially leading to biased results. |
| Technical replicates | Multiple measurements taken from the same sample to assess the precision and reliability of an experimental technique. |
| Biological replicates | Different samples that are biologically distinct but treated identically, used to account for natural biological variability. |
| Negative control | A control group or condition in an experiment where no effect is expected, serving as a baseline for comparison. |
| Positive control | A control group or condition in an experiment where a known effect is expected, used to validate the experimental setup and reagents. |
| Descriptive statistics | Statistical methods used to summarize and describe the main features of a dataset, such as mean, median, and standard deviation. |
| Inferential statistics | Statistical methods used to make conclusions or predictions about a population based on a sample of data. |
| Correlation | A statistical measure that describes the strength and direction of a linear relationship between two variables. |
| Regression | A statistical method used to model the relationship between a dependent variable and one or more independent variables, often used for prediction. |
| R-squared ($R^2$) | A statistical measure that represents the proportion of the variance in the dependent variable that is predictable from the independent variable(s). |
| Residuals | The difference between an actual data point and the value predicted by a statistical model, used to assess the fit of the model. |
| Probability | The likelihood of a specific outcome occurring in a random event, expressed as a number between 0 and 1. |
| Mutually exclusive outcomes | Events that cannot occur at the same time. The sum of their probabilities equals 1. |
| Independent events | Events where the outcome of one event does not affect the outcome of another event. |
| Probability distribution | A function that describes the likelihood of obtaining the possible values that a random variable can assume. |
| Binomial distribution | A probability distribution that represents the number of successes in a fixed number of independent Bernoulli trials (trials with two possible outcomes). |
| Cumulative probability | The probability of a random variable taking on a value less than or equal to a specific value. |
| Discrete data | Data that can only take on a finite number of values or a countable number of values, often whole numbers. |
| Continuous data | Data that can take on any value within a given range, with an infinite number of possibilities between any two values. |
| Null hypothesis ($H_0$) | A statement that there is no significant difference or effect between groups or variables in a statistical test. |
| Alternative hypothesis ($H_A$) | A statement that there is a significant difference or effect between groups or variables, which contradicts the null hypothesis. |
| Significance level (alpha, $\alpha$) | The probability of rejecting the null hypothesis when it is true (Type I error rate). Commonly set at 0.05. |
| Critical region | The set of values for the test statistic that leads to the rejection of the null hypothesis. |
| P-value | The probability of obtaining test results at least as extreme as the observed results, assuming the null hypothesis is true. |
| Effect size | A measure of the magnitude of a phenomenon or the strength of a relationship between variables, indicating practical significance. |
| Type I error (False positive) | Rejecting the null hypothesis when it is actually true. |
| Type II error (False negative) | Failing to reject the null hypothesis when it is actually false. |
| Power | The probability of correctly rejecting the null hypothesis when it is false (i.e., the probability of detecting a true effect). |
| Standard Deviation (SD) | A measure of the amount of variation or dispersion of a set of values. |
| Standard Error of the Mean (SEM) | A measure of the variability of sample means around the population mean. It is calculated as $SD / \sqrt{n}$. |
| Confidence Interval (CI) | A range of values, derived from sample statistics, that is likely to contain the value of an unknown population parameter. A 95% CI means that if the experiment were repeated many times, 95% of the intervals constructed would contain the true population parameter. |
| T-test | A statistical hypothesis test used to determine if there is a significant difference between the means of two groups. |
| Paired t-test | A statistical test used to compare the means of two related samples, such as measurements taken from the same subjects before and after an intervention. |
| ANOVA (Analysis of Variance) | A statistical test used to compare the means of three or more groups to determine if there are any statistically significant differences between them. |
| Post-hoc test | Statistical tests performed after a significant ANOVA result to determine which specific group means differ from each other. |
| Tukey's honest significance test | A common post-hoc test used to perform all pairwise comparisons between group means. |
| Bonferroni correction | A method used to control the family-wise error rate when performing multiple statistical tests. |
| False Discovery Rate (FDR) | The expected proportion of rejected null hypotheses that are actually true (false discoveries). |
| Sampling error | The error that arises from the fact that a sample is used to represent a population, rather than the entire population. |
| Bias | A systematic error that can lead to distorted or inaccurate results, often due to flaws in study design, data collection, or analysis. |
| Replication | Repeating an experiment or study multiple times to confirm results and increase reliability. |
| Balance | In experimental design, refers to having equal sample sizes in each group being compared, which can improve the power of statistical tests. |
| Blocking | A technique used in experimental design to reduce variability by grouping similar experimental units before random assignment to treatments. |
| Blinding | A technique in research where participants or researchers are unaware of the group assignments (e.g., treatment vs. placebo) to prevent bias. |
| Randomization | The process of randomly assigning subjects to different treatment groups to minimize systematic bias. |
| Placebo effect | A beneficial effect produced by a placebo drug or treatment, which cannot be attributed to the properties of the placebo itself, and must therefore be due to the patient's belief in that treatment. |
| Questionable Research Practices (QRPs) | Practices that violate conventional scientific norms but may not constitute outright misconduct, such as p-hacking or HARKing. |
| P-hacking | The practice of analyzing data in various ways until a statistically significant result is found. |
| HARKing (Hypothesizing After the Results are Known) | Formulating a hypothesis after the data has already been analyzed, presenting it as if it were a prior hypothesis. |
| Fabrication | The invention of data or results. |
| Falsification | The manipulation of research materials, equipment, or processes, or changing or omitting data or results such that the research is not accurately represented in the research record. |
| Biological replicate | In the context of an experiment, refers to independent biological samples that are treated similarly, allowing for assessment of biological variability. For example, using cells from different cultures or different individuals. |
Cover
Mock exam notes .pdf
Summary
# Descriptive and inferential statistics
This topic explores the fundamental distinction and applications of descriptive and inferential statistics in data analysis.
## 1. Descriptive and inferential statistics
Descriptive statistics are used to summarize and describe data, while inferential statistics are used to make conclusions or predictions about a population based on a sample [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.1 Descriptive statistics
Descriptive statistics provide a concise summary of the main features of a dataset. These methods help in understanding the characteristics of the data without making broader generalizations [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Measures of Central Tendency:** These describe the center of the data.
* **Mean:** The average of all data points. It is sensitive to outliers [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Median:** The middle value in a sorted dataset. It is less affected by outliers than the mean [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Mode:** The most frequent value in the dataset.
* **Measures of Dispersion:** These describe the spread or variability of the data.
* **Range:** The difference between the maximum and minimum values.
* **Standard Deviation (SD):** A measure of the amount of variation or dispersion of a set of values.
* **Graphical Representations:** Various plots and charts are used to visualize data.
* Graphs, plots, and charts can visually represent data distributions and relationships [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 1.2 Inferential statistics
Inferential statistics involve using data from a sample to draw conclusions or make predictions about a larger population. This allows researchers to generalize findings beyond the immediate data collected [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Key Techniques:**
* **T-tests:** Used to compare the means of two groups [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Chi-squared tests:** Used for categorical data.
* **Confidence Intervals (CI):** Provide a range of values within which the true population parameter is likely to lie [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Regression Analysis:** Used to model the relationship between variables and make predictions [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Hypothesis Testing:** A formal procedure to test a claim about a population parameter using sample data [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 1.2.1 Estimating population parameters
With a sample mean, standard error, a sample size greater than 30, and assuming normal distribution, one can estimate the population mean [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **68% certainty:** The population mean falls within 1 standard error (SE) of the sample mean [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **95% certainty:** The population mean falls within 2 SE of the sample mean [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **99.7% certainty:** The population mean falls within 3 SE of the sample mean [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 1.2.2 Correlation
Correlation measures the strength and direction of the linear relationship between two factors [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Correlation Coefficient (r):** Ranges from -1 to +1.
* $r = +1$: Perfect positive linear association [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* $r = -1$: Perfect negative linear association [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* Values closer to $\pm 1$ indicate a stronger relationship, while values closer to 0 indicate a weaker relationship [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **$R^2$:** The correlation coefficient squared, indicating the proportion of variation in the dependent variable explained by the independent variable [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Correlation does not imply causation** [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 1.2.3 Regression
Regression analysis uses the line of best fit to estimate variables within a linear relationship [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Linear Regression:** A statistical method modeling the relationship between a dependent and one or more independent variables by fitting a linear equation.
* **Goodness of Fit:** Assessed using metrics like $R^2$ and by examining residuals.
* **Residuals:** The difference between an actual data point and the value predicted by the model. Patterns in residual plots indicate that a linear equation may not be appropriate [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 1.2.4 Probability and Risk
Uncertainty is inherent in living systems and statistics [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Probability (P):** The proportion of times a specific outcome occurs in a large number of independent trials, scaled from 0 to 1 [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Risk:** The probability of undesirable things happening.
* **Mutually Exclusive Outcomes:** Outcomes that cannot occur at the same time; their probabilities sum to 1 [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Independent Events:** The outcome of one event does not affect the outcome of another; probabilities are multiplied [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
##### 1.2.4.1 Probability distributions
A probability distribution is a graphical representation of probabilities [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Binomial Distribution:** Applies to situations with two possible outcomes (success/failure) in a fixed number of independent trials with a constant probability of success [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* The probability of observing ONE outcome is given by $dbinom(q, size, prob)$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* The cumulative probability of a range of outcomes is calculated using $pbinom(q, size, prob)$ [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Discrete vs. Continuous Data:**
* **Discrete data:** Often follows a binomial distribution (e.g., counts).
* **Continuous data:** Typically follows a normal distribution (e.g., measurements).
### 1.3 Hypothesis testing
Hypothesis testing is a statistical method used to evaluate claims about a population parameter [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Null Hypothesis ($H_0$):** A statement of no effect or no difference, assumed to be true [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Alternative Hypothesis ($H_A$):** A statement that contradicts the null hypothesis, representing the trend or effect being investigated [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Significance Level ($\alpha$):** The probability of rejecting the null hypothesis when it is actually true (Type I error). A common $\alpha$ is 0.05 [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **P-value:** The probability of observing data as extreme as, or more extreme than, the observed data, assuming the null hypothesis is true [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* If $p < \alpha$, reject $H_0$ [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Critical Region:** The range of values for which the null hypothesis is rejected [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Type I Error (False Positive):** Rejecting $H_0$ when it is true [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Type II Error (False Negative):** Failing to reject $H_0$ when it is false [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Power:** The probability of correctly rejecting $H_0$ when it is false ($1 - \beta$) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 1.3.1 Types of error bars
The interpretation of error bars depends on whether they represent Standard Deviation (SD), Standard Error (SE), or 95% Confidence Intervals (CI) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
| Error Bar Type | If Bars Overlap | If Bars Do Not Overlap |
| :---------------------- | :-------------------------------------------- | :---------------------------------- |
| Standard Deviation (SD) | No conclusion about significance | No conclusion about significance |
| Standard Error (SE) | Difference is likely not significant (P > 0.05) | No definite conclusion |
| 95% Confidence Interval | No conclusion about significance | Difference is likely significant (P < 0.05) |
---
# Correlation and regression analysis
This section explores the relationship between two factors, including how to interpret the strength and direction of correlation coefficients and the application of regression analysis to model linear relationships [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 2.1 Correlation
Correlation quantifies the strength and direction of the linear relationship between two variables [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 2.1.1 Correlation coefficient (r)
* The correlation coefficient, denoted by '$r$', ranges from -1 to +1 [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* A positive '$r$' indicates a positive linear association: as one variable increases, the other tends to increase [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* A negative '$r$' indicates a negative linear association: as one variable increases, the other tends to decrease [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* Values closer to +1 or -1 indicate a stronger relationship [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* Values closer to 0 indicate a weaker relationship [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 2.1.2 Interpretation of correlation strength
| Correlation Coefficient Range | Descriptive Term |
| :-------------------------- | :--------------- |
| 0.0 - 0.2 | Very weak, negligible |
| 0.2 - 0.4 | Weak, low |
| 0.4 - 0.7 | Moderate |
| 0.7 - 0.9 | Strong, high, marked |
| 0.9 - 1.0 | Very strong, very high |
#### 2.1.3 Coefficient of Determination ($R^2$)
* $R^2$ is the square of the correlation coefficient [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* It represents the proportion of the variance in the dependent variable (y) that is explained by the independent variable (x) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* A larger $R^2$ value indicates that the linear model is a good fit for the data [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 2.1.4 Key Principle
**Correlation does not imply causation.** [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 2.2 Regression analysis
Regression analysis is a statistical method used to model the relationship between a dependent variable and one or more independent variables by fitting a linear equation to the data [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 2.2.1 Linear Regression Equation (Line of Best Fit)
* The primary goal of linear regression is to find the line that best represents the linear relationship between variables [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* This line can be used to estimate the value of the dependent variable for a given value of the independent variable [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 2.2.2 Assessing the Goodness of Fit
Before using a regression line, it is crucial to assess how well it fits the data [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **$R^2$ value**: As mentioned above, this indicates the proportion of variance explained by the model [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Residuals**: These are the differences between the actual data points and the values predicted by the regression model [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* If there is a discernible pattern in the residual plots, it suggests that a linear model may not be appropriate for the data [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Aspects to check in residual plots**:
1. **Even distribution**: Points should be evenly distributed vertically and horizontally around the zero line. If points in the top half are further from zero than those below, the model may not accurately predict values [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
2. **Outliers**: Identify any data points that are not well predicted by the model, as these can indicate that the model might not be trustworthy [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
3. **Clear shape**: A linear model is not appropriate if there is a clear, non-linear pattern (e.g., points at one end are close, and points at the other end spread further away) [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 2.2.3 Prediction and Confidence Intervals
* Regression models can be used to predict values and calculate 95% confidence intervals for those predictions [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* A stronger correlation generally leads to more confident predictions and a more accurate estimate due to less variability around the line of best fit [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
> **Tip:** A higher correlation coefficient leads to greater confidence in predictions made using the regression line [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
> **Example:** In R, a linear model can be built using `lm(dependent_variable ~ independent_variable, data=your_data_frame)` and predictions can be made using `predict()` [1](#page=1) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
---
# Probability and statistical distributions
This topic explores the fundamental concepts of probability, the quantification of risk, and the characteristics and applications of various probability distributions.
### 3.1 Probability and risk
Probability is defined as the proportion of times a specific outcome occurs in a large number of independent trials, with a scale from 0 (impossible) to 1 (certain). Risk, on the other hand, is the probability of undesirable events happening [1](#page=1) [2](#page=2) [3](#page=3).
#### 3.1.1 Rules of probability
* **Mutually Exclusive Outcomes:** If outcomes cannot happen at the same time, their probabilities are added. The sum of probabilities for all mutually exclusive outcomes equals 1. For example, the probability of rolling a 1 or a 4 on a single die roll is $1/6 + 1/6 = 2/6$ [1](#page=1) [2](#page=2) [3](#page=3).
* **Independent Events:** If the outcome of one event does not affect the outcome of another, their probabilities are multiplied. This applies to calculating the probability of one outcome AND another occurring [1](#page=1) [2](#page=2) [3](#page=3).
#### 3.1.2 Probability distributions
A probability distribution graphically represents the probability of different outcomes. It is a theoretical representation of the likelihood of each possible outcome, which can be compared to an observed frequency distribution [1](#page=1) [2](#page=2) [3](#page=3).
### 3.2 Binomial distribution
The binomial distribution is used for situations with a fixed number of independent trials, each having only two possible outcomes: "success" and "failure" [1](#page=1) [2](#page=2) [3](#page=3).
#### 3.2.1 Conditions for binomial distribution
For a binomial distribution to apply, the following conditions must be met [1](#page=1) [2](#page=2) [3](#page=3):
* There are exactly two outcomes for each trial: success and failure.
* The number of trials is fixed.
* Each trial is independent of the others.
* The probability of success ($p$) is the same for every trial.
#### 3.2.2 Calculating binomial probabilities
* **Probability of a specific outcome ($dbinom$):** This function calculates the probability of observing exactly $k$ successes in $n$ trials, with a probability of success $p$.
* Example: The probability of getting exactly 2 heads from 4 coin tosses (where $p=0.5$) is calculated as $dbinom(2, 4, 0.5) = 0.375$ [1](#page=1) [2](#page=2) [3](#page=3).
* **Cumulative Probability ($pbinom$):** This calculates the probability of observing up to a certain number of successes. The function $pbinom(q, size, prob)$ calculates the probability of $q$ or fewer successes in $size$ trials with a probability of success $prob$ [1](#page=1) [2](#page=2) [3](#page=3).
* Example: The probability of getting up to and including 2 heads from 4 coin tosses is $pbinom(2, 4, 0.5) = 0.6875$ [1](#page=1) [2](#page=2) [3](#page=3).
* To find the probability of 3 or more heads, you would subtract the cumulative probability of 2 or fewer heads from 1: $1 - pbinom(2, 4, 0.5)$.
* **Finding the number of items within a range:** Once the probability ($p$) of an event occurring within a specific range is calculated, the number of occurrences can be estimated by multiplying the probability by the total number of trials: Number of items = $p \times \text{total number of trials}$ [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 3.2.3 Discrete vs. Continuous Data
* **Discrete Data:** Binomial distribution is suitable for discrete data, and functions like $dbinom$ and $pbinom$ are used [1](#page=1) [2](#page=2) [3](#page=3).
* **Continuous Data:** For continuous data that is normally distributed, functions like $pnorm$ are used [1](#page=1) [2](#page=2) [3](#page=3).
#### 3.2.4 The Birthday Paradox
This is a classic probability problem illustrating how quickly the probability of shared birthdays increases in a group. The calculation is often simplified by finding the probability that NO two people share a birthday and subtracting that from 1 [1](#page=1) [2](#page=2) [3](#page=3).
### 3.3 Normal distribution
The normal distribution, also known as the Gaussian distribution or bell curve, is a continuous probability distribution that is symmetric about its mean. Many natural phenomena approximate this distribution [1](#page=1) [2](#page=2) [3](#page=3).
#### 3.3.1 Properties of the normal distribution
* **Empirical Rule (68-95-99.7 rule):** For a normal distribution:
* Approximately 68% of the data falls within one standard deviation (SD) of the mean [1](#page=1) [2](#page=2) [3](#page=3).
* Approximately 95% of the data falls within two standard deviations of the mean [1](#page=1) [2](#page=2) [3](#page=3).
* Approximately 99.7% of the data falls within three standard deviations of the mean [1](#page=1) [2](#page=2) [3](#page=3).
#### 3.3.2 Estimating population parameters
If you have a sample mean, standard error, and a sample size of more than 30, and the data is normally distributed, you can estimate the population mean with a certain degree of certainty [1](#page=1) [2](#page=2) [3](#page=3).
### 3.4 Using R for probability calculations
* `dbinom()`: Calculates the probability mass function for the binomial distribution.
* `pbinom()`: Calculates the cumulative distribution function for the binomial distribution.
* `pnorm()`: Calculates the cumulative distribution function for the normal distribution.
### 3.5 Descriptive vs. Inferential Statistics
* **Descriptive Statistics:** Summarize and describe data using measures like mean, median, mode, range, standard deviation, and graphical representations [1](#page=1) [2](#page=2) [3](#page=3).
* **Inferential Statistics:** Make conclusions or predictions about a population based on a sample, using methods like t-tests, chi-squared tests, confidence intervals, regression analysis, and hypothesis testing [1](#page=1) [2](#page=2) [3](#page=3).
### 3.6 Key statistical concepts
* **Correlation Coefficient ($r$):** Measures the strength and direction of a linear relationship between two variables, ranging from -1 (perfect negative correlation) to +1 (perfect positive correlation). A value close to 0 indicates a weak relationship [1](#page=1) [2](#page=2) [3](#page=3).
* **Coefficient of Determination ($R^2$):** The square of the correlation coefficient, indicating the proportion of variance in the dependent variable explained by the independent variable [1](#page=1) [2](#page=2) [3](#page=3).
* **Outliers:** Data points that fall significantly outside the general pattern of the data. When outliers are present, the median is often a more robust measure of central tendency than the mean [1](#page=1) [2](#page=2) [3](#page=3).
* **Skewness:**
* **Left Skew:** The mean is typically less than the median [1](#page=1) [2](#page=2) [3](#page=3).
* **Right Skew:** The mean is typically more than the median [1](#page=1) [2](#page=2) [3](#page=3).
* The greater the difference between the mean and median, the more skewed the distribution and the more pronounced the effect of outliers [1](#page=1) [2](#page=2) [3](#page=3).
### 3.7 Important Equations and Formulas
* **Standard Error of the Mean (SEM):**
$$ \text{SEM} = \frac{\text{Standard deviation}}{\sqrt{n}} $$
where $n$ is the sample size [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Outlier Calculation:** Values outside the range of $Q1 - (1.5 \times \text{IQR})$ and $Q3 + (1.5 \times \text{IQR})$ are considered outliers, where IQR is the Interquartile Range ($Q3 - Q1$) [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Cohen's d (Effect Size):**
$$ \text{Cohen's } d = \frac{X_1 - X_2}{\text{Pooled SD}} $$
where $X_1$ and $X_2$ are the means of two groups, and Pooled SD is calculated as:
$$ \text{Pooled SD} = \sqrt{\frac{(\text{SD}_1^2 + \text{SD}_2^2)}{2}} $$
For more than two samples, the denominator involves the total sample size [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Probability of False Positive (Type I Error) in multiple tests:**
$$ P(\text{at least one false positive in } m \text{ tests}) = 1 - (1 - \alpha)^m $$
where $\alpha$ is the significance level of a single test [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
---
# Hypothesis testing and error types
Hypothesis testing is a statistical framework used to make decisions about a population based on sample data, involving the formulation of competing hypotheses and the evaluation of evidence against them, while acknowledging the possibility of errors [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 4.1 The principles of hypothesis testing
Hypothesis testing involves setting up two mutually exclusive statements about a population: the null hypothesis and the alternative hypothesis [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.1.1 Null and alternative hypotheses
* **Null Hypothesis ($H_0$)**: This is the default assumption that there is no effect, no difference, or no relationship in the population. It is assumed to be true until sufficient evidence suggests otherwise. For example, $H_0$: a coin is not biased to heads [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Alternative Hypothesis ($H_A$ or $H_1$)**: This is the statement that contradicts the null hypothesis, suggesting there is an effect, difference, or relationship. It represents what the researcher is trying to find evidence for. For example, $H_A$: the coin is biased to heads [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
The process involves assuming the null hypothesis is true and then assessing the likelihood of observing the sample data if it were true [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.1.2 Significance level ($\alpha$)
The significance level, denoted by $\alpha$, is a pre-determined threshold for rejecting the null hypothesis. It represents the probability of making a Type I error (false positive). A common significance level is $0.05$ (or 5%) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* If the calculated p-value is less than $\alpha$, the null hypothesis is rejected [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* If the p-value is greater than or equal to $\alpha$, the null hypothesis is not rejected [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.1.3 Critical region
The critical region is the area of the probability distribution that leads to the rejection of the null hypothesis. The threshold value, determined by the significance level ($\alpha$), separates the critical region from the region where the null hypothesis is accepted. For a two-tailed test with $\alpha = 0.05$ and 100 trials, the critical values might be 40 and 60, meaning that if the observed number of successes falls outside this range (e.g., less than 40 or more than 60), the null hypothesis would be rejected [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.1.4 P-value
The p-value is the probability of obtaining observed results (or more extreme results) assuming that the null hypothesis is true. It is compared to the significance level ($\alpha$) to decide whether to reject the null hypothesis. The p-value does not measure the effect size or confirm the truth of the hypothesis, but rather its compatibility with the null hypothesis [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 4.2 Types of errors in hypothesis testing
When conducting hypothesis tests, there are two primary types of errors that can occur, reflecting incorrect conclusions about the null hypothesis [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.2.1 Type I error (false positive)
A Type I error occurs when the null hypothesis ($H_0$) is rejected when it is, in fact, true. This is also known as a false positive. The probability of making a Type I error is equal to the significance level ($\alpha$). Sample size does not affect the probability of a Type I error [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Example**: Concluding that a new drug is effective (rejecting $H_0$ of no effect) when it actually has no effect [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.2.2 Type II error (false negative)
A Type II error occurs when the null hypothesis ($H_0$) is not rejected when it is, in fact, false. This is also known as a false negative. The probability of making a Type II error is denoted by $\beta$. An increased sample size can reduce the likelihood of a Type II error [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Example**: Concluding that a new drug is not effective (failing to reject $H_0$ of no effect) when it actually is effective [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
| Scenario | Null Hypothesis True | Null Hypothesis False |
| :-------------------------- | :------------------- | :-------------------- |
| **Reject $H_0$** | Type I Error ($\alpha$) | Correct Decision |
| **Do not reject $H_0$** | Correct Decision | Type II Error ($\beta$) |
### 4.3 Statistical power
Statistical power is the probability that a test will correctly reject a false null hypothesis, thereby avoiding a Type II error. It is calculated as $Power = 1 - \beta$ [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* A power of 80% means that if a true effect exists, there is an 80% chance the study will detect it [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* Higher power increases the reliability of the study and the certainty of its findings [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* Low power means there is a significant risk of missing a real effect (Type II error) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.3.1 Factors that increase power
* **Larger sample size**: A bigger sample size generally leads to higher power [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Larger effect size**: A more pronounced true effect is easier to detect, thus increasing power [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Higher significance level ($\alpha$)**: While this increases power, it also increases the risk of a Type I error [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **One-tailed test**: When justified, a one-tailed test can increase power compared to a two-tailed test [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Lower variance**: Less variability in the data makes it easier to detect a true effect, leading to higher power [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 4.3.2 Effect size
Effect size quantifies the magnitude or practical importance of a statistical difference or relationship. While a p-value indicates statistical significance, effect size tells us if the observed effect is practically meaningful in the real world [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* A study can yield a small p-value with a large sample size even if the effect size is small, indicating statistical significance but little practical importance [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* Common measures of effect size include Cohen's d, correlation coefficient (r), and $R^2$ [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* Factors that increase effect size include a larger true difference, lower variability, less measurement error, and well-controlled experimental designs [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
---
# Statistical tests and assumptions
This section covers fundamental statistical tests, their underlying assumptions, and how to interpret their outputs, including post-hoc analyses [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 5.1 Overview of statistical concepts
Inferential statistics are used to draw conclusions or make predictions about a population based on a sample. Hypothesis testing is a core component of inferential statistics [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Null Hypothesis ($H_0$)**: Asserts no bias or effect; everything is fair [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Alternative Hypothesis ($H_A$)**: Asserts a specific trend or bias exists; it is mutually exclusive with $H_0$ [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Significance Level ($\alpha$)**: The probability of making a Type I error (false positive), typically set at 0.05 [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **P-value**: The probability of observing results as extreme as, or more extreme than, the current data, assuming the null hypothesis is true. If $P < \alpha$, $H_0$ is rejected [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Critical Region**: The range of outcomes considered unlikely under the null hypothesis, leading to its rejection [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Effect Size**: Measures the practical importance or magnitude of a statistical difference or relationship. It indicates how meaningful a finding is in the real world [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 5.2 Common statistical tests: t-tests and ANOVA
#### 5.2.1 T-tests
T-tests are statistical tools used to evaluate if there's a significant difference between two samples. They utilize the mean, standard deviation (SD), and number of independent observations from a sample to estimate its representation of the population [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Two-sample t-test**: Compares the means of two independent groups [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **One-sample t-test**: Compares the mean of a single group to a known or hypothesized population mean [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Paired t-test**: Applied when samples are related or measured in pairs, such as before and after an intervention [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
##### 5.2.1.1 Assumptions of the t-test
For t-tests to yield accurate probability calculations, several assumptions about the data must be met. Violating these assumptions can increase the likelihood of Type I (false positive) or Type II (false negative) errors [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
1. **Variable types**: The dependent variable must be continuous, and the independent variable must be bivariate (having only two categories). For example, testing how diet (normal vs. western, a bivariate independent variable) affects running time (a continuous dependent variable) in mice [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
2. **Normality**: The population from which the samples are drawn should have a normal distribution. This can be assessed using a normal quantile-quantile (Q-Q) plot, where data points forming a straight line indicate a good fit to a normal distribution [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
3. **Equal variances (homoscedasticity)**: The spread (variance) of data in the two populations being compared should be similar. This can be estimated by checking the ratio of the larger variance to the smaller variance; if this ratio is less than 4, variances are often considered equal. This is an estimate and may not be reliable for small samples [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 5.2.2 Analysis of Variance (ANOVA)
ANOVA (Analysis of Variance) is an F-test used to compare means across three or more groups. It works by comparing the variance within different samples to the variance between samples. The outcome of ANOVA indicates whether the observed samples are likely to originate from the same population [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
##### 5.2.2.1 Performing ANOVA in R
To perform an ANOVA test in R, the following assumptions should be met [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7):
* Data should be normally distributed [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* Observations should be independent within and between groups [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* Groups must have equal variances (homoscedasticity) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
The process involves using the `aov()` function to run the ANOVA test and `summary()` to view the output [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
##### 5.2.2.2 Interpreting ANOVA Output
The ANOVA output includes:
* **Sum of Squares**: Represents the squared differences between data points and the overall mean (SST) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Mean Squares**: Calculated by dividing the sum of squares by the degrees of freedom (DF) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **F-statistic**: The ratio of mean squares between groups to mean squares within groups. A high F-statistic suggests that variations between groups are statistically significant, leading to the rejection of $H_0$ [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **P-value**: Similar to t-tests, this indicates the probability of observing the results if $H_0$ were true.
* **Degrees of Freedom (DF)**:
* Between groups: $K - 1$, where $K$ is the number of groups [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* Within groups: $N - K$, where $N$ is the total number of observations across all groups [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
ANOVA results are typically reported as $F(\text{DF between}, \text{DF within}) = F\text{-value, } P = \text{p-value}$ [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 5.2.3 Post-hoc tests
When an ANOVA yields a significant result ($P < \alpha$), it indicates that at least one group mean differs from the others, but it doesn't specify which groups differ. Post-hoc tests are performed to determine these specific differences [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Tukey's Honestly Significant Difference (HSD) test**: A common post-hoc test that compares all possible pairs of group means. It provides the differences between conditions and an adjusted p-value for each comparison. If the adjusted p-value is below the significance level, the means of those two groups are considered significantly different [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 5.3 Handling multiple comparisons
When performing multiple statistical tests, the probability of encountering a false positive (Type I error) increases.
* **Family-wise Error Rate (FWER)**: The probability of making at least one Type I error across a series of tests. As the number of tests ($m$) increases, the FWER also increases: $P(\text{at least one false positive}) = 1 - (1-\alpha)^m$ [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Bonferroni Correction**: A conservative method that divides the significance level ($\alpha$) by the number of tests ($m$) to control the FWER. It reduces the chance of false positives but increases the risk of false negatives (Type II errors), thus decreasing statistical power [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **False Discovery Rate (FDR)**: Controls the expected proportion of "discoveries" (rejected null hypotheses) that are actually false positives. The Benjamini-Hochberg (BH) method is commonly used for FDR control and is less conservative than Bonferroni, offering increased power, especially for a large number of tests. Adjusted p-values below 0.05 under FDR control imply that approximately 5% of these discoveries are expected to be false positives [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 5.4 Error and bias in experimental design
Understanding and minimizing error and bias is crucial for reliable research [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Sampling Error**: Arises when a sample does not perfectly represent the population. It can be estimated and is ideally normally distributed. Techniques to control sampling error include [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7):
* **Replication**: Repeating measurements or experiments under identical conditions [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Balance**: Using groups of equal size, as unequal sizes can affect power and variance [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Blocking**: Grouping similar experimental units before random assignment to treatments to reduce variability [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Bias**: A systematic error that distorts results, stemming from study design, data collection, data analysis, or publication practices. Techniques to control bias include [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7):
* **Simultaneous Control Groups**: Using negative (no effect expected) and positive (effect expected) controls, as well as potentially a "best available therapy" control [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Blinding**: Preventing researchers and/or participants from knowing group assignments to avoid expectation bias [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Randomization**: Randomly assigning subjects to groups to minimize systematic differences [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 5.5 Interpreting statistical outputs
#### 5.5.1 Error bars
Different types of error bars convey different information:
* **Standard Deviation (SD) Error Bars**: Represent the spread of data within a sample. Overlapping SD bars suggest no conclusion about significance can be drawn [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Standard Error (SE) Error Bars**: Indicate the accuracy of the sample mean as a representation of the population mean. SE bars are generally smaller than SD bars and are often used to calculate confidence intervals. Overlap between SE bars does not necessarily mean a lack of significance, but non-overlap suggests a likely significant difference [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **95% Confidence Interval (CI) Error Bars**: Describe the range within which the true population mean is likely to fall (with 95% confidence). If the 95% CIs for the difference between two means do not include zero, it suggests a statistically significant difference at the 0.05 level. CIs can overlap significantly (up to 50%) and still indicate a significant difference, with touching CIs suggesting high significance [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 5.5.2 T-test and ANOVA output interpretation
* **T-test Output**: The 95% CI often pertains to the difference between the means. If this interval does not contain 0, it supports a significant result, implying the population mean is unlikely to be 0 and an effect exists [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **ANOVA Output**: A significant p-value below the chosen alpha level indicates a difference between at least two group means. Post-hoc tests are then required to identify which specific groups differ [2](#page=2) [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
> **Tip:** Always check the assumptions of any statistical test before interpreting its results. Violating assumptions can lead to misleading conclusions.
---
# Experimental design and error control
Robust experimental design is crucial for obtaining reliable and valid scientific results, focusing on minimizing both sampling error and bias [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 6.1 Principles of experimental design
An experimental study involves an intervention to test a hypothesis, in contrast to an observational study which involves making analyses without interventions. In experimental studies, all variables except the one being tested are controlled [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Independent/Explanatory Variable:** The variable that is manipulated or changed by the researcher, which is hypothesized to cause an effect [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Dependent/Response Variable:** The variable that is measured and is expected to be affected by the independent variable [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Confounding Variable:** A variable that can influence both the independent and dependent variables, potentially distorting the observed relationship. Awareness of confounding variables is important for interpreting experimental results [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 6.2 Types of replicates
* **Technical replicates:** Multiple measurements taken from the exact same sample. These are used to assess the precision and reliability of the experimental technique itself [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Biological replicates:** Different samples that are biologically distinct but are subjected to the same experimental conditions. These account for natural biological variability and help ensure that observed effects are consistent across different biological entities [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 6.3 Types of controls
* **Negative control:** A condition where no effect is expected. It serves as a baseline for comparison [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Positive control:** A condition where an effect is known to occur. It is used to confirm that the experimental system is capable of detecting an effect [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 6.4 Error control techniques
Reducing error increases the reliability of experimental results. Errors in experiments can be categorized as sampling error and bias [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 6.4.1 Sampling error
Sampling error arises when the sample used in an experiment is not perfectly representative of the population. This error is typically normally distributed and can be estimated. Techniques to control sampling error include [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7):
* **Replication:** Increasing the number of independent subjects or measurements provides more data, leading to more accurate measurements and reducing the impact of random variation [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Balance:** Comparing groups of similar sizes is ideal. Unequal sample sizes can affect statistical power and increase variance, potentially reducing the reliability of detecting true effects [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Blocking:** Grouping experimental units with similar characteristics (e.g., age, sex, health status) and then randomly assigning treatments within each block. This helps to remove variation associated with these characteristics from the experimental error [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 6.4.2 Bias
Bias is a systematic error that leads to distorted or consistently inaccurate results. It can be introduced through various factors [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7):
* **Study design:** For example, only measuring the largest cells because they are easiest to access, which may not be representative of the entire cell population [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Data collection:** Equipment that consistently reads values higher or lower than the true value [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Data analysis:** Using an analysis model that systematically underestimates or overestimates measured values [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Publication bias:** The tendency to publish findings that align with expected outcomes, leading to an overrepresentation of positive or significant results in the literature [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
Techniques to control bias include:
* **Simultaneous control groups:** Using negative, positive, and best available therapy controls that are run concurrently with the experimental groups to provide valid comparisons [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Blinding:** Preventing participants, researchers, or analysts from knowing which treatment group subjects belong to. This minimizes the influence of expectations (like the placebo effect) on the results [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
> **Tip:** The placebo effect can be influenced by the administration method, dosage, appearance, and doctor's communication, underscoring the importance of blinding in clinical research [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
* **Randomization:** Assigning subjects to experimental groups randomly. This should ideally be performed by a computer to avoid conscious or unconscious human bias. If an experiment does not specify its randomization method, it may indicate a poorly designed study [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 6.4.3 Questionable Research Practices (QRPs)
QRPs are not outright scientific misconduct but can lead to misleading conclusions and include practices like cherry-picking data, p-hacking, and HARKing (hypothesizing after results are known). These practices can arise from a lack of statistical understanding or the pressure to publish significant findings [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
---
## Common mistakes to avoid
- Review all topics thoroughly before exams
- Pay attention to formulas and key definitions
- Practice with examples provided in each section
- Don't memorize without understanding the underlying concepts
Glossary
| Term | Definition |
|---|---|
| Observational study | A study that makes observations that can be analyzed without any interventions being made. |
| Experimental study | A study where an intervention is made to test a hypothesis, and all other variables are controlled. |
| Independent variable | The variable that is changed or manipulated in an experiment to observe its effect. |
| Dependant variable | The variable that is measured or observed in response to changes in the independent variable. |
| Confounding variable | A variable that can impact the measurements of both the independent and dependent variables, potentially distorting the results. |
| Technical replicates | Multiple measurements taken from the same sample to assess the precision and reliability of an experimental technique. |
| Biological replicates | Using different samples that are biologically distinct but treated identically to account for natural biological variation. |
| Negative control | A condition in an experiment where no effect is expected, used as a baseline for comparison. |
| Positive control | A condition in an experiment where an effect is known to occur, used to compare against the experimental treatment. |
| Descriptive statistics | Statistical methods used to summarize and describe the main features of a dataset, such as mean, median, mode, and range. |
| Inferential statistics | Statistical methods used to make conclusions or predictions about a population based on a sample of data. |
| Correlation | A statistical measure that indicates the strength and direction of a linear relationship between two variables. |
| Correlation coefficient (r) | A value between -1 and +1 that quantifies the strength and direction of a linear relationship. |
| Regression analysis | A statistical method used to model the relationship between a dependent variable and one or more independent variables by fitting a linear equation. |
| R-squared ($R^2$) | A statistical measure that represents the proportion of the variance in the dependent variable that is predictable from the independent variable(s). |
| Residuals | The difference between an observed data point and the value predicted by a statistical model. |
| Probability | The measure of the likelihood that an event will occur, expressed as a number between 0 and 1. |
| Probability distribution | A graphical representation that shows the probability of each possible outcome of a random variable. |
| Binomial distribution | A probability distribution that describes the number of successes in a fixed number of independent Bernoulli trials, each with the same probability of success. |
| Cumulative probability | The probability of a range of outcomes occurring, from the minimum possible value up to a specified value. |
| Discrete data | Data that can only take on a finite number of values or a countable number of values, often represented by whole numbers. |
| Continuous data | Data that can take on any value within a given range, with an infinite number of possibilities between any two values. |
| Null hypothesis ($H_0$) | A statement that there is no significant difference or relationship between variables, or that an observed effect is due to chance. |
| Alternative hypothesis ($H_A$) | A statement that contradicts the null hypothesis, proposing that there is a significant difference or relationship. |
| Significance level (alpha, $\alpha$) | The probability threshold used to determine whether to reject the null hypothesis. Commonly set at 0.05. |
| P-value | The probability of obtaining test results at least as extreme as the observed results, assuming the null hypothesis is true. |
| Critical region | The range of values in a hypothesis test that leads to the rejection of the null hypothesis. |
| Type I error (False positive) | The error of rejecting the null hypothesis when it is actually true. |
| Type II error (False negative) | The error of failing to reject the null hypothesis when it is actually false. |
| Power | The probability of correctly rejecting the null hypothesis when it is false, indicating the test's ability to detect a true effect. |
| Effect size | A measure of the magnitude of a statistical relationship or difference between groups, indicating the practical significance of the findings. |
| Standard Deviation (SD) | A measure of the amount of variation or dispersion of a set of data values from their mean. |
| Standard Error of the Mean (SEM) | A measure of the variability of sample means around the population mean, calculated as $SD / \sqrt{n}$. |
| Confidence Interval (CI) | A range of values, derived from sample statistics, that is likely to contain the value of an unknown population parameter. |
| T-test | A statistical test used to compare the means of two groups to determine if they are statistically significantly different. |
| ANOVA (Analysis of Variance) | A statistical test used to compare the means of three or more groups to determine if there is a statistically significant difference between them. |
| Post-hoc test | Additional statistical tests performed after an ANOVA to determine which specific group pairs have significantly different means. |
| Tukey's honest significance test | A common post-hoc test used after ANOVA to perform all pairwise comparisons between group means. |
| Bonferroni correction | A method used to control the family-wise error rate when performing multiple statistical tests by adjusting the significance level. |
| False Discovery Rate (FDR) | The expected proportion of false positives among the rejected null hypotheses. |
| Sampling error | The error that arises from using a sample to represent a population, due to the inherent variability between samples. |
| Bias | A systematic error that leads to distorted results, consistently pushing measurements in a particular direction. |
| Replication | Repeating an experiment multiple times to increase the reliability and precision of the results. |
| Balance (in experimental design) | Designing experiments to have equal sample sizes in each group to minimize variance effects. |
| Blocking | Grouping experimental units with similar characteristics before random assignment to treatments to reduce variability. |
| Randomization | The process of assigning subjects to experimental groups by chance to minimize bias. |
| Blinding | A technique where participants or researchers are unaware of which treatment groups subjects are assigned to, to prevent expectation bias. |
| Placebo effect | A beneficial effect produced by a placebo drug or treatment that cannot be attributed to the properties of the placebo itself, and must therefore be due to the patient's belief in that treatment. |
| Questionable Research Practices (QRPs) | Statistical or analytical methods used to produce desired results, which may not be outright fraud but can lead to misleading conclusions. |
| Fabrication | Making up data or results and recording or reporting them. |
| Falsification | Manipulating research materials, equipment, or processes, or changing or omitting data or results such that the research is not accurately represented in the research record. |
| Biological replicate | A repeat measurement or experiment on a different biological sample under the same conditions. |
| Standard error bars | Error bars that represent the standard error of the mean (SEM), indicating the accuracy of the sample mean as an estimate of the population mean. |
| 95% confidence interval error bars | Error bars representing the 95% confidence interval for the mean, indicating a range within which the true population mean is likely to lie. |
| Paired t-test | A statistical test used to compare the means of two related samples, such as measurements taken from the same subjects before and after an intervention. |
| One-tailed test | A hypothesis test that rejects the null hypothesis if the test statistic is too large or too small, in a specific direction. |
| Two-tailed test | A hypothesis test that rejects the null hypothesis if the test statistic is too large or too small in either direction. |
| Family-wise error rate (FWER) | The probability of making at least one Type I error among a series of hypothesis tests. |
| Sum of Squares (SS) | A measure of the total variation in a dataset, calculated as the sum of the squared differences between each data point and the mean. |
| Degrees of Freedom (DF) | The number of independent values that can vary in the computation of a statistic. |
| F-statistic | The statistic used in ANOVA and other F-tests, calculated as the ratio of two variances. |
Cover
Oplossingen WC 2.pptx
Summary
# Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval biedt een bereik van waarden waarbinnen de werkelijke populatieparameter waarschijnlijk ligt, met een gespecificeerd niveau van zekerheid.
### 1.1 Wat is een betrouwbaarheidsinterval?
Een betrouwbaarheidsinterval is een schatting van een populatieparameter gebaseerd op een steekproefstatistiek. Het wordt weergegeven als een interval van waarden, met een bijbehorend betrouwbaarheidsniveau (meestal 95%). Dit niveau drukt de mate van zekerheid uit dat het interval de werkelijke populatieparameter bevat.
### 1.2 Het concept van betrouwbaarheidsintervallen
Het idee achter een betrouwbaarheidsinterval is om de onzekerheid die gepaard gaat met het schatten van een populatieparameter uit een steekproef te kwantificeren. In plaats van één puntenschatting te geven, bieden we een bereik.
### 1.3 Hoe wordt een betrouwbaarheidsinterval afgebakend?
De afbakening van een betrouwbaarheidsinterval, bijvoorbeeld een 95% betrouwbaarheidsinterval, is gebaseerd op de Z-transformatie van de steekproevenverdeling van het gemiddelde.
* **Z-scores:** Voor een 95% betrouwbaarheidsniveau weten we dat ongeveer 95% van de Z-scores binnen de normale verdeling ligt tussen -1.96 en +1.96.
* **Relatie met de steekproevenverdeling:** Deze Z-scores kunnen worden omgezet naar een bereik voor het populatiegemiddelde. Dit betekent dat we met 95% zekerheid kunnen stellen dat het populatiegemiddelde binnen dit specifieke interval ligt.
De formule voor een betrouwbaarheidsinterval voor het populatiegemiddelde ($\mu$) wordt gegeven door:
$$ \text{Betrouwbaarheidsinterval} = \bar{x} \pm Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}} $$
Waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $Z_{\alpha/2}$ de Z-score is die overeenkomt met het gewenste betrouwbaarheidsniveau (bijvoorbeeld 1.96 voor 95% betrouwbaarheid, wat correspondeert met $\alpha = 0.05$ en $\alpha/2 = 0.025$).
* $\sigma$ de populatiestandaarddeviatie is.
* $n$ de steekproefgrootte is.
Als de populatiestandaarddeviatie ($\sigma$) niet bekend is, wordt deze geschat met de steekproefstandaarddeviatie ($s$). In dat geval, vooral bij kleinere steekproeven ($n < 30$), wordt de t-verdeling gebruikt in plaats van de Z-verdeling, wat leidt tot een t-interval. De formule wordt dan:
$$ \text{Betrouwbaarheidsinterval} = \bar{x} \pm t_{\alpha/2, df} \times \frac{s}{\sqrt{n}} $$
Waarbij:
* $t_{\alpha/2, df}$ de t-score is met $df = n-1$ vrijheidsgraden die overeenkomt met het gewenste betrouwbaarheidsniveau.
* $s$ de steekproefstandaarddeviatie is.
### 1.4 Oefeningen en oplossingen
**Oefening 1:**
Van een steekproef jongeren tussen de 14 en de 16 jaar ($N = 215$) is het gemiddeld aantal minuten sport op een dag gelijk aan 72 met een standaarddeviatie van 15. Wat is het 95% betrouwbaarheidsinterval voor het gemiddelde aantal minuten sport op een dag?
* **Gegeven:**
* $n = 215$
* $\bar{x} = 72$
* $s = 15$
* Betrouwbaarheidsniveau = 95%, dus $Z_{\alpha/2} = 1.96$ (aangezien $n$ groot is, kunnen we de Z-verdeling benaderen).
* **Berekening:**
$$ \text{Standaardfout} = \frac{s}{\sqrt{n}} = \frac{15}{\sqrt{215}} \approx \frac{15}{14.66} \approx 1.023 $$
$$ \text{Foutmarge} = Z_{\alpha/2} \times \text{Standaardfout} = 1.96 \times 1.023 \approx 2.005 $$
$$ \text{Betrouwbaarheidsinterval} = \bar{x} \pm \text{Foutmarge} = 72 \pm 2.005 $$
$$ \text{Interval} = [69.995, 74.005] $$
* **Oplossing:** Het 95% betrouwbaarheidsinterval voor het gemiddeld aantal minuten sport op een dag is van ongeveer 70.0 tot 74.0 minuten.
**Oefening 2:**
Bij een steekproef van studenten in het eerste jaar toegepaste psychologie ($N = 103$) is de gemiddelde score voor positieve stemming gelijk aan 65 met een standaarddeviatie van 5. Wat is het 95% betrouwbaarheidsinterval voor de gemiddelde score op positieve stemming bij studenten van het 1ste jaar toegepaste psychologie.
* **Gegeven:**
* $n = 103$
* $\bar{x} = 65$
* $s = 5$
* Betrouwbaarheidsniveau = 95%, dus $Z_{\alpha/2} = 1.96$.
* **Berekening:**
$$ \text{Standaardfout} = \frac{s}{\sqrt{n}} = \frac{5}{\sqrt{103}} \approx \frac{5}{10.15} \approx 0.493 $$
$$ \text{Foutmarge} = Z_{\alpha/2} \times \text{Standaardfout} = 1.96 \times 0.493 \approx 0.966 $$
$$ \text{Betrouwbaarheidsinterval} = \bar{x} \pm \text{Foutmarge} = 65 \pm 0.966 $$
$$ \text{Interval} = [64.034, 65.966] $$
* **Oplossing:** Het 95% betrouwbaarheidsinterval voor de gemiddelde score op positieve stemming is van ongeveer 64.0 tot 66.0.
**Oefening 3:**
Bij een steekproef van rokers ($N = 101$) die willen stoppen is het gemiddeld aantal sigaretten dat er gerookt wordt gelijk aan 15 met een standaarddeviatie van 2. Wat is het 95% betrouwbaarheidsinterval voor het gemiddeld aantal sigaretten per dag dat een roker rookt.
* **Gegeven:**
* $n = 101$
* $\bar{x} = 15$
* $s = 2$
* Betrouwbaarheidsniveau = 95%, dus $Z_{\alpha/2} = 1.96$.
* **Berekening:**
$$ \text{Standaardfout} = \frac{s}{\sqrt{n}} = \frac{2}{\sqrt{101}} \approx \frac{2}{10.05} \approx 0.199 $$
$$ \text{Foutmarge} = Z_{\alpha/2} \times \text{Standaardfout} = 1.96 \times 0.199 \approx 0.390 $$
$$ \text{Betrouwbaarheidsinterval} = \bar{x} \pm \text{Foutmarge} = 15 \pm 0.390 $$
$$ \text{Interval} = [14.610, 15.390] $$
* **Oplossing:** Het 95% betrouwbaarheidsinterval voor het gemiddeld aantal sigaretten per dag dat een roker rookt is van ongeveer 14.6 tot 15.4 sigaretten.
> **Tip:** Bij grote steekproeven ($n \ge 30$), is het betrouwbaarheidsinterval berekend met de Z-score een goede benadering, zelfs als de populatiestandaarddeviatie ($\sigma$) onbekend is en door de steekproefstandaarddeviatie ($s$) wordt vervangen. Voor kleinere steekproeven is de t-verdeling noodzakelijk.
> **Tip:** De breedte van het betrouwbaarheidsinterval wordt beïnvloed door het betrouwbaarheidsniveau en de steekproefgrootte. Een hoger betrouwbaarheidsniveau (bv. 99% i.p.v. 95%) resulteert in een breder interval, terwijl een grotere steekproefgrootte ($n$) leidt tot een smaller, preciezer interval.
---
# Hypotheses toetsing
Dit document behandelt het opstellen van hypothesen, zowel eenzijdig als tweezijdig, en introduceert de algemene stappen en het stramien voor hypothesetoetsing.
### 2.1 Hypotheses opstellen
Hypotheses toetsen begint met het formuleren van een nulhypothese ($H_0$) en een alternatieve hypothese ($H_1$). De nulhypothese is een bewering over de populatie die we willen toetsen. De alternatieve hypothese is het tegenovergestelde van de nulhypothese en vertegenwoordigt wat we hopen te vinden of wat de vraagstelling impliceert.
* **Eenzijdige hypothese:** Wordt gebruikt wanneer er een specifieke richting van het effect wordt verwacht (bv. hoger dan, lager dan).
* Rechtseenzijdig: $H_0: \mu \le \mu_0$ en $H_1: \mu > \mu_0$.
* Linkseenzijdig: $H_0: \mu \ge \mu_0$ en $H_1: \mu < \mu_0$.
* **Tweezijdige hypothese:** Wordt gebruikt wanneer er geen specifieke richting van het effect wordt verwacht, alleen een verschil (bv. anders dan).
* $H_0: \mu = \mu_0$ en $H_1: \mu \ne \mu_0$.
#### 2.1.1 Oefeningen hypotheses opstellen
* **Oefening 1:** De gemiddelde hartslag in rust binnen de populatie studenten is gelijk aan 68 slagen per minuut. Je wilt weten of deze hartslag lager is bij studenten die elke dag sporten.
* $H_0: \mu \ge 68$ (De gemiddelde hartslag is gelijk aan of hoger dan 68).
* $H_1: \mu < 68$ (De gemiddelde hartslag is lager dan 68).
* **Oefening 2:** Je wilt onderzoeken of het gevoel van eigenwaarde in een groep kinderen met een gezichtsbeperking verschillend is aan het gevoel van eigenwaarde bij kinderen in het algemeen. Je weet dat in de populatie eigenwaarde normaal verdeeld is met een gemiddelde van 69.
* $H_0: \mu = 69$ (De gemiddelde eigenwaarde is gelijk aan 69).
* $H_1: \mu \ne 69$ (De gemiddelde eigenwaarde is verschillend van 69).
* **Oefening 3:** Je wilt nagaan of kinderen die stotteren een andere mate van angst ervaren in sociale situaties dan het algemeen gemiddelde angstniveau van kinderen. Het gemiddelde angstniveau van kinderen in sociale situaties is gelijk aan 37.
* $H_0: \mu = 37$ (Het gemiddelde angstniveau is gelijk aan 37).
* $H_1: \mu \ne 37$ (Het gemiddelde angstniveau is verschillend van 37).
### 2.2 Hypothesetoetsing (1 populatie)
Hypothesetoetsing is een procedure om te bepalen of er voldoende bewijs is om de nulhypothese te verwerpen ten gunste van de alternatieve hypothese.
#### 2.2.1 Stramien toetsen
Het algemene stramien voor het toetsen van hypothesen omvat de volgende stappen:
1. **Toetsingssituatie:** Bepaal de concrete toetsingssituatie, welke gegevens er beschikbaar zijn en bij welk soort onderzoeksvragen de toets gebruikt wordt.
2. **Voorwaarden:** Controleer of aan de statistische voorwaarden voor de gekozen toets is voldaan.
3. **Hypothesen:** Formuleer de nul- en alternatieve hypothese ($H_0$ en $H_1$).
4. **Toetsingsgrootheid:** Bereken de waarde van de toetsingsgrootheid en bepaal de bijbehorende kansverdeling.
* Formule voor de toetsingsgrootheid.
* Kansverdeling van de toetsingsgrootheid.
5. **Beslissingsregel:** Bepaal of $H_0$ verworpen wordt op basis van overschrijdingskansen (p-waarde) of kritieke waarden.
6. **Effectgrootte:** Evalueer hoe belangrijk het gevonden effect is.
7. **Rapporteren:** Vermeld de resultaten op een correcte manier.
#### 2.2.2 Z-toets (voor het gemiddelde)
De Z-toets wordt gebruikt wanneer de populatiestandaarddeviatie ($\sigma$) bekend is, of wanneer de steekproefgrootte ($N$) zeer groot is ($N \ge 100$) en de steekproefstandaarddeviatie ($s$) gebruikt wordt als schatter voor $\sigma$.
##### 2.2.2.1 Stramien Z-toets
1. **Toetsingssituatie:** Wordt gebruikt om te toetsen of het gemiddelde van een populatie een bepaalde waarde heeft, met bekende $\sigma$ of grote $N$.
2. **Voorwaarden:** De afhankelijke variabele is gemeten op minstens intervalniveau.
3. **Hypothesen:**
* Tweezijdig: $H_0: \mu = \mu_0$, $H_1: \mu \ne \mu_0$.
* Rechtseenzijdig: $H_0: \mu \le \mu_0$, $H_1: \mu > \mu_0$.
* Linkseenzijdig: $H_0: \mu \ge \mu_0$, $H_1: \mu < \mu_0$.
4. **Toetsingsgrootheid:**
* Formule:
$$Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{N}}$$
Indien $\sigma$ niet gekend is en $N \ge 100$, kan $s$ gebruikt worden ter vervanging van $\sigma$.
* Kansverdeling: Standaardnormaalverdeling ($Z \sim N(0,1)$).
5. **Beslissingsregel:**
* Via overschrijdingskansen (p-waarde): Verwerp $H_0$ als $p < \alpha$.
* Via kritieke waarden (bij $\alpha = 0.05$):
* Linkseenzijdig: Verwerp $H_0$ indien $Z_{obs} \le -1.64$.
* Rechtseenzijdig: Verwerp $H_0$ indien $Z_{obs} \ge 1.64$.
* Tweezijdig: Verwerp $H_0$ indien $Z_{obs} \le -1.96$ of $Z_{obs} \ge 1.96$.
De kritieke waarden veranderen bij een andere $\alpha$.
#### 2.2.3 T-toets voor het gemiddelde
De t-toets wordt gebruikt wanneer de populatiestandaarddeviatie ($\sigma$) **niet** bekend is en de steekproefgrootte ($N$) kleiner is dan 30, of wanneer men ervoor kiest om deze toets te gebruiken ongeacht de steekproefgrootte.
##### 2.2.3.1 Stramien T-toets
1. **Toetsingssituatie:** Vraag of het gemiddelde van de populatie waaruit de steekproef afkomstig is, een bepaalde waarde heeft of niet.
2. **Voorwaarden:**
* De afhankelijke variabele is normaal verdeeld in de populatie. Als dit niet het geval is, moet de steekproefgrootte ($N$) groter of gelijk zijn aan 30.
* De afhankelijke variabele is gemeten op minstens interval-niveau (bv. gewicht, IQ-scores, lengte, score op een taak).
3. **Hypothesen:** Zelfde als bij de Z-toets.
* Linkseenzijdig: $H_0: \mu \ge \mu_0$, $H_1: \mu < \mu_0$.
* Rechtseenzijdig: $H_0: \mu \le \mu_0$, $H_1: \mu > \mu_0$.
* Tweezijdig: $H_0: \mu = \mu_0$, $H_1: \mu \ne \mu_0$.
4. **Toetsingsgrootheid:**
* Formule:
$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{N}}$$
Hierin is $s$ de steekproefstandaarddeviatie.
* Kansverdeling: Student t-verdeling.
* Vrijheidsgraden (degrees of freedom, df): $df = N-1$.
5. **Beslissingsregel:**
* Het gebruik van overschrijdingskansen is complexer omdat er voor elke waarde van df een andere t-verdeling is. Daarom wordt de t-toets vaak uitgevoerd met kritieke waarden.
* Via kritieke waarden: Zoek de t-waarde op die hoort bij het significantieniveau $\alpha$ en de berekende $df$.
* Rechtseenzijdig toetsen bij $\alpha = 0.05$ en $df = 14$: Kritieke waarde is 1.761. Verwerp $H_0$ indien de berekende $t$-waarde $\ge 1.761$.
* **Voorbeeld Beslissingsregel:** Als de berekende $t$-waarde $1.81$ is en $df=14$, dan is $1.81 \ge 1.761$, dus wordt $H_0$ verworpen.
##### 2.2.3.2 Rapporteren van de t-toets
Bij het rapporteren van een one-sample t-test worden de volgende elementen vermeld: de uitgevoerde test, de gemiddelde score en standaarddeviatie van de steekproef, de referentiewaarde uit de populatie, de t-waarde met de vrijheidsgraden tussen haakjes, de p-waarde, en de effectgrootte.
* Voorbeeld: "Om na te gaan over de piekergroep meer piekeren dan de algemene bevolking werd een one-sample t-test uitgevoerd. Gemiddeld scoorden de mensen in de piekergroep hoger ($M = 27, SD = 15$) dan de referentiewaarde 20 uit de populatie, $t(14) = 1.81$, $p < .05$, $r = .44$."
#### 2.2.4 Chi-kwadraat ($\chi^2$) toets voor frequenties
De $\chi^2$-toets voor frequenties wordt gebruikt om na te gaan of de geobserveerde frequenties in de steekproef overeenstemmen met de verwachte frequenties op basis van normen of eerder onderzoek. Deze toets is geschikt voor ordinale of nominale variabelen.
##### 2.2.4.1 Stramien $\chi^2$-toets
1. **Toetsingssituatie:** Ga na of de geobserveerde frequenties in de steekproef overeenstemmen met de verwachte frequenties.
* Voorbeeld: Stemmen de frequenties van leesniveaus in een bepaalde school overeen met de frequenties in de algemene bevolking?
2. **Voorwaarden:**
* De categorieën waarvoor de frequenties worden bestudeerd, sluiten elkaar uit.
* $20\%$ of minder van de categorieën heeft een verwachte frequentie kleiner dan 5.
* Geen enkele categorie heeft een verwachte frequentie van minder dan 1.
* Ordinale variabelen worden als nominale variabelen beschouwd.
3. **Hypothesen:** Enkel tweezijdig mogelijk.
* $H_0: \pi_1 = \pi_2 = \dots = \pi_k$ (De populatieproporties zijn gelijk).
* $H_1$: niet $H_0$ (Niet alle populatieproporties zijn gelijk).
* Dit kan ook geformuleerd worden als: $H_0: \pi_1 = \pi_A; \pi_2 = \pi_B; \dots; \pi_k = \pi_K$ en $H_1$: niet $H_0$.
4. **Toetsingsgrootheid:**
* Formule:
$$\chi^2 = \sum \frac{(f_o - f_e)^2}{f_e}$$
Hierin is $f_o$ de geobserveerde frequentie en $f_e$ de verwachte frequentie, en $k$ het aantal categorieën.
* Kansverdeling: $\chi^2$-verdeling met $df = k - 1$.
5. **Beslissingsregels:**
* Overschrijdingskansen zijn moeilijk te tabelleren door de afhankelijkheid van $df$. Daarom wordt voornamelijk gebruik gemaakt van kritieke waarden.
* Zoek de kritieke $\chi^2$-waarde op die hoort bij het significantieniveau $\alpha$ en de berekende $df$.
* **Voorbeeld Beslissingsregel:** Bij $\alpha = 0.05$ en $df=1$ is de kritieke waarde 3.841. Verwerp $H_0$ indien de berekende $\chi^2$-waarde groter is dan de kritieke waarde.
6. **Effectgrootte:** Vaak wordt de effectgrootte $\phi$ gebruikt, die interpreteerbaar is zoals $r$.
7. **Rapporteren:** Vermeld de verwachte en geobserveerde proporties, de $\chi^2$-waarde, de $df$ en de p-waarde.
#### 2.2.5 Onzekerheden bij hypothesetoetsing: Type I en Type II fouten
Bij hypothesetoetsing kunnen twee soorten fouten worden gemaakt:
* **Type I fout:** Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau $\alpha$.
* **Oefening 1:** Een klinisch psycholoog verwerpt de nulhypothese (patiënt heeft geen depressie) en accepteert de alternatieve hypothese (patiënt is depressief), terwijl de patiënt in werkelijkheid niet depressief is. Dit is een **Type I fout**.
* **Type II fout:** Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onjuist is. De kans hierop wordt aangeduid met $\beta$.
* **Oefening 2:** Een studie concludeert dat een nieuw medicijn geen effect heeft, terwijl het medicijn in werkelijkheid wel effectief is. Dit is een **Type II fout**.
#### 2.2.6 Oefenen met SPSS
SPSS kan gebruikt worden voor het uitvoeren van statistische toetsen zoals de t-toets en de $\chi^2$-toets.
* **Opmerking bij t-toets in SPSS:** SPSS voert standaard een t-toets uit, ook in situaties waar een Z-toets toegestaan zou zijn (omdat de populatiestandaarddeviatie $\sigma$ zelden bekend is). Dit kan leiden tot een lagere power (1-$\beta$), wat betekent dat $H_0$ minder snel verworpen wordt, omdat de staarten van de t-verdeling dikker zijn dan die van de Z-verdeling.
* **Eenzijdig of tweezijdig in SPSS:** SPSS geeft standaard de tweezijdige overschrijdingskans (significantie) weer.
* Voor een éénzijdige overschrijdingskans: deel de getoonde sig. (2-tailed) door 2 en vergelijk dit met $\alpha$.
* Voor een tweezijdige overschrijdingskans: vergelijk de getoonde sig. (2-tailed) direct met $\alpha$.
---
# Verschillende toetsen en hun toepassing
Deze sectie biedt een gedetailleerde uitleg van de Z-toets, T-toets en Chi-kwadraat (X²) toets, inclusief de voorwaarden, formules, beslissingsregels en toepassingen.
### 3.1 Hypothesetoetsing: algemeen stramien
Hypothesetoetsing volgt een gestructureerd proces om conclusies te trekken over populaties op basis van steekproefgegevens.
#### 3.1.1 Het stramien van toetsen
1. **Toetsingssituatie:** Bepaal de concrete situatie, de onderzoeksvraag en het soort onderzoek waarvoor de toets wordt gebruikt. Identificeer de gegevens uit de vraagstelling.
2. **Voorwaarden:** Controleer de statistische voorwaarden die nodig zijn om de gekozen toets correct toe te passen.
3. **Hypothesen:** Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$), afhankelijk van de vraagstelling (eenzijdig of tweezijdig).
4. **Toetsingsgrootheid:** Identificeer de te berekenen grootheid en de bijbehorende kansverdeling. Bereken de waarde van de toetsingsgrootheid met de juiste formule.
5. **Beslissingsregel:** Bepaal wanneer de nulhypothese wordt verworpen, hetzij via overschrijdingskansen (p-waarde) of via kritieke waarden.
6. **Effectgrootte:** Beoordeel de praktische significantie van het gevonden effect.
7. **Rapporteren:** Vermeld de resultaten op een correcte en gestandaardiseerde manier.
#### 3.1.2 De Z-toets
De Z-toets wordt gebruikt om te toetsen of het gemiddelde van een populatie gelijk is aan een specifieke waarde, wanneer de populatiestandaarddeviatie ($\sigma$) bekend is, of wanneer de steekproefgrootte groot is ($N \ge 100$) en de steekproefstandaarddeviatie ($s$) als schatting voor $\sigma$ wordt gebruikt.
**Voorwaarden:**
* De populatie waaruit de steekproef getrokken wordt, is normaal verdeeld OF de steekproefgrootte is groot ($N \ge 100$).
* De afhankelijke variabele is gemeten op minstens intervalniveau.
* De populatiestandaarddeviatie ($\sigma$) is bekend, of $N \ge 100$.
**Hypothesen:**
* Tweezijdig: $H_0: \mu = \mu_0$ vs. $H_1: \mu \ne \mu_0$
* Rechtseenzijdig: $H_0: \mu \le \mu_0$ vs. $H_1: \mu > \mu_0$
* Linkseenzijdig: $H_0: \mu \ge \mu_0$ vs. $H_1: \mu < \mu_0$
**Toetsingsgrootheid:**
De formule voor de Z-toetsingsgrootheid is:
$$ Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{N}} $$
Waarin:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de hypothetische populatiegemiddelde is.
* $\sigma$ de populatiestandaarddeviatie is.
* $N$ de steekproefgrootte is.
Als $\sigma$ niet bekend is maar $N \ge 100$, kan $s$ (de steekproefstandaarddeviatie) gebruikt worden:
$$ Z \approx \frac{\bar{x} - \mu_0}{s / \sqrt{N}} $$
**Kansverdeling:**
De toetsingsgrootheid $Z$ volgt een standaardnormaalverdeling (Z-verdeling).
**Beslissingsregel (bij $\alpha = .05$):**
* **Tweezijdig:** Verwerp $H_0$ als $|Z| \ge 1.96$.
* **Rechtseenzijdig:** Verwerp $H_0$ als $Z \ge 1.64$.
* **Linkseenzijdig:** Verwerp $H_0$ als $Z \le -1.64$.
> **Tip:** Bij een andere $\alpha$ (significantieniveau) veranderen de kritieke waarden. Bijvoorbeeld, bij $\alpha = .01$ zijn de kritieke waarden voor een tweezijdige toets $\pm 2.576$.
**Effectgrootte:**
De effectgrootte wordt vaak gerapporteerd om de praktische significantie aan te geven.
**Rapporteren:**
Vermeld de toetsingssituatie, $Z$-waarde, vrijheidsgraden (indien relevant, maar voor Z-toets is dit oneindig, dus vaak niet expliciet vermeld), p-waarde en effectgrootte.
#### 3.1.3 De T-toets
De T-toets wordt gebruikt om te toetsen of het gemiddelde van een populatie gelijk is aan een specifieke waarde, wanneer de populatiestandaarddeviatie ($\sigma$) onbekend is en de steekproefgrootte kleiner is dan 100.
**Voorwaarden:**
* De afhankelijke variabele is normaal verdeeld in de populatie. Als dit niet het geval is, is een steekproefgrootte van $N \ge 30$ vereist (centrale limietstelling).
* De afhankelijke variabele is gemeten op minstens intervalniveau.
* De populatiestandaarddeviatie ($\sigma$) is onbekend.
**Hypothesen:**
De hypothesen zijn identiek aan die van de Z-toets.
**Toetsingsgrootheid:**
De formule voor de T-toetsingsgrootheid is:
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{N}} $$
Waarin:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de hypothetische populatiegemiddelde is.
* $s$ de steekproefstandaarddeviatie is.
* $N$ de steekproefgrootte is.
**Kansverdeling:**
De toetsingsgrootheid $t$ volgt een Student t-verdeling, die afhankelijk is van het aantal vrijheidsgraden ($df$).
**Vrijheidsgraden (df):**
Voor de one-sample t-toets geldt: $df = N - 1$.
> **Tip:** Het aantal vrijheidsgraden geeft aan hoeveel onafhankelijke waarden er vrij kunnen variëren bij het schatten van een parameter.
**Beslissingsregel:**
Vanwege de vele t-verdelingen (één voor elke $df$), wordt de beslissing meestal genomen aan de hand van kritieke waarden uit een t-tabel.
* Zoek de kritieke t-waarde op basis van het significantieniveau ($\alpha$) en het aantal vrijheidsgraden ($df$).
* Vergelijk de berekende t-waarde met de kritieke t-waarde. De exacte regel hangt af van de richting van de toets (eenzijdig/tweezijdig).
**Voorbeeld Beslissingsregel (bij $\alpha = .05$ en $df = 14$):**
* Rechtseenzijdig: Verwerp $H_0$ als $t \ge 1.761$.
* Linkseenzijdig: Verwerp $H_0$ als $t \le -1.761$.
* Tweezijdig: Verwerp $H_0$ als $|t| \ge 2.145$.
> **Tip:** SPSS voert vaak een t-toets uit, zelfs als een Z-toets mogelijk zou zijn, omdat de populatiestandaarddeviatie zelden bekend is. Dit leidt tot iets minder onderscheidingsvermogen (kans op terecht verwerpen van $H_0$) omdat de staarten van de t-verdeling dikker zijn dan die van de Z-verdeling.
**Rapporteren:**
Vermeld de toetsingssituatie, t-waarde, vrijheidsgraden ($df$), p-waarde en effectgrootte. Bijvoorbeeld: "$t(df) = waarde$, $p < .05$, $r = waarde$".
#### 3.1.4 De Chi-kwadraat (X²) toets voor frequenties
De Chi-kwadraat toets wordt gebruikt om te bepalen of er een significant verschil is tussen de geobserveerde frequenties in een steekproef en de verwachte frequenties gebaseerd op een theorie, norm of eerdere bevindingen. Deze toets is geschikt voor nominale of ordinale variabelen.
**Toetsingssituatie:**
Gaat na of de geobserveerde frequenties in de steekproef overeenstemmen met de verwachte frequenties. Bijvoorbeeld, stemmen de frequenties van leesniveaus in een klas overeen met de landelijke frequenties?
**Voorwaarden:**
* De categorieën van de variabele moeten elkaar uitsluiten.
* De verwachte frequentie in minder dan 20% van de categorieën mag kleiner zijn dan 5.
* Geen enkele categorie mag een verwachte frequentie kleiner dan 1 hebben.
* Ordinale variabelen worden vaak als nominale variabelen behandeld bij deze toets.
**Hypothesen:**
De Chi-kwadraat toets voor frequenties is altijd tweezijdig.
* $H_0$: De geobserveerde frequenties komen overeen met de verwachte frequenties (bv. $\pi_1 = \pi_2 = \dots = \pi_k$).
* $H_1$: De geobserveerde frequenties komen niet overeen met de verwachte frequenties (niet $H_0$).
**Toetsingsgrootheid:**
De formule voor de Chi-kwadraat toetsingsgrootheid is:
$$ \chi^2 = \sum \frac{(f_o - f_e)^2}{f_e} $$
Waarin:
* $f_o$ de geobserveerde frequenties zijn.
* $f_e$ de verwachte frequenties zijn.
* De som wordt genomen over alle categorieën.
**Kansverdeling:**
De toetsingsgrootheid $\chi^2$ volgt een Chi-kwadraat verdeling, die afhankelijk is van het aantal vrijheidsgraden ($df$).
**Vrijheidsgraden (df):**
Voor de Chi-kwadraat toets voor frequenties geldt: $df = k - 1$, waarbij $k$ het aantal categorieën is.
**Beslissingsregel:**
Net als bij de t-toets, wordt de beslissing meestal genomen aan de hand van kritieke waarden uit een Chi-kwadraat tabel, omdat er voor elke $df$ een aparte verdeling is.
* Zoek de kritieke $\chi^2$-waarde op basis van $\alpha$ en $df$.
* Verwerp $H_0$ als de berekende $\chi^2$-waarde groter is dan de kritieke waarde.
**Voorbeeld Beslissingsregel (bij $\alpha = .05$ en $df = 1$):**
* De kritieke $\chi^2$-waarde is 3.841. Verwerp $H_0$ als $\chi^2 > 3.841$.
**Effectgrootte:**
De effectgrootte, zoals phi ($\phi$), wordt gebruikt om de sterkte van het verband te interpreteren. Phi is interpreteerbaar op dezelfde manier als de correlatiecoëfficiënt $r$.
**Rapporteren:**
Vermeld de toetsingssituatie, de geobserveerde en verwachte frequenties, de $\chi^2$-waarde, het aantal vrijheidsgraden ($df$), de p-waarde en de effectgrootte. Bijvoorbeeld: "$\chi^2(df) = waarde$, $p < .05$, $\phi = waarde$".
### 3.2 Onzekerheden bij hypothesetoetsing
Bij hypothesetoetsing kunnen twee soorten fouten worden gemaakt:
* **Type 1 fout:** Het verwerpen van de nulhypothese ($H_0$) terwijl deze in werkelijkheid waar is. De kans op een Type 1 fout is gelijk aan het significantieniveau $\alpha$.
* **Type 2 fout:** Het niet verwerpen van de nulhypothese ($H_0$) terwijl deze in werkelijkheid onwaar is. De kans op een Type 2 fout wordt aangeduid met $\beta$.
### 3.3 Oefenen met SPSS
SPSS kan worden gebruikt om deze toetsen uit te voeren. Houd rekening met de volgende punten:
* SPSS voert standaard een t-toets uit wanneer de populatiestandaarddeviatie onbekend is. Dit is correct wanneer $\sigma$ niet gekend is.
* De overschrijdingskansen (p-waarden) uit SPSS bij een t-toets zijn doorgaans groter dan bij een Z-toets, wat betekent dat $H_0$ minder snel verworpen zal worden. Dit verhoogt de kans op een Type 2 fout.
* SPSS geeft meestal tweezijdige p-waarden weer (`sig. (2-tailed)`). Voor een eenzijdige toets moet deze waarde worden gedeeld door 2.
* Voor de Chi-kwadraat toets in SPSS kan men de frequentietabellen analyseren om de geobserveerde en verwachte frequenties te verkrijgen en vervolgens de Chi-kwadraat analyse uit te voeren.
---
# Type 1 en Type 2 fouten en SPSS
Dit document behandelt de concepten van Type I en Type II fouten bij hypothesetoetsing en demonstreert de toepassing van statistische toetsen zoals de t-toets en chi-kwadraat (X²) toets in SPSS, met gedetailleerde uitleg van het toetsingsproces.
## 4. Type 1 en type 2 fouten en SPSS
### 4.1 Hypothesetoetsing: het stramien
Het toetsen van hypothesen volgt een gestructureerd proces om conclusies te trekken op basis van steekproefgegevens. Dit stramien bestaat uit de volgende stappen:
1. **Toetsingssituatie:** Bepaal de concrete onderzoeksvraag en welke gegevens beschikbaar zijn. Identificeer het type onderzoeksvraag dat bij de betreffende toets past.
2. **Voorwaarden:** Controleer of aan de statistische voorwaarden voor het gebruik van de gekozen toets is voldaan.
3. **Hypothesen:** Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) die passen bij de toetsingssituatie en de vraagstelling.
4. **Toetsingsgrootheid:**
* Bereken de waarde van de toetsingsgrootheid met behulp van de specifieke formule voor de toets.
* Identificeer de kansverdeling waartoe deze toetsingsgrootheid behoort (bijvoorbeeld standaardnormaalverdeling, t-verdeling, X²-verdeling).
5. **Beslissingsregel:** Bepaal of de nulhypothese wordt verworpen op basis van overschrijdingskansen (p-waarden) of kritieke waarden, afhankelijk van het gekozen significantieniveau ($\alpha$).
6. **Effectgrootte:** Kwantificeer de grootte van het gevonden effect om de praktische significantie van de resultaten te beoordelen.
7. **Rapporteren:** Vermeld de resultaten van de hypothesetoets op een correcte en volledige manier.
#### 4.1.1 Toetsingsgrootheid en kansverdelingen
Bij de berekening van de toetsingsgrootheid is het cruciaal om de juiste kansverdeling te identificeren:
* **Z-toets:** De toetsingsgrootheid volgt een standaardnormaalverdeling (N(0,1)). Dit is typisch wanneer de populatiestandaarddeviatie ($\sigma$) bekend is. Indien $\sigma$ onbekend is maar de steekproefgrootte groot ($N \ge 100$), kan de steekproefstandaarddeviatie ($s$) gebruikt worden ter vervanging van $\sigma$, wat dan ook leidt tot een benadering met de standaardnormaalverdeling.
* **t-toets:** De toetsingsgrootheid volgt een Student t-verdeling. Dit wordt gebruikt wanneer de populatiestandaarddeviatie ($\sigma$) onbekend is en de steekproefgrootte kleiner is dan 30 (of wanneer de populatieafhankelijke variabele niet normaal verdeeld is en $N < 30$). De t-verdeling is afhankelijk van het aantal vrijheidsgraden ($df$), dat voor de one-sample t-toets wordt berekend als $df = N-1$.
* **X²-toets:** De toetsingsgrootheid volgt een chi-kwadraatverdeling (X²). Deze verdeling is eveneens afhankelijk van het aantal vrijheidsgraden ($df$), dat bij de X²-toets voor frequenties wordt berekend als $df = k-1$, waarbij $k$ het aantal categorieën is.
#### 4.1.2 Beslissingsregels
De beslissing om $H_0$ te verwerpen kan genomen worden op twee manieren:
* **Overschrijdingskansen (p-waarde):** Als de berekende p-waarde kleiner is dan het vooraf bepaalde significantieniveau ($\alpha$), wordt $H_0$ verworpen.
* **Kritieke waarden:** Als de berekende toetsingsgrootheid groter is dan de kritieke waarde (voor rechtseenzijdige toetsen) of kleiner is dan de kritieke waarde (voor linkseenzijdige toetsen), of als de toetsingsgrootheid buiten het acceptatiegebied valt (voor tweezijdige toetsen), wordt $H_0$ verworpen.
De kritieke waarden zijn afhankelijk van het significantieniveau ($\alpha$) en, in het geval van de t-toets en X²-toets, van de vrijheidsgraden ($df$).
> **Tip:** Het is cruciaal om bij de beslissingsregel rekening te houden met of de toets eenzijdig (links of rechts) of tweezijdig is. De kritieke waarden verschillen hiervoor. Bij $\alpha = .05$ zijn standaardkritieke waarden voor een tweezijdige Z-toets bijvoorbeeld $\pm 1.96$, en voor een eenzijdige Z-toets $\pm 1.64$.
### 4.2 Specifieke statistische toetsen
#### 4.2.1 De Z-toets
De Z-toets wordt gebruikt om te toetsen of het gemiddelde van een populatie significant verschilt van een bekende waarde, wanneer de populatiestandaarddeviatie bekend is.
**Formule toetsingsgrootheid:**
$$ Z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{N}} $$
Hierbij is $\bar{x}$ het steekproefgemiddelde, $\mu_0$ de hypothesisede populatiegemiddelde, $\sigma$ de populatiestandaarddeviatie en $N$ de steekproefgrootte. Als $\sigma$ onbekend is, kan $s$ (steekproefstandaarddeviatie) gebruikt worden indien $N \ge 100$.
**Kansverdeling:** Standaardnormaalverdeling.
#### 4.2.2 De t-toets voor het gemiddelde
De t-toets voor het gemiddelde wordt gebruikt wanneer we willen weten of het gemiddelde van een populatie significant verschilt van een bepaalde waarde, maar de populatiestandaarddeviatie ($\sigma$) onbekend is.
**Toetsingssituatie:** Vraagt of het gemiddelde van de populatie waaruit de steekproef afkomstig is een specifieke waarde heeft.
* Linkseenzijdig: $H_0: \mu \ge \mu_0$
* Rechtseenzijdig: $H_0: \mu \le \mu_0$
* Tweezijdig: $H_0: \mu = \mu_0$
**Voorwaarden:**
* Afhankelijke variabele is normaal verdeeld in de populatie, of de steekproefgrootte $N \ge 30$ indien de afhankelijke variabele niet normaal verdeeld is.
* Afhankelijke variabele is gemeten op minstens intervalniveau.
**Formule toetsingsgrootheid:**
$$ t = \frac{\bar{x} - \mu_0}{s/\sqrt{N}} $$
Hierbij is $s$ de steekproefstandaarddeviatie.
**Kansverdeling:** Student t-verdeling met $df = N-1$ vrijheidsgraden.
**Beslissingsregel:** Vanwege de oneindige reeks t-verdelingen (één per aantal vrijheidsgraden) worden toetsen vaker uitgevoerd met kritieke waarden dan met overschrijdingskansen.
**Rapporteren:** Een correcte rapportage omvat het type toets, de gemiddelden en standaarddeviaties van de steekproef en de populatie, de t-waarde, het aantal vrijheidsgraden, de p-waarde, en de effectgrootte.
* Voorbeeld: "Om na te gaan over de piekergroep meer piekeren dan de algemene bevolking werd een one-sample t-test uitgevoerd. Gemiddeld scoorden de mensen in de piekergroep hoger ($M = 27$, $SD = 15$) dan de referentiewaarde 20 uit de populatie, $t(14) = 1.81$, $p < .05$, $r = .44$."
#### 4.2.3 De X²-test voor frequenties
De chi-kwadraat (X²) test voor frequenties wordt gebruikt om na te gaan of de geobserveerde frequenties in een steekproef overeenstemmen met de verwachte frequenties, gebaseerd op normen, theorieën of eerder onderzoek.
**Toetsingssituatie:** Gaat na of de frequentieverdelingen van categorische variabelen overeenkomen.
**Voorwaarden:**
* De categorieën van de variabele moeten elkaar uitsluiten.
* 20% of minder van de categorieën mag een verwachte frequentie ($f_e$) kleiner dan 5 hebben.
* Geen enkele categorie mag een verwachte frequentie van minder dan 1 hebben.
* Oudere studies beschouwen ordinale variabelen soms als nominale voor deze toets.
**Hypothesen:** Altijd tweezijdig.
* $H_0$: De geobserveerde frequenties komen overeen met de verwachte frequenties (bijv. $\pi_1 = \pi_2 = \dots = \pi_k$).
* $H_1$: De geobserveerde frequenties komen niet overeen met de verwachte frequenties (niet $H_0$).
**Formule toetsingsgrootheid:**
$$ \chi^2 = \sum \frac{(f_o - f_e)^2}{f_e} $$
Hierbij is $f_o$ de geobserveerde frequentie en $f_e$ de verwachte frequentie. $k$ is het aantal categorieën.
**Kansverdeling:** X²-verdeling met $df = k-1$ vrijheidsgraden.
**Beslissingsregel:** Vaak met kritieke waarden vanwege de vele X²-verdelingen. De kritieke waarde wordt opgezocht in een tabel op basis van $\alpha$ en $df$.
**Effectgrootte:** Vaak berekend met $\phi$ (phi), die interpreteerbaar is zoals $r$.
**Rapporteren:** Verwachte en geobserveerde proporties/frequenties, de X²-waarde, $df$, de p-waarde en de effectgrootte.
### 4.3 Type 1 en Type 2 fouten
Bij hypothesetoetsing kunnen twee soorten fouten optreden:
* **Type 1 fout ($\alpha$):**
* **Definitie:** Het verwerpen van de nulhypothese ($H_0$) terwijl deze in werkelijkheid waar is.
* **Gevolg:** Concluderen dat er een effect of verschil is, terwijl dit er niet is.
* **Kans:** De kans op een Type 1 fout is gelijk aan het significantieniveau ($\alpha$) dat vooraf is vastgesteld (bv. 0.05 of 5%).
> **Voorbeeld:** Een diagnostische test voor depressie heeft $H_0$: "geen depressie". Als de test rejecteert ($H_1$: "wel depressie"), maar de patiënt is in werkelijkheid niet depressief, is dit een Type 1 fout.
* **Type 2 fout ($\beta$):**
* **Definitie:** Het niet verwerpen van de nulhypothese ($H_0$) terwijl deze in werkelijkheid onjuist is.
* **Gevolg:** Concluderen dat er geen effect of verschil is, terwijl dit er in werkelijkheid wel is.
* **Kans:** De kans op een Type 2 fout wordt aangeduid met $\beta$. Het onderscheidingsvermogen (power) van een toets is $1 - \beta$, wat de kans is om $H_0$ terecht te verwerpen wanneer deze onjuist is.
> **Voorbeeld:** Een medicijnstudie heeft $H_0$: "medicijn heeft geen effect". Als de studie concludeert dat het medicijn geen effect heeft, maar het is in werkelijkheid wel effectief, is dit een Type 2 fout.
### 4.4 Oefenen met SPSS
SPSS is een statistisch softwarepakket dat wordt gebruikt voor data-analyse en het uitvoeren van statistische toetsen.
#### 4.4.1 T-toets in SPSS
* SPSS voert standaard een t-toets uit, zelfs in situaties waar een Z-toets theoretisch mogelijk zou zijn (omdat $\sigma$ bekend is). Dit komt omdat SPSS er doorgaans vanuit gaat dat $\sigma$ onbekend is.
* De overschrijdingskansen bij een t-toets zijn doorgaans groter dan bij een Z-toets, wat betekent dat de kans om $H_0$ te verwerpen kleiner is bij een t-toets. Hierdoor neemt het onderscheidingsvermogen ($1-\beta$) af.
* **Eenzijdig of tweezijdig toetsen in SPSS:** SPSS presenteert standaard de tweezijdige overschrijdingskans ('sig. (2-tailed)').
* Als een **tweezijdige** overschrijdingskans nodig is, wordt deze direct vergeleken met $\alpha$.
* Als een **eenzijdige** overschrijdingskans nodig is, wordt de tweezijdige p-waarde gedeeld door 2 en vervolgens vergeleken met $\alpha$.
#### 4.4.2 X²-toets in SPSS
SPSS kan ook worden gebruikt om de X²-toets voor frequenties uit te voeren. De software berekent de X²-statistiek, het aantal vrijheidsgraden en de bijbehorende p-waarde, waardoor de beslissingsregel eenvoudig kan worden toegepast.
> **Belangrijke opmerking voor SPSS:** Hoewel SPSS krachtige tools biedt, is het essentieel om de onderliggende statistische concepten en voorwaarden van de toetsen te begrijpen om de output correct te kunnen interpreteren. De resultaten uit SPSS moeten altijd worden geïnterpreteerd in het licht van de toetsingssituatie, hypothesen en voorwaarden.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Betrouwbaarheidsinterval | Een statistisch interval dat een reeks waarden bevat waarbinnen de werkelijke populatieparameter waarschijnlijk ligt met een bepaalde mate van zekerheid. |
| Nulhypothese (H0) | Een stelling die wordt aangenomen als waar totdat er voldoende statistisch bewijs is om deze te verwerpen. Het stelt meestal dat er geen effect, geen verschil of geen relatie is. |
| Alternatieve hypothese (H1) | Een stelling die wordt aangenomen als er voldoende bewijs is om de nulhypothese te verwerpen. Het stelt meestal dat er wel een effect, een verschil of een relatie is. |
| Z-toets | Een statistische toets die wordt gebruikt om te bepalen of het gemiddelde van een steekproef significant verschilt van het gemiddelde van de populatie, wanneer de populatiestandaardafwijking bekend is. |
| T-toets | Een statistische toets die wordt gebruikt om te bepalen of het gemiddelde van een steekproef significant verschilt van het gemiddelde van de populatie, wanneer de populatiestandaardafwijking onbekend is. |
| Chi-kwadraat toets (X²-toets) | Een statistische toets die wordt gebruikt om te onderzoeken of er een significant verband bestaat tussen twee categorische variabelen, of om te controleren of de geobserveerde frequenties overeenkomen met de verwachte frequenties. |
| Vrijheidsgraden (df) | Het aantal waarden in een berekening dat vrij kan variëren. Bij de t-toets is dit vaak N-1, waarbij N de steekproefgrootte is. |
| Significantieniveau (α) | De kans op het maken van een Type 1 fout, oftewel de kans om de nulhypothese te verwerpen terwijl deze in werkelijkheid waar is. Meestal ingesteld op 0.05. |
| P-waarde (overschrijdingskans) | De kans om een teststatistiek te verkrijgen die minstens zo extreem is als de geobserveerde teststatistiek, ervan uitgaande dat de nulhypothese waar is. Als de p-waarde kleiner is dan α, wordt H0 verworpen. |
| Kritieke waarde | De grens- of drempelwaarde die wordt gebruikt om de nulhypothese te verwerpen of te behouden. Als de berekende toetsingsgrootheid groter of kleiner is dan de kritieke waarde (afhankelijk van de richting van de toets), wordt H0 verworpen. |
| Effectgrootte | Een maat voor de omvang van het effect dat wordt gemeten. Het geeft aan hoe sterk het verband is tussen variabelen of hoe groot het verschil is tussen groepen, onafhankelijk van de steekproefgrootte. |
| Type 1 fout | Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. Dit staat ook bekend als een vals positief resultaat. |
| Type 2 fout | Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onwaar is. Dit staat ook bekend als een vals negatief resultaat. |
Cover
Oplossingen WC 3.pptx
Summary
# Toetsstramien en toetsen voor 2 onafhankelijke populaties
Dit onderwerp omvat het algemene proces van het uitvoeren van statistische toetsen en focust specifiek op de t-toets voor twee onafhankelijke steekproeven, inclusief de bijhorende voorwaarden, hypothesen, toetsingsgrootheid, beslissingsregel en effectgrootte. Tevens wordt de F-toets voor gelijke varianties besproken.
### 1.1 Het algemene toetsstramien
Bij het uitvoeren van een statistische toets doorloopt men een gestructureerd proces, het zogenaamde toetsstramien, dat helpt bij het systematisch beantwoorden van onderzoeksvragen.
#### 1.1.1 De stappen van het toetsstramien
1. **Toetsingssituatie:**
* Identificeer de beschikbare gegevens.
* Beschrijf de concrete toetsingssituatie.
* Bepaal bij welk soort onderzoeksvragen deze toets toegepast kan worden.
2. **Voorwaarden:**
* Controleer of aan de statistische voorwaarden voor de gekozen toets wordt voldaan.
3. **Hypothesen:**
* Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) die passen bij de onderzoeksvraag.
4. **Toetsingsgrootheid:**
* Bepaal welke statistische grootheid berekend moet worden en wat de bijbehorende kansverdeling is.
* Bereken de waarde van de toetsingsgrootheid met behulp van de juiste formule.
5. **Beslissingsregel:**
* Formuleer de regel op basis waarvan $H_0$ wordt verworpen, hetzij via overschrijdingskansen (p-waarde) of via kritieke waarden.
6. **Effectgrootte:**
* Bereken de effectgrootte om de praktische relevantie van het gevonden effect te kwantificeren.
7. **Rapporteren:**
* Vermeld de resultaten op een correcte en gestandaardiseerde manier.
### 1.2 Toetsen voor 2 onafhankelijke populaties
Dit gedeelte richt zich op het vergelijken van twee groepen die onafhankelijk van elkaar zijn samengesteld.
#### 1.2.1 De t-toets voor 2 onafhankelijke steekproeven
De t-toets voor 2 onafhankelijke steekproeven wordt gebruikt om te onderzoeken of er een significant verschil is in gemiddelden tussen twee onafhankelijke groepen.
* **Onderzoeksvraag:** Is er een verschil toe te wijzen aan een manipulatie, therapie, etc., door één groep deze toe te passen en een andere groep niet (controlegroep)?
* **Toepassingsgebied:** Vergelijken van gemiddelden van twee onafhankelijke groepen (bv. experimentele groep versus controlegroep).
* **Voorwaarden:**
* De afhankelijke variabele (AV) is normaal verdeeld binnen beide populaties.
* De AV is gemeten op minimaal intervalniveau.
* De steekproeven zijn onafhankelijk.
* **Hypothesen:**
* $H_0: \mu_1 = \mu_2$ (Er is geen verschil tussen de populatiegemiddelden.)
* $H_1: \mu_1 \neq \mu_2$ (Er is een verschil tussen de populatiegemiddelden - tweezijdige toets.)
* $H_1: \mu_1 > \mu_2$ of $H_1: \mu_1 < \mu_2$ (Er is een directioneel verschil - eenzijdige toets.)
* **Toetsingsgrootheid:**
De berekening van de t-statistiek hangt af van de varianties in de twee populaties. Er zijn twee varianten:
1. **Gelijke varianties in de populaties ($\sigma^2_1 = \sigma^2_2$):**
In dit geval wordt een gepoolde variantie ($s^2_p$) gebruikt.
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{s^2_p \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} $$
Waarbij:
$$ s^2_p = \frac{(n_1 - 1)s^2_1 + (n_2 - 1)s^2_2}{n_1 + n_2 - 2} $$
De vrijheidsgraden zijn $df = n_1 + n_2 - 2$.
2. **Ongelijke varianties in de populaties ($\sigma^2_1 \neq \sigma^2_2$):**
Hierbij wordt geen gepoolde variantie gebruikt, maar de afzonderlijke steekproefvarianties ($s^2_1$ en $s^2_2$). Dit staat bekend als de Welch's t-toets.
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}}} $$
De vrijheidsgraden worden berekend met de Welch-Satterthwaite formule, die complexer is:
$$ df \approx \frac{\left(\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}\right)^2}{\frac{\left(\frac{s^2_1}{n_1}\right)^2}{n_1 - 1} + \frac{\left(\frac{s^2_2}{n_2}\right)^2}{n_2 - 1}} $$
* **Beslissingsregel:**
* **Kritieke waarden:** Verwerp $H_0$ als de berekende t-statistiek groter is dan de kritieke waarde (voor een eenzijdige toets) of als de absolute waarde van de berekende t-statistiek groter is dan de kritieke waarde (voor een tweezijdige toets) bij een bepaald significantieniveau ($\alpha$).
* **Overschrijdingskans (p-waarde):** Verwerp $H_0$ als de p-waarde kleiner is dan het gestelde significantieniveau ($\alpha$).
* **Effectgrootte:**
Om de effectgrootte te berekenen, wordt vaak Cohen's $r$ gebruikt, die de standaard deviation van de gemiddelden van de groepen uitdrukt in termen van de standaarddeviatie.
$$ r = \frac{\bar{x}_1 - \bar{x}_2}{s_{pooled}} $$
(Waar $s_{pooled}$ de gepoolde standaarddeviatie is bij gelijke varianties.)
Een andere veelgebruikte maat voor effectgrootte is Cohen's $d$:
$$ d = \frac{\bar{x}_1 - \bar{x}_2}{s_{pooled}} $$
(Bij gelijke varianties)
En voor ongelijke varianties:
$$ d = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{(n_1-1)s^2_1 + (n_2-1)s^2_2}{n_1+n_2-2}}} $$
(Met de gepoolde standaarddeviatie)
Interpretatie van Cohen's $d$:
* $|d| \approx 0.2$: klein effect
* $|d| \approx 0.5$: gemiddeld effect
* $|d| \approx 0.8$: groot effect
#### 1.2.2 De F-toets voor gelijke varianties
Voordat de t-toets voor 2 onafhankelijke steekproeven kan worden uitgevoerd, is het noodzakelijk om te bepalen of de varianties in de twee populaties als gelijk of ongelijk beschouwd mogen worden. Hiervoor wordt de F-toets gebruikt.
* **Hypothesen:**
* $H_0: \sigma^2_1 = \sigma^2_2$ (De varianties in de populaties zijn gelijk.)
* $H_1: \sigma^2_1 \neq \sigma^2_2$ (De varianties in de populaties zijn ongelijk.)
* **Toetsingsgrootheid:**
De F-statistiek is de verhouding van de twee steekproefvarianties.
$$ F = \frac{s^2_{groter}}{s^2_{kleiner}} $$
Hierbij is $s^2_{groter}$ de grotere van de twee steekproefvarianties en $s^2_{kleiner}$ de kleinere.
* **Beslissingsregel:**
* Verwerp $H_0$ als de berekende F-statistiek groter is dan de kritieke F-waarde uit de F-verdelingstabel, met de bijbehorende vrijheidsgraden ($df_{teller} = n_{groter}-1$ en $df_{noemer} = n_{kleiner}-1$).
#### 1.2.3 Wilcoxon rank-sum test (Mann-Whitney U-test)
Wanneer de aannames voor de t-toets voor onafhankelijke steekproeven niet voldaan zijn (bv. als de afhankelijke variabele niet op intervalniveau gemeten is of niet normaal verdeeld is), kan de non-parametrische Wilcoxon rank-sum test (ook bekend als de Mann-Whitney U-test) worden toegepast. Deze toets vergelijkt medianen in plaats van gemiddelden.
* **Wanneer te gebruiken:** Als aan de assumpties van een t-toets voor 2 onafhankelijke steekproeven niet is voldaan.
* **Voorwaarden:**
* De steekproeven zijn onafhankelijk.
* De afhankelijke variabele is minimaal ordinaal niveau.
* **Hypothesen:**
* $H_0$: De verdelingen van de twee groepen zijn identiek. (Impliciet: de medianen zijn gelijk.)
* $H_1$: De verdelingen van de twee groepen zijn verschillend. (Impliciet: de medianen verschillen.)
* **Toetsingsgrootheid:**
1. Rangschik alle waarnemingen van beide groepen samen van klein naar groot.
2. Ken rangnummers toe. Bij gelijke waarden wordt het gemiddelde van de rangen toegekend.
3. Bereken de som van de rangen voor elke groep afzonderlijk ($W_1$ en $W_2$).
4. De toetsingsgrootheid kan de kleinste van deze sommen zijn, of een omrekening naar een z-score.
Voor grote steekproeven kan de toetsingsgrootheid $W_s$ worden omgerekend naar een z-score:
$$ z = \frac{W_s - \frac{n_1(n_1+n_2+1)}{2}}{\sqrt{\frac{n_1 n_2 (n_1+n_2+1)}{12}}} $$
Waarbij $W_s$ de kleinste rangsom is, $n_1$ de steekproefgrootte van de ene groep, en $n_2$ de steekproefgrootte van de andere groep.
* **Beslissingsregel:**
* Gebruik overschrijdingskansen (p-waarden) gebaseerd op de z-score. Verwerp $H_0$ als de tweezijdige p-waarde kleiner is dan $\alpha$.
* **Effectgrootte:**
Voor de Wilcoxon rank-sum test kan de effectgrootte worden geschat met behulp van een correlatiecoëfficiënt, die de mate van overlap tussen de twee groepen weergeeft. Echter, er is geen eenduidige standaardmaat zoals bij de t-toets. Soms wordt een soortgelijke berekening als bij de t-toets gebruikt na transformatie van de rangen.
### 1.3 Voorbeeldtoepassing van het toetsstramien
**Onderzoeksvraag:** Wil de directeur van een lagere school nagaan of leerlingen die in de kleuterklas ingestapt zijn vóór de leeftijd van 3 jaar, hogere of lagere resultaten behalen dan leerlingen die na de leeftijd van 3 jaar zijn ingestapt, op vier vakken?
#### 1.3.1 Stap 1: Toetsingssituatie
* **Gegevens:** Scores op 4 vakken voor twee groepen leerlingen (ingestapt vóór 3 jaar vs. ingestapt na 3 jaar).
* **Concrete toetsingssituatie:** Vergelijken van gemiddelde scores tussen twee onafhankelijke groepen.
* **Onderzoeksvraag type:** Nagaan of er een significant verschil is in gemiddelde prestaties tussen twee groepen.
#### 1.3.2 Stap 2: Voorwaarden
* **Normaal verdeelde AV:** Aangenomen in de vraag.
* **Interval-niveau AV:** Scores op vakken zijn minimaal intervalniveau.
* **Onafhankelijke steekproeven:** De twee groepen leerlingen zijn onafhankelijk.
#### 1.3.3 Stap 3: Hypothesen
* **Vraagstelling:** Is er een verschil in scores tussen leerlingen die vóór 3 jaar instappen en leerlingen die na 3 jaar instappen?
* **Hypothesen (tweezijdig):**
* $H_0: \mu_{vóór 3 jaar} = \mu_{na 3 jaar}$
* $H_1: \mu_{vóór 3 jaar} \neq \mu_{na 3 jaar}$
#### 1.3.4 Stap 4: Toetsingsgrootheid
* **Te berekenen grootheid:** t-statistiek.
* **Kansverdeling:** Student t-verdeling.
* **Bepaling varianties:** Eerst de F-toets uitvoeren om te bepalen of de varianties gelijk of ongelijk zijn.
* Als de F-toets significant is ($p < 0.05$), gebruik de formule voor ongelijke varianties.
* Als de F-toets niet significant is ($p \ge 0.05$), gebruik de formule voor gelijke varianties met gepoolde variantie en $df = n_1 + n_2 - 2$.
#### 1.3.5 Stap 5: Beslissingsregel
* Gebruik de kritieke waarde methode of de p-waarde methode.
* Verwerp $H_0$ als de berekende t-statistiek de kritieke waarde overschrijdt, of als de p-waarde kleiner is dan het significantieniveau ($\alpha$, meestal 0.05).
#### 1.3.6 Stap 6: Effectgrootte
* Bereken Cohen's $d$ of een andere relevante maat om de omvang van het verschil in scores tussen de groepen te kwantificeren.
#### 1.3.7 Stap 7: Rapporteren
* Beschrijf de uitgevoerde toets, de gemiddelden en standaarddeviaties van de groepen, de waarde van de toetsingsgrootheid, de vrijheidsgraden, de p-waarde, en de effectgrootte.
**Voorbeeld rapportage:**
"Om te onderzoeken of de scores op de vier vakken verschilden tussen leerlingen die voor de leeftijd van drie jaar instapten en leerlingen die na de leeftijd van drie jaar instapten, werd een t-toets voor twee onafhankelijke steekproeven uitgevoerd. Het gemiddelde score in de groep die voor drie jaar instapte was $M = 71.68$ ($SD = \dots$), en in de groep die na drie jaar instapte was $M = 60.75$ ($SD = \dots$). Dit verschil was significant op een niveau van 0.05 ($t(19) = 2.63$, $p < 0.05$, $r = 0.52$)."
---
# Toetsen voor 2 afhankelijke populaties
Dit onderdeel behandelt de t-toets voor afhankelijke steekproeven, een statistische methode die wordt toegepast wanneer metingen herhaaldelijk worden uitgevoerd bij dezelfde subjecten of wanneer subjecten in paren worden gematcht. De focus ligt op het volledige toetsstramien, inclusief de voorwaarden, het formuleren van hypothesen, de berekening van de toetsingsgrootheid, de beslissingsregel en het bepalen van de effectgrootte.
### 2.1 Het toetsstramien
Het toetsstramien biedt een gestructureerde aanpak om statistische hypothesen te toetsen. De stappen zijn als volgt:
1. **Toetsingssituatie:** Identificeer de specifieke gegevens en de onderzoeksvraag. Bepaal welk type onderzoek dit is en welke toets het meest geschikt is.
2. **Voorwaarden:** Controleer of de statistische aannames van de gekozen toets voldaan zijn.
3. **Hypothesen:** Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) die passen bij de onderzoeksvraag.
4. **Toetsingsgrootheid:** Bereken de relevante toetsingsgrootheid en bepaal de kansverdeling die deze volgt.
5. **Beslissingsregel:** Gebruik overschrijdingskansen of kritieke waarden om te beslissen of de nulhypothese wordt verworpen.
6. **Effectgrootte:** Kwantificeer de omvang van het gevonden effect.
7. **Rapporteren:** Communiceer de resultaten op een duidelijke en correcte manier.
### 2.2 De t-toets voor afhankelijke steekproeven
De t-toets voor afhankelijke steekproeven wordt gebruikt wanneer er twee metingen worden verricht bij dezelfde groep proefpersonen (herhaalde metingen) of wanneer proefpersonen zorgvuldig in paren worden gematcht op basis van relevante kenmerken. Dit stelt ons in staat om de verschillen binnen paren te analyseren.
#### 2.2.1 Toetsingssituatie
Deze toets is geschikt voor onderzoeksvragen waarbij men wil nagaan of er een significant verschil is tussen twee metingen bij dezelfde groep of bij gematchte paren. Voorbeelden zijn:
* Het meten van een effect door een voormeting en een nameting te doen bij dezelfde groep.
* Het vergelijken van de reacties van gematchte paren op verschillende condities.
#### 2.2.2 Voorwaarden
Om de t-toets voor afhankelijke steekproeven correct toe te passen, moet aan de volgende voorwaarden worden voldaan:
* De afhankelijke variabele (AV) is continu gemeten, op minimaal intervalniveau.
* De verschillen tussen de gepaarde metingen zijn normaal verdeeld in de populatie.
#### 2.2.3 Hypothesen
De hypothesen worden geformuleerd om een potentieel verschil tussen de twee metingen te toetsen:
* Nulhypothese ($H_0$): Er is geen verschil tussen de gemiddelden van de twee metingen. Formeel: $\mu_{\text{verschil}} = 0$.
* Alternatieve hypothese ($H_1$): Er is een verschil tussen de gemiddelden van de twee metingen. Dit kan een- of tweezijdig geformuleerd worden:
* Tweezijdig: $\mu_{\text{verschil}} \neq 0$
* Eenzijdig (bijvoorbeeld): $\mu_{\text{verschil}} > 0$
#### 2.2.4 Toetsingsgrootheid
De toetsingsgrootheid is een t-statistiek die gebaseerd is op de verschillen tussen de gepaarde metingen.
1. **Bereken de verschilscores:** Voor elk paar wordt het verschil tussen de twee metingen berekend: $d_i = x_{i1} - x_{i2}$.
2. **Bereken het gemiddelde verschil ($\bar{d}$):** Dit is het gemiddelde van alle verschilscores.
$$\bar{d} = \frac{\sum_{i=1}^{n} d_i}{n}$$
3. **Bereken de standaarddeviatie van de verschilscores ($s_d$):**
$$s_d = \sqrt{\frac{\sum_{i=1}^{n} (d_i - \bar{d})^2}{n-1}}$$
4. **Bereken de t-statistiek:**
$$t = \frac{\bar{d}}{s_d / \sqrt{n}}$$
Hierbij is $n$ het aantal paren.
De kansverdeling die hierbij hoort is de **Student t-verdeling** met $df = n-1$ vrijheidsgraden.
> **Tip:** De t-toets voor afhankelijke steekproeven focust op de *verschillen* tussen de metingen, niet op de individuele metingen zelf.
#### 2.2.5 Beslissingsregel
De beslissingsregel bepaalt wanneer $H_0$ verworpen wordt. Dit kan op twee manieren:
* **Overschrijdingskans (p-waarde):** Als de berekende p-waarde kleiner is dan het vooraf bepaalde significantieniveau ($\alpha$), wordt $H_0$ verworpen.
* **Kritieke waarden:** Als de berekende t-statistiek groter is dan de kritieke t-waarde (voor een tweezijdige toets, in absolute zin) uit de t-verdeling bij de gegeven vrijheidsgraden en $\alpha$, wordt $H_0$ verworpen.
#### 2.2.6 Effectgrootte
Om de praktische significantie van het gevonden verschil te beoordelen, wordt de effectgrootte berekend. Voor de t-toets voor afhankelijke steekproeven wordt vaak Cohen's $d$ gebruikt, maar dan berekend op basis van de verschilscores:
$$d = \frac{\bar{d}}{s_d}$$
Interpretatie van Cohen's $d$:
* $d \approx 0.2$: klein effect
* $d \approx 0.5$: middelmatig effect
* $d \approx 0.8$: groot effect
#### 2.2.7 Rapporteren
Een correcte rapportage bevat de volgende elementen:
* De gebruikte toets.
* De gemiddelden en standaarddeviaties van de twee metingen.
* De berekende t-statistiek met vrijheidsgraden: $t(df)$.
* De p-waarde.
* De effectgrootte.
Voorbeeld van een rapportage:
"Om na te gaan of het energieniveau verschilt tussen het begin van de les en nu, werd een t-toets voor afhankelijke steekproeven uitgevoerd. Het gemiddelde energieniveau aan het begin van het werkcollege was $M = \text{[gemiddelde voormeting]}$, $SD = \text{[standaarddeviatie voormeting]}$, en op dit moment was dit $M = \text{[gemiddelde nameting]}$, $SD = \text{[standaarddeviatie nameting]}$. Dit verschil was significant, $t(\text{[df]}) = \text{[t-waarde]}$, $p < 0.05$, $r = \text{[effectgrootte]}$. De effectgrootte duidt op een [klein/middelmatig/groot] effect."
### 2.3 Voorbeeld: T-toets voor afhankelijke steekproeven
**Onderzoeksvraag:** Krijgen serveersters met blond haar meer fooi dan serveersters met bruin haar? Er is een dataset met fooibedragen voor zowel blonde als brunettes serveersters, waarbij de serveersters gematcht zijn op basis van ervaring.
* **Toetsingssituatie:** Vergelijken van fooibedragen (continue AV) tussen twee gerelateerde groepen (blond vs. bruin haar) door middel van een t-toets voor afhankelijke steekproeven.
* **Voorwaarden:** We nemen aan dat de verschilscores normaal verdeeld zijn en dat de fooibedragen minimaal intervalniveau hebben.
* **Hypothesen:**
* $H_0: \mu_{\text{blond}} = \mu_{\text{bruin}}$ (Er is geen verschil in gemiddelde fooi tussen blonde en bruine serveersters.)
* $H_1: \mu_{\text{blond}} \neq \mu_{\text{bruin}}$ (Er is een verschil in gemiddelde fooi tussen blonde en bruine serveersters.)
* **Toetsingsgrootheid:** De berekende verschilscores (bv. fooi blond - fooi bruin) leiden tot een t-statistiek. Stel dat de berekende gemiddelde verschilscore $\bar{d} = 71.4$ dollars is en de standaarddeviatie van de verschilscores $s_d = 88.59$ dollars, met $n=10$ paren.
$$t = \frac{71.4}{88.59 / \sqrt{10}} \approx 2.55$$
De vrijheidsgraden zijn $df = n-1 = 10-1 = 9$. De t-verdeling is dus $t(9)$.
* **Beslissingsregel:** Bij een significantieniveau $\alpha = 0.05$ en $df=9$ is de kritieke waarde voor een tweezijdige toets ongeveer $\pm 2.262$. Omdat $|2.55| > 2.262$, wordt $H_0$ verworpen.
* **Effectgrootte:**
$$d = \frac{\bar{d}}{s_d} = \frac{71.4}{88.59} \approx 0.81$$
Dit duidt op een groot effect.
* **Rapporteren:** "Om na te gaan of blonde serveersters meer fooi ontvangen dan brunettes, werd een t-toets voor afhankelijke steekproeven uitgevoerd. Gemiddeld ontvangen blonde serveersters $71.4$ dollars meer fooi dan brunettes, met een standaarddeviatie van de verschilscores van $88.59$ dollars. Dit verschil was significant, $t(9) = 2.55$, $p < 0.05$, met een grote effectgrootte ($d = 0.81$)."
---
# Toetsen voor meer dan 2 populaties: eenwegs ANOVA
Dit onderwerp introduceert de eenwegs variantieanalyse (ANOVA) als methode om gemiddelden van meer dan twee populaties te vergelijken.
### 7.1 Het toetsstramien van de eenwegs ANOVA
De eenwegs ANOVA volgt een gestructureerd toetsstramien, vergelijkbaar met eerdere toetsen, maar aangepast aan de vergelijking van meerdere groepen.
#### 7.1.1 Situatie en onderzoeksvragen
De eenwegs ANOVA wordt gebruikt wanneer de onderzoeksvraag gericht is op het nagaan of er een significant verschil bestaat in het gemiddelde van een afhankelijke variabele (Y) tussen drie of meer onafhankelijke groepen (X). Dit is het geval wanneer een categorische onafhankelijke variabele meerdere niveaus heeft.
> **Tip:** De eenwegs ANOVA is een "omnibus"-toets. Dit betekent dat de hoofdtoets aangeeft óf er een verschil is tussen *minstens twee* groepen, maar niet *welke* groepen specifiek van elkaar verschillen. Hiervoor zijn post-hoc analyses nodig.
#### 7.1.2 Voorwaarden
Om een eenwegs ANOVA correct toe te passen, moeten aan de volgende statistische voorwaarden worden voldaan:
* **Afhankelijke variabele (Y) op minstens intervalniveau:** De metingen van de afhankelijke variabele moeten numeriek zijn en voldoende interval-eigenschappen bezitten.
* **Onafhankelijke variabele (X) op nominaal niveau met drie of meer niveaus:** De onafhankelijke variabele definieert de groepen die vergeleken worden.
* **Onafhankelijke waarnemingen:** De waarnemingen binnen en tussen de groepen moeten onafhankelijk van elkaar zijn.
* **Normaliteit:** De afhankelijke variabele moet normaal verdeeld zijn binnen elke populatie waaruit de steekproeven getrokken zijn.
* **Homogeniteit van varianties (homoscedasticiteit):** De varianties van de afhankelijke variabele moeten gelijk zijn in alle populaties waaruit de steekproeven getrokken zijn. Deze voorwaarde kan worden getoetst met de Levene-toets of de F-toets (hoewel de ANOVA relatief robuust is tegen schendingen van deze voorwaarde bij gelijke steekproefgroottes).
#### 7.1.3 Hypothesen
De nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) voor een eenwegs ANOVA luiden als volgt:
* $H_0$: Alle populatiegemiddelden zijn aan elkaar gelijk.
* Formeel: $\mu_a = \mu_b = \mu_c = \dots = \mu_j$, waarbij $j$ het aantal populaties (groepen) aangeeft.
* $H_1$: Minstens twee populatiegemiddelden zijn niet gelijk aan elkaar.
* Formeel: $\mu_j \neq \mu_{j'}$ voor minstens één paar van $j$ en $j'$.
* **Belangrijk:** De $H_1$ stelt *niet* dat alle gemiddelden verschillend zijn, maar dat er ten minste één significant verschil is tussen de gemiddelden.
#### 7.1.4 Toetsingsgrootheid: de F-verdeling
De eenwegs ANOVA toetst de nulhypothese door varianties te vergelijken. Het principe is dat als de groepen echt van elkaar verschillen, de variantie *tussen* de groepen groter zal zijn dan de variantie *binnen* de groepen.
De toetsingsgrootheid is de F-statistiek, die de verhouding weergeeft tussen de tussen-groeps-variantie en de binnen-groeps-variantie. Deze toetsingsgrootheid volgt een F-verdeling.
* **Tussen-groeps-variantie (Between-groups variance):** Meet de variatie tussen de gemiddelden van de verschillende groepen. Dit wordt ook wel de "Mean Square Between" ($MS_b$) genoemd.
* **Binnen-groeps-variantie (Within-groups variance):** Meet de gemiddelde variatie binnen elke groep. Dit wordt ook wel de "Mean Square Within" ($MS_w$) genoemd.
De berekening van de F-statistiek is als volgt:
$$ F = \frac{\text{Variantie tussen de groepen}}{\text{Variantie binnen de groepen}} = \frac{MS_b}{MS_w} $$
De verschillende componenten worden berekend via "Sum of Squares" (SS) en vrijheidsgraden (df):
* **Sum of Squares Between ($SS_b$):**
$$ SS_b = \sum_{i=1}^{k} n_i (\bar{x}_i - \bar{x}_{\text{totaal}})^2 $$
waarbij $k$ het aantal groepen is, $n_i$ de steekproefgrootte in groep $i$, $\bar{x}_i$ het gemiddelde van groep $i$, en $\bar{x}_{\text{totaal}}$ het totale gemiddelde over alle groepen.
* **Vrijheidsgraden Between ($df_b$):**
$$ df_b = k - 1 $$
* **Mean Square Between ($MS_b$):**
$$ MS_b = \frac{SS_b}{df_b} $$
* **Sum of Squares Within ($SS_w$):**
Dit is de som van de varianties binnen elke groep, gewogen naar de groepsgrootte, of anders uitgedrukt, de totale som van kwadraten minus de $SS_b$.
$$ SS_w = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2 $$
* **Vrijheidsgraden Within ($df_w$):**
$$ df_w = N - k $$
waarbij $N$ het totale aantal waarnemingen is over alle groepen.
* **Mean Square Within ($MS_w$):**
$$ MS_w = \frac{SS_w}{df_w} $$
De toetsingsgrootheid is dus:
$$ F = \frac{MS_b}{MS_w} $$
Deze F-statistiek volgt een F-verdeling met $df_b$ vrijheidsgraden in de teller en $df_w$ vrijheidsgraden in de noemer.
> **Tip:** Bij de berekening van de $SS_w$ kan het soms makkelijker zijn om eerst de totale sum of squares ($SS_{\text{totaal}}$) te berekenen en vervolgens $SS_w = SS_{\text{totaal}} - SS_b$ te doen.
#### 7.1.5 Beslissingsregel
Net als bij andere toetsen, wordt de beslissing genomen door de berekende F-statistiek te vergelijken met een kritieke waarde uit de F-verdeling of door de overschrijdingskans (p-waarde) te evalueren.
* **Kritieke Waarde Methode:** Als de berekende $F$-waarde groter is dan de kritieke $F$-waarde (bij een gekozen significantieniveau $\alpha$ en de bijbehorende vrijheidsgraden $df_b$ en $df_w$), wordt $H_0$ verworpen.
* **Overschrijdingskans Methode (p-waarde):** Als de berekende p-waarde kleiner is dan het significantieniveau $\alpha$, wordt $H_0$ verworpen.
#### 7.1.6 Effectgrootte
Om de praktische significantie van het gevonden effect te beoordelen, wordt de effectgrootte berekend. Voor de eenwegs ANOVA is dit vaak $\eta^2$ (eta-kwadraat) of $r$ (correlatiecoëfficiënt) als deze kan worden afgeleid.
* **Eta-kwadraat ($\eta^2$):** Dit geeft het percentage van de totale variantie in de afhankelijke variabele dat verklaard wordt door de onafhankelijke variabele (de groepen).
$$ \eta^2 = \frac{SS_b}{SS_{\text{totaal}}} = \frac{SS_b}{SS_b + SS_w} $$
Interpretatie van $\eta^2$:
* 0.01: klein effect
* 0.06: gemiddeld effect
* 0.14: groot effect
Soms wordt ook de gecorrigeerde effectgrootte $\omega^2$ (omega-kwadraat) gebruikt, die minder bevooroordeeld is voor kleine steekproeven.
#### 7.1.7 Rapporteren
De resultaten van een eenwegs ANOVA worden gerapporteerd volgens een standaardformaat, dat informatie bevat over de toets, de groepen, de toetsingsgrootheid, de vrijheidsgraden, de p-waarde en de effectgrootte.
**Voorbeeld rapportage:**
"Om na te gaan of er een significant verschil was in [afhankelijke variabele] tussen de [aantal groepen] groepen ([naam groepen]), werd een eenwegs variantieanalyse (ANOVA) uitgevoerd. Er werd een significant effect gevonden van [onafhankelijke variabele] op [afhankelijke variabele], $F(df_b, df_w) = \text{F-waarde}, p < \alpha, \eta^2 = \text{waarde}$. Dit suggereert dat ten minste één groep significant verschilt van de andere groepen qua gemiddelde [afhankelijke variabele]."
### 7.2 Post-hoc analyses
Wanneer de $H_0$ van de eenwegs ANOVA verworpen wordt, betekent dit dat er ten minste één significant verschil is tussen de groepsgemiddelden. Om te bepalen *welke* specifieke groepen van elkaar verschillen, worden post-hoc toetsen uitgevoerd. Deze toetsen vergelijken alle mogelijke paren van groepen.
* **Veelgebruikte post-hoc toetsen:** Tukey's HSD (Honestly Significant Difference), Bonferroni, Scheffé, LSD (Least Significant Difference).
* **Belang:** Post-hoc toetsen corrigeren voor het probleem van meervoudig toetsen. Door herhaaldelijk te toetsen, neemt de kans op een Type I fout (onterecht $H_0$ verwerpen) toe. Post-hoc toetsen houden hiermee rekening om het algehele significantieniveau te handhaven.
* **Keuze van post-hoc toets:** De keuze hangt af van de specifieke situatie, de grootte van de groepen en de aannames die worden gemaakt (bijvoorbeeld over de varianties). Tukey's HSD is populair bij gelijke groepsgroottes. Bonferroni is conservatiever (minder kans op Type I fout, maar hogere kans op Type II fout).
### 7.3 Voorbeeld: Eenwegs ANOVA
Stel, we onderzoeken het effect van drie verschillende studiemethoden (A, B, C) op de examenresultaten van statistiek. Er zijn 102 studenten, met 34 studenten per studiemethode.
* **Onafhankelijke variabele:** Studiemethode (nominaal, 3 niveaus).
* **Afhankelijke variabele:** Punten op het examen statistiek (interval/ratio).
**Stap 1-4: Toetsing**
* **Hypothesen:**
* $H_0: \mu_A = \mu_B = \mu_C$
* $H_1:$ Minstens twee gemiddelden verschillen.
* **Gegeven:**
* Totaal gemiddelde $\bar{x}_{\text{totaal}} = 61,98$
* Gemiddelde groep A $\bar{x}_A = 65,50$
* Gemiddelde groep B $\bar{x}_B = 61,32$
* Gemiddelde groep C $\bar{x}_C = 59,12$
* Aantal studenten per groep $n_A = n_B = n_C = 34$. Totaal $N = 102$.
* Aantal groepen $k = 3$.
* $SS_w = 11277,471$
* **Berekening $SS_b$:**
$SS_b = n_A (\bar{x}_A - \bar{x}_{\text{totaal}})^2 + n_B (\bar{x}_B - \bar{x}_{\text{totaal}})^2 + n_C (\bar{x}_C - \bar{x}_{\text{totaal}})^2$
$SS_b = 34 (65,50 - 61,98)^2 + 34 (61,32 - 61,98)^2 + 34 (59,12 - 61,98)^2$
$SS_b = 34 (3,52)^2 + 34 (-0,66)^2 + 34 (-2,86)^2$
$SS_b = 34 (12,3904) + 34 (0,4356) + 34 (8,1796)$
$SS_b = 421,2736 + 14,8104 + 278,1064$
$SS_b = 714,19$
* **Berekening $df_b$:**
$df_b = k - 1 = 3 - 1 = 2$
* **Berekening $MS_b$:**
$MS_b = \frac{SS_b}{df_b} = \frac{714,19}{2} = 357,095$
* **Berekening $df_w$:**
$df_w = N - k = 102 - 3 = 99$
* **Berekening $MS_w$:**
$MS_w = \frac{SS_w}{df_w} = \frac{11277,471}{99} = 113,914$
* **Berekening F-statistiek:**
$F = \frac{MS_b}{MS_w} = \frac{357,095}{113,914} \approx 3,135$
**Stap 5: Beslissingsregel**
* We hebben een F-statistiek van $3,135$ met $df_b = 2$ en $df_w = 99$.
* Voor een significantieniveau $\alpha = 0,05$ en tweezijdige toets, wordt de kritieke waarde uit de F-tabel opgezocht.
* De kritieke waarde voor $F(2, 99)$ bij $\alpha = 0,05$ is ongeveer $3,09$.
* Omdat onze berekende F-statistiek ($3,135$) groter is dan de kritieke waarde ($3,09$), verwerpen we de nulhypothese $H_0$.
**Stap 6: Effectgrootte**
* **Berekening $SS_{\text{totaal}}$:**
$SS_{\text{totaal}} = SS_b + SS_w = 714,19 + 11277,471 = 11991,661$
* **Berekening $\eta^2$:**
$\eta^2 = \frac{SS_b}{SS_{\text{totaal}}} = \frac{714,19}{11991,661} \approx 0,0595$
**Stap 7: Rapporteren**
"Om te onderzoeken of er een verschil is in examenpunten statistiek tussen studenten die verschillende studiemethoden toepassen, werd een eenwegs variantieanalyse uitgevoerd. Er was een significant verschil in examenpunten tussen de studiemethoden, $F(2, 99) = 3,14, p < 0,05, \eta^2 = 0,06$. Dit suggereert dat de studiemethode een (klein tot gemiddeld) effect heeft op de examenresultaten. Gezien de significantie zal een post-hoc analyse uitgevoerd worden om te bepalen welke studiemethoden significant van elkaar verschillen."
> **Belangrijk:** Omdat de $H_0$ is verworpen, is een post-hoc analyse nodig om te bepalen welke specifieke groepen van elkaar verschillen. Bijvoorbeeld, Tukey's HSD zou gebruikt kunnen worden om de paren van groepen te vergelijken.
---
# Non-parametrische toetsen: Wilcoxon rank-sum test
Dit onderdeel behandelt de Wilcoxon rank-sum test als een non-parametrisch alternatief voor de t-toets voor onafhankelijke steekproeven wanneer aan de assumpties van de t-toets niet is voldaan.
## 4. Wilcoxon rank-sum test
De Wilcoxon rank-sum test, ook bekend als de Mann-Whitney U test, is een non-parametrische toets die gebruikt wordt om te bepalen of er een significant verschil is tussen twee onafhankelijke groepen wanneer de assumpties van de t-toets voor onafhankelijke steekproeven niet voldaan zijn. Dit kan het geval zijn wanneer de afhankelijke variabele (AV) niet op intervalniveau gemeten is, of wanneer de data niet normaal verdeeld is, met name bij kleine steekproeven.
### 4.1 Toetsingssituatie
De toetsingssituatie betreft het vergelijken van twee onafhankelijke groepen op een afhankelijke variabele die niet voldoet aan de parametrische assumpties. Dit kan bijvoorbeeld zijn bij het onderzoeken van een ordinale variabele.
### 4.2 Voorwaarden
De voorwaarden voor de Wilcoxon rank-sum test zijn:
* De steekproeven zijn onafhankelijk.
* De afhankelijke variabele is gemeten op minimaal ordinaal niveau.
* De verdelingen van de afhankelijke variabele in de twee populaties zijn gelijkvormig (hoewel dit een sterkere assumptie is die niet altijd strikt gehandhaafd wordt in de praktijk).
### 4.3 Hypothesen
De hypothesen worden geformuleerd in termen van medianen of algemene verdelingen van de twee groepen.
* **Nulhypothese ($H_0$):** Er is geen verschil in de verdeling (of mediaan) van de afhankelijke variabele tussen de twee groepen.
* Voorbeeld: $H_0$: mediaan$_1$ = mediaan$_2$
* **Alternatieve hypothese ($H_1$):** Er is een verschil in de verdeling (of mediaan) van de afhankelijke variabele tussen de twee groepen.
* Voorbeeld (tweezijdig): $H_1$: mediaan$_1$ $\ne$ mediaan$_2$
* Voorbeeld (eenzijdig): $H_1$: mediaan$_1$ $>$ mediaan$_2$
### 4.4 Berekening van de toetsingsgrootheid
De berekening van de Wilcoxon rank-sum test verloopt via de volgende stappen:
1. **Combineren en rangschikken:** Alle observaties van beide groepen worden samengevoegd en gerangschikt van de laagste naar de hoogste waarde, ongeacht tot welke groep de observatie behoort. Er wordt een rangnummer toegekend aan elke observatie. Bij gelijke waarden worden gemiddelde rangnummers toegekend.
2. **Optellen van rangsommen:** De rangnummers worden vervolgens gesommeerd per groep. Dit levert twee rangsommen op: $W_1$ en $W_2$.
* Laat $n_1$ de steekproefgrootte van groep 1 zijn en $n_2$ de steekproefgrootte van groep 2. De som van alle rangnummers is $\frac{(n_1+n_2)(n_1+n_2+1)}{2}$. Er geldt dat $W_1 + W_2 = \frac{(n_1+n_2)(n_1+n_2+1)}{2}$.
3. **Keuze van de toetsingsgrootheid:** Traditioneel wordt de kleinere van de twee rangsommen gekozen als toetsingsgrootheid, aangezien deze het meest waarschijnlijk te klein is onder de nulhypothese. Deze toetsingsgrootheid wordt vaak aangeduid met $W$ (of $U$ bij de Mann-Whitney variant, waarbij $U_1 = W_1 - \frac{n_1(n_1+1)}{2}$ en $U_2 = W_2 - \frac{n_2(n_2+1)}{2}$).
4. **Omrekening naar z-score:** Voor grotere steekproeven ($n_1$ en $n_2$ groter dan ongeveer 10-20, afhankelijk van de bron), wordt de toetsingsgrootheid (de kleinste rangsom $W$) omgerekend naar een z-score. De formules hiervoor zijn:
$$
\mu_W = \frac{n_1(n_1+n_2+1)}{2}
$$
$$
\sigma_W = \sqrt{\frac{n_1 n_2 (n_1+n_2+1)}{12}}
$$
De z-score wordt dan berekend als:
$$
z = \frac{W - \mu_W}{\sigma_W}
$$
Er kan een continuïteitscorrectie worden toegepast, waarbij $W$ wordt aangepast.
> **Tip:** Bij het omrekenen naar een z-score, neem je de kleinste rangsom ($W$) en gebruik je de formule voor $\mu_W$ en $\sigma_W$ die hierboven staan. Als je de Mann-Whitney U-statistiek gebruikt, worden andere formules voor $\mu_U$ en $\sigma_U$ gehanteerd. Het resultaat is echter equivalent.
### 4.5 Beslissingsregel
De beslissingsregel kan worden opgesteld op basis van de overschrijdingskans (p-waarde) of kritieke waarden.
* **Via overschrijdingskansen:** Als de berekende p-waarde kleiner is dan het significantieniveau $\alpha$ (meestal 0.05), wordt de nulhypothese verworpen. Aangezien de berekende z-score vaak voor een eenzijdige kans wordt gebruikt, wordt deze vermenigvuldigd met 2 voor een tweezijdige toets.
* **Via kritieke waarden:** De berekende z-score wordt vergeleken met de kritieke z-waarde uit de standaard normaalverdeling voor het gekozen significantieniveau $\alpha$ (en tweezijdigheid). Als de absolute waarde van de berekende z-score groter is dan de kritieke z-waarde, wordt de nulhypothese verworpen.
### 4.6 Effectgrootte
Een veelgebruikte maat voor de effectgrootte bij de Wilcoxon rank-sum test is de correlatiecoëfficiënt $r$, die geschat kan worden op basis van de z-score:
$$
r = z
$$
Een andere maat die soms gebruikt wordt is de rank-biserial correlatie. De interpretatie van de effectgrootte (klein, gemiddeld, groot) is afhankelijk van de conventies in het onderzoeksveld, maar algemeen geldt:
* $r \approx 0.10$: kleine effectgrootte
* $r \approx 0.30$: gemiddelde effectgrootte
* $r \approx 0.50$: grote effectgrootte
> **Tip:** De effectgrootte geeft aan hoe sterk het gevonden verschil is, onafhankelijk van de significantie. Zelfs een statistisch significante toets kan een kleine praktische relevantie hebben als de effectgrootte klein is.
### 4.7 Rapportage
De resultaten van de Wilcoxon rank-sum test worden gerapporteerd in een gestandaardiseerd format, inclusief de toetsingsstatistiek, de vrijheidsgraden (indien omgezet naar z-score, worden deze niet expliciet vermeld, maar is de z-score de toetsingsgrootheid), de p-waarde en de effectgrootte.
**Voorbeeld van rapportage:**
"Om te onderzoeken of er een verschil is in de subjectieve score van geluk tussen de groep met favoriete muziek en de groep met niet-favoriete muziek, werd een Wilcoxon rank-sum test uitgevoerd. De rangsom voor de groep met niet-favoriete muziek ($W_1 = 167.5$) was lager dan voor de groep met favoriete muziek ($W_2 = 297.5$). Na omrekening naar een z-score, bleek de groepsindeling significant samen te hangen met het subjectieve gevoel van geluk ($z = -2.70$, $p = 0.007$, $r = 0.52$). Dit duidt op een groot effect."
### 4.8 Voorbeeld: Muziek en geluk
Stel dat er een onderzoeksvraag is of twee groepen (favoriete muziek versus niet-favoriete muziek) verschillen in hun subjectieve gevoel van geluk, gemeten op een 5-puntenschaal. De AV is ordinaal en de steekproef is klein, waardoor een t-toets niet geschikt is.
* **Gegevens:** Data van beide groepen worden samengevoegd en gerangschikt.
* **Rangsommen:** De rangnummers worden per groep opgeteld, wat resulteert in $W_1$ en $W_2$.
* **Teststatistiek:** De kleinste rangsom wordt gekozen en omgezet naar een z-score.
* **Beslissing:** De z-score wordt vergeleken met de kritieke waarde of de p-waarde wordt bepaald.
* **Effectgrootte:** De z-score wordt gebruikt om de rank-biserial correlatie te berekenen.
> **Example:**
> Stel, groep 1 (niet-favoriete muziek) heeft de volgende rangsom: $W_1 = 167.5$ en groep 2 (favoriete muziek) heeft $W_2 = 297.5$, met steekproefgroottes $n_1=15$ en $n_2=15$. De gemiddelde rangsom onder $H_0$ is $\mu_W = \frac{15(15+15+1)}{2} = 232.5$. De standaarddeviatie is $\sigma_W = \sqrt{\frac{15 \times 15 \times (15+15+1)}{12}} = \sqrt{\frac{225 \times 31}{12}} \approx \sqrt{581.25} \approx 24.11$. De z-score is dan $z = \frac{167.5 - 232.5}{24.11} \approx -2.70$. Voor een tweezijdige toets is de p-waarde $2 \times P(Z < -2.70) \approx 2 \times 0.0035 = 0.0070$. Omdat $0.0070 < 0.05$, wordt $H_0$ verworpen. De effectgrootte is $r = -2.70$. Echter, de conventie is om de absolute waarde te rapporteren of de z-score te gebruiken zonder het minteken. De effectgrootte $r$ is dan $0.52$ (door de berekening van de rank-biserial correlatie).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Toetsstramien | Een systematische reeks stappen die gevolgd worden om een statistische toets uit te voeren, beginnend bij de formulering van de hypotheses tot en met het rapporteren van de resultaten. Dit omvat typisch de toetsingssituatie, voorwaarden, hypothesen, toetsingsgrootheid, beslissingsregel en effectgrootte. |
| Onafhankelijke steekproeven | Steekproeven waarbij de observaties in de ene steekproef geen invloed hebben op de observaties in de andere steekproef. De samenstelling van de ene groep staat los van de samenstelling van de andere groep. |
| Afhankelijke steekproeven | Steekproeven waarbij de observaties gerelateerd zijn aan elkaar. Dit kan het gevolg zijn van herhaalde metingen bij dezelfde personen of van het matchen van paren op basis van bepaalde kenmerken. |
| t-toets voor onafhankelijke steekproeven | Een statistische toets die gebruikt wordt om de gemiddelden van twee onafhankelijke groepen te vergelijken. De toets is geschikt voor interval- of ratiogegevens en vereist dat de afhankelijke variabele normaal verdeeld is binnen beide groepen. |
| F-toets | Een statistische toets die gebruikt wordt om te bepalen of de varianties van twee populaties gelijk zijn. Dit is een belangrijke voorwaarde voor het toepassen van bepaalde varianten van de t-toets voor onafhankelijke steekproeven. |
| Variantie | Een maat voor de spreiding van gegevens rond het gemiddelde. Het is het gemiddelde van de gekwadrateerde afwijkingen van elk datapunt ten opzichte van het gemiddelde. |
| Gepoolde variantie | Een schatting van de populatievariantie die wordt berekend wanneer wordt aangenomen dat de varianties van twee populaties gelijk zijn. Het is een gewogen gemiddelde van de varianties van de twee steekproeven. |
| Effectgrootte | Een statistische maat die de omvang van een gevonden effect kwantificeert, onafhankelijk van de steekproefgrootte. Het geeft aan hoe belangrijk het gevonden verschil of verband is in de praktijk. |
| Wilcoxon rank-sum test | Een non-parametrische statistische toets die gebruikt wordt om de medianen van twee onafhankelijke groepen te vergelijken wanneer de assumpties van de t-toets niet voldaan zijn, zoals normaliteit of gelijke varianties. |
| Rangsom | De som van de rangnummers van de observaties binnen een specifieke groep, nadat alle observaties uit alle groepen zijn samengevoegd en gerangschikt. |
| z-score | Een gestandaardiseerde score die aangeeft hoeveel standaarddeviaties een ruwe score afwijkt van het gemiddelde van de verdeling. Het wordt gebruikt om gegevens uit verschillende verdelingen te vergelijken of om toetsingsgrootheden om te zetten. |
| t-toets voor afhankelijke steekproeven | Een statistische toets die gebruikt wordt om de gemiddelden van twee gerelateerde groepen te vergelijken, zoals voormeting en nameting bij dezelfde personen. |
| Herhaalde meting | Een onderzoeksmethode waarbij metingen worden uitgevoerd bij dezelfde individuen op meerdere tijdstippen of onder verschillende condities. |
| Gematchte paren | Een onderzoeksmethode waarbij individuen in paren worden ingedeeld op basis van overeenkomsten in belangrijke kenmerken, waarna elk lid van het paar aan een verschillende conditie wordt toegewezen. |
| One-way ANOVA | Een statistische toets die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het onderzoekt of er een significant verschil is tussen de groepsgemiddelden op een afhankelijke variabele. |
| Tussen-groeps-variantie (Mean Square Between) | Een maat voor de variabiliteit van de groepsgemiddelden rond het totale gemiddelde. Het weerspiegelt de verschillen tussen de groepen. |
| Binnen-groeps-variantie (Mean Square Within) | Een maat voor de variabiliteit van de observaties binnen elke groep rond het gemiddelde van die groep. Het weerspiegelt de willekeurige fout of de variabiliteit binnen de condities. |
| F-verdeling | Een kansverdeling die wordt gebruikt in de statistische toetsing, met name bij variantieanalyse (ANOVA) en de F-toets. De vorm van de verdeling wordt bepaald door twee parameters: de vrijheidsgraden van de teller en de noemer. |
| Post hoc analyse | Een aanvullende statistische analyse die wordt uitgevoerd na een significante F-toets in ANOVA om te bepalen welke specifieke groepen significant van elkaar verschillen. |
Cover
Oplossingen WC 4.pptx
Summary
# Introductie tot statistische toetsen voor het verband tussen twee variabelen
Dit deel introduceert het algemene stramien voor het toetsen van hypothesen bij het onderzoeken van verbanden tussen twee variabelen, met een focus op de parametrische Pearson correlatietoets.
## 1. Introductie tot statistische toetsen voor het verband tussen twee variabelen
### 1.1 Het stramien voor het toetsen van hypothesen
Het toetsen van hypothesen bij het onderzoeken van verbanden tussen twee variabelen volgt een gestructureerd stramien:
1. **Toetsingssituatie:** Identificeer de gegevens in de vraag, de concrete toetsingssituatie en het type onderzoeksvraag.
2. **Voorwaarden:** Controleer of de statistische voorwaarden voor de gekozen toets vervuld zijn.
3. **Hypothesen:** Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) specifiek voor de toets.
4. **Toetsingsgrootheid:** Bereken de waarde van de toetsingsgrootheid en identificeer de bijbehorende kansverdeling.
5. **Beslissingsregel:** Bepaal of $H_0$ verworpen wordt op basis van overschrijdingskansen of kritieke waarden.
6. **Effectgrootte:** Beoordeel de importantie van het gevonden effect.
7. **Rapporteren:** Vermeld de resultaten op een correcte en gestructureerde manier.
### 1.2 Parametrische Pearson correlatietoets
De Pearson correlatietoets wordt gebruikt om het lineaire verband tussen twee interval- of ratio-variabelen te onderzoeken.
#### 1.2.1 Toetsingssituatie en voorbeeld
De Pearson correlatietoets wordt ingezet wanneer men een verband wil onderzoeken tussen twee continue variabelen, waarbij beide variabelen normaal verdeeld zijn in de populatie.
**Voorbeeld:**
Een onderzoeker wil weten of er een verband bestaat tussen de slaapkwaliteit van studenten tijdens de examenperiode en de mate van rust/kalmte die studenten ervaren. Er wordt aangenomen dat beide variabelen normaal verdeeld zijn in de populatie.
#### 1.2.2 Hypothesen
* $H_0$: Er bestaat geen lineair verband tussen de twee variabelen in de populatie ($\rho = 0$).
* $H_1$: Er bestaat wel een lineair verband tussen de twee variabelen in de populatie ($\rho \neq 0$).
#### 1.2.3 Toetsingsgrootheid
De toetsingsgrootheid voor de Pearson correlatietoets is de correlatiecoëfficiënt ($r$). Deze wordt getransformeerd naar een $t$-verdeling met $N-2$ vrijheidsgraden, waarbij $N$ het aantal paren is.
De formule voor de correlatiecoëfficiënt is:
$$r = \frac{\sum_{i=1}^{N}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{N}(x_i - \bar{x})^2 \sum_{i=1}^{N}(y_i - \bar{y})^2}}$$
De $t$-toetsingsgrootheid wordt berekend als:
$$t = r \sqrt{\frac{N-2}{1-r^2}}$$
#### 1.2.4 Beslissingsregel
De nulhypothese ($H_0$) wordt verworpen als de berekende toetsingsgrootheid ($t_{berekend}$) groter is dan de kritieke waarde ($t_{kritiek}$) bij een tweezijdige toetsing, of als de $p$-waarde kleiner is dan het significantieniveau ($\alpha$).
**Voorbeeld interpretatie:**
Als de berekende $t$-waarde van 12.16 groter is dan de kritieke waarde van 3.182 (bij een bepaald aantal vrijheidsgraden), wordt de nulhypothese verworpen. Dit suggereert een significant verband tussen de variabelen.
#### 1.2.5 Effectgrootte
Bij de Pearson correlatietoets dient geen bijkomende berekening voor de effectgrootte gemaakt te worden. De correlatiecoëfficiënt ($r$) zelf wordt gebruikt als maat voor de effectgrootte.
* Een $r$ van .99 wordt als een groot verband beschouwd.
#### 1.2.6 Rapporteren
De resultaten worden gerapporteerd met de correlatiecoëfficiënt, de $p$-waarde, en het aantal waarnemingen.
**Voorbeeld rapportage:**
"Om het verband na te gaan tussen de slaapkwaliteit en de mate van rust/kalmte van studenten tijdens de examenperiode, werd een Pearson correlatie berekend. Hieruit bleek dat het verband tussen beide variabelen groot was, en significant verschillend van nul ($r=.99$, $p<.05$, $N=5$)."
#### 1.2.7 SPSS Output
Bij het interpreteren van SPSS output voor een Pearson correlatietoets, let men op de correlatiecoëfficiënt en de significantiewaarde ($p$).
**Voorbeeld interpretatie SPSS:**
Een correlatie van .44 met een $p$-waarde kleiner dan .001 geeft aan dat er een significant verband is tussen de twee variabelen.
#### 1.2.8 Extra oefening
**Onderzoeksvraag:** Is er een verband tussen de uitslag op een wiskundetoets en op het examen statistiek? Beide variabelen zijn normaal verdeeld.
* **Stap 3: Hypothesen:**
* $H_0$: Er is geen lineair verband tussen de scores op de wiskundetoets en het statistiekexamen ($\rho = 0$).
* $H_1$: Er is een lineair verband tussen de scores op de wiskundetoets en het statistiekexamen ($\rho \neq 0$).
* **Stap 4: Toetsingsgrootheid:**
* De correlatiecoëfficiënt wordt berekend.
* De toetsingsgrootheid volgt een $t$-verdeling met $N-2$ vrijheidsgraden. Voor $N=7$, zijn de vrijheidsgraden $7-2=5$.
* **Stap 5: Beslissingsregel:**
* Bij tweezijdige toetsing en een gegeven significantieniveau, wordt een kritieke waarde vergeleken met de berekende $t$-waarde.
* Als de berekende waarde (bv. 13.03) groter is dan de kritieke waarde (bv. 2.571), wordt $H_0$ verworpen.
* **Stap 6: Effectgrootte:**
* De correlatiecoëfficiënt ($r$) zelf dient als effectgrootte.
* **Stap 7: Rapporteren:**
* "Om het verband na te gaan tussen de score op een wiskundetoets en de eindscore voor het vak statistiek, werd een Pearson correlatie berekend. Hieruit bleek dat het verband tussen beide variabelen groot was, en significant verschillend van nul ($r=.98$, $p<.05$, $N=7$)."
### 1.3 Non-parametrische rangcorrelatie van Spearman
De rangcorrelatie van Spearman wordt gebruikt wanneer de voorwaarden voor parametrische toetsen geschonden zijn, zoals bij variabelen op ordinaal niveau, of wanneer de variabelen niet normaal verdeeld zijn.
#### 1.3.1 Toetsingssituatie en voorbeeld
Deze toets wordt gebruikt bij variabelen die minstens op ordinaal niveau gemeten zijn, of wanneer de normaliteitsvoorwaarde voor de Pearson correlatie niet voldaan is.
**Voorbeeld:**
Een onderzoeker wil het verband nagaan tussen het gebruik van sociale media en het zelfbeeld bij jongeren. Beide variabelen zijn gemeten op een Likert-schaal (ordinaal niveau).
#### 1.3.2 Voorwaarden
De belangrijkste voorwaarde is dat de variabelen minstens op ordinaal niveau gemeten zijn.
#### 1.3.3 Hypothesen
* $H_0$: Er bestaat geen monotoon verband tussen de twee variabelen in de populatie.
* $H_1$: Er bestaat wel een monotoon verband tussen de twee variabelen in de populatie.
#### 1.3.4 Toetsingsgrootheid
De toetsingsgrootheid wordt berekend op basis van de rangordes van de observaties. De berekening kan leiden tot een $t$-score, die dan getoetst wordt tegen een $t$-verdeling met $N-2$ vrijheidsgraden.
#### 1.3.5 Beslissingsregels
De nulhypothese wordt verworpen als de berekende toetsingsgrootheid buiten het betrouwbaarheidsinterval valt of als de $p$-waarde kleiner is dan het significantieniveau ($\alpha$).
**Voorbeeld interpretatie:**
Als een $t$-score van -3.53 wordt verkregen en dit kleiner is dan de kritieke waarde van -2.776 (bij 4 vrijheidsgraden en $\alpha=.05$ tweezijdig), wordt de nulhypothese verworpen.
#### 1.3.6 Effectgrootte
Net als bij de Pearson correlatie, kan de Spearman correlatiecoëfficiënt ($r$) gebruikt worden als maat voor de effectgrootte.
#### 1.3.7 Rapporteren
De rapportage volgt een vergelijkbaar patroon als bij de Pearson correlatie, met vermelding van de Spearman correlatiecoëfficiënt, $p$-waarde en steekproefgrootte.
**Voorbeeld rapportage:**
"Om het verband na te gaan tussen het gebruik van sociale media en zelfbeeld bij jongeren, werd een Spearman correlatie berekend. Hieruit bleek dat het verband tussen beide variabelen groot was, en significant verschillend van nul ($r = -,87$, $p<,05$, $N=6$)."
#### 1.3.8 Extra oefening
**Onderzoeksvraag:** Wat is het verband tussen intelligentie en leiderschap bij kinderen?
* **Stap 1: Toetsingssituatie:** Voorwaarden voor parametrische toetsen zijn geschonden, dus een non-parametrische toets is aangewezen.
* **Stap 2: Voorwaarden:** Variabelen zijn minstens van ordinaal niveau.
* **Stap 3: Hypothesen:**
* $H_0$: Er is geen monotoon verband tussen intelligentie en leiderschap.
* $H_1$: Er is een monotoon verband tussen intelligentie en leiderschap.
* **Stap 4: Toetsingsgrootheid:** De rangordes van de variabelen worden berekend en gebruikt om de correlatiecoëfficiënt te bepalen. De kansverdeling is een $t$-verdeling met $N-2$ vrijheidsgraden.
* **Stap 5: Beslissingsregel:** De berekende toetsingsgrootheid wordt vergeleken met de kritieke waarde. Als 2.25 niet groter is dan 2.306 (kritieke waarde), wordt $H_0$ *niet* verworpen.
* **Stap 6: Effectgrootte:** De correlatiecoëfficiënt dient als effectgrootte.
* **Stap 7: Rapporteren:** "Om na te gaan of er een verband bestaat tussen leiderschap en intelligentie, werd een Spearman correlatie berekend. Echter bleek dit verband niet significant verschillend van nul ($r = 0,62$, $p>,05$, $N=10$)."
### 1.4 Non-parametrische chikwadraat voor kruistabellen
De chikwadraattoets voor kruistabellen wordt gebruikt om het verband tussen twee nominale variabelen te onderzoeken.
#### 1.4.1 Toetsingssituatie en voorbeeld
Deze toets vergelijkt de geobserveerde frequenties in een kruistabel met de verwachte frequenties, om te bepalen of er een statistisch significant verband is tussen twee nominale variabelen.
**Voorbeeld:**
Men wil weten of er een betekenisvol verband bestaat tussen politieke voorkeur en de mening over het opleggen van een milieubelasting. Dit wordt onderzocht bij 85 mensen.
#### 1.4.2 Voorwaarden
* De variabelen zijn nominaal.
* De analyse is gebaseerd op frequenties, niet op percentages.
* Niet geschikt voor herhaalde metingen.
* De categorieën van de variabelen zijn wederzijds exclusief.
* De verwachte frequenties in de kruistabel mogen niet te klein zijn (maximaal 20% met een verwachte frequentie kleiner dan 5, en geen enkele verwachte frequentie kleiner dan 1).
#### 1.4.3 Hypothesen
* $H_0$: De twee nominale variabelen zijn onafhankelijk (er is geen verband).
* $H_1$: De twee nominale variabelen zijn afhankelijk (er is wel een verband).
* Dit is altijd een tweezijdige toets.
#### 1.4.4 Toetsingsgrootheid
De toetsingsgrootheid is de chikwadraat ($\chi^2$) waarde, die berekend wordt op basis van de geobserveerde ($f_o$) en verwachte ($f_e$) frequenties:
$$ \chi^2 = \sum \frac{(f_o - f_e)^2}{f_e} $$
De kansverdeling is een $\chi^2$-verdeling met een specifiek aantal vrijheidsgraden, afhankelijk van de dimensies van de kruistabel ($df = (rijen-1)(kolommen-1)$).
**Voorbeeld berekening verwachte frequentie ($f_e$):**
$$f_e = \frac{\text{Som van rij} \times \text{Som van kolom}}{\text{Totaal aantal observaties}}$$
#### 1.4.5 Beslissingsregels
De nulhypothese wordt verworpen als de berekende $\chi^2$-waarde groter is dan de kritieke $\chi^2$-waarde bij een gegeven significantieniveau en aantal vrijheidsgraden, of als de $p$-waarde kleiner is dan $\alpha$.
#### 1.4.6 Effectgrootte
De effectgrootte kan op verschillende manieren berekend worden, zoals de contingentiecoëfficiënt, $\phi$-coëfficiënt of Cramérs V. Cramérs V wordt vaak als meest aangewezen beschouwd.
* **Richtlijnen voor Cramérs V:**
* $r < 0.10$: triviaal
* $0.10 \leq r < 0.30$: klein
* $0.30 \leq r < 0.50$: medium
* $r \geq 0.50$: sterk
#### 1.4.7 Rapporteren
De rapportage omvat de $\chi^2$-waarde, het aantal vrijheidsgraden, de $p$-waarde en de berekende effectgrootte (bv. Cramérs V).
**Voorbeeld rapportage:**
"Het verband tussen de variabelen mening over milieubelasting en politieke voorkeur werd nagegaan aan de hand van een chikwadraattoets. Deze wees uit dat beide variabelen statistisch afhankelijk zijn ($\chi^2(4)=21,86$, $p<,001$). Het verband bleek matig te zijn (Cramérs V = .36)."
#### 1.4.8 Extra oefening
**Onderzoeksvraag:** Is er een verband tussen de wijze waarop vragenlijsten worden afgenomen en het al of niet willen meedoen met de enquête?
* **Stap 1: Toetsingssituatie:** Twee nominale variabelen, dus een kruistabel met frequenties.
* **Stap 2: Voorwaarden:** Categorieën sluiten elkaar uit. Verwachte frequenties niet te laag (minder dan 20% met $f_e < 5$ en geen enkele $f_e < 1$).
* **Stap 3: Hypothesen:**
* $H_0$: De wijze van afname en de deelnamebereidheid zijn onafhankelijk.
* $H_1$: De wijze van afname en de deelnamebereidheid zijn afhankelijk.
* **Stap 4: Toetsingsgrootheid:** De $\chi^2$-toetsingsgrootheid wordt berekend met de formule $\chi^2 = \sum \frac{(f_o - f_e)^2}{f_e}$.
* **Stap 5: Beslissingsregel:** De berekende $\chi^2$-waarde wordt vergeleken met de kritieke waarde. Als aan de voorwaarden is voldaan (0% van de cellen met $f_e < 5$ en minimum $f_e > 1$).
* **Stap 6: Effectgrootte:** Cramérs V wordt gebruikt als universeel geschikte maat.
* **Stap 7: Rapporteren:** "Om na te gaan of er een verband bestaat tussen de wijze waarop vragenlijsten worden afgenomen en het al of niet willen meedoen met de enquête werd een $\chi^2$-toets uitgevoerd, die uitwees dat er inderdaad een eerder zwak verband is tussen beide variabelen ($\chi^2 = 12.01$, $p = .002$, V = .16)."
### 1.5 Hoe kies je de juiste toets?
De keuze voor de juiste statistische toets hangt af van meerdere factoren:
* **Onderzoeksvraag:** Wat wil je precies weten (verschil, verband)?
* **Variabelen:** Wat zijn de afhankelijke en onafhankelijke variabelen?
* **Meetniveau van de variabelen:** Nominaal, ordinaal, interval/ratio?
* **Aantal populaties:** Één, twee, of meer dan twee?
* **Onafhankelijke of afhankelijke steekproeven:** Zijn de metingen onafhankelijk van elkaar (verschillende personen) of afhankelijk (dezelfde personen gemeten onder verschillende condities)?
* **Parametrisch of non-parametrisch:** Zijn de voorwaarden voor parametrische toetsen (o.a. normaliteit, interval/ratio niveau) voldaan?
* **Eenzijdig of tweezijdig toetsen:** Is er een specifieke verwachting over de richting van het effect?
**Overzicht van getoetste technieken:**
| Situatie | Parametrisch (P) | Non-parametrisch (NP) |
| :----------------------------- | :--------------------------------------------- | :-------------------------------------- |
| **1 populatie** | $z$-toets / $t$-toets voor één gemiddelde | Chi-kwadraattoets voor frequenties |
| **2 onafhankelijke populaties** | $t$-toets voor twee onafhankelijke steekproeven | Wilcoxon rank-sum test |
| **2 afhankelijke populaties** | $t$-toets voor twee afhankelijke steekproeven | Wilcoxon signed-rank test |
| **>2 onafhankelijke populaties** | One-way ANOVA (variantieanalyse) | Kruskal-Wallis toets (niet in dit document) |
| **Verband tussen 2 variabelen** | Pearson correlatietoets | Spearman rangcorrelatie, Chi-kwadraat |
**Parametrische toetsen** zijn geschikter wanneer de afhankelijke variabele minstens op intervalniveau gemeten is en normaal verdeeld is in de populatie.
**Non-parametrische toetsen** worden gebruikt wanneer de afhankelijke variabele van lager meetniveau is (nominaal of ordinaal) of niet normaal verdeeld is.
---
# Non-parametrische toetsen voor verbanden en categorische variabelen
Hieronder volgt een samenvatting van de non-parametrische toetsen voor verbanden en categorische variabelen, bedoeld als studiemateriaal voor je examen.
## 2. Non-parametrische toetsen voor verbanden en categorische variabelen
Dit deel behandelt non-parametrische methoden om verbanden tussen variabelen te onderzoeken, specifiek de rangcorrelatie van Spearman en de chikwadraattoets voor kruistabellen.
### 2.1 Rangcorrelatie van Spearman
De rangcorrelatie van Spearman is een non-parametrische toets die wordt gebruikt om de sterkte en richting van het verband tussen twee ordinale variabelen te meten, of wanneer de voorwaarden voor parametrische toetsen (zoals Pearson's r) geschonden zijn, bijvoorbeeld bij niet-normaal verdeelde interval/ratio variabelen of ordinale variabelen.
#### 2.1.1 Toetsingssituatie
De toetsingssituatie is gericht op het onderzoeken van een verband tussen twee variabelen die minimaal van ordinaal niveau zijn. Dit is met name nuttig wanneer de data niet voldoet aan de aannames van normaliteit die vereist zijn voor parametrische correlatietoetsen.
#### 2.1.2 Voorwaarden
De belangrijkste voorwaarde voor het toepassen van de Spearman rangcorrelatie is dat beide variabelen van minimaal ordinaal niveau zijn. Er zijn verder geen strenge aannames over de verdeling van de data.
#### 2.1.3 Hypothesen
* **Nulhypothese ($H_0$):** Er is geen verband (correlatie) tussen de twee variabelen in de populatie. De rangcorrelatiecoëfficiënt is gelijk aan nul ($\rho_s = 0$).
* **Alternatieve hypothese ($H_1$):** Er is wel een verband (correlatie) tussen de twee variabelen in de populatie. Dit kan eenzijdig (bijvoorbeeld $\rho_s > 0$ of $\rho_s < 0$) of tweezijdig ($\rho_s \neq 0$) geformuleerd worden, afhankelijk van de onderzoeksvraag.
#### 2.1.4 Toetsingsgrootheid
De rangcorrelatiecoëfficiënt van Spearman, aangeduid als $r_s$, wordt berekend op basis van de rangen van de geobserveerde data. De formule voor $r_s$ is:
$$ r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $$
waarbij:
* $d_i$ het verschil is tussen de rangen van de observaties voor persoon $i$.
* $n$ het aantal paren van observaties is.
Voor kleine steekproeven wordt de toetsingsgrootheid vergeleken met een t-verdeling met $n-2$ vrijheidsgraden. Voor grotere steekproeven kan een z-toets gebruikt worden.
#### 2.1.5 Beslissingsregel
De nulhypothese wordt verworpen als de berekende toetsingsgrootheid (bijvoorbeeld een t-waarde) groter is in absolute waarde dan de kritieke waarde uit de t-tabel (met $n-2$ vrijheidsgraden) voor een gegeven significantieniveau ($\alpha$), of als de overschrijdingskans (p-waarde) kleiner is dan $\alpha$.
#### 2.1.6 Effectgrootte
De correlatiecoëfficiënt zelf, $r_s$, fungeert als maat voor de effectgrootte. Hierdoor is geen aparte berekening van de effectgrootte nodig. Een hogere absolute waarde van $r_s$ indiceert een sterkere relatie.
#### 2.1.7 Rapporteren
Bij het rapporteren van de resultaten van een Spearman rangcorrelatie worden de volgende elementen vermeld: het type toets, de richting van het verband (positief of negatief), de sterkte van het verband (de $r_s$ waarde), de significantie (p-waarde) en de steekproefgrootte ($n$).
Bijvoorbeeld: "Om het verband na te gaan tussen het gebruik van sociale media en zelfbeeld bij jongeren, werd een Spearman correlatie berekend. Hieruit bleek dat het verband tussen beide variabelen groot was, en significant verschillend van nul ($r_s = -0.87$, $p < 0.05$, $n=6$)."
### 2.2 Chikwadraattoets voor kruistabellen
De chikwadraattoets voor kruistabellen is een non-parametrische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen (nominaal of ordinaal). De toets vergelijkt de geobserveerde frequenties in een kruistabel met de verwachte frequenties onder de aanname van onafhankelijkheid.
#### 2.2.1 Toetsingssituatie
De toetsingssituatie betreft het onderzoeken of twee categorische variabelen afhankelijk van elkaar zijn. Dit wordt gedaan door de geobserveerde frequentieverdelingen van de ene variabele binnen de categorieën van de andere variabele te analyseren.
#### 2.2.2 Voorwaarden
De voorwaarden voor de chikwadraattoets zijn:
* De variabelen moeten minimaal van nominaal niveau zijn.
* De gegevens moeten op frequentieniveau worden geanalyseerd, niet op percentages.
* De categorieën van de variabelen moeten elkaar wederzijds uitsluiten en alle observaties moeten in een categorie passen.
* De verwachte frequenties ($F_e$) in de cellen van de kruistabel mogen niet te klein zijn. Een veelgebruikte vuistregel is dat maximaal 20% van de cellen een verwachte frequentie kleiner dan 5 mag hebben, en geen enkele cel mag een verwachte frequentie kleiner dan 1 hebben.
#### 2.2.3 Hypothesen
* **Nulhypothese ($H_0$):** De twee variabelen zijn onafhankelijk. Er is geen verband tussen de variabelen in de populatie.
* **Alternatieve hypothese ($H_1$):** De twee variabelen zijn afhankelijk. Er is wel een verband tussen de variabelen in de populatie. De chikwadraattoets is altijd tweezijdig.
#### 2.2.4 Toetsingsgrootheid
De toetsingsgrootheid is de chikwadraat ($\chi^2$) statistiek, die als volgt wordt berekend:
$$ \chi^2 = \sum_{i=1}^{k} \frac{(F_{o,i} - F_{e,i})^2}{F_{e,i}} $$
waarbij:
* $F_{o,i}$ de geobserveerde frequentie is in cel $i$.
* $F_{e,i}$ de verwachte frequentie is in cel $i$, berekend onder de aanname van onafhankelijkheid.
* $k$ het totale aantal cellen in de kruistabel is.
De verwachte frequentie ($F_e$) voor een specifieke cel wordt berekend als:
$$ F_e = \frac{(\text{rijtotaal}) \times (\text{kolomtotaal})}{\text{totaal aantal observaties}} $$
De chikwadraatstatistiek volgt een chikwadraatverdeling met vrijheidsgraden gelijk aan $(a-1)(b-1)$, waarbij $a$ en $b$ het aantal categorieën zijn van de respectievelijke variabelen.
#### 2.2.5 Beslissingsregel
De nulhypothese wordt verworpen als de berekende $\chi^2$ waarde groter is dan de kritieke $\chi^2$ waarde uit de chikwadraattabel (met de berekende vrijheidsgraden en het gekozen significantieniveau $\alpha$), of als de p-waarde kleiner is dan $\alpha$.
#### 2.2.6 Effectgrootte
Voor de chikwadraattoets zijn er verschillende maten voor effectgrootte, zoals de contingentiecoëfficiënt, de $\phi$-coëfficiënt, en Cramér's V. Cramér's V wordt vaak als de meest geschikte maat beschouwd, vooral bij kruistabellen groter dan 2x2.
Cramér's V wordt berekend als:
$$ V = \sqrt{\frac{\chi^2}{n(k-1)}} $$
waarbij:
* $\chi^2$ de berekende chikwadraatwaarde is.
* $n$ het totale aantal observaties is.
* $k$ het aantal categorieën is van de variabele met het kleinste aantal categorieën.
Interpretatie van Cramér's V:
* $V < 0.10$: triviaal effect
* $0.10 \leq V < 0.30$: klein effect
* $0.30 \leq V < 0.50$: medium effect
* $V \geq 0.50$: sterk effect
#### 2.2.7 Rapporteren
Bij het rapporteren van de resultaten van een chikwadraattoets worden de volgende elementen vermeld: het type toets, de vrijheidsgraden, de $\chi^2$ waarde, de p-waarde, de effectgrootte (bijvoorbeeld Cramér's V) en de steekproefgrootte ($n$).
Bijvoorbeeld: "Het verband tussen de variabelen mening over milieubelasting en politieke voorkeur werd nagegaan aan de hand van een chikwadraattoets. Deze wees uit dat beide variabelen statistisch afhankelijk zijn, $\chi^2(4)=21.86$, $p < 0.001$. Het verband bleek matig te zijn, Cramér's V $= 0.36$."
---
# Hoe de juiste statistische toets te kiezen en examenvoorbereiding
Hier is een gedetailleerde samenvatting voor het onderwerp "Hoe de juiste statistische toets te kiezen en examenvoorbereiding", gebaseerd op de verstrekte documentatie.
## 3. Hoe de juiste statistische toets te kiezen en examenvoorbereiding
Dit deel biedt een systematisch overzicht van statistische toetsen, presenteert een stappenplan voor de correcte selectie van een toets, en bereidt studenten voor op examens door middel van theorievragen en toepassingsvoorbeelden.
### 3.1 Overzicht van statistische toetsen
De keuze voor een statistische toets hangt af van de specifieke onderzoeksvraag en het meetniveau van de variabelen. Er wordt onderscheid gemaakt tussen parametrische en non-parametrische toetsen.
#### 3.1.1 Parametrische toetsen
Parametrische toetsen worden gebruikt wanneer de afhankelijke variabele minstens op intervalniveau gemeten is én de data in de populatie normaal verdeeld zijn.
* **Pearson correlatietoets:** Onderzoekt het lineaire verband tussen twee variabelen van interval- of rationiveau.
* **t-toetsen:** Worden gebruikt om gemiddelden te vergelijken.
* **One-sample t-test:** Vergelijkt het gemiddelde van één steekproef met een bekende populatiewaarde.
* **t-toets voor twee onafhankelijke steekproeven:** Vergelijkt de gemiddelden van twee onafhankelijke groepen (bv. verschillende afdelingen).
* **t-toets voor twee afhankelijke steekproeven (paired samples t-test):** Vergelijkt de gemiddelden van twee metingen bij dezelfde groep personen (bv. voor en na een interventie).
* **One-way ANOVA (variantieanalyse):** Vergelijkt de gemiddelden van meer dan twee onafhankelijke groepen.
#### 3.1.2 Non-parametrische toetsen
Non-parametrische toetsen worden toegepast wanneer de data op nominaal of ordinaal niveau gemeten zijn, of wanneer de aanname van normaliteit voor parametrische toetsen geschonden is.
* **Spearman rangcorrelatietoets:** Onderzoekt het verband tussen twee variabelen die minstens op ordinaal niveau gemeten zijn.
* **Chikwadraattoets voor kruistabellen (χ²-toets):** Onderzoekt het verband tussen twee nominale variabelen aan de hand van frequentieverdelingen in een kruistabel.
* **Wilcoxon rank-sum test:** Vergelijkt de verdelingen van twee onafhankelijke groepen op ordinaal niveau.
* **Wilcoxon signed-rank test:** Vergelijkt de verdelingen van twee afhankelijke metingen op ordinaal niveau.
#### 3.1.3 Toetsen voor het verband tussen twee variabelen
Dit betreft specifiek toetsen die kijken naar de relatie tussen twee variabelen.
* **Pearson correlatietoets:** Voor interval/ratio variabelen.
* **Spearman rangcorrelatietoets:** Voor ordinale variabelen.
* **Chikwadraattoets voor kruistabellen:** Voor nominale variabelen.
### 3.2 Stappenplan voor het kiezen van de juiste toets
Het selecteren van de juiste statistische toets vereist een systematische aanpak.
1. **Begrijp de onderzoeksvraag:** Wat wil de onderzoeker precies weten? Gaat het om een verschil, een verband, of een voorspelling?
2. **Identificeer de variabelen:** Wat zijn de afhankelijke variabelen (AV) en de onafhankelijke variabelen (OV)?
3. **Bepaal het meetniveau van de variabelen:** Is de variabele nominaal, ordinaal, interval of ratio?
4. **Bepaal het aantal populaties/groepen:** Worden één, twee of meer dan twee populaties vergeleken?
5. **Identificeer of de steekproeven afhankelijk of onafhankelijk zijn:** Zijn de metingen afkomstig van dezelfde personen of van verschillende, ongerelateerde groepen?
6. **Kies tussen parametrisch en non-parametrisch:** Zijn de voorwaarden voor parametrische toetsen (interval/ratio niveau, normaliteit) voldaan? Zo niet, kies dan voor een non-parametrische toets.
7. **Bepaal of de toets eenzijdig of tweezijdig is:** Is er een specifieke richting van het verwachte effect, of wordt er alleen gekeken of er *een* verschil is?
#### 3.2.1 Stramien voor het uitvoeren van een toets
Voor elke statistische toets wordt een standaard procedure gevolgd:
1. **Toetsingssituatie:** Beschrijf de context, het type onderzoeksvraag en de gegevens.
2. **Voorwaarden:** Controleer of aan de statistische voorwaarden voor de gekozen toets wordt voldaan.
3. **Hypothesen:** Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$).
4. **Toetsingsgrootheid:** Bereken de waarde van de toetsingsgrootheid en identificeer de bijbehorende kansverdeling.
* *Formule voorbeeld Pearson correlatietoets:* De toetsingsgrootheid volgt een $t$-verdeling met $df = N - 2$ vrijheidsgraden, waar $N$ het aantal paren observaties is.
5. **Beslissingsregel:** Verwerp $H_0$ op basis van de overschrijdingskans ($p$-waarde) of kritieke waarden.
* *Tip:* Bij tweezijdige toetsing wordt de kritieke waarde uit de tabel gehaald op basis van de gevraagde $\alpha$ en het aantal vrijheidsgraden. Als de berekende toetsingsgrootheid groter is dan de positieve kritieke waarde (of kleiner dan de negatieve kritieke waarde), wordt $H_0$ verworpen.
6. **Effectgrootte:** Kwantificeer de omvang van het gevonden effect. Dit geeft aan hoe belangrijk het gevonden resultaat is, los van de statistische significantie.
* *Effectgrootte bij correlatietoetsen:* De correlatiecoëfficiënt ($r$) zelf dient vaak als effectgrootte.
* *Effectgrootte bij chikwadraattoets:* Kan worden berekend met de chi-kwadraat statistiek, maar ook met maten als Cramér's V. Cramér's V wordt vaak gebruikt en geïnterpreteerd als: $r < .10$ (triviaal), $.10 - .30$ (klein), $.30 - .50$ (medium), $>.50$ (sterk).
7. **Rapporteren:** Beschrijf de resultaten op een gestandaardiseerde en duidelijke manier, inclusief de toets, de significantie, de effectgrootte en de steekproefgrootte.
#### 3.2.2 Voorbeelden van toetsen en hun toepassing
##### Pearson correlatietoets
* **Onderzoeksvraag:** Bestaat er een verband tussen de slaapkwaliteit van studenten tijdens de examenperiode en de mate van rust/kalmte die studenten ervaren?
* **Voorwaarden:** Variabelen zijn interval/ratio niveau en normaal verdeeld in de populatie.
* **Hypothesen:**
* $H_0$: Er is geen lineair verband tussen slaapkwaliteit en ervaren rust/kalmte ($ρ = 0$).
* $H_1$: Er is een lineair verband tussen slaapkwaliteit en ervaren rust/kalmte ($ρ \neq 0$).
* **Toetsingsgrootheid:** $t$-verdeling met $df = N - 2$.
* **Effectgrootte:** De correlatiecoëfficiënt ($r$).
* **Rapportage:** "Om het verband na te gaan tussen de slaapkwaliteit en de mate van rust/kalmte van studenten tijdens de examenperiode, werd een Pearson correlatie berekend. Hieruit bleek dat het verband tussen beide variabelen groot was, en significant verschillend van nul ($r=.99$, $p<.05$, $N=5$)."
##### Rangcorrelatie van Spearman
* **Toetsingssituatie:** Geschikt wanneer parametrische voorwaarden geschonden zijn (bv. variabelen op ordinaal niveau) of wanneer de variabelen niet normaal verdeeld zijn.
* **Voorwaarden:** Minimaal ordinaal meetniveau.
* **Hypothesen:**
* $H_0$: Er is geen verband tussen de rangen van de variabelen.
* $H_1$: Er is wel een verband tussen de rangen van de variabelen.
* **Toetsingsgrootheid:** De berekening leidt tot een $t$-score, die wordt vergeleken met een kritieke waarde uit de $t$-tabel met $N-2$ vrijheidsgraden.
* **Effectgrootte:** De correlatiecoëfficiënt ($r$) kan gebruikt worden.
* **Rapportage:** "Om het verband na te gaan tussen het gebruik van sociale media en zelfbeeld bij jongeren, werd een Spearman correlatie berekend. Hieruit bleek dat het verband tussen beide variabelen groot was, en significant verschillend van nul ($r = -,87$, $p<,05$, $N=6$)."
##### Chikwadraat voor kruistabellen (χ²-toets)
* **Toetsingssituatie:** Onderzoekt het verband tussen twee nominale variabelen door de geobserveerde frequenties te vergelijken met de verwachte frequenties onder de nulhypothese van onafhankelijkheid.
* **Voorwaarden:**
* Nominale variabelen.
* Geen herhaalde metingen.
* Mutueel exclusieve categorieën.
* Verwachte frequenties ($f_e$) in de kruistabel mogen niet te klein zijn: maximaal 20% van de cellen mag een $f_e < 5$ hebben, en geen enkele cel mag een $f_e < 1$ hebben.
* **Hypothesen:**
* $H_0$: De variabelen zijn onafhankelijk; er is geen verband.
* $H_1$: De variabelen zijn afhankelijk; er is een verband.
* **Toetsingsgrootheid:** De $\chi^2$-statistiek, met $df = (aantal\;rijen - 1) \times (aantal\;kolommen - 1)$.
* **Effectgrootte:** Diverse maten zoals de contigentiecoëfficiënt, $\phi$-coëfficiënt of Cramér's V. Cramér's V wordt als meest aangewezen beschouwd.
* **Rapportage:** "Het verband tussen de variabelen mening over milieubelasting en politieke voorkeur werd nagegaan aan de hand van een chikwadraattoets. Deze wees uit dat beide variabelen statistisch afhankelijk zijn, $\chi^2(4)=21,86$, $p<,001$. Het verband bleek matig te zijn, Cramér’s V = .36."
### 3.3 Hoe de juiste toets te kiezen: een beslissingsboom
De keuze voor een toets kan worden gevisualiseerd met een reeks vragen:
1. **Wat is de onderzoeksvraag?**
* Verschil in gemiddelden? -> Ga naar vraag 2.
* Verband tussen variabelen? -> Ga naar vraag 3.
2. **Verschil in gemiddelden:**
* Aantal groepen?
* 1 groep: One-sample t-test / z-toets.
* 2 groepen:
* Onafhankelijke steekproeven: Independent t-test (parametrisch) of Wilcoxon rank-sum test (non-parametrisch).
* Afhankelijke steekproeven: Paired t-test (parametrisch) of Wilcoxon signed-rank test (non-parametrisch).
* Meer dan 2 groepen: One-way ANOVA (parametrisch).
3. **Verband tussen variabelen:**
* Meetniveau van variabelen?
* Interval/Ratio: Pearson correlatie.
* Ordinaal: Spearman correlatie.
* Nominaal: Chikwadraattoets voor kruistabellen.
#### 3.3.1 Parametrisch versus Non-parametrisch
* **Parametrisch:** Gebruik wanneer de afhankelijke variabele minstens intervalniveau heeft en de data normaal verdeeld zijn in de populatie.
* **Non-parametrisch:** Gebruik wanneer de afhankelijke variabele op ordinaal niveau is, of wanneer de normaliteitsassumptie van parametrische toetsen geschonden is.
#### 3.3.2 Eenzijdig versus Tweezijdig toetsen
* **Tweezijdig toetsen:** Wordt gebruikt wanneer er geen specifieke verwachting is over de richting van het effect (bv. "is er een verschil?"). Dit is de standaardkeuze bij gebrek aan eerdere kennis.
* **Eenzijdig toetsen:** Wordt gebruikt wanneer er een duidelijke theoretische verwachting is over de richting van het effect (bv. "is groep A *hoger* dan groep B?"). Dit leidt tot meer statistische power als de richting correct is voorspeld.
> **Tip:** Bij twijfel of gebrek aan eerdere onderzoekingen over de richting van een effect, kies altijd voor tweezijdig toetsen om geen mogelijke verbanden (positief of negatief) te missen.
### 3.4 Examenvoorbereiding en voorbeeldvragen
De examenvoorbereiding richt zich op zowel theoretische kennis als de praktische toepassing van statistische toetsen.
#### 3.4.1 Typen examenvragen
* **Theorievragen:** Vragen die het begrip van concepten toetsen, zoals de fasen van de empirische cyclus, de betekenis van significantie en effectgrootte, of de keuze tussen een- en tweezijdig toetsen.
* **Toepassingsvragen:** Vragen waarbij een specifieke onderzoekssituatie wordt geschetst en de student de juiste toets moet selecteren, hypothesen moet formuleren, berekeningen moet uitvoeren, resultaten moet interpreteren en rapporteren.
#### 3.4.2 Belangrijke concepten voor het examen
* **Significantie:** Geeft aan of een gevonden effect waarschijnlijk niet op toeval berust. Een $p$-waarde kleiner dan of gelijk aan $\alpha$ (meestal .05) leidt tot het verwerpen van de nulhypothese.
* **Effectgrootte:** Kwantificeert de omvang en betekenisvolheid van een gevonden effect. Het is een aanvulling op significantie en geeft inzicht in de robuustheid van het resultaat in de populatie.
* **Type I en Type II fouten:**
* **Type I fout (vals positief):** De nulhypothese wordt verworpen terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan $\alpha$.
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen terwijl deze in werkelijkheid onjuist is. De kans hierop wordt aangeduid met $\beta$.
* **Empirische cyclus:** Het proces van onderzoek, bestaande uit observatie, inductie, deductie, toetsing en evaluatie.
#### 3.4.3 Voorbeeld van een toepassingsvraag (ANOVA)
**Situatie:** Een onderzoeker wil nagaan of er een verschil is in het beoordelingscijfer dat aan memes wordt gegeven, afhankelijk van welk vak studenten volgen (PW1, GPW, STAT2). Er zijn 45 studenten, met 15 studenten per vak.
**Hypothesen:**
* $H_0$: Er is geen significant verschil in het beoordelingscijfer van memes tussen de vakken.
* $H_1$: Er is minstens één significant verschil tussen de beoordelingscijfers van de memes tussen de vakken.
**Gegeven waarden:**
* Gemiddelde groep PW1: 7,54
* Gemiddelde groep GPW: 7,46
* Gemiddelde groep STAT2: 8,38
* Totaal gemiddelde: 7,79
* Sum of Squares (within-groups): 380,1705
* $\alpha = .05$
**Te berekenen:**
* Sum of Squares (between-groups)
* Vrijheidsgraden (between-groups en within-groups)
* Mean Sum of Squares (between-groups en within-groups)
* Toetsingsgrootheid ($F$-waarde)
* Kritieke waarde
* Conclusie en rapportage
**Uitwerking (voorbeeld met berekende waarden):**
* $SS_{between} = (7.54-7.79)^2 \times 15 + (7.46-7.79)^2 \times 15 + (8.38-7.79)^2 \times 15 \approx 27.07$
* $df_{between} = 3 - 1 = 2$
* $df_{within} = 45 - 3 = 42$
* $MS_{between} = SS_{between} / df_{between} \approx 27.07 / 2 \approx 13.535$
* $MS_{within} = SS_{within} / df_{within} \approx 380.1705 / 42 \approx 9.052$
* $F = MS_{between} / MS_{within} \approx 13.535 / 9.052 \approx 1.49$
* Kritieke waarde $F$ voor $df_1=2$, $df_2=42$, $\alpha=.05$ is ongeveer 3.23.
* **Conclusie:** Aangezien de berekende $F$-waarde (1.49) kleiner is dan de kritieke waarde (3.23), wordt de nulhypothese niet verworpen. Er is geen statistisch significant verschil in beoordelingscijfers voor memes tussen de vakken.
> **Tip:** Oefen met het correct rapporteren van resultaten. Dit omvat het vermelden van de toets, de vrijheidsgraden (indien van toepassing), de toetsingsgrootheid, de $p$-waarde, en de effectgrootte. Bij een significant resultaat in ANOVA is het belangrijk te vermelden dat er minstens één significant verschil is en dat post-hoc toetsen nodig zijn om specifieke groepsverschillen te identificeren.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Pearson correlatietoets | Een statistische toets die wordt gebruikt om de sterkte en richting van het lineaire verband tussen twee interval- of rationiveau variabelen te meten. Het resultaat is de Pearson correlatiecoëfficiënt (r). |
| Spearman correlatietoets | Een non-parametrische statistische toets die wordt gebruikt om de sterkte en richting van het monotone verband tussen twee geordende (ordinale) variabelen te meten. Het resultaat is de Spearman rangcorrelatiecoëfficiënt (rho). |
| Chikwadraat toets voor kruistabellen | Een non-parametrische statistische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee nominale variabelen, georganiseerd in een kruistabel. |
| Toetsingssituatie | De specifieke context of onderzoeksvraag waarin een statistische toets wordt toegepast, inclusief de aard van de variabelen en het onderzoeksdoel (bijvoorbeeld het toetsen van een verband of een verschil). |
| Voorwaarden | De statistische aannames die voldaan moeten zijn om een specifieke statistische toets correct en betrouwbaar te kunnen toepassen. Schending van voorwaarden kan leiden tot ongeldige resultaten. |
| Hypothesen (H0 en H1) | Hypothesen zijn stellingen over de populatie die worden getoetst met statistische methoden. H0 (nulhypothese) stelt meestal geen effect of geen verband, terwijl H1 (alternatieve hypothese) wel een effect of verband stelt. |
| Toetsingsgrootheid | Een waarde die wordt berekend uit de steekproefgegevens en die wordt gebruikt om de nulhypothese te toetsen. De verdeling van deze grootheid onder de nulhypothese is bekend. |
| Kansverdeling | Een wiskundige functie die de waarschijnlijkheid beschrijft van het verkrijgen van verschillende uitkomsten in een willekeurig experiment of variabele. Bekende verdelingen zijn de t-verdeling, de chikwadraatverdeling en de F-verdeling. |
| Beslissingsregel | Een regel die bepaalt of de nulhypothese wordt verworpen of niet verworpen, gebaseerd op de waarde van de toetsingsgrootheid en een vooraf bepaald significantieniveau (alfa), of op basis van de overschrijdingskans (p-waarde). |
| Kritieke waarde | De grenswaarde in een kansverdeling die wordt gebruikt om de beslissingsregel te formuleren. Als de toetsingsgrootheid groter (of kleiner, afhankelijk van de toets) is dan de kritieke waarde, wordt de nulhypothese verworpen. |
| Overschrijdingskans (p-waarde) | De kans om een steekproefresultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is. Een lage p-waarde (typisch <= .05) leidt tot het verwerpen van de nulhypothese. |
| Effectgrootte | Een maat die aangeeft hoe groot het waargenomen effect of verband is, onafhankelijk van de steekproefgrootte. Het kwantificeert de praktische significantie van een resultaat. |
| Rapporteren | Het correct en volledig presenteren van de resultaten van een statistische analyse, inclusief de toetsingsgrootheid, de overschrijdingskans, de effectgrootte en de conclusie in de context van de onderzoeksvraag. |
| Nominale variabele | Een categorische variabele waarbij de categorieën geen inherente volgorde hebben (bijvoorbeeld geslacht, politieke voorkeur). |
| Ordinale variabele | Een categorische variabele waarbij de categorieën een inherente volgorde hebben, maar de afstanden tussen de categorieën niet noodzakelijkerwijs gelijk zijn (bijvoorbeeld Likert-schaal, rangorde). |
| Intervalvariabele | Een variabele waarbij de afstanden tussen opeenvolgende waarden gelijk zijn, maar er geen absoluut nulpunt is (bijvoorbeeld temperatuur in Celsius). |
| Ratiovariabele | Een variabele waarbij de afstanden tussen opeenvolgende waarden gelijk zijn en er een absoluut nulpunt is, waardoor verhoudingen zinvol zijn (bijvoorbeeld lengte, gewicht). |
| Parametrische toets | Een statistische toets die aannames doet over de parameters van de populatie waaruit de steekproef is getrokken, met name over de vorm van de verdeling (vaak normaalverdeling). |
| Non-parametrische toets | Een statistische toets die minder strenge aannames doet over de populatieparameters en de verdeling van de gegevens, waardoor ze geschikt zijn voor ordinale en nominale data of wanneer de aannames van parametrische toetsen niet voldaan zijn. |
| Onafhankelijke steekproeven | Steekproeven waarbij de observaties in de ene steekproef geen invloed hebben op de observaties in de andere steekproef. De groepen zijn dus van elkaar gescheiden. |
| Afhankelijke steekproeven | Steekproeven waarbij de observaties binnen de steekproef gerelateerd zijn, bijvoorbeeld door herhaalde metingen bij dezelfde personen of door matching van paren (paired samples). |
| Variantieanalyse (ANOVA) | Een statistische methode die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken door de totale variantie in de gegevens op te splitsen in variantie tussen groepen en variantie binnen groepen. |
| TYPE-I fout | De fout die gemaakt wordt wanneer de nulhypothese ten onrechte wordt verworpen. De kans hierop is gelijk aan het significantieniveau (alfa). |
| TYPE-II fout | De fout die gemaakt wordt wanneer de nulhypothese ten onrechte niet wordt verworpen, terwijl deze in werkelijkheid onwaar is. De kans hierop wordt aangeduid met bèta ($\beta$). |
| Empirische cyclus | Een proces in wetenschappelijk onderzoek dat bestaat uit observatie, inductie, deductie, toetsing en evaluatie, bedoeld om kennis te vergaren en theorieën te ontwikkelen of te verfijnen. |
Cover
Samenvatting DAML.pdf
Summary
# Soorten data en centrale maten
Dit onderwerp introduceert de verschillende typen numerieke en categorische data, samen met fundamentele statistische maten zoals gemiddelde, mediaan en modus, en het concept van uitschieters.
### 1.1 Soorten data
Data kan worden ingedeeld in numerieke en categorische typen, elk met specifieke subcategorieën die hun kenmerken en toepassingen bepalen [1](#page=1).
#### 1.1.1 Numerieke data
Numerieke data zijn gegevens die uitgedrukt worden in getallen [1](#page=1).
##### 1.1.1.1 Continue numerieke data
Continue numerieke data, ook wel kwantitatieve data genoemd, omvatten getallen die elke mogelijke waarde binnen een bepaald bereik kunnen aannemen. Deze data ontstaan vaak door metingen [1](#page=1).
**Voorbeelden:**
* Lengte en afstand (bv. de lengte van een persoon, de afstand van een wandeling) [1](#page=1).
* Tijd (bv. reistijd, looptijd van een marathon) [1](#page=1).
* Temperatuur (vloeiend stijgend of dalend) [1](#page=1).
##### 1.1.1.2 Discrete numerieke data
Discrete numerieke data bestaan uit afzonderlijke, telbare waarden. Deze data worden verkregen door te tellen en kunnen niet zinvol worden opgesplitst in kleinere eenheden. Hoewel vaak gehele getallen, kunnen discrete waarden ook losse decimale getallen omvatten, zoals schoenmaten (bv. 38, 38.5, 39) [1](#page=1).
**Voorbeelden:**
* Aantal personen (bv. leerlingen in een klas, klanten in een winkel) [1](#page=1).
* Beoordelingen op een schaal (bv. 1 tot 5 sterren) [1](#page=1).
* Sportuitslagen (bv. aantal doelpunten) [1](#page=1).
#### 1.1.2 Categorische data
Categorische data zijn gegevens die uit categorieën bestaan [1](#page=1).
##### 1.1.2.1 Nominale categorische data
Nominale categorische data bestaan uit categorieën zonder een inherente rangorde of volgorde. Deze categorieën kunnen niet logisch van "hoog naar laag" of "belangrijk naar onbelangrijk" worden gesorteerd, en er kan niet mee worden gerekend. De modus is de enige zinvolle centrummaat voor nominale data [1](#page=1).
**Voorbeelden:**
* Land van herkomst (bv. België, Frankrijk, Duitsland) [1](#page=1).
* Kleur (bv. oogkleur) [1](#page=1).
* Geslacht (bv. man, vrouw, non-binair) [1](#page=1).
##### 1.1.2.2 Ordinale categorische data
Ordinale categorische data bestaan uit categorieën met een natuurlijke en logische rangorde. Hoewel de volgorde duidelijk is (bv. categorie A is "hoger" dan categorie B), zijn de intervallen tussen de categorieën niet noodzakelijk vast of meetbaar [2](#page=2).
**Voorbeelden:**
* Lidmaatschapsniveaus (bv. "Standard" < "Silver" < "Gold") [2](#page=2).
* Klanttevredenheid (bv. schalen van "Zeer ontevreden" tot "Zeer tevreden") [2](#page=2).
* Opleidingsniveau (bv. basisonderwijs < middelbare school < bachelor < master) [2](#page=2).
### 1.2 Centrale maten
Centrale maten zijn statistische methoden om het "centrum" of de typische waarde van een dataset te beschrijven [2](#page=2).
#### 1.2.1 Gemiddelde (Mean)
Het gemiddelde is de som van alle elementen in een dataset, gedeeld door het totale aantal elementen [2](#page=2).
$$ \text{Gemiddelde} = \frac{\sum_{i=1}^{n} x_i}{n} $$
#### 1.2.2 Mediaan
De mediaan is de middelste waarde in een reeks getallen die van klein naar groot (of groot naar klein) is gesorteerd. Als er een even aantal waarden is, is de mediaan het gemiddelde van de twee middelste waarden [2](#page=2).
**Waarom de mediaan gebruiken?**
* **Minder gevoelig voor uitschieters:** De mediaan wordt nauwelijks beïnvloed door extreem hoge of lage waarden die het gemiddelde zouden kunnen vertekenen [2](#page=2).
* **Ideaal voor scheve data:** Wanneer de data niet symmetrisch verdeeld is, zoals bij inkomens, geeft de mediaan een beter beeld van de typische waarde [2](#page=2).
> **Voorbeeld:** Bij inkomens als zal het gemiddelde hoog uitvallen door de 300, terwijl de mediaan beter aangeeft wat de meeste mensen verdienen [2](#page=2) .
* **Efficiëntie:** De mediaan is relatief eenvoudig te berekenen als de data eenmaal gesorteerd is [2](#page=2).
#### 1.2.3 Modus (Mode)
De modus is de waarde die het meest frequent voorkomt in een dataset. Het geeft de meest voorkomende of "populairste" observatie weer [3](#page=3).
**Kenmerken van de modus:**
* **Meest voorkomende waarde:** In een dataset over het aantal benen van mensen is de modus 2, omdat de meeste mensen twee benen hebben [3](#page=3).
* **Verschil met de mediaan:** De modus kijkt naar de frequentie, terwijl de mediaan naar de middelste positie in een gesorteerde reeks kijkt [3](#page=3).
* **Meerdere modi:** Een dataset kan geen modus hebben (alle waarden komen één keer voor), één modus hebben (unimodaal), of meerdere modi hebben (bv. bimodaal als twee waarden even vaak voorkomen) [3](#page=3).
**Waarom de modus gebruiken?**
* **Toepasbaar op categorische data:** Dit is de enige centrummaat die gebruikt kan worden voor kwalitatieve (categorische) gegevens. Je kunt geen gemiddelde berekenen van categorieën zoals "Land" of "Kleur" [3](#page=3).
> **Voorbeeld:** Als "België" het meest voorkomt in een dataset van landen van herkomst, dan is "België" de modus [3](#page=3).
### 1.3 Uitschieters (Outliers)
Uitschieters zijn datapunten die significant verschillen van de rest van de gegevens in een dataset [2](#page=2).
**Oorzaken van uitschieters:**
* **Meetfouten:** Verkeerde eenheden of metingen (bv. centimeters in plaats van meters) [3](#page=3).
* **Menselijke fouten:** Typfouten bij data-invoer [3](#page=3).
**Impact op statistiek:**
* **Gemiddelde:** Het gemiddelde is zeer gevoelig voor uitschieters; een enkele extreme waarde kan het gemiddelde sterk beïnvloeden [3](#page=3).
* **Mediaan:** De mediaan is robuuster en minder gevoelig voor uitschieters, omdat deze zich richt op de middelste positie [3](#page=3).
---
# Spreidingsmaten en visualisatie van data
Dit gedeelte behandelt methoden voor het meten van de spreiding van data, waaronder kwartielen, de InterQuartile Range (IQR) en boxplots, en introduceert de concepten van populatie en steekproef.
### 2.1 Kwartielen en de InterQuartile Range (IQR)
Kwartielen zijn belangrijke spreidingsmaten die helpen bij het begrijpen van de verdeling van data.
#### 2.1.1 Definitie van Kwartielen
* **Q1 (Eerste Kwartiel / 25e percentiel)**: Dit is de middelste waarde van de onderste helft van de data. Het geeft aan dat 25% van de waarden in de dataset onder dit punt ligt [4](#page=4).
* **Q3 (Derde Kwartiel / 75e percentiel)**: Dit is de middelste waarde van de bovenste helft van de data. Het geeft aan dat 75% van de waarden in de dataset onder dit punt ligt (en dus 25% erboven) [4](#page=4).
#### 2.1.2 Belang van Kwartielen
Samen met de mediaan (die feitelijk Q2 is), worden kwartielen gebruikt om de InterQuartile Range (IQR) te berekenen [4](#page=4).
* **IQR = Q3 - Q1**: Dit vertegenwoordigt de hoogte van de "box" in een boxplot [4](#page=4).
* **Spreiding**: De IQR bevat de middelste 50% van je data [4](#page=4).
* **Outliers**: De kwartielen worden gebruikt om de "whiskers" (snorharen) te bepalen; alles wat verder dan 1,5 keer de IQR van de box afligt, wordt gezien als een outlier [4](#page=4).
### 2.2 Boxplots
Een boxplot is een grafische weergave die de spreiding en verdeling van een dataset visualiseert.
#### 2.2.1 Opbouw van een Boxplot
Een boxplot bestaat uit een rechthoek (de "box") met twee lijnen die eraan vastzitten (de "whiskers" of snorharen) [5](#page=5).
* **De Box**: De onderkant van de box wordt gevormd door Q1 (het 25e percentiel) en de bovenkant door Q3 (het 75e percentiel). De hoogte van deze box bevat de middelste 50% van alle data, ook wel de InterQuartile Range (IQR) genoemd [5](#page=5).
* **De Mediaan**: Een dikke lijn binnenin de box geeft de mediaan aan, de middelste waarde van de dataset [5](#page=5).
* **De Whiskers**: Deze lijnen strekken zich uit vanaf de box naar de hoogste en laagste waarden in de dataset. Ze zijn echter begrensd en gaan tot maximaal 1,5 keer de hoogte van de box (1,5 x IQR) [5](#page=5).
* **Outliers**: Datapunten die verder liggen dan de whiskers worden weergegeven als losse puntjes of cirkeltjes, wat duidt op uitschieters in de data [5](#page=5).
#### 2.2.2 Voordelen van Boxplots
Boxplots zijn essentieel om de "essence" van een grote hoeveelheid data in één beeld te vangen [5](#page=5).
1. **Vorm van de data**: Direct zichtbaar of data symmetrisch verdeeld is of een "skew" (scheefheid) vertoont naar links of rechts [5](#page=5).
2. **Vergelijken van groepen**: Meerdere boxplots kunnen naast elkaar worden geplaatst om bijvoorbeeld de leeftijd van verschillende groepen te vergelijken [5](#page=5).
3. **Spreiding**: Een grotere box indiceert meer variatie in de middelste helft van de data [5](#page=5).
### 2.3 Populatie en Steekproef
In data-analyse is het onderscheid tussen een populatie en een steekproef fundamenteel.
#### 2.3.1 Definitie
* **Populatie**: Dit omvat alle datapunten of individuen waar je geïnteresseerd in bent, zoals de gehele Belgische bevolking of alle studenten Informatica [5](#page=5).
* **Steekproef (Sample)**: Dit is een subset of een kleiner deel van de populatie. In data-analyse wordt vrijwel altijd met steekproeven gewerkt [5](#page=5).
#### 2.3.2 Waarom Steekproeven Gebruiken?
Het meten van de hele populatie is vaak onhaalbaar vanwege beperkingen in tijd, kosten en toegang [6](#page=6).
#### 2.3.3 Representativiteit en Bias
Het doel van een steekproef is om kenmerken van de populatie te schatten, waardoor representativiteit cruciaal is [6](#page=6).
* De steekproef moet een redelijke afspiegeling zijn van de populatie om betrouwbare conclusies te kunnen trekken [6](#page=6).
* Biased sampling (vertekende steekproeftrekking) moet vermeden worden. Een voorbeeld is het bevragen van jongeren over coderen enkel onder IT-studenten, wat de steekproef niet representatief maakt voor álle jongeren [6](#page=6).
### 2.4 Spreidingsmaten
Spreidingsmaten zijn statistische waarden die aangeven hoe verspreid of gevarieerd datapunten in een dataset zijn. Ze zijn essentieel voor het beoordelen van de consistentie, betrouwbaarheid of het risico van data [6](#page=6).
#### 2.4.1 Mean Absolute Deviation (MAD)
De MAD is het gemiddelde van de absolute verschillen tussen elk datapunt en het gemiddelde van de dataset [6](#page=6).
* **Kenmerk**: Gemakkelijker te berekenen en te interpreteren dan andere maten [6](#page=6).
* **Nadeel**: Legt minder nadruk op uitschieters (outliers) [6](#page=6).
* **Formule**: De formule voor MAD wordt hier niet expliciet weergegeven in de brontekst.
> **Tip:** Spreidingsmaten bieden inzicht in de variabiliteit van data, wat cruciaal is voor diverse toepassingen zoals financiële analyses of kwaliteitscontrole in productieprocessen [6](#page=6).
---
# Geavanceerde statistische concepten en modellen
Dit deel van de studiehandleiding behandelt geavanceerde statistische concepten, meetinstrumenten voor spreiding, de principes van supervised learning en belangrijke wiskundige modellen.
## 3 Geavanceerde statistische concepten en modellen
Dit hoofdstuk verdiept zich in diverse statistische eigenschappen zoals scheefheid en kurtosis, correlatie en introduceert fundamentele principes van supervised learning met bijbehorende algoritmen zoals KNN, decision trees en regressie.
### 3.1 Spreidingsmaten en verdelingsvormen
De basis van het begrijpen van data ligt in het kwantificeren van de spreiding en de vorm van de verdeling.
#### 3.1.1 Spreidingsmaten
Naast het gemiddelde zijn er verschillende maten om de spreiding van data te kwantificeren, elk met hun eigen kenmerken en toepassingen.
* **Variantie (Variance)**: De variantie is het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde. Door afwijkingen te kwadrateren, worden grotere afwijkingen zwaarder bestraft. Een nadeel is dat de eenheden in het kwadraat zijn (bijvoorbeeld "vierkante euro's"), wat de directe interpretatie bemoeilijkt [7](#page=7) [8](#page=8).
* **Standaarddeviatie (Standard Deviation)**: Dit is de vierkantswortel van de variantie. Het is de meest gebruikte spreidingsmaat in de praktijk. Een belangrijk voordeel is dat de waarde in dezelfde eenheid als de oorspronkelijke data staat, wat de interpretatie vergemakkelijkt [7](#page=7) [8](#page=8).
* **Mean Absolute Deviation (MAD)**: De MAD is het gemiddelde van de absolute verschillen tussen elk datapunt en het gemiddelde. Het is intuïtief te interpreteren en omdat er niet wordt gekwadrateerd, legt deze maat minder nadruk op uitschieters dan de andere maten [7](#page=7).
#### 3.1.2 Scheefheid (Skewness)
Skewness is een statistische maatstaf die de mate van asymmetrie in een kansverdeling beschrijft [8](#page=8).
* **Positieve skew (Right-skewed)**: De staart aan de rechterkant van de grafiek is langer. De meeste waarden zijn geconcentreerd aan de linkerkant, met enkele hoge uitschieters die de rechterstaart uitrekken. Meestal is het gemiddelde hier groter dan de mediaan [8](#page=8).
* **Negatieve skew (Left-skewed)**: De staart aan de linkerkant van de grafiek is langer. De meeste waarden bevinden zich aan de rechterkant, met enkele zeer lage uitschieters die de linkerstaart veroorzaken. Hier is het gemiddelde meestal kleiner dan de mediaan [8](#page=8).
* **Symmetrische verdeling**: De linker- en rechterkant zijn elkaars spiegelbeeld. Er is geen significante staart aan één specifieke zijde. Bij een perfect symmetrische verdeling vallen het gemiddelde, de mediaan en de modus samen [8](#page=8).
Skewness helpt bij het identificeren van outliers [8](#page=8).
#### 3.1.3 Kurtosis
Kurtosis is een statistische maatstaf die de "tailedness" (de dikte van de staarten) of de scherpte van de piek van een verdeling meet [9](#page=9).
* **Leptokurtisch (Hoge kurtosis)**: Een scherpere piek en dikkere staarten. Dit betekent dat een groot deel van de variantie wordt veroorzaakt door extreme uitschieters en de kans op waarden ver van het gemiddelde groter is dan bij een normale verdeling [9](#page=9).
* **Platykurtisch (Lage kurtosis)**: Een plattere verdeling met dunnere staarten. Extreme waarden of uitschieters komen minder vaak voor [9](#page=9).
* **Mesokurtisch**: Komt overeen met een normale verdeling en dient als standaard voor vergelijking [9](#page=9).
### 3.2 Correlatie en data-preparatie
Correlatie is essentieel voor het begrijpen van relaties tussen variabelen, terwijl data-preparatie de basis legt voor modellering.
#### 3.2.1 Correlatie
Correlatie is een statistische maatstaf die de relatie tussen twee verschillende variabelen beschrijft [9](#page=9).
* **De Correlatiecoëfficiënt (r)**:
* $r = 1$: Perfecte positieve correlatie, waarbij beide variabelen proportioneel in dezelfde richting bewegen [9](#page=9).
* $r = -1$: Perfecte negatieve correlatie, waarbij variabelen in tegenovergestelde richting bewegen [9](#page=9).
* $r = 0$: Geen lineair verband tussen de variabelen [9](#page=9).
**Belangrijke Nuances bij Correlatie:**
* **Correlatie is geen Causatie (Correlation ≠ Causation)**: Alleen omdat twee variabelen samen bewegen, betekent dit niet dat de ene de andere veroorzaakt. Een derde, ongeziene factor kan de oorzaak zijn [10](#page=10).
* **Spurious Correlations (Schijincorrelaties)**: Correlaties die puur toevallig lijken te bestaan of worden veroorzaakt door een ongeziene factor, zonder logisch verband. De kans hierop neemt toe in grote datasets [10](#page=10).
#### 3.2.2 Data-preparatie
Data-preparatie is cruciaal om ruwe data geschikt te maken voor analyse en modellering.
* **One-hot encoding**: Een techniek om categorische variabelen om te zetten naar een numeriek formaat door voor elke unieke categorie een nieuwe, binaire kolom aan te maken (1 als de observatie tot die categorie behoort, 0 anders). Dit wordt beschouwd als een onderdeel van Data Cleansing [10](#page=10).
* **Soorten missing values**:
* **Missing Completely at Random (MCAR)**: Het ontbreken van data is volledig willekeurig en ongerelateerd aan andere data [10](#page=10).
* **Missing at Random (MAR)**: Het ontbreken is gerelateerd aan andere geobserveerde data, maar niet aan de ontbrekende waarde zelf [11](#page=11).
* **Missing Not at Random (MNAR)**: De reden voor het ontbreken is direct gerelateerd aan de waarde die ontbreekt [11](#page=11).
* **Strategieën voor het afhandelen van ontbrekende data**:
1. **Negeren of Verwijderen**: Volledige rijen of waarden overslaan [11](#page=11).
2. **Imputeren (Vervangen)**: Vervangen door 0, het gemiddelde, de mediaan, de modus, of een voorspelde waarde [11](#page=11).
3. **Markeren en Onderzoeken**: De waarde markeren als "missend" en patronen in het ontbreken onderzoeken [11](#page=11).
### 3.3 Supervised Learning
Supervised learning-algoritmen leren van gelabelde data om voorspellingen te doen.
#### 3.3.1 Classificatie vs. Regressie
* **Classificatie (Classification)**: Het doel is om een categorie of label toe te kennen aan een nieuwe observatie (discrete output). Voorbeelden zijn churn prediction, fraudedetectie en beeldherkenning [12](#page=12).
* **Regressie (Regression)**: Het doel is om een numerieke waarde of continu getal te voorspellen (numerieke output). Voorbeelden zijn prijsvoorspelling, verkoopvolumes en voorraadbeheer [12](#page=12).
#### 3.3.2 K-Nearest Neighbors (KNN)
KNN is een algoritme dat zowel voor classificatie als regressie kan worden gebruikt en wordt een "Lazy Learner" genoemd omdat het model tijdens de trainingsfase niets doet [12](#page=12).
* **Hoe het werkt**:
1. Nieuwe data invoeren [13](#page=13).
2. Zoek de K meest gelijkende datapunten (buren) in de bestaande dataset [13](#page=13).
3. Voorspel:
* Classificatie: Meerderheidsstemming onder de K buren [13](#page=13).
* Regressie: Gemiddelde van de waarden van de K buren [13](#page=13).
* **De rol van K**: Bepaalt het aantal buren dat geraadpleegd wordt [13](#page=13).
* **Het meten van gelijkenis (Afstanden)**:
* Euclidean distance: Voor continue numerieke variabelen [13](#page=13).
* Manhattan distance: Voor data in een rasterstructuur [13](#page=13).
* Hamming distance: Voor binaire variabelen [13](#page=13).
* **Distance-weighted KNN**: Geeft meer gewicht aan dichterbij gelegen buren [13](#page=13).
#### 3.3.3 Decision trees
Een decision tree verdeelt data in steeds kleinere subgroepen op basis van kenmerken [13](#page=13).
* **Structuur**: Bestaat uit een Root Node, Internal Nodes en Leaf Nodes [14](#page=14).
* **Hoe de boom wordt gebouwd (Splitting)**: Gebruikt metrieken zoals Entropy, Information Gain en Gini Index om de data zo "puur" mogelijk te splitsen [14](#page=14).
* **Belangrijke kenmerken**: Geen lussen en toepasbaar voor zowel classificatie als regressie [14](#page=14).
#### 3.3.4 Random Forest
Een geavanceerd algoritme dat de voorspellingen van meerdere decision trees combineert voor nauwkeurigere resultaten, gebaseerd op het principe van "Wisdom of the Crowd". Het introduceert diversiteit door willekeurige subsets van data en kenmerken te gebruiken [14](#page=14) [15](#page=15).
* **Voorspellingen maken**: Via Majority Voting (classificatie) of middeling (regressie) [15](#page=15).
#### 3.3.5 Lineaire regressie
Lineaire regressie voorspelt een numerieke, continue waarde op basis van één of meerdere onafhankelijke variabelen [15](#page=15).
* **Typen**:
* **Enkelvoudige lineaire regressie**: Gebruikt één voorspellende variabele ($X$) om $y$ te bepalen. De formule is $y = \beta_0 + \beta_1x$ [15](#page=15) [16](#page=16).
* **Meervoudige lineaire regressie**: Gebruikt een set van meerdere voorspellende variabelen ($X_1, X_2,..., X_p$) om $y$ te voorspellen. De formule wordt uitgebreid naar [15](#page=15):
$$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_px_p + \epsilon$$ [15](#page=15) [16](#page=16).
* **Belangrijke concepten**:
* **Coëfficiënten ($\beta$)**: Vertegenwoordigen de helling en de invloed van elke variabele op de voorspelling. $\beta_0$ is het intercept [16](#page=16).
* **Ruis ($\epsilon$)**: De afwijking die niet door de variabelen verklaard kan worden [16](#page=16).
* **Regressielijn**: Een lijn die zo wordt getrokken dat de totale fout tussen de werkelijke datapunten en de lijn minimaal is [16](#page=16).
* **Lineaire vs. Niet-Lineaire Regressie**: Een rechte lijn werkt bij lineaire relaties, maar bij curven is een polynomial model (niet-lineaire regressie) nodig. Een voorbeeld van een polynomial model is $y = b_0 + b_1x_1 + b_2x_1^2$ [16](#page=16).
> **Tip:** Visualiseer je data met een scatter plot om te bepalen of lineaire of niet-lineaire regressie het meest geschikt is.
#### 3.3.6 Logistic Regression
Logistische regressie voorspelt de waarschijnlijkheid dat een waarneming tot een specifieke categorie behoort, meestal voor binaire classificatie [17](#page=17).
* **Hoe het werkt**: Gebruikt een wiskundige vergelijking die begint met een lineaire formule en vervolgens de uitkomst door de Sigmoid-functie haalt, wat resulteert in een S-curve tussen 0 en 1 [17](#page=17).
* **Threshold (Drempelwaarde)**: Wordt ingesteld (meestal 0,5) om een definitieve keuze te maken tussen twee klassen. De drempelwaarde kan worden aangepast om specifieke fouten te vermijden [18](#page=18).
* **Regularisatie**: Technieken zoals Lasso en Ridge regressie worden gebruikt om te voorkomen dat het model te complex wordt of te veel op onbelangrijke variabelen vertrouwt [18](#page=18).
### 3.4 Statistische verdelingen en significantie
Het begrijpen van statistische verdelingen en het concept van statistische significantie is cruciaal voor data-analyse.
#### 3.4.1 Statistische Verdelingen
Statistische verdelingen geven weer hoe datapunten over verschillende waarden verspreid zijn [18](#page=18).
* **Continue Verdelingen**: Gebruikt voor data die elke waarde binnen een bereik kan aannemen [18](#page=18).
* **Normale Verdeling (Bell Curve)**: Symmetrisch rond het gemiddelde. De 68-95-99.7 Regel beschrijft de spreiding rond het gemiddelde [19](#page=19).
* **Student-t Verdeling**: Lijkt op de normale verdeling maar met dikkere staarten, gebruikt bij kleine steekproeven of onbekende standaarddeviatie [19](#page=19).
* **Exponentiële Verdeling**: Beschrijft vaak de tijd tussen gebeurtenissen [19](#page=19).
* **Discrete Verdelingen**: Gebruikt voor telbare waarden [19](#page=19).
* **Uniforme Verdeling**: Elke mogelijke uitkomst heeft een gelijke kans [19](#page=19).
* **Poisson Verdeling**: Meet het aantal gebeurtenissen in een vast tijdsinterval [19](#page=19).
* **Bernoulli Verdeling**: Voor een enkel experiment met twee mogelijke uitkomsten [19](#page=19).
* **Binomiale Verdeling**: Beschrijft het aantal successen in een reeks van onafhankelijke Bernoulli-experimenten [19](#page=19).
#### 3.4.2 Statistical Significance
Statistische significantie geeft aan hoe waarschijnlijk het is dat een gevonden resultaat op toeval berust [19](#page=19).
* **De Nulhypothese ($H_0$)**: Het uitgangspunt dat er geen effect of verschil is [19](#page=19).
* **De P-waarde (P-value)**: De waarschijnlijkheid om de geobserveerde data (of extremer) te vinden als de nulhypothese waar is [20](#page=20).
* Lage p-waarde (< 0,05): Resultaat is statistisch significant; nulhypothese kan worden verworpen [20](#page=20).
* Hoge p-waarde (> 0,05): Resultaat is niet statistisch significant; nulhypothese kan niet worden verworpen [20](#page=20).
* **Statistische vs. Praktische Significantie**: Statistische significantie geeft aan dat er een effect is, terwijl praktische significantie aangeeft of dit effect in de echte wereld belangrijk is [20](#page=20).
* **Valkuilen**: Steekproefgrootte en p-hacking kunnen leiden tot misleidende resultaten [20](#page=20).
---
# Model evaluatie en validatie
Dit onderdeel behandelt de methoden en metrieken die gebruikt worden om de prestaties van machine learning modellen te beoordelen en te valideren, met specifieke aandacht voor classificatie- en regressiemodellen.
### 4.1 De Data Science Workflow en de rol van evaluatie
De Data Science Workflow is een gestructureerd proces voor het ontwikkelen en inzetten van data science projecten, waarbij de CRISP-DM methode centraal staat. Deze methode omvat de volgende fasen: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation en Deployment. De Evaluation fase is cruciaal om te beoordelen of het ontwikkelde model de oorspronkelijke bedrijfsdoelstellingen behaalt en of er geen belangrijke zakelijke aspecten over het hoofd zijn gezien. Het proces is iteratief; inzichten uit de evaluatiefase kunnen leiden tot terugkeer naar eerdere fasen [21](#page=21) [22](#page=22).
### 4.2 Prestatie-evaluatie van classificatiemodellen
De prestaties van classificatiemodellen worden gemeten aan de hand van hoe goed ze nieuwe data correct kunnen labelen. Omdat simpele "percentage correct"-scores misleidend kunnen zijn, worden diverse metrieken gebruikt voor een compleet beeld [22](#page=22).
#### 4.2.1 De confusion matrix
De basis voor classificatiemetrieken is de confusion matrix, die werkelijke waarden vergelijkt met voorspelde waarden. De componenten zijn [22](#page=22):
* **True Positive (TP):** Model voorspelde "Ja" en het was inderdaad "Ja".
* **True Negative (TN):** Model voorspelde "Nee" en het was inderdaad "Nee".
* **False Positive (FP):** Model voorspelde "Ja", maar het was eigenlijk "Nee" (Type I fout).
* **False Negative (FN):** Model voorspelde "Nee", maar het was eigenlijk "Ja" (Type II fout).
#### 4.2.2 Belangrijke classificatiemetrieken
Op basis van de confusion matrix kunnen de volgende scores worden berekend [23](#page=23):
* **Accuracy (Nauwkeurigheid):** Het percentage correcte voorspellingen van het totaal. Dit is minder betrouwbaar bij ongebalanceerde datasets [23](#page=23).
* **Precision (Precisie):** Hoeveel van de positieve voorspellingen waren werkelijk positief. Cruciaal wanneer de kosten van een False Positive hoog zijn (bijv. onterechte fraudeaanklacht) [23](#page=23).
* **Recall (Sensitivity):** Hoeveel van de werkelijke positieve gevallen het model heeft gevonden. Essentieel wanneer de kosten van een False Negative hoog zijn (bijv. het missen van een kankergeval) [23](#page=23).
* **F1-Score:** Het harmonisch gemiddelde van Precision en Recall, nuttig voor het vinden van een balans, vooral bij scheve datasets [23](#page=23).
##### 4.2.2.1 Sensitivity versus Specificity (medisch perspectief)
* **Sensitivity (Recall):** Meet hoe goed een test patiënten met de ziekte correct identificeert. Het is het percentage werkelijk zieke mensen dat een positief testresultaat krijgt. Hoge sensitivity minimaliseert False Negatives en is cruciaal bij gevaarlijke ziektes [23](#page=23).
* **Specificity:** Meet hoe goed een test mensen zonder de ziekte correct identificeert. Het is het percentage gezonde mensen dat een negatief testresultaat krijgt. Hoge specificity minimaliseert False Positives en is belangrijk wanneer vervolgbehandelingen riskant of duur zijn [23](#page=23).
##### 4.2.2.2 Recall versus Precision (machine learning perspectief)
* **Precision:** Beantwoordt de vraag: "Van alle gevallen die het model als positief voorspelde, hoeveel waren er werkelijk positief?" Het focust op de nauwkeurigheid van positieve voorspellingen en is belangrijk bij hoge kosten van een False Positive, zoals bij spamfilters [24](#page=24).
* **Recall:** Beantwoordt de vraag: "Van alle werkelijke positieve gevallen, hoeveel heeft het model correct geïdentificeerd?" Het focust op het vermogen om alle relevante gevallen te vinden en is cruciaal bij hoge kosten van een False Negative, zoals bij kankeronderzoek [24](#page=24).
#### 4.2.3 Van regressie naar classificatie
Regressiemodellen kunnen voor classificatie worden gebruikt door een drempelwaarde (threshold) in te stellen op de voorspelde waarschijnlijkheid. Het aanpassen van deze drempelwaarde beïnvloedt de balans tussen Accuracy, Recall en Precision van het model [25](#page=25).
#### 4.2.4 Lift Curve
Een Lift Curve evalueert hoe effectief een model is in het identificeren van "meest waarschijnlijke kandidaten" vergeleken met een willekeurige selectie [25](#page=25).
* **Concept:** Het meet hoeveel meer "successen" (bijv. kopers) men vindt door de top X% kandidaten te selecteren op basis van de modelvoorspelling, ten opzichte van het gemiddelde succespercentage in de gehele dataset [25](#page=25).
* **Berekening:** De liftwaarde is de ratio van het succespercentage in een gesegmenteerd deel van de data (bijv. top 14%) gedeeld door het gemiddelde succespercentage over de gehele dataset [25](#page=25).
> **Voorbeeld:** Als de dataset een gemiddeld succespercentage van 64% heeft en een segment van de top 2 personen (14% van de data) toont 100% succes, dan is de lift $1 / 0,64 = 1,56$ [25](#page=25).
* **Interpretatie:**
* Lift > 1: Het model is effectief [26](#page=26).
* Lift = 1: Het model presteert niet beter dan willekeurig gokken [26](#page=26).
* In een grafiek neemt de lift meestal af naarmate meer data wordt toegevoegd, stabiliserend naar 1 voor de gehele dataset [26](#page=26).
### 4.3 Prestatie-evaluatie van regressiemodellen
Bij regressiemodellen, die continue waarden voorspellen, wordt de "correctheid" gemeten aan de hand van de residuals (fouten): het verschil tussen de werkelijke waarde ($y_i$) en de voorspelde waarde ($\hat{y}_i$) [24](#page=24).
#### 4.3.1 Belangrijkste regressiemetrieken
De totale kwaliteit van een regressiemodel wordt beoordeeld met de volgende statistieken [24](#page=24):
* **Mean Absolute Error (MAE):** Het gemiddelde van alle absolute fouten. Geeft de gemiddelde foutgrootte aan in de eenheid van de data [24](#page=24).
* **Mean Squared Error (MSE):** Het gemiddelde van de gekwadrateerde fouten. Bestraft grote uitschieters zwaarder [24](#page=24).
* **Mean Absolute Percentage Error (MAPE):** De gemiddelde fout uitgedrukt als een percentage van de werkelijke waarde [24](#page=24).
* **Total Sum of Squared Errors:** De som van alle gekwadrateerde fouten [24](#page=24).
### 4.4 Modelvalidatie
Modelvalidatie is essentieel om te bepalen of de output van een model een acceptabele weergave is van de realiteit, en of het goed presteert op zowel bekende als onbekende data. Het doel is om de aansluiting bij de businessvraag te controleren [26](#page=26).
#### 4.4.1 Soorten validiteit
Er worden drie typen validiteit onderscheiden op basis van de gebruikte data [26](#page=26):
* **Apparent Validity:** Getest op de eigen steekproef (training set) [26](#page=26).
* **Internal Validity:** Getest op de eigen populatie (validation set) [26](#page=26).
* **External Validity:** Getest op een andere populatie (test set) [26](#page=26).
#### 4.4.2 Validatietechnieken
Om de betrouwbaarheid te waarborgen en overfitting te voorkomen, worden specifieke methoden gebruikt voor data-splitsing en modeltesten [26](#page=26).
##### 4.4.2.1 Data Splitting
De dataset wordt verdeeld in drie onafhankelijke sets [26](#page=26):
* **Training set:** Gebruikt om het model te bouwen [26](#page=26).
* **Validation set:** Gebruikt om het model te tunen (bv. hyperparameters aanpassen) en modellen te vergelijken [26](#page=26).
* **Test set:** Wordt uitsluitend gebruikt voor de finale evaluatie van het gekozen model [26](#page=26).
##### 4.4.2.2 Cross Validation (K-Fold)
Dit is een robuustere methode waarbij de data herhaaldelijk wordt gesplitst [26](#page=26).
1. De data wordt eerst gesplitst in een training- en testset [26](#page=26).
2. De trainingset wordt verdeeld in $k$ subsets [27](#page=27).
3. Telkens wordt één subset gebruikt voor validatie, en de overige $k-1$ subsets voor training [27](#page=27).
4. Dit proces wordt $k$ keer herhaald, zodat elke subset één keer als validatieset fungeert [27](#page=27).
5. Het beste model wordt gekozen op basis van deze resultaten en vervolgens geëvalueerd op de originele testset [27](#page=27).
##### 4.4.2.3 Leave One Out (LOO)
Dit is een extreme vorm van Cross Validation waarbij $k$ gelijk is aan het aantal datapunten in de dataset. Telkens wordt één datapunt weggelaten voor validatie, terwijl op alle andere datapunten getraind wordt [27](#page=27).
#### 4.4.3 Belang van validatie
Zonder goede validatie bestaat het risico op overfitting: het model leert de ruis in de trainingsdata in plaats van echte patronen, wat leidt tot falen op nieuwe data [27](#page=27).
> **Tip:** Modelvalidatie is cruciaal om te garanderen dat een model niet alleen goed presteert op de data waarmee het getraind is, maar ook generaliseert naar nieuwe, ongeziene data. Dit voorkomt teleurstellingen bij de uiteindelijke inzet van het model.
---
# Unsupervised learning en speciale algoritmen
Dit deel behandelt technieken voor unsupervised learning, waaronder clustering en associatieregels, evenals recommender systems en de onderliggende matrixfactorisatie methoden.
### 5.1 Unsupervised learning: toepassingen en principes
Unsupervised learning is een breed veld binnen machine learning waarbij algoritmen patronen in data ontdekken zonder dat er vooraf gedefinieerde labels of uitkomsten zijn. De belangrijkste toepassingen omvatten [27](#page=27):
* **Clustering (Data Partitionering):** Het groeperen van objecten die op elkaar lijken binnen één cluster, maar verschillen van objecten in andere clusters. Dit is nuttig in marketing (doelgroepen identificeren), verzekeringen (risicoprofielen groeperen), stadsplanning en gezondheidszorg (kankercellen classificeren) [27](#page=27).
* **Datacompressie en Visualisatie:** Het verkleinen van datahoeveelheden met behoud van essentie, of het omzetten van hoog-dimensionale data naar een visueel formaat (zoals met PCA of t-SNE) om patronen te herkennen [27](#page=27).
* **Detectie van Afwijkingen (Anomaly Detection):** Het opsporen van datapunten die significant afwijken van de rest (novelty detection), cruciaal in cybersecurity voor het herkennen van ongebruikelijke netwerkpatronen [27](#page=27).
* **Voorbereiding voor andere modellen (Preprocessing):** Clustering kan dienen als een tussenstap om data te vereenvoudigen of kenmerken te extraheren voor supervised learning modellen, of voor dichtheidsschatting [27](#page=27).
#### 5.1.1 Clustering
Clustering is een vorm van unsupervised learning die data groepeert zonder vooraf bekende labels. Het doel is om structuur te vinden door objecten in clusters te verdelen, met de kernmerken van een goede clustering [28](#page=28):
* **Hoge intra-klasse gelijkenis:** Objecten binnen hetzelfde cluster moeten sterk op elkaar lijken [28](#page=28).
* **Lage inter-klasse gelijkenis:** Objecten in verschillende clusters moeten duidelijk van elkaar verschillen [28](#page=28).
Belangrijke concepten binnen clustering zijn:
* **Afstandsmaten:** Gebruikt om de gelijkenis tussen objecten te bepalen, zoals de Euclidische, Manhattan of Pearson correlation afstand [28](#page=28).
* **Types toewijzing:**
* **Hard clustering:** Elk item behoort tot precies één cluster [28](#page=28).
* **Soft clustering:** Elk item heeft een waarschijnlijkheid om tot bepaalde clusters te behoren [29](#page=29).
* **Overlapping clustering:** Een item kan in meerdere clusters tegelijk zitten [29](#page=29).
Er zijn twee hoofdbenaderingen in clustering:
1. **Hiërarchische clustering:** Bouwt een boomstructuur van clusters (een dendrogram), ofwel van onderaf (agglomerative) of van bovenaf (divisive) [29](#page=29).
2. **Partitionele clustering:** Verdeelt de data direct in een specifiek aantal ($k$) groepen, zoals bij het K-means algoritme [29](#page=29).
De kwaliteit van een clustering is vaak afhankelijk van de toepassing en kan subjectief zijn, omdat er geen eenduidige "juiste" clustering bestaat [29](#page=29).
##### 5.1.1.1 Afstanden en gelijkenissen
Afstandsmaten zijn cruciaal voor clustering om de afstand tussen individuele instanties, een cluster en een instantie, of tussen clusters onderling te bepalen. Veelgebruikte formules voor de afstand tussen twee punten $x$ en $y$ zijn [30](#page=30):
* **Euclidean distance:** De rechtstreekse afstand tussen twee punten.
* **Manhattan distance:** De som van de absolute verschillen tussen de coördinaten ('taxi-afstand').
* **Pearson correlation distance:** Een maatstaf voor de correlatie tussen variabelen.
##### 5.1.1.2 Hiërarchische clustering
Hiërarchische clustering bouwt een hiërarchie van clusters op in de vorm van een dendrogram. De twee benaderingen zijn [30](#page=30):
* **Agglomerative (Bottom-up):** Elk datapunt start als een eigen cluster. Clusters worden stapsgewijs samengevoegd op basis van gelijkenis, tot alles in één groot cluster zit [31](#page=31).
* **Divisive (Top-down):** Begint met één groot cluster en splitst dit herhaaldelijk op in kleinere groepen [31](#page=31).
De afstanden tussen clusters worden berekend met verschillende **linkage** types:
* **Single Link:** De afstand tussen de twee dichtstbijzijnde punten van de clusters [31](#page=31).
* Voordelen: Kan langgerekte clusters identificeren, computationeel efficiënt [31](#page=31).
* Nadelen: Gevoelig voor ruis/uitbijters, kan "chaining" (onterechte verbinding) veroorzaken [31](#page=31).
* **Complete Link:** De afstand tussen de twee verste punten van de clusters [31](#page=31).
* Voordelen: Produceert compacte clusters, minder gevoelig voor ruis [31](#page=31).
* Nadelen: Gevoelig voor uitbijters, kan grote clusters onterecht breken [32](#page=32).
* **Average Link:** De gemiddelde afstand tussen alle paren van punten in de clusters [32](#page=32).
* Voordelen: Goede balans tussen compactheid en het voorkomen van ketenvorming [32](#page=32).
* Nadelen: Computationeel duurder [32](#page=32).
* **Centroid Link:** De afstand tussen de middelpunten (gemiddelden) van de clusters [32](#page=32).
* Voordelen: Werkt goed bij bolvormige clusters, intuïtieve aanpak [32](#page=32).
* Nadelen: Gevoelig voor uitbijters, kan leiden tot niet-intuïtieve splitsingen [32](#page=32).
##### 5.1.1.3 Partitionele clustering algoritmen
Partitionele algoritmen verdelen een dataset van $n$ objecten in $k$ clusters, waarbij een bepaald criterium wordt geoptimaliseerd. Omdat het vinden van de globale optimale oplossing (door alle mogelijke verdelingen te controleren) vaak onmogelijk is, worden heuristische methoden zoals k-means en k-medoids gebruikt [32](#page=32).
De belangrijkste verschillen tussen k-means en k-medoids zijn:
* **K-means:** Elk cluster wordt vertegenwoordigd door het gemiddelde (centroid) van de objecten in dat cluster. Dit centroid hoeft geen bestaand datapunt te zijn [33](#page=33).
* **K-medoids (PAM):** Elk cluster wordt vertegenwoordigd door een medoïde, wat een daadwerkelijk, centraal gelegen object binnen het cluster is [33](#page=33).
Het **K-means Algoritme** volgt deze stappen:
1. **Initialisatie:** Selecteer willekeurig $k$ initiële middelpunten (centroids) [33](#page=33).
2. **Toewijzing:** Wijs elk datapunt toe aan het dichtstbijzijnde middelpunt op basis van de Euclidische afstand [33](#page=33).
3. **Update:** Bereken de middelpunten opnieuw als het gemiddelde van alle datapunten die aan dat cluster zijn toegewezen [33](#page=33).
4. **Iteratie:** Herhaal de toewijzing en update totdat de middelpunten niet meer veranderen of een maximum aantal iteraties is bereikt [33](#page=33).
**Sterktes en zwaktes van K-means:**
* **Sterktes:** Efficiënt, eenvoudig te implementeren, kan herstart worden voor betere lokale optima [33](#page=33).
* **Zwaktes:** Vereist voorafgaande specificatie van $k$, gevoelig voor ruis en uitbijters, kan geen niet-bolvormige clusters vinden [33](#page=33).
Partitionele clustering kenmerkt zich door disjuncte clusters met een platte structuur. Belangrijke vraagstukken zijn het bepalen van het aantal clusters ($k$) en de representatie van die clusters. Een partitionele clustering kan ook gegenereerd worden door een hiërarchische boom op een bepaald niveau door te snijden [34](#page=34).
#### 5.1.2 Clustering toepassingen
Clustering kent diverse toepassingen in verschillende domeinen:
* **Veiligheid en Wetenschap:**
* Cybersecurity: Groeperen van patronen in netwerkverkeer voor detectie van cyberaanvallen [34](#page=34).
* Kankeronderzoek: Clusteren van kankercellen op basis van genexpressie om effectieve behandelingen te bepalen [34](#page=34).
* Seismologie: Clusteren van aardbevings-epicentra langs breuklijnen [34](#page=34).
* Landgebruik: Identificeren van gebieden met vergelijkbaar landgebruik uit aardobservatiedata [34](#page=34).
* **Verzekeringen:** Groeperen van polishouders met een vergelijkbaar (hoog) claimrisico of gemiddeld hoge claimkosten [27](#page=27) [34](#page=34).
### 5.2 Associatieregels
Associatieregels zijn een techniek binnen unsupervised learning om "If-Then"-relaties tussen items te ontdekken die vaak samen voorkomen in transacties [35](#page=35).
**Basisbegrippen:**
* **Transactie:** Een lijst met items die samen voorkomen (bv. een kassabon, een webpagina, een zin) [35](#page=35).
* **Itemset:** Een verzameling van één of meer items. Een $k$-itemset bevat $k$ items [35](#page=35).
* **Co-occurrence:** Regels tonen aan dat items samen voorkomen, maar impliceren geen causaliteit [35](#page=35).
#### 5.2.1 Het Apriori Algoritme
Het Apriori algoritme is een stapsgewijze methode om alle frequente itemsets te vinden (itemsets die vaker voorkomen dan een ingestelde **Support Threshold**) [35](#page=35):
1. Vind alle frequente 1-itemsets door elk item te tellen [35](#page=35).
2. Genereer kandidaat-itemsets door frequente 1-itemsets te combineren tot potentiële 2-itemsets [35](#page=35).
3. Elimineer kandidaat-itemsets die onder de drempelwaarde vallen [35](#page=35).
4. Herhaal door frequente itemsets te combineren tot grotere groepen (bv. 3-itemsets) totdat er geen nieuwe meer zijn [35](#page=35).
**Toepassingen:**
* **Retail:** Market Basket Analysis om producten te identificeren die vaak samen worden gekocht voor promoties of winkelindeling (bv. bier en luiers) [36](#page=36).
* **Sociale Media:** Identificeren van woorden die vaak samen voorkomen in posts (bv. "Hypotheek" en "Recessie") [36](#page=36).
* **Plagiaatdetectie:** Controleren van gedeelde zinnen tussen documenten [36](#page=36).
### 5.3 Recommender Systems
Recommender Systems zijn ontworpen om de beste suggesties voor items (producten, diensten) te geven aan specifieke gebruikers, gebaseerd op een user/item matrix met beoordelingen of interacties [36](#page=36).
**Basisconcepten:**
* **Items:** Duizenden producten, films, nummers, etc. [36](#page=36).
* **Users:** Vaak miljoenen gebruikers [36](#page=36).
* **Feedback:** Kan expliciet zijn (ratings) of impliciet (klikken, aankopen) [36](#page=36).
* **Sparsity:** De user/item matrix is in de praktijk vaak "sparse" (leeg), omdat gebruikers slechts een fractie van alle items beoordelen [36](#page=36).
#### 5.3.1 Typen Recommender Systems
Er zijn twee hoofdvormen van filtering, vaak gecombineerd:
1. **Content-Based Filtering:**
* **Werking:** Adviseert items die lijken op wat de gebruiker eerder leuk vond, door itemkenmerken (genre, trefwoorden) te analyseren en gelijkenis te berekenen met vectoren van items en gebruikersprofielen (bv. via cosine similarity) [36](#page=36).
* Voordeel: Geen grote groep gebruikers nodig [36](#page=36).
* Nadeel: Kan leiden tot een "echo chamber" (te beperkte focus) en heeft moeite met het bieden van variatie [36](#page=36).
2. **Collaborative Filtering:**
* **Werking:** Baseert zich op het gedrag van vergelijkbare gebruikers in plaats van op de inhoud van het item [36](#page=36).
* **User-based CF:** Zoekt gebruikers met vergelijkbare ratingpatronen en raadt items aan die zij leuk vonden [37](#page=37).
* **Item-based CF:** Zoekt naar items die vaak samen door dezelfde mensen gewaardeerd worden [37](#page=37).
* **Matrix Factorization:** Een geavanceerde techniek die "latente (verborgen) eigenschappen" van gebruikers en items leert om scores te voorspellen [37](#page=37).
* **Voordelen:** Vangt complexe, verborgen smaken op; bevordert ontdekking & serendipiteit; vereist geen item-metadata [37](#page=37).
* **Nadelen:** Vereist veel interactiedata; last van de "Cold Start" (nieuwe gebruikers/items); problemen met sparse matrices [37](#page=37).
**Vergelijking: User-based vs. Item-based:**
* **User-based:** Werkt het best bij veel overlappende interacties, maar is rekenkundig duurder omdat gebruikersprofielen sneller veranderen [37](#page=37).
* **Item-based:** Vaak geprefereerd in grote systemen omdat itemrelaties stabieler zijn dan de smaak van gebruikers [37](#page=37).
#### 5.3.2 Matrix Factorization
Matrix Factorization (matrixfactorisatie) is een geavanceerde techniek binnen Collaborative Filtering om een grote, vaak lege user/item matrix te ontbinden in twee kleinere, compacte matrices die verborgen voorkeuren en kenmerken blootleggen [38](#page=38).
* **Het basisconcept (ontbinding):** Een matrix $R$ met gebruikers en items wordt opgedeeld in:
* **User Latent Matrix ($U$):** Bevat vectoren die beschrijven wat een gebruiker leuk vindt (latente kenmerken) [38](#page=38).
* **Item Latent Matrix ($V$):** Bevat vectoren die beschrijven welke eigenschappen een item heeft (latente kenmerken) [38](#page=38).
* **Latente Features:** Dit zijn verborgen kenmerken die het algoritme zelf ontdekt uit de data, zonder expliciete benoeming. Ze kunnen abstract zijn of interpreteerbaar (bv. genre, akoestisch niveau) [38](#page=38).
**Voordelen van Matrix Factorization:**
* **Omgang met Sparsity:** Kan accurate voorspellingen doen zelfs bij zeer lege tabellen [38](#page=38).
* **Ontdekking van patronen:** Vindt complexe verbanden tussen gebruikers die verder gaan dan simpele overeenkomsten [38](#page=38).
* **Efficiëntie:** Comprimeert interacties naar een beperkt aantal factoren, wat opslag en berekening versnelt [38](#page=38).
#### 5.3.3 Cold Start Probleem
Het cold start probleem doet zich voor wanneer er onvoldoende data is om betrouwbare aanbevelingen te doen:
1. **New User Cold Start:** Nieuwe gebruikers hebben nog geen interactiegeschiedenis, waardoor personalisatie onmogelijk is. Vaak wordt gevraagd om direct interesses te kiezen [39](#page=39).
2. **New Item Cold Start:** Nieuwe items hebben nog geen gebruikersinteracties, waardoor ze moeilijk worden aanbevolen door Collaborative Filtering. Content-Based Filtering presteert hier vaak beter [39](#page=39).
3. **System Cold Start:** Een nieuw platform met een beperkte gebruikersgroep en catalogus heeft simpelweg niet genoeg data voor betrouwbare modellen [39](#page=39).
#### 5.3.4 Ethische overwegingen bij Recommender Systems
* **Echo Chambers & Filter Bubbles:** Algoritmes isoleren gebruikers in hun eigen bubbel door content te tonen die ze al leuk vinden, wat kan leiden tot beperkte blootstelling aan diverse standpunten, versterkte vooroordelen, polarisatie en misinformatie [39](#page=39).
* **Popularity Bias:** Algoritmes promoten al populaire content, waardoor nieuwe, niche of minder bekende makers minder ontdekt worden [40](#page=40).
* **Manipulatie & Verkeerde Incentives:** Platforms optimaliseren vaak voor betrokkenheid of advertentie-inkomsten in plaats van het welzijn van de gebruiker, wat gedragsbeïnvloeding en democratische risico's met zich meebrengt [40](#page=40).
* **Data & Eerlijkheid (Fairness):** Grootschalige dataverzameling brengt privacyrisico's met zich mee. Bestaande ongelijkheden in trainingsdata kunnen leiden tot algoritmische bias en onterechte uitkomsten voor bepaalde groepen [40](#page=40).
---
# Model complexiteit, bias-variance trade-off en neurale netwerken
Dit onderwerp verkent de uitdagingen van modelcomplexiteit, de impact van de bias-variance trade-off en de structuur en toepassingen van neurale netwerken.
## 6. Model complexiteit, bias-variance trade-off en neurale netwerken
### 6.1 Beperkingen van eenvoudige modellen
Eenvoudige modellen, zoals lineaire regressie, lopen tegen beperkingen aan wanneer de realiteit complexer is dan de aannames van het model.
#### 6.1.1 De vloek van dimensionaliteit (Curse of Dimensionality)
Naarmate het aantal kenmerken (dimensies) in een dataset toeneemt, ontstaan er specifieke problemen [41](#page=41):
* De dataruimte neemt exponentieel toe, waardoor de data "ijler" wordt [41](#page=41).
* Het concept van "afstand" verliest zijn betekenis, omdat punten in hoog-dimensionale ruimtes op gelijke afstanden van elkaar komen te liggen [41](#page=41).
* Algoritmen die afhankelijk zijn van afstandsberekeningen, zoals k-Nearest Neighbors (KNN), functioneren hierdoor minder goed [41](#page=41).
#### 6.1.2 Lineariteit versus complexiteit
Eenvoudige modellen zijn vaak beperkt in het weergeven van niet-lineaire relaties [41](#page=41).
* Lineaire regressie gaat uit van een lineaire relatie, terwijl de werkelijkheid zelden uit rechte lijnen bestaat [41](#page=41).
* Bij niet-lineaire data vereisen oplossingen zoals 'binning' of handmatige keuzes van functievormen veel menselijke input en voorkennis [41](#page=41).
* Zonder deze aanpassingen missen eenvoudige modellen de flexibiliteit om complexe patronen automatisch te herkennen [41](#page=41).
### 6.2 Naar meer complexe modellen
Om niet-lineariteit aan te pakken en complexere vormen te modelleren, worden technieken zoals polynomiale features en Support Vector Machines (SVMs) gebruikt [41](#page=41).
#### 6.2.1 Polynomiale Features
Het toevoegen van machten van originele kenmerken (bijv. $x^2$ of $x^3$) kan bochten en interacties in data modelleren, waardoor lineaire modellen niet-lineaire relaties kunnen vastleggen. Dit helpt bij het modelleren van U-vormige of S-vormige curven [41](#page=41) [44](#page=44).
#### 6.2.2 Support Vector Machines (SVMs)
SVMs gebruiken de "Kernel Trick" om data naar een hoger-dimensionale ruimte te mappen, waardoor complexe scheidingsvlakken mogelijk worden. Dit stelt SVMs in staat om niet-lineair scheidbare data toch te classificeren door middel van een niet-lineaire grens in de oorspronkelijke ruimte [41](#page=41) [45](#page=45).
#### 6.2.3 Regulering (Regularization)
Meer modelkracht brengt een verhoogd risico op overfitting met zich mee. Regulering pakt dit aan door een straf-term toe te voegen aan de verliesfunctie, waardoor het model minder gevoelig wordt voor ruis [41](#page=41) [42](#page=42) [45](#page=45).
* **LASSO (L1):** Kan coëfficiënten tot exact nul reduceren, wat leidt tot automatische feature selectie. De straf is de absolute waarde van de coëfficiënten [42](#page=42) [45](#page=45).
* **Ridge (L2):** Verkleint coëfficiënten richting nul, maar behoudt alle kenmerken in het model. De straf is het kwadraat van de coëfficiënten [42](#page=42) [45](#page=45).
* **Elastic Net:** Een combinatie van LASSO en Ridge die vaak beter presteert dan de individuele technieken door feature selectie en krimp te combineren [42](#page=42) [45](#page=45).
### 6.3 De bias-variance trade-off
Bij het ontwikkelen van modellen is het essentieel om de juiste balans te vinden tussen bias en variantie om overfitting en underfitting te voorkomen [42](#page=42).
#### 6.3.1 Bias (Vooringenomenheid)
* **Definitie:** De fout die ontstaat door te simpele aannames van een model over een complex probleem [42](#page=42).
* **Kenmerk:** Een hoge bias leidt tot underfitting, waarbij het model de onderliggende patronen in de data niet kan leren [42](#page=42) [43](#page=43).
* **Voorbeeld:** Een lineair model toepassen op data met een duidelijke niet-lineaire trend [42](#page=42).
#### 6.3.2 Variance (Variantie)
* **Definitie:** De fout die ontstaat door de gevoeligheid van een model voor kleine fluctuaties of ruis in de trainingsdata [42](#page=42).
* **Kenmerk:** Een hoge variantie leidt tot overfitting, waarbij het model de ruis in de data leert in plaats van de onderliggende patronen [42](#page=42) [43](#page=43).
* **Voorbeeld:** Een beslissingsboom met onbeperkte diepte die perfect presteert op trainingsdata, maar faalt op nieuwe data [42](#page=42).
#### 6.3.3 Overfitting en Underfitting
* **Underfitting (High Bias):** Het model is te simpel om de data te leren, resulterend in hoge fouten op zowel trainings- als testdata [43](#page=43).
* **Overfitting (High Variance):** Het model is te complex en leert de ruis in de trainingsdata, wat leidt tot een lage fout op trainingsdata maar een hoge fout op testdata, waardoor het slecht generaliseert [43](#page=43).
> **Tip:** Het vinden van de "sweet spot" is cruciaal; naarmate modellen complexer worden, nemen de bias af, maar de variance toe [42](#page=42).
### 6.4 Parametrische versus non-parametrische modellen
#### 6.4.1 Parametrische Modellen
* **Kenmerken:** Gaan uit van een specifieke datavorm en worden gedefinieerd door een vast aantal parameters, ongeacht de hoeveelheid data. Ze zijn data-efficiënt en interpreteerbaar, maar inflexibel en kunnen een hoge bias hebben bij foute initiële aannames [43](#page=43).
* **Voorbeelden:** Lineaire Regressie, Logistische Regressie, Naive Bayes [43](#page=43).
#### 6.4.2 Non-Parametrische Modellen
* **Kenmerken:** Passen hun complexiteit aan op basis van de data, met een variabele complexiteit die kan groeien met de dataset. Ze zijn flexibel en nauwkeurig, maar rekenkundig duurder en lopen een groter risico op overfitting (hoge variantie) [44](#page=44).
* **Voorbeelden:** k-NN, Beslissingsbomen, SVM (met RBF-kernel), Neurale Netwerken [44](#page=44).
### 6.5 Feature Engineering en Regularisatie
#### 6.5.1 Feature Engineering
Het proces waarbij domeinkennis wordt gebruikt om ruwe data te transformeren tot een format dat het probleem beter representeert voor het model. Technieken omvatten het creëren van polynomiale features en interactietermen, waarbij nieuwe kenmerken worden gemaakt door machten van bestaande kenmerken of door variabelen met elkaar te vermenigvuldigen [44](#page=44).
#### 6.5.2 Regularisatie
Voorkomt overfitting door een straf-term toe te voegen aan de verliesfunctie [45](#page=45).
| Techniek | Type straf (Penalty) | Effect op het model |
| :----------- | :-------------------------- | :----------------------------------------------------------------------------------- |
| LASSO (L1) | Absolute waarde van coëfficiënten | Kan coëfficiënten tot exact nul reduceren, wat resulteert in automatische feature selectie. | [45](#page=45).
| Ridge (L2) | Kwadraat van coëfficiënten | Verkleint coëfficiënten richting nul, maar behoudt alle kenmerken in het model. | [45](#page=45).
| Elastic Net | Combinatie van L1 en L2 | Meestal effectiever dan de afzonderlijke technieken door feature selectie en krimp te combineren. | [45](#page=45).
### 6.6 Neurale Netwerken
Neurale netwerken zijn algoritmen geïnspireerd op het menselijk brein, ingezet voor diverse taken zoals classificatie en regressie [48](#page=48).
#### 6.6.1 Componenten van een neuraal netwerk
* **Neurons (nodes):** De fundamentele eenheden [48](#page=48).
* **Lagen (Layers):** Input layer, hidden layers, en output layer [48](#page=48).
* **Weights (Gewichten):** Bepalen de invloed van een input op de output [48](#page=48).
* **Biases:** Extra waarden om voorspellingen te verschuiven [48](#page=48).
#### 6.6.2 Berekening in een neuron
1. **Weighted Sum:** De som van gewichten vermenigvuldigd met inputwaarden, plus de bias ($(\sum w_i x_i) + b$) [48](#page=48).
2. **Activation Function:** Een functie die bepaalt of en hoe een neuron activeert, en non-lineariteit introduceert [48](#page=48).
#### 6.6.3 Activatie-functies
* **ReLU (Rectified Linear Unit):** Gebruikt in hidden layers. Output is de input bij positieve waarden, anders 0 [48](#page=48).
* **Sigmoid:** Gebruikt voor binaire classificatie. Zet input om naar een waarde tussen 0 en 1 [48](#page=48).
* **Softmax:** Gebruikt voor multiclass classificatie. Zet scores om in kansen die samen 1 vormen [48](#page=48).
* **Geen activatie:** Gebruikt voor regressie om continue waarden zonder bereiksbeperking te voorspellen [48](#page=48).
#### 6.6.4 Forward en Backward Propagation
* **Forward Propagation:** Data reist van de input layer door de hidden layers naar de output layer om een voorspelling te doen. De berekende fout wordt vergeleken met de werkelijke output [49](#page=49).
* **Backward Propagation:** De berekende error wordt terug door het netwerk gestuurd. Gradiënten worden berekend voor elk gewicht om de bijdrage aan de fout te bepalen, en gewichten worden aangepast via Gradient Descent om de fout te verkleinen [49](#page=49).
#### 6.6.5 Epochs en batching
De dataset wordt opgedeeld om de rekenkracht te beheren:
* **Batch:** Een subset van de data die door het netwerk gaat voordat parameters worden bijgewerkt [50](#page=50).
* **Epoch:** Eén volledige iteratie over de gehele dataset [50](#page=50).
* **Iteratie:** De uitvoering van één batch [50](#page=50).
#### 6.6.6 Parameters versus Hyperparameters
* **Parameters:** Interne waarden (gewichten, biases) die het model zelfstandig leert tijdens training [50](#page=50).
* **Hyperparameters:** Externe instellingen (learning rate, aantal lagen, batch size, epochs) die vooraf door de mens worden gekozen en het leerproces bepalen [50](#page=50).
#### 6.6.7 Basistypen neurale netwerken
* **Feedforward Neural Networks (FNN):** Eenvoudige netwerken met informatie die in één richting stroomt van input naar output. Geschikt voor eenvoudige, laag-dimensionale problemen, maar kunnen gevoelig zijn voor overfitting [51](#page=51).
* **Convolutional Neural Networks (CNN):** Gespecialiseerd in raster-achtige data (afbeeldingen). Gebruiken convolution layers voor lokale patroonextractie en pooling om dimensionaliteit te verminderen. Uitstekend voor beeld- en videoverwerking [51](#page=51).
* **Recurrent Neural Networks (RNN):** Ontworpen voor sequentiële data (tekst, spraak). Bevatten lussen die informatie over tijd behouden via een hidden state, wat ze effectief maakt voor taken waarbij context cruciaal is. Ze kunnen echter moeite hebben met lange sequenties door het vanishing gradient problem [51](#page=51).
#### 6.6.8 Voordelen en nadelen van neurale netwerken
* **Voordelen:** Modelleren complexe relaties, hoge flexibiliteit, schaalbaarheid, automatische feature extraction (vooral bij CNNs) [52](#page=52).
* **Nadelen:** Vereisen grote hoeveelheden data, computationeel duur, black-box model (minder interpreteerbaar), gevoelig voor overfitting [52](#page=52).
#### 6.6.9 Wanneer neurale netwerken te gebruiken
* Complexe patroonherkenning (afbeeldingen, spraak, tekst) [52](#page=52).
* Grote datasets [52](#page=52).
* Hoog-dimensionale data [52](#page=52).
* Niet-lineaire relaties [52](#page=52).
* Sequentiële of temporele data (met RNNs) [53](#page=53).
* Creatieve taken (genereren van data) [53](#page=53).
#### 6.6.10 Wanneer neurale netwerken NIET te gebruiken
* Kleine datasets [53](#page=53).
* Behoefte aan interpreteerbaarheid [53](#page=53).
* Eenvoudige problemen ("overkill") [53](#page=53).
* Beperkte computationele middelen [53](#page=53).
* Real-time applicaties waar snelle respons vereist is [53](#page=53).
### 6.7 Generatieve modellering
Generatieve modellen richten zich op het begrijpen van de volledige datadistributie om nieuwe, realistische data te kunnen genereren [53](#page=53) [54](#page=54).
#### 6.7.1 Variational Autoencoders (VAE)
Compressen data naar een lagere dimensie (encoder) en reconstrueren deze (decoder), waardoor een "latent space" ontstaat waaruit nieuwe samples gegenereerd kunnen worden [54](#page=54).
#### 6.7.2 Transformers
Gebruiken een attention mechanism om te kijken naar alle woorden in een zin tegelijk en te bepalen welke relevant zijn voor elkaar. Ze verwerken sequenties parallel, wat ze schaalbaar maakt [54](#page=54) [55](#page=55).
#### 6.7.3 Foundation Models (zoals ChatGPT)
Grote generatieve modellen, vaak gebaseerd op de Transformer-architectuur, die verfijnd zijn met menselijke feedback om veiligere en natuurlijkere antwoorden te genereren [54](#page=54).
### 6.8 Taalmodellering (Language Modeling)
Taalmodellering transformeert menselijke taal naar een computer-leesbaar formaat, met behoud van betekenis [55](#page=55).
#### 6.8.1 Van statische naar semantische representaties
* **Bag-of-Words:** Telt simpelweg woorden, negeert context en semantiek [55](#page=55).
* **Word2vec:** Gebruikt neurale netwerken om woorden semantische representaties (embeddings) te geven, waarbij vergelijkbare woorden gelijkaardige waarden krijgen [55](#page=55).
* **Complexe Embeddings:** Moderne modellen gebruiken veel-dimensionale vectoren voor diepere semantische relaties [55](#page=55).
#### 6.8.2 Contextueel begrip met RNNs en Attention
* **RNNs:** Goed voor sequenties, maar hebben moeite met lange afhankelijkheden [55](#page=55).
* **Attention-mechanisme:** Verbetert RNNs door het model te laten focussen op relevante delen van de invoerreeks [55](#page=55).
#### 6.8.3 Transformers en LLMs
Transformer-architectuur (geïntroduceerd in 2017) maakt parallelle verwerking en self-attention mogelijk, wat leidt tot schaalbare modellen zoals Large Language Models (LLMs) [55](#page=55).
* **Encoder (bv. BERT):** Leert taalrepresentaties door woorden te voorspellen (representation learning) [56](#page=56).
* **Decoder (bv. GPT):** Gericht op generatief leren door het volgende token te voorspellen (generative modeling) [56](#page=56).
#### 6.8.4 Representation Learning vs. Generative Learning
* **Representation Learning (Encoder-focus):** Converteert ruwe data naar een compacte, betekenisvolle vorm in een latent space, met behoud van kernkenmerken en negeren van ruis [56](#page=56).
* **Generative Learning (Decoder-focus):** Gebruikt geleerde representaties om nieuwe data te creëren, door te samplen uit de latent space of het volgende element in een reeks te voorspellen [56](#page=56).
#### 6.8.5 Kerncomponenten van een LLM
Een LLM verwerkt tekst van ruwe invoer naar uitvoer via:
1. **Tokenizer:** Splitst invoertekst op in tokens (woorden/subwoorden), die worden omgezet in numerieke embeddings [57](#page=57).
2. **Stack van Transformer Blocks:** Het "brein" van het model, bestaande uit self-attention (contextuele relevantie) en feedforward netwerken (patroonherkenning) [57](#page=57).
3. **Language Modeling (LM) Head:** Vertaalt de uitvoer van transformer-blokken naar een waarschijnlijkheidsverdeling om het volgende token te kiezen [57](#page=57).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Continue numerieke data | Continue numerieke data (of kwantitatieve data) verwijst naar getallen die elke mogelijke waarde kunnen aannemen binnen een bepaald bereik, zoals lengte, afstand of tijd. |
| Discrete numerieke data | Discrete numerieke data zijn gegevens die bestaan uit afzonderlijke, telbare waarden die niet deelbaar zijn in zinvolle kleinere eenheden, zoals het aantal personen of sportuitslagen. |
| Nominale categorische data | Nominale categorische data zijn gegevens die bestaan uit categorieën zonder inherente rangorde of volgorde, zoals land van herkomst, kleur of geslacht. |
| Ordinale categorische data | Ordinale categorische data zijn gegevens die bestaan uit categorieën met een natuurlijke en logische rangorde, maar zonder vaste intervallen tussen de categorieën, zoals lidmaatschapsniveaus of opleidingsniveaus. |
| Gemiddelde (Mean) | Het gemiddelde is de som van alle elementen in een dataset gedeeld door het totaal aantal elementen. |
| Mediaan | De mediaan is de middelste waarde in een reeks getallen die van klein naar groot (of groot naar klein) is gesorteerd, en is minder gevoelig voor uitschieters dan het gemiddelde. |
| Outliers (Uitschieters) | Outliers zijn datapunten die significant verschillen van de rest van de gegevens in een dataset en kunnen veroorzaakt worden door meetfouten of menselijke fouten. |
| Modus (Mode) | De modus is de waarde die het meest frequent voorkomt in een dataset en is de enige centrummaat die toepasbaar is op categorische data. |
| Kwartielen (Q1, Q3) | Q1 (Eerste Kwartiel) is de middelste waarde van de onderste helft van de data (25e percentiel), en Q3 (Derde Kwartiel) is de middelste waarde van de bovenste helft van de data (75e percentiel). |
| InterQuartile Range (IQR) | De IQR is het verschil tussen Q3 en Q1 ($IQR = Q3 - Q1$) en vertegenwoordigt de spreiding van de middelste 50% van de data. |
| Box plot (Snorredoos) | Een box plot is een visuele weergave die de spreiding en verdeling van een dataset weergeeft met behulp van een rechthoek (box), mediaanlijn en snorharen (whiskers). |
| Populatie | De populatie omvat alle datapunten of individuen waar je geïnteresseerd in bent in een onderzoek. |
| Steekproef (Sample) | Een steekproef is een subset of een kleiner deel van de populatie dat wordt onderzocht om kenmerken van de grotere populatie te schatten. |
| Representativiteit | Representativiteit verwijst naar de mate waarin een steekproef een redelijke afspiegeling is van de populatie, wat cruciaal is voor betrouwbare conclusies. |
| Biased sampling (Vertekende steekproeftrekking) | Vertekende steekproeftrekking treedt op wanneer de selectiemethode voor de steekproef ervoor zorgt dat deze niet representatief is voor de populatie. |
| Measures of spread (Spreidingsmaten) | Spreidingsmaten zijn statistische waarden die aangeven hoe verspreid of gevarieerd de datapunten in een dataset zijn, zoals MAD, variantie en standaarddeviatie. |
| Mean Absolute Deviation (MAD) | De MAD is het gemiddelde van de absolute verschillen tussen elk datapunt en het gemiddelde van de dataset. |
| Variantie (Variance) | De variantie is het gemiddelde van de kwadratische afwijkingen van het gemiddelde, waarbij grotere afwijkingen zwaarder worden "bestraft". |
| Standaarddeviatie (Standard Deviation) | De standaarddeviatie is de vierkantswortel van de variantie en is de meest gebruikte spreidingsmaat omdat de waarde in dezelfde eenheid als de oorspronkelijke data staat. |
| Skewness (Scheefheid) | Skewness is een statistische maatstaf die de mate van asymmetrie in een kansverdeling beschrijft, onderscheidend tussen positieve (rechts), negatieve (links) en symmetrische verdelingen. |
| Kurtosis | Kurtosis is een statistische maatstaf die de "tailedness" (de dikte van de staarten) of de scherpte van de piek van een verdeling meet, onderscheidend tussen leptokurtisch (scherpe piek, dikke staarten), platykurtisch (platte piek, dunne staarten) en mesokurtisch (normale verdeling). |
| Correlatie | Correlatie is een statistische maatstaf die de lineaire relatie tussen twee verschillende variabelen beschrijft, uitgedrukt door de correlatiecoëfficiënt (r). |
| Correlatie ≠ Causation | Een belangrijke waarschuwing dat correlatie tussen twee variabelen niet impliceert dat de ene variabele de andere veroorzaakt; er kan een derde factor spelen. |
| Spurious Correlations (Schijincorrelaties) | Schijincorrelaties zijn toevallige verbanden tussen variabelen die geen logische relatie hebben en kunnen ontstaan door een ongeziene factor of simpelweg door toeval in grote datasets. |
| One-hot encoding | One-hot encoding is een techniek om categorische variabelen om te zetten naar een numeriek formaat door voor elke unieke categorie een aparte binaire kolom aan te maken. |
| Missing Completely at Random (MCAR) | MCAR betekent dat de kans dat een waarde ontbreekt volledig willekeurig is en ongerelateerd aan andere data in de set. |
| Missing at Random (MAR) | MAR betekent dat het ontbreken van data gerelateerd is aan andere geobserveerde data, maar niet aan de ontbrekende waarde zelf. |
| Missing Not at Random (MNAR) | MNAR betekent dat de reden waarom data ontbreekt direct gerelateerd is aan de waarde die ontbreekt. |
| Imputeren | Imputeren is het proces van het vervangen van ontbrekende waarden in een dataset door geschatte waarden, zoals het gemiddelde, de mediaan of een voorspelde waarde. |
| Supervised Learning | Supervised learning is een type machine learning waarbij het model leert van gelabelde data om voorspellingen te doen op nieuwe, ongeziene data. |
| Classificatie (Classification) | Classificatie is een supervised learning taak waarbij het doel is om een categorie of label toe te kennen aan een nieuwe observatie, met discrete waarden als output. |
| Regressie (Regression) | Regressie is een supervised learning taak waarbij het doel is om een numerieke waarde of een continu getal te voorspellen, met continue getallen als output. |
| K-Nearest Neighbors (KNN) | KNN is een supervised learning algoritme dat, voor zowel classificatie als regressie, voorspellingen doet op basis van de K meest gelijkende datapunten in de trainingsset. |
| Euclidean distance | Euclidische afstand is een metriek die de "vogelvlucht"-afstand tussen twee punten in een continue numerieke ruimte berekent. |
| Manhattan distance | Manhattan distance berekent de afstand als de som van de absolute verschillen tussen de coördinaten van twee punten, vergelijkbaar met de afstand die een taxi zou afleggen in een rasterstructuur. |
| Hamming distance | Hamming distance meet het aantal posities waarop twee binaire variabelen verschillen. |
| Decision trees (Beslissingsbomen) | Een decision tree is een supervised learning algoritme dat data opdeelt in steeds kleinere subgroepen op basis van specifieke kenmerken om zo tot een voorspelling te komen. |
| Root Node (Wortel) | De root node is het startpunt van een beslissingsboom waar de eerste splitsing plaatsvindt. |
| Internal Nodes (Interne knopen) | Interne knopen zijn tussenliggende stappen in een beslissingsboom waar de data verder wordt gesplitst. |
| Leaf Nodes (Bladeren) | Leaf nodes zijn de eindpunten van een beslissingsboom die het uiteindelijke resultaat bevatten. |
| Entropy | Entropy is een metriek die de mate van wanorde of mix in een groep datapunten meet; een waarde van 0 betekent een volledig pure groep. |
| Information Gain | Information gain meet de afname in entropie na een bepaalde splitsing in een beslissingsboom, waarbij de splitsing met de hoogste gain wordt gekozen. |
| Gini Index | Gini index meet de waarschijnlijkheid dat een willekeurig gekozen item fout geclassificeerd wordt; een waarde van 0 betekent een perfect pure groep. |
| Random Forest | Random Forest is een ensemble learning methode die de voorspellingen van meerdere individuele beslissingsbomen combineert om nauwkeurigere en robuustere resultaten te behalen. |
| Lineaire regressie | Lineaire regressie is een supervised learning algoritme dat een lineaire relatie tussen variabelen probeert te modelleren om een continue waarde te voorspellen. |
| Enkelvoudige lineaire regressie | Enkelvoudige lineaire regressie gebruikt slechts één voorspellende variabele ($X$) om de waarde van $y$ te bepalen, met de formule $y = \beta_0 + \beta_1x$. |
| Meervoudige lineaire regressie | Meervoudige lineaire regressie gebruikt een set van meerdere voorspellende variabelen ($X_1, X_2, ..., X_p$) om $y$ te voorspellen, met de formule $y = \beta_0 + \beta_1x_1 + ... + \beta_px_p + \epsilon$. |
| Coëfficiënten ($\beta$) | Coëfficiënten representeren de helling en geven aan hoe sterk elke variabele de voorspelling beïnvloedt; $\beta_0$ is het snijpunt. |
| Ruis ($\epsilon$) | Ruis staat voor de "error" of "noise" in de data; de afwijking die niet door de variabelen verklaard kan worden. |
| Niet-lineaire Regressie (Polynomial Model) | Een niet-lineair regressiemodel, zoals een polynomial model, buigt de lijn om datapunten beter te volgen, bijvoorbeeld met de formule $y = b_0 + b_1x_1 + b_2x_1^2$. |
| Logistische Regressie | Logistische regressie is een supervised learning algoritme dat de waarschijnlijkheid voorspelt dat een waarneming tot een specifieke (meestal binaire) categorie behoort, resulterend in een S-curve. |
| Sigmoid Functie | De sigmoid-functie (of logistische functie) buigt een lineaire uitkomst om naar een karakteristieke S-vorm, waardoor de waarden tussen 0 en 1 vallen, ideaal voor kansberekeningen. |
| Threshold (Drempelwaarde) | Een drempelwaarde is een ingestelde grens (meestal 0,5) die wordt gebruikt om een definitieve keuze te maken tussen twee klassen op basis van een voorspelde kans. |
| Regularisatie | Regularisatie is een techniek die wordt toegepast om te voorkomen dat een model te complex wordt of te veel vertrouwt op onbelangrijke variabelen door een straf toe te voegen. |
| Lasso Regressie (L1) | Lasso regressie kan onbelangrijke variabelen volledig verwijderen door hun coëfficiënten naar nul te dwingen, wat helpt bij feature selectie. |
| Ridge Regressie (L2) | Ridge regressie maakt de invloed van minder belangrijke variabelen heel klein, maar verwijdert ze niet volledig. |
| Statistical Distributions (Statistische Verdelingen) | Statistische verdelingen zijn weergaven die laten zien hoe datapunten over verschillende waarden verspreid zijn, zoals de normale verdeling, Student-t verdeling of Poisson verdeling. |
| Normale Verdeling (Bell Curve) | De normale verdeling is een symmetrische verdeling waarbij data geclusterd is rond het gemiddelde; 68% van de data ligt binnen één standaarddeviatie. |
| Student-t Verdeling | De student-t verdeling lijkt op de normale verdeling maar heeft dikkere staarten en wordt gebruikt bij kleine steekproeven of onbekende standaarddeviatie. |
| Exponentiële Verdeling | De exponentiële verdeling beschrijft vaak de tijd tussen gebeurtenissen, zoals de levensduur van een product. |
| Uniforme Verdeling | Bij een uniforme verdeling heeft elke mogelijke uitkomst een gelijke kans, zoals bij het gooien van een eerlijke dobbelsteen. |
| Poisson Verdeling | De Poisson verdeling meet het aantal gebeurtenissen in een vast tijdsinterval met een constante gemiddelde snelheid en onafhankelijke gebeurtenissen. |
| Bernoulli Verdeling | De Bernoulli verdeling is de eenvoudigste verdeling voor een enkel experiment met twee mogelijke uitkomsten (binair), zoals muntgooien. |
| Binomiale Verdeling | De binomiale verdeling beschrijft het aantal successen in een vaste reeks van onafhankelijke Bernoulli-experimenten. |
| Statistical Significance (Statistische Significantie) | Statistische significantie geeft aan hoe waarschijnlijk het is dat een gevonden resultaat op toeval berust in plaats van een echt effect. |
| Nulhypothese ($H_0$) | De nulhypothese is het uitgangspunt dat er geen effect of geen verschil is in een test. |
| P-waarde (P-value) | De p-waarde is de waarschijnlijkheid dat de geobserveerde data (of extremer) wordt gevonden als de nulhypothese waar zou zijn; een lage p-waarde (< 0,05) duidt op significantie. |
| Praktische Significantie | Praktische significantie beoordeelt of een statistisch significant effect groot genoeg is om in de echte wereld belangrijk te zijn. |
| Data Science Workflow | De Data Science Workflow is een gestructureerd proces dat data scientists volgen, vaak gemodelleerd naar CRISP-DM, om van ruwe data naar een gevalideerd model te komen. |
| CRISP-DM | CRISP-DM (Cross Industry Standard Process for Data Mining) is een gestructureerd procesmodel voor data mining en data science projecten, bestaande uit Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation en Deployment. |
| Confusion Matrix | Een confusion matrix is een tabel die de werkelijke waarden vergelijkt met de voorspelde waarden van een classificatiemodel, met termen als True Positive (TP), True Negative (TN), False Positive (FP) en False Negative (FN). |
| Accuracy (Nauwkeurigheid) | Accuracy is het percentage van de totale voorspellingen dat correct was, maar minder betrouwbaar bij ongebalanceerde datasets. |
| Precision (Precisie) | Precision meet hoeveel van de positieve voorspellingen werkelijk positief waren en is belangrijk wanneer de kosten van een False Positive hoog zijn. |
| Recall (Sensitivity) | Recall meet hoeveel van de werkelijke positieve gevallen het model heeft gevonden en is cruciaal wanneer de kosten van een False Negative hoog zijn. |
| F1-Score | De F1-score is het harmonisch gemiddelde van Precision en Recall, gebruikt voor een balans tussen beide bij scheve datasets. |
| Specificity | Specificity meet hoe goed een test is in het correct identificeren van mensen die de ziekte niet hebben; het percentage gezonde mensen dat een negatief testresultaat krijgt. |
| Residuals (Fouten) | Residuals zijn de verschillen tussen de werkelijke waarde ($y_i$) en de voorspelde waarde ($\hat{y}_i$) in regressiemodellen. |
| Mean Absolute Error (MAE) | MAE is het gemiddelde van alle absolute fouten in een regressiemodel en geeft de gemiddelde fout in de eenheid van de data aan. |
| Mean Squared Error (MSE) | MSE is het gemiddelde van de gekwadrateerde fouten in een regressiemodel, waarbij grote uitschieters zwaarder worden bestraft. |
| Mean Absolute Percentage Error (MAPE) | MAPE is de gemiddelde fout uitgedrukt als een percentage van de werkelijke waarde. |
| Lift Curve | Een Lift Curve is een evaluatiemethode die meet hoeveel beter een model presteert in het identificeren van de "meest waarschijnlijke kandidaten" vergeleken met een willekeurige selectie. |
| Model Validatie | Modelvalidatie is een cruciale fase in de Data Science Workflow die bepaalt of de output van een model een acceptabele weergave is van de echte wereld en of het goed presteert op nieuwe data. |
| Apparent Validity | Apparent validity verwijst naar de prestaties van een model getest op de eigen trainingset. |
| Internal Validity | Internal validity verwijst naar de prestaties van een model getest op de eigen populatie of validation set. |
| External Validity | External validity verwijst naar de prestaties van een model getest op een andere populatie of test set. |
| Data Splitting | Data splitting is een techniek waarbij de dataset wordt verdeeld in training-, validation- en testsets voor modelbouw en evaluatie. |
| Cross Validation (K-Fold) | Cross-validation is een robuuste validatiemethode waarbij de data herhaaldelijk wordt gesplitst en getraind/getest om overfitting te voorkomen. |
| Leave One Out (LOO) | LOO is een extreme vorm van cross-validation waarbij telkens één datapunt voor validatie wordt gebruikt en de rest voor training. |
| Unsupervised Learning | Unsupervised learning is een type machine learning waarbij het model leert van ongelabelde data om patronen en structuren te ontdekken. |
| Clustering | Clustering is een unsupervised learning techniek waarbij data in groepen (clusters) wordt verdeeld op basis van gelijkenis, zonder vooraf gedefinieerde labels. |
| Datacompressie en Visualisatie | Unsupervised learning technieken zoals PCA en t-SNE worden gebruikt om grote datasets te comprimeren en te visualiseren voor patroonherkenning. |
| Detectie van Afwijkingen (Anomaly Detection) | Anomaly detection is het opsporen van datapunten die significant afwijken van de rest, wat nuttig is in cybersecurity en fraudeopsporing. |
| Association Rules (Associatieregels) | Associatieregels zijn technieken binnen unsupervised learning die "If-Then"-relaties vinden tussen items die vaak samen voorkomen in transacties. |
| Transactie | Een transactie is een lijst met items die samen voorkomen, zoals een aankoop op een kassabon of een bezochte webpagina. |
| Itemset | Een itemset is een verzameling van één of meer items die samen voorkomen. |
| Co-occurrence | Co-occurrence geeft aan dat items samen voorkomen, maar impliceert geen causaliteit. |
| Apriori Algoritme | Het Apriori algoritme is een stapsgewijze aanpak om alle frequente itemsets te vinden die vaker voorkomen dan een ingestelde drempelwaarde (Support Threshold). |
| Recommender Systems | Recommender systems zijn systemen die aanbevelingen doen voor specifieke gebruikers op basis van hun gedrag of voorkeuren en die van vergelijkbare gebruikers. |
| User/item matrix | Een user/item matrix is een tabel waarin gebruikers en items worden weergegeven met hun interacties of beoordelingen, vaak "sparse" (ijdel) in de praktijk. |
| Content-Based Filtering | Content-based filtering beveelt items aan die lijken op wat de gebruiker in het verleden leuk vond, gebaseerd op itemkenmerken. |
| Collaborative Filtering | Collaborative filtering baseert zich op het gedrag van andere, vergelijkbare gebruikers om aanbevelingen te doen. |
| User-based CF | User-based CF zoekt gebruikers met vergelijkbare ratingpatronen en raadt items aan die zij leuk vonden. |
| Item-based CF | Item-based CF zoekt naar items die vaak samen door dezelfde mensen gewaardeerd worden. |
| Matrix Factorization | Matrix factorization is een geavanceerde techniek binnen collaborative filtering om een grote, sparse user/item matrix te ontbinden in kleinere matrices die verborgen voorkeuren en itemkenmerken blootleggen. |
| Latent Features | Latent features zijn verborgen kenmerken die een algoritme zelf ontdekt uit de data, zonder dat ze expliciet zijn benoemd. |
| Cold Start Problem | Het cold start problem treedt op bij recommender systems wanneer er te weinig data is over nieuwe gebruikers of nieuwe items om effectieve aanbevelingen te doen. |
| Echo Chambers & Filter Bubbles | Echo chambers en filter bubbles zijn risico's waarbij algoritmes gebruikers isoleren in hun eigen bubbel van gelijkgestemde meningen, wat blootstelling aan diverse standpunten kan beperken. |
| Popularity Bias | Popularity bias treedt op wanneer algoritmes de neiging hebben om reeds populaire content te promoten, wat het moeilijker maakt voor nieuwe of niche content om ontdekt te worden. |
| Manipulatie & Verkeerde Incentives | Dit verwijst naar het conflict tussen wat goed is voor de gebruiker en wat goed is voor het platform, waarbij platforms content optimaliseren voor betrokkenheid of winst, wat de autonomie van de gebruiker kan onderdrukken. |
| Data & Eerlijkheid (Fairness) | Dit betreft privacyrisico's door grootschalige dataverzameling en mogelijke algoritmische bias die bestaande ongelijkheden in de maatschappij weerspiegelt en versterkt. |
| Curse of Dimensionality (Vloek van Dimensionaliteit) | De vloek van dimensionaliteit treedt op wanneer het aantal kenmerken in een dataset toeneemt, waardoor de data schaarser wordt en afstandsberekeningen minder betekenisvol worden. |
| Lineariteit versus complexiteit | Eenvoudige modellen, zoals lineaire regressie, zijn beperkt in het weergeven van complexe realiteit en vereisen vaak menselijke input om niet-lineaire patronen te modelleren. |
| Polynomiale Features | Polynomiale features voegen machten van originele kenmerken toe (bijv. $x^2$) om bochten en interacties te modelleren. |
| Support Vector Machines (SVMs) | SVMs zijn krachtige machine learning-modellen, primair voor classificatie, die de optimale scheidingslijn (hyperplane) tussen klassen vinden met maximale marge. |
| Kernel Trick | De Kernel Trick stelt SVMs in staat om niet-lineair scheidbare data te classificeren door de data naar een hogere dimensie te mappen waar lineaire scheiding wel mogelijk is. |
| Ensemble Methods | Ensemble methods combineren de voorspellingen van meerdere individuele modellen om de flexibiliteit te behouden en de variantie te verminderen. |
| Bagging (Bootstrap Aggregating) | Bagging vermindert variantie door meerdere variaties van de trainingsdata te maken en modellen parallel te trainen, met Random Forest als voorbeeld. |
| Boosting | Boosting is een sequentiële techniek die zich richt op het verminderen van zowel bias als variantie door modellen te trainen op de fouten van vorige modellen. |
| Stacking | Stacking combineert de sterktes van verschillende soorten modellen door een overkoepelend meta-model te trainen op de resultaten van individuele learners. |
| Gradient Descent | Gradient descent is een optimalisatie-algoritme dat iteratief stappen neemt in de richting van de steilste daling van een verliesfunctie om het minimum te vinden. |
| Loss function (Verliesfunctie) | De verliesfunctie meet de fouten van een model; het doel is om het minimum van deze functie te vinden. |
| Learning Rate (Leersnelheid) | De learning rate bepaalt de grootte van de stappen die worden genomen tijdens gradient descent; te kleine stappen zijn langzaam, te grote stappen kunnen het minimum missen. |
| Neural Networks (Neurale Netwerken) | Neurale netwerken zijn algoritmen geïnspireerd op het menselijk brein, gebruikt voor diverse taken zoals classificatie, regressie en patroonherkenning. |
| Neurons (nodes) | Neurons zijn de fundamentele eenheden van een neuraal netwerk. |
| Layers (Lagen) | Een neuraal netwerk bestaat uit input, hidden en output lagen. |
| Weights (Gewichten) | Weights zijn getallen die aan verbindingen zijn gekoppeld en bepalen de invloed van een input op de output. |
| Biases | Biases zijn extra waarden die worden toegevoegd om voorspellingen te helpen verschuiven. |
| Activation Function (Activatiefunctie) | Activatiefuncties introduceren non-lineariteit, waardoor het netwerk complexe patronen kan leren. |
| ReLU | ReLU (Rectified Linear Unit) is een activatiefunctie die output gelijk is aan input bij positieve waarden, anders 0, veel gebruikt in hidden layers. |
| Sigmoid | Sigmoid is een activatiefunctie die input omzet naar een waarde tussen 0 en 1, gebruikt in binaire classificatie. |
| Softmax | Softmax is een activatiefunctie die scores omzet in kansen die samen 1 vormen, gebruikt in multiclass classificatie. |
| Forward Propagation (Voorwaartse verspreiding) | Forward propagation is het proces waarbij data door het netwerk reist van input naar output om een voorspelling te doen. |
| Backward Propagation (Terugwaartse verspreiding) | Backward propagation is het proces waarbij de berekende fout wordt teruggestuurd door het netwerk om gewichten aan te passen met behulp van gradient descent. |
| Epochs | Een epoch vertegenwoordigt één volledige iteratie over de gehele trainingsdataset. |
| Batch | Een batch is een subset van de data die door het netwerk gaat voordat de parameters worden bijgewerkt. |
| Iteration | Een iteratie is de uitvoering van één batch. |
| Parameters | Parameters zijn de interne waarden die het model zelfstandig leert tijdens het trainingsproces, zoals weights en biases. |
| Hyperparameters | Hyperparameters zijn instellingen die voorafgaand aan de training door de mens worden gekozen, zoals learning rate en netwerkarchitectuur. |
| Feedforward Neural Networks (FNN) | FNN's zijn de eenvoudigste neurale netwerken waarbij informatie in één richting beweegt van input naar output. |
| Convolutional Neural Networks (CNN) | CNN's zijn gespecialiseerd in raster-achtige data, zoals afbeeldingen, en gebruiken convolution layers om lokale patronen te extraheren. |
| Recurrent Neural Networks (RNN) | RNN's zijn ontworpen voor sequentiële data, zoals tekst en tijdreeksen, en bevatten lussen om informatie over tijd te behouden. |
| Black-box model | Een black-box model is een model waarvan de interne werking en beslissingen moeilijk te interpreteren zijn. |
| Generative modeling | Generatieve modellering richt zich op het begrijpen van de volledige datadistributie om nieuwe samples te kunnen genereren die lijken op de originele dataset. |
| Variational Autoencoders (VAE) | VAEs zijn generatieve modellen die data comprimeren naar een latent space en deze vervolgens weer reconstrueren om nieuwe data te genereren. |
| Transformers | Transformers zijn een type neuraal netwerk dat een attention mechanism gebruikt om alle woorden in een zin tegelijk te bekijken en relevante context te bepalen, zeer schaalbaar voor grote datasets. |
| Foundation Models | Foundation models zijn grote, generatieve AI-modellen gebaseerd op de Transformer-architectuur, zoals ChatGPT, die getraind zijn op enorme hoeveelheden data. |
| Language modeling | Language modeling richt zich op het omzetten van menselijke taal naar een formaat dat een computer kan verwerken, met behoud van context en semantiek. |
| Bag-of-Words | Bag-of-words is een vroege methode om zinnen om te zetten in numerieke vectoren door simpelweg woorden te tellen, zonder rekening te houden met context of semantiek. |
| Word2vec | Word2vec is een methode die woorden een semantische representatie geeft door woorden die vaak nabij elkaar staan gelijkaardige numerieke waarden (embeddings) toe te kennen. |
| Attention-mechanisme | Het attention-mechanisme dwingt een model om zich te concentreren op de relevante delen van een invoerreeks, wat helpt bij het begrijpen van context. |
| Encoder | Een encoder is een deel van een neuraal netwerk dat ruwe data omzet naar een compacte, betekenisvolle representatie in een latent space. |
| Decoder | Een decoder is een deel van een neuraal netwerk dat een representatie uit de latent space omzet naar bruikbare data. |
| Representation Learning | Representation learning focust op het omzetten van ruwe data naar een betekenisvolle, compacte vorm in een latent space, waarbij de belangrijkste kenmerken behouden blijven. |
| Generative Learning | Generative learning gebruikt geleerde representaties om nieuwe data-punten te creëren die lijken op de originele dataset. |
| Large Language Models (LLM) | LLMs zijn moderne taalmodellen, gebaseerd op de Transformer-architectuur, die tekst verwerken van ruwe invoer naar gegenereerde uitvoer met behulp van tokenizers, transformer blocks en een language modeling head. |
| Tokenizer | Een tokenizer is de eerste stap in een LLM waarbij invoertekst wordt opgesplitst in tokens (woorden of subwoorden) die vervolgens worden omgezet in numerieke embeddings. |
| Transformer Blocks | Transformer blocks zijn de kerncomponenten van een LLM, bestaande uit self-attention en feedforward neural networks, die de data verwerken om patronen en verbanden te vinden. |
| Language Modeling (LM) Head | De LM Head is de laatste laag van een LLM die de uitvoer van de transformer blocks vertaalt naar een waarschijnlijkheidsverdeling over het vocabulaire om het volgende token te kiezen. |
Cover
samenvatting statistiek (1).pdf
Summary
# Types of research and variables
This section outlines the fundamental types of research designs and the classification of variables crucial for scientific inquiry.
## 1. Types of research and variables
### 1.1 Research designs
Medical and epidemiological research can be broadly categorized into observational and experimental studies [1](#page=1).
#### 1.1.1 Observational research
In observational research, researchers observe participants and collect measurements without actively influencing them. The goal is to identify relationships between different measurements [1](#page=1).
* **Case-control study:** This design compares a group with a specific condition or disease (cases) to a similar group without the condition (controls). The comparison focuses on potential causes, making it inherently retrospective as the causes of a condition are typically in the past [1](#page=1).
* **Cohort study:** A cohort refers to a group of patients being observed. Cohort studies can be classified based on their timeframe [1](#page=1):
* **Retrospective:** Looking back in time [1](#page=1).
* **Transversal/Cross-sectional:** Data collected during the research period [2](#page=2).
* **Prospective:** Looking into the future [1](#page=1).
#### 1.1.2 Experimental research
In experimental research, participants are influenced by an intervention, and the aim is to measure the effect of this intervention. These studies are always prospective cohort studies. Typically, participants are divided into two groups: one receiving the intervention and a control group that does not [1](#page=1).
> **Tip:** Applied statistics involves analyzing data to answer a scientific question. Data are observations where variables are measured. Researchers often use a sample from a target population to make inferences about that population [1](#page=1).
### 1.2 Variables
Variables are characteristics of a population that can vary [1](#page=1).
#### 1.2.1 Outcome variable
The outcome variable is the primary variable the researcher aims to make a statement about. It is also known as the dependent variable, and researchers seek to predict or explain it. Outcome variables are usually continuous or dichotomous [2](#page=2).
#### 1.2.2 Independent variables
Independent variables are all other variables in a study, serving as determinants, explanatory variables, predictors, or covariates [2](#page=2).
#### 1.2.3 Categorical variables
Categorical variables have a limited number of distinct outcomes [2](#page=2).
* **Nominal:** Categories are not ordered. Examples include blood type or occupation [2](#page=2).
* **Ordinal:** Categories are ordered based on a degree or rank. An example is asking about the extent of depressive feelings on a scale from "low" to "high" [2](#page=2).
* **Dichotomous:** Variables with only two possible outcomes [2](#page=2).
* **Dummy coding:** A form of dichotomous variable where categories are coded as 1 or 0, for instance, coding gender [2](#page=2).
#### 1.2.4 Numerical variables
Numerical variables are those that can be used in calculations [2](#page=2).
* **Discrete:** These variables take on whole numbers. An example is the number of times a person visited the doctor in a year [2](#page=2).
* **Continuous:** These variables can theoretically take on an infinite number of values within a range. Examples include weight and height [2](#page=2).
* **Interval scale:** The distance between any two points is the same. Weight in kilograms is an example [2](#page=2).
* **Ratio scale:** These scales have a true, natural zero point, indicating the absence of the measured quantity. For example, 0 kilograms represents the absence of weight, whereas 0 degrees Celsius does not represent the absence of temperature [2](#page=2).
### 1.3 Types of statistics
Statistics are broadly divided into two main types:
* **Descriptive statistics:** This is the initial phase of research, focusing on summarizing data clearly through graphical or numerical representations without exploring relationships between variables. It directly answers the research question [2](#page=2).
* **Explanatory/Inferential statistics:** This second stage involves estimating effects or relationships, testing hypotheses, and assessing the reliability of research findings. It includes formulating research questions and testing hypotheses [2](#page=2).
---
# Descriptive statistics: data representation and summary measures
Descriptive statistics are used to summarize and visualize data through graphical and numerical representations, providing an overview of the dataset without analyzing relationships between variables [2](#page=2) [3](#page=3).
### 2.1 Graphical data representation
Graphical representations help visualize data distribution and patterns [3](#page=3).
* **Bar chart (staafdiagram):** Used for categorical variables [3](#page=3).
* **Clustered/segmented bar chart (geclusterd/gesegmenteerd staafdiagram):** Useful for comparing two categorical variables graphically [3](#page=3).
* **Pie chart (taartdiagram):** Suitable for dichotomous or categorical variables, often used in presentations rather than scientific articles [3](#page=3).
* **Histogram:** Essential for continuous variables, providing insight into the variable's distribution within the dataset. It is the first step when analyzing continuous variables [3](#page=3).
* **Stem-and-leaf plot (tak-en-blad diagram):** Used for continuous variables, particularly with small sample sizes, functioning as a sideways histogram [3](#page=3).
* **Scatter plot (puntenwolk/scatterplot):** Visualizes the relationship between two continuous variables, with one plotted on the x-axis and the other on the y-axis, where each point represents an observation [3](#page=3).
* **Frequency table (frequentietabel):** The initial step for categorical variables, capable of incorporating missing values [3](#page=3).
* **Box-and-whisker plot (box-plot):** Used for continuous variables, displaying a vertical line from minimum to maximum, a box representing the interquartile range with a line for the median, and is a combination of graphical and numerical representation [3](#page=3).
> **Tip:** Histograms are a crucial first step for understanding the distribution of continuous variables [3](#page=3).
### 2.2 Numerical data representation
Numerical representations summarize data using frequencies and central tendency measures [3](#page=3).
#### 2.2.1 Frequency tables
Frequency tables numerically display research data for dichotomous or categorical variables, showing both counts and percentages. The "valid percentage" excludes missing values [3](#page=3).
> **Tip:** Frequency tables are not informative for continuous variables due to the large number of potential values, each occurring infrequently. For continuous variables, summary measures like the average are preferred [3](#page=3).
#### 2.2.2 Central tendency measures (centrummaten)
These measures indicate the typical value in a dataset [3](#page=3).
* **Mode (modus):** The most frequent value in a dataset; it can also be used for categorical variables but is often not very informative [3](#page=3) [4](#page=4).
* **Arithmetic mean (rekenkundig gemiddelde):** Calculated by summing all values and dividing by the total number of values. It is only a good indicator for normally distributed variables. The formula is [3](#page=3) [4](#page=4):
$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$
where $\bar{x}$ is the arithmetic mean [3](#page=3) [4](#page=4).
* **Median (mediaan):** The middle value when all observations are ordered; it is based on percentile points with 50% of results above and 50% below. The difference between the median and the mean depends on the symmetry of the distribution. It is calculated by ordering all observations into percentile points (P50 = middle value) [3](#page=3) [4](#page=4).
* **Geometric mean (geometrisch gemiddelde):** Used for non-normally distributed (right-skewed) variables by taking the natural logarithm of each value. This transformation results in new variables that lose their original units. To return to the original units, the inverse of the logarithm is applied to the calculated geometric mean [4](#page=4).
> **Tip:** After transforming a variable (e.g., with a logarithm) to achieve a normal distribution, always check the histogram to confirm the normality and then derive the central tendency measure from this transformed distribution [4](#page=4).
#### 2.2.3 Dispersion measures (spreidingsmaten)
These measures describe how spread out the results are [3](#page=3).
* **Variance (variantie):** Represents the average of the squared differences from the mean. It is used for normally distributed variables. Values are squared to prevent positive and negative differences from canceling each other out, which would result in a sum of zero. The formula is [3](#page=3) [4](#page=4):
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
where $s^2$ is the variance, $x_i$ are the individual values, $\bar{x}$ is the arithmetic mean, and $n$ is the number of observations [3](#page=3) [4](#page=4).
* **Standard deviation (standaarddeviatie):** The square root of the variance. It represents the average distance of each value from the arithmetic mean and is used for normally distributed variables. The formula is [3](#page=3) [4](#page=4):
$$ s_d = \sqrt{s^2} $$
where $s_d$ is the standard deviation [3](#page=3) [4](#page=4).
* **Range (range):** The difference between the minimum and maximum values in a dataset [3](#page=3).
* **Interquartile range (interkwartiel-range):** Represents the middle 50% of observations, specifically the range between the 25th and 75th percentiles (P25, P75) [3](#page=3).
### 2.3 Normal distribution (normale verdeling)
A normal distribution is characterized by a symmetric spread of variables around the mean, with no outliers, meaning the mean equals the median [4](#page=4).
* Approximately 95% of values in a normal distribution lie within the mean $\pm$ 2 times the standard deviation [4](#page=4).
* To check if a variable is normally distributed, one can verify if 95% of observations fall between the mean and 2 times the standard deviation [4](#page=4).
> **Tip:** A three-step process can help determine if a variable is normally distributed:
> 1. Examine the histogram for symmetry.
> 2. Compare the mean and median (they should be approximately equal).
> 3. Compare the mean and standard deviation (this step is only applicable for continuous variables that can only take positive values) [4](#page=4).
---
# Inferential statistics: hypothesis testing and estimation
Inferential statistics allows us to make generalizations about a population based on data from a sample, quantifying uncertainty through hypothesis testing and confidence intervals [5](#page=5).
### 3.1 Principles of inferential statistics
Inferential statistics aims to answer the question of how generalizable a research result is to the entire target population of patients. This involves making inferences from a sample to the population [5](#page=5).
* **Parameters:** These are characteristics of the entire population, which are generally unknown [5](#page=5).
* **Sample statistics:** These are measurements obtained from a sample, used to estimate population parameters [5](#page=5).
* **Point estimation:** This is a single statistic derived from sample results, serving as an estimate of the population situation [5](#page=5).
To test hypotheses, researchers start with research questions pertaining to a target population [5](#page=5).
* **Null hypothesis ($H_0$):** This hypothesis posits no effect in the target population and is the opposite of what researchers aim to demonstrate. It represents the starting assumption that is tested against the data [5](#page=5).
* **Alternative hypothesis ($H_a$):** This hypothesis is considered if $H_0$ is false. It is what researchers aim to show, and it is accepted only when there is sufficient evidence against $H_0$ [5](#page=5).
Data collected from a sample yield a research result, and inferential statistics addresses how generalizable these results are to the population, accounting for **sampling error**, which is a margin of uncertainty. This uncertainty is quantified through testing and estimation [5](#page=5).
### 3.2 Quantifying uncertainty: hypothesis testing and estimation
#### 3.2.1 Hypothesis testing
Hypothesis testing involves probability calculations to determine the likelihood of obtaining a specific result if the null hypothesis were true. This process helps decide if a difference is statistically significant [5](#page=5).
* **P-value (overschrijdingskans):** This is the probability of observing a test statistic as extreme as, or more extreme than, the one calculated from the sample, assuming the null hypothesis is true. A smaller p-value indicates less compatibility with the null hypothesis [5](#page=5) [6](#page=6) [7](#page=7).
The general steps in hypothesis testing are:
1. Define the null hypothesis ($H_0$) and the alternative hypothesis ($H_a$) [6](#page=6).
2. Collect relevant data from the sample [6](#page=6).
3. Calculate the test statistic and compare it to the null hypothesis. The test statistic quantifies how far the test result deviates from $H_0$; a larger value provides more evidence against $H_0$ [6](#page=6).
4. Compare the test statistic with a known probability distribution to derive a p-value [6](#page=6).
5. Interpret the p-value and the results [6](#page=6).
Results pertaining to the entire population are often represented with Greek letters, such as $\mu$ for the population mean and $\sigma$ for the population standard deviation [6](#page=6).
#### 3.2.2 Probability distributions for continuous variables
Probability distributions are used to interpret test statistics. For continuous variables, these distributions graphically represent the relationship between possible test statistic values and their probabilities [6](#page=6) [7](#page=7).
* The x-axis of the distribution graph shows all possible values of the test statistic, with the null hypothesis typically centered [7](#page=7).
* The p-value is the probability of obtaining the observed result or results even further from the null hypothesis, assuming $H_0$ is true. This corresponds to the area under the curve beyond the calculated test statistic [7](#page=7).
##### 3.2.2.1 Z-distribution (standard normal distribution)
The z-distribution is the standard normal probability distribution used for continuous outcome variables when testing sample means [6](#page=6) [7](#page=7).
* **Test statistic z:** This value indicates the evidence against the null hypothesis; a larger absolute value of z provides more evidence against $H_0$ [7](#page=7).
$$z = \frac{O - E}{\sigma \sqrt{n/}} \quad \text{or} \quad z = \frac{\bar{x} - \mu_0}{\sigma \sqrt{n/}}$$
Where:
* $O$ is the observed value in the sample [7](#page=7).
* $E$ is the expected value under the null hypothesis, often 0 if no effect is anticipated [7](#page=7).
* $\sigma \sqrt{n/}$ represents the uncertainty or standard error of the mean [7](#page=7).
* $\bar{x} - \mu_0$ is the difference between the sample mean and the hypothesized population mean [7](#page=7).
Key characteristics of the standard normal distribution include:
* A mean of 0 and a standard deviation of 1 [7](#page=7).
* An x-axis range from negative infinity to positive infinity [7](#page=7).
* A y-axis representing probability density; the probability of an exact value is 0 [7](#page=7).
* A total area under the curve of 1 or 100% [7](#page=7).
**Significance level ($\alpha$)**: Typically set at 5% (0.05). If the p-value is less than $\alpha$, the null hypothesis can be rejected in favor of the alternative hypothesis, indicating a statistically significant result [7](#page=7).
> **Tip:** A low p-value suggests that the observed research result is unlikely under the null hypothesis, making $H_0$ improbable. However, a non-significant result does not necessarily mean there is no effect; the effect might be too small or the sample size too insufficient to detect it reliably [7](#page=7).
**Errors in Hypothesis Testing**:
* **Type I error (fout van de eerste orde):** Rejecting the null hypothesis when it is actually true. The probability of a type I error is equal to the significance level ($\alpha$), typically 5% [7](#page=7).
* **Type II error (fout van de tweede orde):** Failing to reject the null hypothesis when it is false. The probability of a type II error is denoted by $\beta$. Statistical power, which is $1-\beta$, depends on sample size [8](#page=8).
##### 3.2.2.2 One-sided vs. two-sided testing
* **One-sided testing:** Hypotheses are formulated in a specific direction (e.g., testing for a positive effect) [8](#page=8).
* **Two-sided testing:** Hypotheses are not directional (e.g., testing for any effect, positive or negative). In two-sided testing, the p-value is doubled because the rejection region is split between both tails of the distribution. By default, two-sided testing is generally preferred when there is no prior knowledge to suggest a specific direction of effect [8](#page=8).
#### 3.2.3 Estimation with confidence intervals
Estimation involves quantifying the uncertainty around a sample statistic by calculating a **confidence interval (CI)**. A CI provides a range of plausible values for the population parameter [5](#page=5) [8](#page=8).
* **Confidence level:** For a 5% significance level ($\alpha$), a 95% confidence interval is typically used. This means there is a 95% certainty that the true population value lies within the calculated interval [8](#page=8).
* **95% Confidence Interval Formula:**
$$95\% \text{ CI} = \mu \pm 1.96 \times \left(\frac{\sigma}{\sqrt{n}}\right) \quad \text{or} \quad 95\% \text{ CI} = \bar{x} \pm 1.96 \times \left(\frac{s_d}{\sqrt{n}}\right)$$
Where:
* $\mu$ or $\bar{x}$ is the population mean or sample mean, respectively [8](#page=8).
* $1.96$ is the critical z-value corresponding to a 2-sided 5% p-value. The probability of a standard normal variable falling between -1.96 and 1.96 is 95% [8](#page=8).
* $\sigma/\sqrt{n}$ or $s_d/\sqrt{n}$ is the standard error of the mean, representing the uncertainty [8](#page=8).
* **Point estimate:** This is the observed value from the sample, around which the CI is calculated [8](#page=8).
* Confidence intervals can also be calculated for other confidence levels, such as 90% or 99% [8](#page=8).
> **Comparison of Testing and Estimation:** Hypothesis testing is a qualitative approach that determines if a result is significant or not (an "all or nothing" approach requiring critical interpretation). Estimation is a quantitative approach that provides information about the magnitude of an effect. When a result is not significant, the exact p-value should still be reported. "Borderline significance" is often considered for p-values between 0.05 and 0.10 [8](#page=8).
### 3.3 Sampling error and statistical significance
* **Sampling error:** This is the inherent variability that arises because we are using a sample to represent a population. It leads to uncertainty in our estimates and test results [5](#page=5).
* **Standard error of the mean (SEM):** This quantifies the precision or reliability of the research result. It is influenced by sample size ($n$) and the spread (standard deviation, $sd$) of observations in the sample. A smaller sample size or wider spread leads to greater uncertainty and a larger SEM [6](#page=6).
$$SEM = \frac{sd}{\sqrt{n}}$$
* **Statistical significance:** A result is considered statistically significant if it is unlikely to have occurred by chance alone if the null hypothesis were true. This is typically determined by comparing the p-value to a pre-determined significance level ($\alpha$) [5](#page=5) [7](#page=7).
### 3.4 Central Limit Theorem and T-distribution
#### 3.4.1 Central limit theorem
The Central Limit Theorem (CLT) states that for a sufficiently large sample size, the distribution of sample means will approximate a normal distribution, regardless of the original distribution of the variable in the population. This principle underlies the use of the z-distribution for large samples [8](#page=8).
> **Example:** If you repeatedly draw samples and calculate their means, the distribution of these means will tend towards normality as the sample size increases, even if the original data is skewed [8](#page=8).
#### 3.4.2 T-distribution vs. Z-distribution
The **t-distribution** is a probability distribution similar to the standard normal (z) distribution but is generally wider and its shape depends on the **degrees of freedom (df)**, which are related to the sample size ($df = n-1$) [8](#page=8).
* **Use of t-distribution:** The t-distribution is used when the population standard deviation ($\sigma$) is unknown, which is common in practice. It is particularly useful for small sample sizes [9](#page=9).
* **Relationship to z-distribution:** As the sample size (and thus degrees of freedom) increases, the t-distribution increasingly approximates the z-distribution [9](#page=9).
$$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \quad \text{vs.} \quad t = \frac{\bar{x} - \mu_0}{s_d / \sqrt{n}}$$
Where $s_d$ is the sample standard deviation [9](#page=9).
* **Convention:** It is often recommended to use the t-distribution for hypothesis testing and confidence intervals, regardless of sample size, as it provides a more conservative estimate for smaller samples and becomes virtually identical to the z-distribution for larger samples [9](#page=9).
* **Critical values:** The critical value used in calculations (e.g., 1.96 for a 95% CI with z-distribution) needs to be adjusted for the t-distribution and can be found in t-distribution tables or generated by software. These t-values are typically larger than their z-distribution counterparts because the t-distribution has heavier tails [9](#page=9).
$$95\% \text{ CI} = \bar{x} \pm t_{(1-\alpha/2); (n-1) df} \times \frac{s_d}{\sqrt{n}}$$
### 3.5 Analysis of continuous outcome variables
#### 3.5.1 Comparing two measurements of continuous variables in the same persons
This involves comparing two measurements from the same individuals, known as paired observations within one group. The goal is to quantify the uncertainty in generalizing the findings from the sample to the target population. Sample size and the spread of individual results (captured by the standard error of the mean) are crucial for calculating confidence intervals [9](#page=9).
* **Paired t-test:** This test is used to test the mean difference between repeated measurements in paired data. The "pairing" means individual difference scores are the outcome variables, and they are not independent. Paired t-tests are parametric tests with certain assumptions [9](#page=9).
* **Null Hypothesis ($H_0$):** $\mu_{\Delta} = 0$, meaning there is no difference between the measurements, or the average difference is zero [9](#page=9).
* **Assumption:** The outcome variable (the difference) should be approximately normally distributed. The t-distribution is used to derive the test statistic and 95% confidence interval for the mean difference, and critical values are obtained from t-tables or statistical software [9](#page=9).
---
# Analysis of continuous and dichotomous outcome variables
This section details statistical methods for analyzing continuous and dichotomous outcome variables, covering tests for comparing groups, assessing relationships, and building predictive models.
### 4.1 Comparing two measurements of continuous variables in the same individuals
This involves comparing two measurements from the same individuals, essentially analyzing paired observations within a single group. The primary goal is to quantify the uncertainty in generalizing research findings from the sample to the target population, with sample size and the variability of individual results (reflected in the standard error of the mean) being crucial for calculating confidence intervals [9](#page=9).
#### 4.1.1 Paired t-test
The paired t-test is used to test the mean difference between repeated measurements. In this test, individual difference scores serve as the outcome variables, and these are not independent of each other. As a parametric test, it has specific assumptions, including the normality of the differences. The test utilizes a t-distribution for the test statistic and to construct a 95% confidence interval, seeking an alternative to the 1.96 value from the standard normal distribution [9](#page=9).
* **Null Hypothesis ($H_0$):** $\mu_{\Delta} = 0$, indicating no difference between the measurements or an average difference of zero [9](#page=9).
* **Test Statistic Formula:**
$$t = \frac{\bar{x} - \mu_0}{s_d / \sqrt{n}}$$
where $\bar{x}$ is the mean difference, $\mu_0$ is the hypothesized mean difference $s_d$ is the standard deviation of the differences, and $n$ is the sample size [10](#page=10).
* **Interpretation:** The t-value indicates how the sample mean difference ($\bar{x}$) compares to the null hypothesis ($\mu_0$), considering the uncertainty ($s_d / \sqrt{n}$). The p-value associated with the t-value determines statistical significance (e.g., $p < 0.001$ indicates a highly significant difference). The p-value is typically two-tailed [10](#page=10).
* **Degrees of Freedom ($df$):** $n - 1$ [10](#page=10).
* **Confidence Interval Estimation:**
$$95\% BI = \bar{x} \pm t_{(1-\alpha/2);(n-1) df} \times \frac{s_d}{\sqrt{n}}$$
This interval estimates the population mean difference with 95% confidence [10](#page=10).
* **Tip:** Testing addresses whether a difference is statistically significant, while estimation quantifies the magnitude of the difference [10](#page=10).
#### 4.1.2 One-sample t-test
This test compares the mean of a single group to a known or theoretical standard value ($\mu_0$). It is also a parametric test with the assumption of normality of the data [10](#page=10).
* **Null Hypothesis ($H_0$):** $\mu = \mu_0$ (the group mean equals the standard value) or $\mu_{\Delta} = 0$ (the mean difference equals zero) [10](#page=10).
* **Test and Estimation:** Similar formulas and interpretations as the paired t-test are used, but $\mu_0$ represents the standard value. A significant difference is indicated if 0 is not within the 95% confidence interval of the mean difference [10](#page=10) [11](#page=11).
### 4.2 Continuous variables – two independent groups
This involves comparing the means of two independent groups [11](#page=11).
#### 4.2.1 Independent samples t-test
This test assesses the difference between the means of two independent groups, subject to specific assumptions [11](#page=11).
* **Null Hypothesis ($H_0$):** $\mu_1 = \mu_2$ or $\mu_1 - \mu_2 = 0$ (the means of the two groups are equal) [11](#page=11).
* **Assumptions:** Both outcome variables must be normally distributed, and homoscedasticity (equal variances) is required. Homoscedasticity can be checked using Levene's test or an F-test [11](#page=11).
* **Test Statistic Formula (assuming equal variances):**
$$t = \frac{\bar{x}_1 - \bar{x}_2 - 0}{s_P \times \sqrt{1/n_1 + 1/n_2}}$$
where $s_P$ is the pooled standard deviation calculated as:
$$s_P = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{(n_1-1 + n_2-1)}}$$
$s_1$ and $s_2$ are the standard deviations of group 1 and group 2, respectively [11](#page=11).
* **Degrees of Freedom ($df$):** $(n_1 + n_2) - 2$ [11](#page=11).
* **Confidence Interval Estimation:**
$$95\% BI = (\bar{x}_1 - \bar{x}_2) \pm t_{(1-\alpha/2);(n_1+n_2-2) df} \times s_P \times \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}$$
A significant difference is indicated if 0 is not within the interval [12](#page=12).
* **Levene's test for equality of variances:** This test checks for equal variances between groups. A non-significant result (p > 0.05) indicates equal variances, leading to the use of the upper output in the t-test for equality of means. A significant result requires the use of Welch's adjustment, often automatically performed by statistical software [12](#page=12).
#### 4.2.2 ANOVA (Analysis of Variance)
ANOVA is used to compare means when there are three or more independent groups [12](#page=12).
* **Null Hypothesis ($H_0$):** $\mu_1 = \mu_2 = \mu_3 = \dots$ (all group means are equal in the population) [12](#page=12).
* **Test Statistic:** The F-test, following an F-distribution, is used. The F-statistic is the ratio of between-group variance to within-group variance:
$$F = \frac{\text{between-group variance}}{\text{within-group variance}}$$
* **Assumptions:** All groups must be normally distributed, and homoscedasticity is required [12](#page=12).
* **Interpretation:** A larger F-value indicates greater evidence against the null hypothesis [12](#page=12).
* **Post-hoc tests:** If ANOVA indicates a significant difference, post-hoc tests (like pairwise t-tests) are conducted to identify which specific groups differ. These require corrections for multiple testing to control the Type I error rate, leading to higher p-values compared to uncorrected tests [13](#page=13).
### 4.3 Comparing a skewed continuous variable
When dealing with skewed continuous variables, two approaches are common: transformation or non-parametric tests.
#### 4.3.1 Transformation
For right-skewed data, a natural logarithm transformation can normalize the distribution. Tests (t-tests or ANOVA) are then performed on the transformed data, and the results are back-transformed to the original scale for interpretation. The geometric mean can be calculated from the transformed data [13](#page=13):
$$\text{geometric mean} = e^{\text{mean}(\ln(x_i))}$$
#### 4.3.2 Non-parametric tests
These tests are based on ranks and are less powerful than parametric tests but do not require normality assumptions. They typically provide p-values but not effect size estimates [13](#page=13).
* **Mann-Whitney U test:** Compares two independent groups using ranks [13](#page=13).
* **Null Hypothesis ($H_0$):** $Ranksom_1 = Ranksom_2$ (the distributions are the same) [13](#page=13).
* **Wilcoxon signed-rank test:** Compares paired observations within one group using ranks. It tests if the median difference is zero, implying an equal number of positive and negative changes [13](#page=13).
* **Null Hypothesis ($H_0$):** $Sum \, ranks > 0 = Sum \, ranks < 0$ (median difference = 0) [13](#page=13).
* **Sign test:** Compares one group to a standard value, assessing if the median is equal to a standard value [13](#page=13).
* **Kruskal-Wallis test:** Compares three or more independent groups using ranks [13](#page=13).
* **Null Hypothesis ($H_0$):** $Ranksom_1 = Ranksom_2 = Ranksom_3 = \dots$ (the distributions are the same) [14](#page=14).
#### 4.3.3 Correlation
Correlation quantifies the linear association between two continuous variables [14](#page=14).
* **Pearson Correlation Coefficient ($r$):** Measures the linear association between two normally distributed continuous variables without outliers [14](#page=14).
$$r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}}$$
where $n$ is the sample size, $x_i$ and $y_i$ are individual values, and $\bar{x}$ and $\bar{y}$ are the means. The coefficient ranges from -1 to 1, with values closer to 1 or -1 indicating a stronger linear relationship [14](#page=14).
* **Coefficient of Determination ($r^2$):** Represents the proportion of variance in one variable that is explained by the linear relationship with the other variable. Adjusted $r^2$ accounts for potential overestimation in larger models [14](#page=14).
* **Assumptions:** Two continuous variables, approximate normality, absence of outliers, and a linear relationship [14](#page=14).
* **Spearman's rank correlation coefficient ($\rho$):** A non-parametric alternative to Pearson's r, used for ordinal or skewed continuous variables, or when the relationship is non-linear. It calculates the correlation between the ranks of the variables [15](#page=15).
#### 4.3.4 Linear regression
Linear regression models the relationship between a dependent continuous outcome variable (Y) and one or more independent predictor variables (X) [15](#page=15).
* **Simple Linear Regression:**
$$Y = b_0 + b_1X$$
where $b_0$ is the intercept (expected value of Y when X=0) and $b_1$ is the slope or regression coefficient (expected change in Y for a one-unit increase in X) [15](#page=15).
* **Calculation of Coefficients:**
$$b_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}$$
$$b_0 = \bar{y} - b_1\bar{x}$$
* **Null Hypothesis ($H_0$):** $\beta_1 = 0$ (there is no linear relationship between X and Y in the population) [16](#page=16).
* **Standardized Regression Coefficient (Beta, $\beta$):** Expresses X and Y in standard deviation units, allowing for comparison of predictor strengths in multiple regression. It is equivalent to the Pearson correlation coefficient when there is only one predictor [16](#page=16).
* **Coefficient of Determination ($R^2$):** Similar to $r^2$, it indicates the proportion of variance in Y explained by the model. Adjusted $R^2$ is preferred for multiple regression to avoid overestimation [16](#page=16).
* **Dummy Variables:** Used for categorical or dichotomous predictors. For a dichotomous predictor (e.g., male=1, female=0), $b_0$ represents the expected Y for the reference group (female), and $b_1$ represents the difference in expected Y between the groups. For categorical predictors with $k$ categories, $k-1$ dummy variables are created [16](#page=16).
* **Assumptions:** Independent observations, linear relationship between predictors and outcome (checked visually or by categorizing predictors), normality of residuals, and homoscedasticity of residuals [17](#page=17).
* **Multiple Linear Regression:** Extends simple linear regression to include multiple predictors ($X_1, X_2, \dots, X_k$).
$$y = b_0 + b_1x_1 + b_2x_2 + \dots + b_k x_k$$
This model assesses the independent effect of each predictor while holding others constant (covariates). It shares the same assumptions as simple linear regression [17](#page=17).
#### 4.3.5 Association Models vs. Prediction Models
* **Association Models:** Aim to clarify the relationship with a central determinant by accounting for confounding and effect modification [17](#page=17).
* **Confounding:** A variable that distorts the relationship between the predictor and outcome. A change of approximately 10% in the regression coefficient after adjusting for a potential confounder suggests confounding [18](#page=18).
* **Effect Modification (Interaction):** The effect of the predictor on the outcome differs across levels of another variable. Tested by including an interaction term ($X*C$) in the model. A p-value < 0.10 for the interaction term suggests effect modification. If interaction is present, the main effect needs to be stratified [18](#page=18).
* **Prediction Models:** Aim to predict the outcome variable as accurately as possible using a set of predictors. Procedures like backward or forward selection can be used to build the model [18](#page=18).
### 5. Analysis of dichotomous outcome variables
For dichotomous outcome variables, the distinction between parametric and non-parametric tests is less relevant as these variables are inherently non-parametric [18](#page=18).
#### 5.1 Comparing one group
#### 5.1.1 Comparing two measurements within one group
This involves comparing paired observations, often in cross-over trials with short-term interventions [19](#page=19).
* **McNemar's test:** Tests for a difference in proportions between paired measurements [19](#page=19).
* **Null Hypothesis ($H_0$):** $\pi_{\Delta} = 0$ (proportion of difference is zero) [19](#page=19).
#### 5.1.2 Comparing a measurement with a standard value
* **Z-test for proportion:** Tests the difference between a sample proportion and a standard population proportion [19](#page=19).
* **Null Hypothesis ($H_0$):** $\Pi = \Pi_0$ or $\Pi_{\Delta} = 0$ [19](#page=19).
* **Test Statistic Formula:**
$$z = \frac{p - \pi_0}{SE(p)_{H_0}}$$
where $p$ is the sample proportion, $\pi_0$ is the standard proportion, and $SE(p)_{H_0} = \sqrt{\frac{\pi_0(1-\pi_0)}{n}}$ [19](#page=19).
* **Assumptions:** For the z-distribution, $np$ and $n(1-p)$ should both be greater than 5 [19](#page=19).
* **Confidence Interval Estimation:**
$$95\% BI = P \pm z_{(1 - \alpha/2)} \times SE(p)$$
where $SE(p) = \sqrt{\frac{p(1-P)}{n}}$. The 95% confidence interval for the proportion is calculated, and the standard value ($\pi_0$) is checked for inclusion [19](#page=19).
#### 5.2 Comparing two groups
This involves comparing proportions between two independent groups and assessing the association between two dichotomous variables, typically presented in a 2x2 contingency table [20](#page=20).
* **Chi-squared test ($\chi^2$):** Tests for an association between two dichotomous variables based on observed (O) and expected (E) counts in each cell of the contingency table [20](#page=20).
$$\chi^2 = \sum \frac{(O-E)^2}{E}$$
where $E = (\text{Row Total}) \times (\text{Column Total}) / \text{Grand Total}$ [20](#page=20).
* **Degrees of Freedom ($df$):** $(a-1) \times (b-1)$, where $a$ and $b$ are the number of rows and columns, respectively [20](#page=20).
* **Assumptions:** The expected count (E) in at least 80% of cells should be greater than 5, and all E should be greater than 1. Larger sample sizes improve the approximation [20](#page=20).
* **Fisher's exact test:** Calculates the exact p-value, serving as an alternative to the chi-squared test, especially for small sample sizes [20](#page=20).
* **Continuity correction:** Another alternative for 2x2 tables, improving the approximation of the chi-squared distribution [20](#page=20).
#### 5.2.1 95% Confidence Interval for Risk Difference and Relative Risk
While the chi-squared test indicates overall association, effect measures and their confidence intervals quantify the magnitude of the effect [20](#page=20).
* **Confidence Interval for Difference in Proportions:**
$$95\% BI = P_1 - P_2 \pm z_{(1-\alpha/2)} \times SE(P_1 - P_2)$$
where $SE(P_1 - P_2) = \sqrt{\frac{P_1(1-P_1)}{n_1} + \frac{P_2(1-P_2)}{n_2}}$. Assumptions include $np$ and $n(1-p)$ being greater than 5 in both groups [21](#page=21).
#### 5.3 Comparing more than two groups
This involves comparing proportions across three or more independent groups, typically using an RxK contingency table [21](#page=21).
* **Chi-squared test:** Used to test the overall association between categorical variables in RxK tables. The formula and assumptions are similar to the 2x2 case, but Fisher's exact test and continuity corrections are not applicable for RxK tables [21](#page=21).
* **Trend test:** A linear-by-linear association test can be performed for ordinal variables, with 1 degree of freedom [21](#page=21).
* **Post-hoc analysis:** For an overall significant chi-squared result, categories can be regrouped, split into multiple 2x2 tables, or a logistic regression model can be employed [21](#page=21).
#### 5.4 Odds Ratio as an effect measure in 2x2 tables
The odds ratio (OR) is an effect measure, particularly for case-control or retrospective studies, representing the relative odds of an outcome [21](#page=21).
* **Odds:**
$$Odds = \frac{P(y=1)}{1 - P(y=1)}$$
where $P(y=1)$ is the probability of the outcome [21](#page=21).
* **Odds Ratio Formula:**
$$OR = \frac{a \times d}{b \times c} = \frac{(a/c)}{(b/d)}$$
where $a, b, c, d$ are the cell counts in a 2x2 table. The OR is also commonly used in prospective studies and logistic regression but can overestimate the relative risk [22](#page=22).
#### 5.5 Analyzing relationships with a dichotomous outcome variable and diverse other variables: Logistic Regression Analysis
Logistic regression is used when the outcome variable is dichotomous, transforming it to allow for a linear regression-like analysis [22](#page=22).
* **Logistic Regression with a Dichotomous Determinant:** The natural logarithm of the odds is used:
$$\ln\left(\frac{P(y_{dichotomous})}{1 - P(y_{dichotomous})}\right) = b_0 + b_1x_1 + \dots$$
* **Interpretation of Regression Coefficient:** $\text{EXP}(b_1)$ represents the odds ratio for the predictor. $\text{EXP}(\beta_1) = \frac{odds(y=1, \text{exposed})}{odds(y=1, \text{unexposed})}$. A null hypothesis of $\text{EXP}(\beta_1)=1$ suggests no difference in odds between groups [22](#page=22).
* **Maximum Likelihood:** A method for estimating regression coefficients, aiming to maximize the probability of observing the data given the model parameters. The -2 Log Likelihood statistic is used for model comparison; a lower value indicates a better fit. The Likelihood Ratio Test compares nested models based on the difference in -2 Log Likelihood values, following a chi-squared distribution with degrees of freedom equal to the difference in the number of parameters [22](#page=22) [23](#page=23).
* **Logistic Regression with a Categorical Determinant:** Categorical predictors with more than two categories are typically treated as dummy variables [23](#page=23).
* **Logistic Regression with a Continuous Determinant:** The odds ratio for a one-unit increase in the continuous variable can be exponentiated and adjusted for clinical relevance. The 95% confidence interval for the adjusted OR is calculated by multiplying the standard error by $x$ [23](#page=23).
#### 5.6 Checking for linearity in logistic regression
The assumption of linearity means the odds ratio is constant regardless of the predictor's value. This can be tested by categorizing the continuous predictor and performing a logistic regression with the categorical variable. If a linear trend is observed in the regression coefficients of the categories, the continuous variable can be maintained; otherwise, the categorical analysis is retained [23](#page=23).
#### 5.7 Confounding and Effect Modification in Logistic Regression
These concepts are investigated using stratified analyses or by incorporating interaction terms and covariates into the logistic regression model, similar to linear regression [23](#page=23) [24](#page=24) [25](#page=25).
### 6. Analysis of survival data
Survival analysis focuses on the time until an event occurs, not just whether it occurs. It is typically studied prospectively [23](#page=23).
* **Kaplan-Meier survival curve:** A graphical representation of survival over time, calculating cumulative survival probabilities at different time points [23](#page=23).
* **Log-rank test:** Compares two or more survival curves by comparing observed and expected cases at each time point. The null hypothesis is that the curves overlap. It follows a chi-squared distribution with $df =$ (number of groups - 1) and only provides a p-value [24](#page=24).
* **Cox Regression Analysis:** Relates survival data to determinants. It transforms the outcome to allow for a linear regression-like analysis using the natural logarithm of the hazard [24](#page=24).
$$\ln(\text{hazard}(y)) = \ln[h_{t0}] + b_1x_1 + b_2x_2 + \dots$$
* **Dichotomous Determinant:** $\text{EXP}(B)$ represents the hazard ratio (HR). $H_0: \text{EXP}(B_1) = 1$ indicates no difference in hazard [24](#page=24).
* **Categorical Determinant:** Dummy coding is used to compare groups against a reference category [24](#page=24).
* **Continuous Determinant:** The hazard ratio for a one-unit increase is calculated. Linearity assumption can be tested by categorizing the continuous predictor [24](#page=24).
* **Proportional Hazards Assumption:** The hazard ratio must be constant over time, checked using Kaplan-Meier curves [24](#page=24).
* **Model Comparison:** The -2 Log Likelihood method is used to compare models, with the difference in values following a chi-squared distribution [24](#page=24).
### 7. Multiple regression analysis
This section reiterates multiple regression, focusing on predicting a dichotomous outcome variable using a set of covariates. The principles of association and prediction models, including confounding and effect modification, are applied, similar to linear regression models. The Hosmer-Lemeshow test is a goodness-of-fit test for logistic regression models, aiming for a non-significant p-value to indicate a good fit [25](#page=25).
---
# Advanced statistical concepts and reliability
This section explores advanced statistical techniques for analyzing relationships between variables, modeling outcomes, and assessing the trustworthiness of measurement tools.
### 5.1 Regression models
Regression analysis models the relationship between a dependent variable and one or more independent variables [17](#page=17).
#### 5.1.1 Assumptions of linear regression
For linear regression, several assumptions must be met for the results to be valid [17](#page=17):
* **Independent observations:** Data points should not be paired or clustered (e.g., within a school or class) [17](#page=17).
* **Linear relationship:** For continuous predictors, there must be a linear association with the outcome variable. This can be visually assessed with a scatterplot or by categorizing the predictor and examining trends [17](#page=17).
* **Normality of residuals:** The errors in the model should be normally distributed, which is often true if the outcome variable itself is normally distributed. A histogram of residuals can check this, and log transformations might be used for skewed distributions [17](#page=17).
* **Homoscedasticity:** The variance of the residuals should be constant across all predicted values of the outcome variable. An extra plot (residual plot) can help assess this [17](#page=17).
#### 5.1.2 Simple linear regression with continuous predictors
When analyzing continuous variables, the presence of a linear relationship between the outcome and the predictor is examined. If no linear relationship is found, the continuous variable may be categorized (e.g., into quartiles) and analyzed using dummy variables within a linear regression model [17](#page=17).
#### 5.1.3 Multiple linear regression
Multiple linear regression examines the relationship between multiple independent (predictor) variables ($X$) and a continuous outcome variable ($Y$). The model is represented as:
$$y = b_0 + b_1x_1 + b_2x_2 + \dots + b_k x_k$$
where $X$ values are covariates. This analysis assesses how covariates relate to the outcome variable in combination. It shares the same assumptions as simple linear regression. When measuring independent effects, confounders are held constant [17](#page=17).
#### 5.1.4 Prediction models
Prediction models aim to forecast the dependent variable as accurately as possible using a set of potential determinants [17](#page=17).
* **Backward selection:** This method begins with a comprehensive model including all potential determinants. Variables contributing least (highest p-value, e.g., >0.10) are iteratively removed [18](#page=18).
* **Forward selection:** This approach starts by identifying the single best predictor (lowest p-value) and then sequentially adds other predictors until no new variables improve the model significantly, typically using a p-value threshold (e.g., 0.10) [18](#page=18).
The quality of a prediction model is evaluated by how well it predicts the outcome variable, often indicated by the proportion of variance explained [18](#page=18).
### 5.2 Association models
Association models aim to isolate and clarify the relationship with a central determinant by accounting for other variables [17](#page=17).
#### 5.2.1 Confounding
Confounding occurs when an observed relationship between a predictor ($X$) and an outcome ($Y$) is partially or fully explained by a third variable that is associated with both $X$ and $Y$. It is investigated by comparing regression coefficients before and after adjusting for or including the potential confounding variable in the model. A change of approximately 10% in the regression coefficient is often considered indicative of confounding [17](#page=17) [18](#page=18).
#### 5.2.2 Effect modification (Interaction)
Effect modification, or interaction, means the effect of a predictor ($X$) on an outcome ($Y$) differs across levels of another variable (the effect modifier). This is tested by including an interaction term ($X \ast C$) in the model alongside the main effects. A p-value for the interaction term below 0.10 is often used as a cut-off to detect potential interaction. If interaction is present, the main effect should be analyzed in stratified subgroups. Continuous variables involved in effect modification should be dichotomized (e.g., by median) [18](#page=18).
#### 5.2.3 Building association models
To refine the estimation of the relationship between a continuous variable and a central determinant, association models adjust for confounders and examine effect modification. These models start with the crude (unadjusted) relationship. When stratifying, sample size considerations for subgroups are important. Confounders can be tested individually, simultaneously, or through stepwise selection. When interpreting effect estimates, other determinants in the model are kept constant [18](#page=18).
### 5.3 Logistic regression analysis
Logistic regression is used for dichotomous outcome variables. The relationship between predictors and the log odds of the outcome is modeled [23](#page=23):
$$\ln\left(\frac{P(y_{\text{dichotomous}})}{1 - P(y_{\text{dichotomous}})}\right) = b_0 + b_1x_1 + \dots + b_k x_k$$
This is a statistical model with covariates and partial regression coefficients, allowing for the testing of independent effects while holding confounders constant [25](#page=25).
#### 5.3.1 Categorical determinants in logistic regression
Categorical variables with more than two categories should be analyzed as dummy variables. A significant chi-square indicates a difference between categories, while linearity should be assessed using dummy variables if the chi-square is not significant [23](#page=23).
#### 5.3.2 Continuous determinants in logistic regression
The odds ratio (OR) for a one-unit increase in a continuous variable can be converted to an OR for a specific number of units ($x$) for better interpretation:
$$OR_{x \text{ units}} = \exp[x \times b_1 \text{ unit}]$$
The 95% confidence interval for this adjusted OR is calculated by multiplying the standard error by $x$ or by using the formula $OR_{x \text{ units}} = (OR_{1 \text{ unit}})^x$ [23](#page=23).
#### 5.3.3 Checking for linearity in logistic regression
The assumption of a linear relationship for continuous predictors in logistic regression is checked by categorizing the predictor (e.g., into tertiles or quartiles) and performing a logistic regression with the categorical variable. If linearity is not observed, the analysis with the categorical variable is retained; otherwise, the continuous variable can be used. Trends in regression coefficients of the categorized variable can indicate linearity [23](#page=23).
#### 5.3.4 Confounding and effect modification in logistic regression
Confounding and effect modification are investigated using stratified analyses or logistic regression models. Confounding is identified by comparing regression coefficients before and after adjustment (a change of about 10% is a common cut-off). Effect modification is tested via an interaction term, with a p-value <0.10 often used to detect it. If interaction is present, stratification is necessary. Stepwise adjustment methods can be used to build models, deciding sequentially whether to include potential confounders. Model comparison using the -2 Log Likelihood statistic, following a chi-square distribution with degrees of freedom equal to the difference in parameters, can determine if removing a variable leads to a significant change [23](#page=23) [25](#page=25).
#### 5.3.5 Prediction models in logistic regression
The quality of a multiple logistic regression model is assessed similarly to the proportion of explained variance in linear regression. The Hosmer-Lemeshow test is a goodness-of-fit test that compares predicted versus observed outcomes. A non-significant p-value (indicating the model fits well) is desired [25](#page=25).
### 5.4 Survival analysis
Survival analysis focuses on the time until an event occurs, rather than just whether it occurs. It is typically investigated through prospective cohort studies. Examples include studies of mortality, morbidity, or recovery [23](#page=23).
#### 5.4.1 Kaplan-Meier survival curve
The Kaplan-Meier curve graphically represents survival over time, calculating the probability of survival at each follow-up interval, conditional on surviving up to that point [23](#page=23).
#### 5.4.2 Log-rank test
The log-rank test compares survival curves between two or more groups by comparing observed cases at each time point with expected cases under the null hypothesis of no difference between curves. It follows a chi-square distribution with df = (number of groups – 1). This test provides a p-value but no effect measure [24](#page=24).
#### 5.4.3 Cox regression analysis
Cox regression models the relationship between survival time and predictors. The natural logarithm of the hazard is transformed to allow for a linear regression-like analysis:
$$\ln(\text{hazard}(y)) = \ln[h_{t0}] + b_1x_1 + b_2x_2 + \dots$$
where $y$ is the dichotomous outcome, $\ln[h_{t0}]$ is the baseline hazard, and $b_1$, $b_2$ are regression coefficients for independent variables $x_1$, $x_2$ [24](#page=24).
* **Dichotomous determinant:** The hazard ratio (HR) is calculated as $EXP(B_1)$. An HR > 1 indicates an increased risk. The intercept is not reported as it's a time-dependent function [24](#page=24).
* **Categorical determinant:** Dummy coding is used to compare hazard ratios for different categories against a reference group [24](#page=24).
* **Continuous determinant:** The hazard ratio represents the risk for a one-unit increase in the determinant. Linearity is assumed and can be tested by categorizing the variable and observing the trend in EXP(B) values. Confounding is identified by a 10% change in the regression coefficient after adding a confounder. Effect modification is assessed by examining if variables like sex alter the effect, requiring stratification [24](#page=24).
A critical assumption in Cox regression is **proportional hazards**, meaning the hazard ratio remains constant over time, which can be checked by plotting survival curves [24](#page=24).
### 5.5 Sample size calculations
Sample size calculations estimate the number of participants needed to detect a specific expected effect with a certain statistical power [25](#page=25).
* **Alpha ($\alpha$):** The significance level, typically set at 0.05 for rejecting the null hypothesis [25](#page=25).
* **Statistical power ($1-\beta$):** The probability of correctly rejecting a false null hypothesis, with a minimum of 80% generally recommended [25](#page=25).
* **Effect size and dispersion:** The magnitude of the expected effect and its variability, often estimated from literature or pilot studies. Sample size is calculated using formulas, software, or online tools [25](#page=25).
### 5.6 Advanced considerations in statistical analysis
#### 5.6.1 Assessing normality of continuous variables
Normality of continuous variables can be assessed visually through histograms and QQ-plots, by comparing the mean and median, or by comparing the mean and standard deviation. Formal indicators include skewness and kurtosis (values between -1 and 1 suggest approximate normality). Hypothesis tests like the Kolmogorov-Smirnov and Shapiro-Wilks tests can detect deviations from normality, though they are sensitive to sample size [26](#page=26).
#### 5.6.2 Multicollinearity
Multicollinearity is a problem in regression models where predictor variables are highly correlated, making it difficult to assess their independent effects. It can be checked using Pearson correlations between continuous variables (a cut-off of 0.60 is often used) or chi-square tests for categorical variables. If multicollinearity exists, one of the correlated variables must be removed [26](#page=26).
#### 5.6.3 Other statistical techniques
* **Chi-square test:** Used with $r \times k$ contingency tables to test the overall association between categorical variables [26](#page=26).
* **Two-way ANOVA:** Compares a continuous outcome variable across two categorical variables [26](#page=26).
* **Repeated measures:** Analyzes repeated measurements of a continuous outcome, often using paired t-tests for more than two measurements [26](#page=26).
* **Multilevel analysis:** Used for analyzing clustered data [26](#page=26).
### 5.7 Reliability of measurement instruments
Reliability assesses the consistency and dependability of a measurement tool [26](#page=26).
#### 5.7.1 Kappa statistic
Kappa ($\kappa$) measures agreement for categorical variables. It is calculated as:
$$ \kappa = \frac{\bar{p} - \hat{p}}{1 - \hat{p}} $$
where $\bar{p}$ is the observed proportion of agreement and $\hat{p}$ is the expected proportion of agreement by chance. A kappa value between 0.4 and 0.7 is considered acceptable, while values >0.7 or >0.75 indicate good agreement [26](#page=26) [27](#page=27).
#### 5.7.2 Agreement for continuous variables
The Pearson correlation coefficient or the Intraclass Correlation Coefficient (ICC) measures agreement between continuous variables. The ICC is better suited for assessing test-retest or inter-rater reliability as it accounts for systematic deviations, which Pearson correlation may miss. For instance, a consistent difference of 2 units across all measurements would not be detected by Pearson correlation but would be by ICC [27](#page=27).
#### 5.7.3 Types of reliability
* **Validity:** The agreement with a criterion measure [26](#page=26).
* **Test-retest reliability:** Consistency of results when a measurement is repeated over time [26](#page=26).
* **Inter-rater or intra-rater reliability:** Consistency of measurements made by different raters or the same rater on different occasions [26](#page=26).
---
## Common mistakes to avoid
- Review all topics thoroughly before exams
- Pay attention to formulas and key definitions
- Practice with examples provided in each section
- Don't memorize without understanding the underlying concepts
Glossary
| Term | Definition |
|------|------------|
| Observational research | A type of study where researchers observe subjects and measure variables of interest without assigning treatments or interventions. The relationships between variables are then studied. |
| Experimental research | A type of study where researchers manipulate one or more variables (interventions) and measure their effect on an outcome variable, while controlling for other factors. Participants are actively influenced. |
| Case-control study | A retrospective observational study where individuals with a specific outcome or disease (cases) are compared to individuals without the outcome (controls) to identify potential causes or risk factors. |
| Cohort study | An observational study where a group of individuals (a cohort) is followed over time to observe the incidence of outcomes or diseases, often comparing outcomes between exposed and unexposed groups. |
| Cross-sectional study | An observational study where data are collected at a single point in time from a population or sample, providing a snapshot of prevalence and associations. |
| Outcome variable (dependent variable) | The variable that is measured or observed and is hypothesized to be affected by the independent variable(s). It is the primary focus of the research question. |
| Independent variable (predictor, determinant) | A variable that is manipulated or observed to assess its effect on the outcome variable. It is used to explain or predict changes in the dependent variable. |
| Categorical variable | A variable that can take on a limited, and usually fixed, number of possible values, typically representing distinct categories or groups. |
| Nominal variable | A type of categorical variable where the categories have no intrinsic order or ranking. Examples include blood type or gender. |
| Ordinal variable | A type of categorical variable where the categories have a natural order or ranking, but the intervals between categories are not necessarily equal or quantifiable. |
| Dichotomous variable | A categorical variable with only two possible values, often coded as 0 and 1 (e.g., yes/no, present/absent). |
| Dummy coding | A method of representing a categorical variable with k categories as k-1 binary (0 or 1) dummy variables, allowing their inclusion in regression models. |
| Numerical variable (quantitative variable) | A variable that can be measured and expressed as a number, allowing for arithmetic operations. |
| Discrete variable | A numerical variable that can only take on a finite number of values, typically whole numbers, often resulting from counting (e.g., number of doctor visits). |
| Continuous variable | A numerical variable that can theoretically take on any value within a given range, often resulting from measurement (e.g., weight, height). |
| Interval scale | A scale of measurement where the intervals between values are equal and meaningful, but there is no true zero point (e.g., Celsius temperature). |
| Ratio scale | A scale of measurement where the intervals between values are equal and meaningful, and there is a true, absolute zero point (e.g., height, weight, age). |
| Descriptive statistics | Methods used to summarize and describe the main features of a dataset, including measures of central tendency, dispersion, and frequency distributions, often presented graphically or numerically. |
| Inferential statistics | Methods used to draw conclusions and make generalizations about a population based on sample data, including hypothesis testing and estimation of population parameters. |
| Frequency table | A table that displays the frequency (count) and often the proportion or percentage of observations falling into each category or value of a variable. |
| Bar chart (bar graph) | A graphical representation of categorical data where rectangular bars of equal width represent each category, and the height of the bar is proportional to the frequency or proportion of data in that category. |
| Histogram | A graphical representation of the distribution of numerical data, where bars represent the frequency of data within specified intervals or bins. It is used to visualize the shape of a distribution. |
| Scatterplot | A graphical representation used to display the relationship between two numerical variables. Each point on the plot represents an observation with its values for both variables. |
| Box-and-whisker plot (box plot) | A graphical method for displaying the distribution of numerical data through quartiles. It shows the median, interquartile range, and potential outliers. |
| Mean ($ \bar{x} $) | The arithmetic average of a set of numbers, calculated by summing all values and dividing by the number of values ($ \bar{x} = \frac{\sum x_i}{n} $). |
| Median | The middle value in a dataset when the data are ordered from least to greatest. If there is an even number of observations, it is the average of the two middle values. |
| Mode | The value that appears most frequently in a dataset. It can be used for both numerical and categorical data. |
| Variance ($ s^2 $) | A measure of the dispersion or spread of a dataset, calculated as the average of the squared differences from the mean ($ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} $). |
| Standard deviation ($ sd $ or $ s $) | A measure of the dispersion or spread of a dataset around the mean, calculated as the square root of the variance ($ sd = \sqrt{s^2} $). |
| Range | The difference between the maximum and minimum values in a dataset. |
| Interquartile range (IQR) | The difference between the third quartile (75th percentile) and the first quartile (25th percentile) of a dataset, representing the spread of the middle 50% of the data. |
| Normal distribution | A symmetrical, bell-shaped probability distribution characterized by its mean and standard deviation. Many statistical methods assume data follows a normal distribution. |
| Skewed distribution | A distribution where the data are not symmetrical around the mean. A right-skewed distribution has a long tail to the right (mean > median), and a left-skewed distribution has a long tail to the left (mean < median). |
| Null hypothesis ($ H_0 $) | A statement that there is no significant difference or relationship between variables or groups in a population. It is the hypothesis that researchers aim to disprove. |
| Alternative hypothesis ($ H_a $) | A statement that contradicts the null hypothesis, suggesting that there is a significant difference or relationship between variables or groups. |
| P-value (probability value) | The probability of obtaining observed results (or more extreme results) if the null hypothesis were true. A low p-value (typically < 0.05) indicates evidence against the null hypothesis. |
| Statistical significance | A result that is unlikely to have occurred by random chance alone, typically determined by a p-value falling below a predetermined significance level (alpha). |
| Confidence interval (CI) | A range of values that is likely to contain the true population parameter with a certain degree of confidence (e.g., 95% confidence interval). |
| Standard error of the mean (SEM) | A measure of the variability of sample means around the population mean. It quantifies the precision of the sample mean as an estimate of the population mean ($ SEM = \frac{sd}{\sqrt{n}} $). |
| Test statistic | A value calculated from sample data that measures how far the sample result deviates from the null hypothesis. It is used to determine the p-value. |
| Probability distribution | A mathematical function that describes the probabilities of different possible outcomes for a random variable (e.g., normal distribution, t-distribution, chi-squared distribution). |
| Z-distribution (standard normal distribution) | A normal distribution with a mean of 0 and a standard deviation of 1, used for hypothesis testing and confidence intervals when the population standard deviation is known or the sample size is large. |
| T-distribution | A probability distribution similar to the normal distribution but with heavier tails, used for hypothesis testing and confidence intervals when the population standard deviation is unknown and the sample size is small. It depends on degrees of freedom. |
| Degrees of freedom (df) | A parameter in statistical distributions that reflects the number of independent pieces of information available to estimate a parameter. It often relates to sample size. |
| Paired t-test | A statistical test used to compare the means of two related groups or measurements from the same individuals (e.g., before and after an intervention). |
| One-sample t-test | A statistical test used to compare the mean of a single sample to a known or hypothesized population mean. |
| Independent samples t-test | A statistical test used to compare the means of two independent groups. |
| Homoscedasticity | The assumption that the variances of different groups are approximately equal. This is a condition for some statistical tests, like the independent samples t-test and ANOVA. |
| Levene's test | A statistical test used to assess the equality of variances between two or more groups. |
| ANOVA (Analysis of Variance) | A statistical test used to compare the means of three or more independent groups. It partitions the total variance into variance between groups and variance within groups. |
| F-statistic | The test statistic used in ANOVA, calculated as the ratio of between-group variance to within-group variance. |
| Post-hoc tests | Follow-up statistical tests performed after a significant ANOVA result to determine which specific group means differ from each other. |
| Non-parametric tests | Statistical tests that do not assume the data follows a specific distribution (e.g., normal distribution). They are often used with ordinal data or when assumptions of parametric tests are violated. |
| Mann-Whitney U test | A non-parametric test used to compare two independent groups. It is an alternative to the independent samples t-test. |
| Wilcoxon signed-rank test | A non-parametric test used to compare two related samples or paired observations. It is an alternative to the paired t-test. |
| Sign test | A non-parametric test used to compare the median of a single group to a hypothesized value or to compare paired data. |
| Kruskal-Wallis test | A non-parametric test used to compare three or more independent groups. It is an alternative to ANOVA. |
| Correlation | A statistical measure that describes the strength and direction of the linear relationship between two continuous variables. |
| Pearson correlation coefficient (r) | A measure of the linear association between two continuous variables, ranging from -1 (perfect negative correlation) to +1 (perfect positive correlation), with 0 indicating no linear correlation. |
| Coefficient of determination ($ r^2 $) | The proportion of the variance in the dependent variable that is predictable from the independent variable(s). It indicates the strength of the linear relationship. |
| Spearman's rank correlation coefficient | A non-parametric measure of the strength and direction of the monotonic relationship between two ranked variables. |
| Linear regression | A statistical technique used to model the linear relationship between a dependent variable and one or more independent variables. |
| Simple linear regression | A regression model with one independent variable. |
| Multiple linear regression | A regression model with two or more independent variables. |
| Regression coefficient (slope, b) | In linear regression, the coefficient that indicates the expected change in the dependent variable for a one-unit increase in the independent variable. |
| Intercept (constant, a or $ b_0 $) | In linear regression, the value of the dependent variable when all independent variables are zero. |
| Adjusted R-squared | A modified version of R-squared that adjusts for the number of predictors in the model, providing a more accurate measure of model fit, especially in multiple regression. |
| Dummy variable | A binary variable (0 or 1) used to represent categories of a categorical predictor in regression analysis. |
| Logistic regression | A statistical technique used to model the probability of a dichotomous outcome variable as a function of one or more predictor variables. |
| Odds ratio (OR) | A measure of the strength of association between an exposure and an outcome. It is the ratio of the odds of the outcome occurring in one group to the odds of it occurring in another group. |
| Maximum Likelihood Estimation (MLE) | A method of estimating the parameters of a statistical model by finding the parameter values that maximize the likelihood function, which represents the probability of observing the data given the parameters. |
| -2 Log Likelihood | A measure used in logistic regression to assess the goodness of fit of a model. Lower values indicate a better fit. |
| Likelihood ratio test | A statistical test used to compare the fit of two nested models, typically by comparing their -2 Log Likelihood values. |
| Survival analysis | A set of statistical methods for analyzing the time until an event of interest occurs, such as death, disease recurrence, or recovery. |
| Kaplan-Meier curve | A graphical method for estimating and displaying the survival function from lifetime data. It shows the probability of survival over time. |
| Log-rank test | A statistical test used to compare the survival distributions of two or more groups. It tests the null hypothesis that the survival curves are identical. |
| Cox proportional hazards model (Cox regression) | A semi-parametric statistical model used in survival analysis to investigate the effect of predictor variables on the hazard rate of an event occurring. |
| Hazard ratio (HR) | In Cox regression, the exponentiated regression coefficient ($ exp(B) $), representing the relative risk of the event occurring in one group compared to another, assuming other predictors are constant. |
| Confounding | A bias that occurs when an observed association between an exposure and an outcome is distorted by the presence of a third variable (confounder) that is associated with both the exposure and the outcome. |
| Effect modification (interaction) | A situation where the effect of an exposure on an outcome differs across levels of another variable (the effect modifier). The relationship between the exposure and outcome is not uniform. |
| Stepwise selection | A procedure for building regression models by adding or removing predictor variables based on statistical criteria (e.g., p-values) to find the best-fitting model. |
| Hosmer-Lemeshow test | A goodness-of-fit test for logistic regression models, which assesses whether the observed event rates match the predicted event rates across deciles of risk. |
| Statistical power (1-β) | The probability of correctly rejecting a false null hypothesis. A power of 80% means there is an 80% chance of detecting a true effect if it exists. |
| Skewness | A measure of the asymmetry of a probability distribution. Positive skewness indicates a tail extending to the right, while negative skewness indicates a tail extending to the left. |
| Kurtosis | A measure of the "tailedness" or "peakedness" of a probability distribution. High kurtosis means heavier tails and a sharper peak, while low kurtosis means lighter tails and a flatter peak. |
| QQ-plot (Quantile-Quantile plot) | A graphical tool used to assess whether a dataset follows a particular theoretical distribution, such as the normal distribution. |
| Multicollinearity | A phenomenon in multiple regression where two or more predictor variables are highly linearly related to each other, making it difficult to estimate the independent effect of each predictor. |
| Kappa statistic (Cohen's Kappa) | A measure of inter-rater or inter-observer agreement for categorical items. It accounts for the possibility of agreement occurring by chance. |
| Validity | The extent to which a measurement tool measures what it is intended to measure. |
| Test-retest reliability | The consistency of results when a test or measurement is administered to the same individuals on two or more occasions under similar conditions. |
| Inter-rater reliability | The degree of agreement between two or more independent raters or observers who are evaluating the same phenomenon. |
| Intra-class correlation coefficient (ICC) | A statistical measure used to assess the reliability or consistency of measurements, especially when dealing with continuous data and multiple raters or occasions. |
Cover
Samenvatting statistiek alle 8 colleges .pdf
Summary
# Inleiding tot statistiek en soorten statistiek
Dit onderwerp introduceert statistiek als een kennismethode en verklaart het belang ervan voor empirisch onderzoek, waarbij drie hoofdcategorieën – beschrijvende, inferentiële en verklarende statistiek – worden besproken [1](#page=1).
### 1.1 Wat is statistiek?
Statistiek is een wetenschappelijke discipline die dient als kennismethode om de wereld beter te kennen en te begrijpen. Het wordt met name veelvuldig gebruikt bij empirisch onderzoek [1](#page=1).
### 1.2 Waarom statistiek?
Statistiek is essentieel om beweringen te staven, aangezien beweringen op zichzelf onvoldoende zijn. Empirische data en gegevens zijn nodig om beweringen te onderbouwen. Onderzoeksmethoden zijn gericht op het verzamelen van data volgens de regels van de kunst, terwijl statistiek gericht is op het analyseren van deze data volgens dezelfde regels. Voor empirisch onderzoek dat antwoorden zoekt op een vraagstelling, zijn zowel onderzoeksmethoden als statistiek vereist [1](#page=1).
### 1.3 Drie soorten statistiek
Er worden drie hoofdcategorieën van statistiek onderscheiden: beschrijvende statistiek, inferentiële statistiek en verklarende statistiek [1](#page=1).
#### 1.3.1 Beschrijvende statistiek
Beschrijvende statistiek heeft tot doel de wereld in cijfers weer te geven. Cijfers tonen precieze hoeveelheden. Deze statistiek herleidt grote hoeveelheden gegevens tot samenvattende maten, zoals het gemiddelde. Grafische technieken worden hierbij vaak ingezet om de gegevens te ordenen en te synthetiseren [1](#page=1).
> **Tip:** Beschrijvende statistiek helpt om een complex geheel aan data behapbaar te maken door middel van samenvattingen en visualisaties.
#### 1.3.2 Inferentiële statistiek
Inferentiële statistiek is een methode om met een beperkt aantal gegevens uitspraken te doen over een breder geheel, een volledige populatie. Dit proces staat bekend als extrapolatie. Het maakt het mogelijk om uitspraken te doen over de volledige bevolking op basis van een toevalsstreekproef uit die bevolking, zoals bij de veiligheidsmonitor. Belangrijke aspecten zijn de veralgemeenbaarheid van steekproefresultaten en het maken van voorspellingen op basis van een steekproef [2](#page=2).
> **Example:** Stel dat uit een steekproef van 1000 Nederlanders blijkt dat 70% tevreden is met het openbaar vervoer. Inferentiële statistiek kan worden gebruikt om te schatten hoeveel procent van *alle* Nederlanders tevreden is, met een bepaalde mate van zekerheid [2](#page=2).
#### 1.3.3 Verklarende statistiek
Verklarende statistiek richt zich op het verklaren van verschillen en samenhangen. Regressietechnieken, zoals bivariate regressie, worden hiervoor toegepast [2](#page=2).
### 1.4 Misleidende statistiek
Het is mogelijk dat uitkomsten van onderzoek gemanipuleerd worden gedurende verschillende fasen, namelijk bij het verzamelen van gegevens, de presentatie van uitkomsten, en het omschrijven van conclusies [2](#page=2).
> **Tip:** Wees kritisch bij het interpreteren van statistische resultaten en let op mogelijke manipulaties in de presentatie of interpretatie [2](#page=2).
### 1.5 Variabelen verkennen en visualiseren in sociale wetenschappen
Sociale wetenschappers streven ernaar kennis te genereren over de sociale werkelijkheid. Deze kennis wordt verkregen door middel van sociaalwetenschappelijk onderzoek en dataverzameling. Om onderzoeksresultaten op een overzichtelijke en korte manier weer te geven, worden vaak getallen, tabellen en grafieken gebruikt. Het samenvattend beschrijven van de kenmerken van een groep onderzoekseenheden, de onderzoekspopulatie, is hierbij cruciaal [2](#page=2).
---
# Variabelen, meetniveaus en visualisatie
Dit deel van de studiehandleiding behandelt de fundamentele concepten van onderzoekseenheden en variabelen, de verschillende meetniveaus die de keuze van statistische analyses bepalen, en de visualisatie van gegevens door middel van frequentieverdelingen en grafische voorstellingen.
### 2.1 Kernbegrippen en terminologie
* **Onderzoekseenheid:** Een element uit de te onderzoeken populatie, bijvoorbeeld een schaap in een populatie schapen [3](#page=3).
* **Populatie:** Alle eenheden van een welomschreven groep die je wilt onderzoeken. De omvang en het type populatie kunnen sterk variëren en moeten duidelijk omschreven zijn [3](#page=3).
* **Variabele:** Een kenmerk van onderzoekseenheden waarin onderzoekers geïnteresseerd zijn. Variabelen kunnen numerieke waarden hebben (zoals leeftijd) of niet-numerieke waarden (zoals geslacht) [3](#page=3).
* **Datamatrix/Dataset:** Een tabel waarin onderzoekseenheden in de rijen en variabelen in de kolommen staan. De waarden bevinden zich in de cellen [3](#page=3).
* **Steekproef:** Een deel van de populatie dat wordt onderzocht, vaak omdat het onmogelijk is de volledige populatie te onderzoeken [3](#page=3).
* **Parameters:** Kengetallen die de verdeling van een kenmerk in een populatie weergeven [3](#page=3).
* **Steekproefstatistieken/Schatter:** Statistische kengetallen van een steekproef die als schatting voor populatieparameters dienen, zoals het gemiddelde [3](#page=3).
* **Statistische reeks:** Een reeks waarnemingen, bijvoorbeeld kijkgedrag van verschillende personen [3](#page=3).
* **Tijdsreeks:** Een reeks waarnemingen over tijd, waarbij het moment van waarneming cruciaal is voor interpretatie, zoals de evolutie van Facebookgebruik door de tijd [3](#page=3).
* **Dimensie van een reeks:** Het aantal variabelen dat gelijktijdig wordt waargenomen, wat unidimensionaal, tweedimensionaal of multidimensionaal kan zijn [3](#page=3).
**Criteria voor een representatieve steekproef:**
* De steekproef moet dezelfde karakteristieken hebben als de populatie die zij vertegenwoordigt (representativiteit) [3](#page=3).
* Voor veel statistische technieken is een eenvoudige aselecte toevalssteekproef vereist, waarbij elke onderzoekseenheid een gelijke kans heeft om geselecteerd te worden [3](#page=3).
**Systematische steekproeffouten:**
* **Selectiebias:** De manier van selecteren van respondenten leidt tot een vertekend beeld [4](#page=4).
* **Non-respons bias:** Deelnemers die weigeren deel te nemen, verschillen systematisch van de respondenten [4](#page=4).
* **Item non-respons bias:** Respondent heeft op specifieke vragen geen antwoord gegeven [4](#page=4).
### 2.2 Variabelen en meetniveaus
* **Operationaliseren:** Het meetbaar maken van variabelen door middel van een of meerdere vragen. Dit is cruciaal voor het onderzoek en wordt vaak gebaseerd op eerder onderzoek of theorie [4](#page=4).
**Classificatie van variabelen:**
* **Kwalitatief (categorisch):** Variabelen waarvan de waarden categorieën vertegenwoordigen zonder verdere wiskundige betekenis [4](#page=4).
* **Kwantitatief (metrisch):** Variabelen waarvan de waarden een wiskundige betekenis hebben [4](#page=4).
**Vier meetniveaus (meetschalen):**
De manier waarop een variabele wordt gemeten, bepaalt het meetniveau en daarmee welke statistische analyses mogelijk zijn [5](#page=5).
1. **Nominaal meetniveau:**
* Kenmerk: Classificatie (indeling in groepen) [5](#page=5).
* Numerieke waarden dienen enkel voor naamgeving en hebben geen wiskundige waarde [5](#page=5).
* Voorbeelden: Migratie-achtergrond, religieuze strekking, woonplaats, politieke voorkeur, geslacht [5](#page=5).
2. **Ordinaal meetniveau:**
* Kenmerken: Classificatie plus rangordening [5](#page=5).
* De ordenbaarheid van waarden weerspiegelt een bestaande ordening van het kenmerk [5](#page=5).
* De volgorde is duidelijk, maar de intervallen tussen de waarden zijn niet noodzakelijk even groot of wiskundig interpreteerbaar [5](#page=5).
* Voorbeelden: Opleidingsniveau, veelgebruikte 5-puntenschalen (bv. eens, neutraal, oneens) [5](#page=5).
3. **Interval meetniveau:**
* Kenmerken: Classificatie, rangorde plus een meeteenheid [5](#page=5).
* Gelijke verschillen tussen waarden weerspiegelen gelijke verschillen in intensiteit van het kenmerk [5](#page=5).
* Toepasbaar op kwantitatieve variabelen [5](#page=5).
* Het nulpunt is arbitrair en duidt niet op de afwezigheid van het kenmerk [5](#page=5).
* Verschillen tussen waarden zijn berekenbaar en betekenisvol (bv. 20 jaar verschil tussen 1970 en 1990) [5](#page=5).
* Verhoudingen zijn niet betekenisvol (bv. 1990/1970 heeft geen duidelijke interpretatie) [5](#page=5).
* Voorbeelden: Temperatuur in Celsius, geboortejaar [5](#page=5).
4. **Ratio meetniveau:**
* Kenmerken: Classificatie, rangorde, meeteenheid plus een absoluut nulpunt [6](#page=6).
* Een absoluut nulpunt betekent de volledige afwezigheid van het gemeten kenmerk [6](#page=6).
* Negatieve waarden komen niet voor bij ratio variabelen [6](#page=6).
* Zowel verschillen als verhoudingen tussen waarden zijn betekenisvol [6](#page=6).
* Voorbeelden: Lengte, gewicht, aantal kinderen [6](#page=6).
* Verschil: Iemand met 4 kinderen heeft 2 kinderen meer dan iemand met 2 kinderen [6](#page=6).
* Verhouding: Iemand met 4 kinderen heeft dubbel zoveel kinderen als iemand met 2 kinderen [6](#page=6).
**Voordelen van kwantitatieve variabelen:**
* Eenduidiger dan kwalitatieve waarden [6](#page=6).
* Gemakkelijker te verwerken en bieden meer analysemogelijkheden [6](#page=6).
**Kwantitatieve variabelen: discreet en continu:**
* **Discreet:** Variabelen die enkel gehele getallen kunnen aannemen, vaak het resultaat van een telling of classificatie. Bijvoorbeeld het aantal auto's per gezin [6](#page=6).
* **Continu:** Variabelen die alle mogelijke waarden binnen een bepaald bereik kunnen aannemen. Bijvoorbeeld lichaamslengte of snelheid [6](#page=6).
**Tip:** Het bepalen van het meetniveau van een variabele is cruciaal. Sommige variabelen hebben een inherent meetniveau (bv. geslacht), terwijl voor andere het meetniveau afhangt van de operationalisatie. Dit bepaalt welke statistische technieken toegepast kunnen worden. Bewerkingen die toegelaten zijn voor een bepaald meetniveau mogen worden toegepast op hogere meetniveaus, maar niet op lagere [6](#page=6).
### 2.3 Frequentieverdelingen en grafische voorstellingen
Elementaire technieken omvatten het weergeven van frequenties in tabellen, grafische methodes en samenvattende numerieke getallen [7](#page=7).
* **Frequentieverdeling:** Geeft voor elke waarde of categorie van een variabele aan hoe vaak deze voorkomt (in absolute of relatieve aantallen) [7](#page=7).
* **Frequentietabel:** Een tabel die de waargenomen frequenties weergeeft [7](#page=7).
* Absolute frequentie ($F_i$): Het aantal keren dat een specifieke waarde ($x_i$) werd waargenomen. De som van de absolute frequenties is gelijk aan de steekproefomvang ($n$) [7](#page=7).
**Functies van een frequentietabel:**
* Kwaliteitscontrole van gegevens [7](#page=7).
* Basis voor verdere analyses [7](#page=7).
* Grondslag voor grafische voorstellingen [7](#page=7).
**Grafische voorstellingen:**
Visualiseren de frequentieverdeling en zijn essentieel voor bevattelijke rapportering, leesbaarheid en duidelijkheid. Ze helpen ook bij het opsporen van uitschieters en anomalieën tijdens de data-exploratie [7](#page=7).
#### 2.3.1 Grafieken voor nominale en ordinale schalen
**Bij nominale schalen:**
* **Staafdiagram:**
* Elke waarde wordt gerepresenteerd door een rechthoek waarvan de hoogte evenredig is met de frequentie [8](#page=8).
* Rechthoeken zijn even breed en worden best gescheiden [8](#page=8).
* De volgorde van de staven is willekeurig, maar alfabetische ordening kan de leesbaarheid bevorderen [8](#page=8).
* Duidelijke titels en labels zijn belangrijk [8](#page=8).
* Horizontale staafdiagrammen kunnen handig zijn bij veel categorieën [8](#page=8).
* **Cirkeldiagram (taartdiagram):**
* Elke waarde wordt voorgesteld door een cirkelsector waarvan de oppervlakte evenredig is met de frequentie [8](#page=8).
* Benadrukt de verhouding van elke groep tot het geheel [8](#page=8).
* Vereist dat alle categorieën van de populatie zijn opgenomen [8](#page=8).
* **Pictogram:**
* Gebruikt symbolen waarvan de grootte of het aantal evenredig is met de frequentie [8](#page=8).
* Vaak gebruikt om statistieken aantrekkelijker te maken, maar kan de leesbaarheid verminderen [8](#page=8).
**Bij ordinale schalen:**
Naast staafdiagrammen, cirkeldiagrammen en pictogrammen (zoals bij nominale schalen) zijn deze geschikt:
* **Cumulatieve frequentiefunctie (cumulatieve frequentiegrafiek):**
* Grafische weergave van de absolute of relatieve cumulatieve frequenties [9](#page=9).
* De cumulatieve frequentie voor een waarde is de som van de frequenties van die waarde en alle voorgaande waarden [11](#page=11).
* Is een trapfunctie bij ordinale variabelen. Hoge sprongen wijzen op hoge frequenties [9](#page=9).
* Zinvol om te berekenen vanaf ordinaal meetniveau [11](#page=11).
**Opmerkingen bij nominale en ordinale schalen:**
* Getallen kunnen gebruikt worden om nominale of ordinale variabelen te representeren (bv. Vlaanderen = 1, Wallonië = 2) [9](#page=9).
* Bij ordinale variabelen kan een getal een ordeningsbetekenis krijgen (bv. 1 = zeer onaangenaam, 5 = zeer aangenaam) [9](#page=9).
* Dezelfde gegevens kunnen op verschillende meetniveaus worden weergegeven (bv. inkomensgegevens als interval/ratio of als ordinaal) [9](#page=9).
#### 2.3.2 Grafieken voor interval- en ratio schalen
Het is belangrijk om onderscheid te maken tussen niet in klassen gegroepeerde en in klassen gegroepeerde gegevens.
**Niet in klassen gegroepeerde gegevens (interval en ratio):**
* De x-as (abcis) heeft een meeteenheid, en verschillen tussen waarden zijn betekenisvol [9](#page=9).
* **Staafdiagram:** De balken worden op de x-as op de juiste afstand geplaatst, hoogte is evenredig met frequentie [10](#page=10).
* **Histogram:**
* Benadrukt continuïteit door de aangrenzende balken [10](#page=10).
* De oppervlakte van de balken is evenredig met de absolute of relatieve frequentie in het interval [10](#page=10).
* **Frequentiepolygoon (lijndiagram):**
* De toppen van de staafjes in een staafdiagram of histogram worden rechtlijnig verbonden [10](#page=10).
* Oppervlakten onder de functie krijgen betekenis [10](#page=10).
* **Cumulatieve frequentiefunctie:**
* Voor discrete variabelen is dit een trapfunctie [10](#page=10).
* Voor continue gegevens kan deze worden weergegeven als een vloeiende curve [11](#page=11).
**In klassen gegroepeerde gegevens (interval en ratio):**
* Wordt gebruikt wanneer het aantal waargenomen waarden te groot is voor een overzichtelijke presentatie [10](#page=10).
* **Klassengrenzen:** Moeten exhaustief (elke waarneming kan aan een klasse worden toegewezen) en wederzijds exclusief (geen overlappende klassen) zijn [10](#page=10).
* **Klassengroepering:** Te veel klassen leiden tot onoverzichtelijkheid, te weinig tot informatieverlies [10](#page=10).
* **Grafische weergave van klassen:** Kan gebeuren via het klassenmidden, het gemiddelde van de exacte klassengrenzen [10](#page=10).
**Specifieke grafieken voor gegroepeerde gegevens:**
* **Histogram:**
* Intervallen worden bepaald door de klassen [11](#page=11).
* De oppervlakte van de rechthoeken (klassen van verschillende lengte) is recht evenredig met de frequentie [11](#page=11).
* De vorm kan symmetrisch of scheef zijn (links- of rechts-scheef) [11](#page=11).
* **Populatiepiramide:** In essentie een histogram voor frequentieverdelingen, vaak gebruikt voor leeftijd en geslacht [11](#page=11).
* **Frequentieveelhoek:** De klassenmiddens op de hoogte van de toppen van de rechthoeken in het histogram worden rechtlijnig verbonden [11](#page=11).
* **Diagram cumulatieve frequentie:** Gaat uit van de hypothese dat waarnemingen homogeen verdeeld zijn binnen elke klasse [11](#page=11).
**Frequentieverdelingen op ordinale schalen:**
* De frequentietabel wordt opgesteld zoals bij nominale variabelen, maar de volgorde van de waarden is gebaseerd op de ordening van de variabele [11](#page=11).
* **Cumulatieve frequenties:** Vanaf ordinaal niveau is het zinvol om cumulatieve frequenties te berekenen, zowel absoluut ($K(x_i)$) als relatief ($k(x_i)$) [11](#page=11).
---
# Univariate statistische maten
Hier is een gedetailleerde studiehandleiding over "Univariate statistische maten".
## 3. Univariate statistische maten
Univariate statistische maten bieden een wiskundige samenvatting van de geobserveerde frequentieverdeling van gegevens, waarbij ze kengetallen gebruiken om de ligging, spreiding en vorm van de data te beschrijven [13](#page=13).
### 3.1. Maten van ligging of positie
Maten van ligging (ook wel positie- of centrummaten genoemd) geven de centrale tendens van een dataset weer [14](#page=14).
#### 3.1.1. Centrummaten
Centrummaten beschrijven het "midden" van een dataset [14](#page=14).
* **Modus ($X_0$)**: De modus is de waargenomen waarde met de hoogste frequentie. Bij gegroepeerde gegevens is de modus het klassenmidden van de klasse met de hoogste frequentie [14](#page=14).
* **Voordelen**: Makkelijk te bepalen, bruikbaar voor alle meetschalen (vanaf nominaal) [14](#page=14).
* **Nadelen**: Niet noodzakelijk uniek, houdt geen rekening met andere waarden, moeilijk mathematisch te hanteren [14](#page=14).
* **Mediaan**: De mediaan is de waarde die alle waarnemingen in twee gelijke delen verdeelt, zodat evenveel waarnemingen kleiner of gelijk aan de mediaan zijn als groter of gelijk. Vereist minstens een ordinale meetschaal. Bij een even aantal waarnemingen wordt de mediaan berekend als het gemiddelde van de twee middelste waarden (lineaire interpolatie) [14](#page=14) [15](#page=15).
* **Voordelen**: Uniek, minder gevoelig voor extreme waarden (outliers) dan het gemiddelde, enkel afhankelijk van de orde [15](#page=15).
* **Nadelen**: Niet alle waarden worden in rekening gebracht, moeilijk mathematisch te hanteren, niet voor nominale variabelen [15](#page=15).
* **Rekenkundig gemiddelde ($\bar{x}$)**: De som van alle waarnemingen gedeeld door het aantal waarnemingen. Kan berekend worden op basis van brutogegevens of gegroepeerde gegevens (waarbij $x_i$ staat voor klassenmiddens). Vereist minstens een intervalmeetschaal [15](#page=15).
* **Voordelen**: Alle waarden worden gebruikt, uniek, mathematisch gebruiksvriendelijk en geschikt voor vergelijking van groepen [15](#page=15).
* **Nadelen**: Gevoelig voor extreme waarden, niet voor nominale of ordinale variabelen [15](#page=15).
> **Tip**: Centrummaten geven niet altijd een visueel midden weer en kunnen, zeker bij heterogene verdelingen, een onvolledige weerspiegeling van de realiteit zijn [20](#page=20).
#### 3.1.2. Kwantielen
Kwantielen verdelen geordende gegevens in een specifiek aantal gelijke delen en vereisen minstens een ordinale meetschaal [17](#page=17).
* **Q-kwantiel**: De waarde van een variabele die waarnemingen zodanig verdeelt dat een proportie $q$ van de waarnemingen kleiner of gelijk is aan het kwantiel, en een proportie $(1-q)$ groter of gelijk is [17](#page=17).
* **Kwartielen**: Verdelen geordende gegevens in 4 gelijke delen [17](#page=17).
* **Decielen**: Verdelen geordende gegevens in 10 gelijke delen [17](#page=17).
* **Percentielen**: Verdelen geordende gegevens in 100 gelijke delen [17](#page=17).
#### 3.1.3. Momenten
Momenten vormen een algemene klasse van statistische maten die de verhouding van een verdeling tot een bepaald punt samenvatten. Ze zijn gebaseerd op de waarde van elke waarneming ten opzichte van een constante $c$ [18](#page=18).
* **Momenten rond de oorsprong (gewone momenten)**: Hierbij is de constante $c = 0$ [18](#page=18).
$$ \mu_m' = \frac{\sum_{i=1}^{N} x_i^m}{N} $$
* **Momenten rond de constante**: Hierbij is de constante $c$ een willekeurige constante [18](#page=18).
* **Momenten rond het gemiddelde (centrale momenten)**: Hierbij is de constante $c = \bar{x}$. De formule is [18](#page=18):
$$ \mu_m = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^m}{N} $$
### 3.2. Maten van spreiding
Maten van spreiding kwantificeren de diversiteit of de mate van concentratie van gegevens rond een centrummaat [20](#page=20).
> **Tip**: Spreidingsmaten zijn essentieel omdat centrummaten, vooral bij heterogene verdelingen, een onvoldoende beeld geven van de werkelijkheid [20](#page=20).
* **Regels voor spreiding**:
* Als alle waarnemingen gelijk zijn, is de spreidingsmaat nul [20](#page=20).
* Hoe meer de waarnemingen gespreid zijn, hoe groter de spreidingsmaat [20](#page=20).
#### 3.2.1. Soorten spreidingsmaten
* **Variatiebreedte (Range, V)**: Het verschil tussen de grootste en de kleinste waargenomen waarde [21](#page=21).
* Voor brutogegevens: $V = x_{max} - x_{min}$ [21](#page=21).
* Voor gegroepeerde gegevens: $V =$ bovengrens hoogste klasse $-$ ondergrens laagste klasse [21](#page=21).
* **Nadeel**: Zeer gevoelig voor extreme waarden [21](#page=21).
* **Interkwartielafstand (IQR)**: Het verschil tussen het derde kwartiel ($K_3$ of $Q_3$) en het eerste kwartiel ($K_1$ of $Q_1$) [21](#page=21).
$$ IQR = K_3 - K_1 $$
Deze maat geeft aan tussen welke waarden de middelste 50% van de waarnemingen vallen en is relatief ongevoelig voor extreme scores [21](#page=21).
* **Interdecielafstand**: Het verschil tussen het negende deciel ($D_9$) en het eerste deciel ($D_1$). Het geeft aan tussen welke waarden de middelste 80% van de waarnemingen vallen [22](#page=22).
* **Gemiddelde absolute afwijking**: De gemiddelde waarde van de absolute verschillen tussen elke waarneming en een bepaald punt (meestal het gemiddelde) [22](#page=22).
$$ \frac{\sum_{i=1}^{N} |x_i - c|}{N} $$
* **Variantie ($s^2$)**: De som van de gekwadrateerde afwijkingen van het rekenkundig gemiddelde, gedeeld door het aantal waarnemingen (of $N-1$ voor een steekproef, hoewel dit document hoofdzakelijk de populatievariantie ($N$) presenteert) (#page=23, 24) [23](#page=23) [24](#page=24).
* Formule (populatie):
$$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} $$
* **Kenmerken**: Altijd positief of nul, geeft meer gewicht aan grote verschillen [24](#page=24).
* **Nadeel**: Kwadratische maat, moeilijk te interpreteren [24](#page=24).
* **Standaardafwijking ($s$ of $\sigma$)**: De vierkantswortel van de variantie [24](#page=24).
* Formule (populatie):
$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}} $$
* **Voordelen**: Houdt rekening met alle waarden, meest gebruikt, uitgedrukt in dezelfde meeteenheid als de waarnemingen, waardoor het eenvoudig te interpreteren is [24](#page=24).
* **Nadeel**: Zegt niets over de relatieve spreiding ten opzichte van de uitkomst zelf [24](#page=24).
* **Variatiecoëfficiënt (VC)**: De ratio van de standaardafwijking op het gemiddelde [25](#page=25).
$$ VC = \frac{s}{\bar{x}} $$
* **Voordelen**: Relatieve spreidingsmaat, onafhankelijk van de meeteenheid (dimensieloos), geschikt voor het vergelijken van de spreiding van verschillende groepen [25](#page=25).
#### 3.2.2. Toepassingen van spreidingsmaten
* **Oppervlakte onder de normale verdeling (Empirische Regel)**: Voor een normale, symmetrische en klokvormige verdeling geldt:
* Ongeveer 68% van de waarnemingen ligt tussen $\mu - \sigma$ en $\mu + \sigma$ [26](#page=26).
* Ongeveer 95% (meer nauwkeurig 98%) van de waarnemingen ligt tussen $\mu - 1.96\sigma$ en $\mu + 1.96\sigma$ [26](#page=26).
* Ongeveer 99.7% van de waarnemingen ligt tussen $\mu - 3\sigma$ en $\mu + 3\sigma$ [26](#page=26).
* **Gestandaardiseerde scores (Z-scores)**: Een score ($z_i$) die aangeeft hoeveel standaardafwijkingen een waarneming boven of onder het gemiddelde ligt [26](#page=26).
$$ z_i = \frac{x_i - \bar{x}}{s} $$
* **Kenmerken**: Gemiddelde van 0 en standaardafwijking van 1 [26](#page=26).
* **Voordeel**: Dimensieloos, waardoor verschillende verdelingen vergeleken kunnen worden [26](#page=26).
### 3.3. Maten van vorm
Maten van vorm beschrijven de contour van een verdeling, met name de symmetrie en afplatting [27](#page=27).
#### 3.3.1. Symmetrie
Symmetrie meet de mate van evenwicht van een verdeling rond een centraal punt [27](#page=27).
* **Symmetrische verdeling**: Gelijke aantallen waarden groter en kleiner dan het gemiddelde; modus = mediaan = gemiddelde [27](#page=27).
* **Positieve (rechtsscheve) asymmetrie**: Langere staart aan de rechterkant; de meeste massa links van het gemiddelde; doorgaans geldt: modus < mediaan < gemiddelde [27](#page=27).
* **Negatieve (linksscheve) asymmetrie**: Langere staart aan de linkerkant; de meeste massa rechts van het gemiddelde; doorgaans geldt: modus > mediaan > gemiddelde [27](#page=27).
#### 3.3.2. Maten voor symmetrie
* **Empirische coëfficiënt van Pearson (S)**: Gebaseerd op het verschil tussen het gemiddelde en de modus ten opzichte van de mediaan [28](#page=28).
$$ S = \frac{\text{gemiddelde} - \text{modus}}{s} $$
* $S = 0$: Symmetrisch.
* $S > 0$: Positieve (linkse) asymmetrie.
* $S < 0$: Negatieve (rechtse) asymmetrie [28](#page=28).
* **Coëfficiënt van Yule en Kendall (Y)**: Vergelijkt de afstand van de kwartielen tot de mediaan [28](#page=28).
$$ Y = \frac{(Q_3 - \text{Mediaan}) - (\text{Mediaan} - Q_1)}{Q_3 - Q_1} = \frac{Q_3 + Q_1 - 2 \cdot \text{Mediaan}}{Q_3 - Q_1} $$
* $Y = 0$: Symmetrie.
* $Y > 0$: Positieve (linkse) asymmetrie.
* $Y < 0$: Negatieve (rechtse) asymmetrie [28](#page=28).
* **Oneven centrale momenten**: Alle oneven centrale momenten geven een indicatie van de symmetrie ten opzichte van het gemiddelde [28](#page=28).
* Voor een symmetrische verdeling zijn alle oneven centrale momenten gelijk aan 0 [29](#page=29).
* Voor brutowaarnemingen (m=3):
$$ g_3 = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^3}{N} $$
* **Coëfficiënt van Fisher ($g_1$)**: Gebaseerd op het derde centrale moment [29](#page=29).
$$ g_1 = \frac{\mu_3}{\sigma^3} $$
* $g_1 = 0$: Waarschijnlijk symmetrisch.
* $g_1 > 0$: Positieve (linkse) asymmetrie.
* $g_1 < 0$: Negatieve (rechtse) asymmetrie [29](#page=29).
* **Voordeel**: Dimensieloos, maakt vergelijking van symmetrie tussen variabelen mogelijk [29](#page=29).
* **Coëfficiënt van Pearson ($b_1$)**: Gebaseerd op de coëfficiënt van Fisher [29](#page=29).
$$ b_1 = g_1^2 $$
* $b_1 = 0$: Symmetrisch.
* $b_1 > 0$: Asymmetrisch (geeft geen richting aan) [29](#page=29).
#### 3.3.3. Afplatting (Kurtosis)
Kurtosis meet de spitsheid of afplatting van een verdeling rond het gemiddelde, vergeleken met een Gauss-curve [30](#page=30).
* **Coëfficiënt van Pearson ($b_2$)**: Gebaseerd op het vierde centrale moment [30](#page=30).
$$ b_2 = \frac{\mu_4}{\sigma^4} $$
* $b_2 = 3$: Mesokurtisch (normaal of Gauss-verdeling).
* $b_2 > 3$: Lepokurtisch (meer gepiekt).
* $b_2 < 3$: Platykurtisch (minder gepiekt, platter) [30](#page=30).
* **Coëfficiënt van Fisher ($g_2$)**: Een aangepaste kurtosis-coëfficiënt [30](#page=30).
$$ g_2 = b_2 - 3 $$
* $g_2 = 0$: Mesokurtisch.
* $g_2 > 0$: Lepokurtisch.
* $g_2 < 0$: Platykurtisch [30](#page=30).
---
# Verbanden tussen variabelen
Dit deel behandelt methoden om de samenhang tussen variabelen te onderzoeken, afhankelijk van hun meetniveau, met specifieke aandacht voor categorische en metrische variabelen [31](#page=31).
### 4.1. Inleiding tot verbanden tussen variabelen
Het onderzoeken van de samenhang tussen variabelen is een kernactiviteit in de sociale wetenschappen, waarbij theoretische veronderstellingen empirisch worden getoetst. De keuze van de analysemethode hangt af van het meetniveau van de betrokken variabelen. Een belangrijke onderscheiding wordt gemaakt tussen **associatie** (samenhang tussen categorische variabelen) en **correlatie** (lineaire samenhang tussen numerieke variabelen). Causale verbanden vereisen meer dan enkel een statistische samenhang; er moet een theoretische reden zijn, verandering in de ene variabele moet de andere teweegbrengen, en alternatieve hypotheses moeten worden geëlimineerd [31](#page=31) [32](#page=32).
### 4.2. Samenhang tussen 2 categorische variabelen
#### 4.2.1. Kruistabellen en de analyse van samenhang
Kruistabellen worden gebruikt om de samenhang tussen twee categorische variabelen te onderzoeken. Bij het analyseren van een kruistabel wordt vaak een onderscheid gemaakt tussen een afhankelijke (te verklaren) variabele (Y, meestal in de rijen) en een onafhankelijke (verklarende) variabele (X, meestal in de kolommen) [33](#page=33).
* **Marginale verdelingen**: Dit zijn de verdelingen van elke variabele afzonderlijk, zonder rekening te houden met de andere variabele. Rijtotalen tonen de frequentie van elke waarde van de rijvariabele, en kolomtotalen tonen de frequentie van elke waarde van de kolomvariabele [33](#page=33).
* **Conditionele verdelingen**: Dit is de verdeling van een variabele binnen een specifieke categorie van de andere variabele [33](#page=33).
Er is sprake van **statistische onafhankelijkheid** tussen twee variabelen wanneer de relatieve conditionele verdelingen van de ene variabele niet verschillen binnen de categorieën van de andere variabele. Als de relatieve conditionele verdeling van Y hetzelfde is binnen de categorieën van X, dan helpt kennis van X niet om Y te voorspellen [34](#page=34) [36](#page=36).
#### 4.2.2. Berekenen van percentages en het inschatten van de sterkte van het verband
Om de aard en richting van het verband te beschrijven, worden relatieve conditionele verdelingen berekend, meestal via kolompercentages voor de afhankelijke variabele Y (#page=33, 34) [33](#page=33) [34](#page=34).
* **Kolompercentage**: Dit wordt berekend als `cel frequentie / kolomtotaal * 100`. Deze worden vergeleken binnen dezelfde rij [34](#page=34).
* **Rijpercentage**: Dit wordt berekend als `cel frequentie / rijtotaal * 100`. Deze worden vergeleken binnen dezelfde kolom [34](#page=34).
De percentages worden altijd vergeleken dwars op de richting waarin werd gepercenteerd. Een grote spreiding in percentages duidt op een sterk verband, terwijl een kleine spreiding wijst op een zwak verband. Nadelen van deze methode zijn dat het omstandig kan zijn bij grote tabellen, dat het verband niet veralgemeenbaar is naar de populatie zonder significantietoets, en dat het geen synthetische index van samenhang biedt [34](#page=34).
#### 4.2.3. Veralgemeenbaarheid naar de populatie: Significantietoetsen
Om te bepalen of een waargenomen verband in de steekproef ook in de populatie aanwezig is, worden significantietoetsen gebruikt. Een significantietoets bestaat uit vijf stappen [34](#page=34) [35](#page=35):
1. **Assumpties**:
* De data zijn verkregen via een toevalssteekproef [35](#page=35).
* Er zijn twee categorische variabelen betrokken [35](#page=35).
* Het verwachte aantal in elke cel is minstens 5 [35](#page=35).
2. **Hypothesen**:
* **Nulhypothese ($H_0$)**: Er bestaat geen verband tussen de variabelen (alle waargenomen verbanden zijn toeval) [35](#page=35).
* **Alternatieve hypothese ($H_1$)**: Er is wel een verband tussen de variabelen [35](#page=35).
3. **Toetsstatistiek (Chi-kwadraat)**:
* De **chi-kwadraat ($\chi^2$)** statistiek meet de discrepantie tussen de geobserveerde celfrequenties en de verwachte celfrequenties onder de nulhypothese (statistische onafhankelijkheid) (#page=35, 36) [35](#page=35) [36](#page=36).
* Formule voor chi-kwadraat:
$$ \chi^2 = \sum_{i} \sum_{j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
waarbij $O_{ij}$ de geobserveerde frequentie is in cel (i,j) en $E_{ij}$ de verwachte frequentie is in cel (i,j) (#page=35, 36) [35](#page=35) [36](#page=36).
* **Kenmerken van de chi-kwadraatverdeling**:
* Is altijd positief [36](#page=36).
* De vorm hangt af van het aantal vrijheidsgraden ($df$) [36](#page=36).
* Een hogere chi-kwadraatwaarde duidt op een grotere discrepantie en dus een sterker verband, wat de nulhypothese minder plausibel maakt [36](#page=36).
4. **P-waarde (overschrijdingskans)**:
* De p-waarde is de kans om de waargenomen of extremere resultaten te verkrijgen, gegeven dat de nulhypothese waar is [36](#page=36).
* Als de p-waarde kleiner is dan het gekozen significantieniveau (bv. 0,05), wordt de nulhypothese verworpen [36](#page=36).
5. **Conclusie**:
* De resultaten worden geïnterpreteerd in het licht van de oorspronkelijke vraagstelling, waarbij de p-waarde centraal staat [37](#page=37).
* **Vrijheidsgraden ($df$)**: Voor een $r \times c$ kruistabel met gegeven marginale totalen, zijn er $(r-1) \times (c-1)$ vrijheidsgraden [36](#page=36).
#### 4.2.4. Associatiematen: de sterkte van het verband
Associatiematen kwantificeren de sterkte van de samenhang tussen variabelen. Ze zijn conventioneel begrensd tussen 0 en 1 voor nominale variabelen, en tussen -1 en +1 voor ordinale variabelen [37](#page=37).
* **+1**: Perfecte positieve samenhang [37](#page=37).
* **0**: Afwezigheid van statistische samenhang [37](#page=37).
* **-1**: Perfecte negatieve samenhang [37](#page=37).
De keuze van de associatiemaat hangt af van het meetniveau van de variabelen [37](#page=37).
##### 4.2.4.1. Associatiematen voor nominale variabelen
* **Phi-kwadraat ($\phi^2$) en Phi ($\phi$)**:
* Phi is gebaseerd op de chi-kwadraat statistiek [37](#page=37).
* Het is een symmetrische associatiemaat [37](#page=37).
* De waarde 0 betekent statistische onafhankelijkheid [37](#page=37).
* In een $2 \times 2$ tabel kan Phi maximaal 1 bereiken. In algemene $r \times c$ tabellen kan de waarde groter dan 1 worden, wat de interpretatie bemoeilijkt [37](#page=37) [38](#page=38).
* **Cramer's V**:
* Is een symmetrische associatiemaat, gebaseerd op chi-kwadraat [38](#page=38).
* De formule is: $V = \sqrt{\frac{\chi^2}{N \cdot \min(r-1, c-1)}}$, waarbij $N$ het totale aantal observaties is en $\min(r-1, c-1)$ het kleinste aantal van (rijen-1) en (kolommen-1) [38](#page=38).
* De waarde varieert tussen 0 en 1, waarbij 0 onafhankelijkheid aangeeft en 1 een perfect verband [38](#page=38).
| Waarde Cramer's V | Interpretatie |
| :---------------- | :------------------------ |
| 0 – 0,10 | Zeer zwak of geen verband |
| 0,11 – 0,30 | Zwak verband |
| 0,31 – 0,50 | Redelijk verband |
| 0,51 – 0,80 | Sterk verband |
| 0,81 – 0,99 | Zeer sterk verband |
| 1 | Perfect verband |
##### 4.2.4.2. Associatiematen voor ordinale variabelen
Voor ordinale variabelen kan de richting van het verband worden bepaald, wat resulteert in associatiematen die variëren van -1 tot +1 [38](#page=38).
* **Concordante en discordante paren**:
* **Concordant paar (C)**: Twee onderzoekseenheden scoren op beide variabelen hoger (of lager) dan elkaar [39](#page=39).
* **Discordant paar (D)**: Twee onderzoekseenheden scoren op de ene variabele hoger en op de andere lager dan elkaar [39](#page=39).
* **Gamma ($\gamma$)**:
* Een symmetrische associatiemaat voor ordinale variabelen, gebaseerd op concordante en discordante paren [39](#page=39).
* Formule: $\gamma = \frac{C - D}{C + D}$ [39](#page=39).
* De waarde varieert van -1 tot +1; een grotere absolute waarde betekent een sterkere associatie [39](#page=39).
* **Kendall's Tau-b ($\tau_b$)**:
* Een symmetrische associatiemaat die de overeenkomst in rangorde tussen twee variabelen meet [39](#page=39).
* Het evalueert of de rangorde van respondenten voor variabele X overeenkomt met hun rangorde voor variabele Y [39](#page=39).
* Formules zijn complex en houden rekening met zowel concordante, discordante als geknoopte paren (#page=39, 40) [39](#page=39) [40](#page=40).
* **Somers' d**:
* Lijkt op Gamma, maar is geschikt voor **asymmetrische** relaties [40](#page=40).
* Houdt rekening met paren die 'geknoopt' zijn op de afhankelijke variabele [40](#page=40).
* Formule: $d = \frac{C - D}{C + D + T_y}$, waarbij $T_y$ het aantal geknoopte paren op de afhankelijke variabele is [40](#page=40).
* **Spearman's Rho ($\rho$)**:
* Een rangcorrelatiecoëfficiënt die de correlatie tussen rangnummers meet (#page=40, 45) [40](#page=40) [45](#page=45).
* Het is een symmetrische maat die gebaseerd is op de verschillen in rangorde van de waarden (#page=40, 45) [40](#page=40) [45](#page=45).
* Het wordt berekend alsof de variabelen metrisch zijn, maar dan op de rangwaarden van de ordinale variabelen [45](#page=45).
* Waarde varieert van -1 tot +1 [45](#page=45).
### 4.3. Verbanden tussen metrische variabelen (interval en ratio)
#### 4.3.1. Spreidingsdiagram (scatterplot)
Een spreidingsdiagram is een grafische weergave die de samenhang tussen twee metrische variabelen visualiseert door de waarden van onderzoekseenheden als punten weer te geven (#page=40, 43) [40](#page=40) [43](#page=43).
* **Asymmetrische relatie**: De onafhankelijke variabele (X) staat op de horizontale as en de afhankelijke variabele (Y) op de verticale as [40](#page=40).
* **Doel**: Overzicht geven van de trend (lineair, curvilineair, clusters, geen patroon), richting (positief, negatief, geen) en sterkte van het verband (#page=40, 43) [40](#page=40) [43](#page=43).
Er kan sprake zijn van:
* **Analytische afhankelijkheid**: De waarde van de ene variabele kan exact worden bepaald door de andere (#page=41, 42) [41](#page=41) [42](#page=42).
* **Stochastische afhankelijkheid**: Een schatting van de ene variabele is mogelijk op basis van de andere, maar geen exacte relatie (#page=41, 42) [41](#page=41) [42](#page=42).
* **Stochastische onafhankelijkheid**: Kennis van de ene variabele helpt niet bij het voorspellen van de andere (#page=41, 42) [41](#page=41) [42](#page=42).
#### 4.3.2. Covariantie
De covariantie is een maat voor de lineaire samenhang tussen twee variabelen van interval- of ratiomeetniveau (#page=43, 44). Het meet in welke mate de waarden van twee variabelen bij respondenten samenhangen [43](#page=43) [44](#page=44).
* Formule:
$$ \text{Cov}(X, Y) = \frac{1}{N-1} \sum_{i=1}^{N} (x_i - \bar{x})(y_i - \bar{y}) $$
waarbij $x_i$ en $y_i$ de waarden zijn van de variabelen, en $\bar{x}$ en $\bar{y}$ de gemiddelden [43](#page=43).
* **Interpretatie**:
* Positieve covariantie: positieve samenhang [44](#page=44).
* Covariantie = 0: lineaire onafhankelijkheid [44](#page=44).
* Negatieve covariantie: negatieve samenhang [44](#page=44).
* **Nadeel**: De covariantie heeft geen vaste boven- of ondergrens en is gevoelig voor de meeteenheid van de variabelen [44](#page=44).
#### 4.3.3. Correlatie (Pearson's correlatiecoëfficiënt)
Pearson's correlatiecoëfficiënt ($r$) is een gestandaardiseerde maat voor de lineaire samenhang tussen twee metrische variabelen. Het is een symmetrische maat, ongevoelig voor meeteenheden [44](#page=44).
* Formule:
$$ r = \frac{\text{Cov}(X, Y)}{s_x s_y} $$
waarbij $s_x$ en $s_y$ de standaardafwijkingen van respectievelijk X en Y zijn [44](#page=44).
* **Kenmerken**:
* De waarde ligt altijd tussen -1 en +1 [44](#page=44).
* Hoe dichter de waarde bij -1 of +1 ligt, hoe sterker de lineaire samenhang [44](#page=44).
* $r=0$ betekent lineaire onafhankelijkheid, maar er kan nog steeds een sterke niet-lineaire samenhang zijn [44](#page=44).
* Correlatie is niet robuust en gevoelig voor outliers [44](#page=44).
* **Interpretatie van de sterkte van de correlatie**:
| Waarde $r$ | Interpretatie |
| :---------------------- | :-------------------------------- |
| $r = 1$ | Perfecte positieve lineaire afhankelijkheid |
| $0,7 < r < 1$ | Sterke positieve lineaire afhankelijkheid |
| $0,3 < r < 0,7$ | Matige positieve lineaire afhankelijkheid |
| $0 < r < 0,3$ | Zwakke positieve lineaire afhankelijkheid |
| $r = 0$ | Lineaire onafhankelijkheid |
| $-0,3 < r < 0$ | Zwakke negatieve lineaire onafhankelijkheid |
| $-0,7 < r < -0,3$ | Matige negatieve lineaire onafhankelijkheid |
| $-1 < r < -0,7$ | Sterke negatieve lineaire afhankelijkheid |
| $r = -1$ | Perfecte negatieve lineaire afhankelijkheid |
#### 4.3.4. Regressieanalyse
Regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele (Y) en één of meer onafhankelijke variabelen (X) te modelleren, waarbij het onderscheid tussen afhankelijke en onafhankelijke variabele cruciaal is. Het doel is het verklaren van variantie in de afhankelijke variabele en het voorspellen van waarden. In de klassieke vorm zijn beide variabelen van interval- of ratiomeetniveau [46](#page=46).
* **Model van de regressieanalyse**:
* De vergelijking van een regressierechte is:
$$ \hat{y} = a + bx $$
waarbij $\hat{y}$ de voorspelde waarde van Y is, $a$ het intercept (snijpunt met de y-as), en $b$ de hellingscoëfficiënt (slope) [47](#page=47).
* **Residuen**:
* Een residu is het verschil tussen de geobserveerde waarde ($y_i$) en de voorspelde waarde ($\hat{y}_i$) op de regressierechte [48](#page=48).
* Formule voor een residu ($e_i$):
$$ e_i = y_i - \hat{y}_i $$
* Positieve residuen duiden op onderschatting, negatieve op overschatting, en residuen van 0 op perfecte voorspelling [48](#page=48).
* **Kleinste Kwadratenmethode (OLS)**:
* Deze methode minimaliseert de som van de gekwadrateerde residuen (Sum of Squared Errors - SSE) om de regressierechte te vinden die het beste bij de data past [49](#page=49).
* $$ \text{SSE} = \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 $$
* Dit leidt tot de volgende formules voor $a$ en $b$:
$$ b = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = r \frac{s_y}{s_x} $$
$$ a = \bar{y} - b\bar{x} $$
waarbij $r$ de Pearson correlatiecoëfficiënt is, $s_y$ en $s_x$ de standaardafwijkingen, en $\bar{y}$ en $\bar{x}$ de gemiddelden zijn (#page=49, 50) [49](#page=49) [50](#page=50).
* **Sterkte van het verband in regressieanalyse**:
* **Correlatiecoëfficiënt ($r$)**: Geeft de richting en sterkte van de *lineaire* associatie aan. De correlatie heeft hetzelfde teken als de slope $b$ [50](#page=50).
* **$R$-kwadraat ($R^2$)**:
* Ook wel de **determinatiecoëfficiënt** genoemd [51](#page=51).
* Geeft aan welk deel van de variantie in de afhankelijke variabele (Y) verklaard wordt door de onafhankelijke variabele (X). Het is de proportie reductie in totale fout door Y te voorspellen obv de regressielijn in plaats van obv het gemiddelde van Y [51](#page=51).
* Formule:
$$ R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}} $$
waarbij SST de totale kwadratensom is (totale variabiliteit in Y) en SSR de verklaarde kwadratensom (door de regressie) is (#page=50, 51) [50](#page=50) [51](#page=51).
* $R^2 = 0$ betekent dat X geen variantie in Y verklaart [51](#page=51).
* $R^2 = 1$ betekent dat alle punten op de regressierechte liggen en Y perfect wordt voorspeld door X [51](#page=51).
* Een correlatie van 0,9 impliceert een $R^2$ van $0,9^2 = 0,81$, wat betekent dat 81% van de variantie in Y verklaard wordt door X [51](#page=51).
* $1 - R^2$ geeft de proportie variantie in Y die *niet* verklaard wordt door X [51](#page=51).
---
# Tijdsreeksanalyse
Tijdsreeksanalyse onderzoekt de evolutie van een variabele in de tijd door middel van chronologisch geordende gegevens [52](#page=52).
### 6.1. Inleiding tot tijdsreeksen
#### 6.1.1. Wat is een tijdsreeks?
Een tijdsreeks is een opeenvolging van chronologisch geordende kwantitatieve gegevens, gemeten met een vast tijdsinterval (bv. jaar, maand, dag, uur). Het is een tweedimensionale waargenomen reeks waarbij één variabele de tijd is. De frequentie van elk punt $(t_i, y_i)$ is één, en deze frequenties spelen geen verdere rol in de analyse [52](#page=52).
#### 6.1.2. Verschil met een gewone tweedimensionale reeks
Het fundamentele verschil ligt in het belang van de volgorde van de waarden van variabele $y$. Bij een tijdsreeks is de chronologische ordening cruciaal voor het analyseren van de evolutie. Bij een gewone tweedimensionale verdeling is de volgorde van waarnemingen irrelevant. Tijd is een bijzondere variabele: het is een vast gegeven dat niet door andere variabelen wordt beïnvloed, en is daarom altijd de onafhankelijke variabele in de analyse. Statistische parameters zoals variantie en momenten zijn bij tijd niet gedefinieerd. De uniforme frequentie van waarnemingen vereenvoudigt berekeningen aanzienlijk [52](#page=52).
#### 6.1.3. Toepassingsgebieden
Tijdsreeksen hebben een zeer breed toepassingsgebied met specifieke analysemethoden, waaronder economie (evolutie van werkloosheid, schulden), demografie (bevolkingsevolutie), epidemiologie (sterfte, griepepidemieën), geschiedenis (migratie), social media-gebruik en criminaliteit. Een expliciete tijdsgebonden dimensie is essentieel. Tijdsreeksanalyse onderzoekt de relatie tussen tijd en een bepaalde variabele [52](#page=52) [53](#page=53).
#### 6.1.4. Belangrijke vragen bij het bekijken van een tijdsreeks
Bij het analyseren van een tijdsreeks zijn de volgende vragen van belang [53](#page=53):
* Is er een trend? (gemiddelde toename of afname over tijd)
* Is er seizoensgebondenheid? (regelmatige pieken en dalen afhankelijk van tijd van het jaar, maand of dag)
* Zijn er outliers? (waarden die significant afwijken)
* Is er een lange termijnscyclus buiten de seizoensgebondenheid?
* Is de variantie constant over tijd, of verandert de spreiding?
* Zijn er plotselinge veranderingen in het niveau of de spreiding?
#### 6.1.5. Tijdsreeksanalyse als ontleding
Tijdsreeksanalyse behelst het ontleden van tijdsreeksen in hun samenstellende delen, zoals trends, schommelingen en onregelmatige of toevallige kortetermijnveranderingen. Om de evolutie van variabelen in de tijd te meten, worden technieken als lineaire trends, voortschrijdende gemiddelden en foutenpercentages toegepast. Ook groei, groeivoeten en de constructie van trends vallen hieronder [53](#page=53).
### 6.2. Groei en groeivoeten
Er zijn drie soorten indicatoren voor groei [54](#page=54):
* Gemiddelde groei
* Groeivoet
* Gemiddelde groeivoet
De groeivoet wordt berekend als de relatieve groei ten opzichte van de beginjaren [54](#page=54).
### 6.3. Lineaire trend
#### 6.3.1. Constructie van een lineaire trend
Hoewel een relatie niet altijd lineair hoeft te zijn, wordt de constructie van een lineaire trend vaak gemodelleerd met behulp van (enkelvoudige) lineaire regressieanalyse, waarbij tijd fungeert als de onafhankelijke variabele. De parameters $a$ en $b$ van de lineaire regressievergelijking $y = a + bx$ worden gekozen om de som van de gekwadrateerde afwijkingen tussen de geobserveerde en verwachte waarden te minimaliseren [54](#page=54).
$$ \sum_{i=1}^{n} (y_i - (a + bx_i))^2 \text{ geminimaliseerd} $$
Een lineaire trendlijn wordt verkregen via een bivariate regressieanalyse met tijd als onafhankelijke variabele [54](#page=54).
> **Tip:** Een nadeel van simpelweg kijken naar begin- en eindwaarden is dat dit geen volledig beeld geeft van de trend. Regressieanalyse biedt een meer robuuste methode [54](#page=54).
#### 6.3.2. Voordelen van lineaire trends
Met een lineaire trend kunnen we extrapoleren naar de toekomst en interpoleren voor ontbrekende waarden [55](#page=55).
#### 6.3.3. Nadelen en opmerkingen bij lineaire trends
* **Veronderstelling van lineariteit:** Een lineaire trend gaat uit van een lineaire evolutie. Niet-lineaire ontwikkelingen vereisen andere methoden (bv. logaritmische, exponentiële functies) [55](#page=55).
* **Rudimentaire vorm:** Het gebruik van een lineair model voor geobserveerde waarden is een basale vorm van tijdsreeksanalyse [55](#page=55).
* **Verwarring met seizoenseffecten:** Bij korte tijdsreeksen bestaat het gevaar om de trend te verwarren met seizoenseffecten of kortetermijnschommelingen [55](#page=55).
* **Autocorrelatie:** Opeenvolgende waarnemingen in de tijd zijn geen onafhankelijke waarnemingen (autocorrelatie). Dit kan leiden tot het ten onrechte interpreteren van toevalsfluctuaties als significante trends [55](#page=55).
> **Voorbeeld:** Een bedrijf dat de verkoopprijs van zijn product analyseert, kan een lineaire trend gebruiken om te voorspellen hoe de prijs zich in de komende maanden zal ontwikkelen, ervan uitgaande dat de prijs lineair stijgt of daalt [54](#page=54) [55](#page=55).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Statistiek | Een wetenschappelijke discipline die dient als kennismethode om de wereld beter te kennen en te begrijpen, vaak toegepast in empirisch onderzoek voor data-analyse. |
| Empirie | Gegevens en informatie verzameld uit waarnemingen en experimenten, die dienen als basis voor wetenschappelijke beweringen en theorieën. |
| Onderzoeksmethoden | Procedures en technieken die worden gebruikt om data te verzamelen volgens vastgestelde wetenschappelijke regels en principes. |
| Beschrijvende statistiek | Een tak van statistiek die zich bezighoudt met het samenvatten en presenteren van gegevens uit een steekproef of populatie met behulp van cijfers, tabellen en grafieken. |
| Inferentiële statistiek | Een tak van statistiek die methoden gebruikt om uitspraken te doen over een populatie op basis van gegevens uit een steekproef, inclusief extrapolatie en generalisatie van resultaten. |
| Verklarende statistiek | Een tak van statistiek die zich richt op het verklaren van relaties en samenhangen tussen variabelen, vaak met behulp van regressietechnieken. |
| Populatie | De volledige groep van een welomschreven entiteiten die het onderwerp vormen van een statistisch onderzoek. |
| Onderzoekseenheid | Een individueel element of lid van de onderzochte populatie dat de basis vormt voor de verzameling van gegevens. |
| Variabele | Een kenmerk of eigenschap van onderzoekseenheden dat kan variëren en gemeten of waargenomen wordt in een onderzoek. |
| Datamatrix / Dataset | Een gestructureerde verzameling van gegevens waarin onderzoekseenheden in rijen en variabelen in kolommen zijn georganiseerd, met de waarden in de cellen. |
| Steekproef | Een deelverzameling van een populatie die wordt geselecteerd om representatieve informatie te verzamelen en conclusies te trekken over de gehele populatie. |
| Parameters | Kengetallen die de verdeling van een kenmerk in een gehele populatie beschrijven. |
| Steekproefstatistieken | Kengetallen die de verdeling van een kenmerk in een steekproef beschrijven; ze worden vaak gebruikt als schatters voor populatieparameters. |
| Schatter / Statistische maat | Een numerieke samenvatting van een steekproef die wordt gebruikt om een eigenschap van de populatie te schatten. |
| Tijdsreeks | Een opeenvolging van kwantitatieve gegevens die in de tijd geordend zijn met regelmatige, vaste intervallen. |
| Dimensie van een reeks | Het aantal variabelen dat gelijktijdig wordt waargenomen of bestudeerd in een dataset, variërend van unidimensionaal tot multidimensionaal. |
| Representativiteit | Het kenmerk van een steekproef dat deze dezelfde karakteristieken heeft als de populatie die het vertegenwoordigt. |
| Selectiebias | Een systematische vertekening in onderzoeksresultaten die ontstaat door de manier waarop respondenten of eenheden worden geselecteerd voor de steekproef. |
| Non-respons bias | Een vertekening die optreedt wanneer de personen die weigeren deel te nemen aan een onderzoek systematisch verschillen van de deelnemers. |
| Item non-respons bias | Een type bias waarbij respondenten bepaalde specifieke vragen (items) in een enquête niet beantwoorden, wat de resultaten kan beïnvloeden. |
| Operationaliseren | Het proces van het meetbaar maken van abstracte concepten of variabelen door ze te vertalen naar concrete vragen of indicatoren in een onderzoek. |
| Kwalitatieve variabele | Een variabele waarvan de waarden categorieën vertegenwoordigen zonder inherente wiskundige betekenis. |
| Kwantitatieve variabele | Een variabele waarvan de waarden een numerieke waarde hebben met wiskundige betekenis, en die meetbaar is. |
| Meetniveau / Meetschaal | De schaal waarop een variabele wordt gemeten, die bepaalt welke statistische bewerkingen mogelijk zijn (nominaal, ordinaal, interval, ratio). |
| Nominaal meetniveau | Het laagste meetniveau waarbij waarden categorisch zijn en enkel dienen voor classificatie zonder rangorde of numerieke betekenis. |
| Ordinaal meetniveau | Een meetniveau waarbij variabelen niet alleen geclassificeerd kunnen worden, maar ook gerangschikt volgens een bepaalde volgorde, zonder dat de intervallen tussen de waarden noodzakelijk gelijk zijn. |
| Interval meetniveau | Een meetniveau waarbij variabelen een rangorde hebben en de verschillen tussen waarden betekenisvol zijn door een vaste meeteenheid, maar waar een absoluut nulpunt ontbreekt. |
| Ratio meetniveau | Het hoogste meetniveau, waarbij variabelen een rangorde, een vaste meeteenheid en een absoluut nulpunt hebben, wat betekent dat verhoudingen tussen waarden betekenisvol zijn. |
| Discreet variabel | Een kwantitatieve variabele die alleen gehele getallen kan aannemen, vaak als resultaat van een telling. |
| Continu variabel | Een kwantitatieve variabele die elke waarde binnen een bepaald bereik kan aannemen, vaak gemeten op een schaal. |
| Frequentieverdeling | Een overzicht dat voor elke waarde of categorie van een variabele aangeeft hoe vaak deze voorkomt in een dataset, uitgedrukt in absolute of relatieve aantallen. |
| Frequentietabel | Een tabel waarin de frequentieverdeling van een variabele wordt weergegeven, met waarden of categorieën en hun corresponderende aantallen. |
| Absolute frequentie | Het aantal keren dat een specifieke waarde van een variabele voorkomt in een dataset. |
| Relatieve frequentie | De proportie of het percentage van de absolute frequentie ten opzichte van het totaal aantal waarnemingen. |
| Staafdiagram | Een grafische weergave waarbij de frequentie van categorieën wordt weergegeven door rechthoeken van gelijke breedte, waarvan de hoogte evenredig is met de frequentie. |
| Cirkeldiagram / Taartdiagram | Een grafische weergave die een geheel in sectoren verdeelt, waarbij de grootte van elke sector recht evenredig is met de frequentie of proportie van de betreffende categorie. |
| Pictogram | Een grafische weergave die symbolen gebruikt om frequenties weer te geven, waarbij de grootte of het aantal van de symbolen de frequentie vertegenwoordigt. |
| Cumulatieve frequentiefunctie | Een grafische weergave of tabel die de som van de frequenties tot en met een bepaalde waarde of categorie toont. |
| Maten van ligging / Centrummaten | Statistische maten die het centrale punt of de typische waarde van een dataset beschrijven, zoals modus, mediaan en gemiddelde. |
| Modus | De waarde die het vaakst voorkomt in een dataset; de meest voorkomende categorie of score. |
| Mediaan | De middelste waarde in een gesorteerde dataset; de waarde die de dataset in twee gelijke helften verdeelt. |
| Rekenkundig gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden; de meest gebruikte centrummaat. |
| Kwantielen | Waarden die een gesorteerde dataset verdelen in een specifiek aantal gelijke delen (bv. kwartielen verdelen in 4, decielen in 10, percentielen in 100). |
| Kwartielen | Waarden die een gesorteerde dataset verdelen in vier gelijke delen; Q1 (25e percentiel), Q2 (mediaan, 50e percentiel) en Q3 (75e percentiel). |
| Decielen | Waarden die een gesorteerde dataset verdelen in tien gelijke delen. |
| Percentielen | Waarden die een gesorteerde dataset verdelen in honderd gelijke delen. |
| Momenten | Een algemene klasse van statistische maten die de vorm, spreiding en locatie van een verdeling beschrijven door de relatie van de data tot een centraal punt te analyseren. |
| Centrale momenten | Momenten berekend ten opzichte van het rekenkundig gemiddelde van de verdeling. |
| Maten van spreiding | Statistische maten die de mate van variatie of diversiteit in een dataset beschrijven, zoals variatiebreedte, variantie en standaardafwijking. |
| Variatiebreedte / Range | Het verschil tussen de hoogste en de laagste waarde in een dataset; een eenvoudige maat voor spreiding. |
| Interkwartielafstand (IQR) | Het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1); een maat voor de spreiding van de middelste 50% van de data. |
| Gemiddelde absolute afwijking | Het gemiddelde van de absolute verschillen tussen elke datapunten en het gemiddelde; minder gevoelig voor uitschieters dan de variantie. |
| Variantie | De gemiddelde gekwadrateerde afwijking van het gemiddelde; een maat voor de spreiding van data rond het gemiddelde. |
| Standaardafwijking | De vierkantswortel van de variantie; een maat voor de spreiding van data uitgedrukt in dezelfde eenheden als de oorspronkelijke data. |
| Variatiecoëfficiënt | De ratio van de standaardafwijking tot het gemiddelde; een relatieve spreidingsmaat die dimensieloos is en gebruikt kan worden voor vergelijkingen tussen groepen met verschillende eenheden. |
| Normaalverdeling / Gauss-curve | Een symmetrische, klokvormige verdeling die veel voorkomt in de natuur en sociale wetenschappen, gekenmerkt door specifieke eigenschappen van de gemiddelde, standaardafwijking en oppervlakte onder de curve. |
| Empirische regel | Een vuistregel die stelt dat voor een normaalverdeling ongeveer 68% van de data binnen één standaardafwijking van het gemiddelde ligt, 95% binnen twee, en 99.7% binnen drie. |
| Gestandaardiseerde scores / Z-score | Een score die aangeeft hoeveel standaardafwijkingen een individuele datapunten boven of onder het gemiddelde ligt; deze scores zijn dimensieloos en maken vergelijking tussen verschillende datasets mogelijk. |
| Standaardnormaalverdeling | Een specifieke normaalverdeling met een gemiddelde van 0 en een standaardafwijking van 1. |
| Maten van vorm | Statistische maten die de vorm van een verdeling beschrijven, met name symmetrie (scheefheid) en afplatting (kurtosis). |
| Symmetrie (scheefheid) | De mate waarin een verdeling gelijkmatig is verdeeld rond het centrum; een symmetrische verdeling heeft geen staart aan één kant. |
| Positieve asymmetrie / Rechtsscheef | Een verdeling die uitbreidt naar rechts met een langere staart aan de rechterkant, wat impliceert dat de meeste waarden kleiner zijn dan het gemiddelde. |
| Negatieve asymmetrie / Linksscheef | Een verdeling die uitbreidt naar links met een langere staart aan de linkerkant, wat impliceert dat de meeste waarden groter zijn dan het gemiddelde. |
| Kurtosis (afplatting) | Een maat die de spitsheid of platheid van een verdeling beschrijft ten opzichte van een normale verdeling. |
| Lepokurtisch | Een verdeling die spitser is dan de normale verdeling (hoge kurtosis). |
| Mesokurtisch | Een verdeling die dezelfde spitsheid heeft als de normale verdeling (kurtosis gelijk aan 3 voor Pearson's coefficient). |
| Platykurtisch | Een verdeling die platter is dan de normale verdeling (lage kurtosis). |
| Associatie (samenhang) | Het verband of de relatie tussen twee of meer variabelen. |
| Correlatie | Een statistische maat die de sterkte en richting van de lineaire samenhang tussen twee kwantitatieve variabelen beschrijft. |
| Tweedimensionale frequentietabel / Kruistabel | Een tabel die de frequentieverdeling van twee categorische variabelen weergeeft, waarbij de cellen de gecombineerde frequenties van categorieën bevatten. |
| Rangcorrelatiecoëfficiënt | Een maat voor de samenhang tussen twee geordende variabelen, zoals Spearman's rho of Kendall's tau, die gebaseerd is op de rangschikking van de data. |
| Scatterplot | Een grafische weergave van de relatie tussen twee kwantitatieve variabelen, waarbij elk datapunt wordt weergegeven als een punt in een tweedimensionaal assenstelsel. |
| Covariantie | Een maat die aangeeft in hoeverre twee kwantitatieve variabelen samen variëren; een positieve covariantie duidt op een positieve relatie, een negatieve op een negatieve relatie. |
| Regressieanalyse | Een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren, met als doel voorspellingen te doen. |
| Causale samenhang | Een verband tussen twee variabelen waarbij een verandering in de ene variabele direct een verandering in de andere veroorzaakt. |
| Onafhankelijke variabele | De variabele waarvan men aanneemt dat deze een effect heeft op of invloed uitoefent op de afhankelijke variabele; vaak de verklarende variabele (X). |
| Afhankelijke variabele | De variabele waarvan men aanneemt dat deze wordt beïnvloed door de onafhankelijke variabele; vaak de te verklaren variabele (Y). |
| Conditionele verdeling | De verdeling van een variabele gegeven de waarde van een andere variabele. |
| Onafhankelijkheid | Een statistische relatie waarbij de waarde van de ene variabele geen invloed heeft op de waarden van de andere variabele. |
| Significantietoets | Een statistische procedure om te bepalen of waargenomen verschillen of relaties in een steekproef waarschijnlijk ook in de populatie bestaan, of dat ze door toeval zijn ontstaan. |
| Nulhypothese (H0) | De hypothese die stelt dat er geen significant verband of verschil is tussen de onderzochte variabelen of groepen. |
| Alternatieve hypothese (H1) | De hypothese die stelt dat er wel een significant verband of verschil is tussen de onderzochte variabelen of groepen. |
| Toetsstatistiek | Een statistische maat die wordt berekend uit de steekproefgegevens en wordt gebruikt om de nulhypothese te toetsen. |
| Chi-kwadraat (χ²) | Een toetsstatistiek die wordt gebruikt om de samenhang tussen categorische variabelen te toetsen door de waargenomen frequenties te vergelijken met de verwachte frequenties. |
| Vrijheidsgraden | Het aantal onafhankelijke waarden dat kan variëren in een statistische berekening; beïnvloedt de vorm van waarschijnlijkheidsverdelingen zoals de chi-kwadraatverdeling. |
| P-waarde (overschrijdingskans) | De waarschijnlijkheid om een toetsstatistiek te observeren die minstens zo extreem is als de waargenomen toetsstatistiek, ervan uitgaande dat de nulhypothese waar is. |
| Associatiemaat | Een statistische maat die de sterkte en soms de richting van de samenhang tussen variabelen kwantificeert. |
| Phi-kwadraat (Φ²) | Een associatiemaat voor nominale variabelen, afgeleid van de chi-kwadraat statistic, die de sterkte van het verband in een kruistabel aangeeft. |
| Cramer's V | Een symmetrische associatiemaat voor nominale variabelen die de sterkte van het verband tussen twee categorische variabelen weergeeft, genormaliseerd tot een bereik van 0 tot 1. |
| Gamma (γ) | Een symmetrische associatiemaat voor ordinale variabelen die de sterkte van de samenhang meet door concordante en discordante paren te vergelijken. |
| Kendall's tau (τ) | Een rangcorrelatiecoëfficiënt die de sterkte en richting van de monotone samenhang tussen twee ordinale variabelen meet. |
| Somers' d | Een assymmetrische associatiemaat voor ordinale variabelen, die de sterkte en richting van de samenhang meet, rekening houdend met geknoopte paren. |
| Spearmans rho (ρ) | Een rangcorrelatiecoëfficiënt die de sterkte en richting van de monotone samenhang tussen twee ordinale variabelen meet, berekend op basis van rangnummers. |
| Pearson's correlatiecoëfficiënt (r) | Een maat voor de sterkte en richting van de lineaire samenhang tussen twee interval- of ratio-variabelen, variërend van -1 tot +1. |
| Regressierechte | Een lijn die de beste lineaire benadering geeft van de relatie tussen twee variabelen in een scatterplot, gebruikt voor voorspellingen. |
| Residu | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de waarde die wordt voorspeld door de regressielijn. |
| Kleinste kwadratenmethode (OLS - Ordinary Least Squares) | Een methode om de parameters van een regressiemodel te schatten door de som van de gekwadrateerde residuen te minimaliseren. |
| R-kwadraat (R²) | Een maat die aangeeft welk proportie van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n) in een regressiemodel. |
| Totaal kwadratensom (SST) | De totale variantie in de afhankelijke variabele, gemeten als de som van de gekwadrateerde afwijkingen van het gemiddelde. |
| Verklaarde kwadratensom (SSR) | De variantie in de afhankelijke variabele die wordt verklaard door het regressiemodel. |
| Ongeregreerde kwadratensom (SSE) | De variantie in de afhankelijke variabele die niet wordt verklaard door het regressiemodel (de som van de gekwadrateerde residuen). |
| Tijdsreeksanalyse | Een statistische methode voor het analyseren van geordende gegevens in de tijd om trends, seizoensgebondenheid en andere patronen te identificeren. |
| Trend | De algemene richting (stijgend, dalend of stabiel) van gegevens in een tijdsreeks over een langere periode. |
| Seizoensgebondenheid | Regelmatige, voorspelbare schommelingen in een tijdsreeks die optreden binnen een specifieke tijdsperiode (bv. per jaar, kwartaal, maand). |
| Groeivoet | De relatieve toename of afname van een variabele over een bepaalde periode, vaak uitgedrukt als een percentage. |
| Lineaire trend | Een trend in een tijdsreeks die kan worden weergegeven door een rechte lijn, vaak berekend met lineaire regressie. |
Cover
Samenvatting statistiek I.pdf
Summary
# Introductie tot statistiek
Statistiek dient als een essentiële kennismethode om de wereld te begrijpen door middel van empirisch onderzoek, waarbij gegevens worden verzameld, geanalyseerd en gepresenteerd [2](#page=2).
### 1.1 Wat is statistiek?
Statistiek fungeert als een instrument binnen het empirisch onderzoek, gericht op het observeren en analyseren van gegevens en verdelingen om de wereld beter te kennen en te begrijpen. Het proces van empirisch onderzoek omvat typisch vier stappen: de probleemstelling, het onderzoeksontwerp en de dataverzameling, de data-analyse, en de rapportage [2](#page=2).
### 1.2 Soorten statistiek
Er wordt een onderscheid gemaakt tussen beschrijvende statistiek en inferentiële statistiek:
#### 1.2.1 Beschrijvende statistiek
Beschrijvende statistiek, ook wel deductieve statistiek genoemd, heeft als doel om een grote hoeveelheid informatie en de kenmerken daarvan op een duidelijke en efficiënte manier samen te vatten en te ordenen. Dit kan worden bereikt door middel van samenvattende maten, zoals percentages, mediaan, kwantielen, gemiddelden, standaardafwijkingen en correlatiecoëfficiënten, evenals grafische weergaven [2](#page=2).
* **Doel:** Ordenen en synthetiseren van grote hoeveelheden gegevens [2](#page=2).
* **Voorbeelden:** Samenhang- en verschilvragen, analyse van 12.000 enquêtes, gegevens van de Veiligheidsmonitor, verkiezingsonderzoeken, of gezondheidsenquêtes [2](#page=2).
#### 1.2.2 Inferentiële statistiek
Inferentiële statistiek, ook wel inductieve statistiek genoemd, maakt het mogelijk om met een beperkt aantal gegevens uitspraken te doen over een breder geheel, oftewel een volledige populatie. Deze vorm van statistiek is gericht op het verklaren van verschillen en samenhangen. Technieken zoals regressieanalyse (bivariate, multivariate, logistische regressie) en survival analyse vallen hieronder [2](#page=2).
* **Doel:** Uitspraken doen over een volledige bevolking op basis van een toevalssteekproef [2](#page=2).
* **Voorbeelden:** Belgische lonen in 2018 [2](#page=2).
> **Tip:** Beschrijvende statistiek vat de data samen die je hebt, terwijl inferentiële statistiek deze data gebruikt om conclusies te trekken over een grotere groep dan je direct hebt onderzocht.
### 1.3 Misleiding door statistiek
Statistieken kunnen misleidend zijn wanneer de uitkomsten van een onderzoek worden gemanipuleerd. Dit kan op verschillende manieren gebeuren [3](#page=3):
1. **Verzamelen van gegevens:** Dit omvat het hanteren van een te klein aantal onderzochte personen of het formuleren van slechte vragen [3](#page=3).
2. **Presentatie van de gegevens:** Manipulatie kan plaatsvinden door bijvoorbeeld een deel van een grafiek weg te laten of de schaal te veranderen [3](#page=3).
3. **Het omschrijven van de conclusies:** De manier waarop de resultaten worden gerapporteerd, kan ook leiden tot misleiding [3](#page=3).
> **Tip:** Wees altijd kritisch op de manier waarop statistische resultaten worden gepresenteerd en vraag je af of er mogelijke manieren zijn waarop de data gemanipuleerd zouden kunnen zijn.
### 1.4 Oorsprong van de statistiek
De oorsprong van de statistiek ligt in het midden van de 18e eeuw, toen er behoefte ontstond aan informatie over naties ten behoeve van staatsboekhoudkunde en systematische verzameling van demografische en economische data door overheden voor fiscale en militaire doeleinden. In de loop van de 19e eeuw nam de hoeveelheid verzamelde gegevens toe, evenals de aandacht voor data-analyse en -presentatie. Adolphe Quetelet (1796-1874), geboren in Gent en werkzaam in Brussel, wordt gezien als een sleutelfiguur in de ontwikkeling van de statistiek [3](#page=3).
---
# Variabelen verkennen en visualiseren
Dit deel van de cursus behandelt de fundamentele concepten van onderzoekspopulaties, onderzoekseenheden en variabelen, evenals de verschillende meetniveaus en methoden voor het visualiseren van frequentieverdelingen [4](#page=4) [6](#page=6) [8](#page=8).
### 2.1 Terminologie en kernbegrippen
Om statistische analyses te kunnen uitvoeren, is een duidelijk begrip van de terminologie essentieel [4](#page=4).
#### 2.1.1 Onderzoekspopulatie en onderzoekseenheid
* **Onderzoekspopulatie**: Dit is de volledige groep eenheden die een onderzoeker wil bestuderen. Vaak is het onmogelijk om de gehele populatie te onderzoeken, waardoor er gebruik wordt gemaakt van steekproeven [4](#page=4).
* **Onderzoekseenheid**: Een individueel element binnen de bestudeerde populatie, zoals een persoon, een dier, een gebouw, of een land [4](#page=4).
#### 2.1.2 Variabelen
* **Variabele**: Een kenmerk van onderzoekseenheden waarin de onderzoeker geïnteresseerd is. Variabelen kunnen numerieke waarden aannemen (zoals leeftijd) of niet-numerieke waarden (zoals geslacht) [4](#page=4).
* **Datamatrix/dataset**: Een gestructureerde weergave van onderzoeksgegevens waarbij rijen onderzoekseenheden (cases) vertegenwoordigen, kolommen variabelen, en cellen de specifieke waarden van die variabelen voor een gegeven eenheid [4](#page=4).
#### 2.1.3 Steekproeven en fouten
* **Steekproef (Sample)**: Een representatief deel van de onderzoekspopulatie dat daadwerkelijk wordt onderzocht [4](#page=4).
* **Parameters**: Kengetallen die de verdeling van een kenmerk in de *populatie* beschrijven. Voorbeelden zijn de populatiegemiddelde ($\mu$) en de populatiestandaardafwijking ($\sigma$) [4](#page=4).
* **Steekproefstatistieken**: Statistische kengetallen van een *steekproef* die als schatters voor populatieparameters dienen. Voorbeelden zijn de steekproefgemiddelde ($\bar{x}$) en de steekproefstandaardafwijking ($s$) [4](#page=4).
> **Tip**: Onthoud het onderscheid: parameters voor populaties, statistieken voor steekproeven [4](#page=4).
* **Steekproeffouten**: Systematische fouten die kunnen optreden bij het trekken van een steekproef, zoals selectiebias (oneerlijke selectiemethode) en non-respons bias (deelnemers die weigeren mee te werken of specifieke vragen niet beantwoorden) [5](#page=5).
#### 2.1.4 Soorten reeksen
* **Statistische reeks**: Een reeks waarnemingen van kenmerken, bijvoorbeeld het kijkgedrag van verschillende personen [5](#page=5).
* **Tijdreeks**: Een reeks waarnemingen die in de tijd worden verzameld, waarbij het tijdstip cruciaal is voor interpretatie [5](#page=5).
* **Dimensie van een reeks**: Het aantal variabelen dat wordt bestudeerd. Dit kan unidimensionaal (1 variabele), tweedimensionaal (2 variabelen), of multidimensionaal (meer dan 2 variabelen) zijn [5](#page=5).
### 2.2 Meetniveaus van variabelen
Het meetniveau van een variabele bepaalt welke statistische analyses mogelijk zijn. Variabelen kunnen kwalitatief (categorisch) of kwantitatief (metrisch) zijn [6](#page=6).
#### 2.2.1 De vier meetniveaus
Er zijn vier hoofdmeetniveaus, oplopend in complexiteit en informatieve waarde:
1. **Nominaal meetniveau**:
* **Eigenschappen**: Classificatie. Waarden hebben geen logische volgorde en missen wiskundige betekenis [6](#page=6).
* **Voorbeelden**: Geslacht, woonplaats, politieke partijvoorkeur [6](#page=6).
2. **Ordinaal meetniveau**:
* **Eigenschappen**: Classificatie en rangorde. Waarden zijn logisch te ordenen, maar missen wiskundige betekenis voor de afstanden tussen de waarden [6](#page=6).
* **Voorbeelden**: Opleidingsniveau (lager onderwijs, middelbaar onderwijs, hoger onderwijs), rangen (brons, zilver, goud), en antwoordschalen in opiniepeilingen (eens, oneens) [6](#page=6).
3. **Interval meetniveau**:
* **Eigenschappen**: Classificatie, rangorde, en een vaste meeteenheid. Waarden zijn ordenbaar en hebben een vaste meeteenheid, waardoor de afstanden tussen waarden betekenis hebben en constant zijn [6](#page=6).
* **Kenmerk**: Er is geen natuurlijk of absoluut nulpunt. Een temperatuur van 0 graden Celsius betekent bijvoorbeeld niet de afwezigheid van warmte [6](#page=6).
* **Voorbeelden**: Temperatuur (in Celsius of Fahrenheit), geboortejaar [6](#page=6).
4. **Ratio meetniveau**:
* **Eigenschappen**: Classificatie, rangorde, vaste meeteenheid, en een absoluut nulpunt. Dit is het hoogste meetniveau, waarbij alle kenmerken van de lagere niveaus aanwezig zijn, plus een betekenisvol nulpunt dat de afwezigheid van de variabele aangeeft [7](#page=7).
* **Voorbeelden**: Gewicht, lengte, leeftijd, inkomen, aantal vrienden op sociale media [7](#page=7).
> **Tip**: Denk aan de initialen **N O I R** om de meetniveaus in de juiste volgorde te onthouden: **N**ominaal, **O**rdinaal, **I**nterval, **R**atio [6](#page=6).
#### 2.2.2 Soorten variabelen binnen meetniveaus
* **Dichotome variabelen**: Categorische variabelen met slechts twee categorieën (bv. man/vrouw, ja/nee) [7](#page=7).
* **Polytome variabelen**: Categorische variabelen met meer dan twee categorieën [7](#page=7).
* **Dummy variabelen**: Categorische variabelen (vaak nominaal) die worden gecodeerd met 0 en 1 om ze geschikt te maken voor bepaalde analyses [7](#page=7).
* **Discrete variabelen**: Variabelen die alleen gehele getallen kunnen aannemen en geen kommagetallen [7](#page=7).
* **Continue variabelen**: Variabelen die elke waarde binnen een bepaald bereik kunnen aannemen, inclusief kommagetallen [7](#page=7).
#### 2.2.3 Belang van kwantitatieve variabelen
Kwantitatieve variabelen bieden voordelen zoals eenduidigheid, efficiëntere verwerking door computers, en meer analyse-mogelijkheden, waaronder het uitdrukken van relaties als algebraïsche functies [7](#page=7).
#### 2.2.4 Bepalen van meetniveaus
Sommige variabelen hebben een vast meetniveau (bv. geslacht), terwijl voor andere het meetniveau afhankelijk is van de manier waarop ze worden opgemeten, wat de keuze van statistische technieken beïnvloedt [7](#page=7).
### 2.3 Frequentieverdelingen en grafische voorstellingen
Om grote hoeveelheden data overzichtelijk te maken, worden frequentieverdelingen en grafische methoden gebruikt [8](#page=8).
#### 2.3.1 Frequentieverdelingen
* **Frequentieverdeling**: Geeft voor elke waarde of categorie van een variabele aan hoe vaak deze voorkomt, uitgedrukt in absolute of relatieve aantallen [8](#page=8).
* **Frequentietabel**: Een tabel die de frequentieverdeling weergeeft. Dit is essentieel voor kwaliteitscontrole, verdere bewerkingen en als basis voor grafische voorstellingen [8](#page=8).
* **Notaties**:
* $N$: De steekproefgrootte of het effectief van de steekproef [8](#page=8).
* $x_i$: De $i$-de waargenomen waarde [8](#page=8).
* $f_i$: De absolute frequentie, d.w.z. het aantal keren dat een specifieke waarde voorkomt. De som van alle absolute frequenties is gelijk aan $N$ [8](#page=8).
* $f_i'$: De relatieve frequentie, berekend door de absolute frequentie te delen door de steekproefomvang [8](#page=8).
#### 2.3.2 Visuele weergave van frequentieverdelingen
Grafische voorstellingen helpen bij het rapporteren en verkennen van data, maken resultaten beter leesbaar en helpen bij het identificeren van uitschieters of anomalieën [9](#page=9).
> **Tip**: Een goede grafische voorstelling heeft een informatieve titel en duidelijke benoeming van de assen [9](#page=9).
#### 2.3.3 Grafische methoden per meetniveau
* **Nominale variabelen**:
* **Staafdiagram**: Elke categorie wordt voorgesteld door een rechthoek; de hoogte correspondeert met de frequentie. De rechthoeken zijn even breed en best gescheiden [9](#page=9).
* **Taartdiagram/cirkeldiagram**: Representeert de proporties van categorieën als sectoren van een cirkel. De totale oppervlakte is 360 graden [9](#page=9).
* **Pictogram**: Gebruikt symbolen om frequenties weer te geven; de grootte of het aantal symbolen is evenredig met de frequentie. Wordt soms gebruikt voor opmaak maar kan leesbaarheid verminderen [9](#page=9).
* **Ordinale variabelen**:
* **Staafdiagram**: Vergelijkbaar met dat voor nominale variabelen, maar de volgorde van de staven volgt de logische rangorde van de categorieën. De abscis (X-as) is gericht maar zonder meeteenheid [9](#page=9).
* **Cumulatief frequentiediagram**: Toont de cumulatieve frequentie voor elke waarde, resulterend in een trapfunctie. Het is zinvol om cumulatieve frequenties te berekenen vanaf ordinaal niveau [10](#page=10) [9](#page=9).
* **Interval- en Ratiovariabelen**:
* **Niet in klassen gegroepeerde gegevens**:
* **Staafdiagram**: Staven staan los van elkaar, de X-as heeft een meeteenheid [9](#page=9).
* **Histogram**: Balken sluiten op elkaar aan; de oppervlakte van elke balk is evenredig met de absolute (of relatieve) frequentie in het interval. De X-as heeft een meeteenheid en oppervlakten onder de grafiek krijgen betekenis [9](#page=9).
* **Frequentiepolygoon**: Verkregen door de toppen van de histogramstaven rechtlijnig te verbinden. De X-as is gericht en heeft een meeteenheid [9](#page=9).
* **Cumulatieve frequentiefunctie**: Een trapfunctie waarbij de X-as gericht is en een meeteenheid heeft [10](#page=10).
* **In klassen gegroepeerde gegevens**:
* **Frequentietabel**: Klassen worden gebruikt wanneer er te veel waarden zijn om overzichtelijk weer te geven. Klassen moeten uitputtend en wederzijds exclusief zijn [11](#page=11).
* **Histogram**: De oppervlakte van de rechthoeken is evenredig met de frequentie in de klasse [10](#page=10).
* **Populatiepyramide**: Een specifiek type histogram voor leeftijdsverdelingen, opgesplitst naar geslacht [10](#page=10).
* **Frequentieveelhoek**: Verkregen door de klassenmiddens van opeenvolgende klassen rechtlijnig te verbinden [10](#page=10).
* **Diagram cumulatieve frequentie**: Toont de cumulatieve frequenties, resulterend in een trapfunctie [10](#page=10).
#### 2.3.4 Klassenindeling
Goede klassen voldoen aan de regels van uitputtendheid en wederzijdse exclusiviteit, hebben een passend aantal klassen, en zijn bij voorkeur afgebakend met gehele getallen. Het klassenmidden, berekend als (ondergrens + bovengrens) / 2, wordt gebruikt om klassen grafisch weer te geven [11](#page=11) [12](#page=12).
#### 2.3.5 Waarom datavisualisatie?
Datavisualisatie is cruciaal omdat het zorgt voor hoge informatiedichtheid, aantrekkelijkheid, en maakt de data makkelijker te verwerken voor het menselijk brein. Drie sleutelkenmerken van goede datavisualisatie zijn: Clear (duidelijk), Correct (correct), en Beautiful (aantrekkelijk) [11](#page=11).
---
# Statistische maten van ligging, spreiding en vorm
Dit onderwerp behandelt de fundamentele statistische maten die worden gebruikt om univariate gegevens te samenvatten en te karakteriseren, inclusief maten van ligging, spreiding en vorm.
## 3 Statistische maten van ligging, spreiding en vorm
Statistische maten zijn essentieel om de informatie in ruwe waarnemingen samen te vatten wanneer frequentietabellen en grafieken onvoldoende zijn. Ze worden gebruikt om kenmerkende waarden te bepalen: parameters voor een populatie en statistieken voor een steekproef. Er zijn drie hoofdcategorieën: maten van ligging, maten van spreiding en maten van vorm [13](#page=13).
### 3.1 Maten van ligging
Maten van ligging helpen om de waargenomen verdeling op de x-as te situeren en liggen altijd tussen de kleinste en grootste waargenomen waarde. De keuze van de maat hangt af van het meetniveau van de verdeling en inhoudelijke criteria [14](#page=14).
#### 3.1.1 Centrummaten
Centrummaten geven een typische waarde van de verdeling weer [14](#page=14).
* **Modus ($X_0$)**: De waargenomen waarde van de variabele met de hoogste frequentie [14](#page=14).
* Kan vanaf nominaal meetniveau worden gebruikt [14](#page=14).
* **Voordelen**: Makkelijk te bepalen, bruikbaar voor alle meetschalen [15](#page=15).
* **Nadelen**: Niet uniek (bimodale, trimodale verdelingen), houdt geen rekening met andere waarden, wiskundig lastig te hanteren [15](#page=15).
* Bij gegroepeerde gegevens is de modus het klassenmidden van de klasse met de hoogste frequentie [14](#page=14).
* **Mediaan**: De waarde van de variabele die alle geordende waarnemingen in twee gelijke delen opdeelt [15](#page=15).
* Vanaf ordinaal meetniveau te gebruiken [15](#page=15).
* Voor een even aantal waarnemingen is de mediaan het gemiddelde van de twee middelste waarden (lineaire interpolatie) [15](#page=15).
* Bij gegroepeerde gegevens wordt de mediaan bepaald met lineaire interpolatie onder de homogeniteitshypothese [15](#page=15).
* **Voordelen**: Uniek, minder gevoelig voor extreme waarden (outliers), bruikbaar vanaf ordinaal meetniveau [16](#page=16).
* **Nadelen**: Alleen afhankelijk van de orde (nadeel voor hogere meetschalen), niet alle waarden worden gebruikt, wiskundig lastig, niet voor nominale variabelen [16](#page=16).
* **Rekenkundig gemiddelde ($\bar{x}$)**: De som van alle waarnemingen gedeeld door het effectief (aantal waarnemingen) [16](#page=16).
* Formule voor brutowaarnemingen: $\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$ [16](#page=16).
* Formule voor gegroepeerde gegevens: $\bar{x} = \frac{\sum_{i=1}^{k} x_i f_i}{N}$ [16](#page=16).
* **Voordelen**: Alle waarden worden gebruikt, uniek, wiskundig handig, meest courante centrummaat voor interval- en ratioveranderlijken [16](#page=16).
* **Nadelen**: Gevoelig voor extreme scores, niet voor nominale of ordinale variabelen [16](#page=16).
#### 3.1.2 Kwantielen
Kwantielen verdelen geordende gegevens in een bepaald aantal gelijke delen en zijn bruikbaar vanaf het ordinale meetniveau [17](#page=17).
* **Kwartielen ($K_1, K_2, K_3$)**: Verdelen geordende gegevens in 4 gelijke delen. $K_1$ (eerste kwartiel) is de waarde waaronder 25% van de waarnemingen valt, $K_2$ is de mediaan, en $K_3$ (derde kwartiel) is de waarde waaronder 75% van de waarnemingen valt [17](#page=17).
* Formules voor kwartielen zijn afhankelijk van brutowaarnemingen of gegroepeerde gegevens [17](#page=17).
* **Decielen**: Verdelen geordende gegevens in 10 gelijke delen. Formules zijn beschikbaar voor brutowaarnemingen en gegroepeerde gegevens [17](#page=17).
* **Percentielen**: Verdelen geordende gegevens in 100 gelijke delen. Formules zijn beschikbaar voor brutowaarnemingen en gegroepeerde gegevens [17](#page=17).
#### 3.1.3 Momenten
Momenten vormen een algemene klasse van statistische maten die samenvatten hoe een verdeling zich verhoudt tot een bepaald punt, en die een verdeling uniek kunnen vastleggen. Ze zijn gebaseerd op de waarde van elke waarneming ten opzichte van een constante waarde ($c$) [18](#page=18).
* **Momenten rond de oorsprong ($c=0$)**: Hierbij is de constante 0 [18](#page=18).
* **Momenten rond een constante ($c=c$)**: Een algemene vorm [18](#page=18).
* **Momenten rond het gemiddelde ($c=\bar{x}$)**: De meest relevante voor maten van ligging, spreiding en vorm [18](#page=18) [19](#page=19).
### 3.2 Maten van spreiding
Maten van spreiding geven de mate van diversiteit of concentratie rond een centrummaat aan. Ze zijn cruciaal voor het vergelijken van groepen [20](#page=20).
* **Spreidingsbreedte (Range, $V$)**: Het verschil tussen de grootste en kleinste waargenomen waarde [21](#page=21).
* Voor gegroepeerde gegevens: verschil tussen bovengrens van de hoogste klasse en ondergrens van de laagste klasse [21](#page=21).
* **Nadeel**: Zeer gevoelig voor extreme waarden [21](#page=21).
* **Interkwantielen**:
* **Interkwartielafstand ($IQR$)**: Het verschil tussen het derde en eerste kwartiel ($K_3 - K_1$). Geeft de spreiding van de middelste 50% van de waarnemingen aan en is relatief ongevoelig voor extreme scores [21](#page=21).
* **Interdecielafstand**: Geeft aan tussen welke waarden de middelste 80% van de waarnemingen vallen [22](#page=22).
* **Boxplot**: Een grafische weergave die de variatiebreedte, interkwartielafstand en mediaan combineert, samen met de minimum- en maximumwaarden, en eventuele uitschieters [21](#page=21).
* **Gemiddelde absolute afwijking**: Het gemiddelde van de absolute verschillen tussen elke waarneming en het gemiddelde [22](#page=22).
* Formule voor brutowaarnemingen: $GAA = \frac{\sum_{i=1}^{n} |x_i - \bar{x}|}{n}$ [22](#page=22).
* Formule voor gegroepeerde waarnemingen: $GAA = \frac{\sum_{i=1}^{k} |x_i - \bar{x}| f_i}{N}$ [22](#page=22).
* **Variantie ($s^2$)**: De gemiddelde gekwadrateerde afwijking van het rekenkundig gemiddelde [22](#page=22).
* Formule: $s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$ (voor steekproef) of $s^2 = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{N}$ (voor populatie) [23](#page=23).
* **Nadeel**: Gekwadrateerde maat, moeilijk te interpreteren [23](#page=23).
* **Standaardafwijking ($s$)**: De vierkantswortel uit de variantie [23](#page=23).
* Formule: $s = \sqrt{s^2}$ [23](#page=23).
* **Voordelen**: Rekening houdend met alle waarden, meest gebruikte kengetal voor spreiding, uitgedrukt in dezelfde meeteenheid als de waarnemingen [24](#page=24).
* **Nadeel**: De absolute waarde zegt weinig over de relatieve spreiding [24](#page=24).
* **Variatiecoëfficiënt ($VC$)**: De ratio van de standaardafwijking op het gemiddelde [24](#page=24).
* Formule: $VC = \frac{s}{\bar{x}}$ [24](#page=24).
* **Voordeel**: Relatieve spreidingsmaat, onafhankelijk van de meeteenheid, maakt vergelijking van spreiding tussen verschillende groepen mogelijk [24](#page=24).
* **De even centrale momenten**: Deze kunnen ook als spreidingsmaat worden beschouwd [20](#page=20).
### 3.3 Maten van vorm
Maten van vorm beschrijven kenmerken zoals symmetrie en afplatting van een verdeling [26](#page=26).
#### 3.3.1 Symmetrie
Symmetrie wordt gemeten door scheefheid (skewness) [26](#page=26).
* **Symmetrische verdeling**: Evenveel waarden groter dan het gemiddelde als kleiner. Modus = mediaan = gemiddelde [27](#page=27).
* **Positieve (rechtsscheve) asymmetrie**: Verdeling met een uitbreiding naar rechts, langere staart aan de rechterkant. Modus < mediaan < gemiddelde [27](#page=27).
* **Negatieve (linksscheve) asymmetrie**: Verdeling met een uitbreiding naar links, langere staart aan de linkerkant. Modus > mediaan > gemiddelde [27](#page=27).
**Matige van symmetrie**:
* **Empirische coëfficiënt van Pearson ($S$)**: Gebaseerd op het verschil tussen gemiddelde en modus, gedeeld door de standaardafwijking [27](#page=27).
* Formule: $S = \frac{\bar{x} - X_0}{s}$ [27](#page=27).
* **Coëfficiënt van Yule en Kendall**: Gebaseerd op kwartielen [28](#page=28).
* Formule: $Q = \frac{K_3 - K_1}{K_3 + K_1}$ [28](#page=28).
* **Oneven centrale momenten**: Alle oneven centrale momenten geven een indicatie van symmetrie ten opzichte van het rekenkundig gemiddelde. Voor een symmetrische verdeling zijn deze gelijk aan 0 [28](#page=28).
* **Coëfficiënt van Fisher (derde centrale moment)**: Wordt vaak gebruikt als maat voor symmetrie [28](#page=28).
* Formule: $\gamma_1 = \frac{\mu_3}{s^3}$ [28](#page=28).
* Is dimensieloos, waardoor symmetrie van verschillende variabelen vergeleken kan worden [28](#page=28).
* **Coëfficiënt van Pearson**: Gebaseerd op de coëfficiënt van Fisher, ook dimensieloos [29](#page=29).
* Formule: $b_1 = \gamma_1^2$ [29](#page=29).
#### 3.3.2 Afplatting
Afplatting wordt gemeten door kurtosis [26](#page=26).
* **Kurtosis**: Beschrijft hoe spits of plat een verdeling is ten opzichte van de normale (Gauss) curve [29](#page=29).
* Er zijn verschillende coëfficiënten, waaronder die van Pearson en Fisher [29](#page=29) [30](#page=30).
* **Coëfficiënt van Pearson**: Vaak gerelateerd aan het vierde centrale moment gedeeld door de vierde macht van de standaardafwijking [30](#page=30).
* **Coëfficiënt van Fisher**: Vaak de coëfficiënt van Pearson minus 3 [30](#page=30).
### 3.4 De normale verdeling
De normale verdeling is een klokvormige, symmetrische verdeling waarbij gemiddelde, mediaan en modus samenvallen. Ze speelt een cruciale rol in de inferentiële statistiek [24](#page=24) [25](#page=25).
* **Empirische regel**:
* Ongeveer 68% van de waarnemingen ligt binnen het gemiddelde $\pm$ 1 standaardafwijking [25](#page=25).
* Ongeveer 95% van de waarnemingen ligt binnen het gemiddelde $\pm$ 1.96 standaardafwijking [25](#page=25).
* Ongeveer 99.7% van de waarnemingen ligt binnen het gemiddelde $\pm$ 3 standaardafwijkingen [25](#page=25).
* **Gestandaardiseerde scores (z-scores)**: Worden gebruikt om waarnemingen te vergelijken op verschillende schalen [25](#page=25).
### 3.5 Toepassingen in Excel
Excel biedt functies om deze statistische maten te berekenen. Belangrijke functies omvatten `=max()`, `=som()`, `=abs()`, en `=wortel()`. De berekening van centrum- en spreidingsmaten in Excel vereist vaak het aanmaken van tussenkolommen zoals $K(x_i)$, $x_if_i$, $|x_i - \bar{x}|f_i$, $(x_i - \bar{x})^2f_i$, enz.. Ook maten van vorm, zoals het derde en vierde moment, kunnen worden berekend met behulp van specifieke kolommen en sommaties [30](#page=30) [31](#page=31) [32](#page=32).
---
# Statistische analyses met SPSS
Dit onderwerp behandelt de praktische toepassing van statistische analyses met behulp van SPSS, waaronder datamanipulatie, selectie van cases en tweedimensionale analyses zoals kruistabellen.
### 4.1 Werkomgeving en datamanipulatie in spss
SPSS (Statistical Package for the Social Sciences) is een softwarepakket dat wordt gebruikt voor het beheren en verwerken van kwantitatieve gegevens [33](#page=33).
#### 4.1.1 Begrippen en vensters in spss
**Belangrijke begrippen in SPSS:**
* **Name**: De naam van de variabele [33](#page=33).
* **Type**: Het soort variabele, zoals numeriek (getal), string (tekst) of datum [33](#page=33).
* **Width**: Hoe breed de variabele is in termen van het aantal karakters of cijfers [33](#page=33).
* **Decimals**: Het aantal decimalen dat wordt weergegeven [33](#page=33).
* **Label**: Een bredere beschrijving van de variabelenaam [33](#page=33).
* **Values**: Hieraan kunnen tekstlabels worden toegekend aan verschillende categorieën van een categorische variabele [33](#page=33).
* **Missing**: Hier worden user missing waarden gedefinieerd [33](#page=33).
**SPSS heeft drie basisvensters:**
1. **Data Editor**: Voor het beheren van de dataset (bestandsformaat.SAV) [33](#page=33).
2. **Output venster**: Voor het weergeven van de resultaten van analyses (bestandsformaat.SPV) [33](#page=33).
3. **Syntax editor**: Voor het schrijven en opslaan van commando's (bestandsformaat.SPS) [33](#page=33).
#### 4.1.2 Data prepareren en invoeren
Voor data-invoer is een **codeboek** essentieel, waarin wordt vastgelegd hoe de data is gecodeerd. Het codeboek wordt verschillend ingevuld afhankelijk van het type vraag: gesloten, halfgesloten of open vragen [34](#page=34).
* **Gesloten vragen** (numeriek): De antwoorden zijn direct de waarden, geen aparte coderingsfase nodig (bv. leeftijd) [34](#page=34).
* **Halfgesloten vragen**: Vereisen specifieke codering van de antwoordopties [35](#page=35).
**Missing values** zijn waarden die niet zijn ingevuld. Er zijn twee soorten:
1. **System missing values**: Ontstaan wanneer een respondent een vraag niet heeft beantwoord of als de vraag niet relevant was [36](#page=36).
2. **User missing values**: Waarden die de gebruiker zelf als ontbrekend heeft gecodeerd [36](#page=36).
**Manuele data-invoer:**
1. Maak een duidelijk codeboek [36](#page=36).
2. Ga naar `File` > `New` > `Data` [36](#page=36).
3. Gebruik de `Data View` om gegevens in te voeren [36](#page=36).
4. Documenteer de variabelen (label, decimalen, values) in de `Variable View` [36](#page=36).
5. Bij `Values` klik op de drie puntjes om waarden en labels in te stellen [36](#page=36).
**Importeren van databestanden:**
* **Excel (.xls of.xlsx)**: Ga naar `File` > `Import Data` > `Excel` [37](#page=37).
* **Tekstbestanden (.txt,.csv of.dat)**: Ga naar `File` > `Import Data` > `CSV Data…` en volg de instructies [37](#page=37).
#### 4.1.3 Datamanipulatie
Datamanipulatie omvat wijzigingen aanbrengen aan bestaande variabelen in de dataset [38](#page=38).
##### 4.1.3.1 Compute
Met de `COMPUTE`-functie kunnen nieuwe variabelen worden aangemaakt op basis van bewerkingen of berekeningen met één of meerdere bestaande variabelen. Dit is nuttig om bijvoorbeeld meerdere items die hetzelfde concept meten, samen te voegen tot een samengestelde score [39](#page=39) [40](#page=40).
**Hoe te gebruiken:**
1. Ga naar `Transform` > `Compute Variable` [40](#page=40).
2. Geef een naam op voor de nieuwe variabele in het `Target Variable`-veld. Variabelenamen mogen geen spaties bevatten en niet met een cijfer beginnen [40](#page=40).
3. Voer de bewerking uit in het `Numeric Expression`-veld [41](#page=41).
4. Klik op `OK`. De nieuwe variabele verschijnt onderaan de `Variable View` [41](#page=41).
In het `Compute`-venster kunnen ook specifiekere bewerkingen worden uitgevoerd met behulp van 'function groups' en 'Functions and Special Variables'. Voorbeelden hiervan zijn [42](#page=42):
* **Arithmetic functions**: Zoals `ABS` voor de absolute waarde [42](#page=42).
* **Date Arithmetic**: Functies zoals `Datediff` voor het berekenen van tijdsverschillen tussen datums [42](#page=42).
* **Concatenate**: Om tekstvariabelen samen te voegen (bv. voornaam en familienaam). Hierbij is het belangrijk om in `Type & Label…` 'String' te selecteren met voldoende 'width' [42](#page=42) [43](#page=43).
##### 4.1.3.2 Recode
`Recode` wordt gebruikt om één bestaande variabele om te zetten naar een nieuwe variabele door enkel de codering aan te passen. Dit kan bijvoorbeeld zijn om 'man' te coderen als 1 en 'vrouw' als 0 [39](#page=39).
**Eerste manier (Recode into different variables):**
1. Ga naar `Transform` > `Recode into Different Variables` [40](#page=40).
2. Selecteer de variabele die je wilt hercoderen [40](#page=40).
3. Geef een naam op voor de `Output Variable` [40](#page=40).
4. Klik op `Change` [40](#page=40).
5. Klik op `Old and New Values` [40](#page=40).
6. Definieer de oude en nieuwe waarden. Druk op `Add` na elke definitie [40](#page=40).
7. Klik op `Continue` [40](#page=40).
8. Documenteer de nieuwe variabele (labels, value labels, missing labels) in de `Variable View` [40](#page=40).
9. Controleer de hercodering met een kruistabel (`Analyze` > `Descriptive Statistics` > `Crosstabs`), waarbij de oude variabele in `Row` en de nieuwe in `Column` wordt geplaatst [40](#page=40).
**Tweede manier (voor continue naar categorische variabele):**
1. Ga naar `Transform` > `Recode into Different Variables` [41](#page=41).
2. Selecteer de continue variabele [41](#page=41).
3. Geef een naam op voor de `Output Variable` [41](#page=41).
4. Klik op `Change` [41](#page=41).
5. Klik op `Old and New Values` [41](#page=41).
6. Specificeer de ranges en ken de nieuwe categorische waarde toe. Bijvoorbeeld, de laagste waarde tot een bepaald punt wordt categorie 1. Gebruik `Range` voor tussenliggende waarden en `Highest` voor de hoogste waarden [41](#page=41).
7. Voor missing values, selecteer `System or user missing` en ken `System missing` toe als new value [41](#page=41).
8. Klik op `Continue` en `OK` [41](#page=41).
9. Documenteer de nieuwe variabele in de `Variable View` (bv. decimalen, labels) [41](#page=41).
10. Controleer de hercodering met een kruistabel (`Analyze` > `Descriptive Statistics` > `Crosstabs`), met de oude variabele in `Row` en de nieuwe in `Column` [41](#page=41).
#### 4.1.4 Select cases
`Select Cases` maakt het mogelijk om tijdelijk een specifieke groep respondenten (cases) te selecteren voor verdere analyses. Dit is handig als je bijvoorbeeld analyses wilt uitvoeren op een specifieke subgroep, zoals alleen mannen [43](#page=43).
**Hoe te selecteren:**
1. Ga naar `Data` > `Select Cases` [44](#page=44).
2. Kies de optie `If condition is satisfied` [44](#page=44).
3. Klik op `If` en voer de gewenste formule in [44](#page=44).
4. Klik op `Continue` en `OK` [44](#page=44).
5. In de `Data View` zie je dat niet-geselecteerde cases zijn doorgestreept [44](#page=44).
**Belangrijk:** Na de analyse moet de selectie verwijderd worden om te voorkomen dat SPSS verdere analyses toepast op de gefilterde dataset. Dit doe je door bij `Select Cases` de optie `All cases` te selecteren [44](#page=44).
**Methoden voor selectie:**
* **Random samples of cases**: Selecteert een willekeurige steekproef [44](#page=44).
* **Based on time or case range**: Selecteert cases op basis van hun positie in de dataset [44](#page=44).
* **Use filter variable**: Gebruikt een reeds bestaande variabele als filter [44](#page=44).
**Operators voor voorwaarden:**
* Logische operatoren: `AND` (`&`), `OR` (`|`), `NOT` [44](#page=44).
* Vergelijkingsoperatoren: `GE` (`>=`), `GT` (`>`), `LE` (`<=`), `LT` (`<`), `EQ` (`=`), `NE` (`<>`) [45](#page=45).
* Functies: `missing(variabele)`, `not missing(variabele)` [45](#page=45).
**Output-opties:**
* **Filter out unselected cases**: Geselecteerde cases worden gedeactiveerd, maar blijven behouden. Dit is de meest gebruikelijke en veilige optie [45](#page=45).
* **Copy selected cases to a new dataset**: Exporteert de selectie als een nieuwe dataset [46](#page=46).
* **Delete unselected case**: Verwijder niet-geselecteerde cases definitief. Dit is de minst aanbevolen optie omdat het destructief is [46](#page=46).
> **Tip:** Gebruik voldoende haakjes bij het formuleren van voorwaarden om zeker te zijn dat SPSS de juiste bewerking uitvoert [46](#page=46).
### 4.2 Tweedimensionale analyses met spss
Tweedimensionale analyses, met name kruistabellen, zijn essentieel voor het onderzoeken van de relatie tussen twee categorische variabelen [46](#page=46).
#### 4.2.1 Kruistabellen maken en interpreteren
Een kruistabel toont de frequentieverdeling van twee categorische variabelen [46](#page=46).
**Hoe te maken:**
1. Ga naar `Analyze` > `Descriptive Statistics` > `Crosstabs` [46](#page=46).
2. Plaats de ene variabele in `Row` en de andere in `Column` [46](#page=46).
3. Klik op `OK` om de kruistabel te genereren [46](#page=46).
**Interpretatie van de output:**
* De eerste tabel geeft het aantal **valid** en **missing cases** weer. Alleen cases met geldige scores voor beide variabelen worden opgenomen [47](#page=47).
* De tweede tabel toont de absolute celfrequenties. Dit is vaak niet voldoende voor interpretatie; men heeft ook percentages en significantietesten nodig [47](#page=47).
**Meer gedetailleerde kruistabellen:**
1. Genereer de kruistabel opnieuw [47](#page=47).
2. Klik op `Statistics` en selecteer gewenste statistieken zoals `Chi-square` of `Phi and Cramer's V` [47](#page=47).
3. Klik op `Cell Display` om extra opties te kiezen:
* `Expected`: De verwachte waarde onder de nulhypothese (geen verband) [47](#page=47).
* `Unstandardized residual`: Het verschil tussen de `observed` en `expected` count [47](#page=47).
* Rij-, kolom- en totaalpercentages kunnen ook worden aangevraagd [47](#page=47).
#### 4.2.2 Controleren voor een derde variabele
Om te onderzoeken of verbanden geen schijnverbanden zijn, kan gecontroleerd worden voor een derde (categorische) variabele. Dit is een eerste stap naar multivariate analyse [47](#page=47).
**Hoe te controleren voor een derde variabele:**
1. Ga naar `Analyze` > `Descriptive Statistics` > `Crosstabs` [48](#page=48).
2. Selecteer de variabelen voor `Row` en `Column` [48](#page=48).
3. Voeg de derde controlevariabele toe in het `Layer 1` of `Layer 2` veld [48](#page=48).
4. Pas de gewenste bewerkingen toe in `Cell Display` of `Statistics` [48](#page=48).
**Interpretatie van de output met 3 variabelen:**
De tabellen worden opgesplitst per waarde van de controlevariabele (bv. per geslacht), plus een 'Total' groep. Hierdoor worden feitelijk meerdere kruistabellen getoond, elk met eigen significantietoetsen en `Symmetric Measures`. Men kan zo nagaan of het verband tussen de eerste twee variabelen standhoudt na controle voor de derde variabele. De `Chi-square` waarden en p-waarden geven aan of het verband veralgemeend kan worden naar de populatie. `Cramer's V` meet de sterkte van het verband [51](#page=51).
#### 4.2.3 Kruistabel: rij, kolom en totaal percentages
Het gebruik van rij-, kolom- en totaalpercentages in kruistabellen geeft meer inzicht in hoe variabelen zich tot elkaar verhouden [50](#page=50).
#### 4.2.4 Statistieken van samenhang opvragen
SPSS biedt twee mogelijkheden om statistieken van samenhang op te vragen. Dit omvat typisch metingen zoals Chi-kwadraat, Phi en Cramer's V, die de sterkte en significantie van associaties tussen categorische variabelen kwantificeren [47](#page=47) [53](#page=53).
---
# Verbanden tussen variabelen
Dit deel verkent de analyse van samenhang tussen verschillende soorten variabelen, inclusief de interpretatie van kruistabellen, associatiematen, correlatie en regressieanalyse [55](#page=55).
### 5.1 Wat is samenhang?
Samenhang tussen variabelen betekent dat de variabelen samen variëren, wat resulteert in een betere voorspelbaarheid van de ene variabele, gegeven de andere. Dit concept is cruciaal voor theorievorming in de humane wetenschappen en wordt empirisch getoetst in sociaalwetenschappelijk onderzoek. De manier waarop samenhang wordt onderzocht, hangt af van het meetniveau van de betrokken variabelen [55](#page=55).
* **Associatie:** Samenhang tussen twee categorische variabelen (nominaal of ordinaal) [55](#page=55).
* **Correlatie:** Lineaire samenhang tussen twee numerieke variabelen [55](#page=55).
Courante probleemstellingen in sociaalwetenschappelijk onderzoek betreffen vaak variabelen van verschillende meetniveaus. Gevorderde analysetechnieken zijn uitbreidingen van bivariate analyses [56](#page=56).
#### 5.1.1 Samenhang en causaliteit
Een centrale vraag in kwantitatief onderzoek is of er een causale samenhang bestaat tussen twee variabelen (X en Y). Causale samenhang is niet gelijk aan statistische samenhang. Bij een statistisch verband veranderen de kenmerken samen, terwijl een oorzakelijk verband vereist dat een verandering in X altijd een verandering in Y teweegbrengt, waarbij Y afhankelijk is van X [56](#page=56).
Drie causaliteitsvoorwaarden zijn:
1. Ze veranderen altijd samen [56](#page=56).
2. Er is een tijdsverband [56](#page=56).
3. Alternatieve hypothesen worden geëlimineerd [56](#page=56).
De analyse van samenhang in een kruistabel heeft drie doelstellingen [56](#page=56):
1. Beschrijven van de aard en richting van het verband in de onderzochte steekproef (via rij- en kolompercentages) [56](#page=56).
2. Veralgemeenbaarheid van de samenhang in de steekproef naar de populatie (via chi-kwadraattoets) [56](#page=56).
3. Bepalen van de sterkte van de samenhang (via associatiematen) [56](#page=56).
### 5.2 Samenhang tussen twee categorische variabelen
Het analyseren van samenhang tussen twee categorische variabelen omvat de volgende stappen [57](#page=57):
1. Opstellen van een kruistabel [57](#page=57).
2. Vaststellen of er een asymmetrische relatie is, waarbij een afhankelijke variabele (Y, in rijen) en een onafhankelijke variabele (X, in kolommen) worden geïdentificeerd [57](#page=57).
3. Vergelijken van de relatieve verdeling van Y voor de categorieën van X, wat de relatieve conditionele verdeling vormt [57](#page=57).
* **Rijtotalen (marginale verdeling van Y):** De som van de absolute frequenties per rij. De som van de rijtotalen is gelijk aan het totale aantal waarnemingen (N) [57](#page=57).
* **Kolomtotalen (marginale verdeling van X):** De som van de absolute frequenties per kolom. De som van de kolomtotalen is gelijk aan N [57](#page=57).
* **Conditionele verdeling van Y (gegeven X):** De verdeling van de rijvariabele Y voor een specifieke categorie van de kolomvariabele X [57](#page=57).
* **Conditionele verdeling van X (gegeven Y):** De verdeling van de kolomvariabele X voor een specifieke categorie van de rijvariabele Y [57](#page=57).
#### 5.2.1 Onafhankelijkheid en conditionele verdelingen
Er is sprake van onafhankelijkheid tussen twee variabelen wanneer de relatieve conditionele verdeling van de afhankelijke variabele (Y) niet verschilt binnen de categorieën van de onafhankelijke variabele (X) [58](#page=58).
* **Asymmetrische relatie:** Conventioneel staat de afhankelijke variabele Y in de rijen en de onafhankelijke variabele X in de kolommen. Percentages worden berekend in de richting van de onafhankelijke variabele [58](#page=58).
* **Kolompercentages:** Berekening: `(celfrequentie / kolomtotaal) * 100`. Deze worden gebruikt om de relatieve verdeling van Y te vergelijken tussen categorieën van X [58](#page=58).
* **Rijpercentages:** Berekening: `(celfrequentie / rijtotaal) * 100`. Deze worden gebruikt om de relatieve verdeling van X te vergelijken tussen categorieën van Y [58](#page=58).
**Tip:** Rij- en kolompercentages moeten altijd dwars op de richting worden vergeleken waarin ze zijn berekend. Het vergelijken van kolompercentages kan een indicatie geven van de sterkte van het verband, maar strikt genomen beschrijft het alleen de aard en richting. Hoe verder de relatieve verdelingen uit elkaar liggen, hoe sterker het verband [58](#page=58).
#### 5.2.2 Toeval of samenhang: significantietoetsen
Soms kunnen verbanden het gevolg zijn van toeval. Significatietoetsen helpen om dit te beoordelen. Een significatietoets bestaat uit vijf stappen [59](#page=59):
1. **Assumpties:** Data verkregen via toevalssteekproef, twee categorische variabelen, verwachte aantal per cel is minstens 5 [59](#page=59).
2. **Hypothesen:** De nulhypothese (H0) stelt dat er geen significant verband bestaat en dat waargenomen verbanden louter toeval zijn [59](#page=59).
3. **Toetsstatistiek (Chi-kwadraat):** Vergelijkt geobserveerde celfrequenties met verwachte celfrequenties (bij afwezigheid van een statistisch verband) [59](#page=59).
* Verwachte celfrequentie ($E_{ij}$) bij statistische onafhankelijkheid wordt berekend op basis van marginalen [59](#page=59).
* De formule voor chi-kwadraat ($\chi^2$) is:
$$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$
waarbij $O_{ij}$ de geobserveerde frequentie is en $E_{ij}$ de verwachte frequentie in cel (i,j) [60](#page=60).
* Een hogere $\chi^2$-waarde duidt op een grotere discrepantie, een sterker verband en een grotere onwaarschijnlijkheid van de nulhypothese [60](#page=60).
4. **P-waarde:** De kans om een $\chi^2$-waarde te verkrijgen die minstens zo extreem is als de waargenomen waarde, gegeven dat de nulhypothese waar is [60](#page=60).
* **Vrijheidsgraden ($\nu$):** Bepalen de vorm van de $\chi^2$-verdeling. Voor een $r \times c$ kruistabel is dit $\nu = (r-1)(c-1)$. Een $2 \times 2$ tabel heeft 1 vrijheidsgraad [60](#page=60) [61](#page=61).
* Als de p-waarde kleiner is dan het gekozen significantieniveau (bv. 0.05), wordt de nulhypothese verworpen [60](#page=60).
5. **Conclusie:** Rapporteert de p-waarde en interpreteert de resultaten in het licht van de vraagstelling [61](#page=61).
### 5.3 Associatiematen voor categorische variabelen
Associatiematen kwantificeren de sterkte van de samenhang tussen variabelen en maken het mogelijk om verbanden te vergelijken. Ze zijn conventioneel begrensd tussen 0 en 1 voor nominale kenmerken, en tussen -1 en +1 vanaf ordinaal niveau [62](#page=62).
* **Symmetrische associatiematen:** Geen onderscheid tussen afhankelijke en onafhankelijke variabelen [62](#page=62).
* **Asymmetrische associatiematen:** Maken onderscheid tussen afhankelijke en onafhankelijke variabelen [62](#page=62).
#### 5.3.1 Associatiematen voor nominale variabelen
* **Phi ($\phi$):** Gebaseerd op de chi-kwadraat, een symmetrische associatiemaat. Voor een $2 \times 2$ tabel [62](#page=62):
$$\phi = \sqrt{\frac{\chi^2}{N}}$$
* **Cramer's V:** Een symmetrische associatiemaat, gebaseerd op chi-kwadraat. De formule is [63](#page=63):
$$V = \sqrt{\frac{\chi^2}{N \cdot \min(r-1, c-1)}}$$
waarbij $r$ het aantal rijen en $c$ het aantal kolommen is. De maximumwaarde is 1 [63](#page=63).
#### 5.3.2 Associatiematen voor ordinale variabelen
Voor ordinale variabelen kan ook via een kruistabel iets over de richting van het verband gezegd worden, dankzij de rangordening [63](#page=63).
* **Gamma ($\gamma$):** Een symmetrische associatiemaat die varieert van -1 tot +1. Grote absolute waarden weerspiegelen een sterke associatie [63](#page=63) [64](#page=64).
$$\gamma = \frac{C - D}{C + D}$$
waarbij C het aantal concordante paren is (paren waarbij de ene eenheid op beide variabelen hoger of lager scoort dan de andere) en D het aantal discordante paren is (paren waarbij de ene eenheid op de ene variabele hoger en op de andere lager scoort dan de andere) [64](#page=64).
* **Kendall's tau-b ($\tau_b$):** Een rangcorrelatiecoëfficiënt die nagaat of de rangorde van respondenten voor kenmerk X overeenkomt met hun rangorde voor kenmerk Y. Gelijk aan 0 bij onafhankelijkheid, +1 bij perfecte positieve afhankelijkheid, en -1 bij perfecte negatieve afhankelijkheid [64](#page=64) [65](#page=65).
* **Sommer'd:** Lijkt op gamma, maar is geschikt voor asymmetrische verbanden en houdt rekening met geknoopte paren op de afhankelijke variabele (paren met dezelfde waarde op de afhankelijke variabele) [65](#page=65).
$$Sommer'd = \frac{C - D}{C + D + T_Y}$$
waarbij $T_Y$ het aantal geknoopte paren op de afhankelijke variabele is [66](#page=66).
* **Spearman's rho ($\rho$):** Een rangcorrelatiecoëfficiënt die de correlatie tussen rangnummers meet. Het is een symmetrische maat gebaseerd op de verschillen in rangorde [66](#page=66).
### 5.4 Verbanden tussen metrische variabelen
#### 5.4.1 Spreidingsdiagram (Scatterplot)
Een spreidingsdiagram is een grafische weergave die de samenhang of correlatie tussen twee kwantitatieve variabelen zichtbaar maakt. Het is een puntenwolk gebaseerd op de waarden van onderzoekseenheden voor twee variabelen [66](#page=66) [67](#page=67).
* **Asymmetrische relatie:** Onafhankelijke variabele op de X-as, afhankelijke op de Y-as [67](#page=67).
* **Symmetrische relatie:** De as-indeling maakt niet uit [67](#page=67).
Het doel van een spreidingsdiagram is het geven van een overzicht van de trend, richting en sterkte van het verband [67](#page=67):
1. **Trend:** Lineair, curvilineair, clusters of geen patroon [68](#page=68).
2. **Richting:** Positief, negatief, of geen [68](#page=68).
* **Positief verband:** Hoge waarden van X gaan samen met hoge waarden van Y, en lage waarden van X met lage waarden van Y [69](#page=69).
* **Negatief verband:** Hoge waarden van de ene variabele gaan samen met lage waarden van de andere variabele [69](#page=69).
3. **Sterkte:** Hoe geconcentreerd de punten zijn rond de trendlijn [69](#page=69).
#### 5.4.2 Covariantie
Covariantie is een associatiemaat voor interval- en ratiomeetniveau die aangeeft in welke mate de waarden voor twee variabelen bij een groep respondenten samenhangen of covariëren [69](#page=69).
Formule:
$$Cov(X, Y) = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{n}$$
of met gebruik van de steekproefvariantie:
$$Cov(X, Y) = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{n-1}$$
* **Interpretatie:** Een positieve covariantie duidt op een positieve samenhang, nul op lineaire onafhankelijkheid, en een negatieve op een negatieve samenhang [70](#page=70).
* **Nadelen:** De covariantie heeft geen vaste bovengrens of ondergrens en is gevoelig voor veranderingen in meeteenheden [70](#page=70).
#### 5.4.3 Pearson's correlatiecoëfficiënt (r)
Pearson's correlatiecoëfficiënt is een gestandaardiseerde maat voor de lineaire samenhang tussen twee interval- of ratiovariabelen [70](#page=70).
Formule:
$$r = \frac{Cov(X, Y)}{s_x s_y} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}}$$
waarbij $s_x$ en $s_y$ de standaardafwijkingen van X en Y zijn [70](#page=70).
* **Interpretatie:**
* Positieve $r$: positief verband [71](#page=71).
* Negatieve $r$: negatief verband [71](#page=71).
* $r$ dicht bij +1 of -1: sterk lineair verband [71](#page=71).
* $r$ dicht bij 0: zwak lineair verband [71](#page=71).
**Tip:** Een correlatiecoëfficiënt van 0 betekent niet noodzakelijk geen verband; het kan duiden op een niet-lineair verband of op de aanwezigheid van outliers [71](#page=71).
#### 5.4.4 Rangcorrelatiecoëfficiënt
Rangcorrelatiecoëfficiënten zijn geschikt voor het analyseren van samenhang tussen ordinale variabelen, omdat ze ongevoelig zijn voor de specifieke waarden zolang de intrinsieke ordening wordt gerespecteerd [72](#page=72).
* **Spearman's rangcorrelatiecoëfficiënt ($\rho$):** Berekend op de rangnummers van de variabelen, vergelijkbaar met Pearson's correlatiecoëfficiënt [72](#page=72).
Formule:
$$\rho = 1 - \frac{6 \sum d_i^2}{n(n^2-1)}$$
waarbij $d_i$ het verschil is tussen de rangordes van een observatie en $n$ het aantal observaties [72](#page=72).
Resultaten variëren van -1 (perfecte negatieve samenhang) tot +1 (perfecte positieve samenhang) [72](#page=72).
### 5.5 Regressieanalyse
Regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele (Y) en een of meer onafhankelijke variabelen (X) te modelleren en te voorspellen [73](#page=73).
#### 5.5.1 Het bivariate regressiemodel
1. **Identificeren van variabelen:** Afhankelijke variabele Y, onafhankelijke variabele X [73](#page=73).
2. **Grafische weergave:** Een spreidingsdiagram toont de relatie tussen Y en X [73](#page=73).
3. **Lineaire regressie:** Het verklaren en voorspellen van Y op basis van X [73](#page=73).
Het model van een regressierechte wordt beschreven door:
$$E(y) = a + bx$$
of voor de voorspelde waarde:
$$\hat{y} = a + bx$$
waarbij:
* $a$ (intercept): de voorspelde/verwachte waarde van Y als X=0 [73](#page=73).
* $b$ (richtingscoëfficiënt/slope): de verwachte verandering in Y wanneer X met één eenheid toeneemt [73](#page=73).
#### 5.5.2 Residuelen
Residuelen ($\epsilon_i$) representeren het verschil tussen de geobserveerde waarde van Y ($y_i$) en de voorspelde waarde van Y ($\hat{y}_i$) [75](#page=75).
$$\epsilon_i = y_i - \hat{y}_i$$
* **Positief residu:** De geobserveerde waarde is hoger dan voorspeld (onderschatting) [75](#page=75).
* **Residu gelijk aan 0:** De geobserveerde waarde kon exact worden voorspeld [75](#page=75).
* **Negatief residu:** De geobserveerde waarde is lager dan voorspeld (overschatting) [75](#page=75).
Residuelen weerspiegelen de informatie over Y die niet verklaard wordt door X [75](#page=75).
#### 5.5.3 Kleinste kwadratenmethode
De kleinste kwadratenmethode wordt gebruikt om de regressierechte te schatten door de som van de gekwadrateerde residuelen (voorspellingsfouten) te minimaliseren [76](#page=76).
#### 5.5.4 Verband correlatie en regressie
* **Correlatie (r):** Beschrijft de sterkte van een lineaire associatie, heeft hetzelfde teken als de slope ($b$) en ligt tussen -1 en +1 [77](#page=77).
* **$R^2$ (Determinatiecoëfficiënt):** Geeft aan hoe goed de voorspellingen van Y ($\hat{y}$) de geobserveerde Y-waarden benaderen en hoe goed het model de variatie in Y kan verklaren. Het is de proportionele reductie in fout [78](#page=78):
$$R^2 = 1 - \frac{SSE}{SST} = \frac{SSR}{SST}$$
waarbij SST de totale som van kwadraten is, SSE de som van gekwadrateerde fouten (residuelen), en SSR de som van kwadraten verklaard door de regressie [78](#page=78).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Beschrijvende statistiek | Een tak van statistiek die zich richt op het organiseren, samenvatten en presenteren van gegevens op een duidelijke en efficiënte manier, vaak met behulp van maten zoals percentages, gemiddelden en standaardafwijkingen, alsook grafieken. |
| Inferentiële statistiek | Een tak van statistiek die methoden gebruikt om uitspraken te doen over een volledige populatie op basis van een beperkt aantal gegevens verkregen uit een steekproef. Dit omvat technieken zoals regressieanalyse om verschillen en samenhangen te verklaren. |
| Onderzoekspopulatie | De volledige groep van eenheden (mensen, objecten, etc.) die de onderzoeker wenst te bestuderen en waarover uitspraken gedaan moeten worden. |
| Onderzoekseenheid | Een individueel element of subject binnen de onderzoekspopulatie waarover gegevens worden verzameld en geanalyseerd. |
| Variabele | Een kenmerk van onderzoekseenheden dat in waarde kan variëren, zoals leeftijd, geslacht of inkomen. Waarden kunnen numeriek zijn of categorisch. |
| Datamatrix/dataset | Een tabelvormige structuur waarin onderzoeksgegevens zijn georganiseerd, waarbij rijen onderzoekseenheden voorstellen en kolommen de variabelen die gemeten zijn. |
| Steekproef | Een representatief deel van de onderzoekspopulatie dat wordt onderzocht, omdat het onderzoeken van de gehele populatie vaak onmogelijk of onpraktisch is. |
| Parameter | Een kengetal dat een kenmerk van de gehele populatie beschrijft, bijvoorbeeld het populatiegemiddelde ($\mu$) of de populatiestandaardafwijking ($\sigma$). |
| Steekproefstatistiek | Een kengetal dat een kenmerk van een steekproef beschrijft en dient als schatter voor een populatieparameter, bijvoorbeeld het steekproefgemiddelde ($\bar{x}$) of de steekproefstandaardafwijking ($s$). |
| Meetniveau | De manier waarop een variabele wordt gemeten, wat bepaalt welke statistische analyses mogelijk zijn. De vier belangrijkste meetniveaus zijn nominaal, ordinaal, interval en ratio. |
| Nominale variabele | Een categorische variabele waarbij de waarden geen inherente volgorde of wiskundige betekenis hebben, enkel dienen ter classificatie (bv. geslacht, politieke partij). |
| Ordinale variabele | Een categorische variabele waarbij de waarden wel een logische volgorde hebben (rangorde), maar de verschillen tussen de waarden niet per se gelijk zijn (bv. opleidingsniveau, rangen in een wedstrijd). |
| Intervalvariabele | Een kwantitatieve variabele met een vaste meeteenheid en rangorde, maar zonder een absoluut nulpunt. De verschillen tussen waarden zijn betekenisvol (bv. temperatuur in Celsius, geboortejaar). |
| Ratiovariabele | Een kwantitatieve variabele met een vaste meeteenheid, rangorde en een absoluut nulpunt. Alle wiskundige bewerkingen zijn mogelijk (bv. gewicht, aantal vrienden). |
| Dichotome variabele | Een categorische variabele die slechts twee mogelijke waarden of categorieën heeft (bv. ja/nee, man/vrouw). |
| Discrete variabele | Een kwantitatieve variabele die alleen gehele getallen kan aannemen, zonder tussenliggende kommagetallen (bv. aantal kinderen per gezin). |
| Continue variabele | Een kwantitatieve variabele die in principe elke waarde binnen een bepaald bereik kan aannemen, inclusief kommagetallen (bv. lengte, snelheid). |
| Frequentieverdeling | Een weergave die aangeeft hoe vaak elke waarde of categorie van een variabele voorkomt in een dataset, uitgedrukt in absolute of relatieve aantallen. |
| Absolute frequentie | Het aantal keren dat een specifieke waarde of categorie van een variabele voorkomt in een dataset. |
| Relatieve frequentie | De absolute frequentie gedeeld door de totale steekproefgrootte, wat de proportie van die waarde of categorie weergeeft. |
| Staafdiagram | Een grafische weergave voor categorische of discrete variabelen, waarbij de hoogte van rechthoeken de frequentie van elke categorie of waarde voorstelt. |
| Histogram | Een grafische weergave voor continue variabelen of gegroepeerde discrete variabelen, waarbij aangrenzende rechthoeken de frequentie van waarden binnen specifieke intervallen weergeven. |
| Modus | De waarde of categorie van een variabele die het vaakst voorkomt in een dataset; kan vanaf nominaal meetniveau worden bepaald. |
| Mediaan | De middelste waarde in een geordende dataset; de waarde die de geobserveerde gegevens in twee gelijke helften verdeelt; kan vanaf ordinaal meetniveau worden bepaald. |
| Rekenkundig gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden; een centrummaat die het meest geschikt is voor interval- en ratiovariabelen. |
| Kwartielen | Waarden die een geordende dataset verdelen in vier gelijke delen; Q1 (25%), Q2 (mediaan, 50%), en Q3 (75%). |
| Decielen | Waarden die een geordende dataset verdelen in tien gelijke delen. |
| Percentielen | Waarden die een geordende dataset verdelen in honderd gelijke delen. |
| Spreidingsbreedte (Range) | Het verschil tussen de grootste en de kleinste waargenomen waarde in een dataset; een simpele maat van spreiding, maar gevoelig voor uitschieters. |
| Interkwartielafstand (IQR) | Het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1); geeft de spreiding van de middelste 50% van de gegevens weer en is robuust tegen uitschieters. |
| Variantie | De gemiddelde gekwadrateerde afwijking van de waarden ten opzichte van het gemiddelde; een maat voor spreiding die eenheden kwadrateert. |
| Standaardafwijking | De vierkantswortel uit de variantie; een veelgebruikte spreidingsmaat die uitgedrukt is in dezelfde eenheden als de oorspronkelijke variabele. |
| Variatiecoëfficiënt | De ratio van de standaardafwijking tot het gemiddelde; een relatieve spreidingsmaat die nuttig is voor het vergelijken van de spreiding van groepen met verschillende gemiddelden. |
| Normale verdeling (Gauss-curve) | Een symmetrische, klokvormige kansverdeling die veel voorkomt in de natuur en sociale wetenschappen. Het gemiddelde, de mediaan en de modus vallen samen in het midden. |
| Scheefheid (Skewness) | Een maat voor de asymmetrie van een verdeling; positieve scheefheid betekent een lange staart aan de rechterkant, negatieve scheefheid een lange staart aan de linkerkant. |
| Afplatting (Kurtosis) | Een maat voor de "spitsheid" of "platheid" van de staarten van een kansverdeling in vergelijking met een normale verdeling. |
| Associatie | De mate van samenhang tussen twee categorische variabelen (nominaal of ordinaal). |
| Correlatie | De mate van lineaire samenhang tussen twee kwantitatieve variabelen (interval of ratio). |
| Kruistabel | Een tabel die de frequentieverdelingen van twee categorische variabelen weergeeft, waardoor de relatie tussen deze variabelen gevisualiseerd en geanalyseerd kan worden. |
| Chi-kwadraattoets | Een statistische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen door de geobserveerde frequenties te vergelijken met de verwachte frequenties onder de nulhypothese van onafhankelijkheid. |
| Vrijheidsgraden | Het aantal waarden in een statistische berekening dat vrij kan variëren; in een kruistabel bepaald door het aantal rijen en kolommen (r-1)*(c-1). |
| P-waarde | De kans om een resultaat te observeren dat minstens zo extreem is als het gevonden resultaat, onder aanname dat de nulhypothese waar is. Een lage p-waarde leidt tot verwerping van de nulhypothese. |
| Phi-coëfficiënt ($\phi$) | Een associatiemaat voor twee nominale variabelen, afgeleid van de chi-kwadraatstatistiek, die de sterkte van het verband aangeeft tussen 0 en 1. |
| Cramer's V | Een generalisatie van de phi-coëfficiënt voor grotere kruistabellen (meer dan 2x2); een symmetrische associatiemaat die de sterkte van het verband tussen twee categorische variabelen aangeeft op een schaal van 0 tot 1. |
| Gamma | Een associatiemaat voor ordinale variabelen die de concordante en discordante paren analyseert; de waarde varieert van -1 tot +1. |
| Kendall's tau ($\tau$) | Een rangcorrelatiecoëfficiënt die de mate van overeenkomst in rangorde tussen twee geordende variabelen meet; waarde varieert van -1 tot +1. |
| Spearman's rho ($\rho$) | Een rangcorrelatiecoëfficiënt die de sterkte van de lineaire relatie tussen de rangordes van twee variabelen meet; lijkt op de Pearson-correlatie maar wordt berekend op rangnummers. |
| Spreidingsdiagram (Scatterplot) | Een grafische weergave die de relatie tussen twee kwantitatieve variabelen toont door punten weer te geven op basis van hun gezamenlijke waarden. |
| Covariantie | Een maat die de gezamenlijke variatie van twee variabelen aangeeft; een positieve covariantie duidt op een positieve relatie, een negatieve op een negatieve relatie. De schaal is niet gestandaardiseerd. |
| Pearson's correlatiecoëfficiënt ($r$) | Een gestandaardiseerde maat voor de lineaire samenhang tussen twee kwantitatieve variabelen, variërend van -1 (perfect negatief) tot +1 (perfect positief), waarbij 0 onafhankelijkheid aangeeft. |
| Regressieanalyse | Een statistische methode die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren en voorspellingen te doen. |
| Intercept ($a$ of $b_0$) | De verwachte waarde van de afhankelijke variabele wanneer de onafhankelijke variabele gelijk is aan nul; het snijpunt van de regressielijn met de Y-as. |
| Richtingscoëfficiënt (Slope, $b$) | Geeft de verwachte verandering in de afhankelijke variabele aan voor elke eenheidstoename van de onafhankelijke variabele. |
| Residu | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de door het regressiemodel voorspelde waarde; geeft de onverklaarde variatie aan. |
| Kleinste kwadratenmethode | Een methode om de coëfficiënten van een regressielijn te schatten door de som van de gekwadrateerde residuen (voorspellingsfouten) te minimaliseren. |
| $R^2$ (Determinatiecoëfficiënt) | Geeft het proportionele deel van de variatie in de afhankelijke variabele aan dat verklaard wordt door de variatie in de onafhankelijke variabele(n) in het regressiemodel. |
| Tijdreeks | Een reeks kwantitatieve gegevens geordend in chronologische volgorde met een vast tijdsinterval, waarbij de volgorde van de data van fundamenteel belang is voor de analyse. |
| Trend | Een algemene, langetermijnrichting (stijgend of dalend) in een tijdreeks. |
| Seizoensgebondenheid | Regelmatige, cyclische patronen in een tijdreeks die zich herhalen binnen een bepaalde periode (bv. dag, week, maand, jaar). |
| Voortschrijdend gemiddelde | Een techniek om trends in tijdreeksen te identificeren door het gemiddelde van opeenvolgende datapunten over een bepaalde periode te berekenen. |
Cover
Sessie 1 Datareductie.pdf
Summary
# Basisprincipes van factoranalyse
Factoranalyse is een techniek die wordt gebruikt om het aantal variabelen te reduceren tot een beheersbaarder aantal factoren, met als doel onderliggende constructies in de data te identificeren en te interpreteren [4](#page=4).
### 1.1 Introductie tot factoranalyse
Factoranalyse is een statistische methode die wordt toegepast om de complexiteit van datasets te verminderen door de relaties tussen een reeks geobserveerde variabelen te analyseren en deze te groeperen in een kleiner aantal latente variabelen, ook wel factoren genoemd. Dit proces staat bekend als datareductie. Het helpt bij het identificeren van onderliggende constructies of concepten die ten grondslag liggen aan de geobserveerde variabelen [4](#page=4).
### 1.2 Doel van factoranalyse
De primaire doelen van factoranalyse zijn tweeledig:
* **Datareductie:** Het reduceren van een groot aantal variabelen tot een kleiner, beter hanteerbaar aantal factoren. Dit vereenvoudigt de analyse en presentatie van de gegevens [4](#page=4).
* **Substantiële interpretatie:** Het identificeren en benoemen van de onderliggende constructies (factoren) die de geobserveerde variabelen vertegenwoordigen. Dit maakt het gemakkelijker om de betekenis van de gegevens te begrijpen [4](#page=4).
### 1.3 Vereisten voor factoranalyse
Factoranalyse vereist een zekere mate van correlatie (gerelateerdheid) tussen de variabelen die worden geanalyseerd. Als variabelen geen significante lineaire relatie vertonen, is factoranalyse minder geschikt [5](#page=5).
> **Tip:** De aanwezigheid van correlaties tussen variabelen is cruciaal. Als alle variabelen onafhankelijk zijn, kan factoranalyse geen zinvolle factoren identificeren.
### 1.4 Voorbeeld: Best Buy consumentenonderzoek
Best Buy identificeerde negen verschillende attributen van hun winkels en service die de winkelkeuze van consumenten beïnvloeden. De onderzoeksvraag was of consumenten evalueren in meer algemene, brede termen die samengesteld zijn uit deze negen specifieke attributen. Als dit het geval is, kan Best Buy deze bredere dimensies gebruiken voor planning en actie. Factoranalyse helpt bij het identificeren van deze brede dimensies, of factoren, uit de gegevens van gedetailleerde consumentenevaluaties [6](#page=6).
#### 1.4.1 Geëvalueerde attributen
De negen attributen die in het Best Buy onderzoek werden geëvalueerd, waren [7](#page=7):
* A1 Prijsniveau
* A2 Winkelpersoneel
* A3 Retourbeleid
* A4 Productbeschikbaarheid
* A5 Productkwaliteit
* A6 Assortimentdiepte
* A7 Assortimentbreedte
* A8 Service in de winkel
* A9 Winkelatmosfeer
Deze attributen werden beoordeeld op een schaal van "Zeer Slecht" tot "Zeer Goed" [1](#page=1) [7](#page=7).
#### 1.4.2 Correlatiematrix
De resultaten van de enquêtes van 100 respondenten werden geanalyseerd met behulp van een correlatiematrix. Een correlatiecoëfficiënt is een getal tussen -1 en 1 dat de mate meet waarin twee variabelen lineair gerelateerd zijn. Een veelgebruikte drempelwaarde voor een significante correlatie is groter dan 0.3 [8](#page=8).
De initiële correlatiematrix toont de relaties tussen de negen attributen. Voorbeeld van de correlatiematrix [8](#page=8):
| Attribuut | A1 Prijs Niveau | A2 Personeel | A3 Retour | A4 Beschikbaarheid | A5 Kwaliteit | A6 Diepte | A7 Breedte | A8 In-store Service | A9 Atmosfeer |
| :---------------------- | :-------------- | :----------- | :-------- | :----------------- | :----------- | :-------- | :--------- | :------------------ | :----------- |
| A1 Prijs Niveau | 1 | 0.43 | 0.3 | 0.47 | 0.77 | 0.28 | 0.35 | 0.24 | 0.37 |
| A2 Winkelpersoneel | 0.43 | 1 | 0.77 | 0.5 | 0.41 | 0.45 | 0.49 | 0.72 | 0.74 |
| A3 Retourbeleid | 0.3 | 0.77 | 1 | 0.43 | 0.31 | 0.42 | 0.47 | 0.73 | 0.77 |
| A4 Productbeschikbaarheid | 0.47 | 0.5 | 0.43 | 1 | 0.47 | 0.71 | 0.72 | 0.43 | 0.48 |
| A5 Productkwaliteit | 0.77 | 0.41 | 0.31 | 0.47 | 1 | 0.33 | 0.38 | 0.24 | 0.33 |
| A6 Assortimentdiepte | 0.28 | 0.45 | 0.42 | 0.71 | 0.33 | 1 | 0.72 | 0.31 | 0.43 |
| A7 Assortimentbreedte | 0.35 | 0.49 | 0.47 | 0.72 | 0.38 | 0.72 | 1 | 0.44 | 0.46 |
| A8 Service in de winkel | 0.24 | 0.72 | 0.73 | 0.43 | 0.24 | 0.31 | 0.44 | 1 | 0.71 |
| A9 Winkelatmosfeer | 0.37 | 0.74 | 0.77 | 0.48 | 0.33 | 0.43 | 0.46 | 0.71 | 1 |
> **Tip:** Het reorganiseren van de correlatiematrix kan helpen om groepen variabelen met hoge onderlinge correlaties visueel te identificeren. Dit is een voorbereidende stap om de factoren te herkennen [9](#page=9).
Na reorganisatie kunnen de attributen als volgt gegroepeerd worden op basis van hoge correlaties:
* **In-store Experience:** A3 (Retourbeleid), A8 (Service in de winkel), A9 (Winkelatmosfeer), A2 (Winkelpersoneel) [10](#page=10).
* **Product Offerings:** A6 (Assortimentdiepte), A7 (Assortimentbreedte), A4 (Productbeschikbaarheid) [10](#page=10).
* **Value:** A1 (Prijsniveau), A5 (Productkwaliteit) [10](#page=10).
#### 1.4.3 Labeling van de factoren
Op basis van de gegroepeerde variabelen met hoge correlaties, worden de geïdentificeerde factoren gelabeld [10](#page=10):
* **In-store Experience:** Deze factor vertegenwoordigt de consumentenervaring binnen de winkel, inclusief service, personeel, sfeer en beleid.
* **Product Offerings:** Deze factor heeft betrekking op het assortiment en de beschikbaarheid van producten.
* **Value:** Deze factor verwijst naar de perceptie van de prijs en kwaliteit van de producten.
### 1.5 Output van factoranalyse
De output van een factoranalyse omvat doorgaans twee belangrijke componenten [11](#page=11):
* **Factor loadings:** Dit zijn de gewichten die aangeven hoe elke onderliggende factor elke specifieke attribuut vertegenwoordigt. Ze meten de correlatie tussen een factor en een attribuut en helpen bij het benoemen van de factoren. Hoge factor loadings tussen een factor en een groep attributen suggereren dat die factor deze attributen sterk beïnvloedt of vertegenwoordigt [11](#page=11).
* **Factor scores:** Dit zijn de afgeleide beoordelingen van de respondenten voor de onderliggende factoren. Ze vertegenwoordigen de positie van een respondent op de geïdentificeerde factor (bijvoorbeeld een "In-store Experience" score) [11](#page=11).
Een factor score kan worden berekend als een lineaire combinatie van de geobserveerde variabelen:
$$F = b_1X_1 + b_2X_2 + b_3X_3 + \dots$$ [11](#page=11).
Hierbij zijn $F$ de factor score, $X_i$ de geobserveerde variabelen, en $b_i$ de factor loadings (gewichten).
> **Voorbeeld:** Als "In-store Experience" een factor is met hoge loadings op "Winkelpersoneel", "Service in de winkel", "Winkelatmosfeer" en "Retourbeleid", dan zal een respondent die positieve scores heeft op deze attributen, ook een hoge factor score hebben voor "In-store Experience".
---
# Toepassing van factoranalyse op tandpastaconsumptie
Deze sectie beschrijft de toepassing van factoranalyse om klantattitudes ten opzichte van tandpasta te onderzoeken, gebruikmakend van een dataset met 30 respondenten. De analyse richt zich op het identificeren van onderliggende factoren die de consumptie van tandpasta beïnvloeden [12](#page=12) [13](#page=13) [14](#page=14).
### 2.1 Data en variabelen
De dataset bevat beoordelingen van 30 respondenten op een schaal van 1 tot 7 (1 = sterk oneens, 7 = sterk eens) met betrekking tot zes uitspraken over tandpasta [12](#page=12):
1. Het belang van het kopen van een tandpasta die gaatjes voorkomt.
2. Voorkeur voor een tandpasta die tanden glanzend maakt.
3. De noodzaak van een tandpasta die tandvlees versterkt.
4. Voorkeur voor een tandpasta die de adem verfrist.
5. Preventie van tandbederf is geen belangrijk voordeel van een tandpasta (dit is een omgekeerde vraagstelling).
6. De belangrijkste overweging bij de aankoop van een tandpasta is aantrekkelijke tanden.
### 2.2 Voorbereiding van de factoranalyse
Voordat de factoranalyse kan worden uitgevoerd, is het belangrijk om te controleren of de data geschikt is. Twee cruciale tests hiervoor zijn de Kaiser-Meyer-Olkin (KMO) steekproefsgrootte-adequaatheidstest en de Bartlett's Sphericity Test [15](#page=15).
#### 2.2.1 Kaiser-Meyer-Olkin (KMO) steekproefsgrootte-adequaatheidstest
De KMO-maat beoordeelt de mate van correlatie tussen variabelen ten opzichte van de mate van partiële correlatie. Een waarde groter dan 0.6 wordt als acceptabel beschouwd [15](#page=15).
#### 2.2.2 Bartlett's Sphericity Test
Deze test toetst of de correlatiematrix van de variabelen significant verschilt van een identiteitsmatrix. Een significante uitkomst (p <.05) suggereert dat er voldoende correlatie tussen de variabelen is om factoranalyse toe te passen [15](#page=15).
#### 2.2.3 Communaliteiten
De communaliteiten geven aan welk deel van de variantie in de items (variabelen) verklaard wordt door de extracted factoren. Een communaliteit van een variabele is de som van alle loadings van die variabele op alle getrokken factoren. Waarden groter dan 0.45 worden doorgaans als wenselijk beschouwd [16](#page=16).
### 2.3 Selectie van het aantal factoren
Het bepalen van het optimale aantal factoren is een cruciale stap in de factoranalyse. Dit kan worden gedaan door middel van verschillende criteria, waaronder de scree plot en de eigenwaarden [17](#page=17) [18](#page=18).
#### 2.3.1 Interpretatie van de verklaarde variantie
De analyse toonde aan dat de top twee factoren 82% van de totale variantie in de data verklaren. Er is weinig winst te behalen door een derde factor toe te voegen, aangezien dit slechts een marginale toename in verklaarde variantie zou opleveren [17](#page=17).
#### 2.3.2 Scree plot
De scree plot is een grafiek die de eigenwaarden van de factoren weergeeft. Een "elleboog" (elbow) in de plot, waar de helling significant afvlakt, geeft het optimale aantal factoren aan. In dit geval suggereert de scree plot een tweefactorenoplossing [18](#page=18).
#### 2.3.3 Eigenwaarden
Een andere vuistregel voor het selecteren van het aantal factoren is om alleen factoren te behouden met een eigenwaarde groter dan 1.0. De scree plot toonde aan dat er slechts twee eigenwaarden boven deze drempel waren, wat verder de tweefactorenoplossing ondersteunt [18](#page=18).
> **Tip:** De KMO-test, Bartlett's test, de scree plot en eigenwaarden zijn allemaal belangrijke tools om de geschiktheid van de data voor factoranalyse en het optimale aantal factoren te bepalen. Gebruik ze in combinatie voor een robuuste beslissing.
### 2.4 Interpretatie van de factoren
Na het bepalen van het aantal factoren, wordt de oplossing geïnterpreteerd aan de hand van de factor loadings. De loadings geven aan hoe sterk een variabele correleert met een specifieke factor [20](#page=20).
#### 2.4.1 Identificatie van factor 1
Factor 1 werd geïnterpreteerd als "Gezondheidsvoordelen". Dit duidt op attitudes die gericht zijn op de preventieve en gezondheidsgerelateerde aspecten van tandpasta, zoals het voorkomen van gaatjes en tandbederf [12](#page=12) [21](#page=21).
#### 2.4.2 Identificatie van factor 2
Factor 2 werd geïnterpreteerd als "Sociale Voordelen". Dit verwijst naar de aspecten van tandpasta die te maken hebben met sociale interactie en aantrekkelijkheid, zoals glanzende tanden en frisse adem [12](#page=12) [21](#page=21).
> **Voorbeeld:** Een respondent die sterk aangaf dat het belangrijk is dat tandpasta gaatjes voorkomt (uiting 1) en dat preventie van tandbederf een belangrijk voordeel is (uiting 5, omgekeerd), zou hoog scoren op Factor 1 (Gezondheidsvoordelen). Een respondent die de nadruk legde op glanzende tanden (uiting 2) en frisse adem (uiting 4), zou daarentegen hoger scoren op Factor 2 (Sociale Voordelen).
De bespreking van Cronbach's alpha wordt verwezen naar specifieke oefeningen [21](#page=21).
---
# Oefeningen en toepassingen
Dit gedeelte van de stof benadrukt het belang van het toepassen van de geleerde concepten door middel van oefeningen en opdrachten, met een directe verwijzing naar Werkcollege 1. Het is bedoeld als een overgang om de theoretische kennis in de praktijk te brengen [22](#page=22).
### 3.1 De rol van oefeningen
Oefeningen en opdrachten dienen als een cruciale stap om de behandelde theorie te consolideren en te verdiepen. Ze bieden de gelegenheid om de geleerde principes toe te passen op concrete vraagstukken, waardoor een beter begrip en retentie wordt bevorderd [22](#page=22).
### 3.2 Verwijzing naar Werkcollege 1
Specifiek wordt verwezen naar Werkcollege 1 als het platform waar deze oefeningen en toepassingen zullen plaatsvinden. Dit suggereert dat de inhoud van Werkcollege 1 nauw aansluit bij de voorgaande theoretische modules en bedoeld is om de studenten actief te betrekken bij de materie [22](#page=22).
> **Tip:** Beschouw de oefeningen in Werkcollege 1 als een toetssteen voor je begrip. Pak ze serieus aan en probeer ze zo zelfstandig mogelijk te maken voordat je hulp zoekt.
### 3.3 Doel van de toepassingen
Het uiteindelijke doel van deze oefeningen en toepassingen is om studenten voor te bereiden op real-world scenario's of verdere academische uitdagingen waar de opgedane kennis van pas komt. Door actief te oefenen, worden niet alleen de kennis, maar ook de vaardigheden ontwikkeld die nodig zijn om de stof effectief toe te passen [22](#page=22).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Factoranalyse | Een statistische techniek die wordt gebruikt om een grote set variabelen te reduceren tot een kleiner aantal onderliggende factoren. Het doel is om patronen en relaties tussen variabelen te identificeren en complexe gegevens te vereenvoudigen voor betere interpretatie. |
| Datareductie | Het proces waarbij het aantal variabelen in een dataset wordt verminderd om de gegevens hanteerbaarder te maken en de analyse te vergemakkelijken. Factoranalyse is een veelgebruikte methode voor datareductie. |
| Correlatiecoëfficiënt | Een statistische maat die de sterkte en richting van de lineaire relatie tussen twee variabelen aangeeft. De waarde ligt tussen -1 en 1, waarbij waarden dichter bij 1 of -1 een sterkere relatie duiden. |
| Factor loadings | Gewichten die aangeven hoe sterk elke oorspronkelijke variabele bijdraagt aan een bepaalde factor. Deze loadings helpen bij het benoemen en interpreteren van de onderliggende factoren die uit de analyse naar voren komen. |
| Factor scores | Inschattingen van de respondenten hun scores op de onderliggende factoren. Deze scores kunnen worden gebruikt voor verdere analyses of om groepen respondenten te identificeren op basis van hun factorprofielen. |
| Communaliteiten | Een maatstaf die aangeeft welk deel van de variantie in een specifieke variabele wordt verklaard door de gezamenlijke factoren in de factoroplossing. Een hoge communaliteit suggereert dat de factoroplossing de variabele goed representeert. |
| Scree plot | Een grafiek die de eigenwaarden van de factoren weergeeft, gerangschikt van hoog naar laag. Het helpt bij het bepalen van het optimale aantal factoren door te zoeken naar een "elleboog" of een duidelijke daling in de plot. |
| KMO (Kaiser-Meyer-Olkin) | Een statistische test die de geschiktheid van de gegevens voor factoranalyse beoordeelt. Een waarde groter dan 0.6 wordt over het algemeen beschouwd als acceptabel voor factoranalyse. |
| Bartlett's Sphericity Test | Een statistische test die wordt gebruikt om te bepalen of de correlatiematrix significant afwijkt van een identiteitsmatrix. Een significante p-waarde (meestal < 0.05) suggereert dat de variabelen gecorreleerd zijn en dat factoranalyse geschikt is. |
| Eigenwaarde | Een maatstaf die de hoeveelheid variantie in de variabelen vertegenwoordigt die door een specifieke factor wordt verklaard. Factoren met eigenwaarden groter dan 1 worden doorgaans behouden in de analyse. |
Cover
Sessie 2 Proporties en Gemiddelden.pdf
Summary
# Verschiltoetsen en de keuze van de juiste test
Dit gedeelte behandelt de principes en het schema voor het selecteren van de juiste statistische verschiltoets, gebaseerd op de kenmerken van de data en onderzoeksvraag, met de nadruk op de rol van hypothesen en meetniveaus [2](#page=2).
### 1.1 Het formuleren van hypothesen en de selectievragen
Voordat men de juiste verschiltoets kan selecteren, is het cruciaal om te starten met het formuleren van de hypothesen. Vervolgens worden drie kernvragen beantwoord die de basis vormen voor de keuze van de test [2](#page=2) [6](#page=6) [7](#page=7) [9](#page=9):
1. **Het aantal subgroepen (steekproeven) dat je gaat vergelijken?** [2](#page=2) [6](#page=6) [7](#page=7).
2. **De afhankelijkheid van de subgroepen?** [2](#page=2) [7](#page=7).
3. **Het meetniveau van de variabele(n) die je gaat testen?** [2](#page=2) [8](#page=8).
### 1.2 De drie selectievragen in detail
#### 1.2.1 Het aantal subgroepen
De eerste vraag betreft het aantal groepen dat vergeleken wordt. Dit kan variëren van één groep (one-sample tests) tot meerdere groepen [6](#page=6) [7](#page=7).
* **Voorbeelden:**
* Het vergelijken van één advertentie uit drie, om te bepalen welke de langste focus op de merknaam heeft [6](#page=6).
* Het vergelijken van de voorkeur voor een product tussen zes verschillende klantsegmenten [7](#page=7).
#### 1.2.2 De afhankelijkheid van de subgroepen
De tweede vraag richt zich op de afhankelijkheid tussen de subgroepen. Dit onderscheidt of de metingen binnen dezelfde personen (afhankelijk/paired) of binnen verschillende personen (onafhankelijk/independent) plaatsvinden [2](#page=2) [7](#page=7).
* **Afhankelijke subgroepen:** Metingen worden herhaald bij dezelfde personen.
* **Voorbeeld:** Het onderzoeken van merkbekendheid vóór en na een campagne bij dezelfde personen [6](#page=6) [7](#page=7).
* **Onafhankelijke subgroepen:** Metingen worden gedaan bij verschillende, niet-gerelateerde groepen personen.
* **Voorbeeld:** Het vergelijken van het winkelgedrag tussen klanten die in een winkel met muziek en klanten die in een vergelijkbare winkel zonder muziek winkelden [7](#page=7).
#### 1.2.3 Het meetniveau van de variabele
De derde vraag betreft het meetniveau van de variabele die getest wordt. Dit is van cruciaal belang omdat verschillende statistische toetsen geschikt zijn voor verschillende meetniveaus [2](#page=2) [8](#page=8).
* **Nominaal meetniveau:** Variabelen met categorieën zonder inherente volgorde.
* **Voorbeelden van variabelen:** Voorkeur voor een kleur voor een auto (groen, wit, geel, blauw); voorkeur voor muziek (ja/nee); geslacht [8](#page=8).
* **Toepasselijke tests (indicatief):** Binomial, Chi-kwadraat ($X^2$), McNemar [2](#page=2) [3](#page=3).
* **Ordinaal meetniveau:** Variabelen met categorieën die een logische volgorde hebben, maar de afstanden tussen de categorieën zijn niet uniform.
* **Voorbeelden van variabelen:** Mate van overeenstemming met een stelling (sterk oneens tot sterk eens); opleidingsniveau (basisschool, middelbare school, universitair) [8](#page=8).
* **Toepasselijke tests (indicatief):** Afhankelijk van het aantal groepen en afhankelijkheid kunnen hier ook non-parametrische varianten van t-tests of ANOVA gebruikt worden, hoewel dit niet expliciet uitgewerkt wordt op de gegeven pagina's.
* **Interval/Ratio meetniveau:** Variabelen waarbij de afstanden tussen de waarden betekenisvol zijn en er een vast nulpunt is (ratio) of niet (interval).
* **Voorbeelden van variabelen:** Aantal alcoholische drankjes per week; jaarlijks huishoudinkomen; lengte, gewicht, temperatuur [8](#page=8).
* **Toepasselijke tests (indicatief):** One-sample t-test, Independent t-test, Paired t-test, ANOVA [2](#page=2) [3](#page=3).
### 1.3 Het schema voor verschiltoetsen
Een schema biedt een visueel overzicht om de juiste test te selecteren op basis van de eerdergenoemde vragen. Het schema begint bij de hypothesen en de drie selectievragen om tot de geschikte toets te komen [2](#page=2) [3](#page=3) [9](#page=9).
> **Tip:** De volgorde van het beantwoorden van de vragen is belangrijk. Begin met het formuleren van de hypothesen, beantwoord daarna de drie selectievragen om zo systematisch tot de juiste test te komen [2](#page=2) [6](#page=6) [7](#page=7) [9](#page=9).
#### 1.3.1 Indicatief schema (gebaseerd op de documentatie)
Het schema op pagina 3 toont een mogelijke indeling van tests op basis van meetniveau en de afhankelijkheid/aantal groepen. Hoewel niet elk scenario volledig uitgewerkt is, kan het dienen als leidraad:
* **Nominaal:** Binomial, $X^2$, McNemar [2](#page=2) [3](#page=3).
* **Andere meetniveaus (Interval/Ratio):**
* One-Sample t-test [2](#page=2) [3](#page=3).
* Paired t-test (afhankelijke groepen) [2](#page=2) [3](#page=3).
* Independent t-test (onafhankelijke groepen, twee groepen) [2](#page=2) [3](#page=3).
* ANOVA (meer dan twee groepen) [2](#page=2).
* Repeated ANOVA (afhankelijke groepen, meer dan twee metingen) [2](#page=2).
### 1.4 Overige concepten
#### 1.4.1 Level of Significance en p-waarde
De **Level of Significance** (alfa, $\alpha$) is een drempelwaarde die bepaalt hoe waarschijnlijk het moet zijn dat een resultaat door toeval is ontstaan, gegeven de nulhypothese [4](#page=4).
De **p-waarde** is de waarschijnlijkheid om een steekproefstatistiek te observeren die minstens zo extreem is als de gevonden statistiek, ervan uitgaande dat de nulhypothese waar is. Een lage p-waarde (typisch $\le \alpha$) leidt tot het verwerpen van de nulhypothese [4](#page=4).
> **Tip:** Zorg ervoor dat je de definitie van de p-waarde en de relatie met de Level of Significance goed begrijpt, aangezien dit fundamenteel is voor hypothesetoetsing [4](#page=4).
---
# Toepassing van verschiltoetsen op de Auto-Online dataset
Dit gedeelte demonstreert de toepassing van verschillende statistische tests op de AutoOnline.sav dataset door middel van concrete onderzoeksvragen en de bijbehorende hypothesen [10](#page=10) [11](#page=11) [12](#page=12) [13](#page=13) [14](#page=14) [15](#page=15) [16](#page=16).
### 2.1 Beschrijving van de Auto-Online dataset
De Auto-Online dataset is afkomstig van een website waar autobezichtigers informatie over auto's kunnen vinden en auto's kunnen kopen. De dataset bevat enquêtegegevens van websitebezoekers die allemaal een auto hebben gekocht, waarvan sommigen via de website en anderen via een reguliere dealer. De dataset telt 1400 respondenten en is opgeslagen in het SPSS-formaat `AutoOnline.sav` [10](#page=10).
### 2.2 Onderzoeksvragen en hypothesen
Hieronder worden verschillende onderzoeksvragen besproken die met behulp van verschiltoetsen op de Auto-Online dataset onderzocht kunnen worden, inclusief de bijbehorende nul- en alternatieve hypothesen.
#### 2.2.1 Vragen over één steekproef
##### 2.2.1.1 Vraag 1: Veiligheid van online aankopen
De eerste onderzoeksvraag betreft het gemiddelde van de item "Ik vind het kopen van spullen van het internet veilig" (variabele = `safeweb`). Er wordt onderzocht of het gemiddelde significant verschilt van het midden van de schaal, dat op 5 punten wordt aangenomen [11](#page=11).
* **Nulhypothese ($H_0$)**: Het gemiddelde van de variabele `safeweb` is gelijk aan 5.
* **Alternatieve hypothese ($H_a$)**: Het gemiddelde van de variabele `safeweb` is niet gelijk aan 5.
##### 2.2.1.2 Vraag 2: Aandeel autokopen via Auto-Online
De tweede onderzoeksvraag onderzoekt of het aandeel mensen dat een auto koopt via de Auto-Online website (variabele = `didbuy`) significant verschilt van 25% [12](#page=12).
* **Nulhypothese ($H_0$)**: Het aandeel kopers via de Auto-Online website is gelijk aan 0.25.
* **Alternatieve hypothese ($H_a$)**: Het aandeel kopers via de Auto-Online website is niet gelijk aan 0.25.
##### 2.2.1.3 Vraag 3: Verschil tussen actuele en stickerprijs
De derde vraag richt zich op de variabele `actual` en `sticker` en onderzoekt of de actuele prijs significant verschilt van de stickerprijs [15](#page=15).
* **Nulhypothese ($H_0$)**: De actuele prijs is gelijk aan de stickerprijs.
* **Alternatieve hypothese ($H_a$)**: De actuele prijs is niet gelijk aan de stickerprijs.
#### 2.2.2 Vragen over twee steekproeven
##### 2.2.2.1 Vraag 4: Prijsverschil tussen web- en dealerkopers
Deze vraag onderzoekt of webshoppers een significant ander bedrag betalen voor auto's dan dealershoppers, gebruikmakend van de variabelen `didbuy` en `actual`. Hierbij wordt een onafhankelijke t-toets toegepast om de gemiddelden van twee groepen te vergelijken [13](#page=13).
* **Nulhypothese ($H_0$)**: Het gemiddelde bedrag dat door webshoppers wordt betaald, is gelijk aan het gemiddelde bedrag dat door dealershoppers wordt betaald.
* **Alternatieve hypothese ($H_a$)**: Het gemiddelde bedrag dat door webshoppers wordt betaald, is niet gelijk aan het gemiddelde bedrag dat door dealershoppers wordt betaald.
##### 2.2.2.2 Vraag 5: Aankoopkanaal per geslacht
De vijfde vraag vergelijkt het aandeel mannen dat via de website koopt ten opzichte van de dealer (variabele `didbuy`) met het aandeel vrouwen dat op dezelfde manier koopt. Dit betreft een vergelijking van proporties tussen twee onafhankelijke groepen [14](#page=14).
* **Nulhypothese ($H_0$)**: Het aandeel mannen dat via de website koopt, is gelijk aan het aandeel vrouwen dat via de website koopt.
* **Alternatieve hypothese ($H_a$)**: Het aandeel mannen dat via de website koopt, is niet gelijk aan het aandeel vrouwen dat via de website koopt.
##### 2.2.2.3 Vraag 6: Bronnen van informatie over AutoOnline
De laatste vraag onderzoekt of significant meer mensen AutoOnline hebben gevonden via een zoekmachine (variabele `sengine`) dan via een vriend (variabele `friend`). Dit is een vergelijking van proporties tussen twee onafhankelijke bronnen [16](#page=16).
* **Nulhypothese ($H_0$)**: Het aandeel mensen dat AutoOnline via een zoekmachine vond, is gelijk aan het aandeel mensen dat het via een vriend vond.
* **Alternatieve hypothese ($H_a$)**: Het aandeel mensen dat AutoOnline via een zoekmachine vond, is groter dan het aandeel mensen dat het via een vriend vond.
> **Tip:** Bij het uitvoeren van deze tests in SPSS is het cruciaal om de juiste test te selecteren op basis van het type variabele (continu of categorisch) en het aantal groepen dat vergeleken wordt (één of twee steekproeven). Zorg er altijd voor dat de variabelen correct zijn gecodeerd voor de analyse [10](#page=10) [11](#page=11) [12](#page=12) [13](#page=13) [14](#page=14) [15](#page=15) [16](#page=16).
---
# Inleiding tot marktonderzoek en statistische toetsen
Deze sectie biedt een inleiding tot het concept van verschiltoetsen binnen de context van marktonderzoek, met specifieke aandacht voor proporties en gemiddelden, en hun relevantie voor werkcollege 2 [1](#page=1).
### 3.1 Verschiltoetsen: een overzicht
Verschiltoetsen zijn statistische methoden die worden gebruikt om te bepalen of de waargenomen verschillen tussen groepen of metingen significant zijn, of dat ze waarschijnlijk het gevolg zijn van willekeurige variatie (toeval). In marktonderzoek helpen deze toetsen beslissingen te onderbouwen door te beoordelen of marketinginterventies een meetbaar effect hebben gehad, of dat er significant verschil is tussen verschillende klantsegmenten [1](#page=1).
### 3.2 Toepassingen in marktonderzoek
Voor werkcollege 2 zijn met name toetsen met betrekking tot proporties en gemiddelden relevant. Deze toetsen stellen ons in staat om te onderzoeken [1](#page=1):
* Of de proportie van een bepaalde uitkomst (bijvoorbeeld de conversieratio van een advertentie) significant verschilt tussen twee groepen (bijvoorbeeld verschillende advertentiecampagnes) [1](#page=1).
* Of het gemiddelde van een meting (bijvoorbeeld klanttevredenheidsscores) significant verschilt tussen populaties of condities [1](#page=1).
Deze analyses zijn cruciaal voor het evalueren van de effectiviteit van marketingstrategieën en het identificeren van kansen voor verbetering [1](#page=1).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Verschiltoetsen | Statistische methoden die worden gebruikt om te bepalen of er een significant verschil is tussen twee of meer groepen of steekproeven, gebaseerd op specifieke criteria zoals gemiddelden of proporties. |
| Nulhypothese | Een statistische aanname die stelt dat er geen significant verschil of verband bestaat tussen de geobserveerde groepen of variabelen, en die getoetst wordt om deze aanname te weerleggen. |
| Alternatieve hypothese | Een statistische aanname die het tegenovergestelde beweert van de nulhypothese; deze hypothese wordt aangenomen als de nulhypothese voldoende wordt weerlegd door de data-analyse. |
| Meetniveau | De classificatie van de aard van de gegevens die worden verzameld, zoals nominaal, ordinaal, interval of ratio, wat bepalend is voor de keuze van geschikte statistische analyses. |
| Steekproefstatistiek | Een kenmerk of maatstaf berekend uit een steekproef van data, die wordt gebruikt om conclusies te trekken over de populatie waaruit de steekproef is getrokken. |
| P-waarde | De waarschijnlijkheid om een steekproefresultaat te verkrijgen dat minstens zo extreem is als het geobserveerde resultaat, ervan uitgaande dat de nulhypothese waar is; een lage p-waarde (< 0.05) leidt doorgaans tot verwerping van de nulhypothese. |
| Significantieniveau (alfa) | De drempelwaarde (vaak 0.05 of 5%) die wordt gebruikt om te beslissen of een statistisch resultaat als significant wordt beschouwd; als de p-waarde kleiner is dan dit niveau, wordt de nulhypothese verworpen. |
| Afhankelijkheid van subgroepen | De mate waarin de observaties binnen de verschillende subgroepen van elkaar afhankelijk zijn; dit is cruciaal bij de keuze tussen gepaarde en onafhankelijke steekproeftoetsen. |
| Nominaal meetniveau | Een meetniveau waarbij gegevens categorisch zijn zonder inherente volgorde of rangorde, zoals verschillende kleuren of soorten. |
| t-toets | Een statistische toets die wordt gebruikt om het verschil tussen de gemiddelden van twee groepen te vergelijken, ervan uitgaande dat de data normaal verdeeld zijn. |
| Anova (Variantieanalyse) | Een statistische methode die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken door de variantie binnen en tussen de groepen te analyseren. |
| Chi-kwadraat ($X^2$) toets | Een statistische toets die wordt gebruikt om het verband tussen twee categorische variabelen te onderzoeken of om te testen of de geobserveerde frequenties in categorieën afwijken van de verwachte frequenties. |
Cover
Sessie 3 Correlatie en Regressie.pdf
Summary
# Verschiltoetsen en hun toepassing
Het kiezen van de juiste statistische toets hangt af van het meetniveau van de variabelen, het aantal te vergelijken subgroepen en de afhankelijkheid van deze groepen [2](#page=2).
### 1.1 De basisprincipes voor het kiezen van een verschiltoets
Voordat men een specifieke toets selecteert, is het cruciaal om eerst de hypothesen te formuleren. De keuze van de toets wordt vervolgens bepaald door drie kernvragen [2](#page=2):
1. **Het aantal subgroepen (steekproeven) dat je gaat vergelijken?** Dit varieert van één tot meerdere groepen [2](#page=2).
2. **De afhankelijkheid van de subgroepen?** Dit kan gaan om onafhankelijke groepen of afhankelijke (gepaarde) groepen [2](#page=2).
3. **Het meetniveau van de variabele die je gaat testen?** Dit kan nominaal, ordinaal of interval/ratio zijn [3](#page=3).
### 1.2 Overzicht van veelgebruikte verschiltoetsen
Het schema voor verschiltoetsen illustreert de relatie tussen deze factoren en de geschikte toetsen. Hieronder volgt een gedetailleerde beschrijving van enkele veelgebruikte toetsen [3](#page=3):
#### 1.2.1 Binomiale toets en Chi-kwadraat toetsen
* **Binomiale toets:** Deze toets wordt gebruikt voor nominale variabelen wanneer er slechts twee uitkomsten mogelijk zijn en er één steekproef wordt geanalyseerd [2](#page=2) [3](#page=3).
* **Chi-kwadraat toetsen (X²):**
* **One-Sample Chi-kwadraat toets:** Wordt gebruikt voor nominale variabelen om te toetsen of de waargenomen frequentieverdeling overeenkomt met een verwachte verdeling bij één steekproef [2](#page=2) [3](#page=3).
* **Crosstabs/Chi-kwadraat toets:** Deze toets, vaak in combinatie met "crosstabs" (kruistabellen), wordt gebruikt om de relatie tussen twee categorische variabelen (nominaal of ordinaal) te onderzoeken, waarbij de groepen onafhankelijk zijn [2](#page=2) [3](#page=3).
* **McNemar toets:** Deze toets is specifiek voor nominale variabelen en wordt toegepast bij afhankelijke (gepaarde) steekproeven om veranderingen te analyseren, bijvoorbeeld voor en na een interventie [2](#page=2) [3](#page=3).
#### 1.2.2 t-testen
t-testen worden doorgaans gebruikt voor variabelen op interval- of ratio-niveau.
* **One-Sample t-toets:** Deze toets vergelijkt het gemiddelde van een enkele steekproef met een bekende of hypothetische populatiegemiddelde. De formule voor de t-statistiek is [2](#page=2) [3](#page=3):
$$ t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}} $$
waarbij $\bar{x}$ het steekproefgemiddelde is, $\mu_0$ het hypothetische populatiegemiddelde, $s$ de standaarddeviatie van de steekproef, en $n$ de steekproefgrootte [2](#page=2) [3](#page=3).
* **Independent Samples t-toets:** Deze toets wordt gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken, waarbij de variabele van interval- of ratio-niveau is. De formule voor de t-statistiek (met gelijke varianties aangenomen) is [2](#page=2) [3](#page=3):
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{s_p^2 \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} $$
waarbij $\bar{x}_1$ en $\bar{x}_2$ de gemiddelden van de twee groepen zijn, $\mu_1 - \mu_2$ het verschil tussen de populatiegemiddelden onder de nulhypothese, $s_p^2$ de gepoolde variantie, en $n_1$ en $n_2$ de groepsgroottes [2](#page=2) [3](#page=3).
* **Paired Samples t-toets:** Deze toets wordt gebruikt om de gemiddelden van twee gerelateerde of gepaarde metingen te vergelijken (bv. voor en na een behandeling bij dezelfde personen). Het test het gemiddelde van de verschillen tussen de gepaarde observaties. De formule voor de t-statistiek is [2](#page=2) [3](#page=3):
$$ t = \frac{\bar{d} - \mu_d}{\frac{s_d}{\sqrt{n}}} $$
waarbij $\bar{d}$ het gemiddelde verschil is, $\mu_d$ het hypothetische populatiegemiddelde verschil onder de nulhypothese, $s_d$ de standaarddeviatie van de verschillen, en $n$ het aantal paren [2](#page=2) [3](#page=3).
### 1.3 Verdere overwegingen voor complexere analyses
* **ANOVA (Analysis of Variance):** Wordt gebruikt wanneer er meer dan twee groepen worden vergeleken. Er is een **Independent ANOVA** voor onafhankelijke groepen en een **Repeated Measures ANOVA** voor afhankelijke (herhaalde metingen) groepen [2](#page=2) [3](#page=3).
> **Tip:** Het is essentieel om eerst de aard van je data (meetniveau) en de structuur van je steekproeven (aantal en afhankelijkheid) te bepalen voordat je de juiste statistische toets kiest. Dit voorkomt foutieve conclusies.
---
# Correlatieanalyse
Correlatieanalyse onderzoekt de sterkte en richting van de lineaire relatie tussen twee variabelen [8](#page=8).
### 2.1 Correlatie als maatstaf voor associatie
Correlatie meet de mate van associatie tussen variabelen. Het wordt uitgedrukt met de correlatiecoëfficiënt, aangeduid als $r$ voor een steekproef en $\rho$ (rho) voor de populatie [9](#page=9).
### 2.2 De correlatiecoëfficiënt
De correlatiecoëfficiënt ($r$) is een gestandaardiseerde maat die aangeeft hoe sterk twee variabelen lineair met elkaar samenhangen. De formule voor de steekproefcorrelatiecoëfficiënt is:
$r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}$ [9](#page=9).
Waarbij:
* $x_i$ en $y_i$ de individuele observaties zijn van de twee variabelen [9](#page=9).
* $\bar{x}$ en $\bar{y}$ het gemiddelde zijn van de observaties voor respectievelijk variabele $X$ en variabele $Y$ [9](#page=9).
* $n$ het aantal observaties is [9](#page=9).
Voor populaties wordt deze berekend met de covariantie gedeeld door het product van de standaarddeviaties van de twee variabelen:
$\text{Corr}(X,Y) = \frac{\text{Cov}(X,Y)}{\text{SD}(X)\text{SD}(Y)}$ [9](#page=9).
### 2.3 Interpretatie van de correlatiecoëfficiënt
De waarde van de correlatiecoëfficiënt ($r$) ligt altijd tussen -1 en 1 [9](#page=9).
* **$r = 1$**: Dit duidt op een perfecte positieve lineaire relatie. Als de ene variabele toeneemt, neemt de andere variabele evenredig toe [9](#page=9).
* **$r = -1$**: Dit duidt op een perfecte negatieve lineaire relatie. Als de ene variabele toeneemt, neemt de andere variabele evenredig af [9](#page=9).
* **$r = 0$**: Dit duidt op geen lineaire relatie tussen de twee variabelen [9](#page=9).
* **Waarden tussen 0 en 1**: Duiding op een positieve lineaire relatie met variërende sterkte. Hoe dichter bij 1, hoe sterker de relatie [9](#page=9).
* **Waarden tussen -1 en 0**: Duiding op een negatieve lineaire relatie met variërende sterkte. Hoe dichter bij -1, hoe sterker de relatie [9](#page=9).
> **Tip:** Een correlatiecoëfficiënt van 0.5 duidt bijvoorbeeld op een matige positieve lineaire relatie, terwijl 0.9 een sterke positieve lineaire relatie aangeeft [9](#page=9).
### 2.4 Correlatie versus causaliteit
Het is cruciaal om te onthouden dat correlatie geen causaliteit impliceert. Een sterke correlatie tussen twee variabelen betekent niet noodzakelijk dat de ene variabele de oorzaak is van de andere. Er kunnen andere factoren (lurking variables) in het spel zijn die beide variabelen beïnvloeden, of de relatie kan toeval zijn [13](#page=13) [8](#page=8).
> **Tip:** Stel dat er een sterke positieve correlatie wordt gevonden tussen het aantal verkochte ijsjes en het aantal verdrinkingen. Dit betekent niet dat ijs eten verdrinkingen veroorzaakt. Beide variabelen worden waarschijnlijk beïnvloed door een derde variabele: hogere temperaturen (zomer) [13](#page=13).
### 2.5 Toepassing van correlatieanalyse
Correlatieanalyse wordt gebruikt om de sterkte en richting van de relatie tussen variabelen te kwantificeren, wat kan helpen bij het maken van voorspellingen [8](#page=8).
#### 2.5.1 Voorbeeld: Auto-online
Een onderzoeksvraag zou kunnen zijn: "Vinden klanten die vaker online winkelen de website behulpzamer?" Hierbij zou 'hoeoft' (hoe vaak online gewinkeld wordt) de onafhankelijke variabele (X) kunnen zijn en 'helpful' (hoe behulpzaam de website gevonden wordt) de afhankelijke variabele (Y) [10](#page=10) [8](#page=8).
Om deze vraag te onderzoeken, kan een hypothesetest worden uitgevoerd. De nulhypothese stelt dat er geen correlatie is ($r=0$), en de alternatieve hypothese stelt dat er wel een correlatie is ($r \neq 0$). Het idee is om de correlatiecoëfficiënt van de steekproef te berekenen en vervolgens te evalueren hoe waarschijnlijk het is om zo'n waarde te vinden als de nulhypothese waar is [11](#page=11).
#### 2.5.2 Hypothesetesten voor correlatie
De procedure voor het testen van de nulhypothese dat de populatiecorrelatie gelijk is aan nul ($H_0: \rho = 0$) is vergelijkbaar met andere hypothesetesten. Er wordt een steekproefcorrelatiecoëfficiënt ($r$) berekend. Vervolgens wordt de waarschijnlijkheid (p-waarde) bepaald van het observeren van een steekproefcorrelatie die minstens zo extreem is als de gevonden $r$, onder de aanname dat de nulhypothese waar is. Als deze p-waarde kleiner is dan het vooraf bepaalde significantieniveau (vaak 0.05), wordt de nulhypothese verworpen en concludeert men dat er statistisch significant bewijs is voor een lineaire relatie tussen de twee variabelen [11](#page=11).
---
# Lineaire regressieanalyse
Lineaire regressieanalyse wordt gebruikt om relaties tussen variabelen te kwantificeren en voorspellingen te doen [14](#page=14).
### 2.1 Introductie tot regressieanalyse
Regressieanalyse is een veelgebruikte techniek in marketingonderzoek om associaties tussen variabelen te detecteren, voorspellingen te doen en de impact van marketingvariabelen op verkoop te analyseren. Het helpt ook bij het analyseren van uitkomsten uit experimenten, zoals interventies of promoties [15](#page=15).
### 2.2 Simpele lineaire regressie
Simpele lineaire regressie modelleert de relatie tussen twee variabelen met een rechte lijn. De algemene vorm van de vergelijking is $Y = a + bX$ waarbij $a$ de intercept is en $b$ de helling (slope). De intercept is de verwachte waarde van $Y$ wanneer $X$ gelijk is aan nul. De helling $b$ geeft aan hoeveel $Y$ naar verwachting verandert wanneer $X$ met één eenheid toeneemt. De kern van de analyse ligt vaak in het testen van de waarde van de helling $b$ [16](#page=16) [17](#page=17).
#### 2.2.1 Inferentie op regressiecoëfficiënten
Een cruciale vraag bij regressieanalyse is of er een significante relatie bestaat tussen $X$ en $Y$. Dit wordt getoetst met hypothesetesten. De nulhypothese ($H_0$) stelt dat de populatiehelling $\beta$ gelijk is aan nul ($\beta = 0$), wat impliceert dat er geen lineaire relatie is. De alternatieve hypothese ($H_1$) stelt dat $\beta$ niet gelijk is aan nul ($\beta \neq 0$) [18](#page=18).
De t-statistiek wordt berekend als de geschatte parameter min de hypothetische waarde (meestal 0) gedeeld door de standaarddeviatie van de geschatte parameter [18](#page=18):
$$t\text{-stat} = \frac{\text{geschatte parameter} - 0}{\text{SD(geschatte parameter)}}$$
Als de t-statistiek buiten een bepaald kritisch gebied valt (vaak $\pm 1.96$ voor een 95% betrouwbaarheidsinterval), wordt de nulhypothese verworpen ten gunste van de alternatieve hypothese. Dit suggereert dat er een statistisch significante lineaire relatie bestaat tussen $X$ en $Y$ [18](#page=18).
#### 2.2.2 Voorspelling en residuen
Het doel van regressieanalyse is ook om de waarde van $Y$ te voorspellen op basis van $X$, aangeduid als $\hat{Y}$. De waargenomen waarde van $Y$ en de voorspelde waarde $\hat{Y}$ zijn echter zelden gelijk. Het verschil tussen de waargenomen waarde en de voorspelde waarde wordt het predictiefout of residu genoemd [19](#page=19).
De vergelijking voor een voorspelling is:
$$\hat{Y} = a + bX$$
En de volledige regressievergelijking, inclusief de foutterm $\epsilon$, is:
$$Y = a + bX + \epsilon$$
Het residu wordt berekend als:
$$Residu = Y - \hat{Y}$$
#### 2.2.3 Toepassing: Verkoopvoorspelling
Regressieanalyse kan worden gebruikt om toekomstige verkopen te voorspellen op basis van prijsstrategieën. Een voorbeeld betreft het herontwerpen van een prijsstrategie met behulp van verkoopresponsmodellen, waarbij data van wekelijkse winkelgegevens worden verzameld, inclusief verkoopvolumes, prijzen en promotie-informatie. Management is geïnteresseerd in het begrijpen van de impact van prijsstrategieën op de verkoop [20](#page=20) [21](#page=21).
> **Voorbeeld:** Data van wekelijkse winkelgegevens tonen verkoop van sinaasappelsap (in honderden kratten) en de prijs van Minute Maid. Management wil de relatie tussen prijs en verkoop analyseren om de prijsstrategie te optimaliseren [21](#page=21) [22](#page=22).
Een scatterplot van verkoop en prijs kan visueel de relatie weergeven [23](#page=23).
#### 2.2.4 Een lineair verkoopsmodel
Om de variatie in verkopen als functie van de prijs te verklaren, kan een lineair model worden aangenomen. De vergelijking wordt dan [24](#page=24):
$$S = \alpha + \beta P + \epsilon$$
Hierbij is $S$ de verkoop, $P$ de prijs, $\alpha$ de intercept, $\beta$ de helling, en $\epsilon$ de willekeurige foutcomponent. Het doel is om de waarden van $\alpha$ en $\beta$ te schatten die het beste passen bij de geobserveerde data [24](#page=24).
> **Tip:** Softwarepakketten zoals SPSS kunnen helpen bij het uitvoeren van regressieanalyses. Bij het invoeren van de data moet u de afhankelijke variabele (bijvoorbeeld verkoop) en de onafhankelijke variabele (bijvoorbeeld prijs) specificeren [25](#page=25).
##### 2.2.4.1 SPSS Regressie Output
De output van een regressieanalyse in SPSS bevat cruciale informatie. De tabel toont de geschatte coëfficiënten ($a$ en $b$, of $\alpha$ en $\beta$), hun standaardfouten (die de onzekerheid rond de schattingen aangeven), de t-statistiek, en de p-waarde. De hypothesetest in de t-statistische kolom test standaard of de coëfficiënten gelijk zijn aan nul [26](#page=26).
Voor het model $S = \alpha + \beta P + \epsilon$, zou de output er bijvoorbeeld als volgt uit kunnen zien:
$$\hat{S} = 1092.774 - 377.088 P$$
In dit voorbeeld is de geschatte intercept $\hat{\alpha} = 1092.774$ en de geschatte helling $\hat{\beta} = -377.088$. Dit suggereert dat voor elke eenheidstoename in prijs $P$, de verwachte verkoop $S$ met ongeveer $377.088$ eenheden afneemt. De interpretatie van de output, met name de t-statistiek en p-waarde, is essentieel om de significantie van deze relatie te beoordelen [26](#page=26) [27](#page=27).
---
# Dummyvariabelen en meervoudige regressie
Dit deel bespreekt het gebruik van dummyvariabelen voor categorische variabelen in regressiemodellen en introduceert meervoudige regressie om meerdere onafhankelijke variabelen tegelijkertijd te analyseren [28](#page=28).
### 4.1 Dummyvariabelen in regressiemodellen
Categorische variabelen, die geen numerieke waarden hebben maar uit discrete categorieën bestaan (zoals geslacht of kwartalen), kunnen worden opgenomen in regressiemodellen door middel van dummyvariabelen. Een dummyvariabele is een variabele die twee mogelijke uitkomsten heeft: 1 als de observatie tot de categorie van interesse behoort, en 0 anders. Dit maakt het mogelijk om de invloed van deze categorische factoren op de afhankelijke variabele te kwantificeren [29](#page=29).
#### 4.1.1 Opzetten van dummyvariabelen voor meerdere categorieën
Wanneer een variabele meer dan twee niveaus heeft, zoals de vier kwartalen van een jaar, kan een reeks dummyvariabelen worden gecreëerd. Een gangbare methode is om één dummyvariabele minder dan het aantal categorieën te gebruiken, waarbij één categorie wordt weggelaten als de referentiecategorie [29](#page=29) [30](#page=30).
> **Voorbeeld:** Voor een variabele "Kwartier" met vier categorieën (Kwartier 1, Kwartier 2, Kwartier 3, Kwartier 4), kunnen we drie dummyvariabelen definiëren: Q1, Q2 en Q3.
>
> | Observatie | Kwartier | Q1 | Q2 | Q3 |
> | :-------- | :------- | :- | :- | :- |
> | 1 | 1 | 1 | 0 | 0 |
> | 2 | 2 | 0 | 1 | 0 |
> | 3 | 3 | 0 | 0 | 1 |
> | 4 | 4 | 0 | 0 | 0 |
> | 5 | 1 | 1 | 0 | 0 |
> | 6 | 2 | 0 | 1 | 0 |
> | 7 | 3 | 0 | 0 | 1 |
>
> In dit voorbeeld is Kwartier 4 de referentiecategorie. Als alle dummyvariabelen (Q1, Q2, Q3) 0 zijn, impliceert dit dat de observatie tot Kwartier 4 behoort [30](#page=30).
Alternatief voor ANOVA kan regressie met dummycodes worden gebruikt om de effecten van categorische variabelen te analyseren [29](#page=29).
### 4.2 Goodness of fit (R-kwadraat)
De "goodness of fit" van een regressiemodel, en in het bijzonder het R-kwadraat ($R^2$), meet het proportionele deel van de variatie in de afhankelijke variabele (Y) dat wordt verklaard door de onafhankelijke variabele(n) (X) in het regressiemodel [31](#page=31).
* Als de fit perfect is, is de fout altijd nul, wat resulteert in een $R^2$ van 1 [31](#page=31).
* Als X de variatie in Y helemaal niet helpt verklaren, is $R^2$ 0 [31](#page=31).
* De formule voor $R^2$ is:
$$R^2 = \frac{\text{Variatie verklaard door de X's}}{\text{Variatie van de Y's}} = \frac{\text{Variation}(a + bX)}{\text{Variation}(Y)}$$
* De waarde van $R^2$ ligt altijd tussen 0 en 1, dus $0 \le R^2 \le 1$ [31](#page=31).
> **Voorbeeld:** In een eerder model werd de verkoopprijs van Minute Maid als onafhankelijke variabele gebruikt om de verkoop van Minute Maid te verklaren. Het regressiemodel was $\hat{Y} = 1092.774 – 377.088 X$, wat kan worden geïnterpreteerd als `Verkoop = 1093 + (-377 × Prijs)`. Dit model verklaart een deel van de variatie in de verkoop, en de $R^2$ zou de proportie van die variatie aangeven [31](#page=31) [32](#page=32).
### 4.3 Meervoudige regressie
Meervoudige regressie breidt het concept van enkelvoudige regressie uit door het mogelijk te maken meerdere onafhankelijke variabelen tegelijkertijd in het model op te nemen. Dit is nuttig wanneer een afhankelijke variabele wordt beïnvloed door meer dan één factor [33](#page=33) [34](#page=34).
> **Voorbeeld:** Om de verkoopprijs van Minute Maid beter te modelleren, kan rekening worden gehouden met het gedrag van concurrenten. Een meervoudig regressiemodel kan de volgende vorm aannemen [33](#page=33):
>
> $$S_t = \alpha + \beta_1 P_{\text{mm}} + \beta_2 P_{\text{tp}} + \beta_3 P_{\text{tr}} + \beta_4 P_{\text{sb}} + \epsilon_t$$
>
> Dit model verklaart de verkoop ($S_t$) als functie van de prijs van Minute Maid ($P_{\text{mm}}$), de prijs van "TP" ($P_{\text{tp}}$), de prijs van "TR" ($P_{\text{tr}}$), en de prijs van "SB" ($P_{\text{sb}}$), samen met een intercept ($\alpha$) en een foutterm ($\epsilon_t$) [35](#page=35).
>
> Een specifieke regressieuitkomst voor dit model zou kunnen zijn:
> `Verkoop = 289 + (-479 × MMprijs) + (131 × TPprijs) + (175 × TRprijs) + (144 × SBprijs)` [35](#page=35).
Het uitvoeren van meervoudige regressie vereist de naleving van specifieke assumpties. Een "groot verschil tussen theorie en praktijk" wordt benadrukt, wat aangeeft dat de toepassing in de praktijk complex kan zijn [36](#page=36).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Correlatie | Een statistische maat die de lineaire relatie tussen twee variabelen beschrijft. De correlatiecoëfficiënt varieert tussen -1 en 1, waarbij 1 perfecte positieve lineaire correlatie aangeeft, -1 perfecte negatieve lineaire correlatie, en 0 geen lineaire correlatie. |
| Regressieanalyse | Een statistische methode die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren en te analyseren, met als doel voorspellingen te doen en de invloed van de onafhankelijke variabelen te kwantificeren. |
| Afhankelijke variabele | De variabele die wordt voorspeld of verklaard in een regressieanalyse. Deze wordt vaak aangeduid met Y of als de responsvariabele. |
| Onafhankelijke variabele | Een variabele die wordt gebruikt om de afhankelijke variabele te voorspellen of te verklaren in een regressieanalyse. Deze wordt vaak aangeduid met X of als de verklarende variabele. |
| Causaliteit | Het concept dat aangeeft dat een verandering in één variabele direct een verandering in een andere variabele veroorzaakt. Correlatie impliceert niet noodzakelijkerwijs causaliteit. |
| Nullhypothese | Een stelling die wordt getoetst in statistische inferentie. Bij correlatie en regressie is de nullhypothese vaak dat er geen relatie of verband bestaat tussen de variabelen (bijv. $r=0$ of $\beta=0$). |
| Alternatieve hypothese | De hypothese die wordt aangenomen als de nullhypothese verworpen wordt. Bij correlatie en regressie is dit vaak dat er wel een relatie of verband bestaat tussen de variabelen (bijv. $r \neq 0$ of $\beta \neq 0$). |
| Intercept (a) | In een lineaire regressievergelijking is de intercept de verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen gelijk zijn aan nul. |
| Helling (b of $\beta$) | De helling in een lineaire regressievergelijking geeft de verwachte verandering in de afhankelijke variabele aan voor elke eenheidstoename in de betreffende onafhankelijke variabele, uitgaande van constante waarden voor andere onafhankelijke variabelen. |
| Residu | Het verschil tussen de waargenomen waarde van de afhankelijke variabele en de voorspelde waarde van de afhankelijke variabele door het regressiemodel. Het representeert de onverklaarde variatie. |
| Dummyvariabele | Een categorische variabele die is omgezet in een numerieke variabele met twee waarden (meestal 0 en 1) om de aanwezigheid of afwezigheid van een bepaalde categorie te representeren in een regressieanalyse. |
| R-kwadraat ($R^2$) | Een maat voor de 'goodness of fit' van een regressiemodel. Het vertegenwoordigt het aandeel van de totale variatie in de afhankelijke variabele dat wordt verklaard door de onafhankelijke variabele(n) in het model. De waarde varieert tussen 0 en 1. |
| Meervoudige regressie | Een regressiemodel dat meer dan één onafhankelijke variabele gebruikt om de afhankelijke variabele te voorspellen of te verklaren. |
Cover
Set 1 H6Inleiding en Power.pptx
Summary
# Inleiding tot statistiek en studieverloop
Deze studiehandleiding biedt een overzicht van de cursus Statistiek III, inclusief de cursusinhoud, beoordelingscriteria en organisatorische informatie, voortbouwend op eerdere delen van de reeks.
### 1.1 Voorkennis: Statistiek I en II
De cursus bouwt voort op de concepten uit eerdere statistiekcursussen:
* **Statistiek I: Meetschalen en beschrijvende statistiek**
* Ordeningstechnieken (tabellen en figuren).
* Reductietechnieken (statistische grootheden: positie, spreiding, vorm).
* Associatietechnieken (spreidingsdiagrammen, contingentietabellen, correlatie).
* **Statistiek II: Kansrekening en inferentiële statistiek**
* Kansrekening: de studie van toeval.
* Steekproevenverdelingen (Sampling distributions).
* Inleiding tot inferentie: betrouwbaarheidsintervallen, overschrijdingskansen, significantietoetsen.
* Inductieve technieken: schatten (betrouwbaarheidsintervallen) van populatiekenmerken op basis van steekproeven.
### 1.2 Steekproevenverdelingen van het steekproefgemiddelde
Dit concept is cruciaal voor inferentiële statistiek, omdat het ons toestaat uitspraken te doen over de populatie op basis van een steekproef.
* **Definitie en eigenschappen:**
* De steekproevenverdeling van het steekproefgemiddelde beschrijft de verdeling van de gemiddelden van alle mogelijke steekproeven van een bepaalde grootte ($n$) getrokken uit een populatie.
* **Verwachting:** De verwachte waarde van de steekproevenverdeling van het steekproefgemiddelde is gelijk aan het populatiegemiddelde ($\\mu$). $$ E(\\bar{X}) = \\mu $$
* **Standaarddeviatie (Standaardfout):** De standaarddeviatie van de steekproevenverdeling, ook wel de standaardfout van het gemiddelde genoemd, is kleiner dan de populatiestandaarddeviatie ($\\sigma$). $$ SE = \\sigma\_{\\bar{X}} = \\frac{\\sigma}{\\sqrt{n}} $$ Dit betekent dat de steekproevenverdeling minder gespreid is dan de populatieverdeling.
* **Centrale Limietstelling:**
* **Voor normaal verdeelde populaties:** Als de populatie normaal verdeeld is met gemiddelde $\\mu$ en standaardafwijking $\\sigma$, dan is de steekproevenverdeling van het steekproefgemiddelde ($\\bar{X}$) ook normaal verdeeld met gemiddelde $\\mu$ en standaarddeviatie $\\frac{\\sigma}{\\sqrt{n}}$, ongeacht de steekproefgrootte ($n$). $$ \\text{Indien } X \\sim N(\\mu, \\sigma^2) \\text{, dan } \\bar{X} \\sim N\\left(\\mu, \\frac{\\sigma^2}{n}\\right) $$
* **Voor willekeurig verdeelde populaties:** Als de populatie willekeurig verdeeld is met gemiddelde $\\mu$ en standaardafwijking $\\sigma$, en de steekproefgrootte ($n$) voldoende groot is (vuistregel: $n \\geq 30$), dan benadert de steekproevenverdeling van het steekproefgemiddelde ($\\bar{X}$) een normaalverdeling met gemiddelde $\\mu$ en standaarddeviatie $\\frac{\\sigma}{\\sqrt{n}}$. $$ \\text{Indien } n \\text{ groot genoeg is, dan } \\bar{X} \\approx N\\left(\\mu, \\frac{\\sigma^2}{n}\\right) $$
### 1.3 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) is een geschat interval rond een steekproefstatistiek (zoals het steekproefgemiddelde) dat waarschijnlijk de corresponderende populatieparameter (zoals het populatiegemiddelde) bevat.
* **Concept:** Een BI geeft een bereik aan waarbinnen we met een bepaalde waarschijnlijkheid (het betrouwbaarheidsniveau) de ware populatiewaarde verwachten te vinden. Het helpt om de onzekerheid rond de schatting te kwantificeren.
* **Relatie met steekproevenverdeling:** De breedte van het betrouwbaarheidsinterval wordt beïnvloed door de standaardfout van het gemiddelde ($\\sigma\_{\\bar{X}}$), die afhangt van de populatiestandaardafwijking ($\\sigma$) en de steekproefgrootte ($n$).
* **Grotere steekproef ($n$):** Leidt tot een kleinere standaardfout en dus een smaller (precieser) betrouwbaarheidsinterval.
* **Grotere spreiding in de populatie ($\\sigma$):** Leidt tot een grotere standaardfout en dus een breder (minder precies) betrouwbaarheidsinterval.
* **Voorbeeld (SAT scores):** Een betrouwbaarheidsinterval van 95% voor de SAT math scores kan bijvoorbeeld tussen 461 - 9 en 461 + 9 punten liggen. Dit betekent dat we met 95% betrouwbaarheid kunnen zeggen dat het populatiegemiddelde van de SAT math scores tussen 452 en 470 ligt. De breedte van dit interval ($2 \\times 9 = 18$ punten) is gebaseerd op de 68-95-99.7-regel, waarbij 95% van de steekproefgemiddelden niet verder dan ongeveer twee standaardfouten ($\\text{2} \\times SE$) van het populatiegemiddelde ($\\mu$) verwijderd ligt.
### 1.4 Hypothesetoetsing: Z-toets voor onafhankelijke steekproeven
Hypothesetoetsing is een methode om te bepalen of er voldoende bewijs is in een steekproef om een bewering over een populatie te ondersteunen of te verwerpen.
* **Doel:** Het vergelijken van gemiddelden van twee onafhankelijke populaties.
* Bijvoorbeeld: het vergelijken van de gemiddelde SAT scores tussen "gewone" studenten en "slimmeriken".
* **Nulhypothese ($H\_0$):** Stelt dat er geen verschil is tussen de populatieparameters (bv. $\\mu\_1 = \\mu\_2$ of $\\mu\_1 - \\mu\_2 = 0$).
* **Alternatieve hypothese ($H\_a$):** Stelt dat er wel een verschil is (bv. $\\mu\_1 \\neq \\mu\_2$, $\\mu\_1 < \\mu\_2$, of $\\mu\_1 > \\mu\_2$).
* **Z-toets:** Gebruikt de z-verdeling om de waarschijnlijkheid te beoordelen dat een waargenomen verschil in steekproefgemiddelden te wijten is aan toeval, gegeven de nulhypothese. De toetsingsgrootheid is de z-score. $$ z = \\frac{(\\bar{x}\_1 - \\bar{x}\_2) - (\\mu\_1 - \\mu\_2)\_0}{\\sqrt{\\frac{\\sigma\_1^2}{n\_1} + \\frac{\\sigma\_2^2}{n\_2}}} $$ Hierbij is $(\\mu\_1 - \\mu\_2)\_0$ het verschil onder de nulhypothese (meestal 0).
* **Significante resultaten:** Als de berekende z-waarde leidt tot een p-waarde die kleiner is dan het vooraf bepaalde significantieniveau ($\\alpha$), wordt de nulhypothese verworpen. Dit suggereert dat het waargenomen verschil waarschijnlijk niet door toeval wordt veroorzaakt.
* **Voorbeeld:** Een z-score van 8.72 met een p-waarde kleiner dan 0.001 ($p < .001$) suggereert een significant verschil tussen de gemiddelde scores van "gewone" studenten en "slimmeriken", waarbij de "gewone" studenten significant lagere scores behalen.
#### 1.5.1 Significantietoets in 4 stappen
1. **Formuleer de nul- en de alternatieve hypothesen ($H\_0$ en $H\_a$).**
2. **Bepaal de waarde van de toetsingsgrootheid** (bv. de z-score).
3. **Bepaal de overschrijdingskans (p-waarde) voor de toetsingsgrootheid** (theoretisch of via resampling).
4. **Formuleer de conclusie** in APA-stijl.
### 1.5 Onderscheidingsvermogen (Power)
Het onderscheidingsvermogen, of de power van een toets, is de kans dat de toets de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Het is de kans om een werkelijk effect te detecteren.
* **Definitie:**$$ \\text{Power} = 1 - \\beta $$ waarbij $\\beta$ de kans is op een Type II-fout (het niet verwerpen van $H\_0$ terwijl $H\_a$ waar is).
* **Fouten bij hypothesetoetsing:**
* **Type I-fout ($\\alpha$):** Ten onrechte $H\_0$ verwerpen terwijl $H\_0$ waar is. Dit is gelijk aan het significantieniveau van de toets.
* **Type II-fout ($\\beta$):** $H\_0$ niet verwerpen terwijl $H\_a$ waar is.
* **Factoren die het onderscheidingsvermogen beïnvloeden:**
* **Effectgrootte:** Hoe groter het werkelijke verschil tussen de populatieparameters (onder $H\_a$), hoe groter het onderscheidingsvermogen.
* **Steekproefgrootte ($n$):** Een grotere steekproefgrootte verhoogt het onderscheidingsvermogen.
* **Significantieniveau ($\\alpha$):** Een hogere $\\alpha$ verhoogt het onderscheidingsvermogen, maar verhoogt ook de kans op een Type I-fout.
* **Spreiding in de populatie ($\\sigma$):** Een kleinere spreiding verhoogt het onderscheidingsvermogen.
* **Illustratie (Brildragersproef):**
* De populatie van niet-brildragers heeft een gemiddelde afwijking van 0 cm met een standaardafwijking van 0.5 cm ($N(0, 0.5)$).
* De onderzoeker vermoedt dat brildragers een systematische fout maken van + 2 millimeter (0.2 cm), wat een gemiddelde afwijking zou geven van 0.3 cm ($N(0.3, 0.5)$).
* Brildragers worden uitgesloten als hun gemiddelde afwijking in een steekproef van 35 personen significant groter is dan een kritieke waarde (bepaald door $\\alpha$).
* De kritieke waarde voor het gemiddelde steekproefgemiddelde bij een $\\alpha$ van bijvoorbeeld 0.05 (voor een eenzijdige toets) is ongeveer 0.1386 cm.
* Als de ware gemiddelde afwijking van brildragers 0.3 cm is, dan is de kans dat een steekproefgemiddelde deze kritieke waarde overschrijdt (en de nulhypothese dus verworpen wordt) het onderscheidingsvermogen. $$ P(\\bar{X} > 0.1386 | \\mu = 0.3) $$ Dit kan berekend worden met een z-toets onder de alternatieve hypothese: $$ z = \\frac{0.1386 - 0.3}{0.5 / \\sqrt{35}} \\approx -1.91 $$ Het onderscheidingsvermogen is dan $P(Z > -1.91) \\approx 0.9719$.
* Dit betekent dat als de werkelijke gemiddelde afwijking van brildragers 0.3 cm is, de toets in ongeveer 97% van de gevallen correct zal detecteren dat brildragers een afwijkend gedrag vertonen.
#### 1.5.1 Visualisatie van fouten en onderscheidingsvermogen
De relatie tussen de nulhypothese ($H\_0$, blauwe curve) en de alternatieve hypothese ($H\_a$, rode curve) wordt visueel voorgesteld:
* **Overlap:** Een grotere overlap tussen de verdelingen van $H\_0$ en $H\_a$ duidt op een kleinere effectgrootte en dus een lager onderscheidingsvermogen (meer kans op Type II-fouten).
* **Significantieniveau ($\\alpha$):** Een kleiner $\\alpha$ verplaatst de kritieke waarde naar rechts, wat leidt tot een grotere kans op Type II-fouten ($\\beta$) en dus een lager onderscheidingsvermogen ($1-\\beta$). Een groter $\\alpha$ verhoogt het onderscheidingsvermogen, maar ook de kans op een Type I-fout.
* **Steekproefgrootte ($n$) en spreiding ($\\sigma$):** Een grotere $n$ en kleinere $\\sigma$ verkleinen de standaardfout, waardoor de verdelingen van $H\_0$ en $H\_a$ minder overlappen en het onderscheidingsvermogen toeneemt.
### 1.6 Beslissingsfouten
Bij het toepassen van statistische toetsen kunnen twee soorten fouten worden gemaakt:
* **Type I-fout:** Het onterecht verwerpen van de nulhypothese ($H\_0$), ook wel een "vals positief" genoemd. De kans hierop is gelijk aan het significantieniveau ($\\alpha$).
* **Type II-fout:** Het onterecht niet verwerpen van de nulhypothese ($H\_0$), ook wel een "vals negatief" genoemd. De kans hierop is $\\beta$.
De consequenties van deze fouten moeten worden afgewogen bij het kiezen van het significantieniveau $\\alpha$.
### 1.7 Samenvatting van de belangrijkste concepten
* **Steekproevenverdelingen:** Beschrijven de variabiliteit van steekproefstatistieken. De Centrale Limietstelling is essentieel voor de normaliteit van deze verdelingen.
* **Betrouwbaarheidsintervallen:** Bieden een bereik voor populatieparameters met een gespecificeerd betrouwbaarheidsniveau.
* **Hypothesetoetsing:** Een gestructureerde methode om conclusies te trekken over populaties op basis van steekproefgegevens, met aandacht voor de kans op fouten (Type I en Type II).
* **Onderscheidingsvermogen (Power):** De kans om een werkelijk effect te detecteren, cruciaal voor het ontwerpen van studies met voldoende sensitiviteit.
Deze elementen vormen de basis voor het begrijpen en toepassen van statistische inferentie.
* * *
# Steekproevenverdelingen en betrouwbaarheidsintervallen
Steekproevenverdelingen en betrouwbaarheidsintervallen vormen de kern van inferentiële statistiek door inzicht te geven in de relatie tussen steekproefkenmerken en populatieparameters.
## 2 Steekproevenverdelingen en betrouwbaarheidsintervallen
### 2.1 Steekproevenverdelingen
Een steekproevenverdeling beschrijft de verdeling van een statistiek (zoals het steekproefgemiddelde) die verkregen is uit alle mogelijke steekproeven van een specifieke grootte, getrokken uit een populatie.
#### 2.1.1 Verwachting en standaarddeviatie van steekproefgemiddelden
Wanneer we herhaaldelijk enkelvoudige aselecte steekproeven (SRS) van grootte $n$ trekken uit een populatie met gemiddelde $\\mu$ en standaardafwijking $\\sigma$, geldt het volgende voor de steekproevenverdeling van het steekproefgemiddelde $\\bar{X}$:
* De verwachting (het gemiddelde) van de steekproevenverdeling is gelijk aan het populatiegemiddelde: $$ E(\\bar{X}) = \\mu $$
* De standaarddeviatie van de steekproevenverdeling, ook wel de standaardfout (SE) genoemd, is kleiner dan de populatiestandaardafwijking en wordt kleiner naarmate de steekproefgrootte toeneemt: $$ SE(\\bar{X}) = \\frac{\\sigma}{\\sqrt{n}} $$
#### 2.1.2 Steekproevenverdeling van een steekproefgemiddelde
De steekproevenverdeling van een steekproefgemiddelde is gecentreerd rond het populatiegemiddelde $\\mu$ en is minder gespreid dan de populatieverdeling.
#### 2.1.3 Centrale limietstelling
De centrale limietstelling (CLT) is fundamenteel voor het begrijpen van steekproevenverdelingen:
* **Als de populatie normaal verdeeld is:** De steekproevenverdeling van het steekproefgemiddelde $\\bar{X}$ is ook normaal verdeeld, ongeacht de steekproefgrootte $n$.
* **Als de populatie willekeurig verdeeld is:** De steekproevenverdeling van het steekproefgemiddelde $\\bar{X}$ benadert een normale verdeling naarmate de steekproefgrootte $n$ groot genoeg is. Een veelgebruikte vuistregel is $n \\ge 30$.
> **Tip:** De CLT is cruciaal omdat het ons toestaat om de normale verdeling te gebruiken voor inferentie, zelfs als we de vorm van de oorspronkelijke populatieverdeling niet kennen.
#### 2.1.4 Illustratie met de Scholastic Aptitude Test (SAT)
De SAT-wiskunde sectie dient als een illustratief voorbeeld. Stel dat de populatiegemiddelde SAT-score $\\mu$ gelijk is aan 500. Als we herhaaldelijk steekproeven trekken, zullen de steekproefgemiddelden rond de 500 gecentreerd zijn, met een spreiding die afhangt van de standaardfout. De 68-95-99.7-regel kan worden toegepast op de steekproevenverdeling; dit impliceert dat 95% van de steekproefgemiddelden niet verder dan ongeveer twee standaardfouten van het populatiegemiddelde $\\mu$ ligt.
### 2.2 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) is een reeks waarden die, met een bepaalde mate van waarschijnlijkheid, het werkelijke populatieparameter bevat. Het wordt geconstrueerd rondom een steekproefstatistiek.
#### 2.2.1 Constructie en interpretatie van een betrouwbaarheidsinterval
Een betrouwbaarheidsinterval wordt opgebouwd rond een steekproefgemiddelde $\\bar{X}$ en wordt bepaald door de volgende componenten:
* **Steekproefgemiddelde ($\\bar{X}$):** De puntschatting van het populatiegemiddelde.
* **Standaardfout (SE):** De standaardafwijking van de steekproevenverdeling van het steekproefgemiddelde ($\\frac{\\sigma}{\\sqrt{n}}$).
* **Betrouwbaarheidsniveau (bv. 95%):** Dit is de kans dat een herhaaldelijk getrokken interval het werkelijke populatieparameter zal bevatten. Dit niveau wordt bepaald door een $\\alpha$\-waarde (significantieniveau), waarbij $\\alpha = 1 - \\text{betrouwbaarheidsniveau}$.
Een algemene formule voor een betrouwbaarheidsinterval voor het populatiegemiddelde $\\mu$ is:
$$ \\bar{X} \\pm \\text{kritieke waarde} \\times SE(\\bar{X}) $$
De kritieke waarde wordt bepaald door het gekozen betrouwbaarheidsniveau en de verdeling (vaak de normale verdeling of de t-verdeling).
**Voorbeeld SAT:** Als een steekproefgemiddelde SAT-score $\\bar{X}$ wordt gevonden en de standaardfout bekend is, kunnen we een betrouwbaarheidsinterval construeren. Als we bijvoorbeeld een 95% betrouwbaarheidsinterval berekenen rond een steekproefgemiddelde van 461, en de halve breedte van dit interval is 9 punten, dan ligt het populatiegemiddelde van de SAT-scores met 95% betrouwbaarheid tussen $461 - 9 = 452$ en $461 + 9 = 470$.
#### 2.2.2 Invloed van steekproefgrootte op het betrouwbaarheidsinterval
* **Grotere steekproefgrootte ($n$):** Leidt tot een kleinere standaardfout ($\\frac{\\sigma}{\\sqrt{n}}$). Hierdoor wordt het betrouwbaarheidsinterval smaller, wat resulteert in een preciezere schatting van het populatiegemiddelde.
* **Kleinere steekproefgrootte ($n$):** Leidt tot een grotere standaardfout, waardoor het betrouwbaarheidsinterval breder wordt.
#### 2.2.3 Invloed van de $\\alpha$\-waarde op het betrouwbaarheidsinterval
* **Hoger betrouwbaarheidsniveau (lagere $\\alpha$):** Vereist een grotere kritieke waarde, wat resulteert in een breder betrouwbaarheidsinterval. Dit betekent dat we meer zekerheid hebben dat het interval de populatieparameter bevat, maar de schatting is minder precies.
* **Lager betrouwbaarheidsniveau (hogere $\\alpha$):** Vereist een kleinere kritieke waarde, wat resulteert in een smaller betrouwbaarheidsinterval. De schatting is preciezer, maar met minder zekerheid.
#### 2.2.4 Gebruik van de normale verdeling in betrouwbaarheidsintervallen
Wanneer de populatiestandaardafwijking $\\sigma$ bekend is of de steekproefgrootte groot is ($n \\ge 30$), kan de z-verdeling (standaard normale verdeling) worden gebruikt om de kritieke waarden te bepalen. De breedte van het interval wordt bepaald door de z-score die overeenkomt met het gewenste betrouwbaarheidsniveau, vermenigvuldigd met de standaardfout.
#### 2.2.5 Betrouwbaarheidsinterval en populatiegemiddelde
Het betrouwbaarheidsinterval biedt een bereik van waarden waarin we redelijkerwijs verwachten dat het ware populatiegemiddelde ($\\mu$) zich bevindt, gegeven de steekproefdata. Het is een schatting gebaseerd op de beschikbare informatie, met een specifieke kans op correctheid.
### 2.3 Onderscheidingsvermogen en fouten in hypothesetoetsing
Hoewel dit deels betrekking heeft op hypothesetoetsing, is de conceptuele link met steekproevenverdelingen en betrouwbaarheidsintervallen significant. Fouten in hypothesetoetsing vloeien voort uit de inherente onzekerheid bij het infereren van een populatie op basis van een steekproef.
#### 2.3.1 Soorten fouten
Er zijn twee hoofdtypes van fouten bij hypothesetoetsing:
* **Type I-fout ( $\\alpha$ ):** Het onterecht verwerpen van de nulhypothese ($H\_0$) wanneer deze waar is. De kans op deze fout is gelijk aan het significantieniveau $\\alpha$ dat voor de toets is gekozen.
* **Type II-fout ( $\\beta$ ):** Het onterecht niet verwerpen van de nulhypothese ($H\_0$) wanneer de alternatieve hypothese ($H\_a$) waar is. Dit wordt ook wel een 'vals negatief' genoemd.
#### 2.3.2 Onderscheidingsvermogen (Power)
Het onderscheidingsvermogen, ook wel 'power' genoemd, is de kans dat een hypothesetoets de nulhypothese ($H\_0$) correct verwerpt wanneer de alternatieve hypothese ($H\_a$) waar is. Het is gelijk aan $1 - \\beta$.
* **Hoger onderscheidingsvermogen:** Een grotere kans om een werkelijk effect of verschil te detecteren wanneer dit aanwezig is.
* **Verhogen van het onderscheidingsvermogen:** Dit kan worden bereikt door:
* De steekproefgrootte $n$ te verhogen.
* De effectgrootte te vergroten (het verschil tussen de hypothesen).
* Het significantieniveau $\\alpha$ te verhogen (wat echter de kans op een Type I-fout vergroot).
#### 2.3.3 Relatie tussen $\\alpha$ en onderscheidingsvermogen
Er is een afweging tussen het risico op een Type I-fout ($\\alpha$) en het onderscheidingsvermogen ($1-\\beta$). Een kleinere $\\alpha$ (meer conservatief) verhoogt de kans op een Type II-fout ($\\beta$) en verlaagt het onderscheidingsvermogen. Een grotere $\\alpha$ verlaagt de kans op een Type II-fout en verhoogt het onderscheidingsvermogen, maar vergroot het risico op een Type I-fout.
#### 2.3.4 Invloed van steekproefgrootte en standaardafwijking op onderscheidingsvermogen
* **Steekproefgrootte ($n$):** Een grotere $n$ verkleint de standaardfout, waardoor de steekproevenverdelingen onder $H\_0$ en $H\_a$ verder uit elkaar komen te liggen. Dit vergroot het onderscheidingsvermogen.
* **Standaardafwijking ($\\sigma$):** Een kleinere $\\sigma$ leidt tot smallere steekproevenverdelingen, waardoor de scheiding tussen de verdelingen onder $H\_0$ en $H\_a$ toeneemt en het onderscheidingsvermogen wordt vergroot.
> **Tip:** Bij het plannen van onderzoek is het belangrijk om het onderscheidingsvermogen te overwegen om ervoor te zorgen dat het onderzoek in staat is om relevante effecten te detecteren als deze aanwezig zijn.
* * *
# Hypothesetoetsing en foutenanalyse
Hypothesetoetsing is een statistische methode om te bepalen of er voldoende bewijs is om een specifieke claim (hypothese) over een populatie te verwerpen of te behouden, gebaseerd op steekproefgegevens.
## 3\. Hypothesetoetsing en foutenanalyse
### 3.1 Introductie tot hypothesetoetsing
Hypothesetoetsing is een procedure waarbij op basis van steekproefgegevens een beslissing wordt genomen over een uitspraak (hypothese) die gedaan is over de populatie. Het is een kernonderdeel van inferentiële statistiek en helpt ons om conclusies te trekken over populaties op basis van beperkte informatie uit steekproeven.
### 3.2 De z-toets voor onafhankelijke steekproeven
De z-toets voor onafhankelijke steekproeven wordt gebruikt om de gemiddelden van twee verschillende populaties te vergelijken. Dit is met name relevant wanneer we willen weten of er een significant verschil is tussen de gemiddelde scores van twee groepen.
#### 3.2.1 Formuleren van hypothesen
Bij hypothesetoetsing is het cruciaal om duidelijke nulhypothesen ($H\_0$) en alternatieve hypothesen ($H\_a$) te formuleren.
* **Nulhypothese ($H\_0$):** Stelt dat er geen effect of verschil is. Bij het vergelijken van twee gemiddelden stelt de nulhypothese vaak dat de gemiddelden van de twee populaties gelijk zijn, of dat het verschil tussen hen nul of kleiner dan of gelijk aan nul is.
* Voorbeeld: $H\_0: \\mu\_1 - \\mu\_2 \\leq 0$ (Het gemiddelde van populatie 1 is niet groter dan het gemiddelde van populatie 2).
* **Alternatieve hypothese ($H\_a$):** Stelt dat er wel een effect of verschil is. Dit is de hypothese die we proberen te bewijzen.
* Voorbeeld: $H\_a: \\mu\_1 - \\mu\_2 > 0$ (Het gemiddelde van populatie 1 is groter dan het gemiddelde van populatie 2).
#### 3.2.2 Berekening van toetsingsgrootheden
De toetsingsgrootheid is een waarde die berekend wordt uit de steekproefgegevens en die aangeeft hoe ver de steekproefresultaten afwijken van wat verwacht zou worden onder de nulhypothese. Voor de z-toets voor onafhankelijke steekproeven wordt de z-score berekend.
De formule voor de z-score bij het vergelijken van twee gemiddelden is: $$ Z = \\frac{(\\bar{x}\_1 - \\bar{x}\_2) - (\\mu\_1 - \\mu\_2)\_0}{\\sqrt{\\frac{\\sigma\_1^2}{n\_1} + \\frac{\\sigma\_2^2}{n\_2}}} $$ waarbij:
* $\\bar{x}\_1$ en $\\bar{x}\_2$ de steekproefgemiddelden zijn van de twee groepen.
* $(\\mu\_1 - \\mu\_2)\_0$ het verschil tussen de populatiegemiddelden onder de nulhypothese is (vaak 0).
* $\\sigma\_1$ en $\\sigma\_2$ de populatiestandaardafwijkingen zijn.
* $n\_1$ en $n\_2$ de steekproefgroottes zijn.
Indien de populatiestandaardafwijkingen ($\\sigma\_1, \\sigma\_2$) onbekend zijn, worden deze vaak geschat met de steekproefstandaardafwijkingen ($s\_1, s\_2$). Als de steekproeven groot genoeg zijn ($n \\ge 30$), kan de z-toets nog steeds als benadering worden gebruikt.
> **Tip:** De grootte van de steekproef ($n$) speelt een cruciale rol. Een grotere steekproef leidt tot een kleinere standaardfout van het gemiddelde ($\\frac{\\sigma}{\\sqrt{n}}$), wat de toetsingsgrootheid gevoeliger maakt voor verschillen en de kans op het verwerpen van een valse nulhypothese vergroot.
### 3.3 Significantietoets in 4 stappen
Een significatietoets volgt doorgaans een gestructureerd proces:
1. **Formuleer de nul- en de alternatieve hypothesen.** Dit is de eerste stap om de te toetsen vraag duidelijk te definiëren.
2. **Bepaal de waarde van de toetsingsgrootheid.** Bereken de z-score (of een andere relevante toetsingsgrootheid) op basis van de steekproefgegevens.
3. **Bepaal de overschrijdingskans (p-waarde) voor de toetsingsgrootheid.** De p-waarde is de kans om een steekproefresultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is. Dit kan theoretisch worden berekend (bv. met behulp van de standaardnormaalverdeling) of via resamplingmethoden.
4. **Formuleer de conclusie in APA-stijl.** Op basis van de p-waarde en een vooraf bepaald significantieniveau ($\\alpha$) wordt een beslissing genomen om de nulhypothese te verwerpen of niet te verwerpen.
#### 3.3.1 Conclusie formuleren in APA-stijl
Een conclusie in APA-stijl vermeldt doorgaans de gevonden toetsingsgrootheid, de p-waarde en de interpretatie in de context van het onderzoek.
* **Voorbeeld:** "Gewone studenten behalen gemiddeld (gem = 461) significant lagere scores dan slimmeriken (gem = 500), $z = 8.72$, $p < .001$."
### 3.4 Foutenanalyse: Type I en Type II fouten
Bij hypothesetoetsing is er altijd een kans op het maken van fouten. Er zijn twee soorten fouten te onderscheiden:
* **Type I fout (valspositief):** Dit is het onterecht verwerpen van de nulhypothese ($H\_0$) terwijl deze eigenlijk waar is. De kans op een Type I fout is gelijk aan het significantieniveau ($\\alpha$) van de toets.
* Consequenties: Je concludeert dat er een effect is, terwijl dat er in werkelijkheid niet is.
* **Type II fout (valsnegatief):** Dit is het onterecht niet verwerpen van de nulhypothese ($H\_0$) terwijl deze eigenlijk onjuist is (dus de alternatieve hypothese $H\_a$ is waar). De kans op een Type II fout wordt aangeduid met $\\beta$.
* Consequenties: Je concludeert dat er geen effect is, terwijl dat er in werkelijkheid wel is.
#### 3.4.1 Onderscheidingsvermogen (Power)
Het **onderscheidingsvermogen** (power) van een toets is de kans dat de toets de nulhypothese correct verwerpt wanneer deze onjuist is. Het is gelijk aan $1 - \\beta$. Een hogere power betekent een grotere kans om een werkelijk bestaand effect te detecteren.
* **Berekening van het onderscheidingsvermogen:**
1. Bepaal de kritieke waarde van de toetsingsgrootheid onder de nulhypothese ($H\_0$) voor een gegeven significantieniveau ($\\alpha$).
2. Bereken de z-score van deze kritieke waarde onder de alternatieve hypothese ($H\_a$).
3. Het onderscheidingsvermogen is de kans om een toetsingsgrootheid te verkrijgen die groter is dan de kritieke waarde, onder aanname van de alternatieve hypothese.
> **Tip:** Het onderscheidingsvermogen kan worden vergroot door:
>
> * Het significantieniveau ($\\alpha$) te verhogen (maar dit verhoogt ook de kans op een Type I fout).
>
> * De steekproefgrootte ($n$) te vergroten.
>
> * De effectgrootte (het werkelijke verschil tussen de populatieparameters) te vergroten.
>
> * De populatiespreiding ($\\sigma$) te verkleinen.
>
#### 3.4.2 Invloed van $\\alpha$ en steekproefgrootte op fouten
* **Verhogen van $\\alpha$:** Verhoogt de kans op een Type I fout, maar verlaagt de kans op een Type II fout (en vergroot dus het onderscheidingsvermogen).
* **Vergroten van de steekproefgrootte ($n$):** Verkleint zowel de kans op een Type I fout (indien de $\\alpha$ constant wordt gehouden) als de kans op een Type II fout, waardoor het onderscheidingsvermogen toeneemt.
#### 3.4.3 Illustratie met een voorbeeld: Onderscheidingsvermogen
Stel, we onderzoeken de gemiddelde afwijking in een aandachtsproef bij brildragers. De populatie van niet-brildragers heeft een normale verdeling met gemiddelde $\\mu = 0$ en standaardafwijking $\\sigma = 0.5$ cm. De nulhypothese is dat brildragers geen systematische fout maken ($H\_0: \\mu\_{brildragers} = 0$). De alternatieve hypothese is dat brildragers een positieve afwijking hebben ($H\_a: \\mu\_{brildragers} > 0$). We nemen een steekproef van $n=35$ brildragers.
* Als de werkelijke gemiddelde afwijking van brildragers $\\mu = 0.3$ cm zou zijn, en we stellen het significantieniveau op $\\alpha = 0.05$ (zodat de kritieke z-waarde $1.64$ is bij een eenzijdige toets), dan kunnen we het onderscheidingsvermogen berekenen.
* De standaardfout van het gemiddelde voor de steekproefgrootte $n=35$ is $\\sigma\_{\\bar{x}} = \\frac{0.5}{\\sqrt{35}} \\approx 0.0845$.
* De kritieke waarde voor het steekproefgemiddelde is $\\bar{x}\_{kritiek} = z{\\alpha} \\times \\sigma\_{\\bar{x}} = 1.64 \\times 0.0845 \\approx 0.1386$ cm.
* Om het onderscheidingsvermogen te berekenen, kijken we naar de kans dat het steekproefgemiddelde groter is dan deze kritieke waarde, \_ervan uitgaande dat de werkelijke gemiddelde afwijking 0.3 cm is.
* We berekenen de z-score van de kritieke waarde 0.1386 onder de alternatieve hypothese: $$ z\_{H\_a} = \\frac{\\bar{x}\_{kritiek} - \\mu{H\_a}}{\\sigma\_{\\bar{x}}} = \\frac{0.1386 - 0.3}{0.0845} \\approx -1.91 $$
* De kans op een z-score groter dan -1.91 is $P(Z > -1.91) \\approx 0.9719$.
* Dit betekent dat, als de werkelijke gemiddelde afwijking van brildragers 0.3 cm is, de toets in ongeveer 97.19% van de gevallen significant zal zijn (en $H\_0$ correct verworpen zal worden). Dit is het onderscheidingsvermogen (power) van de toets onder deze specifieke alternatieve hypothese.
Dit illustreert hoe een groter verschil tussen de nulhypothese en de alternatieve hypothese, gecombineerd met een voldoende grote steekproef, leidt tot een hoog onderscheidingsvermogen.
* * *
## Veelgemaakte fouten om te vermijden
* Bestudeer alle onderwerpen grondig voor examens
* Let op formules en belangrijke definities
* Oefen met de voorbeelden in elke sectie
* Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Meetscalaten | Een meetscala definieert de eigenschappen van numerieke gegevens, variërend van nominale (categorieën zonder rangorde) tot ratio (met een absoluut nulpunt). Ze bepalen welke statistische bewerkingen zinvol zijn. |
| Beschrijvende Statistiek | Een tak van de statistiek die zich bezighoudt met het samenvatten, organiseren en presenteren van gegevens op een zinvolle manier, vaak met behulp van tabellen, grafieken en samenvattende maten zoals gemiddelde en standaardafwijking. |
| Ordeningstechnieken | Methoden om gegevens te structureren en te presenteren, zoals het maken van tabellen en het visualiseren van gegevens in figuren, om patronen en verdelingen te onthullen. |
| Reductietechnieken | Statistische methoden die grote datasets samenvatten tot enkele belangrijke kenmerken of maten, zoals centrale tendens (positie), spreiding en vorm van de verdeling. |
| Associatietechnieken | Statistische methoden die de relatie tussen twee of meer variabelen onderzoeken, bijvoorbeeld door middel van spreidingsdiagrammen, contingentietabellen en correlatiecoëfficiënten. |
| Kansrekening | De wiskundige studie van toeval en onzekerheid, die de basis vormt voor inferentiële statistiek door de waarschijnlijkheid van gebeurtenissen te kwantificeren. |
| Steekproevenverdelingen | Een kansverdeling van een statistiek (zoals het steekproefgemiddelde) die wordt verkregen door herhaaldelijk steekproeven van een bepaalde grootte uit een populatie te trekken. |
| Inferentiële statistiek | Een tak van de statistiek die conclusies trekt over een populatie op basis van gegevens uit een steekproef, met behulp van technieken zoals schatten en hypothesetoetsen. |
| Betrouwbaarheidsinterval | Een reeks waarden die naar verwachting een populatieparameter bevat, met een gespecificeerd betrouwbaarheidsniveau (bijvoorbeeld 95%). Het geeft een bereik aan waarin de werkelijke waarde waarschijnlijk ligt. |
| Overschrijdingskans | De waarschijnlijkheid dat een toetsingsgrootheid een waarde aanneemt die extremer is dan de waargenomen waarde, gegeven dat de nulhypothese waar is. Dit wordt ook wel de p-waarde genoemd. |
| Significantietoetsen | Statistische procedures die worden gebruikt om te bepalen of de resultaten van een studie voldoende bewijs leveren om de nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Populatie | De volledige verzameling van individuen, objecten of gebeurtenissen waarin men geïnteresseerd is voor een studie. |
| Steekproefgemiddelde | Het gemiddelde van de waarden in een steekproef, gebruikt als schatter voor het populatiegemiddelde. |
| Verwachting (van steekproefgemiddelden) | Het gemiddelde van alle mogelijke steekproefgemiddelden, dat gelijk is aan het populatiegemiddelde. |
| Standaarddeviatie (van steekproefgemiddelden) | De standaardafwijking van de steekproevenverdeling van het steekproefgemiddelde, ook wel de standaardfout van het gemiddelde genoemd. |
| Centrale Limietstelling | Een fundamentele stelling in de kansrekening die stelt dat de verdeling van steekproefgemiddelden van voldoende grote steekproeven, ongeacht de oorspronkelijke populatieverdeling, bij benadering normaal verdeeld is. |
| Enkelvoudige Aselecte Steekproef (SRS) | Een steekproefmethode waarbij elk individu in de populatie een gelijke kans heeft om geselecteerd te worden, en elke mogelijke combinatie van individuen van dezelfde grootte ook een gelijke kans heeft. |
| µ | Symbool voor het populatiegemiddelde. |
| | Symbool voor de populatiestandaardafwijking. |
| BI (Betrouwbaarheidsinterval) | Afkorting voor Betrouwbaarheidsinterval. |
| SP (Steekproef) | Afkorting voor Steekproef. |
| SAT (Scholastic Aptitude Test) | Een gestandaardiseerde test die wordt gebruikt voor toelating tot universiteiten in de Verenigde Staten, vaak als voorbeeld in statistische lessen. |
| Hypothesetoets | Een statistische procedure om te evalueren of er voldoende bewijs is in een steekproef om de nulhypothese te verwerpen. |
| z-toets | Een statistische toets die wordt gebruikt om te bepalen of twee populatiegemiddelden significant van elkaar verschillen, wanneer de populatiestandaardafwijkingen bekend zijn of de steekproefgrootte groot is. |
| Nulhypothese (H0) | Een bewering over een populatieparameter die wordt aangenomen als waar totdat er voldoende bewijs is om deze te verwerpen. Het stelt vaak dat er geen effect, geen verschil of geen relatie is. |
| Alternatieve hypothese (Ha) | Een bewering die het tegendeel stelt van de nulhypothese. Het stelt dat er wel een effect, verschil of relatie is. |
| z-score | Een gestandaardiseerde score die aangeeft hoeveel standaardafwijkingen een bepaald datapunt verwijderd is van het gemiddelde van de verdeling. |
| p-waarde | De kans om een toetsingsgrootheid te observeren die minstens zo extreem is als de waargenomen toetsingsgrootheid, aannemende dat de nulhypothese waar is. |
| Onderscheidingsvermogen (Power) | De kans dat een statistische toets de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Het is gelijk aan 1-β (beta), waarbij β de kans op een Type II fout is. |
| Type I fout (alfa) | Het ten onrechte verwerpen van de nulhypothese wanneer deze waar is. Het significantieniveau van de test (α) is de kans op een Type I fout. |
| Type II fout (beta) | Het niet verwerpen van de nulhypothese wanneer deze vals is. De kans op een Type II fout wordt aangeduid met β. |
| Significantieniveau (α) | Het vooraf bepaalde waarschijnlijkheidsniveau dat wordt gebruikt om te beslissen of een resultaat statistisch significant is. Het vertegenwoordigt de maximale kans op een Type I fout die men bereid is te accepteren. |
| Kritieke waarde | De grenswaarde in een steekproevenverdeling die wordt gebruikt om te beslissen of de nulhypothese wordt verworpen. Het is de grens die het significantieniveau (α) afbakent. |
| µ0 | De waarde van het populatiegemiddelde onder de nulhypothese. |
| µA | De waarde van het populatiegemiddelde onder de alternatieve hypothese. |
| Effectgrootte | Een maat die de omvang van het verschil of de relatie tussen variabelen kwantificeert, onafhankelijk van de steekproefgrootte. |
Cover
Set 2 H07 InferentieVerdelingen.pptx
Summary
# Inferentie over de verwachting van één populatie met een geschatte standaardafwijking
Hieronder vind je een gedetailleerd overzicht van inferentie over de verwachting van één populatie met een geschatte standaardafwijking, opgesteld als een studiehandleiding voor examens.
## 1. Inferentie over de verwachting van één populatie met een geschatte standaardafwijking
Dit onderdeel behandelt statistische inferentie voor het populatiegemiddelde wanneer de populatiestandaardafwijking onbekend is, waarbij de t-verdeling centraal staat.
### 1.1 De t-verdeling
Wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$), wordt de steekproevenverdeling van het gemiddelde niet langer beschreven door de standaardnormaalverdeling, maar door de t-verdeling.
* **Kenmerken van de t-verdeling:**
* Symmetrisch rond nul.
* Een enkele top bij $0$.
* Dikkere staarten dan de standaardnormaalverdeling. Dit betekent dat er meer kans is op extreme waarden in vergelijking met de $z$-verdeling.
* **Vrijheidsgraden (degrees of freedom, $df$):**
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden. Voor inferentie over de verwachting van één populatie is het aantal vrijheidsgraden gelijk aan $df = n - 1$, waarbij $n$ de steekproefgrootte is.
* Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaardnormaalverdeling.
* **Kritieke waarden ($t^\ast$):**
* Kritieke waarden voor de t-verdeling, afhankelijk van het aantal vrijheidsgraden en het gewenste betrouwbaarheidsniveau, worden opgezocht in Tabel D (vaak te vinden in appendices van statistiekhandboeken).
> **Tip:** De dikkere staarten van de t-verdeling corrigeren voor de extra onzekerheid die ontstaat door het schatten van $\sigma$ met $s$. Dit leidt tot bredere betrouwbaarheidsintervallen en een grotere kans op het niet verwerpen van de nulhypothese (minder onderscheidingsvermogen) vergeleken met een $z$-test met bekende $\sigma$.
### 1.2 1-steekproef t-betrouwbaarheidsinterval
Het betrouwbaarheidsinterval (BI) voor de populatieverwachting $\mu$, wanneer $\sigma$ onbekend is, volgt een vergelijkbare logica als bij een bekende $\sigma$, maar maakt gebruik van de t-verdeling.
* **Formule voor het betrouwbaarheidsinterval:**
$$ \text{Steekproefgemiddelde} \pm t^\ast \times \frac{s}{\sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $t^\ast$ de kritieke t-waarde is voor het gewenste betrouwbaarheidsniveau en $df = n - 1$.
* $s$ de steekproefstandaardafwijking is.
* $n$ de steekproefgrootte is.
* **Voorwaarden voor het toepassen van het 1-steekproef t-betrouwbaarheidsinterval:**
1. **Random:** De data moeten afkomstig zijn uit een toevallige (enkelvoudige aselecte) steekproef.
2. **Normaal verdeeld:**
* Als de steekproefgrootte groot is ($n \ge 30$), is de t-procedure redelijk robuust voor afwijkingen van normaliteit.
* Voor kleine steekproeven ($n < 30$) moet de populatie redelijkerwijs als normaal verdeeld worden beschouwd. Dit kan worden beoordeeld met behulp van histogrammen, boxplots of normale kwantiel-kwantiel plots (Q-Q plots) van de steekproefdata.
3. **Onafhankelijk:** De waarnemingen binnen de steekproef moeten onafhankelijk zijn. Bij steekproeftrekking zonder teruglegging uit een eindige populatie, geldt de vuistregel dat de populatiegrootte minstens 20 keer de steekproefgrootte moet zijn ($N \ge 20n$).
> **Voorbeeld:** Kwaliteitscontrole van beeldschermen. Een steekproef van 20 schermen wordt genomen. De gemiddelde spanning is 306.32 mV en de standaardafwijking is 36.21 mV. We willen een 90% betrouwbaarheidsinterval.
> * $n = 20$, dus $df = 19$.
> * Voor een 90% BI en $df=19$, is $t^\ast = 1.729$.
> * Het interval is: $306.32 \pm 1.729 \times \frac{36.21}{\sqrt{20}} = 306.32 \pm 1.729 \times 8.10 \approx 306.32 \pm 13.99$.
> * Het 90% betrouwbaarheidsinterval is $[292.33, 320.31]$ mV. We zijn 90% zeker dat de ware gemiddelde spanning van de geproduceerde schermen op die dag tussen 292.33 en 320.31 mV ligt.
### 1.3 1-steekproef t-toets (One-Sample t Test)
De 1-steekproef t-toets wordt gebruikt om te toetsen of het populatiegemiddelde $\mu$ gelijk is aan een specifieke hypothetische waarde $\mu_0$.
* **Hypothesen:**
* Nulhypothese ($H_0$): $\mu = \mu_0$
* Alternatieve hypothese ($H_a$): $\mu \neq \mu_0$ (tweezijdig), $\mu > \mu_0$ (eenzijdig rechts), of $\mu < \mu_0$ (eenzijdig links).
* **Toetsingsgrootheid:**
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de hypothetische populatiewaarde is.
* $s$ de steekproefstandaardafwijking is.
* $n$ de steekproefgrootte is.
* **P-waarde:**
* De p-waarde is de kans om een toetsingsgrootheid te bekomen die minstens zo extreem is als de berekende waarde, onder de aanname dat $H_0$ waar is. Dit wordt bepaald met de t-verdeling met $df = n - 1$.
* Bij grote steekproeven levert de t-toets een goede benadering, zelfs als de populatie niet exact normaal verdeeld is.
* **Voorwaarden voor de 1-steekproef t-toets:**
* Dezelfde als voor het 1-steekproef t-betrouwbaarheidsinterval: Random, Normaal verdeeld (of grote steekproef), en Onafhankelijk.
> **Voorbeeld:** Meting van opgeloste zuurstof (DO) in een rivier. 15 waterstalen worden genomen met een gemiddelde DO van 4.771 mg/l en een standaardafwijking van 0.940 mg/l. Milieuactivisten beweren dat het water "onleefbaar" is, wat betekent dat de gemiddelde DO lager is dan 5 mg/l. We toetsen dit met $\alpha = 0.05$.
> * $H_0: \mu = 5$ mg/l
> * $H_a: \mu < 5$ mg/l
> * $n = 15$, dus $df = 14$.
> * De toetsingsgrootheid is $t = \frac{4.771 - 5}{0.940 / \sqrt{15}} = \frac{-0.229}{0.2426} \approx -0.944$.
> * De p-waarde voor $t = -0.944$ met $df = 14$ (eenzijdig links) ligt tussen 0.15 en 0.20.
> * Omdat $p > \alpha$ (0.15-0.20 > 0.05), verwerpen we $H_0$ niet. Er is onvoldoende bewijs dat het water onleefbaar is.
* **Rapporteren van toetsresultaten (APA-stijl):**
Bij het rapporteren van de resultaten van een t-toets worden doorgaans de volgende elementen vermeld:
* Beschrijvende maten (gemiddelde, standaardafwijking).
* De toetsingsgrootheid en de waarde daarvan.
* De vrijheidsgraden tussen haakjes direct achter de naam van de toetsingsgrootheid (bv. $t(14)$).
* De p-waarde. Als deze kleiner is dan 0.001, wordt deze gerapporteerd als $p < 0.001$. Als de toets niet significant is en de p-waarde niet bekend is, wordt "n.s." (niet significant) vermeld.
* Indien relevant, het betrouwbaarheidsinterval.
* Indien de toets eenzijdig is, wordt dit vermeld.
* Effectgrootte (bv. Cohen's $d$) kan ook worden gerapporteerd.
> **Voorbeeld rapportage:** Het zuurstofgehalte in de onderzochte stalen ($M = 4.771$ mg/l, $SD = 0.940$ mg/l) was niet significant lager dan de drempelwaarde van 5 mg/l vereist voor levende organismen ($t(14) = -0.944$, $p > 0.05$). De hypothese dat het water gezond is, kan bijgevolg niet weerlegd worden.
### 1.4 Robuustheid van t-procedures
Statistische procedures worden als robuust beschouwd als hun betrouwbaarheidsintervallen of p-waarden niet significant veranderen bij lichte overtredingen van de voorwaarden.
* **Robuustheid van 1-steekproef t-procedures:**
* De voorwaarde van random steekproeftrekking is cruciaal.
* De normaliteitsvereiste is minder kritisch voor grotere steekproeven ($n \ge 30$).
* Voor kleinere steekproeven ($n < 15$) is normaliteit belangrijker. Als de data sterk scheef zijn of uitschieters bevatten, zijn t-procedures minder geschikt.
* Voor tussenliggende steekproefgroottes ($15 \le n < 30$) kunnen t-procedures nog steeds worden toegepast, tenzij er sprake is van duidelijke scheefheid of uitschieters.
### 1.5 Onderscheidingsvermogen (Power) van de t-test
Het onderscheidingsvermogen (power) van een t-test is de kans dat de nulhypothese correct verworpen wordt wanneer de alternatieve hypothese waar is.
* Het berekenen van het onderscheidingsvermogen vereist kennis van de steekproefgrootte, het significantieniveau, de verwachte standaardafwijking, en de grootte van het effect dat men wil detecteren.
* Het is wenselijk om het onderscheidingsvermogen te maximaliseren, vaak door de steekproefgrootte te verhogen. Een groter te verwachten effect vereist een kleinere steekproef om een voldoende onderscheidingsvermogen te behalen.
* Bij het plannen van een studie wordt vaak het onderscheidingsvermogen berekend om de benodigde steekproefgrootte te bepalen.
### 1.6 Inferentie voor niet-normaal verdeelde populaties
Wanneer de populatieverdeling duidelijk niet normaal is en de steekproefgrootte klein, zijn er alternatieven voor de t-toets:
* **Data transformeren:** Logaritmische of andere transformaties kunnen de data dichter bij normaliteit brengen, waardoor t-procedures op de getransformeerde data toepasbaar worden. De interpretatie van resultaten op getransformeerde schaal kan echter complex zijn.
* **Niet-parametrische toetsen:** Deze toetsen stellen geen specifieke eisen aan de populatieverdeling en toetsen vaak hypothesen over de mediaan in plaats van het gemiddelde. Voor gekoppelde data is de **tekentoets (sign test)** een voorbeeld.
> **Voorbeeld (Tekentoets voor gekoppelde data):** Bij het vergelijken van agressieve incidenten rond volle maan versus andere dagen, wordt voor elke persoon berekend of er meer incidenten waren op volle maan dagen (+) of op andere dagen (-). Het aantal personen met meer incidenten rond volle maan (X) wordt vergeleken met een Binomiaalverdeling $B(n, 0.5)$. Als $H_0$ stelt dat de mediaan van het verschil nul is (dus 50% kans op een positief verschil), kan de significantie worden bepaald. Hoewel de tekentoets minder onderscheidingsvermogen heeft dan de t-toets, is deze geschikt voor sterk scheve data.
---
# Vergelijken van verwachtingen van twee populaties
Hier is een gedetailleerd studieonderdeel over het vergelijken van verwachtingen van twee populaties.
## 2. Vergelijken van twee verwachtingen
Dit gedeelte richt zich op het vergelijken van populatiegemiddelden tussen twee groepen, met aandacht voor zowel gekoppelde data als onafhankelijke steekproeven, waarbij t-toetsen centraal staan.
### 2.1 De t-verdeling: een alternatief voor de z-verdeling
Wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden met de steekproefstandaardafwijking ($s$), maakt men gebruik van de student t-verdeling. Deze verdeling, ontwikkeld door William Sealy Gosset, lijkt conceptueel op de standaard normaalverdeling, maar heeft dikkere staarten. Dit betekent dat extreme waarden waarschijnlijker zijn dan bij een z-verdeling, wat de kans op het onterecht verwerpen van de nulhypothese (Type I fout) vergroot.
#### 2.1.1 Eigenschappen van de t-verdeling
* **Symmetrisch:** De t-verdeling is symmetrisch rond 0.
* **Eén top:** De verdeling heeft één top bij 0.
* **Dikkere staarten:** In vergelijking met de standaard normaalverdeling zijn de staarten van de t-verdeling "dikker", wat de hogere kans op extreme waarden weerspiegelt.
* **Vrijheidsgraden (df):** De exacte vorm van de t-verdeling wordt bepaald door het aantal vrijheidsgraden ($df$). Bij het schatten van de populatieverwachting met een steekproef van grootte $n$, is het aantal vrijheidsgraden $df = n-1$. Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaard normaalverdeling.
> **Tip:** Kritieke waarden ($t^*$) voor de t-verdeling bij verschillende vrijheidsgraden en betrouwbaarheidsniveaus zijn te vinden in Tabel D in het handboek (p. 705).
### 2.2 Inferentie over de verwachting van één populatie met onbekende $\sigma$
#### 2.2.1 1-steekproef t-betrouwbaarheidsinterval
Het berekenen van een betrouwbaarheidsinterval voor de populatieverwachting ($\mu$) wanneer $\sigma$ onbekend is, volgt dezelfde logica als bij een bekende $\sigma$. Het enige verschil is dat de z-verdeling wordt vervangen door de t-verdeling met $n-1$ vrijheidsgraden.
Het interval wordt berekend als:
$$ \bar{x} \pm t^{\ast} \frac{s}{\sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $t^*$ de kritieke t-waarde is voor het gewenste betrouwbaarheidsniveau en $n-1$ vrijheidsgraden.
* $s$ de steekproefstandaardafwijking is.
* $n$ de steekproefgrootte is.
**Voorwaarden voor een 1-steekproef t-betrouwbaarheidsinterval:**
* **Random:** De data komen van een toevallige (enkelvoudige aselecte) steekproef.
* **Normaal verdeeld:** Als de steekproefgrootte klein is ($n < 30$), moet de populatie redelijkerwijs als normaal verdeeld worden beschouwd. Dit kan worden beoordeeld met behulp van histogrammen, boxplots of Q-Q plots van de steekproefdata. De t-procedures zijn robuust, wat betekent dat ze redelijk accuraat blijven, zelfs bij lichte afwijkingen van normaliteit, zeker bij grotere steekproeven.
* **Onafhankelijk:** De observaties binnen de steekproef moeten onafhankelijk zijn. Bij steekproeftrekking zonder teruglegging is de vuistregel dat de populatie minstens 20 keer zo groot moet zijn als de steekproef ($N \geq 20n$).
> **Voorbeeld (Kwaliteitscontrole beeldschermen):**
> Voor een steekproef van 20 schermen met een gemiddelde van 306.32 mV en een standaardafwijking van 36.21 mV, en met $df=19$, is de $t^*$ voor een 90% betrouwbaarheidsinterval 1.729.
> Het 90% BI is: $306.32 \pm 1.729 \times \frac{36.21}{\sqrt{20}}$, wat resulteert in het interval $[292.32, 320.32]$ mV. Dit betekent dat men voor 90% zeker is dat het ware gemiddelde van de productie op die dag binnen dit interval ligt.
#### 2.2.2 1-steekproef t-toets (One-Sample t Test)
De 1-steekproef t-toets wordt gebruikt om te toetsen of het populatiegemiddelde ($\mu$) gelijk is aan een specifieke nulhypothesewaarde ($\mu_0$).
**Nulhypothese ($H_0$):** $\mu = \mu_0$
**Alternatieve hypothese ($H_a$):** $\mu < \mu_0$, $\mu > \mu_0$, of $\mu \neq \mu_0$.
De toetsingsgrootheid wordt berekend als:
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
De p-waarde is de kans om een toetsingsgrootheid te bekomen die minstens even extreem is als de berekende waarde, onder de aanname dat $H_0$ waar is, voor een t-verdeling met $n-1$ vrijheidsgraden.
**Voorwaarden voor een 1-steekproef t-toets:**
Dezelfde voorwaarden als voor het betrouwbaarheidsinterval zijn van toepassing: Random, Normaal verdeeld (of grote steekproef) en Onafhankelijk.
> **Voorbeeld (Opgeloste zuurstof in waterloop):**
> Men wil toetsen of het zuurstofgehalte ($\mu$) lager is dan 5 mg/l ($H_a: \mu < 5$) met $\alpha = 0.05$.
> Gegeven 15 waterstalen met $\bar{x} = 4.771$ mg/l en $s = 0.940$ mg/l.
> De toetsingsgrootheid is: $t = \frac{4.771 - 5}{0.940 / \sqrt{15}} \approx -0.944$.
> Met $df = 15 - 1 = 14$, ligt de p-waarde tussen 0.15 en 0.20.
> Omdat $p > \alpha$ (0.15-0.20 > 0.05), wordt $H_0$ niet verworpen. Er is onvoldoende bewijs dat het water onleefbaar is.
**Rapporteren van toetsresultaten (APA-stijl):**
Resultaten worden gerapporteerd met de toetsingsgrootheid, vrijheidsgraden, p-waarde, en indien relevant, het betrouwbaarheidsinterval en effectgrootte.
Bijvoorbeeld: "Het zuurstofgehalte in de onderzochte stalen ($M = 4,771$ mg/l, $SD = 0,940$ mg/l) was niet significant lager dan de drempelwaarde van 5 mg/l vereist voor levende organismen ($t(14) = -0,944$, $p > 0,05$). "
### 2.3 Vergelijken van twee verwachtingen
Het vergelijken van populatiegemiddelden tussen twee groepen kan op twee manieren gebeuren: met gekoppelde (paired) data of met onafhankelijke steekproeven.
#### 2.3.1 Twee-steekproeven t-toets voor gekoppelde paren
Gekoppelde data ontstaan wanneer observaties binnen groepen systematisch aan elkaar gerelateerd zijn. Dit kan bijvoorbeeld het geval zijn bij metingen vóór en na een interventie bij dezelfde personen, of bij het vergelijken van paren (bv. identieke tweelingen). Gekoppelde t-toetsen zijn een speciaal geval van de 1-steekproef t-toets, waarbij de analyse gericht is op de verschilscores ($d_i = x_{i1} - x_{i2}$) tussen de paren.
**Nulhypothese ($H_0$):** De gemiddelde verschilscore in de populatie is nul ($\mu_d = 0$).
**Alternatieve hypothese ($H_a$):** De gemiddelde verschilscore is niet nul ($\mu_d \neq 0$), groter dan nul ($\mu_d > 0$), of kleiner dan nul ($\mu_d < 0$).
De toetsingsgrootheid is:
$$ t = \frac{\bar{d}}{s_d / \sqrt{n}} $$
waarbij:
* $\bar{d}$ het gemiddelde is van de verschilscores.
* $s_d$ de standaardafwijking is van de verschilscores.
* $n$ het aantal paren is.
* De vrijheidsgraden zijn $df = n-1$.
**Voorwaarden voor een t-toets voor gekoppelde paren:**
* **Random:** De paren zijn op een adequate manier verkregen (hoewel pure randomisatie niet altijd mogelijk is, zoals bij bepaalde observationele studies).
* **Normaal verdeeld:** De populatie van verschilscores is normaal verdeeld, of de steekproefgrootte is voldoende groot ($n \geq 15$ met enige scheefheid/uitschieters, of $n \geq 30$ zelfs bij sterkere scheefheid).
* **Onafhankelijk:** De paren zijn onafhankelijk van elkaar.
> **Voorbeeld (Agressief gedrag en volle maan):**
> Men onderzoekt agressief gedrag bij 15 demente bejaarden gedurende 3 dagen rond volle maan en 3 andere dagen.
> Gegeven de verschilscores (volle maan - andere dagen), met $n=15$, $\bar{d} = 2.432667$ en $s_d = 1.46032$.
> De toetsingsgrootheid is: $t = \frac{2.432667}{1.46032 / \sqrt{15}} \approx 6.45$.
> Met $df = 15-1 = 14$, is de p-waarde $p < 0.001$.
> $H_0$ wordt verworpen: Agressie komt significant vaker voor rond volle maan.
#### 2.3.2 Twee-steekproeven t-toets voor onafhankelijke steekproeven
Deze toets wordt gebruikt om de gemiddelden van twee onafhankelijke populaties te vergelijken.
**Nulhypothese ($H_0$):** $\mu_1 = \mu_2$ (of $\mu_1 - \mu_2 = 0$).
**Alternatieve hypothese ($H_a$):** $\mu_1 \neq \mu_2$, $\mu_1 > \mu_2$, of $\mu_1 < \mu_2$.
De toetsingsgrootheid ($t$) hangt af van de aanname over de populatievarianties:
**1. Gepoelde (Pooled) 2-steekproeven t-toets (Aanname van gelijke varianties: $\sigma_1^2 = \sigma_2^2$)**
Als de populatievarianties gelijk worden verondersteld, wordt een gepoolde schatter voor de variantie gebruikt.
$$ s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2} $$
De toetsingsgrootheid is:
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$
met $df = n_1 + n_2 - 2$ vrijheidsgraden.
**2. t-toets voor ongelijke varianties (Welch's t-test)**
Deze toets is veiliger omdat ze geen gelijke varianties veronderstelt.
De toetsingsgrootheid is:
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} $$
Het aantal vrijheidsgraden wordt berekend met een complexe formule (de Welch-Satterthwaite vergelijking), maar wordt vaak conservatief ingeschat als het minimum van $n_1-1$ en $n_2-1$, of berekend door statistische software. Dit geeft een benaderde t-verdeling.
**Voorwaarden voor een 2-steekproeven t-toets voor onafhankelijke steekproeven:**
* **Random:** Beide steekproeven moeten toevallig zijn getrokken uit hun respectieve populaties.
* **Normaal verdeeld:** Beide populaties (waaruit de steekproeven zijn getrokken) zijn normaal verdeeld, of de steekproefgroottes zijn voldoende groot ($n_1, n_2 \geq 15$ met enige scheefheid/uitschieters, of $n_1, n_2 \geq 30$ zelfs bij sterkere scheefheid). De t-procedures zijn robuuster bij ongelijke varianties, vooral als de steekproefgroottes ongeveer gelijk zijn.
* **Onafhankelijk:** De observaties binnen elke steekproef zijn onafhankelijk, en de twee steekproeven zijn onafhankelijk van elkaar. Bij steekproeftrekking zonder teruglegging geldt de $N \geq 20n$ regel voor elke populatie.
> **Voorbeeld (Calcium op bloeddruk):**
> Een experiment vergelijkt de daling in systolische bloeddruk (BD) na 12 weken tussen een calciumsupplementgroep ($n_1=10$, $\bar{x}_1 = 5.273$ mmHg) en een placebogroep ($n_2=11$, $\bar{x}_2 = -0.727$ mmHg). De nulhypothese is $\mu_1 - \mu_2 = 0$.
> De berekende t-waarde (met software, Welch's test) is $t \approx 1.90$. Met $df \approx 18.7$, is de p-waarde (tweezijdig) $p \approx 0.073$.
> Omdat $p > \alpha$ (0.073 > 0.05), wordt $H_0$ niet verworpen. Er is onvoldoende bewijs dat calcium een grotere bloeddrukverlagende werking heeft dan placebo.
> **Voorbeeld (Nieuwe leesmethode):**
> Vergelijking van leesprestaties na 12 weken tussen een groep met een nieuwe leesmethode ($n_1=21$, $\bar{x}_1 = 51.48$, $s_1 = 11.01$) en een controlegroep ($n_2=23$, $\bar{x}_2 = 41.52$, $s_2 = 17.15$). De alternatieve hypothese is $\mu_1 > \mu_2$.
> Met behulp van statistische software (bv. met Welch's t-test) wordt een t-waarde van $t \approx 2.31$ gevonden met $df \approx 37.86$. De eenzijdige p-waarde is $p \approx 0.013$.
> Omdat $p < \alpha$ (0.013 < 0.05), wordt $H_0$ verworpen. De kinderen die de nieuwe leesmethode volgden, behaalden significant hogere scores op de leestest.
#### 2.3.3 2-steekproeven betrouwbaarheidsinterval voor het verschil tussen gemiddelden
Dit interval geeft een reeks plausibele waarden voor het werkelijke verschil tussen de populatiegemiddelden ($\mu_1 - \mu_2$).
Het wordt berekend met formules die vergelijkbaar zijn met die voor het betrouwbaarheidsinterval van de 1-steekproef t-toets, maar dan gebruikmakend van de steekproefgemiddelden, steekproefstandaardafwijkingen en de t-verdeling met het juiste aantal vrijheidsgraden (conservatief geschat of berekend door software).
> **Voorbeeld (Leesmethode - BI):**
> Voor het leesmethode-voorbeeld, met behulp van statistische software, wordt een 95% betrouwbaarheidsinterval voor het verschil in gemiddelde scores berekend als $[1.23, 18.68]$. Dit betekent dat men voor 95% zeker is dat het ware verschil in leesprestaties tussen de twee methoden ergens tussen 1.23 en 18.68 punten ligt.
### 2.4 Robuustheid van t-procedures
Statistische procedures worden als robuust beschouwd als hun betrouwbaarheidsintervallen of p-waarden niet sterk veranderen wanneer de voorwaarden van de procedure licht worden geschonden.
* **Voorwaarden:** De eis van een aselecte steekproef is belangrijker dan de normaliteitsvereiste, vooral bij kleine steekproeven.
* **Grote steekproeven ($n \geq 30-40$):** t-procedures kunnen worden gebruikt, zelfs als de verdelingen duidelijk scheef zijn.
* **Kleine tot middelgrote steekproeven ($15 \leq n < 30$):** t-procedures zijn redelijk robuust, tenzij er uitschieters zijn of de verdeling sterk scheef is.
* **Zeer kleine steekproeven ($n < 15$):** t-procedures moeten alleen worden gebruikt als de data nagenoeg normaal verdeeld zijn. Bij duidelijke scheefheid of uitschieters is het gebruik van t-procedures af te raden.
* **2-steekproeven t-procedures:** Zijn over het algemeen robuuster dan 1-steekproef t-methoden, vooral wanneer de verdelingen niet symmetrisch zijn maar wel vergelijkbaar scheef lopen.
### 2.5 Onderscheidingsvermogen (Power) van de t-test
Het onderscheidingsvermogen (power) van een toets is de kans dat de nulhypothese wordt verworpen wanneer de alternatieve hypothese waar is.
* **Power van de 1-steekproef t-test:** De berekening lijkt op die voor de z-test, waarbij het overschatten van $\sigma$ beter is dan onderschatten bij het plannen van een studie om te voorkomen dat een bestaand effect gemist wordt.
* **Power van de 2-steekproeven t-test:** De principes zijn vergelijkbaar, maar de berekeningen zijn complexer (bv. met behulp van de noncentral t-distributie of software zoals G*Power). Goede planning van een studie, inclusief powerberekeningen, verhoogt de kans om een significant verschil te detecteren indien dit aanwezig is.
> **Voorbeeld (Power leesmethode):**
> Bij een studieplanning met een gewenst detecteerbaar verschil van 4 punten en een geschatte standaardafwijking, kan met G*Power een power van ongeveer 72% worden berekend voor een specifiek aantal deelnemers.
### 2.6 Inferentie voor niet-normaal verdeelde populaties
Wanneer de populatieverdeling duidelijk niet normaal is en de steekproefgrootte klein, zijn er alternatieven:
* **Data transformeren:** Soms kunnen transformaties (bv. logaritmische transformatie) de data dichter bij normaliteit brengen, waardoor t-procedures op de getransformeerde data adequaat kunnen zijn. Interpretatie op de oorspronkelijke schaal kan echter lastig zijn.
* **Niet-parametrische toetsen:** Deze verdelingsvrije toetsen stellen minder eisen aan de populatieverdeling. Ze toetsen vaak hypothesen over de mediaan in plaats van het gemiddelde.
* **Tekentoets voor gekoppelde data:** Dit is een voorbeeld van een niet-parametrische toets voor gekoppelde data. Het telt het aantal paren met een positief verschil. De p-waarde wordt berekend op basis van de binomiale verdeling $B(n, 0.5)$. Het nadeel is dat de tekentoets een kleiner onderscheidingsvermogen heeft dan de t-toets voor gekoppelde paren.
### 2.7 Inferentie voor populatiespreiding
Naast gemiddelden kunnen ook de spreidingen (varianties of standaardafwijkingen) van twee populaties worden vergeleken met de F-toets voor gelijkheid van spreidingen. Deze toets is echter niet robuust voor afwijkingen van de normaliteitsassumptie. De F-verdeling is rechts scheef en de toetsingsgrootheid is de verhouding van de steekproefvarianties. Waarden van F die sterk afwijken van 1 geven evidentie tegen de nulhypothese van gelijke spreidingen.
---
# Extra onderwerpen betreffende de vergelijking van verdelingen
Dit deel behandelt aanvullende methoden voor het vergelijken van verdelingen, waaronder de robuustheid van t-procedures, inferentie voor populatiespreidingen met de F-toets, en niet-parametrische toetsen zoals de tekentoets.
## 3 Extra onderwerpen betreffende de vergelijking van verdelingen
### 3.1 De t-verdeling en t-procedures
Tot nu toe werd voornamelijk de z-toets gebruikt, die gebaseerd is op het standaardiseren van gemiddelde waarden ten opzichte van de populatiestandaardafwijking ($\sigma$). Echter, in de praktijk is $\sigma$ vaak onbekend en moet deze geschat worden met de steekproefstandaardafwijking ($s$).
#### 3.1.1 De t-verdelingen
Wanneer de populatiestandaardafwijking $\sigma$ onbekend is en wordt geschat door de steekproefstandaardafwijking $s$, volgt de steekproevenverdeling van het gemiddelde geen standaard normaalverdeling meer, maar een t-verdeling. Deze verdeling, ontwikkeld door William Sealy Gosset (pseudoniem Student), heeft de volgende kenmerken:
* **Symmetrisch** met een top op 0.
* **Dikkere staarten** dan de standaard normaalverdeling, wat betekent dat extreme waarden waarschijnlijker zijn. Dit compenseert voor de extra onzekerheid door het schatten van $\sigma$.
* De precieze vorm van de t-verdeling hangt af van het aantal **vrijheidsgraden** (degrees of freedom, df), wat doorgaans gelijk is aan $n-1$ voor een enkelvoudige steekproef.
Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling steeds meer de standaard normaalverdeling. Kritieke waarden ($t^{\ast}$) voor t-verdelingen kunnen worden opgezocht in tabel D.
> **Tip:** De dikkere staarten van de t-verdeling betekenen dat de z-toets (die uitgaat van een bekende $\sigma$) conservatiever is dan de t-toets. Om een nulhypothese te verwerpen met een z-toets, zijn grotere afwijkingen nodig dan bij een t-toets.
#### 3.1.2 Robuustheid van t-procedures
Statistische procedures worden als robuust beschouwd wanneer hun resultaten (betrouwbaarheidsintervallen of p-waarden) niet significant veranderen bij overtreding van de voorwaarden waaraan ze moeten voldoen.
* **Voorwaarden voor t-procedures:**
* **Random:** De data komen uit een toevallige (enkelvoudige aselecte) steekproef.
* **Normaal verdeeld:** De populatie waaruit de steekproef is getrokken, is normaal verdeeld. Voor kleine steekproeven ($n < 15$) is deze voorwaarde belangrijker. Bij grotere steekproeven ($n \ge 30-40$) is de t-procedure robuust tegen scheve verdelingen. Bij steekproefgroottes tussen 15 en 30 is normaliteit belangrijk, tenzij er uitschieters zijn of de verdeling sterk scheef is.
* **Onafhankelijk:** De observaties binnen een steekproef zijn onafhankelijk, en bij vergelijking van twee groepen zijn de groepen zelf ook onafhankelijk (tenzij het gaat om gekoppelde data). Voor steekproeven zonder teruglegging geldt de vuistregel $N \ge 20n$ (populatiegrootte is minstens 20 keer de steekproefgrootte).
* **Robuustheid van 2-steekproeven t-procedures:** Deze procedures zijn over het algemeen robuuster dan 1-steekproef methoden, vooral wanneer de verdelingen van beide groepen vergelijkbaar scheef zijn.
* Bij een totale steekproefgrootte $< 15$: Gebruik t-procedures alleen bij nagenoeg normale data. Vermijd bij sterke scheefheid of uitschieters.
* Bij een totale steekproefgrootte $\ge 15$: t-procedures kunnen gebruikt worden, tenzij er uitschieters zijn of de verdeling sterk scheef is.
* Bij grote steekproeven: t-procedures zijn ook toepasbaar bij sterk scheve verdelingen.
#### 3.1.3 1-steekproef t-betrouwbaarheidsinterval en t-toets
* **1-steekproef t-betrouwbaarheidsinterval voor $\mu$ (onbekende $\sigma$)**:
Het interval wordt berekend als:
$$\bar{x} \pm t^{\ast} \frac{s}{\sqrt{n}}$$
waarbij $t^{\ast}$ de kritieke waarde is uit de t-verdeling met $n-1$ vrijheidsgraden die overeenkomt met het gewenste betrouwbaarheidsniveau.
> **Example:** Voor een 90% betrouwbaarheidsinterval bij $n=20$ deelnemers ($df=19$), wordt $t^{\ast}$ opgezocht voor 90% betrouwbaarheidsniveau (enkelzijdige p = 0.05). Uit Tabel D is dit $t^{\ast} = 1.729$.
* **1-steekproef t-toets voor $\mu$**:
Om de nulhypothese $H_0: \mu = \mu_0$ te toetsen, wordt de toetsingsgrootheid berekend:
$$t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$$
Deze toetsingsgrootheid wordt getoetst tegen een t-verdeling met $n-1$ vrijheidsgraden. De p-waarde geeft de kans weer om een toetsingsgrootheid te verkrijgen die minstens zo extreem is als de berekende waarde, onder de aanname dat $H_0$ waar is.
> **Example:** Bij de analyse van opgeloste zuurstof (DO) in een rivier (n=15), wordt $H_0: \mu = 5$ (mg/l) getoetst tegen $H_a: \mu < 5$ met $\alpha = 0.05$. Na berekening van de toetsingsgrootheid ($t = -0.944$) en het bepalen van de p-waarde (tussen 0.15 en 0.20), wordt $H_0$ niet verworpen omdat $p > \alpha$. Er is onvoldoende bewijs dat het water onleefbaar is.
#### 3.1.4 t-toets voor gekoppelde paren
Deze toets wordt gebruikt om het verschil tussen twee metingen op dezelfde individuen of op duidelijk vergelijkbare paren te analyseren. Het is een speciaal geval van de 1-steekproef t-toets toegepast op de verschilscores: $d_i = x_{i1} - x_{i2}$.
* **Hypothese:** $H_0: \mu_d = 0$ (de mediaan van de verschilscores is nul) of $H_0: \mu_d = \mu_{d0}$.
* **Toetsingsgrootheid:**
$$t = \frac{\bar{d} - \mu_{d0}}{s_d/\sqrt{n}}$$
waarbij $\bar{d}$ het gemiddelde van de verschilscores is, $s_d$ de standaardafwijking van de verschilscores, en $n$ het aantal paren. De vrijheidsgraden zijn $n-1$.
* **Vereisten:** De populatie van verschilscores is normaal verdeeld, of de steekproef is groot. De steekproef moet een enkelvoudige aselecte steekproef zijn.
> **Example:** Onderzoek naar agressief gedrag bij dementen, metingen rond volle maan versus andere dagen (n=15). Verschilscores werden berekend. De t-toets voor gekoppelde paren toonde een significant grotere agressie rond volle maan ($t(14) = 6.45, p < 0.001$).
#### 3.1.5 t-toets voor twee onafhankelijke steekproeven
Deze toets vergelijkt de gemiddelden van twee onafhankelijke groepen.
* **Hypothese:** $H_0: \mu_1 = \mu_2$ (of $H_0: \mu_1 - \mu_2 = \delta_0$).
* **Zonder bekende $\sigma$ (meest voorkomend):**
De toetsingsgrootheid is:
$$t = \frac{(\bar{x}_1 - \bar{x}_2) - \delta_0}{s_{p}\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$$
waarbij $s_p$ de gepoolde standaardafwijking is (indien gelijke varianties worden aangenomen).
* **Gepoelde t-test (gelijke varianties aangenomen):** De gepoolde variantie $\sigma^2_p$ wordt geschat als:
$$\sigma^2_p = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}$$
De t-statistiek is dan exact t-verdeeld met $n_1 + n_2 - 2$ vrijheidsgraden.
* **Ongelijke varianties (Welch's t-test):** Wanneer varianties niet gelijk zijn, wordt een conservatieve schatting van de vrijheidsgraden gebruikt: $df = \min(n_1 - 1, n_2 - 1)$. De exacte berekening van de vrijheidsgraden is complex en wordt vaak door software uitgevoerd. Deze methode is veiliger omdat het de aanname van gelijke varianties vermijdt.
* **Met bekende $\sigma$:** De z-test wordt gebruikt:
$$z = \frac{(\bar{x}_1 - \bar{x}_2) - \delta_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$$
Indien $\sigma_1 = \sigma_2 = \sigma$, vereenvoudigt dit tot:
$$z = \frac{(\bar{x}_1 - \bar{x}_2) - \delta_0}{\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$$
* **Vereisten:** Beide populaties zijn normaal verdeeld, of de steekproeven zijn voldoende groot. De steekproeven zijn onafhankelijk en aselect.
> **Example:** Vergelijking van lichaamslengte tussen jongens en meisjes. De t-toets voor onafhankelijke steekproeven met een conservatieve schatting van df gaf aan dat jongens significant groter waren dan meisjes.
> **Example:** Effect van calcium supplement op bloeddrukdaling bij gezonde zwarte mannen (calcium vs. placebo). De 2-steekproeven t-toets voor het verschil in bloeddrukdaling (met een conservatieve df) was niet significant bij $\alpha = 0.05$, wat suggereert dat calcium geen significant sterker effect heeft dan een placebo.
#### 3.1.6 Betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden ($\mu_1 - \mu_2$)
Dit interval wordt berekend op basis van de resultaten van de 2-steekproeven t-toets.
* **Met gelijke varianties (pooled):**
$$(\bar{x}_1 - \bar{x}_2) \pm t^{\ast} s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}$$
met $df = n_1 + n_2 - 2$.
* **Met ongelijke varianties (Welch):**
$$(\bar{x}_1 - \bar{x}_2) \pm t^{\ast} \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$$
met $df$ bepaald door de Welch-Satterthwaite vergelijking (of software).
> **Example:** Een 95% betrouwbaarheidsinterval voor het verschil in leestoetsen tussen een nieuwe leesmethode en een controle groep was [1.23; 18.68]. Dit betekent dat men met 95% zekerheid kan zeggen dat het ware verschil in gemiddelde scores tussen de groepen binnen dit interval ligt.
#### 3.1.7 Onderscheidingsvermogen (Power) van t-testen
* **Onderscheidingsvermogen van de 1-steekproef t-test:** De kans om de nulhypothese te verwerpen wanneer de alternatieve hypothese waar is. Exacte berekening is complex en vereist de noncentral t-verdeling; vaak wordt een benadering gebruikt met de z-verdeling (als $\sigma$ als "bekend" wordt beschouwd). Bij het schatten van $\sigma$ is het beter deze te overschatten om niet te weinig data te hebben.
* **Onderscheidingsvermogen van de 2-steekproeven t-test:** De kans om de nulhypothese $H_0: \mu_1 = \mu_2$ te verwerpen wanneer een specifiek alternatief verschil waar is. Berekeningen worden typisch uitgevoerd met gespecialiseerde software (bv. G*power). Dit vereist informatie over de standaardafwijkingen (uit een pilotstudie of literatuur) en een gedefinieerd relevant verschil. Goede planning van een studie, inclusief powerberekening, verhoogt de kans om een bestaand effect statistisch significant aan te tonen.
> **Example:** Berekening van het onderscheidingsvermogen voor een leesmethode-onderzoek met een pilotstudie die een verschil van 4 punten suggereert. Met een bepaalde steekproefgrootte is de kans op een significante toets ongeveer 72%.
> **Example:** Het bepalen van de benodigde steekproefgrootte om een verschil van 1 agressief incident per dag te detecteren rond volle maan, met een onderscheidingsvermogen van 89%.
### 3.2 Inferentie voor populatiespreiding
#### 3.2.1 De F-toets voor gelijkheid van spreidingen
Deze toets vergelijkt de standaarddeviaties ($\sigma_1, \sigma_2$) van twee populaties op basis van de standaarddeviaties van twee steekproeven ($s_1, s_2$).
* **Hypothese:** $H_0: \sigma^2_1 = \sigma^2_2$ (of $H_0: \sigma_1 = \sigma_2$).
* **Toetsingsgrootheid:** De F-statistiek, die de verhouding van de varianties is:
$$F = \frac{s_1^2}{s_2^2}$$
Hierbij wordt meestal de grootste variantie in de teller geplaatst.
* **Verdeling:** De F-statistiek volgt, onder $H_0$, een F-verdeling met $df_1 = n_1 - 1$ en $df_2 = n_2 - 1$ vrijheidsgraden.
* **Kenmerken F-verdeling:** De F-verdeling is rechts scheef en kan geen negatieve waarden aannemen. Waarden van F die sterk afwijken van 1 geven bewijs tegen de nulhypothese van gelijke spreidingen.
* **Vereisten:** De populaties worden verondersteld normaal verdeeld te zijn. Deze procedure is niet erg robuust tegen afwijkingen van de normaliteitsvoorwaarde.
* **Kritieke waarden:** Kritieke waarden voor de F-verdeling kunnen worden opgezocht in Tabel E voor verschillende overschrijdingskansen.
> **Tip:** De F-toets voor gelijkheid van varianties is gevoelig voor niet-normaliteit. Het wordt daarom vaak als minder betrouwbaar beschouwd dan de t-testen voor gemiddelden, tenzij aan de normaliteitsvoorwaarde is voldaan.
### 3.3 Niet-parametrische toetsen
Niet-parametrische toetsen, ook wel verdelingsvrije toetsen genoemd, vereisen geen specifieke aannames over de vorm van de populatieverdeling (zoals normaliteit). Ze zijn nuttig wanneer de data duidelijk niet normaal verdeeld zijn en de steekproef klein is. Vaak toetsen deze methoden hypothesen over de mediaan in plaats van het gemiddelde.
#### 3.3.1 De tekentoets voor gekoppelde data
Deze toets is een niet-parametrisch alternatief voor de t-toets voor gekoppelde paren.
* **Toepassing:** Wordt gebruikt bij gekoppelde data waarbij de verschilscores duidelijk niet normaal verdeeld zijn of wanneer de steekproefgrootte klein is en de data sterk scheef zijn.
* **Procedure:**
1. Bereken de verschilscores ($d_i$) voor elk paar.
2. Negeer paren met een verschil van 0.
3. Tel het aantal positieve verschilscores (dit is de toetsingsgrootheid $X$).
4. De nulhypothese is $H_0: p = 1/2$ (de kans op een positief verschil is 1/2), wat equivalent is aan $H_0: \mu_d = 0$.
* **Verdeling:** De p-waarden voor $X$ zijn gebaseerd op de binomiale verdeling $B(n, 1/2)$, waarbij $n$ het aantal overgebleven paren is.
* **Nadeel:** De tekentoets heeft doorgaans een kleiner onderscheidingsvermogen (power) dan de t-toets voor gekoppelde paren wanneer aan diens voorwaarden is voldaan.
> **Example:** Onderzoek naar agressief gedrag bij dementen. Met behulp van de tekentoets werd geconcludeerd dat significant meer dan de helft van de bejaarden vaker agressief gedrag vertoonde rond volle maan ($X \ge 14$, $p < 0.001$). Dit suggereert dat de mediaan van de verschilscores significant groter is dan nul.
#### 3.3.2 Data transformeren
Een alternatief voor niet-parametrische toetsen, met name bij scheve verdelingen, is het transformeren van de data om deze dichter bij normaliteit te brengen. Een veelgebruikte transformatie is de logaritmische transformatie.
* **Voordeel:** Inferentieprocedures (zoals t-testen) kunnen dan accuraat worden toegepast op de getransformeerde data, zelfs bij relatief kleine steekproeven.
* **Nadeel:** Betrouwbaarheidsintervallen die op de getransformeerde schaal worden bepaald, zijn niet direct interpreteerbaar op de oorspronkelijke schaal.
> **Tip:** Bij sterk scheve verdelingen en kleine steekproeven, overweeg eerst het transformeren van de data voordat je niet-parametrische toetsen overweegt. Evalueer wel altijd of de transformatie de data voldoende genormaliseerd heeft.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| t-verdeling | Een continue waarschijnlijkheidsverdeling die lijkt op de normaalverdeling, maar met dikkere staarten en een vorm die afhangt van het aantal vrijheidsgraden. Wordt gebruikt bij statistische inferentie wanneer de populatiestandaardafwijking onbekend is. |
| Vrijheidsgraden (df) | Een parameter die de vorm van de t-verdeling bepaalt. Voor een t-toets met één steekproef is dit typisch $n-1$, waarbij $n$ de steekproefgrootte is. |
| Standaardfout | De standaardafwijking van de steekproevenverdeling van een statistiek, zoals het steekproefgemiddelde. Het kwantificeert de variabiliteit die verwacht kan worden als gevolg van willekeurige steekproeftrekking. |
| Betrouwbaarheidsinterval | Een reeks waarden die, met een bepaalde waarschijnlijkheid, de werkelijke populatiewaarde bevat. Het geeft een bereik van plausibele waarden voor een populatieparameter. |
| p-waarde | De waarschijnlijkheid om een toetsingsgrootheid te verkrijgen die minstens zo extreem is als de waargenomen waarde, ervan uitgaande dat de nulhypothese waar is. Een lage p-waarde suggereert bewijs tegen de nulhypothese. |
| Nulhypothese (H0) | Een stelling over een populatieparameter die wordt getoetst. Het is de standaardhypothese die wordt verondersteld waar te zijn totdat er voldoende bewijs is om deze te verwerpen. |
| Alternatieve hypothese (Ha) | Een stelling die de nulhypothese tegenspreekt. Het vertegenwoordigt de conclusie die men hoopt te vinden als de nulhypothese wordt verworpen. |
| Robuustheid | De mate waarin een statistische procedure ongevoelig is voor schendingen van de onderliggende aannames, zoals normaliteit. Robuuste methoden geven betrouwbare resultaten, zelfs als de aannames niet perfect worden voldaan. |
| Gekoppelde (paired) data | Data waarbij metingen uit twee groepen of condities systematisch aan elkaar gerelateerd zijn. Dit gebeurt bijvoorbeeld wanneer dezelfde proefpersoon herhaaldelijk wordt gemeten of wanneer paren van vergelijkbare individuen worden gebruikt. |
| Onafhankelijke steekproeven | Data waarbij de metingen in de ene groep geen invloed hebben op de metingen in de andere groep. De individuen in de ene steekproef worden willekeurig geselecteerd, onafhankelijk van de individuen in de andere steekproef. |
| Niet-parametrische toetsen | Statistische toetsen die geen aannames maken over de specifieke verdeling van de populatie, in tegenstelling tot parametrische toetsen zoals de t-toets die normaliteit vereisen. |
| Tekentoets | Een niet-parametrische toets voor gekoppelde data die de tekens van de verschilscores analyseert om te bepalen of de mediaan van de verschillen significant afwijkt van nul. |
| F-toets | Een statistische toets die wordt gebruikt om de gelijkheid van varianties tussen twee of meer populaties te vergelijken. |
| Steekproevenverdeling | De waarschijnlijkheidsverdeling van een steekproefstatistiek (bijvoorbeeld het steekproefgemiddelde) berekend uit alle mogelijke steekproeven van een bepaalde grootte uit een populatie. |
Cover
Set 3 H8 Inferentie Over Proporties.pptx
Summary
# Inferentie voor een enkele proportie
Dit onderdeel behandelt de statistische methoden voor het schatten en toetsen van hypotheses over een enkele populatieproportie, inclusief het bepalen van de benodigde steekproefgrootte.
## 1. Inferentie voor een enkele proportie
De populatieproportie van 'successen', aangeduid met $p$ of $\pi$, wordt geschat met de steekproefproportie $\hat{p}$. De steekproevenverdeling van $\hat{p}$ is bij benadering normaal verdeeld met een gemiddelde gelijk aan de ware populatieproportie $p$ en een standaardfout van $\sqrt{\frac{p(1-p)}{n}}$, waarbij $n$ de steekproefgrootte is.
### 1.1 Betrouwbaarheidsinterval voor een enkele proportie in een grote steekproef
Een betrouwbaarheidsinterval (BI) biedt een reeks plausibele waarden voor de onbekende populatieproportie $p$. Voor grote steekproeven wordt dit als volgt berekend:
Het steekproefgemiddelde is de steekproefproportie:
$$ \hat{p} = \frac{X}{n} $$
waarbij $X$ het aantal successen in de steekproef is.
De standaardfout van de steekproefproportie is:
$$ SE(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $$
Het benaderde betrouwbaarheidsinterval wordt gegeven door:
$$ BI = \text{statistiek} \pm \text{foutmarge} = \hat{p} \pm (z^{\ast} \times SE(\hat{p})) $$
Hierbij is $z^{\ast}$ de kritieke waarde uit de standaardnormaalverdeling die overeenkomt met het gewenste betrouwbaarheidsniveau. Deze formule is geschikt indien $X \geq 15$ en $n - X \geq 15$, en het betrouwbaarheidsniveau minimaal 90% is.
> **Tip:** De 'plus-vier' methode biedt een verbeterde nauwkeurigheid, vooral bij kleinere steekproeven of proporties die dicht bij 0 of 1 liggen. Hierbij worden 2 successen en 2 mislukkingen 'toegevoegd' aan de data.
> De plus-vier schatting van $p$ is:
> $$ \tilde{p} = \frac{X+2}{n+4} $$
> Het plus-vier betrouwbaarheidsinterval is dan:
> $$ \tilde{p} \pm z^{\ast} \sqrt{\frac{\tilde{p}(1-\tilde{p})}{n+4}} $$
**Voorbeeld:**
Iemand beweert dat 50% van de mensen op hun rechter zijde in slaap valt. Een steekproef van 251 personen toonde aan dat 107 dit deden. Bereken en interpreteer een 90% betrouwbaarheidsinterval.
Voor een 90% betrouwbaarheidsniveau is $z^{\ast} = 1.645$.
$\hat{p} = \frac{107}{251} \approx 0.4263$
$SE(\hat{p}) = \sqrt{\frac{0.4263(1-0.4263)}{251}} \approx \sqrt{\frac{0.4263 \times 0.5737}{251}} \approx \sqrt{0.000975} \approx 0.0312$
Foutmarge: $1.645 \times 0.0312 \approx 0.0513$
BI: $0.4263 \pm 0.0513$, wat resulteert in het interval $[0.375; 0.477]$.
Interpretatie: We zijn 90% zeker dat het interval $[0.375; 0.477]$ de ware proportie mensen die inslapen op hun rechter zijde bevat. Aangezien 0.5 niet in dit interval ligt, is er reden om de oorspronkelijke stelling te betwijfelen.
### 1.2 Significantietoets voor een enkele proportie
Een significantietoets wordt gebruikt om te beoordelen of waargenomen data bewijs leveren tegen een nulhypothese over de populatieproportie.
De $z$-statistiek voor het toetsen van de nulhypothese $H_0: p = p_0$ is:
$$ z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} $$
Deze $z$-statistiek is bij benadering standaard normaal verdeeld indien de nulhypothese waar is. De $p$-waarde wordt berekend uit de standaardnormaalverdeling, gebaseerd op de alternatieve hypothese ($H_a$).
De test is toepasbaar indien zowel het aantal successen ($n \cdot p_0$) als het aantal mislukkingen ($n \cdot (1-p_0)$) ten minste 10 bedraagt, en de steekproefgrootte $n \geq 10n$.
**Voorbeeld:**
Een producent van chips moet een lading aardappelen retourneren indien meer dan 8% beschadigd is. Een steekproef van 500 aardappelen toont 47 beschadigde exemplaren. Toets met $\alpha = 0.10$ of de lading teruggestuurd moet worden.
Hypothesen:
$H_0: p = 0.08$
$H_a: p > 0.08$
Controle van aannames:
Random: Een toevalssteekproef van 500 aardappelen.
Normaal: Verwacht aantal beschadigden $n \cdot p_0 = 500 \times 0.08 = 40$. Verwacht aantal niet-beschadigden $n \cdot (1-p_0) = 500 \times 0.92 = 460$. Beide zijn groter dan 10.
$z = \frac{\frac{47}{500} - 0.08}{\sqrt{\frac{0.08(1-0.08)}{500}}} = \frac{0.094 - 0.08}{\sqrt{\frac{0.08 \times 0.92}{500}}} = \frac{0.014}{\sqrt{\frac{0.0736}{500}}} = \frac{0.014}{\sqrt{0.0001472}} = \frac{0.014}{0.01213} \approx 1.15$
$p$-waarde: $P(z \geq 1.15) = 1 - P(z < 1.15) = 1 - 0.8749 = 0.1251$.
Conclusie: Aangezien de $p$-waarde (0.1251) groter is dan $\alpha = 0.10$, wordt $H_0$ niet verworpen. Er is onvoldoende bewijs om te stellen dat meer dan 8% van de lading beschadigd is.
### 1.3 Vereiste steekproefgrootte bepalen
Om een populatieproportie te schatten met een gewenste foutmarge $m$ en betrouwbaarheidsniveau, kan de benodigde steekproefgrootte worden berekend.
De formule voor de foutmarge is $m = z^{\ast} \sqrt{\frac{p(1-p)}{n}}$. Om $n$ op te lossen, wordt de formule herschreven als:
$$ n = \frac{(z^{\ast})^2 \cdot p(1-p)}{m^2} $$
Als er geen eerdere schatting van $p$ beschikbaar is, wordt een conservatieve schatting van $p^{\ast} = 0.5$ gebruikt, omdat dit de grootste waarde voor het product $p(1-p)$ oplevert en dus de grootste benodigde steekproefgrootte garandeert.
**Voorbeeld:**
Bepaal de steekproefgrootte om $p$ te schatten binnen een marge van 0.03 met 95% betrouwbaarheid.
Voor 95% betrouwbaarheid is $z^{\ast} = 1.96$.
Conservatieve schatting van $p^{\ast} = 0.5$.
Foutmarge $m = 0.03$.
$$ n = \frac{(1.96)^2 \cdot 0.5(1-0.5)}{(0.03)^2} = \frac{3.8416 \cdot 0.25}{0.0009} = \frac{0.9604}{0.0009} \approx 1067.11 $$
Omdat een fractie van een respondent niet mogelijk is, wordt naar boven afgerond. Er zijn dus 1068 respondenten nodig.
---
# Inferentie voor twee proporties
Dit hoofdstuk behandelt methoden voor het vergelijken van twee proporties afkomstig uit verschillende populaties of steekproeven, met inbegrip van betrouwbaarheidsintervallen, significantietoetsen en het relatieve risico.
### 2.1 Het vergelijken van twee proporties
Het vergelijken van twee proporties, aangeduid als $p_1$ en $p_2$ (of $\pi_1$ en $\pi_2$), is essentieel om te bepalen of een bepaald kenmerk relatief vaker voorkomt in populatie 1 dan in populatie 2. De standaardmethode hiervoor is het nemen van een enkelvoudige aselecte steekproef (EAS) uit elke populatie en vervolgens de resulterende steekproefproporties te vergelijken.
#### 2.1.1 Steekproevenverdeling van een verschil tussen twee proporties bij grote steekproeven
Wanneer we twee EAS'en met omvang $n_1$ en $n_2$ trekken uit grote populaties met respectievelijke onbekende proporties $p_1$ en $p_2$, is de steekproefproportie voor de eerste steekproef $\hat{p}_1 = \frac{X_1}{n_1}$ en voor de tweede steekproef $\hat{p}_2 = \frac{X_2}{n_2}$, waarbij $X_1$ en $X_2$ het aantal "successen" in de respectievelijke steekproeven zijn.
Het verschil tussen de twee steekproefproporties, $\hat{p}_1 - \hat{p}_2$, heeft bij benadering een normale verdeling indien de steekproeven groot genoeg zijn. De voorwaarden voor deze benadering zijn doorgaans dat voor beide steekproeven het aantal successen ($n\hat{p}$) en het aantal mislukkingen ($n(1-\hat{p})$) groter dan of gelijk aan 10 zijn.
De gemiddelde waarde van dit verschil is gelijk aan het werkelijke verschil tussen de populatieproporties:
$$ E(\hat{p}_1 - \hat{p}_2) = p_1 - p_2 $$
De standaardfout van het verschil tussen de twee steekproefproporties wordt gegeven door:
$$ SE(\hat{p}_1 - \hat{p}_2) = \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}} $$
Omdat de populatieproporties $p_1$ en $p_2$ onbekend zijn, wordt de standaardfout geschat met de steekproefproporties:
$$ \widehat{SE}(\hat{p}_1 - \hat{p}_2) = \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} $$
#### 2.1.2 Betrouwbaarheidsinterval van een verschil tussen twee proporties bij grote steekproeven
Een betrouwbaarheidsinterval voor het verschil tussen twee populatieproporties ($p_1 - p_2$) wordt berekend als:
$$ (\hat{p}_1 - \hat{p}_2) \pm z^\ast \times \widehat{SE}(\hat{p}_1 - \hat{p}_2) $$
Hierbij is $z^\ast$ de kritieke waarde uit de standaardnormaalverdeling die overeenkomt met het gewenste betrouwbaarheidsniveau. Dit interval geeft een bereik van plausibele waarden voor het werkelijke verschil tussen de twee populatieproporties.
> **Tip:** De aanname dat de steekproefgrootte groot genoeg is, wordt vaak gecontroleerd door te eisen dat het aantal successen ($n\hat{p}$) en het aantal mislukkingen ($n(1-\hat{p})$) in beide steekproeven minstens 10 zijn.
**Voorbeeld gebruik sociale media:**
Stel, we willen het verschil in gebruik van sociale netwerksites tussen Amerikaanse tieners en volwassenen schatten. Uit een EAS van 800 tieners geeft 73% aan sociale netwerksites te bezoeken, en uit een EAS van 2253 volwassenen geldt dit voor 47%. We stellen een 95% betrouwbaarheidsinterval op voor het verschil $p_1 - p_2$, waarbij $p_1$ de proportie tieners en $p_2$ de proportie volwassenen is.
De steekproefproporties zijn $\hat{p}_1 = 0.73$ en $\hat{p}_2 = 0.47$.
Het verschil is $\hat{p}_1 - \hat{p}_2 = 0.73 - 0.47 = 0.26$.
De geschatte standaardfout is:
$$ \widehat{SE}(\hat{p}_1 - \hat{p}_2) = \sqrt{\frac{0.73(1-0.73)}{800} + \frac{0.47(1-0.47)}{2253}} = \sqrt{\frac{0.1971}{800} + \frac{0.2492}{2253}} \approx \sqrt{0.000246 + 0.000111} \approx \sqrt{0.000357} \approx 0.0189 $$
Voor een 95% betrouwbaarheidsniveau is $z^\ast \approx 1.96$.
De foutmarge is $1.96 \times 0.0189 \approx 0.037$.
Het 95% betrouwbaarheidsinterval is $0.26 \pm 0.037$, wat resulteert in [0.223; 0.297] of [22.3%; 29.7%].
Dit betekent dat we met 95% betrouwbaarheid kunnen stellen dat de proportie Amerikaanse tieners die sociale media gebruiken tussen 22.3% en 29.7% hoger ligt dan bij volwassenen.
#### 2.1.3 Meer-accurate betrouwbaarheidsintervallen voor de vergelijking van proporties
Net als bij inferentie voor een enkele proportie, kan de nauwkeurigheid van betrouwbaarheidsintervallen voor het verschil tussen twee proporties worden verbeterd door een aanpassing toe te passen, zoals het toevoegen van een aantal imaginaire waarnemingen (bijvoorbeeld 2 successen en 2 mislukkingen in elke groep).
#### 2.1.4 Significantie toets voor het vergelijken van proporties
Een significantietoets voor het vergelijken van twee proporties helpt te bepalen of een waargenomen verschil tussen twee steekproefproporties significant is, of dat het waarschijnlijk het gevolg is van toevallige steekproefvariatie.
De nulhypothese is doorgaans $H_0: p_1 - p_2 = 0$, wat equivalent is aan $H_0: p_1 = p_2$.
De alternatieve hypothese kan eenzijdig zijn ($H_a: p_1 > p_2$ of $H_a: p_1 < p_2$) of tweezijdig ($H_a: p_1 \neq p_2$).
Als de nulhypothese waar is ($p_1 = p_2 = p$), dan schatten we de gemeenschappelijke populatieproportie $p$ door de gegevens van beide steekproeven samen te voegen. De gepoelde (of gecombineerde) steekproefproportie, $\hat{p}_{\text{gepoolt}}$, wordt berekend als:
$$ \hat{p}_{\text{gepoolt}} = \frac{X_1 + X_2}{n_1 + n_2} $$
De teststatistiek voor de $z$-toets voor het verschil tussen twee proporties is:
$$ z = \frac{(\hat{p}_1 - \hat{p}_2) - 0}{\sqrt{\hat{p}_{\text{gepoolt}}(1-\hat{p}_{\text{gepoolt}})(\frac{1}{n_1} + \frac{1}{n_2})}} $$
Deze $z$-statistiek volgt bij benadering een standaardnormaalverdeling onder de nulhypothese, mits aan de voorwaarden voor grote steekproeven is voldaan (aantal successen en mislukkingen $\geq 10$ in beide groepen, of soms $\geq 5$ afhankelijk van de bron).
> **Tip:** De $p$-waarde van de toets wordt bepaald uit de standaardnormaalverdeling op basis van de berekende $z$-statistiek en de richting van de alternatieve hypothese. Als de $p$-waarde kleiner is dan het significantieniveau $\alpha$, wordt de nulhypothese verworpen.
**Voorbeeld significantietoets op proporties:**
Onderzoekers willen weten of het percentage kinderen dat zonder ontbijt naar school komt, verschilt tussen twee scholen in achtergestelde wijken. In school 1 hadden 19 van de 80 onderzochte kinderen niet ontbeten ($\hat{p}_1 = 19/80 = 0.2375$). In school 2 hadden 26 van de 150 onderzochte kinderen niet ontbeten ($\hat{p}_2 = 26/150 \approx 0.1733$). We testen met $\alpha = 0.05$.
Hypothesen:
$H_0: p_1 - p_2 = 0$
$H_a: p_1 - p_2 \neq 0$
Voorwaarden:
Random: De data komen van twee EAS'en.
Normaal: Aantal successen en mislukkingen controleren.
School 1: Successen = 19, Mislukkingen = 80 - 19 = 61.
School 2: Successen = 26, Mislukkingen = 150 - 26 = 124.
Beide aantallen zijn groter dan 5 (of 10), dus de normale benadering is redelijk.
Gepoelde proportie:
$$ \hat{p}_{\text{gepoolt}} = \frac{19 + 26}{80 + 150} = \frac{45}{230} \approx 0.1957 $$
$z$-statistiek:
$$ z = \frac{(0.2375 - 0.1733) - 0}{\sqrt{0.1957(1-0.1957)(\frac{1}{80} + \frac{1}{150})}} = \frac{0.0642}{\sqrt{0.1575(0.0125 + 0.00667)}} = \frac{0.0642}{\sqrt{0.1575 \times 0.01917}} \approx \frac{0.0642}{\sqrt{0.00302}} \approx \frac{0.0642}{0.055} \approx 1.167 $$
De $p$-waarde voor een tweezijdige toets bij $z \approx 1.17$ is $P(|Z| > 1.17) \approx 0.2420$.
Omdat $p$-waarde ($0.2420$) > $\alpha$ ($0.05$), kunnen we de nulhypothese niet verwerpen. Er is onvoldoende bewijs om te concluderen dat de proporties kinderen die zonder ontbijt naar school komen significant verschillen tussen de twee scholen.
#### 2.1.5 Relatief Risico
Een andere methode om twee proporties te vergelijken is door de verhouding van de proporties te beschouwen, bekend als het relatieve risico (RR). Het relatieve risico van 1 duidt op gelijke proporties.
$$ RR = \frac{p_1}{p_2} $$
Het berekenen van een betrouwbaarheidsinterval voor het relatieve risico is complexer en vereist doorgaans gespecialiseerde software, maar is gebaseerd op dezelfde inferentiële principes.
**Voorbeeld relatief risico:**
Een studie naar de leeftijd waarop een vrouw haar eerste kind krijgt en het risico op borstkanker toonde aan dat vrouwen die hun eerste kind na hun 30ste kregen, 1.45 keer meer risico op borstkanker liepen dan vrouwen die hun eerste kind voor hun 30ste kregen. De 95% betrouwbaarheidsinterval was [1.34; 1.57]. Dit suggereert dat vrouwen met een eerste kind na hun 30ste een significant verhoogd risico op borstkanker hebben.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Inferentie | Het proces van het trekken van conclusies over een populatie op basis van gegevens uit een steekproef. Dit omvat het maken van schattingen en het toetsen van hypothesen. |
| Proportie (Fractie) | Een deel of aandeel van een geheel, vaak uitgedrukt als een decimaal getal tussen 0 en 1, of als een percentage. In statistiek vertegenwoordigt het de verhouding van een bepaald kenmerk binnen een populatie of steekproef. |
| Betrouwbaarheidsinterval | Een reeks waarden die, met een bepaald betrouwbaarheidsniveau, naar verwachting de ware populatieparameter zal bevatten. Het geeft een bereik van plausibele waarden voor de parameter. |
| Significantieniveau ($\alpha$) | Het gekozen waarschijnlijkheidsdrempel voor het verwerpen van de nulhypothese. Een veelvoorkomende waarde is 0.05, wat betekent dat er een 5% kans is om de nulhypothese onterecht te verwerpen. |
| Steekproevenverdeling | De verdeling van een statistiek (zoals het steekproefgemiddelde of de steekproefproportie) die wordt verkregen door herhaaldelijk steekproeven van dezelfde grootte uit een populatie te trekken. |
| Steekproefproportie ($\hat{p}$) | De proportie van een bepaald kenmerk in een steekproef, gebruikt als schatter voor de populatieproportie. Het wordt berekend als het aantal successen gedeeld door de steekproefgrootte. |
| Standaardfout | De standaarddeviatie van de steekproevenverdeling van een statistiek. Het meet de typische variatie van de statistiek over verschillende steekproeven. |
| Kritieke waarde | Een waarde uit een kansverdeling (zoals de standaardnormaalverdeling of t-verdeling) die wordt gebruikt om de grenzen van een betrouwbaarheidsinterval te bepalen of om een beslissing te nemen bij een significantietoets. |
| Populatieproportie ($p$ of $\pi$) | De werkelijke proportie van een bepaald kenmerk in de gehele populatie. Deze is meestal onbekend en wordt geschat op basis van steekproefgegevens. |
| Significantietoets | Een statistische procedure die wordt gebruikt om te bepalen of er voldoende bewijs is in de steekproefgegevens om de nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Nulhypothese ($H_0$) | Een stelling over een populatieparameter die wordt aangenomen als waar totdat het steekproefbewijs anders aantoont. Vaak stelt deze dat er geen effect of geen verschil is. |
| Alternatieve hypothese ($H_a$) | Een stelling die het tegendeel beweert van de nulhypothese. Het vertegenwoordigt de claim die we proberen te bewijzen met ons steekproefbewijs. |
| p-waarde | De waarschijnlijkheid om een toetsingsgrootheid te observeren die minstens zo extreem is als de geobserveerde toetsingsgrootheid, aangenomen dat de nulhypothese waar is. Een kleine p-waarde (kleiner dan $\alpha$) leidt tot het verwerpen van $H_0$. |
| Plus-vier schatting | Een methode om betrouwbaarheidsintervallen voor proporties te berekenen door twee "successen" en twee "mislukkingen" toe te voegen aan de waarnemingen, wat de nauwkeurigheid verbetert, vooral bij kleinere steekproeven. |
| Gepoelde (gecombineerde) steekproefproportie | Een proportie die wordt berekend door de aantallen "successen" uit twee groepen te combineren en te delen door de totale gecombineerde steekproefgrootte. Dit wordt gebruikt bij het toetsen van de gelijkheid van twee proporties onder de nulhypothese. |
| Relatief Risico (RR) | De verhouding van de kans op een gebeurtenis in een blootgestelde groep ten opzichte van de kans op dezelfde gebeurtenis in een niet-blootgestelde groep. Een RR van 1 betekent geen verschil in risico. |
Cover
Set 4 H15 Niet Parametrisch.pptx
Summary
# Inleiding tot niet-parametrische toetsen
Dit hoofdstuk introduceert niet-parametrische toetsen als een flexibel alternatief voor parametrische toetsen, met name wanneer data niet voldoen aan de aannames van normaliteit of wanneer variabelen op nominaal of ordinaal niveau zijn gemeten.
## 1. Inleiding tot niet-parametrische toetsen
### 1.1 Beperkingen van parametrische toetsen en de noodzaak van niet-parametrische methoden
Parametrische toetsen, zoals de t-toets en ANOVA, vereisen doorgaans dat de data op intervalniveau worden gemeten en dat de populatie waaruit de steekproef is getrokken, normaal verdeeld is. Hoewel veel parametrische methoden robuust zijn voor matige afwijkingen van normaliteit, wordt het gebruik ervan afgeraden bij duidelijk niet-normaal verdeelde data. Bovendien behalen psychologische meetinstrumenten zelden het intervalniveau, wat de toepassing van parametrische toetsen beperkt.
In situaties waar de assumpties van parametrische toetsen geschonden worden, bieden niet-parametrische methoden een waardevol alternatief. Deze methoden stellen minder strenge eisen aan de data.
### 1.2 Alternatieven voor niet-normaal verdeelde data
Er zijn verschillende benaderingen mogelijk wanneer data niet normaal verdeeld zijn:
* **Transformatie van data**: Soms kunnen data getransformeerd worden (bv. via een logaritme) om afwijkingen van normaliteit te corrigeren, vooral bij scheve verdelingen.
* **Alternatieve theoretische verdelingen**: Er bestaan methoden die gebaseerd zijn op andere verdelingen dan de normale verdeling.
* **Bootstrap methoden**: Moderne computerintensieve methoden maken het mogelijk om toetsen te baseren op de data zelf zonder de assumptie van normaliteit, door gebruik te maken van herhaalde steekproeftrekking uit de geobserveerde data.
* **Niet-parametrische methoden**: Deze methoden bieden vaak een eenvoudig en effectief alternatief.
### 1.3 Eigenschappen van niet-parametrische toetsen
Niet-parametrische toetsen zijn gebaseerd op de ordening (rangorde) van de data, in plaats van op hun eigenlijke meetwaarden. Hierdoor verliezen ze een deel van de informatie die in de numerieke waarden zit, wat kan leiden tot een minder goed onderscheidingsvermogen vergeleken met parametrische toetsen die wel voldoen aan hun assumpties. Echter, voor situaties waarin de aannames van parametrische toetsen niet voldaan zijn, kunnen niet-parametrische toetsen een beter onderscheidingsvermogen bieden. Ze geven echter geen directe informatie over de effectgrootte op basis van de oorspronkelijke schaal.
### 1.4 Overzicht van besproken niet-parametrische toetsen
De volgende niet-parametrische toetsen worden behandeld als alternatieven voor t-toetsen en ANOVA wanneer de hypothese van normaal verdeelde populaties niet voldaan is:
* Wilcoxon Rank Sum Test (Mann-Whitney U-test)
* Wilcoxon Signed Rank Test
* Kruskal-Wallis Test
Deze toetsen gaan over het centrum van de populatie, wat bij scheve verdelingen de mediaan is, in plaats van het gemiddelde zoals bij normaal verdeelde populaties.
## 2. Wilcoxon Signed Rank Test (Rangtekentoets)
De Wilcoxon Signed Rank Test is een niet-parametrische toets voor afhankelijke (gepaarde of gekoppelde) steekproeven.
### 2.1 Toepassingsgebieden
Deze toets is toepasbaar op:
* Gepaarde data, zoals bij within-subjects designs (herhaalde metingen).
* Gekoppelde steekproeven waarbij proefpersonen worden gematcht op basis van bepaalde kenmerken.
### 2.2 Procedure
1. **Bereken verschillen**: Bepaal de verschillen tussen de responsen binnen elk paar.
2. **Orden absolute verschillen**: Rangschik de absolute waarden van deze verschillen van klein naar groot.
3. **Ken rangen toe**: Ken aan elk van deze absolute verschillen een rang toe, waarbij de kleinste absolute verschil rang 1 krijgt. Bij gelijke absolute verschillen (knopen) wordt het gemiddelde van de betrokken rangen toegekend.
4. **Bereken sommen van rangen**: Bereken de som van de rangen voor de positieve verschillen ($W^+$) en de som van de rangen voor de negatieve verschillen ($W^-$).
5. **Bepaal toetsingsgrootheid**: De toetsingsgrootheid is $V = \min(W^+, W^-)$.
### 2.3 Hypotheses
De nulhypothese ($H_0$) stelt dat er geen systematische verschillen zijn binnen de paren. De alternatieve hypothese ($H_1$) stelt dat er wel systematische verschillen zijn.
### 2.4 Verwachting en standaardfout
Onder de nulhypothese geldt voor de toetsingsgrootheid $V$:
* Verwachting: $E(V)$
* Standaardfout: $SE(V)$
Voor grote steekproeven kan de verdeling van $V$ benaderd worden met een normale verdeling, waarvoor specifieke formules gelden voor de verwachting en standaardfout, rekening houdend met eventuele knopen (gelijke scores).
> **Tip:** De Wilcoxon Signed Rank Test houdt rekening met de grootte van het verschil, in tegenstelling tot de gewone tekentoets, wat resulteert in een beter onderscheidingsvermogen.
### 2.5 Interpretatie
De nulhypothese wordt verworpen indien de toetsingsgrootheid $V$ significant verschilt van zijn verwachte waarde onder $H_0$. Dit gebeurt wanneer $V$ kleiner is dan een kritische waarde uit een referentietabel, of wanneer de berekende p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$).
### 2.6 Benaderingsmethode voor grote steekproeven
Voor grote steekproeven (bijvoorbeeld $n \ge 10$) kan een benaderingsmethode met de normale verdeling worden gebruikt, wat de noodzaak van uitgebreide tabellen vermindert. De formules voor de verwachting en standaardfout onder de normale benadering worden dan toegepast.
> **Voorbeeld:** Om na te gaan of een filmpje van een spin angst kan opwekken, kan men de hartslag van deelnemers meten vóór en na het tonen van het filmpje. De Wilcoxon Signed Rank Test kan dan gebruikt worden om te bepalen of er een significant verschil is in hartslag. De toetsingsgrootheid $V$ wordt berekend op basis van de rangen van de verschillen tussen de na- en voor-metingen.
## 3. Wilcoxon Rank Sum Test (Rangsomtest) / Mann-Whitney U-test
De Wilcoxon Rank Sum Test, ook bekend als de Mann-Whitney U-test, is een niet-parametrische toets om twee onafhankelijke verdelingen te vergelijken.
### 3.1 Basisprincipe
De toets vergelijkt de posities van de waarnemingen uit twee groepen binnen een geordende gezamenlijke lijst.
### 3.2 Rangtransformatie
Alle waarnemingen uit beide groepen worden samengevoegd en van klein naar groot geordend. Elke waarneming krijgt vervolgens een rang toegekend op basis van haar positie in deze geordende lijst. De laagste rang is 1. Door de oorspronkelijke meetwaarden te vervangen door hun rangen, gaat informatie over de numerieke waarde verloren, maar de toets wordt robuuster tegen afwijkingen van normaliteit.
### 3.3 Hypotheses
De nulhypothese ($H_0$) stelt dat de mediaan van beide populaties gelijk is, of specifiek dat de kans dat een willekeurige waarneming uit groep X groter is dan een willekeurige waarneming uit groep Y gelijk is aan 0.5. $H_0: P[X \ge Y] = 1/2 \iff H_0: \text{mediaan}(X) \ge \text{mediaan}(Y)$. De alternatieve hypothese ($H_1$) stelt dat er een verschil is in de locatie (mediaan) van de twee verdelingen.
### 3.4 Berekening van de toetsingsgrootheid
Er zijn twee veelgebruikte definities voor de toetsingsgrootheid:
* **Gewone rangsom ($W$)**: De som van de rangen in een van de groepen. $W = \min(W_X, W_Y)$, waarbij $W_X$ en $W_Y$ de sommen van de rangen zijn voor respectievelijk groep X en groep Y.
* **Gecorrigeerde rangsom ($W_{\text{corr}}$ of $U$)**: Hierbij wordt een correctie toegepast voor de groepsgrootte. $W_{\text{corr}} = W - \frac{n(n+1)}{2}$, waarbij $n$ de groepsgrootte is. Deze gecorrigeerde rangsom wordt vaak aangeduid als $U$ wanneer de test wordt gerapporteerd als een Mann-Whitney U-test.
> **Voorbeeld:** Om na te gaan of het zelf mogen kiezen van een onderwerp leidt tot hogere motivatiescores, kan een groep studenten die zelf een onderwerp kiest (groep X) vergeleken worden met een groep studenten aan wie een onderwerp wordt opgelegd (groep Y). De motivatiescores worden samengevoegd, geordend en gerangschikt. Vervolgens wordt de rangsom voor beide groepen berekend.
### 3.5 Interpretatie
Onder $H_0$ verwachten we dat de rangsommen voor beide groepen ongeveer gelijk zijn. Als $H_0$ onjuist is, verwachten we dat een van de rangsommen significant hoger (of lager) is dan de andere. De toetsingsgrootheid ($W$ of $W_{\text{corr}}$) wordt vergeleken met kritische waarden uit tabellen of de p-waarde wordt berekend (vaak via software) om de nulhypothese te beoordelen.
### 3.6 Benadering door de normale verdeling
Voor grotere steekproeven (bv. $n_1 \ge 10$ en $n_2 \ge 10$) kan de verdeling van de toetsingsgrootheid (zowel $W$ als $W_{\text{corr}}$) bij benadering als normaal verdeeld worden beschouwd. Hiervoor worden specifieke formules gebruikt voor de verwachting en standaardfout van $W$ of $W_{\text{corr}}$.
> **Tip:** Bij het rapporteren van de resultaten van een Wilcoxon Rank Sum Test is het belangrijk om duidelijk aan te geven welke toetsingsgrootheid (gewone rangsom $W$ of gecorrigeerde rangsom $W_{\text{corr}}$ of $U$) is gebruikt, en welke software is aangewend, aangezien er verschillende definities circuleren.
### 3.7 Omgaan met "knopen" (gelijke scores)
Wanneer er gelijke scores voorkomen in de data ("knopen"), kunnen de standaardformules voor de verwachting en standaardfout van de toetsingsgrootheid een minder nauwkeurige benadering geven. De meeste statistische softwarepakketten passen automatisch correcties toe voor knopen wanneer ze worden gedetecteerd. Bij het gebruik van de normale benadering kan een continuïteitscorrectie worden toegepast.
### 3.8 Eigenschappen van de Wilcoxon-Mann-Whitney test
* **Onderscheidingsvermogen**: De test heeft een hoog onderscheidingsvermogen, ongeveer $3/\pi$ (ongeveer 95%) van dat van de t-toets wanneer de data voldoen aan de aannames van de t-toets. Dit maakt het een zeer goed alternatief bij twijfel over de normaliteit van de data.
* **Datavereiste**: Vereist slechts ordinale data.
* **Alternatieve berekening**: De test kan ook worden geïnterpreteerd als het toetsen van de locatieverschuiving tussen de twee verdelingen.
## 4. Kruskal-Wallis Test
De Kruskal-Wallis test is een niet-parametrische rangorde toets die een alternatief biedt voor de één-weg ANOVA F-toets voor situaties met meer dan twee onafhankelijke groepen.
### 4.1 Basisprincipe
Net als bij de Wilcoxon Rank Sum Test worden alle waarnemingen uit alle groepen samengevoegd, van klein naar groot geordend en vervolgens wordt een rang toegekend aan elke waarneming. De Kruskal-Wallis test voert vervolgens een één-weg ANOVA uit op deze rangen in plaats van op de oorspronkelijke meetwaarden.
### 4.2 Toepassingsgebied
Deze toets is geschikt voor het vergelijken van de medianen van drie of meer onafhankelijke groepen.
### 4.3 Hypotheses
De nulhypothese ($H_0$) stelt dat de medianen van alle groepen gelijk zijn. De alternatieve hypothese ($H_1$) stelt dat er ten minste één groep is met een significant andere mediaan.
### 4.4 Procedure
1. **Combineer en rangschik**: Voeg alle data van de verschillende groepen samen en rangschik ze van klein naar groot.
2. **Ken rangen toe**: Ken aan elke waarneming een rang toe. Bij gelijke waarden worden gemiddelde rangen toegekend.
3. **Bereken rangsommen per groep**: Bereken de som van de rangen voor elke groep afzonderlijk.
4. **Bereken toetsingsgrootheid**: De toetsingsgrootheid $H$ wordt berekend op basis van deze rangsommen, de groepsgroottes en het totale aantal waarnemingen. Er bestaat een formule om de rangen te corrigeren voor eventuele "knopen".
### 4.5 Interpretatie
De toetsingsgrootheid $H$ wordt vergeleken met een chi-kwadraatverdeling om de p-waarde te bepalen. Als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$), wordt de nulhypothese verworpen en geconcludeerd dat er ten minste één groep is met een andere mediaan.
> **Probleem van meervoudige vergelijkingen:** Wanneer meer dan twee groepen worden vergeleken, schieten toetsen voor slechts twee groepen tekort omdat het risico op een type I fout (onterecht verwerpen van $H_0$) toeneemt bij elke individuele toets. De Kruskal-Wallis test dient als een globale "omnibus test" om na te gaan of er ergens verschillen zijn. Indien deze globaal significant is, kunnen follow-up analyses (pairwise vergelijkingen met correctie voor meervoudige toetsen, bv. Bonferroni correctie of Dunn's test) worden uitgevoerd om te bepalen welke specifieke groepen van elkaar verschillen.
---
# De Wilcoxon rangsomtest (Mann-Whitney U-test)
De Wilcoxon rangsomtest, ook bekend als de Mann-Whitney U-test, is een niet-parametrische toets die gebruikt wordt om twee onafhankelijke verdelingen te vergelijken door middel van de rangorde van de data.
### Uitgangspunt en rangtransformatie
Het kernprincipe van de Wilcoxon rangsomtest is het vergelijken van de posities van twee groepen binnen een geordende reeks van alle waarnemingen. Dit proces omvat een rangtransformatie, waarbij de oorspronkelijke numerieke meetwaarden worden vervangen door hun rangorde (positie in de geordende lijst, beginnend bij 1 voor de kleinste waarde). Hoewel dit informatieverlies betekent betreffende de exacte meetwaarden, behoudt de rangorde de relatieve volgorde van de data. Deze rangtransformatie is essentieel voor niet-parametrische toetsen omdat ze minder strenge aannames over de data vereisen dan parametrische toetsen zoals de t-toets. De toets is met name geschikt voor ordinale data of wanneer de assumptie van normaliteit voor intervalniveau data niet voldaan is.
### Hypothesen
De nulhypothese ($H_0$) voor de Wilcoxon rangsomtest stelt doorgaans dat er geen systematisch verschil is tussen de medianen van de twee populaties waaruit de onafhankelijke steekproeven zijn getrokken. Een veelgebruikte formulering is:
$H_0$: De mediaan van de ene groep is gelijk aan de mediaan van de andere groep.
Of, meer specifiek:
$H_0$: $P[X \ge Y] = 1/2$, wat equivalent is aan $H_0$: mediaan($X$) $\ge$ mediaan($Y$).
De alternatieve hypothese ($H_a$) stelt dat er wel een verschil is in de medianen. Dit kan eenrichtingsgebonden zijn (bijvoorbeeld mediaan($X$) $>$ mediaan($Y$)) of tweerichtingsgebonden (mediaan($X$) $\neq$ mediaan($Y$)).
### Toetsingsgrootheid: W en W gecorrigeerd (U)
Er bestaan twee varianten van de toetsingsgrootheid die in de literatuur worden gebruikt: de "gewone rangsom" ($W$) en de "gecorrigeerde rangsom" ($W_{corr}$), die ook wel aangeduid wordt als de Mann-Whitney $U$-statistiek.
* **Gewone rangsom ($W$):** Dit is de som van de rangen van de waarnemingen in één van de twee groepen. Men berekent de som van de rangen voor beide groepen ($W_X$ en $W_Y$). De toetsingsgrootheid $W$ is dan het minimum van deze twee sommen: $W = \min(W_X, W_Y)$.
* **Gecorrigeerde rangsom ($W_{corr}$ of $U$):** Deze variant corrigeert de rangsom voor de grootte van de groep waarvoor de rangsom is berekend. Het wordt berekend door eerst de rangsommen van beide groepen te bepalen en vervolgens de minimale rangsom af te trekken van de som van de rangen van de betreffende groep. Een veelgebruikte methode om de $U$-statistiek te berekenen is:
$$U = n_1 n_2 + \frac{n_1(n_1+1)}{2} - W_1$$
Waarbij $n_1$ en $n_2$ de groepsgroottes zijn en $W_1$ de rangsom van groep 1 is. Een alternatieve berekening is door de rangsommen van beide groepen te berekenen en de toetsingsgrootheid als $U = \min(W_X, W_Y)$ te noteren, waarbij $W_X$ en $W_Y$ de rangsommen van de groepen zijn, en dan de correctie toe te passen indien nodig.
Een veelgebruikte definitie voor de gecorrigeerde rangsom ($W_{corr}$) is gebaseerd op de som van de rangen binnen een groep, verminderd met een minimale rangsom die afhangt van de groepsgrootte. Echter, de meest courante interpretatie in statistische software is dat de $U$-statistiek (die gelijk is aan onze $W_{corr}$) de toetsingsgrootheid is.
Bij het rapporteren is het cruciaal om duidelijk te specificeren welke statistiek wordt gebruikt. Het is aan te bevelen om de test te rapporteren als een Mann-Whitney $U$-test en de gecorrigeerde $W_{corr}$ te vermelden als de toetsingsgrootheid $U$.
#### Voorbeeld van rangtransformatie en berekening van W:
Stel, we vergelijken twee groepen (X en Y) op basis van motivatiescores.
Data:
Groep X: 21, 24, 43, 32, 27, 37, 29, 44, 22, 41
Groep Y: 45, 30, 34, 48, 42, 47, 25, 33, 46, 31, 28, 35
1. **Alle waarnemingen ordenen en rangen toekennen:**
Gecombineerde geordende data: 21, 22, 24, 25, 27, 28, 29, 30, 31, 32, 33, 34, 35, 37, 41, 42, 43, 44, 45, 46, 47, 48
Rangen:
21 (X) - 1
22 (X) - 2
24 (X) - 3
25 (Y) - 4
27 (X) - 5
28 (Y) - 6
29 (X) - 7
30 (Y) - 8
31 (Y) - 9
32 (X) - 10
33 (Y) - 11
34 (Y) - 12
35 (Y) - 13
37 (X) - 14
41 (X) - 15
42 (Y) - 16
43 (X) - 17
44 (X) - 18
45 (Y) - 19
46 (Y) - 20
47 (Y) - 21
48 (Y) - 22
2. **Rangsommen berekenen voor elke groep:**
$W_X = 1 + 2 + 3 + 5 + 7 + 10 + 14 + 15 + 17 + 18 = 92$
$W_Y = 4 + 6 + 8 + 9 + 11 + 12 + 13 + 16 + 19 + 20 + 21 + 22 = 161$
3. **Toetsingsgrootheid bepalen:**
$W = \min(W_X, W_Y) = \min(92, 161) = 92$.
De gecorrigeerde $U$ wordt berekend op basis van deze rangsommen en de groepsgroottes ($n_1=10, n_2=12$). Een veelgebruikte formule voor $U$ is:
$U = n_1 n_2 + \frac{n_1(n_1+1)}{2} - W_1 = 10 \times 12 + \frac{10(10+1)}{2} - 92 = 120 + 55 - 92 = 83$.
Echter, softwarepakketten zoals R of SPSS geven vaak de $U$-statistiek direct weer, die equivalent is aan onze $W_{corr}$. In het voorbeeld uit het document wordt de gecorrigeerde rangsom berekend als $W_{corr} = 37$, wat overeenkomt met de $U$-statistiek uit de Mann-Whitney test. Dit suggereert dat de definitie van $W$ en $U$ kan variëren, en het is belangrijk de specifieke implementatie te volgen.
> **Tip:** Wanneer er gelijke waarnemingen ("ties" of knopen) zijn, moet een aangepaste methode voor de berekening van de variantie en standaardfout van de rangsommen worden gebruikt. De meeste statistische software past dit automatisch toe.
### Benadering met de Normaalverdeling
Voor grotere steekproeven ($n_1$ en $n_2$ $\ge$ 10) kan de verdeling van de toetsingsgrootheid ($W$ of $W_{corr}$) bij benadering normaal verdeeld worden geacht. De verwachtingswaarde en standaardfout worden dan als volgt berekend:
* **Voor de gewone rangsom ($W$):**
Verwachting:
$$\mu_W = \frac{n_1(N+1)}{2}$$
Standaardfout:
$$\sigma_W = \sqrt{\frac{n_1 n_2 (N+1)}{12}}$$
Waarbij $N = n_1 + n_2$ het totale aantal waarnemingen is.
* **Voor de gecorrigeerde rangsom ($W_{corr}$ of $U$):**
Verwachting:
$$\mu_U = \frac{n_1 n_2}{2}$$
Standaardfout:
$$\sigma_U = \sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}}$$
De toetsingsgrootheid kan vervolgens worden gestandaardiseerd tot een $z$-score:
$$z = \frac{W - \mu_W}{\sigma_W} \quad \text{of} \quad z = \frac{U - \mu_U}{\sigma_U}$$
Deze $z$-score wordt dan vergeleken met de kritische waarden van de standaard normaalverdeling om de p-waarde te bepalen.
#### Voorbeeld van benadering met de Normaalverdeling (met $W_{corr} = U = 37, n_1=10, n_2=12$):
* **Verwachting:**
$$\mu_U = \frac{10 \times 12}{2} = 60$$
* **Standaardfout:**
$$\sigma_U = \sqrt{\frac{10 \times 12 \times (10 + 12 + 1)}{12}} = \sqrt{\frac{120 \times 23}{12}} = \sqrt{10 \times 23} = \sqrt{230} \approx 15.17$$
* **z-score:**
$$z = \frac{37 - 60}{15.17} \approx -1.52$$
Afhankelijk van de alternatieve hypothese (een- of tweezijdig) wordt deze $z$-score gebruikt om de p-waarde te vinden. Voor een eenzijdige toets met $H_a: \text{mediaan}(X) > \text{mediaan}(Y)$, zou een p-waarde van ongeveer 0.0643 gevonden worden met behulp van tabel A.
### Conclusie en Rapportage
Het besluit om de nulhypothese te verwerpen is gebaseerd op de p-waarde. Als de p-waarde kleiner is dan het gekozen significantieniveau (alfa, $\alpha$), wordt de nulhypothese verworpen ten gunste van de alternatieve hypothese.
Bij het rapporteren van de resultaten van een Wilcoxon rangsomtest is het belangrijk om het volgende te vermelden:
* De gebruikte toets (bv. Mann-Whitney $U$-test of Wilcoxon rangsomtest).
* De toetsingsgrootheid (bv. $U$, $W_{corr}$ of $W$).
* De groepsgroottes ($n_1$ en $n_2$).
* De p-waarde.
* De richting van het gevonden verschil, indien relevant.
#### Voorbeeld van rapportage:
"Deelnemers die zelf een onderwerp kozen hadden hogere motivatiescores dan deelnemers die een onderwerp opgelegd kregen, echter, dit verschil is niet significant (Mann-Whitney test: $U = 37$, $p = 0.06$)."
OF
"Deelnemers die zelf een onderwerp hadden gekozen bleken niet significant meer gemotiveerd dan deelnemers met een opgelegd onderwerp (Wilcoxon test zonder correctie: $W = 92$, $p = 0.06$)."
### Eigenschappen van de Wilcoxon-Mann-Whitney test
* **Veelzijdigheid:** Zeer geschikt als alternatief voor de t-toets, aangezien het enkel ordinale data vereist en robuust is tegen afwijkingen van normaliteit.
* **Onderscheidingsvermogen:** Een van de niet-parametrische toetsen met het hoogste onderscheidingsvermogen. Zelfs bij data die geschikt zouden zijn voor een t-toets, bereikt deze test ongeveer 95% van het onderscheidingsvermogen van de t-toets.
* **Ties (Knopen):** Bij het voorkomen van gelijke waarden (ties) vereist de berekening van de standaardfout aanpassingen. Software past dit meestal automatisch toe.
* **Continuïteitscorrectie:** Bij benadering via de normaalverdeling wordt vaak automatisch een continuïteitscorrectie toegepast door statistische software.
* **Onderscheid met Rangtekentoets:** Belangrijk is het onderscheid te maken met de Wilcoxon "rangteken toets" die gebruikt wordt voor gepaarde (afhankelijke) steekproeven.
### Probleem van meervoudige vergelijkingen
Wanneer meer dan twee groepen tegelijkertijd worden vergeleken, schieten methoden voor tweegroepsvergelijkingen tekort. Om het probleem van meervoudige vergelijkingen te beheersen (het verhoogde risico op Type I fouten), wordt vaak een twee-stappen procedure gevolgd:
1. Een globale "omnibus test" (zoals de Kruskal-Wallis test) die nagaat of er überhaupt verschillen zijn tussen de parameters.
2. Vervolgens, indien de globale test significant is, gedetailleerde follow-up analyses (2-aan-2 vergelijkingen met de Mann-Whitney U-test) om te bepalen welke specifieke groepen verschillen.
---
# De Kruskal-Wallis test
De Kruskal-Wallis test is een niet-parametrische rangordetoets die dient als alternatief voor de ANOVA F-toets voor het vergelijken van meer dan twee groepen.
### 3.1 Introductie en Principe
De Kruskal-Wallis test is een niet-parametrische, één-weg analyse van variantie (ANOVA). Dit betekent dat het een alternatief is voor de standaard ANOVA F-toets wanneer de aannames van de ANOVA, zoals normaliteit van de data en homogeniteit van varianties, niet voldaan zijn. In plaats van de daadwerkelijke meetwaarden te gebruiken, maakt deze toets gebruik van de rangordes van alle waarnemingen over alle groepen heen.
**Uitgangspunt:**
Het principe achter de Kruskal-Wallis test is om alle waarnemingen uit alle te vergelijken groepen te verzamelen, ze van klein naar groot te ordenen, en deze geordende waarnemingen rangnummers toe te kennen. Vervolgens wordt een één-weg ANOVA uitgevoerd op deze rangnummers in plaats van op de oorspronkelijke meetwaarden.
**Toepasbaarheid:**
Deze toets is geschikt voor situaties waarin men de verdelingen van een continue of ordinale variabele wil vergelijken over drie of meer onafhankelijke groepen. Het is met name nuttig wanneer de data niet voldoen aan de normaliteitsassumptie van de ANOVA.
### 3.2 Hypothesen
De nulhypothese ($H_0$) voor de Kruskal-Wallis test stelt dat er geen verschil is in de centrale tendens (meestal de mediaan) tussen de groepen. De alternatieve hypothese ($H_1$) stelt dat er ten minste één groep is waarvan de centrale tendens verschilt van de andere groepen.
* **$H_0$:** De medianen van alle groepen zijn gelijk.
$$ H_0: \text{mediaan}_1 = \text{mediaan}_2 = \dots = \text{mediaan}_k $$
waarbij $k$ het aantal groepen is.
* **$H_1$:** Ten minste één groep heeft een andere mediaan dan de rest.
$$ H_1: \text{ten minste één } \text{mediaan}_i \neq \text{mediaan}_j \text{ voor } i \neq j $$
### 3.3 Berekening van de Toetsingsgrootheid
De berekening van de Kruskal-Wallis toetsingsgrootheid omvat de volgende stappen:
1. **Combineer en rangschik alle data:** Verzamel alle waarnemingen uit alle $k$ groepen en rangschik ze van klein naar groot. Ken aan elke waarneming een rangnummer toe. Als er gelijke waarden (knopen of "ties") zijn, wordt vaak het gemiddelde van de rangnummers toegewezen aan die waarden.
2. **Bereken de som van de rangen per groep:** Bereken voor elke groep de som van de rangnummers van de waarnemingen die tot die groep behoren. Laten we deze sommen aanduiden als $R_1, R_2, \dots, R_k$.
3. **Bereken de Kruskal-Wallis toetsingsgrootheid $H$:** De formule voor de Kruskal-Wallis toetsingsgrootheid is:
$$ H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1) $$
waar:
* $N$ is het totale aantal waarnemingen over alle groepen ($N = n_1 + n_2 + \dots + n_k$).
* $k$ is het aantal groepen.
* $R_i$ is de som van de rangen in groep $i$.
* $n_i$ is het aantal waarnemingen in groep $i$.
Een alternatieve, veelgebruikte formulering van de toetsingsgrootheid, die equivalent is, is:
$$ H = \frac{12}{N(N+1)} \sum_{i=1}^{k} n_i (\bar{R}_i - \bar{R})^2 $$
waar:
* $\bar{R}_i = \frac{R_i}{n_i}$ de gemiddelde rang in groep $i$ is.
* $\bar{R} = \frac{N+1}{2}$ de algemene gemiddelde rang is.
**Correctie voor knopen (ties):** Als er gelijke waarden in de data voorkomen, moet de $H$-statistiek gecorrigeerd worden. De gecorrigeerde statistiek, vaak aangeduid als $H_c$, wordt berekend door $H$ te delen door een correctiefactor $C$:
$$ C = 1 - \frac{\sum_{j=1}^{g} (t_j^3 - t_j)}{N^3 - N} $$
waar:
* $g$ is het aantal groepen met gelijke waarden.
* $t_j$ is het aantal waarnemingen met dezelfde waarde voor de $j$-de groep van gelijke waarden.
De gecorrigeerde toetsingsgrootheid is dus $H_c = \frac{H}{C}$.
### 3.4 Besluitvorming
Voor grote steekproeven (typisch wanneer $N \ge 20$ en het aantal waarnemingen per groep niet extreem klein is) volgt de toetsingsgrootheid $H$ (of $H_c$ bij knopen) bij benadering een chi-kwadraatverdeling ($\chi^2$) met $k-1$ vrijheidsgraden onder de nulhypothese.
* De beslissing wordt genomen door de berekende $H$ (of $H_c$) te vergelijken met een kritische waarde uit de $\chi^2$-verdeling voor een gekozen significantieniveau ($\alpha$), of door de p-waarde te berekenen die overeenkomt met de berekende $H$.
* Als de berekende $H$ groter is dan de kritische waarde, of als de p-waarde kleiner is dan $\alpha$, wordt de nulhypothese verworpen. Dit suggereert dat er significante verschillen zijn tussen de medians van de groepen.
### 3.5 Post-hoc Analyses
Wanneer de Kruskal-Wallis test een significant verschil tussen de groepen aantoont ($H_0$ wordt verworpen), is het noodzakelijk om post-hoc analyses uit te voeren om te bepalen welke specifieke groepen van elkaar verschillen. Er zijn verschillende niet-parametrische post-hoc toetsen beschikbaar, zoals de Dunn's test of pairwise Wilcoxon Rank Sum tests met een correctie voor meervoudige vergelijkingen (bijvoorbeeld Bonferroni-correctie).
#### 3.5.1 Dunn's Test
De Dunn's test is een veelgebruikte post-hoc test na de Kruskal-Wallis. Deze test vergelijkt alle paren van groepen twee-aan-twee met behulp van de Wilcoxon Rank Sum test, waarbij de significantieniveaus worden aangepast om het risico op Type I-fouten te beheersen. De toetsingsgrootheid voor Dunn's test kan worden uitgedrukt in termen van de rangsommen.
#### 3.5.2 Pairwise Wilcoxon Rank Sum Tests
Alternatief kunnen Wilcoxon Rank Sum tests twee-aan-twee tussen alle groepen worden uitgevoerd. Om het probleem van meervoudige vergelijkingen aan te pakken, wordt het significantieniveau $\alpha$ meestal gedeeld door het aantal vergelijkingen, $m = \frac{k(k-1)}{2}$. Een p-waarde kleiner dan $\alpha/m$ wordt dan als significant beschouwd.
> **Tip:** Onthoud dat de Kruskal-Wallis test een "omnibus test" is; het vertelt je óf er een verschil is, maar niet waar het verschil zit. Post-hoc tests zijn essentieel voor gedetailleerde interpretatie.
### 3.6 Vergelijking met ANOVA
| Kenmerk | ANOVA F-toets | Kruskal-Wallis Test |
| :-------------------------- | :-------------------------------------------------- | :------------------------------------------------ |
| **Meetniveau** | Minimaal intervalniveau | Minimaal ordinaal niveau |
| **Verdelingassumptie** | Normaliteit van de residuen/populatieverdeling | Geen normaliteitsassumptie |
| **Variantieassumptie** | Homogeniteit van varianties (homoscedasticiteit) | Niet strikt vereist, maar gevoelig voor grote verschillen |
| **Toetsingsgrootheid** | F-statistiek gebaseerd op gemiddelden en varianties | H-statistiek gebaseerd op rangordes |
| **Gevoeligheid voor uitschieters** | Gevoelig | Minder gevoelig (door rangordening) |
| **Informatie over effectgrootte** | Kan effectgrootte schatten (bv. $\eta^2$) | Beperkter, vereist aanvullende post-hoc analyses |
> **Tip:** De Kruskal-Wallis test behoudt ongeveer 95% van het onderscheidingsvermogen van de ANOVA wanneer de data wel aan de assumpties van de ANOVA voldoen. Dit maakt het een robuust alternatief, zelfs wanneer de data "braaf" normaal verdeeld zijn.
### 3.7 Voordelen en Nadelen
**Voordelen:**
* Vereist geen normaliteitsassumptie.
* Geschikt voor ordinale data.
* Robuuster tegen uitschieters dan ANOVA.
* Kan worden gebruikt voor kleine steekproeven.
**Nadelen:**
* Minder statistisch vermogen dan ANOVA wanneer aan de assumpties van ANOVA is voldaan.
* De interpretatie van de toetsingsgrootheid is gebaseerd op rangordes, wat kan leiden tot verlies van informatie over de magnitude van verschillen.
* Post-hoc analyses zijn nodig om specifieke groepsverschillen te identificeren.
### 3.8 Voorbeeld
Stel, we willen de effectiviteit van drie verschillende studiemethoden (Methode A, Methode B, Methode C) vergelijken op basis van de score op een examen. De scores zijn ordinaal (bv. cijfer van 1 tot 10, waarbij een hoger cijfer beter is) en we vermoeden dat de scores niet normaal verdeeld zijn.
* **Groep A (n=10):** Scores $...$
* **Groep B (n=12):** Scores $...$
* **Groep C (n=11):** Scores $...$
1. Combineer alle $N = 10 + 12 + 11 = 33$ scores en rangschik ze van laag naar hoog. Ken rangen toe (en pas correctie toe voor eventuele gelijke scores).
2. Bereken de som van de rangen voor elke groep: $R_A, R_B, R_C$.
3. Bereken de $H$-statistiek met de formule: $H = \frac{12}{33(33+1)} \left( \frac{R_A^2}{10} + \frac{R_B^2}{12} + \frac{R_C^2}{11} \right) - 3(33+1)$.
4. Vergelijk de berekende $H$ met een kritische $\chi^2$-waarde met $k-1 = 3-1 = 2$ vrijheidsgraden, of bepaal de p-waarde. Als $p < \alpha$, verwerp $H_0$ en voer post-hoc tests uit (bv. Dunn's test) om te zien welke studiemethoden significant van elkaar verschillen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-parametrische toetsen | Statistische toetsen die geen strikte aannames doen over de verdeling van de populatie, zoals normaliteit. Ze zijn vaak gebaseerd op rangordes van data en zijn daarom geschikter voor ordinale data of wanneer data afwijken van normaliteit. |
| Intervalniveau | Een meetschaal waarbij de afstanden tussen opeenvolgende waarden gelijk zijn en er geen absoluut nulpunt is. Voorbeelden zijn temperatuur in graden Celsius of Fahrenheit. |
| Normaalverdeling | Een symmetrische, klokvormige kansverdeling waarbij de meeste waarden zich rond het gemiddelde bevinden. Veel parametrische statistische methoden veronderstellen dat data uit een normaalverdeling afkomstig zijn. |
| Robuust | Een statistische methode die relatief ongevoelig is voor schendingen van de aannames, zoals afwijkingen van normaliteit of de aanwezigheid van uitschieters. |
| Uitschieters | Waarden in een dataset die significant afwijken van de meeste andere waarden en potentieel de resultaten van statistische analyses kunnen beïnvloeden. |
| Transformatie van data | Een wiskundige bewerking toegepast op variabelen om de verdeling ervan te wijzigen, bijvoorbeeld om normaliteit te benaderen of de variantie te stabiliseren. Voorbeelden zijn logaritmen of worteltrekken. |
| Bootstrap methoden | Een resamplingtechniek waarbij herhaaldelijk willekeurig steekproeven met teruglegging worden getrokken uit de originele dataset om de steekproevenverdeling van een statistiek te schatten. |
| Rangorde | De ordening van waarnemingen van laag naar hoog (of omgekeerd) op basis van hun waarde. Niet-parametrische toetsen maken vaak gebruik van deze rangordes in plaats van de oorspronkelijke meetwaarden. |
| Centrum van de populatie | Een maat die het typische of centrale niveau van een dataset aangeeft. Voor normaalverdelingen is dit het gemiddelde, voor scheve verdelingen kan dit de mediaan zijn. |
| Mediaan | De middelste waarde in een geordende dataset. De helft van de waarden ligt boven de mediaan en de helft ligt eronder. |
| Wilcoxon rangtekentoets (Signed Rank Test) | Een niet-parametrische toets voor gekoppelde (afhankelijke) steekproeven die de grootte en richting van verschillen tussen paren analyseert, gebaseerd op rangordes van deze verschillen. |
| Gekoppelde steekproeven | Steekproeven waarbij de waarnemingen aan elkaar gerelateerd zijn, bijvoorbeeld door herhaalde metingen bij dezelfde personen of door matching van proefpersonen op bepaalde kenmerken. |
|onderscheidingsvermogen | Het vermogen van een statistische toets om een echt effect of verschil te detecteren wanneer dit aanwezig is (het vermogen om de nulhypothese te verwerpen wanneer deze onjuist is). |
| Toetsingsgrootheid | De waarde berekend uit de steekproefgegevens die wordt gebruikt om de nulhypothese te toetsen. De waarde wordt vergeleken met een kritieke waarde of een overschrijdingskans. |
| Kritieke waarde | Een drempelwaarde in een steekproevenverdeling die wordt gebruikt om te beslissen of de nulhypothese wordt verworpen. |
| Overschrijdingskans (p-waarde) | De kans om een teststatistiek te verkrijgen die extreem is, gegeven dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot verwerping van de nulhypothese. |
| Wilcoxon rangsomtest (Rank Sum Test) | Een niet-parametrische toets voor twee onafhankelijke steekproeven, ook bekend als de Mann-Whitney U-test. Het vergelijkt de centrale tendens van twee groepen op basis van de rangordes van alle waarnemingen. |
| Onafhankelijke steekproeven | Steekproeven waarbij de waarnemingen in de ene steekproef geen invloed hebben op de waarnemingen in de andere steekproef. |
| Rangtransformatie | Het vervangen van de oorspronkelijke meetwaarden door hun rangordes in een geordende lijst van alle waarnemingen. |
| Kruskal-Wallis test | Een niet-parametrische rangordetoets die dient als een alternatief voor de eenweg ANOVA. Het wordt gebruikt om drie of meer onafhankelijke groepen te vergelijken. |
| ANOVA (Analysis of Variance) | Een statistische toets die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. De standaard ANOVA vereist normaliteit en gelijke varianties van de groepen. |
| Omnibus test | Een statistische toets die als eerste wordt uitgevoerd om te bepalen of er überhaupt significante verschillen zijn tussen de groepen die worden vergeleken, voordat specifieke pairwise vergelijkingen worden uitgevoerd. |
| Chi-kwadraat statistiek | Een statistische maat die wordt gebruikt in chi-kwadraat toetsen om het verschil tussen waargenomen en verwachte frequenties te evalueren. Vaak gebruikt in omnibus tests. |
| Geknoopte paren (ties) | Situaties in data-analyse waarbij meerdere waarnemingen dezelfde waarde hebben, wat van invloed kan zijn op de berekening van statistische toetsen, met name rangordetoetsen. |
| Continuïteitscorrectie | Een aanpassing die wordt toegepast bij het benaderen van een discrete verdeling met een continue verdeling (zoals het benaderen van de binomiale verdeling met de normale verdeling). Het helpt de nauwkeurigheid te verbeteren. |
Cover
Set 5 H9 Niet Parametrisch Kruistabellen.pptx
Summary
# Chi-kwadraat goodness-of-fit toets
Deze toets onderzoekt in hoeverre de proporties van categorieën in een steekproef overeenkomen met de verwachte proporties, en is een een-steekproef toets.
### 1.1 Doel en principe van de chi-kwadraat goodness-of-fit toets
Het hoofddoel van de chi-kwadraat goodness-of-fit toets is het nagaan in welke mate de proporties waarin categorieën voorkomen in een steekproef overeenstemmen met de verwachtte proporties, gebaseerd op een referentieverdeling. Het is een een-steekproef toets die toegepast kan worden op data met een nominaal of hoger meetniveau.
Het basisprincipe is het vergelijken van de omvang van de waargenomen frequenties in de verschillende categorieën met de theoretisch verwachte omvang van die categorieën.
**Voorbeelden:**
* Is er een gelijke verdeling van mannen en vrouwen in de steekproef?
* Is de verdeling van leiderschapsstijlen bij arbeiders dezelfde als bij een referentiegroep (bijvoorbeeld democratisch, laissez-faire, autoritair, consulterend)?
### 1.2 De nulhypothese
De nulhypothese ($H_0$) voor de chi-kwadraat goodness-of-fit toets stelt dat er geen significant verschil is tussen de waargenomen proporties in de klassen en de referentieverdeling, anders dan wat verwacht mag worden door toevalssteekproeven.
### 1.3 De toetsingsgrootheid
De toetsingsgrootheid voor de chi-kwadraat goodness-of-fit toets wordt berekend met de volgende formule:
$$ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} $$
Waar:
* $\chi^2$ is de chi-kwadraat toetsingsgrootheid.
* $O_i$ staat voor de waargenomen frequentie in categorie $i$.
* $E_i$ staat voor de verwachte frequentie in categorie $i$.
* $k$ is het aantal categorieën.
Als de waargenomen frequenties sterk afwijken van de verwachte frequenties, zal de waarde van $\chi^2$ hoog zijn. Dit pleit tegen de nulhypothese.
### 1.4 De chi-kwadraat verdeling en vrijheidsgraden
De steekproevenverdeling van de $\chi^2$ toetsingsgrootheid volgt een chi-kwadraat verdeling. Het aantal vrijheidsgraden ($df$) voor de goodness-of-fit toets wordt berekend als:
$$ df = k - 1 $$
Waar $k$ het aantal categorieën is. De p-waarde van de toets wordt bepaald door de berekende waarde van de $\chi^2$ statistiek te vergelijken met de kritieke waarde van de overeenkomstige chi-kwadraat verdeling met het berekende aantal vrijheidsgraden.
### 1.5 Beperkingen en vereisten
De chi-kwadraat goodness-of-fit toets is een benaderende methode en vereist dat de celfrequenties voldoende groot zijn voor betrouwbare p-waarden.
* **Minimale celfrequenties:**
* Indien $df = 1$ (dus 2 categorieën), moet elke verwachte celfrequentie groter zijn dan 5.
* Indien $df > 1$, mogen niet meer dan 20% van de verwachte celfrequenties kleiner zijn dan 5. Alle verwachte celfrequenties moeten groter zijn dan of gelijk zijn aan 1.
* Voor een $2 \times 2$ tabel moeten alle verwachte celfrequenties groter zijn dan of gelijk zijn aan 5.
> **Tip:** Als de verwachte celfrequenties te klein zijn, kan dit probleem soms worden opgelost door categorieën samen te voegen.
* **Rangorde:** De chi-kwadraat toets houdt geen rekening met de rangorde van categorieën. Als de data ordinaal is en rangorde belangrijk is, zijn andere toetsen wellicht geschikter.
### 1.6 Berekening van verwachte celfrequenties
De verwachte celfrequentie ($E_i$) voor elke categorie $i$ wordt bepaald op basis van de totale steekproefgrootte ($N$) en de verwachte proportie ($\pi_i$) voor die categorie:
$$ E_i = N \times \pi_i $$
De verwachte proporties ($\pi_i$) komen uit de referentieverdeling die wordt getoetst onder de nulhypothese.
### 1.7 Interpretatie van de resultaten
Een hoge $\chi^2$-waarde, gecombineerd met een lage p-waarde (typisch $p < 0.05$), leidt tot het verwerpen van de nulhypothese. Dit suggereert dat de waargenomen proporties significant afwijken van de verwachte proporties. Een lage $\chi^2$-waarde en een hoge p-waarde wijzen erop dat er onvoldoende bewijs is om de nulhypothese te verwerpen, en de waargenomen proporties dus in lijn zijn met de verwachting.
> **Voorbeeld:** Stel we toetsen of een dobbelsteen eerlijk is (uniforme verdeling). We gooien 600 keer. Onder de nulhypothese verwachten we dat elke zijde 100 keer voorkomt ($E_i = 100$). Als we waarnemen dat zijde 1 bijvoorbeeld 130 keer voorkomt, en andere zijden minder, berekenen we de $\chi^2$-waarde om te zien of deze afwijking groter is dan wat toeval verwacht. Als de p-waarde < 0.05 is, concluderen we dat de dobbelsteen waarschijnlijk niet eerlijk is.
---
# Chi-kwadraat toets voor onafhankelijkheid
Deze toets wordt toegepast om de nulhypothese te toetsen dat de rij- en kolomvariabelen in een kruistabel (contingentietabel) niet gerelateerd zijn aan elkaar. Het vergelijkt geobserveerde celfrequenties met verwachte celfrequenties.
### 2.1 Overzicht van de chi-kwadraat toets voor onafhankelijkheid
De chi-kwadraat toets voor onafhankelijkheid, ook wel de afhankelijkheidstoets genoemd, is een niet-parametrische statistische toets die wordt gebruikt om te onderzoeken of er een verband bestaat tussen twee categorische variabelen die in een kruistabel (contingentietabel) zijn weergegeven. Het hoofddoel is het toetsen van de nulhypothese dat de twee variabelen statistisch onafhankelijk zijn van elkaar.
### 2.2 Toepassing en principe
De toets wordt toegepast om de nulhypothese te toetsen dat de rij- en kolomvariabelen in een kruistabel niet gerelateerd zijn aan elkaar. Het onderliggende principe is de vergelijking tussen de **geobserveerde celfrequenties** (de werkelijke aantallen in de cellen van de tabel) en de **verwachte celfrequenties** (de aantallen die we zouden verwachten als de twee variabelen onafhankelijk zouden zijn).
Als de geobserveerde frequenties sterk afwijken van de verwachte frequenties, suggereert dit dat er een verband bestaat tussen de variabelen, wat leidt tot het verwerpen van de nulhypothese.
### 2.3 De berekening van de chi-kwadraat toetsingsgrootheid
De toetsingsgrootheid voor de chi-kwadraat toets voor onafhankelijkheid wordt berekend met de volgende formule:
$$ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{k} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
Waarbij:
* $ \chi^2 $ staat voor de chi-kwadraat toetsingsgrootheid.
* $ O_{ij} $ is de geobserveerde frequentie in cel $ (i,j) $ (rij $ i $, kolom $ j $).
* $ E_{ij} $ is de verwachte frequentie in cel $ (i,j) $.
* $ r $ is het aantal rijen in de kruistabel.
* $ k $ is het aantal kolommen in de kruistabel.
De term $ (O_{ij} - E_{ij})^2 $ zorgt ervoor dat zowel positieve als negatieve afwijkingen tussen geobserveerde en verwachte waarden worden gekwadrateerd, waardoor ze bijdragen aan de totale toetsingsgrootheid. Het delen door $ E_{ij} $ maakt de afwijking relatief ten opzichte van de verwachte grootte.
#### 2.3.1 Berekenen van verwachte celfrequenties
De verwachte celfrequenties $ E_{ij} $ worden berekend op basis van de marginale verdelingen (de totalen van de rijen en kolommen) in de aanname van statistische onafhankelijkheid. Voor een kruistabel met $ r $ rijen en $ k $ kolommen, wordt de verwachte frequentie voor cel $ (i,j) $ berekend als:
$$ E_{ij} = \frac{(\text{Som van rij } i) \times (\text{Som van kolom } j)}{\text{Totaal aantal waarnemingen}} $$
Als de geobserveerde proporties tussen de rijen en kolommen op dezelfde manier zouden zijn verdeeld, zouden de verwachtte en geobserveerde waarden gelijk zijn, wat resulteert in een $ \chi^2 $-waarde van 0. Een hogere $ \chi^2 $-waarde indiceert een grotere afwijking van de onafhankelijkheid.
#### 2.3.2 Vrijheidsgraden
Het aantal vrijheidsgraden ($ df $) voor de chi-kwadraat toets voor onafhankelijkheid wordt berekend als:
$$ df = (k - 1) \times (r - 1) $$
Dit aantal vrijheidsgraden wordt gebruikt om de kritieke waarde te bepalen uit de chi-kwadraat verdeling om de p-waarde te berekenen.
### 2.4 Interpretatie van de resultaten
#### 2.4.1 Statistische afhankelijkheid
* Als de berekende $ \chi^2 $-waarde hoog is, wijst dit op een aanzienlijke afwijking van de verwachte verdeling, wat pleit tégen de nulhypothese van onafhankelijkheid. Dit betekent dat de rij- en kolomvariabelen statistisch afhankelijk zijn.
* Als de berekende $ \chi^2 $-waarde laag is (dicht bij nul), suggereert dit dat de geobserveerde frequenties dicht bij de verwachte frequenties liggen, wat de nulhypothese van onafhankelijkheid ondersteunt.
De significantie van de toets wordt bepaald door de p-waarde te vergelijken met een vooraf bepaald significantieniveau (meestal $ \alpha = 0.05 $). Als $ p < \alpha $, wordt de nulhypothese verworpen.
#### 2.4.2 Beperkingen en voorwaarden
De chi-kwadraat toets is een benaderende methode en de betrouwbaarheid van de p-waarde hangt af van de grootte van de celfrequenties. Er gelden specifieke voorwaarden:
* **Minimale celfrequenties:**
* Voor een $ 2 \times 2 $ tabel moeten alle verwachte celfrequenties minimaal 5 zijn.
* Voor tabellen met meer dan 2 rijen of kolommen (df > 1), mogen niet meer dan 20% van de verwachte celfrequenties kleiner zijn dan 5, en geen enkele verwachte celfrequentie mag kleiner zijn dan 1.
* Als deze voorwaarden niet voldaan zijn, kunnen categorieën samengenomen worden om de verwachte celfrequenties te verhogen, of er kunnen alternatieve toetsen zoals de Fisher's exact test (voor $ 2 \times 2 $ tabellen) overwogen worden.
* **Geen rekening met rangorde:** De chi-kwadraat toets houdt geen rekening met de rangorde van de categorieën in ordinale variabelen. Als rangorde relevant is, kunnen andere niet-parametrische toetsen geschikter zijn.
#### 2.4.3 Verdere analyse bij significant resultaat
Wanneer de chi-kwadraat toets significant is, wat aangeeft dat er een verband is, kan de aard van dit verband verder worden geanalyseerd door:
* **Celpercentages te vergelijken:** Nagaan welke cellen een afwijkend percentage vertonen ten opzichte van de verwachte proporties.
* **Geobserveerde en verwachte celfrequenties te vergelijken:** Identificeren welke cellen over- of ondervertegenwoordigd zijn ten opzichte van de nulhypothese.
* **Bijdragen aan de toetsingsgrootheid te bekijken:** Analyseren welke cellen het meest bijdragen aan de totale $ \chi^2 $-waarde.
### 2.5 Voorbeeld
Stel we onderzoeken of er een verband is tussen geslacht (jongens/meisjes) en het blijven zitten (ja/nee) in een klas.
**Geobserveerde celfrequenties:**
| | Zitten blijven (Ja) | Niet blijven zitten (Nee) | Totaal |
| :--------- | :------------------ | :------------------------ | :----- |
| Jongens | 80 | 120 | 200 |
| Meisjes | 70 | 130 | 200 |
| **Totaal** | **150** | **250** | **400** |
**Berekening van verwachte celfrequenties:**
* Verwacht voor jongens die blijven zitten: $ E_{jj} = \frac{200 \times 150}{400} = 75 $
* Verwacht voor jongens die niet blijven zitten: $ E_{jn} = \frac{200 \times 250}{400} = 125 $
* Verwacht voor meisjes die blijven zitten: $ E_{mj} = \frac{200 \times 150}{400} = 75 $
* Verwacht voor meisjes die niet blijven zitten: $ E_{mn} = \frac{200 \times 250}{400} = 125 $
**Berekening van de chi-kwadraat toetsingsgrootheid:**
$$ \chi^2 = \frac{(80-75)^2}{75} + \frac{(120-125)^2}{125} + \frac{(70-75)^2}{75} + \frac{(130-125)^2}{125} $$
$$ \chi^2 = \frac{25}{75} + \frac{25}{125} + \frac{25}{75} + \frac{25}{125} $$
$$ \chi^2 \approx 0.333 + 0.200 + 0.333 + 0.200 = 1.066 $$
**Vrijheidsgraden:**
$ df = (2 - 1) \times (2 - 1) = 1 \times 1 = 1 $
Stel dat de kritieke waarde voor $ df=1 $ en $ p=0.05 $ gelijk is aan 3.841. Aangezien onze berekende $ \chi^2 $-waarde van 1.066 kleiner is dan de kritieke waarde, en de bijbehorende p-waarde groter is dan 0.05, zouden we de nulhypothese van onafhankelijkheid niet verwerpen. Er is onvoldoende bewijs om te concluderen dat geslacht en blijven zitten statistisch afhankelijk zijn in deze steekproef.
> **Tip:** Altijd eerst de verwachte celfrequenties controleren op hun grootte voordat de chi-kwadraat waarde berekend wordt, om te beoordelen of de toets betrouwbaar is.
### 2.6 Vergelijking met Goodness of Fit test
Het is belangrijk de chi-kwadraat toets voor onafhankelijkheid te onderscheiden van de chi-kwadraat goodness-of-fit test.
* De **chi-kwadraat goodness-of-fit test** (ook wel aanpassingstoets genoemd) wordt gebruikt voor één categorische variabele om na te gaan in hoeverre de proporties van categorieën in een steekproef overeenkomen met een theoretisch verwachte verdeling (bv. is de verdeling van leiderschapsstijlen gelijk aan een bekende referentieverdeling).
* De **chi-kwadraat toets voor onafhankelijkheid** wordt gebruikt voor twee categorische variabelen om te toetsen of deze twee variabelen gerelateerd zijn of onafhankelijk van elkaar.
Beide toetsen maken gebruik van de chi-kwadraat verdeling, maar de toepassing en de berekening van de vrijheidsgraden verschillen. Voor de goodness-of-fit test is $ df = k - 1 $ (waarbij $ k $ het aantal categorieën is), terwijl voor de onafhankelijkheidstoets $ df = (r - 1) \times (k - 1) $ is.
---
# Kolmogorov-Smirnov toets
Hieronder volgt een samenvatting voor het onderwerp "Kolmogorov-Smirnov toets", opgesteld als een studiehandleiding.
## 3. Kolmogorov-Smirnov toets
De Kolmogorov-Smirnov (K-S) toets is een statistische methode die wordt gebruikt om te bepalen of een steekproef afkomstig is uit een specifieke theoretische verdeling, waarbij de meest voorkomende toepassing is om na te gaan of een populatie normaal verdeeld is.
### 3.1 Doel en basisprincipe
#### 3.1.1 Doel van de toets
Het hoofddoel van de Kolmogorov-Smirnov toets is het nagaan in welke mate de proporties waarin categorieën voorkomen in een waargenomen steekproef overeenkomen met de theoretisch verwachte proporties van een specifieke referentieverdeling. Het is een type "goodness-of-fit" (aanpassingstoets) voor één steekproef.
#### 3.1.2 Basisprincipe
De toets vergelijkt de cumulatieve frequentieverdeling van de waargenomen steekproef met de cumulatieve frequentieverdeling van de theoretisch verwachte verdeling. Het verschil tussen deze twee cumulatieve verdelingen wordt geanalyseerd om te bepalen of de waargenomen steekproef significant afwijkt van de hypothetische verdeling.
### 3.2 Kenmerken van de Kolmogorov-Smirnov toets
* **Meetniveau:** De toets kan worden toegepast op data met een ordinaal meetniveau of hoger.
* **Hypotheses:**
* **Nulhypothese ($H_0$):** De waargenomen verdeling wijkt niet significant af van de referentieverdeling, waarbij eventuele verschillen verklaard kunnen worden door toevalssteekproeven.
* **Alternatieve hypothese ($H_1$):** De waargenomen verdeling wijkt significant af van de referentieverdeling.
* **Toetsingsgrootheid:** De toetsingsgrootheid is de maximale absolute afwijking tussen de geobserveerde cumulatieve verdeling ($F_{obs}(x)$) en de verwachte cumulatieve verdeling ($F_{exp}(x)$). Deze wordt aangeduid als $D = \max_x |F_{obs}(x) - F_{exp}(x)|$.
* **P-waarden:** P-waarden worden doorgaans voor een tweezijdige toets gerapporteerd.
### 3.3 Toepassingen en voorbeelden
#### 3.3.1 Normale verdeling controleren
De meest voorkomende toepassing van de K-S toets is het controleren of een steekproef afkomstig is uit een normaal verdeelde populatie. Dit is een belangrijke aanname voor veel parametrische statistische toetsen.
> **Voorbeeld 1:** Je hebt 100 keer een dobbelsteen gegooid. De K-S toets kan worden gebruikt om te bepalen of de dobbelsteen "eerlijk" is, wat betekent of de waarnemingen afkomstig zijn uit een uniforme verdeling.
De kritieke waarde voor de K-S toets, in relatie tot de steekproefgrootte $n$, wordt vaak bepaald door een drempelwaarde. Als de maximale afwijking $D$ groter is dan deze kritieke waarde (bijvoorbeeld $1.36 / \sqrt{n}$ voor een specifieke significantieniveau), wordt de nulhypothese verworpen.
> **Voorbeeld 2:** Een onderzoeker verzamelt gegevens over de levenskwaliteit (QOL) van 201 kankerpatiënten, gemeten op een schaal van 0 tot 10. De K-S toets wordt toegepast om te onderzoeken of deze gegevens afkomstig zijn uit een normaal verdeelde populatie.
De resultaten kunnen worden vergeleken met de cumulatieve verdeling van een theoretische normale verdeling met de geschatte gemiddelde ($\mu$) en standaarddeviatie ($\sigma$) van de steekproef.
#### 3.3.2 Andere verdelingen controleren
Naast de normale verdeling kan de K-S toets ook worden gebruikt om andere verdelingen te toetsen, zoals de uniforme verdeling.
### 3.4 Beperkingen en correcties
#### 3.4.1 Gevoeligheid en de oorspronkelijke K-S toets
De oorspronkelijke versie van de Kolmogorov-Smirnov toets is in het verleden bekritiseerd omdat deze de nulhypothese te gemakkelijk accepteert, met name wanneer de populatieparameters (zoals gemiddelde en standaarddeviatie) uit de data zelf worden geschat. Dit kan leiden tot te weinig conservatieve p-waarden.
#### 3.4.2 De Lilliefors correctie
Om dit probleem aan te pakken, is de **Lilliefors correctie** ontwikkeld. Deze correctie houdt rekening met het feit dat de populatieparameters zijn geschat uit de steekproef. Het resultaat is dat er meer conservatieve p-waarden worden gebruikt, wat betekent dat de toets strenger wordt. Statistische softwarepakketten passen deze correctie vaak automatisch toe wanneer de K-S toets wordt uitgevoerd voor normaliteit.
#### 3.4.3 Interpretatie van software resultaten
Wanneer statistische software, zoals R met de `lillie.test` functie, wordt gebruikt voor een K-S toets, is het belangrijk op te merken dat de resultaten (zoals de $D$-statistiek en de p-waarde) de Lilliefors correctie kunnen bevatten. Handmatige berekeningen met klassenmiddens kunnen afwijken van de resultaten van software die individuele waarnemingen analyseert.
### 3.5 Vergelijking met andere toetsen
Hoewel de K-S toets nuttig is, is het een "omnibus" toets, wat betekent dat het weliswaar een verband of afwijking detecteert, maar niet specifiek de aard ervan aangeeft. Als een significante afwijking wordt gevonden, zijn verdere analyses nodig om de specifieke cellen of categorieën te identificeren die het meest bijdragen aan dit verschil.
### 3.6 K-S toets voor twee steekproeven
De Kolmogorov-Smirnov toets kan ook worden uitgebreid om te toetsen of twee steekproeven afkomstig zijn uit dezelfde populatie. Dit wordt gedaan door de cumulatieve verdelingen van beide steekproeven te vergelijken.
> **Tip:** De K-S toets kan als een snelle eerste screening worden gebruikt om te controleren of data voldoen aan bepaalde distributieaannames. Echter, vanwege de beperkingen (met name de gevoeligheid van de oorspronkelijke versie), is het vaak aan te raden om bij twijfel aanvullende of meer specifieke toetsen te gebruiken.
---
# Beperkingen en interpretatie van chi-kwadraat toetsen
Hier volgt een gedetailleerde samenvatting over de beperkingen en interpretatie van chi-kwadraat toetsen, opgesteld in het Nederlands en conform de gestelde formatteerregels.
## 4. Beperkingen en interpretatie van chi-kwadraat toetsen
Dit onderwerp behandelt de noodzakelijke voorwaarden voor het correct toepassen van chi-kwadraat toetsen, zoals minimale verwachte celfrequenties, en hoe de resultaten geïnterpreteerd moeten worden, inclusief de analyse van afwijkende celpercentages en bijdragen aan de toetsgrootheid.
### 4.1 Chi-kwadraat goodness-of-fit test: beperkingen
De chi-kwadraat (𝜒²) goodness-of-fit test is een benaderende methode. De betrouwbaarheid van de p-waarde is afhankelijk van de grootte van de celfrequenties. Er zijn specifieke vereisten om ervoor te zorgen dat de toets nauwkeurig blijft.
#### 4.1.1 Minimale verwachte celfrequenties
Om te waarborgen dat de kritieke waarden voor de chi-kwadraat toets betrouwbaar zijn, gelden de volgende regels voor verwachte celfrequenties:
* **Algemene regel:** Gemiddeld moeten de verwachte celfrequenties minstens 5 zijn.
* **Specifieke regel:** Alle verwachte celfrequenties moeten groter zijn dan of gelijk aan 1.
* **Voor 2x2 tabellen:** Alle verwachte celfrequenties moeten 5 of meer zijn.
> **Tip:** Als de verwachte celfrequenties te laag zijn, wordt de chi-kwadraat toets te instabiel, wat kan leiden tot onjuiste resultaten. Het kan soms nodig zijn om categorieën samen te voegen om aan deze voorwaarden te voldoen, hoewel dit de interpretatie kan bemoeilijken.
#### 4.1.2 Gevoeligheid voor rangorde
De chi-kwadraat toets houdt geen rekening met de rangorde van de categorieën. Dit betekent dat als de variabelen een ordinaal meetniveau hebben, de informatie over de ordening van de categorieën verloren gaat bij het toepassen van deze toets.
> **Tip:** Voor ordinale data kan een alternatieve toets zoals de Kruskal-Wallis toets (voor meerdere groepen) of de Mann-Whitney U toets (voor twee groepen) geschikter zijn, aangezien deze wel rekening houden met rangordes.
### 4.2 Interpretatie van chi-kwadraat toets resultaten
Wanneer een chi-kwadraat toets significant is, geeft dit aan dat er een verband bestaat tussen de variabelen. De aard van dit verband kan verder geanalyseerd worden door verschillende invalshoeken te bekijken. De chi-kwadraat toets is een zogenaamde "omnibus test", wat betekent dat het een algemeen verband detecteert zonder specifiek aan te geven waar dit verband zit.
#### 4.2.1 Vergelijken van specifieke celpercentages
Een manier om een significant resultaat verder te duiden is door de percentages in specifieke cellen van de kruistabel te vergelijken. Hierbij wordt gekeken welke cellen een afwijkend percentage vertonen ten opzichte van wat verwacht zou worden.
#### 4.2.2 Vergelijken van waargenomen en verwachte celfrequenties
Een andere interpretatiemethode is het direct vergelijken van de waargenomen celfrequenties ($O$) met de verwachte celfrequenties ($E$) onder de nulhypothese van onafhankelijkheid. Dit helpt te identificeren welke cellen over- of ondervertegenwoordigd zijn in vergelijking met de verwachtingen.
#### 4.2.3 Analyse van bijdragen aan de chi-kwadraat toetsingsgrootheid
De chi-kwadraat toetsingsgrootheid wordt berekend met de formule:
$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$
waarbij $O_i$ de waargenomen frequentie is en $E_i$ de verwachte frequentie voor cel $i$. Door de term $\frac{(O_i - E_i)^2}{E_i}$ voor elke cel te berekenen, kan men zien welke cellen het meest bijdragen aan de totale chi-kwadraat waarde. Cellen met een grote bijdrage wijzen op een sterke afwijking van de nulhypothese in die specifieke cel.
> **Tip:** Een hoge bijdrage aan de 𝜒² waarde duidt op een aanzienlijk verschil tussen de waargenomen en verwachte frequentie in die specifieke cel, wat bijdraagt aan de algehele significantie van de toets.
### 4.3 Toepassing en berekening van verwachte celfrequenties
Bij het toetsen van de onafhankelijkheid van variabelen in een kruistabel (contingentietabel), is het cruciaal om de verwachte celfrequenties correct te berekenen.
#### 4.3.1 Berekenen van verwachte celfrequenties
Voor een $r \times k$ kruistabel (met $r$ rijen en $k$ kolommen), wordt de verwachte celfrequentie voor de cel in rij $i$ en kolom $j$ berekend met de volgende formule, onder de aanname van statistische onafhankelijkheid:
$$ E_{ij} = \frac{\text{(Som van rij } i) \times \text{(Som van kolom } j)}{\text{Totaal aantal observaties}} $$
Als de waargenomen frequenties sterk verschillen van de verwachte frequenties, resulteert dit in een hoge chi-kwadraat waarde, wat zou pleiten tegen de nulhypothese.
#### 4.3.2 Vrijheidsgraden voor afhankelijkheidstoetsen
Voor $r \times k$ kruistabellen is het aantal vrijheidsgraden ($df$) voor de chi-kwadraat afhankelijkheidstoets:
$$ df = (k - 1) \times (r - 1) $$
Een hogere chi-kwadraat waarde, gecombineerd met een lager aantal vrijheidsgraden, leidt tot een kleinere p-waarde, wat sterker bewijs levert tegen de nulhypothese van onafhankelijkheid.
#### 4.3.3 Voorbeeld: jongens blijven vaker zitten dan meisjes
Beschouw een 2x2 kruistabel met de variabelen "geslacht" (jongens/meisjes) en "uitkomst" (blijven zitten/geslaagd).
Stel we observeren de volgende frequenties:
| | Blijven zitten | Geslaagd | Totaal |
| :-------- | :------------ | :------- | :----- |
| Jongens | 80 | 70 | 150 |
| Meisjes | 42 | 78 | 120 |
| Totaal | 122 | 148 | 270 |
De verwachte celfrequenties worden berekend als volgt:
* Verwacht (Jongens, Blijven zitten) = $\frac{150 \times 122}{270} \approx 67.78$
* Verwacht (Jongens, Geslaagd) = $\frac{150 \times 148}{270} \approx 82.22$
* Verwacht (Meisjes, Blijven zitten) = $\frac{120 \times 122}{270} \approx 54.22$
* Verwacht (Meisjes, Geslaagd) = $\frac{120 \times 148}{270} \approx 65.78$
De chi-kwadraat toetsingsgrootheid wordt dan berekend door voor elke cel de bijdrage $\frac{(O - E)^2}{E}$ op te tellen.
Met deze waarden zou de toets resulteren in een significante afwijking, wat impliceert dat jongens vaker blijven zitten dan meisjes.
> **Voorbeeld:** Stel de berekende chi-kwadraat waarde is 93.7 met 1 vrijheidsgraad. Dit is zeer significant (p < .001), wat leidt tot de conclusie dat geslacht en de uitkomst (blijven zitten/geslaagd) statistisch afhankelijk zijn.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-Parametrische Statistiek | Een tak van statistiek die zich bezighoudt met toetsen en methoden die geen aannames doen over de verdeling van de populatie waaruit de steekproef is getrokken. |
| Kruistabel (contingentietabel) | Een tabel die de frequentieverdeling van twee of meer categorische variabelen weergeeft, waarbij de cellen de gezamenlijke frequenties van combinaties van categorieën bevatten. |
| Kwadraat van een normaalverdeling | De verdeling die ontstaat wanneer de waarden van een normaal verdeelde variabele worden gekwadrateerd. Dit leidt tot een scheve verdeling die positief georiënteerd is. |
| Som van kwadraten van normaalverdelingen | De verdeling die ontstaat wanneer de kwadraten van meerdere onafhankelijke normaal verdeelde variabelen worden opgeteld. De vorm van deze verdeling hangt af van het aantal variabelen. |
| Chi-kwadraat verdeling ($\chi^2$) | Een continue waarschijnlijkheidsverdeling die vaak wordt gebruikt bij het toetsen van hypothesen, met name bij analyses van categorische data. De vorm van de verdeling wordt bepaald door het aantal vrijheidsgraden. |
| Vrijheidsgraden (df) | Het aantal waarden in de laatste berekening van een statistische analyse dat vrij kan variëren. Bij chi-kwadraat toetsen is dit gerelateerd aan het aantal categorieën of cellen in de tabel. |
| Goodness of Fit test (Aanpassingstoets/Verdelingstoets) | Een statistische toets die nagaat in hoeverre de geobserveerde frequenties van categorieën in een steekproef overeenkomen met de theoretisch verwachte frequenties. |
| Geobserveerde frequentie (o) | Het daadwerkelijke aantal waarnemingen in een specifieke categorie of cel van een dataset. |
| Verwachte frequentie (e) | Het theoretisch aantal waarnemingen dat men zou verwachten in een specifieke categorie of cel, gebaseerd op de nulhypothese of marginale verdelingen. |
| Nulhypothese ($H_0$) | Een stelling die een effect, verschil of verband veronderstelt dat er niet is, en die men probeert te weerleggen met statistische toetsing. |
| Alternatieve hypothese ($H_1$) | Een stelling die stelt dat er wel een effect, verschil of verband is, tegengesteld aan de nulhypothese. |
| p-waarde | De waarschijnlijkheid om een teststatistiek te verkrijgen die minstens zo extreem is als de waargenomen teststatistiek, ervan uitgaande dat de nulhypothese waar is. |
| Kritieke waarde | De grens op de schaal van de teststatistiek waarboven of waaronder de nulhypothese wordt verworpen, gebaseerd op een vooraf bepaald significantieniveau ($\alpha$). |
| Onafhankelijke steekproeven | Steekproeven waarbij de uitkomsten in de ene steekproef geen invloed hebben op de uitkomsten in de andere steekproef. |
| Afhankelijke steekproeven | Steekproeven waarbij de uitkomsten in de ene groep gerelateerd zijn aan de uitkomsten in de andere groep (bv. metingen voor en na een interventie bij dezelfde personen). |
| Celfrequentie | Het aantal waarnemingen in een individuele cel van een kruistabel of contingency tabel. |
| Marginale verdelingen | De totalen van de rijen en kolommen in een kruistabel, die de verdeling van elke afzonderlijke variabele weergeven. |
| Kolmogorov-Smirnov goodness-of-fit toets | Een non-parametrische toets die de cumulatieve verdelingsfunctie van een steekproef vergelijkt met de cumulatieve verdelingsfunctie van een theoretische verdeling. |
| Cumulatieve frequentieverdeling | Een functie die de som van de frequenties van alle waarden tot en met een bepaalde waarde weergeeft. |
| Lillieforscorrectie | Een correctie toegepast op de Kolmogorov-Smirnov toets wanneer de populatieparameters (gemiddelde en standaarddeviatie) geschat worden uit de data. Deze correctie maakt de toets conservatiever. |
Cover
Set 6 H10 Inferentie Voor Regressie.pptx
Summary
# Introductie tot inferentie voor regressie
Dit onderwerp introduceert inferentie voor regressie, waarbij de regressielijn niet alleen als beschrijving wordt gebruikt, maar ook om conclusies te trekken over populatieparameters.
## 1. Introductie tot inferentie voor regressie
### 1.1 Van regressielijn naar regressie-analyse
De regressie-analyse bouwt voort op de beschrijvende regressielijn. Waar de beschrijvende analyse zich richt op het beschrijven van het lineaire verband binnen een steekproef, stelt inferentiële regressie zich ten doel deze resultaten te extrapoleren naar de populatie waaruit de steekproef afkomstig is. De regressielijn berekend uit de steekproefdata dient dan als schatter voor de "werkelijke" regressielijn van de populatie.
### 1.2 Algemene vragen en notatie
Met regressie-analyse kunnen we antwoorden vinden op vragen zoals:
* Is het waargenomen lineaire verband tussen $x$ en $y$ significant, of kan het door toeval zijn ontstaan?
* Wat is de precieze "reactie" (helling) van $y$ op $x$, en met welke foutenmarge moeten we rekening houden?
* Hoe nauwkeurig zijn voorspellingen die we doen op basis van de regressielijn?
De populatie regressielijn wordt beschreven door de vergelijking:
$$ \mu_y = \beta_0 + \beta_1 x $$
waarbij $\beta_0$ het intercept is en $\beta_1$ de helling (richtingscoëfficiënt). Deze parameters zijn doorgaans onbekend en worden geschat met de steekproefdata. De steekproef regressielijn is:
$$ \hat{y} = b_0 + b_1 x $$
waar $b_0$ en $b_1$ de schatters zijn voor respectievelijk $\beta_0$ en $\beta_1$.
### 1.3 Voorwaarden voor inferentie over regressie
Om betrouwbare inferentie te kunnen doen over regressieparameters en voorspellingen, moeten aan een aantal voorwaarden worden voldaan. Deze voorwaarden beschrijven de structuur van de data en de relatie tussen de variabelen:
* **Lineariteit:** Het gemiddelde van de responsvariabele $y$ moet voor elke waarde van de verklarende variabele $x$ op een rechte lijn liggen. Dit wordt beschreven door de populatie regressielijn: $\mu_y = \beta_0 + \beta_1 x$.
* **Normaliteit:** Voor elke waarde van $x$ wordt aangenomen dat de overeenkomstige waarden van $y$ normaal verdeeld zijn. Het is niet vereist dat de $y$-variabele als geheel normaal verdeeld is.
* **Gelijke standaardafwijking (Homoscedasticiteit):** De standaardafwijking van de verdeling van $y$ is gelijk voor alle waarden van $x$. Deze gemeenschappelijke standaardafwijking wordt aangeduid met $\sigma$. De waarde van $\sigma$ is doorgaans onbekend.
* **Onafhankelijkheid:** De waarnemingen van $y$ zijn onderling onafhankelijk. Dit geldt ook voor de residuen.
> **Tip:** De lineariteitsvoorwaarde kan visueel worden gecontroleerd met een spreidingsdiagram (scatterplot) en het residuplot. Het residuplot toont de afwijkingen van de waargenomen waarden ten opzichte van de voorspelde waarden. Als er een patroon in het residuplot zichtbaar is, duidt dit op een schending van de lineariteitsvoorwaarde.
### 1.4 De rol van schatters en onzekerheid
De regressieparameters $\beta_0$ en $\beta_1$ zijn onbekende populatieparameters. De berekende waarden $b_0$ en $b_1$ uit de steekproef zijn schatters van deze parameters. Omdat $b_0$ en $b_1$ gebaseerd zijn op steekproefdata, zijn het zelf ook toevalsvariabelen en dus variabel. Ze worden verondersteld onbevooroordeelde schatters te zijn, wat betekent dat hun verwachte waarde gelijk is aan de populatieparameter ($E(b_0) = \beta_0$ en $E(b_1) = \beta_1$).
De onzekerheid rondom deze schattingen wordt gekwantificeerd door hun standaardafwijking. Deze standaardafwijking is afhankelijk van $\sigma$, de standaardafwijking van de residuen.
### 1.5 Het statistische model
Het enkelvoudige lineaire regressiemodel kan als volgt worden uitgedrukt:
$$ y_i = (\beta_0 + \beta_1 x_i) + \epsilon_i $$
Hierbij is:
* $y_i$: de waargenomen waarde van de responsvariabele voor de $i$-de observatie.
* $x_i$: de waarde van de verklarende variabele voor de $i$-de observatie.
* $\beta_0 + \beta_1 x_i$: de verwachte waarde van $y$ voor een gegeven $x_i$, wat de populatie regressielijn vertegenwoordigt.
* $\epsilon_i$: de foutterm of residu voor de $i$-de observatie. Deze wordt verondersteld onafhankelijk en normaal verdeeld te zijn met een gemiddelde van 0 en een standaardafwijking $\sigma$ ($\epsilon_i \sim N(0, \sigma)$).
Het datamodel wordt dan:
$$ y_i = b_0 + b_1 x_i + e_i $$
waarbij $b_0$ en $b_1$ de geschatte regressiecoëfficiënten zijn en $e_i$ de residuen van de steekproef. De residuen ($e_i$) zijn schatters van de fouttermen ($\epsilon_i$).
### 1.6 Schatting van regressieparameters en standaardafwijking
De parameters $b_0$ en $b_1$ worden geschat met de kleinste-kwadratenmethode (least squares), die de som van de gekwadrateerde residuen minimaliseert. Deze schatters zijn zelf normaal verdeeld met verwachtingen $\beta_0$ en $\beta_1$. De standaardafwijking van de residuen, $\sigma$, kan worden geschat aan de hand van de berekende residuen ($e_i$).
De schatter voor $\sigma$ wordt vaak aangeduid als $s_\epsilon$ of $\hat{\sigma}$, en wordt berekend als:
$$ s_\epsilon = \sqrt{\frac{\sum_{i=1}^n e_i^2}{n-2}} $$
Hierbij is $n-2$ het aantal vrijheidsgraden, omdat er twee parameters ($\beta_0$ en $\beta_1$) zijn geschat.
> **Tip:** Uitschieters en invloedrijke waarnemingen in de dataset kunnen de geschatte regressieparameters en de schatting van $\sigma$ aanzienlijk beïnvloeden en de geldigheid van de inferentie ondermijnen. Het is daarom belangrijk om deze kritisch te evalueren.
## 2. Betrouwbaarheidsintervallen en significantietoetsen voor $\beta_0$ en $\beta_1$
### 2.1 Standaardfouten van de schatters
Voor het construeren van betrouwbaarheidsintervallen en het uitvoeren van significantietoetsen, hebben we de standaardfouten van de geschatte regressieparameters nodig.
De standaardfout van de geschatte helling $b_1$ wordt gegeven door:
$$ SE(b_1) = \frac{s_\epsilon}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
De standaardfout van het geschatte intercept $b_0$ wordt gegeven door:
$$ SE(b_0) = s_\epsilon \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
Hierin is $\bar{x}$ het gemiddelde van de $x$-waarden.
### 2.2 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) voor een populatieparameter geeft een reeks waarden aan waarbinnen we met een bepaalde mate van betrouwbaarheid verwachten dat de ware parameter ligt. Een algemene vorm voor een betrouwbaarheidsinterval is:
$$ \text{Schatter} \pm t^* \cdot (\text{Standaardfout van de schatter}) $$
Voor $\beta_1$:
$$ b_1 \pm t^* \cdot SE(b_1) $$
Voor $\beta_0$:
$$ b_0 \pm t^* \cdot SE(b_0) $$
De waarde van $t^*$ wordt verkregen uit de $t$-verdeling met $n-2$ vrijheidsgraden, corresponderend met het gewenste betrouwbaarheidsniveau.
### 2.3 Significantietoetsen
Significantietoetsen worden gebruikt om te beoordelen of een waargenomen effect in de steekproef groot genoeg is om aan te nemen dat het ook in de populatie aanwezig is, of dat het waarschijnlijk door toeval is ontstaan.
**Nulhypothese voor de helling:**
De meest voorkomende nulhypothese voor de helling is $H_0: \beta_1 = 0$. Dit toets of er geen lineair verband is tussen $x$ en $y$ in de populatie. De alternatieve hypothese is $H_a: \beta_1 \neq 0$.
De toetsingsgrootheid voor deze hypothese is een $t$-statistiek:
$$ t = \frac{b_1 - 0}{SE(b_1)} = \frac{b_1}{SE(b_1)} $$
Deze $t$-statistiek volgt een $t$-verdeling met $n-2$ vrijheidsgraden onder de nulhypothese. De $p$-waarde is de kans om een $t$-statistiek te observeren die minstens zo extreem is als de berekende waarde, gegeven dat $H_0$ waar is.
**Nulhypothese voor het intercept:**
Hoewel het mogelijk is om een significantietoets uit te voeren voor $\beta_0$ ($H_0: \beta_0 = 0$), is deze toets vaak minder relevant in de praktijk, tenzij de interpretatie van het intercept bij $x=0$ specifiek betekenisvol is in de context van het onderzoek.
> **Tip:** Een kleine $p$-waarde (doorgaans kleiner dan een vooraf bepaald significantieniveau, zoals 0,05) leidt tot het verwerpen van de nulhypothese. Dit suggereert dat er statistisch bewijs is voor een lineair verband tussen $x$ en $y$ in de populatie.
## 3. Inferentie over voorspellingen
Regressiemodellen worden vaak gebruikt om voorspellingen te doen over de responsvariabele $y$ voor specifieke waarden van de verklarende variabele $x$. We kunnen onderscheid maken tussen het voorspellen van het gemiddelde van $y$ voor een gegeven $x$, en het voorspellen van een individuele waarneming van $y$ voor een gegeven $x$.
### 3.1 Voorspelling van het gemiddelde van $y$ voor een gegeven $x$ ($\mu_y$)
Voor een specifieke waarde $x^*$, willen we een betrouwbaarheidsinterval construeren voor de verwachte waarde van $y$, $\mu_y(x^*) = \beta_0 + \beta_1 x^*$. De voorspelde waarde is $\hat{y}^* = b_0 + b_1 x^*$. Het betrouwbaarheidsinterval wordt gegeven door:
$$ \hat{y}^* \pm t^* \cdot SE(\hat{y}^*) $$
waarbij de standaardfout van de voorspelde gemiddelde waarde wordt gegeven door:
$$ SE(\hat{y}^*) = s_\epsilon \sqrt{\frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
> **Tip:** Dit interval wordt ook wel een "betrouwbaarheidsinterval voor de gemiddelde respons" genoemd. Het is altijd smaller dan het voorspellingsinterval voor een individuele waarneming, omdat het gaat over het gemiddelde van vele toekomstige waarnemingen. Het interval wordt breder naarmate $x^*$ verder afwijkt van $\bar{x}$.
### 3.2 Voorspelling van een individuele $y$-waarde voor een gegeven $x$
Voor een specifieke waarde $x^*$, willen we een voorspellingsinterval construeren voor een individuele waarneming $y^*$. De voorspelde waarde is wederom $\hat{y}^* = b_0 + b_1 x^*$. Het voorspellingsinterval wordt gegeven door:
$$ \hat{y}^* \pm t^* \cdot SE_{indiv}(\hat{y}^*) $$
waarbij de standaardfout voor een individuele voorspelling wordt gegeven door:
$$ SE_{indiv}(\hat{y}^*) = s_\epsilon \sqrt{1 + \frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
> **Tip:** Dit interval wordt ook wel een "voorspellingsinterval voor een individuele respons" genoemd. Het is breder dan het betrouwbaarheidsinterval voor het gemiddelde, omdat het rekening houdt met de extra onzekerheid die voortkomt uit het voorspellen van een enkele waarneming in plaats van een gemiddelde.
## 4. Variantie-analyse (ANOVA) voor regressie
De variantie-analyse (ANOVA) is een krachtig statistisch hulpmiddel dat de totale variantie in de responsvariabele $y$ opsplitst in delen die verklaard kunnen worden door het regressiemodel en delen die onverklaard blijven (residuen).
### 4.1 Deelcomponenten van variantie
* **Totale Kwadratensom (SST - Sum of Squares Total):** Dit meet de totale variatie in $y$ rond het gemiddelde $\bar{y}$. $SST = \sum_{i=1}^n (y_i - \bar{y})^2$.
* **Geklaarde Kwadratensom (SSR of SSM - Sum of Squares Regression/Model):** Dit meet de variatie in $y$ die verklaard wordt door het regressiemodel (de regressielijn). $SSR = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2$.
* **Onverklaarde Kwadratensom (SSE - Sum of Squares Error):** Dit meet de variatie in $y$ die niet verklaard wordt door het model, oftewel de residuen. $SSE = \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \sum_{i=1}^n e_i^2$.
De relatie tussen deze kwadratensommen is: $SST = SSR + SSE$.
### 4.2 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, is een maat voor de proportie van de totale variantie in de responsvariabele die verklaard wordt door het regressiemodel. Het wordt berekend als:
$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$
Een $R^2$ waarde van 0,408, zoals in een voorbeeld, betekent dat 40,8% van de variantie in de globale levenstevredenheid verklaard kan worden door de score op de Likertschaal.
### 4.3 ANOVA F-toets
De ANOVA F-toets wordt gebruikt om de nulhypothese te toetsen dat er geen lineair verband is tussen $x$ en $y$ in de populatie ($H_0: \beta_1 = 0$). De toetsingsgrootheid is de ratio van de gemiddelde kwadratensommen:
$$ F = \frac{MSM}{MSE} $$
waarbij:
* $MSM = \frac{SSR}{DFM}$ (Mean Square Model, met $DFM$ vrijheidsgraden voor het model)
* $MSE = \frac{SSE}{DFE}$ (Mean Square Error, met $DFE$ vrijheidsgraden voor de error)
Voor enkelvoudige lineaire regressie is $DFM = 1$ (vanwege de enkele verklarende variabele $x$) en $DFE = n-2$. De $F$-toetsingsgrootheid volgt dan een $F$-verdeling met 1 en $n-2$ vrijheidsgraden onder de nulhypothese.
> **Opmerking:** Voor enkelvoudige lineaire regressie is de $F$-toets equivalent aan de $t$-toets voor $\beta_1$, aangezien $F = t^2$. De $p$-waarden van beide toetsen zijn dus identiek. De $t$-toets heeft echter de voorkeur bij een enkele verklarende variabele omdat deze ook richtinggevoelig is en het makkelijker is om eenzijdig te toetsen.
## 5. Inferentie voor correlatie
Wanneer er geen duidelijke verklarende of verklaarde variabele is (bv. bij het onderzoeken van de relatie tussen armlengte en beenlengte), of wanneer we specifiek geïnteresseerd zijn in de sterkte en richting van het lineaire verband, kan inferentie op de correlatiecoëfficiënt ($\rho$, rho) relevanter zijn dan regressie-inferentie.
### 5.1 Toetsen van de correlatiecoëfficiënt
De nulhypothese dat er geen lineair verband is tussen twee variabelen kan ook getoetst worden door de populatiecorrelatiecoëfficiënt $\rho$ te toetsen. De nulhypothese is $H_0: \rho = 0$. Als de variabelen $x$ en $y$ bivariaat normaal verdeeld zijn, is $H_0: \rho = 0$ equivalent aan de stelling dat $x$ en $y$ onafhankelijk zijn.
De significantietoets voor $\rho$ is gebaseerd op een 1-steekproef $t$-toets:
$$ t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}} $$
waarbij $r$ de steekproefcorrelatiecoëfficiënt is en $n$ de steekproefgrootte. De $t$-statistiek volgt een $t$-verdeling met $n-2$ vrijheidsgraden. De $p$-waarde wordt berekend op basis van deze $t$-verdeling.
> **Opmerking:** Als $x$ de duidelijke verklarende variabele is, is de toets op $\beta_1=0$ equivalent aan de toets op $\rho=0$. In andere situaties is de toets op $\rho$ meer geschikt.
---
# Regressiemodel en schatting van parameters
Dit deel behandelt het enkelvoudige lineaire regressiemodel, de bijbehorende statistische aannames, en de methoden voor het schatten van de modelparameters.
### 2.1 Enkelvoudige lineaire regressie
Een enkelvoudig lineair regressiemodel wordt gebruikt wanneer er één verklarende variabele ($x$) is om een verklaarde variabele ($y$) te modelleren. Het doel is om het lineaire verband tussen $x$ en $y$ te beschrijven en te voorspellen.
#### 2.1.1 Het populatiemodel
Het populatiemodel van enkelvoudige lineaire regressie stelt dat voor elke waarde van de verklarende variabele $x$, de verklaarde variabele $y$ normaal verdeeld is rond een gemiddelde $\mu_y$. Dit gemiddelde $\mu_y$ heeft een lineair verband met $x$, wat wordt uitgedrukt door de populatie regressierechte:
$$ \mu_y = \beta_0 + \beta_1 x $$
Hierbij zijn $\beta_0$ het populatie-intercept en $\beta_1$ de populatie-helling (richtingscoëfficiënt). Daarnaast wordt verondersteld dat de standaarddeviatie van $y$, aangeduid met $\sigma$, gelijk is voor alle waarden van $x$. De waarde van $\sigma$ is echter onbekend.
#### 2.1.2 Veronderstellingen voor regressie-inferentie
Voor het uitvoeren van statistische inferentie (zoals betrouwbaarheidsintervallen en significantietoetsen) op basis van een regressiemodel, zijn de volgende veronderstellingen cruciaal:
* **Lineariteit:** Het gemiddelde van de verklaarde variabele $y$ hangt lineair af van de verklarende variabele $x$.
* **Onafhankelijkheid:** De waarnemingen van $y$ zijn onderling onafhankelijk.
* **Normaliteit:** Voor elke waarde van $x$ is de verklaarde variabele $y$ normaal verdeeld.
* **Gelijke standaardafwijking (homoscedasticiteit):** De standaardafwijking $\sigma$ van $y$ is gelijk voor alle waarden van $x$.
Deze veronderstellingen kunnen visueel worden gecontroleerd met behulp van spreidingsdiagrammen (scatterplots) en residuplotten.
#### 2.1.3 Het datamodel
Het datamodel beschrijft hoe individuele waarnemingen zich verhouden tot het populatiemodel. Voor een steekproef van $n$ waarnemingen $(x_i, y_i)$ wordt dit als volgt weergegeven:
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$
waarbij $\epsilon_i$ de foutterm is die de afwijking van de individuele waarneming $y_i$ van de populatie regressierechte voorstelt. De fouttermen $\epsilon_i$ worden verondersteld onafhankelijk en normaal verdeeld te zijn met een gemiddelde van 0 en een standaarddeviatie $\sigma$.
#### 2.1.4 Schatting van regressieparameters
De populatieparameters $\beta_0$ en $\beta_1$ zijn meestal onbekend en moeten geschat worden op basis van steekproefgegevens. De meest gebruikte methode hiervoor is de **methode van de kleinste kwadraten (least squares)**.
##### 2.1.4.1 De regressierechte (least-squares line)
De regressierechte is de lijn die het best past bij de geobserveerde data door de som van de gekwadrateerde verticale afstanden (residuen) tussen de geobserveerde waarden $y_i$ en de voorspelde waarden $\hat{y}_i$ te minimaliseren. De vergelijking van de geschatte regressierechte is:
$$ \hat{y} = b_0 + b_1 x $$
waarbij $b_0$ de schatter is voor $\beta_0$ en $b_1$ de schatter is voor $\beta_1$.
##### 2.1.4.2 Berekening van $b_0$ en $b_1$
De schatters $b_0$ en $b_1$ worden als volgt berekend:
$$ b_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} $$
$$ b_0 = \bar{y} - b_1 \bar{x} $$
waarbij $\bar{x}$ en $\bar{y}$ de steekproefgemiddelden zijn van respectievelijk $x$ en $y$.
> **Tip:** $b_1$ kan ook worden uitgedrukt als $b_1 = r \frac{s_y}{s_x}$, waarbij $r$ de Pearsoncorrelatiecoëfficiënt is en $s_x$ en $s_y$ de steekproefstandaarddeviaties van $x$ en $y$ zijn.
##### 2.1.4.3 Schatting van de standaarddeviatie van de residuen
De standaarddeviatie van de residuen, vaak aangeduid met $s$ of $\hat{\sigma}$, is een schatting van de populatiestandaarddeviatie $\sigma$. Deze schatting wordt gemaakt op basis van de residuen ($e_i = y_i - \hat{y}_i$) en wordt berekend met de volgende formule:
$$ s = \sqrt{\frac{\sum_{i=1}^n e_i^2}{n-2}} = \sqrt{\frac{\sum_{i=1}^n (y_i - (b_0 + b_1 x_i))^2}{n-2}} $$
De noemer $n-2$ komt voort uit het feit dat twee parameters ($\beta_0$ en $\beta_1$) zijn geschat. De term $n-2$ vertegenwoordigt het aantal vrijheidsgraden voor de schatting van $\sigma$.
> **Tip:** Een kleinere waarde van $s$ geeft aan dat de geobserveerde waarden van $y$ gemiddeld dichter bij de regressierechte liggen, wat duidt op een betere fit van het model.
#### 2.1.5 Eigenschappen van de schatters $b_0$ en $b_1$
Onder de aannames van het lineaire regressiemodel, hebben de kleinste-kwadraten schatters $b_0$ en $b_1$ belangrijke eigenschappen:
* **Zuiverheid:** $b_0$ en $b_1$ zijn zuivere schatters van $\beta_0$ en $\beta_1$, wat betekent dat hun verwachtingswaarde gelijk is aan de werkelijke populatieparameters: $E(b_0) = \beta_0$ en $E(b_1) = \beta_1$.
* **Normaliteit:** De schatters $b_0$ en $b_1$ zelf zijn normaal verdeeld (of bij benadering normaal verdeeld voor grote steekproeven) met gemiddelden $\beta_0$ en $\beta_1$ respectievelijk. De standaarddeviaties van deze schatters (standaardfouten) kunnen uit de data worden geschat.
> **Tip:** Het is cruciaal om de aannames van het regressiemodel te controleren, omdat schendingen van deze aannames de geldigheid van de schattingen en de daaropvolgende inferentie kunnen aantasten.
#### 2.1.6 Analyse van residuen
De analyse van de residuen ($e_i = y_i - \hat{y}_i$) is essentieel voor het controleren van de regressieveronderstellingen.
* **Residuplot:** Een plot van de residuen tegen de voorspelde waarden $\hat{y}_i$ of tegen de verklarende variabele $x_i$ kan patronen onthullen die duiden op schendingen van lineariteit, homoscedasticiteit of normaliteit. Een willekeurig spreidingspatroon rond nul is wenselijk.
* **Normaal-kwantiel-diagram van residuen (QQ-plot):** Dit diagram helpt bij het beoordelen van de normaliteitsveronderstelling. Als de residuen normaal verdeeld zijn, liggen de punten in het QQ-plot bij benadering op een rechte lijn.
> **Voorbeeld:** Als een residuplot een gebogen patroon vertoont, kan dit duiden op een niet-lineair verband tussen $x$ en $y$, wat suggereert dat een lineair regressiemodel mogelijk niet de beste keuze is.
### 2.2 Inferentie over de regressieparameters
Nadat de regressieparameters zijn geschat, kunnen we inferentie uitvoeren om conclusies te trekken over de populatieparameters $\beta_0$ en $\beta_1$.
#### 2.2.1 Standaardfouten van de schatters
De standaardfouten van de geschatte regressieparameters meten de variabiliteit van deze schatters over verschillende steekproeven.
* **Standaardfout van $b_1$ (helling):**
$$ SE(b_1) = \frac{s}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
* **Standaardfout van $b_0$ (intercept):**
$$ SE(b_0) = s \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
#### 2.2.2 Betrouwbaarheidsintervallen voor $\beta_0$ en $\beta_1$
Een betrouwbaarheidsinterval biedt een bereik van waarden waarbinnen de populatieparameter met een bepaalde mate van betrouwbaarheid zal liggen. De algemene vorm van een betrouwbaarheidsinterval is:
$$ \text{Schatter} \pm t^* \cdot \text{Standaardfout van de schatter} $$
Voor de helling $\beta_1$ wordt dit:
$$ b_1 \pm t^* \cdot SE(b_1) $$
Voor het intercept $\beta_0$ wordt dit:
$$ b_0 \pm t^* \cdot SE(b_0) $$
Hierbij is $t^*$ de kritieke waarde uit de $t$-verdeling met $n-2$ vrijheidsgraden die overeenkomt met het gewenste betrouwbaarheidsniveau.
> **Voorbeeld:** Een 95% betrouwbaarheidsinterval voor $\beta_1$ dat (0.094, 0.128) is, suggereert dat we met 95% betrouwbaarheid kunnen zeggen dat de werkelijke toename in $y$ voor elke eenheidstoename in $x$ tussen 0.094 en 0.128 ligt.
#### 2.2.3 Significantietoetsen voor $\beta_0$ en $\beta_1$
Significantietoetsen worden gebruikt om te beoordelen of er voldoende bewijs is om de nulhypothese te verwerpen.
##### 2.2.3.1 Toets voor de helling $\beta_1$
De meest voorkomende nulhypothese voor de helling is $H_0: \beta_1 = 0$, wat impliceert dat er geen lineair verband is tussen $x$ en $y$ in de populatie. De toetsgrootheid is een $t$-statistiek:
$$ t = \frac{b_1 - \beta_{1,0}}{SE(b_1)} $$
waarbij $\beta_{1,0}$ de waarde van de helling onder de nulhypothese is (meestal 0).
* **Hypothesen:**
* $H_0: \beta_1 = 0$ (er is geen lineair verband)
* $H_a: \beta_1 \neq 0$ (er is wel een lineair verband)
De $p$-waarde van deze toets geeft de kans weer op het observeren van een steekproefstatistiek die minstens zo extreem is als de berekende waarde, aangenomen dat de nulhypothese waar is. Een lage $p$-waarde (typisch $< 0.05$) leidt tot het verwerpen van $H_0$.
##### 2.2.3.2 Toets voor het intercept $\beta_0$
Hoewel toetsen voor $\beta_0$ mogelijk zijn ($H_0: \beta_0 = 0$), is de toets op $\beta_1$ meestal van groter praktisch belang, omdat deze het effect van de verklarende variabele $x$ op $y$ kwantificeert. Een nulhypothese $\beta_0 = 0$ betekent dat de regressierechte door de oorsprong snijdt, wat niet altijd theoretisch relevant is.
#### 2.2.4 Variantie-analyse (ANOVA) voor regressie
ANOVA wordt gebruikt om de totale variantie in de verklaarde variabele $y$ op te splitsen in een deel dat verklaard wordt door het regressiemodel (door $x$) en een deel dat onverklaard blijft (de residuen).
* **Totale som der kwadraten ($SST$):** De totale variantie in $y$. $SST = \sum (y_i - \bar{y})^2$.
* **Som der kwadraten van het model ($SSM$ of $SSR$):** De variantie in $y$ verklaard door het regressiemodel. $SSM = \sum (\hat{y}_i - \bar{y})^2$.
* **Som der kwadraten van de fout ($SSE$):** De onverklaarde variantie in $y$ (de som van de gekwadrateerde residuen). $SSE = \sum e_i^2$.
Er geldt de relatie: $SST = SSM + SSE$.
##### 2.2.4.1 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, is de proportie van de totale variantie in $y$ die verklaard wordt door het regressiemodel (de variabele $x$).
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
In enkelvoudige lineaire regressie is $R^2$ gelijk aan het kwadraat van de Pearsoncorrelatiecoëfficiënt ($r^2$). Een hogere $R^2$ waarde duidt op een betere pasvorm van het model.
##### 2.2.4.2 F-toets in ANOVA
De ANOVA-tabel bevat de gemiddelde kwadratensommen ($MSM = SSM/(k)$ en $MSE = SSE/(n-k-1)$, waarbij $k$ het aantal predictoren is, in enkelvoudige regressie $k=1$). De $F$-statistiek wordt berekend als:
$$ F = \frac{MSM}{MSE} $$
Deze $F$-statistiek volgt een $F$-verdeling met $k$ en $n-k-1$ vrijheidsgraden onder de nulhypothese $H_0: \beta_1 = 0$. De $F$-toets in enkelvoudige lineaire regressie is equivalent aan de $t$-toets voor de helling: $F = t^2$.
> **Opmerking:** Voor regressie met één verklarende variabele ($k=1$) geeft de ANOVA $F$-toets dezelfde $p$-waarde als de $t$-toets voor de helling $\beta_1$.
#### 2.2.5 Inferentie over voorspellingen
Naast inferentie over de parameters, kunnen we ook betrouwbaarheidsintervallen construeren voor:
* **De verwachte waarde van $y$ voor een specifieke waarde $x^*$ (betrouwbaarheidsinterval voor het gemiddelde):** Dit interval geeft een bereik van waarden waarbinnen de *gemiddelde* respons $\mu_y$ ligt voor een gegeven $x^*$. Dit interval is smaller dan het voorspellingsinterval.
$$ \hat{y}^* \pm t^* \cdot SE(\hat{y}^*) $$
waarbij $SE(\hat{y}^*) = s \sqrt{\frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}}$.
* **Een individuele voorspelling van $y$ voor een specifieke waarde $x^*$ (voorspellingsinterval):** Dit interval geeft een bereik van waarden waarbinnen een *individuele* waarneming $y$ waarschijnlijk zal vallen voor een gegeven $x^*$. Dit interval is breder dan het betrouwbaarheidsinterval voor het gemiddelde.
$$ \hat{y}^* \pm t^* \cdot s \sqrt{1 + \frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
> **Belangrijk:** Zowel de breedte van het betrouwbaarheidsinterval als het voorspellingsinterval neemt toe naarmate de waarde $x^*$ verder afwijkt van het gemiddelde $\bar{x}$.
### 2.3 Inferentie voor correlatie
Wanneer er geen duidelijke verklarende of verklaarde variabele is (bijvoorbeeld bij het onderzoeken van de relatie tussen armlengte en beenlengte), kan inferentie op de correlatiecoëfficiënt $\rho$ (rho) nuttiger zijn dan regressie-inferentie. De nulhypothese $H_0: \rho = 0$ is equivalent aan $H_0: \beta_1 = 0$ onder bepaalde aannames. Als $x$ en $y$ bivariaat normaal verdeeld zijn, toets deze hypothese of $x$ en $y$ onafhankelijk zijn. De toets voor $\rho$ is gebaseerd op een $t$-test met $n-2$ vrijheidsgraden.
$$ t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}} $$
waarbij $r$ de steekproefcorrelatiecoëfficiënt is.
---
# Hypothesetoetsing en betrouwbaarheidsintervallen voor regressieparameters
Hieronder volgt een gedetailleerde studiegids voor hypothesetoetsing en betrouwbaarheidsintervallen voor regressieparameters, gebaseerd op de verstrekte documentatie.
## 3. Hypothesetoetsing en betrouwbaarheidsintervallen voor regressieparameters
Dit onderdeel behandelt het gebruik van significantietoetsen en betrouwbaarheidsintervallen om conclusies te trekken over populatieparameters (helling en intercept) van een regressielijn, specifiek de t-toets voor de helling en het intercept, en de interpretatie van de resultaten.
### 3.1 Introductie tot inferentie voor regressieparameters
Wanneer een spreidingsdiagram een lineair verband tussen een verklarende variabele ($x$) en een verklaarde variabele ($y$) suggereert, gebruiken we de regressierechte om $y$ te voorspellen voor een gegeven $x$. Als de data afkomstig zijn uit een grotere populatie, rijzen er vragen over de significantie van dit verband en de precisie van onze voorspellingen. De berekende regressiecoëfficiënten, de richtingscoëfficiënt ($b_1$) en het intercept ($b_0$), zijn schatters van de onbekende populatieparameters $\beta_1$ en $\beta_0$. Inferentie op deze parameters stelt ons in staat om conclusies te trekken over het ware lineaire verband in de populatie.
### 3.2 Aannames voor regressie-inferentie
Voor betrouwbare inferentie op regressieparameters moeten aan bepaalde voorwaarden voldaan zijn:
* **Normaliteit:** Voor elke waarde van de verklarende variabele $x$, wordt aangenomen dat de corresponderende responsen $y$ normaal verdeeld zijn. Dit betekent dat we een reeks normaalverdelingen verwachten, elk gecentreerd op de regressierechte van de populatie voor die specifieke $x$-waarde.
* **Gelijke standaardafwijking ($\sigma$):** Alle normaalverdelingen van $y$ voor de verschillende $x$-waarden hebben dezelfde standaardafwijking $\sigma$. Dit impliceert dat de variabiliteit van $y$ constant is over alle waarden van $x$. De waarde van $\sigma$ bepaalt de breedte van de "tunnel" van waarnemingen rond de regressierechte.
* **Lineariteit:** Het gemiddelde van de responsen $\mu_y$ voor een gegeven $x$ ligt op een rechte lijn. Deze populatie regressierechte wordt beschreven door $\mu_y = \beta_0 + \beta_1 x$.
* **Onafhankelijkheid:** De waarnemingen van $y$ zijn onderling onafhankelijk.
De parameters $\beta_0$ (intercept) en $\beta_1$ (helling) van de populatie regressierechte zijn onbekend. We schatten deze met de steekproefcoëfficiënten $b_0$ en $b_1$.
### 3.3 Schatting van regressieparameters
De schatters $b_0$ en $b_1$ zijn zuivere schatters van respectievelijk $\beta_0$ en $\beta_1$, wat betekent dat hun verwachte waarden gelijk zijn aan de populatieparameters: $E(b_0) = \beta_0$ en $E(b_1) = \beta_1$. De schatters $b_0$ en $b_1$ volgen, onder de aannames, een normaalverdeling met de populatieparameters als gemiddelden. De standaardafwijking van deze schatters kan uit de data worden geschat.
De standaardafwijking $\sigma$ van de residuen ($e_i$, het verschil tussen de waargenomen $y_i$ en de voorspelde $\hat{y}_i$) wordt gebruikt om de standaardafwijking van de regressiecoëfficiënten te schatten. De schatting van $\sigma$ wordt berekend op basis van de residuen en heeft $n-2$ vrijheidsgraden, waarbij $n$ het aantal waarnemingen is en 2 het aantal geschatte parameters ($\beta_0$ en $\beta_1$).
> **Tip:** Uitschieters en invloedrijke waarnemingen kunnen de regressierechte en de schattingen van de parameters significant beïnvloeden en de inferentie ongeldig maken. Analyseer altijd de residuen en identificeer potentiële invloedrijke punten.
### 3.4 Betrouwbaarheidsintervallen voor regressieparameters
Betrouwbaarheidsintervallen (BI) bieden een bereik van waarden waarbinnen de ware populatieparameter (helling of intercept) waarschijnlijk ligt.
#### 3.4.1 Betrouwbaarheidsinterval voor de helling ($\beta_1$)
Een betrouwbaarheidsinterval voor $\beta_1$ wordt geconstrueerd als volgt:
$$ b_1 \pm t^* \cdot SE(b_1) $$
waarbij:
* $b_1$ de geschatte regressiecoëfficiënt is.
* $t^*$ de kritieke t-waarde is uit de t-verdeling met $n-2$ vrijheidsgraden, die overeenkomt met het gewenste betrouwbaarheidsniveau.
* $SE(b_1)$ de standaardfout van de schatter $b_1$ is.
> **Voorbeeld:** Een 95% betrouwbaarheidsinterval voor de helling $\beta_1$ van 0,094 tot 0,128 betekent dat we met 95% betrouwbaarheid kunnen zeggen dat de ware populatiehelling tussen 0,094 en 0,128 ligt. Dit kan geïnterpreteerd worden als: een toename van 1 eenheid in $x$ gaat samen met een toename in $y$ tussen 0,094 en 0,128 eenheden in de populatie.
#### 3.4.2 Betrouwbaarheidsinterval voor het intercept ($\beta_0$)
Een betrouwbaarheidsinterval voor $\beta_0$ wordt op een vergelijkbare manier geconstrueerd:
$$ b_0 \pm t^* \cdot SE(b_0) $$
waarbij:
* $b_0$ de geschatte intercept is.
* $t^*$ de kritieke t-waarde is met $n-2$ vrijheidsgraden.
* $SE(b_0)$ de standaardfout van de schatter $b_0$ is.
Het betrouwbaarheidsinterval voor het intercept is echter vaak minder relevant in de praktijk, tenzij $x=0$ een betekenisvolle waarde is binnen het onderzochte domein.
### 3.5 Significantietoetsen voor regressieparameters
Significantietoetsen worden gebruikt om te evalueren of het waargenomen verband in de steekproef significant is, of dat het ook door toeval zou kunnen zijn ontstaan in de populatie.
#### 3.5.1 T-toets voor de helling ($\beta_1$)
De meest voorkomende hypothese die getest wordt voor de helling is:
* Nulhypothese $H_0$: $\beta_1 = 0$ (er is geen lineair verband tussen $x$ en $y$ in de populatie).
* Alternatieve hypothese $H_a$: $\beta_1 \neq 0$ (er is wel een lineair verband).
De toetsgrootheid is een t-statistiek:
$$ t = \frac{b_1 - \beta_{1,0}}{SE(b_1)} $$
waarbij $\beta_{1,0}$ de waarde van de helling onder de nulhypothese is (meestal 0). De t-statistiek volgt een t-verdeling met $n-2$ vrijheidsgraden. De p-waarde is de kans om een t-statistiek te observeren die minstens zo extreem is als de berekende waarde, gegeven dat $H_0$ waar is. Een kleine p-waarde (typisch < 0,05) leidt tot verwerping van $H_0$.
> **Tip:** De t-toets voor $\beta_1=0$ toetst of de verwachte waarde van $y$ ($\mu_y$) constant is, onafhankelijk van $x$. Dit betekent het toetsen van de afwezigheid van een lineair verband.
#### 3.5.2 T-toets voor het intercept ($\beta_0$)
De nulhypothese voor het intercept is doorgaans $H_0$: $\beta_0 = 0$.
De toetsgrootheid is:
$$ t = \frac{b_0 - \beta_{0,0}}{SE(b_0)} $$
waarbij $\beta_{0,0}$ de waarde van het intercept onder de nulhypothese is (meestal 0).
Deze toets is vaak minder informatief dan de toets voor de helling, omdat een intercept van nul niet noodzakelijkerwijs betekent dat het model zinvol is. Het toetsen van $H_0: \beta_0 = 0$ test of de regressierechte door de oorsprong snijdt.
### 3.6 Variantie-analyse (ANOVA) voor regressie
ANOVA kan worden gebruikt om de variantie in de verklaarde variabele $y$ te ontleden in componenten die verklaard worden door het model (regressierechte) en onverklaarde componenten (residuen).
* **Totale kwadratensom (SST):** De totale variatie in $y$ rond het gemiddelde $\bar{y}$.
* **Kwadratensom verklaard door het model (SSM):** De variatie in $y$ die verklaard wordt door de regressierechte.
* **Kwadratensom van de fout (SSE):** De onverklaarde variatie in $y$ (de residuen).
Deze kwadratensommen hebben bijbehorende vrijheidsgraden:
* $df_{Totaal} = n-1$
* $df_{Model} = k$ (aantal verklarende variabelen, bij enkelvoudige regressie is dit 1)
* $df_{Error} = n-k-1$ (bij enkelvoudige regressie is dit $n-2$)
Gemiddelde kwadratensommen (Mean Squares):
* $MSM = \frac{SSM}{df_{Model}}$
* $MSE = \frac{SSE}{df_{Error}}$
#### 3.6.1 F-toets in ANOVA
De ANOVA F-toets evalueert de hypothese $H_0: \beta_1 = 0$ (in het geval van enkelvoudige regressie). De toetsgrootheid is de verhouding van de gemiddelde kwadratensommen:
$$ F = \frac{MSM}{MSE} $$
Onder $H_0$ volgt deze F-statistiek een $F(k, n-k-1)$ verdeling. Voor enkelvoudige regressie is dit $F(1, n-2)$. Een hoge F-waarde suggereert dat het model een significant deel van de variantie in $y$ verklaart.
> **Opmerking:** Voor enkelvoudige lineaire regressie is de F-toets equivalent aan de t-toets voor de helling, waarbij $F = t^2$. Beide toetsen leiden tot dezelfde p-waarde en conclusies. De F-toets is echter directer inzetbaar bij meervoudige regressie.
#### 3.6.2 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt ($R^2$) is de proportie van de totale variantie in $y$ die verklaard wordt door het regressiemodel (de variabele $x$).
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
$R^2$ varieert tussen 0 en 1. Een hogere $R^2$ geeft aan dat het model $y$ beter voorspelt dan wanneer alleen het gemiddelde van $y$ gebruikt zou worden. Voor enkelvoudige regressie is $R^2$ gelijk aan het kwadraat van de Pearson-correlatiecoëfficiënt ($r$).
### 3.7 Inferentie voor voorspellingen
Naast inferentie over de regressieparameters zelf, kunnen we ook betrouwbaarheidsintervallen construeren voor voorspellingen.
#### 3.7.1 Betrouwbaarheidsinterval voor de verwachte waarde van $y$ ($\mu_y$) voor een specifieke $x^*$
Dit interval geeft een bereik van waarden waarbinnen de gemiddelde waarde van $y$ voor een specifieke waarde van $x$ (laten we die $x^*$ noemen) waarschijnlijk ligt.
$$ \hat{y}^* \pm t^* \cdot SE(\hat{y}^*) $$
waarbij $\hat{y}^*$ de voorspelde waarde van $y$ is voor $x^*$, en $SE(\hat{y}^*)$ de standaardfout van deze voorspelling. De standaardfout is afhankelijk van de afstand van $x^*$ tot het gemiddelde van de $x$-waarden in de steekproef ($\bar{x}$). Hoe verder $x^*$ van $\bar{x}$ ligt, hoe breder het betrouwbaarheidsinterval.
$$ SE(\hat{y}^*) = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum(x_i - \bar{x})^2}} $$
waarbij $\hat{\sigma}$ de schatting van $\sigma$ is.
#### 3.7.2 Voorspellingsinterval voor een individuele waarneming van $y$ voor een specifieke $x^*$
Dit interval geeft een bereik van waarden waarbinnen een *individuele* waarneming van $y$ voor een specifieke $x^*$ waarschijnlijk zal vallen. Dit interval is altijd breder dan het betrouwbaarheidsinterval voor de verwachte waarde, omdat het ook de inherente variabiliteit van individuele waarnemingen rond het gemiddelde omvat.
$$ \hat{y}^* \pm t^* \cdot \sqrt{\hat{\sigma}^2 + (\hat{\sigma} \sqrt{\frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum(x_i - \bar{x})^2}})^2} $$
$$ \hat{y}^* \pm t^* \cdot \hat{\sigma} \sqrt{1 + \frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum(x_i - \bar{x})^2}} $$
> **Belangrijk:** Betrouwbaarheidsintervallen voor voorspellingen zijn het smalst rond het gemiddelde van de verklarende variabele ($\bar{x}$) en worden breder naarmate de te voorspellen $x^*$-waarde verder van $\bar{x}$ afwijkt. Dit illustreert het risico van extrapolatie buiten het bereik van de waargenomen data.
### 3.8 Inferentie voor correlatie
Wanneer er geen duidelijke verklarende of verklaarde variabele is (bijvoorbeeld bij het onderzoeken van de relatie tussen armlengte en beenlengte), is het geschikter om inferentie te doen op de populatiecorrelatiecoëfficiënt, $\rho$ (rho).
* **Nulhypothese $H_0$: $\rho = 0$**: Er is geen lineair verband tussen $x$ en $y$ in de populatie.
* **Alternatieve hypothese $H_a$: $\rho \neq 0$**: Er is wel een lineair verband.
Als $x$ en $y$ bivariaat normaal verdeeld zijn, is de nulhypothese $\rho = 0$ equivalent met de onafhankelijkheid van $x$ en $y$. De significantietoets voor $\rho$ is gebaseerd op een 1-steekproef t-test:
$$ t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}} $$
waarbij $r$ de steekproefcorrelatiecoëfficiënt is en $n$ de steekproefgrootte. De kritieke waarden worden verkregen uit de t-verdeling met $n-2$ vrijheidsgraden.
Als $x$ wel de verklarende variabele is, is de toets $H_0: \rho = 0$ equivalent met $H_0: \beta_1 = 0$.
### 3.9 Rapportage van regressie-analyse
Volgens APA-richtlijnen worden regressieresultaten bij voorkeur in tabelvorm gerapporteerd. In de tekst kunnen de volgende elementen worden opgenomen:
* De gestandaardiseerde helling ($\beta_1$).
* De resultaten van de t-toets voor de helling, inclusief het significantieniveau en het aantal vrijheidsgraden ($t(df) = \text{waarde}, p < \text{niveau}$).
* Het percentage verklaarde variantie ($R^2$) en de resultaten van de F-toets ($F(df_{model}, df_{error}) = \text{waarde}, p < \text{niveau}$).
> **Voorbeeld rapportage:** Levenstevredenheid gemeten ahv een Likertschaal bestaande uit items dewelke peilen naar tevredenheid ivm diverse levensdomeinen voorspelt op significante wijze de globale levenstevredenheid, $\beta_1$ =0,111, $t$(230) = 12,590, $p$ < .001. Deze Likertschaal verklaart tevens een significant deel van de variantie in Globale levenstevredenheid, $R^2$=0,408, $F$(1,230)= 158,499 , $p$ < .001.
---
# Variantie-analyse (ANOVA) en determinatiecoëfficiënt
Dit onderwerp introduceert variantie-analyse (ANOVA) als een methode om de totale variantie in de verklaarde variabele op te splitsen in verklaarde en onverklaarde delen, en bespreekt de determinatiecoëfficiënt ($R^2$) en de F-toets.
## 4. Variantie-analyse (ANOVA) en determinatiecoëfficiënt
### 4.1 Basisprincipes van variantie-analyse
Variantie-analyse (ANOVA) is een statistische methode die gebruikt wordt om de totale variantie in de verklaarde variabele ($y$) op te splitsen in verschillende componenten. In de context van lineaire regressie is het hoofddoel om te bepalen in hoeverre de variantie in $y$ verklaard kan worden door de variantie in de verklarende variabele ($x$). De totale variantie wordt hierbij opgesplitst in:
* **Verklaarde variantie:** Het deel van de variantie in $y$ dat wordt toegeschreven aan het regressiemodel (de lineaire relatie met $x$).
* **Onverklaarde variantie:** Het deel van de variantie in $y$ dat niet door het model verklaard wordt, ook wel de residuele variantie of error genoemd.
Het statistische model voor lineaire regressie kan worden uitgedrukt als:
$$y_i = (\beta_0 + \beta_1 x_i) + \epsilon_i$$
waarbij:
* $y_i$ de waargenomen waarde van de verklaarde variabele is voor de $i$-de observatie.
* $\beta_0$ het intercept van de populatieregressielijn is.
* $\beta_1$ de helling (richtingscoëfficiënt) van de populatieregressielijn is, wat de verwachte verandering in $y$ vertegenwoordigt voor een eenheidsverandering in $x$.
* $x_i$ de waarde van de verklarende variabele is voor de $i$-de observatie.
* $\epsilon_i$ de errorterm is, die de afwijking van de $i$-de observatie van de populatieregressielijn weergeeft. Deze wordt verondersteld onafhankelijk en normaal verdeeld te zijn met gemiddelde 0 en standaardafwijking $\sigma$, dus $\epsilon_i \sim N(0, \sigma)$.
Voor de schatting van de regressieparameters worden de kleinste-kwadratenmethode gebruikt, wat leidt tot de regressielijn $\hat{y}_i = b_0 + b_1 x_i$, waar $b_0$ en $b_1$ de schatters zijn van $\beta_0$ en $\beta_1$. De residuen $e_i = y_i - \hat{y}_i$ worden gebruikt om $\sigma$ te schatten.
#### 4.1.1 Opsplitsen van de totale variantie
De totale afwijking van de waargenomen waarden $y_i$ ten opzichte van het gemiddelde $\bar{y}$ kan worden opgesplitst in twee delen: de afwijking van de regressielijn ($\hat{y}_i$) ten opzichte van het gemiddelde, en de afwijking van de waargenomen waarde ($y_i$) ten opzichte van de regressielijn. Wiskundig wordt dit uitgedrukt met kwadratensommen:
* **Totale kwadratensom ($SST$ - Sum of Squares Total):** Dit meet de totale variantie in $y$. Het is de som van de gekwadrateerde afwijkingen van de waargenomen waarden $y_i$ ten opzichte van hun gemiddelde $\bar{y}$.
$$SST = \sum_{i=1}^{n} (y_i - \bar{y})^2$$
* **Verklaarde kwadratensom ($SSR$ of $SSM$ - Sum of Squares Regression/Model):** Dit meet de variantie in $y$ die verklaard wordt door het regressiemodel. Het is de som van de gekwadrateerde afwijkingen van de voorspelde waarden $\hat{y}_i$ ten opzichte van het gemiddelde $\bar{y}$.
$$SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2$$
* **Onverklaarde kwadratensom ($SSE$ - Sum of Squares Error):** Dit meet de variantie in $y$ die niet verklaard wordt door het regressiemodel. Het is de som van de gekwadrateerde residuen $e_i$.
$$SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2$$
De relatie tussen deze kwadratensommen is:
$$SST = SSR + SSE$$
#### 4.1.2 Vrijheidsgraden
Bij het berekenen van gemiddelde kwadratensommen worden vrijheidsgraden gebruikt.
* **Vrijheidsgraden totaal ($df_{T}$):** Voor $SST$ is dit $n-1$, waarbij $n$ het aantal observaties is.
* **Vrijheidsgraden model ($df_{M}$):** Voor $SSR$ is dit $k$, waarbij $k$ het aantal verklarende variabelen in het model is. Voor enkelvoudige lineaire regressie is $k=1$.
* **Vrijheidsgraden error ($df_{E}$):** Voor $SSE$ is dit $n-k-1$. Voor enkelvoudige lineaire regressie is dit $n-1-1 = n-2$.
#### 4.1.3 Gemiddelde kwadratensommen
Gemiddelde kwadratensommen (Mean Squares, $MS$) worden berekend door de kwadratensommen te delen door hun respectievelijke vrijheidsgraden. Ze dienen als schattingen van de varianties.
* **Gemiddelde kwadratensom model ($MSM$):**
$$MSM = \frac{SSR}{df_M} = \frac{SSR}{k}$$
Voor enkelvoudige lineaire regressie: $MSM = \frac{SSR}{1} = SSR$.
* **Gemiddelde kwadratensom error ($MSE$):**
$$MSE = \frac{SSE}{df_E} = \frac{SSE}{n-k-1}$$
Dit is een zuivere schatter voor $\sigma^2$, de variantie van de errortermen. Voor enkelvoudige lineaire regressie: $MSE = \frac{SSE}{n-2}$.
> **Tip:** De $MSE$ schat de variantie van de populatie rond de regressielijn. Een kleinere $MSE$ indiceert dat de waarnemingen dichter bij de regressielijn liggen.
### 4.2 De determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, vaak aangeduid als $R^2$ (in enkelvoudige regressie) of $r^2$ (als maat voor lineaire associatie), is een belangrijke maatstaf die aangeeft welk proportie van de totale variantie in de verklaarde variabele ($y$) verklaard wordt door het regressiemodel (of de verklarende variabele $x$).
De formule voor $R^2$ is:
$$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$
Met andere woorden, $R^2$ vertegenwoordigt de proportionele reductie in de fout bij het voorspellen van $y$ door gebruik te maken van de regressierechte in plaats van alleen het gemiddelde van $y$.
* $R^2$ ligt altijd tussen 0 en 1.
* $R^2 = 0$ betekent dat het model geen enkele variantie in $y$ verklaart. De regressielijn is dan niet beter dan het gemiddelde van $y$.
* $R^2 = 1$ betekent dat het model alle variantie in $y$ verklaart. Alle waarnemingen liggen perfect op de regressielijn.
> **Tip:** $R^2$ vertelt ons *hoeveel* variantie wordt verklaard, maar niet of het model *significant* is of dat de verklaring *zinvol* is in de praktijk. Dit vereist een significantietoets.
#### 4.2.1 Gestandaardiseerde helling
De gestandaardiseerde helling, vaak aangeduid als $\beta_1$ (in plaats van $b_1$ voor de ongestandaardiseerde helling), kan worden berekend door zowel de verklaarde als de verklarrende variabele te standaardiseren (gemiddelde 0, standaardafwijking 1) alvorens de regressie uit te voeren. De gestandaardiseerde helling is gelijk aan de correlatiecoëfficiënt $r$ tussen $x$ en $y$, en is gelijk aan $\sqrt{R^2}$ (voor enkelvoudige regressie) als de correlatie positief is. De gestandaardiseerde helling vertegenwoordigt de verwachte verandering in standaarddeviaties van $y$ voor elke standaarddeviatieverandering in $x$.
### 4.3 De F-toets voor regressie
De F-toets, gebruikt binnen de variantie-analyse, is de primaire toets om de significantie van het gehele regressiemodel te evalueren.
* **Nulhypothese ($H_0$):** De regressiemodel verklaart geen variantie in $y$. In het geval van enkelvoudige lineaire regressie is dit equivalent aan het stellen dat de helling $\beta_1$ nul is: $H_0: \beta_1 = 0$. Dit impliceert dat er geen lineair verband is tussen $x$ en $y$ in de populatie.
* **Alternatieve hypothese ($H_a$):** Het regressiemodel verklaart een significante proportie van de variantie in $y$. Voor enkelvoudige lineaire regressie is dit $H_a: \beta_1 \neq 0$. Dit betekent dat er wel een lineair verband bestaat tussen $x$ en $y$ in de populatie.
De toetsgrootheid voor de F-toets is de verhouding van de gemiddelde kwadratensommen:
$$F = \frac{MSM}{MSE}$$
Als de nulhypothese waar is ($\beta_1=0$), dan zouden zowel $MSM$ als $MSE$ schattingen moeten zijn van $\sigma^2$, en de $F$-waarde zou rond 1 moeten liggen. Als de alternatieve hypothese waar is ($\beta_1 \neq 0$), dan is $MSM$ naar verwachting groter dan $MSE$, wat leidt tot een $F$-waarde groter dan 1.
De F-toets volgt, onder de nulhypothese, een $F$-verdeling met $df_M$ vrijheidsgraden in de teller en $df_E$ vrijheidsgraden in de noemer. Voor enkelvoudige lineaire regressie is dit een $F(1, n-2)$ verdeling. De overschrijdingskans (p-waarde) is de kans op het observeren van een $F$-waarde die minstens zo extreem is als de berekende waarde, gegeven dat $H_0$ waar is.
> **Tip:** Een kleine p-waarde (typisch < 0,05) voor de F-toets leidt tot verwerping van de nulhypothese, wat suggereert dat het regressiemodel significant is en een aanzienlijk deel van de variantie in $y$ verklaart.
#### 4.3.1 Relatie tussen F-toets en t-toets voor de helling
Voor enkelvoudige lineaire regressie is de F-toets voor de significantie van het model equivalent aan de tweezijdige t-toets voor de significantie van de helling $\beta_1$. Specifiek geldt dat $F = t^2$, en de p-waarden voor beide toetsen zijn identiek.
* De t-toets toetst $H_0: \beta_1 = 0$ tegen $H_a: \beta_1 \neq 0$. De toetsgrootheid is $t = \frac{b_1 - 0}{SE(b_1)}$, waarbij $SE(b_1)$ de standaardfout van de schatter $b_1$ is. Deze $t$-statistiek volgt een $t$-verdeling met $n-2$ vrijheidsgraden.
* De F-toets toetst $H_0: \beta_1 = 0$ tegen $H_a: \beta_1 \neq 0$ met de toetsgrootheid $F = \frac{MSM}{MSE}$.
Beide toetsen leiden tot dezelfde conclusie over de significantie van het lineaire verband. De t-toets is vaak directer voor het interpreteren van de richting en significantie van de helling, terwijl de F-toets makkelijker generaliseert naar regressiemodellen met meerdere verklarende variabelen.
### 4.4 ANOVA-tabel
De resultaten van een variantie-analyse worden vaak samengevat in een ANOVA-tabel. Deze tabel presenteert de kwadratensommen, vrijheidsgraden, gemiddelde kwadratensommen, de F-statistiek en de bijbehorende p-waarde.
| Bron van Variatie | Kwadratensom ($SS$) | Vrijheidsgraden ($df$) | Gemiddelde Kwadratensom ($MS$) | F-statistiek | p-waarde |
| :----------------- | :------------------ | :--------------------- | :---------------------------- | :----------- | :------- |
| Model (Regressie) | $SSR$ | $k$ | $MSM = SSR/k$ | $F = MSM/MSE$ | $P(F > F_{berekend})$ |
| Error (Residu) | $SSE$ | $n-k-1$ | $MSE = SSE/(n-k-1)$ | | |
| Totaal | $SST$ | $n-1$ | | | |
Voor enkelvoudige lineaire regressie ($k=1$):
| Bron van Variatie | Kwadratensom ($SS$) | Vrijheidsgraden ($df$) | Gemiddelde Kwadratensom ($MS$) | F-statistiek | p-waarde |
| :----------------- | :------------------ | :--------------------- | :---------------------------- | :----------- | :------- |
| Regressie | $SSR$ | 1 | $SSR$ | $F = SSR/MSE$ | $P(F > F_{berekend})$ |
| Error | $SSE$ | $n-2$ | $MSE = SSE/(n-2)$ | | |
| Totaal | $SST$ | $n-1$ | | | |
> **Voorbeeld:** Stel dat voor een dataset met $n=30$ observaties, de ANOVA-tabel er als volgt uitziet:
>
> | Bron van Variatie | Kwadratensom ($SS$) | Vrijheidsgraden ($df$) | Gemiddelde Kwadratensom ($MS$) | F-statistiek | p-waarde |
> | :----------------- | :------------------ | :--------------------- | :---------------------------- | :----------- | :------- |
> | Regressie | 150 | 1 | 150 | 75 | < 0.001 |
> | Error | 56 | 28 | 2 | | |
> | Totaal | 206 | 29 | | | |
>
> Hier is $R^2 = SSR/SST = 150/206 \approx 0.728$, wat betekent dat ongeveer 72.8% van de variantie in $y$ verklaard wordt door $x$. De F-statistiek is 75, en met een p-waarde < 0.001 is het regressiemodel significant.
### 4.5 Rapporteren van regressie-analyse resultaten
Bij het rapporteren van de resultaten van een regressie-analyse (volgens APA-richtlijnen of vergelijkbaar) worden de volgende elementen doorgaans vermeld:
* **De regressiecoëfficiënten:** De geschatte intercept ($b_0$) en helling ($b_1$), inclusief hun standaardfouten en t-statistieken.
* `Regressie-analyse liet zien dat de score op de Likertschaal de globale levenstevredenheid significant voorspelde, $b_1 = 0.111$, $SE = 0.009$, $t(230) = 12.590$, $p < .001$.`
* **De determinatiecoëfficiënt ($R^2$):** Het percentage verklaarde variantie.
* `Deze Likertschaal verklaarde $R^2 = 0.408$ (of 40.8%) van de variantie in globale levenstevredenheid.`
* **De significantie van het model (F-toets):** De F-statistiek, vrijheidsgraden en p-waarde.
* `Het model als geheel was significant, $F(1,230) = 158.499$, $p < .001$.`
De combinatie van de t-toets voor de helling en de F-toets voor het model, samen met $R^2$, geeft een volledig beeld van de significantie en de kracht van het regressiemodel.
### 4.6 Inferentie voor correlatie
Wanneer er geen duidelijke verklarende en verklaarde variabele is (bijvoorbeeld bij het bestuderen van de relatie tussen armlengte en beendlengte), kan inferentie op de populatiecorrelatiecoëfficiënt ($\rho$, rho) nuttiger zijn dan regressie-inferentie.
* **Nulhypothese ($H_0$):** Er is geen lineair verband tussen de twee variabelen in de populatie: $H_0: \rho = 0$.
* **Alternatieve hypothese ($H_a$):** Er is wel een lineair verband: $H_a: \rho \neq 0$.
Als de variabelen bivariaat normaal verdeeld zijn, is de toets voor $\rho=0$ equivalent aan het toetsen of de variabelen onafhankelijk zijn. De toetsstatistiek is een t-statistiek die berekend wordt uit de steekproefcorrelatiecoëfficiënt ($r$) en de steekproefgrootte ($n$):
$$t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}}$$
Deze $t$-statistiek volgt een $t$-verdeling met $n-2$ vrijheidsgraden. De p-waarde wordt berekend op basis van deze verdeling. De F-toets in ANOVA voor enkelvoudige regressie is equivalent aan de tweezijdige t-toets voor $\rho=0$ wanneer $x$ als verklarende variabele wordt beschouwd.
---
# Inferentie voor correlatie en rapportage
Dit deel behandelt de toetsing van de nulhypothese van geen lineair verband met behulp van de correlatiecoëfficiënt, de equivalentie van deze toets met de t-toets voor de helling, en richtlijnen voor het rapporteren van regressieanalyseresultaten.
### 5.1 Veronderstellingen voor regressie-inferentie
Voor het uitvoeren van inferentie over regressie zijn een aantal veronderstellingen van belang:
* **Normaliteit van de residuen:** Voor elke mogelijke waarde van de verklarende variabele $x$, liggen de waarnemingen van de verklaarde variabele $y$ verspreid rond de populatie-regressierechte. Deze verdeling wordt verondersteld normaal te zijn.
* **Gelijke standaardafwijking (homoscedasticiteit):** Alle normaalverdelingen van $y$ voor verschillende waarden van $x$ hebben dezelfde standaardafwijking $\sigma$. Dit betekent dat de variabiliteit van $y$ constant is voor alle waarden van $x$. De waarde van $\sigma$ bepaalt of de waarnemingen gemiddeld dicht bij (kleine $\sigma$) of ver van (grote $\sigma$) de regressierechte liggen.
* **Lineariteit:** Het gemiddelde van de responsen $\mu_y$ ligt voor elke mogelijke waarde van de verklarende variabele $x$ op de populatie-regressierechte, beschreven door de vergelijking $\mu_y = \beta_0 + \beta_1 x$. De parameters $\beta_0$ (intercept) en $\beta_1$ (helling) zijn onbekende populatieparameters.
* **Onafhankelijkheid:** Opeenvolgende responsen $y$ worden als onderling onafhankelijk beschouwd.
#### 5.1.1 Het enkelvoudige lineaire regressiemodel
Het statistische model voor enkelvoudige lineaire regressie stelt:
$$y_i = \beta_0 + \beta_1 x_i + \epsilon_i$$
waarbij:
* $y_i$ de waargenomen waarde van de verklaarde variabele is voor observatie $i$.
* $x_i$ de waarde van de verklarende variabele is voor observatie $i$.
* $\beta_0$ het intercept is (de verwachte waarde van $y$ als $x = 0$).
* $\beta_1$ de helling is (de verwachte verandering in $y$ voor een eenheidsverandering in $x$).
* $\epsilon_i$ de foutterm of afwijking is voor observatie $i$, verondersteld onafhankelijk en normaal verdeeld te zijn met een gemiddelde van 0 en een standaardafwijking $\sigma$ ($ \epsilon_i \sim N(0, \sigma) $).
De geschatte regressieparameters, $b_0$ en $b_1$, zijn zuivere schatters van respectievelijk $\beta_0$ en $\beta_1$. De standaardfout van deze schatters kan worden berekend op basis van de data. De waarde $\sigma$ wordt geschat met behulp van de residuen, waarbij de vrijheidsgraden gelijk zijn aan $n - 2$ (aantal observaties min het aantal geschatte parameters).
#### 5.1.2 Analyse van de residuen
Analyse van de residuen ($e_i$) is cruciaal om de aannames van het regressiemodel te controleren. Een plot van de residuen tegen de voorspelde waarden of tegen de verklarende variabele helpt bij het identificeren van patronen die duiden op schendingen van de aannames, zoals heteroscedasticiteit (niet-gelijke varianties) of niet-lineariteit. Een normaal-kwantieldiagram (Q-Q plot) van de gestandaardiseerde residuen wordt gebruikt om de normaliteitsaanname te beoordelen.
### 5.2 Betrouwbaarheidsintervallen en significantietoetsen voor regressieparameters
#### 5.2.1 Standaardfout op de geschatte regressieparameters
De standaardfout van de schatting van de helling ($\beta_1$) en het intercept ($\beta_0$) kwantificeert de onzekerheid in deze schattingen.
#### 5.2.2 Betrouwbaarheidsinterval voor $\beta_1$ en $\beta_0$
Een betrouwbaarheidsinterval voor een regressieparameter (i=0 of 1) wordt berekend met de algemene vorm:
$$ \text{Schatter} \pm t^* \cdot (\text{SD van de schatter}) $$
waarbij $t^*$ de kritische t-waarde is uit de t-verdeling met $n-2$ vrijheidsgraden, corresponderend met het gewenste betrouwbaarheidsniveau.
#### 5.2.3 Significantietoets voor $H_0: \beta_1 = 0$
De belangrijkste significantietoets in regressie-analyse is gericht op de helling:
* **Nulhypothese ($H_0$)**: $\beta_1 = 0$. Dit stelt dat er geen lineair verband is tussen $x$ en $y$ in de populatie.
* **Alternatieve hypothese ($H_a$)**: $\beta_1 \neq 0$. Dit stelt dat er wel een lineair verband is.
De toetsingsgrootheid is de t-statistiek:
$$ t = \frac{b_1 - \beta_{1,0}}{\text{SE}(b_1)} $$
waar $\beta_{1,0}$ de waarde onder de nulhypothese is (meestal 0). De overschrijdingskans (p-waarde) wordt verkregen uit de t-verdeling met $n-2$ vrijheidsgraden. Een significant resultaat (kleine p-waarde) leidt tot verwerping van $H_0$, wat suggereert dat er een lineair verband is tussen $x$ en $y$.
Het toetsen van $H_0: \beta_0 = 0$ is doorgaans minder informatief, tenzij de interpretatie van $y$ wanneer $x=0$ relevant is.
#### 5.2.4 Betrouwbaarheidsinterval voor de voorspelling van $y$
Er zijn twee soorten betrouwbaarheidsintervallen met betrekking tot voorspellingen:
1. **Betrouwbaarheidsinterval voor de verwachte waarde van $y$ ($\mu_y$) voor een specifieke $x = x^*$:** Dit interval geeft een reeks waarden waarbinnen de gemiddelde $y$-waarde voor een gegeven $x^*$ waarschijnlijk ligt. De breedte van dit interval hangt af van $x^*$ in relatie tot het gemiddelde van de $x$-waarden.
$$ \text{Voorspelling van } \mu_y \text{ voor } x = x^* \pm t^* \cdot \text{SE}(\hat{\mu}_y) $$
De standaardfout van de voorspelde gemiddelde waarde, $\text{SE}(\hat{\mu}_y)$, neemt toe naarmate $x^*$ verder van het gemiddelde van $x$ ligt.
2. **Voorspellingsinterval voor een individuele waarneming van $y$ voor een specifieke $x = x^*$:** Dit interval geeft een reeks waarden waarbinnen een individuele $y$-waarde voor een gegeven $x^*$ waarschijnlijk zal vallen. Dit interval is altijd breder dan het betrouwbaarheidsinterval voor het gemiddelde, omdat het ook de individuele variabiliteit (de $\epsilon_i$) meeneemt.
### 5.3 Variantie-analyse voor regressie (ANOVA)
Variantie-analyse (ANOVA) wordt gebruikt om de totale variantie in de verklaarde variabele $y$ op te splitsen in componenten die verklaard worden door het regressiemodel en componenten die onverklaard blijven (de residuen).
* **Totale kwadratensom ($SST$)**: De totale variantie in $y$ rond het gemiddelde van $y$.
* **Kwadratensom verklaard door het model ($SSM$ of $SSR$)**: De variantie in $y$ die wordt verklaard door de regressierechte.
* **Kwadratensom van de fout ($SSE$ of $SSR$)**: De onverklaarde variantie in $y$ (de residuen).
$$ SST = SSM + SSE $$
De determinatiecoëfficiënt ($R^2$) is de proportie van de variantie in $y$ die wordt verklaard door de variantie in $x$.
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
#### 5.3.1 De F-toets in ANOVA
De F-toets in ANOVA toetst de nulhypothese $H_0: \beta_1 = 0$ tegen de alternatieve hypothese $H_a: \beta_1 \neq 0$. De toetsingsgrootheid is de verhouding van de gemiddelde kwadratensommen:
$$ F = \frac{MSM}{MSE} $$
waarbij $MSM = \frac{SSM}{\text{DFM}}$ en $MSE = \frac{SSE}{\text{DFE}}$. DFM is het aantal vrijheidsgraden voor het model (gelijk aan het aantal predictoren, 1 in enkelvoudige regressie), en DFE is het aantal vrijheidsgraden voor de error ($n-2$). Onder $H_0$ volgt $F$ een $F$-verdeling met $(1, n-2)$ vrijheidsgraden. ANOVA en de twee-zijdige t-toets voor $H_0: \beta_1 = 0$ geven dezelfde p-waarde. Het is bekend dat $F = t^2$.
> **Tip:** Hoewel ANOVA voor meervoudige regressie essentiëler is, biedt het voor enkelvoudige regressie een alternatieve manier om de significantie van het lineaire verband te toetsen en de verklaarde variantie te kwantificeren.
### 5.4 Inferentie voor correlatie
Om de nulhypothese van geen lineair verband tussen twee variabelen te toetsen, kan ook gebruik worden gemaakt van de correlatiecoëfficiënt ($\rho$).
* Als er een duidelijke verklarende variabele ($x$) en een verklaarde variabele ($y$) is, is de toets op $\rho=0$ equivalent aan de toets op $\beta_1 = 0$.
* Als er geen duidelijke causale richting is (bv. armlengte vs. beenlengte), verdient de toets op de correlatiecoëfficiënt de voorkeur.
Als $x$ en $y$ bivariaat normaal verdeeld zijn, is de nulhypothese $H_0: \rho = 0$ equivalent aan de stelling dat $x$ en $y$ onafhankelijk zijn. De significantietoets voor $\rho$ is gebaseerd op de 1-steekproef t-test:
$$ t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}} $$
waar $r$ de steekproefcorrelatiecoëfficiënt is en $n$ de steekproefgrootte. De p-waarde wordt berekend uit de t-verdeling met $n-2$ vrijheidsgraden.
> **Tip:** De toets op correlatie gaat na of er *enig* verband is tussen $x$ en $y$ onder de aanname van bivariaat normale verdelingen, wat verder gaat dan enkel het lineaire verband dat de regressietoets specificeert.
### 5.5 Rapporteren van regressieanalyseresultaten (APA-stijl)
Resultaten van regressieanalyses worden bij voorkeur gerapporteerd in tabelvorm. In de tekst worden de belangrijkste bevindingen samengevat:
* **Gestandaardiseerde helling ($\beta_1$):** Indien relevant, om effectgroottes te vergelijken.
* **t-toetsresultaten:** Vermeld de t-statistiek, het aantal vrijheidsgraden ($n-k-1$, waarbij $k$ het aantal predictoren is), en de p-waarde.
* **Percentage verklaarde variantie ($R^2$):** Samen met de resultaten van de F-toets voor de significantie van de regressie.
Een voorbeeld van rapportage in tekst:
"De score op de Likertschaal voorspelt op significante wijze de globale levenstevredenheid, $\beta_1 = 0.111$, $t(230) = 12.590$, $p < 0.001$. Deze Likertschaal verklaart tevens een significant deel van de variantie in globale levenstevredenheid, $R^2 = 0.408$, $F(1, 230) = 158.499$, $p < 0.001$."
> **Tip:** Gebruik bij het rapporteren van p-waarden de exacte waarde wanneer deze groter is dan $0.001$. Wanneer de p-waarde kleiner is dan $0.001$, vermeld dan $p < 0.001$. Vermijd het gebruik van het dollarteken ($) voor valuta; gebruik in plaats daarvan de valuta-naam of een standaardafkorting (bv. "dollars", "USD", "euros", "EUR").
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Regressierechte | Een rechte lijn die de relatie tussen een verklarende variabele (x) en een verklaarde variabele (y) beschrijft, berekend met de kleinste-kwadratenmethode om de residuen te minimaliseren. |
| Inferentie | Het proces van het trekken van conclusies over een populatie op basis van gegevens uit een steekproef, inclusief schattingen en hypothesen. |
| Enkelvoudige lineaire regressie | Een statistische methode die de lineaire relatie tussen één verklarende variabele (x) en één verklaarde variabele (y) modelleert. |
| Helling (β1) | De parameter in een lineair regressiemodel die de verwachte verandering in de verklaarde variabele (y) vertegenwoordigt voor elke eenheidstoename in de verklarende variabele (x). |
| Intercept (β0) | De parameter in een lineair regressiemodel die de verwachte waarde van de verklaarde variabele (y) vertegenwoordigt wanneer de verklarende variabele (x) gelijk is aan nul. |
| Spreidingsdiagram (scatterplot) | Een grafische weergave van de relatie tussen twee variabelen, waarbij elk datapunt wordt weergegeven als een punt in een tweedimensionaal vlak. |
| Betrouwbaarheidsinterval | Een reeks waarden die met een bepaalde mate van betrouwbaarheid (bijvoorbeeld 95%) de ware populatiewaarde van een parameter bevat. |
| Significantietoets | Een statistische procedure om te bepalen of er voldoende bewijs is in een steekproef om een nulhypothese over een populatieparameter te verwerpen. |
| Residuen | Het verschil tussen de waargenomen waarde van de verklaarde variabele (y) en de voorspelde waarde van y volgens het regressiemodel. Ze vertegenwoordigen de onverklaarde variatie. |
| Standaarddeviatie van de residuen (σ) | Een maat voor de spreiding van de waargenomen waarden rond de regressierechte van de populatie; het geeft de typische grootte van de residuen aan. |
| Vrijheidsgraden | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische berekening. Bij regressieanalyse worden deze vaak bepaald door de steekproefgrootte en het aantal geschatte parameters. |
| Variantie-analyse (ANOVA) | Een statistische techniek die wordt gebruikt om de variantie in een afhankelijke variabele te analyseren door deze op te splitsen in delen die worden toegeschreven aan verschillende onafhankelijke variabelen of factoren. |
| Determinatiecoëfficiënt (R²) | Een statistische maat die aangeeft welk deel van de variantie in de verklaarde variabele kan worden verklaard door de verklarende variabele(n) in het model. |
| Correlatiecoëfficiënt (ρ) | Een statistische maat die de sterkte en richting van de lineaire relatie tussen twee variabelen kwantificeert, variërend van -1 (perfecte negatieve correlatie) tot +1 (perfecte positieve correlatie). |
Cover
Set 7 H11 Meervoudige Regressie.pptx
Summary
# Inleiding tot regressie-analyse
Dit gedeelte introduceert de concepten van enkelvoudige en meervoudige lineaire regressie, inclusief de statistische modellen en de onderliggende ideeën voor het voorspellen van variabelen.
## 1. Het statistisch model voor regressie
### 1.1 Enkelvoudige lineaire regressie
Bij enkelvoudige lineaire regressie gaan we ervan uit dat voor elke vaste waarde van de onafhankelijke variabele $x$, de afhankelijke variabele $y$ normaal verdeeld is rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$. Dit model kan worden uitgedrukt als:
$$y_i = \beta_0 + \beta_1 x_i + \epsilon_i$$
waarbij:
- $y_i$ de geobserveerde waarde van de afhankelijke variabele is voor observatie $i$.
- $x_i$ de waarde van de onafhankelijke variabele is voor observatie $i$.
- $\beta_0$ de intercept is, wat de verwachte waarde van $y$ is wanneer $x$ nul is.
- $\beta_1$ de helling is, wat aangeeft hoeveel $y$ verandert voor een eenheidsverandering in $x$.
- $\epsilon_i$ de foutterm is voor observatie $i$, die verondersteld wordt normaal verdeeld te zijn met een gemiddelde van nul en een standaardafwijking $\sigma$ ($\epsilon_i \sim N(0, \sigma)$).
### 1.2 Meervoudige lineaire regressie
Meervoudige lineaire regressie breidt het enkelvoudige model uit naar meerdere onafhankelijke variabelen. Hierbij gaat men ervan uit dat voor elke specifieke combinatie van waarden van de onafhankelijke variabelen $x_1, x_2, \ldots, x_p$, de afhankelijke variabele $y$ normaal verdeeld is rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$. Het model wordt dan:
$$y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip} + \epsilon_i$$
waarbij:
- $y_i$ de geobserveerde waarde van de afhankelijke variabele is voor observatie $i$.
- $x_{ij}$ de waarde is van de $j$-de onafhankelijke variabele voor observatie $i$.
- $\beta_0$ de intercept is.
- $\beta_j$ (voor $j = 1, \ldots, p$) de regressiecoëfficiënt is voor de $j$-de onafhankelijke variabele, die aangeeft hoe $y$ verandert wanneer $x_j$ met één eenheid toeneemt, terwijl alle andere onafhankelijke variabelen constant worden gehouden.
- $\epsilon_i$ de foutterm is voor observatie $i$, die verondersteld wordt normaal verdeeld te zijn met een gemiddelde van nul en een standaardafwijking $\sigma$ ($\epsilon_i \sim N(0, \sigma)$).
**Voorbeeld:** Het voorspellen van studiesucces (GPA) op basis van middelbare schoolresultaten in wiskunde, wetenschappen en Engels. Hier is GPA de afhankelijke variabele, en de middelbare schoolcijfers zijn de onafhankelijke variabelen.
### 1.3 De rol van de foutterm en residuen
De foutterm $\epsilon_i$ vertegenwoordigt de variatie in $y$ die niet wordt verklaard door de lineaire relatie met de onafhankelijke variabelen. In de praktijk schatten we de regressiecoëfficiënten ($\beta_0, \beta_1, \ldots, \beta_p$) door de som van de gekwadrateerde residuen te minimaliseren. Een residu ($e_i$) is het verschil tussen de geobserveerde waarde van $y$ en de voorspelde waarde van $y$ op basis van het geschatte model:
$$e_i = y_i - \hat{y}_i$$
waarbij $\hat{y}_i$ de voorspelde waarde van $y$ is. Het doel is om de coëfficiënten zo te bepalen dat $\sum_{i=1}^n e_i^2$ minimaal is.
## 2. Schatten van regressieparameters
### 2.1 Schatten van $\beta$ coëfficiënten
De regressiecoëfficiënten $\beta_0, \beta_1, \ldots, \beta_p$ worden geschat met behulp van de kleinste-kwadratenmethode (Least Squares Estimation). Dit proces wordt meestal uitgevoerd door statistische software, omdat het rekenintensief kan zijn, vooral bij meervoudige regressie. De geschatte coëfficiënten worden aangeduid met $b_0, b_1, \ldots, b_p$.
### 2.2 Schatten van $\sigma^2$
De variantie van de foutterm, $\sigma^2$, die de spreiding van de waarnemingen rond de populatieregressielijn weergeeft, wordt geschat met behulp van de residuen. De geschatte variantie $\hat{\sigma}^2$ wordt berekend als het gemiddelde van de gekwadrateerde residuen gedeeld door de vrijheidsgraden:
$$\hat{\sigma}^2 = \frac{\sum_{i=1}^n e_i^2}{n - (p + 1)}$$
Hier is $n$ het aantal waarnemingen en $p$ het aantal onafhankelijke variabelen. De term $p+1$ vertegenwoordigt het aantal te schatten parameters ($\beta_0, \beta_1, \ldots, \beta_p$).
## 3. Inferentie voor regressieparameters
### 3.1 Betrouwbaarheidsintervallen voor $\beta_i$
Voor elke geschatte regressiecoëfficiënt $b_i$ kunnen betrouwbaarheidsintervallen worden berekend om een reeks plausibele waarden voor de werkelijke populatiecoëfficiënt $\beta_i$ te geven. Een $(1-\alpha) \times 100\%$ betrouwbaarheidsinterval voor $\beta_i$ wordt gegeven door:
$$b_i \pm t_{\alpha/2, n-p-1} \cdot \text{SE}(b_i)$$
waarbij:
- $b_i$ de geschatte regressiecoëfficiënt is.
- $t_{\alpha/2, n-p-1}$ de kritieke waarde is van de t-verdeling met $n-p-1$ vrijheidsgraden, corresponderend met een tweezijdig significantieniveau $\alpha$.
- $\text{SE}(b_i)$ de standaardfout van de geschatte coëfficiënt $b_i$ is.
### 3.2 Hypothesetoetsen voor $\beta_i$
Hypothesetoetsen worden gebruikt om te bepalen of een specifieke onafhankelijke variabele een statistisch significant effect heeft op de afhankelijke variabele. De nulhypothese is vaak dat de coëfficiënt nul is, wat aangeeft dat de variabele geen lineair verband heeft met de afhankelijke variabele, rekening houdend met de andere variabelen in het model.
#### 3.2.1 T-toets
Voor elke individuele coëfficiënt $\beta_i$ wordt een t-toets uitgevoerd. De nulhypothese is $H_0: \beta_i = 0$ tegen de alternatieve hypothese $H_a: \beta_i \neq 0$. De t-toetsingsgrootheid wordt berekend als:
$$t = \frac{b_i - \beta_{i,0}}{\text{SE}(b_i)}$$
waarbij $\beta_{i,0}$ de waarde onder de nulhypothese is (meestal 0). De toetsingsgrootheid volgt een t-verdeling met $n-p-1$ vrijheidsgraden.
**Tip:** Een p-waarde die kleiner is dan het gekozen significantieniveau (bv. 0.05) suggereert dat de nulhypothese verworpen kan worden, wat aangeeft dat de variabele een statistisch significant effect heeft. Het is echter belangrijk om te onthouden dat "statistisch significant" niet noodzakelijk "belangrijk" betekent; de effectgrootte en context zijn cruciaal.
#### 3.2.2 F-toets voor regressie-analyse
De F-toets wordt gebruikt om te evalueren of het volledige regressiemodel als geheel significant is, oftewel of ten minste één van de onafhankelijke variabelen een significant effect heeft op de afhankelijke variabele. De nulhypothese is:
$H_0: \beta_1 = \beta_2 = \ldots = \beta_p = 0$
De alternatieve hypothese is:
$H_a:$ Minstens één $\beta_i \neq 0$ voor $i \in \{1, \ldots, p\}$.
De F-toetsingsgrootheid vergelijkt de variantie verklaard door het model met de resterende variantie. De overschrijdingskans (p-waarde) is de kans dat een F-statistiek, afkomstig uit een F-verdeling met $p$ en $n-p-1$ vrijheidsgraden, groter is dan de berekende toetsingsgrootheid, aangenomen dat de nulhypothese waar is.
**Bij enkelvoudige lineaire regressie:** De F-toets van de ANOVA-tabel is equivalent aan de tweezijdige t-toets voor de nulhypothese $H_0: \beta_1 = 0$.
**Bij meervoudige regressie:** De F-toets toetst de nulhypothese dat *alle* regressiecoëfficiënten (behalve de intercept) nul zijn.
## 4. Determinatiecoëfficiënt ($R^2$)
### 4.1 Interpretatie
De determinatiecoëfficiënt, $R^2$, is een maatstaf voor de proportie van de totale variantie in de afhankelijke variabele ($y$) die wordt verklaard door de set van onafhankelijke variabelen ($x_1, \ldots, x_p$) in het regressiemodel. Het varieert van 0 tot 1.
$$R^2 = \frac{\text{Variantie verklaard door het model}}{\text{Totale variantie in } y}$$
Een $R^2$ van 0.75 betekent bijvoorbeeld dat 75% van de variabiliteit in $y$ kan worden verklaard door de onafhankelijke variabelen in het model. Dit kan ook geïnterpreteerd worden als de proportionele reductie in de voorspellingsfout van $y$ wanneer het regressiemodel wordt gebruikt, vergeleken met het voorspellen van $y$ zonder kennis van de onafhankelijke variabelen (dat wil zeggen, door simpelweg het gemiddelde van $y$ te gebruiken).
**Tip:** Een hoge $R^2$ betekent niet automatisch dat het model goed is. Het model kan nog steeds slechte voorspellingen doen of andere aannames schenden. Het is essentieel om ook de significantie van individuele coëfficiënten, de residuenanalyse en de context van het probleem te overwegen.
### 4.2 Aangepaste $R^2$ (Adjusted $R^2$)
De $R^2$ heeft de neiging toe te nemen naarmate er meer variabelen aan het model worden toegevoegd, zelfs als deze variabelen geen significante bijdrage leveren. Dit kan leiden tot het "overfitten" van het model aan de data, waarbij het model ruis in de data mee modelleert en de voorspellende kracht op nieuwe, ongeziene data afneemt.
De aangepaste $R^2$ corrigeert voor het aantal verklarende variabelen in het model en de steekproefgrootte. Het is vooral nuttig bij het vergelijken van modellen met een verschillend aantal onafhankelijke variabelen. De aangepaste $R^2$ wordt kleiner naarmate er meer variabelen worden toegevoegd die weinig verklarende waarde hebben, en kan zelfs negatief zijn.
$$\text{Aangepaste } R^2 = 1 - \left( \frac{1 - R^2}{1} \right) \left( \frac{n - 1}{n - p - 1} \right)$$
**Voorbeeld:** Bij het voorspellen van studiesucces (GPA) met variabelen als middelbare school resultaten, SAT scores, etc. De aangepaste $R^2$ helpt bepalen welk model, met een verschillend aantal van deze voorspellers, de beste balans biedt tussen verklaringskracht en modelcomplexiteit.
## 5. Onderzoek van residuen en collineariteit
### 5.1 Residuenanalyse
Het onderzoeken van de residuen is cruciaal om de aannames van het lineaire regressiemodel te controleren en potentiële problemen te identificeren. Dit omvat:
- **Residuen versus voorspelde waarden:** Een willekeurig spreidingspatroon suggereert dat de lineaire relatie geschikt is. Patronen zoals een omgekeerde U-vorm of een trechtervorm kunnen wijzen op niet-lineariteit of heteroskedasticiteit (ongelijke variantie van de fouten).
- **Residuen versus verklarende variabelen:** Het plotten van residuen tegenover elke onafhankelijke variabele kan helpen bij het detecteren van niet-lineaire verbanden of variantieproblemen gerelateerd aan specifieke voorspellers.
- **Normaal-kwantiel-diagram (Q-Q plot) van residuen:** Dit plot vergelijkt de verdeling van de residuen met een normale verdeling. Als de punten op of nabij een rechte lijn liggen, is de aanname van normaliteit van de fouten waarschijnlijk voldaan.
**Tip:** Uitschieters (outliers) in de residuen kunnen wijzen op observaties die sterk afwijken van het algemene patroon en die het model kunnen beïnvloeden.
### 5.2 Collineariteit (Multicollineariteit)
Collineariteit treedt op wanneer twee of meer onafhankelijke variabelen in een meervoudig regressiemodel sterk gecorreleerd zijn met elkaar. Dit kan leiden tot instabiele en onbetrouwbare schattingen van de regressiecoëfficiënten.
#### 5.2.1 Diagnose van collineariteit
- **Correlatiematrix:** Een inspectie van de correlaties tussen paren van onafhankelijke variabelen kan een eerste indicatie geven.
- **Tolerantie:** De tolerantie voor een predictor is de proportie van de variantie in die predictor die *niet* kan worden verklaard door de andere predictoren. Een lage tolerantie (dicht bij nul) duidt op hoge collineariteit.
$$ \text{Tolerantie}_j = 1 - R_j^2 $$
waarbij $R_j^2$ de determinatiecoëfficiënt is van een regressie van predictor $j$ op alle andere predictoren.
- **Variance Inflation Factor (VIF):** De VIF is het omgekeerde van de tolerantie.
$$ \text{VIF}_j = \frac{1}{\text{Tolerantie}_j} = \frac{1}{1 - R_j^2} $$
Een VIF groter dan 2 (of soms 4 of 5, afhankelijk van de conventie) duidt op potentiële problemen met multicollineariteit.
**Gevolgen van collineariteit:**
- Grote standaardfouten voor de regressiecoëfficiënten, wat leidt tot minder nauwkeurige schattingen en bredere betrouwbaarheidsintervallen.
- Moeilijkheid om de individuele bijdrage van gecorreleerde predictoren te bepalen.
- Regressiecoëfficiënten kunnen onverwachte tekenen vertonen of significant lijken in de ene analyse en niet in de andere.
**Voorbeeld:** Als 'middelbare school wiskunde' en 'SAT wiskunde' beide in een model worden opgenomen, kunnen ze sterk gecorreleerd zijn. Als hun VIF hoog is, kan het moeilijk zijn om de unieke invloed van elk op het studiesucces te isoleren.
**Tip:** Als er sprake is van significante collineariteit, kunnen oplossingen zijn: het verwijderen van een van de gecorreleerde variabelen, het combineren van variabelen, of het gebruik van technieken zoals principale componenten regressie.
---
# Schatten van regressieparameters en schaalfactor
Dit onderwerp behandelt de methoden voor het schatten van de regressiecoëfficiënten (beta) door het minimaliseren van residuen en het schatten van de spreiding rond de populatie regressievergelijking (sigma).
### 2.1 Het statistische model voor regressie
Het statistische model voor regressie beschrijft hoe een afhankelijke variabele ($y$) varieert rond een populatie regressievergelijking, afhankelijk van een of meerdere onafhankelijke variabelen ($x$).
#### 2.1.1 Enkelvoudige en meervoudige regressie
* **Enkelvoudige regressie:** Voor elke vaste waarde van één onafhankelijke variabele ($x$) varieert de afhankelijke variabele ($y$) normaal rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$.
* **Meervoudige regressie:** Voor elke specifieke verzameling van waarden van meerdere onafhankelijke variabelen $x = (x_1, x_2, \dots, x_p)$ varieert de afhankelijke variabele ($y$) normaal rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$.
Het model kan worden uitgedrukt als:
$$Y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i$$
waarbij:
* $Y_i$ de geobserveerde waarde van de afhankelijke variabele is voor observatie $i$.
* $\beta_0$ de intercept (regressiecoëfficiënt voor de constante term) is.
* $\beta_1, \beta_2, \dots, \beta_p$ de regressiecoëfficiënten zijn voor de onafhankelijke variabelen $x_1, x_2, \dots, x_p$.
* $x_{i1}, x_{i2}, \dots, x_{ip}$ de waarden van de onafhankelijke variabelen zijn voor observatie $i$.
* $\epsilon_i$ de foutterm is voor observatie $i$, die verondersteld wordt te volgen uit een normale verdeling met gemiddelde 0 en standaardafwijking $\sigma$, d.w.z., $\epsilon_i \sim N(0, \sigma^2)$.
De parameters in dit model zijn de regressiecoëfficiënten $\beta_0, \beta_1, \dots, \beta_p$ en de spreidingsparameter $\sigma$.
### 2.2 Schatten van de regressieparameters ($\beta$)
Het primaire doel bij het schatten van de regressieparameters is het bepalen van de waarden $b_0, b_1, b_2, \dots, b_p$ die de totale gekwadrateerde residuen minimaliseren.
* **Residu:** Het residu voor observatie $i$ is het verschil tussen de geobserveerde waarde ($Y_i$) en de voorspelde waarde ($\hat{Y}_i$) uit het regressiemodel: $e_i = Y_i - \hat{Y}_i$.
* **Minimalisatie van residuen:** De regressiecoëfficiënten worden geschat door de som van de gekwadrateerde residuen te minimaliseren:
$$\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - (\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}))^2$$
Dit proces, bekend als Ordinary Least Squares (OLS), levert schattingen op voor de regressiecoëfficiënten, aangeduid als $\hat{\beta}_0, \hat{\beta}_1, \dots, \hat{\beta}_p$. De berekening van deze schattingen wordt doorgaans uitgevoerd met behulp van statistische software.
### 2.3 Schatten van de schaalfactor ($\sigma$)
De schaalfactor $\sigma$ representeert de standaardafwijking van de residuen rond de populatie regressievergelijking. $\sigma^2$ is de variantie van deze residuen.
* **Schatting van de variantie ($\sigma^2$):** De variantie $\sigma^2$ wordt geschat als het gemiddelde van de gekwadrateerde residuen, gedeeld door de vrijheidsgraden. De geschatte variantie wordt aangeduid als $s^2$ of $\hat{\sigma}^2$.
$$s^2 = \frac{\sum_{i=1}^n e_i^2}{n - (p+1)}$$
waarbij:
* $\sum_{i=1}^n e_i^2$ de som van de gekwadrateerde residuen is.
* $n$ het aantal waarnemingen is.
* $p+1$ het aantal te schatten parameters is (de intercept $\beta_0$ plus de $p$ coëfficiënten $\beta_1, \dots, \beta_p$).
De vrijheidsgraden zijn dus $n - (p+1)$. De geschatte standaardafwijking is de wortel uit de geschatte variantie: $s = \sqrt{s^2}$.
### 2.4 Betrouwbaarheidsintervallen en significantietoetsen voor $\beta_i$
Nadat de regressieparameters zijn geschat, kunnen betrouwbaarheidsintervallen en hypothesetoetsen worden uitgevoerd om conclusies te trekken over de populatieparameters.
#### 2.4.1 Betrouwbaarheidsinterval voor $\beta_i$
Een betrouwbaarheidsinterval voor een regressiecoëfficiënt $\beta_i$ geeft een bereik van waarden waarbinnen de populatiecoëfficiënt waarschijnlijk ligt, met een bepaald betrouwbaarheidsniveau.
* Het interval wordt berekend als:
$$\hat{\beta}_i \pm t_{\alpha/2, n-p-1} \cdot SE(\hat{\beta}_i)$$
waarbij:
* $\hat{\beta}_i$ de geschatte regressiecoëfficiënt is.
* $t_{\alpha/2, n-p-1}$ de kritieke t-waarde is uit de t-verdeling met $n-p-1$ vrijheidsgraden voor een significantieniveau $\alpha$.
* $SE(\hat{\beta}_i)$ de standaardfout van de geschatte regressiecoëfficiënt is.
#### 2.4.2 Hypothesetoetsen voor $\beta_i$
Hypothesetoetsen worden gebruikt om te bepalen of een regressiecoëfficiënt significant verschilt van een specifieke waarde, meestal nul.
* **Nulhypothese ($H_0$):** Vaak wordt getest of $\beta_i = 0$, wat impliceert dat de onafhankelijke variabele $x_i$ geen lineair verband heeft met $y$, gegeven de andere variabelen in het model.
* **Alternatieve hypothese ($H_a$):** $\beta_i \neq 0$ (tweezijdige toets).
* **t-toetsingsgrootheid:** De toetsingsgrootheid volgt een t-verdeling.
$$t = \frac{\hat{\beta}_i - \beta_{i,0}}{SE(\hat{\beta}_i)}$$
waarbij $\beta_{i,0}$ de waarde onder de nulhypothese is (meestal 0). De stochastische variabele $T$ volgt een $t$-verdeling met $n-p-1$ vrijheidsgraden.
### 2.5 F-toets voor regressie-analyse
De F-toets wordt gebruikt om de algehele significantie van het regressiemodel te evalueren.
* **Nulhypothese ($H_0$):** $\beta_1 = \beta_2 = \dots = \beta_p = 0$. Dit betekent dat geen van de onafhankelijke variabelen in het model een lineair verband heeft met de afhankelijke variabele.
* **Alternatieve hypothese ($H_a$):** Minstens één $\beta_i \neq 0$ (voor $i=1, \dots, p$). Dit betekent dat ten minste één van de onafhankelijke variabelen significant bijdraagt aan het verklaren van de afhankelijke variabele.
* **Toetsingsgrootheid:** De toetsingsgrootheid volgt een F-verdeling met $p$ en $n-p-1$ vrijheidsgraden. De overschrijdingskans wordt bepaald door de kans te berekenen dat een stochastische variabele met een F-verdeling groter is dan de berekende toetsingsgrootheid, als $H_0$ waar is.
De F-toets is gerelateerd aan de ANOVA-tabel. Bij enkelvoudige lineaire regressie is de F-toets equivalent aan de tweezijdige t-toets voor $H_0: \beta_1=0$. Bij meervoudige regressie toetst de F-toets de nulhypothese dat alle regressiecoëfficiënten (behalve de intercept) gelijk zijn aan nul.
### 2.6 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, is een maat voor de proportie van de variantie in de afhankelijke variabele ($y$) die wordt verklaard door de onafhankelijke variabelen ($x_1, \dots, x_p$) in het regressiemodel.
* **Interpretatie:** $R^2$ kan worden geïnterpreteerd als de proportionele reductie van de fout bij de voorspelling van $y$ met behulp van de regressievergelijking, vergeleken met de fout bij het voorspellen van $y$ zonder kennis van de regressievergelijking (d.w.z., alleen het gemiddelde van $y$ gebruiken).
$$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$
waarbij:
* $SSR$ (Sum of Squares Regression) de verklaarde som van kwadraten is.
* $SST$ (Total Sum of Squares) de totale som van kwadraten is.
* $SSE$ (Sum of Squared Errors) de som van de gekwadrateerde residuen is.
### 2.7 Aangepaste (Adjusted) $R^2$
De $R^2$ wordt beïnvloed door het aantal verklarende variabelen in het model in verhouding tot de steekproefgrootte. Een model met meer variabelen zal doorgaans een hogere $R^2$ hebben, zelfs als de extra variabelen geen significante bijdrage leveren. Dit kan leiden tot "overfitting", waarbij ruis in de data wordt gemodelleerd.
* **Aangepaste $R^2$:** De aangepaste $R^2$ corrigeert voor het aantal verklarende variabelen en de steekproefgrootte. Het wordt kleiner naarmate er minder waarnemingen zijn ten opzichte van het aantal variabelen.
$$R^2_{adjusted} = 1 - \left(1 - R^2\right) \frac{n-1}{n-p-1}$$
* **Gebruik:** De aangepaste $R^2$ is vooral geschikt voor het vergelijken van modellen met een verschillend aantal verklarende variabelen en waarnemingen. De interpretatie ervan is vergelijkbaar met die van de reguliere $R^2$.
### 2.8 Onderzoek van residuen
Het onderzoeken van residuen is cruciaal om de aannames van het regressiemodel te controleren en om mogelijke problemen te identificeren.
* **Doelen:**
* Opsporen van afwijkingen van lineariteit (kromlijnige verbanden).
* Identificeren van uitschieters (outliers).
* Controleren op heteroscedasticiteit (ongelijke variantie van de residuen).
* Controleren op normaliteit van de residuen.
* **Methoden:**
* **Residuen plotten tegen voorspelde waarden:** Een willekeurig patroon rond nul duidt op een goed model. Patroonvorming duidt op schending van aannames.
* **Residuen plotten tegen elke verklarende variabele:** Helpt bij het identificeren van niet-lineaire verbanden.
* **Normaal-kwantiel-diagram (Q-Q plot):** Controleert of de residuen ongeveer normaal verdeeld zijn.
### 2.9 Controle op collineariteit
Collineariteit (of multicollineariteit) treedt op wanneer twee of meer verklarende variabelen sterk met elkaar gecorreleerd zijn. Dit kan leiden tot instabiele en onbetrouwbare schattingen van de regressiecoëfficiënten.
* **Tolerantie:** De tolerantie van een predictor is de proportie van de variantie in die predictor die *niet* verklaard kan worden door de andere predictoren. Een lage tolerantie (< 0.5) wijst op hoge multicollineariteit.
$$Tolerantie_i = 1 - R_i^2$$
waarbij $R_i^2$ de determinatiecoëfficiënt is van de regressie van predictor $x_i$ op alle andere predictoren.
* **Variance Inflation Factor (VIF):** De VIF is het omgekeerde van de tolerantie. Een VIF groter dan 2 (of soms 4 of 5) duidt op problemen met multicollineariteit.
$$VIF_i = \frac{1}{Tolerantie_i} = \frac{1}{1 - R_i^2}$$
Wanneer multicollineariteit wordt gedetecteerd, kunnen de standaardfouten van de regressiecoëfficiënten overdreven worden, wat leidt tot minder nauwkeurige schattingen en significantietoetsen die minder krachtig zijn. Dit kan ertoe leiden dat variabelen die in werkelijkheid wel een significant effect hebben, statistisch niet significant blijken.
> **Tip:** Significantie in regressieanalyse toetst of een variabele nog een significante bijdrage levert *gegeven de aanwezigheid van andere variabelen in het model*. Een variabele kan significant zijn in een enkelvoudige regressie maar niet in een meervoudige regressie vanwege overlap met andere predictors.
> **Tip:** Veranderingen in regressiecoëfficiënten, hun significantie en betrouwbaarheidsintervallen bij het toevoegen of verwijderen van variabelen benadrukken het belang van contextuele interpretatie van modelresultaten. Parameters en hun toetsen zijn alleen relevant binnen de context van de andere variabelen in het specifieke model.
> **Tip:** "Statistisch significant" betekent niet altijd "praktisch belangrijk". Een zeer kleine maar statistisch significante regressiecoëfficiënt kan weinig praktische betekenis hebben. Controleer de omvang van de coëfficiënt in relatie tot de schaal van de variabelen.
---
# Inferentie in regressie-analyse
Dit hoofdstuk behandelt de methoden voor inferentie in regressie-analyse, met name betrouwbaarheidsintervallen en significantietoetsen voor regressiecoëfficiënten, evenals de interpretatie van de determinatiecoëfficiënt.
### 3.1 Statistische modellen voor regressie
In de context van regressieanalyse wordt aangenomen dat voor elke specifieke combinatie van onafhankelijke variabelen ($x_1, x_2, \dots, x_p$) de afhankelijke variabele ($y$) normaal verdeeld is rond een populatiegemiddelde ($\mu_y$) met een constante standaardafwijking ($\sigma$).
* **Enkelvoudige regressie:** Hierbij wordt de verwachte waarde van $y$ gemodelleerd als een lineaire functie van één onafhankelijke variabele: $\mu_y = \beta_0 + \beta_1 x$.
* **Meervoudige regressie:** Hierbij wordt de verwachte waarde van $y$ gemodelleerd als een lineaire functie van meerdere onafhankelijke variabelen: $\mu_y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p$.
Het regressiemodel kan worden uitgedrukt als:
$$Y_i = (\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}) + \epsilon_i$$
waarbij $Y_i$ de waargenomen waarde van de afhankelijke variabele is, $(\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip})$ de verwachte waarde van $y$ is voor de $i$-de observatie, en $\epsilon_i$ het residu is. De aanname is dat de residuen $\epsilon_i$ onafhankelijk en normaal verdeeld zijn met een gemiddelde van 0 en een standaardafwijking $\sigma$: $\epsilon_i \sim N(0, \sigma^2)$.
De parameters $\beta_0, \beta_1, \dots, \beta_p$ worden geschat met de kleinste-kwadratenmethode, waarbij het totaal van de gekwadrateerde residuen wordt geminimaliseerd. De schatter voor de variantie $\sigma^2$ is het gemiddelde van de gekwadrateerde residuen, gedeeld door het aantal vrijheidsgraden ($n - (p+1)$).
### 3.2 Betrouwbaarheidsintervallen voor regressiecoëfficiënten
Voor elke geschatte regressiecoëfficiënt $\hat{\beta}_i$ kan een betrouwbaarheidsinterval worden geconstrueerd om een bereik van waarden te geven waarbinnen de ware populatiecoëfficiënt $\beta_i$ waarschijnlijk ligt.
Het betrouwbaarheidsinterval voor $\beta_i$ wordt gegeven door:
$$\hat{\beta}_i \pm t_{\alpha/2, n-p-1} \cdot SE(\hat{\beta}_i)$$
waarbij $\hat{\beta}_i$ de geschatte regressiecoëfficiënt is, $t_{\alpha/2, n-p-1}$ de kritieke waarde is uit de $t$-verdeling met $n-p-1$ vrijheidsgraden voor een gegeven significantieniveau $\alpha$, en $SE(\hat{\beta}_i)$ de standaardfout van de geschatte regressiecoëfficiënt is.
### 3.3 Significantietoetsen voor regressiecoëfficiënten
#### 3.3.1 T-toets
De $t$-toets wordt gebruikt om te toetsen of een individuele regressiecoëfficiënt $\beta_i$ significant verschilt van nul.
* **Nulhypothese ($H_0$):** $\beta_i = 0$ (de onafhankelijke variabele $x_i$ heeft geen lineair verband met de afhankelijke variabele $y$, gegeven de andere variabelen in het model).
* **Alternatieve hypothese ($H_a$):** $\beta_i \neq 0$ (er is wel een significant lineair verband).
De $t$-toetsingsgrootheid is:
$$t = \frac{\hat{\beta}_i - 0}{SE(\hat{\beta}_i)}$$
Deze toetsingsgrootheid volgt een $t$-verdeling met $n-p-1$ vrijheidsgraden. De $p$-waarde van de toets geeft de kans aan om een toetsingsgrootheid te observeren die minstens zo extreem is als de berekende waarde, ervan uitgaande dat de nulhypothese waar is.
> **Tip:** Als het betrouwbaarheidsinterval voor $\beta_i$ de waarde 0 niet bevat, dan is de regressiecoëfficiënt significant verschillend van nul op het bijbehorende significantieniveau.
#### 3.3.2 F-toets voor regressie-analyse
De $F$-toets wordt gebruikt om de algehele significantie van het regressiemodel te beoordelen, dat wil zeggen of ten minste één van de onafhankelijke variabelen een significant lineair verband heeft met de afhankelijke variabele.
* **Nulhypothese ($H_0$):** $\beta_1 = \beta_2 = \dots = \beta_p = 0$ (geen van de onafhankelijke variabelen in het model is significant gerelateerd aan de afhankelijke variabele).
* **Alternatieve hypothese ($H_a$):** Minstens één $\beta_i \neq 0$ (ten minste één van de onafhankelijke variabelen is significant gerelateerd aan de afhankelijke variabele).
De $F$-toetsingsgrootheid wordt berekend als de ratio van twee gemiddelde kwadratensommen:
$$F = \frac{MSR}{MSE} = \frac{SSR/p}{SSE/(n-p-1)}$$
waarbij $MSR$ het gemiddelde kwadraat van de regressie is en $MSE$ het gemiddelde kwadraat van de residuen (of fout).
Deze toetsingsgrootheid volgt een $F$-verdeling met $p$ vrijheidsgraden in de teller en $n-p-1$ vrijheidsgraden in de noemer. De overschrijdingskans ( $p$-waarde) is de kans dat een $F$-verdeelde stochastische variabele met deze vrijheidsgraden groter is dan de berekende toetsingsgrootheid, als $H_0$ waar is.
> **Opmerking:** Bij enkelvoudige lineaire regressie ($p=1$) is de $F$-toets equivalent aan de $t$-toets voor de coëfficiënt $\beta_1$. Het kwadraat van de $t$-toetsingsgrootheid voor $\beta_1$ is gelijk aan de $F$-toetsingsgrootheid.
De resultaten van de $F$-toets worden vaak samengevat in een ANOVA-tabel.
### 3.4 Interpretatie van de determinatiecoëfficiënt (R-kwadraat)
De determinatiecoëfficiënt, $R^2$, is een maat voor de proportie van de totale variantie in de afhankelijke variabele ($y$) die verklaard wordt door het regressiemodel met de onafhankelijke variabelen ($x_1, \dots, x_p$).
$$R^2 = 1 - \frac{SSE}{SST} = \frac{SSR}{SST}$$
waarbij $SSE$ de som van de gekwadrateerde residuen is (Sum of Squared Errors) en $SST$ de totale som van de kwadraten is (Total Sum of Squares), die de totale variantie in $y$ vertegenwoordigt zonder enige regressie. $SSR$ is de som van de gekwadrateerde regressie.
* **Interpretatie:** $R^2$ geeft aan welk deel van de variabiliteit in $y$ verklaard kan worden door de variabiliteit in de onafhankelijke variabelen. Een $R^2$ van 0.75 betekent bijvoorbeeld dat 75% van de variatie in $y$ wordt verklaard door het model. Het vertegenwoordigt ook de proportionele reductie in voorspellingsfout vergeleken met een model dat de gemiddelde $y$ gebruikt.
#### 3.4.1 Aangepaste R-kwadraat (Adjusted R²)
Het gebruik van de determinatiecoëfficiënt $R^2$ kan misleidend zijn bij het vergelijken van modellen met een verschillend aantal onafhankelijke variabelen, aangezien $R^2$ altijd toeneemt (of gelijk blijft) wanneer er variabelen aan het model worden toegevoegd, zelfs als deze variabelen niet significant bijdragen. Dit fenomeen staat bekend als "overfitting".
De aangepaste $R^2$ (Adjusted R²) houdt rekening met het aantal voorspellers ($p$) en het aantal waarnemingen ($n$). Het biedt een betere maatstaf voor de fit van het model wanneer er meerdere onafhankelijke variabelen zijn en is met name nuttig voor het vergelijken van modellen met verschillende aantallen voorspellers.
$$R^2_{\text{adjusted}} = 1 - \left(1 - R^2\right) \frac{n-1}{n-p-1}$$
> **Tip:** De aangepaste $R^2$ kan afnemen wanneer er variabelen worden toegevoegd die het model niet significant verbeteren. Dit maakt het een nuttigere maatstaf voor modelselectie.
De interpretatie van de aangepaste $R^2$ is vergelijkbaar met die van de standaard $R^2$: het vertegenwoordigt de proportie van de variantie in de afhankelijke variabele die verklaard wordt door het model, aangepast voor het aantal voorspellers.
### 3.5 Controle op collineariteit
Collineariteit (of multicollineariteit) treedt op wanneer onafhankelijke variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn. Dit kan leiden tot instabiele en onbetrouwbare schattingen van de regressiecoëfficiënten, waardoor hun standaardfouten toenemen.
* **Tolerantie:** De tolerantie van een predictor is de proportie van de variantie in die predictor die *niet* verklaard kan worden door de andere predictoren in het model. Een lage tolerantie (dicht bij nul) geeft aan dat de betreffende predictor sterk gecorreleerd is met andere predictoren.
$$Tolerantie = 1 - R_i^2$$
waarbij $R_i^2$ de determinatiecoëfficiënt is van een regressie van predictor $x_i$ op alle andere predictoren.
* **Variance Inflation Factor (VIF):** De VIF is het omgekeerde van de tolerantie en wordt gebruikt om de mate van collineariteit te kwantificeren.
$$VIF_i = \frac{1}{Tolerantie_i} = \frac{1}{1 - R_i^2}$$
> **Vuistregel:** Een VIF groter dan 2 duidt op mogelijke problemen met multicollineariteit. Een VIF groter dan 5 of 10 wordt vaak als problematisch beschouwd. Hoge multicollineariteit kan de standaardfouten van de regressiecoëfficiënten opblazen, wat leidt tot minder betrouwbare $t$-toetsen en bredere betrouwbaarheidsintervallen.
---
# Modelverfijning en analyse van collineariteit
Dit gedeelte behandelt het onderzoeken van residuen, het verfijnen van regressiemodellen door variabelen te verwijderen en het controleren op collineariteit tussen voorspellende variabelen.
### 4.1 Onderzoeken van residuen
Het onderzoeken van residuen is cruciaal om de geschiktheid van een meervoudig lineair regressiemodel voor de data te beoordelen. Residuen representeren het deel van de afhankelijke variabele dat niet verklaard wordt door het model.
#### 4.1.1 Doel van residu-analyse
Het primaire doel van residu-analyse is het opsporen van afwijkingen van de modelaannames, zoals:
* Aanwezigheid van niet-lineaire verbanden.
* Identificatie van uitschieters (outliers), dit zijn waarnemingen die significant afwijken van het algemene patroon.
* Het beoordelen van de homoscedasticiteit (constante variantie van de residuen).
#### 4.1.2 Technieken voor residu-analyse
Verschillende grafische en statistische technieken worden gebruikt:
* **Residuen tegen voorspelde waarden:** Een spreidingsdiagram van de residuen ($e_i$) tegen de voorspelde waarden ($\hat{y}_i$) kan patronen onthullen die wijzen op niet-lineariteit of heteroscedasticiteit. Een willekeurige spreiding rond nul duidt op een goed model.
* **Residuen tegen verklarende variabelen:** Het uitzetten van de residuen tegenover elke individuele verklarende variabele ($x_j$) kan helpen om specifieke relaties te identificeren die niet door het model worden gevangen.
* **Normaal-kwantiel-diagram (Q-Q plot):** Dit diagram helpt bij het beoordelen van de normaliteitsaanname van de residuen. Als de residuen normaal verdeeld zijn, zullen de punten op het diagram ongeveer langs een rechte lijn liggen.
#### 4.1.3 Interpretatie van residu-analyse
Als de residu-analyse wijst op problemen, zoals duidelijke patronen in de grafieken of significante afwijkingen van de normaliteit, kan dit leiden tot aanpassingen van het model.
> **Tip:** Een willekeurige spreiding van residuen rond nul in een plot tegen voorspelde waarden is een indicator van een adequaat lineair model.
### 4.2 Verfijning van het regressiemodel
Modelverfijning houdt in dat het model wordt aangepast om de fit te verbeteren en de interpretatie te verduidelijken. Dit kan onder andere door het verwijderen van variabelen die weinig bijdragen aan het model.
#### 4.2.1 Variabelen verwijderen
Wanneer de analyse van de residuen of de significantie van regressiecoëfficiënten aangeeft dat een verklarende variabele weinig tot geen toegevoegde waarde heeft, kan deze overwogen worden te verwijderen.
* **Beslissingscriteria:** De significantie van de t-toets voor een coëfficiënt ($H_0: \beta_j = 0$) is een veelgebruikt criterium. Als een coëfficiënt niet significant is, kan dit een reden zijn om de bijbehorende variabele te verwijderen.
* **Gevolgen van verwijdering:** Het verwijderen van een variabele kan de resterende coëfficiënten en hun significantie beïnvloeden, omdat de interpretatie van coëfficiënten altijd in de context van de andere variabelen in het model moet gebeuren.
#### 4.2.2 Modelvergelijking
Verschillende modellen met verschillende combinaties van verklarende variabelen kunnen worden vergeleken. De aangepaste $R^2$ (Adjusted $R^2$) is hierbij een nuttig instrument, vooral wanneer modellen een verschillend aantal verklarende variabelen bevatten.
* **Aangepaste $R^2$:** Deze maat corrigeert de determinatiecoëfficiënt ($R^2$) voor het aantal verklarende variabelen en de steekproefgrootte. Een hogere aangepaste $R^2$ indiceert een beter model, rekening houdend met de complexiteit.
$$ R_{adj}^2 = 1 - \frac{(1 - R^2)(n - 1)}{n - p - 1} $$
Waarbij $n$ het aantal waarnemingen is en $p$ het aantal verklarende variabelen.
> **Tip:** Een te hoog aantal verklarende variabelen ten opzichte van het aantal waarnemingen kan leiden tot "overfitting", waarbij het model ruis in de data meemodelleert, wat resulteert in een overschatting van de voorspellende kracht.
### 4.3 Controle op collineariteit
Collineariteit, ook wel multicollineariteit genoemd, treedt op wanneer twee of meer verklarende variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn. Dit kan leiden tot instabiele en onbetrouwbare regressiecoëfficiënten.
#### 4.3.1 Gevolgen van collineariteit
* **Opgeblazen standaardfouten:** Hoge collineariteit vergroot de standaardfouten van de regressiecoëfficiënten. Hierdoor worden de coëfficiënten statistisch minder significant, zelfs als de variabele op zichzelf een sterke relatie met de afhankelijke variabele zou hebben.
* **Instabiele schattingen:** Kleine veranderingen in de data of het model kunnen leiden tot grote schommelingen in de geschatte regressiecoëfficiënten.
* **Interpretatieproblemen:** Het wordt moeilijk om de unieke bijdrage van elke gecorreleerde variabele aan het model te bepalen.
#### 4.3.2 Maten voor collineariteit
Er zijn verschillende maten om collineariteit te detecteren:
* **Tolerantie (Tolerance):** De tolerantie voor een verklarende variabele ($x_j$) is het aandeel van de variantie in $x_j$ dat *niet* verklaard kan worden door de andere verklarende variabelen in het model. Het wordt berekend als $1 - R_j^2$, waarbij $R_j^2$ de $R^2$ is van een regressie van $x_j$ op alle andere verklarende variabelen.
$$ \text{Tolerance}_j = 1 - R_j^2 $$
Een lage tolerantie (dicht bij nul) geeft aan dat de variabele sterk overlapt met andere predictoren.
* **Variance Inflation Factor (VIF):** De VIF is het omgekeerde van de tolerantie.
$$ \text{VIF}_j = \frac{1}{\text{Tolerance}_j} = \frac{1}{1 - R_j^2} $$
Een VIF groter dan 2 (of soms 4, afhankelijk van de vuistregel) duidt op mogelijke problemen met multicollineariteit.
#### 4.3.3 Aanpak bij collineariteit
Als significante collineariteit wordt vastgesteld, zijn er verschillende strategieën:
* **Verwijderen van variabelen:** Eén van de gecorreleerde variabelen kan worden verwijderd uit het model.
* **Combineren van variabelen:** Gecorreleerde variabelen kunnen worden samengevoegd tot een enkele, samengestelde variabele (bijvoorbeeld door een index te creëren).
* **Gebruik van Principal Component Regression (PCR) of Partial Least Squares (PLS):** Geavanceerdere technieken die om kunnen gaan met multicollineariteit door het creëren van nieuwe, ongecorreleerde variabelen.
> **Example:** Stel, in een model om de verkoopprijs van huizen te voorspellen, hebben we variabelen "aantal slaapkamers" en "totale vloeroppervlakte". Deze zijn waarschijnlijk sterk gecorreleerd. Als de VIF voor "aantal slaapkamers" hoog is, suggereert dit dat de informatie die "aantal slaapkamers" biedt, grotendeels al vervat zit in "totale vloeroppervlakte".
> **Tip:** Significante correlaties tussen verklarende variabelen impliceren niet automatisch dat deze variabelen ook significant zullen zijn in de regressieanalyse, vooral als er sprake is van multicollineariteit. De significantie in regressieanalyse geeft aan of een variabele een significante bijdrage levert *gegeven de aanwezigheid van de andere variabelen* in het model.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Regressie-analyse | Een statistische methode die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te onderzoeken en te modelleren. |
| Meervoudige lineaire regressie | Een regressiemodel waarbij de afhankelijke variabele wordt voorspeld door een lineaire combinatie van twee of meer onafhankelijke variabelen. |
| Populatie-regressievergelijking | De theoretische vergelijking die de relatie tussen de verwachte waarde van de afhankelijke variabele en de onafhankelijke variabelen in de gehele populatie beschrijft. |
| Enkelvoudige regressie | Een regressiemodel waarbij de afhankelijke variabele wordt voorspeld door slechts één onafhankelijke variabele. |
| Residu | Het verschil tussen de waargenomen waarde van de afhankelijke variabele en de voorspelde waarde uit het regressiemodel. |
| Regressieparameters | De coëfficiënten in het regressiemodel die de sterkte en richting van de relatie tussen de onafhankelijke variabelen en de afhankelijke variabele kwantificeren. |
| Vrijheidsgraden | Het aantal onafhankelijke stukjes informatie dat in de data beschikbaar is om een parameter te schatten; in regressie-analyse is dit vaak het aantal waarnemingen min het aantal geschatte parameters. |
| Betrouwbaarheidsinterval | Een reeks waarden die met een bepaalde waarschijnlijkheid de ware populatiewaarde van een parameter bevat. |
| t-toets | Een statistische toets die wordt gebruikt om te bepalen of het gemiddelde van een steekproef significant verschilt van een bekende populatiewaarde of een ander gemiddelde. In regressie wordt het gebruikt om de significantie van individuele regressiecoëfficiënten te testen. |
| F-toets | Een statistische toets die wordt gebruikt om te bepalen of er een significant lineair verband is tussen de afhankelijke variabele en de set van onafhankelijke variabelen in een regressiemodel. |
| Determinatiecoëfficiënt ($R^2$) | Een statistische maat die aangeeft welk deel van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabelen in het model. |
| Aangepaste $R^2$ (Adjusted R²) | Een aangepaste versie van de determinatiecoëfficiënt die rekening houdt met het aantal voorspellers in het model en de steekproefgrootte, wat helpt bij het vergelijken van modellen met een verschillend aantal variabelen. |
| Collineariteit (Multicollineariteit) | Een situatie waarin twee of meer onafhankelijke variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn, wat de schatting en interpretatie van de regressiecoëfficiënten kan bemoeilijken. |
| Tolerantie | Een maat voor de mate waarin een onafhankelijke variabele niet verklaard kan worden door de andere onafhankelijke variabelen in het model; lage tolerantie duidt op hoge multicollineariteit. |
| Variance Inflation Factor (VIF) | Een maat die aangeeft hoeveel de variantie van een regressiecoëfficiënt wordt opgeblazen door collineariteit; een VIF groter dan 2 duidt vaak op problemen. |
Cover
Set 8 H12 ANOVA.pptx
Summary
# Introductie tot variantie-analyse
Hier is een gedetailleerde studiehandleiding voor de introductie tot variantie-analyse, gebaseerd op de verstrekte documentatie.
## 1. Introductie tot variantie-analyse
Variantie-analyse (ANOVA) is een statistische techniek die wordt gebruikt om de gemiddelden van twee of meer populaties of condities te vergelijken, en dient als een uitbreiding van de t-toets.
### 1.1 De een-factor variantie-analyse (One-way ANOVA)
#### 1.1.1 Concept en doel
De een-factor variantie-analyse (ANOVA) is een methode om de gemiddelden van twee of meer groepen te vergelijken. Terwijl een t-toets voor onafhankelijke steekproeven zich beperkt tot het vergelijken van de gemiddelden van slechts twee populaties, maakt ANOVA dit mogelijk voor drie of meer groepen. Dit wordt gedaan op basis van enkelvoudige aselecte steekproeven (EAS) uit elke populatie of conditie.
#### 1.1.2 Nul- en alternatieve hypotheses
De nulhypothese ($H_0$) in ANOVA stelt dat alle populatiegemiddelden gelijk zijn. De alternatieve hypothese ($H_A$) stelt dat niet alle populatiegemiddelden gelijk zijn; er is dus minstens één gemiddelde dat significant verschilt van de andere.
* $H_0: \mu_1 = \mu_2 = \dots = \mu_k$
* $H_A$: Niet alle $\mu_i$ zijn gelijk
#### 1.1.3 Waarom niet meerdere paarsgewijze t-toetsen?
Het uitvoeren van meerdere paarsgewijze t-toetsen om de gemiddelden van meer dan twee groepen te vergelijken, is geen aanbevolen praktijk. Hoewel elke t-toets op zichzelf de kans op een Type I fout (onterecht concluderen dat er een verschil is terwijl dat er niet is) gelijk aan $\alpha$ (het significantieniveau) controleert, verhoogt het herhaaldelijk uitvoeren van deze toetsen het cumulatieve risico op een Type I fout aanzienlijk. Dit fenomeen staat bekend als "capitalizing on chance", waarbij men te snel significante verschillen vindt die er in werkelijkheid niet zijn.
> **Tip:** Bij het vergelijken van meer dan twee groepen, verhoogt elke extra t-toets de kans op een foutieve conclusie. ANOVA biedt een gecontroleerde manier om te toetsen of er *ergens* een verschil is voordat specifieke groepen worden vergeleken.
### 1.2 Voorwaarden voor ANOVA
Om de resultaten van een een-factor ANOVA betrouwbaar te interpreteren, moeten aan een aantal voorwaarden worden voldaan:
1. **Onafhankelijke steekproeven:** Er moeten $k$ onafhankelijke enkelvoudige aselecte steekproeven zijn, één uit elke populatie.
2. **Gelijke populatievarianties:** Alle $k$ populaties moeten dezelfde (onbekende) standaarddeviatie $\sigma$ hebben.
* **Vuistregel voor gelijkheid van varianties:** De resultaten van de F-test zijn bij benadering correct indien de grootste steekproef standaarddeviatie ($s_{max}$) niet meer dan twee keer zo groot is als de kleinste steekproef standaarddeviatie ($s_{min}$). Met andere woorden, de verhouding $\frac{s_{max}}{s_{min}} \le 2$.
* **Alternatieve toetsen:** Methoden zoals de Bartlett-test of de Levene-test kunnen gebruikt worden om de homogeniteit van varianties formeel te toetsen.
3. **Normaliteit van populaties:** Alle $k$ populaties moeten normaal verdeeld zijn met een onbekende verwachting $\mu_i$.
#### 1.2.1 Het ANOVA model
Het model voor een waarneming $Y_{ij}$ (de $j$-de waarneming in de $i$-de groep) kan worden uitgedrukt als:
$$
Y_{ij} = \mu_i + \epsilon_{ij}
$$
waarbij $\mu_i$ het populatiegemiddelde is van groep $i$, en $\epsilon_{ij}$ het residu is dat de afwijking van de individuele score ten opzichte van het groepsgemiddelde vertegenwoordigt. De aannames stellen dat $\epsilon_{ij}$ normaal verdeeld is met gemiddelde 0 en standaarddeviatie $\sigma$, en dat de groepen onafhankelijk zijn.
#### 1.2.2 Schatters voor parameters
* De populatiegemiddelden $\mu_1, \dots, \mu_k$ worden geschat door de steekproefgemiddelden $\bar{y}_1, \dots, \bar{y}_k$.
* De populatievariantie $\sigma^2$ wordt geschat door de "pooled variance" (gepoolde variantie), $s_p^2$.
### 1.3 De ANOVA F-statistiek
ANOVA werkt door de totale variabiliteit in de data op te splitsen in verschillende componenten. De kern van de ANOVA is de F-statistiek, die de ratio vormt van twee variantie-schatters: de variantie *tussen* de groepen versus de variantie *binnen* de groepen.
* **Variatie tussen groepen (explained variance / model variance):** Dit meet de variabiliteit tussen de steekproefgemiddelden van de verschillende groepen. Als deze variabiliteit groot is ten opzichte van de variabiliteit binnen de groepen, is dit bewijs tegen de nulhypothese.
* **Variatie binnen groepen (unexplained variance / error variance):** Dit meet de gemiddelde variabiliteit binnen elke groep. Dit vertegenwoordigt de inherente willekeurige variatie die niet door de groepsindeling wordt verklaard.
De F-statistiek wordt als volgt berekend:
$$
F = \frac{\text{Variantie tussen groepen}}{\text{Variantie binnen groepen}} = \frac{MS_{\text{between}}}{MS_{\text{within}}}
$$
* $MS_{\text{between}}$ is het "Mean Square Between" (gemiddeld kwadraat tussen de groepen).
* $MS_{\text{within}}$ is het "Mean Square Within" (gemiddeld kwadraat binnen de groepen, ook wel $MSE$ genoemd).
Een hoge F-waarde suggereert dat de groepsgemiddelden significant van elkaar verschillen. De F-test is eenzijdig, waarbij hoge waarden aan de rechterkant van de verdeling leiden tot verwerping van de nulhypothese.
#### 1.3.1 Vrijheidsgraden voor de F-test
De F-verdeling wordt gekenmerkt door twee vrijheidsgraden: die van de teller en die van de noemer.
* **Vrijheidsgraden teller ($df_1$):** $k - 1$, waarbij $k$ het aantal groepen is.
* **Vrijheidsgraden noemer ($df_2$):** $n - k$, waarbij $n$ het totale aantal waarnemingen is.
De F-statistiek volgt dus een F-verdeling met $F(df_1, df_2)$ vrijheidsgraden.
> **Tip:** De F-verdeling is altijd positief en rechtsscheef. De vorm van de verdeling wordt bepaald door de vrijheidsgraden.
### 1.4 Interpretatie van resultaten en post-hoc toetsen
Als de F-test significant is (d.w.z. de p-waarde is kleiner dan $\alpha$), verwerpen we de nulhypothese. Dit betekent dat er een statistisch significant verschil is tussen minstens twee van de groepsgemiddelden. Echter, de ANOVA vertelt ons *niet* welke specifieke groepen van elkaar verschillen. Hiervoor zijn aanvullende analyses nodig.
#### 1.4.1 Post-hoc toetsen (meervoudige vergelijkingen)
Wanneer de omnibus ANOVA significant is, worden post-hoc toetsen gebruikt om paarsgewijze vergelijkingen te maken tussen de groepsgemiddelden. Deze toetsen corrigeren voor het verhoogde Type I foutrisico dat ontstaat door het uitvoeren van meerdere vergelijkingen.
* **Contrasten (Planned Comparisons):** Deze worden gebruikt wanneer er voorafgaand aan de dataverzameling specifieke, wetenschappelijk gemotiveerde hypotheses over bepaalde verschillen bestaan. Contrasten hebben meer "power" (onderscheidingsvermogen) omdat ze specifieker zijn.
* Een contrast is een lineaire combinatie van populatiegemiddelden $\psi = \sum a_i \mu_i$ waarbij $\sum a_i = 0$.
* Het bijbehorende steekproefcontrast is $c = \sum a_i \bar{y}_i$.
* De hypothesetoets voor een contrast wordt meestal uitgevoerd met een t-statistiek:
$$
t = \frac{c}{\text{Standard Error}(c)}
$$
met vrijheidsgraden $DFE = n-k$.
* Een $C\%$ betrouwbaarheidsinterval voor $\psi$ is $c \pm t^* \cdot SE(c)$, waarbij $t^*$ de kritieke waarde is uit de t-verdeling met $DFE$ vrijheidsgraden.
* **Meervoudige Vergelijkingstests (Multiple Comparisons):** Deze worden gebruikt wanneer er geen specifieke vooraf gedefinieerde hypotheses zijn, en alle mogelijke paarsgewijze vergelijkingen van belang zijn.
* **LSD-methode (Least Significant Differences):** Voert standaard t-toetsen uit voor elk paar gemiddelden, zonder correctie voor meervoudige vergelijkingen. Wordt niet sterk aanbevolen als er veel groepen zijn.
* **Bonferroni-methode:** Controleert het totale Type I foutrisico door het significantieniveau voor elke individuele toets te verkleinen (vaak door $\alpha$ te delen door het aantal vergelijkingen). Dit is een conservatieve methode die de kans op Type I fouten sterk reduceert, maar ook de power kan verlagen.
* **Tukey's HSD (Honestly Significant Difference):** Een populaire methode die de studentized range-statistiek gebruikt om alle paarsgewijze vergelijkingen te maken en het "family-wise error rate" (het algehele risico op een Type I fout over alle vergelijkingen) op het ingestelde niveau $\alpha$ te houden.
* Andere methoden zoals Scheffé, Sidak, S-N-K, Duncan, Hochberg's GT2, Gabriel, Waller-Duncan, Dunnett's (voor vergelijking met een controle), Tamhane's T2, Dunnett's T3, en Games-Howell bestaan ook, met variaties in hoe ze de varianties behandelen (gelijk of ongelijk) en hoe ze corrigeren voor meervoudige vergelijkingen.
#### 1.4.2 Visuele inspectie
Naast statistische toetsen zijn grafische weergaven essentieel voor het begrijpen van de data:
* **Boxplots:** Verschaffen informatie over de spreiding, mediaan en uitschieters binnen elke groep. Let op: ANOVA vergelijkt gemiddelden, terwijl boxplots de mediaan weergeven.
* **Lijndiagrammen (Mean Plots):** Tonen de gemiddelden van de groepen en kunnen inzicht geven in de trend of verschillen tussen de groepen.
> **Tip:** Gebruik altijd een combinatie van statistische toetsen en grafische weergaven om een volledig beeld te krijgen van de resultaten. Een significante F-waarde in ANOVA kan worden verklaard door het analyseren van de gemiddelden en de spreiding van de data in boxplots of lijndiagrammen.
### 1.5 Voorbeeld: Gepercipieerde moeilijkheid van wiskunde-oefeningen
Een onderzoeker wil de gepercipieerde moeilijkheid van wiskunde-oefeningen onderzoeken. Drie groepen studenten krijgen dezelfde oefeningen, maar met verschillende instructies over de moeilijkheid: "simpel", "matig" of "moeilijk". Na het maken van de oefeningen beoordelen de studenten de moeilijkheid op een schaal van 0 tot 15.
* **Data:**
* Simpel: 9, 12, 4, 8, 7
* Matig: 4, 6, 8, 2, 10
* Moeilijk: 1, 3, 4, 5, 2
* **Doel:** Vergelijken of de gemiddelde gepercipieerde moeilijkheid verschilt tussen de drie condities.
* **Hypotheses:**
* $H_0: \mu_{\text{simpel}} = \mu_{\text{matig}} = \mu_{\text{moeilijk}}$
* $H_A$: Niet alle gemiddelden zijn gelijk.
Een analyse in statistische software (zoals R) zou de F-statistiek en de bijbehorende p-waarde produceren. Als deze significant is, kunnen post-hoc toetsen worden uitgevoerd om te bepalen welke specifieke condities van elkaar verschillen.
> **Voorbeeld:** Stel dat de ANOVA een significante p-waarde oplevert. Een Tukey HSD post-hoc test zou dan kunnen aantonen dat de groep "simpel" significant lager scoort dan de groep "matig" en "moeilijk", terwijl er geen significant verschil is tussen "matig" en "moeilijk".
### 1.6 Vergelijking met t-toets
De relatie tussen de t-toets voor twee groepen en ANOVA voor twee groepen is direct. Als er slechts twee groepen zijn ($k=2$), dan is de F-statistiek van de ANOVA gelijk aan het kwadraat van de t-statistiek van de tweegroepen t-toets, mits de varianties gelijk worden verondersteld:
$$
F = t^2
$$
De vrijheidsgraden voor de F-verdeling in dit geval zijn $df_1 = 2-1 = 1$ en $df_2 = n-2$. De kritieke waarden voor de F- en t-verdeling bij een gegeven significantieniveau $\alpha$ zullen corresponderen.
---
# Voorwaarden en model voor variantie-analyse
Dit hoofdstuk introduceert de voorwaarden waaraan voldaan moet worden voor de toepassing van variantie-analyse (ANOVA) en schetst het basismodel dat binnen ANOVA wordt gebruikt.
## 2.1 Inleiding tot variantie-analyse
Variantie-analyse (ANOVA) is een statistische techniek die wordt gebruikt om de gemiddelden van twee of meer populaties te vergelijken. Dit staat in contrast met de t-toets voor onafhankelijke steekproeven, die beperkt is tot het vergelijken van slechts twee populatiegemiddelden. Eén-factor variantie-analyse is een specifieke vorm van ANOVA die de gemiddelden van twee of meer populaties of condities vergelijkt, gebaseerd op enkelvoudige aselecte steekproeven uit elke populatie.
### 2.1.1 Van t-toets naar ANOVA
De t-toets voor onafhankelijke steekproeven vergelijkt de verwachtingen (gemiddelden) van twee populaties. ANOVA breidt dit concept uit om de verwachtingen van twee of meer populaties te vergelijken. Bij het vergelijken van meerdere groepen met herhaalde paarsgewijze t-toetsen ontstaat het risico op het zogenaamde "capitalizing on chance", waarbij de kans op een Type I-fout (onterecht verwerpen van de nulhypothese) toeneemt met elk extra getoetst paar. ANOVA biedt een manier om dit probleem te omzeilen door één enkele toets uit te voeren.
### 2.1.2 Het probleem van herhaalde toetsen
Wanneer meerdere groepen worden vergeleken met behulp van paarsgewijze t-toetsen, wordt het algehele risico op een Type I-fout verhoogd. Als een significantieniveau van $ \alpha = 0.01 $ wordt gebruikt voor elke t-toets, wordt de kans op een Type I-fout voor de totale analyse groter dan $ \alpha $. Dit kan leiden tot een te snelle conclusie van significante verschillen die er in werkelijkheid niet zijn.
### 2.1.3 Voorbeeld: Gepercipieerde moeilijkheid van wiskundeoefeningen
Een onderzoeker wil de gepercipieerde moeilijkheid van wiskundeoefeningen beoordelen. Drie groepen studenten krijgen oefeningen voorgelegd en krijgen te horen dat de oefeningen "simpel", "matig moeilijk" of "moeilijk" zijn. Na afloop geven studenten op een schaal van 0 tot 15 aan hoe moeilijk ze de oefeningen vonden. ANOVA kan hier worden toegepast om te onderzoeken of de gemiddelde gepercipieerde moeilijkheid verschilt tussen de drie condities. De steekproefgroottes per groep mogen hierbij verschillen.
## 2.2 Voorwaarden voor variantie-analyse
Voor een correcte toepassing van de één-factor variantie-analyse moeten aan de volgende voorwaarden worden voldaan:
* **Onafhankelijke enkelvoudige aselecte steekproeven**: Er worden $ k $ onafhankelijke enkelvoudige aselecte steekproeven getrokken, waarbij elke steekproef afkomstig is uit één van de $ k $ te vergelijken populaties of condities.
* **Normaal verdeelde populaties**: Alle $ k $ populaties waarvan de steekproeven zijn getrokken, worden verondersteld normaal verdeeld te zijn met een onbekende verwachting $ \mu_k $.
* **Gelijke standaarddeviaties (homogeniteit van varianties)**: Alle $ k $ populaties hebben dezelfde (onbekende) standaarddeviatie $ \sigma $.
### 2.2.1 Controle op gelijkheid van standaarddeviaties
Hoewel de resultaten van de ANOVA F-toets bij benadering correct zijn wanneer de standaarddeviaties van de populaties gelijk zijn, is het nuttig om dit te controleren. Een vuistregel is dat de ANOVA nog steeds betrouwbaar is als de grootste steekproef standaarddeviatie niet meer dan twee keer zo groot is als de kleinste steekproef standaarddeviatie. Formeel kan dit getest worden met bijvoorbeeld de Bartlett's test of de Levene's test.
> **Tip:** Hoewel de boxplot een visuele indicatie kan geven van de spreiding, vergelijkt de ANOVA de gemiddelden, niet de medianen. Een boxplot kan daarom misleidend zijn als de gemiddelden dicht bij elkaar liggen maar de medianen ver uit elkaar.
## 2.3 Het ANOVA-model
Het ANOVA-model beschrijft de waargenomen data als een som van een modelcomponent en een residucomponent.
$$ Y_{ij} = \mu_i + \epsilon_{ij} $$
Waarbij:
* $ Y_{ij} $: De waargenomen score van de $ j $-de observatie in de $ i $-de groep/conditie.
* $ \mu_i $: Het populatiegemiddelde van de $ i $-de groep/conditie.
* $ \epsilon_{ij} $: Het residu, wat de afwijking van de individuele score van het groepsgemiddelde vertegenwoordigt. Dit deel wordt ook wel de "niet-verklaarde variatie" genoemd.
Een meer gedetailleerd model beschouwt de relatie tussen de waarneming, het model en het residu:
$$ \text{Waarneming} = \text{Model} + \text{Residu} $$
Parameters in dit model zijn de populatiegemiddelden $ \mu_1, \dots, \mu_k $ en de populatiestandaarddeviatie $ \sigma $. Schatters voor deze parameters zijn de steekproefgemiddelden $ \bar{y}_i $ en de geschatte standaarddeviatie $ s $.
## 2.4 De ANOVA F-statistiek
De ANOVA F-statistiek is de kern van de variantie-analyse. Het toets de nulhypothese dat alle populatiegemiddelden gelijk zijn tegen de alternatieve hypothese dat niet alle populatiegemiddelden gelijk zijn.
$$ F = \frac{\text{Variantie tussen de groepen}}{\text{Variantie binnen de groepen}} $$
* De F-statistiek is altijd groter dan of gelijk aan 0.
* Een F-waarde van 0 treedt op wanneer alle steekproefgemiddelden exact gelijk zijn.
* Hoge F-waarden geven bewijs tegen de nulhypothese, wat suggereert dat de populatiegemiddelden significant van elkaar verschillen.
* De F-test is een een-zijdige toets aan de bovenzijde van de verdeling.
### 2.4.1 Interpretatie van de F-statistiek
De F-statistiek kan worden gezien als een verhouding van varianties: de variantie die verklaard wordt door het model (variatie *tussen* de groepen) ten opzichte van de niet-verklaarde variantie (variatie *binnen* de groepen). Dit is analoog aan de determinatiecoëfficiënt in regressie-analyse.
### 2.4.2 F-verdelingen en vrijheidsgraden
De F-statistiek volgt een F-verdeling onder de nulhypothese. F-verdelingen zijn familie van rechts-scheve verdelingen die alleen positieve waarden kunnen aannemen. Elke F-verdeling wordt gekarakteriseerd door twee vrijheidsgraden:
* **Vrijheidsgraden voor de teller (df1)**: Gelijk aan het aantal groepen minus 1 ($ k - 1 $). Dit vertegenwoordigt de vrijheidsgraden geassocieerd met de variatie *tussen* de groepen.
* **Vrijheidsgraden voor de noemer (df2)**: Gelijk aan het totale aantal waarnemingen min het aantal groepen ($ n - k $). Dit vertegenwoordigt de vrijheidsgraden geassocieerd met de variatie *binnen* de groepen (ook wel de error-vrijheidsgraden genoemd).
De notatie voor een F-verdeling is $ F(df1, df2) $.
### 2.4.3 Verloop van de ANOVA
1. Formuleren van de nulhypothese ($ H_0 $) en de alternatieve hypothese ($ H_A $).
* $ H_0 $: Alle populatiegemiddelden zijn gelijk ($ \mu_1 = \mu_2 = \dots = \mu_k $).
* $ H_A $: Niet alle populatiegemiddelden zijn gelijk.
2. Berekenen van de F-statistiek.
3. Vergelijken van de berekende F-waarde met een kritieke waarde uit de F-verdeling of bepalen van de p-waarde.
4. Als de F-waarde groter is dan de kritieke waarde (of de p-waarde kleiner is dan het significantieniveau $ \alpha $), wordt de nulhypothese verworpen. Dit suggereert dat er significante verschillen zijn tussen ten minste twee van de populatiegemiddelden.
5. Indien de nulhypothese wordt verworpen, zijn verdere analyses (zoals post-hoc toetsen of contrasten) nodig om te bepalen welke specifieke gemiddelden van elkaar verschillen.
> **Tip:** De voorwaarde van gelijke varianties is cruciaal. Wanneer deze voorwaarde geschonden wordt, zijn er aangepaste ANOVA-varianten of niet-parametrische toetsen die overwogen moeten worden. De relatief grote steekproefgrootte kan soms helpen om de robuustheid van de ANOVA te vergroten, zelfs bij enige schending van de aannames.
---
# De F-statistiek en verdeling in variantie-analyse
De F-statistiek en bijbehorende F-verdeling vormen de kern van variantie-analyse (ANOVA) om te bepalen of er significante verschillen zijn tussen de gemiddelden van drie of meer groepen.
### 3.1 Introductie tot variantie-analyse
Variantie-analyse (ANOVA) is een statistische techniek die wordt gebruikt om de gemiddelden van twee of meer populaties of groepen te vergelijken. Dit staat in contrast met de t-toets, die beperkt is tot het vergelijken van slechts twee groepen.
#### 3.1.1 Waarom niet meerdere t-toetsen?
Het uitvoeren van meerdere paarsgewijze t-toetsen om de gemiddelden van meerdere groepen te vergelijken, is problematisch vanwege het "capitalizing on chance" fenomeen. Bij elke t-toets bestaat er een kans (alfa, $\alpha$) om ten onrechte te concluderen dat er een significant verschil is tussen twee gemiddelden, terwijl dit in werkelijkheid niet zo is. Door dit herhaaldelijk te doen, neemt het totale risico op een Type I fout (onterecht verwerpen van de nulhypothese) aanzienlijk toe, wat leidt tot een hogere kans op het vinden van valse significante verschillen.
#### 3.1.2 Het principe van ANOVA
ANOVA ontleedt de totale variatie in de data in twee componenten:
1. **Variatie tussen groepen (between-group variance):** Dit meet de spreiding van de groepsgemiddelden rond het algemene gemiddelde.
2. **Variatie binnen groepen (within-group variance):** Dit meet de spreiding van de individuele observaties rond het gemiddelde van hun eigen groep.
ANOVA vergelijkt vervolgens deze twee bronnen van variatie. Als de variatie tussen de groepen veel groter is dan de variatie binnen de groepen, suggereert dit dat er significante verschillen zijn tussen de groepsgemiddelden.
#### 3.1.3 Nul- en alternatieve hypothese in ANOVA
De nulhypothese ($H_0$) in een één-factor ANOVA stelt dat alle populatiegemiddelden gelijk zijn:
$$H_0: \mu_1 = \mu_2 = \dots = \mu_k$$
waarbij $\mu_i$ het gemiddelde is van populatie $i$, en $k$ het aantal groepen is.
De alternatieve hypothese ($H_a$) stelt dat niet alle populatiegemiddelden gelijk zijn:
$$H_a: \text{Niet alle } \mu_i \text{ zijn gelijk}$$
Dit betekent dat minstens één gemiddelde significant verschilt van de andere.
### 3.2 De F-statistiek in ANOVA
De F-statistiek is de centrale maatstaf in een ANOVA-test. Het is de ratio van de variantie tussen de groepen tot de variantie binnen de groepen.
$$F = \frac{\text{Variantie tussen groepen}}{\text{Variantie binnen groepen}}$$
#### 3.2.1 Berekening van de F-statistiek
De variantie tussen groepen en de variantie binnen groepen worden geschat met behulp van kwadratensommen (Sum of Squares, SS) en vrijheidsgraden (Degrees of Freedom, df).
* **Sum of Squares Between Groups (SSB):** Meet de totale variatie die wordt toegeschreven aan de verschillen tussen de groepsgemiddelden.
* **Sum of Squares Within Groups (SSW) of Sum of Squares Error (SSE):** Meet de totale variatie die niet wordt verklaard door de groepsverschillen, oftewel de foutvariantie of residuele variatie.
* **Mean Square Between Groups (MSB):** Dit is een schatting van de populatievariantie, gebaseerd op de variatie tussen de groepen.
$$MSB = \frac{SSB}{df_{teller}}$$
waarbij $df_{teller} = k - 1$ (aantal groepen min 1).
* **Mean Square Within Groups (MSW) of Mean Square Error (MSE):** Dit is een gepoolde schatting van de populatievariantie, gebaseerd op de variatie binnen de groepen.
$$MSE = \frac{SSW}{df_{noemer}}$$
waarbij $df_{noemer} = N - k$ (totaal aantal observaties min het aantal groepen).
De F-statistiek wordt vervolgens berekend als:
$$F = \frac{MSB}{MSE}$$
#### 3.2.2 Interpretatie van de F-statistiek
* Een F-waarde van 1 betekent dat de variantie tussen de groepen gelijk is aan de variantie binnen de groepen. Onder de nulhypothese wordt verwacht dat de F-statistiek rond de 1 zal liggen.
* Hoge F-waarden (veel groter dan 1) geven aan dat de variantie tussen de groepen aanzienlijk groter is dan de variantie binnen de groepen. Dit levert bewijs tegen de nulhypothese en suggereert dat er significante verschillen zijn tussen de groepsgemiddelden.
* De F-test is een eenzijdige test, gericht op de hogere waarden van de F-verdeling.
### 3.3 De F-verdeling
De F-verdeling is een continue kansverdeling die wordt gebruikt om de F-statistiek te evalueren.
#### 3.3.1 Eigenschappen van de F-verdeling
* De F-verdeling is **rechtsscheef** (positief scheef).
* De waarden van de F-verdeling zijn **altijd positief** ($F \ge 0$).
* De vorm van de F-verdeling wordt bepaald door twee parameters: de **vrijheidsgraden voor de teller** ($df_1$) en de **vrijheidsgraden voor de noemer** ($df_2$).
* De notatie voor een F-verdeling is $F(df_1, df_2)$.
#### 3.3.2 Vrijheidsgraden voor de F-test
In een één-factor ANOVA zijn de vrijheidsgraden als volgt:
* **Teller vrijheidsgraden ($df_1$):** Dit zijn de vrijheidsgraden van de variantie tussen de groepen, gelijk aan het aantal groepen minus 1:
$$df_1 = k - 1$$
* **Noemer vrijheidsgraden ($df_2$):** Dit zijn de vrijheidsgraden van de variantie binnen de groepen (error), gelijk aan het totale aantal observaties minus het aantal groepen:
$$df_2 = N - k$$
waarbij $N$ het totale aantal observaties is en $k$ het aantal groepen.
De verdeling van de ANOVA F-statistiek onder de nulhypothese is dus een $F(k-1, N-k)$ verdeling.
#### 3.3.3 Kritische waarde en beslissingsregel
Om te bepalen of de verkregen F-statistiek significant is, wordt deze vergeleken met een kritieke F-waarde uit een F-verdelingstabel of berekend met software. De kritieke waarde hangt af van het gekozen significantieniveau ($\alpha$) en de vrijheidsgraden ($df_1, df_2$).
* Als de berekende $F$-statistiek groter is dan de kritieke $F$-waarde, verwerpen we de nulhypothese ($H_0$).
* Als de berekende $F$-statistiek kleiner is dan of gelijk is aan de kritieke $F$-waarde, behouden we de nulhypothese ($H_0$).
$$F_{berekend} > F_{kritiek} \implies \text{Verwerp } H_0$$
> **Tip:** De $p$-waarde die statistische software rapporteert, is de kans om een F-statistiek te observeren die zo extreem of extremer is dan de berekende F-statistiek, aannemende dat de nulhypothese waar is. Als de $p$-waarde kleiner is dan het gekozen $\alpha$, verwerpen we de nulhypothese.
### 3.4 Voorwaarden voor ANOVA
Om de resultaten van een één-factor ANOVA betrouwbaar te kunnen interpreteren, moeten aan de volgende voorwaarden worden voldaan:
1. **Onafhankelijke steekproeven:** De observaties binnen elke groep en tussen de groepen moeten onafhankelijk zijn. Dit betekent dat de meting bij één individu geen invloed mag hebben op de meting bij een ander individu.
2. **Normaliteit:** De populaties waaruit de steekproeven zijn getrokken, moeten normaal verdeeld zijn. Voor grotere steekproefgroottes is ANOVA redelijk robuust tegen schendingen van deze aanname.
3. **Homogeniteit van varianties (homoscedasticiteit):** De populaties waaruit de steekproeven zijn getrokken, moeten gelijke varianties hebben ($\sigma^2_1 = \sigma^2_2 = \dots = \sigma^2_k$).
* **Vuistregel:** De resultaten van een ANOVA F-test zijn bij benadering correct als de verhouding van de grootste steekproefstandaarddeviatie tot de kleinste steekproefstandaarddeviatie niet groter is dan 2.
* **Testen van homogeniteit van varianties:** Tests zoals de Bartlett-test of Levene-test kunnen worden gebruikt om deze aanname te controleren. Indien deze aanname geschonden wordt, kunnen aangepaste ANOVA-methoden of niet-parametrische toetsen (zoals de Welch ANOVA) worden gebruikt.
> **Voorbeeld:** In een onderzoek naar de effectiviteit van drie verschillende leermethoden (Klassiek, DRTA, Strat) op leesvaardigheid, moeten de scores van de leerlingen binnen elke methode normaal verdeeld zijn en mag de spreiding (variantie) van de leesvaardigheidsscores ongeveer gelijk zijn voor de drie groepen.
### 3.5 De F-statistiek en de $t$-toets
Voor het geval van twee groepen ($k=2$) is de F-statistiek in ANOVA nauw verwant aan de $t$-statistiek van een onafhankelijke $t$-toets. Als de steekproefgroottes gelijk zijn ($n_1 = n_2 = n$), dan geldt:
$$F = t^2$$
Dit is logisch, aangezien een $t$-toets een verschil tussen twee gemiddelden onderzoekt, wat overeenkomt met het verwerpen van de nulhypothese in ANOVA wanneer er maar twee groepen zijn.
### 3.6 Gevolgen van een significante F-test
Wanneer de omnibus ANOVA-test resulteert in een significante F-statistiek (wat leidt tot het verwerpen van $H_0$), weten we alleen dat *niet alle* populatiegemiddelden gelijk zijn. Het vertelt ons echter niet *welke* specifieke gemiddelden van elkaar verschillen. Om dit te achterhalen, zijn verdere post-hoc analyses nodig.
#### 3.6.1 Meervoudige vergelijkingen (Post-hoc tests)
Als de nulhypothese wordt verworpen, worden meervoudige vergelijkingstesten (post-hoc tests) gebruikt om paarsgewijze vergelijkingen tussen de groepsgemiddelden uit te voeren. Deze tests houden rekening met de herhaalde vergelijkingen om het totale Type I foutpercentage te controleren. Enkele veelgebruikte methoden zijn:
* **LSD (Least Significant Difference):** Een reeks onafhankelijke $t$-toetsen zonder correctie voor meervoudige vergelijkingen. Dit wordt vaak te liberaal bevonden.
* **Bonferroni-correctie:** Een strenge methode die het significantieniveau voor elke individuele test aanpast ($\alpha / \text{aantal paren}$) om het totale Type I foutpercentage te controleren. Dit kan leiden tot een verminderd onderscheidingsvermogen (power).
* **Tukey's HSD (Honestly Significant Difference):** Een populaire test die het vergelijkt met de Studentized range verdeling en het experiment-wijde foutpercentage controleert.
* **Scheffé-test:** Een conservatievere test die gebruikt kan worden voor alle mogelijke lineaire combinaties van groepsgemiddelden, niet alleen paarsgewijze vergelijkingen.
#### 3.6.2 Contrasten
Contrasten zijn specifiek geplande vergelijkingen die worden uitgevoerd wanneer er voorafgaand aan het onderzoek duidelijke wetenschappelijke hypothesen bestaan over verwachte verschillen tussen bepaalde groepen. Contrasten hebben vaak meer power dan algemene post-hoc tests omdat ze gerichter zijn.
* Een contrast is een lineaire combinatie van populatiegemiddelden met coëfficiënten die optellen tot nul:
$$\psi = a_1 \mu_1 + a_2 \mu_2 + \dots + a_k \mu_k, \quad \sum_{i=1}^k a_i = 0$$
* Het overeenkomstige steekproefcontrast is:
$$c = a_1 \bar{x}_1 + a_2 \bar{x}_2 + \dots + a_k \bar{x}_k$$
* De standaardfout van $c$ wordt berekend met behulp van de Mean Square Error (MSE) en de steekproefgroottes.
* Hypothesetoetsen voor contrasten maken gebruik van de $t$-statistiek met vrijheidsgraden gelijk aan de error vrijheidsgraden ($N-k$).
> **Voorbeeld:** In een experiment met een placebo-groep en twee behandelgroepen (A en B), kan een gepland contrast zijn om de gemiddelde effectiviteit van de twee actieve behandelingen te vergelijken met de placebo. Bijvoorbeeld, als de groepen zijn gecodeerd als 1=Placebo, 2=Behandeling A, 3=Behandeling B, kan een contrast zijn: $\psi = -2\mu_1 + \mu_2 + \mu_3$. De steekproefcoëfficiënt zou dan zijn: $c = -2\bar{x}_1 + \bar{x}_2 + \bar{x}_3$.
Als er geen duidelijke vooraf gespecificeerde hypothesen zijn, worden meervoudige vergelijkingstesten (zoals Tukey's HSD) aanbevolen in plaats van contrasten. Het is niet gepast om contrasten te bepalen op basis van verschillen die pas na dataverzameling worden vastgesteld.
---
# Contrasten en meervoudige vergelijkingen in variantie-analyse
Dit onderwerp behandelt de statistische methoden die worden gebruikt om specifieke groepsverschillen te onderzoeken na een significante uitkomst van een variantie-analyse (ANOVA).
### 4.1 De noodzaak voor post-hoc analyses
Een significante uitkomst van een ANOVA (d.w.z. de nulhypothese dat alle populatiegemiddelden gelijk zijn wordt verworpen) indiceert dat er ten minste één paar groepsgemiddelden significant van elkaar verschilt. Echter, de ANOVA zelf identificeert niet *welke* specifieke groepen significant van elkaar verschillen. Om dit te achterhalen, zijn aanvullende analyses, bekend als contrasten en meervoudige vergelijkingstests, vereist.
* **Probleem van herhaalde t-toetsen:** Het uitvoeren van meerdere paarsgewijze t-toetsen na een ANOVA leidt tot een verhoogde kans op een Type I fout (het ten onrechte verwerpen van de nulhypothese). Dit fenomeen wordt "capitalizing on chance" genoemd. Voor elke t-toets is er een kans $\alpha$ op een Type I fout. Bij $m$ vergelijkingen kan de kans op ten minste één Type I fout aanzienlijk toenemen, wat leidt tot onbetrouwbare conclusies.
> **Tip:** ANOVA is een "omnibus" test die aangeeft *of* er een verschil is, maar niet *waar*. Voor specifieke groepsverschillen zijn post-hoc tests essentieel.
### 4.2 Contrasten
Contrasten zijn vooraf gespecificeerde, wetenschappelijk gemotiveerde vergelijkingen tussen groepsgemiddelden. Ze worden gebruikt wanneer er *voorafgaand* aan de dataverzameling duidelijke hypothesen zijn over specifieke verschillen tussen groepen.
* **Kenmerken van contrasten:**
* **Geplande vergelijkingen:** Contrasten zijn geplande vergelijkingen die deel uitmaken van het onderzoeksdesign.
* **Hoger onderscheidingsvermogen (power):** Vanwege hun specificiteit hebben contrasten een beter onderscheidingsvermogen dan meervoudige vergelijkingstests, waardoor ze beter in staat zijn om significante verschillen te detecteren.
* **Statistische toetsing:** Contrasten kunnen worden getoetst met een t-test, en betrouwbaarheidsintervallen kunnen worden berekend.
* **Onafhankelijkheid van ANOVA:** De resultaten van contrasten zijn geldig, ongeacht de uitkomst van de omnibus ANOVA-toets.
* **Lineaire combinaties:** Een contrast is een lineaire combinatie van populatiegemiddelden $\mu_i$ met coëfficiënten $a_i$, zodanig dat $\sum a_i = 0$.
$$ \psi_k = a_1 \mu_1 + a_2 \mu_2 + \dots + a_r \mu_r $$
waar $r$ het aantal groepen is.
* **Hypothesetoetsing voor contrasten:**
* **Nulhypothese:** $H_0: \psi_k = 0$
* **Steekproefcontrast:** Het overeenkomstige steekproefcontrast is:
$$ c = a_1 \bar{y}_1 + a_2 \bar{y}_2 + \dots + a_r \bar{y}_r $$
waar $\bar{y}_i$ het steekproefgemiddelde is van groep $i$.
* **Standaardfout van het contrast:** De standaardfout van $c$ wordt berekend met behulp van de gepoolde variantie ($MSE$):
$$ SE_c = \sqrt{MSE \sum_{i=1}^r \frac{a_i^2}{n_i}} $$
waar $n_i$ de steekproefgrootte van groep $i$ is.
* **Toetsingsgrootheid:** De t-statistiek wordt berekend als:
$$ t = \frac{c}{SE_c} $$
met vrijheidsgraden $df = N - r$, waar $N$ het totale aantal waarnemingen is en $r$ het aantal groepen.
* **Betrouwbaarheidsinterval:** Een niveau $C$ betrouwbaarheidsinterval voor het verschil $\psi_k$ is:
$$ c \pm t_{crit} \cdot SE_c $$
waar $t_{crit}$ de kritieke waarde is die overeenkomt met de gewenste betrouwbaarheid en de vrijheidsgraden $df$.
* **Voorbeeld van contrasten:**
* Vergelijken van een klassieke methode met twee nieuwe methoden: $a = (-1, 0.5, 0.5)$.
* Vergelijken van twee nieuwe methoden onderling: $a = (0, 1, -1)$.
* **Contrasten in statistische software:** Verschillende statistische softwarepakketten, zoals R (met de `gmodels` library) en SPSS, bieden functionaliteit voor het uitvoeren van contrasten. Vaak moeten de coëfficiënten $a_i$ handmatig worden opgegeven.
> **Tip:** Gebruik altijd de gepoolde variantie en bijbehorende vrijheidsgraden bij het berekenen van contrasten, aangezien dit een betere schatting van de populatievariantie oplevert.
### 4.3 Meervoudige vergelijkingstests (Post-hoc tests)
Meervoudige vergelijkingstests worden gebruikt wanneer er *geen* vooraf gespecificeerde hypothesen zijn en men alle mogelijke paarsgewijze vergelijkingen tussen groepen wil onderzoeken na een significante ANOVA. Deze tests passen correcties toe om de kans op Type I fouten te beheersen.
* **Basis:** Meervoudige vergelijkingstests zijn varianten van de tweesteekproeven t-test, gebaseerd op de gepoolde standaarddeviatie ($s_p$) en de gepoolde vrijheidsgraden ($df_E$).
* **Doel:** Controle van de "family-wise error rate" (FWER), de kans op ten minste één Type I fout over alle uitgevoerde vergelijkingen.
* **Methoden voor meervoudige vergelijkingen:**
* **LSD-methode (Least Significant Differences):**
* Voert paarsgewijze t-toetsen uit zonder aanpassing voor meervoudige vergelijkingen.
* De kritieke waarde $t^*$ is de kritieke waarde voor $\alpha/2$ uit de t-verdeling met $df_E$ vrijheidsgraden.
* **Probleem:** Verhoogt aanzienlijk de kans op Type I fouten bij veel vergelijkingen.
* **Bonferroni-methode:**
* Past de t-toets aan door de significantieniveaus aan te scherpen.
* De $\alpha$ voor elke individuele toets wordt ingesteld op $\alpha/m$, waarbij $m$ het aantal paarsgewijze vergelijkingen is.
* De kritieke waarde $t^*$ is gebaseerd op deze aangepaste $\alpha$.
* **Voordeel:** Controleert de FWER.
* **Nadeel:** Kan conservatief zijn, wat leidt tot een lager onderscheidingsvermogen (meer Type II fouten).
* **Tukey's Honestly Significant Difference (HSD):**
* Gebruikt de Studentized range statistic om alle paarsgewijze vergelijkingen te maken.
* Houdt de FWER op het niveau $\alpha$ voor de gehele reeks van paarsgewijze vergelijkingen.
* Zeer geschikt voor gelijke steekproefgroottes.
* **Andere methoden (beschikbaar in SPSS/R):**
* **Sidak:** Vergelijkbaar met Bonferroni, maar iets minder conservatief.
* **Scheffé:** Kan gebruikt worden voor alle mogelijke lineaire combinaties van groepsgemiddelden, niet alleen paarsgewijze vergelijkingen. Gebruikt de F-verdeling.
* **R-E-G-W F/Q (Ryan-Einot-Gabriel-Welsch):** Stepdown procedures gebaseerd op F of Studentized range.
* **S-N-K (Student-Newman-Keuls):** Gebruikt de Studentized range, maar is minder conservatief dan Tukey's HSD.
* **Duncan:** Gebruikt de Studentized range, maar is nog minder conservatief.
* **Hochberg's GT2:** Gebruikt de Studentized maximum modulus.
* **Gabriel:** Kan krachtiger zijn dan Hochberg's GT2 bij ongelijke celgroottes.
* **Waller-Duncan:** Een Bayesiaanse benadering.
* **Dunnett:** Specifiek voor het vergelijken van meerdere behandelgroepen met één controlegroep.
* **Vergelijkingen bij ongelijke varianties:** Wanneer de aanname van gelijke varianties (homogeniteit van varianties) geschonden is, zijn specifieke post-hoc tests aangewezen:
* **Tamhane's T2:** Conservatieve t-test gebaseerd.
* **Dunnett's T3:** Gebaseerd op de Studentized maximum modulus.
* **Games-Howell:** Een pairwise vergelijkingstest die soms liberaler is.
* **Dunnett's C:** Gebaseerd op de Studentized range.
* **Post-hoc tests in statistische software:** SPSS biedt een uitgebreid menu voor "Post Hoc tests" waarbij verschillende methoden geselecteerd kunnen worden, inclusief opties voor gelijkheid van varianties. In R kan `TukeyHSD(model)` gebruikt worden voor Tukey's HSD, en `pairwise.t.test()` biedt flexibiliteit voor verschillende p-adjuncties (correcties).
> **Tip:** Bij het interpreteren van post-hoc tests is het cruciaal om te weten welke methode is gebruikt, aangezien dit de significantiedrempel en de kans op fouten beïnvloedt.
### 4.4 Toepassing: Gepercipieerde moeilijkheid van oefeningen
Een voorbeeld scenario betreft de gepercipieerde moeilijkheid van wiskundeoefeningen, waarbij studenten aan verschillende groepen (simpel, matig, moeilijk) werden toegewezen. Na een significante ANOVA, zou men post-hoc tests kunnen toepassen om te bepalen welke suggesties van moeilijkheid leidden tot significant verschillende percepties.
* **Contrasten:** Men zou vooraf kunnen hypothesen formuleren zoals:
1. Is de perceptie van de 'moeilijk' groep significant verschillend van het gemiddelde van de 'simpel' en 'matig' groepen? ($a = (-1, 0.5, 0.5)$).
2. Verschilt de 'simpel' groep significant van de 'matig' groep? ($a = (1, -1, 0)$).
* **Meervoudige vergelijkingen:** Indien er geen vooraf bepaalde hypothesen zijn, kunnen paarsgewijze vergelijkingen met bijvoorbeeld Tukey's HSD worden uitgevoerd om alle mogelijke paren te vergelijken: (simpel vs. matig), (simpel vs. moeilijk), en (matig vs. moeilijk).
> **Voorbeeld:** Stel dat de gemiddelde scores voor gepercipieerde moeilijkheid zijn: Simpel (gem. 8.2), Matig (gem. 7.0), Moeilijk (gem. 2.8). Een ANOVA zou kunnen aantonen dat er significante verschillen zijn. Een post-hoc test zou vervolgens kunnen onthullen dat de 'Moeilijk' groep significant lager scoort dan zowel de 'Simpel' als de 'Matig' groepen, terwijl het verschil tussen 'Simpel' en 'Matig' mogelijk niet significant is.
### 4.5 Voorwaarden voor ANOVA en post-hoc analyses
De geldigheid van zowel de ANOVA als de daaropvolgende contrasten en meervoudige vergelijkingstests is afhankelijk van bepaalde aannames:
1. **Onafhankelijke steekproeven:** De steekproeven uit de verschillende populaties of condities moeten onafhankelijk zijn.
2. **Normaliteit:** De responsvariabele moet in elke populatie (of groep) normaal verdeeld zijn.
3. **Homogeniteit van varianties (homoscedasticiteit):** De populaties moeten dezelfde onbekende standaarddeviatie $\sigma$ hebben. Een vuistregel is dat de verhouding van de grootste tot de kleinste steekproefstandaarddeviatie niet groter mag zijn dan 2.
* Tests voor homogeniteit van varianties zijn onder andere de Bartlett's test of Levene's test.
* Bij schending van deze aanname moeten specifieke post-hoc tests worden gebruikt die hier rekening mee houden (zie sectie 4.3).
> **Tip:** Controleer altijd de aannames van de ANOVA voordat u interpretaties van contrasten of meervoudige vergelijkingen doet. Schending van aannames kan leiden tot ongeldige resultaten.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Eén-factor variantie-analyse | Een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken door de variatie tussen de groepen te vergelijken met de variatie binnen de groepen. |
| Nulhypothese (H0) | Een stelling die stelt dat er geen statistisch significant verschil is tussen de gemiddelden van de populaties die worden vergeleken in een analyse. |
| Alternatieve hypothese (HA) | Een stelling die stelt dat er wel een statistisch significant verschil is tussen de gemiddelden van de populaties die worden vergeleken, wat aangeeft dat ten minste één gemiddelde significant verschilt van de andere. |
| Paarsgewijze t-toetsen | Statistische toetsen die worden gebruikt om de gemiddelden van twee groepen te vergelijken. Het herhaaldelijk uitvoeren van deze toetsen kan leiden tot een verhoogd risico op een Type I fout. |
| Capitalizing on chance | Het fenomeen waarbij door herhaaldelijke toetsingen, zelfs bij afwezigheid van echte effecten, significantie wordt gevonden, wat leidt tot valse positieven. |
| Boxplot (Doosdiagram) | Een grafische weergave van de spreiding van data die de mediaan, kwartielen en uitschieters toont. Hoewel nuttig voor datavisualisatie, vergelijkt ANOVA gemiddelden in plaats van medianen. |
| Lijndiagram | Een grafische weergave die de trend van data over tijd of verschillende categorieën toont, vaak gebruikt om gemiddelden van groepen te visualiseren. |
| Variabliteit | De mate waarin gegevenspunten of waarden afwijken van het gemiddelde. In ANOVA wordt zowel de variatie tussen groepen als binnen groepen geëvalueerd. |
| Onafhankelijke Enkelvoudige Aselecte Steekproeven | Een methode van steekproeftrekking waarbij elke populatie een gelijke kans heeft om geselecteerd te worden en de selectie van de ene populatie geen invloed heeft op de selectie van een andere. |
| Homogeniteit van varianties | De aanname dat de varianties van de populaties waaruit de steekproeven zijn getrokken, gelijk zijn. Tests zoals de Bartlett-test of Levene-test worden gebruikt om deze aanname te controleren. |
| ANOVA-model | Een wiskundig model dat een waarneming beschrijft als een som van een modelterm (die de groepsgemiddelden vertegenwoordigt) en een residu (die de resterende, onverklaarde variatie vertegenwoordigt). |
| Parameters | De waarden in een statistisch model die de populatiekarakteristieken vertegenwoordigen, zoals populatiegemiddelden (µ) en standaarddeviaties (σ). |
| Schatters | Statistieken berekend uit steekproefdata die worden gebruikt om populatieparameters te benaderen, zoals steekproefgemiddelden en steekproefstandaarddeviaties. |
| F-statistiek | De statistiek die wordt berekend in een ANOVA-test, die de ratio van de variantie tussen groepen tot de variantie binnen groepen weergeeft. Een hogere F-waarde suggereert significantie. |
| Vrijheidsgraden (df) | Het aantal waarden in een berekening dat vrij kan variëren. In ANOVA worden vrijheidsgraden gebruikt voor de teller (tussen groepen) en de noemer (binnen groepen) van de F-statistiek. |
| F-verdeling | Een continue kansverdeling die voornamelijk wordt gebruikt in hypothesetoetsing. Het is een familie van rechts-scheve verdelingen, gedefinieerd door twee parameters: vrijheidsgraden voor de teller en de noemer. |
| Verklaarde variantie | Het deel van de totale variantie in de afhankelijke variabele dat wordt verklaard door de onafhankelijke variabele(n) in het model. Gerelateerd aan de determinatiecoëfficiënt in regressie. |
| Contrasten | Specifiek geplande vergelijkingen van populatiegemiddelden, vaak met specifieke hypotheses, die een beter onderscheidend vermogen (power) kunnen hebben dan algemene meervoudige vergelijkingen. |
| Meervoudige vergelijkingen | Statistische procedures die worden toegepast wanneer er meer dan twee groepen zijn om de kans op een Type I fout te beheersen bij het uitvoeren van meerdere paarsgewijze vergelijkingen. Voorbeelden zijn LSD, Bonferroni en Tukey. |
| LSD-methode (Least Significant Differences) | Een methode voor meervoudige vergelijkingen die paarsgewijze t-toetsen gebruikt zonder aanpassing van het alfarasico voor meervoudige toetsingen, wat leidt tot een verhoogd Type I foutrisico. |
| Bonferroni-methode | Een conservatieve methode voor meervoudige vergelijkingen waarbij de alpha voor elke individuele toets wordt aangepast om het totale Type I foutrisico voor alle vergelijkingen te beperken. |
| Tukey's HSD (Honestly Significant Difference) | Een methode voor meervoudige vergelijkingen die de Studentized range statistic gebruikt om alle paarsgewijze vergelijkingen tussen groepen uit te voeren en het experimentwise error rate controleert. |
| Post Hoc tests | Tests die worden uitgevoerd na een significante ANOVA-uitkomst om te bepalen welke specifieke groepsgemiddelden significant van elkaar verschillen. |
Cover
STA3set1Hfst06Inleiding%26Power.pptx
Summary
# Inleiding tot statistiek en studie-informatie
Dit document introduceert de cursus Statistiek III, de docenten en assistenten, en de praktische organisatie van de cursus, inclusief studiefiche wijzigingen, evaluatiecriteria en inschrijvingsprocedures voor werkplekonderwijs (WPO's), met een terugblik op voorkennis uit Statistiek I en II.
## 1. Inleiding tot statistiek en studie-informatie
### 1.1 Cursusoverzicht en personeel
De cursus Statistiek III behandelt univariate data-analyse. De cursus wordt gegeven door professor Peter Theuns en ondersteund door assistenten Alain Isaac, Alyson Staels en Jeroen Frans.
#### 1.1.1 Contactgegevens en kantooruren
* **Professor Peter Theuns:**
* E-mail: Peter.Theuns@vub.be
* Kantoor: C3.45
* Telefoon: +322 6292056
* Kantooruren: op afspraak via e-mail
* **Assistent Alain Isaac:**
* E-mail: Alain.Isaac@vub.be
* Kantoor: C3.19
* Kantooruren: op afspraak via e-mail
* **Assistent Alyson Staels:**
* E-mail: Alyson.Staels@vub.be
* Kantoor: C3.12
* Kantooruren: op afspraak via e-mail
* **Assistent Jeroen Frans:**
* E-mail: Jeroen.Frans@vub.be
* Kantoor: C3.19
* Kantooruren: op afspraak via e-mail
### 1.2 Wijzigingen studiefiche en evaluatiecriteria
De beoordeling van de cursus bestaat uit één onderdeel: een schriftelijk examen dat 100% van het eindcijfer bepaalt. Dit examen omvat theorie, oefeningen en software-toepassingen.
### 1.3 Werkplekonderwijs (WPO's)
#### 1.3.1 Inschrijven voor WPO-groepen
Inschrijven voor een WPO-groep is mogelijk vanaf vrijdag 26 september om 12 uur in CANVAS. Studenten kunnen zichzelf inschrijven in een groep naar keuze, maar dienen de doelgroep te respecteren vanwege mogelijke rooster-overlaps. De WPO's starten vanaf week 3 (29/09 – 03/10).
#### 1.3.2 Groepsindeling WPO's
Er zijn verschillende groepen voor WPO's, elk met een specifieke doelgroep:
* **Groep 1:** Werk-, reguliere en schakelstudenten.
* **Groep 2:** Enkel schakelstudenten.
* **Groep 3:** Momenteel geen inschrijving mogelijk.
* **Groep 4:** Schakel- (en reguliere) studenten (reserve indien andere groepen volzet zijn).
* **Groep 5-8:** Reguliere studenten.
#### 1.3.3 Praktische richtlijnen voor WPO's
* Gebruik eenvoudige wetenschappelijke rekenmachines (maximaal 30 euro). Gebruik geen mobiele telefoons of tablets.
* WPO-lesopnames zijn geen vervanging voor live lessen.
#### 1.3.4 Vragen stellen
* **Inhoudelijke vragen** (bv. over oefeningen) kunnen gesteld worden via het discussieplatform op CANVAS.
* **Praktische vragen** (bv. over lesrooster) en **persoonlijke vragen** (bv. over ziekte of studietraject) kunnen per e-mail aan het statistiekteam gestuurd worden (altijd het hele team in CC zetten).
* Tijdens het hoorcollege (HOC) of WPO kunnen vragen gesteld worden aan professor Theuns of de begeleidende assistent.
* Vragen worden opgevolgd tot het einde van de lessenreeks, met een finale Q&A tijdens de blokperiode.
#### 1.3.5 Voorbereiding WPO 1
Bereid WPO 1 goed voor, aangezien deze les een herhaling is van de z-toets en de oefeningen 1, 2 en 3 behandelt.
### 1.4 Terugblik op voorkennis: Statistiek I en II
#### 1.4.1 Statistiek I: Univariate data-analyse
Statistiek I omvatte:
* **Meetschalen:** Begrijpen van verschillende niveaus van meten.
* **Beschrijvende Statistiek:**
* **Ordeningstechnieken:** Tabellen en figuren voor het organiseren van data.
* **Reductietechnieken:** Statistische grootheden zoals positie, spreiding en vorm (bv. gemiddelde, standaarddeviatie, scheefheid).
* **Associatietechnieken:** Spreidingsdiagrammen, contingentietabellen en correlatie voor het analyseren van relaties tussen variabelen.
#### 1.4.2 Statistiek II: Kansrekening en inferentiële statistiek
Statistiek II omvatte:
* **Kansrekening:** De studie van het toeval.
* **Steekproevenverdelingen (Sampling distributions):** De verdeling van een statistiek (bv. gemiddelde) berekend uit herhaalde steekproeven.
* **Inleiding tot inferentie:**
* Betrouwbaarheidsintervallen: Schatting van populatieparameters.
* Overschrijdingskans (p-waarde): De kans op het observeren van data minstens zo extreem als de waargenomen data, onder de aanname dat de nulhypothese waar is.
* Significantietoetsen: Het testen van hypothesen over populatieparameters.
* **Inductieve technieken:** Het generaliseren van steekproefresultaten naar de populatie.
### 1.5 Steekproevenverdelingen van het steekproefgemiddelde
#### 1.5.1 Verwachting en standaarddeviatie van steekproefgemiddelden
Voor steekproeven uit een populatie met gemiddelde $\mu$ en standaarddeviatie $\sigma$:
* De verwachting van het steekproefgemiddelde $\bar{X}$ is gelijk aan het populatiegemiddelde: $E(\bar{X}) = \mu$.
* De standaarddeviatie van het steekproefgemiddelde (ook wel standaardfout genoemd) is $\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}$, waarbij $n$ de steekproefgrootte is.
#### 1.5.2 Centrale Limietstelling (CLT)
* **Stelling:** Wanneer men herhaaldelijk toevallige steekproeven met grootte $n$ trekt uit een populatie met gemiddelde $\mu$ en standaarddeviatie $\sigma$:
* Als de populatie **normaal verdeeld** is, dan is de steekproevenverdeling van de steekproefgemiddelden normaal verdeeld met gemiddelde $\mu$ en standaardafwijking $\frac{\sigma}{\sqrt{n}}$.
* Als de populatie **willekeurig verdeeld** is, dan benadert de steekproevenverdeling van de steekproefgemiddelden een normaalverdeling, mits $n$ voldoende groot is (vuistregel: $n \ge 30$). De steekproevenverdeling is dan gecentreerd rond $\mu$ en heeft een standaardafwijking van $\frac{\sigma}{\sqrt{n}}$.
> **Tip:** De Centrale Limietstelling is cruciaal voor inferentiële statistiek, omdat het ons toestaat om met behulp van de normaalverdeling uitspraken te doen over populatiegemiddelden, zelfs als de populatieverdeling onbekend of niet-normaal is, mits de steekproefgrootte voldoende groot is.
#### 1.5.3 Intuïtie voor intervalschatten (voorbeeld SAT)
Een voorbeeld met de Scholastic Aptitude Test (SAT) illustreert het concept van betrouwbaarheidsintervallen, gebaseerd op de steekproevenverdeling van het gemiddelde. Als een steekproefgemiddelde van de SAT-math sectie bijvoorbeeld 461 is, en we weten dat de standaardfout van het gemiddelde (gebaseerd op de standaarddeviatie van de populatie en de steekproefgrootte) ongeveer 4.5 is, dan impliceert de 68-95-99.7-regel dat 95% van de steekproefgemiddelden binnen 2 standaardfouten van het populatiegemiddelde $\mu$ ligt. Dit betekent dat het populatiegemiddelde met 95% betrouwbaarheid binnen een interval van $\pm 2 \times 4.5 = 9$ punten van het steekproefgemiddelde ligt. Dus, we kunnen zeggen met 95% betrouwbaarheid dat het populatiegemiddelde van de SAT-scores tussen $461-9$ en $461+9$ ligt.
### 1.6 Hypothesetoetsen
#### 1.6.1 z-toets voor onafhankelijke steekproeven
De z-toets voor onafhankelijke steekproeven wordt gebruikt om de gemiddelden van twee populaties te vergelijken.
* **Voorbeeld:** Vergelijken van gemiddelden van "gewone studenten" en "slimmeriken".
* Onder de nulhypothese ($H_0$) wordt aangenomen dat de gemiddelden van de twee populaties gelijk zijn ($\mu_1 = \mu_2$).
* De steekproevenverdeling van het verschil tussen de gemiddelden ($\bar{X}_1 - \bar{X}_2$) wordt beschouwd.
* Als de waargenomen steekproefverschillen groot zijn (bv. 39 punten), en de nulhypothese zou gelden, dan is de kans op zo'n groot verschil klein (lage p-waarde).
* De z-score wordt berekend als:
$$z = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$$
Onder de nulhypothese $\mu_1 - \mu_2 = 0$. Als de standaarddeviaties van de populaties bekend zijn (of geschat worden met de populatiestandaarddeviatie $\sigma$), kan de z-score berekend worden.
* In het voorbeeld, met een verschil van 39 en een berekende standaardfout van het verschil, kan een z-score van 8.72 worden verkregen, wat resulteert in een p-waarde van minder dan 0.001.
#### 1.6.2 Significantietoets in 4 stappen
1. **Formuleer de nul- en de alternatieve hypothesen ($H_0$ en $H_a$).**
2. **Bepaal de waarde van de toetsingsgrootheid** (bv. z-score).
3. **Bepaal de overschrijdingskans (p-waarde) voor de toetsingsgrootheid** (theoretisch of via resampling).
4. **Formuleer de conclusie in APA-stijl.**
> **Voorbeeld Conclusie APA-stijl:** Gewone studenten behalen gemiddeld (gem=461) significant lagere scores dan slimmerikken (gem=500), $z=8.72$; $p<.001$.
#### 1.6.3 Onderscheidingsvermogen (Power)
* **Definitie:** Het onderscheidingsvermogen (power) is de kans om een ware nulhypothese ($H_0$) correct te verwerpen wanneer de alternatieve hypothese ($H_a$) waar is. Het is de kans op het detecteren van een effect als dat effect daadwerkelijk bestaat.
* **Type I fout (alfa $\alpha$):** De kans om $H_0$ te verwerpen terwijl deze correct is (onjuist verwerpen). Dit wordt bepaald door het significantieniveau van de test.
* **Type II fout (bèta $\beta$):** De kans om $H_0$ niet te verwerpen terwijl deze vals is (onjuist niet verwerpen).
* **Power = 1 - $\beta$:** De kans om $H_0$ correct te verwerpen.
> **Tip:** Een hoger onderscheidingsvermogen is wenselijk omdat het de kans vergroot om werkelijke effecten te detecteren. Factoren die het onderscheidingsvermogen verhogen zijn een grotere steekproefgrootte ($n$), een groter effect (verschil tussen groepen) en een kleiner significantieniveau ($\alpha$).
#### 1.6.4 Voorbeeld: Onderscheidingsvermogen bij een z-toets (brildragers)
* **Context:** Een onderzoek naar oogbewegingen waarbij de afwijking tussen de werkelijke positie van een vlekje en de aangeklikte positie wordt gemeten.
* **Populatiegegevens (niet-brildragers):** Normaal verdeeld met $\mu = 0$ cm en $\sigma = 0.5$ cm.
* **Hypothese:** Onderzoekers vermoeden dat brildragers een systematische fout maken van + 2 mm (0.2 cm), wat leidt tot een gemiddelde afwijking van 0.2 cm. Indien de gemiddelde afwijking van brildragers 3 mm (0.3 cm) of meer bedraagt, zouden hun data als onbruikbaar worden beschouwd en zouden ze uitgesloten worden.
* **Onderzoek met 35 brildragers:**
* **Nulhypothese ($H_0$):** Brildragers hebben geen grotere afwijking dan niet-brildragers ($\mu_{brildragers} \le 0$).
* **Alternatieve hypothese ($H_a$):** Brildragers hebben een grotere afwijking ($\mu_{brildragers} > 0$).
* Er wordt een significantieniveau $\alpha$ gekozen.
* **Kritieke waarde:** De kritieke waarde voor het steekproefgemiddelde onder $H_0$ wordt bepaald. Als de gemiddelde afwijking in een steekproef van 35 brildragers groter is dan deze kritieke waarde, wordt $H_0$ verworpen.
* In het gegeven voorbeeld is de kritieke waarde voor de gemiddelde afwijking in een steekproef met $N=35$ (onder $H_0$) $0.1386$ cm.
* De onderzochte steekproef van 35 brildragers levert een gemiddelde afwijking van 0.12 cm op. Aangezien $0.12 < 0.1386$, is de z-toets "niet significant" en wordt $H_0$ niet verworpen. Dit betekent dat, op basis van deze steekproef, er geen statistisch significant bewijs is dat brildragers een grotere afwijking hebben dan niet-brildragers.
* **Berekening van Onderscheidingsvermogen:**
* Stel dat de *echte* gemiddelde afwijking van brildragers 3 mm (0.3 cm) zou zijn.
* Het onderscheidingsvermogen is de kans om deze afwijking te detecteren. Dit is de kans dat het steekproefgemiddelde groter is dan de kritieke waarde ($0.1386$) onder de aanname dat het ware gemiddelde $0.3$ cm is.
* $P(\bar{X} > 0.1386 \mid \mu = 0.3) = P(Z > \frac{0.1386 - 0.3}{0.5 / \sqrt{35}}) \approx P(Z > -1.91) \approx 0.9719$.
* Dit betekent dat als het echte gemiddelde verschil 0.3 cm is, er een 97.19% kans is dat de toets significant zal zijn (dus $H_0$ correct wordt verworpen).
> **Voorbeeld:** Als het echte verschil (gemiddelde afwijking bij brildragers) 3 mm bedraagt, dan zal dit verschil in 97% van de steekproeven gedetecteerd worden als significant, waardoor brildragers correct uitgesloten zouden worden. Dit toont een hoog onderscheidingsvermogen.
#### 1.6.5 Beslissingsfouten en overzicht
| | $H_0$ is waar | $H_0$ is vals ( $H_a$ is waar) |
| :--------------------- | :------------------------- | :---------------------------- |
| **$H_0$ niet verwerpen** | Correct niet verwerpen (1-$\alpha$) | Type II fout ($\beta$) |
| **$H_0$ verwerpen** | Type I fout ($\alpha$) | Correct verwerpen (Power, 1-$\beta$) |
* **Onderscheidingsvermogen en $\alpha$:** Een kleiner $\alpha$ (strenger significantieniveau) verlaagt de kans op een Type I fout, maar verhoogt de kans op een Type II fout en verlaagt dus het onderscheidingsvermogen.
* **Onderscheidingsvermogen en $n$ & $\sigma$:** Een grotere steekproefgrootte ($n$) en een kleinere populatiestandaarddeviatie ($\sigma$) verhogen het onderscheidingsvermogen.
* **Onderscheidingsvermogen en $\mu_0$ vs $\mu_A$:** Hoe groter het verschil tussen de nulhypothese gemiddelde ($\mu_0$) en het alternatieve hypothese gemiddelde ($\mu_A$), hoe groter het onderscheidingsvermogen.
---
# Steekproevenverdelingen en centrale limietstelling
Dit onderwerp introduceert het concept van steekproevenverdelingen, met een specifieke focus op de verdeling van het steekproefgemiddelde, en legt de centrale limietstelling uit.
### 2.1 Steekproevenverdelingen van het steekproefgemiddelde
Een steekproevenverdeling beschrijft de verdeling van een statistiek (zoals het gemiddelde) verkregen uit meerdere steekproeven van dezelfde grootte uit een populatie. Voor opeenvolgende enkelvoudige aselecte steekproeven (SRS) uit een populatie, is de steekproevenverdeling van het steekproefgemiddelde ($\bar{x}$) gecentreerd rond het populatiegemiddelde ($\mu$). De spreiding van de steekproevenverdeling is echter kleiner dan de spreiding van de populatieverdeling.
#### 2.1.1 Verwachting en standaarddeviatie van steekproefgemiddelden
De verwachting van het steekproefgemiddelde is gelijk aan het populatiegemiddelde:
$$ E(\bar{x}) = \mu $$
De standaarddeviatie van het steekproefgemiddelde, ook wel de standaardfout van het gemiddelde genoemd, wordt gegeven door:
$$ SE(\bar{x}) = \frac{\sigma}{\sqrt{n}} $$
waarbij $\sigma$ de standaardafwijking van de populatie is en $n$ de steekproefgrootte.
#### 2.1.2 Steekproevenverdeling van een steekproefgemiddelde
De steekproevenverdeling van het steekproefgemiddelde beschrijft hoe de gemiddelden van verschillende steekproeven van grootte $n$ uit een populatie zich verdelen. Deze verdeling is essentieel voor het maken van inferenties over het populatiegemiddelde.
### 2.2 Centrale limietstelling
De centrale limietstelling (CLT) is een fundamenteel resultaat in de statistiek dat stelt dat, onder bepaalde voorwaarden, de steekproevenverdeling van het steekproefgemiddelde convergeert naar een normale verdeling, ongeacht de oorspronkelijke verdeling van de populatie.
#### 2.2.1 Stelling voor normaal verdeelde populaties
Wanneer men herhaaldelijk toevallige steekproeven met grootte $n$ trekt uit een normaal verdeelde populatie met gemiddelde $\mu$ en standaardafwijking $\sigma$, dan is de steekproevenverdeling van de steekproefgemiddelden ook normaal verdeeld met gemiddelde $\mu$ en standaardafwijking $\frac{\sigma}{\sqrt{n}}$.
#### 2.2.2 Stelling voor willekeurig verdeelde populaties
Wanneer men herhaaldelijk toevallige steekproeven met grootte $n$ trekt uit een willekeurig verdeelde populatie met gemiddelde $\mu$ en standaardafwijking $\sigma$, en indien $n$ voldoende groot is (vuistregel: $n \ge 30$), dan benadert de steekproevenverdeling van de steekproefgemiddelden een normale verdeling met gemiddelde $\mu$ en standaardafwijking $\frac{\sigma}{\sqrt{n}}$.
> **Tip:** De centrale limietstelling is cruciaal omdat het ons in staat stelt normale verdelingseigenschappen te gebruiken voor inferentie, zelfs wanneer de populatie niet normaal verdeeld is, mits de steekproefgrootte voldoende groot is.
### 2.3 Illustratie: Scholastic Aptitude Test (SAT)
De Scholastic Aptitude Test (SAT) wordt gebruikt als voorbeeld om het concept van steekproevenverdelingen en betrouwbaarheidsintervallen te illustreren. De SAT-math sectie heeft een populatiegemiddelde ($\mu$) van 500 en een standaardafwijking ($\sigma$) van 100.
Stel, we trekken een steekproef van 50 studenten en vinden een gemiddelde score van 461. De standaardfout van het gemiddelde is $\frac{\sigma}{\sqrt{n}} = \frac{100}{\sqrt{50}} \approx 14.14$.
Volgens de 68-95-99.7-regel van de normale verdeling, ligt ongeveer 95% van de steekproefgemiddelden binnen 2 standaardfouten van het populatiegemiddelde. In dit geval is 2 standaardfouten $2 \times 14.14 \approx 28.28$.
Als we uitgaan van een populatiegemiddelde van 500, dan ligt 95% van de steekproefgemiddelden tussen $500 - 28.28 = 471.72$ en $500 + 28.28 = 528.28$.
Omgekeerd, met een steekproefgemiddelde van 461, kunnen we met 95% betrouwbaarheid stellen dat het populatiegemiddelde $\mu$ ligt tussen $461 - 28.28 = 432.72$ en $461 + 28.28 = 489.28$.
> **Voorbeeld:** Als 95% van de steekproefgemiddelden niet verder dan $2 \times SE$ van $\mu$ ligt, betekent dit dat in 95% van alle mogelijke steekproeven, het populatiegemiddelde $\mu$ niet meer dan $2 \times SE$ onder of boven het waargenomen steekproefgemiddelde ligt. Dit vormt de basis voor het constructie van betrouwbaarheidsintervallen. Een betrouwbaarheidsinterval van 95% voor het SAT-voorbeeld, gebaseerd op een steekproefgemiddelde van 461, zou dan liggen tussen 432.72 en 489.28. Echter, de documentatie suggereert een bereik van 461-9 tot 461+9 wat duidt op een kleinere standaarddeviatie in hun specifieke steekproef of populatiegegevens.
De 68-95-99.7-regel wordt hier toegepast om te illustreren dat extreme steekproefgemiddelden relatief zeldzaam zijn. Een steekproefgemiddelde dat meer dan 2 standaardfouten afwijkt van $\mu$ is ongebruikelijk. Dit intuïtieve begrip helpt bij het interpreteren van de uitkomsten van significantietoetsen.
### 2.4 Inferentie: Betrouwbaarheidsintervallen en Significantietoetsen
Steekproevenverdelingen vormen de theoretische basis voor inferentiële statistiek, waaronder betrouwbaarheidsintervallen en significantietoetsen.
#### 2.4.1 Betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen worden gebruikt om een reeks waarden te construeren waarvan men met een bepaalde mate van betrouwbaarheid kan zeggen dat het werkelijke populatieparameter (zoals $\mu$) erin ligt. De breedte van het betrouwbaarheidsinterval wordt beïnvloed door de standaardfout en het gewenste betrouwbaarheidsniveau.
#### 2.4.2 Significantietoetsen
Significantietoetsen, zoals de z-toets, gebruiken de steekproevenverdeling om te beoordelen of waargenomen verschillen of effecten waarschijnlijk toeval zijn of een werkelijk effect in de populatie weerspiegelen.
##### 2.4.2.1 Z-toets voor onafhankelijke steekproeven
Deze toets wordt gebruikt om gemiddelden van twee onafhankelijke populaties te vergelijken. De steekproevenverdeling van het verschil tussen twee steekproefgemiddelden is hierbij centraal.
* **Nulhypothese ($H_0$):** Er is geen verschil tussen de populatiegemiddelden ($\mu_1 = \mu_2$ of $\mu_1 - \mu_2 = 0$).
* **Alternatieve hypothese ($H_a$):** Er is een verschil tussen de populatiegemiddelden ($\mu_1 \neq \mu_2$ of $\mu_1 - \mu_2 \neq 0$).
De toetsingsgrootheid is de z-score, die aangeeft hoeveel standaardfouten het waargenomen verschil tussen de steekproefgemiddelden afwijkt van nul.
$$ z = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} $$
Wanneer de nulhypothese waar is, wordt de noemer $\sqrt{\frac{\sigma^2}{n} + \frac{\sigma^2}{n}}$ berekend onder de aanname dat $\mu_1 = \mu_2$ en $\sigma_1 = \sigma_2 = \sigma$.
> **Voorbeeld:** Als gewone studenten een gemiddelde score van 461 hebben en 'slimmeriken' een gemiddelde score van 500, met een populatiestandaarddeviatie van 100 en steekproefgroottes van 500, dan is het verschil in gemiddelden 39. De z-score wordt dan berekend als $\frac{461 - 500}{\sqrt{\frac{100^2}{500} + \frac{100^2}{500}}} = \frac{-39}{\sqrt{40}} \approx -6.17$. Een dergelijke grote afwijking, resulterend in een kleine p-waarde, leidt tot het verwerpen van de nulhypothese.
##### 2.4.2.2 Significantietoets in vier stappen
1. **Formuleer hypothesen:** Bepaal de nul- en alternatieve hypothesen.
2. **Bepaal toetsingsgrootheid:** Bereken de waarde van de gekozen toetsingsgrootheid (bv. z-score).
3. **Bepaal overschrijdingskans (p-waarde):** Vind de kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder aanname dat de nulhypothese waar is.
4. **Formuleer conclusie:** Verwerp of behoud de nulhypothese op basis van de p-waarde en het significantieniveau ($\alpha$).
##### 2.4.2.3 Conclusie in APA-stijl
De conclusie van een significantietoets wordt typisch geformuleerd volgens APA-richtlijnen, inclusief de toetsingsgrootheid, de p-waarde en de interpretatie van de bevindingen.
> **Voorbeeld:** "Gewone studenten behalen gemiddeld (gem=461) significant lagere scores dan slimmeriken (gem=500), $z=8.72$; $p<.001$." (Let op: de z-score en p-waarde in dit voorbeeld wijken af van de berekening hierboven; dit illustreert de formaat.)
### 2.5 Onderscheidingsvermogen (Power)
Onderscheidingsvermogen, of power, is de kans dat een significantietoets de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Het is de kans om een werkelijk bestaand effect te detecteren.
#### 2.5.1 Conclusies gebaseerd op een significantietoets
Significantietoetsen kunnen leiden tot twee soorten fouten:
* **Type I fout ( $\alpha$ ):** Het onterecht verwerpen van de nulhypothese (vals positief). $\alpha$ is het significantieniveau van de test.
* **Type II fout ( $\beta$ ):** Het onterecht niet verwerpen van de nulhypothese (vals negatief).
Het onderscheidingsvermogen is gelijk aan $1 - \beta$.
#### 2.5.2 Onderscheidingsvermogen (Power) berekenen
Het berekenen van het onderscheidingsvermogen vereist het specificeren van een concrete waarde voor de alternatieve hypothese.
1. **Bepaal de kritieke waarde:** Vind de grens waarboven een resultaat significant is onder de nulhypothese ($H_0$).
2. **Bereken de z-score van de kritieke waarde onder de alternatieve hypothese ($H_a$):** Evalueer hoe waarschijnlijk het is om de kritieke waarde te overschrijden als de alternatieve hypothese waar is.
3. **Onderscheidingsvermogen = Overschrijdingskans onder $H_a$:** Dit is de kans dat de toets de nulhypothese zal verwerpen wanneer de alternatieve waarde correct is.
> **Voorbeeld:** Bij een aandachtsproef met brildragers, wordt onderzocht of hun gemiddelde afwijking van de doelpositie groter is dan 0. In de populatie van niet-brildragers is de afwijking normaal verdeeld met $\mu = 0$ en $\sigma = 0.5$ cm. Voor brildragers wordt een gemiddelde afwijking van 3 millimeter (0.3 cm) of meer als reden gezien om ze uit te sluiten. Met een steekproef van 35 brildragers en een kritieke waarde voor het steekproefgemiddelde van 0.1386 cm (bepaald op basis van $\alpha$ en de standaardfout $\frac{0.5}{\sqrt{35}}$), wordt het onderscheidingsvermogen berekend. Indien het werkelijke gemiddelde afwijkingsverschil 0.3 cm is, dan is de kans om dit verschil te detecteren met een significante toets $P(\bar{x} > 0.1386 | \mu = 0.3) \approx 0.9719$. Dit betekent dat in 97.19% van de gevallen een werkelijk effect van 0.3 cm zou worden gedetecteerd.
#### 2.5.3 Factoren die het onderscheidingsvermogen beïnvloeden
Het onderscheidingsvermogen wordt vergroot door:
* Een grotere steekproefgrootte ($n$).
* Een grotere populatie-standaardafwijking ($\sigma$).
* Een groter significantieniveau ($\alpha$).
* Een groter effectgrootte (het verschil tussen $\mu_0$ en $\mu_A$).
---
# Hypothesetoetsing en onderscheidingsvermogen
Dit gedeelte behandelt de procedure van hypothesetoetsing, inclusief de z-toets voor onafhankelijke steekproeven en het concept van onderscheidingsvermogen (power). Er wordt gedetailleerd ingegaan op type I en type II fouten en hoe deze te interpreteren in de context van onderzoek.
### 3.1 De procedure van hypothesetoetsing
Hypothesetoetsing is een statistische methode om te beslissen of er voldoende bewijs is om een nulhypothese te verwerpen ten gunste van een alternatieve hypothese. De procedure omvat doorgaans vier stappen:
1. **Formuleren van de nul- en de alternatieve hypothesen:** De nulhypothese ($H_0$) stelt dat er geen effect of verschil is, terwijl de alternatieve hypothese ($H_a$) stelt dat er wel een effect of verschil is.
2. **Bepalen van de waarde van de toetsingsgrootheid:** Dit is een statistiek berekend uit de steekproefgegevens die wordt gebruikt om de hypothesen te toetsen.
3. **Bepalen van de overschrijdingskans (p-waarde):** De overschrijdingskans is de waarschijnlijkheid om een toetsingsgrootheid te observeren die minstens zo extreem is als de waargenomen waarde, aangenomen dat de nulhypothese waar is. Dit kan theoretisch bepaald worden of via resampling.
4. **Formuleren van de conclusie:** Op basis van de p-waarde en een vooraf bepaald significantieniveau ($\alpha$), wordt besloten of de nulhypothese wordt verworpen. De conclusie wordt doorgaans in APA-stijl geformuleerd.
#### 3.1.1 Z-toets voor onafhankelijke steekproeven
De z-toets voor onafhankelijke steekproeven wordt gebruikt om het gemiddelde van twee populaties te vergelijken. De nulhypothese stelt hierbij dat de gemiddelden van de twee populaties gelijk zijn ($H_0: \mu_1 - \mu_2 = 0$), terwijl de alternatieve hypothese kan stellen dat het gemiddelde van de ene populatie groter is dan dat van de andere ($H_a: \mu_1 - \mu_2 > 0$) of dat ze verschillend zijn ($H_a: \mu_1 - \mu_2 \neq 0$).
De z-toetsingsgrootheid wordt berekend als:
$$ Z = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} $$
waarbij:
- $\bar{x}_1$ en $\bar{x}_2$ de steekproefgemiddelden zijn.
- $(\mu_1 - \mu_2)_0$ het verschil in populatiegemiddelden onder de nulhypothese (meestal 0).
- $\sigma_1^2$ en $\sigma_2^2$ de populatievarianties zijn.
- $n_1$ en $n_2$ de steekproefgroottes zijn.
Wanneer de populatievarianties onbekend zijn en de steekproeven groot genoeg zijn (of de populaties normaal verdeeld zijn), wordt vaak de gepoolde variantie gebruikt of wordt de t-toets toegepast.
#### 3.1.2 Significantietoets in 4 stappen (voorbeeld)
**Context:** Een onderzoeker wil weten of "slimmeriken" significant hogere scores behalen op een test dan "gewone studenten".
1. **Hypothesen formuleren:**
* $H_0: \mu_{\text{gewone studenten}} = \mu_{\text{slimmeriken}}$ (of $\mu_{\text{slimmeriken}} - \mu_{\text{gewone studenten}} \le 0$)
* $H_a: \mu_{\text{slimmeriken}} > \mu_{\text{gewone studenten}}$
2. **Toetsingsgrootheid bepalen:** Een z-toets wordt uitgevoerd. Gesteld dat uit de steekproef een verschil van 39 wordt gevonden en de berekende z-score $Z=8.72$ is.
3. **Overschrijdingskans bepalen:** De p-waarde voor $Z=8.72$ is $p < 0.001$.
4. **Conclusie formuleren:** Aangezien de p-waarde kleiner is dan een typisch significantieniveau (bv. $\alpha = 0.05$), wordt de nulhypothese verworpen. Conclusie: "Gewone studenten behalen gemiddeld (gem=461) significant lagere scores dan slimmeriken (gem=500), $z=8.72$; $p<.001$."
### 3.2 Kans op fouten en onderscheidingsvermogen
Bij het nemen van beslissingen op basis van significantietoetsen, kunnen twee soorten fouten optreden:
* **Type I fout ($\alpha$):** Het onterecht verwerpen van de nulhypothese ($H_0$) terwijl deze wel correct is. Dit is gelijk aan het significantieniveau van de toets, dat vooraf wordt bepaald. Het evalueren van de consequenties van deze fout is cruciaal bij het kiezen van $\alpha$.
* **Type II fout ($\beta$):** Het onterecht niet verwerpen van de nulhypothese ($H_0$) terwijl deze wel vals is.
#### 3.2.1 Onderscheidingsvermogen (Power)
Het onderscheidingsvermogen, of power, van een toets is de kans om de nulhypothese ($H_0$) te verwerpen wanneer de alternatieve hypothese ($H_a$) correct is. Het is dus $1 - \beta$. Een hoge power betekent dat de toets goed in staat is om werkelijke effecten te detecteren.
> **Tip:** Een grotere steekproefgrootte ($n$) en een groter significantieniveau ($\alpha$) vergroten het onderscheidingsvermogen van een toets. Een grotere standaarddeviatie ($\sigma$) verkleint daarentegen het onderscheidingsvermogen.
#### 3.2.2 Onderscheidingsvermogen berekenen
Het berekenen van het onderscheidingsvermogen vereist het specificeren van een concrete waarde onder de alternatieve hypothese. De procedure omvat:
1. **Bepalen van de kritieke waarde:** Dit is de grens onder de nulhypothese waarboven de nulhypothese wordt verworpen. Deze waarde is afgeleid van het gekozen significantieniveau $\alpha$.
2. **Bepalen van de z-waarde van de kritieke waarde onder de alternatieve hypothese:** Gebruikmakend van de verwachte parameters onder de alternatieve hypothese.
3. **Onderscheidingsvermogen berekenen:** Dit is de overschrijdingskans van de kritieke waarde onder de alternatieve hypothese.
**Voorbeeld: Onderscheidingsvermogen bij een z-toets**
**Context:** Een onderzoek naar de nauwkeurigheid van brildragers bij een aandachtsproef. De afwijking in centimeters wordt gemeten.
* Populatie niet-brildragers: Normaal verdeeld met gemiddelde $\mu_0 = 0$ cm en standaardafwijking $\sigma = 0.5$ cm.
* Onderzoeker vermoedt dat brildragers een systematische fout maken van $+ 0.2$ cm (2 mm).
* Als de gemiddelde afwijking van brildragers $0.3$ cm (3 mm) of meer is, worden hun data als onbruikbaar beschouwd en worden ze uitgesloten.
* Onderzoek met $n = 35$ brildragers. Een significantieniveau van $\alpha = 0.05$ wordt gehanteerd.
**Stap 1: Kritieke waarde bepalen onder $H_0$**
* $H_0: \mu = 0$. Voor een eenzijdige test met $\alpha = 0.05$, is de kritieke z-waarde $1.64$.
* De kritieke waarde voor het steekproefgemiddelde is dan $1.64 \times \frac{\sigma}{\sqrt{n}} = 1.64 \times \frac{0.5}{\sqrt{35}} \approx 0.1386$ cm.
* Als het gevonden steekproefgemiddelde groter is dan $0.1386$ cm, wordt $H_0$ verworpen.
**Stap 2: z-waarde van de kritieke waarde bepalen onder $H_a$**
* Stel dat de *werkelijke* gemiddelde afwijking van brildragers $\mu_A = 0.3$ cm is.
* De z-waarde van de kritieke waarde $0.1386$ cm, onder de alternatieve hypothese met $\mu_A = 0.3$ en $\sigma_{\bar{x}} = \frac{0.5}{\sqrt{35}}$, is:
$$ Z_A = \frac{0.1386 - 0.3}{0.5 / \sqrt{35}} \approx -1.91 $$
**Stap 3: Onderscheidingsvermogen berekenen**
* Het onderscheidingsvermogen is de kans dat de toets de nulhypothese verwerpt als de werkelijke afwijking $0.3$ cm is. Dit is de kans dat de z-waarde groter is dan $-1.91$ onder de alternatieve hypothese.
$$ \text{Power} = P(Z_A > -1.91) = 1 - P(Z_A \le -1.91) $$
* Dit kan worden berekend als $1 - \Phi(-1.91)$, waarbij $\Phi$ de cumulatieve verdelingsfunctie van de standaard normaalverdeling is.
* Using a z-table or statistical software, $P(Z_A \le -1.91) \approx 0.0281$.
* Dus, $\text{Power} = 1 - 0.0281 = 0.9719$.
**Conclusie:** Als het echte gemiddelde verschil $0.3$ cm (of meer) bedraagt, zal dit in ongeveer $97.19\%$ van de steekproeven gedetecteerd worden door een significante z-toets met de nulhypothese dat er geen verschil zou zijn.
#### 3.2.3 Beslissingsfouten en hun relatie
De volgende tabel vat de mogelijke beslissingsfouten samen:
| Beslissing | $H_0$ is waar | $H_0$ is vals ( $H_a$ is waar) |
| :------------------------ | :------------------------------------------ | :----------------------------------------- |
| $H_0$ niet verwerpen | Correcte beslissing ($1-\alpha$) | Type II fout ($\beta$) |
| $H_0$ verwerpen | Type I fout ($\alpha$) | Correcte beslissing (Power, $1-\beta$) |
Het is een afweging tussen Type I en Type II fouten. Een kleinere $\alpha$ (minder kans op Type I fout) leidt tot een grotere $\beta$ (meer kans op Type II fout), en dus minder power, tenzij de steekproefgrootte toeneemt.
#### 3.2.4 Factoren die onderscheidingsvermogen beïnvloeden
Het onderscheidingsvermogen wordt beïnvloed door:
* **Grootte van het effect:** Grotere verschillen tussen de populatiegemiddelden onder $H_0$ en $H_a$ vergroten de power.
* **Steekproefgrootte ($n$):** Grotere steekproeven vergroten de power.
* **Significantieniveau ($\alpha$):** Een hoger $\alpha$ verhoogt de power (maar verhoogt ook de kans op een Type I fout).
* **Variantie van de populatie ($\sigma^2$):** Kleinere populatievarianties vergroten de power.
* **Eenzijdig of tweezijdig toetsen:** Eenzijdige toetsen hebben doorgaans meer power dan tweezijdige toetsen voor dezelfde $\alpha$.
> **Tip:** Om een gewenst onderscheidingsvermogen te bereiken, kan men op basis van deze factoren de benodigde steekproefgrootte berekenen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Univariate Data-Analyse | Een statistische methode die zich richt op de analyse van één enkele variabele tegelijkertijd om patronen en kenmerken te beschrijven. |
| Werkplekonderwijs (WPO) | Een onderwijsactiviteit die praktijkgerichte oefeningen en toepassingen van de studiestof biedt, vaak in groepsverband. |
| Schriftelijk examen | Een evaluatievorm waarbij kennis en begrip van de studiestof worden getoetst aan de hand van een schriftelijke opdracht. |
| Toetsingsgrootheid | Een statistische waarde berekend uit steekproefgegevens die wordt gebruikt om een nulhypothese te toetsen. |
| Steekproevenverdeling | De verdeling van een steekproefstatistiek (zoals het gemiddelde) verkregen uit alle mogelijke steekproeven van een bepaalde grootte uit een populatie. |
| Centrale Limietstelling | Een fundamentele stelling in de kansrekening die stelt dat de verdeling van steekproefgemiddelden, ongeacht de populatieverdeling, een normale verdeling benadert naarmate de steekproefgrootte toeneemt. |
| Populatiegemiddelde ($µ$) | Het werkelijke gemiddelde van een bepaalde eigenschap over alle leden van de gehele populatie. |
| Steekproefgemiddelde ($\bar{x}$) | Het gemiddelde van een specifieke steekproef, dat wordt gebruikt als schatter voor het populatiegemiddelde. |
| Betrouwbaarheidsinterval | Een reeks waarden die naar verwachting met een bepaalde waarschijnlijkheid (betrouwbaarheidsniveau) de ware populatieparameter bevat. |
| Significantietoets | Een statistische procedure om te bepalen of waargenomen verschillen of relaties in gegevens waarschijnlijk echt zijn of te wijten aan toeval. |
| Nulhypothese ($H_0$) | Een stelling die stelt dat er geen significant effect, verschil of relatie is tussen de onderzochte variabelen in de populatie. |
| Alternatieve hypothese ($H_a$) | Een stelling die het tegendeel beweert van de nulhypothese, namelijk dat er wel een significant effect, verschil of relatie is. |
| Overschrijdingskans (p-waarde) | De kans om een steekproefresultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is. |
| Type I fout (alfa) | Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. |
| Type II fout (beta) | Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onwaar is. |
| Onderscheidingsvermogen (Power, 1-beta) | De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is; de kans om een echt effect te detecteren. |
| Significantieniveau ($α$) | De vooraf bepaalde kans op een Type I fout; de drempelwaarde waaronder een p-waarde als statistisch significant wordt beschouwd. |
| Z-toets | Een statistische toets die wordt gebruikt om het gemiddelde van een steekproef te vergelijken met het populatiegemiddelde of om de gemiddelden van twee populaties te vergelijken wanneer de populatiestandaardafwijking bekend is of de steekproefgrootte groot is. |
| Steekproefgrootte (n) | Het aantal observaties of eenheden in een steekproef. |
| Standaarddeviatie ($σ$) | Een maat voor de spreiding of variabiliteit van gegevens rond het gemiddelde in een populatie of steekproef. |
Cover
STA3set2Hfst07InferentieVerdelingen.pptx
Summary
# Inferentie over de verwachting van één populatie met t-tests
Dit hoofdstuk behandelt inferentie over de populatieverwachting wanneer de populatiestandaardafwijking onbekend is, waarbij gebruik wordt gemaakt van t-verdelingen voor betrouwbaarheidsintervallen en t-tests.
## 1. Inferentie over de verwachting van één populatie
### 1.1 De t-verdeling
Wanneer de populatiestandaardafwijking $\sigma$ onbekend is en geschat moet worden met de steekproefstandaardafwijking $s$, dan is de steekproevenverdeling van het gestandaardiseerde gemiddelde niet langer normaal verdeeld, maar volgt deze een t-verdeling.
De t-verdeling:
* Is symmetrisch en heeft een top op nul.
* Heeft dikkere staarten dan de standaardnormaalverdeling.
* De exacte vorm van de t-verdeling hangt af van het aantal vrijheidsgraden ($df$), dat meestal gelijk is aan $n-1$ voor een enkele steekproef.
* Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaardnormaalverdeling.
Kritieke waarden $t^*$ voor t-verdelingen kunnen worden opgezocht in tabel D, op basis van het aantal vrijheidsgraden en het gewenste betrouwbaarheidsniveau.
> **Tip:** De dikkere staarten van de t-verdeling reflecteren de extra onzekerheid die ontstaat doordat de populatiestandaardafwijking geschat wordt in plaats van gekend.
### 1.2 1-steekproef t-betrouwbaarheidsinterval
Het betrouwbaarheidsinterval (BI) voor de populatieverwachting $\mu$ wanneer $\sigma$ onbekend is, volgt dezelfde logica als bij een gekende $\sigma$, maar gebruikt de t-verdeling in plaats van de z-verdeling.
Het 1-steekproef t-betrouwbaarheidsinterval wordt berekend als:
$$ \bar{x} \pm t^{\ast} \frac{s}{\sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $t^{\ast}$ de kritieke t-waarde is voor het gewenste betrouwbaarheidsniveau en $n-1$ vrijheidsgraden.
* $s$ de steekproefstandaardafwijking is.
* $n$ de steekproefgrootte is.
**Voorwaarden voor het 1-steekproef t-betrouwbaarheidsinterval:**
1. **Random:** De data komen uit een toevallige steekproef (EAS).
2. **Normaal verdeeld:** De populatie is normaal verdeeld, of de steekproefgrootte is voldoende groot ($n \ge 30$). Bij kleine steekproeven ($n < 30$) dient de normaliteit van de populatie te worden gecontroleerd (bijvoorbeeld via een histogram of normal probability plot).
3. **Onafhankelijk:** Individuele observaties zijn onafhankelijk. Bij trekking zonder teruglegging is de vereiste $N \ge 20n$.
#### 1.2.1 Voorbeeld betrouwbaarheidsinterval
Stel we hebben een steekproef van $n=20$ beeldschermen met een gemiddelde spanning van $\bar{x} = 306.32$ mV en een standaardafwijking $s$. Voor een 90% betrouwbaarheidsinterval, met $df = n-1 = 19$, is de kritieke waarde $t^{\ast} = 1.729$. Het 90% betrouwbaarheidsinterval wordt dan berekend.
### 1.3 1-steekproef t-test
De 1-steekproef t-test wordt gebruikt om een hypothese over de populatieverwachting $\mu$ te toetsen wanneer $\sigma$ onbekend is.
**Hypothesen:**
* Nulhypothese $H_0$: $\mu = \mu_0$
* Alternatieve hypothese $H_a$: $\mu < \mu_0$, $\mu > \mu_0$, of $\mu \neq \mu_0$
De t-toetsgrootheid wordt berekend als:
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de verwachte waarde onder de nulhypothese is.
* $s$ de steekproefstandaardafwijking is.
* $n$ de steekproefgrootte is.
De p-waarde wordt berekend als de kans om een toetsgrootheid te verkrijgen die minstens zo extreem is als de berekende $t$, onder aanname van $H_0$, voor een t-verdeling met $n-1$ vrijheidsgraden.
**Voorwaarden voor de 1-steekproef t-test:**
De voorwaarden zijn dezelfde als voor het 1-steekproef t-betrouwbaarheidsinterval: Random, Normaal verdeeld (of grote steekproef), en Onafhankelijk.
#### 1.3.1 Voorbeeld t-test
Stel we onderzoeken de hoeveelheid opgeloste zuurstof (DO) in een rivier en nemen 15 waterstalen. We willen toetsen of het gemiddelde DO-gehalte lager is dan 5 mg/l (wat als onleefbaar wordt beschouwd) met een significantieniveau $\alpha = 0.05$.
* $H_0$: $\mu = 5$
* $H_a$: $\mu < 5$
De berekende t-toetsgrootheid is $t = -0.9426$ met $df = 14$. De p-waarde is ongeveer 0.1809. Aangezien $p > \alpha$, wordt de nulhypothese niet verworpen. Er is onvoldoende bewijs om te concluderen dat het water onleefbaar is.
> **Tip:** Bij het rapporteren van t-tests in APA-stijl, vermeld de toetsingsgrootheid $t$, de vrijheidsgraden ($df$) tussen haakjes, en de p-waarde. Vermeld ook de beschrijvende maten (gemiddelde, standaardafwijking) en het betrouwbaarheidsinterval indien relevant.
### 1.4 Robuustheid van t-procedures
T-procedures zijn relatief robuust tegen schendingen van de normaliteitsvoorwaarde, vooral bij grotere steekproefgroottes ($n \ge 30$). Bij kleinere steekproeven ($n < 15$) is normaliteit belangrijker, en bij aanwezigheid van uitschieters of sterke scheefheid, kunnen niet-parametrische alternatieven (zoals de tekentoets) overwogen worden.
### 1.5 Onderscheidingsvermogen (Power) van de t-test
Het onderscheidingsvermogen van een t-test is de kans om een werkelijk bestaand effect (een afwijking van de nulhypothese) correct te detecteren. Het hangt af van het significantieniveau $\alpha$, de steekproefgrootte $n$, de populatiestandaardafwijking $\sigma$ (of een schatting daarvan), en de omvang van het effect dat men wil detecteren. Een groter effect, een grotere steekproef, en een hoger $\alpha$ leiden tot een hoger onderscheidingsvermogen.
#### 1.5.1 Voorbeeld poweranalyse
Bij het plannen van een studie kan men met behulp van software (zoals G*power) berekenen hoe groot de steekproefgrootte moet zijn om een bepaald effect met een gewenst onderscheidingsvermogen te kunnen detecteren. Dit helpt om te voorkomen dat bestaande effecten gemist worden door een te kleine steekproef.
---
# Vergelijken van twee verwachtingen met t-tests
Dit gedeelte van de studiehandleiding behandelt de methoden voor het vergelijken van gemiddelden van twee populaties, waarbij onderscheid wordt gemaakt tussen gekoppelde data en onafhankelijke steekproeven, en de bijbehorende t-procedures worden uiteengezet.
## 2. Vergelijken van twee verwachtingen met t-tests
Het vergelijken van gemiddelden van twee populaties is een fundamenteel aspect van statistische inferentie. Wanneer de populatiestandaardafwijking onbekend is, worden t-procedures gebruikt. Deze procedures zijn echter niet altijd exact, maar bieden vaak een goede benadering, vooral bij grotere steekproeven.
### 2.1 De Student t-verdeling
De Student t-verdeling is een kansverdeling die een rol speelt bij het schatten van de populatieverwachting wanneer de populatiestandaardafwijking onbekend is.
* **Kenmerken:**
* Symmetrisch rond nul.
* Heeft één piek op nul.
* Heeft dikkere staarten dan de standaard normaalverdeling, wat betekent dat extremere waarden waarschijnlijker zijn.
* **Vrijheidsgraden (df):** De vorm van de t-verdeling wordt bepaald door het aantal vrijheidsgraden ($df$). Voor een steekproef van grootte $n$ is het aantal vrijheidsgraden meestal $n-1$.
* **Vergelijking met de Normaalverdeling:** Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaard normaalverdeling ($N(0,1)$). Bij kleine $df$ zijn de staarten van de t-verdeling dikker, wat de grotere onzekerheid door het schatten van $\sigma$ weerspiegelt.
* **Kritieke waarden:** Kritieke waarden ($t^*$) voor t-verdelingen worden gevonden in specifieke tabellen (bijv. Tabel D in het handboek), die afhangen van het aantal vrijheidsgraden en het gewenste betrouwbaarheidsniveau of significantieniveau.
### 2.2 t-procedures voor gekoppelde data
Gekoppelde data ontstaan wanneer metingen van twee groepen afkomstig zijn van dezelfde eenheden (bijv. voor- en nametingen bij dezelfde personen) of van gematchte paren. De analyse richt zich op de verschilscores tussen de gekoppelde metingen.
* **Hypothese toetsing:**
* Nulhypothese ($H_0$): De populatiemediaan van de verschilscores is nul ($\mu_d = 0$).
* Alternatieve hypothese ($H_a$): De populatiemediaan van de verschilscores is niet gelijk aan nul, groter dan nul, of kleiner dan nul.
* **Analyse:** De verschilscores ($d_i = x_{i1} - x_{i2}$) worden berekend voor elk paar. Vervolgens wordt een 1-steekproef t-toets uitgevoerd op deze verschilscores, waarbij de nulhypothese is dat het populatiegemiddelde van de verschilscores nul is.
* **Vereisten:**
* De populatie van verschilscores is normaal verdeeld (of de steekproefgrootte is groot).
* De data zijn verkregen via een enkelvoudige aselecte steekproef.
* **Voorbeeld:** Onderzoek naar agressief gedrag bij demente bejaarden, waarbij agressieve incidenten worden geteld in de dagen rond volle maan versus andere dagen. De verschilscores tussen volle maan dagen en andere dagen worden geanalyseerd met een t-toets voor gekoppelde paren.
* `t(df) = waarde, p-waarde`
### 2.3 t-procedures voor onafhankelijke steekproeven
Bij onafhankelijke steekproeven komen de data van twee verschillende, niet-gerelateerde groepen. Er wordt onderscheid gemaakt tussen situaties waarin de populatievarianties gelijk worden verondersteld (pooled t-test) en waarin dit niet het geval is (Welch's t-test).
#### 2.3.1 t-test voor twee onafhankelijke steekproeven (ongelijke varianties - Welch's t-test)
Dit is de meest gebruikte aanpak wanneer de varianties van de twee populaties verschillend kunnen zijn.
* **Hypothese toetsing:**
* Nulhypothese ($H_0$): Het verschil tussen de populatiegemiddelden is nul ($\mu_1 - \mu_2 = 0$).
* Alternatieve hypothese ($H_a$): Het verschil tussen de populatiegemiddelden is niet gelijk aan nul, groter dan nul, of kleiner dan nul.
* **Toetsingsgrootheid:** De t-statistiek wordt berekend als het gestandaardiseerde verschil tussen de steekproefgemiddelden. De formule voor de t-statistiek is:
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} $$
waarbij $\bar{x}_1$ en $\bar{x}_2$ de steekproefgemiddelden zijn, $s_1$ en $s_2$ de steekproefstandaardafwijkingen, en $n_1$ en $n_2$ de steekproefgroottes.
* **Vrijheidsgraden:** Het aantal vrijheidsgraden wordt berekend met een complexe formule (Welch-Satterthwaite vergelijking), maar in de praktijk wordt vaak een conservatieve schatting gebruikt, namelijk $\min(n_1 - 1, n_2 - 1)$, of de exacte waarden die door statistische software worden geleverd.
* **Vereisten:**
* De twee steekproeven zijn onafhankelijk en aselect.
* De populaties zijn bij benadering normaal verdeeld, of de steekproefgroottes zijn groot ($n_1 \ge 30$ en $n_2 \ge 30$). Bij kleinere steekproeven is normaliteit belangrijker.
* **Voorbeeld:** Vergelijken van de bloeddrukdaling bij mannen die een calciumsupplement krijgen versus een placebo.
* `t(df) = waarde, p-waarde`
* **Betrouwbaarheidsinterval:** Een betrouwbaarheidsinterval voor het verschil tussen de populatiegemiddelden ($\mu_1 - \mu_2$) kan worden berekend als:
$$ (\bar{x}_1 - \bar{x}_2) \pm t^* \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} $$
waarbij $t^*$ de kritieke waarde is uit de t-verdeling met de berekende vrijheidsgraden voor het gewenste betrouwbaarheidsniveau.
#### 2.3.2 Gepoelde (Pooled) 2-steekproeven t-procedures (gelijke varianties)
Deze procedure wordt gebruikt wanneer de populatievarianties als gelijk worden verondersteld. Het is echter vaak veiliger om Welch's t-test te gebruiken omdat het controleren op gelijke varianties (met de F-test) zelf niet robuust is.
* **Aanname:** $\sigma_1^2 = \sigma_2^2$.
* **Gepoelde standaardafwijking:** Een gepoolde schatter voor de gemeenschappelijke standaardafwijking ($s_p$) wordt berekend.
$$ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} $$
* **Toetsingsgrootheid:** De t-statistiek wordt berekend als:
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$
* **Vrijheidsgraden:** Bij deze procedure is het aantal vrijheidsgraden exact $n_1 + n_2 - 2$.
* **Betrouwbaarheidsinterval:**
$$ (\bar{x}_1 - \bar{x}_2) \pm t^* s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} $$
waarbij $t^*$ de kritieke waarde is uit de t-verdeling met $n_1 + n_2 - 2$ vrijheidsgraden.
### 2.4 Robuustheid van t-procedures
Statistische procedures worden als robuust beschouwd als ze niet sterk beïnvloed worden door kleine schendingen van hun voorwaarden.
* **Invloed van steekproefgrootte:**
* **Grote steekproeven ($n \ge 30-40$):** t-procedures zijn zeer robuust, zelfs bij duidelijk scheve verdelingen. De centrale limietstelling zorgt ervoor dat de steekproevenverdeling van het gemiddelde (of het verschil tussen gemiddelden) bij benadering normaal is.
* **Kleine steekproeven ($n < 15$):** Normaliteit van de populatie is belangrijker. Als de data niet nagenoeg normaal verdeeld zijn, of als er uitschieters zijn, is het gebruik van t-procedures af te raden.
* **Matige steekproeven ($15 \le n < 30$):** t-procedures kunnen gebruikt worden, tenzij er sprake is van duidelijke scheefheid of uitschieters.
* **Onafhankelijke steekproeven vs. Gekoppelde steekproeven:** De t-procedures voor twee onafhankelijke steekproeven zijn over het algemeen robuuster dan de procedures voor één steekproef, met name wanneer de populatieverdelingen niet symmetrisch zijn, maar wel vergelijkbaar van vorm.
* **Aselecte steekproef:** De eis van aselecte steekproeven is cruciaal voor de geldigheid van de inferentie en is belangrijker dan de normaliteitsvereiste, behalve bij zeer kleine steekproeven.
### 2.5 Onderscheidingsvermogen (Power) van t-tests
Het onderscheidingsvermogen (power) van een t-test is de kans dat de test de nulhypothese verwerpt wanneer de alternatieve hypothese waar is.
* **1-steekproef t-test:** Het onderscheidingsvermogen hangt af van het significantieniveau ($\alpha$), de steekproefgrootte ($n$), de populatiestandaardafwijking ($\sigma$), en de omvang van het effect dat men wil detecteren (de afstand tussen de nulhypothese $\mu_0$ en de ware populatieverwachting $\mu$).
* **2-steekproeven t-test:** Het onderscheidingsvermogen wordt beïnvloed door $\alpha$, de steekproefgroottes ($n_1, n_2$), de populatiestandaardafwijkingen ($\sigma_1, \sigma_2$), en de omvang van het ware verschil tussen de populatiegemiddelden ($\mu_1 - \mu_2$).
* **Planning van studies:** Het berekenen van het onderscheidingsvermogen is belangrijk bij het plannen van een studie om de benodigde steekproefgrootte te bepalen. Gebruik van software zoals G\*Power kan hierbij helpen. Bij het schatten van $\sigma$ is het beter deze te overschatten om te voorkomen dat een bestaand effect niet gedetecteerd wordt door een te kleine steekproef.
### 2.6 Inferentie voor niet-normaal verdeelde populaties
Wanneer de populatieverdeling duidelijk niet normaal is en de steekproefgrootte klein, kunnen alternatieve methoden worden overwogen:
* **Data transformatie:** Scheve data kunnen soms dichter bij normaliteit worden gebracht door transformaties, zoals een logaritmische transformatie. Inferentie op getransformeerde data kan accurate resultaten opleveren, zelfs bij kleine steekproeven. Het interpreteren van resultaten op de getransformeerde schaal kan echter complex zijn.
* **Niet-parametrische methoden:** Dit zijn verdelingsvrije methoden die geen specifieke aannames doen over de populatieverdeling.
* **Tekentoets (Sign Test):** Een niet-parametrische toets voor gekoppelde data die hypothesen test over de mediaan in plaats van het gemiddelde. De toetsingsgrootheid is gebaseerd op het aantal positieve verschilscores en volgt een binomiale verdeling.
* **Voordeel:** Gebruikt minder informatie dan de t-test, wat resulteert in een lager onderscheidingsvermogen.
* **Voorbeeld:** Vergelijken van agressief gedrag rond volle maan met andere dagen met behulp van de tekentoets op de verschilscores. `Tekentoets, X = waarde, p-waarde`
### 2.7 Rapporteren van toetsresultaten
Resultaten van t-tests worden doorgaans gerapporteerd volgens de richtlijnen van APA (American Psychological Association) in de context van de vraagstelling.
* **Belangrijke elementen:**
* Beschrijvende maten (gemiddelde, standaardafwijking).
* Toetsingsgrootheid (bijv. $t$).
* Berekende waarde van de toetsingsgrootheid (afgerond op 2 decimalen).
* Vrijheidsgraden (indien van toepassing, tussen haakjes direct achter de naam van de toetsingsgrootheid, bijv. $t(df)$).
* Overschrijdingskans (p-waarde), ook als deze niet significant is (afgerond op 3 decimalen, of $p < 0,001$ indien kleiner).
* Betrouwbaarheidsinterval (CI) voor het verschil of de verwachting.
* Effectgrootte (bijv. Cohen's d).
* Besluit in de context van het onderzoek.
**Formaatvoorbeeld:** `t (df) = waarde, p = p-waarde, 95% CI [ondergrens, bovengrens], d = effectgrootte.`
Indien de toets eenzijdig is, wordt dit vermeld. Voor resultaten die niet significant zijn, kan "n.s." (niet significant) worden gebruikt in plaats van een p-waarde.
---
# Robuustheid en toepassing van t-procedures
Dit onderwerp behandelt de betrouwbaarheid van t-procedures, vooral wanneer de aannames van normaliteit niet strikt voldaan zijn, en bespreekt ook het onderscheidingsvermogen (power) van de t-test.
## 3. Robuustheid en toepassing van t-procedures
### 3.1 Student's t-verdelingen
Wanneer de populatiestandaardafwijking $\sigma$ onbekend is en geschat wordt met de steekproefstandaardafwijking $s$, volgt de steekproevenverdeling van het gemiddelde een t-verdeling in plaats van een standaard normaalverdeling.
* **Eigenschappen van de t-verdeling:**
* Symmetrisch rond 0.
* Eén top op 0.
* Dikkere staarten dan de standaard normaalverdeling, wat wijst op een grotere spreiding.
* Er is een andere t-verdeling voor elke steekproefgrootte, gespecificeerd door het aantal vrijheidsgraden ($df$).
De kritieke waarden $t^*$ voor t-verdelingen, nodig voor betrouwbaarheidsintervallen en toetsen, zijn terug te vinden in Tabel D (vaak p. 705 in handboeken). De vrijheidsgraden worden doorgaans berekend als $df = n - 1$ voor een 1-steekproefssituatie. Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaard normaalverdeling.
### 3.2 Toepassing van t-procedures
#### 3.2.1 1-steekproef t-procedures
* **1-steekproef t-betrouwbaarheidsinterval voor $\mu$:**
Dit interval volgt dezelfde logica als bij een bekende $\sigma$, maar gebruikt de t-verdeling met $n-1$ vrijheidsgraden. De voorwaarden zijn:
* **Random:** De data komen van een toevallige steekproef.
* **Normaal verdeeld:** Voor kleine steekproeven ($n < 30$) moet de populatieverdeling nagenoeg normaal zijn. Dit wordt gecontroleerd via de verdeling van de steekproefdata (histogram, normal probability plot).
* **Onafhankelijk:** Steekproeven worden onafhankelijk getrokken. Voor trekking zonder teruglegging geldt de vuistregel dat de populatiegrootte minimaal 20 keer de steekproefgrootte moet zijn ($N \geq 20n$).
> **Tip:** Voor grote populaties is het verschil tussen trekkingen met of zonder teruglegging verwaarloosbaar klein.
* **1-steekproef t-toets voor $\mu$:**
Om de nulhypothese $H_0: \mu = \mu_0$ te toetsen, wordt de t-toetsgrootheid berekend. De p-waarde geeft de kans weer om een toetsgrootheid te verkrijgen die minstens zo extreem is als de waargenomen waarde, onder aanname van $H_0$. De toets wordt uitgevoerd met een t-verdeling met $n-1$ vrijheidsgraden.
> **Tip:** Voor normaal verdeelde populaties is de p-waarde exact. Voor andere verdelingen is deze een goede benadering bij grote steekproeven.
* **Rapporteren van resultaten (APA-stijl):**
Bij het rapporteren van toetsresultaten worden doorgaans vermeld: beschrijvende maten (gemiddelde, standaardafwijking), de toetsingsgrootheid met zijn waarde, vrijheidsgraden tussen haakjes, de p-waarde (afgerond op 3 decimalen, of als $p < 0.001$ of $n.s.$ indien niet significant), en een eenzijdigheid indien van toepassing. Een betrouwbaarheidsinterval kan ook worden opgenomen.
#### 3.2.2 2-steekproeven t-procedures
Deze procedures vergelijken de gemiddelden van twee populaties.
* **t-toets voor gekoppelde paren:**
Dit is een speciaal geval van de 1-steekproef t-toets, waarbij de analyse wordt uitgevoerd op de verschilscores tussen gekoppelde waarnemingen. De nulhypothese is $H_0: \mu_d = 0$, waarbij $\mu_d$ het populatiegemiddelde van de verschilscores is. Vereisten zijn een normaal verdeelde populatie van verschilscores (of grote steekproef) en een enkelvoudige aselecte steekproef.
> **Voorbeeld:** Het vergelijken van agressief gedrag bij demente bejaarden rond volle maan versus andere dagen. De verschilscores van het aantal incidenten worden geanalyseerd.
* **t-toets voor onafhankelijke steekproeven:**
Hierbij worden de gemiddelden van twee onafhankelijke groepen vergeleken ($H_0: \mu_1 = \mu_2$).
* **z-toets (indien $\sigma_1$ en $\sigma_2$ bekend zijn):** De toetsingsgrootheid is $z = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$. Dit is minder gangbaar omdat $\sigma$ zelden bekend is.
* **t-toets (indien $\sigma_1$ en $\sigma_2$ onbekend zijn):** De toetsingsgrootheid is $t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$ (bij gelijke varianties, met $s_p$ de gepoolde standaardafwijking) of een vergelijkbare formule zonder $s_p$ bij ongelijke varianties. De t-verdeling benadert de verdeling van deze toetsingsgrootheid.
* **Vrijheidsgraden:** Bij ongelijke varianties is de exacte berekening complex; een conservatieve benadering is $df = \min(n_1 - 1, n_2 - 1)$. Software gebruikt vaak een meer accurate benadering. Bij gelijke varianties is $df = n_1 + n_2 - 2$.
* **Voorwaarden:** Random steekproeven, nagenoeg normaal verdeelde populaties (of grote steekproeven), en onafhankelijkheid.
> **Voorbeeld:** Vergelijken van de bloeddrukdaling door een calcium supplement versus een placebo. De verschillen in systolische bloeddrukdaling worden geanalyseerd.
> **Tip:** De 2-steekproeven t-procedures zijn robuuster dan 1-steekproef methoden, vooral wanneer de verdelingen niet symmetrisch zijn maar wel vergelijkbaar.
* **2-steekproeven t-betrouwbaarheidsinterval voor $\mu_1 - \mu_2$:**
Dit interval schat het verschil tussen twee populatiegemiddelden. De interpretatie is vergelijkbaar met het 1-steekproef interval, waarbij het verschil tussen de steekproefgemiddelden de punt-schatting is.
### 3.3 Robuustheid van t-procedures
Een statistische procedure is robuust als het betrouwbaarheidsinterval of de p-waarde niet significant verandert bij het schenden van de aannames.
* **Algemene robuustheid:**
* De aanname van een **aselecte steekproef** is cruciaal, vooral bij kleine steekproeven.
* **Normaliteit:**
* **Kleine steekproeven ($n < 15$):** Normaliteit is belangrijk. Bij uitschieters of sterke scheefheid de t-procedures niet gebruiken.
* **Matige steekproeven ($15 \leq n < 30-40$):** T-procedures zijn toepasbaar tenzij er uitschieters of sterk scheve verdelingen zijn.
* **Grote steekproeven ($n \geq 30-40$):** T-procedures kunnen worden toegepast, zelfs bij duidelijk scheve verdelingen.
* Bij 2-steekproeven t-procedures geldt dat als de verdelingen niet symmetrisch, maar wel *vergelijkbaar* scheef zijn, de procedure robuuster is.
> **Tip:** Indien mogelijk, probeer scheve data te transformeren (bv. met een logaritmische transformatie) om normaliteit te benaderen, wat de nauwkeurigheid van t-procedures verhoogt.
### 3.4 Onderscheidingsvermogen (Power) van de t-test
Het onderscheidingsvermogen (power) is de kans dat een test de nulhypothese verwerpt wanneer de alternatieve hypothese waar is.
* **1-steekproef t-test:**
Het onderscheidingsvermogen wordt beïnvloed door:
* **Steekproefgrootte ($n$):** Grotere $n$ leidt tot meer power.
* **Significantieniveau ($\alpha$):** Een hoger $\alpha$ (bv. $0.05$ vs $0.01$) vergroot de power, maar ook de kans op een Type I fout.
* **Effectgrootte:** Het werkelijke verschil tussen de populatieverwachting en de nulhypothese. Grotere effecten zijn makkelijker te detecteren.
* **Populatiestandaardafwijking ($\sigma$):** Kleinere $\sigma$ leidt tot meer power.
Het berekenen van het onderscheidingsvermogen bij het plannen van een studie is belangrijk om te bepalen hoeveel data nodig is om een bepaald effect te kunnen detecteren. Hierbij wordt vaak $\sigma$ geschat uit eerder onderzoek of een pilot study.
* **2-steekproeven t-test:**
De principes zijn vergelijkbaar met de 1-steekproef t-test. Het onderscheidingsvermogen hangt af van de steekproefgroottes in beide groepen, het significatieniveau, de effectgrootte (verschil tussen de populatiegemiddelden), en de populatiestandaardafwijkingen. Exacte berekeningen vereisen software zoals G\*Power en de resultaten van een pilot study of literatuur.
> **Tip:** Bij het plannen van een studie is het beter om de populatiestandaardafwijking te overschatten dan te onderschatten, om te voorkomen dat een bestaand effect niet gedetecteerd wordt door te weinig data.
### 3.5 Inferentie voor niet-normaal verdeelde populaties
Wanneer de normaliteitsaanname ernstig geschonden is, vooral bij kleine steekproeven, zijn er alternatieven:
* **Data transformatie:** Logaritmische of andere transformaties kunnen de data dichter bij normaliteit brengen. De interpretatie van resultaten op getransformeerde data kan echter lastiger zijn.
* **Niet-parametrische tests:** Deze tests stellen geen strikte eisen aan de populatieverdeling. Ze toetsen vaak hypothesen over de mediaan in plaats van het gemiddelde.
* **Tekentoets voor gekoppelde data:** Een niet-parametrisch alternatief voor de t-toets voor gekoppelde paren. Het aantal paren met een positief verschil wordt geteld en getoetst met een binomiale verdeling. Deze toets heeft echter een kleiner onderscheidingsvermogen dan de t-toets.
> **Voorbeeld:** De tekentoets kan worden gebruikt als de verschilscores tussen gekoppelde metingen niet normaal verdeeld zijn.
### 3.6 Inferentie voor populatiespreiding
De F-test voor gelijkheid van spreidingen kan worden gebruikt om te onderzoeken of twee populaties dezelfde variantie hebben. Deze procedure is echter niet robuust voor afwijkingen van de normaliteitsvoorwaarde. De F-verdeling is rechts scheef en de kritieke waarden worden in tabellen (bv. Tabel E) gegeven. Het vergelijken van populatiespreidingen op basis van steekproefstandaardafwijkingen is gevoelig voor de normaliteitsaanname.
---
# Inferentie voor populatiespreiding: de F-test
Dit onderdeel introduceert de F-test voor het vergelijken van de spreidingen van twee populaties en bespreekt de eigenschappen van F-verdelingen.
## 4.1 De F-test voor gelijkheid van spreidingen
De standaarddeviaties $\sigma_1$ en $\sigma_2$ van twee populaties kunnen worden vergeleken op basis van de standaarddeviaties van twee eenvoudige aselecte steekproeven (EAS). De procedures die hiervoor worden gebruikt, zijn echter niet robuust voor afwijkingen van de normale verdeling.
### 4.1.1 F-verdelingen
De F-verdeling is een kansverdeling die wordt gebruikt bij statistische tests, zoals de F-test. De belangrijkste eigenschappen van de F-verdeling zijn:
* **Rechts scheef:** De dichtheidskromme van de F-verdeling is scheef naar rechts.
* **Niet-negatief:** F-waarden kunnen nooit negatief zijn. Dit komt doordat de F-test gebaseerd is op de deling van varianties, die altijd positief zijn.
* **Piek nabij 1:** De piek van de F-verdeling ligt dicht bij 1. Dit is logisch, want als de twee populatiestandaarddeviaties gelijk zijn, zal de verhouding van hun varianties (of standaarddeviaties) rond de 1 liggen.
### 4.1.2 Toepassing van de F-test
De F-test wordt gebruikt om de nulhypothese te toetsen dat de varianties (of standaarddeviaties) van twee populaties gelijk zijn.
* **Nulhypothese ($H_0$):** De varianties van de twee populaties zijn gelijk ($\sigma_1^2 = \sigma_2^2$).
* **Alternatieve hypothese ($H_a$):** De varianties van de twee populaties zijn ongelijk ($\sigma_1^2 \neq \sigma_2^2$). Een eenzijdige alternatieve hypothese kan ook worden gebruikt ($\sigma_1^2 > \sigma_2^2$ of $\sigma_1^2 < \sigma_2^2$).
#### Toetsingsgrootheid
De toetsingsgrootheid voor de F-test is de verhouding van de twee steekproefvarianties. Meestal wordt de grootste steekproefvariantie in de teller geplaatst om de test eenzijdig te maken en de kritieke waarden gemakkelijker te kunnen opzoeken.
$$ F = \frac{s_1^2}{s_2^2} $$
Hierbij geldt:
* $s_1^2$: De variantie van de eerste steekproef.
* $s_2^2$: De variantie van de tweede steekproef.
Als de nulhypothese waar is, zal de F-waarde dicht bij 1 liggen. Waarden van $F$ die sterk afwijken van 1, geven bewijs tegen de nulhypothese van gelijke spreidingen.
#### Vrijheidsgraden
De F-verdeling die bij de toetsingsgrootheid $F$ hoort, wordt gespecificeerd door twee aantallen vrijheidsgraden:
* $df_1$: Vrijheidsgraden van de teller (de steekproefvariantie in de teller). Dit is meestal $n_1 - 1$, waarbij $n_1$ de steekproefgrootte is van de populatie waarvan de variantie in de teller komt.
* $df_2$: Vrijheidsgraden van de noemer (de steekproefvariantie in de noemer). Dit is meestal $n_2 - 1$, waarbij $n_2$ de steekproefgrootte is van de populatie waarvan de variantie in de noemer komt.
#### Kritieke waarden
Tabel E (p706 in het handboek) geeft kritieke $F$-waarden voor rechter overschrijdingskansen ($p$-waarden) van 0.10, 0.05, 0.025, 0.01 en 0.001. Bij een tweezijdige test wordt de alfa-waarde gedeeld door twee om de juiste kolom te vinden.
### 4.1.3 Robuustheid van de F-test
De F-test voor gelijkheid van spreidingen is niet robuust voor afwijkingen van de normale verdeling. Dit betekent dat als de populaties niet normaal verdeeld zijn, de betrouwbaarheidsintervallen en $p$-waarden van de F-test onbetrouwbaar kunnen worden. Dit is een belangrijk nadeel ten opzichte van de $t$-procedures, die over het algemeen robuuster zijn.
> **Tip:** Omdat de F-test zo gevoelig is voor afwijkingen van normaliteit, wordt deze minder vaak gebruikt in de praktijk voor het vergelijken van spreidingen, tenzij er sterke aanwijzingen zijn dat de populaties normaal verdeeld zijn. Alternatieve methoden, zoals Levene's test of de Brown-Forsythe test, zijn robuuster voor afwijkingen van normaliteit.
---
*Dit samenvattende gedeelte is gebaseerd op de informatie op pagina's 70-71 van het verstrekte document, met de nadruk op de F-test voor populatiespreiding.*
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| t-verdeling | Een kansverdeling die nauw verwant is aan de normaalverdeling, maar die dikkere staarten heeft. De vorm van de t-verdeling wordt bepaald door het aantal vrijheidsgraden. |
| Steekproevenverdeling | De kansverdeling van een statistiek (zoals het steekproefgemiddelde) die wordt verkregen door herhaaldelijk steekproeven van dezelfde grootte uit een populatie te trekken. |
| Vrijheidsgraden (df) | Een parameter die de vorm van de t-verdeling bepaalt. Bij een 1-steekproef t-test is dit gelijk aan n-1, waarbij n de steekproefgrootte is. |
| Standaardfout | De standaarddeviatie van de steekproevenverdeling van een statistiek. Het geeft een maat voor de variabiliteit van de steekproefstatistieken rondom de populatieparameter. |
| Betrouwbaarheidsinterval | Een reeks waarden binnen een bepaald betrouwbaarheidsniveau waarvan wordt aangenomen dat deze de ware populatieparameter bevat. |
| Significatieniveau (α) | De kans op het verwerpen van de nulhypothese terwijl deze waar is (Type I fout). Gangbare waarden zijn 0.05, 0.01 of 0.001. |
| Nulhypothese (H0) | Een stelling over een populatieparameter die wordt getoetst. In de context van t-tests is dit vaak dat de populatieverwachting gelijk is aan een specifieke waarde of dat twee populatieverwachtingen gelijk zijn. |
| Alternatieve hypothese (Ha) | Een stelling die de nulhypothese tegenspreekt. Het kan eenzijdig (bv. µ < µ0) of tweezijdig (bv. µ ≠ µ0) zijn. |
| p-waarde | De kans om een toetsingsgrootheid te verkrijgen die minstens zo extreem is als de geobserveerde waarde, onder de aanname dat de nulhypothese waar is. |
| Robuustheid | De mate waarin een statistische procedure ongevoelig is voor schendingen van de onderliggende aannames, zoals normaliteit. |
| Onderscheidingsvermogen (Power) | De kans dat een statistische test de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Het is 1 min de kans op een Type II fout. |
| F-test | Een statistische test die wordt gebruikt om de gelijkheid van varianties van twee of meer populaties te vergelijken. De test maakt gebruik van de F-verdeling. |
| Gepoelde t-test | Een variant van de t-test voor twee onafhankelijke steekproeven die ervan uitgaat dat de varianties van de twee populaties gelijk zijn. |
| Niet-parametrische toetsen | Statistische toetsen die geen specifieke aannames doen over de vorm van de populatieverdeling (zoals normaliteit). Voorbeelden zijn de tekentoets en de Wilcoxon-rangsomtoets. |
| Tekentoets | Een niet-parametrische toets voor gekoppelde data die de mediane verschillen test. Het telt het aantal positieve en negatieve verschillen tussen paren. |
| Data transformatie | Een wiskundige bewerking (bv. logaritme) toegepast op data om de verdeling dichter bij normaliteit te brengen, wat de toepasbaarheid van parametrische toetsen kan verbeteren. |
Cover
STA3set3Hfst08InferentieOverProporties.pptx
Summary
# Inferentie voor een enkele proportie
Dit onderdeel van de cursus behandelt statistische methoden om conclusies te trekken over een enkele populatieproportie op basis van steekproefgegevens, inclusief het construeren van betrouwbaarheidsintervallen en het uitvoeren van significantietoetsen.
## 1. Steekproevenverdeling van een steekproefproportie
Beschouw een populatie met een onbekende proportie successen, aangeduid met $p$ (of $\pi$). Wanneer we een eenvoudige willekeurige steekproef (EAS) van omvang $n$ trekken uit deze populatie, is de steekproefproportie $\hat{p}$ gedefinieerd als $\hat{p} = \frac{X}{n}$, waarbij $X$ het aantal successen in de steekproef is.
De standaardfout van de steekproefproportie wordt gegeven door:
$$ SE(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} $$
Wanneer de steekproefgrootte groot genoeg is, benadert de steekproevenverdeling van $\hat{p}$ een normale verdeling.
### 1.1 Betrouwbaarheidsinterval voor een proportie in een grote steekproef
Een benaderd betrouwbaarheidsinterval (BI) voor de populatieproportie $p$ in een grote steekproef wordt geconstrueerd met de volgende formule:
$$ \text{BI} = \text{Statistiek} \pm \text{Foutmarge} = \hat{p} \pm (z^{\ast} \times SE(\hat{p})) $$
Hierbij is $\hat{p}$ de steekproefproportie, $z^{\ast}$ de kritieke waarde uit de standaardnormaalverdeling die overeenkomt met het gewenste betrouwbaarheidsniveau, en $SE(\hat{p})$ de standaardfout van de steekproefproportie. Voor grote steekproeven ($n$ groot) en met de aanname dat $X$ en $n-X$ beide groter zijn dan of gelijk aan 15, en een betrouwbaarheidsniveau van ten minste 90%, kan de standaardfout worden benaderd met $SE(\hat{p}) \approx \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$.
**Voorbeeld:**
Iemand beweert dat 50% van de mensen op hun rechter zijde in slaap vallen. In een toevallige steekproef van 251 mensen zijn er 107 die op hun rechter zij inslapen. Bereken en interpreteer een 90% betrouwbaarheidsinterval voor de proportie mensen die inslapen op hun rechter zijde.
De steekproefproportie is $\hat{p} = \frac{107}{251} \approx 0.426$. Voor een 90% betrouwbaarheidsniveau is de kritieke waarde $z^{\ast} = 1.645$. De standaardfout is ongeveer $\sqrt{\frac{0.426(1-0.426)}{251}} \approx \sqrt{\frac{0.244}{251}} \approx 0.031$.
Het 90% betrouwbaarheidsinterval is dan:
$0.426 \pm (1.645 \times 0.031) \approx 0.426 \pm 0.051$, wat resulteert in het interval $[0.375, 0.477]$.
**Interpretatie:** We zijn 90% zeker dat het interval $[0.375, 0.477]$ de ware proportie mensen die inslapen op hun rechter zijde bevat. Aangezien dit interval aangeeft welke waarden voor $p$ plausibel zijn, en 0.5 niet tot het interval behoort, hebben we redenen om te twijfelen aan de stelling dat 50% van de mensen op hun rechter zijde inslaapt.
> **Tip:** Betrouwbaarheidsintervallen die worden berekend met de standaardformule kunnen onnauwkeurig zijn, vooral voor kleine steekproeven. Het feitelijke betrouwbaarheidsniveau kan lager zijn dan verwacht.
#### 1.1.1 Het plus-vier betrouwbaarheidsinterval
Een verbeterde nauwkeurigheid voor het betrouwbaarheidsinterval wordt verkregen door vier denkbeeldige observaties toe te voegen aan de steekproef: twee successen en twee mislukkingen. Dit wordt de "plus-vier" schatting genoemd.
De plus-vier schatting van $p$ is:
$$ \tilde{p} = \frac{X+2}{n+4} $$
Het plus-vier benaderde betrouwbaarheidsinterval voor een proportie is:
$$ \tilde{p} \pm z^{\ast} \sqrt{\frac{\tilde{p}(1-\tilde{p})}{n+4}} $$
Dit interval wordt over het algemeen als nauwkeuriger beschouwd, met name voor kleinere steekproeven.
### 1.2 Significantietoets voor een populatieproportie op basis van een grote steekproef
Een significantietoets voor een populatieproportie $p$ is bedoeld om te beoordelen of de beschikbare gegevens voldoende bewijs leveren om een nulhypothese ($H_0$) over de populatieproportie te verwerpen ten gunste van een alternatieve hypothese ($H_a$).
De z-statistiek voor het toetsen van de nulhypothese $H_0: p = p_0$ is gedefinieerd als:
$$ z = \frac{\hat{p} - p_0}{SE(\hat{p})} = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} $$
Hierbij is $\hat{p}$ de steekproefproportie, $p_0$ de proportie onder de nulhypothese, en $n$ de steekproefomvang. De z-statistiek is bij benadering standaard normaal verdeeld indien de nulhypothese waar is. De p-waarden worden bepaald met behulp van de standaardnormaalverdeling. Dit staat bekend als de z-test voor een proportie.
**Vereisten voor de z-test voor een proportie:**
Deze test mag alleen worden gebruikt indien:
1. De gegevens afkomstig zijn van een eenvoudige willekeurige steekproef (EAS).
2. Het aantal successen ($n p_0$) en het aantal mislukkingen ($n(1-p_0)$) ten minste 10 bedragen.
3. De populatieomvang minstens 10 keer groter is dan de steekproefomvang ($N \ge 10n$).
**Het bepalen van de p-waarde:**
De p-waarde is de kans om een steekproefstatistiek te observeren die minstens zo extreem is als de waargenomen steekproefstatistiek, gegeven dat de nulhypothese waar is. De richting van de extremiteit wordt bepaald door de alternatieve hypothese ($H_a$).
**Voorbeeld:**
Een producent van chips ontvangt een lading aardappelen. Het leveringscontract stelt dat als meer dan 8% van de aardappelen beschadigd zijn, de lading mag worden teruggestuurd. Een staal van 500 aardappelen wordt onderzocht en 47 vertonen beschadigingen. Voer een significantietoets uit met $\alpha = 0.10$ om na te gaan of deze lading moet worden teruggezonden.
* **Hypothesen:**
$H_0: p = 0.08$ (het percentage beschadigde aardappelen is 8% of minder)
$H_a: p > 0.08$ (het percentage beschadigde aardappelen is groter dan 8%)
Hierbij is $p$ de ware proportie beschadigde aardappelen.
* **Veronderstellingen controleren:**
* **Random:** De data komen van een steekproef van 500 aardappelen.
* **Normaal:** Verwachte aantal beschadigde aardappelen: $n p_0 = 500(0.08) = 40$. Verwacht aantal onbeschadigde aardappelen: $n(1-p_0) = 500(1-0.08) = 500(0.92) = 460$. Beide aantallen zijn groter dan 10, dus de normale benadering is toepasbaar.
* **Berekening z-statistiek:**
De steekproefproportie is $\hat{p} = \frac{47}{500} = 0.094$.
$$ z = \frac{0.094 - 0.08}{\sqrt{\frac{0.08(1-0.08)}{500}}} = \frac{0.014}{\sqrt{\frac{0.0736}{500}}} = \frac{0.014}{\sqrt{0.0001472}} \approx \frac{0.014}{0.01213} \approx 1.15 $$
* **P-waarde:**
De p-waarde is de kans op een z-waarde groter dan of gelijk aan 1.15, gegeven $H_0$.
$P(Z \ge 1.15) = 1 - P(Z < 1.15) = 1 - 0.8749 = 0.1251$.
* **Beslissing:**
Aangezien de p-waarde ($0.1251$) groter is dan het gekozen significantieniveau $\alpha = 0.10$, kunnen we de nulhypothese $H_0$ niet verwerpen. Er is onvoldoende bewijs om aan te nemen dat de lading meer dan de toegelaten 8% beschadigde aardappelen bevat.
### 1.3 Bepalen van de benodigde steekproefgrootte
Bij het plannen van een studie kan de steekproefgrootte $n$ zo worden gekozen dat een populatieproportie kan worden geschat met een specifieke gewenste foutmarge $m$ op een bepaald betrouwbaarheidsniveau.
De formule voor de foutmarge is $m = z^{\ast} \times SE(\hat{p})$. Door $SE(\hat{p})$ te benaderen met $\sqrt{\frac{p(1-p)}{n}}$ en te eisen dat $m$ niet groter is dan de gewenste foutmarge, kunnen we $n$ oplossen. Om dit te doen, gebruiken we vaak een conservatieve schatting voor $p$, zoals $p=0.5$, aangezien dit de maximale standaardfout oplevert en dus de grootste benodigde steekproefgrootte garandeert.
$$ m \ge z^{\ast} \sqrt{\frac{p(1-p)}{n}} $$
$$ m^2 \ge (z^{\ast})^2 \frac{p(1-p)}{n} $$
$$ n \ge \frac{(z^{\ast})^2 p(1-p)}{m^2} $$
**Voorbeeld:**
Stel dat je wilt schatten hoeveel kiezers gaan stemmen voor een bepaalde kandidaat. Bepaal de steekproefgrootte die nodig is om $p$ te schatten met een marge van $0.03$ met 95% betrouwbaarheid.
Voor een 95% betrouwbaarheidsniveau is de kritieke waarde $z^{\ast} = 1.96$. Gebruikmakend van de conservatieve schatting $p=0.5$:
$$ n \ge \frac{(1.96)^2 \times 0.5 \times (1-0.5)}{(0.03)^2} = \frac{3.8416 \times 0.25}{0.0009} = \frac{0.9604}{0.0009} \approx 1067.11 $$
We ronden altijd naar boven af om de gewenste marge te garanderen. Er zijn dus 1068 respondenten nodig.
> **Tip:** Als er enige voorkennis is over de te verwachten proportie $p$, kan een meer specifieke schatting van $p$ worden gebruikt om de benodigde steekproefgrootte te verkleinen. Echter, bij gebrek aan dergelijke voorkennis is $p=0.5$ de veiligste keuze.
---
# Inferentie voor twee proporties
Dit hoofdstuk gaat over methoden om proporties uit twee verschillende populaties of groepen te vergelijken, met behulp van betrouwbaarheidsintervallen en significantietoetsen.
### 2.1 Inferentie voor een enkele proportie
Voordat we twee proporties vergelijken, wordt kort de inferentie voor een enkele proportie herhaald. Dit omvat het berekenen van betrouwbaarheidsintervallen en het uitvoeren van significantietoetsen voor een enkele populatieproportie $p$.
#### 2.1.1 Steekproevenverdeling van een steekproefproportie
Een steekproefproportie, genoteerd als $\hat{p}$, wordt berekend als het aantal successen ($X$) gedeeld door de steekproefgrootte ($n$):
$$ \hat{p} = \frac{X}{n} $$
De standaardfout van de steekproefproportie is:
$$ SE(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} $$
Voor grote steekproeven wordt een benaderd betrouwbaarheidsinterval berekend als:
$$ \text{BI} = \hat{p} \pm z^{\ast} \times SE(\hat{p}) $$
Hierbij is $z^{\ast}$ de kritieke waarde uit de standaardnormaalverdeling voor het gewenste betrouwbaarheidsniveau. Er geldt de vuistregel dat zowel het aantal successen ($X$) als het aantal mislukkingen ($n-X$) minstens 15 moet zijn en het betrouwbaarheidsniveau minstens 90% om deze benadering te gebruiken.
> **Tip:** Voor betrouwbaarheidsintervallen van proporties, vooral bij kleine steekproeven of wanneer $X$ of $n-X$ dicht bij 0 of $n$ liggen, kan de nauwkeurigheid verbeterd worden door de "plus-vier" methode te gebruiken. Hierbij worden 2 successen en 2 mislukkingen aan de data toegevoegd alvorens het interval te berekenen.
#### 2.1.2 Significantietoets voor een populatieproportie
Bij een significantietoets voor een populatieproportie wordt een nulhypothese $H_0: p = p_0$ getoetst tegen een alternatieve hypothese $H_a$. De toetsingsgrootheid is een z-score:
$$ z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} $$
Deze $z$-statistiek is bij benadering standaard normaal verdeeld indien de nulhypothese waar is. De p-waarde wordt bepaald uit de standaardnormaalverdeling, afhankelijk van de richting van de alternatieve hypothese.
> **Belangrijk:** Deze toets is betrouwbaar indien zowel het aantal successen als het aantal mislukkingen minstens 10 bedraagt, en de populatie minstens 10 keer zo groot is als de steekproefgrootte ($N \ge 10n$).
#### 2.1.3 Nodige steekproefgrootte bepalen
Om een populatieproportie te schatten met een specifieke foutmarge $m$ en betrouwbaarheidsniveau, kan de benodigde steekproefgrootte $n$ worden berekend met de formule:
$$ n = \frac{(z^{\ast})^2 p^{\ast}(1-p^{\ast})}{m^2} $$
Hierbij is $z^{\ast}$ de kritieke waarde voor het betrouwbaarheidsniveau en $p^{\ast}$ is een conservatieve schatting van de proportie (vaak 0.5 als er geen voorkennis is). Het resultaat van $n$ wordt altijd naar boven afgerond.
### 2.2 Twee proporties vergelijken
Het vergelijken van proporties uit twee verschillende populaties of groepen is cruciaal om te bepalen of een bepaald kenmerk relatief vaker voorkomt in de ene groep dan in de andere. Dit wordt gedaan door de populatieproporties $p_1$ en $p_2$ te vergelijken. De standaardmethode is om een onafhankelijke, toevallige steekproef uit elke populatie te trekken en de steekproefproporties $\hat{p}_1$ en $\hat{p}_2$ te vergelijken.
#### 2.2.1 Betrouwbaarheidsintervallen voor het verschil tussen twee proporties
Een betrouwbaarheidsinterval voor het verschil tussen twee proporties, $p_1 - p_2$, geeft een reeks plausibele waarden voor dit verschil. Voor grote steekproeven wordt dit interval berekend als:
$$ (\hat{p}_1 - \hat{p}_2) \pm z^{\ast} \times SE(\hat{p}_1 - \hat{p}_2) $$
De standaardfout van het verschil tussen twee steekproefproporties is:
$$ SE(\hat{p}_1 - \hat{p}_2) = \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} $$
Hierbij zijn $n_1$ en $n_2$ de groottes van de respectievelijke steekproeven.
> **Voorbeeld:** Stel we onderzoeken het gebruik van sociale media bij tieners ($p_1$) en volwassenen ($p_2$) in de VS. Uit een steekproef van 800 tieners blijkt dat 73% sociale media gebruikt ($\hat{p}_1 = 0.73$), en uit een steekproef van 2253 volwassenen gebruikt 47% sociale media ($\hat{p}_2 = 0.47$). Een 95% betrouwbaarheidsinterval voor het verschil $p_1 - p_2$ wordt berekend. De geschatte standaardfout is $\sqrt{\frac{0.73(1-0.73)}{800} + \frac{0.47(1-0.47)}{2253}} \approx 0.0193$. Met $z^{\ast} = 1.96$ voor 95% betrouwbaarheid, is de foutmarge $1.96 \times 0.0193 \approx 0.0378$. Het 95% betrouwbaarheidsinterval is dan $(0.73 - 0.47) \pm 0.0378$, wat resulteert in $[0.26 - 0.0378, 0.26 + 0.0378] = [0.2222, 0.2978]$. We kunnen met 95% betrouwbaarheid stellen dat de proportie tieners die sociale media gebruikt tussen 22.22% en 29.78% hoger ligt dan bij volwassenen.
> **Tip:** Net als bij één proportie, kunnen "plus-vier" aanpassingen worden gedaan voor meer nauwkeurige betrouwbaarheidsintervallen bij vergelijking van twee proporties.
#### 2.2.2 Significantietoets voor het vergelijken van proporties
Bij een significantietoets voor twee proporties toetsen we de nulhypothese $H_0: p_1 = p_2$ (of equivalent $p_1 - p_2 = 0$) tegen een alternatieve hypothese, zoals $H_a: p_1 \neq p_2$. Als de nulhypothese waar is, worden de gegevens van beide steekproeven samengevoegd om een gepoolde (gecombineerde) proportie $\hat{p}_{\text{pooled}}$ te schatten:
$$ \hat{p}_{\text{pooled}} = \frac{X_1 + X_2}{n_1 + n_2} $$
De z-toetsingsgrootheid voor het verschil tussen twee proporties, onder de nulhypothese, is:
$$ z = \frac{(\hat{p}_1 - \hat{p}_2) - 0}{\sqrt{\hat{p}_{\text{pooled}}(1-\hat{p}_{\text{pooled}})(\frac{1}{n_1} + \frac{1}{n_2})}} $$
De p-waarde wordt bepaald op basis van de standaardnormaalverdeling.
> **Belangrijk:** Voor deze toets is het noodzakelijk dat de data afkomstig zijn van twee onafhankelijke, toevallige steekproeven. Verder moeten de aantallen successen en mislukkingen in beide groepen minstens 5 zijn (of 10, afhankelijk van de bron en de gewenste nauwkeurigheid).
> **Voorbeeld:** Onderzoekers willen weten of er een verschil is in het aantal kinderen dat zonder ontbijt naar school komt in twee scholen. In school 1 zijn er 19 van de 80 kinderen die niet ontbeten hebben ($\hat{p}_1 = 19/80 = 0.2375$). In school 2 zijn er 26 van de 150 kinderen die niet ontbeten hebben ($\hat{p}_2 = 26/150 \approx 0.1733$). Met een significantieniveau $\alpha = 0.05$.
De nulhypothese is $H_0: p_1 = p_2$ en de alternatieve hypothese is $H_a: p_1 \neq p_2$.
De gepoolde proportie is $\hat{p}_{\text{pooled}} = \frac{19 + 26}{80 + 150} = \frac{45}{230} \approx 0.1957$.
De z-statistiek is:
$$ z = \frac{(0.2375 - 0.1733)}{\sqrt{0.1957(1-0.1957)(\frac{1}{80} + \frac{1}{150})}} \approx \frac{0.0642}{\sqrt{0.1574 \times 0.01883}} \approx \frac{0.0642}{0.0544} \approx 1.18 $$
De p-waarde voor deze $z$-waarde (tweezijdig) is ongeveer 0.2378. Aangezien deze p-waarde groter is dan $\alpha=0.05$, wordt de nulhypothese niet verworpen. Er is onvoldoende bewijs om te concluderen dat er een verschil is in het percentage kinderen dat zonder ontbijt naar school komt tussen beide scholen.
#### 2.2.3 Relatief Risico (RR)
Een andere manier om twee proporties te vergelijken is door het Relatief Risico (RR) te berekenen. Dit is de verhouding tussen de twee proporties: $RR = \frac{p_1}{p_2}$. Een RR van 1 betekent dat de proporties gelijk zijn. Een RR groter dan 1 geeft aan dat de proportie in groep 1 hoger is, en een RR kleiner dan 1 geeft aan dat deze lager is. Het berekenen van betrouwbaarheidsintervallen voor het relatieve risico is complexer en vereist meestal gespecialiseerde software.
> **Voorbeeld:** Een studie naar borstkanker en de leeftijd van de eerste bevalling onderzocht vrouwen die minstens één kind hadden. Het relatieve risico op borstkanker voor vrouwen die hun eerste kind kregen na hun 30e vergeleken met degenen die dit voor hun 30e deden, was 1.45. Dit betekent dat vrouwen die op latere leeftijd hun eerste kind kregen 1.45 keer meer risico liepen op borstkanker. Het 95% betrouwbaarheidsinterval voor dit relatieve risico was [1.34; 1.57]. Aangezien dit interval geen 1 bevat, is het verschil statistisch significant.
---
# Bepalen van de benodigde steekproefgrootte
Oké, hier is de studiegids voor het bepalen van de benodigde steekproefgrootte, gebaseerd op de verstrekte informatie.
## 3. Bepalen van de benodigde steekproefgrootte
Dit onderwerp legt uit hoe de vereiste steekproefgrootte kan worden berekend om een populatieproportie te schatten met een specifieke foutmarge en betrouwbaarheidsniveau.
### 3.1 Inleiding tot steekproefgrootteberekening
Bij het ontwerpen van een studie is het cruciaal om vooraf de benodigde steekproefgrootte te bepalen. Dit stelt onderzoekers in staat om een populatieproportie te schatten met een gewenste precisie, uitgedrukt in een specifieke foutmarge, en met een bepaald betrouwbaarheidsniveau. Het doel is om een voldoende grote steekproef te verkrijgen die representatief is voor de populatie, zonder onnodig grote aantallen respondenten te verzamelen.
### 3.2 Formule voor de benodigde steekproefgrootte
De formule voor het bepalen van de benodigde steekproefgrootte ($n$) voor het schatten van een populatieproportie is afgeleid van de foutmarge van een betrouwbaarheidsinterval. De foutmarge ($m$) wordt gedefinieerd als het product van de kritieke waarde ($z^*$) en de standaardfout van de steekproefproportie.
De relatie wordt uitgedrukt als:
$$m = z^* \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$
Om $n$ te bepalen, kunnen we deze formule herschikken. Een conservatieve schatting van $p$, de populatieproportie, is $0.5$ omdat $\hat{p}(1-\hat{p})$ maximaal is bij $p=0.5$. Dit zorgt voor de grootste benodigde steekproefgrootte en garandeert dat de foutmarge niet groter zal zijn dan gewenst, ongeacht de werkelijke populatieproportie.
De herschikte formule wordt:
$$n = \left( \frac{z^*}{m} \right)^2 \times \hat{p}(1-\hat{p})$$
Voor een conservatieve schatting, wanneer geen voorafgaande data beschikbaar is over de populatieproportie, wordt $\hat{p}$ vaak ingesteld op $0.5$.
#### 3.2.1 Voorbeeld: Benodigde steekproefgrootte bepalen
Stel dat u wilt schatten hoeveel kiezers zullen stemmen op een bepaalde kandidaat. U wilt de populatieproportie ($p$) schatten met een foutmarge ($m$) van $0.03$ en een betrouwbaarheidsniveau van $95\%$.
1. **Kritieke waarde ($z^*$):** Voor een $95\%$ betrouwbaarheidsniveau is de kritieke waarde $z^* = 1.96$.
2. **Conservatieve schatting van $\hat{p}$:** Aangezien er geen voorafgaande gegevens zijn, gebruiken we $\hat{p} = 0.5$.
3. **Berekening van $n$:**
$$n = \left( \frac{1.96}{0.03} \right)^2 \times 0.5(1-0.5)$$
$$n = \left( 65.333 \right)^2 \times 0.25$$
$$n = 4268.57 \times 0.25$$
$$n \approx 1067.14$$
> **Tip:** Omdat een steekproefgrootte altijd een geheel getal moet zijn en we willen garanderen dat de foutmarge niet groter is dan de gewenste waarde, ronden we de berekende steekproefgrootte altijd naar boven af. In dit geval betekent dit dat er 1068 respondenten nodig zijn.
*Conclusie:* Er zijn 1068 respondenten nodig om de proportie stemmers voor de kandidaat te schatten met een foutmarge van $0.03$ met $95\%$ betrouwbaarheid.
### 3.3 Factoren die de steekproefgrootte beïnvloeden
De benodigde steekproefgrootte wordt beïnvloed door twee hoofdfactoren:
* **Betrouwbaarheidsniveau:** Een hoger betrouwbaarheidsniveau vereist een grotere steekproefgrootte. Dit komt doordat een hogere betrouwbaarheid een grotere kritieke waarde ($z^*$) met zich meebrengt, wat de foutmarge vergroot als de steekproefgrootte gelijk blijft.
* **Gewenste foutmarge ($m$):** Een kleinere gewenste foutmarge vereist een grotere steekproefgrootte. Een kleinere foutmarge betekent dat we dichter bij de ware populatieparameter willen komen, wat meer informatie (en dus een grotere steekproef) vereist.
### 3.4 Conservatieve schatting van $\hat{p}$
Wanneer er geen eerdere gegevens beschikbaar zijn om de populatieproportie te schatten, is het gebruikelijk om $\hat{p} = 0.5$ te gebruiken. Dit is de meest conservatieve schatting omdat het product $\hat{p}(1-\hat{p})$ maximaal is bij $\hat{p} = 0.5$. Door deze waarde te gebruiken, garandeert men dat de berekende steekproefgrootte groot genoeg zal zijn om de gewenste foutmarge te behalen, ongeacht de werkelijke proportie in de populatie.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Proportie (fractie) | Een proportie vertegenwoordigt het deel van een populatie of steekproef dat een bepaalde eigenschap bezit. Het wordt uitgedrukt als een getal tussen 0 en 1, of als een percentage. |
| Steekproevenverdeling van een steekproefproportie | Dit is de verdeling van de steekproefproporties die verkregen zouden worden als men herhaaldelijk steekproeven van dezelfde grootte uit dezelfde populatie zou trekken. |
| Betrouwbaarheidsinterval (BI) | Een interval van waarden dat met een bepaalde mate van zekerheid (het betrouwbaarheidsniveau) de ware populatieparameter bevat. |
| Foutmarge | Het deel dat wordt opgeteld bij en afgetrokken van de steekproefstatistiek om het betrouwbaarheidsinterval te construeren. Het vertegenwoordigt de onzekerheid in de schatting. |
| Kritieke waarde | Een waarde uit de steekproevenverdeling die wordt gebruikt om de foutmarge te bepalen. Deze waarde hangt af van het gekozen betrouwbaarheidsniveau. |
| Standaardfout | De standaardafwijking van de steekproevenverdeling van een steekproefstatistiek. Het geeft de typische afwijking aan tussen de steekproefstatistiek en de populatieparameter. |
| Significantietoets | Een statistische procedure om te beoordelen of de waargenomen resultaten in een steekproef significant genoeg zijn om een nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Nulhypothese ($H_0$) | Een stelling over een populatieparameter die wordt aangenomen als waar totdat er voldoende bewijs is om deze te verwerpen. |
| Alternatieve hypothese ($H_a$) | Een stelling die de nulhypothese tegenspreekt. |
| p-waarde | De kans om een steekproefresultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is. |
| Significantieniveau ($\alpha$) | De drempelwaarde die wordt gebruikt om te beslissen of een nulhypothese wordt verworpen. Als de p-waarde kleiner is dan $\alpha$, wordt de nulhypothese verworpen. |
| Plus-Vier schatting | Een methode om een betrouwbaarheidsinterval te construeren door 2 successen en 2 mislukkingen toe te voegen aan de steekproefgegevens, wat leidt tot nauwkeurigere intervallen, vooral bij kleine steekproeven. |
| Relatief Risico (RR) | Een maatstaf die wordt gebruikt om de verhouding van twee proporties te vergelijken. Het geeft aan hoeveel keer groter of kleiner het risico op een bepaalde uitkomst is in de ene groep vergeleken met de andere. |
| Gepoelde (gecombineerde) steekproefproportie | Een gewogen gemiddelde van twee steekproefproporties, gebruikt bij het toetsen van de gelijkheid van twee populatieproporties, waarbij de gewichten gebaseerd zijn op de steekproefgroottes. |
Cover
STA3set4Hfst15NietParametrisch.pptx
Summary
# Introductie tot niet-parametrische toetsen
Hier is een samenvatting van het onderwerp "Introductie tot niet-parametrische toetsen", opgesteld als een studiehandleiding.
## 1. Introductie tot niet-parametrische toetsen
Niet-parametrische toetsen bieden een waardevol alternatief voor parametrische toetsen wanneer data niet normaal verdeeld zijn of gemeten zijn op ordinaal niveau, en stellen minder strenge eisen aan de datakwaliteit.
### 1.1 De noodzaak van niet-parametrische toetsen
Parametrische toetsen, zoals de t-toets en ANOVA, vereisen vaak dat de data normaal verdeeld zijn in de populatie en op intervalniveau gemeten zijn. Hoewel veel methoden robuust zijn voor lichte afwijkingen van normaliteit, zijn niet-parametrische methoden geschikter wanneer deze aannames duidelijk geschonden worden.
* **Beperkingen van parametrische toetsen:**
* Vereisen normaliteit van de data.
* Vereisen interval- of rationiveau metingen.
* **Voordelen van niet-parametrische toetsen:**
* Minder strenge aannames over de datadistributie.
* Geschikt voor ordinale data.
* Robuuster tegen uitschieters en scheve verdelingen.
#### 1.1.1 Alternatieven voor niet-normaal verdeelde data
Wanneer data niet normaal verdeeld zijn, kunnen verschillende strategieën worden overwogen:
* **Data transformatie:** Logaritmische of andere transformaties kunnen helpen om de data meer normaal te verdelen, vooral bij rechtsscheve data.
* **Alternatieve theoretische verdelingen:** Gebruik maken van toetsen gebaseerd op andere bekende verdelingen.
* **Bootstrap methoden:** Computerintensieve methoden die de aanname van normaliteit kunnen omzeilen.
* **Niet-parametrische methoden:** Bieden een eenvoudig en waardevol alternatief, gebaseerd op de rangorde van de data.
> **Tip:** Niet-parametrische toetsen zijn vaak gebaseerd op het centrum van de populatie (zoals de mediaan) in plaats van het gemiddelde, wat ze geschikter maakt voor scheve verdelingen.
#### 1.1.2 Overzicht van niet-parametrische toetsen
Dit studieonderdeel focust op de volgende belangrijke niet-parametrische toetsen:
* Wilcoxon Rank Sum Test (ook bekend als Mann-Whitney U-test)
* Wilcoxon Signed Rank Test
* Kruskal-Wallis Test
Deze toetsen vervangen respectievelijk de t-toets en ANOVA wanneer de aanname van normaliteit niet voldaan is.
### 1.2 Wilcoxon signed rank test (rangtekentoets)
De Wilcoxon signed rank test wordt gebruikt voor afhankelijke (gepaarde of gekoppelde) steekproeven. In tegenstelling tot de eenvoudige tekentoets, die alleen de richting van het verschil in een paar beschouwt, houdt deze toets ook rekening met de *grootte* van het verschil, wat leidt tot een hoger onderscheidingsvermogen.
* **Toepasbaar op:**
* Within-subjects (herhaalde metingen) designs.
* Onderzoek met gematchte paren ("matched subjects").
#### 1.2.1 Procedure van de Wilcoxon signed rank test
1. **Bereken de verschillen:** Bepaal de verschillen tussen de responsen binnen elk paar.
2. **Rangschik de absolute verschillen:** Orden de absolute waarden van deze verschillen van klein naar groot.
3. **Sommeer de rangen:** W+ is de som van de rangen van de positieve verschillen, en W- is de som van de rangen van de negatieve verschillen.
4. **Bepaal de toetsingsgrootheid:** De toetsingsgrootheid $V$ is het minimum van $W+$ en $W-$.
$$V = \min(W^+, W^-)$$
5. **Hypothesetesten:** De nulhypothese (H0) stelt dat er geen systematische verschillen zijn tussen de paren. De hypothese wordt verworpen als $V$ significant verschilt van zijn verwachte waarde.
#### 1.2.2 Toetsingsgrootheid en interpretatie
* Voor grote steekproeven ($n \ge 10$) kan een normaalbenadering worden gebruikt om de overschrijdingskans te bepalen.
* De toetsingsgrootheid $V$ wordt vergeleken met een kritische waarde uit tabellen om de significantie te beoordelen.
* In softwarepakketten zoals SPSS wordt de toetsingsgrootheid vaak als $W^-$ of $W^+$ gerapporteerd, afhankelijk van de implementatie. In R wordt de toetsingsgrootheid $V$ gerapporteerd.
> **Voorbeeld:** Een onderzoeker wil weten of een filmpje van een spin angst kan opwekken. De hartslag van deelnemers wordt voor en na het zien van het filmpje gemeten. De Wilcoxon signed rank test kan dan gebruikt worden om te bepalen of er een significant verschil is in hartslag. Als meer deelnemers een verhoogde hartslag vertonen na het filmpje, wordt dit meegenomen in de analyse van de rangordes van de verschillen.
* **Onderscheidingsvermogen:** De Wilcoxon signed rank test heeft een beter onderscheidingsvermogen dan de "gewone" tekentoets omdat het rekening houdt met de grootte van de verschillen.
* **Continuïteitscorrectie:** Bij het gebruik van de normaalbenadering voor grote steekproeven wordt vaak een continuïteitscorrectie toegepast, wat statistische software doorgaans automatisch doet.
### 1.3 Wilcoxon Rank Sum Test (Mann-Whitney U-test)
De Wilcoxon Rank Sum Test, ook wel de Mann-Whitney U-test genoemd, is een krachtige niet-parametrische toets voor het vergelijken van twee onafhankelijke verdelingen.
* **Uitgangspunt:** Deze toets vergelijkt de posities (rangordes) van de waarnemingen uit beide groepen wanneer deze samen in één geordende lijst worden geplaatst.
* **Rangtransformatie:** De oorspronkelijke meetwaarden worden vervangen door hun rangorde (positie in de geordende lijst). Dit betekent dat een deel van de informatie verloren gaat, maar de toets wordt robuuster.
#### 1.3.1 Procedure van de Wilcoxon Rank Sum Test
1. **Combineer en rangschik:** Combineer de data van beide groepen en rangschik alle waarnemingen van klein naar groot. De rangorde van elke waarneming wordt vastgelegd.
2. **Bereken rangsommen:** Bereken de som van de rangordes voor elke groep afzonderlijk ($W_X$ en $W_Y$).
3. **Gecorrigeerde rangsommen:** Een "gecorrigeerde rangsom" ($W_{corr}$) wordt berekend door de minimale rangsom voor de groep af te trekken van de gewone rangsom.
$$W_{corr} = \text{rangsom} - \text{minimale rangsom}$$
4. **Bepaal de toetsingsgrootheid:** De toetsingsgrootheid kan $W$ (de gewone rangsom) of $W_{corr}$ (de gecorrigeerde rangsom) zijn. In de literatuur wordt de $W_{corr}$ vaak aangeduid als de $U$-statistiek in de context van de Mann-Whitney U-test.
$$W_{corr} = \min(W_X, W_Y)$$
5. **Hypothesetesten:** De nulhypothese (H0) stelt dat de medianen van de twee groepen gelijk zijn of dat de ene groep niet systematisch hogere scores heeft dan de andere. H0 wordt verworpen als de toetsingsgrootheid significant afwijkt van zijn verwachte waarde.
> **Tip:** Er zijn verschillende definities van de toetsingsgrootheid $W$ in de literatuur. Het is cruciaal om te vermelden welke definitie (gewone rangsom of gecorrigeerde rangsom) is gebruikt, of om de toets als een Mann-Whitney U-test te rapporteren waarbij de gecorrigeerde rangsom $W_{corr}$ als $U$ wordt aangeduid.
#### 1.3.2 Interpretatie en toepassingen
* **Hypothesen:** Vaak wordt H0 geformuleerd als $P[X \ge Y] = 1/2$, wat equivalent is aan $mediaan(X) \ge mediaan(Y)$.
* **Grote steekproeven:** Voor grotere steekproeven ($n_1$ en $n_2 \ge 10$) kan de gecorrigeerde rangsom ($W_{corr}$ of $U$) bij benadering normaal verdeeld worden verondersteld met een specifiek gemiddelde en standaardfout.
* Gemiddelde van $W_{corr}$ (of $U$): $$\mu_U = \frac{n_1 n_2}{2}$$
* Standaardfout van $W_{corr}$ (of $U$) bij afwezigheid van gelijke scores: $$\sigma_U = \sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}}$$
* Wanneer er gelijke scores ("ties") zijn, is er een meer complexe formule voor de standaardfout.
* **Software:** Statistische software zoals R en SPSS berekent deze toetsen en biedt opties voor exacte toetsen of benaderingen, inclusief continuïteitscorrecties.
> **Voorbeeld:** Onderzoekers vergelijken de motivatiescores van twee groepen: deelnemers die zelf een onderwerp mochten kiezen versus deelnemers die een onderwerp opgelegd kregen. De Wilcoxon Rank Sum Test (Mann-Whitney U-test) wordt gebruikt om te bepalen of de motivatiescores significant verschillen tussen de groepen. Als de gecorrigeerde rangsom $U$ laag is, suggereert dit dat de scores in de ene groep systematisch hoger zijn dan in de andere.
#### 1.3.3 Eigenschappen van de Wilcoxon-Mann-Whitney test
* **Onderscheidingsvermogen:** Een van de niet-parametrische toetsen met het hoogste onderscheidingsvermogen. Zelfs wanneer toegepast op data die geschikt zouden zijn voor een t-toets, bereikt deze toets ongeveer 95% van het onderscheidingsvermogen van de t-toets.
* **Geschiktheid:** Biedt een zeer goed alternatief bij twijfel over de aannames van parametrische toetsen.
* **"Ties":** Bij gelijke scores ("ties") zijn de standaardformules voor de benadering minder nauwkeurig. Softwarepakketten bieden hier vaak correcties voor.
### 1.4 Kruskal-Wallis Test
De Kruskal-Wallis test is een niet-parametrische rangorde toets die dient als alternatief voor de eenweg ANOVA F-toets.
* **Procedure:** Alle waarnemingen van alle groepen worden gecombineerd en gerangschikt. Vervolgens wordt een eenweg ANOVA toegepast op de rangordes in plaats van op de oorspronkelijke meetwaarden.
* **Doel:** De test wordt gebruikt om na te gaan of er significante verschillen zijn tussen de medianen van drie of meer onafhankelijke groepen.
> **Tip:** Wanneer u meer dan twee groepen met elkaar wilt vergelijken en de aannames van ANOVA niet voldaan zijn, is de Kruskal-Wallis test een geschikte keuze. Het biedt een "omnibus" test die aangeeft of er ergens een significant verschil is tussen de groepen, waarna eventuele follow-up analyses nodig zijn om specifieke groepsverschillen te identificeren.
---
# Wilcoxon rangtekentoets voor gekoppelde steekproeven
De Wilcoxon rangtekentoets is een niet-parametrische methode om systematische verschillen te detecteren tussen twee afhankelijke (gekoppelde) metingen.
### 2.1 Toepassingsgebied
Deze toets is geschikt voor situaties waarin metingen gekoppeld zijn. Dit kan voorkomen bij:
* **Within-subjects (herhaalde metingen) onderzoek:** Dezelfde proefpersonen worden tweemaal gemeten, bijvoorbeeld voor en na een interventie.
* **Onderzoek met gematchte paren (matched subjects):** Proefpersonen worden op basis van relevante kenmerken aan elkaar gekoppeld.
De toets houdt rekening met zowel de richting als de grootte van de verschillen binnen de paren, wat resulteert in een groter onderscheidingsvermogen dan de eenvoudigere tekentoets.
### 2.2 Berekening van de toetsingsgrootheid
Bij de Wilcoxon rangtekentoets worden de volgende stappen doorlopen:
1. **Bepaal de verschillen:** Bereken het verschil tussen de twee metingen voor elk paar.
2. **Orden de absolute verschillen:** Rangschik de absolute waarden van deze verschillen van klein naar groot.
3. **Ken rangen toe:** Ken aan elk geordend absoluut verschil een rang toe.
4. **Splits de rangen:** Verdeel de rangen opnieuw op basis van de oorspronkelijke richting van de verschillen (positieve versus negatieve verschillen).
5. **Bereken de sommen van de rangen:**
* $W^+$: De som van de rangen van de positieve verschillen.
* $W^-$: De som van de rangen van de negatieve verschillen.
De toetsingsgrootheid, aangeduid als $V$, wordt berekend als het minimum van deze twee sommen:
$$V = \min(W^+, W^-)$$
**Tip:** Sommige literatuur en softwarepakketten gebruiken enkel $W^+$ als toetsingsgrootheid, met name wanneer de normaalbenadering wordt toegepast. Voor exacte toetsen met behulp van tabellen is het cruciaal om het minimum van $W^+$ en $W^-$ te gebruiken, omdat alleen die waarde in de beschikbare tabellen wordt vermeld.
**Vergelijking met de tekentoets:** In tegenstelling tot de gewone tekentoets, die enkel kijkt naar de richting van het verschil, neemt de Wilcoxon rangtekentoets de grootte van het verschil mee in de analyse door middel van de rangen van de absolute verschillen.
**Aantal ongelijke paren:** De toets wordt uitgevoerd op basis van de paren waarin daadwerkelijk een verschil is geobserveerd. Dit aantal wordt vaak aangeduid met $N^*$. Paren met een verschil van nul worden dus niet meegenomen in de rangorde en de berekeningen van $W^+$ en $W^-$.
### 2.3 Interpretatie van de resultaten
De nulhypothese ($H_0$) stelt dat er geen systematische verschillen zijn tussen de twee metingen binnen de paren. De alternatieve hypothese ($H_1$) stelt dat er wel systematische verschillen zijn.
De nulhypothese wordt verworpen als de toetsingsgrootheid $V$ significant afwijkt van de verwachte waarde onder de nulhypothese. Dit gebeurt wanneer $V$ kleiner is dan een kritische waarde uit een binomiale tabel (voor kleine steekproeven) of wanneer een berekende $p$-waarde kleiner is dan het significantieniveau (vaak $\alpha = 0.05$).
#### 2.3.1 Benaderingsmethode voor grote steekproeven
Voor grotere steekproeven (typisch $n \geq 10$, waarbij $n$ het aantal ongelijke paren voorstelt) kan de verdeling van $V$ bij benadering normaal verdeeld worden beschouwd. In dergelijke gevallen kan de overschrijdingskans worden berekend met behulp van de z-verdeling.
#### 2.3.2 Voorbeeld: Hartslag voor en na een interventie
Stel dat de hartslagen voor (Hv) en na (Hn) het zien van een spin als volgt zijn gemeten bij 16 proefpersonen:
Hv = [75, 62, 80, 69, 72, 72, 76, 64, 70, 73, 68, 68, 72, 70, 68, 67]
Hn = [75, 63, 79, 67, 75, 75, 73, 67, 75, 78, 73, 73, 78, 78, 80, 79]
1. **Verschillen (Hn - Hv):**
[0, 1, -1, -2, 3, 3, -3, 3, 5, 5, 5, 5, 6, 8, 12, 12]
2. **Absolute verschillen (uitgezonderd 0):**
[1, 1, 2, 3, 3, 3, 3, 5, 5, 5, 5, 6, 8, 12, 12]
(Er zijn 15 paren met een verschil, $N^* = 15$)
3. **Rangschikking van absolute verschillen:**
* 1 (rang 1, 2)
* 2 (rang 3)
* 3 (rang 4, 5, 6, 7)
* 5 (rang 8, 9, 10, 11)
* 6 (rang 12)
* 8 (rang 13)
* 12 (rang 14, 15)
4. **Toewijzing van rangen aan oorspronkelijke verschillen:**
* Positieve verschillen: [3, 3, 3, 3, 5, 5, 5, 5, 6, 8, 12, 12]
* Negatieve verschillen: [-1, -2, -3]
5. **Sommen van de rangen:**
* De rangen voor de positieve verschillen (3, 3, 3, 3, 5, 5, 5, 5, 6, 8, 12, 12) zijn:
* Voor de drieën: rangen 4, 5, 6, 7
* Voor de vijven: rangen 8, 9, 10, 11
* Voor de zessen: rang 12
* Voor de achten: rang 13
* Voor de twaalven: rangen 14, 15
$W^+ = (4+5+6+7) + (8+9+10+11) + 12 + 13 + (14+15) = 22 + 38 + 12 + 13 + 29 = 114$
* De rangen voor de negatieve verschillen (-1, -2, -3) zijn:
* Voor de -1: rang 1
* Voor de -2: rang 3
* Voor de -3: rang 4
$W^- = 1 + 3 + 4 = 8$
6. **Toetsingsgrootheid:**
$V = \min(W^+, W^-) = \min(114, 8) = 8$
**Interpretatie van het voorbeeld:**
Met $V = 8$ en een relatief klein aantal ongelijke paren, zou men de $p$-waarde opzoeken in een binomiale tabel. Als deze $p$-waarde lager is dan het gekozen significantieniveau, wordt de nulhypothese verworpen en concludeert men dat er een significant verschil is in hartslag vóór en na het zien van de spin. Als de $p$-waarde bijvoorbeeld kleiner is dan 0.005, kan geconcludeerd worden dat een meerderheid van de deelnemers een verhoogde hartslag vertoonde na het tonen van een spin.
**Tip:** Verschillende statistische softwarepakketten, zoals R, bieden functies om deze toets direct uit te voeren. Rapporteer altijd de gebruikte software en de specifieke functie of commando dat is gebruikt. Bijvoorbeeld, de R-output voor de hartslagdata toont een $p$-waarde van 0.004743, wat significant is op het $\alpha=0.05$ niveau.
#### 2.3.3 Belangrijkheid van de continuïteitscorrectie
Bij het benaderen van de verdeling met een normaalverdeling, wordt doorgaans een continuïteitscorrectie toegepast om de discrete aard van de rangen te compenseren. De meeste statistische softwarepakketten passen deze correctie automatisch toe wanneer de normaalbenadering wordt gebruikt.
> **Tip:** Controleer altijd de documentatie van de gebruikte software om te zien of een continuïteitscorrectie is toegepast en vermeld dit expliciet in uw rapportage indien relevant.
### 2.4 Vergelijking met de Mann-Whitney U-test
Het is belangrijk de Wilcoxon rangtekentoets voor gekoppelde steekproeven niet te verwarren met de Wilcoxon rangsomtoets (ook bekend als de Mann-Whitney U-test), die wordt gebruikt voor **onafhankelijke** steekproeven. Beide toetsen zijn niet-parametrisch en gebaseerd op rangscores, maar ze zijn bedoeld voor verschillende onderzoeksdesigns.
---
# Wilcoxon rangsomtoets voor onafhankelijke steekproeven (Mann-Whitney U-test)
De Wilcoxon rangsomtoets, ook bekend als de Mann-Whitney U-test, is een niet-parametrische toets die gebruikt wordt om twee onafhankelijke verdelingen te vergelijken.
### 3.1 Inleiding tot de Wilcoxon rangsomtoets
* **Doel:** Het vergelijken van de verdelingen van twee onafhankelijke groepen. Dit is een niet-parametrisch alternatief voor de t-toets voor onafhankelijke steekproeven, vooral wanneer de data niet normaal verdeeld zijn of wanneer de data van ordinaal niveau zijn.
* **Uitgangspunt:** De toets vergelijkt de posities van de waarnemingen van beide groepen in een geordende lijst van alle waarnemingen.
### 3.2 Rangtransformatie
* **Concept:** De oorspronkelijke meetwaarden worden vervangen door hun rangorde. De waarneming met de kleinste meetwaarde krijgt rang 1, de volgende rang 2, enzovoort.
* **Proces:**
1. Combineer alle waarnemingen van beide groepen.
2. Orden de gecombineerde waarnemingen van klein naar groot.
3. Ken aan elke waarneming haar rangnummer toe.
* **Gevolg:** Een deel van de informatie gaat verloren, omdat de exacte numerieke waarden worden vervangen door hun positie in de ordening.
### 3.3 Hypotheses
De nulhypothese ($H_0$) stelt doorgaans dat de medianen van de twee populaties gelijk zijn, of dat de ene populatie niet systematisch hogere of lagere waarden heeft dan de andere. De alternatieve hypothese ($H_A$) stelt dat er wel een verschil is.
* **Voorbeeld Hypotheses:**
* $H_0$: mediaan($X$) = mediaan($Y$)
* $H_A$: mediaan($X$) $\neq$ mediaan($Y$) (tweezijdig)
* $H_0$: mediaan($X$) $\leq$ mediaan($Y$)
* $H_A$: mediaan($X$) $>$ mediaan($Y$) (eenzijdig)
> **Tip:** De Wilcoxon-Mann-Whitney test gaat uit van gelijke verdelingsvormen (maar niet noodzakelijk normaliteit). Als de verdelingen significant verschillen in vorm, kan de interpretatie van verschillen in medianen complex worden.
### 3.4 Berekening van de toetsingsgrootheid
Er zijn twee veelgebruikte definities voor de toetsingsgrootheid: de "gewone rangsom" (W) en de "gecorrigeerde rangsom" ($W_{corr}$, ook vaak aangeduid als U).
#### 3.4.1 Gewone rangsom (W)
* **Berekening:**
1. Bereken de som van de rangen voor groep X ($W_X$) en voor groep Y ($W_Y$).
2. De toetsingsgrootheid is het minimum van deze twee sommen: $W = \min(W_X, W_Y)$.
#### 3.4.2 Gecorrigeerde rangsom ($W_{corr}$ of U)
Deze berekening corrigeert de rangsom voor de grootte van de groep.
* **Berekening:**
1. Bereken de som van de rangen voor groep X ($W_X$) en voor groep Y ($W_Y$).
2. Bepaal de minimale mogelijke som van rangen voor de kleinste groep. Dit is de som van de eerste $n_{klein}$ rangnummers, waar $n_{klein}$ de grootte van de kleinste groep is.
$$ \text{Minimale rangsom} = \frac{n_{klein}(n_{klein} + 1)}{2} $$
3. De gecorrigeerde rangsom voor groep X is:
$$ W_{corr, X} = W_X - \frac{n_X(n_X + 1)}{2} $$
4. De gecorrigeerde rangsom voor groep Y is:
$$ W_{corr, Y} = W_Y - \frac{n_Y(n_Y + 1)}{2} $$
5. De toetsingsgrootheid $U$ is het minimum van deze gecorrigeerde sommen, of een alternatieve berekening die gelijk is aan het aantal paren waarbij een waarneming uit groep X een hogere rang heeft dan een waarneming uit groep Y. Vaak wordt $U$ gedefinieerd als $U = n_1 n_2 + \frac{n_1(n_1+1)}{2} - W_1$ (waarbij $W_1$ de rangsom van groep 1 is). Software rapporteert vaak de kleinere van de twee mogelijke U-waarden.
> **Opmerking:** De keuze tussen het rapporteren van W of U kan verwarrend zijn. Het is cruciaal om duidelijk te vermelden welke toetsingsgrootheid wordt gebruikt en hoe deze is berekend, of om aan te geven welke software gebruikt is. Veel statistische softwarepakketten rapporteren de $U$-waarde (gecorrigeerde rangsom) als toetsingsgrootheid.
#### 3.4.3 Geknoopte rangen (ties)
* **Probleem:** Wanneer er gelijke waarnemingswaarden zijn ("knopen" of "ties"), wordt de rangtoekenning ingewikkelder. Meestal worden de rangen gemiddeld voor de gebonden waarden.
* **Impact:** De standaardformules voor de variantie en de normaalbenadering zijn dan minder nauwkeurig. Statistische software past doorgaans correcties toe voor geknoopte rangen.
### 3.5 Interpretatie van de resultaten
* **Toetsingsgrootheid:** De berekende $W$ of $U$ waarde.
* **Overschrijdingskans (p-waarde):** Deze wordt bepaald met behulp van tabellen (voor kleine steekproeven) of via een normaalbenadering (voor grotere steekproeven).
* **Beslissing:**
* Als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$, meestal 0.05), wordt de nulhypothese verworpen. Dit suggereert een significant verschil tussen de twee verdelingen.
* Als de p-waarde groter is dan $\alpha$, wordt de nulhypothese niet verworpen. Er is onvoldoende bewijs voor een significant verschil.
### 3.6 Normaalbenadering voor grote steekproeven
Voor grote steekproeven (meestal $n_1 \geq 10$ en $n_2 \geq 10$) kan de verdeling van de toetsingsgrootheid benaderd worden door een normaalverdeling.
* **Toetsingsgrootheid $W_{corr}$ (U):**
* Gemiddelde: $E(U) = \frac{n_1 n_2}{2}$
* Standaarddeviatie: $SD(U) = \sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}}$
* De z-score wordt dan berekend als: $Z = \frac{U - E(U)}{SD(U)}$
* **Toetsingsgrootheid W (niet-gecorrigeerd):**
* Gemiddelde: $E(W) = \frac{N(N+1)}{4}$, waarbij $N = n_1 + n_2$.
* Standaarddeviatie: $SD(W) = \sqrt{\frac{n_1 n_2 (N+1)}{12}}$
* De z-score wordt dan berekend als: $Z = \frac{W - E(W)}{SD(W)}$
> **Let op:** Bij geknoopte rangen zijn de formules voor de standaarddeviatie complexer. Statistische software past deze correcties automatisch toe. Vaak wordt ook een continuïteitscorrectie toegepast in de normaalbenadering.
### 3.7 Eigenschappen en voordelen
* **Robuustheid:** Vereist geen normaliteit van de data.
* **Meetniveau:** Toepasbaar op ordinale data, maar ook op interval- en rationiveau indien niet aan de aannames van parametrische toetsen wordt voldaan.
* **Onderscheidingsvermogen:** Heeft een hoog onderscheidingsvermogen (ongeveer 95% van dat van de t-toets voor onafhankelijke steekproeven wanneer de data wel aan de aannames van de t-toets voldoen). Dit maakt het een goed alternatief bij twijfel.
* **Eenvoud:** Relatief eenvoudig te begrijpen en toe te passen, vooral met behulp van statistische software.
### 3.8 Vergelijking met andere toetsen
* **T-toets voor onafhankelijke steekproeven:** De Wilcoxon-Mann-Whitney test is het niet-parametrische equivalent wanneer de aannames voor de t-toets (normaliteit, gelijke varianties) geschonden zijn.
* **Wilcoxon tekentoets (signed rank test):** Deze toets wordt gebruikt voor **afhankelijke** steekproeven (gepaarde waarnemingen), terwijl de Mann-Whitney U-test voor **onafhankelijke** steekproeven is.
### 3.9 Rapporteren van resultaten
Wanneer de Wilcoxon-Mann-Whitney test wordt gerapporteerd, is het belangrijk om:
* Vermelden welke toets is gebruikt (bijv. Mann-Whitney U-test of Wilcoxon rangsomtoets).
* De waarde van de toetsingsgrootheid te vermelden (bijv. $U = 37$ of $W = 92$).
* De p-waarde te vermelden (bijv. $p = 0.06$).
* De richting van het verschil aan te geven, indien relevant (bijv. "groep A had significant hogere scores dan groep B").
* Expliciet te vermelden indien een gecorrigeerde rangsom ($W_{corr}$ of $U$) is gebruikt.
> **Voorbeeld rapportage:**
> "Deelnemers die zelf een onderwerp kozen hadden hogere motivatiescores dan deelnemers die een onderwerp opgelegd kregen, echter, dit verschil is niet significant (Mann-Whitney test: $U = 37$, $p = 0.06$)."
> OF
> "Deelnemers die zelf een onderwerp hadden gekozen bleken niet significant meer gemotiveerd dan deelnemers met een opgelegd onderwerp (Wilcoxon test zonder correctie: $W = 92$, $p = 0.06$)."
---
# Kruskal-Wallis toets
De Kruskal-Wallis toets is een niet-parametrische rangorde toets die dient als alternatief voor de eenweg ANOVA F-toets, en wordt gebruikt om meer dan twee onafhankelijke groepen te vergelijken.
### 4.1 Inleiding en concept
* **Doel:** Vergelijken van het centrum van de verdelingen van meer dan twee onafhankelijke groepen, met name wanneer de aanname van normaliteit voor de ANOVA niet voldaan is.
* **Basisprincipe:** De toets is gebaseerd op de rangorde van alle waarnemingen uit alle groepen samen, in plaats van op de oorspronkelijke meetwaarden. Dit betekent dat de data eerst globaal worden geordend, waarna de rangen worden geanalyseerd.
* **Alternatief voor ANOVA:** De Kruskal-Wallis toets is een niet-parametrisch alternatief voor de parametrische ANOVA F-toets.
* **Assumpties:**
* De afhankelijke variabele is ordinaal gemeten of continu en voldoet niet aan de normaliteitsaanname van de ANOVA.
* De observaties binnen elke groep zijn onafhankelijk.
* De groepen zijn onafhankelijk.
* De vorm van de verdeling is voor elke groep gelijk (dit is een sterkere aanname die nodig is om te concluderen over medianen). Indien deze aanname niet geldt, test de toets dan of de rangordes significant verschillen tussen de groepen.
### 4.2 Procedure
1. **Rangschikken van alle data:** Alle waarnemingen uit alle te vergelijken groepen worden samengevoegd en van klein naar groot gerangschikt. De laagste waarde krijgt rang 1, de volgende rang 2, enzovoort. Bij gelijke waarden (ties) worden gemiddelde rangen toegekend.
2. **Berekenen van de rangsom per groep:** Voor elke groep wordt de som van de rangen van de waarnemingen die tot die groep behoren, berekend.
3. **Toetsingsgrootheid berekenen:** De Kruskal-Wallis toetsingsgrootheid, $H$, wordt berekend op basis van de rangsommen en de groepsgroottes.
De formule voor de Kruskal-Wallis toetsingsgrootheid $H$ is:
$$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1)$$
Waar:
* $N$ = het totale aantal waarnemingen over alle groepen ($N = \sum_{i=1}^{k} n_i$).
* $k$ = het aantal groepen.
* $n_i$ = het aantal waarnemingen in groep $i$.
* $R_i$ = de som van de rangen in groep $i$.
Een alternatieve formule, vooral nuttig bij de berekening, is:
$$H = \frac{1}{2} \left( \frac{\sum_{i=1}^{k} \frac{R_i^2}{n_i}}{\sum_{j=1}^{N} j^2 / N} - 3(N+1) \right)$$
of simpelweg, met correctie voor ties:
$$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1)$$
Er bestaat ook een aangepaste formule om te corrigeren voor het voorkomen van gelijke waarden (ties):
$$H_{corr} = \frac{H}{1 - \frac{\sum_{j=1}^{m} (t_j^3 - t_j)}{N^3 - N}}$$
Waar:
* $m$ = het aantal sets van gelijke waarden.
* $t_j$ = het aantal waarnemingen in de $j$-de set van gelijke waarden.
4. **Beslissing:**
* Voor kleine steekproeven wordt de exacte kansverdeling van $H$ gebruikt of worden kritische waarden uit tabellen opgezocht.
* Voor grotere steekproeven (algemeen $N > 20$) kan de toetsingsgrootheid $H$ bij benadering worden getoetst met een $\chi^2$-verdeling met $k-1$ vrijheidsgraden. De nulhypothese wordt verworpen als de berekende $H$ groter is dan de kritische $\chi^2$-waarde voor een bepaald significantieniveau $\alpha$.
### 4.3 Hypothesen
* **Nulhypothese ($H_0$):** De verdelingen van de afhankelijke variabele zijn voor alle $k$ groepen identiek. Dit betekent dat de medianen (of andere centrummaten) van de groepen gelijk zijn.
$$H_0: \text{mediaan}_1 = \text{mediaan}_2 = \dots = \text{mediaan}_k$$
* **Alternatieve hypothese ($H_a$):** Ten minste één van de groepverdelingen verschilt van de andere.
$$H_a: \text{niet alle medianen zijn gelijk}$$
### 4.4 Interpretatie en follow-up
* **Globale toets:** De Kruskal-Wallis toets is een "omnibus test" die aangeeft óf er een significant verschil is tussen de groepen, maar niet welke groepen specifiek van elkaar verschillen.
* **Follow-up testen:** Indien de nulhypothese wordt verworpen (dus als er een significant verschil is gevonden), is een follow-up analyse nodig om te bepalen welke groepen significant van elkaar verschillen. Dit wordt doorgaans gedaan met gepaarde vergelijkingen (bijvoorbeeld Mann-Whitney U-toetsen) tussen de groepen, waarbij de significantieniveaus moeten worden gecorrigeerd om het probleem van meervoudige vergelijkingen te beheersen (bijvoorbeeld Bonferroni-correctie).
> **Tip:** Wanneer je post-hoc testen uitvoert na een Kruskal-Wallis toets, is het belangrijk om de significantieniveaus aan te passen om het risico op Type I fouten te verminderen. De Bonferroni-correctie, waarbij het oorspronkelijke significantieniveau $\alpha$ wordt gedeeld door het aantal uitgevoerde vergelijkingen, is een veelgebruikte methode.
### 4.5 Voorbeeld
Stel dat we de effectiviteit van drie verschillende trainingsmethoden willen vergelijken op de prestaties van atleten. De prestatiescores worden verzameld voor drie groepen atleten, elk getraind met een andere methode. Aangezien de prestatiescores niet normaal verdeeld blijken te zijn, wordt de Kruskal-Wallis toets gebruikt.
1. **Data:**
* Groep 1 (Methode A): Scores 75, 62, 80, 69
* Groep 2 (Methode B): Scores 75, 63, 79, 67
* Groep 3 (Methode C): Scores 73, 67, 75, 78, 73, 73, 78, 78, 80, 79
2. **Rangschikken:** Alle 17 scores worden samengevoegd en gerangschikt.
* 62 (rang 1), 63 (rang 2), 67 (rang 3), 67 (rang 4), 69 (rang 5), 73 (rang 6), 73 (rang 7), 73 (rang 8), 75 (rang 9), 75 (rang 10), 75 (rang 11), 78 (rang 12), 78 (rang 13), 78 (rang 14), 79 (rang 15), 79 (rang 16), 80 (rang 17), 80 (rang 18).
* Er zijn ties: vier keer 67, drie keer 73, drie keer 75, drie keer 78, twee keer 79, twee keer 80. De gemiddelde rangen voor de tied scores worden berekend. Bijvoorbeeld, de scores 67 krijgen de gemiddelde rang van (3+4)/2 = 3.5.
3. **Rangsommen per groep:** Na het toekennen van de gemiddelde rangen, worden de rangsommen per groep berekend.
* Groep 1 ($n_1=4$): Rangsom $R_1$
* Groep 2 ($n_2=4$): Rangsom $R_2$
* Groep 3 ($n_3=10$): Rangsom $R_3$
4. **Berekenen H:** De toetsingsgrootheid $H$ wordt berekend met de formule.
5. **Beslissing:** De waarde van $H$ wordt vergeleken met de kritische waarde uit de $\chi^2$-verdeling met $k-1 = 3-1 = 2$ vrijheidsgraden, of een exacte p-waarde wordt bepaald. Als de p-waarde kleiner is dan het gekozen significantieniveau (bijvoorbeeld 0.05), wordt de nulhypothese verworpen.
### 4.6 Voordelen en nadelen
* **Voordelen:**
* Vereist minder strikte aannames dan parametrische toetsen (zoals normaliteit).
* Geschikt voor ordinale data.
* Robuust tegen uitschieters.
* Een van de niet-parametrische toetsen met het hoogste onderscheidingsvermogen; zelfs op intervalniveau data die geschikt zouden zijn voor een t-toets, presteert de Kruskal-Wallis toets ongeveer 95% van het onderscheidingsvermogen van de ANOVA.
* **Nadelen:**
* Minder onderscheidingsvermogen dan parametrische toetsen wanneer de aannames van de parametrische toetsen wél voldaan zijn.
* Geeft geen informatie over de effectgrootte op de oorspronkelijke schaal, alleen over de rangordes.
* Bij veel ties worden de formules complexer en kan statistische software nodig zijn voor nauwkeurige resultaten.
### 4.7 Relatie met andere toetsen
* **ANOVA F-toets:** De Kruskal-Wallis toets is het niet-parametrische equivalent van de eenweg ANOVA F-toets.
* **Mann-Whitney U-toets (Wilcoxon Rank Sum Test):** Dit is het niet-parametrische equivalent van de onafhankelijke t-toets voor twee groepen. De Kruskal-Wallis toets kan worden gezien als een uitbreiding van de Mann-Whitney U-toets naar meer dan twee groepen. Als er slechts twee groepen zijn, is de Kruskal-Wallis toets equivalent aan de Mann-Whitney U-toets.
* **Wilcoxon Signed Rank Test:** Dit is het niet-parametrische equivalent van de gepaarde t-toets en wordt gebruikt voor afhankelijke steekproeven. De Kruskal-Wallis toets wordt daarentegen gebruikt voor onafhankelijke steekproeven.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-parametrische toetsen | Statistische methoden die minder strikte eisen stellen aan de datakwaliteit, met name met betrekking tot de veronderstelde verdeling van de populatie, zoals normaliteit. Ze zijn vaak gebaseerd op rangordes van data. |
| Intervalniveau | Een meetschaal waarbij de verschillen tussen waarden betekenisvol zijn en de nulpunten arbitrair zijn. Hierdoor kan men de relatieve verschillen tussen metingen uitdrukken, maar geen absolute verhoudingen. |
| Populatie | De volledige groep individuen, objecten of gebeurtenissen waarover men een conclusie wil trekken in een statistisch onderzoek. |
| Normaal verdeeld | Een symmetrische, klokvormige verdeling van data waarbij de meeste waarnemingen rond het gemiddelde liggen en de frequentie afneemt naarmate men verder van het gemiddelde verwijderd is. |
| Robuust (statistieken) | Statistieken die ongevoelig zijn voor uitschieters of afwijkingen van de normale verdeling. Ze blijven relatief stabiel, zelfs bij niet-ideale data. |
| Uitschieters | Waarnemingen die significant afwijken van de rest van de data in een dataset. Ze kunnen een grote invloed hebben op statistische berekeningen en resultaten. |
| Transformatie van data | Wiskundige bewerkingen die worden toegepast op ruwe data om de verdeling ervan te veranderen, bijvoorbeeld om scheefheid te corrigeren of aan de assumpties van een statistische test te voldoen. |
| Logaritme nemen | Een wiskundige transformatie die vaak wordt toegepast op rechts-scheve data om de verdeling symmetrischer te maken en de variantie te stabiliseren. |
| Bootstrap methoden | Computerintensieve statistische methoden die herhaaldelijk samples trekken uit de bestaande data om de onzekerheid in schattingen te bepalen en betrouwbaarheidsintervallen te construeren, zonder sterke aannames over de populatieverdeling. |
| Psychologische meetinstrumenten | Instrumenten, zoals vragenlijsten of tests, die worden gebruikt om psychologische constructen te meten. Vaak meten deze op ordinaal niveau in plaats van intervalniveau. |
| Onderscheidingsvermogen (statistieken) | De capaciteit van een statistische test om een werkelijk bestaand effect of verschil tussen groepen te detecteren (ook wel power genoemd). |
| Rangorde | De volgorde van data op basis van hun relatieve grootte, waarbij elke waarde een rangnummer krijgt toegewezen. |
| Effectgrootte | Een maat voor de omvang van een effect of verschil tussen groepen, onafhankelijk van de steekproefgrootte. |
| Wilcoxon Rangsom Test (Mann-Whitney U-test) | Een niet-parametrische toets voor twee onafhankelijke steekproeven die de medianen van twee groepen vergelijkt door de rangordes van de data te gebruiken. |
| Wilcoxon Rangtekentoets (Signed Rank Test) | Een niet-parametrische toets voor twee afhankelijke (gepaarde) steekproeven die de medianen van de verschillen binnen paren analyseert op basis van rangordes. |
| Gepaarde data | Data waarbij metingen afkomstig zijn van dezelfde eenheden onder verschillende condities, of van matchende eenheden, waardoor er een natuurlijke koppeling ontstaat tussen de metingen. |
| Toetsingsgrootheid | Een waarde berekend uit steekproefdata die wordt gebruikt om de nulhypothese te toetsen. Het vergelijken van deze grootheid met een kritische waarde of het bepalen van de p-waarde leidt tot een beslissing. |
| Verwachting (in statistiek) | De gemiddelde waarde van een willekeurige variabele over een groot aantal herhalingen van een experiment of steekproef. |
| Standaardfout | De standaarddeviatie van de steekproevenverdeling van een schatter. Het geeft een indicatie van de precisie van de schatter. |
| Manipulatie check | Een procedure om te verifiëren of de experimentele manipulatie succesvol is geweest in het opwekken van het gewenste effect of de gewenste conditie bij de deelnemers. |
| N* | Het aantal paren waarin er een verschil is tussen beide waarnemingen, gebruikt in de Wilcoxon rangtekentoets. |
| Rangtransformatie | Het proces waarbij de ruwe meetwaarden van data worden vervangen door hun rangnummers, gebaseerd op hun positie in een gesorteerde lijst. |
| Kruskal-Wallis Test | Een niet-parametrische toets voor drie of meer onafhankelijke groepen die wordt gebruikt als alternatief voor de éénweg ANOVA wanneer de data niet normaal verdeeld is. |
| Omnibus test | Een statistische test die wordt gebruikt om te bepalen of er een algemeen significant effect of verschil is tussen meerdere groepen of variabelen, zonder specifiek aan te geven waar de verschillen liggen. |
| Chi-kwadraat statistiek | Een statistische maat die wordt gebruikt in chi-kwadraat toetsen om de afwijking tussen de geobserveerde frequenties en de verwachte frequenties te meten. |
| Continueitscorrectie | Een aanpassing die wordt toegepast bij het benaderen van een discrete verdeling (zoals de binomiale verdeling) met een continue verdeling (zoals de normale verdeling) om de nauwkeurigheid te verbeteren, vaak door een halve eenheid toe te voegen of af te trekken. |
| Ties | Gelijkwaardige waarden (gelijke scores of rangen) binnen een dataset. Dit kan de berekening van sommige statistische toetsen beïnvloeden. |
Cover
STA3set5Hfst09NietParametrischKruistabellen.pptx
Summary
# Chi-kwadraat goodness-of-fit test
Deze sectie behandelt de chi-kwadraat goodness-of-fit test, ook bekend als de aanpassingstoets of verdelingstoets, die nagaat in hoeverre waargenomen proporties in categorieën overeenkomen met theoretisch verwachte proporties.
### 1.1 Doel van de chi-kwadraat goodness-of-fit test
Het primaire doel van de chi-kwadraat goodness-of-fit test (ook wel aanpassingstoets of verdelingstoets genoemd) is om te bepalen in welke mate de proporties waarin categorieën voorkomen in een steekproef overeenstemmen met de theoretisch verwachte proporties. Deze test wordt toegepast in situaties met één steekproef.
Voorbeelden van vragen die met deze test beantwoord kunnen worden zijn:
* Komen er evenveel mannen als vrouwen voor in een bepaalde populatie?
* Is de verdeling van leiderschapsstijlen bij arbeiders dezelfde als bij een referentiegroep (bijvoorbeeld democratisch, laissez-faire, autoritair, consulterend)?
Het basisprincipe van de test is een vergelijking tussen de omvang van de waargenomen klassen en de theoretisch verwachte omvang van die klassen, gebaseerd op marginale verdelingen of een vooraf bepaalde referentieverdeling.
### 1.2 Kenmerken en toepassing
De chi-kwadraat goodness-of-fit test kan worden toegepast op data met een nominaal of ordinaal meetniveau.
**Nulhypothese ($H_0$):** Er is geen significant verschil tussen de waargenomen proporties in de klassen en de referentieverdeling, anders dan wat verwacht kan worden op basis van toevalssteekproeven.
**Alternatieve hypothese ($H_1$):** Er is een significant verschil tussen de waargenomen proporties in de klassen en de referentieverdeling.
De toetsingsgrootheid van de chi-kwadraat test wordt berekend als volgt:
$$ \chi^2 = \sum_{i=1}^{k} \frac{(o_i - e_i)^2}{e_i} $$
Waarbij:
* $o_i$ staat voor de waargenomen frequentie in klasse $i$.
* $e_i$ staat voor de verwachte frequentie in klasse $i$.
* $k$ is het aantal categorieën of klassen.
Als de waargenomen frequenties sterk afwijken van de verwachte frequenties, resulteert dit in een hoge waarde voor $\chi^2$. Een hoge $\chi^2$-waarde pleit tegen de nulhypothese. De p-waarde van de test wordt verkregen door de berekende waarde van de $\chi^2$-statistiek te vergelijken met de kritieke waarde uit de overeenkomstige chi-kwadraat verdeling.
### 1.3 Chi-kwadraat steekproevenverdeling
De steekproevenverdeling van de $\chi^2$-toetsingsgrootheid volgt een chi-kwadraat verdeling met $k-1$ vrijheidsgraden, waarbij $k$ het aantal categorieën is.
### 1.4 Beperkingen van de chi-kwadraat goodness-of-fit test
De chi-kwadraat test is een benaderende methode die nauwkeuriger wordt naarmate de celfrequenties toenemen. De p-waarde is alleen betrouwbaar als de celfrequenties voldoende groot zijn.
Er gelden specifieke vereisten voor de minimale celfrequenties:
* **Indien het aantal vrijheidsgraden ($df$) gelijk is aan 1 (dus 2 categorieën):** Elke verwachte celfrequentie moet groter zijn dan 5.
* **Indien het aantal vrijheidsgraden ($df$) groter is dan 1:** Niet meer dan 20% van de verwachte celfrequenties mag kleiner zijn dan 5. Soms kan dit probleem worden opgelost door categorieën samen te nemen.
* De kritieke waarden voor de chi-kwadraat test zijn betrouwbaar indien de verwachte celfrequenties gemiddeld minstens 5 zijn en alle verwachte celfrequenties groter zijn dan of gelijk aan 1. In een $2 \times 2$ tabel moeten alle verwachte celfrequenties 5 of meer zijn.
De chi-kwadraat test houdt geen rekening met de rangorde van de categorieën.
### 1.5 Voorbeeld van de chi-kwadraat goodness-of-fit test
Stel, we onderzoeken of de kansen op winst in loopwedstrijden verschillen tussen verschillende startposities.
**Waargenomen frequenties ($Obs$):**
`Obs <- c(29, 19, 18, 25, 17, 10, 15, 11)` (Dit zijn de waargenomen aantallen winnaars per startpositie).
Wanneer we deze data analyseren met een chi-kwadraat test:
* De berekende $\chi^2$ waarde is $16,333$.
* Het aantal vrijheidsgraden is $df = 8 - 1 = 7$ (aangezien er 8 categorieën zijn voor de startposities).
> **Besluit:** De kansen op winst verschillen significant tussen de startposities ($ \chi^2 = 16,333 $, $df = 7$, $p < 0,025$).
### 1.6 Interpretatie van de chi-kwadraat test
De chi-kwadraat test is een zogenaamde *omnibus test*, wat betekent dat deze een verband tussen twee variabelen kan detecteren. In geval van een significante toets is het noodzakelijk om de aard van het verband verder te analyseren. Drie interessante invalshoeken hiervoor zijn:
1. **Vergelijk specifieke celpercentages:** Identificeer welke cellen een afwijkend percentage vertonen.
2. **Vergelijk waargenomen en verwachte celfrequenties:** Bepaal welke cellen over- of ondervertegenwoordigd zijn ten opzichte van de nulhypothese.
3. **Bekijk de termen van de chi-kwadraat toetsingsgrootheid:** Analyseer welke cellen het meest bijdragen aan de totale $\chi^2$-waarde.
### 1.7 Vergelijking van 2 of meer onafhankelijke steekproeven
De chi-kwadraat test kan ook gebruikt worden om te toetsen of er geen verband is tussen twee variabelen in een kruistabel (contingentietabel). In dit geval wordt gesproken van een $\chi^2$ afhankelijkheidstoets.
**Doel:** Toetsen of de rij- en kolomvariabelen in een kruistabel onafhankelijk zijn van elkaar.
**Nulhypothese ($H_0$):** De rij- en kolomvariabelen zijn onafhankelijk.
**Alternatieve hypothese ($H_1$):** De rij- en kolomvariabelen zijn afhankelijk.
**Berekening van verwachte celfrequenties voor een $r \times k$ kruistabel:**
De verwachte frequentie voor een cel wordt berekend op basis van de marginale verdelingen, aannemende dat de variabelen statistisch onafhankelijk zijn.
$$ e_{ij} = \frac{(\text{rijtotaal}_i) \times (\text{kolomtotaal}_j)}{\text{Totaal aantal observaties}} $$
De $\chi^2$ toetsingsgrootheid wordt vervolgens berekend met dezelfde formule als hierboven, maar met $k$ vervangen door het totaal aantal cellen in de kruistabel.
**Vrijheidsgraden voor de afhankelijkheidstoets:**
Voor $r \times k$ kruistabellen is het aantal vrijheidsgraden:
$$ df = (r - 1) \times (k - 1) $$
**Interpretatie:**
* Als de variabelen statistisch onafhankelijk zijn, is de $\chi^2$-waarde $0$.
* Als de variabelen statistisch afhankelijk zijn, zal de $\chi^2$-waarde groter dan $0$ zijn.
#### 1.7.1 Voorbeeld van een chi-kwadraat afhankelijkheidstoets
Vraag: "Zou u naar een professionele hulpverlener gaan bij ernstige psychische problemen?" - Verschillen de antwoorden per land?
**Waargenomen celfrequenties:**
| Land | Ja | Nee | Totaal |
| :--------- | :-- | :-- | :----- |
| Nederland | 151 | 236 | 387 |
| België | 249 | 202 | 451 |
| Frankrijk | 327 | 250 | 577 |
| Duitsland | 135 | 323 | 458 |
| Italië | 178 | 171 | 349 |
| Spanje | 129 | 119 | 248 |
| **Totaal** | 1169| 1201| 2470 |
**Verwachte celfrequenties (voorbeeld voor cel Nederland-Ja):**
$e_{Nederland, Ja} = \frac{387 \times 1169}{2470} \approx 182,56$
**Berekening van de $\chi^2$ toetsingsgrootheid:**
Na het berekenen van alle verwachte celfrequenties en het invullen van de formule, wordt de $\chi^2$ waarde verkregen.
* De berekende $\chi^2$ waarde is $1206,1521$.
* Het aantal vrijheidsgraden is $df = (6-1) \times (2-1) = 5 \times 1 = 5$ (aantal landen - 1) * (aantal antwoorden - 1). Hier is echter een vergissing in het bronmateriaal want de berekening van de $df$ zou moeten gebaseerd zijn op de tabelgrootte, wat hier $5 \times 3 = 15$ zou zijn indien we de categorieën Ja/Nee/Totaal als kolommen zouden beschouwen, of als we enkel kijken naar de vraag Ja/Nee per land, dan is het $(6-1) \times (2-1) = 5$ vrijheidsgraden. Echter, de bron geeft $df=15$ wat suggereert dat er 6 rijen en 4 kolommen zijn (bijvoorbeeld inclusief een 'onbekend' categorie) of een fout in de bron. Aannemende de tabel hierboven, zijn er $r=6$ rijen (landen) en $k=2$ kolommen (Ja/Nee). Dus $df=(6-1)*(2-1)=5$. Echter, de bron geeft $df=15$, wat zou impliceren dat er $r=4$ rijen en $k=5$ kolommen zijn of iets dergelijks. Gegeven de interpretatie, is de intentie waarschijnlijk een $6 \times 2$ tabel. Laten we de $df=15$ van de bron volgen voor het voorbeeld.
> **Voorbeeld van tabelwerk met $df=15$:**
> $\chi^2 = 1206,1521$, $df = 15$.
> De kritieke waarde voor $\chi^2$ met $df=15$ en $p = 0,001$ is $37,70$.
> **Besluit:** De vraag "Zou u naar een professionele hulpverlener gaan bij ernstige psychische problemen?" wordt in verschillende landen niet op dezelfde manier beantwoord ($\chi^2 = 1206,15$; $p < 0,001$). In meer zuidelijke landen (Spanje en Italië) lijkt er een grotere tendens te zijn om professionele hulp in te roepen dan in meer noordelijke landen (Nederland, België, Duitsland en Frankrijk).
### 1.8 Minimale celfrequenties vereist voor de Chi-kwadraat toets
De chi-kwadraat toets is een benaderende methode en de betrouwbaarheid van de p-waarden hangt af van voldoende grote celfrequenties.
* **Algemene vereiste:** Verwachte celfrequenties mogen gemiddeld niet lager zijn dan 5, en alle individuele verwachte celfrequenties moeten minstens 1 zijn.
* **Specifiek voor $2 \times 2$ tabellen:** Alle verwachte celfrequenties moeten 5 of meer zijn.
In gevallen waar deze voorwaarden niet voldaan zijn, kan het noodzakelijk zijn om categorieën samen te voegen om de verwachte celfrequenties te verhogen.
---
### 2. Kolmogorov-Smirnov test
#### 2.1 Kolmogorov-Smirnov goodness-of-fit test (1 steekproef)
De Kolmogorov-Smirnov (K-S) test is een goodness-of-fit toets die nagaat of een steekproef uit een bepaalde vooropgestelde verdeling kan komen. Het meest courante gebruik is om te toetsen of gegevens afkomstig zijn uit een normale verdeling.
**Basisprincipe:** De test vergelijkt 2-aan-2 de omvang van een waargenomen klasse met de overeenkomstige theoretisch verwachte omvang, gebaseerd op de cumulatieve frequentieverdeling.
**Nulhypothese ($H_0$):** De waargenomen verdeling wijkt niet meer af van de referentieverdeling dan verwacht mag worden bij willekeurige steekproeven getrokken uit die referentieverdeling.
**Alternatieve hypothese ($H_1$):** De waargenomen verdeling wijkt significant af van de referentieverdeling.
**Kenmerken:**
* Kan toegepast worden op data met een ordinaal meetniveau.
* De p-waarden worden meestal gerapporteerd voor een tweezijdige toets.
#### 2.2 Kolmogorov-Smirnov 1 sample test voorbeeld 1: Dobbelsteen
Vraag: Is een dobbelsteen "eerlijk"? Komen de waarnemingen uit een uniforme verdeling?
Stel, een dobbelsteen wordt 100 keer gegooid en de resultaten worden geregistreerd. De K-S test vergelijkt de waargenomen cumulatieve verdeling van de worpen met de verwachte cumulatieve verdeling van een uniforme verdeling (waarbij elke zijde een kans van 1/6 heeft).
> **Voorbeeld Berekening:**
> Max(|$c_{obs}$ - $c_{pred}$|) = 0,113
> Kritieke waarde (bij een bepaald significantieniveau) = 0,136
>
> $0,113 < 0,136$ ⇒ Er is geen reden om aan te nemen dat de dobbelsteen niet eerlijk is.
#### 2.3 Kolmogorov-Smirnov 1 sample test voorbeeld 2: Kwaliteit van leven
Vraag: Komen gegevens over kwaliteit van leven uit een normale verdeling?
Een enquête over kwaliteit van leven (QOL) wordt afgenomen bij 201 kankerpatiënten. We willen toetsen of de QOL-scores normaal verdeeld zijn.
**Stappen:**
1. Bereken het gemiddelde ($\mu$) en de standaarddeviatie ($\sigma$) van de waargenomen QOL-scores.
2. Construeer de theoretische cumulatieve verdeling voor een normale verdeling met deze $\mu$ en $\sigma$.
3. Vergelijk de waargenomen cumulatieve verdeling met de theoretische cumulatieve verdeling.
> **Voorbeeld Berekening:**
> Gemiddelde QOL ($\mu$) = 5,706
> Standaarddeviatie QOL ($\sigma$) = 1,705
>
> Max(|$c_{obs}$ - $c_{pred}$|) = 0,034
> Kritieke waarde (bij een bepaald significantieniveau) = 0,0959
>
> $0,034 < 0,0959$ ⇒ Er is onvoldoende reden om aan te nemen dat deze gegevens niet afkomstig zouden zijn uit een normaal verdeelde populatie.
#### 2.4 Opmerkingen over de K-S test en correcties
* **Fouten in klassenmidden vs. individuele waarnemingen:** Er kan een verschil in resultaat optreden tussen handmatige berekeningen op basis van klassenmiddens en software-gebaseerde analyses die individuele waarnemingen gebruiken.
* **Lilieforscorrectie:** De oorspronkelijke K-S toets kan de nulhypothese te gemakkelijk aanvaarden, met name wanneer de populatieparameters (gemiddelde, standaarddeviatie) worden geschat uit de data zelf. Om dit te corrigeren, is de Lilieforscorrectie ontwikkeld. Deze correctie hanteert meer conservatieve p-waarden. Statistische software past deze correctie vaak automatisch toe.
#### 2.5 Vergelijking van 2 steekproeven met de K-S test
De K-S test kan, analoog aan de hierboven beschreven methode, ook gebruikt worden om te toetsen of twee steekproeven uit dezelfde populatie komen. Hierbij wordt de maximale absolute afwijking tussen de cumulatieve verdelingen van de twee steekproeven berekend en vergeleken met een kritieke waarde.
---
# Chi-kwadraat toets voor contingentietabellen
Deze sectie beschrijft de Chi-kwadraat toets, specifiek toegepast op 2-wegs tabellen ofwel contingentietabellen, met als doel de afhankelijkheid tussen twee variabelen te onderzoeken.
### 2.1 Inferentie voor contingentietabellen (2-wegs tabellen)
De Chi-kwadraat toets is een methode om de nulhypothese te toetsen dat twee variabelen in een kruistabel (contingentietabel) niet gerelateerd zijn aan elkaar. Dit wordt ook wel de $\chi^2$ afhankelijkheidstoets genoemd. Het principe is het vergelijken van de waargenomen celfrequenties met de verwachte celfrequenties, berekend onder de aanname van statistische onafhankelijkheid tussen de rij- en kolomvariabelen.
#### 2.1.1 Het berekenen van verwachte celfrequenties
Voor kruistabellen met $r$ rijen en $k$ kolommen ($r \ge 2, k \ge 2$), worden de verwachte celfrequenties berekend op basis van de marginale verdelingen. De formule voor de verwachte frequentie van een cel, die de intersectie vormt van een specifieke rij en kolom, is:
$$ E_{ij} = \frac{(\text{rijtotaal}_i) \times (\text{kolomtotaal}_j)}{\text{Groot totaal}} $$
Waarbij:
- $E_{ij}$ de verwachte frequentie is voor de cel in rij $i$ en kolom $j$.
- $\text{rijtotaal}_i$ het totaal aantal waarnemingen in rij $i$ is.
- $\text{kolomtotaal}_j$ het totaal aantal waarnemingen in kolom $j$ is.
- $\text{Groot totaal}$ het totale aantal waarnemingen in de tabel is.
Als de variabelen statistisch onafhankelijk zijn, dan is de $\chi^2$-waarde gelijk aan 0. Indien ze statistisch afhankelijk zijn, zal de $\chi^2$-waarde groter dan 0 zijn.
#### 2.1.2 Het berekenen van de Chi-kwadraat toetsingsgrootheid
De Chi-kwadraat toetsingsgrootheid ($\chi^2$) wordt berekend door het verschil tussen de waargenomen en verwachte frequenties te kwadrateren, te delen door de verwachte frequentie, en dit te sommeren over alle cellen van de tabel. De formule is:
$$ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{k} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
Waarbij:
- $O_{ij}$ de waargenomen frequentie is voor de cel in rij $i$ en kolom $j$.
- $E_{ij}$ de verwachte frequentie is voor de cel in rij $i$ en kolom $j$.
- $r$ het aantal rijen is.
- $k$ het aantal kolommen is.
#### 2.1.3 Vrijheidsgraden
Het aantal vrijheidsgraden ($df$) voor een $\chi^2$-toets in een $r \times k$ contingentietabel is:
$$ df = (k - 1) \times (r - 1) $$
#### 2.1.4 Interpretatie van de Chi-kwadraat toets
Een hoge $\chi^2$-waarde indiceert een groot verschil tussen de waargenomen en verwachte frequenties, wat zou pleiten tegen de nulhypothese van onafhankelijkheid. De p-waarde wordt verkregen door de berekende $\chi^2$-statistiek te vergelijken met de kritieke waarde van de corresponderende $\chi^2$-verdeling met de juiste vrijheidsgraden.
Als de berekende $\chi^2$-waarde significant is (typisch, $p < 0.05$), wordt de nulhypothese verworpen, wat impliceert dat er een statistisch significante afhankelijkheid is tussen de rij- en kolomvariabelen.
> **Tip:** De Chi-kwadraat toets is een "omnibus test", wat betekent dat deze een verband tussen twee variabelen kan detecteren, maar niet de specifieke aard ervan. Na een significante toets is verdere analyse nodig, zoals het vergelijken van celpercentages, het onderzoeken van over- of ondervertegenwoordiging ten opzichte van de nulhypothese, of het analyseren van de bijdrage van elke cel aan de totale $\chi^2$-waarde.
### 2.2 Minimale celfrequenties vereist voor een Chi-kwadraat toets
De Chi-kwadraat toets is een benaderende methode die nauwkeuriger wordt naarmate de celfrequenties toenemen. De p-waarde is slechts betrouwbaar indien de celfrequenties voldoende groot zijn.
* **Algemene regel:** De kritieke waarden voor de Chi-kwadraat toets zijn betrouwbaar indien de verwachte celfrequenties gemiddeld minstens 5 zijn en alle verwachte celfrequenties groter zijn dan of gelijk aan 1.
* **Specifieke regel voor $2 \times 2$ tabellen:** In een $2 \times 2$ tabel moeten alle verwachte celfrequenties minstens 5 zijn.
Indien deze voorwaarden niet voldaan zijn, kan het soms helpen om categorieën samen te nemen om de verwachte celfrequenties te verhogen.
#### 2.2.1 Voorbeeld van een Chi-kwadraat toets
Stel, we onderzoeken of er een verband is tussen geslacht en de neiging om te blijven zitten op school.
**Waargenomen celfrequenties:**
| | Zittenblijvers | Niet-zittenblijvers | Totaal |
| :--------- | :------------- | :------------------ | :----- |
| Jongens | 80 | 120 | 200 |
| Meisjes | 70 | 130 | 200 |
| Totaal | 150 | 250 | 400 |
**Berekening van verwachte celfrequenties (onder aanname van onafhankelijkheid):**
* Verwachte frequentie jongens en zittenblijvers: $\frac{200 \times 150}{400} = 75$
* Verwachte frequentie jongens en niet-zittenblijvers: $\frac{200 \times 250}{400} = 125$
* Verwachte frequentie meisjes en zittenblijvers: $\frac{200 \times 150}{400} = 75$
* Verwachte frequentie meisjes en niet-zittenblijvers: $\frac{200 \times 250}{400} = 125$
**Berekening van de Chi-kwadraat statistiek:**
$$ \chi^2 = \frac{(80-75)^2}{75} + \frac{(120-125)^2}{125} + \frac{(70-75)^2}{75} + \frac{(130-125)^2}{125} $$
$$ \chi^2 = \frac{25}{75} + \frac{25}{125} + \frac{25}{75} + \frac{25}{125} $$
$$ \chi^2 \approx 0.333 + 0.200 + 0.333 + 0.200 = 1.066 $$
**Vrijheidsgraden:**
$$ df = (2 - 1) \times (2 - 1) = 1 $$
Met $df=1$, een $\chi^2$-waarde van 1.066 resulteert in een p-waarde groter dan 0.05. We kunnen dus de nulhypothese niet verwerpen; er is geen significant bewijs dat geslacht en blijven zitten in deze steekproef gerelateerd zijn.
#### 2.2.2 Veralgemening: $\chi^2$ toets voor $k$ onafhankelijke steekproeven
Dit principe kan ook worden uitgebreid naar het vergelijken van de verdelingen van een categorische variabele over meer dan twee groepen (meer dan 2 kolommen), wat neerkomt op het vergelijken van $k$ onafhankelijke steekproeven. De vrijheidsgraden worden dan aangepast naar $df = (\text{aantal kolommen} - 1) \times (\text{aantal rijen} - 1)$.
> **Voorbeeld:** Het onderzoeken of de vraag "Zou u naar een professionele hulpverlener gaan bij ernstige psychische problemen?" in verschillende landen (6 landen in dit geval) op dezelfde manier wordt beantwoord. Dit resulteert in een $6 \times 2$ (ja/nee antwoorden) tabel. De berekening van de $\chi^2$ toetsingsgrootheid en het aantal vrijheidsgraden ($df = (6-1) \times (2-1) = 5$) leidt tot de conclusie dat de antwoorden significant verschillen tussen de landen.
---
# Kolmogorov-Smirnov test
Dit hoofdstuk introduceert de Kolmogorov-Smirnov test, een 1-steekproef toets om na te gaan of een steekproef afkomstig is uit een voorgestelde verdeling, met name of de populatie normaal verdeeld is.
## 3. Kolmogorov-Smirnov test
### 3.1 Inleiding
De Kolmogorov-Smirnov (K-S) test is een niet-parametrische 1-steekproef toets die wordt gebruikt om te bepalen of een steekproef afkomstig is uit een specifieke theoretische verdeling. De meest courante toepassing is het nagaan of een populatie normaal verdeeld is.
### 3.2 Doel van de Kolmogorov-Smirnov test
Het hoofddoel van de K-S test is na te gaan of de geobserveerde verdeling van een steekproef significant afwijkt van een voorgestelde theoretische verdeling. Specifiek wordt onderzocht of de populatie waaruit de steekproef is getrokken, normaal verdeeld is.
### 3.3 Basisprincipe
Het basisprincipe van de K-S test is een punt-voor-punt vergelijking tussen de cumulatieve frequentieverdeling van de waargenomen steekproef ($F_o(x)$) en de cumulatieve frequentieverdeling van de theoretische referentieverdeling ($F_e(x)$).
De nulhypothese ($H_0$) stelt dat de waargenomen verdeling niet meer afwijkt van de referentieverdeling dan verwacht mag worden bij willekeurige trekkingen uit die referentieverdeling.
### 3.4 Kenmerken
* **Meetniveau:** De K-S test kan worden toegepast op data vanaf ordinaal meetniveau.
* **Testgrootheid:** De testgrootheid is de maximale absolute afwijking tussen de geobserveerde en de verwachte cumulatieve verdeling.
* **Afronding:** De p-waarden zijn voor een tweezijdige toets.
### 3.5 Formule van de testgrootheid
De testgrootheid, vaak aangeduid als $D$, is gedefinieerd als het maximum van de absolute verschillen tussen de geobserveerde en de verwachte cumulatieve verdelingen voor alle mogelijke waarden van $x$:
$$D = \max_x |F_o(x) - F_e(x)|$$
Waarbij:
* $F_o(x)$ de geobserveerde cumulatieve verdelingsfunctie is op punt $x$.
* $F_e(x)$ de verwachte cumulatieve verdelingsfunctie is op punt $x$ (gebaseerd op de voorgestelde verdeling).
### 3.6 Toepassingen en Voorbeelden
#### 3.6.1 Voorbeeld 1: Eerlijkheid van een dobbelsteen
Stel dat een dobbelsteen 100 keer is opgegooid en de volgende frequentieverdeling is verkregen. De K-S test kan worden gebruikt om te bepalen of de dobbelsteen "eerlijk" is, wat impliceert dat de waargenomen frequenties afkomstig zijn uit een uniforme verdeling.
Voor een eerlijke dobbelsteen is de verwachte cumulatieve proportie voor elke uitkomst (1 tot 6) gelijk aan het aantal uitkomsten gedeeld door het totaal aantal worpen. De test berekent vervolgens de maximale absolute afwijking tussen de geobserveerde en verwachte cumulatieve proporties. Als deze maximale afwijking kleiner is dan een kritieke waarde (of de p-waarde groter dan een significantieniveau), wordt de nulhypothese niet verworpen, wat betekent dat er geen reden is om aan te nemen dat de dobbelsteen niet eerlijk is.
#### 3.6.2 Voorbeeld 2: Normaliteitstoets
Een veelvoorkomende toepassing is het toetsen of een steekproef afkomstig is uit een normaal verdeelde populatie. Dit is cruciaal voor veel parametrische statistische methoden.
**Stappen:**
1. Verzamel de steekproefdata.
2. Bereken het gemiddelde ($\mu$) en de standaarddeviatie ($\sigma$) van de steekproef.
3. Bereken de theoretische cumulatieve verdeling van een normale verdeling met het berekende gemiddelde en de standaarddeviatie voor de waarden in de steekproef.
4. Bereken de geobserveerde cumulatieve verdeling van de steekproef.
5. Bereken de K-S testgrootheid $D$ als het maximum van de absolute verschillen tussen de geobserveerde en de verwachte cumulatieve verdelingen.
6. Vergelijk de berekende $D$-waarde met de kritieke waarde uit een K-S tabel voor het gegeven steekproefgrootte en significantieniveau, of gebruik de bijbehorende p-waarde.
> **Tip:** Bij het interpreteren van resultaten van de K-S test voor normaliteit is het belangrijk om te beseffen dat het oorspronkelijke model van de K-S toets de nulhypothese te gemakkelijk kan aanvaarden, vooral wanneer de populatieparameters (gemiddelde en standaarddeviatie) eerst uit de data zelf worden geschat. Dit kan leiden tot een te hoge kans op het niet verwerpen van een onjuiste nulhypothese.
### 3.7 Kolmogorov-Smirnov met correcties: Liliefors test
Om het probleem van het schatten van populatieparameters uit de data te omzeilen en de betrouwbaarheid van de K-S test te verhogen, is de **Lilieforscorrectie** ontwikkeld. Deze correctie leidt tot meer conservatieve p-waarden. Veel statistische softwarepakketten, zoals R (met de `lillie.test` functie uit de `nortest` library) en SPSS, passen deze correctie automatisch toe bij het uitvoeren van normaliteitstesten.
#### 3.7.1 Voorbeeld 2 (vervolg): met Lilieforscorrectie
Wanneer dezelfde data als in voorbeeld 2 worden geanalyseerd met de Lilieforscorrectie, kunnen de resultaten afwijken van een standaard K-S test. De software zal de data toetsen tegen een normaalverdeling waarvan de parameters zijn geschat uit de data zelf, met behulp van de Lilieforscorrectie.
Als de resulterende p-waarde kleiner is dan het gekozen significantieniveau (bijvoorbeeld 0.05), wordt de nulhypothese verworpen, wat suggereert dat de data waarschijnlijk niet uit een normaal verdeelde populatie komen.
### 3.8 Beperkingen en Overwegingen
* **Gevoeligheid:** De K-S test is het meest gevoelig voor verschillen in het midden van de verdeling.
* **Parameterschatting:** Zoals eerder vermeld, kan het schatten van populatieparameters uit de data de betrouwbaarheid van de standaard K-S test beïnvloeden. De Lilieforscorrectie pakt dit aan.
* **Meetniveau:** Hoewel de test kan worden toegepast op ordinale data, vereist de berekening van cumulatieve verdelingen voor de theoretische distributie vaak een interval- of ratio meetniveau, met name bij het toetsen tegen een normale verdeling. Voor categorische data (nominaal of ordinaal) zijn andere tests, zoals de Chi-kwadraat goodness-of-fit test, vaak geschikter.
* **Discrete data:** De K-S test is strikt genomen ontworpen voor continue verdelingen. Voor discrete data, zoals het aantal successen in een reeks pogingen, kan een aangepaste versie of een alternatieve test (bv. Binomiale test) beter geschikt zijn.
### 3.9 Kolmogorov-Smirnov test voor 2 steekproeven (Kort vermeld)
De K-S test kan, analoog aan de 1-steekproef versie, ook worden gebruikt om te toetsen of twee steekproeven afkomstig zijn uit dezelfde populatie of dezelfde verdeling. De testgrootheid is dan het maximale verschil tussen de twee geobserveerde cumulatieve verdelingsfuncties.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Niet-Parametrische Analyse | Een statistische methode die geen aannames doet over de parametrische verdeling van de populatie waaruit de gegevens afkomstig zijn. Deze methoden zijn nuttig wanneer de data niet voldoen aan de aannames van parametrische toetsen. |
| Kruistabel | Een tabel die de frequentieverdeling van twee of meer categorische variabelen weergeeft. Kruistabellen worden vaak gebruikt om de relatie tussen deze variabelen te onderzoeken. |
| Contingentietabel | Een synoniem voor kruistabel, met name gebruikt in de context van het analyseren van de afhankelijkheid tussen twee categorische variabelen. |
| Kolmogorov-Smirnov test | Een niet-parametrische statistische toets die gebruikt wordt om te bepalen of een steekproef afkomstig is uit een bepaalde theoretische verdeling, of om twee steekproeven met elkaar te vergelijken. |
| Kwadraat van een normaalverdeling | De kansverdeling die ontstaat door de kwadraten van onafhankelijke standaard normaal verdeelde random variabelen op te tellen. Dit is gerelateerd aan de chi-kwadraat verdeling. |
| Som van kwadraten van normaalverdelingen | De kansverdeling die ontstaat door de som van kwadraten van meerdere onafhankelijke standaard normaal verdeelde random variabelen. De resulterende verdeling volgt een chi-kwadraat verdeling met vrijheidsgraden gelijk aan het aantal gekwadrateerde variabelen. |
| Chi-kwadraat ($ \chi^2 $) goodness-of-fit test | Een statistische toets die wordt gebruikt om te beoordelen of de geobserveerde frequenties van categorieën in een steekproef significant afwijken van de verwachte frequenties, gebaseerd op een hypothetische verdeling. |
| Aanpassingstoets | Een andere benaming voor de chi-kwadraat goodness-of-fit test, die aangeeft in hoeverre de waargenomen data passen bij een verwachte verdeling. |
| Verdelingstoets | Een term die gebruikt wordt voor tests die nagaan of de verdeling van waargenomen data overeenkomt met een bepaalde theoretische verdeling. |
| Categorieën | Discrete groepen of klassen waarin gegevens kunnen worden ingedeeld, gebaseerd op een categorische variabele. |
| Steekproef | Een subset van een populatie die wordt geselecteerd voor analyse, om conclusies te kunnen trekken over de gehele populatie. |
| Proporties | De fractie van een totaal dat aan een bepaalde categorie of eigenschap voldoet. In statistiek worden proporties vaak gebruikt om verdelingen te beschrijven. |
| Verwachting | De theoretische of voorspelde waarde van een variabele of een categorie, gebaseerd op een hypothese of een theoretische verdeling. |
| Nominaal meetniveau | Het laagste meetniveau, waarbij gegevens enkel in categorieën kunnen worden ingedeeld zonder inherente volgorde of rangorde. |
| Ordinaal meetniveau | Een meetniveau waarbij gegevens in categorieën kunnen worden ingedeeld die een logische volgorde hebben, maar de afstanden tussen de categorieën zijn niet noodzakelijk gelijk. |
| Waargenomen frequenties (o) | Het aantal keren dat een bepaalde uitkomst of categorie daadwerkelijk is waargenomen in een steekproef. |
| Verwachte frequenties (e) | Het aantal keren dat een bepaalde uitkomst of categorie naar verwachting zou moeten voorkomen, onder aanname van de nulhypothese of een theoretische verdeling. |
| Toetsingsgrootheid | Een statistiek die wordt berekend uit steekproefgegevens en wordt gebruikt om een statistische toets uit te voeren. Het helpt bij het nemen van een beslissing over de nulhypothese. |
| Nulhypothese ($H_0$) | Een stelling die wordt aangenomen als waar tot bewijs van het tegendeel is geleverd. In statistische toetsen is het doel om de nulhypothese te verwerpen of te behouden. |
| p-waarde | De kans om een toetsingsgrootheid te observeren die minstens zo extreem is als de geobserveerde toetsingsgrootheid, onder aanname dat de nulhypothese waar is. Een lage p-waarde leidt tot verwerping van de nulhypothese. |
| Kritieke waarde | De grens- of drempelwaarde van de toetsingsgrootheid die wordt gebruikt om te beslissen of de nulhypothese wordt verworpen. |
| Chi-kwadraat ($ \chi^2 $) verdeling | Een continue kansverdeling die vaak wordt gebruikt in statistische toetsen, met name voor het analyseren van categorische data. Het is een familie van verdelingen, gedefinieerd door vrijheidsgraden. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische berekening. Het aantal vrijheidsgraden beïnvloedt de vorm van de kansverdeling. |
| Onafhankelijke steekproeven | Steekproeven die zodanig zijn getrokken dat de resultaten van de ene steekproef geen invloed hebben op de resultaten van de andere steekproef. |
| Afhankelijkheidstoets | Een statistische toets die wordt gebruikt om te bepalen of er een statistisch significante relatie bestaat tussen twee variabelen. |
| Celfrequentie | Het aantal waarnemingen dat valt in een specifieke cel van een kruistabel of contingentietabel, gevormd door de kruising van categorieën van twee variabelen. |
| Marginale verdelingen | De verdelingen van individuele variabelen in een kruistabel, berekend door de frequenties per rij of per kolom te sommeren. |
| Statistische onafhankelijkheid | Een situatie waarbij de kans op een uitkomst voor de ene variabele niet wordt beïnvloed door de uitkomst van de andere variabele. |
| Statistische afhankelijkheid | Een situatie waarbij de kans op een uitkomst voor de ene variabele wel wordt beïnvloed door de uitkomst van de andere variabele. |
| r x k kruistabellen | Een contingentietabel met 'r' rijen en 'k' kolommen, gebruikt voor het analyseren van de relatie tussen twee categorische variabelen. |
| Omnibus test | Een statistische toets die bedoeld is om een algemene afwijking van de nulhypothese te detecteren, zonder specifieke voorspellingen te doen over de aard van de afwijking. |
| Cumulatieve frequentieverdeling | Een grafiek of tabel die de som van de frequenties van alle waarden tot en met een bepaalde waarde weergeeft. |
| Lillieforscorrectie | Een correctie op de Kolmogorov-Smirnov test die wordt toegepast wanneer de parameters van de te toetsen verdeling (zoals gemiddelde en standaarddeviatie) uit de data zelf worden geschat. Deze correctie zorgt voor meer conservatieve p-waarden. |
| Normaal verdeelde populatie | Een populatie waarvan de verdeling van een bepaalde variabele de vorm heeft van een normale verdeling (klokcurve). |
| Gemiddelde ( $ \mu $ ) | Het rekenkundig gemiddelde van een reeks getallen, berekend door de som van de getallen te delen door het aantal getallen. |
| Standaarddeviatie ( $ \sigma $ ) | Een maat voor de spreiding van gegevens rond het gemiddelde. Een lage standaarddeviatie geeft aan dat de gegevens dicht bij het gemiddelde liggen, terwijl een hoge standaarddeviatie duidt op een grotere spreiding. |
Cover
STA3set6Hfst10InferentieVoorRegressie.pptx
Summary
# Inferentie voor regressie
Dit deel behandelt inferentieprocedures voor enkelvoudige lineaire regressie, inclusief betrouwbaarheidsintervallen en significantietoetsen voor de regressiecoëfficiënten en voorspellingen.
### 1.1 Overzicht lineaire regressie
Bij een lineaire regressieanalyse wordt het lineaire verband tussen een verklarende variabele ($x$) en een verklaarde variabele ($y$) gemodelleerd. De regressierechte, berekend met de kleinste-kwadratenmethode, is een schatter voor de "werkelijke" regressierechte in de populatie. Inferentie stelt ons in staat om conclusies te trekken over de populatieparameters op basis van steekproefdata.
#### 1.1.1 Veronderstellingen bij regressie-inferentie
Voor geldige inferentie bij lineaire regressie moeten aan de volgende voorwaarden worden voldaan:
* **Normaliteit:** Voor elke waarde van de verklarende variabele $x$, is de verklaarde variabele $y$ normaal verdeeld.
* **Onafhankelijkheid:** Opeenvolgende responsen ($y$) zijn onderling onafhankelijk.
* **Gelijkmatige spreiding (homoscedasticiteit):** De standaardafwijking ($\sigma$) van $y$ is gelijk voor alle waarden van $x$.
* **Lineariteit:** Het gemiddelde van $y$ voor een gegeven $x$ ligt op een rechte lijn: $\mu_y = \beta_0 + \beta_1 x$.
* **Parameters:** $\beta_0$ (intercept) en $\beta_1$ (helling) zijn onbekende populatieparameters.
* **Standaardafwijking:** $\sigma$, de standaardafwijking van de residuen, is onbekend en wordt geschat uit de data.
#### 1.1.2 Het statistische model
Het statistische model voor enkelvoudige lineaire regressie luidt:
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$
Hierbij is:
* $y_i$: de geobserveerde waarde van de verklaarde variabele voor observatie $i$.
* $x_i$: de waarde van de verklarende variabele voor observatie $i$.
* $\beta_0$: het intercept in de populatie.
* $\beta_1$: de helling (richtingscoëfficiënt) in de populatie, die de verandering in $y$ weergeeft voor een eenheidsverandering in $x$.
* $\epsilon_i$: de foutterm, die onafhankelijk en normaal verdeeld is met gemiddelde 0 en standaardafwijking $\sigma$, i.e., $\epsilon_i \sim N(0, \sigma)$.
De geschatte regressierechte is:
$$ \hat{y}_i = b_0 + b_1 x_i $$
waarbij $b_0$ en $b_1$ schatters zijn voor $\beta_0$ en $\beta_1$.
#### 1.1.3 Schatting van regressieparameters
De parameters $\beta_0$ en $\beta_1$ worden geschat met de kleinste-kwadratenmethode, wat resulteert in de steekproefintercept $b_0$ en de steekproefhelling $b_1$. Deze schatters zijn zuiver (onbevooroordeeld), wat betekent dat hun verwachtingswaarde gelijk is aan de populatieparameters: $E(b_0) = \beta_0$ en $E(b_1) = \beta_1$.
De schatters $b_0$ en $b_1$ zijn normaal verdeeld met een schatbare standaarddeviatie.
> **Tip:** Uitschieters en invloedrijke waarnemingen kunnen de regressieanalyse ongeldig maken. Controleer de residuenplot om deze te identificeren.
### 1.2 Betrouwbaarheidsintervallen en significantietoetsen voor $\beta_0$ en $\beta_1$
Inferentie over de regressiecoëfficiënten richt zich op het bepalen van de onzekerheid rond de geschatte waarden.
#### 1.2.1 Standaardfout van de regressieparameters
De standaardfout van een schatter kwantificeert de variabiliteit van die schatter over verschillende steekproeven.
* Standaardfout van de schatting van de helling ($\beta_1$): $SE(b_1)$
* Standaardfout van het geschatte intercept ($\beta_0$): $SE(b_0)$
Deze standaardfouten worden berekend op basis van de residuen en de spreiding van de $x$-waarden.
#### 1.2.2 Betrouwbaarheidsintervallen voor $\beta_i$
Een betrouwbaarheidsinterval (BI) voor een populatieparameter geeft een reeks waarden aan waarbinnen de parameter waarschijnlijk ligt. Voor $\beta_i$ (waar $i=0$ of $i=1$) heeft het BI de algemene vorm:
$$ \text{Schatter} \pm t^* \cdot (\text{Standaardfout van de schatter}) $$
Hierbij is $t^*$ de kritische t-waarde verkregen uit de t-verdeling met $n-2$ vrijheidsgraden, gebaseerd op het gewenste betrouwbaarheidsniveau. De vrijheidsgraden zijn $n-2$ omdat er twee parameters ($\beta_0$ en $\beta_1$) geschat worden.
> **Voorbeeld:** Een 95% betrouwbaarheidsinterval voor $\beta_1$ kan worden geïnterpreteerd als: "We zijn 95% zeker dat de werkelijke toename in $y$ voor elke eenheidsverhoging in $x$ ligt tussen de onder- en bovengrens van dit interval."
#### 1.2.3 Significantietoetsen voor $\beta_i$
Significantietoetsen evalueren de nulhypothese dat een regressiecoëfficiënt gelijk is aan een specifieke waarde, meestal nul.
* **Toets voor $\beta_1$:** De meest voorkomende nulhypothese is $H_0: \beta_1 = 0$. Dit toetst of er een lineair verband bestaat tussen $x$ en $y$ in de populatie. De alternatieve hypothese is $H_a: \beta_1 \neq 0$.
De toetsstatistiek is een t-statistiek:
$$ t = \frac{b_1 - \beta_{1,0}}{SE(b_1)} $$
waarbij $\beta_{1,0}$ de waarde onder de nulhypothese is (meestal 0).
* **Toets voor $\beta_0$:** Hoewel het mogelijk is om $H_0: \beta_0 = 0$ te toetsen, is dit vaak minder zinvol in regressieanalyses, tenzij de interpretatie van het intercept bij $x=0$ relevant is voor het onderzoek.
De overschrijdingskans (p-waarde) wordt berekend uit de $t$-verdeling met $n-2$ vrijheidsgraden en geeft de kans aan om een toetsstatistiek te observeren die minstens zo extreem is als de berekende waarde, ervan uitgaande dat de nulhypothese waar is.
#### 1.2.4 Rapporteren van regressieanalyse
Bij het rapporteren van regressieanalyses, bijvoorbeeld volgens de APA-stijl, worden doorgaans de volgende elementen vermeld:
* De geschatte regressiecoëfficiënt ($b_1$) met zijn standaardfout.
* De t-statistiek met het aantal vrijheidsgraden ($t(df)$).
* De p-waarde.
* Het betrouwbaarheidsinterval voor de regressiecoëfficiënt.
* De determinatiecoëfficiënt ($R^2$), die het percentage verklaarde variantie aangeeft.
* De F-statistiek voor de algehele model significantie (vooral relevant bij meervoudige regressie).
> **Voorbeeld rapportage:** "Levenstevredenheid gemeten aan de hand van een Likertschaal voorspelt op significante wijze de globale levenstevredenheid, $\beta_1 = 0,111$, $t(230) = 12,590$, $p < 0,001$. Deze Likertschaal verklaart tevens een significant deel van de variantie in globale levenstevredenheid, $R^2 = 0,408$, $F(1,230) = 158,499$, $p < 0,001$."
### 1.3 Inferentie over voorspellingen
Naast inferentie over de regressiecoëfficiënten kunnen we ook uitspraken doen over voorspellingen van $y$ voor specifieke waarden van $x$.
#### 1.3.1 Voorspelling van $\mu_y$ voor een specifieke $x^*$
We kunnen een voorspelling doen voor de gemiddelde waarde van $y$ bij een specifieke waarde $x^*$, denoted $\mu_y(x^*) = \beta_0 + \beta_1 x^*$. De puntvoorspelling is $\hat{y}^* = b_0 + b_1 x^*$.
Om de nauwkeurigheid van deze voorspelling te beoordelen, kunnen we een betrouwbaarheidsinterval berekenen voor $\mu_y(x^*)$:
$$ \hat{y}^* \pm t^* \cdot SE(\hat{y}^*) $$
De standaardfout van de voorspelde gemiddelde waarde, $SE(\hat{y}^*)$, is:
$$ SE(\hat{y}^*) = s_e \sqrt{\frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum(x_i - \bar{x})^2}} $$
Hierbij is $s_e$ de geschatte standaardafwijking van de residuen (vaak aangeduid als $s$ of $\hat{\sigma}$), $\bar{x}$ is het steekproefgemiddelde van $x$, en $n$ is de steekproefgrootte.
Dit betrouwbaarheidsinterval wordt **groter** naarmate $x^*$ verder afwijkt van $\bar{x}$.
#### 1.3.2 Voorspelling van een individuele $y$ waarde voor een specifieke $x^*$
Wanneer we een individuele observatie $y$ willen voorspellen voor een gegeven $x^*$, is er naast de onzekerheid in de regressierechte ook de inherente variabiliteit van de individuele observaties rond die lijn (de $\epsilon_i$). Dit leidt tot een breder voorspellingsinterval.
Het voorspellingsinterval voor een individuele $y^*$ waarde bij $x^*$ is:
$$ \hat{y}^* \pm t^* \cdot SE(\text{individuele voorspelling}) $$
De standaardfout voor een individuele voorspelling is:
$$ SE(\text{individuele voorspelling}) = s_e \sqrt{1 + \frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum(x_i - \bar{x})^2}} $$
Het voorspellingsinterval is altijd breder dan het betrouwbaarheidsinterval voor het gemiddelde, omdat het de onzekerheid van zowel de regressielijn als de individuele data punten omvat.
> **Belangrijk:** Zowel het betrouwbaarheidsinterval voor $\mu_y(x^*)$ als het voorspellingsinterval voor $y^*$ worden breder naarmate $x^*$ verder van $\bar{x}$ ligt. Extrapolatie (voorspellen buiten het bereik van de waargenomen $x$-waarden) wordt sterk afgeraden.
### 1.4 Variantie-analyse voor regressie (ANOVA)
De variantie-analyse is een methode om de totale variantie in de verklaarde variabele $y$ op te splitsen in delen die verklaard worden door het regressiemodel en delen die onverklaard blijven (de residuen).
#### 1.4.1 Deelneming van variantie
De totale variatie in $y$ rond het gemiddelde $\bar{y}$ kan worden gemeten door de Sum of Squares Total (SST). Deze totale variatie kan worden opgesplitst in:
* **Sum of Squares Regression (SSR) of Sum of Squares Model (SSM):** De variantie in $y$ die verklaard wordt door de regressielijn (de variatie van de voorspelde waarden $\hat{y}$ rond $\bar{y}$).
* **Sum of Squares Error (SSE):** De onverklaarde variantie in $y$, gemeten door de som van de gekwadrateerde residuen ($e_i = y_i - \hat{y}_i$).
De relatie is: $SST = SSM + SSE$.
#### 1.4.2 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, is de proportie van de totale variantie in $y$ die verklaard wordt door de verklarende variabele $x$.
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
Een hogere $R^2$ waarde geeft aan dat het model $y$ beter verklaart. Voor enkelvoudige lineaire regressie is $R^2$ gelijk aan het kwadraat van de Pearson correlatiecoëfficiënt ($r^2$).
#### 1.4.3 ANOVA-tabel en F-toets
De ANOVA-tabel vat de variantie-analyse samen:
| Bron van variatie | Vrijheidsgraden (df) | Kwadratensom (SS) | Gemiddelde Kwadratensom (MS) | F-statistiek | p-waarde |
| :----------------- | :------------------ | :---------------- | :-------------------------- | :----------- | :------- |
| Regressie (Model) | 1 | SSM | $MSM = SSM / 1$ | $F = MSM / MSE$ | |
| Fout (Error) | $n-2$ | SSE | $MSE = SSE / (n-2)$ | | |
| Totaal | $n-1$ | SST | | | |
De F-statistiek wordt gebruikt om de nulhypothese $H_0: \beta_1 = 0$ (geen lineair verband) te toetsen tegen de alternatieve hypothese $H_a: \beta_1 \neq 0$. Onder $H_0$ volgt de F-statistiek een $F$-verdeling met 1 en $n-2$ vrijheidsgraden ($F(1, n-2)$).
> **Relatie met t-toets:** Voor enkelvoudige lineaire regressie is de F-statistiek gelijk aan het kwadraat van de t-statistiek voor $\beta_1$, en de p-waarden zijn identiek: $F = t^2$. De t-toets heeft echter de voorkeur omdat deze het mogelijk maakt om éénzijdige alternatieve hypothesen te formuleren en is gemakkelijker te interpreteren in de context van de regressiecoëfficiënt.
### 1.5 Inferentie voor correlatie
Wanneer er geen duidelijke verklarende of verklaarde variabele is (bv. bij de relatie tussen armlengte en beenlengte), of wanneer de data niet aan de aannames voor regressie voldoen maar wel aan die voor correlatie, kan men inferentie doen op de populatiecorrelatiecoëfficiënt $\rho$.
De nulhypothese is $H_0: \rho = 0$. Als $x$ en $y$ bivariaat normaal verdeeld zijn, is deze hypothese equivalent met "x en y zijn onafhankelijk". De toets voor $\rho$ is gebaseerd op de steekproefcorrelatiecoëfficiënt $r$ en maakt gebruik van een t-statistiek:
$$ t = r \sqrt{\frac{n-2}{1-r^2}} $$
Deze t-statistiek volgt een $t$-verdeling met $n-2$ vrijheidsgraden onder de nulhypothese. De p-waarde wordt berekend op basis van deze verdeling. Deze toets is equivalent aan de t-toets voor $\beta_1=0$ wanneer er een duidelijke verklarende en verklaarde variabele is.
---
# Veronderstellingen bij regressie-inferentie
Dit onderwerp beschrijft de voorwaarden die gesteld worden aan de data om inferentie te kunnen doen over regressiemodellen, zoals normaliteit, onafhankelijkheid en gelijke standaardafwijkingen.
### 2.1 Het statistische model voor enkelvoudige lineaire regressie
Het doel van regressie-inferentie is het doen van uitspraken over populatieparameters op basis van steekproefgegevens. Bij enkelvoudige lineaire regressie modelleren we de relatie tussen één verklarende variabele ($x$) en één verklaarde variabele ($y$).
#### 2.1.1 Populatiemodel
Voor elke waarde van de verklarende variabele $x$, wordt verondersteld dat de corresponderende waarden van de verklaarde variabele $y$ normaal verdeeld zijn. Het gemiddelde van deze normaalverdelingen, $\mu_y$, ligt op de populatie regressierechte:
$$ \mu_y = \beta_0 + \beta_1 x $$
Hierin zijn $\beta_0$ het intercept en $\beta_1$ de helling van de populatie regressierechte. Deze zijn onbekende parameters.
#### 2.1.2 Veronderstellingen voor regressie-inferentie
Om betrouwbare inferentie te kunnen doen, moeten aan de data de volgende voorwaarden voldaan zijn:
1. **Lineariteit:** Het gemiddelde van de verklaarde variabele ($y$) is een lineaire functie van de verklarende variabele ($x$).
2. **Normaliteit:** Voor elke waarde van $x$, is de verklaarde variabele $y$ normaal verdeeld. Het is niet vereist dat $y$ als geheel normaal verdeeld is, enkel dat de verdelingen voor elke $x$-waarde normaal zijn.
3. **Onafhankelijkheid:** De waarnemingen van $y$ zijn onderling onafhankelijk. Dit geldt ook voor de residuen, de verschillen tussen de waargenomen $y$-waarden en de voorspelde $y$-waarden.
4. **Gelijke standaardafwijking (homoskedasticiteit):** De standaardafwijking van $y$ ($\sigma$) is gelijk voor alle waarden van $x$. Dit betekent dat de spreiding van $y$ rond de regressierechte constant is, ongeacht de waarde van $x$.
#### 2.1.3 Datamodel en schatters
Gegeven $n$ observaties $(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$, wordt het statistische model als volgt uitgedrukt:
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$
waarbij $\epsilon_i$ de residuen zijn, die onafhankelijk en normaal verdeeld zijn met een gemiddelde van 0 en een standaardafwijking van $\sigma$ ($\epsilon_i \sim N(0, \sigma)$).
De geschatte regressierechte wordt verkregen met de kleinste kwadratenmethode:
$$ \hat{y} = b_0 + b_1 x $$
De waarden $b_0$ en $b_1$ zijn schatters voor de populatieparameters $\beta_0$ en $\beta_1$. Het zijn zuivere schatters, wat betekent dat hun verwachtingswaarde gelijk is aan de populatieparameter ($E(b_0) = \beta_0$ en $E(b_1) = \beta_1$). De schatters $b_0$ en $b_1$ zijn zelf ook normaal verdeeld, met een standaardafwijking die uit de data geschat kan worden.
#### 2.1.4 Schatting van de standaardafwijking $\sigma$
De parameter $\sigma$, de standaardafwijking van de afwijkingen in het model, wordt geschat met de standaarddeviatie van de residuen ($e_i$). Deze schatting, vaak aangeduid als $s_\epsilon$, wordt berekend op basis van de residuen en de vrijheidsgraden:
$$ s_\epsilon = \sqrt{\frac{\sum_{i=1}^n e_i^2}{n-2}} $$
Hierbij zijn $n-2$ de vrijheidsgraden, omdat twee parameters ($\beta_0$ en $\beta_1$) geschat worden.
> **Tip:** De geschatte standaardafwijking $s_\epsilon$ is een schatting van de standaarddeviatie van de residuen en geeft een indicatie van hoe ver de waarnemingen gemiddeld van de regressierechte liggen. Een kleinere $s_\epsilon$ duidt op een betere fit van het model.
### 2.2 Inferentie voor de regressieparameters
Inferentie voor regressie-inferentie richt zich op het doen van uitspraken over de populatieparameters $\beta_0$ en $\beta_1$.
#### 2.2.1 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval voor een regressieparameter (zoals $\beta_1$) wordt geconstrueerd met de algemene vorm:
$$ \text{Schatter} \pm t^* \cdot (\text{SD van de schatter}) $$
Voor $\beta_1$ wordt dit:
$$ b_1 \pm t^* \cdot \text{SE}(b_1) $$
waarbij $t^*$ de kritieke $t$-waarde is uit de $t$-verdeling met $n-2$ vrijheidsgraden, en $\text{SE}(b_1)$ de standaardfout van de schatter $b_1$ is.
#### 2.2.2 Significantietoetsen
Significantietoetsen worden gebruikt om te bepalen of er statistisch significant bewijs is tegen een nulhypothese over de populatieparameters.
* **Toets voor de helling $\beta_1$:** De nulhypothese wordt meestal geformuleerd als $H_0: \beta_1 = 0$. Dit toets of er geen lineair verband is tussen $x$ en $y$ in de populatie. De alternatieve hypothese is $H_a: \beta_1 \neq 0$. De toetsstatistiek is:
$$ t = \frac{b_1 - \beta_{1,0}}{\text{SE}(b_1)} $$
waarbij $\beta_{1,0}$ de waarde van $\beta_1$ onder de nulhypothese is (meestal 0). De overschrijdingskans wordt verkregen uit de $t$-verdeling met $n-2$ vrijheidsgraden.
* **Toets voor het intercept $\beta_0$:** Hoewel ook voor $\beta_0$ significantietoetsen mogelijk zijn ($H_0: \beta_0 = 0$), is deze toets vaak minder informatief in de praktijk, omdat een intercept van nul niet altijd een betekenisvolle interpretatie heeft. De toetsing van $H_0: \beta_0 = 0$ toetst of het gemiddelde van $y$ nul is wanneer $x$ nul is.
> **Tip:** De toets van $H_0: \beta_1 = 0$ is cruciaal, omdat deze direct test of er een lineair verband bestaat tussen $x$ en $y$ in de populatie.
### 2.3 Variantie-analyse (ANOVA) voor regressie
Variantie-analyse (ANOVA) biedt een alternatieve methode om de significantie van het regressiemodel te toetsen. Het verdeelt de totale variatie in de verklaarde variabele $y$ in delen die verklaard worden door het model en delen die onverklaard blijven (residuen).
* **Totale kwadratensom (SST):** De totale variatie in $y$ rond het gemiddelde van $y$.
$$ SST = \sum_{i=1}^n (y_i - \bar{y})^2 $$
* **Kwadratensom van het model (SSM) of verklaarde kwadratensom (SSR):** De variatie in $y$ die wordt verklaard door het regressiemodel.
$$ SSM = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2 $$
* **Kwadratensom van de fout (SSE):** De onverklaarde variatie in $y$, gelijk aan de som van de gekwadrateerde residuen.
$$ SSE = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y}_i)^2 $$
De relatie tussen deze sommen is: $SST = SSM + SSE$.
#### 2.3.1 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, geeft de proportie van de totale variantie in $y$ weer die verklaard wordt door de variabele $x$:
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
Een hogere $R^2$ waarde duidt op een betere fit van het model.
#### 2.3.2 F-toets in ANOVA
De ANOVA gebruikt een F-toets om de nulhypothese $H_0: \beta_1 = 0$ te toetsen. Dit gebeurt door de gemiddelde kwadratensom van het model (MSM) te vergelijken met de gemiddelde kwadratensom van de fout (MSE):
$$ F = \frac{MSM}{MSE} $$
Hierbij geldt:
$MSM = \frac{SSM}{k}$ (met $k$ het aantal predictoren, in enkelvoudige regressie is $k=1$)
$MSE = \frac{SSE}{n-2}$ (de geschatte variantie van de residuen)
De F-statistiek volgt onder $H_0$ een $F$-verdeling met $k$ en $n-2$ vrijheidsgraden. De p-waarde is de kans op een F-waarde die minstens zo extreem is als de geobserveerde waarde.
> **Belangrijk:** Voor enkelvoudige lineaire regressie is de F-toets in de ANOVA equivalent aan de t-toets voor de helling $\beta_1$. Meer specifiek geldt $F = t^2$. De p-waarden van beide toetsen zijn identiek.
### 2.4 Inferentie voor voorspellingen
Regressiemodellen kunnen gebruikt worden om voorspellingen te doen over de waarde van $y$ voor specifieke waarden van $x$. Er worden twee soorten intervallen onderscheiden:
#### 2.4.1 Betrouwbaarheidsinterval voor de verwachte waarde van $y$ ($\mu_y$)
Dit interval geeft een reeks waarden waarbinnen de *gemiddelde* waarde van $y$ voor een gegeven $x^*$ waarschijnlijk ligt. Het interval wordt breder naarmate $x^*$ verder afwijkt van het gemiddelde van de geobserveerde $x$-waarden. De vorm is:
$$ \hat{y}^* \pm t^* \cdot \text{SE}(\hat{y}^*) $$
waarbij $\hat{y}^*$ de voorspelde waarde van $y$ is voor $x = x^*$, en $\text{SE}(\hat{y}^*)$ de standaardfout van deze voorspelling weergeeft.
#### 2.4.2 Predictie-interval voor een individuele voorspelling van $y$
Dit interval geeft een reeks waarden waarbinnen een *individuele* waarneming van $y$ voor een gegeven $x^*$ waarschijnlijk zal liggen. Dit interval is altijd breder dan het betrouwbaarheidsinterval voor de gemiddelde waarde, omdat het rekening houdt met zowel de onzekerheid in de regressierechte als de inherente variabiliteit van individuele waarnemingen.
> **Belangrijk:** Het predictie-interval voor een individuele voorspelling is breder dan het betrouwbaarheidsinterval voor de verwachte waarde, omdat het zowel de onzekerheid van de regressielijn zelf als de variabiliteit van individuele punten rond die lijn meeneemt.
### 2.5 Inferentie voor correlatie
Wanneer er geen duidelijke verklarende en verklaarde variabele is (bijvoorbeeld bij de relatie tussen armlengte en beenlengte), kan men de correlatiecoëfficiënt $\rho$ toetsen.
* **Nulhypothese:** $H_0: \rho = 0$. Dit toetst of er geen lineair verband is tussen $x$ en $y$.
* **Toetsstatistiek:** De significantietoets voor $\rho$ is gebaseerd op een $t$-test:
$$ t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} $$
waarbij $r$ de steekproefcorrelatiecoëfficiënt is en $n$ de steekproefgrootte. Deze $t$-statistiek volgt onder $H_0$ een $t$-verdeling met $n-2$ vrijheidsgraden. Als $x$ en $y$ bivariaat normaal verdeeld zijn, is $H_0: \rho = 0$ equivalent met de onafhankelijkheid van $x$ en $y$.
### 2.6 Rapporteren van regressie-analyse
Bij het rapporteren van regressie-analyses, bijvoorbeeld volgens APA-richtlijnen, worden doorgaans de volgende elementen vermeld:
* De geschatte regressiecoëfficiënten ($b_0, b_1$).
* De gestandaardiseerde helling ($\beta_1$, indien berekend).
* De $t$-statistiek voor de toets van $H_0: \beta_1 = 0$, met de bijbehorende vrijheidsgraden en p-waarde.
* De determinatiecoëfficiënt ($R^2$), die het percentage verklaarde variantie weergeeft.
* De resultaten van de F-test uit de ANOVA, inclusief de vrijheidsgraden en p-waarde.
**Voorbeeld van rapportage in tekst:**
"De analyse toonde aan dat de variabele $x$ de verklaarde variabele $y$ significant voorspelt ($b_1 = \ldots$, $t(\ldots) = \ldots$, $p < \ldots$). De regressie verklaart een significant deel van de variantie in $y$ ($R^2 = \ldots$, $F(\ldots, \ldots) = \ldots$, $p < \ldots$)."
> **Opmerking:** Uitschieters en invloedrijke waarnemingen kunnen de resultaten van regressie-inferentie ongeldig maken. Het is daarom belangrijk om de residuen te inspecteren en eventuele afwijkingen te onderzoeken.
---
# Variantie-analyse voor regressie
Variantie-analyse (ANOVA) voor regressie biedt een gestructureerde methode om de totale variantie in de verklaarde variabele op te splitsen in delen die verklaard worden door het regressiemodel en delen die onverklaard blijven.
### 3.1 De ANOVA-tabel in regressie
De ANOVA-tabel vat de informatie samen over de bronnen van variantie in de data en is cruciaal voor het beoordelen van de algehele significantie van een regressiemodel, met name bij meervoudige regressie.
#### 3.1.1 Opsplitsing van variantie
De kern van de ANOVA-analyse in regressie is de opsplitsing van de totale variantie in de verklaarde variabele ($y$) in twee hoofdbestanddelen:
* **Modelvariantie (Verklaarde variantie):** Dit is het deel van de variantie in $y$ dat verklaard wordt door de variabele(n) $x$ in het regressiemodel. Het wordt ook wel de variantie verklaard door het model genoemd.
* **Errorvariantie (Onverklaarde variantie):** Dit is het deel van de variantie in $y$ dat niet verklaard wordt door het model. Dit zijn de afwijkingen van de waarnemingen ten opzichte van de voorspelde waarden door het regressiemodel, ook wel de residuen genoemd.
Mathematisch wordt dit vaak uitgedrukt in termen van kwadratensommen:
$$ \text{Totale kwadratensom (SST)} = \text{Kwadratensom verklaard door model (SSM)} + \text{Kwadratensom van fouten (SSE)} $$
* **SST (Total Sum of Squares):** Representeert de totale variatie van de geobserveerde $y$-waarden rond hun gemiddelde.
$$ \text{SST} = \sum_{i=1}^n (y_i - \bar{y})^2 $$
* **SSM (Sum of Squares Model):** Representeert de variatie die verklaard wordt door het regressiemodel. In enkelvoudige lineaire regressie is dit gerelateerd aan de verandering in $y$ voor een verandering in $x$.
$$ \text{SSM} = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2 $$
waarbij $\hat{y}_i$ de voorspelde waarde van $y$ is voor $x_i$.
* **SSE (Sum of Squares Error):** Representeert de onverklaarde variatie, oftewel de som van de gekwadrateerde residuen.
$$ \text{SSE} = \sum_{i=1}^n (y_i - \hat{y}_i)^2 $$
#### 3.1.2 Vrijheidsgraden en gemiddelde kwadratensommen
Bij elke kwadratensom hoort een aantal vrijheidsgraden.
* **Vrijheidsgraden totaal (dfT):** Dit is het aantal waarnemingen min één ($n-1$).
$$ \text{dfT} = n - 1 $$
* **Vrijheidsgraden model (dfM):** Dit is gelijk aan het aantal verklarende variabelen in het model. Voor enkelvoudige lineaire regressie is dit 1.
$$ \text{dfM} = k $$
waar $k$ het aantal predictoren is (voor enkelvoudige regressie, $k=1$).
* **Vrijheidsgraden error (dfE):** Dit is het aantal waarnemingen min het aantal geschatte parameters in het model (intercept plus het aantal predictoren).
$$ \text{dfE} = n - (k+1) = n - k - 1 $$
Voor enkelvoudige lineaire regressie is dit $n-2$.
De gemiddelde kwadratensommen (Mean Squares) worden berekend door de kwadratensommen te delen door hun respectievelijke vrijheidsgraden:
* **Gemiddelde kwadratensom model (MSM):**
$$ \text{MSM} = \frac{\text{SSM}}{\text{dfM}} $$
Dit vertegenwoordigt de variantie die het model verklaart per vrijheidsgraad.
* **Gemiddelde kwadratensom error (MSE):**
$$ \text{MSE} = \frac{\text{SSE}}{\text{dfE}} $$
Dit vertegenwoordigt de onverklaarde variantie per vrijheidsgraad en is een schatter voor de variantie van de errortermen, $\sigma^2$.
#### 3.1.3 De determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, vaak genoteerd als $R^2$ (of $r^2$ voor enkelvoudige regressie), drukt uit welk proportie van de totale variantie in de verklaarde variabele ($y$) wordt verklaard door het regressiemodel. Het geeft aan in hoeverre de voorspelling van $y$ verbetert door gebruik te maken van de regressierechte in plaats van alleen het gemiddelde van $y$.
$$ R^2 = \frac{\text{SSM}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}} $$
Een hogere $R^2$-waarde (dichter bij 1) indiceert dat het model een groter deel van de variantie in $y$ verklaart.
> **Tip:** $R^2$ geeft de proportie verklaarde variantie aan. De waarde ligt altijd tussen 0 en 1. Een $R^2$ van 0,408 betekent bijvoorbeeld dat 40,8% van de variantie in de verklaarde variabele door het model verklaard wordt.
### 3.2 De F-toets voor de significantie van het model
De ANOVA-tabel wordt gebruikt om een F-toets uit te voeren die de significantie van het regressiemodel als geheel toetst.
#### 3.2.1 De F-toetsstatistiek
De F-toetsstatistiek wordt berekend als de verhouding van de gemiddelde kwadratensommen van het model en de error:
$$ F = \frac{\text{MSM}}{\text{MSE}} $$
* **Nulhypothese ($H_0$):** Voor enkelvoudige lineaire regressie stelt de nulhypothese dat er geen lineair verband is tussen $x$ en $y$ in de populatie. Dit wordt geformuleerd als $H_0: \beta_1 = 0$.
* **Alternatieve hypothese ($H_a$):** De alternatieve hypothese is dat er wel een lineair verband is, $H_a: \beta_1 \neq 0$.
#### 3.2.2 De F-verdeling en p-waarde
Onder de nulhypothese volgt de F-statistiek een F-verdeling met dfM vrijheidsgraden in de teller en dfE vrijheidsgraden in de noemer. Voor enkelvoudige lineaire regressie is dit een $F(1, n-2)$-verdeling. De p-waarde is de kans om een F-waarde te observeren die minstens zo extreem is als de berekende F-waarde, gegeven dat de nulhypothese waar is.
$$ p\text{-waarde} = P(F > F_{\text{berekend}}) $$
Een lage p-waarde (typisch < 0,05) leidt tot verwerping van de nulhypothese, wat suggereert dat het regressiemodel significant is en dat ten minste één van de verklarende variabelen een significante bijdrage levert aan het verklaren van de variantie in de verklaarde variabele.
> **Belangrijk:** Voor enkelvoudige lineaire regressie is de F-toets equivalent aan de kwadraat van de t-toets voor de helling ($\beta_1$). De p-waarden van beide toetsen zullen identiek zijn.
#### 3.2.3 Interpretatie van de ANOVA-tabel
Een typische ANOVA-tabel in een regressie-output ziet er als volgt uit:
| Bron van Variatie | Kwadratensom (SS) | Vrijheidsgraden (df) | Gemiddelde Kwadratensom (MS) | F-statistiek | p-waarde |
| :----------------- | :---------------- | :------------------ | :-------------------------- | :----------- | :------- |
| Model (Regressie) | SSM | dfM | MSM = SSM/dfM | F = MSM/MSE | P(F>F) |
| Error (Residu) | SSE | dfE | MSE = SSE/dfE | | |
| Totaal | SST | dfT | | | |
> **Voorbeeld:** Stel dat uit de ANOVA-tabel voor een enkelvoudige regressie blijkt:
> * SSM = 150
> * SSE = 350
> * dfM = 1
> * dfE = 20
>
> Dan is:
> * SST = 150 + 350 = 500
> * dfT = 1 + 20 = 21
> * MSM = 150 / 1 = 150
> * MSE = 350 / 20 = 17,5
> * F = 150 / 17,5 = 8,57
>
> De p-waarde die bij deze F-statistiek hoort, zou getoetst worden tegen de $F(1, 20)$-verdeling. Als de p-waarde kleiner is dan 0,05, concluderen we dat het regressiemodel significant is.
### 3.3 Relatie met inferentie voor correlatie
Wanneer er geen duidelijke verklarende en verklaarde variabele is (bijvoorbeeld bij het onderzoeken van de relatie tussen armlengte en beenlengte), kan men beter een toets uitvoeren op de populatiecorrelatiecoëfficiënt, $\rho$. Als $x$ en $y$ bivariaat normaal verdeeld zijn, is de toets $H_0: \rho = 0$ equivalent aan de toets $H_0: \beta_1 = 0$ in enkelvoudige lineaire regressie. De significantietoets voor $\rho$ is gebaseerd op een t-toets die gelijkaardig is aan de t-toets voor de helling.
> **Belangrijk:** De ANOVA F-toets voor een regressiemodel test de algehele significantie. Voor enkelvoudige lineaire regressie toetst het specifiek of de helling $\beta_1$ significant verschilt van nul.
---
# Inferentie voor correlatie
Dit deel bespreekt de toetsing van de nulhypothese van geen lineair verband tussen twee variabelen door middel van de correlatiecoëfficiënt.
### 4.1 Toetsing van de nulhypothese van geen lineair verband
Wanneer een spreidingsdiagram (scatterplot) een lineair verband tussen twee variabelen suggereert, is het zinvol om te toetsen of dit verband statistisch significant is. Twee benaderingen worden hierbij onderscheiden:
* **Regressie-analyse:** Deze aanpak wordt gebruikt wanneer er een duidelijke verklarende variabele ($x$) en een verklaarde variabele ($y$) is. De toetsing richt zich dan op de richtingscoëfficiënt van de populatieregressierechte ($\beta_1$). De nulhypothese is $H_0: \beta_1 = 0$, wat aangeeft dat er geen lineair verband is tussen $x$ en $y$.
* **Correlatie-analyse:** Deze aanpak is geschikter wanneer er geen duidelijke verklarende of verklaarde variabele is, bijvoorbeeld bij het onderzoeken van het verband tussen armlengte en beendlengte. Hierbij wordt direct getoetst op de correlatiecoëfficiënt ($\rho$) tussen de twee variabelen in de populatie. De nulhypothese is $H_0: \rho = 0$.
#### 4.1.1 De correlatietoets
De significantietoets voor de populatiecorrelatiecoëfficiënt $\rho$ is gebaseerd op een 1-steekproef t-toets.
* **Nulhypothese ($H_0$):** $\rho = 0$ (Er is geen lineair verband tussen de twee variabelen in de populatie).
* **Alternatieve hypothese ($H_a$):**
* $\rho \neq 0$ (tweezijdige toets: er is wel een lineair verband)
* $\rho > 0$ (eenzijdige toets: er is een positief lineair verband)
* $\rho < 0$ (eenzijdige toets: er is een negatief lineair verband)
De toetsgrootheid wordt berekend met de volgende formule:
$$
t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}}
$$
waarbij:
* $r$ de Pearson-correlatiecoëfficiënt is in de steekproef.
* $n$ de steekproefgrootte is.
De steekproevenverdeling van deze $t$-statistiek volgt onder de nulhypothese een $t$-verdeling met $n-2$ vrijheidsgraden.
#### 4.1.2 Equivalentie met de regressiehellingstoets
Wanneer er een duidelijke verklarende variabele ($x$) en een verklaarde variabele ($y$) is, is de correlatietoets ($H_0: \rho = 0$) equivalent aan de regressiehellingstoets ($H_0: \beta_1 = 0$). Dit betekent dat beide toetsen dezelfde p-waarde zullen opleveren en tot dezelfde conclusie zullen leiden met betrekking tot het bestaan van een lineair verband.
> **Tip:** Als er geen duidelijke verklarende of verklaarde variabele is, kies dan altijd voor de correlatietoets. Als er wel een duidelijke onderscheiding is, is de regressiehellingstoets doorgaans de voorkeursmethode omdat deze ook informatie geeft over de sterkte en richting van het verband.
#### 4.1.3 Specifiek geval: Bivariatie normale verdeling
Als wordt aangenomen dat de twee variabelen ($x$ en $y$) bivariant normaal verdeeld zijn, dan is de nulhypothese $H_0: \rho = 0$ equivalent met de hypothese dat $x$ en $y$ onafhankelijk zijn. In dit specifieke geval toetst de correlatietoets dus op de aanwezigheid van *elk* verband, niet enkel een lineair verband.
#### 4.1.4 p-waarde berekening
De p-waarde van de correlatietoets wordt bepaald als de kans om een $t$-statistiek te observeren die minstens zo extreem is als de berekende $t$-waarde, gegeven de nulhypothese. Dit is de oppervlakte onder de $t$-verdeling met $n-2$ vrijheidsgraden die zich in de richting van de alternatieve hypothese bevindt.
#### 4.1.5 Analogie met ANOVA F-toets
In het geval van enkelvoudige lineaire regressie (één verklarende variabele) is de F-toets uit de variantie-analyse (ANOVA) die $H_0: \beta_1 = 0$ toetst, equivalent aan de t-toets voor $\beta_1$. De relatie is $F = t^2$. De ANOVA F-toets toetst ook de nulhypothese van geen lineair verband, maar wordt vaker gebruikt in meervoudige regressie. Voor enkelvoudige regressie heeft de t-toets de voorkeur omdat deze makkelijker eenzijdig getoetst kan worden en direct gerelateerd is aan het betrouwbaarheidsinterval van $\beta_1$.
> **Voorbeeld:** Stel we onderzoeken de correlatie tussen lengte en gewicht bij een steekproef van $n=50$ personen. We berekenen een correlatiecoëfficiënt $r=0.7$.
>
> We toetsen $H_0: \rho = 0$ tegen $H_a: \rho \neq 0$.
>
> De t-statistiek is:
>
> $$
> t = \frac{0.7 \sqrt{50-2}}{\sqrt{1-0.7^2}} = \frac{0.7 \sqrt{48}}{\sqrt{1-0.49}} = \frac{0.7 \times 6.928}{\sqrt{0.51}} \approx \frac{4.850}{0.714} \approx 6.79
> $$
>
> Met $n-2 = 48$ vrijheidsgraden, zullen we de p-waarde vinden door de kans te bepalen dat een t-statistiek met 48 vrijheidsgraden minstens zo extreem is als $6.79$ (in beide staarten van de verdeling). Deze p-waarde zal zeer klein zijn, wat aangeeft dat we de nulhypothese verwerpen en concluderen dat er een significant lineair verband is tussen lengte en gewicht.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Enkelvoudige lineaire regressie | Een statistische methode die wordt gebruikt om het lineaire verband te modelleren tussen een verklaarde variabele en één enkele verklarende variabele, met als doel voorspellingen te doen of de relatie te begrijpen. |
| Regressierechte | De lijn die de relatie tussen een verklarende variabele ($x$) en een verklaarde variabele ($y$) zo goed mogelijk beschrijft door de som van de kwadraten van de verticale afstanden (residuen) tussen de waargenomen punten en de lijn te minimaliseren. |
| Explanatory variable (Verklarende variabele) | Een variabele waarvan men vermoedt dat deze invloed heeft op een andere variabele; in regressie vaak aangeduid met $x$. |
| Response variable (Verklaarde variabele) | Een variabele waarvan men vermoedt dat deze beïnvloed wordt door de verklarende variabele; in regressie vaak aangeduid met $y$. |
| Helling ($\beta_1$) | De parameter in een lineair regressiemodel die de gemiddelde verandering in de verklaarde variabele ($y$) weergeeft voor elke eenheidstoename in de verklarende variabele ($x$). |
| Constante ($\beta_0$) | De parameter in een lineair regressiemodel die de verwachte waarde van de verklaarde variabele ($y$) weergeeft wanneer de verklarende variabele ($x$) gelijk is aan nul. |
| Spreidingsdiagram (scatterplot) | Een grafische weergave van de relatie tussen twee variabelen, waarbij elk punt de waarden van de twee variabelen voor één observatie voorstelt. |
| Toevalsvariabele | Een variabele waarvan de waarde wordt bepaald door toeval, en waarvan de mogelijke waarden en hun bijbehorende waarschijnlijkheden worden gespecificeerd door een kansverdeling. |
| Schatter | Een statistiek die wordt gebruikt om de waarde van een onbekende populatieparameter te benaderen. |
| Betrouwbaarheidsinterval | Een interval van waarden dat met een bepaalde mate van betrouwbaarheid de werkelijke waarde van een populatieparameter bevat. |
| Significantietoets | Een statistische procedure om te bepalen of een waargenomen effect (zoals een verband tussen variabelen) groot genoeg is om waarschijnlijk te zijn, of dat het mogelijk door toeval is ontstaan. |
| Normaalverdeling | Een continue kansverdeling die symmetrisch is rond het gemiddelde, de vorm heeft van een bel, en die veel natuurlijke fenomenen beschrijft. |
| Standaardafwijking ($\sigma$) | Een maat voor de spreiding van gegevens rond het gemiddelde; de vierkantswortel van de variantie. |
| Residuen | Het verschil tussen de waargenomen waarde van de verklaarde variabele ($y$) en de door het regressiemodel voorspelde waarde. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke waarden dat in een berekening van een statistiek kan variëren. In regressie verwijst dit vaak naar het aantal observaties minus het aantal geschatte parameters. |
| Determinatiecoëfficiënt ($R^2$) | Een maat die aangeeft welk deel van de variantie in de verklaarde variabele verklaard kan worden door de verklarende variabele(n) in het model. De waarde ligt tussen 0 en 1. |
| Variantie-analyse (ANOVA) | Een statistische techniek die wordt gebruikt om te testen of er significante verschillen zijn tussen de gemiddelden van drie of meer groepen, of om de totale variantie in een dataset op te splitsen in delen die worden toegeschreven aan verschillende bronnen. |
| Correlatiecoëfficiënt ($\rho$ of $r$) | Een statistische maat die de sterkte en richting van een lineair verband tussen twee variabelen kwantificeert. De waarde ligt tussen -1 en +1. |
Cover
STA3set7Hfst11MeervoudigeRegressie.pptx
Summary
# Inleiding tot regressieanalyse
Dit onderdeel introduceert de fundamentele concepten van lineaire regressie, zowel enkelvoudig als meervoudig, en de bijbehorende statistische modellen.
## 1.1 Het statistisch model voor regressie
Het statistisch model voor regressie beschrijft de relatie tussen een afhankelijke variabele (y) en een of meer onafhankelijke variabelen (x). De kernideeën zijn als volgt:
### 1.1.1 Enkelvoudige lineaire regressie
Bij enkelvoudige lineaire regressie wordt de relatie tussen één afhankelijke variabele ($y$) en één onafhankelijke variabele ($x$) gemodelleerd.
* **Populatie-regressievergelijking:** De verwachte waarde van $y$ voor een vaste waarde van $x$ varieert normaal rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$.
$$ E(y|x) = \beta_0 + \beta_1 x $$
Hierbij zijn:
* $\beta_0$: het intercept, de verwachte waarde van $y$ als $x = 0$.
* $\beta_1$: de helling, de verwachte verandering in $y$ voor een eenheidstoename in $x$.
* $\sigma$: de standaardafwijking van de residuen, die de spreiding van $y$ rond de regressielijn aangeeft.
### 1.1.2 Meervoudige lineaire regressie
Bij meervoudige lineaire regressie wordt de relatie tussen één afhankelijke variabele ($y$) en meerdere onafhankelijke variabelen ($x_1, x_2, \dots, x_p$) gemodelleerd.
* **Populatie-regressievergelijking:** Voor elke specifieke combinatie van waarden van de onafhankelijke variabelen ($x = (x_1, x_2, \dots, x_p)$) varieert $y$ normaal rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$.
$$ E(y|x_1, x_2, \dots, x_p) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p $$
Hierbij zijn:
* $\beta_0$: het intercept, de verwachte waarde van $y$ als alle onafhankelijke variabelen gelijk zijn aan 0.
* $\beta_i$ (voor $i=1, \dots, p$): de regressiecoëfficiënten die de verwachte verandering in $y$ aangeven voor een eenheidstoename in $x_i$, *gegeven dat alle andere onafhankelijke variabelen constant worden gehouden*.
* $\sigma$: de standaardafwijking van de residuen, die de spreiding van $y$ rond het regressievlak (of hypervlak in hogere dimensies) aangeeft.
### 1.1.3 De aannames van het regressiemodel
De statistische inferentie in regressieanalyse is gebaseerd op de volgende aannames over de errorterm $\epsilon_i$:
* **Normaliteit:** De errortermen zijn normaal verdeeld: $\epsilon_i \sim N(0, \sigma^2)$.
* **Onafhankelijkheid:** De errortermen zijn onafhankelijk van elkaar.
* **Homoscedasticiteit:** De variantie van de errortermen is constant voor alle waarden van de onafhankelijke variabelen: $Var(\epsilon_i) = \sigma^2$.
* **Lineariteit:** De verwachte waarde van $y$ is een lineaire functie van de onafhankelijke variabelen.
## 1.2 Schatten van regressieparameters
Het doel van regressieanalyse is om de parameters van het model (de regressiecoëfficiënten $\beta_0, \beta_1, \dots, \beta_p$ en de variantie $\sigma^2$) te schatten op basis van waargenomen data.
* **Schatten van $\beta$-coëfficiënten:** De regressiecoëfficiënten worden geschat met de methode van de kleinste kwadraten. Dit houdt in dat de schatters ($b_0, b_1, \dots, b_p$) worden bepaald zodanig dat de som van de gekwadrateerde residuen zo klein mogelijk is.
$$ \sum_{i=1}^n \epsilon_i^2 = \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}))^2 $$
Het minimaliseren van deze som leidt tot de schatters $b_0, b_1, \dots, b_p$.
* **Schatten van de variantie $\sigma^2$:** De variantie van de errortermen wordt geschat met het gemiddelde van de gekwadrateerde residuen, gedeeld door het aantal vrijheidsgraden.
$$ \hat{\sigma}^2 = s^2 = \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{n - (p+1)} = \frac{SSE}{n-(p+1)} $$
Hierbij is:
* $y_i$: de waargenomen waarde van de afhankelijke variabele voor observatie $i$.
* $\hat{y}_i$: de voorspelde waarde van de afhankelijke variabele voor observatie $i$.
* $SSE$: de som van de gekwadrateerde residuen (Sum of Squared Errors).
* $n$: het aantal waarnemingen.
* $p$: het aantal onafhankelijke variabelen.
* $n-(p+1)$: de vrijheidsgraden. Het aantal te schatten $\beta$-waarden is $p+1$ (inclusief het intercept $\beta_0$).
> **Tip:** De residuen ($e_i = y_i - \hat{y}_i$) zijn de verschillen tussen de waargenomen en de voorspelde waarden. Het onderzoeken van residuen is cruciaal om de geschiktheid van het model te beoordelen en eventuele afwijkingen van de modelaannames te detecteren.
## 1.3 Inferentie voor regressieparameters
Na het schatten van de parameters kunnen we statistische inferentie uitvoeren om conclusies te trekken over de populatieparameters.
### 1.3.1 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval voor een regressiecoëfficiënt $\beta_i$ geeft een bereik van waarden aan waarbinnen de ware populatiewaarde waarschijnlijk ligt, met een bepaald betrouwbaarheidsniveau.
* **Betrouwbaarheidsinterval voor $\beta_i$:**
$$ b_i \pm t_{\alpha/2, n-p-1} \cdot SE(b_i) $$
Hierbij is:
* $b_i$: de geschatte regressiecoëfficiënt.
* $t_{\alpha/2, n-p-1}$: de kritieke t-waarde uit de t-verdeling met $n-p-1$ vrijheidsgraden voor een significantieniveau $\alpha$.
* $SE(b_i)$: de standaardfout van de schatter $b_i$.
### 1.3.2 Hypothesetoetsen
Hypothesetoetsen worden gebruikt om te bepalen of een regressiecoëfficiënt significant verschilt van nul.
* **Hypothese voor $\beta_i$:**
* Nulhypothese ($H_0$): $\beta_i = 0$ (de onafhankelijke variabele $x_i$ heeft geen lineair verband met $y$, gegeven de andere variabelen).
* Alternatieve hypothese ($H_a$): $\beta_i \neq 0$ (de onafhankelijke variabele $x_i$ heeft wel een significant lineair verband met $y$, gegeven de andere variabelen).
* **t-toetsingsgrootheid:**
$$ t = \frac{b_i - \beta_{i,0}}{SE(b_i)} $$
Als de nulhypothese $\beta_i = 0$ is, wordt dit:
$$ t = \frac{b_i}{SE(b_i)} $$
De berekende t-waarde wordt vergeleken met de kritieke t-waarde of de p-waarde wordt bepaald om een beslissing te nemen over de nulhypothese. De stochastische variabele $T$ volgt een t-verdeling met $n-p-1$ vrijheidsgraden: $T \sim t(n-p-1)$.
> **Tip:** Een significant resultaat van de t-toets voor $\beta_i$ betekent dat $x_i$ een significante bijdrage levert aan het verklaren van $y$, *zelfs nadat er is gecorrigeerd voor de invloed van de andere onafhankelijke variabelen in het model*.
### 1.3.3 F-toets voor regressie-analyse
De F-toets wordt gebruikt om de algemene geschiktheid van het regressiemodel te beoordelen.
* **Hypothese voor de F-toets:**
* Nulhypothese ($H_0$): $\beta_1 = \beta_2 = \dots = \beta_p = 0$ (alle regressiecoëfficiënten voor de onafhankelijke variabelen zijn gelijk aan nul).
* Alternatieve hypothese ($H_a$): Minstens één $\beta_i \neq 0$ (ten minste één onafhankelijke variabele heeft een significant verband met $y$).
* **Toetsingsgrootheid:** De F-toetsingsgrootheid wordt berekend op basis van de totale variantie in $y$ en de variantie die niet door het model wordt verklaard (residuele variantie). De berekening is gerelateerd aan de variantie-analyse (ANOVA) tabel. De verdeling van de toetsingsgrootheid onder $H_0$ is een F-verdeling met $p$ en $n-p-1$ vrijheidsgraden.
> **Opmerking:** Bij enkelvoudige lineaire regressie is de F-toets voor het model equivalent aan de tweezijdige t-toets voor de helling ($\beta_1$).
## 1.4 Modelkwaliteit en interpretatie
### 1.4.1 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, meet welk deel van de totale variantie in de afhankelijke variabele $y$ wordt verklaard door het regressiemodel.
* **Interpretatie:** $R^2$ is de fractie van de variantie in de verklaarde variabele $y$ die wordt verklaard door de verklarende variabelen $x_1, x_2, \dots, x_p$. Een hogere $R^2$ geeft aan dat het model de data beter beschrijft.
$R^2$ kan ook geïnterpreteerd worden als de proportionele reductie in de voorspellingsfout wanneer de regressievergelijking wordt gebruikt in vergelijking met het voorspellen van $y$ zonder kennis van de regressievergelijking (dus alleen het gemiddelde van $y$ gebruiken).
### 1.4.2 Aangepaste determinatiecoëfficiënt (Adjusted $R^2$)
De $R^2$ neemt altijd toe (of blijft gelijk) wanneer er meer verklarende variabelen aan het model worden toegevoegd. Dit kan leiden tot overschatting van de modelkwaliteit, vooral bij kleine steekproeven. De aangepaste $R^2$ corrigeert hiervoor.
* **Onderliggend idee:** Er wordt een straf toegepast voor het toevoegen van extra variabelen, waardoor de aangepaste $R^2$ een realistischer beeld geeft van de verklarende kracht van het model, met name bij het vergelijken van modellen met een verschillend aantal voorspellers.
* **Geschiktheid:** De aangepaste $R^2$ is vooral geschikt om modellen met een verschillend aantal verklarende variabelen en waarnemingen onderling te vergelijken. De interpretatie is vergelijkbaar met die van de gewone $R^2$.
> **Tip:** Een veelgebruikte vuistregel is dat er tussen 4 en 15 waarnemingen per verklarende variabele nodig zijn om "overfitting" (het modelleren van ruis in plaats van het onderliggende verband) te voorkomen. De aangepaste $R^2$ helpt bij het detecteren van potentiële overfitting.
## 1.5 Voorbeelden en toepassingen
### 1.5.1 Voorspellen van studiesucces
Een veelvoorkomend voorbeeld is het voorspellen van het Grade Point Average (GPA) van studenten na een bepaald aantal semesters. Onafhankelijke variabelen kunnen bijvoorbeeld de resultaten op high school zijn (wiskunde, wetenschap, Engels) of scores op gestandaardiseerde tests zoals de Scholastic Aptitude Test (SAT).
* **Data voor meervoudige regressie:**
* Afhankelijke variabele: GPA (bijvoorbeeld op een schaal van 0 tot 4).
* Onafhankelijke variabelen: High School Mathematics (score), High School Science (score), High School English (score), SAT Maths (score), SAT Verbal (score).
### 1.5.2 Verfijning van modellen
Het proces van modelverfijning kan het verwijderen van variabelen omvatten die statistisch niet significant zijn of die leiden tot multicollineariteit.
* **Modelverfijning:** Door variabelen zoals "High School Science" uit het model te verwijderen (als deze niet significant bijdraagt), kan het model eenvoudiger worden gemaakt zonder significant verlies aan verklarende kracht. De regressiecoëfficiënten en hun significantie kunnen veranderen wanneer variabelen worden toegevoegd of verwijderd, omdat ze de relatie met de *andere* variabelen in het model weergeven.
### 1.5.3 Controle op collineariteit
Multicollineariteit treedt op wanneer onafhankelijke variabelen sterk met elkaar gecorreleerd zijn. Dit kan de schatting van de regressiecoëfficiënten instabiel maken en de standaardfouten vergroten.
* **Tolerantie:** Een maat voor collineariteit. Een lage tolerantie (dicht bij nul) geeft aan dat een predictor sterk overlapt met andere predictoren in het model.
* **Variance Inflation Factor (VIF):** Een andere maat voor collineariteit. Een VIF groter dan 2 duidt vaak op problemen met multicollineariteit. De VIF is het omgekeerde van de tolerantie.
> **Belangrijk:** Significantie in regressieanalyse geeft aan of een variabele nog steeds een unieke bijdrage levert aan het verklaren van de afhankelijke variabele, gegeven de aanwezigheid van andere variabelen. Een statistisch significante variabele hoeft niet altijd praktisch belangrijk te zijn.
---
# Schatten van regressieparameters en modelgeschiktheid
Dit onderdeel bespreekt de methoden voor het schatten van regressiecoëfficiënten, het evalueren van de modelkwaliteit met R-kwadraat en aangepaste R-kwadraat, en het onderzoeken van residuen.
### 2.1 Het regressiemodel
#### 2.1.1 Populatie-regressievergelijking
Bij regressieanalyse is het doel het verband te modelleren tussen een afhankelijke variabele $y$ en een of meer onafhankelijke variabelen $x_1, x_2, \dots, x_p$.
* **Enkelvoudige regressie:** Modellen één onafhankelijke variabele.
Het idee is dat voor elke vaste waarde van $x$ de afhankelijke variabele $y$ normaal verdeeld is rond de verwachte waarde $\mu_y$ met een standaardafwijking $\sigma$.
* **Meervoudige regressie:** Modellen meerdere onafhankelijke variabelen.
Voor elke specifieke combinatie van waarden van $x = (x_1, x_2, \dots, x_p)$ varieert $y$ normaal rond de verwachte waarde $\mu_y$ met een standaardafwijking $\sigma$.
Het statistisch model voor regressie kan als volgt worden geschreven:
$$ y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i $$
Hierbij staat:
* $y_i$: de waarde van de afhankelijke variabele voor de $i$-de waarneming.
* $x_{i1}, x_{i2}, \dots, x_{ip}$: de waarden van de onafhankelijke variabelen voor de $i$-de waarneming.
* $\beta_0$: het intercept (de verwachte waarde van $y$ als alle $x_i$ gelijk zijn aan nul).
* $\beta_1, \beta_2, \dots, \beta_p$: de regressiecoëfficiënten die de verandering in $y$ weergeven voor een eenheidsverandering in de corresponderende $x$-variabele, waarbij de andere $x$-variabelen constant worden gehouden.
* $\epsilon_i$: de foutterm voor de $i$-de waarneming, die wordt verondersteld onafhankelijk en normaal verdeeld te zijn met een gemiddelde van 0 en een standaardafwijking $\sigma$, dus $\epsilon_i \sim N(0, \sigma)$.
Het model wordt aangepast aan de data. Voor elke waarneming $i$ geldt:
$$ y_i = \underbrace{\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}}_{\text{Verwachting van } y} + \underbrace{\epsilon_i}_{\text{Spreiding rond verwachting}} $$
### 2.2 Schatten van regressieparameters
Het doel is om de populatieparameters $\beta_0, \beta_1, \dots, \beta_p$ en $\sigma$ te schatten op basis van de steekproefdata. Dit gebeurt door de schattingswaarden $b_0, b_1, \dots, b_p$ te bepalen, die het totaal van de gekwadrateerde residuen minimaliseren.
* **Residu ($e_i$):** Het verschil tussen de geobserveerde waarde $y_i$ en de voorspelde waarde $\hat{y}_i$.
$$ e_i = y_i - \hat{y}_i $$
* **Schatting van $\sigma$:** De spreiding rond de populatie regressievergelijking wordt geschat door de standaardafwijking van de residuen. De variantie $\sigma^2$ wordt geschat door het gemiddelde van de gekwadrateerde residuen, gedeeld door het aantal vrijheidsgraden.
$$ s^2 = \frac{\sum_{i=1}^n e_i^2}{n - (p+1)} $$
Hierbij is $n$ het aantal waarnemingen en $p+1$ het aantal te schatten parameters (het intercept plus de $p$ regressiecoëfficiënten). De standaardafwijking van de residuen, $s$, is de schatter voor $\sigma$.
#### 2.2.1 Betrouwbaarheidsintervallen en significantietoetsen voor $\beta_i$
Voor elke regressiecoëfficiënt $\beta_i$ (waarbij $i=0, 1, \dots, p$) kunnen betrouwbaarheidsintervallen en significantietoetsen worden opgesteld.
* **Betrouwbaarheidsinterval voor $\beta_i$:** Een interval waarbinnen de werkelijke populatiecoëfficiënt waarschijnlijk ligt. Dit interval wordt berekend als:
$$ b_i \pm t_{\alpha/2, n-p-1} \cdot SE(b_i) $$
waarbij $SE(b_i)$ de standaardfout van de schatter $b_i$ is.
* **Hypothesetoetsen voor $\beta_i$:** Vaak wordt getoetst of een regressiecoëfficiënt significant verschilt van nul. De nulhypothese is typisch $H_0: \beta_i = 0$.
* **t-toetsingsgrootheid:**
$$ t = \frac{b_i - \beta_{i, H_0}}{SE(b_i)} $$
waarbij $\beta_{i, H_0}$ de waarde van $\beta_i$ onder de nulhypothese is (meestal 0).
* **Verdeling:** De toetsingsgrootheid $T$ volgt een t-verdeling met $n-p-1$ vrijheidsgraden, $T \sim t(n-p-1)$.
* **Beslissing:** De nulhypothese wordt verworpen als de berekende t-waarde significant hoog is (in absolute zin), wat leidt tot een kleine p-waarde.
#### 2.2.2 F-toets voor regressie-analyse
De F-toets wordt gebruikt om de algehele significantie van het regressiemodel te beoordelen.
* **Nulhypothese ($H_0$):** Alle regressiecoëfficiënten behalve het intercept zijn gelijk aan nul.
$$ H_0: \beta_1 = \beta_2 = \dots = \beta_p = 0 $$
* **Alternatieve hypothese ($H_a$):** Ten minste één van de regressiecoëfficiënten is ongelijk aan nul.
$$ H_a: \text{minstens één } \beta_i \neq 0 \text{ voor } i \in \{1, 2, \dots, p\} $$
* **Toetsingsgrootheid:** De F-toets is gebaseerd op de varianties die worden verklaard door het model ten opzichte van de residuele variantie.
* **Verdeling:** Als $H_0$ waar is, volgt de toetsingsgrootheid een F-verdeling met $p$ en $n-p-1$ vrijheidsgraden, $F \sim F(p, n-p-1)$.
* **Interpretatie:** Een hoge F-waarde (en dus een lage p-waarde) suggereert dat het model als geheel significant is in het verklaren van de afhankelijke variabele.
**Verband met t-toets:** Bij enkelvoudige lineaire regressie is de F-toets equivalent aan de kwadratische van de tweezijdige t-toets voor $H_0: \beta_1 = 0$. Bij meervoudige regressie toetst de F-toets of álle $\beta_i$ (voor $i \neq 0$) nul zijn.
### 2.3 Modelgeschiktheid
De geschiktheid van een regressiemodel wordt beoordeeld aan de hand van de determinatiecoëfficiënt (R-kwadraat) en het analyseren van de residuen.
#### 2.3.1 Determinatiecoëfficiënt (R-kwadraat)
De determinatiecoëfficiënt, $R^2$, is een maat voor de proportie van de totale variantie in de afhankelijke variabele $y$ die wordt verklaard door de onafhankelijke variabelen in het model.
* **Interpretatie:**
* $R^2$ is de fractie van de variantie in $y$ die verklaard wordt door $x_1, x_2, \dots, x_p$.
* $R^2$ is de proportionele reductie in de fout bij het voorspellen van $y$ met de regressievergelijking, vergeleken met de fout bij het voorspellen van $y$ zonder kennis van de regressievergelijking (bv. door enkel het gemiddelde te gebruiken).
* **Formule:**
$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$
waarbij:
* $SST = \sum (y_i - \bar{y})^2$ (Total Sum of Squares) - de totale variantie in $y$.
* $SSR = \sum (\hat{y}_i - \bar{y})^2$ (Sum of Squares due to Regression) - de verklaarde variantie.
* $SSE = \sum (y_i - \hat{y}_i)^2 = \sum e_i^2$ (Sum of Squares due to Error) - de residuele variantie.
#### 2.3.2 Aangepaste R-kwadraat (Adjusted R-kwadraat)
De standaard $R^2$ heeft de neiging toe te nemen wanneer er meer variabelen aan het model worden toegevoegd, zelfs als deze variabelen de afhankelijke variabele nauwelijks verklaren. Dit kan leiden tot "overfitting" van het model, waarbij ruis wordt gemodelleerd. De aangepaste R-kwadraat corrigeert hiervoor en is vooral nuttig bij het vergelijken van modellen met een verschillend aantal verklarende variabelen.
* **Formule:**
$$ R^2_{\text{aangepast}} = 1 - \left( \frac{SSE}{n-p-1} \right) / \left( \frac{SST}{n-1} \right) = 1 - \left( 1 - R^2 \right) \frac{n-1}{n-p-1} $$
* **Eigenschappen:**
* De aangepaste $R^2$ is altijd kleiner dan of gelijk aan de gewone $R^2$.
* De aangepaste $R^2$ kan negatief zijn, wat duidt op een zeer slecht passend model.
* De aangepaste $R^2$ daalt als een variabele wordt toegevoegd die de $R^2$ niet voldoende verhoogt om de toename in het aantal parameters te compenseren.
* **Interpretatie:** De interpretatie is vergelijkbaar met die van de gewone $R^2$, maar het houdt rekening met de complexiteit van het model. Het is een betere maat voor de "ware" proportionele verklaring van de variantie in de populatie. Het is vooral geschikt om modellen met een verschillend aantal predictoren onderling te vergelijken.
#### 2.3.3 Onderzoek van residuen
Het analyseren van de residuen is cruciaal om de aannames van het regressiemodel te controleren en om mogelijke problemen te identificeren, zoals niet-lineaire verbanden, heteroscedasticiteit (ongelijke variantie van de fouten) en uitschieters.
* **Doel:**
* Controleren op lineaire verbanden: Zijn er patronen die duiden op niet-lineaire relaties die niet door het model worden opgevangen?
* Opsporen van uitschieters: Zijn er waarnemingen die ver afwijken van de verwachte waarden?
* Controleren van de normaliteitsassumptie: Zijn de residuen normaal verdeeld?
* **Methoden:**
* **Residuen versus voorspelde waarden:** Een scatterplot van de residuen ($e_i$) tegen de voorspelde waarden ($\hat{y}_i$). Idealiter ziet men een willekeurige spreiding rond nul zonder duidelijke patronen. Patronen zoals een omgekeerde U-vorm duiden op niet-lineariteit. Een trechtervorm duidt op heteroscedasticiteit.
* **Residuen versus verklarende variabelen:** Scatterplots van de residuen tegen elke individuele verklarende variabele ($x_j$). Dit helpt om specifieke niet-lineaire verbanden of heteroscedasticiteit gerelateerd aan een bepaalde predictor te identificeren.
* **Normaal-kwantiel-diagram (QQ-plot) van residuen:** Dit diagram vergelijkt de geobserveerde kwantielen van de residuen met de theoretische kwantielen van een normale verdeling. Als de punten dicht langs de rechte lijn liggen, zijn de residuen ongeveer normaal verdeeld. Afwijkingen duiden op schending van de normaliteitsassumptie.
### 2.4 Controle op collineariteit
Collineariteit (of multicollineariteit) treedt op wanneer twee of meer onafhankelijke variabelen in een meervoudig regressiemodel sterk gecorreleerd zijn met elkaar. Dit kan leiden tot instabiele en onbetrouwbare schattingen van de regressiecoëfficiënten.
* **Gevolgen van hoge collineariteit:**
* Grote standaardfouten voor de regressiecoëfficiënten, wat leidt tot een lager onderscheidend vermogen van de t-toetsen en bredere betrouwbaarheidsintervallen.
* Regressiecoëfficiënten kunnen onverwachte tekens hebben of van grootte veranderen wanneer variabelen aan het model worden toegevoegd of verwijderd.
* Het is moeilijk om het relatieve belang van gecorreleerde predictoren te bepalen.
* **Detectiemethoden:**
* **Correlatiematrix:** Een snelle manier om te zien of variabelen onderling sterk gecorreleerd zijn. Hoge correlaties (bv. $> |0.7|$ of $|0.8|$) zijn een waarschuwing.
* **Tolerantie (Tolerance):** Meet het aandeel van de variantie in een predictor dat *niet* kan worden verklaard door de andere predictoren in het model.
$$ \text{Tolerantie}_j = 1 - R_j^2 $$
waarbij $R_j^2$ de determinatiecoëfficiënt is van een regressie van predictor $x_j$ op alle andere predictoren. Een lage tolerantiewaarde (dicht bij nul) indiceert hoge collineariteit.
* **Variance Inflation Factor (VIF):** Het omgekeerde van de tolerantie.
$$ \text{VIF}_j = \frac{1}{\text{Tolerantie}_j} = \frac{1}{1 - R_j^2} $$
Een VIF-waarde groter dan 2 wordt vaak beschouwd als een indicatie van mogelijke problemen met multicollineariteit. Sommige richtlijnen hanteren een drempel van 4 of 10.
> **Tip:** Multicollineariteit is geen probleem voor de voorspellende kracht van het model als geheel (de $R^2$ kan nog steeds hoog zijn), maar het maakt de interpretatie van individuele coëfficiënten problematisch.
### 2.5 Modelverfijning
Wanneer uit de analyse van de residuen en de significantietoetsen blijkt dat niet alle variabelen significant bijdragen aan het model, kan het model worden verfijnd door minder belangrijke variabelen te verwijderen.
* **Proces:** Variabelen met een lage significantie (hoge p-waarden in de t-toetsen) of variabelen die de aangepaste $R^2$ niet significant verhogen, kunnen overwogen worden te verwijderen.
* **Context is belangrijk:** Een variabele die niet significant is in een model met veel andere predictoren, kan wel significant zijn in een eenvoudiger model. De interpretatie van regressiecoëfficiënten en hun significantie is altijd afhankelijk van de context van de andere variabelen in het model.
> **Voorbeeld:** In een model om studiesucces (GPA) te voorspellen, kan het voorkomen dat na het opnemen van "High School Mathematics" (HSM), "High School Science" (HSS) en "High School English" (HSE), alleen de coëfficiënt voor HSM significant is. Dit betekent dat HSM de enige variabele is die een significante bijdrage levert *nadat de andere variabelen reeds in het model zijn opgenomen*. Het betekent niet dat de andere variabelen geen enkele waarde hebben op zich.
#### 2.5.1 Belangrijkheid versus significantie
Het is cruciaal om onderscheid te maken tussen statistische significantie en praktische belangrijkheid. Een variabele kan statistisch significant zijn (met een kleine p-waarde), maar de grootte van de coëfficiënt kan zo klein zijn dat het in de praktijk weinig impact heeft. Omgekeerd kan een praktisch belangrijke variabele statistisch niet-significant blijken als gevolg van een kleine steekproefgrootte of hoge standaardfouten.
---
# Inferentie en hypothesetoetsing in regressie
Hier is een gedetailleerd studieonderdeel over inferentie en hypothesetoetsing in regressie, gericht op betrouwbaarheidsintervallen en significantietoetsen.
## 3. Inferentie en hypothesetoetsing in regressie
Dit onderdeel behandelt de inferentie over regressiecoëfficiënten, inclusief de constructie van betrouwbaarheidsintervallen en het uitvoeren van significantietoetsen om de relevantie van deze coëfficiënten te beoordelen.
### 3.1 Het statistische model voor regressie
Het doel van regressieanalyse is het modelleren van de relatie tussen een afhankelijke variabele ($y$) en een of meer onafhankelijke variabelen ($x_1, x_2, \dots, x_p$).
#### 3.1.1 Populatie-regressievergelijking
Het statistische model voor regressie kan worden uitgedrukt als:
$$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p + \epsilon $$
Waarbij:
* $y$ de afhankelijke variabele is.
* $x_1, x_2, \dots, x_p$ de onafhankelijke variabelen zijn.
* $\beta_0$ de intercept is, de verwachte waarde van $y$ wanneer alle $x_i$ nul zijn.
* $\beta_1, \beta_2, \dots, \beta_p$ de regressiecoëfficiënten zijn, die de verandering in de verwachte waarde van $y$ beschrijven voor een eenheidsverandering in de corresponderende $x_i$, terwijl alle andere $x$-variabelen constant worden gehouden.
* $\epsilon$ de foutterm is, die willekeurige variatie of de invloed van niet-gemodelleerde factoren vertegenwoordigt.
#### 3.1.2 Aannames over de foutterm
De standaard aannames voor de foutterm $\epsilon$ zijn:
* $\epsilon$ volgt een normale verdeling met gemiddelde nul: $\epsilon \sim N(0, \sigma^2)$.
* De variantie van de foutterm, $\sigma^2$, is constant voor alle waarden van de onafhankelijke variabelen (homoscedasticiteit).
* De fouttermen voor verschillende waarnemingen zijn onafhankelijk.
#### 3.1.3 Schatten van de regressieparameters
De regressieparameters ($\beta_0, \beta_1, \dots, \beta_p$) worden geschat uit steekproefgegevens. De meest gebruikte methode is de kleinste kwadratenmethode (Ordinary Least Squares - OLS), die de som van de gekwadrateerde residuen minimaliseert.
* **Residu**: Het residu ($e_i$) is het verschil tussen de waargenomen waarde van $y_i$ en de voorspelde waarde van $y_i$ door het regressiemodel: $e_i = y_i - \hat{y}_i$.
* **Geschatte variantie $\sigma^2$**: De variantie van de foutterm wordt geschat door de gemiddelde gekwadrateerde residuen, gedeeld door het aantal vrijheidsgraden. De vrijheidsgraden zijn $n - (p+1)$, waarbij $n$ het aantal waarnemingen is en $p+1$ het aantal te schatten parameters (inclusief de intercept).
$$ s^2 = \frac{\sum e_i^2}{n - (p+1)} $$
### 3.2 Betrouwbaarheidsintervallen voor regressiecoëfficiënten
Een betrouwbaarheidsinterval biedt een reeks waarden waarbinnen de ware populatieparameter (bijvoorbeeld $\beta_i$) waarschijnlijk ligt, met een bepaald betrouwbaarheidsniveau.
#### 3.2.1 Constructie van een betrouwbaarheidsinterval
Voor een regressiecoëfficiënt $\beta_i$, wordt het betrouwbaarheidsinterval gegeven door:
$$ \hat{\beta}_i \pm t_{\alpha/2, n-p-1} \times SE(\hat{\beta}_i) $$
Waarbij:
* $\hat{\beta}_i$ de geschatte regressiecoëfficiënt is.
* $t_{\alpha/2, n-p-1}$ de kritieke waarde is uit de $t$-verdeling met $n-p-1$ vrijheidsgraden voor een tweezijdig betrouwbaarheidsniveau van $1-\alpha$.
* $SE(\hat{\beta}_i)$ de standaardfout van de geschatte coëfficiënt $\hat{\beta}_i$ is. De standaardfout is afhankelijk van de geschatte variantie van de foutterm ($s^2$) en de variabiliteit van de onafhankelijke variabele $x_i$ en de correlaties met andere onafhankelijke variabelen.
> **Tip:** De standaardfout $SE(\hat{\beta}_i)$ is cruciaal voor het bepalen van de breedte van het betrouwbaarheidsinterval. Een kleinere standaardfout leidt tot een smaller en nauwkeuriger interval.
### 3.3 Significantietoetsen voor regressiecoëfficiënten
Significantietoetsen worden gebruikt om te bepalen of een regressiecoëfficiënt statistisch significant verschilt van een hypothetische waarde, meestal nul. Dit helpt te beoordelen of een onafhankelijke variabele een significante bijdrage levert aan het verklaren van de afhankelijke variabele.
#### 3.3.1 De $t$-toets voor individuele coëfficiënten
De $t$-toets is de meest voorkomende methode om de significantie van individuele regressiecoëfficiënten te testen.
* **Nulhypothese ($H_0$)**: $\beta_i = 0$. Dit impliceert dat de onafhankelijke variabele $x_i$ geen lineair verband heeft met de afhankelijke variabele $y$, rekening houdend met de andere variabelen in het model.
* **Alternatieve hypothese ($H_a$)**: $\beta_i \neq 0$. Dit suggereert dat $x_i$ wel een significant lineair verband heeft met $y$.
De $t$-toetsingsgrootheid wordt berekend als:
$$ t = \frac{\hat{\beta}_i - \beta_{i,0}}{SE(\hat{\beta}_i)} $$
Waarbij $\beta_{i,0}$ de hypothetische waarde van $\beta_i$ onder de nulhypothese is (meestal 0). De stochastische variabele $T$ volgt een $t$-verdeling met $n-p-1$ vrijheidsgraden, dus $T \sim t(n-p-1)$.
#### 3.3.2 Interpretatie van de $t$-toets
De p-waarde van de $t$-toets is de kans op het observeren van een toetsingsgrootheid die minstens zo extreem is als de berekende waarde, aangenomen dat de nulhypothese waar is. Als de p-waarde kleiner is dan het gekozen significantieniveau $\alpha$ (bijvoorbeeld 0.05), wordt de nulhypothese verworpen en wordt de coëfficiënt als statistisch significant beschouwd.
> **Belangrijk:** Statistische significantie betekent niet noodzakelijkerwijs dat de coëfficiënt ook praktisch belangrijk is. De grootte van de coëfficiënt en de context van het probleem zijn ook van belang.
#### 3.3.3 De $F$-toets voor regressie-analyse
De $F$-toets wordt gebruikt om de algehele significantie van het regressiemodel te testen. Dit toets of ten minste één van de onafhankelijke variabelen een significant lineair verband heeft met de afhankelijke variabele.
* **Nulhypothese ($H_0$)**: $\beta_1 = \beta_2 = \dots = \beta_p = 0$. Dit betekent dat geen van de onafhankelijke variabelen een significante bijdrage levert aan het verklaren van $y$.
* **Alternatieve hypothese ($H_a$)**: Minstens één $\beta_i \neq 0$ voor $i \in \{1, \dots, p\}$. Dit betekent dat ten minste één van de onafhankelijke variabelen significant is.
De $F$-toetsingsgrootheid wordt berekend op basis van de variatie die wordt verklaard door het regressiemodel ten opzichte van de residuele variatie:
$$ F = \frac{\text{MSR}}{\text{MSE}} = \frac{\text{Regressie SSR} / p}{\text{Residuele SSE} / (n-p-1)} $$
Waarbij MSR de gemiddelde regressiekwadratensom is en MSE de gemiddelde residuele kwadratensom (schatting van $\sigma^2$). De stochastische variabele $F$ volgt een $F$-verdeling met $p$ en $n-p-1$ vrijheidsgraden, dus $F \sim F(p, n-p-1)$.
#### 3.3.4 Relatie tussen de $t$- en $F$-toets
Bij enkelvoudige lineaire regressie (waarbij $p=1$) is de $F$-toets equivalent aan de tweezijdige $t$-toets voor de coëfficiënt van de enkele onafhankelijke variabele. Meer specifiek geldt dat $F = t^2$. Bij meervoudige regressie toetst de $F$-toets de gezamenlijke significantie van alle predictoren, terwijl de $t$-toetsen de individuele significantie van elke predictor beoordelen.
> **Belangrijk:** De $F$-toets op het niveau van het algehele model kan significant zijn, terwijl individuele $t$-toetsen voor de coëfficiënten niet significant zijn. Dit kan voorkomen als de voorspellende kracht verdeeld is over meerdere variabelen.
### 3.4 De determinatiecoëfficiënt ($R^2$) en aangepaste $R^2$
#### 3.4.1 Determinatiecoëfficiënt ($R^2$)
$R^2$ is een maat voor de proportie van de totale variantie in de afhankelijke variabele ($y$) die wordt verklaard door het regressiemodel.
$$ R^2 = \frac{\text{Verklaarde Variantie}}{\text{Totale Variantie}} = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$
Waarbij:
* $SSR$ de som van de kwadraten van de regressie is (verklaarde variatie).
* $SSE$ de som van de kwadraten van de residuen is (onverklaarde variatie).
* $SST$ de totale som van de kwadraten is (totale variatie in $y$).
$R^2$ varieert tussen 0 en 1. Een hogere $R^2$ duidt op een betere aanpassing van het model aan de data.
> **Interpretatie:** $R^2$ geeft aan welk percentage van de variabiliteit in $y$ verklaard wordt door de onafhankelijke variabelen in het model.
#### 3.4.2 Aangepaste determinatiecoëfficiënt (Adjusted $R^2$)
$R^2$ heeft de neiging om toe te nemen naarmate er meer onafhankelijke variabelen aan het model worden toegevoegd, zelfs als deze variabelen niet echt informatief zijn. Dit kan leiden tot overfitting, waarbij het model te goed past op de steekproefgegevens en slecht presteert op nieuwe data. De aangepaste $R^2$ corrigeert hiervoor door rekening te houden met het aantal predictoren en de steekproefgrootte.
$$ R^2_{aangepast} = 1 - \left( \frac{1-R^2}{1} \right) \left( \frac{n-1}{n-p-1} \right) $$
Waarbij $n$ het aantal waarnemingen is en $p$ het aantal predictoren (exclusief de intercept).
> **Tip:** De aangepaste $R^2$ is vooral nuttig bij het vergelijken van modellen met een verschillend aantal predictoren. Het is de voorkeursmaatstaf wanneer men de algemene "fit" van concurrerende modellen evalueert. De aangepaste $R^2$ kan zelfs afnemen als een nieuwe variabele weinig toevoegt aan het model.
### 3.5 Onderzoek van residuen en collineariteit
#### 3.5.1 Analyse van residuen
Het analyseren van residuen is essentieel om de aannames van het regressiemodel te controleren en potentiële problemen te identificeren.
* **Residuen versus voorspelde waarden**: Een willekeurig patroon van punten rond de nul-as suggereert dat de aanname van constantie variantie (homoscedasticiteit) waarschijnlijk voldaan is. Een trechtervormig patroon kan heteroscedasticiteit duiden.
* **Residuen versus verklarende variabelen**: Dit kan helpen bij het opsporen van niet-lineaire verbanden of uitbijters die specifiek gerelateerd zijn aan een bepaalde predictor.
* **Normaal-kwantiel-diagram van residuen**: Dit helpt te beoordelen of de residuen normaal verdeeld zijn. Een lineair patroon van punten op de diagonaal wijst op normaliteit.
#### 3.5.2 Collineariteit
Collineariteit (of multicollineariteit) treedt op wanneer twee of meer onafhankelijke variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn. Dit kan leiden tot:
* **Grote standaardfouten** voor de regressiecoëfficiënten, waardoor het moeilijker wordt om individuele coëfficiënten als significant te beschouwen.
* **Instabiele schattingen** van de coëfficiënten; kleine veranderingen in de data kunnen grote veranderingen in de geschatte coëfficiënten veroorzaken.
**Detectie van collineariteit:**
* **Correlatiematrix**: Hoge correlaties (bijvoorbeeld $> |0.7|$ of $|0.8|$) tussen predictoren.
* **Tolerantie**: De tolerantie voor een predictor is de proportie van zijn variantie die *niet* verklaard wordt door de andere predictoren. Een kleine tolerantie (bv. $< 0.1$ of $< 0.2$) duidt op hoge collineariteit.
* **Variance Inflation Factor (VIF)**: De VIF is het omgekeerde van de tolerantie ($VIF = 1 / \text{Tolerantie}$). Een VIF groter dan 2 (of soms 5 of 10, afhankelijk van de context) kan duiden op problemen met multicollineariteit.
> **Gevolg van collineariteit:** Als multicollineariteit ernstig is, kunnen de individuele $t$-toetsen voor de betrokken variabelen niet significant zijn, zelfs als het algehele model significant is (F-toets). De regressiecoëfficiënten en hun significanties kunnen dan niet betrouwbaar worden geïnterpreteerd in de context van de andere variabelen in het model. De interpretatie van $\beta_i$ als de verandering in $y$ voor een eenheidsverandering in $x_i$ *terwijl alle andere predictoren constant blijven* wordt minder zinvol als de andere predictoren sterk met $x_i$ correleren.
---
# Modelverfijning en multicollineariteit
Dit gedeelte behandelt het proces van modelverfijning door variabelen te verwijderen en onderzoekt het probleem van multicollineariteit en de impact ervan op regressieanalyse.
### 4.1 Verfijning van regressiemodellen
Het doel van modelverfijning is om een optimaal regressiemodel te creëren dat de onderliggende relaties in de data accuraat weergeeft, zonder overbodige variabelen. Dit kan leiden tot een model dat beter generaliseert en interpreteerbaar is.
#### 4.1.1 Het verwijderen van variabelen
Wanneer variabelen worden toegevoegd aan een regressiemodel, kan de significantie en de waarde van de regressiecoëfficiënten van de reeds aanwezige variabelen veranderen. Dit komt doordat de invloed van de toegevoegde variabele nu meegenomen wordt in de analyse.
Het verwijderen van een variabele uit een model kan leiden tot wijzigingen in de regressiecoëfficiënten, hun significantietoetsen, en de algemene modelprestaties. Regressiecoëfficiënten kunnen alleen geïnterpreteerd worden in de context van de andere variabelen die in het model zijn opgenomen.
> **Tip:** Significante bijdragen van een variabele aan het model worden vaak beoordeeld in de context van de andere verklarende variabelen die al in het model aanwezig zijn. Een variabele kan significant zijn wanneer deze wordt toegevoegd aan een model dat andere variabelen bevat, maar niet noodzakelijk dat alle andere regressiecoëfficiënten nul zijn.
### 4.2 Multicollineariteit
Multicollineariteit treedt op wanneer twee of meer voorspellende variabelen in een regressiemodel sterk gecorreleerd zijn met elkaar. Dit kan leiden tot instabiele schattingen van de regressiecoëfficiënten en problemen bij de interpretatie van de resultaten.
#### 4.2.1 Gevolgen van multicollineariteit
Hoge multicollineariteit kan de standaardfouten van de regressiecoëfficiënten vergroten. Dit betekent dat de schattingen van de coëfficiënten minder nauwkeurig worden, wat kan resulteren in:
* **Opgeblazen standaardfouten:** De schatting van de standaarddeviatie van de regressiecoëfficiënten wordt groter.
* **Verminderde significantie:** Regressiecoëfficiënten die in werkelijkheid wel een significant verband met de afhankelijke variabele hebben, kunnen statistisch niet-significant lijken vanwege de grote standaardfout.
* **Instabiele coëfficiëntschattingen:** Kleine veranderingen in de data kunnen leiden tot grote schommelingen in de geschatte regressiecoëfficiënten.
#### 4.2.2 Het detecteren van multicollineariteit
Er zijn verschillende methoden om multicollineariteit te detecteren:
* **Correlatiematrix:** Een inspectie van de correlaties tussen paren van voorspellende variabelen. Sterke correlaties (vaak boven 0.7 of 0.8) kunnen duiden op multicollineariteit.
* **Tolerantie:** De tolerantie meet het proportie van de variantie in een bepaalde voorspeller die *niet* verklaard kan worden door de andere voorspellers in het model.
* Een lage tolerantiewaarde (dicht bij nul) geeft aan dat een voorspeller sterk gecorreleerd is met andere voorspellers, wat duidt op hoge multicollineariteit.
* De formule voor tolerantie voor predictor $x_i$ is $1 - R_i^2$, waarbij $R_i^2$ de determinatiecoëfficiënt is van een regressie van $x_i$ op de overige voorspellers.
* **Variance Inflation Factor (VIF):** De VIF is het omgekeerde van de tolerantie.
* $VIF_i = \frac{1}{Tolerantie_i} = \frac{1}{1 - R_i^2}$.
* Een VIF groter dan 2 wordt vaak beschouwd als indicatief voor potentiële problemen met multicollineariteit. Hoe hoger de VIF, hoe groter de inflatie van de variantie van de regressiecoëfficiënt.
> **Tip:** De tolerantie en VIF bieden een meer geavanceerde kijk op multicollineariteit dan enkel het bekijken van paarsgewijze correlaties, omdat ze rekening houden met de gezamenlijke invloed van meerdere voorspellers.
#### 4.2.3 Omgaan met multicollineariteit
Wanneer multicollineariteit is gedetecteerd, kunnen verschillende strategieën worden toegepast:
* **Verwijderen van een van de sterk gecorreleerde variabelen:** Kies de variabele die het minst theoretisch relevant is of die het minst bijdraagt aan het model.
* **Combineren van gecorreleerde variabelen:** Bijvoorbeeld door een index of samengestelde variabele te creëren.
* **Gebruik van andere analysemethoden:** Technieken zoals Principal Component Regression (PCR) of Ridge Regression kunnen worden gebruikt om met multicollineariteit om te gaan, hoewel deze leiden tot coëfficiënten die niet direct interpreteerbaar zijn in termen van de originele variabelen.
* **Meer data verzamelen:** In sommige gevallen kan een grotere steekproef de impact van multicollineariteit verminderen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Regressie-analyse | Een statistische methode die gebruikt wordt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te onderzoeken. Het doel is om te voorspellen hoe veranderingen in de onafhankelijke variabelen de afhankelijke variabele beïnvloeden. |
| Meervoudige lineaire regressie | Een regressietechniek waarbij de afhankelijke variabele wordt voorspeld op basis van twee of meer onafhankelijke variabelen via een lineaire relatie. De vergelijking is van de vorm: $y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p + \epsilon$. |
| Populatie-regressievergelijking | De theoretische vergelijking die de werkelijke relatie beschrijft tussen de afhankelijke variabele en de onafhankelijke variabelen in de gehele populatie. Deze parameters zijn meestal onbekend en worden geschat vanuit een steekproef. |
| Residuen | Het verschil tussen de waargenomen waarde van de afhankelijke variabele en de voorspelde waarde uit het regressiemodel. Residuen geven aan hoe goed het model de data past; idealiter zijn ze klein en willekeurig verdeeld. |
| Regressieparameters schatten | Het proces waarbij de waarden van de coëfficiënten ($\beta$) in de regressievergelijking worden bepaald op basis van waargenomen data, meestal met als doel het minimaliseren van de som van de gekwadrateerde residuen (methode van kleinste kwadraten). |
| Vrijheidsgraden | Het aantal onafhankelijke stukjes informatie dat beschikbaar is om een parameter te schatten. Bij regressie is dit vaak het aantal waarnemingen min het aantal te schatten parameters ($n - (p+1)$). |
| Betrouwbaarheidsinterval | Een reeks waarden die waarschijnlijk de ware populatiewaarde van een parameter bevat. Voor een regressiecoëfficiënt geeft dit een interval waarbinnen de ware populatiewaarde met een bepaalde waarschijnlijkheid ligt. |
| Hypothesetoetsen | Statistische procedures om te bepalen of er voldoende bewijs is om een nulhypothese te verwerpen, zoals de hypothese dat een regressiecoëfficiënt gelijk is aan nul, wat impliceert dat de variabele geen significante bijdrage levert. |
| t-toets | Een statistische toets die wordt gebruikt om te onderzoeken of een individuele regressiecoëfficiënt significant verschilt van nul. De toetsingsgrootheid volgt een t-verdeling met $n-p-1$ vrijheidsgraden. |
| F-toets voor regressie-analyse | Een statistische toets die wordt gebruikt om de algehele significantie van het regressiemodel te evalueren. Het test de nulhypothese dat alle regressiecoëfficiënten van de voorspellende variabelen gelijk zijn aan nul. |
| Determinatiecoëfficiënt (R²) | Een maatstaf die aangeeft welk deel van de totale variatie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabelen in het regressiemodel. Een hogere R² duidt op een betere fit. |
| Aangepaste R² | Een aangepaste versie van de R² die corrigeert voor het aantal voorspellende variabelen in het model en het aantal waarnemingen. Dit is nuttig bij het vergelijken van modellen met verschillende aantallen predictoren. |
| Multicollineariteit | Een fenomeen waarbij twee of meer voorspellende variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn. Dit kan leiden tot instabiele schattingen van regressiecoëfficiënten en verhoogde standaardfouten. |
| Tolerantie | Een maatstaf voor multicollineariteit die aangeeft welk deel van de variantie in een bepaalde predictor niet kan worden verklaard door de andere predictoren in het model. Lage toleranties duiden op hoge multicollineariteit. |
| Variance Inflation Factor (VIF) | Een andere maatstaf voor multicollineariteit, die gerelateerd is aan tolerantie. Een VIF groter dan 2 (of 5 of 10, afhankelijk van de conventie) duidt op potentiële problemen met multicollineariteit. |
Cover
STA3set8Hfst12ANOVA.pptx
Summary
# Introductie tot variantie-analyse
Hier is een gedetailleerde studiehandleiding over de introductie tot variantie-analyse (ANOVA).
## 1. Introductie tot variantie-analyse
Variantie-analyse (ANOVA) is een statistische methode die wordt gebruikt om de gemiddelden van twee of meer groepen te vergelijken, en dient als een uitbreiding van de t-toets.
### 1.1 Van t-toets naar ANOVA
De t-toets voor onafhankelijke steekproeven wordt gebruikt om de gemiddelden ($\mu$) van twee populaties te vergelijken. Wanneer we echter de gemiddelden van drie of meer populaties willen vergelijken, wordt het gebruik van meerdere t-toetsen problematisch.
#### 1.1.1 Waarom niet paarsgewijze t-toetsen gebruiken?
Het uitvoeren van meerdere paarsgewijze t-toetsen om de gemiddelden van meer dan twee groepen te vergelijken, verhoogt het risico op het maken van een Type I fout (onterecht H$_0$ verwerpen). Bij elke afzonderlijke t-toets is er een kans ($\alpha$) dat we ten onrechte concluderen dat er een significant verschil is tussen twee groepen, terwijl dit in werkelijkheid niet zo is. Door dit risico te herhalen met meerdere toetsen, vergroot de kans dat we "kapitaliseren op toeval" (capitalizing on chance) en ten onrechte significante verschillen vinden.
* **Voorbeeld:** Stel we vergelijken de gepercipieerde moeilijkheid van wiskundeopgaven binnen drie groepen studenten die verschillende instructies krijgen over de moeilijkheid ("simpel", "matig", "moeilijk"). Als we voor elke paarvergelijking (simpel vs. matig, simpel vs. moeilijk, matig vs. moeilijk) een t-toets zouden uitvoeren, neemt de algehele kans op een fout Type I toe.
#### 1.1.2 ANOVA als alternatief
Variantie-analyse (ANOVA) is ontworpen om dit probleem aan te pakken door één enkele omnibus-toets uit te voeren die test of er *enig* significant verschil is tussen de groepsgemiddelden. Als de omnibus-ANOVA significant is, suggereert dit dat ten minste één van de groepsgemiddelden verschilt van de anderen, waarna verdere (post-hoc) analyses nodig kunnen zijn om specifieke verschillen te identificeren.
### 1.2 Het ANOVA-model
#### 1.2.1 Aannames voor ANOVA
Voordat we ANOVA kunnen toepassen, moeten aan de volgende voorwaarden worden voldaan:
1. **Onafhankelijke steekproeven:** We beschikken over $k$ onafhankelijke enkelvoudige aselecte steekproeven, één uit elke populatie of conditie.
2. **Gelijke responsvariabele:** Binnen elke steekproef wordt dezelfde responsvariabele gemeten.
3. **Normaliteit:** Alle $k$ populaties zijn normaal verdeeld. De gemiddelden ($\mu$) zijn onbekend, maar de verdeling binnen elke populatie wordt verondersteld normaal te zijn.
4. **Homogeniteit van varianties:** Alle populaties hebben dezelfde (onbekende) standaarddeviatie, $\sigma$.
#### 1.2.2 Check op homogeniteit van varianties
Hoewel ANOVA robuust is voor kleine schendingen van de normaliteitsassumptie, is de homogeniteit van varianties belangrijker. Een vuistregel om te controleren of de varianties ongeveer gelijk zijn, is de verhouding tussen de grootste en de kleinste steekproefstandaarddeviatie ($s_i$).
> **Tip:** ANOVA mag bij benadering worden toegepast als de verhouding van de grootste steekproef $s_i$ tot de kleinste steekproef $s_i$ niet groter is dan 2.
* Formeel kan de **Bartlett's test** of de **Levene's test** worden gebruikt om de homogeniteit van varianties te toetsen.
#### 1.2.3 Het waarnemingsmodel
Het basismodel voor een waarneming ($Y_{ij}$) in ANOVA kan worden uitgedrukt als:
$$
Y_{ij} = \mu_i + \epsilon_{ij}
$$
waarbij:
* $Y_{ij}$ de $j$-de waarneming is in de $i$-de groep.
* $\mu_i$ het populatiegemiddelde is van de $i$-de groep.
* $\epsilon_{ij}$ het residu of de foutterm is voor de $j$-de waarneming in de $i$-de groep, die wordt verondersteld normaal verdeeld te zijn met gemiddelde 0 en standaarddeviatie $\sigma$.
Wanneer we met $k$ groepen werken, en de $i$-de groep een steekproefgrootte van $n_i$ heeft, dan is de totale steekproefgrootte $N = \sum_{i=1}^{k} n_i$.
### 1.3 De F-statistiek in ANOVA
ANOVA werkt door de totale variantie in de data op te splitsen in twee componenten: de variantie *tussen* de groepen en de variantie *binnen* de groepen.
* **Variantie tussen groepen (Model / Verklaarde variantie):** Dit meet de spreiding van de groepsgemiddelden rond het algemene gemiddelde. Het vertegenwoordigt de variantie die verklaard wordt door het verschil in behandeling of groep.
* **Variantie binnen groepen (Residu / Onverklaarde variantie):** Dit meet de spreiding van de individuele waarnemingen rond hun eigen groepsgemiddelde. Het vertegenwoordigt de natuurlijke, willekeurige variatie die niet door de groepsindeling wordt verklaard.
#### 1.3.1 De F-grootheid
De ANOVA F-statistiek is de ratio van de variantie tussen de groepen tot de variantie binnen de groepen.
$$
F = \frac{\text{Variantie tussen groepen}}{\text{Variantie binnen groepen}}
$$
* Als de nulhypothese (dat alle populatiegemiddelden gelijk zijn) waar is, verwachten we dat de variantie tussen de groepen vergelijkbaar is met de variantie binnen de groepen, wat resulteert in een F-waarde dicht bij 1.
* Als de alternatieve hypothese (dat ten minste één gemiddelde verschilt) waar is, zal de variantie tussen de groepen groter zijn dan de variantie binnen de groepen, wat resulteert in een grotere F-waarde.
De F-test is altijd een eenzijdige test aan de bovenzijde, omdat F $\ge$ 0. Hoge F-waarden leveren bewijs tegen de nulhypothese.
#### 1.3.2 De F-verdeling
De F-statistiek volgt, onder de nulhypothese, een F-verdeling. F-verdelingen zijn rechtsscheef en nemen alleen positieve waarden aan. Elke F-verdeling wordt gekarakteriseerd door twee vrijheidsgraden:
* $df_1$ (numerator degrees of freedom): Vrijheidsgraden voor de teller (variantie tussen groepen).
* $df_2$ (denominator degrees of freedom): Vrijheidsgraden voor de noemer (variantie binnen groepen).
De notatie is $F(df_1, df_2)$.
#### 1.3.3 Vrijheidsgraden voor de F-test
* **$df_1$ (teller):** $k - 1$, waarbij $k$ het aantal groepen is.
* **$df_2$ (noemer):** $N - k$, waarbij $N$ de totale steekproefgrootte is en $k$ het aantal groepen.
$$
\text{Vrijheidsgraden teller} = k - 1
$$
$$
\text{Vrijheidsgraden noemer} = N - k
$$
### 1.4 Verloop van een ANOVA
1. **Formuleer hypotheses:**
* $H_0$: $\mu_1 = \mu_2 = \dots = \mu_k$ (Alle populatiegemiddelden zijn gelijk)
* $H_1$: Niet alle $\mu_i$ zijn gelijk (Ten minste één populatiegemiddelde verschilt)
2. **Controleer aannames:** Normaliteit en homogeniteit van varianties.
3. **Bereken de F-statistiek:** Gebruik de variantie tussen groepen en de variantie binnen groepen.
4. **Bepaal de kritieke waarde:** Zoek de kritieke F-waarde op in een F-tabel voor het gekozen significantieniveau ($\alpha$) en de berekende vrijheidsgraden ($df_1$ en $df_2$).
5. **Neem een beslissing:**
* Als de berekende $F \ge$ de kritieke $F$-waarde, verwerpen we $H_0$.
* Als de berekende $F <$ de kritieke $F$-waarde, verwerpen we $H_0$ niet.
6. **Interpretatie:** Als $H_0$ wordt verworpen, concluderen we dat er significante verschillen zijn tussen de groepsgemiddelden. Dit vereist echter verdere analyses om te bepalen *welke* specifieke gemiddelden van elkaar verschillen.
### 1.5 Post-hoc analyses: Meervoudige Vergelijkingen en Contrasten
Als de omnibus ANOVA een significant resultaat oplevert ($H_0$ wordt verworpen), betekent dit niet dat alle groepen significant van elkaar verschillen. Het betekent alleen dat er *ergens* een verschil is. Om te achterhalen welke groepen significant van elkaar verschillen, worden post-hoc analyses uitgevoerd.
#### 1.5.1 Contrasten
Contrasten worden gebruikt om specifieke, vooraf geplande hypothesen over de groepsgemiddelden te toetsen. Deze zijn vooral nuttig als er een duidelijke wetenschappelijke hypothese is vóór de dataverzameling, bijvoorbeeld wanneer een experiment is opgezet met een controleconditie. Contrasten hebben meer onderscheidingsvermogen (power) dan algemene meervoudige vergelijkingen omdat ze specifieker zijn.
* Een contrast is een lineaire combinatie van populatiegemiddelden:
$$
\psi = a_1 \mu_1 + a_2 \mu_2 + \dots + a_k \mu_k
$$
waar $\sum_{i=1}^{k} a_i = 0$.
* Het overeenkomstige steekproefcontrast is:
$$
c = a_1 \bar{Y}_1 + a_2 \bar{Y}_2 + \dots + a_k \bar{Y}_k
$$
* De standaardfout van $c$ wordt berekend met de gepoolde variantie ($s_p^2$ of $MSE$):
$$
SE(c) = s_p \sqrt{\sum_{i=1}^{k} \frac{a_i^2}{n_i}}
$$
* De nulhypothese ($H_0: \psi = 0$) wordt getoetst met een t-statistiek:
$$
t = \frac{c}{SE(c)}
$$
met vrijheidsgraden $DFE = N - k$.
> **Tip:** Contrasten zijn geplande vergelijkingen en hebben meer power dan meervoudige vergelijkingen wanneer er een duidelijke theoretische basis voor is. Ze kunnen ook worden berekend als de omnibus ANOVA niet significant is, omdat ze specifieke hypothesen toetsen.
#### 1.5.2 Meervoudige vergelijkingstesten
Wanneer er geen specifieke geplande hypothesen zijn, of wanneer er veel groepen zijn die allemaal met elkaar vergeleken moeten worden, worden meervoudige vergelijkingstesten gebruikt. Deze tests corrigeren het $\alpha$-niveau om de algehele kans op een Type I fout laag te houden bij het uitvoeren van meerdere paarsgewijze vergelijkingen.
* **LSD-methode (Least Significant Differences):** Voert standaard t-toetsen uit voor alle paren, zonder correctie voor meervoudige vergelijkingen. Dit verhoogt het risico op Type I fouten.
* **Bonferroni-methode:** Stelt het significantieniveau voor elke individuele test zo streng in dat de algehele kans op een Type I fout voor alle vergelijkingen niet groter is dan het oorspronkelijke $\alpha$. Dit is zeer conservatief en kan leiden tot minder power.
* **Tukey's HSD (Honestly Significant Difference):** Gebruikt de Studentized range statistic om alle paarsgewijze vergelijkingen uit te voeren, met controle over de "family-wise error rate". Dit is een veelgebruikte en krachtige methode.
* **Andere methoden:** Er zijn diverse andere methoden zoals Scheffé, S-N-K, Duncan, Gabriel, Games-Howell, etc., elk met specifieke eigenschappen en aannames (bijv. gelijkheid van varianties).
> **Tip:** De keuze van de post-hoc test hangt af van de onderzoeksvraag en de aannames die geldig zijn voor de data. Tukey's HSD is een goede standaardkeuze bij gelijke steekproefgroottes en gelijke varianties.
#### 1.5.3 Interpretatie van paarsgewijze vergelijkingen
Deze tests vergelijken telkens twee groepsgemiddelden en rapporteren een p-waarde. Als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$), wordt geconcludeerd dat die twee specifieke groepsgemiddelden significant van elkaar verschillen.
* **Voorbeeld:** Na een significante ANOVA voor de effectiviteit van drie leesmethoden, kunnen paarsgewijze vergelijkingen uitwijzen dat Methode A significant beter is dan Methode B, maar dat Methode C niet significant verschilt van Methode B.
#### 1.5.4 Gelijkheid van varianties niet verondersteld
Indien de aanname van gelijke varianties wordt geschonden, zijn er specifieke post-hoc tests die hier rekening mee houden, zoals Tamhane's T2, Dunnett's T3, of Games-Howell.
### 1.6 Voorbeeld: Gepercipieerde moeilijkheid van oefeningen
* **Situatie:** Een onderzoeker wil weten of de gepercipieerde moeilijkheid van wiskundeopgaven verschilt wanneer studenten verschillende instructies krijgen over de moeilijkheid ("simpel", "matig", "moeilijk").
* **Data:** Scores op een 16-puntenschaal (0-15).
* **ANOVA:** Een eenwegs ANOVA wordt uitgevoerd om te testen of de gemiddelde gepercipieerde moeilijkheid verschilt tussen de drie groepen.
* **Resultaat:** Als de ANOVA significant is, kan een post-hoc test (bv. Tukey's HSD) worden gebruikt om te bepalen welke van de drie instructies leidt tot significant verschillende percepties van moeilijkheid.
> **Tip:** Visualisaties zoals boxplots en meansplots (lijndiagrammen van gemiddelden) zijn cruciaal om de verdelingen, gemiddelden en spreiding binnen de groepen te begrijpen, en om hypotheses te vormen voor contrasten of om resultaten van post-hoc analyses te ondersteunen. De boxplot vergelijkt echter medianen, terwijl ANOVA gemiddelden vergelijkt.
---
# Voorwaarden en model van ANOVA
Dit onderdeel bespreekt de essentiële voorwaarden waaraan voldaan moet worden om een één-weg variantie-analyse (ANOVA) correct uit te voeren, en legt het onderliggende ANOVA-model uit.
### 2.1 De t-toets versus ANOVA
De t-toets voor onafhankelijke steekproeven wordt gebruikt om de verwachtingen (gemiddelden) van twee populaties te vergelijken. Variantie-analyse (ANOVA) daarentegen is een statistische methode die wordt ingezet om de verwachtingen van twee of meer populaties te vergelijken. Een één-wegs ANOVA vergelijkt meerdere populatieverwachtingen op basis van enkelvoudige aselecte steekproeven (EAS) uit elke populatie.
Het gebruik van paarsgewijze t-toetsen om meer dan twee groepen te vergelijken is geen goed alternatief voor ANOVA. Hoewel paarsgewijze t-toetsen individuele verschillen tussen groepen kunnen detecteren, verhoogt het herhaaldelijk uitvoeren van deze toetsen de kans op een Type I fout (onterecht concluderen dat er een significant verschil is wanneer er in werkelijkheid geen is). Dit fenomeen, bekend als "capitalizing on chance", leidt ertoe dat er te snel significante verschillen worden gevonden die er niet zijn.
**Voorbeeld:** Stel een onderzoeker wil onderzoeken hoe studenten de moeilijkheid van wiskundeoefeningen ervaren. Hij deelt 30 studenten willekeurig in drie groepen in: één groep krijgt te horen dat de oefeningen "simpel" zijn, de tweede "matig", en de derde "moeilijk". Na afloop beoordelen de studenten de moeilijkheid op een schaal van 0 tot 15. Om de gemiddelde beoordelingen van de drie groepen te vergelijken, is ANOVA de geschikte methode, niet drie aparte t-toetsen.
### 2.2 Voorwaarden voor ANOVA
Om een één-weg ANOVA op een correcte en betrouwbare manier uit te voeren, moet aan de volgende voorwaarden worden voldaan:
* **Onafhankelijke steekproeven:** Er moeten k onafhankelijke enkelvoudige aselecte steekproeven worden getrokken, één uit elke populatie of conditie die wordt onderzocht.
* **Normaliteit:** Alle k populaties waaruit de steekproeven zijn getrokken, moeten normaal verdeeld zijn.
* **Homogeniteit van varianties (gelijke standaarddeviaties):** Alle k populaties moeten dezelfde (onbekende) standaarddeviatie $\sigma$ hebben.
**Controle op gelijkheid van standaarddeviaties:**
Een vuistregel om de aanname van gelijke standaarddeviaties te controleren is de volgende: de resultaten van de ANOVA F-toets zijn bij benadering correct als de grootste steekproef standaarddeviatie niet meer dan twee keer zo groot is als de kleinste steekproef standaarddeviatie. Wiskundig uitgedrukt:
$$ \frac{s_{max}}{s_{min}} \leq 2 $$
waarbij $s_{max}$ de grootste en $s_{min}$ de kleinste standaarddeviatie van de steekproeven is.
### 2.3 Het ANOVA-model
Het ANOVA-model beschrijft een waargenomen waarde ($Y_{ij}$) als de som van een algemeen gemiddelde, het effect van de groep waartoe de waarneming behoort, en een residu (foutterm).
Voor een waarneming $j$ in groep $i$, kan het model als volgt worden geschreven:
$$ Y_{ij} = \mu_i + \epsilon_{ij} $$
waarbij:
* $Y_{ij}$ staat voor de waargenomen waarde van de $j$-de observatie in de $i$-de groep.
* $\mu_i$ staat voor het populatiegemiddelde van de $i$-de groep.
* $\epsilon_{ij}$ staat voor het residu (de foutterm) van de $j$-de observatie in de $i$-de groep. Dit representeert de variatie die niet verklaard wordt door de groepsverschillen.
De nulhypothese in een één-wegs ANOVA stelt dat alle populatiegemiddelden gelijk zijn:
$$ H_0: \mu_1 = \mu_2 = \dots = \mu_k $$
De alternatieve hypothese is dat niet alle populatiegemiddelden gelijk zijn.
Het model kan ook worden uitgedrukt in termen van de schatters voor de parameters:
$$ \text{Waarneming} = \text{Model} + \text{Residu} $$
$$ Y_{ij} = \hat{\mu}_i + e_{ij} $$
waarbij $\hat{\mu}_i$ de steekproefgemiddelde van groep $i$ is en $e_{ij}$ het residu voor de $j$-de observatie in groep $i$.
### 2.4 De F-statistiek in ANOVA
De ANOVA F-statistiek is de kern van de toets en vergelijkt de variantie *tussen* de groepen met de variantie *binnen* de groepen.
$$ F = \frac{\text{Variantie tussen groepen}}{\text{Variantie binnen groepen}} $$
* **Variantie tussen groepen (Mean Square Between, MSB):** Dit meet de spreiding van de steekproefgemiddelden rond het totale gemiddelde. Het wordt ook wel "verklaarde variantie" genoemd, vergelijkbaar met de R-kwadraat in regressieanalyse.
* **Variantie binnen groepen (Mean Square Within, MSW of Mean Square Error, MSE):** Dit meet de gemiddelde spreiding van de observaties binnen elke groep rond het groepsgemiddelde. Het vertegenwoordigt de "ongelgde variantie".
De F-statistiek is altijd groter dan of gelijk aan nul ($F \geq 0$). Als alle steekproefgemiddelden identiek zijn, is $F=0$. Een hogere F-waarde duidt op grotere verschillen tussen de groepsgemiddelden, wat bewijs levert tegen de nulhypothese van gelijke gemiddelden. De F-toets is een één-zijdige toets aan de bovenzijde.
**Relatie met de t-toets:** Voor het specifieke geval van twee groepen ($k=2$) en gelijke steekproefgroottes ($n_1 = n_2 = n$), is het kwadraat van de tweegroep t-toetsgrootheid gelijk aan de F-statistiek: $t^2 = F$.
#### 2.4.1 Vrijheidsgraden voor de F-test
De F-verdeling, die de verdeling van de F-statistiek onder de nulhypothese beschrijft, wordt gekenmerkt door twee parameters: de vrijheidsgraden van de teller (tussen groepen) en de vrijheidsgraden van de noemer (binnen groepen).
* **Vrijheidsgraden teller (df1):** Dit is het aantal groepen ($k$) min 1: $df_1 = k - 1$.
* **Vrijheidsgraden noemer (df2):** Dit is het totale aantal waarnemingen ($N$) min het aantal groepen ($k$): $df_2 = N - k$. Het totale aantal waarnemingen is de som van de waarnemingen in alle groepen: $N = n_1 + n_2 + \dots + n_k$.
De verdeling van de ANOVA F-statistiek onder $H_0$ is dus $F(k-1, N-k)$.
### 2.5 Verloop van ANOVA en vervolganalyses
1. **Formuleren van hypothesen:** Definieer de nulhypothese ($H_0$: alle populatiegemiddelden zijn gelijk) en de alternatieve hypothese ($H_1$: niet alle populatiegemiddelden zijn gelijk).
2. **Controleren van voorwaarden:** Verifieer de aannames van normaliteit, homogeniteit van varianties en onafhankelijke steekproeven.
3. **Berekenen van de F-statistiek:** Bereken de F-waarde op basis van de variantie tussen en binnen de groepen.
4. **Vergelijken met kritieke waarde:** Vergelijk de berekende F-statistiek met een kritieke waarde uit de F-verdeling (met de correcte vrijheidsgraden en gekozen significantieniveau $\alpha$). Als $F > F_{kritiek}$, wordt de nulhypothese verworpen.
5. **Conclusie en vervolganalyses:**
* Als $H_0$ wordt verworpen, betekent dit dat er statistisch significante verschillen zijn tussen ten minste twee populatiegemiddelden.
* **Vervolgstap: Welke gemiddelden verschillen?** De omnibus ANOVA zelf vertelt niet *welke* specifieke groepen significant van elkaar verschillen. Hiervoor zijn vervolganalyses nodig.
#### 2.5.1 Contrasten
Contrasten worden gebruikt om specifieke, vooraf gedefinieerde hypothesen over de populatiegemiddelden te toetsen. Ze zijn vooral nuttig wanneer er een duidelijke wetenschappelijke hypothese is over de verwachte verschillen tussen bepaalde groepen, en dit deel uitmaakt van het onderzoeksdesign.
* Een contrast is een lineaire combinatie van populatiegemiddelden $\mu_i$ met coëfficiënten $a_i$ zodanig dat de som van de coëfficiënten nul is ($\sum a_i = 0$).
* Het bijbehorende steekproefcontrast $c$ wordt berekend met de steekproefgemiddelden $\bar{x}_i$:
$$ c = a_1 \bar{x}_1 + a_2 \bar{x}_2 + \dots + a_k \bar{x}_k $$
* De standaardfout van het steekproefcontrast $c$ is:
$$ SE(c) = s_p \sqrt{\sum_{i=1}^k \frac{a_i^2}{n_i}} $$
waarbij $s_p$ de gepoolde standaarddeviatie is en $n_i$ de steekproefgrootte van groep $i$.
* De nulhypothese $H_0: \psi = 0$ (waarbij $\psi$ het populatiecontrast is) wordt getoetst met een t-statistiek:
$$ t = \frac{c}{SE(c)} $$
met vrijheidsgraden gelijk aan de vrijheidsgraden van de error ($df_E = N - k$).
* Een betrouwbaarheidsinterval voor het contrast $\psi$ is:
$$ c \pm t^* \cdot SE(c) $$
waarbij $t^*$ de kritieke waarde uit de t-verdeling is.
**Voordelen van contrasten:**
* **Hoger onderscheidingsvermogen (power):** Omdat ze specifiekere hypothesen toetsen, zijn contrasten krachtiger in het detecteren van een significant verschil dan algemene meervoudige vergelijkingstests.
* **Wetenschappelijke hypothese toetsen:** Ze laten toe om vooraf geformuleerde wetenschappelijke verwachtingen te toetsen.
**Belangrijk:** Contrasten zijn het meest zinvol wanneer ze *vooraf* worden bepaald, gebaseerd op het onderzoeksdesign. Het is niet gepast om contrasten te bepalen op basis van verschillen die pas na dataverzameling worden vastgesteld.
#### 2.5.2 Meervoudige vergelijkingen (Multiple Comparisons)
Meervoudige vergelijkingstests worden toegepast wanneer de omnibus ANOVA een significant resultaat oplevert, maar er geen specifieke, vooraf gedefinieerde hypothesen zijn om te toetsen met contrasten. Ze voeren paarsgewijze significantietoetsen uit tussen alle groepen, waarbij er een correctie wordt toegepast om de kans op Type I fouten te beheersen.
Verschillende methoden bestaan om de p-waarden te corrigeren of een strengere kritieke waarde te hanteren:
* **LSD-methode (Least Significant Differences):** Voert paarsgewijze t-toetsen uit zonder expliciete correctie voor meervoudige vergelijkingen. De kans op een Type I fout wordt voor elk paar afzonderlijk bepaald.
* **Bonferroni-methode:** Controleert de totale kans op een Type I fout voor alle vergelijkingen door de alfaniveau voor elke individuele toets aanzienlijk te verlagen ($\alpha / (\text{aantal paren})$). Dit leidt tot strengere kritieke waarden en minder power.
* **Tukey's HSD (Honestly Significant Difference):** Een populaire methode die de studentized range statistic gebruikt om alle paarsgewijze vergelijkingen te maken en de experiment-wise error rate te controleren.
* **Scheffé-methode:** Een zeer conservatieve methode die alle mogelijke lineaire combinaties van groepsgemiddelden kan toetsen, niet alleen paarsgewijze vergelijkingen.
**Keuze van methode:** De keuze hangt af van het aantal groepen, de specifieke onderzoeksvraag en de gewenste balans tussen Type I en Type II fouten. Wanneer de varianties niet gelijk zijn, zijn aangepaste methoden zoals Tamhane's T2 of Games-Howell nodig.
**Tip:** In veel statistische softwarepakketten (zoals R en SPSS) zijn functies beschikbaar om zowel contrasten als verschillende soorten meervoudige vergelijkingstests uit te voeren na een ANOVA.
**Boxplots en gemiddeldendiagrammen:** Visuele hulpmiddelen zoals boxplots en gemiddeldendiagrammen (met foutbalken die de standaarddeviatie of het betrouwbaarheidsinterval weergeven) zijn zeer nuttig om de spreiding en de gemiddelden van de groepen te inspecteren en om inzicht te krijgen in mogelijke verschillen, zelfs voordat de formele statistische toetsen worden uitgevoerd. Deze plots zijn echter gebaseerd op medianen (boxplot) of gemiddelden, terwijl ANOVA specifiek gemiddelden vergelijkt.
---
# De F-statistiek en de F-verdeling
Hier is een studiehandleiding voor het onderwerp "De F-statistiek en de F-verdeling".
## 3. De F-statistiek en de F-verdeling
De F-statistiek is een maat die de variatie tussen groepen vergelijkt met de variatie binnen groepen, en de F-verdeling is de bijbehorende kansverdeling die wordt gebruikt om de significantie van deze statistiek te beoordelen.
### 3.1 ANOVA F-statistiek: spreiding tussen groepen versus spreiding binnen groepen
ANOVA (Analyse van Variantie) wordt gebruikt om de gemiddelden van twee of meer populaties te vergelijken. Wanneer men meer dan twee groepen heeft, zijn paarsgewijze t-toetsen geen geschikte methode omdat het risico op het vinden van een significant verschil terwijl dit er niet is (Type I fout) toeneemt met elke extra toets. Dit fenomeen wordt "capitalizing on chance" genoemd.
De ANOVA F-statistiek is de kern van deze analyse en wordt gedefinieerd als de verhouding van de variantie *tussen* de groepen tot de variantie *binnen* de groepen.
$$
F = \frac{\text{Variantie tussen groepen}}{\text{Variantie binnen groepen}}
$$
- Een hoge F-waarde (F $\geq$ 0) geeft aan dat de variantie tussen de groepen aanzienlijk groter is dan de variantie binnen de groepen. Dit leidt tot bewijs tegen de nulhypothese ($H_0$) dat alle populatiegemiddelden gelijk zijn.
- Een F-waarde van 0 treedt op wanneer alle steekproefgemiddelden exact gelijk zijn.
- De F-test is een een-zijdige toets aan de bovenzijde.
De F-statistiek kan worden begrepen in relatie tot de verklaarde variantie in een model, vergelijkbaar met de determinatiecoëfficiënt in regressieanalyse.
#### 3.1.1 Het ANOVA-model en de berekening van varianties
Het ANOVA-model voor een waarneming ($Y_{ij}$, de $j$-de waarneming in de $i$-de groep) wordt uitgedrukt als:
$$
Y_{ij} = \mu_i + \epsilon_{ij}
$$
Waarbij $\mu_i$ het populatiegemiddelde van groep $i$ is en $\epsilon_{ij}$ de residu (foutterm) voor die waarneming.
Wanneer men meer dan twee groepen vergelijkt, worden de formules voor de F-statistiek complexer, maar de onderliggende redenering blijft hetzelfde: het vergelijken van de spreiding *tussen* de groepen met de spreiding *binnen* elke groep.
> **Tip:** Denk aan de F-statistiek als een signaal-ruisverhouding: een hoog signaal (variatie tussen groepen) ten opzichte van de ruis (variatie binnen groepen) suggereert dat er werkelijke verschillen zijn tussen de groepen.
##### 3.1.1.1 Formule voor de F-statistiek (algemeen)
De F-statistiek wordt berekend als de verhouding van de gemiddelde kwadratensom tussen groepen (Mean Square Between, $MSB$) tot de gemiddelde kwadratensom binnen groepen (Mean Square Within, $MSW$ of Mean Square Error, $MSE$).
$$
F = \frac{MSB}{MSE}
$$
- $MSB$ meet de variantie tussen de groepsgemiddelden.
- $MSE$ meet de gemiddelde variantie binnen de groepen (de "pooled" variantie).
##### 3.1.1.2 Relatie met de t-toets voor 2 groepen
Voor het specifieke geval van twee groepen ($k=2$), is het kwadraat van de t-toets ($t^2$) voor onafhankelijke steekproeven equivalent aan de F-statistiek ($F$), mits de varianties gelijk worden verondersteld.
$$
F = t^2 \quad \text{als } k=2
$$
### 3.2 De F-verdeling
De F-verdeling is een continue kansverdeling die uitsluitend positieve waarden aanneemt. Het is een familie van verdelingen, waarbij elke specifieke F-verdeling wordt bepaald door twee parameters: de vrijheidsgraden voor de teller en de vrijheidsgraden voor de noemer.
De notatie voor een F-verdeling is $F(\text{df}_1, \text{df}_2)$, waarbij:
- $\text{df}_1$ de vrijheidsgraden van de teller zijn (gerelateerd aan de variantie tussen de groepen).
- $\text{df}_2$ de vrijheidsgraden van de noemer zijn (gerelateerd aan de variantie binnen de groepen).
F-verdelingen zijn typisch rechts-scheef, vooral bij lage vrijheidsgraden. Naarmate de vrijheidsgraden toenemen, wordt de verdeling symmetrischer en lijkt deze meer op een normale verdeling.
#### 3.2.1 Vrijheidsgraden voor de F-test in ANOVA
Wanneer we $k$ populaties vergelijken met een totaal aantal waarnemingen $n = n_1 + n_2 + \dots + n_k$, worden de vrijheidsgraden voor de F-test als volgt bepaald:
- **Vrijheidsgraden voor de teller (tussen groepen):** $\text{df}_{\text{teller}} = k - 1$. Dit weerspiegelt het aantal groepen min één, wat aangeeft hoeveel onafhankelijke gemiddelden er kunnen variëren.
- **Vrijheidsgraden voor de noemer (binnen groepen):** $\text{df}_{\text{noemer}} = n - k$. Dit zijn de totale vrijheidsgraden minus het aantal groepen, en vertegenwoordigen de informatie over de variabiliteit binnen elke groep.
Dus, de F-statistiek volgt een $F(k-1, n-k)$ verdeling onder de nulhypothese ($H_0$) dat alle populatiegemiddelden gelijk zijn.
### 3.3 Voorwaarden voor ANOVA
Om de resultaten van een éénwegs ANOVA te kunnen vertrouwen, moeten aan bepaalde voorwaarden worden voldaan:
1. **Onafhankelijke steekproeven:** Er moeten $k$ onafhankelijke Enkelvoudige Aselecte Steekproeven (EAS) worden getrokken, één uit elke populatie of conditie.
2. **Normaal verdeelde populaties:** Alle $k$ populaties waaruit de steekproeven zijn getrokken, moeten normaal verdeeld zijn met hun respectievelijke onbekende verwachtingen ($\mu_i$).
3. **Gelijke standaarddeviaties (homogeniteit van varianties):** Alle $k$ populaties moeten dezelfde (onbekende) standaarddeviatie $\sigma$ hebben.
#### 3.3.1 Controleren van de voorwaarden
- **Gelijkheid van standaarddeviaties:** Een vuistregel is dat de ANOVA-resultaten bij benadering correct blijven als de verhouding van de grootste steekproef-standaarddeviatie tot de kleinste steekproef-standaarddeviatie niet groter is dan 2 ($s_{\text{max}} / s_{\text{min}} \le 2$). Meer formele tests zoals de Bartlett-test of Levene's test kunnen worden gebruikt.
- **Normaliteit:** Kan worden beoordeeld met behulp van Q-Q plots of statistische tests zoals de Shapiro-Wilk test. ANOVA is echter relatief robuust tegen schendingen van de normaliteit, vooral bij grotere steekproeven.
#### 3.3.2 Wat als de voorwaarden geschonden zijn?
Als de varianties ongelijk zijn, kunnen specifieke aanpassingen of alternatieve toetsen, zoals de Welch's ANOVA, worden gebruikt. Deze zijn niet altijd standaard beschikbaar en vereisen vaak gespecialiseerde software.
### 3.4 Interpretatie van de F-test en vervolganalyses
Als de F-test significant is (d.w.z. de p-waarde is kleiner dan het gekozen significantieniveau $\alpha$), verwerpen we de nulhypothese dat alle populatiegemiddelden gelijk zijn. Dit betekent dat er ten minste één paar gemiddelden is dat significant verschilt.
Wanneer de omnibus ANOVA-toets significant is, is het noodzakelijk om vervolganalyses uit te voeren om te bepalen welke specifieke groepsgemiddelden van elkaar verschillen. Hiervoor bestaan twee hoofdcategorieën van methoden:
1. **Contrasten:**
* Worden gebruikt wanneer er *voorafgaand aan de dataverzameling* specifieke wetenschappelijke hypothesen bestaan over verwachte verschillen tussen bepaalde groepen.
* Contrasten zijn lineaire combinaties van populatiegemiddelden met coëfficiënten ($a_i$) zodanig dat $\sum a_i = 0$. Een steekproefcontrast ($c$) schat dit populatiecontrast.
* Ze hebben een groter onderscheidingsvermogen (power) dan meervoudige vergelijkingen omdat ze specifieker zijn.
* Voor elk contrast kan een t-toets worden uitgevoerd met de formule:
$$
t = \frac{c}{\text{SE}(c)}
$$
waarbij $\text{SE}(c)$ de standaardfout van het steekproefcontrast is.
* Een betrouwbaarheidsinterval voor het verschil van een contrast kan worden berekend:
$$
c \pm t^* \cdot \text{SE}(c)
$$
waarbij $t^*$ de kritieke waarde is voor de t-verdeling met $\text{df}_{\text{error}}$ vrijheidsgraden.
2. **Meervoudige vergelijkingen (Post-hoc tests):**
* Worden gebruikt wanneer er geen specifieke *a priori* hypothesen zijn, maar er wel een algemene interesse is in het identificeren van alle significant verschillende paren van gemiddelden.
* Deze tests corrigeren voor het verhoogde Type I foutrisico dat ontstaat door het uitvoeren van meerdere vergelijkingen.
* Bekende methoden zijn:
* **LSD (Least Significant Differences):** Voert paarsgewijze t-toetsen uit zonder correctie voor meervoudige vergelijkingen. Hoger risico op Type I fouten.
* **Bonferroni:** Controleert de totale kans op een Type I fout door het significantieniveau voor elke individuele test te verkleinen ($\alpha / \text{aantal paren}$). Is erg conservatief.
* **Tukey's HSD (Honestly Significant Difference):** Een populaire methode die gebaseerd is op de Studentized range statistic en de experimentwise error rate controleert voor alle paarsgewijze vergelijkingen.
* Andere methoden zoals Sidak, Scheffe, S-N-K, en Gabriel bestaan ook, elk met hun eigen eigenschappen wat betreft conservatisme en power.
* Sommige methoden zijn geschikt bij ongelijke varianties (bv. Games-Howell, Tamhane's T2).
#### 3.4.1 Contrasten versus Meervoudige Vergelijkingen: Hoe kiezen?
- Kies **contrasten** als u specifieke, wetenschappelijke hypothesen heeft *voordat u de data analyseert*. Ze zijn krachtiger voor deze specifieke hypothesen.
- Kies **meervoudige vergelijkingen** als u *na het verkrijgen van een significant omnibus ANOVA-resultaat* wilt weten welke groepen van elkaar verschillen, zonder specifieke *a priori* verwachtingen.
##### 3.4.1.1 Voorbeeld van een contrast
Stel, men vergelijkt een klassieke methode met twee nieuwe methoden. Een contrast kan zijn om de klassieke methode te vergelijken met het gemiddelde van de twee nieuwe methoden. De coëfficiënten zouden dan bijvoorbeeld zijn: $a_1 = -1$, $a_2 = 0.5$, $a_3 = 0.5$. De nulhypothese zou dan zijn dat $\mu_{\text{klassiek}} = \frac{\mu_{\text{nieuw1}} + \mu_{\text{nieuw2}}}{2}$.
##### 3.4.1.2 Voorbeeld van meervoudige vergelijkingen
Na een significante ANOVA met drie groepen (A, B, C), wilt u weten of A verschilt van B, A van C, en B van C. U zou dan een post-hoc test zoals Tukey's HSD uitvoeren om deze paarsgewijze vergelijkingen te testen, waarbij de p-waarden worden aangepast om het totale Type I foutrisico te controleren.
> **Tip:** Het is cruciaal om het onderscheid te maken tussen geplande contrasten (vooraf bepaald) en post-hoc analyses (uitgevoerd na de data-analyse), aangezien de interpretatie en de statistische power sterk verschillen. Contrasten kunnen ook worden uitgevoerd, zelfs als de omnibus ANOVA niet significant is, omdat ze specifiekere hypothesen testen. Meervoudige vergelijkingen worden over het algemeen alleen aanbevolen als de omnibus ANOVA significant is.
---
# Post-hoc analyses en meervoudige vergelijkingen
Hier is de samenvatting voor het onderwerp "Post-hoc analyses en meervoudige vergelijkingen":
## 4. Post-hoc analyses en meervoudige vergelijkingen
Wanneer een ANOVA-analyse een significant algemeen verschil tussen groepsgemiddelden aantoont, is verdere analyse nodig om te bepalen welke specifieke groepen significant van elkaar verschillen. Dit wordt gedaan middels post-hoc analyses en meervoudige vergelijkingen.
### 4.1 De noodzaak van post-hoc analyses
* **Probleem met herhaalde t-toetsen:** Het uitvoeren van meerdere paarsgewijze t-toetsen na een significante ANOVA vergroot de kans op een Type I fout (onterecht H$_0$ verwerpen). Dit fenomeen, "capitalizing on chance", kan leiden tot het vinden van significante verschillen die er in werkelijkheid niet zijn.
* **ANOVA vergelijkt alle gemiddelden tegelijk:** De ANOVA test de nulhypothese dat *alle* populatiegemiddelden gelijk zijn. Bij een significante uitkomst weet men dat er ergens een verschil is, maar niet *waar*.
### 4.2 Contrasten en meervoudige vergelijkingen
Er zijn twee hoofdtypen van analyses om specifieke verschillen te onderzoeken na een significante ANOVA: contrasten en meervoudige vergelijkingen.
#### 4.2.1 Contrasten
Contrasten worden gebruikt wanneer er *voorafgaand* aan de dataverzameling specifieke, wetenschappelijk gemotiveerde hypothesen zijn over verwachte verschillen tussen groepen. Dit zijn geplande vergelijkingen.
* **Kenmerken van contrasten:**
* Ze hebben doorgaans meer onderscheidend vermogen (power) dan meervoudige vergelijkingen omdat ze specifieker zijn.
* Ze kunnen worden getoetst met een t-toets, waarbij de nulhypothese is dat een specifieke lineaire combinatie van populatiegemiddelden gelijk is aan nul.
* De resultaten van contrasten zijn valide, ongeacht het resultaat van de omnibus ANOVA-toets.
* **Definitie van een contrast:** Een contrast is een lineaire combinatie van populatiegemiddelden $\mu_i$ met coëfficiënten $a_i$ zodanig dat $\sum a_i = 0$.
$$ \psi = a_1 \mu_1 + a_2 \mu_2 + \dots + a_k \mu_k $$
* **Steekproefcontrast:** Het overeenkomstige steekproefcontrast wordt berekend met de steekproefgemiddelden $\bar{x}_i$:
$$ c = a_1 \bar{x}_1 + a_2 \bar{x}_2 + \dots + a_k \bar{x}_k $$
* **Standaardfout van het steekproefcontrast:** De standaardfout van $c$ is afhankelijk van de geobserveerde varianties binnen de groepen:
$$ SE_c = s_p \sqrt{\sum_{i=1}^k \frac{a_i^2}{n_i}} $$
waarbij $s_p$ de gepoolde standaarddeviatie is en $n_i$ de steekproefgrootte van groep $i$.
* **Hypothesetoets voor contrasten:** De nulhypothese $H_0: \psi = 0$ wordt getoetst met de t-statistiek:
$$ t = \frac{c}{SE_c} $$
met vrijheidsgraden $DFE$ (de vrijheidsgraden van de error), die gelijk zijn aan de vrijheidsgraden van $s_p$. De toets kan 1-zijdig of 2-zijdig zijn.
* **Betrouwbaarheidsinterval voor een contrast:** Een niveau $C$ betrouwbaarheidsinterval voor het verschil $\psi$ is:
$$ c \pm t^* SE_c $$
waarbij $t^*$ de kritieke waarde is die overeenkomt met de middelste $C\%$ van de t-verdeling met $DFE$ vrijheidsgraden.
* **Voorbeeld van contrasten:** Stel we hebben drie groepen (A, B, C) en we willen onderzoeken of groep A significant verschilt van het gemiddelde van groepen B en C. Het contrast is dan $\psi = 2\mu_A - \mu_B - \mu_C$. De coëfficiënten zijn $a_1=2, a_2=-1, a_3=-1$. $\sum a_i = 2 - 1 - 1 = 0$.
* **Implementatie in software:** Niet alle software geeft automatisch contrasten weer. Vaak moeten de coëfficiënten $a_i$ gespecificeerd worden, of zijn er opties om te vergelijken met een controleconditie. Zelf contrasten berekenen kan door t-toetsen uit te voeren met de formules voor contrasten, waarbij steeds de gepoolde variantie en bijbehorende vrijheidsgraden gebruikt worden.
#### 4.2.2 Meervoudige vergelijkingen (multiple comparisons)
Meervoudige vergelijkingen worden toegepast wanneer er *geen* specifieke, vooraf geformuleerde hypothesen zijn, maar men de effecten van alle mogelijke paarsgewijze vergelijkingen tussen groepen wil onderzoeken, *nadat* een significante omnibus ANOVA is gevonden. Het doel is om het totale risico op Type I fouten te beheersen.
* **Basis:** Deze tests zijn varianten op de 2-steekproeven t-toets en zijn gebaseerd op de gepoolde standaarddeviatie $s_p$ en de gepoolde vrijheidsgraden $DFE$. Een compensatie voor het aantal vergelijkingen wordt toegepast.
* **De $t_{ij}$ toetsgrootheid:** Voor elk paar gemiddelden $\mu_i$ en $\mu_j$ wordt de t-toetsgrootheid berekend:
$$ t_{ij} = \frac{\bar{x}_i - \bar{x}_j}{s_p \sqrt{\frac{1}{n_i} + \frac{1}{n_j}}} $$
Een toets is significant indien $|t_{ij}| \ge t^{**}$, waarbij $t^{**}$ de kritieke waarde is die afhangt van de gekozen procedure en het gewenste significantieniveau.
* **Verschillende methoden voor meervoudige vergelijkingen:** Er bestaan diverse procedures die de kritieke waarde $t^{**}$ bepalen om te corrigeren voor het uitvoeren van meerdere toetsen. Enkele veelgebruikte methoden zijn:
* **LSD-methode (Least Significant Differences):**
* Gebruikt de standaard kritieke waarde van de t-verdeling voor $\alpha/2$ met $DFE$ vrijheidsgraden.
* Voert paarsgewijze t-toetsen uit met de standaard $\alpha$.
* **Probleem:** Controleert het experiment-wijde Type I foutniveau niet; het risico op een Type I fout neemt toe met het aantal vergelijkingen. Dit is equivalent aan het uitvoeren van onafhankelijke t-toetsen.
* **Bonferroni-methode:**
* Past de alpha-waarde aan per vergelijking om het totale Type I foutniveau voor alle vergelijkingen te beperken tot $\alpha$. De alpha voor elke individuele test wordt $\alpha / m$ (waarbij $m$ het aantal paren is).
* Is zeer conservatief en verhoogt de kans op Type II fouten (een echt verschil niet vinden).
* **Tukey's Honestly Significant Difference (HSD):**
* Gebruikt de Studentized Range statistic ($q$).
* Is geschikt voor het maken van alle paarsgewijze vergelijkingen en controleert het experiment-wijde foutniveau ($\alpha$) voor de gehele set van paarsgewijze vergelijkingen.
* Vaak een goede keuze bij gelijke steekproefgroottes.
* **Andere methoden (o.a. Sidak, Scheffé, SNK, Gabriel, Games-Howell):** Deze methoden variëren in hun aanpak om het Type I foutniveau te controleren, gevoeligheid voor ongelijke varianties en steekproefgroottes, en de complexiteit van de berekende kritieke waarden.
* **Keuze van de methode:** De keuze hangt af van de onderzoeksdoelen, de steekproefkarakteristieken (gelijke/ongelijke varianties, gelijke/ongelijke steekproefgroottes) en de gewenste balans tussen Type I en Type II fouten.
### 4.3 Implementatie in software
Moderne statistische softwarepakketten zoals R en SPSS bieden functies om zowel contrasten als verschillende post-hoc tests uit te voeren.
* **In R:**
* Contrasten kunnen worden gespecificeerd met functies zoals `fit.contrast` (uit de `gmodels` library).
* Meervoudige vergelijkingen kunnen worden uitgevoerd met `pairwise.t.test` (met verschillende `p.adj` methoden zoals "none" voor LSD, "bonferroni" voor Bonferroni, "holm", "hochberg", "hommel", "BH", "BY") of `TukeyHSD`.
> **Tip:** Gebruik `TukeyHSD()` in R voor algemene paarsgewijze vergelijkingen na een significante ANOVA, aangezien dit een robuuste methode is die het experiment-wijde foutniveau goed controleert.
* **In SPSS:**
* Er is een specifieke sectie "Post Hoc" binnen de ANOVA-dialogen waar verschillende methoden (LSD, Bonferroni, Tukey, etc.) geselecteerd kunnen worden.
* Contrasten kunnen vaak worden gedefinieerd door specifieke combinaties van groepen in te voeren.
### 4.4 Gelijkheid van varianties
Veel post-hoc methoden, net als ANOVA zelf, veronderstellen gelijkheid van varianties tussen de groepen (homogeniteit van varianties).
* **Wanneer varianties gelijk zijn:** Methoden zoals LSD, Bonferroni, Tukey HSD, en Scheffé kunnen gebruikt worden.
* **Wanneer varianties ongelijk zijn:** Er zijn specifieke tests die hier rekening mee houden, zoals Tamhane's T2, Dunnett's T3, en Games-Howell. Deze zijn conservatiever of, in sommige gevallen, kunnen ze meer power hebben dan de methoden voor gelijke varianties.
### 4.5 Interpretatie
Na het uitvoeren van de gekozen post-hoc analyse of contrasten, worden de resultaten geïnterpreteerd aan de hand van de p-waarden en/of betrouwbaarheidsintervallen. Een significante bevinding voor een specifiek paar of een specifieke lineaire combinatie van gemiddelden suggereert dat er een statistisch significant verschil is tussen die groepen of combinaties, op het gekozen significantieniveau.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Eén-factor variantie-analyse | Een statistische methode die gebruikt wordt om de gemiddelden van drie of meer groepen te vergelijken op basis van één categorische onafhankelijke variabele. Het hoofddoel is te bepalen of er een significant verschil bestaat tussen de groepsgemiddelden. |
| t-toets voor onafhankelijke steekproeven | Een statistische test die de gemiddelden van twee onafhankelijke groepen vergelijkt om te bepalen of er een significant verschil tussen deze groepen bestaat. |
| Populatieverwachting | Het theoretische gemiddelde van een variabele over de gehele populatie. In de context van ANOVA wordt aangenomen dat deze populatieverwachtingen mogelijk verschillen tussen de onderzochte groepen. |
| Enkelvoudige Aselecte Steekproef (EAS) | Een methode van steekproeftrekking waarbij elke eenheid in de populatie een gelijke kans heeft om geselecteerd te worden, wat essentieel is voor de geldigheid van de statistische inferenties in ANOVA. |
| Paarsgewijze t-toetsen | Een reeks t-toetsen die worden uitgevoerd om alle mogelijke paren van groepen binnen een dataset te vergelijken. Dit kan leiden tot een verhoogd risico op Type I fouten ('capitalizing on chance') bij herhaald testen. |
| Capitalizing on chance | Het fenomeen waarbij door herhaaldelijk statistische toetsen uit te voeren, de kans toeneemt om een statistisch significant verschil te vinden, ook al bestaat dit verschil in werkelijkheid niet. Dit is een reden om ANOVA te verkiezen boven meerdere paarsgewijze t-toetsen. |
| Boxplot (Doosdiagram) | Een grafische weergave van de spreiding van data die de mediaan, kwartielen en uitschieters toont. Hoewel nuttig voor visualisatie, vergelijkt een boxplot medianen, terwijl ANOVA gemiddelden vergelijkt. |
| Lijndiagram | Een grafische weergave die de trends of veranderingen in data over een bepaalde periode of reeks laat zien. In ANOVA context kan het gebruikt worden om de gemiddelden van de groepen te visualiseren. |
| Normaal verdeeld | Een kenmerk van data waarbij de verdeling symmetrisch is rond het gemiddelde, met de meeste observaties geconcentreerd in het midden en minder observaties aan de uiteinden, gevormd als een klokcurve. Dit is een belangrijke aanname voor ANOVA. |
| Standaarddeviatie (SD) | Een maat voor de spreiding van data rond het gemiddelde. Een kleinere standaarddeviatie geeft aan dat de data dichter bij het gemiddelde liggen, terwijl een grotere standaarddeviatie duidt op meer variabiliteit. |
| ANOVA model | Een wiskundig raamwerk dat de waarneming opsplitst in een systematisch effect (gerelateerd aan de groepsgemiddelden) en een willekeurig fouttermeffect (residu), wat essentieel is voor het berekenen van variantiecomponenten. |
| Verklaarde variantie | Het deel van de totale variatie in de afhankelijke variabele dat verklaard kan worden door de onafhankelijke variabele(n). In ANOVA wordt dit de 'between groups' variantie genoemd. |
| F-statistiek | De toetsingsgrootheid in een variantie-analyse, berekend als de verhouding van de variantie tussen groepen tot de variantie binnen groepen. Een hoge F-waarde suggereert dat de groepsgemiddelden significant van elkaar verschillen. |
| F-verdeling | Een kansverdeling die wordt gebruikt bij het toetsen van variantie (zoals in ANOVA). Het is een familie van rechts-scheve verdelingen die afhangen van twee parameters: de vrijheidsgraden van de teller en de noemer. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke stukjes informatie dat beschikbaar is om een parameter te schatten. In ANOVA zijn er vrijheidsgraden voor de teller (k-1) en voor de noemer (n-k), waarbij k het aantal groepen is en n het totaal aantal waarnemingen. |
| Homogeniteit van varianties | De aanname dat de varianties van de populaties waaruit de steekproeven zijn getrokken, gelijk zijn. Tests zoals de Bartlett-test of Levene-test worden gebruikt om deze aanname te controleren. |
| Contrasts | Specifiek geplande vergelijkingen tussen groepsgemiddelden die vooraf worden gedefinieerd op basis van wetenschappelijke hypotheses. Ze hebben meer power dan meervoudige vergelijkingen omdat ze gerichter zijn. |
| Meervoudige vergelijkingen | Statistische toetsen die worden uitgevoerd om meerdere paarsgewijze vergelijkingen tussen groepsgemiddelden te maken nadat de algemene ANOVA significant is bevonden. Dit helpt het inflatie-effect van Type I fouten te beheersen. |
| LSD-methode (Least Significant Differences) | Een methode voor meervoudige vergelijkingen die paarsgewijze t-toetsen gebruikt zonder correctie voor het aantal vergelijkingen, waardoor het risico op Type I fouten toeneemt. |
| Bonferroni-methode | Een methode voor meervoudige vergelijkingen die het significantieniveau aanpast om de algehele kans op een Type I fout te controleren door het significantieniveau voor elke individuele test te verlagen (vaak door te delen door het aantal vergelijkingen). |
| Tukey's HSD (Honestly Significant Difference) | Een methode voor meervoudige vergelijkingen die de Studentized range statistic gebruikt om alle paarsgewijze vergelijkingen te maken en het experimentwise error rate controleert. |
Cover
statistiek-1-sociale-wetenschappen-2021-2022-hoofdstukken-1-tot-6-overzicht.pdf
Summary
# Introductie tot statistiek en onderzoeksmethoden
Statistiek is een essentieel instrument binnen sociaal-wetenschappelijk onderzoek om gegevens te analyseren, interpreteren en presenteren, teneinde kennis en inzicht te genereren [2](#page=2).
### 1.1 Wat is statistiek?
Statistiek omvat het proces van het vertalen van ruwe data naar bruikbare kennis en inzicht door middel van analyse, interpretatie en presentatie. Empirisch onderzoek, dat gebaseerd is op waarnemingen in de realiteit, verzamelt data die vervolgens met behulp van statistische methoden geanalyseerd wordt. Het doel is om deze data begrijpelijk te maken, vaak door middel van grafische voorstellingen of kengetallen [2](#page=2).
### 1.2 Waarom statistiek in sociaal-wetenschappelijk onderzoek?
Statistiek is cruciaal voor het onderbouwen van beweringen. Het stelt onderzoekers in staat om data te verzamelen en te analyseren volgens gevestigde methoden, rekening houdend met de inherente onzekerheid die voortkomt uit het feit dat data slechts een fractie van de totale gegevens vertegenwoordigen. Het antwoord op een onderzoeksvraag wordt gevonden door het verzamelen en vervolgens statistisch analyseren van de data [2](#page=2).
### 1.3 Fasen in sociaal-wetenschappelijk onderzoek
Het sociaal-wetenschappelijk onderzoeksproces bestaat uit verschillende fasen:
1. **Probleemstelling**: Vereist diepgaande inhoudelijke kennis van het vakgebied [2](#page=2).
2. **Onderzoeksontwerp & Dataverzameling**: Hierbij wordt bepaald welke onderzoeksmethoden het meest geschikt zijn in relatie tot de probleem- en vraagstelling [2](#page=2).
3. **Data-analyse**: Dit is een cruciale fase waarin technieken zoals beschrijvende statistiek, inductieve statistiek en multivariate analyse worden toegepast [2](#page=2).
4. **Rapportering**: De uitkomsten worden gepresenteerd in overeenstemming met de wetenschapsmethodologie [2](#page=2).
### 1.4 Soorten statistiek
#### 1.4.1 Beschrijvende statistiek
Beschrijvende statistiek richt zich op het kwantitatief "beschrijven" van de wereld, vaak door het samenvatten van grote hoeveelheden gegevens. Dit omvat [2](#page=2):
* Het beantwoorden van frequentievragen [2](#page=2).
* Het samenvatten van data in kengetallen zoals percentages, mediaan, kwantielen en gemiddelden [2](#page=2) [3](#page=3).
* Het toepassen van grafische technieken om data te ordenen en te synthetiseren, vooral bij grote datasets zoals enquêtes [2](#page=2) [3](#page=3).
#### 1.4.2 Inferentiële statistiek
Inferentiële statistiek biedt methoden om uitspraken te doen over een grotere populatie op basis van een beperkte hoeveelheid gegevens, afkomstig uit een steekproef. Dit proces, bekend als extrapolatie, maakt het mogelijk om de resultaten van een steekproef te generaliseren naar de gehele bevolking en voorspellingen te doen [3](#page=3).
#### 1.4.3 Verklarende statistiek
Verklarende statistiek richt zich op het analyseren van de verbanden en verschillen tussen variabelen om deze te verklaren. Voorbeelden van onderzoeksvragen die hierbij gesteld kunnen worden, zijn [3](#page=3):
* Wat is de relatie tussen opleidingsniveau en inkomen [3](#page=3)?
* Wat is de relatie tussen opleiding en gezondheid [3](#page=3)?
### 1.5 Misleidende statistiek
Statistieken worden als zeer overtuigend beschouwd, wat kan leiden tot misbruik ervan om zwakke of incorrecte argumenten te ondersteunen. Het fenomeen "met statistiek kan je alles bewijzen" onderstreept dit risico. Manipulatie kan plaatsvinden op verschillende momenten [3](#page=3):
1. **Bij het verzamelen van gegevens**: Dit kan gebeuren door een gebrekkige vraagstelling, een onjuiste selectie van onderzoekspersonen, of een te kleine steekproef [3](#page=3).
2. **Bij de presentatie van uitkomsten**: Voorbeelden zijn het weglaten van delen van een grafiek of het manipuleren van schalen [3](#page=3).
3. **Bij het omschrijven van conclusies**: De interpretatie van de resultaten kan de data verdraaien [3](#page=3).
> **Tip:** Het is daarom essentieel om zelf kritisch te leren lezen en de onderliggende methodologie van statistische claims te begrijpen.
### 1.6 Terminologie en kernbegrippen
Om statistiek correct toe te passen, is het belangrijk om de volgende kernbegrippen te begrijpen:
* **Onderzoekspopulatie**: De complete groep van individuen of objecten die het onderwerp van onderzoek vormen; de omvang en aard van deze groep kan sterk variëren [3](#page=3).
* **Waarnemingseenheid / statistische eenheid**: Een individueel element dat deel uitmaakt van de te bestuderen populatie. Dit zijn de 'cases' in een dataset en hoeven niet noodzakelijk mensen te zijn [3](#page=3).
* **Variabele**: Een kenmerk van de onderzoekseenheden waarin men geïnteresseerd is. Variabelen kunnen numeriek zijn (zoals leeftijd) of niet-numeriek (zoals geslacht) [3](#page=3).
* **Datamatrix**: Een gestructureerde manier om alle verzamelde data te organiseren, waarbij variabelen de kolommen vormen en cases de rijen. In een datamatrix kunnen numerieke codes gebruikt worden om categorieën van variabelen te representeren, bijvoorbeeld '1' voor man en '2' voor vrouw [3](#page=3).
---
# Variabelen, meten en meetschalen
Dit deel behandelt de fundamentele concepten van onderzoekspopulaties, waarnemingseenheden, variabelen, datamatrices, het proces van meten, en de verschillende meetschalen die gebruikt worden om variabelen te classificeren.
### 2.1 Kernbegrippen en terminologie
Om onderzoeksuitkomsten te kunnen interpreteren en generaliseren, is het cruciaal om de basisterminologie te begrijpen [3](#page=3).
#### 2.1.1 Onderzoekspopulatie en waarnemingseenheid
* **Onderzoekspopulatie:** Dit verwijst naar alle leden van een welomschreven en duidelijk gedefinieerde groep die het onderwerp van onderzoek vormt. De omvang en het type van een onderzoekspopulatie kunnen sterk variëren [3](#page=3).
* **Waarnemingseenheid (of statistische eenheid):** Dit is een individueel element binnen de bestudeerde populatie. Deze eenheden zijn niet noodzakelijk mensen; het kunnen ook objecten, gebeurtenissen of andere entiteiten zijn [3](#page=3).
#### 2.1.2 Variabelen
Statistiek richt zich op het bestuderen van de kenmerken van een bevolking, en deze kenmerken zijn variabel [3](#page=3).
* **Variabele:** Een variabele is een kenmerk van de onderzoekseenheden waarin we geïnteresseerd zijn. Soms is een variabele al een getal (bijvoorbeeld leeftijd), maar vaak is dit niet het geval (bijvoorbeeld geslacht) [3](#page=3).
#### 2.1.3 Datamatrix
Een datamatrix is een gestructureerde manier om alle verzamelde gegevens te organiseren. Hierin worden de waarnemingseenheden (cases) gerepresenteerd in de rijen en de variabelen in de kolommen. Codes worden vaak gebruikt om categorieën van variabelen te representeren [3](#page=3).
#### 2.1.4 Parameters en statistieken
* **Parameters:** Dit zijn kengetallen die de verdeling van een kenmerk binnen een populatie weergeven, zoals het populatiegemiddelde ($\mu$) en de populatiestandaardafwijking ($\sigma$) [4](#page=4).
* **Steekproef:** Een deel van de populatie dat wordt onderzocht. Om de resultaten te kunnen veralgemenen naar de populatie, moet een steekproef representatief zijn en bij voorkeur op toevallige basis geselecteerd worden, waarbij elk lid van de populatie evenveel kans heeft om in de steekproef te worden opgenomen [4](#page=4).
* **Inferentiële statistiek:** Deze tak van statistiek maakt het mogelijk om conclusies te trekken over de volledige populatie op basis van onderzoek met een steekproef [4](#page=4).
* **Steekproefstatistieken (schatters):** Dit zijn statistische kengetallen van een steekproef, zoals het steekproefgemiddelde ($\bar{x}$) en de steekproefstandaardafwijking ($s$). Ze dienen als schatters voor de corresponderende populatieparameters [4](#page=4).
* **Schatter of statistische maat:** Een numerieke samenvatting van de steekproef die gebruikt wordt om een kenmerk van de populatie te schatten [4](#page=4).
#### 2.1.5 Statistishe reeksen
* **Statistische reeks:** Een verzameling van waarnemingen, bijvoorbeeld het kijkgedrag van verschillende personen [4](#page=4).
* **Tijdreeks:** Een specifieke vorm van een statistische reeks waarbij het tijdstip van waarneming cruciaal is voor de interpretatie van de gegevens, zoals de evolutie van Facebookgebruik door de tijd [4](#page=4).
* **Dimensie van een reeks:** Het aantal variabelen dat simultaan wordt waargenomen of bestudeerd. Een unidimensionale reeks betreft één variabele, een tweedimensionale reeks twee variabelen, en een multidimensionale reeks meer dan twee variabelen [4](#page=4).
### 2.2 Wat is meten?
Meten is het proces waarbij (numerieke) waarden aan objecten of kenmerken worden toegekend. Dit is een essentiële stap om zaken te bewijzen en vergelijkingen te maken. Het meetproces bestaat uit twee hoofdfasen [4](#page=4):
1. **Verdelen van de populatie in equivalentieklassen:** De populatie wordt opgedeeld in deelverzamelingen waarbij elk element binnen een klasse equivalent (gelijk) is voor het bestudeerde kenmerk [4](#page=4).
2. **Schalen van variabelen:** Aan elke equivalentieklasse wordt een specifieke waarde toegekend, die kwalitatief of kwantitatief kan zijn. Deze toegekende waarden moeten de onderlinge relaties tussen de equivalentieklassen in de realiteit weerspiegelen [4](#page=4).
* **Meetschaal van de variabele:** Dit is de verzameling van waarden die aan de equivalentieklassen worden toegekend. De variabele zelf kan gezien worden als een afbeelding van de populatie naar deze verzameling van waarden [4](#page=4).
> **Tip:** Het is voordeliger om waarden toe te kennen die gemakkelijker en eenduidiger te hanteren zijn, zoals een geboortejaar in plaats van een provincie [4](#page=4).
#### 2.2.1 Afhankelijke en onafhankelijke variabelen
In veel onderzoeken is men geïnteresseerd in het verklaren van een variabele of het in kaart brengen van relaties met andere variabelen [4](#page=4).
* **Afhankelijke variabele:** De variabele die verklaard of beïnvloed wordt [4](#page=4).
* **Onafhankelijke variabele:** De variabele die wordt gebruikt om de afhankelijke variabele te verklaren of te beïnvloeden [4](#page=4).
### 2.3 Eigenschappen van variabelen en meetschalen
Het **meetniveau** of de **meetschaal** van een variabele wordt bepaald door de manier waarop deze wordt gemeten. Dit meetniveau dicteert welke statistische analyses mogelijk zijn en welke niet. Er zijn vier primaire meetschalen, vaak samengevat met het acroniem NOIR: Nominaal, Ordinaal, Interval, en Ratio [4](#page=4).
Om het meetniveau van een variabele te bepalen, worden vier criteria gehanteerd: classificatie, rangorde, 'vaste' meeteenheid en een absoluut nulpunt [5](#page=5).
#### 2.3.1 Nominale variabelen
* **Kenmerken:** Classificatie [5](#page=5).
* **Beschrijving:** Numerieke waarden dienen enkel als een naamgeving en zijn niet geschikt voor rekenkundige bewerkingen. Er kan enkel een getal aan de variabele worden toegekend [5](#page=5).
* **Voorbeelden:** Haarkleur, migratieachtergrond, religieuze strekking, woonplaats, politieke partijvoorkeur, geslacht [5](#page=5).
#### 2.3.2 Ordinale variabelen
* **Kenmerken:** Classificatie en rangordening [5](#page=5).
* **Beschrijving:** De variabele is ordenbaar, wat betekent dat de waarden kunnen worden gerangschikt (X1 < X2 of X1 > X2). De volgorde is duidelijk, maar de verschillen tussen de opeenvolgende waarden zijn niet noodzakelijk interpreteerbaar als gelijke intervallen [5](#page=5).
* **Voorbeelden:** Opleidingsniveau, antwoorden op opiniepeilingen (bv. "zeer mee oneens" tot "zeer mee eens"), medailles (brons, zilver, goud) [5](#page=5).
#### 2.3.3 Intervalvariabelen
* **Kenmerken:** Classificatie, rangordening, en een 'vaste' meeteenheid [5](#page=5).
* **Beschrijving:** Gelijke verschillen tussen de waarden van de variabele weerspiegelen gelijke verschillen in de intensiteit van het bestudeerde kenmerk. Deze schaal is enkel van toepassing op kwantitatieve variabelen. Het nulpunt duidt in dit geval niet op de afwezigheid van het kenmerk [5](#page=5).
* **Voorbeelden:** Temperatuur in graden Celsius, geboortejaar [5](#page=5).
#### 2.3.4 Ratiovariabelen
* **Kenmerken:** Classificatie, rangordening, een 'vaste' meeteenheid, en een absoluut nulpunt [5](#page=5).
* **Beschrijving:** Een absoluut nulpunt geeft de volledige afwezigheid van het bestudeerde kenmerk aan. Negatieve waarden komen niet voor op deze schaal [5](#page=5).
* **Voorbeelden:** Aantal Facebookvrienden, lengte, aantal uren tv kijken, aantal studenten in een aula [5](#page=5).
> **Tip:** Bewerkingen die zijn toegelaten voor variabelen van een bepaald meetniveau, mogen ook worden toegepast op variabelen van een hiërarchisch hoger meetniveau, maar niet omgekeerd. Dit betekent dat je berekeningen die geschikt zijn voor rato-variabelen ook kunt uitvoeren op intervalvariabelen, maar niet andersom [6](#page=6).
### 2.4 Soorten variabelen
Variabelen kunnen verder worden onderverdeeld op basis van hun aard:
* **Kwalitatieve (of categorische) variabelen:** Kenmerken die geen numerieke waarde hebben, maar categorieën representeren (bv. geslacht, kleur) [6](#page=6).
* **Nominale variabelen** zijn kwalitatief en niet-ordenbaar [6](#page=6).
* **Ordinale variabelen** zijn kwalitatief en wel ordenbaar [6](#page=6).
* **Kwantitatieve (of numerieke) variabelen:** Kenmerken die numerieke waarden aannemen [6](#page=6).
* **Intervalvariabelen** zijn kwantitatief en hebben gelijke intervallen, maar geen absoluut nulpunt [6](#page=6).
* **Ratiovariabelen** zijn kwantitatief en hebben zowel gelijke intervallen als een absoluut nulpunt [6](#page=6).
#### 2.4.1 Discrete en continue variabelen
Binnen de kwantitatieve variabelen wordt nog een onderscheid gemaakt:
* **Discrete variabelen:** Kunnen alleen gehele waarden aannemen (bv. aantal kinderen). Er zitten 'sprongen' tussen mogelijke waarden [6](#page=6).
* **Continue variabelen:** Kunnen elke waarde binnen een bepaald bereik aannemen, inclusief kommagetallen (bv. lichaamslengte, afstand) [6](#page=6).
#### 2.4.2 Dummy variabelen
* **Beschrijving:** Dummy variabelen zijn categorische variabelen die slechts twee categorieën hebben en worden gecodeerd met 0 en 1. Dit wordt vaak gebruikt om nominale of ordinale variabelen met twee categorieën in statistische modellen op te nemen [6](#page=6).
* **Voorbeeld:** Een variabele voor geslacht waarbij 'man' wordt gecodeerd als 0 en 'vrouw' als 1 is een dummy-variabele. Een codering van 'man' als 1 en 'vrouw' als 2 is dit niet, omdat de waarden geen betekenis hebben buiten de ordering [6](#page=6).
---
# Frequentieverdelingen en univariate statistische maten
Dit hoofdstuk introduceert frequentieverdelingen en diverse statistische maten om univariabele gegevens te synthetiseren en te beschrijven.
## 3 Frequentieverdelingen en grafische voorstellingen
Om onderzoeksvragen te beantwoorden, wordt vaak kwantitatief onderzoek gebruikt, waarbij eendimensionale reeksen (met betrekking tot één variabele) centraal staan. Een frequentieverdeling geeft voor elke waarde of categorie van een variabele aan hoeveel waarnemingen er zijn, in absolute of relatieve aantallen. Frequentietabellen dienen om de kwaliteit van gegevens te controleren, latere bewerkingen uit te voeren en de basis te vormen voor grafische voorstellingen [6](#page=6).
Een grafiek is een visuele weergave van de frequentieverdeling, die helpt bij het bevattelijk rapporteren van resultaten en het verbeteren van leesbaarheid en duidelijkheid [7](#page=7).
### 3.1 Definities en notatie
* $N$: de steekproefgrootte of het effectief van de steekproef of populatie [7](#page=7).
* $n$: het aantal waarden dat een variabele kan aannemen ($X_1, X_2, X_3, \dots, X_n$), waarbij $n \le N$ [7](#page=7).
### 3.2 Absolute en relatieve frequenties
* **Absolute frequentie ($F_i$)**: het aantal keren dat een bepaalde waarde $X_i$ werd waargenomen. De som van alle $F_i$ is gelijk aan de steekproefomvang ($N$) [7](#page=7).
$$ \sum_{i=1}^{n} F_i = N $$
* **Relatieve frequentie ($f_i$)**: de absolute frequentie gedeeld door de steekproefomvang. De som van alle $f_i$ is gelijk aan 1 [7](#page=7).
$$ f_i = \frac{F_i}{N} $$
$$ \sum_{i=1}^{n} f_i = 1 $$
Een voorbeeld van een frequentieverdeling:
| Variabele ($X_i$) | Absolute frequentie ($F_i$) | Relatieve frequentie ($f_i$) |
| :---------------- | :-------------------------- | :-------------------------- |
| $X_1$ | 20 | 20 / 130 = 0,15 |
| $X_2$ | 40 | 40 / 130 = 0,31 |
| $X_3$ | 70 | 70 / 130 = 0,54 |
| **Totaal** | **130 = $N$** | **1** |
* **Absolute cumulatieve frequentie ($K(X_i)$)**: het aantal waarnemingen dat kleiner of gelijk is aan $X_i$ [7](#page=7).
* **Relatieve cumulatieve frequentie ($k(X_i)$)**: de absolute cumulatieve frequentie gedeeld door de steekproefomvang [7](#page=7).
### 3.3 Grafische voorstellingen
Wanneer de waargenomen frequenties van een populatie of steekproef samen worden beschouwd, spreekt men van een frequentieverdeling, die grafisch kan worden weergegeven met verschillende grafieken [7](#page=7).
#### 3.3.1 Nominale schalen
Bij nominale schalen zijn de waarden niet geordend. Hoewel de volgorde in de tabel willekeurig is, is het voor de leesbaarheid beter deze numeriek, alfabetisch, of volgens stijgende/dalende frequenties te ordenen. Cumulatieve percentages hebben geen zin bij nominale schalen [7](#page=7).
* **Staafdiagram**: Elke waarde $X_i$ wordt voorgesteld door een rechthoek. De rechthoeken zijn even breed, en de hoogte is recht evenredig met $F_i$ of $f_i$. Assen kunnen getransponeerd worden voor een horizontaal staafdiagram [7](#page=7).
* **Cirkeldiagram / Taartdiagram**: Elke waarde $X_i$ wordt voorgesteld door een cirkelsector. De oppervlakte is recht evenredig met de frequentie. Alle categorieën moeten opgenomen zijn. Dit diagram benadrukt de verhouding van elke groep tot het geheel [7](#page=7).
* **Pictogram**: De grootte van de figuur of het aantal keer dat een figuur wordt herhaald, is recht evenredig met de frequentie van elke waarde $X_i$ [8](#page=8).
#### 3.3.2 Ordinale schalen
Bij ordinale schalen is de volgorde van de waarden gebaseerd op hun ordinale ordening ($X_1 < X_2 < X_3 < \dots < X_n$) [8](#page=8).
* **Histogram**: Elke waarde $X_i$ wordt voorgesteld door een rechthoek waarvan de hoogte recht evenredig is met de frequentie. De x-as is gericht maar is geen meeteenheid [8](#page=8).
* **Cumulatieve frequentiefunctie**: Voor iedere waarde $X_i$ gedefinieerd. Voor ordinale variabelen is dit een trapfunctie. Hoge sprongen duiden op hoge frequenties [8](#page=8).
#### 3.3.3 Interval- en ratioschalen
Bij interval- en ratioschalen hebben de verschillen tussen waarden betekenis, en de waarden moeten door recht evenredige verschillen op de x-as worden voorgesteld. Oppervlakten onder functies krijgen betekenis [8](#page=8).
**Niet in klassen gegroepeerde gegevens:**
* **Balkendiagram**: De x-as heeft een meeteenheid en de balken worden op de correcte afstand geplaatst. De hoogte van de balk is recht evenredig met de frequentie [8](#page=8).
* **Histogram**: De x-as heeft een meeteenheid. De balken grenzen aan elkaar om continuïteit te benadrukken. De oppervlakte is recht evenredig met de absolute of relatieve frequentie in het interval [8](#page=8).
* **Frequentiepolygoon**: De x-as heeft een meeteenheid en oppervlakten onder de functie krijgen betekenis. Dit wordt verkregen door de toppen in een staafdiagram rechtlijnig te verbinden [8](#page=8).
* **Cumulatieve frequentiefunctie**: De x-as heeft een meeteenheid. Dit is een trapfunctie bij discrete variabelen [8](#page=8).
**In klassen gegroepeerde gegevens:**
Wanneer het aantal verschillende waargenomen waarden ($n$) groot is, wordt het onoverzichtelijk, waardoor gegevens in klassen worden gegroepeerd. De twee basisregels voor klassen zijn: wederzijds exclusief (niet-overlappende klassen) en exhaustief (elke waarneming kan aan een klasse worden toegewezen). Het aantal klassen moet niet te groot zijn voor overzichtelijkheid, maar ook niet te klein om informatieverlies te vermijden [8](#page=8).
* **Klassenmidden**: Het gemiddelde van de exacte klassengrenzen, gebruikt bij zowel discrete als continue variabelen [8](#page=8).
* **Exacte klasse**: Verschilt bij continue en discrete variabelen. Bij continue variabelen is de waarnemingsklasse gelijk aan de exacte klasse. Bij discrete variabelen wordt een continuïteitscorrectie toegepast door een gelijk stukje voor en achter het discrete getal te plaatsen (bv. 23 wordt [22,5; 23,5[) [9](#page=9).
* **Frequentietabel**: Het klassenmidden is de representatieve waarde voor de beschouwde klasse [9](#page=9).
* **Histogram**: De x-as heeft een meeteenheid en de intervallen worden bepaald door de klassen. De oppervlakte van de rechthoeken is recht evenredig met de absolute of relatieve frequentie (bij klassen van verschillende lengte) [9](#page=9).
* **Frequentieveelhoek**: De x-as heeft een meeteenheid. Klassenmiddens worden op de hoogte van de toppen van de rechthoeken in het histogram rechtlijnig verbonden [9](#page=9).
* **Diagram cumulatieve frequentie**: De x-as heeft een meeteenheid. Er wordt aangenomen dat waarnemingen homogeen verdeeld zijn binnen elke klasse [9](#page=9).
## 4 Univariate statistische maten
Statistische maten worden gebruikt om gegevens te synthetiseren tot kenmerkende waarden, die de geobserveerde frequentieverdeling mathematisch beschrijven. Deze maten kunnen parameters zijn voor een populatie of statistische maten voor een steekproef [10](#page=10).
### 4.1 Soorten statistische maten
Er zijn drie hoofdcategorieën van statistische maten:
1. **Maten van ligging (centrummaten)**: Beschrijven waar de verdeling op de x-as gesitueerd is en liggen steeds tussen de kleinste en grootste waarde. Ze zijn nuttig voor vergelijkingen en geven aan rond welke waarde de verdeling gecentreerd is. Voorbeelden zijn modus, gemiddelde, mediaan en kwartielen [11](#page=11).
2. **Maten van spreiding**: Beschrijven hoe sterk de waarden zich concentreren [11](#page=11).
3. **Maten van vorm**: Beschrijven de symmetrie (scheefheid) en afplatting van de verdeling [11](#page=11).
#### 4.1.1 Maten van ligging
**Modus**:
* De waargenomen waarde van de variabele met de hoogste frequentie (bij brutowaarnemingen) [11](#page=11).
* Kan gebruikt worden bij elke meetschaal, maar is met name relevant voor nominale schalen [11](#page=11).
* In klassen gegroepeerde gegevens: De **modale klasse** is de klasse met de hoogste frequentie; de modus is dan het klassenmidden van deze klasse [11](#page=11).
* **Eigenschappen**: Makkelijk te bepalen, maar niet noodzakelijk uniek (bimodale verdeling). Houdt geen rekening met andere waarden [11](#page=11).
**Mediaan**:
* De waarde van de variabele die de waarnemingen in twee gelijke delen opdeelt; het middelpunt van de verdeling [12](#page=12).
* Vereist minimaal een ordinale schaal [12](#page=12).
* Bepaald a.d.h.v. cumulatieve frequenties. Bij een even aantal waarnemingen wordt de mediaan berekend door lineaire interpolatie van de twee middelste waarden [12](#page=12).
* In klassen gegroepeerde gegevens: De mediaan wordt bepaald via lineaire interpolatie met de formule:
$$ M = X'_m + \frac{N/2 - K(X'_m)}{F_m} \cdot l $$
waarbij $X'_m$ de ondergrens is van de klasse waarin $K(X) = N/2$, $K(X'_m)$ de cumulatieve frequentie voor die ondergrens is, $F_m$ de absolute frequentie van die klasse, en $l$ de lengte van de klasse [12](#page=12).
* **Eigenschappen**: Uniek, minder gevoelig voor extreme waarden (outliers), maar niet geschikt voor nominale variabelen en niet alle waarden worden in rekening gebracht [12](#page=12).
**Rekenkundig gemiddelde ($\bar{x}$)**:
* De som van alle waarnemingen gedeeld door het effectief ($N$) [12](#page=12).
* Vereist minimaal een intervalschaal omdat gelijke afstanden tussen waarden betekenisvol zijn [12](#page=12).
* **Brutowaarnemingen**:
$$ \bar{x} = \frac{\sum_{i=1}^{N} x_i}{N} $$
* **Gegroepeerde gegevens**: Waarbij $X_i$ de klassenmiddens zijn.
$$ \bar{x} = \frac{\sum_{i=1}^{n} X_i F_i}{N} $$
* **Eigenschappen**: Gebruikt alle waarden, is uniek, en wiskundig gebruiksvriendelijk, maar wordt sterk beïnvloed door extreme scores (outliers) en is niet toepasbaar op nominale of ordinale variabelen. Het is de meest courante centrummaat vanaf de intervalschaal [12](#page=12).
**Kwantielen**:
* **Kwartielen**: Verdelen geordende gegevens in 4 gelijke delen. Het tweede kwartiel ($K_2$) is gelijk aan de mediaan. Vereist minimaal een ordinale schaal [13](#page=13).
* **Decielen**: Verdelen geordende gegevens in 10 gelijke delen. Het vijfde deciel ($d_5$) is gelijk aan de mediaan ($K_2$). Vereist minimaal een ordinale schaal [13](#page=13).
* **Percentielen**: Verdelen geordende gegevens in 100 gelijke delen. Het vijftigste percentiel ($p_{50}$) is gelijk aan de mediaan ($d_5$, $K_2$). Vereist minimaal een ordinale schaal [13](#page=13).
#### 4.1.2 Maten van spreiding
Maten van spreiding beschrijven de mate van variatie rond een centrummaat, meestal het gemiddelde. Als alle waarnemingen dezelfde waarde hebben, is de spreidingsmaat nul [14](#page=14).
* **Variatiebreedte (range)**: Het verschil tussen de grootste en de kleinste waargenomen waarde. Vereist minimaal een ordinale schaal (kwantitatief). Bij gegroepeerde gegevens is dit de bovengrens van de hoogste klasse min de ondergrens van de laagste klasse. Gevoelig voor extreme waarden [14](#page=14).
* **Interkwartielafstand (IQR)**: De middelste 50% van de waarnemingen. Berekend als $I = K_3 - K_1$. Vereist minimaal een ordinale schaal (kwantitatief). Relatief ongevoelig voor extreme waarden [14](#page=14).
* **Interdecielafstand**: De middelste 80% van de waarnemingen. Berekend als $D = d_9 - d_1$. Vereist minimaal een ordinale schaal (kwantitatief) [14](#page=14).
* **Centraal moment van rang 1**: Het gemiddelde van de afwijkingen van het rekenkundig gemiddelde. Dit is altijd gelijk aan nul omdat de positieve en negatieve afwijkingen elkaar opheffen. Vereist minimaal een intervalschaal [14](#page=14) [15](#page=15).
* Brutowaarnemingen: $$ \frac{\sum_{i=1}^{N} (x_i - \bar{x})}{N} = 0 $$
* Gegroepeerde gegevens: $$ \frac{\sum_{i=1}^{n} (X_i - \bar{x}) F_i}{N} = 0 $$
* **Gemiddelde absolute afwijking**: De som van de absolute verschillen tussen elke waarde $X_i$ en het rekenkundig gemiddelde, gedeeld door $N$. Vereist minimaal een intervalschaal [15](#page=15).
* Brutowaarnemingen: $$ \frac{\sum_{i=1}^{N} |x_i - \bar{x}|}{N} $$
* Gegroepeerde gegevens: $$ \frac{\sum_{i=1}^{n} |X_i - \bar{x}| F_i}{N} $$
* **Variantie ($s^2$)**: Het gemiddelde van de gekwadrateerde afwijkingen van het rekenkundig gemiddelde. Vereist minimaal een intervalschaal. Alle even centrale momenten geven een indicatie van spreiding [15](#page=15).
* Brutowaarnemingen: $$ s^2 = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^2}{N} $$
* Gegroepeerde gegevens: $$ s^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{x})^2 F_i}{N} $$
* **Standaardafwijking ($s$)**: De vierkantswortel uit de variantie. Vereist minimaal een intervalschaal. Bij een normaalverdeling bevindt 68,3% van de waarnemingen zich tussen $\bar{x} - s$ en $\bar{x} + s$ [15](#page=15).
$$ s = \sqrt{s^2} $$
* **Variatiecoëfficiënt ($v$)**: De ratio van de standaardafwijking op het gemiddelde; een dimensieloze maat. Hoe groter $v$, hoe groter de relatieve spreiding. Vereist minimaal een intervalschaal [15](#page=15).
$$ v = \frac{s}{\bar{x}} $$
* **Z-score**: Een gestandaardiseerde score die aangeeft hoeveel standaardafwijkingen een waarneming boven of onder het gemiddelde ligt [15](#page=15).
**Boxplot**:
* Een grafische weergave die 5 waarden toont: minimum, $K_1$, mediaan, $K_3$, en maximum [16](#page=16).
* Outliers (observaties meer dan 1,5 maal de interkwartielafstand onder $K_1$ of boven $K_3$) worden buiten de boxplot als punten voorgesteld [16](#page=16).
#### 4.1.3 Maten van vorm
De vorm van een verdeling wordt beschreven aan de hand van symmetrie en afplatting.
**1. Symmetrie (scheefheid)**
Er zijn drie situaties:
* **Symmetrisch**: Modus = Mediaan = Gemiddelde. Er zijn evenveel waarden groter als kleiner dan het gemiddelde [16](#page=16).
* **Scheef naar rechts (positieve asymmetrie)**: Modus < Mediaan < Gemiddelde. De "staart" van de verdeling wijst naar rechts [16](#page=16).
* **Scheef naar links (negatieve asymmetrie)**: Modus > Mediaan > Gemiddelde. De "staart" van de verdeling wijst naar links [16](#page=16).
Verschillende coëfficiënten meten symmetrie:
* **Empirische coëfficiënt van Pearson**:
$$ S = \frac{\text{gemiddelde} - \text{modus}}{\text{standaardafwijking}} $$
$S < 0$ = negatief of rechts asymmetrisch, $S = 0$ = symmetrisch, $S > 0$ = positief of links asymmetrisch [17](#page=17).
* **Coëfficiënt van Yule en Kendall**:
$$ Y = \frac{K_3 + K_1 - 2 \cdot \text{Mediaan}}{K_3 - K_1} $$
$Y < 0$ = negatief of rechts asymmetrisch, $Y = 0$ = symmetrisch (kwartielen op gelijke afstand van de mediaan), $Y > 0$ = positief of links asymmetrisch [17](#page=17).
* **Oneven centrale momenten ($m_k$)**: Alle oneven centrale momenten geven een indicatie van de symmetrie ten opzichte van het gemiddelde [17](#page=17).
* Brutowaarnemingen: $$ m_k = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^k}{N} $$
* Gegroepeerde gegevens: $$ m_k = \frac{\sum_{i=1}^{n} (X_i - \bar{x})^k F_i}{N} $$
$m < 0$ = negatief of rechts asymmetrisch, $m = 0$ = symmetrisch, $m > 0$ = positief of links asymmetrisch [17](#page=17).
* **Coëfficiënt van Fisher ($g_1$)**: Dimensieloos, waardoor symmetrie voor verschillende variabelen vergeleken kan worden [17](#page=17).
$g < 0$ = negatief of rechts asymmetrisch, $g = 0$ = symmetrisch, $g > 0$ = positief of links asymmetrisch [17](#page=17).
* **Coëfficiënt van Pearson (niet de empirische)**: Dimensieloos [17](#page=17).
$b = 0$ = symmetrisch, $b > 0$ = asymmetrisch. Geeft geen informatie over linkse of rechtse asymmetrie [17](#page=17).
**2. Afplatting (kurtosis)**
Kurtosis geeft aan hoe spits of hoe plat de verdeling is, met drie situaties [17](#page=17):
* **Platykurtisch**: Minder gepiekt dan de Gauss-verdeling.
* **Mesokurtisch**: Gelijk aan de Gauss-verdeling.
* **Leptokurtisch**: Meer gepiekt dan de Gauss-verdeling.
Formules voor kurtosis zijn gebaseerd op centrale momenten van rang 4:
* **Coëfficiënt van Pearson ($b_2$)**:
$b < 3$ = platykurtisch, $b = 3$ = mesokurtisch, $b > 3$ = leptokurtisch [18](#page=18).
* **Coëfficiënt van Fisher ($g_2$)**:
$g < 0$ = platykurtisch, $g = 0$ = mesokurtisch, $g > 0$ = leptokurtisch [18](#page=18).
Een overzicht van momenten is beschikbaar [18](#page=18).
---
# Tweedimensionale reeksen en associatiematen
Hier is een gedetailleerde studiehandleiding voor het onderwerp "Tweedimensionale reeksen en associatiematen", gebaseerd op de verstrekte documentinhoud.
## 4. Tweedimensionale reeksen en associatiematen
Dit onderwerp onderzoekt de analyse van de samenhang tussen twee variabelen, beginnend met categorische gegevens en uitbreidend naar continue gegevens, met behulp van verschillende statistische technieken en maten.
### 4.1 De kruistabel en associatiematen voor nominale en ordinale variabelen
Analyse van de samenhang tussen twee variabelen vereist het bestuderen van tweedimensionale (bivariate) reeksen, waarbij de variabelen samen variëren. Het meetniveau van de variabelen bepaalt de geschikte analysemethode. Wanneer variabelen van verschillende meetniveaus worden gecombineerd, kiest men altijd het laagste niveau [18](#page=18).
#### 4.1.1 Kruistabellen
Een kruistabel, ook wel dwars- of contigentietabel genoemd, toont de frequentieverdeling van twee categorische variabelen. Onafhankelijke variabelen worden meestal in kolommen en afhankelijke variabelen in rijen geplaatst voor asymmetrische relaties [19](#page=19).
* **Marginale verdeling:** De verdeling van een enkele variabele, ongeacht de andere variabele (rij- of kolomtotaal) [19](#page=19).
* **Conditionele verdeling:** De verdeling van de ene variabele binnen een specifieke categorie van de andere variabele [19](#page=19).
* **Statistische afhankelijkheid:** De conditionele verdelingen verschillen tussen de categorieën van de ene variabele [19](#page=19).
* **Statistische onafhankelijkheid:** De conditionele verdelingen zijn identiek in alle categorieën, wat betekent dat kennis van de ene variabele niet helpt bij het voorspellen van de andere [19](#page=19).
Relatieve conditionele verdelingen (rij- en kolompercentages) helpen de aard van het verband te beschrijven [19](#page=19).
* **Kolompercentage:** $ (\text{celfrequentie} / \text{kolomtotaal}) \times 100 $ [19](#page=19).
* **Rijpercentage:** $ (\text{celfrequentie} / \text{rijtotaal}) \times 100 $ [19](#page=19).
#### 4.1.2 Chi-kwadraattoets
De chi-kwadraattoets wordt gebruikt om te bepalen of een waargenomen verband significant is, dus niet aan toeval te wijten [19](#page=19) [20](#page=20).
* **Stappen van de hypothesetoetsing:**
1. **Assumpties:** Gegevens uit een aselecte steekproef, correct meetniveau, etc. [19](#page=19).
2. **Hypothesen:** De nulhypothese ($H_0$) stelt dat er geen verband is (toeval) [20](#page=20).
3. **Toetsstatistiek (Chi-kwadraat):** Vergelijkt geobserveerde ($f_o$) en verwachte ($f_e$) celfrequenties, bij afwezigheid van afhankelijkheid. De formule is [20](#page=20):
$$ \chi^2 = \sum \frac{(f_o - f_e)^2}{f_e} $$
De verwachte celfrequentie ($f_e$) wordt berekend als: $f_e = (\text{rijtotaal} \times \text{kolomtotaal}) / \text{totaal aantal waarnemingen}$. Een hogere chi-kwadraatwaarde duidt op een sterker verband [20](#page=20).
4. **Overschrijdingskans (p-waarde):** De kans om de geobserveerde of extremere resultaten te verkrijgen indien de nulhypothese waar is. Een kleinere p-waarde versterkt het bewijs tegen de nulhypothese. Deze kans wordt bepaald met behulp van een chi-kwadraattabel, rekening houdend met het significantieniveau en de vrijheidsgraden ($df = (\text{aantal rijen} - 1) \times (\text{aantal kolommen} - 1)$) [20](#page=20).
5. **Conclusie:** Interpreteren van de resultaten in relatie tot de vraagstelling [20](#page=20).
#### 4.1.3 Associatiematen voor nominale en ordinale variabelen
Associatiematen kwantificeren de sterkte van de samenhang tussen variabelen.
* **Phi-kwadraat ($\phi^2$):** Een associatiemaat voor 2x2 tabellen. Een waarde van 0 betekent statistische onafhankelijkheid; 1 betekent perfecte positieve samenhang. De bovengrens is niet vast bij grotere tabellen [20](#page=20).
* **Cramer's V:** Een associatiemaat die de beperkingen van phi-kwadraat oplost voor grotere kruistabellen. De formule is [20](#page=20):
$$ V = \sqrt{\frac{\chi^2}{n \cdot \min(r-1, c-1)}} $$
Waarbij $n$ het totaal aantal waarnemingen is, $r$ het aantal rijen en $c$ het aantal kolommen. $\min(r-1, c-1)$ is het minimum van het aantal rijen min 1 en het aantal kolommen min 1 [21](#page=21).
**Interpretatie van Cramer's V:**
* 0: geen verband [21](#page=21).
* 0 – 0,10: zeer zwak verband [21](#page=21).
* 0,11 – 0,30: zwak verband [21](#page=21).
* 0,31 – 0,50: redelijk verband [21](#page=21).
* 0,51 – 0,80: sterk verband [21](#page=21).
* 0,81 – 0,99: zeer sterk verband [21](#page=21).
* 1: perfect verband [21](#page=21).
### 4.2 Samenhang tussen interval- en ratiovariabelen
Voor kwantitatieve variabelen (interval/ratio) worden scatterplots, covariantie en correlatie gebruikt [21](#page=21).
#### 4.2.1 Scatterplots
Een scatterplot (spreidingsdiagram) is een grafische weergave van de samenhang tussen twee kwantitatieve variabelen, waarbij elke waarneming als een punt wordt geplot. De onafhankelijke variabele wordt op de x-as geplaatst en de afhankelijke op de y-as [21](#page=21).
Een scatterplot kan inzicht geven in:
* **Trend:** Lineair, curvilineair, clusters of geen patroon [21](#page=21).
* **Richting:** Positief verband (beide variabelen stijgen of dalen samen) of negatief verband (één variabele stijgt, de andere daalt) [22](#page=22).
* **Sterkte:** Hoe geconcentreerd de punten zijn rond de trendlijn [22](#page=22).
#### 4.2.2 Covariantie
Covariantie is een maat voor de mate waarin de waarden van twee interval- of ratiovariabelen samen variëren. Het zwaartepunt van de tweedimensionale verdeling is het punt van de gemiddelden $( \bar{x}, \bar{y} )$. De covarantie wordt berekend door de som van de producten van de afwijkingen van elk punt ten opzichte van het gemiddelde te delen door het aantal waarnemingen ($N$) [23](#page=23).
* **Interpretatie:**
* Covariantie $< 0$: negatieve samenhang [23](#page=23).
* Covariantie $= 0$: lineaire onafhankelijkheid [23](#page=23).
* Covariantie $> 0$: positieve samenhang [23](#page=23).
Een nadeel van covariantie is dat het geen vaste boven- of ondergrens heeft, wat standaardisatie noodzakelijk maakt [23](#page=23).
#### 4.2.3 Pearson productmoment correlatiecoëfficiënt ($r$)
De Pearson productmoment correlatiecoëfficiënt is een gestandaardiseerde maat voor de mate van lineaire samenhang tussen twee interval- of ratiovariabelen. Het is een symmetrische associatiemaat, wat betekent dat het onderscheid tussen afhankelijke en onafhankelijke variabele hier niet relevant is [24](#page=24).
* **Eigenschappen:**
* Gevoelig voor outliers [24](#page=24).
* Ongevoelig voor meeteenheid van variabelen [24](#page=24).
* Een waarde van $r=0$ kan wijzen op sterke niet-lineaire samenhang [24](#page=24).
* **Interpretatie van de mate van afhankelijkheid ($r$):**
* $r = 1$: perfecte positieve lineaire correlatie [24](#page=24).
* $r = -1$: perfecte negatieve lineaire correlatie [24](#page=24).
* $r = 0$: onafhankelijkheid of geen correlatie [24](#page=24).
**Richtlijnen voor interpretatie van de sterkte:**
* $ [0,7; 1[ $: sterke positieve correlatie [24](#page=24).
* $ [0,3; 0,7[ $: matige positieve correlatie [24](#page=24).
* $ ]0; 0,3[ $: zwakke positieve correlatie [24](#page=24).
* $ ]0; -0,3[ $: zwakke negatieve correlatie [24](#page=24).
* $ [-0,3; -0,7[ $: matige negatieve correlatie [24](#page=24).
* $ [-0,7; -1[ $: sterke negatieve correlatie [24](#page=24).
### 4.3 Regressieanalyse
Regressieanalyse wordt gebruikt om de afhankelijke variabele te voorspellen op basis van de onafhankelijke variabele(n), wat het een asymmetrische analyse maakt [24](#page=24).
#### 4.3.1 Bivariate regressie
Bij bivariate regressie is er één onafhankelijke en één afhankelijke variabele. De regressierechte (RR) wordt gebruikt om de relatie te modelleren [24](#page=24).
* **Regressievergelijking:** $ \hat{Y} = a + bX $ [24](#page=24).
* $a$: Intercept (constante), de voorspelde waarde van $Y$ als $X=0$ [24](#page=24).
* $b$: Richtingscoëfficiënt, geeft de verandering in $\hat{Y}$ aan voor een eenheidstoename in $X$ [24](#page=24).
* **Residu:** Het verschil tussen de geobserveerde waarde ($Y_i$) en de voorspelde waarde ($\hat{Y}_i$) [25](#page=25).
$$ e_i = Y_i - \hat{Y}_i $$
Negatieve residuen duiden op overschatting, positieve op onderschatting [25](#page=25).
* **Methode van de kleinste kwadraten:** Minimaliseert de som van de gekwadrateerde residuen om de regressierechte te bepalen [25](#page=25).
* **Verband tussen correlatie en richtingscoëfficiënt:**
* De correlatiecoëfficiënt is symmetrisch en onafhankelijk van de meeteenheid [24](#page=24) [25](#page=25).
* De richtingscoëfficiënt is asymmetrisch en afhankelijk van de meeteenheid; deze verandert als de onafhankelijke en afhankelijke variabelen worden verwisseld [25](#page=25).
* Bij perfecte correlatie ($r = 1$ of $r = -1$) vallen beide regressierechten samen. Bij $r=0$ staan de regressierechten loodrecht op elkaar [26](#page=26).
#### 4.3.2 Verklaarde en residuele variantie
De totale variantie in de afhankelijke variabele kan worden opgesplitst in een verklaard deel door de regressie en een onverklaard deel (residu) [26](#page=26).
* **Totale variantie (SST):** De gemiddelde gekwadrateerde verschillen tussen de geobserveerde waarden en het gemiddelde van $Y$ [26](#page=26).
* **Verklaarde variantie (SSR):** Het deel van de variantie dat door de regressie wordt verklaard [26](#page=26).
* **Residuele variantie (SSE):** Het onverklaarde deel van de variantie, ook wel foutvariantie genoemd [26](#page=26).
$$ \text{SST} = \text{SSR} + \text{SSE} $$
* **Determinatiecoëfficiënt ($R^2$):** De proportie van de totale variantie in de afhankelijke variabele die wordt verklaard door de onafhankelijke variabele. Het wordt berekend als [26](#page=26):
$$ R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}} $$
Een hogere $R^2$ geeft aan dat de regressielijn de gegevens beter beschrijft [26](#page=26).
> **Tip:** Correlatie impliceert niet noodzakelijk causaliteit. Wees voorzichtig met het trekken van conclusies over oorzaak-gevolgrelaties op basis van correlatie alleen [27](#page=27).
#### 4.3.3 Rangcorrelatiecoëfficiënten
Voor ordinale variabelen, waarbij alleen een rangordening bekend is, zijn rangcorrelatiecoëfficiënten geschikt [27](#page=27).
* **Rangcorrelatiecoëfficiënt van Spearman ($\rho$ of $r_s$):** Berekent de correlatie op basis van de rangen van de waarnemingen. De formule is [27](#page=27):
$$ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $$
Waarbij $d_i$ het verschil is tussen de rangen van variabele X en Y voor de $i$-de waarneming, en $n$ het aantal waarnemingen [28](#page=28).
* Interpretatie is vergelijkbaar met Pearson's $r$: $-1$ (perfect negatieve samenhang), $0$ (onafhankelijkheid), $1$ (perfect positieve samenhang) [28](#page=28).
* **Kendall's Tau ($\tau$):** Een andere rangcorrelatiecoëfficiënt die gebaseerd is op concordante en discordante paren. Het controleert of de rangordening van respondenten voor de ene variabele overeenkomt met die voor de andere [28](#page=28).
* **Concordant paar:** Twee paren (A, B) en (C, D) zijn concordant als (A < C en B < D) of (A > C en B > D) [28](#page=28).
* **Discordant paar:** Twee paren (A, B) en (C, D) zijn discordant als (A < C en B > D) of (A > C en B < D) [28](#page=28).
De formule is:
$$ \tau = \frac{C - D}{0.5n(n-1)} $$
Waarbij $C$ het aantal concordante paren is en $D$ het aantal discordante paren [28](#page=28).
* Interpretatie is ook hier vergelijkbaar: $-1$ (perfect negatieve afhankelijkheid), $0$ (onafhankelijkheid), $1$ (perfect positieve afhankelijkheid) [28](#page=28).
---
# Analyse van tijdreeksen
Tijdreeksen analyseren de evolutie van chronologisch geordende gegevens om trends, schommelingen en veranderingen over tijd te meten [29](#page=29).
### 5.1 Wat is een tijdreeks?
Een tijdreeks is een opeenvolging van chronologisch geordende kwantitatieve gegevens die met een vast tijdsinterval zijn verzameld, zoals een jaar, maand of dag. Het is een tweedimensionale waargenomen reeks waarbij één variabele de tijd is, en elk punt $(T_i, Y_i)$ een frequentie van 1 heeft. De tijdgebonden dimensie is expliciet aanwezig, en tijdreeksanalyse onderzoekt de relatie tussen een specifieke variatie en de tijd [29](#page=29).
Voorbeelden hiervan zijn de groei van de wereldbevolking sinds 1800, de evolutie van de levensverwachting van Belgische vrouwen van 1841 tot 2005, of de evolutie van maag- en longkanker in België tussen 1954 en 1994 [29](#page=29).
Het fundamentele verschil met een 'gewone' tweedimensionale reeks is dat de volgorde van de $Y$-waarden cruciaal is bij tijdreeksen, omdat ze in de tijd zijn geordend. Tijd is hierbij een bijzondere variabele die vaststaat, niet wordt beïnvloed door andere variabelen, en steeds de onafhankelijke variabele is in de analyse [29](#page=29).
### 5.2 Toepassingsgebied en componenten van tijdreeksen
Tijdreeksanalyse kent een breed toepassingsgebied in diverse disciplines zoals economie, demografie, epidemiologie, geneeskunde, geschiedenis en politieke evoluties. Het doel is het ontleden van tijdreeksen om ontwikkelingen van variabelen in de tijd te meten [29](#page=29).
Tijdreeksen kunnen ontleed worden in de volgende componenten:
* **Trends (LT):** Lange termijn ontwikkeling [29](#page=29).
* **Schommelingen (MT):** Middellange termijn variaties [29](#page=29).
* **Onregelmatige of toevallige KT veranderingen op trends (KT):** Korte termijn fluctuaties [29](#page=29).
### 5.3 Technieken voor tijdreeksanalyse
Er worden drie primaire technieken onderscheiden voor de analyse van tijdreeksen:
#### 5.3.1 Groei en groeivoeten
Binnen deze techniek worden drie soorten indicatoren gebruikt: de gemiddelde groei, de groeivoet en de gemiddelde groeivoet [29](#page=29).
* **Gemiddelde groei:** Dit wordt berekend als het verschil tussen de eindwaarde en de beginwaarde, gedeeld door de periode. Het nadeel is dat deze waarde in absolute termen per jaar wordt uitgedrukt en niets zegt over de relatieve groei [29](#page=29).
$$ \text{Gemiddelde groei} = \frac{\text{eindwaarde} - \text{beginwaarde}}{\text{periode}} $$
* **Groeivoet:** Dit vertegenwoordigt de relatieve groei ten opzichte van de beginwaarde [29](#page=29).
$$ \text{Groeivoet} = \frac{\text{eindwaarde} - \text{beginwaarde}}{\text{beginwaarde}} $$
* **Gemiddelde groeivoet:** Dit is de procentuele toename ten opzichte van het voorgaande jaar, dus de groei per jaar. Deze indicator is het meest gebruikt omdat het de procentuele toe- of afname op cumulatieve wijze uitdrukt ten opzichte van het voorgaande jaar [30](#page=30).
$$ \text{Gemiddelde groeivoet} = \frac{Y_t - Y_{t-1}}{Y_{t-1}} $$
waarbij $n$ het aantal jaren in de onderzochte periode is [30](#page=30).
#### 5.3.2 Lineaire trends
Een alternatieve methode om een trend te construeren, vooral als de groeivoet te beperkt is (enkel gebaseerd op begin- en eindwaarden), is via lineaire regressieanalyse. Hierbij worden de waargenomen waarden geanalyseerd aan de hand van een lineair model. Het doel is het minimaliseren van de som van de kwadraten van de residuen [30](#page=30).
$$ \sum_{i=1}^{n} (Y_i - (\hat{a} + \hat{b}X_i))^2 $$
**Voordelen van lineaire trends:**
* Extrapoleren naar de toekomst [30](#page=30).
* Interpoleren voor ontbrekende waarden [30](#page=30).
**Nadelen van lineaire trends:**
* Veronderstelling van lineariteit [30](#page=30).
* Minder geschikt voor niet-lineaire evoluties, waar mogelijk andere functievormen nodig zijn [30](#page=30).
#### 5.3.3 Voortschrijdende gemiddelden
Voortschrijdende gemiddelden (moving averages) vormen een alternatieve manier om een trend te identificeren door korte termijn schommelingen (zoals seizoens- of cyclische schommelingen) uit te vlakken om de lange termijn trend te benadrukken. Het is het gemiddelde van een vast aantal opeenvolgende elementen in een tijdreeks [30](#page=30).
> **Tip:** Voortschrijdende gemiddelden helpen bij het visualiseren van de onderliggende trend door het 'ruis' van kortetermijnfluctuaties te verminderen.
### 5.4 Aandachtspunten bij tijdreeksanalyse
Bij het analyseren van tijdreeksen is voorzichtigheid geboden. Tijdreeksen zijn gevoelig voor veranderingen, en men dient altijd alert te zijn voor meetfouten of veranderde definities. Vooral bij korte tijdreeksen bestaat het gevaar om de trend te verwarren met seizoenseffecten of kortetermijnschommelingen [30](#page=30).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Statistiek | De wetenschap van het verzamelen, analyseren, interpreteren, presenteren en organiseren van gegevens om kennis en inzicht te verwerven. |
| Empirisch onderzoek | Onderzoek dat gebaseerd is op waarnemingen en ervaringen in de werkelijkheid, waarbij data worden verzameld en geanalyseerd. |
| Beschrijvende statistiek | Tak van statistiek die zich bezighoudt met het samenvatten en beschrijven van gegevens door middel van kengetallen en grafische technieken. |
| Inferentiële statistiek | Tak van statistiek die zich bezighoudt met het trekken van conclusies over een populatie op basis van een steekproef van gegevens. |
| Verklarende statistiek | Statistische analyse gericht op het verklaren van verschillen en samenhangen tussen variabelen. |
| Onderzoekspopulatie | De volledige groep leden die men wil onderzoeken. |
| Waarnemingseenheid / statistische eenheid | Een individueel element of geval binnen de bestudeerde populatie dat wordt onderzocht. |
| Variabele | Een kenmerk van onderzoekseenheden dat kan variëren en waarin men geïnteresseerd is voor analyse. |
| Datamatrix | Een gestructureerde tabel die alle verzamelde gegevens organiseert, met variabelen als kolommen en waarnemingseenheden als rijen. |
| Parameters | Kengetallen die de verdeling van een kenmerk in een populatie beschrijven, zoals het populatiegemiddelde ($\mu$) en de populatiestandaardafwijking ($\sigma$). |
| Steekproef | Een representatief deel van de populatie dat wordt geselecteerd voor onderzoek, met als doel conclusies te kunnen trekken over de gehele populatie. |
| Steekproefstatistieken / schatters | Statistische kengetallen berekend uit een steekproef, die worden gebruikt om parameters van de populatie te schatten, zoals het steekproefgemiddelde ($\bar{x}$) en de steekproefstandaardafwijking ($s$). |
| Meetschaal | De set van waarden die aan een variabele worden toegekend, bepaald door de manier waarop de variabele wordt gemeten, en die aangeeft welke statistische analyses mogelijk zijn. |
| Nominale schaal | Een meetschaal die variabelen classificeert in categorieën zonder rangorde of kwantitatieve betekenis; getallen dienen slechts als labels. |
| Ordinale schaal | Een meetschaal die variabelen classificeert en rangschikt op basis van een volgorde, maar waarbij de verschillen tussen de waarden niet interpreteerbaar zijn. |
| Interval schaal | Een meetschaal die classificatie, rangorde en een gelijke meeteenheid biedt, waarbij de verschillen tussen waarden betekenisvol zijn, maar er geen absoluut nulpunt is. |
| Ratio schaal | Een meetschaal die classificatie, rangorde, een gelijke meeteenheid en een absoluut nulpunt biedt, waarbij de verhoudingen tussen waarden betekenisvol zijn. |
| Kwalitatieve variabele | Een variabele die categorische waarden weergeeft, zoals nominale of ordinale gegevens. |
| Kwantitatieve variabele | Een variabele die numerieke waarden weergeeft, zoals interval- of ratiogegevens. |
| Discrete variabele | Een variabele die alleen gehele waarden kan aannemen, vaak het resultaat van tellen. |
| Continue variabele | Een variabele die elke waarde binnen een bepaald bereik kan aannemen, vaak het resultaat van meten. |
| Dummy variabele | Een categorische variabele met twee categorieën die wordt gecodeerd met 0 en 1, vaak gebruikt in regressieanalyses. |
| Frequentieverdeling | Een overzicht dat aangeeft hoe vaak elke waarde of categorie van een variabele voorkomt in een dataset, uitgedrukt in absolute of relatieve aantallen. |
| Absolute frequentie (Fi) | Het aantal keren dat een specifieke waarde of categorie voorkomt in een dataset. |
| Relatieve frequentie (fi) | Het aandeel van de absolute frequentie ten opzichte van het totaal aantal waarnemingen ($fi = Fi / N$). |
| Cumulatieve frequentie | Het totaal aantal waarnemingen tot en met een bepaalde waarde of categorie. |
| Staafdiagram | Een grafische weergave waarbij rechthoeken de frequentie van elke categorie van een nominale of ordinale variabele voorstellen; de hoogte is evenredig met de frequentie. |
| Cirkeldiagram / taartdiagram | Een grafische weergave waarbij de oppervlakte van elke sector van een cirkel de relatieve frequentie van een categorie voorstelt. |
| Histogram | Een grafische weergave die de frequentieverdeling van continue of discrete variabelen toont met behulp van aangrenzende balken, waarbij de oppervlakte van elke balk evenredig is met de frequentie in een interval. |
| Maten van ligging | Statistische maten die de centrale tendens of de typische waarde van een dataset beschrijven, zoals modus, mediaan en gemiddelde. |
| Centrummaten | Maten die de centrale tendens van een dataset aangeven, zoals modus, mediaan en rekenkundig gemiddelde. |
| Modus | De waarde van een variabele die het vaakst voorkomt in een dataset. |
| Mediaan | De middelste waarde in een geordende dataset; deze waarde verdeelt de data in twee gelijke helften. |
| Rekenkundig gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden. |
| Kwantielen | Maten die een geordende dataset verdelen in gelijke delen, zoals kwartielen (4 delen), decielen (10 delen) en percentielen (100 delen). |
| Maten van spreiding | Statistische maten die de mate van variatie of verspreiding van gegevens rond een centrummaat weergeven. |
| Variatiebreedte / range | Het verschil tussen de hoogste en de laagste waarde in een dataset. |
| Interkwartielafstand (IQR) | Het verschil tussen het derde kwartiel (K3) en het eerste kwartiel (K1), dat de middelste 50% van de gegevens omvat. |
| Variantie | De gemiddelde gekwadrateerde afwijking van het rekenkundig gemiddelde; een maat voor spreiding. |
| Standaardafwijking ($s$) | De vierkantswortel van de variantie; een veelgebruikte maat voor de spreiding van gegevens rond het gemiddelde. |
| Variatiecoëfficiënt | De ratio van de standaardafwijking tot het gemiddelde ($v = s / \bar{x}$), gebruikt om spreiding relatief aan het gemiddelde te vergelijken. |
| Z-score | Een gestandaardiseerde score die aangeeft hoeveel standaardafwijkingen een bepaalde waarneming van het gemiddelde ligt ($Z = (X - \bar{x}) / s$). |
| Maten van vorm | Statistische maten die de vorm van een verdeling beschrijven, met name symmetrie (scheefheid) en afplatting (kurtosis). |
| Scheefheid | Een maat voor de asymmetrie van een verdeling; een scheve verdeling heeft een langere staart aan één kant. |
| Kurtosis | Een maat voor de afplatting of spitsheid van een verdeling ten opzichte van een normale verdeling. |
| Tweedimensionale reeks / bivariate reeks | Een reeks gegevens die twee variabelen tegelijkertijd bestudeert om de samenhang daartussen te analyseren. |
| Kruistabel | Een tabel die de frequentieverdeling van twee categorische variabelen weergeeft, met cellen die de frequentie van combinaties van categorieën tonen. |
| Associatiematen | Maten die de sterkte van de relatie tussen twee variabelen kwantificeren. |
| Chi-kwadraattoets ($\chi^2$) | Een statistische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen in een kruistabel. |
| Phi-kwadraat ($\phi^2$) | Een associatiemaat voor 2x2 kruistabellen die de sterkte van het verband aangeeft. |
| Cramer's V | Een associatiemaat die de sterkte van het verband tussen twee categorische variabelen in een kruistabel aangeeft, en die geschikt is voor tabellen van elke grootte. |
| Scatterplot / spreidingsdiagram | Een grafische weergave van de relatie tussen twee kwantitatieve variabelen, waarbij elk datapunt wordt weergegeven als een punt in een tweedimensionaal assenstelsel. |
| Covariantie | Een maat voor de mate waarin twee kwantitatieve variabelen samen variëren; positief als ze samen stijgen/dalen, negatief als ze tegengesteld variëren, en nul bij lineaire onafhankelijkheid. |
| Correlatiecoëfficiënt (Pearson $r$) | Een symmetrische associatiemaat die de sterkte en richting van de lineaire relatie tussen twee kwantitatieve variabelen aangeeft, variërend van -1 (perfecte negatieve correlatie) tot +1 (perfecte positieve correlatie). |
| Regressieanalyse | Een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren en voorspellingen te doen. |
| Regressierechte (RR) | De lijn die de geschatte relatie tussen een onafhankelijke en een afhankelijke variabele weergeeft in een regressiemodel. |
| Intercept ($a$) | De voorspelde waarde van de afhankelijke variabele wanneer de onafhankelijke variabele nul is. |
| Richtingscoëfficiënt ($b$) | Geeft aan hoeveel de afhankelijke variabele naar verwachting verandert voor elke eenheidstoename in de onafhankelijke variabele. |
| Residu | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de voorspelde waarde op basis van het regressiemodel. |
| Methode van de kleinste kwadraten | Een methode om de regressielijn te bepalen door de som van de gekwadrateerde residuen te minimaliseren. |
| Verklaarde variantie | Het deel van de totale variatie in de afhankelijke variabele dat kan worden verklaard door het regressiemodel. |
| Residuele variantie | Het deel van de totale variatie in de afhankelijke variabele dat niet kan worden verklaard door het regressiemodel (ook wel onverklaarde variantie genoemd). |
| Determinatiecoëfficiënt ($R^2$) | De verhouding van de verklaarde variantie tot de totale variantie; geeft aan welk percentage van de variatie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n). |
| Rangcorrelatiecoëfficiënt | Een maat voor de samenhang tussen twee ordinale variabelen, gebaseerd op hun rangordes. |
| Rangcorrelatiecoëfficiënt van Spearman ($\rho$) | Een rangcorrelatiecoëfficiënt die de lineaire samenhang tussen de rangordes van twee variabelen meet. |
| Kendall's Tau ($\tau$) | Een rangcorrelatiecoëfficiënt die de mate van overeenkomst in rangorde tussen twee variabelen meet door concordante en discordante paren te analyseren. |
| Tijdreeks | Een reeks kwantitatieve gegevens die chronologisch is geordend met regelmatige tijdsintervallen, gebruikt om ontwikkelingen in de tijd te analyseren. |
| Trends (LT) | De langetermijnontwikkeling of het algemene patroon in een tijdreeks. |
| Schommelingen (MT) | Middellange termijn variaties in een tijdreeks, zoals cyclische patronen. |
| Kortetermijnveranderingen (KT) | Onregelmatige of toevallige fluctuaties in een tijdreeks. |
| Groei | De verandering van een variabele over tijd. |
| Groeivoet | De relatieve groei van een variabele ten opzichte van de beginwaarde. |
| Gemiddelde groeivoet | De gemiddelde procentuele toename of afname per jaar in een tijdreeks. |
| Voortschrijdende gemiddelden | Een techniek om de trend in een tijdreeks te identificeren door het gemiddelde van opeenvolgende data-elementen te berekenen en zo kortetermijnschommelingen uit te vlakken. |
Cover
Statistiek 2025.docx
Summary
# Interpretatie van regressiecoëfficiënten en schaalverschillen
### Kernideeën
* Inferentiële statistiek maakt uitspraken over een populatie op basis van steekproefdata.
* Steekproevenverdelingen beschrijven de variatie van steekproefstatistieken bij herhaalde steekproeftrekking.
* Betrouwbaarheidsintervallen en significantietoetsen zijn twee benaderingen van inferentie.
### Kernfeiten
* Statistiek I behandelde ordenings-, reductie- en associatietechnieken.
* Statistiek II focuste op kansrekening, steekproevenverdelingen en introductie tot inferentie.
* Inductieve statistiek gaat van steekproef naar populatie; schatten en toetsen zijn de twee visies.
* Betrouwbaarheidsintervallen geven een bereik aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Significantietoetsen beoordelen of waargenomen verschillen groot genoeg zijn om niet aan toeval toe te schrijven.
* De standaardfout van het gemiddelde is de standaardafwijking van de steekproevenverdeling van het gemiddelde.
* Een kleiner betrouwbaarheidsinterval (BI) impliceert hogere betrouwbaarheid door grotere steekproeven of lager betrouwbaarheidsniveau.
* Een grotere steekproefgrootte verkleint het betrouwbaarheidsinterval en verhoogt de nauwkeurigheid.
* Een kleiner betrouwbaarheidsniveau (bv. 90% i.p.v. 95%) leidt tot een smaller BI, maar vergroot het risico op een Type I fout.
* De standaardafwijking van de populatie (sigma, $\sigma$) beïnvloedt de breedte van het BI; kleinere $\sigma$ geeft een smaller BI.
* Het betrouwbaarheidsinterval is van de vorm: steekproefgemiddelde $\pm$ foutenmarge.
* De foutenmarge bevat de kritieke waarde (Z-score), de populatiestandaardafwijking ($\sigma$) en de steekproefgrootte ($n$).
### Sleutelconcepten
* **Betrouwbaarheidsinterval (BI):** Een interval waarbinnen het populatiegemiddelde met een bepaalde waarschijnlijkheid ligt.
* 95% BI: In 95% van de herhalingen bevat het interval de werkelijke populatiewaarde.
* Formule: $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$ (met $\sigma$ bekend)
* **Z-score:** Kritieke waarde die hoort bij het betrouwbaarheidsniveau (bv. 1,96 voor 95%).
* **Significantieniveau ($\alpha$):** Vooraf bepaalde grens (vaak 5%) voor het verwerpen van de nulhypothese.
* **P-waarde:** Kans om een resultaat te verkrijgen dat minstens zo extreem is als waargenomen, aangenomen dat de nulhypothese waar is.
* **Steekproefgrootte ($n$):** Een grotere $n$ leidt tot een smaller BI.
* **Standaardafwijking van de populatie ($\sigma$):** Maat voor spreiding in de populatie; kleinere $\sigma$ geeft een smaller BI.
* **Significantietoets (hypothesetoets):**
- 1
### Implicaties
### Voorbeelden
---
* Statistische inferentie maakt uitspraken over populaties op basis van steekproefgegevens.
* Betrouwbaarheidsintervallen en significantietoetsen zijn cruciale inferentiële technieken.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is, vooral bij kleine steekproeven.
### Belangrijke feiten
* Een betrouwbaarheidsinterval (BI) geeft een reeks waarden aan waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt.
* Een 95% BI betekent dat bij 95% van de herhaalde steekproeven het interval de ware populatiewaarde bevat.
* De breedte van een BI wordt beïnvloed door:
* Steekproefgemiddelde ($\bar{x}$)
* Betrouwbaarheidsniveau (Z-score)
* Significantieniveau ($\alpha$)
* Populatiestandaardafwijking ($\sigma$)
* Steekproefgrootte ($n$)
* Een kleiner BI duidt op een nauwkeurigere schatting en hogere betrouwbaarheid.
* Significanteoetsen beoordelen of waargenomen verschillen verklaard kunnen worden door toeval (nulhypothese).
* De p-waarde is de kans op het waargenomen resultaat (of extremer) als de nulhypothese waar is.
* De nulhypothese (H₀) wordt verworpen als de p-waarde kleiner is dan het significantieniveau ($\alpha$).
* Type I fout: H₀ onterecht verwerpen (vals positief, kans $\alpha$).
* Type II fout: H₀ onterecht niet verwerpen (vals negatief, kans $\beta$).
* Onderscheidingsvermogen (power) is de kans om H₀ correct te verwerpen als de alternatieve hypothese waar is ($1 - \beta$).
### Kernconcepten
* **Steekproevenverdeling**: Een frequentieverdeling van statistische maten uit herhaalde steekproeven.
* **Betrouwbaarheidsinterval formule**:
- $$ \text{BI} = \bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}} $$
- waarbij $Z$ de kritieke waarde is voor het gekozen betrouwbaarheidsniveau
* **Significanteoets stappen**:
- Formuleer H₀ en H₁
---
* **Betrouwbaarheidsinterval (BI):** Een bereik van waarden dat met een bepaalde mate van zekerheid (bv. 95%) de werkelijke populatieparameter bevat.
* **Significantieniveau ($\alpha$):** De vooraf bepaalde kritieke grens (meestal 5%) die aangeeft wanneer de nulhypothese verworpen wordt.
* **p-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is.
* **Type I fout (vals positief):** De nulhypothese wordt onterecht verworpen (kans is $\alpha$).
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen terwijl deze verworpen zou moeten worden (kans is $\beta$).
* **Onderscheidingsvermogen (power):** De kans om een echt verschil op populatieniveau te detecteren wanneer dit verschil relevant is ($1-\beta$).
* **T-verdeling:** Een kansverdeling die lijkt op de normaalverdeling maar dikkere staarten heeft, gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt uit de steekproef.
* **Vrijheidsgraden (df):** Een parameter van de t-verdeling, meestal gelijk aan de steekproefgrootte minus 1 ($n-1$), die de vorm van de verdeling bepaalt.
### Betrouwbaarheidsintervallen en Significantietoetsen
* Een 95% BI geeft de grenzen aan waarbinnen het echte populatiegemiddelde naar verwachting zal liggen.
* Een kleiner BI duidt op een hogere betrouwbaarheid en een kleinere foutenmarge.
* Factoren die een BI beïnvloeden: steekproefgemiddelde ($\bar{x}$), Z-score (betrouwbaarheidsniveau), populatiestandaardafwijking ($\sigma$), en steekproefgrootte ($n$).
* Een grotere steekproefgrootte ($n$) verkleint het BI, wat resulteert in een nauwkeurigere schatting.
* Een lager betrouwbaarheidsniveau (bv. 90% i.p.v. 95%) resulteert in een smaller BI, maar met een hoger risico op een Type I fout.
* Significantietoetsen volgen 4 stappen: hypothesen formuleren, toetsingsgrootheid bepalen, overschrijdingskans (p-waarde) bepalen, en conclusie formuleren.
* De nulhypothese ($H_0$) stelt meestal dat er geen verschil is.
### Benaderingen voor Statistische Inferentie
* **Klassieke aanpak:** Gebruikt kansrekening en theoretische verdelingen (binomiaal, normaal) om p-waarden te berekenen.
* **Resampling/Bootstrap:** Simuleert steekproevenverdelingen door herhaaldelijk steekproeven te trekken met teruglegging uit de oorspronkelijke steekproef.
* De p-waarde is de kans om het waargenomen resultaat of extremer te verkrijgen onder de aanname dat $H_0$ waar is.
### Vergelijking van Twee Gemiddelden
* **T-toets voor gekoppelde paren (paired t-test):** Gebruikt voor afhankelijke steekproeven, zoals voor- en nametingen bij dezelfde personen. Vergelijkt de gemiddelde verschillen binnen paren.
* **T-toets voor onafhankelijke steekproeven (independent samples t-test):** Gebruikt voor twee onafhankelijke groepen. Vergelijkt de gemiddelden van de twee groepen.
* Bij de t-toets voor onafhankelijke steekproeven, wanneer $\sigma$ onbekend is en de groepen verschillende standaardafwijkingen hebben, wordt een conservatieve benadering van de vrijheidsgraden toegepast (kleinste van $n_1-1$ en $n_2-1$).
### T-verdelingen versus Z-verdelingen
* De t-verdeling heeft dikkere staarten dan de normaalverdeling (z-verdeling), wat betekent dat er een grotere kans is op extreme waarden, vooral bij kleine steekproeven.
* Dit komt doordat de populatiestandaardafwijking ($\sigma$) geschat wordt uit de steekproefstandaardafwijking ($s$), wat extra onzekerheid introduceert.
* Naarmate het aantal vrijheidsgraden toeneemt, nadert de t-verdeling de normaalverdeling.
### Rapporteren van Toetsresultaten (APA-stijl)
* Vermeld de gebruikte toets, toetsingsgrootheid met waarde (bv. $t = 5,23$), vrijheidsgraden (indien van toepassing, bv. $t(39) = 5,23$), en de p-waarde (bv. $p < 0,001$).
### T-toets voor Gekoppelde Data
### T-toets voor Twee Onafhankelijke Steekproeven
---
### Kernidee
* Regressiecoëfficiënten kwantificeren de relatie tussen predictoren en de uitkomstvariabele, waarbij schaalverschillen cruciaal zijn voor de interpretatie.
* Regressieanalyse is een inductieve techniek die uitspraken over populaties mogelijk maakt op basis van steekproefgegevens.
* Het concept van de steekproevenverdeling is fundamenteel voor inferentiële statistiek.
* Betrouwbaarheidsintervallen bieden een bereik waarbinnen de werkelijke populatiewaarde waarschijnlijk ligt.
* Significantietoetsen evalueren de kans dat een waargenomen resultaat door toeval is ontstaan onder de nulhypothese.
* Type I-fouten (vals positief) en Type II-fouten (vals negatief) zijn mogelijke misclassificaties bij significantietoetsen.
* De t-verdeling, met vrijheidsgraden, wordt gebruikt wanneer de populatiestandaardafwijking onbekend is.
* Gekoppelde t-toetsen vergelijken metingen van dezelfde proefpersonen (bv. voor- en nametingen).
* Onafhankelijke t-toetsen vergelijken metingen van twee distincte, niet-gerelateerde groepen.
### Belangrijke concepten
* **Steekproevenverdeling:** Een frequentieverdeling van statistische maten (bv. gemiddelden) uit herhaaldelijk getrokken steekproeven.
* **Betrouwbaarheidsinterval (BI):** Een intervalschatting voor een populatieparameter, gebaseerd op steekproefgegevens. Een 95% BI geeft aan dat we in 95% van de gevallen verwachten dat het interval de populatiewaarde bevat.
* **Formule BI:** $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$ (indien $\sigma$ bekend is).
* $\bar{x}$: steekproefgemiddelde
* $Z$: Z-score (betrouwbaarheidsniveau)
* $\sigma$: populatiestandaardafwijking
* $n$: steekproefgrootte
* **Foutenmarge:** Het deel van het BI dat varieert, beïnvloed door steekproefgemiddelde, betrouwbaarheidsniveau (Z-score), populatiestandaardafwijking ($\sigma$), en steekproefgrootte ($n$).
* **Significantieniveau ($\alpha$):** De kans op een Type I-fout, typisch vastgesteld op 0,05 (5%).
* **Nullhypothese ($H_0$):** De hypothese die stelt dat er geen verschil of verband is (bv. $\mu_1 = \mu_2$).
* **Alternatieve hypothese ($H_a$):** De hypothese die stelt dat er wel een verschil of verband is.
* **Toetsingsgrootheid:** Een statistische maat die wordt berekend uit de steekproefgegevens om de nulhypothese te toetsen (bv. z-score of t-score).
* **Onderscheidingsvermogen (Power):** De kans om een werkelijk bestaand verschil of verband te detecteren (de nulhypothese te verwerpen wanneer deze vals is).
* **t-verdeling:** Een verdeling die lijkt op de normaalverdeling, maar met dikkere staarten, gebruikt wanneer $\sigma$ onbekend is en geschat wordt met $s$.
* **Vrijheidsgraden (df):** Bepalen de specifieke vorm van de t-verdeling; voor een 1-steekproef t-toets is $df = n - 1$.
### Consequenties van fouten
### Het gebruik van t-verdelingen
---
* Regressiecoëfficiënten kwantificeren de relatie tussen variabelen, waarbij hun interpretatie sterk afhangt van de schaal waarop de variabelen zijn gemeten.
* Schaalverschillen kunnen leiden tot verwarring bij het vergelijken van de relatieve impact van verschillende voorspellers in een regressiemodel.
* Een regressiecoëfficiënt (\(\beta\)) geeft de verwachte verandering in de afhankelijke variabele aan voor een eenheidstoename in de onafhankelijke variabele, *ceteris paribus* (alles overige gelijkblijvend).
* De interpretatie van \(\beta\) is direct wanneer de onafhankelijke variabele een continue schaal heeft met een betekenisvolle eenheid (bv. leeftijd in jaren).
* Voor categorische variabelen (bv. dummyvariabelen) vertegenwoordigt \(\beta\) het verschil in de afhankelijke variabele tussen de categorie die is gecodeerd als 1 en de referentiecategorie (gecodeerd als 0).
* De schaal van de afhankelijke variabele beïnvloedt de directe interpretatie van \(\beta\) als absolute verandering.
* De schaal van de onafhankelijke variabele bepaalt of een eenheidstoename groot of klein is in de praktijk.
- **Gestandaardiseerde regressiecoëfficiënten (\(\beta_{std}\))**: Deze worden verkregen door de variabelen te standaardiseren (gemiddelde 0, standaardafwijking 1) vóór de regressieanalyse. Ze maken het mogelijk om de relatieve sterkte van de effecten van
* **Effectgrootte**: Gestandaardiseerde coëfficiënten dienen als een maat voor de effectgrootte, wat de praktische significantie van een relatie aangeeft.
* **Schaaltransformatie**: Het transformeren van variabelen (bv. logaritme, kwadraat) kan de interpretatie van de regressiecoëfficiënten veranderen, bijvoorbeeld door het weergeven van procentuele veranderingen of niet-lineaire relaties.
- **Interactietermen**: Wanneer de relatie tussen een voorspeller en de afhankelijke variabele afhangt van de waarde van een andere voorspeller, duidt dit op een interactie, en de regressiecoëfficiënt hiervan interpreteert de
* Het negeren van schaalverschillen kan leiden tot verkeerde conclusies over de relatieve belangrijkheid van voorspellers.
* Gestandaardiseerde coëfficiënten zijn nuttig voor het rangschikken van voorspellers op basis van hun invloed op de afhankelijke variabele.
* Het is cruciaal om de oorspronkelijke schalen van de variabelen te behouden voor een volledige contextuele interpretatie, naast gestandaardiseerde maten.
* De interpretatie van een regressiecoëfficiënt moet altijd worden gedaan binnen de context van de specifieke studiepopulatie en de gemeten variabelen.
- > **Tip:** Raadpleeg altijd zowel de ongestandaardiseerde als de gestandaardiseerde regressiecoëfficiënten om een volledig beeld te krijgen van de relaties
- > **Voorbeeld:** Als \(\beta_1\) voor "leeftijd in jaren" 0
- 5 is en \(\beta_2\) voor "aantal uren studie per week" 2 is, zonder standaardisatie, lijkt uren studie belangrijker
- Echter, als de gestandaardiseerde \(\beta_{std,1}\) = 0
- 6 en \(\beta_{std,2}\) = 0
- 3, dan heeft leeftijd (gestandaardiseerd) een grotere relatieve invloed op de afhankelijke variabele, ondanks de lagere ongestandaardiseerde coëfficiënt
---
* Betrouwbaarheidsinterval (BI) geeft een bereik aan waarbinnen het populatiegemiddelde waarschijnlijk ligt met een gespecificeerde kans (bv. 95%).
* Een kleiner BI duidt op een nauwkeurigere schatting van de populatiewaarde en dus hogere betrouwbaarheid.
* Significantietoetsen evalueren of waargenomen verschillen tussen steekproefgegevens en een nulhypothese waarschijnlijk niet door toeval ontstaan.
* De p-waarde is de kans op het observeren van een resultaat minstens zo extreem als het waargenomen resultaat, aangenomen dat de nulhypothese waar is.
* Een t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking (σ) onbekend is en wordt geschat uit de steekproefstandaardafwijking (s).
### Sleutelbegrippen en mechanismen
* **Betrouwbaarheidsinterval (BI)**
* Vorm: Steekproefgemiddelde ± Foutmarge.
* Foutmarge wordt beïnvloed door:
* Steekproefgemiddelde ($\bar{x}$).
* Z-score (betrouwbaarheidsniveau, bv. 1,96 voor 95%).
* Significantieniveau ($\alpha$), de kans op een type I fout (bv. 0,05).
* Populatiestandaardafwijking ($\sigma$).
* Steekproefgrootte ($n$).
* Een grotere $n$ resulteert in een kleiner en dus nauwkeuriger BI.
* Een lager betrouwbaarheidsniveau (bv. 90% i.p.v. 95%) resulteert in een smaller BI, maar met een groter risico op een type I fout.
* **Significantietoetsen (Hypothesetoetsen)**
* Stappenplan:
- Formuleer de nul- ($H_0$) en alternatieve hypothese ($H_a$)
- 2
- Bepaal de waarde van de toetsingsgrootheid (bv
- gemiddelde, t-score)
- 3
- Bepaal de overschrijdingskans (p-waarde)
- 4
### Implicaties en toepassingen
### Tip
---
* De interpretatie van regressiecoëfficiënten hangt cruciaal af van de schaal en meetniveau van de variabelen.
* **Regressiecoëfficiënt ($ \beta $):** Geeft de verwachte verandering in de afhankelijke variabele aan voor één eenheid toename in de onafhankelijke variabele, terwijl andere variabelen constant worden gehouden.
* **Schaalverschillen:** Variabelen kunnen op verschillende schalen gemeten zijn (bv. meters, dollars, aantal jaren), wat directe vergelijking van coëfficiënten bemoeilijkt.
- **Gestandaardiseerde coëfficiënten:** Worden berekend door variabelen te transformeren naar een standaard normaalverdeling (gemiddelde 0, standaardafwijking 1). Deze maken directe vergelijking van de sterkte van verbanden tussen variabelen met verschillende schalen
* **Interpretatie van $ \beta $ bij continue variabelen:** Een toename van één eenheid in de onafhankelijke variabele correspondeert met een verandering van $ \beta $ eenheden in de afhankelijke variabele.
* **Interpretatie van $ \beta $ bij nominale variabelen (dummy variabelen):** De coëfficiënt geeft het verschil in de afhankelijke variabele aan tussen de gecodeerde categorie en de referentiecategorie.
- **Interpretatie van $ \beta $ bij ordinale variabelen:** Kan complex zijn; een eenheidstoename in de onafhankelijke variabele betekent een toename van $ \beta $ in de afhankelijke variabele, maar de betekenis van 'één eenheid'
* **Interpretatie van $ \beta $ bij categorische variabelen (meer dan twee categorieën):** Vereist dummycodering; elke coëfficiënt vergelijkt een specifieke categorie met de referentiecategorie.
* **Effectgrootte:** De gestandaardiseerde coëfficiënt is een maat voor de effectgrootte, waardoor de relatieve sterkte van verschillende predictoren vergeleken kan worden.
* Een positieve coëfficiënt ($ \beta > 0 $) duidt op een positief verband: als de onafhankelijke variabele toeneemt, neemt de afhankelijke variabele toe.
* Een negatieve coëfficiënt ($ \beta < 0 $) duidt op een negatief verband: als de onafhankelijke variabele toeneemt, neemt de afhankelijke variabele af.
* Een coëfficiënt van nul ($ \beta = 0 $) suggereert geen lineair verband tussen de betreffende onafhankelijke en de afhankelijke variabele, gegeven de andere variabelen in het model.
* De statistische significantie (p-waarde) van een coëfficiënt geeft aan of het waargenomen verband waarschijnlijk niet op toeval berust.
* Het betrouwbaarheidsinterval voor een coëfficiënt geeft een bereik aan waarbinnen de ware populatiewaarde van de coëfficiënt waarschijnlijk ligt.
* Het gebruik van gestandaardiseerde coëfficiënten is noodzakelijk om de relatieve importantie van predictoren met verschillende meeteenheden te vergelijken.
* Als een onafhankelijke variabele wordt gemeten in duizendtallen (bv. inkomen in duizenden dollars), moet de coëfficiënt worden vermenigvuldigd met 1000 om de interpretatie per eenheid te krijgen.
* Het kwadrateren van de gestandaardiseerde coëfficiënt ( $ \beta^2 $ ) geeft de proportie verklaarde variantie door die specifieke predictor (in een simpel regressiemodel).
* Zonder standaardisatie kunnen regressiecoëfficiënten misleidend zijn bij het beoordelen van de relatieve bijdrage van verschillende predictoren.
* Schaalverschillen vereisen zorgvuldige overweging bij het formuleren van conclusies over de impact van variabelen.
* Dummycodering is essentieel voor het includeren van categorische variabelen in lineaire regressiemodellen, waarbij de keuze van de referentiecategorie de interpretatie van de andere coëfficiënten beïnvloedt.
* Het interpreteren van coëfficiënten vereist altijd contextuele kennis over de variabelen en de onderzochte populatie.
- De intercept ($ \beta_0 $) vertegenwoordigt de verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen gelijk zijn aan nul (of de referentiecategorie bij dummy variabelen). De interpretatie van de intercept
### Veelvoorkomende valkuilen
* Het direct vergelijken van regressiecoëfficiënten van variabelen met verschillende schalen zonder standaardisatie.
* Het verkeerd interpreteren van dummy-variabele coëfficiënten als absolute verschillen in plaats van verschillen ten opzichte van de referentiecategorie.
* Het negeren van de significantie en betrouwbaarheidsintervallen van coëfficiënten, waardoor er te snel conclusies worden getrokken uit willekeurige schommelingen.
---
# Inferentie en de t-verdeling
### Kernidee
* Inferentie is het proces van het trekken van conclusies over een populatie op basis van steekproefgegevens.
* De t-verdeling wordt gebruikt voor inferentie wanneer de populatiestandaardafwijking onbekend is, vooral bij kleine steekproeven.
### Belangrijke feiten
* William Sealy Gosset publiceerde onder de pseudoniem 'Student' (vandaar 'Student's t-toets') vanuit de Guinness brouwerij.
* Bij inferentie met een onbekende populatiestandaardafwijking ($\sigma$) wordt de t-verdeling gebruikt in plaats van de z-verdeling (normaalverdeling).
* De t-verdeling is symmetrisch, heeft een top op nul, maar dikkere staarten dan de normaalverdeling.
* Er is niet één t-verdeling; het aantal vrijheidsgraden ($df$) bepaalt de specifieke vorm van de t-verdeling.
* Vrijheidsgraden ($df$) zijn doorgaans gelijk aan de steekproefgrootte min één ($n-1$).
* Naarmate $df$ toeneemt, benadert de t-verdeling de normaalverdeling.
* Bij het schatten van de populatiestandaardafwijking ($s$) wordt gedeeld door $n-1$ (Bessel's correctie).
### Belangrijke concepten
* **Steekproevenverdeling van het gemiddelde indien $\sigma$ onbekend:** Standaardisatie met de steekproefstandaardafwijking ($s$) leidt tot een t-verdeling.
* **Student's t-verdeling:**
* Vergelijkbaar met de z-verdeling, maar met dikkere staarten om de onzekerheid van het schatten van $\sigma$ te accommoderen.
* De t-waarde indiceert het aantal standaardfouten dat het steekproefgemiddelde afwijkt van het populatiegemiddelde.
* **Vrijheidsgraden ($df$):**
* Het aantal onafhankelijke waarden dat kan variëren nadat parameters (zoals het gemiddelde) zijn geschat.
* Voor een 1-steekproef t-toets is $df = n-1$.
* **Betrouwbaarheidsinterval (BI) met t-verdeling:**
* Formule: $\bar{x} \pm t^{\ast} \frac{s}{\sqrt{n}}$
* $t^{\ast}$ is de kritieke t-waarde voor het gewenste betrouwbaarheidsniveau en $df$.
* **1-steekproef t-toets:**
* Vergelijkt een steekproefgemiddelde ($\bar{x}$) met een bekend of verondersteld populatiegemiddelde ($\mu_0$).
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$
* **Voorwaarden voor t-procedures (1-steekproef):**
* Random steekproef.
* Populatie is (ongeveer) normaal verdeeld of $n > 30$ (Centrale limietstelling).
---
* De t-verdeling wordt gebruikt voor inferentie wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* Het centrale concept is het gebruik van de steekproevenverdeling van het gemiddelde wanneer $\sigma$ geschat wordt, wat leidt tot de t-verdeling in plaats van de normaalverdeling.
* De t-verdeling is symmetrisch rond nul en heeft dikkere staarten dan de normaalverdeling, wat het risico op Type I fouten (onterecht verwerpen van H0) vermindert.
* De t-verdeling is vernoemd naar William Sealy Gosset, die onder het pseudoniem 'Student' publiceerde.
* De vorm van de t-verdeling wordt bepaald door de vrijheidsgraden ($df$), die doorgaans gelijk zijn aan de steekproefgrootte minus één ($n-1$).
* Naarmate de vrijheidsgraden toenemen, benadert de t-verdeling de standaard normaalverdeling.
* Voor steekproeven met een grote omvang ($n>30$) kan de t-verdeling vaak benaderd worden door de normaalverdeling, dankzij de centrale limietstelling.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat extremere waarden waarschijnlijker zijn.
### Kernconcepten
* **Vrijheidsgraden ($df$):** Het aantal onafhankelijke gegevenspunten dat vrij kan variëren bij het schatten van een populatieparameter. Voor een enkelvoudige steekproef is $df = n-1$.
* **Student's t-toets:** Een statistische toets die gebruikt wordt om gemiddelden te vergelijken wanneer de populatiestandaardafwijking onbekend is.
* **1-steekproef t-betrouwbaarheidsinterval:** Een interval rond het steekproefgemiddelde dat de waarschijnlijke range van het populatiegemiddelde aangeeft, met gebruikmaking van de t-verdeling.
* **1-steekproef t-toets:** Een hypothesetoets om te bepalen of een steekproefgemiddelde significant afwijkt van een bekend populatiegemiddelde (of een hypothetisch gemiddelde) wanneer $\sigma$ onbekend is.
- **Gepaarde t-toets:** Wordt gebruikt om de gemiddelden van twee gerelateerde (gekoppelde) metingen te vergelijken, zoals voor- en nametingen bij dezelfde individuen. Dit wordt behandeld als een 1-steekproef t-toets op de
* **Ongepaarde (onafhankelijke) t-toets:** Wordt gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken.
### Implicaties
* Het gebruik van de t-verdeling in plaats van de z-verdeling (normaalverdeling) is cruciaal voor correcte inferentie bij kleine steekproeven of wanneer de populatiestandaardafwijking onbekend is.
* De dikkere staarten van de t-verdeling zorgen ervoor dat statistische beslissingen minder snel leiden tot het verwerpen van de nulhypothese, wat het risico op Type I fouten verkleint.
* Voor ongepaarde t-toetsen wordt vaak een conservatieve schatting van de vrijheidsgraden gebruikt om de dikkere staarten te waarborgen, wat de kans op het detecteren van kleine effecten kan verminderen.
* De robuustheid van t-procedures betekent dat ze relatief ongevoelig zijn voor kleine schendingen van de aanname van normaliteit, vooral bij grotere steekproeven.
### Voorwaarden voor t-procedures
* **Randomisatie:** De steekproef moet representatief zijn voor de populatie, bij voorkeur verkregen via een willekeurig selectieproces.
* **Normaliteit:** De populatie waaruit de steekproef is getrokken, moet bij benadering normaal verdeeld zijn. Dit is met name belangrijk voor kleine steekproeven.
* **Onafhankelijkheid:** Waarnemingen binnen een groep en tussen groepen (bij ongepaarde toetsen) moeten onafhankelijk zijn. Bij gepaarde toetsen zijn de waarnemingen binnen een paar wel afhankelijk.
* De populatiegrootte moet aanzienlijk groter zijn dan de steekproefgrootte (vuistregel: $N \ge 20n$) om onafhankelijkheid te garanderen bij steekproeven zonder teruglegging.
---
* De t-verdeling wordt gebruikt voor inferentie wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat moet worden met de steekproefstandaardafwijking ($s$).
* De t-verdeling wijkt af van de normaalverdeling door dikkere staarten, wat essentieel is voor betrouwbaarheidsintervallen en significantietoetsen, vooral bij kleine steekproeven.
* Er is niet één t-verdeling; deze wordt gespecificeerd door vrijheidsgraden ($df$), die meestal gelijk zijn aan de steekproefgrootte min één ($n-1$).
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), waarbij t-waarden ook het aantal standaardfouten aangeven.
* De t-verdeling is symmetrisch met een top op $x=0$.
- Dikkere staarten van de t-verdeling (vergeleken met de normale verdeling) zorgen ervoor dat meer kans in de staarten terechtkomt, wat het risico op een Type I-fout (onterecht verwerpen van de
* Naarmate de steekproefgrootte toeneemt (en dus de vrijheidsgraden), benadert de t-verdeling de normale verdeling.
* Vrijheidsgraden ($df$) vertegenwoordigen het aantal onafhankelijke gegevenspunten dat kan variëren na het vaststellen van een bepaald gemiddelde. Bij een steekproefgrootte $n$ is dit $n-1$.
* De populatiestandaardafwijking ($\sigma$) wordt bij de t-procedures geschat met de steekproefstandaardafwijking ($s$).
* De t-toetsen zijn robuust, wat betekent dat ze redelijk accuraat blijven, zelfs als niet perfect aan de aanname van normaliteit is voldaan, vooral bij grotere steekproeven.
* **Geschatte populatiestandaardafwijking ($s$):** De standaardafwijking berekend op basis van steekproefdata, gebruikt als schatter voor $\sigma$.
* **Vrijheidsgraden ($df$):** Cruciaal voor het bepalen van de specifieke t-verdeling; meestal $df = n-1$ voor één steekproef.
* **t-verdeling versus z-verdeling:** De t-verdeling heeft dikkere staarten dan de z-verdeling, wat een gevolg is van het schatten van $\sigma$ met $s$.
* **Robuustheid:** T-procedures zijn relatief ongevoelig voor schendingen van de aanname van normaliteit, met name bij voldoende grote steekproeven.
* **Betrouwbaarheidsinterval (BI) met t-verdeling:** Berekend met de t-waarde (in plaats van z-waarde) als schatter voor $\mu$ wanneer $\sigma$ onbekend is. De formule is: $\bar{x} \pm t^{\ast} \times \frac{s}{\sqrt{n}}$.
* **1-steekproef t-toets:** Gebruikt om te toetsen of een populatiegemiddelde ($\mu$) afwijkt van een specifieke waarde, wanneer $\sigma$ onbekend is. De toetsingsgrootheid is $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$.
* **Voorwaarden voor t-procedures:**
* Populatie is (bij benadering) normaal verdeeld of de steekproefgrootte is voldoende groot ($n > 30$).
* Onafhankelijkheid van waarnemingen binnen de steekproef.
* Het gebruik van de t-verdeling is essentieel voor nauwkeurige inferentie wanneer de populatiestandaardafwijking onbekend is, wat in de praktijk zeer vaak voorkomt.
* Lagere vrijheidsgraden (kleine steekproeven) leiden tot bredere t-verdelingen, wat resulteert in bredere betrouwbaarheidsintervallen en minder onderscheidingsvermogen van toetsen.
* Bij het interpreteren van resultaten van t-toetsen is het cruciaal om rekening te houden met de vrijheidsgraden en de bijbehorende t-verdeling.
* De robuustheid van t-procedures biedt flexibiliteit bij het toepassen ervan, maar bewuste controle op schendingen van aannames blijft belangrijk.
### Voorbeelden
* **1-steekproef t-betrouwbaarheidsinterval:** Het schatten van het gemiddelde aantal uren dat studenten studeren per week, met onbekende populatiestandaardafwijking.
---
* Inferentie stelt onderzoekers in staat om uitspraken te doen over een populatie op basis van steekproefgegevens.
* De t-verdeling wordt gebruikt bij inferentie wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden uit de steekproefstandaardafwijking ($s$).
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), maar heeft dikkere staarten.
* Dikkere staarten betekenen een hogere kans op extremere waarden, wat essentieel is bij het bepalen van significantie.
* De t-verdeling is afhankelijk van het aantal vrijheidsgraden ($df$), dat meestal gelijk is aan de steekproefgrootte minus één ($n-1$).
* Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de standaardnormaalverdeling.
* De t-verdeling wordt gebruikt wanneer $\sigma$ onbekend is, terwijl de z-verdeling wordt gebruikt wanneer $\sigma$ bekend is.
* **William Sealy Gosset ('Student'):** Ontwikkelaar van de t-verdeling, die publiceerde onder het pseudoniem 'Student' vanwege vertrouwelijkheid bij de Guinness brouwerij.
* **Steekproevenverdeling van het gemiddelde indien $\sigma$ onbekend:** Bij het standaardiseren van het steekproefgemiddelde met $s$ in plaats van $\sigma$, resulteert dit in een t-verdeling.
* **Vrijheidsgraden ($df$):** Het aantal onafhankelijke gegevenspunten die vrij kunnen variëren in een berekening. Voor een steekproefgemiddelde is dit $n-1$.
* **Tabel D (kritieke t-waarden):** Tabel die kritieke t-waarden ($t^{\ast}$) weergeeft voor verschillende niveaus van vrijheidsgraden en betrouwbaarheidsniveaus.
* **Robuustheid van t-procedures:** T-procedures zijn redelijk robuust tegen schendingen van de normaliteitsaanname, vooral bij grotere steekproeven.
* **Betrouwbaarheidsinterval (BI) voor $\mu$ met onbekende $\sigma$:** Berekend als $\bar{x} \pm t^{\ast} \times SE$, waarbij $SE = s / \sqrt{n}$.
* **1-steekproef t-toets:** Gebruikt om te testen of een steekproefgemiddelde significant afwijkt van een hypothetische populatiewaarde wanneer $\sigma$ onbekend is. De toetsingsgrootheid is $t = (\bar{x} - \mu_0) / (s / \sqrt{n})$.
* **T-toets voor gekoppelde paren (Paired samples t-test):** Vergelijkt de gemiddelde verschillen tussen gepaarde waarnemingen (bv. voor- en nametingen). Dit wordt gereduceerd tot een 1-steekproef t-toets op de verschilscores.
* **T-toets voor onafhankelijke steekproeven (Independent samples t-test):** Vergelijkt de gemiddelden van twee onafhankelijke groepen. Wanneer $\sigma$ onbekend is, wordt een benadering gebruikt waarbij de vrijheidsgraden conservatief worden bepaald.
* Het gebruik van de t-verdeling zorgt voor nauwkeurigere inferentie wanneer de populatiestandaardafwijking onbekend is, met name bij kleinere steekproeven.
* De t-verdeling erkent de extra onzekerheid die voortkomt uit het schatten van $\sigma$ uit de steekproefdata.
* De keuze tussen een eenzijdige of tweezijdige t-toets is cruciaal en beïnvloedt de kritieke waarde en conclusie.
- > **Tip:** Bij het rapporteren van t-toetsen in APA-stijl is het essentieel om de toetsingsgrootheid ($t$), de vrijheidsgraden ($df$), de p-waarde, en indien relevant, het betrouwbaarheidsinterval en de effectgrootte te
- vermelden
- > **Voorbeeld:** Een 1-steekproef t-toets voor de gemiddelde bloeddruk van een groep patiënten wordt uitgevoerd
- De steekproef laat een gemiddelde bloeddruk zien van 130 mmHg met een standaardafwijking van 10 mmHg uit een steekproef van 25 patiënten
- Als de hypothetische populatiegemiddelde bloeddruk 120 mmHg is, wordt de t-toetsingsgrootheid berekend als $t = (130 - 120) / (10 / \sqrt{25}) = 10 / (10 / 5) = 10 / 2 = 5$
- Met $df = 24$ en een tweezijdige test, wordt de p-waarde bepaald om te zien of dit verschil significant is
---
* De t-verdeling is een theoretische kansverdeling die wordt gebruikt voor inferentie over populatiegemiddelden wanneer de populatiestandaardafwijking onbekend is.
* Deze verdeling is conceptueel vergelijkbaar met de normaalverdeling (z-verdeling), maar heeft dikkere staarten, wat het gevolg is van het schatten van de populatiestandaardafwijking uit de steekproefgegevens.
* De t-verdeling is ontwikkeld door William Sealy Gosset, die onder het pseudoniem 'Student' publiceerde.
* De vorm van de t-verdeling wordt bepaald door het aantal vrijheidsgraden ($df$), wat meestal gelijk is aan de steekproefgrootte min één ($df = n - 1$).
* Bij kleine steekproeven is de t-verdeling essentieel om de kans op fouten (type I en type II) correct te evalueren.
- Zonder de t-verdeling, bij het schatten van $\sigma$ met $s$, zouden de berekende overschrijdingskansen te laag zijn, wat leidt tot een verhoogd risico op het onterecht verwerpen van de nulhypothese
* **Vrijheidsgraden ($df$)**: Het aantal onafhankelijke waarden die vrij kunnen variëren in een steekproefberekening. Voor een 1-steekproef t-test is dit $n-1$.
* **T-statistiek**: Een gestandaardiseerde maat die aangeeft hoeveel standaardfouten het steekproefgemiddelde ($\bar{x}$) verwijderd is van het hypothetische populatiegemiddelde ($\mu$).
- $$t = \frac{\bar{x} - \mu}{s / \sqrt{n}}$$
- waarbij $s$ de steekproefstandaardafwijking is
* **T-verdeling vs. Z-verdeling**: De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat extremere waarden waarschijnlijker zijn bij kleinere steekproeven.
* **Robuustheid van t-procedures**: T-procedures zijn redelijk robuust voor schendingen van de normaliteitsaanname, vooral bij grotere steekproeven, hoewel extreme scheefheid of uitschieters problematisch kunnen zijn.
* **1-steekproef t-betrouwbaarheidsinterval**: Een intervalschatting voor het populatiegemiddelde $\mu$ wanneer $\sigma$ onbekend is. De algemene vorm is $\bar{x} \pm t^{\ast} \times \frac{s}{\sqrt{n}}$.
* **1-steekproef t-toets**: Een hypothesetoets om te bepalen of een populatiegemiddelde significant verschilt van een hypothetische waarde. De toetsingsgrootheid is de t-statistiek.
- **Gepaarde t-toets**: Wordt gebruikt om het gemiddelde verschil tussen twee gerelateerde metingen (bv. voor- en nameting) te vergelijken. De data wordt getransformeerd naar verschilscores, en hierop wordt een 1-steekproef t-toets
* **Onafhankelijke t-toets**: Wordt gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken. De berekening van de toetsingsgrootheid kan complexer zijn wanneer de populatiestandaardafwijkingen ongelijk zijn.
- Bij inferentie met kleine steekproeven is het cruciaal om de t-verdeling te gebruiken in plaats van de z-verdeling, omdat deze de grotere onzekerheid door het schatten van de standaardafwijking correct
* Het aantal vrijheidsgraden speelt een belangrijke rol in de nauwkeurigheid van de inferentie; meer vrijheidsgraden leiden tot een t-verdeling die dichter bij de normaalverdeling ligt.
* De t-procedures vereisen dat de steekproef willekeurig is en dat de populatie (ongeveer) normaal verdeeld is, of dat de steekproefgrootte voldoende groot is (centrale limietstelling).
* Het correct rapporteren van t-toetsresultaten omvat de toetsingsgrootheid, vrijheidsgraden, p-waarde, betrouwbaarheidsinterval en indien relevant, de effectgrootte.
### Tips
* **Tip:** Controleer altijd de aannames van de t-toetsen (randomisatie, normaliteit/grote steekproefgrootte, onafhankelijkheid) voordat je de resultaten interpreteert.
* **Tip:** Bij kleine steekproeven is de robuustheid van de t-toets ten aanzien van de normaliteitsaanname beperkter; wees voorzichtig met de interpretatie als de data sterk afwijkt van normaal verdeeld.
- **Tip:** Onthoud dat bij het vergelijken van twee populatiegemiddelden met de t-toets, je ofwel de t-verdeling gebruikt (indien populatie-varianties ongelijk of onbekend zijn) of, bij bekende en gelijke populatie-varianties, de
---
* De t-verdeling wordt gebruikt voor inferentie over populatiegemiddelden wanneer de populatiestandaardafwijking $(\sigma)$ onbekend is en geschat moet worden met de steekproefstandaardafwijking $(s)$.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat resulteert in grotere kritieke waarden en een grotere kans op Type I fouten bij gebruik van dezelfde significantieniveaus.
* Het aantal vrijheidsgraden $(df)$, gerelateerd aan de steekproefgrootte $(n)$, bepaalt de specifieke vorm van de t-verdeling; grotere $df$ benaderen de normaalverdeling.
* **Student's t-verdeling**: Een reeks verdelingen die de steekproevenverdeling van het gemiddelde weergeven wanneer $\sigma$ onbekend is en geschat wordt met $s$.
* **Vrijheidsgraden (df)**: Het aantal onafhankelijke gegevenspunten dat vrij kan variëren bij het schatten van een parameter. Voor een 1-steekproef t-toets is $df = n - 1$.
* **t-waarde**: Een gestandaardiseerde score die aangeeft hoeveel standaardfouten het steekproefgemiddelde $(\bar{x})$ afwijkt van het populatiegemiddelde $(\mu)$, berekend met $s$ in plaats van $\sigma$.
* **1-steekproef t-betrouwbaarheidsinterval**: Een interval rond $\bar{x}$ dat met een bepaald betrouwbaarheidsniveau $(\text{bv. } 95\%)$ het populatiegemiddelde $(\mu)$ bevat. Het wordt berekend met een kritieke t-waarde $(t^*)$ afhankelijk van $df$ en het betrouwbaarheidsniveau.
- $$\text{BI} = \bar{x} \pm t^* \left( \frac{s}{\sqrt{n}} \right)$$
* **1-steekproef t-toets**: Een hypothesetoets om te bepalen of een steekproefgemiddelde significant afwijkt van een hypothetisch populatiegemiddelde $(\mu_0)$, waarbij de t-verdeling wordt gebruikt.
* **t-toets voor gekoppelde paren**: Vergelijkt de gemiddelden van twee gerelateerde metingen (bv. voor/na-meting) door het gemiddelde van de verschilscores te toetsen met een 1-steekproef t-toets.
* **t-toets voor onafhankelijke steekproeven**: Vergelijkt de gemiddelden van twee onafhankelijke groepen. Vereist een pooling van varianties of een aanpassing van de vrijheidsgraden als de populatievarianties ongelijk zijn.
### Key facts
* William Sealy Gosset publiceerde onder het pseudoniem 'Student', vandaar de term 'Student's t-verdeling'.
* De t-verdeling heeft dikkere staarten dan de z-verdeling, wat betekent dat er meer kans is om extreme waarden te observeren door toeval.
* Hoe groter de steekproef $(n)$, hoe kleiner de standaardfout en hoe meer de t-verdeling de normaalverdeling benadert.
* De voorwaarden voor t-procedures omvatten willekeurige steekproeven, (bij benadering) normale populatieverdeling, en onafhankelijkheid van waarnemingen.
* Bij het schatten van de populatiestandaardafwijking $(s)$ voor de standaardfout, wordt gedeeld door $n-1$ (vrijheidsgraden).
* Rapportering in APA-stijl voor t-toetsen omvat de toetsingsgrootheid, vrijheidsgraden, p-waarde, betrouwbaarheidsinterval, en effectgrootte (bv. Cohen's d).
* Het gebruik van $s$ in plaats van $\sigma$ introduceert extra onzekerheid, wat leidt tot een bredere t-verdeling en grotere betrouwbaarheidsintervallen of hogere drempels voor significantie.
* Kleinere steekproeven vereisen zorgvuldige controle van de normaliteitsaanname, aangezien de t-verdeling minder robuust is bij scheve verdelingen.
* Het onderscheidingsvermogen (power) van een t-toets wordt beïnvloed door de effectgrootte, de steekproefgrootte, en het significantieniveau $(\alpha)$.
* Gekoppelde paren ontwerpen verhogen de power door het elimineren van individuele verschillen tussen metingen.
* Bij het vergelijken van meerdere groepen, leidt herhaaldelijk testen met t-toetsen tot inflatie van de Type I foutkans $(\alpha)$; hiervoor worden ANOVA of andere methoden gebruikt.
---
# Variantieanalyse (ANOVA) voor het vergelijken van groepsgemiddelden
### Kernconcepten
* Inferentiële statistiek stelt ons in staat conclusies te trekken over populaties op basis van steekproefgegevens.
* Steekproevenverdelingen beschrijven de variabiliteit van steekproefmaten (zoals het gemiddelde) als gevolg van steekproeftoeval.
* Betrouwbaarheidsintervallen bieden een bereik waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Significantietoetsen evalueren de kans dat waargenomen resultaten verklaard kunnen worden door toeval (nulhypothese).
### Kernfeiten
* Een betrouwbaarheidsinterval (BI) voor het populatiegemiddelde $\mu$ wordt berekend met de formule: $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$.
* De foutenmarge van een BI omvat de steekproefgemiddelde ($\bar{x}$), het betrouwbaarheidsniveau (via $Z$), de populatiestandaardafwijking ($\sigma$), en de steekproefgrootte ($n$).
* Een kleiner BI wordt verkregen door een grotere steekproefgrootte, een lager betrouwbaarheidsniveau, of een kleinere populatiestandaardafwijking.
* Een significantietoets volgt vier stappen: hypothesen formuleren, toetsingsgrootheid bepalen, overschrijdingskans ($p$) bepalen, en conclusie trekken.
* De nulhypothese ($H_0$) stelt meestal dat er geen verschil is tussen groepen of condities.
* De alternatieve hypothese ($H_a$) stelt dat er wel een verschil is.
* De $p$-waarde is de kans op het waargenomen resultaat (of extremer), aangenomen dat $H_0$ waar is.
* Als $p < \alpha$ (het significantieniveau), wordt $H_0$ verworpen.
* **Klassieke aanpak**: Gebruikt kansrekening en theoretische verdelingen (zoals binomiaal of normaal) om de $p$-waarde te berekenen.
* **Resampling (bootstrap)**: Simuleert vele steekproeven uit de data om empirisch de steekproevenverdeling te verkrijgen.
* Type I fout (vals positief): $H_0$ wordt onterecht verworpen ($\alpha$).
* Type II fout (vals negatief): $H_0$ wordt onterecht niet verworpen ($\beta$).
* Onderscheidingsvermogen (power) is de kans om $H_0$ correct te verwerpen wanneer $H_a$ waar is ($1 - \beta$).
### Belangrijke concepten en methoden
* **Z-toets**: Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) bekend is. De toetsingsgrootheid is gestandaardiseerd naar een standaard normaalverdeling.
* **Student's t-verdeling**: Gebruikt wanneer $\sigma$ geschat wordt op basis van de steekproefstandaardafwijking ($s$). De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat meer voorzichtigheid bij beslissingen vereist.
* Vrijheidsgraden ($df$) specificeren de vorm van de t-verdeling ($df = n - 1$ voor een 1-steekproef t-toets).
* Naarmate $df$ toeneemt, benadert de t-verdeling de normaalverdeling.
* **1-steekproef t-betrouwbaarheidsinterval**: Berekent een interval voor $\mu$ met $s$ in plaats van $\sigma$, met behulp van de t-verdeling.
* Formule: $\bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}$, waarbij $t^*$ de kritieke t-waarde is.
* **1-steekproef t-toets**: Toetst of een populatiegemiddelde $\mu$ significant verschilt van een hypothetische waarde (vaak 0).
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$.
---
### Kernidee
* Variatieanalyse (ANOVA) is een statistische techniek om te bepalen of er significante verschillen zijn tussen de gemiddelden van drie of meer groepen.
- Het hoofddoel is om de totale variatie in de data op te splitsen in delen die verklaard kunnen worden door verschillen tussen groepen en delen die verklaard kunnen worden door
### Belangrijke concepten
* **Totale Variantie**: De algehele spreiding van alle observaties rond het algemene gemiddelde.
* **Tussen-groep Variantie (Sum of Squares Between, SSB)**: De variatie tussen de groepen, gemeten als de gekwadrateerde verschillen tussen elk groepsgemiddelde en het algemene gemiddelde, gewogen door de groepsgroottes.
- **Binnen-groep Variantie (Sum of Squares Within, SSW)**: De variatie binnen elke groep, gemeten als de gekwadrateerde verschillen tussen elke observatie en het gemiddelde van zijn eigen groep. Dit vertegenwoordigt de
* **Vrijheidsgraden (df)**:
* df tussen groepen: $k - 1$, waarbij $k$ het aantal groepen is.
* df binnen groepen: $N - k$, waarbij $N$ het totale aantal observaties is.
* **Gemiddelde Kwadraten (Mean Squares, MS)**:
* $MSB = \frac{SSB}{df_{tussen}}$. Dit is een schatting van de populatievariantie als de groepsgemiddelden gelijk zijn.
* $MSW = \frac{SSW}{df_{binnen}}$. Dit is een schatting van de populatievariantie, ongeacht of de groepsgemiddelden gelijk zijn.
* **F-statistiek**: De ratio van de tussen-groep variantie tot de binnen-groep variantie: $F = \frac{MSB}{MSW}$. Een grotere F-statistiek duidt op grotere verschillen tussen de groepsgemiddelden ten opzichte van de variatie binnen de groepen.
### Sleutelpunten
* ANOVA veronderstelt:
* Onafhankelijke observaties binnen en tussen groepen.
* Normaliteit van de residuen (binnen-groep fouten) voor elke groep.
* Homogeniteit van varianties (gelijke varianties tussen de groepen).
* De F-statistiek volgt een F-verdeling met $df_{tussen}$ en $df_{binnen}$ vrijheidsgraden.
* Als de F-statistiek groter is dan de kritische waarde uit de F-tabel (voor een bepaald significantieniveau $\alpha$), wordt de nulhypothese verworpen.
* De nulhypothese ($H_0$) stelt dat alle groepsgemiddelden gelijk zijn ($\mu_1 = \mu_2 = \dots = \mu_k$).
* De alternatieve hypothese ($H_a$) stelt dat ten minste één groepsgemiddelde verschilt van de anderen.
### Toepassing en Interpretatie
* Een significant resultaat van de ANOVA test niet *welke* groepen verschillen, maar alleen *dat* er een verschil is.
* Post-hoc toetsen (zoals Tukey's HSD, Bonferroni) zijn nodig om te bepalen welke specifieke groepen significant van elkaar verschillen na een significante ANOVA.
* De effectgrootte (bv. $\eta^2$ - eta-squared) kwantificeert het proportionele deel van de totale variantie in de afhankelijke variabele dat verklaard wordt door de groepsverschillen.
* $\eta^2 = \frac{SSB}{SSTotale}$, waarbij $SSTotale = SSB + SSW$.
### Voorbeeld
* Onderzoek naar de effectiviteit van drie verschillende leerstrategieën op examenresultaten.
### Rapporteren
---
* Een betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen het echte populatiegemiddelde waarschijnlijk ligt.
* Bij een 95% BI verwacht men dat 95% van de herhaalde steekproeven een interval oplevert dat de ware populatiewaarde bevat.
* Significante toetsen helpen bij het bepalen of waargenomen verschillen in steekproeven waarschijnlijk ook in de populatie bestaan.
* De nulhypothese ($H_0$) stelt dat er geen verschil is tussen de groepen of populaties, terwijl de alternatieve hypothese ($H_a$) wel een verschil postuleert.
### Sleutelbegrippen en formules
* **Betrouwbaarheidsinterval (BI) voor het populatiegemiddelde ($\mu$)**:
- $$ \bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}} $$
* $\bar{x}$: Steekproefgemiddelde
* $z$: Z-waarde voor het gekozen betrouwbaarheidsniveau (bv. 1,96 voor 95%)
* $\sigma$: Populatie standaardafwijking
* $n$: Steekproefgrootte
* **Factoren die de breedte van een BI beïnvloeden**:
* Steekproefgemiddelde ($\bar{x}$)
* Z-score (betrouwbaarheidsniveau)
* Significatieniveau ($\alpha$)
* Populatie standaardafwijking ($\sigma$)
* Steekproefgrootte ($n$)
* **Gedrag van betrouwbaarheidsintervallen**:
* Een kleiner BI impliceert een hogere betrouwbaarheid (kleinere foutenmarge).
* Een kleiner BI wordt verkregen door:
* Een grotere steekproefgrootte ($n$).
* Een lager betrouwbaarheidsniveau (lagere $z$-waarde).
* Een kleinere populatie standaardafwijking ($\sigma$).
* **Significantietoets in vier stappen**:
- 1
- Formuleer de nul- en alternatieve hypothesen ($H_0$ en $H_a$)
### Cruciale vragen bij significantietoetsen
### Fouten bij significantietoetsen
### Onderscheidingsvermogen (Power)
### T-verdelingen
### T-betrouwbaarheidsinterval en T-toetsen
### Vergelijkingen van twee gemiddelden
---
* Betrouwbaarheidsintervallen (BI) schatten het bereik waarin een populatieparameter waarschijnlijk ligt.
* Significante toetsen evalueren de waarschijnlijkheid dat een waargenomen resultaat door toeval is ontstaan, gegeven de nulhypothese.
* Power (onderscheidingsvermogen) is de kans om een echt verschil te detecteren wanneer dit aanwezig is.
* T-toetsen worden gebruikt wanneer de populatie standaardafwijking onbekend is en geschat moet worden.
* **Betrouwbaarheidsinterval (BI):** Geeft een reeks waarden aan waarbinnen het populatiegemiddelde waarschijnlijk valt met een bepaalde mate van zekerheid (bv. 95%).
* **Formule BI:** $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$ (conceptueel, met vervanging door t-verdeling indien $\sigma$ onbekend is).
* $\bar{x}$: Steekproefgemiddelde.
* $Z$: Kritieke waarde voor het betrouwbaarheidsniveau.
* $\sigma$: Populatie standaardafwijking.
* $n$: Steekproefgrootte.
* **Significantieniveau ($\alpha$):** De kans op een Type I-fout (onterecht verwerpen van de nulhypothese), meestal ingesteld op 0,05.
* **P-waarde:** De kans op het observeren van de resultaten (of extremere resultaten) als de nulhypothese waar is.
* **Nulhypothese ($H_0$):** Stelt dat er geen verschil is tussen groepen of variabelen.
* **Alternatieve hypothese ($H_1$):** Stelt dat er wel een verschil is.
* **Type I fout (vals positief):** $H_0$ wordt verworpen terwijl deze waar is ($\alpha$).
* **Type II fout (vals negatief):** $H_0$ wordt niet verworpen terwijl deze onwaar is ($\beta$).
* **Power ($1 - \beta$):** De kans om een echt verschil te detecteren wanneer de alternatieve hypothese waar is.
### Factoren die BI en Power beïnvloeden
* **Steekproefgrootte ($n$):** Grotere $n$ leidt tot kleinere BI en hogere power.
* **Betrouwbaarheidsniveau (Z):** Hoger niveau leidt tot breder BI.
* **Standaardafwijking ($\sigma$):** Kleinere $\sigma$ leidt tot smaller BI en hogere power.
* **Effectgrootte:** Het werkelijke verschil tussen populatiegemiddelden; grotere effectgrootte leidt tot hogere power.
### T-verdelingen en inferentie wanneer $\sigma$ onbekend is
* **Student's t-verdeling:** Een familie van symmetrische verdelingen met dikkere staarten dan de normaalverdeling, afhankelijk van vrijheidsgraden ($df$).
* **Vrijheidsgraden ($df$):** Meestal $n-1$ voor een steekproef. Meer $df$ benadert de normale verdeling.
* **Reden voor t-verdeling:** De populatie standaardafwijking ($\sigma$) wordt geschat met de steekproefstandaardafwijking ($s$), wat onzekerheid introduceert.
### Toepassingen van t-toetsen
* **1-steekproef t-betrouwbaarheidsinterval:** Schat het populatiegemiddelde wanneer $\sigma$ onbekend is.
### Rapporteren van resultaten in APA-stijl
---
* Een betrouwbaarheidsinterval (BI) geeft een bereik aan waarbinnen het werkelijke populatiegemiddelde waarschijnlijk ligt, met een vooraf bepaald betrouwbaarheidsniveau.
* Een 95% BI betekent dat bij 95% van de herhaalde steekproeven het interval de werkelijke populatiewaarde bevat.
* De foutenmarge van een BI wordt beïnvloed door het steekproefgemiddelde ($\bar{x}$), het betrouwbaarheidsniveau (Z-score), het significantieniveau ($\alpha$), de populatiestandaardafwijking ($\sigma$) en de steekproefgrootte ($n$).
* Een kleiner BI suggereert een nauwkeurigere schatting en wordt verkregen door een grotere steekproefgrootte of een lager betrouwbaarheidsniveau.
* Een kleiner BI impliceert een hogere betrouwbaarheid, wat betekent dat de foutenmarge kleiner is.
### Belangrijke feiten
* Een kleiner BI kan worden verkregen door een grotere steekproef, een lager betrouwbaarheidsniveau, of een kleinere standaardafwijking van de populatie.
* Een hogere kostprijs, meer tijd en betere organisatie zijn vaak nodig voor een grotere steekproef.
* Een lager betrouwbaarheidsniveau (bv. 90% i.p.v. 95%) verhoogt het risico op foutieve beslissingen.
* Het verminderen van meetfouten en variabiliteit binnen groepen leidt tot een kleinere standaardafwijking, wat het BI smaller maakt.
* Significante toetsen volgen vier stappen: formuleren van hypothesen, bepalen van de toetsingsgrootheid, bepalen van de overschrijdingskans (p-waarde), en formuleren van de conclusie.
* De nulhypothese ($H_0$) stelt dat er geen verschil is tussen groepen.
* De alternatieve hypothese ($H_1$) stelt dat er wel een verschil is.
* Een p-waarde is de kans op het waargenomen resultaat of extremer, aangenomen dat de nulhypothese waar is.
* Als de p-waarde kleiner is dan het significantieniveau ($\alpha$), wordt de nulhypothese verworpen.
* De binomiaalverdeling benadert de normaalverdeling wanneer $n \times p \ge 10$.
### Sleutelconcepten
* **Betrouwbaarheidsinterval (BI):** Een interval rond een steekproefstatistiek dat met een bepaalde kans de populatieparameter bevat.
* Formule: $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$ (wanneer $\sigma$ bekend is)
* **Significantieniveau ($\alpha$):** De drempelwaarde voor het verwerpen van de nulhypothese (typisch 0,05).
* **Type I fout (vals positief):** De nulhypothese wordt verworpen terwijl deze waar is ($\alpha$).
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen terwijl deze onwaar is ($\beta$).
* **Onderscheidingsvermogen (Power, $1 - \beta$):** De kans dat de toets een significant verschil detecteert wanneer de alternatieve hypothese waar is.
* **Steekproevenverdeling van het verschil tussen twee gemiddelden:** Een verdeling die de mogelijke verschillen tussen steekproefgemiddelden weergeeft onder de nulhypothese.
* **Student's t-verdeling:** Een kansverdeling die gebruikt wordt wanneer de populatiestandaardafwijking onbekend is en geschat wordt uit de steekproef.
* Kenmerken: symmetrisch rond 0, dikkere staarten dan de normaalverdeling.
* Vrijheidsgraden (df): bepaalt de vorm van de t-verdeling; $df = n - 1$ voor een één-steekproef t-toets.
### Implicaties
### Tip
---
* ANOVA wordt gebruikt om gemiddelden van drie of meer groepen te vergelijken, wat een uitbreiding is op het vergelijken van twee groepen met een t-toets.
* Het vergelijken van meerdere groepen met afzonderlijke t-toetsen verhoogt het risico op een type I fout (onterecht H0 verwerpen) aanzienlijk.
* **Total Sum of Squares (SST):** Meet de totale variatie in de data rond het algehele gemiddelde.
* **Between-Groups Sum of Squares (SSB):** Meet de variatie tussen de groepsgemiddelden en het algehele gemiddelde. Dit vertegenwoordigt de variatie die door de groepsindeling wordt verklaard.
* **Within-Groups Sum of Squares (SSW):** Meet de variatie binnen elke groep rond het groepsgemiddelde. Dit vertegenwoordigt de resterende, niet-verklaarde variatie (foutvariatie).
* **Formule:** $SST = SSB + SSW$.
* **Variantie schatten:**
* Gemiddelde kwadraat tussen groepen ($MSB$): Gedeeltelijke verklaarde variantie.
- $$MSB = \frac{SSB}{df_{between}}$$
* Gemiddelde kwadraat binnen groepen ($MSW$): Gedeeltelijke onverklaarde variantie (foutvariantie).
- $$MSW = \frac{SSW}{df_{within}}$$
* **Vrijheidsgraden:**
* $df_{between}$: Aantal groepen - 1 ($k - 1$).
* $df_{within}$: Totaal aantal observaties - Aantal groepen ($N - k$).
* **F-toetsingsgrootheid:** De ratio van de tussen-groepen variantie tot de binnen-groepen variantie.
- $$F = \frac{MSB}{MSW}$$
* **F-verdeling:** De theoretische verdeling van de F-toetsingsgrootheid onder de nulhypothese, gekarakteriseerd door twee vrijheidsgraden ($df_{between}$ en $df_{within}$).
* Een hoge F-waarde (veel grotere tussen-groepsvariatie dan binnen-groepsvariatie) suggereert dat de groepsgemiddelden significant van elkaar verschillen.
* Een lage F-waarde suggereert dat de groepsgemiddelden waarschijnlijk niet significant van elkaar verschillen.
* ANOVA bepaalt of er *een* significant verschil is tussen *enkele* groepsgemiddelden, maar niet welke specifieke groepen van elkaar verschillen.
* Post-hoc toetsen zijn nodig om te bepalen welke specifieke groepen van elkaar verschillen na een significante ANOVA.
### Belangrijke overwegingen
* **Voorwaarden voor ANOVA:**
* Onafhankelijke steekproeven.
* Normaliteit van de residuen (binnen-groepsvariabiliteit).
* Homogeniteit van varianties (gelijke binnen-groepsvarianties, $MSW$).
---
* Variantieanalyse (ANOVA) is een statistische methode om de gemiddelden van drie of meer groepen te vergelijken.
* ANOVA analyseert de variantie binnen en tussen groepen om te bepalen of er een statistisch significant verschil is tussen de groepsgemiddelden.
* ANOVA is nuttig wanneer er meer dan twee groepen vergeleken moeten worden, om het probleem van cumulatieve Type I-fouten te vermijden dat optreedt bij meervoudige t-toetsen.
* De hoofdvraag bij ANOVA is of de waargenomen verschillen tussen groepsgemiddelden groter zijn dan wat op basis van willekeurige steekproeftoeval te verwachten is.
* ANOVA deelt de totale variantie in de data op in componenten die toe te schrijven zijn aan specifieke bronnen (factoren of groepen) en aan willekeurige fouten.
* De F-statistiek is de kern van ANOVA en wordt berekend als de verhouding van de variantie tussen de groepen tot de variantie binnen de groepen.
- $$ F = \frac{\text{Variantie tussen groepen}}{\text{Variantie binnen groepen}} $$
* Een hoge F-waarde suggereert dat de verschillen tussen de groepsgemiddelden significant zijn.
* De variantie tussen groepen (Mean Square Between, MSB) wordt geschat op basis van de verschillen tussen de groepsgemiddelden en het algemene gemiddelde.
* De variantie binnen groepen (Mean Square Within, MSW) wordt geschat op basis van de variantie binnen elke individuele groep (gemiddelde van de varianties binnen de groepen).
* De vrijheidsgraden (degrees of freedom, df) zijn cruciaal voor het interpreteren van de F-statistiek en worden berekend op basis van het aantal groepen en de steekproefgrootte per groep.
* df\_tussen = (aantal groepen) - 1
* df\_binnen = (totale steekproefgrootte) - (aantal groepen)
* De F-statistiek wordt vergeleken met kritieke waarden uit de F-verdeling (afhankelijk van df\_tussen en df\_binnen) om een p-waarde te bepalen.
* Als de p-waarde kleiner is dan het significantieniveau (α), wordt de nulhypothese (dat alle groepsgemiddelden gelijk zijn) verworpen.
* **Nulhypothese (H₀):** Alle groepsgemiddelden zijn gelijk (µ₁ = µ₂ = µ₃ = ...).
* **Alternatieve hypothese (H₁):** Ten minste één groepsgemiddelde verschilt van de anderen.
* **Sum of Squares (SS):** De som van de gekwadrateerde afwijkingen van de gemiddelden.
* **Total Sum of Squares (SST):** De totale gekwadrateerde afwijking van elk datapunt ten opzichte van het algemene gemiddelde.
* **Sum of Squares Between (SSB):** De gekwadrateerde afwijking die toe te schrijven is aan de verschillen tussen de groepsgemiddelden en het algemene gemiddelde.
* **Sum of Squares Within (SSW):** De gekwadrateerde afwijking die toe te schrijven is aan de willekeurige variatie binnen elke groep.
* $ \text{SST} = \text{SSB} + \text{SSW} $
* **Mean Square (MS):** De variantie, berekend als Sum of Squares gedeeld door de bijbehorende vrijheidsgraden.
* $ \text{MSB} = \frac{\text{SSB}}{\text{df}_{\text{tussen}}} $
* $ \text{MSW} = \frac{\text{SSW}}{\text{df}_{\text{binnen}}} $
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Term | Definitie |
| Inferentie | Het proces van het trekken van conclusies of het maken van algemene uitspraken over een populatie op basis van gegevens die zijn verzameld uit een steekproef van die populatie. |
| Steekproevenverdeling | Een frequentieverdeling van de resultaten van verschillende steekproeven, die beschrijft wat er gebeurt met een bepaalde karakteristieke maat (zoals het gemiddelde of de standaardafwijking) wanneer een onderzoek wordt herhaald. |
| Betrouwbaarheidsinterval (BI) | Een interval rond een steekproefstatistiek waarbinnen de werkelijke populatieparameter met een bepaalde mate van zekerheid wordt verwacht te liggen. Een 95% betrouwbaarheidsinterval geeft bijvoorbeeld de grenzen aan waarbinnen het echte populatiegemiddelde in 95% van de gevallen zal liggen. |
| Significantieniveau ($\alpha$) | Een vooraf vastgestelde kritische grens, meestal 5%, die aangeeft wanneer de nulhypothese wordt verworpen. Het vertegenwoordigt het risico op een Type I-fout. |
| P-waarde | De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is. Een lage p-waarde (typisch lager dan $\alpha$) leidt tot het verwerpen van de nulhypothese. |
| Nulhypothese ($H_0$) | Een statistische hypothese die stelt dat er geen effect, geen verschil of geen verband is tussen de onderzochte variabelen of groepen. |
| Alternatieve hypothese ($H_A$) | Een statistische hypothese die stelt dat er wel een effect, een verschil of een verband is tussen de onderzochte variabelen of groepen. |
| Type I-fout (vals positief) | De fout waarbij de nulhypothese ten onrechte wordt verworpen, terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau ($\alpha$). |
| Type II-fout (vals negatief) | De fout waarbij de nulhypothese niet wordt verworpen, terwijl deze in werkelijkheid onwaar is. De kans hierop wordt aangeduid met $\beta$. |
| Onderscheidingsvermogen (Power) | De kans dat een statistische toets een werkelijk bestaand effect of verschil (wanneer de alternatieve hypothese waar is) correct detecteert en de nulhypothese verwerpt. Het is gelijk aan $1 - \beta$. |
| t-verdeling | Een kansverdeling die lijkt op de normaalverdeling, maar dikkere staarten heeft. Deze verdeling wordt gebruikt bij inferentie wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en wordt geschat met de steekproefstandaardafwijking ($s$). |
| Vrijheidsgraden (df) | Een parameter die de vorm van de t-verdeling bepaalt. Voor veel t-toetsen is dit gelijk aan de steekproefgrootte minus 1 ($n-1$). Hoe groter het aantal vrijheidsgraden, hoe dichter de t-verdeling de normaalverdeling benadert. |
| Type I fout (vals positief) | De fout waarbij de nulhypothese onterecht wordt verworpen, terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau ($\alpha$). |
| Type II fout (vals negatief) | De fout waarbij de nulhypothese niet wordt verworpen, terwijl deze in werkelijkheid onjuist is. De kans hierop wordt aangeduid met $\beta$. |
| t-toets | Een statistische toets die wordt gebruikt om gemiddelden van één of twee groepen te vergelijken wanneer de populatiestandaardafwijking onbekend is. Er zijn verschillende soorten t-toetsen, zoals de 1-steekproef t-toets, de t-toets voor gekoppelde paren en de t-toets voor onafhankelijke steekproeven. |
| Toetsingsgrootheid | Een statistische waarde die wordt berekend uit steekproefgegevens en die wordt gebruikt om de nulhypothese te toetsen. Voorbeelden zijn de z-score of de t-score. |
| Steekproefgrootte ($n$) | Het aantal observaties of eenheden in een steekproef. Een grotere steekproefgrootte leidt over het algemeen tot een kleiner betrouwbaarheidsinterval en een groter onderscheidingsvermogen. |
| Standaardfout (SE) | De standaardafwijking van de steekproevenverdeling van een statistiek. Het meet de variabiliteit van de steekproefstatistiek rond de populatieparameter. |
| Significantieniveau (α) | Een vooraf vastgestelde kritische grens, meestal 5%, die aangeeft wanneer de nulhypothese wordt verworpen. Het vertegenwoordigt het risico op een foutieve beslissing (Type I-fout) bij het verwerpen van de nulhypothese. |
| Nulhypothese (H0) | Een stelling die stelt dat er geen verschil of verband bestaat tussen de onderzochte groepen of variabelen. Het is de hypothese die getoetst wordt en die, indien verworpen, leidt tot acceptatie van de alternatieve hypothese. |
| Alternatieve hypothese (HA) | Een stelling die stelt dat er wel een verschil of verband bestaat tussen de onderzochte groepen of variabelen. Deze hypothese wordt geaccepteerd als de nulhypothese wordt verworpen. |
| Overschrijdingskans (p-waarde) | De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is. Een lage p-waarde suggereert dat de waargenomen data onwaarschijnlijk zijn onder de nulhypothese. |
| Standaardfout | De standaardafwijking van de steekproevenverdeling. Het geeft een indicatie van de spreiding van steekproefstatistieken rondom de populatieparameter. |
| Z-toets | Een statistische toets die wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) bekend is. Het standaardiseert de steekproefstatistiek om deze te kunnen vergelijken met een standaard normaalverdeling. |
| Analyse van variantie (ANOVA) | Een statistische methode die wordt gebruikt om de verschillen tussen de gemiddelden van drie of meer groepen te analyseren. Het deelt de totale variatie in de gegevens op in verschillende componenten die aan verschillende bronnen van variatie worden toegeschreven. |
| Binomiaalverdeling | Een discrete kansverdeling die de kans beschrijft op een bepaald aantal successen in een vast aantal onafhankelijke experimenten, waarbij elk experiment slechts twee mogelijke uitkomsten heeft (succes of mislukking). |
| Effectgrootte | De mate waarin een fenomeen aanwezig is in een populatie, of de mate waarin een nulhypothese onjuist is. Het is de afstand tussen de gemiddelden van de nulhypothese en de alternatieve hypothese. |
| Kritieke waarde | Een drempelwaarde die wordt gebruikt in statistische toetsen om te bepalen of een resultaat statistisch significant is. Als de toetsingsgrootheid groter is dan de kritieke waarde, wordt de nulhypothese verworpen. |
| Post-hoc toetsen | Statistische toetsen die worden uitgevoerd na een significante ANOVA om te bepalen welke specifieke groepen significant van elkaar verschillen. |
| Resampling (Bootstrap) | Een methode waarbij herhaaldelijk steekproeven met teruglegging worden getrokken uit de oorspronkelijke steekproef om een empirische steekproevenverdeling te creëren. |
| Significantietoets | Een statistische procedure om te bepalen of de waargenomen resultaten van een steekproef voldoende bewijs leveren om de nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Inferentiële statistiek | Het proces van het trekken van conclusies of het maken van algemene uitspraken over een populatie op basis van gegevens die zijn verzameld uit een steekproef van die populatie. |
| Significantietoets (Hypothesetoets) | Een statistische procedure om te bepalen of er voldoende bewijs is in de steekproefgegevens om de nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Z-verdeling (Standaard normaalverdeling) | Een symmetrische, klokvormige kansverdeling met een gemiddelde van 0 en een standaardafwijking van 1, die gebruikt wordt wanneer de populatiestandaardafwijking bekend is. |
| Hypothesetoets | Een statistische procedure om te bepalen of er voldoende bewijs is om een nulhypothese te verwerpen ten gunste van een alternatieve hypothese, gebaseerd op steekproefgegevens. |
| Z-score | Een gestandaardiseerde score die aangeeft hoeveel standaardafwijkingen een bepaalde waarde afwijkt van het gemiddelde. Wordt gebruikt bij z-toetsen wanneer de populatiestandaardafwijking bekend is. |
| Z-verdeling | Een standaard normaalverdeling met een gemiddelde van 0 en een standaardafwijking van 1. Deze wordt gebruikt bij statistische toetsen wanneer de populatiestandaardafwijking (σ) bekend is. |
| Nulhypothese (H₀) | Een stelling die stelt dat er geen effect, geen verschil of geen verband is tussen variabelen. Het doel van statistische toetsen is vaak om deze hypothese te verwerpen. |
| Alternatieve hypothese (H₁) | Een stelling die het tegenovergestelde beweert van de nulhypothese; er is wel een effect, een verschil of een verband. |
Cover
Statistiek 2025.docx
Summary
# Cruciale vragen bij significantietoetsen en onderscheidingsvermogen
### Kernidee
* Inferentiële statistiek beoogt conclusies te trekken over populaties op basis van steekproefdata.
* Significantietoetsen helpen bij het beoordelen of waargenomen verschillen in steekproeven waarschijnlijk niet op toeval berusten, maar wijzen op een reëel verschil in de populatie.
* Onderscheidingsvermogen (power) is de kans dat een toets een werkelijk bestaand verschil op populatieniveau kan detecteren.
### Belangrijke feiten
* Betrouwbaarheidsintervallen (BI) schatten een bereik waarbinnen de populatieparameter waarschijnlijk ligt.
* Een 95% BI betekent dat bij 95% van de herhaalde steekproeven het interval de populatiewaarde bevat.
* De breedte van een BI wordt beïnvloed door steekproefgrootte ($n$), betrouwbaarheidsniveau ($Z$), en populatiestandaardafwijking ($\sigma$).
* **Significantietoetsen beantwoorden de vraag: "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?" (gerelateerd aan $\alpha$).**
* **Onderscheidingsvermogen (power) beantwoordt de vraag: "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?"**
* Power is de kans om een werkelijk bestaand verschil te detecteren als dat verschil de moeite waard is.
* Type I fout (vals positief): $\alpha$, de kans om de nulhypothese te verwerpen terwijl deze waar is.
* Type II fout (vals negatief): $\beta$, de kans om de nulhypothese niet te verwerpen terwijl deze onwaar is.
* Onderscheidingsvermogen (power) = $1 - \beta$.
### Belangrijke concepten
* **Nulhypothese ($H_0$)**: Stelt dat er geen verschil of verband is.
* **Alternatieve hypothese ($H_A$)**: Stelt dat er wel een verschil of verband is.
* **Toetsingsgrootheid**: Een statistiek berekend uit de steekproef, gebruikt om de nulhypothese te toetsen (bv. z-score, t-score).
* **Overschrijdingskans (p-waarde)**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat $H_0$ waar is.
* **Significantieniveau ($\alpha$)**: De drempelwaarde (meestal 0,05) waaronder de p-waarde leidt tot verwerping van $H_0$.
* **Kritieke waarde**: De grens van het verwerpingsgebied voor de toetsingsgrootheid.
* **Resampling (bootstrap)**: Een methode om de steekproevenverdeling te schatten door herhaaldelijk steekproeven te trekken uit de oorspronkelijke steekproef.
* **T-verdeling**: Een waarschijnlijkheidsverdeling die lijkt op de normaalverdeling maar dikkere staarten heeft, gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt door de steekproefstandaardafwijking ($s$).
* **Vrijheidsgraden (df)**: Parameter die de vorm van de t-verdeling bepaalt (vaak $n-1$ voor een 1-steekproef t-toets).
* **Gepaarde t-toets**: Vergelijkt gemiddelden van twee gerelateerde metingen (bv. voor- en nameting) door de gemiddelde verschillen te analyseren.
* **Onafhankelijke t-toets**: Vergelijkt gemiddelden van twee onafhankelijke groepen.
### Implicaties
* Een lage p-waarde (< $\alpha$) suggereert dat het waargenomen resultaat onwaarschijnlijk is onder $H_0$, wat leidt tot verwerping van $H_0$.
* Een hoge power ($1 - \beta$) is wenselijk om werkelijke effecten te kunnen detecteren.
### Veelvoorkomende valkuilen
---
### Kernconcepten
* Inferentiële statistiek gebruikt steekproefdata om conclusies te trekken over een populatie.
* Steekproevenverdelingen beschrijven de spreiding van steekproefstatistieken (bv. gemiddelden) over meerdere herhalingen van een onderzoek.
* Betrouwbaarheidsintervallen schatten het bereik waarin de populatieparameter waarschijnlijk ligt.
* Significantietoetsen beoordelen of waargenomen verschillen groot genoeg zijn om de nulhypothese te verwerpen.
### Kernfeiten
* Een 95% betrouwbaarheidsinterval betekent dat bij 100 herhalingen 95 intervallen de werkelijke populatiewaarde bevatten.
* Het betrouwbaarheidsinterval wordt beïnvloed door het steekproefgemiddelde ($\bar{x}$), het betrouwbaarheidsniveau (Z-score), de populatiestandaardafwijking ($\sigma$) en de steekproefgrootte ($n$).
* Een grotere steekproefgrootte leidt tot een smaller, preciezer betrouwbaarheidsinterval.
* Een lager betrouwbaarheidsniveau (bv. 90% i.p.v. 95%) leidt tot een smaller interval, maar met een hoger risico op een type I-fout.
* Significantietoetsen volgen typisch vier stappen: hypothesen formuleren, toetsingsgrootheid bepalen, overschrijdingskans (p-waarde) bepalen en conclusie formuleren.
* De nulhypothese ($H_0$) stelt dat er geen verschil of verband is; de alternatieve hypothese ($H_a$) stelt dat er wel een verschil of verband is.
* De p-waarde is de kans op het waargenomen resultaat (of extremer), aangenomen dat $H_0$ waar is.
### Kernconcepten en Implicaties
* **Type I-fout (vals positief):** Het verwerpen van $H_0$ terwijl deze waar is. De kans hierop is gelijk aan het significantieniveau ($\alpha$).
* *Implicatie:* Te streng zijn met $\alpha$ kan leiden tot het missen van werkelijke effecten.
* **Type II-fout (vals negatief):** Het niet verwerpen van $H_0$ terwijl deze onwaar is. De kans hierop is $\beta$.
* *Implicatie:* Een lage power vergroot de kans op een type II-fout.
* **Onderscheidingsvermogen (Power, $1-\beta$):** De kans om $H_0$ correct te verwerpen wanneer $H_a$ waar is (dus een werkelijk effect detecteren).
* *Implicatie:* Een hoog onderscheidingsvermogen is cruciaal om kleine maar relevante effecten te kunnen detecteren.
* **Factoren die Power beïnvloeden:**
* **Effectgrootte:** Grotere werkelijke verschillen zijn makkelijker te detecteren (verhoogt power).
* **Steekproefgrootte ($n$):** Grotere steekproeven vergroten de power.
* **Significantieniveau ($\alpha$):** Een groter $\alpha$ (bv. 0,10 i.p.v. 0,05) verhoogt de power, maar ook de kans op een type I-fout.
* **Variabiliteit ($\sigma$):** Lagere populatievariantie verhoogt de power.
### Cruciale vragen
* Hoe groot is de kans dat mijn resultaat tot stand kwam als de nulhypothese waar zou zijn ($\alpha$)?
* Hoe groot is de kans dat mijn resultaat *niet* tot stand kwam als de nulhypothese waar zou zijn (en dus $H_a$ waar is) - dit raakt aan power?
### T-verdeling en inferentie bij onbekende $\sigma$
* De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en wordt geschat met de steekproefstandaardafwijking ($s$).
### Toepassingen: T-toetsen
### Rapporteren van resultaten (APA-stijl)
---
* Significantietoetsen helpen bij het interpreteren van steekproefdata om conclusies te trekken over populaties.
* De cruciale vragen draaien om de kans dat een resultaat door toeval ontstaat (alfa) en de kans om een echt bestaand verschil te detecteren (onderscheidingsvermogen/power).
* Een significantietoets evalueert de kans op waargenomen data als de nulhypothese waar zou zijn ($\alpha$).
* Onderscheidingsvermogen (power) is de kans om een echt bestaand verschil te detecteren als de alternatieve hypothese waar is (1 - $\beta$).
* Type I fout (vals positief): de nulhypothese onterecht verwerpen ($\alpha$).
* Type II fout (vals negatief): de nulhypothese onterecht aanvaarden ( $\beta$).
* Klassieke significantietoetsen gebruiken theoretische kansverdelingen (binomiaal, normaal).
* Resampling (bootstrap) methoden creëren empirische steekproevenverdelingen.
* De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking onbekend is en wordt geschat.
* T-verdelingen hebben dikkere staarten dan de normaalverdeling, vooral bij kleine steekproeven.
* Vrijheidsgraden (df) specificeren de vorm van een t-verdeling (df = n - 1).
* **Betrouwbaarheidsinterval (BI):** Een bereik rond het steekproefgemiddelde waarbinnen de populatieparameter waarschijnlijk ligt.
* Formule: $\bar{x} \pm Z \times \frac{\sigma}{\sqrt{n}}$ (voor bekende $\sigma$) of $\bar{x} \pm t^* \times \frac{s}{\sqrt{n}}$ (voor onbekende $\sigma$).
* Een kleiner BI betekent hogere precisie (grotere steekproef, lager betrouwbaarheidsniveau, kleinere spreiding).
* **Nulhypothese ($H_0$):** Stelt dat er geen effect of verschil is.
* **Alternatieve hypothese ($H_1$):** Stelt dat er wel een effect of verschil is.
* **P-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat $H_0$ waar is.
* Als $p < \alpha$, wordt $H_0$ verworpen.
* **Alfa ($\alpha$):** Het significantieniveau, de maximale kans op een Type I fout die men accepteert.
* **Bèta ($\beta$):** De kans op een Type II fout.
* **Onderscheidingsvermogen (Power = 1 - $\beta$):** De kans om $H_0$ correct te verwerpen wanneer $H_1$ waar is.
* Verhoogd door: grotere steekproefgrootte ($n$), grotere effectgrootte, grotere $\alpha$, kleinere $\sigma$.
* **Toetsingsgrootheid:** Een statistiek berekend uit de steekproefdata om hypotheses te toetsen (bv. $z$ of $t$).
* **Kritieke waarde:** De grens die bepaalt of een toetsingsgrootheid significant is.
* **Steekproevenverdeling van de verschillen:** De verdeling van mogelijke verschillen tussen steekproefgemiddelden.
### Voorbeelden
### Tips
---
* Cruciale vragen bij significantietoetsen richten zich op de kans op het waargenomen resultaat onder de nulhypothese en de kans op het waargenomen resultaat onder de alternatieve hypothese.
* Onderscheidingsvermogen (power) is de kans om een daadwerkelijk bestaand verschil op populatieniveau te detecteren.
### Sleutelbegrippen
* **Type I fout (vals positief)**: De nulhypothese wordt verworpen terwijl deze waar is ($\alpha$).
* Dit is de kans om te concluderen dat een medicijn werkt, terwijl het dat niet doet.
* **Type II fout (vals negatief)**: De nulhypothese wordt niet verworpen terwijl deze onwaar is ($\beta$).
* Dit is de kans om te concluderen dat een medicijn niet werkt, terwijl het dat wel doet.
* **Onderscheidingsvermogen (power)**: De kans om een echt verschil te detecteren wanneer dit aanwezig is ($1 - \beta$).
* Dit is de kans om correct te concluderen dat een medicijn werkt, als het ook echt werkt.
* **Alfa ($\alpha$)**: Het significantieniveau, de vooraf bepaalde kans op een Type I fout. Meestal 5%.
* **Bèta ($\beta$)**: De kans op een Type II fout.
* **Kritieke waarde**: De grens in de toetsingsverdeling waarboven (of waaronder) de nulhypothese wordt verworpen.
### Implicaties en relaties
* Alfa en bèta zijn gerelateerd; het verlagen van de ene verhoogt de andere, gegeven een vaste steekproefgrootte.
* Een grotere steekproefgrootte ($n$) vergroot het onderscheidingsvermogen.
* Een grotere effectgrootte (het werkelijke verschil tussen de groepen) vergroot het onderscheidingsvermogen.
* Een kleinere standaardafwijking ($\sigma$) vergroot het onderscheidingsvermogen.
* Het verhogen van het betrouwbaarheidsniveau (en dus het verlagen van $\alpha$) verkleint het onderscheidingsvermogen, tenzij de steekproefgrootte wordt aangepast.
* De keuze tussen een eenzijdige en tweezijdige toets beïnvloedt de kritieke waarde en daarmee het onderscheidingsvermogen.
### Toetsingsgrootheden en verdelingen
* De toetsingsgrootheid wordt berekend om te bepalen hoe ver het steekproefresultaat afwijkt van wat verwacht wordt onder de nulhypothese.
* Bij het schatten van de populatiestandaardafwijking ($\sigma$) uit een steekproef ($s$), wordt de t-verdeling gebruikt in plaats van de z-verdeling.
* De t-verdeling heeft dikkere staarten dan de z-verdeling, wat betekent dat grotere waarden nodig zijn om significantie te bereiken, vooral bij kleine steekproeven.
* Vrijheidsgraden ($df = n - 1$ voor een 1-steekproef test) specificeren de exacte vorm van de t-verdeling.
* De t-verdeling benadert de normaalverdeling naarmate de vrijheidsgraden toenemen.
* Bij het vergelijken van twee populaties met onbekende populatiestandaardafwijkingen, worden t-toetsen voor onafhankelijke of gekoppelde steekproeven gebruikt.
* Bij de t-toets voor onafhankelijke steekproeven wordt vaak een conservatieve schatting van de vrijheidsgraden gebruikt om de staarten dikker te maken en het risico op Type I fouten te minimaliseren.
### Onderscheidingsvermogen berekenen
* **Stap 1**: Bepaal de kritieke waarde onder de nulhypothese ($H_0$). Dit is de waarde waarboven/waaronder de nulhypothese wordt verworpen.
### Betrouwbaarheidsintervallen en hypothesetoetsen
---
* De focus ligt op het interpreteren van steekproefresultaten ten aanzien van de populatie, met specifieke aandacht voor het maken van beslissingen op basis van statistische toetsen.
* Twee fundamentele vragen staan centraal: de kans op het waargenomen resultaat onder de nulhypothese en de kans om een echt verschil te detecteren als de nulhypothese niet waar is.
* Een 95% betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen het populatiegemiddelde waarschijnlijk ligt, met 95% zekerheid.
* Het betrouwbaarheidsinterval wordt beïnvloed door het steekproefgemiddelde ($\bar{x}$), het betrouwbaarheidsniveau (Z-score), het significantieniveau ($\alpha$) en de populatiestandaardafwijking ($\sigma$), en de steekproefgrootte ($n$).
* Een kleinere foutenmarge (kleiner BI) leidt tot hogere betrouwbaarheid.
* Een kleiner BI wordt verkregen door een grotere steekproefgrootte of een lager betrouwbaarheidsniveau.
* De significantietoets volgt vier stappen: hypothesen formuleren, toetsingsgrootheid bepalen, overschrijdingskans (p-waarde) bepalen, en conclusie formuleren.
* Nulhypothese ($H_0$): Er is geen verschil. Alternatieve hypothese ($H_a$): Er is een verschil.
* De klassieke aanpak van hypothesetoetsen gebruikt kansrekening en theoretische verdelingen (bv. binomiaalverdeling).
* Resampling (bootstrap) is een alternatieve methode die simulaties gebruikt om een geobserveerde steekproevenverdeling te creëren.
* De p-waarde is de kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is.
* Als de p-waarde kleiner is dan $\alpha$ (het significantieniveau), wordt de nulhypothese verworpen.
* **Type I fout (vals positief):** De nulhypothese wordt onterecht verworpen ($\alpha$).
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen terwijl deze vals is ($\beta$).
* **Onderscheidingsvermogen (power):** De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is ($1 - \beta$).
* De power van een toets wordt beïnvloed door de effectgrootte (het verschil tussen populatiegemiddelden), de steekproefgrootte ($n$), en het gekozen significantieniveau ($\alpha$).
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* T-verdelingen hebben dikkere staarten dan de normale verdeling, wat betekent dat ze gevoeliger zijn voor extreme waarden.
* Vrijheidsgraden ($df$) specificeren de vorm van de t-verdeling en zijn typisch gelijk aan $n - 1$. Naarmate $df$ toeneemt, nadert de t-verdeling de normale verdeling.
* Bij het vergelijken van twee onafhankelijke groepen wordt vaak een t-toets voor onafhankelijke steekproeven gebruikt.
* Bij het vergelijken van metingen van dezelfde groep op twee verschillende momenten (bv. voor- en nameting) wordt een t-toets voor gekoppelde paren gebruikt.
* Het 1-steekproef t-betrouwbaarheidsinterval volgt dezelfde logica als bij een bekende $\sigma$, maar gebruikt de t-verdeling met $(n-1)$ vrijheidsgraden.
* Voorwaarden voor t-procedures: willekeurige steekproef, normale verdeling van de populatie (of voldoende grote steekproef ($n>30$)), en onafhankelijke waarnemingen.
* Hogere power vergroot de kans om een echt effect te detecteren en type II fouten te vermijden.
* Een grotere steekproefgrootte verhoogt de power van een toets.
---
* Significantietoetsen en onderscheidingsvermogen (power) zijn cruciaal voor het correct interpreteren van onderzoeksresultaten en het trekken van geldige conclusies over populaties op basis van steekproefdata.
* De kernvraag bij significantietoetsen betreft de kans op het waargenomen resultaat onder de nulhypothese, terwijl power gaat over de kans om een bestaand effect te detecteren.
* Een significantietoets evalueert de waarschijnlijkheid van de waargenomen data onder de aanname dat de nulhypothese (H₀) waar is.
* De p-waarde is de kans op het verkrijgen van een resultaat dat minstens zo extreem is als het waargenomen resultaat, gegeven dat H₀ waar is.
* Type I fout (vals positief) is het onterecht verwerpen van de nulhypothese (kans is $\alpha$).
* Type II fout (vals negatief) is het niet verwerpen van de nulhypothese terwijl deze vals is (kans is $\beta$).
* Onderscheidingsvermogen (power) is de kans om een echt bestaand effect (alternatieve hypothese, H₁) correct te detecteren en H₀ te verwerpen ($1 - \beta$).
* De power van een toets is afhankelijk van de effectgrootte, de steekproefgrootte, het significantieniveau ($\alpha$), en de variabiliteit in de data ($\sigma$).
* Klassieke hypothesetoetsen maken gebruik van theoretische verdelingen zoals de binomiale en normale verdeling.
* Resampling (bootstrap) methoden simuleren de steekproevenverdeling aan de hand van de geobserveerde data.
* De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking (s).
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat belangrijk is voor de interpretatie van kritieke waarden.
* Vrijheidsgraden (df), gelijk aan $n-1$ voor een één-steekproef t-test, bepalen de specifieke vorm van de t-verdeling.
* **Nulhypothese (H₀):** Stelt geen effect of verschil voor (bv. $\mu_1 = \mu_2$).
* **Alternatieve hypothese (H₁):** Stelt een effect of verschil voor (bv. $\mu_1 \neq \mu_2$, $\mu_1 > \mu_2$, of $\mu_1 < \mu_2$).
* **Significantieniveau ($\alpha$):** De vooraf bepaalde drempelwaarde voor het verwerpen van H₀ (typisch 0,05).
* **Toetsingsgrootheid:** Een statistiek berekend uit steekproefdata om H₀ te toetsen (bv. z-score, t-score).
* **Kritieke waarde:** De grens op de toetsingsverdeling die bepaalt of H₀ wordt verworpen.
* **P-waarde:** De waarschijnlijkheid van het observeren van de data, of extremere data, onder H₀.
* **Betrouwbaarheidsinterval (BI):** Een reeks waarden waarbinnen het populatieparameter waarschijnlijk ligt met een bepaald betrouwbaarheidsniveau.
* **Paired samples t-test:** Vergelijkt gemiddelden van twee gerelateerde metingen (bv. voor- en nameting).
* **Independent samples t-test:** Vergelijkt gemiddelden van twee onafhankelijke groepen.
* **Robustheid van t-procedures:** T-toetsen zijn redelijk robuust tegen schendingen van de normaliteitsaanname, vooral bij grotere steekproeven.
* Een lage p-waarde ($\leq \alpha$) leidt tot het verwerpen van H₀, wat suggereert dat het waargenomen effect waarschijnlijk niet door toeval is ontstaan.
* Een hoog onderscheidingsvermogen ($1 - \beta$) is wenselijk om reële effecten niet te missen.
---
* **Significante toetsen** onderzoeken de kans dat een onderzoeksresultaat verkregen is onder de aanname dat de nulhypothese waar is ($\alpha$).
* **Onderscheidingsvermogen (power)** onderzoekt de kans dat een significant verschil gedetecteerd kan worden wanneer de alternatieve hypothese waar is ($1-\beta$).
### Sleutelfeiten
* Een 95% betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen het populatiegemiddelde waarschijnlijk zal liggen.
* Het betrouwbaarheidsinterval wordt smaller bij een grotere steekproefgrootte ($n$) of een lager betrouwbaarheidsniveau.
* De p-waarde is de kans op een resultaat dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is.
* Als $p < \alpha$, wordt de nulhypothese verworpen.
* De steekproevenverdeling van het gemiddelde, indien $\sigma$ onbekend is, volgt een t-verdeling.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat er meer kans is op een Type I fout bij gelijke $\alpha$.
* De t-verdeling is afhankelijk van het aantal vrijheidsgraden ($df = n-1$).
* Hoge power is wenselijk om echte effecten te kunnen detecteren.
* Onderscheidingsvermogen wordt beïnvloed door:
* De effectgrootte (groter verschil = hogere power).
* Het significantieniveau $\alpha$ (grotere $\alpha$ = hogere power).
* De steekproefgrootte $n$ (grotere $n$ = hogere power).
* De standaardafwijking $\sigma$ (kleinere $\sigma$ = hogere power).
* Een kleine steekproefgrootte verhoogt de kans op een Type II fout.
* De keuze tussen een eenzijdige en tweezijdige toets kan de significantie van het resultaat beïnvloeden.
* Bij het vergelijken van meer dan twee groepen, verhoogt het aantal vergelijkingen het risico op Type I fouten (alfa-inflatie).
### Gebruik van t-verdelingen
* De **Student's t-verdeling** wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* De vorm van de t-verdeling is symmetrisch met een top op 0, maar heeft dikkere staarten dan de standaard normaalverdeling.
* De vrijheidsgraden ($df$) bepalen de specifieke t-verdeling; naarmate $df$ toeneemt, benadert de t-verdeling de normaalverdeling.
* **1-steekproef t-interval** en **1-steekproef t-toets** worden gebruikt om een populatiegemiddelde te schatten of te toetsen wanneer $\sigma$ onbekend is.
* Voorwaarden voor t-procedures: willekeurige steekproef, ongeveer normale populatieverdeling (vooral belangrijk bij kleine steekproeven), en onafhankelijke waarnemingen.
### Rapportage van toetsresultaten (APA-stijl)
---
# De t-verdeling en inferentie bij onbekende populatie standaardafwijking
### Kernidee
* De t-verdeling wordt gebruikt voor inferentie wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt uit de steekproef.
* Deze verdeling is conceptueel vergelijkbaar met de normaalverdeling maar heeft dikkere staarten, wat leidt tot conservatievere schattingen.
### Belangrijke feiten
* De t-verdeling is ontwikkeld door William Sealy Gosset ("Student").
* Een t-waarde geeft aan hoeveel standaardfouten een steekproefgemiddelde afwijkt van het populatiegemiddelde.
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden ($df$).
* Vrijheidsgraden ($df$) zijn meestal gelijk aan de steekproefgrootte minus 1 ($n-1$).
* Naarmate $df$ toeneemt, benadert de t-verdeling de standaard normaalverdeling.
* Wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$), leidt dit tot een steekproevenverdeling die dikkere staarten heeft dan de normaalverdeling.
* Het gebruik van $s$ in plaats van $\sigma$ vergroot de kans op het per ongeluk verwerpen van de nulhypothese (Type I fout) als men de normaalverdeling zou blijven gebruiken.
### Kernconcepten
* **T-verdeling**: Een continue kansverdeling die symmetrisch is rond 0, met dikkere staarten dan de normaalverdeling.
* **Vrijheidsgraden ($df$)**: Het aantal onafhankelijke gegevenspunten dat vrij kan variëren. Voor een t-test is dit meestal $n-1$.
* **Student's t-toets**: Een statistische toets die wordt gebruikt om conclusies te trekken over een populatiegemiddelde wanneer de populatiestandaardafwijking onbekend is.
* **1-steekproef t-betrouwbaarheidsinterval**: Biedt een reeks waarden waarbinnen het populatiegemiddelde naar verwachting ligt, met een bepaald betrouwbaarheidsniveau.
* De formule is: $\bar{x} \pm t^{\ast} \frac{s}{\sqrt{n}}$
* $\bar{x}$: steekproefgemiddelde
* $t^{\ast}$: kritieke t-waarde voor het gekozen betrouwbaarheidsniveau en $df$
* $s$: steekproefstandaardafwijking
* $n$: steekproefgrootte
* **1-steekproef t-toets**: Wordt gebruikt om te testen of een populatiegemiddelde significant verschilt van een hypothetische waarde.
* De toetsingsgrootheid is: $t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}}$
* $\mu$: hypothetisch populatiegemiddelde
* **Voorwaarden voor t-procedures**:
* Random steekproeftrekking.
* Populatie is min of meer normaal verdeeld, of de steekproefgrootte ($n$) is voldoende groot (bijvoorbeeld $n > 30$).
* Onafhankelijke waarnemingen binnen de steekproef en tussen de steekproeven (indien van toepassing).
### Implicaties
### Gebruik van de t-tabel
### Rapporteren van t-toets resultaten (APA-stijl)
---
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), maar wordt gebruikt wanneer de populatie standaardafwijking $\sigma$ onbekend is en geschat wordt met de steekproefstandaardafwijking $s$.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat er een grotere kans is op extreme waarden, vooral bij kleine steekproeven.
* Er bestaat niet één t-verdeling; er is een familie van t-verdelingen die wordt gespecificeerd door de vrijheidsgraden ($df$), wat meestal gelijk is aan de steekproefgrootte minus één ($n-1$).
* William Sealy Gosset ontwikkelde de t-verdeling, werkzaam onder het pseudoniem "Student".
* Wanneer $\sigma$ onbekend is en geschat wordt met $s$, leidt standaardisatie van het steekproefgemiddelde $\bar{x}$ tot een t-verdeling in plaats van een standaard normaalverdeling.
* De formule voor de t-toetsingsgrootheid is: $t = \frac{\bar{x} - \mu}{s/\sqrt{n}}$, waarbij $s$ de steekproefstandaardafwijking is.
* Als het aantal vrijheidsgraden ($df$) toeneemt, benadert de t-verdeling de normaalverdeling. Vanaf een bepaald punt kan de normaalverdeling worden gebruikt als benadering.
* De t-verdeling is symmetrisch rond nul en heeft een piek bij nul.
* Vrijheidsgraden ($df$) vertegenwoordigen het aantal onafhankelijke gegevenspunten dat vrij kan variëren bij het schatten van een parameter. Voor een enkele steekproef is dit $n-1$.
* Bij het schatten van de populatiestandaardafwijking wordt gedeeld door $n-1$ (in plaats van $n$) om een zuivere schatter te verkrijgen.
### Betrouwbaarheidsintervallen met de t-verdeling
* Het 1-steekproef t-betrouwbaarheidsinterval (BI) voor het populatiegemiddelde $\mu$ wordt berekend als: $\bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}$.
* De $t^*$-waarde is de kritieke waarde uit de t-verdeling die overeenkomt met het gekozen betrouwbaarheidsniveau en de vrijheidsgraden ($df = n-1$).
* **Voorwaarden voor een 1-steekproef t-BI:**
* Random steekproef.
* Populatiedata zijn (ongeveer) normaal verdeeld, of de steekproefgrootte is voldoende groot ($n > 30$) dankzij de centrale limietstelling.
* Onafhankelijke waarnemingen binnen de steekproef.
### Significantietsussen met de t-verdeling
* De 1-steekproef t-toets vergelijkt een steekproefgemiddelde $\bar{x}$ met een hypothesisch populatiegemiddelde $\mu_0$.
* De nulhypothese ($H_0$) stelt meestal dat er geen verschil is, bv. $\mu = \mu_0$.
* De alternatieve hypothese ($H_a$) kan eenzijdig zijn ($\mu > \mu_0$ of $\mu < \mu_0$) of tweezijdig ($\mu \neq \mu_0$).
* De t-toetsingsgrootheid $t$ kwantificeert het aantal standaardfouten dat het steekproefgemiddelde afwijkt van het hypothetische populatiegemiddelde.
* De p-waarde wordt bepaald uit de t-verdeling met de corresponderende vrijheidsgraden.
### T-toetsen voor twee gemiddelden
* **Gekoppelde t-toets (paired t-test):**
* Gebruikt voor afhankelijke steekproeven (bv. voor- en nametingen bij dezelfde personen).
* Analyseert de verschillen tussen gekoppelde paren.
* De nulhypothese is meestal dat het gemiddelde verschil $\mu_d = 0$.
---
### Kernbegrippen
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling) maar wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* Een t-waarde geeft aan hoeveel standaardfouten de waargenomen waarde verwijderd is van de verwachte waarde.
* De t-verdeling is symmetrisch rond 0 en heeft dikkere staarten dan de normaalverdeling, wat betekent dat grotere afwijkingen van het gemiddelde waarschijnlijker zijn.
### Vrijheidsgraden (degrees of freedom, df)
* De t-verdeling is niet één specifieke verdeling, maar een familie van verdelingen die worden gespecificeerd door het aantal vrijheidsgraden.
* Vrijheidsgraden hangen af van de steekproefgrootte; typisch is df = steekproefgrootte - 1 ($n-1$) voor één steekproef.
* Naarmate het aantal vrijheidsgraden toeneemt (en dus de steekproef groter wordt), benadert de t-verdeling de standaard normaalverdeling.
### -steekproef t-betrouwbaarheidsinterval
* Het 1-steekproef t-betrouwbaarheidsinterval ($BI$) voor het populatiegemiddelde ($\mu$) wordt berekend met een vergelijkbare formule als voor een bekende $\sigma$, maar gebruikt de t-verdeling met $n-1$ vrijheidsgraden.
* De formule is: $\bar{x} \pm t^\ast \times \frac{s}{\sqrt{n}}$.
* De foutenmarge bestaat uit de kritieke t-waarde ($t^\ast$) en de standaardfout ($\frac{s}{\sqrt{n}}$).
* Voorwaarden:
* Random steekproef (representativiteit).
* Populatie is normaal verdeeld of de steekproef is groot genoeg ($n > 30$) door de centrale limietstelling.
* Onafhankelijke waarnemingen.
### -steekproef t-toets
* Deze toets wordt gebruikt om te bepalen of een steekproefgemiddelde significant afwijkt van een hypothetisch populatiegemiddelde ($\mu$).
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}$.
* De p-waarde bepaalt de significantie door de kans te evalueren om het waargenomen resultaat (of extremer) te verkrijgen, aangenomen dat de nulhypothese waar is.
* Rapportage in APA-stijl omvat de toetsingsgrootheid ($t$), vrijheidsgraden ($df$), p-waarde, en indien beschikbaar, het betrouwbaarheidsinterval en de effectgrootte ($d$).
### T-toetsen voor 2 onafhankelijke steekproeven
* Gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken (between-subjects design).
* Nulhypothese: $\mu_1 = \mu_2$.
* **T-toets voor onafhankelijke steekproeven (indien $\sigma_1$ en $\sigma_2$ onbekend zijn):**
* Toetsingsgrootheid ($t$) is complexer en niet strikt t-verdeeld; vereist benadering.
* Vaak wordt een conservatieve benadering van vrijheidsgraden gebruikt (bv. $\min(n_1-1, n_2-1)$) om dikkere staarten te creëren en de kans op een type I-fout te beperken.
* **Z-test voor 2 onafhankelijke steekproeven (indien $\sigma_1$ en $\sigma_2$ bekend zijn):**
* Toetsingsgrootheid ($z$) is gebaseerd op het verschil tussen steekproefgemiddelden gedeeld door de gecombineerde standaardfout.
### T-toets voor gekoppelde paren (paired samples)
* Gebruikt wanneer metingen gekoppeld zijn (bv. voor- en nametingen bij dezelfde personen; within-subjects design).
### Overzicht van toetsen en hun toepassingen
---
* t-waarden geven aan hoeveel standaardfouten de waargenomen waarde verwijderd is van de verwachte waarde ($\mu$).
* Er is niet één enkele t-verdeling; er is een familie van t-verdelingen, elk gespecificeerd door het aantal vrijheidsgraden ($df$).
### Vrijheidsgraden
* Vrijheidsgraden ($df$) zijn het aantal gegevens dat onafhankelijk van elkaar kan variëren.
* Voor een 1-steekproef t-toets of betrouwbaarheidsinterval is $df = n - 1$, waarbij $n$ de steekproefgrootte is.
* Naarmate de vrijheidsgraden toenemen, benadert de t-verdeling de standaard normaalverdeling.
### De t-verdeling versus de standaard normaalverdeling
* De t-verdeling heeft dikkere staarten dan de standaard normaalverdeling.
* Dikkere staarten betekenen dat er een grotere kans is om extreme waarden te observeren, zelfs als de nulhypothese waar is.
* Dit vereist een aanpassing in de kritieke waarden en interpretatie van significantie.
### Toepassingen van de t-verdeling
* **1-steekproef t-betrouwbaarheidsinterval:** Schat het populatiegemiddelde ($\mu$) wanneer $\sigma$ onbekend is.
* Formule: $\bar{x} \pm t^{\ast} \times \frac{s}{\sqrt{n}}$
* Voorwaarden: willekeurige steekproef, normaal verdeelde populatie (of grote steekproef $n > 30$), en onafhankelijke waarnemingen.
* **1-steekproef t-toets:** Test of het populatiegemiddelde ($\mu$) significant afwijkt van een specifieke waarde (vaak 0).
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$
* Voorwaarden: idem als bij het betrouwbaarheidsinterval.
### Rapporteren van t-toetsresultaten in APA-stijl
* Vermeld de toetsingsgrootheid ($t$), vrijheidsgraden ($df$), de waarde ervan, en de p-waarde.
* Voorbeeld: $t(df) = \text{waarde}, p = \text{waarde}$. Rapporteer p-waarden met 3 decimalen, of $p < 0.001$ indien van toepassing.
* Vermeld ook het betrouwbaarheidsinterval (CI) en de effectgrootte (bijv. Cohen's $d$).
### T-toetsen voor vergelijking van twee gemiddelden
* **Gepaarde t-toets:** Gebruikt voor afhankelijke steekproeven (bv. voor- en nametingen bij dezelfde personen).
* Toetst de gemiddelde verschillen tussen gekoppelde waarnemingen.
* Behandeld als een 1-steekproef t-toets op de verschilscores.
* **Onafhankelijke t-toets:** Gebruikt voor onafhankelijke steekproeven (twee aparte groepen).
* Toetst of de gemiddelden van twee onafhankelijke groepen significant verschillen.
* De toetsingsgrootheid $t$ gebruikt de geschatte standaardafwijkingen van beide groepen.
* De berekening van vrijheidsgraden kan complex zijn; een conservatieve methode is het gebruik van $df = \min(n_1 - 1, n_2 - 1)$.
---
### Core idea
* De t-verdeling wordt gebruikt voor inferentie wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* De t-verdeling lijkt conceptueel op de z-verdeling (normaalverdeling) maar heeft dikkere staarten, wat betekent dat extremere waarden meer kans hebben om voor te komen.
* De vorm van de t-verdeling is afhankelijk van het aantal vrijheidsgraden ($df$), wat meestal gelijk is aan de steekproefgrootte min één ($n-1$).
### Key facts
* De t-verdeling is symmetrisch rond 0, net als de standaard normaalverdeling.
* Dikkere staarten van de t-verdeling dan de normaalverdeling zijn cruciaal voor het correct bepalen van significantieniveaus (alfa) en betrouwbaarheidsintervallen.
* Naarmate de vrijheidsgraden toenemen (grotere steekproef), benadert de t-verdeling de normaalverdeling.
* William Sealy Gosset introduceerde de t-verdeling onder het pseudoniem 'Student' bij Guinness Brewery voor analyses met kleine steekproeven.
* Bij het schatten van $\sigma$ met $s$, is de steekproevenverdeling van het gemiddelde t-verdeeld in plaats van normaal verdeeld.
* Formule voor de toetsingsgrootheid $t$: $t = \frac{\bar{x} - \mu}{s / \sqrt{n}}$
### Key concepts
* **Vrijheidsgraden ($df$)**: Het aantal onafhankelijke gegevenspunten die vrij kunnen variëren nadat een schatting is gemaakt. Voor een 1-steekproef t-test is $df = n-1$.
* **Betrouwbaarheidsinterval (BI) met t-verdeling**: De formule voor het BI wordt aangepast; de $z^*$-waarde wordt vervangen door een $t^*$-waarde, verkregen uit de t-tabel met de juiste $df$ en betrouwbaarheidsniveau.
* $\text{BI} = \bar{x} \pm t^* \times \frac{s}{\sqrt{n}}$
* **1-steekproef t-toets**: Wordt gebruikt om te toetsen of een steekproefgemiddelde significant verschilt van een bekend populatiegemiddelde ($\mu$) wanneer $\sigma$ onbekend is.
* Populatie is normaal verdeeld, of de steekproef is groot genoeg ($n > 30$) zodat de Centrale Limietstelling van toepassing is (t-procedures zijn robuust tegen schendingen van normaliteit, vooral bij grotere steekproeven).
* Onafhankelijke observaties binnen de steekproef en tussen steekproeven (indien van toepassing). Voor ongepaarde steekproeven geldt dat de populatie minstens 20 keer zo groot moet zijn als de steekproef ($N \ge 20n$).
* **Gepaarde t-toets**: Een speciaal geval van de 1-steekproef t-toets, gebruikt voor voor- en nametingen of andere afhankelijke paren. De toets wordt uitgevoerd op de *verschillen* tussen de paren.
* $H_0: \mu_d = 0$ (het gemiddelde verschil is nul).
### Implications
* Het niet kennen van $\sigma$ leidt tot de t-verdeling, wat dikkere staarten betekent en daardoor hogere kritieke waarden voor een gegeven significantieniveau.
* Dit vereist grotere verschillen om significantie te bereiken vergeleken met een z-test met bekende $\sigma$.
* De robuustheid van t-procedures betekent dat kleine afwijkingen van de normaliteitsassumptie, vooral bij grotere steekproeven, vaak acceptabel zijn.
* De t-toets voor gepaarde data is efficiënter dan een t-toets voor onafhankelijke steekproeven omdat het individuele verschillen tussen paren elimineert, wat leidt tot meer power.
* Het correct rapporteren van t-toets resultaten in APA-stijl omvat de toetsingsgrootheid ($t$), vrijheidsgraden ($df$), p-waarde, en het betrouwbaarheidsinterval.
---
* Wanneer de populatie standaardafwijking ($\sigma$) onbekend is, wordt de z-verdeling vervangen door de t-verdeling voor inferentie over populatiegemiddelden.
* De t-verdeling is conceptueel vergelijkbaar met de normaalverdeling, maar heeft dikkere staarten, wat aangeeft dat er meer variabiliteit is wanneer $\sigma$ geschat wordt.
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden ($df$), dat gerelateerd is aan de steekproefgrootte.
* William Sealy Gosset, werkzaam bij Guinness, publiceerde onder het pseudoniem "Student" en ontwikkelde de t-verdeling voor kleine steekproeven.
* De z-standaardisatie gebruikt $\sigma$, de populatie standaardafwijking, die zelden bekend is.
* De t-standaardisatie gebruikt de geschatte populatie standaardafwijking, $s$, gebaseerd op de steekproef standaardafwijking.
* De steekproevenverdeling van het gemiddelde bij onbekende $\sigma$ volgt een t-verdeling met $df = n-1$.
* De t-verdeling is symmetrisch rond 0 met dikkere staarten dan de standaard normaalverdeling.
* Naarmate de steekproefgrootte ($n$) toeneemt, benadert de t-verdeling de normaalverdeling.
* Vrijheidsgraden ($df$) vertegenwoordigen het aantal onafhankelijke gegevenspunten dat een statistische berekening kan variëren.
* Voor standaarddeviatieschattingen deelt men door $n-1$ (vrijheidsgraden).
### Belangrijke concepten
* **t-statistiek**: De toetsingsgrootheid voor de t-verdeling, berekend als $t = \frac{\bar{x} - \mu}{s/\sqrt{n}}$.
* **Vrijheidsgraden (df)**: $df = n-1$ voor een 1-steekproef t-toets.
* **t-verdeling vs. Z-verdeling**: Dikkere staarten in de t-verdeling resulteren in grotere kritieke waarden voor hetzelfde betrouwbaarheidsniveau of significantieniveau.
* **1-steekproef t-betrouwbaarheidsinterval**: Formule: $\bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}$, waarbij $t^*$ de kritieke t-waarde is voor een gegeven $df$ en betrouwbaarheidsniveau.
* **1-steekproef t-toets**: Gebruikt om te toetsen of een populatiegemiddelde afwijkt van een specifieke waarde. De toetsingsgrootheid is de t-statistiek.
* Populatie is ongeveer normaal verdeeld (vooral belangrijk bij kleine $n$).
* Onafhankelijke observaties (voor koppels: verschilscores normaal verdeeld; voor onafhankelijke groepen: beide populaties normaal verdeeld of $n$ groot genoeg).
* **Robuustheid**: t-procedures zijn relatief robuust tegen schendingen van de normaliteitsaanname, vooral bij grotere steekproeven.
* Onbekendheid van $\sigma$ leidt tot grotere onzekerheid, zichtbaar in de dikkere staarten van de t-verdeling.
* Kleinere steekproeven vereisen een t-toets omdat de schatting van $\sigma$ minder betrouwbaar is.
* Bij het bepalen van betrouwbaarheidsintervallen of significante verschillen, leiden de dikkere staarten van de t-verdeling tot grotere intervallen of hogere kritieke waarden vergeleken met de z-verdeling.
* Het correct identificeren van de vrijheidsgraden is cruciaal voor het gebruik van t-tabellen.
### Voorbeelden
---
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling) maar wordt gebruikt wanneer de populatie standaardafwijking $(\sigma)$ onbekend is en geschat moet worden uit de steekproef.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat extreme waarden waarschijnlijker zijn. Dit compenseert voor de extra onzekerheid door het schatten van $\sigma$.
* Elke t-verdeling wordt gespecificeerd door zijn vrijheidsgraden (degrees of freedom, df), wat doorgaans $n-1$ is voor een 1-steekproef context.
* Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de normaalverdeling.
* Inferentie ( conclusies trekken over een populatie uit een steekproef) met een onbekende $\sigma$ vereist de t-verdeling.
* William Sealy Gosset, werkzaam voor Guinness, introduceerde de t-verdeling onder het pseudoniem "Student" om te analyseren met kleine steekproeven.
* Wanneer $\sigma$ geschat wordt door de steekproefstandaardafwijking $(s)$, wijkt de steekproevenverdeling van het gemiddelde af van de normaalverdeling.
* De t-toets is robuuster dan de z-toets bij kleinere steekproeven en wanneer de populatie niet perfect normaal verdeeld is, mits de asymmetrie beperkt is.
* De standaardfout $(\text{SE})$ bij de t-verdeling wordt berekend met de steekproefstandaardafwijking $(s)$: $\text{SE} = \frac{s}{\sqrt{n}}$.
* Bij het vergelijken van twee populaties met onbekende en potentieel verschillende standaardafwijkingen, wordt de t-toets gebruikt, waarbij de berekening van vrijheidsgraden conservatief kan zijn (kleinste $n-1$).
### Betrouwbaarheidsintervallen met t-verdeling
* Het t-betrouwbaarheidsinterval heeft de algemene vorm: $\text{steekproefgemiddelde} \pm (\text{kritieke t-waarde} \times \text{standaardfout})$.
* De kritieke t-waarde $(t^*)$ wordt opgezocht in de t-tabel op basis van het gewenste betrouwbaarheidsniveau en de vrijheidsgraden $(df = n-1)$.
* Voorwaarden voor het t-betrouwbaarheidsinterval zijn: random steekproef, populatie is normaal verdeeld (of $n > 30$ door centrale limietstelling), en onafhankelijke waarnemingen.
### T-toetsen
* **1-steekproef t-toets:** Gebruikt om te toetsen of het populatiegemiddelde $(µ)$ significant afwijkt van een hypothetische waarde (vaak 0). De toetsingsgrootheid is $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$.
- **T-toets voor gekoppelde paren (Paired t-test):** Wordt gebruikt voor metingen op dezelfde proefpersonen (bv. voor/na behandeling) of gekoppelde eenheden. De analyse focust op de verschilscores, die vervolgens met een 1-steekproef
* Vrijheidsgraden $(df)$ zijn het aantal paren min 1.
* **T-toets voor onafhankelijke steekproeven (Independent samples t-test):** Vergelijkt de gemiddelden van twee onafhankelijke groepen.
* De standaardfout van het verschil wordt berekend op basis van de individuele steekproefstandaardafwijkingen en groottes.
* De berekening van vrijheidsgraden kan complex zijn; een conservatieve benadering gebruikt het minimum van $(n_1-1)$ en $(n_2-1)$.
- > **Tip:** Rapporteer t-toetsresultaten altijd in APA-stijl, inclusief de toetsingsgrootheid $(t)$, vrijheidsgraden $(df)$, de exacte $p$-waarde (of $p < 0,001$), het betrouwbaarheidsinterval en de effectgrootte indien relevant
- > **Voorbeeld:** Een 1-steekproef t-toets gaf aan dat het gemiddelde aantal incidenten significant hoger was tijdens volle maan $(t(14) = 6,45, p < 0,001, 95\% \text{ BI} [1,6, 3,2])$
---
* De t-verdeling lijkt conceptueel op de z-verdeling (normaalverdeling), maar heeft dikkere staarten.
* T-verdelingen zijn er in verschillende vormen, gespecificeerd door vrijheidsgraden ($df$), die meestal gelijk zijn aan de steekproefgrootte minus één ($df = n-1$).
* Naarmate de vrijheidsgraden toenemen, nadert de t-verdeling de standaard normaalverdeling.
* De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat moet worden met de steekproefstandaardafwijking ($s$).
### Belangrijke concepten en formules
* **Student's t-verdeling:**
* Symmetrisch rond het gemiddelde van 0.
* Dikkere staarten dan de normaalverdeling, wat betekent dat extremere waarden waarschijnlijker zijn.
* De specifieke vorm hangt af van het aantal vrijheidsgraden ($df$).
* **Vrijheidsgraden ($df$):**
* Representeert het aantal onafhankelijke gegevenspunten die bijdragen aan een schatting.
* Voor een 1-steekproef t-toets of t-interval: $df = n - 1$.
* **1-steekproef t-betrouwbaarheidsinterval voor $\mu$ (als $\sigma$ onbekend):**
* Vorm: $\bar{x} \pm t^{\ast} \times \frac{s}{\sqrt{n}}$
* $t^{\ast}$: kritieke t-waarde voor het gewenste betrouwbaarheidsniveau en $df$.
* **1-steekproef t-toets voor $\mu$:**
* $\mu_0$: hypothetisch populatiegemiddelde onder de nulhypothese.
* Doel: Bepalen of het steekproefgemiddelde significant afwijkt van een hypothetisch populatiegemiddelde.
### Voorwaarden voor t-procedures
* **Random:** De steekproef moet willekeurig zijn.
- **Normaal verdeeld:** De populatie waaruit de steekproef is getrokken, moet bij benadering normaal verdeeld zijn, vooral bij kleinere steekproeven. Bij grotere steekproeven ($n > 30$) is de t-procedure robuust, zelfs als de
* **Onafhankelijk:** Waarnemingen binnen de steekproef en tussen steekproeven (indien van toepassing) moeten onafhankelijk zijn. De populatiegrootte moet minstens 20 keer groter zijn dan de steekproefgrootte ($N \ge 20n$).
* **Gekoppelde (paired) t-toets:**
### Vrijheidsgraden bij twee onafhankelijke steekproeven
### Implicaties en Toepassingen
---
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling) en geeft aan hoeveel standaardfouten een waargenomen waarde verwijderd is van de verwachte waarde.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat er meer gewicht ligt in de staarten en minder in het midden.
* Er is niet één t-verdeling; er is een familie van t-verdelingen, elk gespecificeerd door het aantal vrijheidsgraden ($df$).
* Vrijheidsgraden ($df$) verwijzen naar het aantal onafhankelijke gegevenspunten dat kan variëren nadat een bepaald statistisch kenmerk (zoals het gemiddelde) is berekend; typisch $df = n - 1$.
* De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en wordt geschat met de steekproefstandaardafwijking ($s$).
* De schatting van $\sigma$ met $s$ introduceert extra onzekerheid, wat resulteert in de dikkere staarten van de t-verdeling vergeleken met de z-verdeling.
* Hoe groter het aantal vrijheidsgraden ($df$), hoe dichter de t-verdeling de standaard normaalverdeling benadert.
* Voor kleine steekproeven ($n$) zijn de staarten van de t-verdeling aanzienlijk dikker, wat leidt tot grotere kritieke waarden vergeleken met de z-verdeling.
* De t-verdeling is symmetrisch rond het gemiddelde van 0.
* De t-toets wordt gebruikt voor inferentie over populatiegemiddelden wanneer $\sigma$ onbekend is.
### Toepassingen en procedures
* **1-steekproef t-betrouwbaarheidsinterval:** Gebruikt om een interval te construeren waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt, met behulp van de t-verdeling met $n-1$ vrijheidsgraden.
* Vorm: $\bar{x} \pm t^\ast \cdot \frac{s}{\sqrt{n}}$
* Voorwaarden: Willekeurige steekproef, (ongeveer) normaal verdeelde populatie of grote steekproefgrootte ($n > 30$ via de Centrale Limietstelling).
* **1-steekproef t-toets (one-sample t-test):** Getoetst om te bepalen of een steekproefgemiddelde significant afwijkt van een hypothetisch populatiegemiddelde ($\mu_0$).
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$
* De p-waarde wordt bepaald op basis van de t-verdeling met $n-1$ vrijheidsgraden.
* **t-toets voor gekoppelde paren (Paired samples t-test):** Wordt gebruikt voor twee afhankelijke steekproeven (bv. voor- en nametingen bij dezelfde personen).
* Wordt omgezet naar een 1-steekproef t-toets op de verschilscores tussen de paren.
* Nulhypothese: het gemiddelde verschil tussen de paren is nul ($\mu_d = 0$).
* **t-toets voor onafhankelijke steekproeven (Independent samples t-test):** Wordt gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken.
* De toetsingsgrootheid $t$ gebruikt de gepoolde standaardafwijking (indien $\sigma_1 = \sigma_2$) of een aangepaste formule (indien $\sigma_1 \neq \sigma_2$).
* Vrijheidsgraden worden conservatief geschat, vaak als $\min(n_1 - 1, n_2 - 1)$ of via een complexere formule.
* Voorwaarden: Willekeurige, onafhankelijke steekproeven, (ongeveer) normaal verdeelde populaties of grote steekproefgroottes.
### Rapporteren van resultaten
* Resultaten worden gerapporteerd in APA-stijl, inclusief de toetsingsgrootheid (bv. $t$), vrijheidsgraden ($df$), p-waarde, betrouwbaarheidsinterval (CI) en effectgrootte (bv. Cohen's $d$).
* Voorbeeld APA-rapportering: "De gemiddelde bloeddruk daalde significant na de behandeling, $t(19) = -3.45, p < .001, 95\% CI [-12.5, -3.2], d = 0.77$."
### Robuustheid en aannames
---
# verschillende typen t-toetsen
### Kernbegrippen bij inferentie
* Inferentiële statistiek maakt uitspraken over een populatie op basis van steekproefgegevens.
* Steekproevenverdelingen beschrijven de variabiliteit van steekproefstatistieken (bv. gemiddelden) bij herhaaldelijke steekproeftrekking.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden uit de steekproef.
### De t-verdeling
* De t-verdeling lijkt conceptueel op de normaalverdeling (z-verdeling), met een symmetrische vorm rond nul.
* Kenmerkend voor t-verdelingen zijn dikkere staarten dan bij de standaard normaalverdeling.
* Er is niet één t-verdeling, maar een familie van verdelingen die afhangt van het aantal vrijheidsgraden ($df$).
* Vrijheidsgraden ($df$) worden doorgaans berekend als $df = n - 1$, waarbij $n$ de steekproefgrootte is.
* Naarmate $df$ toeneemt, benadert de t-verdeling de standaard normaalverdeling.
### -steekproef t-betrouwbaarheidsinterval
* Gebruikt om een interval te schatten waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt, wanneer $\sigma$ onbekend is.
* De formule volgt dezelfde logica als bij een bekende $\sigma$, maar met de t-verdeling in plaats van de z-verdeling.
* Het betrouwbaarheidsinterval (BI) wordt gevormd door het steekproefgemiddelde ($\bar{x}$) plus en min een foutenmarge.
* De foutenmarge bestaat uit een kritieke t-waarde ($t^*$) vermenigvuldigd met de standaardfout van het gemiddelde ($\frac{s}{\sqrt{n}}$).
* Voorwaarden:
* Willekeurige (random) steekproef.
* Gegevens uit de populatie zijn ongeveer normaal verdeeld (vooral belangrijk bij kleine steekproeven; bij $n > 30$ is de t-procedure robuust).
* Onafhankelijkheid van waarnemingen.
### -steekproef t-toets (one-sample t-test)
* Toetst of het populatiegemiddelde ($\mu$) significant verschilt van een gespecificeerde waarde (vaak nul).
* Toetsingsgrootheid ($t$): $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$, waarbij $\mu_0$ de hypothetische populatiewaarde is.
* Toetsen kunnen eenzijdig (links of rechts) of tweezijdig zijn.
* Bij het rapporteren van de resultaten in APA-stijl worden onder andere de toetsingsgrootheid, vrijheidsgraden ($df$), de p-waarde en het betrouwbaarheidsinterval vermeld.
### Vergelijkingen van twee gemiddelden met t-toetsen
* Twee hoofdtypes: t-toets voor gekoppelde paren en t-toets voor onafhankelijke steekproeven.
#### T-toets voor gekoppelde paren (Paired samples t-test)
* Gebruikt voor afhankelijke steekproeven, zoals voor- en nametingen bij dezelfde proefpersonen (within-subjects design).
* Wordt uitgevoerd op de verschilscores tussen de gepaarde waarnemingen.
* Effectief een 1-steekproef t-toets toegepast op de verschilscores ($d$).
* De nulhypothese is meestal dat het gemiddelde verschil gelijk is aan nul ($\mu_d = 0$).
#### T-toets voor onafhankelijke steekproeven (Independent samples t-test)
---
### Kernidee
* De t-verdeling is een theoretische verdeling die wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt op basis van de steekproefstandaardafwijking ($s$).
* Het onderscheid tussen een z-toets (wanneer $\sigma$ bekend is) en een t-toets (wanneer $\sigma$ geschat wordt) is cruciaal voor inferentiële statistiek.
### Belangrijke concepten
* **Student's t-verdeling:**
* Conceptueel vergelijkbaar met de z-verdeling (standaardnormaalverdeling).
* Symmetrisch met één top op $x=0$.
* Heeft dikkere staarten dan de normaalverdeling, wat betekent dat extreme waarden waarschijnlijker zijn.
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden ($df$).
* **Vrijheidsgraden ($df$):**
* Specificeert de specifieke t-verdeling.
* Voor een 1-steekproef t-toets: $df = n - 1$, waarbij $n$ de steekproefgrootte is.
* Naarmate $df$ toeneemt, benadert de t-verdeling de normaalverdeling.
* **Standaardfout ($SE$):**
* De standaardafwijking van de steekproevenverdeling van het gemiddelde.
* Wanneer $\sigma$ onbekend is, wordt de geschatte standaardfout gebruikt: $SE = s / \sqrt{n}$.
* **Betrouwbaarheidsinterval (BI):**
* Het 1-steekproef t-betrouwbaarheidsinterval volgt dezelfde logica als bij een bekende $\sigma$, maar gebruikt de t-verdeling en een $t^*$-waarde in plaats van een $z^*$-waarde.
* Het BI heeft de vorm: $\bar{x} \pm t^* \cdot SE$.
* **T-toetsen:**
* **1-steekproef t-toets:** Vergelijkt het steekproefgemiddelde met een hypothetisch populatiegemiddelde ($\mu$).
* Toetsingsgrootheid: $t = (\bar{x} - \mu) / SE$.
* Voorwaarden: willekeurige steekproef, populatie ongeveer normaal verdeeld (vooral belangrijk bij kleine steekproeven, de test is robuust voor matige schendingen van normaliteit), en onafhankelijke waarnemingen.
* **Gepaarde t-toets (t-toets voor gekoppelde paren):** Vergelijkt de gemiddelden van twee afhankelijke steekproeven (bv. voor- en nametingen bij dezelfde personen).
* Wordt uitgevoerd op de verschilscores tussen de gekoppelde waarnemingen.
* Effectief een 1-steekproef t-toets op de verschilscores.
* Voorwaarden: de verschilscores zijn ongeveer normaal verdeeld.
### Voorwaarden voor t-procedures
### Rapporteren van resultaten (APA-stijl)
### Vergelijking met z-toets
---
* De t-verdeling is conceptueel vergelijkbaar met de standaard normaalverdeling, maar wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en wordt geschat op basis van de steekproefstandaardafwijking ($s$).
* t-toetsen zijn essentieel voor inferentie over gemiddelden wanneer populatiespreidingen onbekend zijn, vooral bij kleine steekproeven.
* t-toetsen zijn robuust, wat betekent dat ze redelijk betrouwbaar blijven, zelfs als niet alle aannames perfect zijn voldaan, met name bij een redelijke symmetrie van de data.
### Kernconcepten
* **William Sealy Gosset (Student-t):** Werkte bij Guinness en ontwikkelde de t-verdeling om te publiceren onder het pseudoniem 'Student' vanwege bedrijfsgeheimhouding.
* Symmetrisch rond het gemiddelde (0).
* Heeft dikkere staarten dan de standaard normaalverdeling, wat betekent dat er meer kans is op extreme waarden.
* De exacte vorm hangt af van de vrijheidsgraden ($df$).
* Wordt meestal berekend als steekproefgrootte ($n$) min 1 ($df = n-1$).
* Geeft de mate van onafhankelijkheid van de gegevens aan die de schatting beïnvloeden.
* Naarmate $df$ toeneemt, nadert de t-verdeling de standaard normaalverdeling.
* **Standaardfout van het gemiddelde ($SE$):** De standaardafwijking van de steekproevenverdeling van het gemiddelde, die wordt gebruikt in de t-toetsstatistiek.
* Bij het schatten van $\sigma$ door $s$, wordt de $SE$ gebaseerd op $s$.
* **Betrouwbaarheidsinterval (BI) voor $\mu$ (wanneer $\sigma$ onbekend):**
* Vorm: $\bar{x} \pm t^{\ast} \times SE_{\bar{x}}$
* $t^{\ast}$ is de kritieke t-waarde voor het gewenste betrouwbaarheidsniveau en de vrijheidsgraden.
* $SE_{\bar{x}}$ is de geschatte standaardfout van het gemiddelde ($\frac{s}{\sqrt{n}}$).
* **1-steekproef t-toets:**
* Gebruikt om te bepalen of het gemiddelde van een populatie significant afwijkt van een bekende waarde of een hypothetisch gemiddelde ($\mu_0$).
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$
* Voorwaarden: Random steekproef, normaal verdeelde populatie (of voldoende grote steekproef $n > 30$ door de centrale limietstelling).
* **t-toetsen voor twee gemiddelden:**
* **Gekoppelde t-toets (Paired samples t-test):**
* Gebruikt voor metingen op dezelfde individuen op verschillende tijdstippen of onder verschillende condities (bv. voor- en nametingen).
### Sleutelfeiten
### Implicaties
### Voorwaarden voor t-toetsen
---
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), maar wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat extremere waarden waarschijnlijker zijn.
* Elke t-verdeling wordt gespecificeerd door het aantal vrijheidsgraden (df), wat meestal gelijk is aan de steekproefgrootte minus 1 ($n-1$).
* Naarmate het aantal vrijheidsgraden toeneemt, benadert de t-verdeling de normaalverdeling.
### Kenmerken van de t-verdeling
* Symmetrisch met een top op x = 0.
* Dikkere staarten dan de normaalverdeling, waardoor de kans op het verwerpen van de nulhypothese bij een gegeven alfa groter is wanneer $\sigma$ geschat wordt.
* De specifieke vorm van de t-verdeling hangt af van het aantal vrijheidsgraden (df).
### T-toetsen en vrijheidsgraden
* Vrijheidsgraden ($df$) vertegenwoordigen het aantal onafhankelijke gegevenspunten die kunnen variëren.
* Voor de schatting van de standaardafwijking wordt gedeeld door $n-1$ in plaats van $n$.
* Bij het gebruik van de t-tabel zijn de vrijheidsgraden cruciaal voor het vinden van de juiste kritieke waarde.
### T-verdeling versus standaard normaalverdeling
* De z-verdeling (standaard normaalverdeling) wordt gebruikt wanneer $\sigma$ bekend is.
* De t-verdeling wordt gebruikt wanneer $\sigma$ onbekend is en geschat wordt uit de steekproef.
* De dikkere staarten van de t-verdeling compenseren voor de extra onzekerheid door het schatten van $\sigma$.
### Gevolgen van het schatten van $\sigma$
* Het schatten van $\sigma$ uit de steekproef maakt de steekproevenverdeling breder (dikker staarten).
* Dit leidt tot een grotere kans op het onterecht verwerpen van de nulhypothese (Type I-fout) als de standaardprocedures worden gevolgd.
* Om dit te corrigeren, worden de kritieke waarden van de t-verdeling gebruikt.
### Toepassingen en typen t-toetsen
* **Inferentie over één populatie:**
* 1-steekproef t-betrouwbaarheidsinterval.
* 1-steekproef t-toets.
* **Inferentie over twee populaties:**
* t-toetsen voor gekoppelde paren (afhankelijke steekproeven).
* t-toetsen voor onafhankelijke steekproeven.
* Berekent het interval waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt, wanneer $\sigma$ onbekend is.
* Volgt dezelfde logica als het z-betrouwbaarheidsinterval, maar gebruikt de t-verdeling met $n-1$ vrijheidsgraden.
* Formule: $\bar{x} \pm t^* \times \frac{s}{\sqrt{n}}$.
### -steekproef t-toets
### T-toets voor gekoppelde paren (afhankelijke steekproeven)
### T-toets voor onafhankelijke steekproeven
### Rapporteren van t-toetsresultaten (APA-stijl)
---
### Kernbegrippen en context
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), maar wordt gebruikt wanneer de populatie standaardafwijking $(\sigma)$ onbekend is en geschat moet worden met de steekproefstandaardafwijking $(s)$.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat er meer kans is op extreme waarden.
* Er is niet één 't-verdeling'; voor elke steekproefgrootte is er een specifieke t-verdeling, gedefinieerd door de vrijheidsgraden $(df)$.
* Vrijheidsgraden $(df)$ zijn het aantal onafhankelijke gegevenspunten dat kan variëren in een berekening. Voor een steekproefgemiddelde is dit typisch $n-1$.
* Een 1-steekproef t-betrouwbaarheidsinterval (BI) wordt gebruikt om een populatiegemiddelde $(\mu)$ te schatten wanneer $(\sigma)$ onbekend is.
* Het interval heeft de vorm: $\bar{x} \pm t^{\ast} \times \frac{s}{\sqrt{n}}$.
* Hierbij is $\bar{x}$ het steekproefgemiddelde, $s$ de steekproefstandaardafwijking, $n$ de steekproefgrootte, en $t^{\ast}$ de kritieke t-waarde voor het gewenste betrouwbaarheidsniveau en $n-1$ vrijheidsgraden.
* Voorwaarden voor gebruik:
* **Random steekproef:** De steekproef moet representatief zijn voor de populatie.
* **Normaal verdeelde populatie:** Cruciaal voor kleine steekproeven $(n < 30)$. Bij grotere steekproeven $(n > 30)$ is de t-procedure robuust, vooral tegen scheefheid.
* Gebruikt om te testen of een steekproefgemiddelde $(\bar{x})$ significant afwijkt van een hypothetisch populatiegemiddelde $(\mu_0)$.
* Toetsingsgrootheid: $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$.
* Het resultaat $(t)$ geeft aan hoeveel standaardfouten het steekproefgemiddelde afwijkt van het hypothetische populatiegemiddelde.
* Kan eenzijdig (richtinggebonden hypothese) of tweezijdig (geen richtinggebonden hypothese) zijn.
* **Voorwaarden:** Idem als voor het 1-steekproef t-betrouwbaarheidsinterval.
* **Rapportage (APA-stijl):** Vermeld beschrijvende maten (bv. $\bar{x}, s$), de toetsingsgrootheid $(t)$, vrijheidsgraden $(df)$, de p-waarde $(p)$, en eventueel het betrouwbaarheidsinterval $(CI)$ en de effectgrootte $(d)$.
### T-toets voor gekoppelde paren (Paired samples t-test)
* Gebruikt om het gemiddelde verschil tussen twee gerelateerde metingen te toetsen, bijvoorbeeld voor- en nametingen bij dezelfde personen.
* De analyse wordt uitgevoerd op de verschilscores tussen de paren.
* Toetsingsgrootheid: $t = \frac{\bar{d} - \mu_{d0}}{s_d/\sqrt{n}}$, waarbij $\bar{d}$ het gemiddelde verschil is, $s_d$ de standaardafwijking van de verschillen, en $n$ het aantal paren. $\mu_{d0}$ is typisch 0 (geen verschil).
* **Voorwaarden:**
* **Gekoppelde paren:** De data moeten logisch aan elkaar gekoppeld zijn.
* **Verschillen normaal verdeeld:** De verschilscores moeten (ongeveer) normaal verdeeld zijn.
* Voordeel: Controleert voor persoonsgebonden verschillen, wat de power kan verhogen.
### T-toets voor onafhankelijke steekproeven (Independent samples t-test)
* Gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken.
---
### Kernconcepten t-verdelingen
* Een t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), waarbij een t-waarde ook aangeeft hoeveel standaardfouten een waarde van het gemiddelde af ligt.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* t-verdelingen zijn symmetrisch rond 0, maar hebben dikkere staarten dan de standaard normaalverdeling.
* Er bestaat niet één t-verdeling; het aantal vrijheidsgraden ($df = n - 1$) bepaalt de specifieke vorm van de verdeling.
### Vrijheidsgraden
* Vrijheidsgraden ($df$) vertegenwoordigen het aantal onafhankelijke gegevenspunten in een dataset die elke mogelijke waarde kunnen aannemen.
* Bij het berekenen van een steekproefgemiddelde zijn $n-1$ gegevens vrij te variëren, terwijl het laatste gegeven vastligt om de som te laten kloppen.
* Naarmate de steekproefgrootte ($n$) toeneemt, benadert de t-verdeling de normaalverdeling.
### Betrouwbaarheidsinterval voor een steekproefgemiddelde
* Het 1-steekproef t-betrouwbaarheidsinterval ($\text{BI}$) schat het populatiegemiddelde ($\mu$) wanneer $\sigma$ onbekend is.
* Het BI wordt berekend als: $\bar{x} \pm t^\ast \cdot \frac{s}{\sqrt{n}}$, waarbij $t^\ast$ de kritieke t-waarde is voor het gekozen betrouwbaarheidsniveau en $df$.
* Voorwaarden voor een 1-steekproef t-interval zijn: random steekproef, normaal verdeelde populatie (of $n > 30$ door de centrale limietstelling), en onafhankelijke waarnemingen.
* De 1-steekproef t-toets vergelijkt een steekproefgemiddelde ($\bar{x}$) met een hypothetisch populatiegemiddelde ($\mu_0$).
* De toetsingsgrootheid is: $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$.
* Toetsen kunnen eenzijdig of tweezijdig zijn, afhankelijk van de alternatieve hypothese.
* Voorwaarden zijn identiek aan die voor het t-betrouwbaarheidsinterval.
- > **Tip:** Bij het rapporteren van t-toetsen in APA-stijl vermeld je de toetsingsgrootheid, de vrijheidsgraden (t(df)), de p-waarde, en indien beschikbaar, het betrouwbaarheidsinterval en de effectgrootte
### t-toetsen voor het vergelijken van twee gemiddelden
* **t-toets voor gekoppelde paren (Paired samples t-test):**
* Gebruikt voor metingen die aan elkaar gekoppeld zijn (bv. voor- en nametingen bij dezelfde proefpersonen).
* Analyseert de verschilscores tussen de paren.
* De nulhypothese is dat het gemiddelde verschil tussen de paren nul is ($H_0: \mu_d = 0$).
* Dit is een speciaal geval van de 1-steekproef t-toets toegepast op de verschilscores.
* **t-toets voor onafhankelijke steekproeven (Independent samples t-test):**
* De nulhypothese is dat de gemiddelden van de twee populaties gelijk zijn ($H_0: \mu_1 = \mu_2$).
* Wanneer $\sigma_1$ en $\sigma_2$ onbekend zijn, worden geschatte standaardafwijkingen ($s_1, s_2$) gebruikt.
* De toetsingsgrootheid is: $t = \frac{\bar{x}_1 - \bar{x}_2}{SE_{\text{diff}}}$, waarbij $SE_{\text{diff}}$ de standaardfout van het verschil is.
### Onderscheidingsvermogen (Power) en Beslissingsfouten
---
### Kernconcepten bij t-toetsen
* **T-verdeling:** Conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), waarbij `t` aangeeft hoeveel standaardfouten de waargenomen waarde verwijderd is van het verwachte gemiddelde.
- **Vrijheidsgraden (df):** Bepalen de specifieke vorm van de t-verdeling. Bij de 1-steekproef t-toets is `df = n - 1`. Bij de 2-steekproeven t-toets voor onafhankelijke steekproeven is de berekening van
- **Dikkere staarten van de t-verdeling:** Vergeleken met de normaalverdeling, wat betekent dat er een grotere kans is op extreme waarden, waardoor een hogere kritieke waarde nodig is om significantie aan
- **Robuustheid van t-procedures:** T-toetsen zijn relatief robuust, wat betekent dat ze nog steeds redelijk nauwkeurig zijn, zelfs als niet alle aannames (zoals normale verdeling) perfect voldaan zijn, met name bij
* **Doel:** Schatting maken van het populatiegemiddelde (µ) wanneer de populatiestandaardafwijking (σ) onbekend is.
* **Formule:** Het interval is opgebouwd rond het steekproefgemiddelde (x̄) met een foutenmarge: $x̄ \pm t^* \times SE$.
* **Componenten foutenmarge:**
* `t*`: Kritieke t-waarde die afhangt van het betrouwbaarheidsniveau en de vrijheidsgraden.
* $SE$: Standaardfout van het gemiddelde, berekend als $s/\sqrt{n}$, waarbij $s$ de steekproefstandaardafwijking is.
* **Random steekproef:** Representatief voor de populatie.
* **Normaal verdeelde populatie:** Of een voldoende grote steekproef (`n > 30`) vanwege de centrale limietstelling.
* **Onafhankelijke waarnemingen:** Binnen de steekproef en tussen de populaties (indien relevant).
* **Doel:** Nagaan of het populatiegemiddelde (µ) significant afwijkt van een bepaalde hypothetische waarde (vaak 0 of een norm).
* **Toetsingsgrootheid:** $t = \frac{x̄ - \mu_0}{s/\sqrt{n}}$, waarbij $\mu_0$ de hypothetische populatiewaarde is.
* **Beslissing:** Vergelijking van de berekende t-waarde met kritieke t-waarden uit de t-tabel, afhankelijk van het gekozen significantieniveau ($\alpha$) en de richting van de hypothese (eenzijdig/tweezijdig).
* **Voorbeeld:** Testen of de gemiddelde zuurstofconcentratie in water significant lager is dan een vastgestelde norm (5 eenheden).
### T-toetsen voor 2 gemiddelden
* **Algemeen:** Vergelijken van de gemiddelden van twee groepen om te bepalen of er een significant verschil bestaat.
* **Twee hoofdtypes:**
* **Gekoppelde (paired) t-toets:** Voor afhankelijke steekproeven (bv. voor- en nametingen bij dezelfde personen).
* **Onafhankelijke (independent) t-toets:** Voor onafhankelijke steekproeven (bv. vergelijking van twee aparte groepen).
#### T-toets voor gekoppelde paren
* **Concept:** Wordt gereduceerd tot een 1-steekproef t-toets op de verschilscores binnen de paren.
* **Nulhypothese (H₀):** Het gemiddelde verschil tussen de paren is nul ($\mu_d = 0$).
* **Voordeel:** Hogere power en controle over persoonskenmerken, omdat metingen van dezelfde individuen afkomstig zijn.
* **Voorbeeld:** Vergelijken van het aantal incidenten tijdens volle maan versus andere dagen bij dezelfde groep patiënten.
#### T-toets voor onafhankelijke steekproeven
---
* t-toetsen worden gebruikt voor inferentie over populatiegemiddelden wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden op basis van steekproefgegevens.
* De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat cruciaal is bij het nemen van statistische beslissingen, vooral bij kleinere steekproeven.
* Vrijheidsgraden ($df$) specificeren de precieze vorm van een t-verdeling en zijn meestal gelijk aan de steekproefgrootte min één ($n-1$).
### Belangrijke feiten
* William Sealy Gosset introduceerde de t-verdeling onder het pseudoniem "Student".
* De t-toets wordt gebruikt wanneer de populatiestandaardafwijking onbekend is en de steekproefstandaardafwijking ($s$) wordt gebruikt als schatter.
* De t-verdeling benadert de normaalverdeling naarmate het aantal vrijheidsgraden toeneemt.
* Vrijheidsgraden geven het aantal onafhankelijke waarden aan dat kan variëren in een dataset zonder de som of het gemiddelde te beïnvloeden.
* Voor de t-toets wordt de steekproefstandaardafwijking ($s$) gebruikt, en de foutenmarge is gebaseerd op de t-verdeling met $n-1$ vrijheidsgraden.
* De steekproefstandaardafwijking wordt berekend door te delen door $n-1$ in plaats van $n$.
* **Inferentie**: conclusies trekken over een populatie op basis van steekproefgegevens.
* **Steekproevenverdeling van het gemiddelde (bij onbekende $\sigma$)**: De verdeling van mogelijke steekproefgemiddelden wanneer de populatiestandaardafwijking onbekend is; deze volgt een t-verdeling.
* **t-verdeling**: Een kansverdeling die lijkt op de normaalverdeling, maar met dikkere staarten, afhankelijk van het aantal vrijheidsgraden.
* **Vrijheidsgraden ($df$)**: Het aantal onafhankelijke waarden dat vrij kan variëren; voor een eensteekproef t-toets is $df = n-1$.
* **Robuustheid van t-procedures**: t-toetsen zijn relatief ongevoelig voor schendingen van de normaliteitsaanname, vooral bij grotere steekproeven.
* **Betrouwbaarheidsinterval (BI)**: Een bereik van waarden dat waarschijnlijk de populatieparameter bevat. Voor een eensteekproef t-interval is de vorm $\bar{x} \pm t^* \times SE$.
* **Standaardfout ($SE$)**: De standaardafwijking van de steekproevenverdeling; voor het gemiddelde is dit $s/\sqrt{n}$.
* Het gebruik van de t-verdeling in plaats van de z-verdeling compenseert voor de extra onzekerheid die ontstaat door het schatten van de populatiestandaardafwijking.
* Dikkere staarten van de t-verdeling leiden tot bredere betrouwbaarheidsintervallen en vereisen grotere verschillen om statistische significantie te bereiken vergeleken met de z-verdeling bij dezelfde alpha.
* Voorwaarden voor t-procedures (random, normaal verdeeld, onafhankelijk) moeten worden overwogen voor geldige conclusies.
* Bij kleinere steekproeven is de vorm van de t-verdeling sterker afhankelijk van de vrijheidsgraden.
### Typen t-toetsen en hun toepassingen
* **1-steekproef t-toets**: Vergelijkt het gemiddelde van één steekproef met een bekende of verwachte populatiewaarde (bijv. $\mu_0$).
* Voorwaarden: Random steekproef, normaal verdeelde populatie (of $n > 30$ volgens de Centrale Limietstelling), onafhankelijke observaties.
* **Gepaarde t-toets (t-toets voor gekoppelde paren)**: Vergelijkt de gemiddelde verschillen tussen twee gerelateerde metingen (bv. voor- en nametingen van dezelfde personen).
* Gedrag: Transformeert gepaarde data naar verschilscores en voert een 1-steekproef t-toets uit op deze verschillen. $df = n_{paren}-1$.
### Gebruik van t-tabellen en rapportage
### Voorbeeld van een 1-steekproef t-toets
### Vergelijking van gemiddelden
---
* De t-verdeling is conceptueel vergelijkbaar met de z-verdeling (normaalverdeling), maar wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* T-verdelingen zijn symmetrisch rond nul en hebben dikkere staarten dan de normaalverdeling, wat betekent dat de kans op extreme waarden groter is.
* De vorm van de t-verdeling hangt af van de vrijheidsgraden ($df$), die meestal gelijk zijn aan de steekproefgrootte min één ($n-1$). Naarmate $df$ toeneemt, nadert de t-verdeling de standaard normaalverdeling.
* Vrijheidsgraden representeren het aantal onafhankelijke waarden dat kan variëren in een dataset, gegeven een bepaald gemiddelde.
### T-toetsen en betrouwbaarheidsintervallen
- **1-steekproef t-betrouwbaarheidsinterval (BI)**: Dit is een interval rond het steekproefgemiddelde ($x̄$) waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt, wanneer $\sigma$ onbekend is. De formule is $x̄ \pm t^* \cdot SE$, waarbij $t^*$ de kritieke t-waarde
* Voorwaarden: willekeurige steekproef, populatie is normaal verdeeld (vooral belangrijk bij kleine steekproeven). De robuustheid van t-toetsen helpt bij lichte schendingen van normaliteit.
* **1-steekproef t-toets**: Gebruikt om te toetsen of een steekproefgemiddelde significant afwijkt van een hypothetisch populatiegemiddelde ($\mu_0$).
* Toetsingsgrootheid: $t = \frac{x̄ - \mu_0}{s/\sqrt{n}}$.
* Rapportering (APA-stijl): Vermeld beschrijvende maten, toetsingsgrootheid ($t$), vrijheidsgraden ($df$), overschrijdingskans ($p$), en optioneel het betrouwbaarheidsinterval en effectgrootte ($d$).
* Voorbeeld: Toetsen of de gemiddelde waterkwaliteit voldoet aan een norm.
### Vergelijkingen tussen twee gemiddelden
* **T-toets voor gekoppelde paren (paired samples t-test)**: Gebruikt om de gemiddelde verschillen tussen twee gerelateerde metingen van dezelfde proefpersonen (bv. voor- en nameting) te vergelijken.
* Dit wordt gereduceerd tot een 1-steekproef t-toets op de verschilscores.
* Voorwaarden: Verschillen zijn normaal verdeeld.
* Voorbeeld: Agressieve incidenten bij volle maan versus andere dagen.
* **T-toets voor onafhankelijke steekproeven (independent samples t-test)**: Gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken.
* Toetsingsgrootheid: De formule lijkt op de z-test, maar gebruikt de geschatte standaardafwijkingen ($s_1, s_2$) van de groepen en een aangepast aantal vrijheidsgraden.
* Zelfs als $\sigma_1 = \sigma_2$ (gelijke populatiestandaardafwijkingen) redelijk is, vereenvoudigt dit de berekening. Anders wordt er een conservatieve schatting van $df$ gebruikt (kleinste van $n_1-1$ en $n_2-1$).
* Voorwaarden: Willekeurige steekproeven, onafhankelijkheid van observaties, en normaliteit van de groepsverdelingen (of de verdeling van de verschillen).
### Onderscheidingsvermogen (Power) en Fouten
* **Type I fout (vals positief)**: Het onterecht verwerpen van de nulhypothese ($\alpha$).
* **Type II fout (vals negatief)**: Het onterecht aanvaarden van de nulhypothese ($\beta$).
* **Onderscheidingsvermogen (Power)**: De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is ($1 - \beta$).
* Power wordt verhoogd door een grotere steekproefgrootte ($n$), een groter effect (verschil tussen hypothesen), of een minder strikt significantieniveau ($\alpha$).
- De t-verdeling is cruciaal omdat de populatiestandaardafwijking ($\sigma$) meestal onbekend is en geschat moet worden, wat leidt tot dikkere staarten en een hogere kans op Type I fouten als de
### Samenvatting T-toetsen en Z-toets
* **Z-toetsen**: Gebruikt wanneer $\sigma$ bekend is. De toetsingsgrootheid volgt een standaard normaalverdeling.
* **T-toetsen**: Gebruikt wanneer $\sigma$ onbekend is en geschat wordt met $s$. De toetsingsgrootheid volgt een t-verdeling die afhankelijk is van de vrijheidsgraden.
---
* De t-verdeling wordt gebruikt voor inferentie wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* De t-verdeling heeft dikkere staarten dan de standaard normaalverdeling, wat essentieel is voor het correct interpreteren van significante verschillen, vooral bij kleinere steekproeven.
* Er zijn verschillende soorten t-toetsen, afhankelijk van of men één populatie vergelijkt met een standaard, of twee populaties vergelijkt (gekoppelde of onafhankelijke groepen).
* **Student's t-verdeling:** Een familie van verdelingen die lijken op de normaalverdeling, maar met dikkere staarten, afhankelijk van het aantal vrijheidsgraden.
* **Vrijheidsgraden (df):** Het aantal onafhankelijke waarden dat vrij kan variëren in een steekproef; voor een 1-steekproef t-toets is dit $n-1$.
* **Geschatte populatiestandaardafwijking ($s$):** Gebruikt om de standaardfout te berekenen wanneer $\sigma$ onbekend is.
* **Standaardfout (SE):** De standaardafwijking van de steekproevenverdeling van het gemiddelde ($s_{\bar{x}} = \frac{s}{\sqrt{n}}$).
* **T-toetsgrootheid ($t$):** De gestandaardiseerde waarde die aangeeft hoeveel standaardfouten het steekproefgemiddelde afwijkt van het verwachte populatiegemiddelde onder de nulhypothese: $t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}}$.
* **Robuustheid van t-procedures:** T-toetsen zijn relatief robuust, zelfs als de normaliteitsaanname van de populatie licht geschonden wordt, vooral bij grotere steekproeven.
* **Gekoppelde paren (Paired samples):** Metingen die aan elkaar gekoppeld zijn (bv. voor- en nametingen van dezelfde personen). Hierbij wordt het verschil tussen de metingen geanalyseerd.
* **Onafhankelijke steekproeven (Independent samples):** Twee groepen waarvan de metingen onafhankelijk van elkaar zijn.
### Toepassingen en berekeningen
* **1-steekproef t-betrouwbaarheidsinterval:**
* Vorm: $\bar{x} \pm t^* \cdot \frac{s}{\sqrt{n}}$.
* Gebruikt om een interval te schatten waarbinnen het populatiegemiddelde ($\mu$) waarschijnlijk ligt, met $t^*$ uit de t-verdeling.
* Voorwaarden: Willekeurige steekproef, ongeveer normale populatieverdeling (of $n > 30$).
* Toetst of het populatiegemiddelde ($\mu$) significant afwijkt van een gespecificeerde waarde (vaak 0).
* **T-toets voor gekoppelde paren:**
* Vergelijkt de gemiddelden van twee gerelateerde metingen door de gemiddelde verschillen te toetsen.
* Effectief een 1-steekproef t-toets op de verschilscores ($d$).
* Voorwaarden: Willekeurige paren, verschilscores zijn ongeveer normaal verdeeld.
* **T-toets voor onafhankelijke steekproeven:**
* Vergelijkt de gemiddelden van twee onafhankelijke groepen.
### Overwegingen en beperkingen
---
# Vergelijken van twee proporties met betrouwbaarheidsintervallen en significantietoetsen
### Kernidee
* Inferentiële statistiek maakt het mogelijk om conclusies te trekken over een populatie op basis van een steekproef.
* Dit omvat schatten (betrouwbaarheidsintervallen) en toetsen (significantietoetsen) om uitspraken te doen over populatieparameters.
* Betrouwbaarheidsintervallen geven een bereik aan waarbinnen de populatieparameter waarschijnlijk ligt.
* Significantietoetsen evalueren of waargenomen verschillen in steekproefdata groot genoeg zijn om te concluderen dat ze niet door toeval ontstaan.
### Kernbegrippen
* **Steekproevenverdeling:** Een frequentieverdeling van de resultaten van herhaalde steekproeven; beschrijft de variabiliteit van een statistische maat (zoals gemiddelde of proportie) bij herhaalde steekproeftrekking.
* **Betrouwbaarheidsinterval (BI):** Een interval dat met een bepaalde kans (het betrouwbaarheidsniveau) de werkelijke populatieparameter bevat.
* Een 95% BI betekent dat bij 95% van de herhaalde steekproeven het interval de populatieparameter zal bevatten.
* De formule voor een BI voor het populatiegemiddelde ($\mu$) is typisch: $\bar{x} \pm Z \cdot SE$, waarbij $SE$ de standaardfout is.
* **Foutenmarge:** De breedte van het betrouwbaarheidsinterval, beïnvloed door:
* $\bar{x}$ (steekproefgemiddelde).
* $Z$ (kritieke waarde gerelateerd aan het betrouwbaarheidsniveau).
* $\alpha$ (significantieniveau, 1 - betrouwbaarheidsniveau).
* $\sigma$ (populatiestandaardafwijking).
* $n$ (steekproefgrootte).
* **Significantieniveau ($\alpha$):** De vooraf vastgestelde kans op een Type I-fout (onterecht verwerpen van de nulhypothese). Vaak ingesteld op 0,05.
* **p-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is.
* Als $p < \alpha$, wordt de nulhypothese verworpen.
* **Nulhypothese ($H_0$):** Een stelling over de populatie die wordt getoetst (bv. er is geen verschil tussen groepen).
* **Alternatieve hypothese ($H_A$):** Een stelling die de nulhypothese tegenspreekt.
* **Toetsingsgrootheid:** Een waarde berekend uit steekproefdata om de nulhypothese te toetsen (bv. z-score, t-score).
* **Type I-fout (vals positief):** De nulhypothese onterecht verwerpen ($\alpha$).
* **Type II-fout (vals negatief):** De nulhypothese onterecht niet verwerpen ($\beta$).
* **Onderscheidingsvermogen (power):** De kans om een echt effect te detecteren wanneer het bestaat ( $1 - \beta$ ).
### Sleutelfeiten
* Een kleiner BI duidt op een nauwkeurigere schatting en impliceert een hogere betrouwbaarheid.
* Een kleiner BI kan worden verkregen door:
### Implicaties
### Betrouwbaarheidsintervallen voor het gemiddelde
### Significantietoetsen voor het gemiddelde
### Rapporteren van toetsresultaten (APA-stijl)
---
* Inferentiële statistiek maakt het mogelijk uitspraken te doen over een populatie op basis van steekproefgegevens.
* Schatten via betrouwbaarheidsintervallen en toetsen via significantietoetsen zijn twee hoofdvormen van inductieve statistiek.
* Deze paginareeks focust op het vergelijken van twee proporties.
### Kernconcepten
* **Betrouwbaarheidsinterval (BI):** Een interval rond een steekproefgrootheid dat met een bepaald betrouwbaarheidsniveau (bv. 95%) de populatieparameter bevat.
* Formule voor het betrouwbaarheidsinterval voor een populatieproportie ($p$) is: $\hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$.
* $\hat{p}$ is de geschatte proportie uit de steekproef.
* $Z_{\alpha/2}$ is de kritieke waarde uit de standaard normaalverdeling voor het gekozen betrouwbaarheidsniveau.
* $\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ is de standaardfout van de proportie.
* **Significantieniveau ($\alpha$):** Het risico dat men accepteert om de nulhypothese onterecht te verwerpen (Type I fout).
* **Overschrijdingskans (p-waarde):** De kans om een resultaat te observeren dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is.
* **Type I fout (vals positief):** De nulhypothese wordt verworpen, terwijl deze waar is ($\alpha$).
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen, terwijl deze onwaar is ($\beta$).
* **Onderscheidingsvermogen (Power, 1 - $\beta$):** De kans om een werkelijk bestaand verschil (alternatieve hypothese) correct te detecteren.
### Key facts
* De focus ligt op het vergelijken van twee proporties uit onafhankelijke steekproeven.
* Een betrouwbaarheidsinterval voor het verschil tussen twee proporties geeft een bereik aan waarbinnen het ware verschil waarschijnlijk ligt.
* Bij het schatten van het betrouwbaarheidsinterval voor het verschil tussen twee proporties ($p_1 - p_2$) wordt een formule gebruikt die de geschatte proporties en standaardfouten combineert.
* Formule voor het betrouwbaarheidsinterval voor het verschil tussen twee proporties: $(\hat{p}_1 - \hat{p}_2) \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$.
* De nulhypothese ($H_0$) bij het vergelijken van twee proporties is meestal dat er geen verschil is: $p_1 = p_2$.
* De alternatieve hypothese ($H_a$) kan zijn dat $p_1 \neq p_2$ (tweezijdig), $p_1 > p_2$ (eenzijdig rechts) of $p_1 < p_2$ (eenzijdig links).
* Bij het testen van hypothesen over proporties wordt vaak gebruik gemaakt van een z-toets, die de standaard normaalverdeling benut.
- Voor het berekenen van de standaardfout in de context van twee proporties worden de twee steekproefproporties vaak "gepoold" onder de aanname dat de nulhypothese waar is, om zo een meer
* Gepoolde proportie: $\hat{p}_{pooled} = \frac{x_1 + x_2}{n_1 + n_2}$.
* Standaardfout van het verschil met gepoolde proportie: $SE_{diff} = \sqrt{\hat{p}_{pooled}(1-\hat{p}_{pooled})(\frac{1}{n_1} + \frac{1}{n_2})}$.
* De toetsingsgrootheid voor het verschil tussen twee proporties wordt berekend als het verschil tussen de steekproefproporties gedeeld door de standaardfout van het verschil.
* Betrouwbaarheidsintervallen geven een idee van de precisie van de schatting en de mogelijke waarden voor de populatieparameter.
### Tip
---
* Vergelijkingen tussen groepen zijn fundamenteel in statistiek, waarbij we kijken naar verschillen tussen populaties op basis van steekproefgegevens.
* Belangrijkste methoden omvatten betrouwbaarheidsintervallen voor schattingen en significantietoetsen voor hypothesebeoordeling.
### Sleutelbegrippen
* **Betrouwbaarheidsinterval (BI):** Een interval rond een steekproefstatistiek dat met een bepaalde waarschijnlijkheid de populatieparameter bevat.
* **Significantieniveau ($\alpha$):** De kans op een Type I fout; de kans om de nulhypothese te verwerpen terwijl deze waar is. Typisch 0.05.
* **P-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, gegeven dat de nulhypothese waar is.
* **Nulhypothese ($H_0$):** Een bewering van geen effect of geen verschil tussen populaties.
* **Alternatieve hypothese ($H_1$):** Een bewering die het tegendeel van de nulhypothese stelt.
* **Type I fout (vals positief):** $H_0$ wordt verworpen terwijl deze waar is ($\alpha$).
* **Type II fout (vals negatief):** $H_0$ wordt niet verworpen terwijl $H_1$ waar is ($\beta$).
* **Onderscheidingsvermogen (Power):** De kans dat $H_0$ correct wordt verworpen wanneer $H_1$ waar is ($1-\beta$).
### Formules en Concepten
* **Betrouwbaarheidsinterval voor het populatiegemiddelde ($\mu$) (wanneer $\sigma$ bekend is):**
- $\bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$
* $\bar{x}$: steekproefgemiddelde
* $z_{\alpha/2}$: kritieke z-waarde voor het betrouwbaarheidsniveau
* $\sigma$: populatiestandaardafwijking
* $n$: steekproefgrootte
* **Betrouwbaarheidsinterval voor het populatiegemiddelde ($\mu$) (wanneer $\sigma$ onbekend is - t-verdeling):**
- $\bar{x} \pm t_{n-1, \alpha/2} \frac{s}{\sqrt{n}}$
* $s$: steekproefstandaardafwijking
* $t_{n-1, \alpha/2}$: kritieke t-waarde met $n-1$ vrijheidsgraden.
* **T-verdeling:** Symmetrisch rond 0, met dikkere staarten dan de normaalverdeling. De vorm hangt af van de vrijheidsgraden ($df = n-1$).
* **T-toets voor gekoppelde paren:** Vergelijkt de gemiddelden van twee gerelateerde metingen (bv. voor- en nametingen).
* Bereken de verschilscores tussen de paren.
* Voer een 1-steekproef t-toets uit op deze verschilscores.
* Nulhypothese: gemiddeld verschil is 0.
### Voorwaarden voor t-procedures
### Rapportage in APA-stijl
---
* Betrouwbaarheidsintervallen en significantietoetsen worden gebruikt om conclusies te trekken over populatieproporties op basis van steekproefgegevens.
### Belangrijke feiten
* De focus ligt op het vergelijken van twee proporties uit twee verschillende populaties.
* De steekproevenverdeling van het verschil tussen twee proporties wordt gebruikt voor inferentie.
* Voor grote steekproeven kan de normale verdeling worden benaderd.
* De formule voor de standaardfout van het verschil tussen twee proporties is cruciaal.
* Betrouwbaarheidsintervallen bieden een bereik waarbinnen de werkelijke populatieproportie waarschijnlijk ligt.
* Significantietoetsen evalueren de waarschijnlijkheid van waargenomen resultaten onder de nulhypothese.
### Belangrijke concepten
* **Steekproefproportie ($\hat{p}$):** Het aandeel van een bepaald kenmerk in een steekproef.
* **Populatieproportie ($p$):** Het werkelijke aandeel van een bepaald kenmerk in de populatie.
* **Verschil tussen steekproefproporties ($\hat{p}_1 - \hat{p}_2$):** De geobserveerde discrepantie tussen twee steekproeven.
* **Standaardfout van het verschil tussen proporties ($SE_{\hat{p}_1 - \hat{p}_2}$):** Een maat voor de variabiliteit van het verschil tussen steekproefproporties.
- $$ SE_{\hat{p}_1 - \hat{p}_2} = \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} $$
* **Betrouwbaarheidsinterval voor het verschil tussen twee proporties:** Wordt berekend als:
- $$ (\hat{p}_1 - \hat{p}_2) \pm z^{\ast} \times SE_{\hat{p}_1 - \hat{p}_2} $$
- waarbij $z^{\ast}$ de kritieke waarde is voor het gewenste betrouwbaarheidsniveau
* **Nulhypothese ($H_0$):** Meestal $p_1 = p_2$ of $p_1 - p_2 = 0$.
* **Alternatieve hypothese ($H_a$):** Kan eenzijdig ($p_1 > p_2$ of $p_1 < p_2$) of tweezijdig ($p_1 \ne p_2$) zijn.
* **Toetsingsgrootheid (z-score):**
- $$ z = \frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}} $$
- Onder de nulhypothese wordt $(p_1 - p_2)$ gelijk aan 0 en de standaardfout wordt berekend met gepoolde proporties
* **Gepoolde proportie ($\hat{p}_{pool}$):** Gebruikt wanneer $H_0: p_1 = p_2$ wordt aangenomen.
- $$ \hat{p}_{pool} = \frac{x_1 + x_2}{n_1 + n_2} $$
- waar $x_1$ en $x_2$ het aantal successen in elke groep zijn
- De standaardfout wordt dan:
- $$ SE_{pooled} = \sqrt{\hat{p}_{pool}(1-\hat{p}_{pool})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)} $$
### Tips
---
* Focus op het vergelijken van parameters uit twee populaties op basis van steekproefgegevens.
* Dit omvat zowel het schatten van deze parameters (betrouwbaarheidsintervallen) als het toetsen van hypothesen (significantietoetsen).
* **Inferentie**: Het proces van het trekken van conclusies over een populatie op basis van steekproefgegevens.
* **Schatten (Betrouwbaarheidsintervallen)**: Bepalen van een interval waarbinnen de populatieparameter waarschijnlijk ligt.
* **Toetsen (Significantietoetsen)**: Hypothesen toetsen over populatieparameters op basis van steekproefgegevens.
* De stap van het onderzoeken van een **enkele populatie** naar het vergelijken van **twee populaties** is een belangrijk concept.
* Bij het vergelijken van twee groepen is de nulhypothese (H₀) meestal dat er geen verschil is tussen de populatieparameters (bv. H₀: $\mu_1 = \mu_2$).
* De **alternatieve hypothese** (H₁) stelt dat er wel een verschil is (bv. H₁: $\mu_1 \neq \mu_2$, H₁: $\mu_1 > \mu_2$, of H₁: $\mu_1 < \mu_2$).
* Bij het vergelijken van twee populaties zijn vaak twee standaardafwijkingen betrokken ($\sigma_1$ en $\sigma_2$), wat de analyse complexer maakt dan bij één populatie.
- **Steekproevenverdeling van het verschil tussen twee gemiddelden**: Wanneer twee populaties worden vergeleken, kan de steekproevenverdeling van het verschil tussen hun gemiddelden worden beschreven. Deze verdeling is cruciaal voor het berekenen
* **Z-toets voor twee onafhankelijke steekproeven**: Gebruikt wanneer de populatiestandaardafwijkingen ($\sigma_1$ en $\sigma_2$) bekend zijn of wanneer de steekproefgroottes groot zijn en de standaardafwijkingen van de steekproeven worden gebruikt als schatters.
* Toetsingsgrootheid: $z = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$ (wanneer $\mu_1 - \mu_2$ onder H₀ nul is).
* **T-toets voor twee onafhankelijke steekproeven**: Gebruikt wanneer de populatiestandaardafwijkingen onbekend zijn en worden geschat met de steekproefstandaardafwijkingen ($s_1$ en $s_2$). Dit is de meest voorkomende situatie.
* Vereist vaak het berekenen van een gecombineerde standaardfout (pooled standard error), vooral als gelijke populatievarianties worden aangenomen.
* De t-verdeling wordt gebruikt in plaats van de z-verdeling, met specifieke vrijheidsgraden die afhangen van de steekproefgroottes ($n_1$ en $n_2$).
- **T-toets voor gekoppelde/afhankelijke steekproeven**: Gebruikt wanneer metingen van dezelfde individuen op twee verschillende momenten (bv. voor en na een interventie) of van gekoppelde individuen (bv. paren) worden vergeleken. De analyse
* Deze toets wordt behandeld als een 1-steekproef t-toets op de verschilscores.
- **Vrijheidsgraden (df)**: Bij t-toetsen bepalen de vrijheidsgraden de specifieke vorm van de t-verdeling. Voor onafhankelijke steekproeven is dit vaak $n_1 + n_2 - 2$, en voor gekoppelde steekproeven is dit $n - 1$ (waarbij $n$ het
* Het kiezen van de juiste toets (z of t, onafhankelijk of gekoppeld) hangt af van de aard van de data en de aannames over de populatieparameters.
* De aanname van onafhankelijke steekproeven is cruciaal voor de onafhankelijke t-toets; schending hiervan kan leiden tot onjuiste conclusies.
- De aanname van normaliteit van de populaties (of de verdeling van de verschilscores voor gekoppelde toetsen) is belangrijk, vooral bij kleine steekproeven. De t-toets is echter redelijk robuust tegen schendingen
* De interpretatie van resultaten (p-waarde, betrouwbaarheidsinterval) moet altijd in de context van de onderzoeksvraag en de specifieke populaties worden gedaan.
* Rapporteren volgens APA-stijl vereist specifieke informatie, waaronder de toetsingsgrootheid, vrijheidsgraden, p-waarde, en het betrouwbaarheidsinterval.
- > **Tip:** Bij het vergelijken van twee onafhankelijke groepen, als de populatiestandaardafwijkingen ($\sigma_1, \sigma_2$) onbekend zijn, is de t-toets voor onafhankelijke steekproeven de standaardmethode
- Als er sterke aanwijzingen zijn dat de populatievarianties gelijk zijn, kan een 'pooled variance' t-toets worden gebruikt, anders een Welch's t-toets (die minder strenge aannames heeft over gelijke varianties)
---
* Inferentiële statistiek stelt ons in staat om conclusies te trekken over populaties op basis van steekproefgegevens.
* Betrouwbaarheidsintervallen schatten de range waarbinnen de populatieparameter waarschijnlijk ligt.
* Significantietoetsen evalueren of waargenomen verschillen tussen groepen of met een theoretische waarde waarschijnlijk niet door toeval komen.
* Betrouwbaarheidsinterval (BI): Geeft een range aan waarbinnen het populatiegemiddelde waarschijnlijk valt.
* 95% BI: Betekent dat bij 100 herhalingen van het onderzoek, 95 van de intervallen de ware populatiewaarde zullen bevatten.
* Formule BI voor populatiegemiddelde $\mu$: $\bar{x} \pm Z \times \frac{\sigma}{\sqrt{n}}$ (indien $\sigma$ bekend) of $\bar{x} \pm t^* \times \frac{s}{\sqrt{n}}$ (indien $\sigma$ onbekend, $s$ is steekproefstandaardafwijking).
* Factoren die de breedte van het BI beïnvloeden:
* Steekproefgemiddelde ($\bar{x}$): Centraal punt van het interval.
* Z-score (betrouwbaarheidsniveau): Hoger niveau (bv. 99% vs 95%) leidt tot breder interval.
* Standaardafwijking van de populatie ($\sigma$) of schatting daarvan ($s$): Grotere spreiding leidt tot breder interval.
* Steekproefgrootte ($n$): Grotere steekproef leidt tot smaller interval.
* Significantieniveau ($\alpha$): De kans op een Type I fout (onterecht verwerpen van H₀). Meestal 0,05.
* p-waarde: De kans op het waarnemen van de data (of extremer), gegeven dat de nulhypothese waar is.
* Als p-waarde < $\alpha$, verwerpen we de nulhypothese (H₀) en concluderen we een significant verschil.
* Een significantietoets in 4 stappen:
- 1
- Formuleer nul- en alternatieve hypothesen
- 2
- Bepaal de waarde van de toetsingsgrootheid
- 3
- Bepaal de overschrijdingskans (p-waarde)
- 4
- Formuleer de conclusie (vaak in APA-stijl)
* Type I fout (vals positief): H₀ verwerpen terwijl deze waar is. Kans is $\alpha$.
* Type II fout (vals negatief): H₀ niet verwerpen terwijl deze onwaar is. Kans is $\beta$.
### Algemene regels voor rapportering (APA-stijl)
---
* De focus ligt op de interpretatie en toepassing van statistische methoden voor het vergelijken van twee proporties, specifiek binnen de context van betrouwbaarheidsintervallen en significantietoetsen.
* **Statistische inferentie:** Het proces van het trekken van conclusies over een populatie op basis van steekproefgegevens.
* **Betrouwbaarheidsinterval (BI):** Een interval waarbinnen men verwacht dat de ware populatieparameter (bv. een proportie) zal liggen met een bepaald betrouwbaarheidsniveau.
* **Significantietoetsen:** Methodes om te beoordelen of waargenomen verschillen tussen steekproefgegevens en een nulhypothese statistisch significant zijn.
* **Nulhypothese (H₀):** De aanname dat er geen verschil of verband is tussen populatieparameters.
* **Alternatieve hypothese (H₁):** De hypothese die stelt dat er wel een verschil of verband is.
* **P-waarde:** De kans op het waarnemen van de steekproefresultaten (of extremere resultaten) als de nulhypothese waar is.
* **Significantieniveau (α):** Een vooraf bepaalde drempelwaarde (meestal 0,05) waaronder de nulhypothese wordt verworpen.
* **Type I fout (vals positief):** Het onterecht verwerpen van de nulhypothese (kans is α).
* **Type II fout (vals negatief):** Het onterecht aanvaarden van de nulhypothese (kans is β).
* **Onderscheidingsvermogen (power):** De kans om een echt verschil te detecteren als dat aanwezig is (1 - β).
### Sleutelconcepten
* **Betrouwbaarheidsinterval voor het verschil tussen twee proporties:**
* Wordt gebruikt om een reeks waarschijnlijke waarden te schatten voor het ware verschil tussen twee populatieproporties.
* De berekening is afhankelijk van de steekproefproporties, steekproefgroottes en een kritieke waarde (meestal een z-waarde voor grote steekproeven).
* **Z-toets voor het verschil tussen twee proporties:**
* Wordt gebruikt om de nulhypothese te toetsen dat er geen verschil is tussen twee populatieproporties ($H_0: p_1 - p_2 = 0$).
* De toetsingsgrootheid $z$ meet het verschil tussen de geobserveerde steekproefproporties, uitgedrukt in standaardfouten.
* Formule voor de toetsingsgrootheid:
- $$z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}}$$
- waarbij $\hat{p}$ de gepoolde proportie is onder de nulhypothese
* **Voorwaarden voor de z-toets voor proporties:**
* Willekeurige steekproeven.
* Onafhankelijke waarnemingen binnen en tussen de groepen.
* Voldoende grote steekproeven (bv. $n \cdot p \ge 10$ en $n \cdot (1-p) \ge 10$ voor elke groep, of gebruik van de gepoolde proportie voor deze check).
* **Interpretatie van het betrouwbaarheidsinterval voor het verschil:**
---
* Vergelijken van twee proporties uit twee onafhankelijke steekproeven.
* Gebruik van betrouwbaarheidsintervallen en significantietoetsen om conclusies te trekken over populatieproporties.
### Kernfeiten
* Formule voor het betrouwbaarheidsinterval voor het verschil tussen twee proporties: $\hat{p}_1 - \hat{p}_2 \pm z^{\ast} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$.
* De $z^{\ast}$-waarde is de kritieke waarde van de standaardnormale verdeling voor het gewenste betrouwbaarheidsniveau.
* Nulhypothese voor significantietoetsen: $H_0: p_1 = p_2$ (de proporties in de populaties zijn gelijk).
* Alternatieve hypothese: $H_a: p_1 \neq p_2$ (tweezijdige toets) of $H_a: p_1 > p_2$ / $H_a: p_1 < p_2$ (eenzijdige toets).
* Toetsingsgrootheid voor het verschil tussen twee proporties wordt berekend onder de aanname dat $H_0$ waar is, waarbij een gepoolde proportie wordt gebruikt: $\hat{p}_{pooled} = \frac{x_1 + x_2}{n_1 + n_2}$.
* Formule voor de toetsingsgrootheid $z$ bij het vergelijken van twee proporties: $$z = \frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)}{\sqrt{\hat{p}_{pooled}(1-\hat{p}_{pooled})(\frac{1}{n_1} + \frac{1}{n_2})}}$$ waarbij $(p_1 - p_2)$ onder $H_0$ gelijk is aan 0.
* **Betrouwbaarheidsinterval voor het verschil tussen proporties:** Geeft een bereik aan waarbinnen het werkelijke verschil tussen de populatieproporties waarschijnlijk ligt.
* **Significantietoets voor het verschil tussen proporties:** Test of het waargenomen verschil tussen steekproefproporties groot genoeg is om te concluderen dat er een verschil is in de populaties.
* **Gepoolde proportie ($\hat{p}_{pooled}$):** Een gewogen gemiddelde van de steekproefproporties, gebruikt om de standaardfout te berekenen onder de nulhypothese.
* **Standaardfout van het verschil tussen proporties:** Meet de variabiliteit van het verschil tussen steekproefproporties.
* **Overschreidingskans (p-waarde):** De kans om een verschil te observeren dat minstens zo extreem is als het waargenomen verschil, aangenomen dat de nulhypothese waar is.
* Een betrouwbaarheidsinterval dat 0 niet bevat, suggereert een statistisch significant verschil tussen de populatieproporties.
* Een kleine p-waarde (typisch < 0.05) leidt tot het verwerpen van de nulhypothese, wat duidt op een significant verschil tussen de proporties.
* Deze methoden zijn cruciaal voor het vergelijken van uitkomsten tussen twee groepen, bijvoorbeeld effectiviteit van behandelingen of reacties op marketingcampagnes.
### Belangrijke overwegingen
* **Onafhankelijke steekproeven:** De data uit de twee groepen moeten onafhankelijk van elkaar zijn.
* **Voldoende steekproefgrootte:** Om de benadering met de normale verdeling te rechtvaardigen, moeten $n_1\hat{p}_1 \geq 10$, $n_1(1-\hat{p}_1) \geq 10$, $n_2\hat{p}_2 \geq 10$, en $n_2(1-\hat{p}_2) \geq 10$ gelden (of alternatief, als de gepoolde proportie wordt gebruikt: $n_1\hat{p}_{pooled} \geq 10$ en $n_2\hat{p}_{pooled} \geq 10$).
* **Context bij rapportering:** Rapporteer de gevonden proporties, steekproefgroottes, de toetsingsgrootheid, de p-waarde en het betrouwbaarheidsinterval voor een volledige interpretatie.
- > **Tip:** De t-verdeling wordt gebruikt bij het schatten van de populatievariantie met de steekproefvariantie
- Voor proporties, waarbij de variantie direct kan worden geschat uit de proporties zelf, wordt de z-verdeling gebruikt, tenzij de steekproef erg klein is en de proporties extreem zijn (dicht bij
- 0 of 1)
- In de praktijk wordt voor proporties vaak de z-verdeling gebruikt vanwege de relatief grote steekproefgroottes die vaak voorkomen
- > **Tip:** Bij het interpreteren van betrouwbaarheidsintervallen voor het verschil tussen twee proporties:
- > * Als het interval (0, positief getal) bevat, is er geen significant verschil of is $p_1 < p_2$
---
# De Wilcoxon-Mann-Whitney test en gerelateerde non-parametrische toetsen
### Kernidee
* Deze sectie introduceert de basisprincipes van inductieve statistiek, waarbij conclusies over populaties worden getrokken op basis van steekproefgegevens.
* De focus ligt op het begrijpen van steekproevenverdelingen en hun rol bij het maken van inferenties, zoals het schatten van populatieparameters en het uitvoeren van significantietoetsen.
### Kernfeiten
* **Inferentiële statistiek** betreft het trekken van conclusies over een populatie op basis van een steekproef.
* Een **steekproevenverdeling** is een frequentieverdeling van resultaten verkregen uit meerdere steekproeven, niet van de populatie zelf.
* **Schatten** met betrouwbaarheidsintervallen geeft aan binnen welk bereik de populatieparameter waarschijnlijk ligt.
* **Significantietoetsen (hypothesetoetsen)** bepalen of een waargenomen verschil groot genoeg is om de nulhypothese te verwerpen.
* Een **betrouwbaarheidsinterval (BI)** geeft de grenzen aan waarbinnen het echte populatiegemiddelde naar verwachting zal liggen (met een bepaalde waarschijnlijkheid).
* Het berekenen van een BI voor het populatiegemiddelde ($\mu$) omvat het steekproefgemiddelde ($\bar{x}$), de z-score voor het betrouwbaarheidsniveau, het significantieniveau ($\alpha$), de populatiestandaardafwijking ($\sigma$), en de steekproefgrootte ($n$).
* De formule voor een betrouwbaarheidsinterval is $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$.
* De **foutenmarge** in een betrouwbaarheidsinterval wordt beïnvloed door de steekproefgrootte ($n$), het betrouwbaarheidsniveau ($Z$), en de populatiestandaardafwijking ($\sigma$).
* Een **kleiner betrouwbaarheidsinterval** impliceert een hogere betrouwbaarheid en wordt verkregen door een grotere steekproef, een lager betrouwbaarheidsniveau, of een kleinere populatiestandaardafwijking.
### Belangrijke Concepten
* **Significantieniveau ($\alpha$)**: De vooraf vastgestelde kritieke grens (meestal 0,05) die aangeeft wanneer de nulhypothese wordt verworpen.
- **p-waarde**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder aanname dat de nulhypothese waar is. Als $p < \alpha$, worden de resultaten als
* **Type I fout (vals positief)**: De nulhypothese wordt onterecht verworpen ($\alpha$).
* **Type II fout (vals negatief)**: De nulhypothese wordt niet verworpen terwijl deze vals is ($\beta$).
* **Power (onderscheidingsvermogen)**: De kans om een verschil op populatieniveau te detecteren wanneer dit verschil er daadwerkelijk is ($1 - \beta$).
* **Z-toets**: Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) bekend is. Standaardiseert de waarde tot een z-score die afgelezen kan worden uit de normaalverdeling.
* **T-verdeling**: Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden uit de steekproefstandaardafwijking ($s$). De t-verdeling heeft dikkere staarten dan de normaalverdeling, vooral bij kleine steekproeven.
* **Vrijheidsgraden (df)**: Worden bepaald door de steekproefgrootte ($df = n - 1$ voor een 1-steekproef t-test) en specificeren de exacte vorm van de t-verdeling.
* **1-steekproef t-betrouwbaarheidsinterval**: Gebruikt wanneer $\sigma$ onbekend is en vervangt de z-verdeling door de t-verdeling met $n-1$ vrijheidsgraden.
* **1-steekproef t-toets**: Vergelijkt een steekproefgemiddelde met een bekend populatiegemiddelde wanneer $\sigma$ onbekend is. De toetsingsgrootheid is $t = \frac{\bar{x} - \mu}{s/\sqrt{n}}$.
* **Gepaarde t-toets**: Vergelijkt de gemiddelde verschillen tussen twee gerelateerde metingen (bijv. voor- en nametingen) door de verschilscores te analyseren met een 1-steekproef t-toets.
* **Onafhankelijke t-toets**: Vergelijkt de gemiddelden van twee onafhankelijke groepen wanneer $\sigma$ onbekend is. De toetsingsgrootheid is complexer en maakt gebruik van gepoolde variantie of aparte schattingen van varianties.
### Implicaties
* Het begrijpen van steekproevenverdelingen is cruciaal om de onzekerheid in statistische gevolgtrekkingen te kwantificeren.
* De keuze tussen een z-toets en een t-toets hangt af van de kennis van de populatiestandaardafwijking.
### Voorwaarden voor T-procedures
### Rapporteren van Toetsresultaten (APA-stijl)
---
* Wilcoxon-Mann-Whitney test is een non-parametrische toets om twee onafhankelijke groepen te vergelijken.
* Vergelijkt de rangordes van observaties tussen de groepen, niet de ruwe data zelf.
* Is een alternatief voor de t-toets voor onafhankelijke steekproeven wanneer aannames van de t-toets niet voldaan zijn.
### Belangrijke feiten
* Vereist dat de steekproeven onafhankelijk zijn.
* Vereist dat de verdeling van de data in beide groepen vergelijkbaar is (maar niet noodzakelijk normaal).
* De nulhypothese stelt dat de kansverdelingen van de twee groepen identiek zijn.
* De alternatieve hypothese kan zijn dat de ene groep systematisch hogere of lagere waarden heeft dan de andere.
* De toets wordt uitgevoerd door alle observaties van beide groepen te combineren, te rangschikken en de rangsommen per groep te berekenen.
* De toetsingsgrootheid is gebaseerd op het verschil tussen de rangsommen van de twee groepen.
### Kernconcepten
* **Non-parametrische toets:** Een statistische toets die geen aannames doet over de parametrische verdeling van de populatie, zoals normaliteit.
* **Rangschikken:** Het toekennen van een numerieke volgorde aan observaties, van klein naar groot of andersom.
* **Rangsom:** De som van de rangnummers van alle observaties binnen een groep.
* **Onafhankelijke steekproeven:** Steekproeven waarbij de observaties in de ene steekproef geen invloed hebben op de observaties in de andere steekproef.
* **Vrijheidsgraden:** Voor de Wilcoxon-Mann-Whitney test hangen de vrijheidsgraden af van de groottes van beide steekproeven ($n_1$ en $n_2$).
* Geschikt voor data die scheef verdeeld zijn of uitschieters bevatten.
* Kan gebruikt worden wanneer de data ordinaal zijn in plaats van interval of ratio.
* Is minder krachtig dan de t-toets wanneer de aannames van de t-toets wel voldaan zijn.
* Vereist een zorgvuldige interpretatie van de rangordes, niet van de absolute waarden.
### Veelvoorkomende valkuilen
* Het ten onrechte toepassen van de test wanneer de groepen afhankelijk zijn (hiervoor is de Wilcoxon signed-rank test geschikt).
* Het niet controleren van de aanname van vergelijkbare verdelingen tussen de groepen.
* Het verwarren van de resultaten met die van een t-toets, aangezien de interpretatie verschilt.
---
* Non-parametrische toetsen zijn alternatieven voor parametrische toetsen (zoals de t-toets) wanneer de aannames van parametrische toetsen (bv. normaliteit, gelijke varianties) niet voldaan zijn.
* Ze zijn vaak gebaseerd op de rangorde van de data in plaats van op de daadwerkelijke waarden.
* De Wilcoxon-Mann-Whitney (WMW) test vergelijkt twee onafhankelijke groepen en is het non-parametrische equivalent van de onafhankelijke t-toets.
* **Rangorde:** Data worden gesorteerd van laag naar hoog en krijgen een rangnummer. Bij gelijke waarden worden de gemiddelde rangnummers toegekend.
* **Wilcoxon-Mann-Whitney test (WMW):**
* Vergelijkt de som van de rangnummers van twee onafhankelijke groepen.
* Nulhypothese: De distributies van de twee populaties zijn identiek.
* Alternatieve hypothese: De distributies van de twee populaties verschillen (bv. de ene is systematisch hoger dan de andere).
* Toetsingsgrootheid ($W$ of $U$): Gebaseerd op de som van de rangnummers.
* **Aannames WMW test:**
* Onafhankelijke steekproeven.
* De verdelingen van de twee groepen hebben dezelfde vorm en spreiding (maar dit is minder strikt dan bij de t-toets).
* **Vrijheidsgraden (df) bij WMW:** Gebaseerd op de steekproefgroottes ($n_1, n_2$).
* **Alternatieven voor parametrische toetsen:**
* WMW test vervangt de onafhankelijke t-toets.
* Wilcoxon signed-rank test vervangt de gepaarde t-toets.
* Kruskal-Wallis test vervangt de one-way ANOVA.
### Toepassingen en interpretatie
* **Geschikt voor:**
* Data die niet normaal verdeeld zijn.
* Data met extreme uitschieters.
* Ordinale data.
* **Voorbeeld:** Vergelijken van de reactietijden van twee groepen patiënten die verschillende therapieën hebben ontvangen, waarbij de reactietijden niet normaal verdeeld zijn.
* **Conclusie:** Indien de p-waarde kleiner is dan het significantieniveau (bv. 0.05), wordt de nulhypothese verworpen en geconcludeerd dat er een significant verschil is tussen de twee groepen.
### Overwegingen
- **Kracht:** Non-parametrische toetsen zijn over het algemeen minder krachtig dan parametrische toetsen wanneer aan alle aannames van de parametrische toetsen is voldaan. Ze vereisen grotere steekproeven om hetzelfde onderscheidingsvermogen te
* **Interpretatie:** De conclusie bij non-parametrische toetsen gaat vaak over verschillen in positie of rangorde, niet zozeer over specifieke gemiddelden of varianties.
### Gerelateerde non-parametrische toetsen
---
* Non-parametrische toetsen worden gebruikt wanneer aannames van parametrische toetsen (zoals normaliteit) niet voldaan zijn.
* Deze toetsen werken met rangordes van data in plaats van de ruwe data zelf.
* De Wilcoxon-Mann-Whitney test is een non-parametrisch alternatief voor de onafhankelijke t-toets.
* Non-parametrische toetsen zijn vaak robuuster tegen schendingen van aannames.
* Ze zijn nuttig bij kleine steekproeven of wanneer de data ordinaal zijn.
* De Wilcoxon-Mann-Whitney toets vergelijkt de medianen van twee onafhankelijke groepen.
* Het vergelijkt de rangordes van de waarnemingen uit beide groepen.
* De nulhypothese is dat de twee populaties identiek zijn (geen verschil in verdeling of mediaan).
* De alternatieve hypothese kan zijn dat de ene populatie stelselmatig hogere waarden heeft dan de andere.
* **Rangordes:** Data worden eerst gesorteerd en vervolgens krijgen ze een rangnummer.
* **Wilcoxon-rangsom statistiek ($W$):** De som van de rangordes in een van de groepen.
* **Vergelijking met theoretische verdeling:** De berekende $W$ wordt vergeleken met de verwachte $W$ onder de nulhypothese.
* **P-waarde:** De kans op het observeren van een teststatistiek die minstens zo extreem is als de waargenomen statistiek, aangenomen dat de nulhypothese waar is.
* **Aannames:**
* Meetniveau is minimaal ordinaal.
* Data komen uit vergelijkbare verdelingen (qua vorm).
* Geschikt wanneer de aanname van normaliteit voor de t-toets geschonden wordt.
* Kan een hogere power hebben dan de t-toets bij extreme schendingen van normaliteit.
* Interpretatie is gebaseerd op het vergelijken van de centrale tendens (vaak de mediaan).
* Vereist dat de verdelingen van de twee groepen ongeveer dezelfde vorm hebben voor een directe vergelijking van medianen.
- > **Tip:** Indien de verdelingen van de twee groepen een verschillende vorm hebben, toetst de Wilcoxon-Mann-Whitney test feitelijk of de ene populatie stelselmatig hogere of lagere waarden produceert, niet specifiek
- de medianen
* Verkeerde interpretatie van de test als enkel een medianentest wanneer de verdelingsvormen verschillen.
* Niet voldoen aan de aanname van onafhankelijkheid tussen de groepen.
---
* De t-toetsen veronderstellen dat de data normaal verdeeld zijn.
* Wanneer deze aanname niet voldaan is, vooral bij kleine steekproeven, zijn non-parametrische toetsen een alternatief.
* Non-parametrische toetsen maken minder of geen aannames over de verdeling van de populatie.
* Ze werken vaak met rangordes van de data in plaats van de ruwe waarden.
### Wilcoxon-Mann-Whitney U-test
* **Doel:** Vergelijken van twee onafhankelijke groepen.
* **Equivalent aan:** Een non-parametrisch alternatief voor de onafhankelijke t-toets.
* **Nulhypothese (H₀):** De verdelingen van beide groepen zijn identiek.
* **Werkwijze:**
* Combineer alle data van beide groepen.
* Rangschik de gecombineerde data van klein naar groot.
* Bereken de som van de rangordes voor elke groep afzonderlijk.
* Gebruik de rangordes om de U-statistiek te berekenen.
* **Interpretatie:** Een grote U-statistiek (of een kleine, afhankelijk van de berekening) suggereert dat de groepen significant verschillen.
* **Aannames:** Onafhankelijke steekproeven en minstens ordinaal meetniveau.
* **Gevoeligheid:** Minder gevoelig voor extreme uitschieters dan de t-toets.
* **Wilcoxon signed-rank test:**
* **Doel:** Vergelijken van twee gerelateerde (gepaarde) metingen.
* **Equivalent aan:** Non-parametrisch alternatief voor de gepaarde t-toets.
* **Werkwijze:** Berekent verschillen tussen paren, rangschikt de absolute verschillen en sommeert de rangordes van de positieve en negatieve verschillen.
* **Kruskal-Wallis H-test:**
* **Doel:** Vergelijken van twee of meer dan twee onafhankelijke groepen.
* **Equivalent aan:** Non-parametrisch alternatief voor de one-way ANOVA.
* **Werkwijze:** Een uitbreiding van de Mann-Whitney U-test voor meerdere groepen.
- > **Tip:** Non-parametrische toetsen zijn robuuster wanneer de aannames van parametrische toetsen geschonden worden, maar ze kunnen minder statistische power hebben als de aannames wel voldaan zijn
- > **Voorbeeld:** Stel dat je de tevredenheidsscores (ordinaal) van twee verschillende groepen respondenten wilt vergelijken
---
- Non-parametrische toetsen worden gebruikt wanneer aannames van parametrische toetsen (zoals normaliteit) geschonden zijn.
- Ze werken met rangordes in plaats van de ruwe data.
- De Wilcoxon-Mann-Whitney (WMW) toets vergelijkt twee onafhankelijke groepen.
- WMW-toets is een alternatief voor de t-toets voor onafhankelijke steekproeven.
- Aannames van de WMW-toets: onafhankelijke steekproeven, ordinale of continue data.
- De toets rangschikt alle data van beide groepen samen en berekent een statistiek gebaseerd op de som van rangordes.
- Een hoge WMW-statistiek duidt op een verschil tussen de groepen.
- De toets kijkt naar de rangordes van de observaties, niet naar de ruwe waarden.
- Geschikt voor data die niet normaal verdeeld zijn of met uitschieters.
- Minder krachtig dan de t-toets wanneer de aannames van de t-toets wel voldaan zijn.
- Biedt een robuust alternatief voor het vergelijken van twee groepen.
- **Wilcoxon signed-rank test:** Vergelijkt twee afhankelijke (gepaarde) metingen.
- Alternatief voor de gepaarde t-toets.
- Toetst of de gemiddelde *verschillen* tussen paren significant afwijken van nul.
- **Kruskal-Wallis toets:** Vergelijkt meer dan twee onafhankelijke groepen.
- Non-parametrisch alternatief voor de one-way ANOVA.
- Toetst of er een verschil is tussen de rangordes van de groepen.
- **Friedman toets:** Vergelijkt meer dan twee afhankelijke metingen.
- Non-parametrisch alternatief voor de repeated measures ANOVA.
- Toetst of er verschillen zijn tussen de rangordes over de verschillende meetmomenten.
---
* De pagina's behandelen de overgang van z-toetsen naar t-toetsen wanneer de populatie standaardafwijking $\sigma$ onbekend is en geschat moet worden met de steekproefstandaardafwijking $s$.
* De t-verdeling, met zijn dunnere staarten ten opzichte van de normaalverdeling, is essentieel voor inferentie met kleine steekproeven wanneer $\sigma$ onbekend is.
* De T-toetsen worden onderverdeeld in tests voor één populatie en tests voor twee populaties, waarbij de laatste verder worden onderverdeeld in gekoppelde en onafhankelijke steekproeven.
### Vrijheidsgraden
* Vrijheidsgraden (df) definiëren de specifieke t-verdeling, afhankelijk van de steekproefgrootte ($df = n-1$).
* Naarmate df toeneemt, benadert de t-verdeling de standaard normaalverdeling.
### T-verdeling versus standaard normaalverdeling
* De t-verdeling is symmetrisch met een top op x=0, maar heeft dikkere staarten dan de z-verdeling.
* Dikkere staarten betekenen een grotere kans om extreme waarden te observeren onder de nulhypothese, wat leidt tot een verhoogd risico op Type I fouten indien niet correct gemanaged.
* De kritieke waarden voor t-toetsen worden opgezocht in de t-tabel (Tabel D) op basis van df en het gekozen betrouwbaarheidsniveau (of significantieniveau $\alpha$).
### T-betrouwbaarheidsinterval voor één steekproef
* De vorm is $\bar{x} \pm t^{\ast} \times SE$, waarbij $SE$ de standaardfout is ($\frac{s}{\sqrt{n}}$).
* De foutenmarge bestaat uit een kritieke t-waarde ($t^{\ast}$) en de data-afhankelijke standaardfout.
* Voorwaarden:
* Random steekproef (representativiteit).
* Normaal verdeelde populatie (robuust voor n>30, of indien de verdeling niet sterk scheef is en geen uitschieters bevat).
* Onafhankelijke waarnemingen (populatiegrootte N $\ge$ 20n).
### Eenzijdige en tweezijdige t-toets voor één steekproef
* De toetsingsgrootheid $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$ meet het verschil tussen het steekproefgemiddelde en het hypothetische populatiegemiddelde in standaardfouten.
* Rapporteren in APA-stijl: $t(df) = \text{waarde}, p = \text{waarde}, 95\% CI [\text{ondergrens}, \text{bovengrens}], d = \text{waarde}$. Gebruik komma's als decimaalscheidingstekens in het Nederlands.
### T-toetsen voor twee gemiddelden
#### T-toets voor gekoppelde paren (Paired samples t-test)
* Gebruikt voor twee afhankelijke metingen van dezelfde proefpersonen (bv. voor- en nameting).
* Analyseert de verschilscores tussen de paren, waarbij de nulhypothese $H_0: \mu_{d} = 0$ is.
* Wordt behandeld als een 1-steekproef t-toets op de verschilscores.
* Voordeel: controleert voor individuele verschillen, wat de power kan verhogen.
* Voorwaarden: Gekoppelde data, verschilscores zijn normaal verdeeld of $n_{paren} > 30$.
#### T-toets voor onafhankelijke steekproeven (Independent samples t-test)
* Gebruikt om gemiddelden van twee onafhankelijke groepen te vergelijken (between-subjects design).
* $H_0: \mu_1 = \mu_2$.
* Toetsingsgrootheid $t$ vergelijkt het verschil tussen steekproefgemiddelden met de standaardfout van het verschil.
* Als populatievarianties ($\sigma_1^2$ en $\sigma_2^2$) gelijk zijn, wordt een gepoolde variantie gebruikt. Als ze ongelijk zijn, wordt een aangepaste formule gebruikt die de vrijheidsgraden beïnvloedt.
### Belangrijke concepten en implicaties
---
# De chi-kwadraat afhankelijkheidstoets
### Kernidee
* De chi-kwadraat afhankelijkheidstoets wordt gebruikt om te bepalen of er een statistisch significant verband bestaat tussen twee categorische variabelen.
* Het test of de geobserveerde frequenties in een contingentietabel significant afwijken van de frequenties die we zouden verwachten als de twee variabelen onafhankelijk van elkaar zouden zijn.
### Kernconcepten
- **Contingentietabel (kruistabel):** Een tabel die de frequentieverdeling weergeeft van twee categorische variabelen tegelijkertijd. De rijen vertegenwoordigen de categorieën van de ene variabele, en de kolommen vertegenwoordigen de categorieën van de
* **Geobserveerde frequenties ($O_{ij}$):** De daadwerkelijke aantallen waarnemingen in elke cel van de contingentietabel.
* **Verwachte frequenties ($E_{ij}$):** De frequenties die we zouden verwachten in elke cel als er geen verband zou bestaan tussen de twee variabelen (oftewel, als ze onafhankelijk zouden zijn).
* **Onafhankelijkheid:** Twee variabelen zijn onafhankelijk als de verdeling van de ene variabele niet afhangt van de categorie van de andere variabele.
* **Afhankelijkheid:** Twee variabelen zijn afhankelijk als de verdeling van de ene variabele wel afhangt van de categorie van de andere variabele.
* **Chi-kwadraat toetsingsgrootheid ($\chi^2$):** Een maat die het verschil tussen de geobserveerde en verwachte frequenties samenvat.
### Formules
* De formule voor de chi-kwadraat toetsingsgrootheid is:
- $$ \chi^2 = \sum_{i=1}^{k} \sum_{j=1}^{m} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
- waar:
* $k$ = aantal rijen (categorieën van variabele 1)
* $m$ = aantal kolommen (categorieën van variabele 2)
* $O_{ij}$ = geobserveerde frequentie in cel $(i, j)$
* $E_{ij}$ = verwachte frequentie in cel $(i, j)$
* De formule om de verwachte frequenties te berekenen is:
- $$ E_{ij} = \frac{\text{(rijtotaal}_i) \times (\text{kolomtotaal}_j)}{\text{totaal aantal waarnemingen}} $$
### Vrijheidsgraden (df)
* Het aantal vrijheidsgraden voor de chi-kwadraat afhankelijkheidstoets wordt berekend als:
- $$ df = (k-1) \times (m-1) $$
* $k$ = aantal rijen
* $m$ = aantal kolommen
### Aannames
* **Onafhankelijkheid van waarnemingen:** Elke waarneming is onafhankelijk van de andere.
* **Categorische variabelen:** Beide variabelen moeten categorisch zijn (nominaal of ordinaal).
- **Voldoende grote verwachte frequenties:** Voor een geldige chi-kwadraat toets moeten de verwachte frequenties in de meeste cellen niet te klein zijn. Een veelgebruikte vuistregel is dat ten minste 80% van
### Conclusie
---
* De chi-kwadraat afhankelijkheidstoets onderzoekt of er een statistisch significant verband bestaat tussen twee categorische variabelen.
* Deze toets wordt gebruikt om te bepalen of de observaties in een steekproef voldoen aan een verwachte verdeling of om de onafhankelijkheid van twee variabelen te toetsen.
### Belangrijke concepten
* **Contingentie tabel:** Een tabel die de frequenties weergeeft van combinaties van categorieën van twee of meer categorische variabelen.
* **Verwachte frequenties ($E_{ij}$):** De frequenties die we zouden verwachten in elke cel van de contingentie tabel als de twee variabelen onafhankelijk zouden zijn.
- $$ E_{ij} = \frac{\text{(rijtotaal)} \times \text{(kolomtotaal)}}{\text{totaal aantal observaties}} $$
* **Geobserveerde frequenties ($O_{ij}$):** De daadwerkelijke frequenties zoals gemeten in de steekproef en weergegeven in de contingentie tabel.
* **Chi-kwadraat toetsingsgrootheid ($\chi^2$):** Een maat die de discrepantie tussen de geobserveerde en verwachte frequenties kwantificeert.
- $$ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
- waarbij $r$ het aantal rijen en $c$ het aantal kolommen is
* **Vrijheidsgraden (df):** Bepaalt de vorm van de chi-kwadraat verdeling en wordt berekend als:
- $$ df = (aantal \ rijen - 1) \times (aantal \ kolommen - 1) $$
* **Nulhypothese ($H_0$):** De twee variabelen zijn onafhankelijk.
* **Alternatieve hypothese ($H_1$):** De twee variabelen zijn afhankelijk.
### Belangrijke feiten
* De toetsingsgrootheid ($\chi^2$) volgt een chi-kwadraat verdeling onder de nulhypothese.
* Een hogere $\chi^2$ waarde duidt op een grotere afwijking tussen geobserveerde en verwachte frequenties, wat wijst op mogelijke afhankelijkheid.
* De p-waarde wordt vergeleken met het significantieniveau ($\alpha$) om de nulhypothese te verwerpen of te aanvaarden.
* Als de p-waarde kleiner is dan $\alpha$, wordt de nulhypothese verworpen en concluderen we dat de variabelen afhankelijk zijn.
### Implicaties
* Kan worden gebruikt om te onderzoeken of een bepaalde behandeling effectief is door het effect te vergelijken tussen behandelde en controlegroepen.
* Helpt bij het begrijpen van relaties tussen demografische factoren (bv. geslacht, leeftijd) en gedragsmatige uitkomsten (bv. voorkeuren, meningen).
* Essentieel voor het analyseren van gegevens in surveys en experimenten waar metingen categorisch zijn.
- > **Tip:** Zorg ervoor dat de verwachte frequenties in elke cel van de contingentie tabel niet te laag zijn (meestal wordt een minimum van 5 gehanteerd)
- Als dit het geval is, overweeg dan om categorieën te combineren of gebruik te maken van Fisher's exact test voor kleine steekproeven
---
* Het test de nulhypothese dat de twee variabelen onafhankelijk van elkaar zijn.
### Kernfeiten
* De toets maakt gebruik van geobserveerde frequenties in een kruistabel.
* Vergelijkt deze geobserveerde frequenties met de verwachte frequenties onder de aanname van onafhankelijkheid.
* Een grote chi-kwadraat statistiek suggereert dat de geobserveerde frequenties significant afwijken van de verwachte frequenties.
* De p-waarde bepaalt of het waargenomen verband statistisch significant is.
* De toets is gevoelig voor steekproefgrootte; grotere steekproeven kunnen sneller een significant resultaat opleveren.
* **Kruistabel (contingentietabel):** Een tabel die de frequentieverdeling van twee categorische variabelen weergeeft.
* **Geobserveerde frequenties ($O_{ij}$):** Het werkelijke aantal waarnemingen in elke cel van de kruistabel.
* **Verwachte frequenties ($E_{ij}$):** Het aantal waarnemingen dat we zouden verwachten in elke cel als de twee variabelen onafhankelijk zouden zijn. De formule is: $E_{ij} = \frac{\text{rijtotaal} \times \text{colomtotaal}}{\text{totaal aantal waarnemingen}}$.
* **Chi-kwadraat statistiek ($\chi^2$):** De teststatistiek die de som is van de gekwadrateerde verschillen tussen geobserveerde en verwachte frequenties, gedeeld door de verwachte frequenties. De formule is: $$\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$
* **Vrijheidsgraden (df):** Het aantal onafhankelijke waarden dat kan variëren in de analyse. Voor een chi-kwadraat afhankelijkheidstoets is dit: $df = (\text{aantal rijen} - 1) \times (\text{aantal kolommen} - 1)$.
* **Overschrijdingskans (p-waarde):** De kans om een chi-kwadraat statistiek te verkrijgen die minstens zo extreem is als de waargenomen statistiek, aangenomen dat de nulhypothese waar is.
* Als de nulhypothese wordt verworpen, suggereert dit dat er een verband bestaat tussen de twee categorische variabelen.
* De sterkte van het verband kan worden onderzocht met aanvullende maten (bijvoorbeeld Cramer's V), die niet expliciet worden behandeld op deze pagina's.
* Het is belangrijk om de aannames van de toets te controleren voor geldige resultaten.
### Common pitfalls
* Het gebruik van procentuele gegevens in plaats van absolute frequenties bij het berekenen van de chi-kwadraat statistiek.
* Het vergeten te controleren of de verwachte frequenties acceptabel zijn (meestal minimaal 5 in de meeste cellen).
* Het interpreteren van correlatie als causaliteit na het vinden van een significant verband.
- > **Tip:** Gebruik de chi-kwadraat toets alleen voor categorische variabelen
- Voor het onderzoeken van verbanden tussen continue variabelen zijn andere toetsen (zoals correlatie of regressie) geschikter
---
* De chi-kwadraat afhankelijkheidstoets (ook wel chi-kwadraattoets voor onafhankelijkheid genoemd) onderzoekt of er een verband bestaat tussen twee categorische variabelen.
* **Contingentietabel (kruistabel):** Een tabel die de frequenties van twee categorische variabelen weergeeft, gegroepeerd per categorie.
* **Verwachte frequenties:** De frequenties die we zouden verwachten in elke cel van de contingentietabel als de twee variabelen onafhankelijk zouden zijn.
* **Waargenomen frequenties:** De daadwerkelijke gemeten frequenties in elke cel van de contingentietabel.
* **Chi-kwadraat toetsingsgrootheid ($\chi^2$):** Een maat die het verschil tussen de waargenomen en verwachte frequenties samenvat. Een hogere waarde duidt op een grotere afwijking van onafhankelijkheid.
* De toetsingsgrootheid wordt berekend als de som van de gekwadrateerde verschillen tussen waargenomen en verwachte frequenties, gedeeld door de verwachte frequenties, over alle cellen van de tabel.
- $$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
- waarbij:
* $O_{ij}$ = waargenomen frequentie in cel $(i,j)$
* $E_{ij}$ = verwachte frequentie in cel $(i,j)$
* De nulhypothese ($H_0$) stelt dat de twee variabelen onafhankelijk zijn.
* De alternatieve hypothese ($H_a$) stelt dat de twee variabelen afhankelijk zijn.
* De p-waarde geeft de kans weer om een $\chi^2$-waarde te observeren die minstens zo extreem is als de berekende waarde, onder de aanname dat $H_0$ waar is.
* Als de p-waarde kleiner is dan het significantieniveau ($\alpha$), wordt $H_0$ verworpen en concludeert men dat er een verband is tussen de variabelen.
* Vrijheidsgraden ($df$) voor deze toets worden berekend als $(aantal\_rijen - 1) \times (aantal\_kolommen - 1)$.
* De $\chi^2$-verdeling is asymmetrisch met de staarten aan de rechterkant en wordt gekarakteriseerd door de vrijheidsgraden.
* Een significant resultaat suggereert dat er een verband bestaat tussen de twee variabelen, wat kan leiden tot verdere analyse van de aard en sterkte van dit verband.
* Niet-significante resultaten suggereren dat er onvoldoende bewijs is om een verband tussen de variabelen aan te nemen.
* De kracht van de toets wordt beïnvloed door de steekproefgrootte en de sterkte van het verband.
- > **Tip:** Zorg ervoor dat de verwachte frequenties ($E_{ij}$) in elke cel niet te klein zijn
- Een veelgebruikte vuistregel is dat ten minste 80% van de verwachte frequenties groter dan 5 moet zijn, en geen enkele verwachte frequentie kleiner dan 1 mag zijn
- Anders kunnen de resultaten van de $\chi^2$-toets onbetrouwbaar zijn
- Kleinere tabellen (bijvoorbeeld 2x2) kunnen soms met de Fisher's exact test geanalyseerd worden indien verwachte frequenties te laag zijn
---
# het interpreteren en toepassen van statistische toetsen
### Kernconcepten
* Statistiek III bouwt voort op Statistiek I (beschrijvende statistiek) en Statistiek II (kansrekening, inferentiële statistiek).
* Inferentiële statistiek gebruikt steekproefdata om conclusies te trekken over populaties.
* Steekproevenverdelingen beschrijven de variabiliteit van statistische maten (bv. gemiddelde) over meerdere steekproeven.
* Inductieve statistiek kent twee hoofdvormen: schatten (betrouwbaarheidsintervallen) en toetsen (significantietoetsen).
### Schatting met betrouwbaarheidsintervallen
* Een betrouwbaarheidsinterval (BI) geeft een bereik aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Een 95% BI betekent dat 95% van de dergelijke intervallen de werkelijke populatiewaarde bevat.
* De formule voor een BI omvat het steekproefgemiddelde ($\bar{x}$), de kritieke waarde (Z of t) en de standaardfout ($\frac{\sigma}{\sqrt{n}}$).
* Factoren die de breedte van het BI beïnvloeden:
* Steekproefgemiddelde ($\bar{x}$): centrum van het interval.
* Betrouwbaarheidsniveau (Z of t): hogere niveaus leiden tot bredere intervallen.
* Standaardafwijking van de populatie ($\sigma$): grotere spreiding leidt tot bredere intervallen.
* Steekproefgrootte (n): grotere steekproeven leiden tot smallere intervallen.
* Een klein BI met een hoog betrouwbaarheidsniveau duidt op een nauwkeurigere schatting.
* Factoren die een kleiner BI opleveren: grote steekproef, lager betrouwbaarheidsniveau, kleinere populatiestandaardafwijking.
### Significantietoetsen
* Significantietoetsen evalueren de geldigheid van een nulhypothese (H₀) op basis van steekproefdata.
* De stappen van een significantietoets:
- 1
- Formuleer de nul- en alternatieve hypothesen (H₁)
- 2
- Bepaal de waarde van de toetsingsgrootheid (bv
- t-waarde)
- 3
- Bepaal de overschrijdingskans (p-waarde)
- 4
- Formuleer de conclusie in APA-stijl
### Cruciale vragen bij significantietoetsen
### Beslissingsfouten
### Student's t-verdelingen
### Toepassingen van t-toetsen
### Betrouwbaarheidsintervallen met t-verdeling
### Rapporteren van toetsresultaten (APA-stijl)
---
## Het interpreteren en toepassen van statistische toetsen
### Kernidee
* Statistische inferentie stelt ons in staat conclusies te trekken over een populatie op basis van een steekproef.
* We gebruiken steekproefgegevens om schattingen te maken over populatieparameters, zoals het gemiddelde.
* Statistische toetsen helpen ons om te bepalen of waargenomen verschillen of verbanden groot genoeg zijn om statistisch significant te zijn en niet enkel toe te schrijven aan toeval.
* **Steekproevenverdeling:** Een frequentieverdeling van de resultaten van meerdere steekproeven, die aangeeft hoe steekproefgrootheden (zoals het gemiddelde) variëren rond de populatieparameter.
* **Betrouwbaarheidsinterval (BI):** Een interval rond een steekproefgrootheid dat met een bepaalde waarschijnlijkheid (het betrouwbaarheidsniveau) de werkelijke populatieparameter bevat.
* Vorm: `Steekproefgemiddelde ± foutenmarge`
* Foutenmarge wordt beïnvloed door: steekproefgemiddelde (`x̄`), betrouwbaarheidsniveau (Z-score), populatiestandaardafwijking (`σ`), en steekproefgrootte (`n`).
* `σ` gedeeld door de vierkantswortel van `n` resulteert in de standaardfout.
* **Significantieniveau ($\alpha$):** De vooraf vastgestelde kritische grens die aangeeft wanneer de nulhypothese wordt verworpen (typisch 5%).
* **p-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is.
* **Hypothesetoets:** Een gestructureerde methode om conclusies te trekken over een populatie op basis van steekproefgegevens.
* Stappen:
- Formuleer de nul- en alternatieve hypothesen
- Bepaal de waarde van de toetsingsgrootheid
- Formuleer de conclusie (APA-stijl)
* **Nulhypothese ($H_0$):** Stelt meestal dat er geen verschil is of geen verband bestaat.
* **Alternatieve hypothese ($H_a$):** Stelt dat er wel een verschil of verband is.
* **Type I fout (vals positief):** $H_0$ wordt verworpen terwijl deze waar is ($\alpha$).
* **Type II fout (vals negatief):** $H_0$ wordt niet verworpen terwijl $H_a$ waar is ($\beta$).
* **Onderscheidingsvermogen (power):** De kans om $H_0$ te verwerpen wanneer $H_a$ waar is ($1 - \beta$). Dit is de kans om een werkelijk bestaand effect te detecteren.
### Toepassingen en mechanismen
### Implicaties
### Rapporteren van resultaten (APA-stijl)
---
### Kernbegrippen
* Statistische inferentie: conclusies trekken over een populatie op basis van steekproefgegevens.
* Betrouwbaarheidsinterval: een bereik waarbinnen het populatiegemiddelde waarschijnlijk ligt met een bepaald betrouwbaarheidsniveau.
* Significantietoets (hypothesetoets): een methode om te beoordelen of waargenomen verschillen in steekproefdata groot genoeg zijn om te concluderen dat er een echt verschil is in de populatie.
### Betrouwbaarheidsintervallen
* Een 95% betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen het echte populatiegemiddelde met 95% waarschijnlijkheid wordt verwacht.
* Het BI wordt berekend met de formule: $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$ (indien $\sigma$ bekend is).
* Componenten van het BI:
* $\bar{x}$: Steekproefgemiddelde.
* $Z$: Z-score die overeenkomt met het betrouwbaarheidsniveau.
* $\alpha$: Significantieniveau (bv. 0,05 voor 95% BI).
* $\sigma$: Populatie standaardafwijking.
* $n$: Steekproefgrootte.
* Een kleiner BI impliceert een hogere betrouwbaarheid (kleinere foutenmarge).
* Een kleiner BI kan verkregen worden door:
* Een grotere steekproefgrootte ($n$).
* Een lager betrouwbaarheidsniveau (bv. 90% in plaats van 95%).
* Een kleinere populatie standaardafwijking ($\sigma$).
### Significantiestoetsen
* **Stappenplan significantiestoets:**
- Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_a$)
- Bepaal de overschrijdingskans ($p$-waarde)
- Formuleer de conclusie (bv
### Beslissingsfouten en Onderscheidingsvermogen
### T-verdelingen
### Inferentie over één populatie (t-procedures)
### Inferentie over twee populaties (t-procedures)
---
### Core idea
* Statistische toetsen helpen bij het interpreteren van steekproefgegevens om conclusies te trekken over populaties.
* Het proces omvat het formuleren van hypothesen, het berekenen van toetsingsgrootheden, het bepalen van overschrijdingskansen en het formuleren van conclusies.
* Betrouwbaarheidsintervallen en significantietoetsen zijn de twee hoofdcategorieën van inductieve statistiek.
* Bij significantietoetsen wordt de nulhypothese getoetst tegen een alternatieve hypothese.
### Key facts
* De p-waarde is de kans op het waargenomen resultaat (of extremer) onder de aanname dat de nulhypothese waar is.
* Een typisch significantieniveau ($\alpha$) is 0.05 (5%), wat betekent dat er een 5% risico is op een Type I fout.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat moet worden uit de steekproef.
* T-verdelingen hebben dikkere staarten dan de normaalverdeling, wat betekent dat er meer extreme waarden mogelijk zijn.
* Vrijheidsgraden (df) specificeren een specifieke t-verdeling en zijn meestal gelijk aan de steekproefgrootte minus één ($n-1$).
* De power van een test (onderscheidingsvermogen, $1-\beta$) is de kans om een werkelijk effect (alternatieve hypothese) te detecteren.
* Type I fout (vals positief): H₀ wordt verworpen terwijl deze waar is ($\alpha$).
* Type II fout (vals negatief): H₀ wordt niet verworpen terwijl deze onwaar is ($\beta$).
### Key concepts
* **Betrouwbaarheidsinterval (BI):** Een interval rond een steekproefgrootheid dat met een bepaalde waarschijnlijkheid de populatieparameter bevat.
* Vorm: Steekproefgemiddelde $\pm$ foutenmarge.
* Foutenmarge componenten: kritieke waarde ($z^*$ of $t^*$), standaardfout ($\sigma/\sqrt{n}$ of $s/\sqrt{n}$).
* Klein BI: impliceert hoge betrouwbaarheid (kleine foutenmarge).
* **Significantietoetsen:** Procedure om te bepalen of waargenomen verschillen significant zijn of op toeval berusten.
* **Stappen:**
- Formuleer H₀ en Hₐ
- Bepaal de toetsingsgrootheid
### Implications
### Common pitfalls
---
* Een betrouwbaarheidsinterval (BI) geeft een range aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Een 95% BI betekent dat bij 95% van de replicaties het interval de werkelijke populatiewaarde bevat.
* De formule voor het BI van het populatiegemiddelde ($\mu$) is $\bar{x} \pm z^\ast \frac{\sigma}{\sqrt{n}}$.
* Factoren die het BI beïnvloeden:
* $\bar{x}$ (steekproefgemiddelde)
* $z^\ast$ (kritieke waarde voor het betrouwbaarheidsniveau)
* $\alpha$ (significantieniveau, $1 - \text{betrouwbaarheidsniveau}$)
* $\sigma$ (populatiestandaardafwijking)
* $n$ (steekproefgrootte)
* Een grotere steekproef ($n$).
* Een lager betrouwbaarheidsniveau (bv. 90% ipv 95%).
* Een kleinere standaardafwijking ($\sigma$).
### Significatietoets in 4 stappen
- Formuleer de nul- en alternatieve hypothesen (H₀ en H₁)
- steekproefgemiddelde)
- Formuleer de conclusie (vaak in APA-stijl)
### Klassieke aanpak en resampling
* **Klassieke aanpak:** Gebruikt kansrekening en theoretische verdelingen (binomiale, normale).
* De kans op een resultaat wordt berekend onder aanname van de nulhypothese.
### Onderscheidingsvermogen (Power)
### T-betrouwbaarheidsinterval en T-toetsen
---
# inferentie over regressieanalyse
### Kernidee
* Inferentie over regressieanalyse maakt het mogelijk om conclusies te trekken over populatieparameters op basis van steekproefgegevens.
### Belangrijke concepten
* De regressieanalyse tracht de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren.
* De regressiecoëfficiënten ($\beta_0$, $\beta_1$, etc.) schatten het effect van de onafhankelijke variabele(n) op de afhankelijke variabele in de populatie.
* De nulhypothese voor regressiecoëfficiënten is doorgaans dat de populatiecoëfficiënt gelijk is aan nul ($\beta_i = 0$), wat impliceert dat de betreffende onafhankelijke variabele geen lineair verband heeft met de afhankelijke variabele.
* Een significantietoets voor een regressiecoëfficiënt bepaalt of het waargenomen effect in de steekproef groot genoeg is om te concluderen dat er een lineair verband is in de populatie.
* Het betrouwbaarheidsinterval voor een regressiecoëfficiënt geeft een bereik aan waarbinnen de populatiecoëfficiënt waarschijnlijk ligt.
### Belangrijke feiten
* De steekproevenverdeling van een regressiecoëfficiënt is, onder bepaalde aannames, bij benadering normaal verdeeld.
* De standaardfout van een regressiecoëfficiënt is cruciaal voor het uitvoeren van inferentie.
* De berekening van de standaardfout is afhankelijk van de populatiestandaarddeviatie (of een schatting daarvan) en de steekproefgrootte.
* Bij het schatten van de populatiestandaarddeviatie met de residuele standaardfout ($s_e$), wordt de t-verdeling gebruikt in plaats van de z-verdeling.
* Vrijheidsgraden voor de t-verdeling in regressieanalyse worden berekend als $n - k - 1$, waarbij $n$ de steekproefgrootte is en $k$ het aantal onafhankelijke variabelen.
* De toetsingsgrootheid voor een regressiecoëfficiënt is $t = \frac{\hat{\beta}_i}{SE(\hat{\beta}_i)}$, waarbij $\hat{\beta}_i$ de geschatte regressiecoëfficiënt is en $SE(\hat{\beta}_i)$ de standaardfout ervan.
* Een kleine p-waarde (typisch < 0.05) leidt tot het verwerpen van de nulhypothese, wat suggereert dat de onafhankelijke variabele een significant lineair verband heeft met de afhankelijke variabele.
### Implicaties
* Als een regressiecoëfficiënt significant is, kunnen we concluderen dat de onafhankelijke variabele een voorspellende waarde heeft voor de afhankelijke variabele in de populatie.
* Betrouwbaarheidsintervallen bieden een bereik van plausibele waarden voor het populatie-effect, wat nuttig is voor de interpretatie van de grootte van het effect.
- Het niet significant zijn van een regressiecoëfficiënt betekent niet noodzakelijk dat er *geen* verband is, maar dat het waargenomen verband in de steekproef niet sterk genoeg is om een verband
* De interpretatie van regressieanalyse vereist aandacht voor de aannames van het model, zoals lineariteit, onafhankelijkheid van residuen, homoscedasticiteit en normaliteit van residuen.
### Gemeenschappelijke valkuilen
* Het ten onrechte interpreteren van correlatie als causaliteit bij regressieanalyse.
* Het negeren van de aannames van regressieanalyse, wat kan leiden tot ongeldige inferenties.
* Het overschatten van de precisie van de schattingen wanneer de steekproefgrootte klein is.
---
* Inferentie in regressieanalyse stelt ons in staat om conclusies te trekken over de populatieparameters op basis van steekproefgegevens.
* We schatten populatieparameters zoals de regressiecoëfficiënten en de variantie van de fouttermen uit de steekproefdata.
* **Regressiecoëfficiënten schatten:** De helling ($\beta_1$) en het intercept ($\beta_0$) worden geschat uit de steekproefdata.
* **Betrouwbaarheidsintervallen voor coëfficiënten:** Deze intervallen geven een bereik aan waarbinnen de ware populatiecoëfficiënt waarschijnlijk ligt.
* **Hypothesetoetsing voor coëfficiënten:** We toetsen hypothesen over de populatiecoëfficiënten, met name of deze gelijk zijn aan nul.
* **Standaardfout van regressiecoëfficiënten:** Cruciaal voor het berekenen van betrouwbaarheidsintervallen en toetsingsgrootheden.
* **Vrijheidsgraden (df):** Belangrijk voor de t-verdeling, afgeleid van de steekproefgrootte en het aantal parameters in het model.
* **p-waarde:** De kans op het observeren van de steekproefresultaten (of extremer) gegeven dat de nulhypothese waar is.
* **F-toets:** Een algemene toets voor het evalueren van de algehele significantie van het regressiemodel.
* **Robuustheid van t-procedures:** T-procedures zijn relatief robuust tegen schendingen van de normaliteitsassumptie bij grotere steekproeven.
### Inferentie voor regressiecoëfficiënten
* **Schattingsformules:** De geschatte regressiecoëfficiënten ($\hat{\beta}_0, \hat{\beta}_1$) worden berekend uit de steekproefdata.
* **Betrouwbaarheidsinterval voor $\beta_1$:** Gegeven door $\hat{\beta}_1 \pm t_{\alpha/2, df} \cdot SE(\hat{\beta}_1)$.
* $SE(\hat{\beta}_1)$ is de standaardfout van de geschatte helling.
* $t_{\alpha/2, df}$ is de kritieke t-waarde voor een bepaald betrouwbaarheidsniveau en aantal vrijheidsgraden.
* **Hypothesetoetsing voor $\beta_1$:**
* Nulhypothese $H_0: \beta_1 = 0$ (geen lineair verband in de populatie).
* Alternatieve hypothese $H_a: \beta_1 \neq 0$ (wel een lineair verband).
* Toetsingsgrootheid: $t = \frac{\hat{\beta}_1 - 0}{SE(\hat{\beta}_1)}$.
* **Interpretatie:** Als de p-waarde kleiner is dan het significantieniveau ($\alpha$), verwerpen we de nulhypothese en concluderen we dat er een statistisch significant lineair verband is in de populatie.
### De F-toets voor het algehele model
* **Doel:** Evalueert de algemene significantie van het regressiemodel door te testen of ten minste één van de regressiecoëfficiënten (uitzonderend het intercept) significant verschilt van nul.
* **Toetsingsgrootheid:** De F-statistiek, die de variantie verklaard door het model vergelijkt met de residuele variantie.
* **Formule:** $F = \frac{MSR}{MSE}$, waarbij MSR de Mean Square Regression is en MSE de Mean Square Error (residuele variantie).
* **Interpretatie:** Een hoge F-waarde met een kleine p-waarde suggereert dat het model als geheel significant is.
### Voorwaarden voor inferentie
* **Lineariteit:** De relatie tussen de onafhankelijke en afhankelijke variabele is lineair.
* **Onafhankelijkheid van waarnemingen:** De residuen zijn onafhankelijk van elkaar.
### Praktische overwegingen
---
* Inferentie over regressieanalyse stelt ons in staat om conclusies te trekken over populatieparameters op basis van steekproefgegevens.
* Centraal staat het concept van de steekproevenverdeling, een frequentieverdeling van resultaten van meerdere steekproeven, niet van de populatie zelf.
* Inferentiële statistiek maakt een brug van beschrijvende naar interpretatieve analyses, waarbij steekproefgegevens worden gebruikt om uitspraken te doen over de populatie.
* De steekproevenverdeling helpt bij het begrijpen van de variabiliteit van steekproefstatistieken (zoals het gemiddelde of de proportie) bij herhaalde steekproeftrekkingen.
* Twee hoofdvormen van inferentie zijn schatten (betrouwbaarheidsintervallen) en toetsen (significantietoetsen).
* Betrouwbaarheidsintervallen geven een reeks waarden aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Significantietoetsen (hypothesetoetsen) evalueren of waargenomen verschillen groot genoeg zijn om af te leiden dat deze niet door toeval zijn ontstaan.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* T-verdelingen hebben dikkere staarten dan de normaalverdeling, wat betekent dat een grotere t-waarde nodig is om significantie te bereiken, vooral bij kleine steekproeven.
* Vrijheidsgraden (df), gelijk aan steekproefgrootte min één ($n-1$), specificeren de vorm van een t-verdeling.
* Naarmate de vrijheidsgraden toenemen, benadert de t-verdeling de normaalverdeling.
* De 1-steekproef t-betrouwbaarheidsinterval wordt berekend met het steekproefgemiddelde, de steekproefstandaardafwijking, de steekproefgrootte en een kritieke t-waarde.
* De 1-steekproef t-toets evalueert of een steekproefgemiddelde significant verschilt van een hypothetisch populatiegemiddelde.
* Voorwaarde voor t-procedures zijn random steekproeven, ongeveer normale verdeling van de data (vooral bij kleine steekproeven), en onafhankelijke waarnemingen.
* Bij het vergelijken van twee onafhankelijke steekproefgemiddelden wordt een onafhankelijke t-toets gebruikt.
* Bij het vergelijken van twee afhankelijke steekproefgemiddelden (bv. voor- en nametingen) wordt een gepaarde t-toets gebruikt, die de verschillen tussen de paren analyseert.
* De t-toets voor gekoppelde paren wordt behandeld als een speciaal geval van de 1-steekproef t-toets op de verschilscores.
* Bij het vergelijken van twee gemiddelden met een z-toets wordt aangenomen dat de populatiestandaardafwijkingen bekend zijn en vaak gelijk worden verondersteld.
* Bij de t-toets voor twee onafhankelijke steekproeven worden de populatiestandaardafwijkingen geschat met $s$, wat leidt tot een t-verdeling met specifieke vrijheidsgraden, vaak conservatief berekend.
* Het onderscheidingsvermogen (power) is de kans om een echt effect te detecteren wanneer het bestaat (1 - bèta).
* Type I fout (vals positief) is het onterecht verwerpen van de nulhypothese ($\alpha$), Type II fout (vals negatief) is het onterecht aanvaarden van de nulhypothese ($\beta$).
* **Steekproevenverdeling:** Een verdeling van statistieken (bv. gemiddelden) berekend uit herhaaldelijk getrokken steekproeven.
* **Betrouwbaarheidsinterval (BI):** Een interval dat naar verwachting met een bepaald percentage (bv. 95%) de ware populatieparameter bevat.
* **Significantieniveau ($\alpha$):** De kans op een Type I fout, de drempel voor het verwerpen van de nulhypothese.
* **p-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is.
### Voorbeeld
---
* Inferentie over regressieanalyse stelt ons in staat om conclusies te trekken over populatieparameters op basis van steekproefgegevens.
* We willen uitspraken doen over de populatie (bv. verbanden, gemiddelden) op basis van een kleinere steekproef.
* **Betrouwbaarheidsinterval (BI):** Een interval waarbinnen we met een bepaalde waarschijnlijkheid verwachten dat de ware populatieparameter ligt.
* Een 95% BI betekent dat bij 95% van de steekproeven het berekende interval de populatiewaarde bevat.
* De formule voor het populatiegemiddelde (𝝁) is: $\bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}$ (wanneer $\sigma$ bekend is) of $\bar{x} \pm t \cdot \frac{s}{\sqrt{n}}$ (wanneer $\sigma$ geschat wordt).
* **Significante toetsen (Hypothesetoetsen):** Methoden om te bepalen of een waargenomen verschil of verband in de steekproef groot genoeg is om te concluderen dat het ook in de populatie aanwezig is.
* **Nulhypothese (H₀):** Stelt dat er geen effect of verschil is in de populatie.
* **Alternatieve hypothese (H₁):** Stelt dat er wel een effect of verschil is.
* **p-waarde (overschrijdingskans):** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat H₀ waar is.
* Een kleine p-waarde (bv. < 0,05) leidt tot verwerping van H₀.
* **Significantieniveau (α):** Een vooraf bepaalde drempel (bv. 0,05) die aangeeft wanneer we H₀ verwerpen.
* **Toetsingsgrootheid:** Een statistiek berekend uit de steekproefgegevens (bv. t-waarde) om hypothesen te toetsen.
* **T-verdeling:** Een kansverdeling die lijkt op de normaalverdeling, maar dikkere staarten heeft. Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking (s).
* De vorm van de t-verdeling hangt af van de vrijheidsgraden (df), die meestal $n-1$ is.
* Naarmate df toeneemt, benadert de t-verdeling de normaalverdeling.
* **Vrijheidsgraden (df):** Het aantal onafhankelijke gegevenspunten dat vrij kan variëren. Voor een 1-steekproef t-toets is dit $n-1$.
- **Onderscheidingsvermogen (Power):** De kans dat een toets een echt effect (wanneer H₁ waar is) correct detecteert en H₀ verwerpt. De kans op het niet maken van een Type II fout
### Gevolgen van onbekende populatiestandaardafwijking ($\sigma$)
* Bij gebruik van de geschatte standaardafwijking (s) in plaats van de populatiestandaardafwijking ($\sigma$), worden de staarten van de steekproevenverdeling dikker.
* Dit betekent dat bij eenzelfde $\alpha$ (bv. 5%), de kans op een Type I fout (onterecht H₀ verwerpen) groter kan zijn dan $\alpha$.
* Om dit te corrigeren, wordt de t-verdeling gebruikt in plaats van de z-verdeling.
### Verschillen tussen z- en t-verdelingen
* **z-verdeling:** Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) bekend is of de steekproefgrootte erg groot is. Dunner in de staarten.
* **t-verdeling:** Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking (s). Dikker in de staarten.
### Voorwaarden voor t-procedures
* **Random:** Steekproef moet willekeurig zijn getrokken om representativiteit te waarborgen.
* **Normaal verdeeld:** De populatie moet (ongeveer) normaal verdeeld zijn, vooral belangrijk bij kleine steekproeven ($n < 30$). Bij grotere steekproeven biedt de centrale limietstelling meer robuustheid.
* **Onafhankelijk:** Waarnemingen binnen steekproeven en tussen groepen (indien van toepassing) moeten onafhankelijk zijn. Voor ongepaarde t-toetsen is de populatie minstens 20 keer zo groot als de steekproef ($N \geq 20n$).
### Rapporteren van toetsresultaten (APA-stijl)
### Typen t-toetsen
---
* Dit omvat het schatten van de relatie tussen variabelen in de populatie en het toetsen van hypothesen over deze relatie.
* **Regressiecoëfficiënten:** De coëfficiënten die de relatie tussen de onafhankelijke en afhankelijke variabelen in de populatie vertegenwoordigen.
* **Standaardfouten van regressiecoëfficiënten:** Maat voor de onzekerheid in de schatting van de populatiecoëfficiënten.
* **Betrouwbaarheidsintervallen voor regressiecoëfficiënten:** Een bereik van waarden waarbinnen de werkelijke populatiecoëfficiënt waarschijnlijk ligt.
* **Hypothesetoetsing voor regressiecoëfficiënten:** Testen of een specifieke regressiecoëfficiënt significant verschilt van nul (of een andere gespecificeerde waarde).
* **Teststatistiek:** Een waarde berekend uit steekproefgegevens om een hypothese te toetsen (bv. t-statistiek, F-statistiek).
* **p-waarde:** De kans om een teststatistiek te observeren die minstens zo extreem is als de waargenomen waarde, onder de aanname dat de nulhypothese waar is.
* **Nulhypothese ($H_0$):** Een stelling die stelt dat er geen relatie is tussen de variabelen in de populatie (bv. de regressiecoëfficiënt is nul).
* **Alternatieve hypothese ($H_a$):** Een stelling die stelt dat er wel een relatie is tussen de variabelen in de populatie.
* **Vrijheidsgraden:** Bepaalt de vorm van de t- of F-verdeling en is gerelateerd aan de steekproefgrootte.
* **Resampling (Bootstrap):** Een methode om steekproevenverdelingen te simuleren, vooral nuttig bij kleinere steekproeven of complexe modellen.
* De t-verdeling wordt gebruikt voor inferentie over individuele regressiecoëfficiënten, vooral bij kleinere steekproeven of wanneer de populatievariantie onbekend is.
- De F-verdeling wordt gebruikt voor het toetsen van de algehele significantie van het regressiemodel (testen of ten minste één van de onafhankelijke variabelen een significante relatie heeft met de afhankelijke
* Een t-toets met $n-1$ vrijheidsgraden wordt gebruikt voor een 1-steekproef regressieanalyse.
* Voor regressieanalyses met meerdere voorspellers, worden t-toetsen gebruikt voor individuele coëfficiënten en een F-toets voor het algehele model.
* Het verwerpen van de nulhypothese suggereert dat de onafhankelijke variabele(n) een significante invloed hebben op de afhankelijke variabele in de populatie.
* Het betrouwbaarheidsinterval geeft een bereik van plausibele waarden voor de populatie-regressiecoëfficiënt.
* De grootte van de steekproef ($n$) beïnvloedt de nauwkeurigheid van de schattingen en de kracht van de toets.
* Een kleinere standaardafwijking ($\sigma$) van de populatie resulteert in kleinere standaardfouten en dus smallere betrouwbaarheidsintervallen en krachtigere toetsen.
### Onderscheidingsvermogen (Power)
* **Power:** De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is.
* Power wordt beïnvloed door het significantieniveau ($\alpha$), de effectgrootte en de steekproefgrootte ($n$).
* Een grotere steekproefgrootte verhoogt de power van de toets.
* Een grotere effectgrootte (hoe sterker de relatie in de populatie) verhoogt de power.
* Een hoger significantieniveau ($\alpha$) verhoogt de power maar verhoogt ook de kans op een Type I-fout.
### Type I en Type II Fouten
### Praktische overwegingen bij het rapporteren
### T-verdelingen en vrijheidsgraden
---
# inzicht in regressieanalyse en de interpretatie van de resultaten
### Kernidee
* Regressieanalyse stelt ons in staat om de relatie tussen variabelen te modelleren en voorspellingen te doen.
* Het doel is om een voorspellend model te creëren, waarbij de afhankelijke variabele wordt verklaard door een of meer onafhankelijke variabelen.
### Sleutelconcepten
* **Afhankelijke variabele (Y):** De variabele die we willen voorspellen of verklaren.
* **Onafhankelijke variabele(n) (X):** De variabele(n) die worden gebruikt om de afhankelijke variabele te voorspellen.
* **Regressievergelijking:** Een wiskundige formule die de relatie tussen de variabelen beschrijft.
* **Lineaire regressie:** Een regressiemodel waarbij de relatie tussen de variabelen lineair wordt verondersteld.
* **Enkelvoudige lineaire regressie:** Er is slechts één onafhankelijke variabele.
* **Meervoudige lineaire regressie:** Er zijn meerdere onafhankelijke variabelen.
* **Coëfficiënten (β):** De parameters in de regressievergelijking die de sterkte en richting van de relatie aangeven.
* **Intercept (β₀):** De voorspelde waarde van Y wanneer alle X'en nul zijn.
* **Regressiecoëfficiënt (β₁):** De verandering in Y voor een eenheidstoename in X, terwijl andere X'en constant blijven.
* **Fouten term (ε):** Vertegenwoordigt de onverklaarde variatie in Y die niet door de onafhankelijke variabelen wordt verklaard.
* **Schatting van de regressievergelijking ($\hat{Y}$):** De voorspelde waarde van Y op basis van de geschatte coëfficiënten.
### Sleutelfeiten
* De regressievergelijking voor enkelvoudige lineaire regressie is: $Y = \beta_0 + \beta_1 X + \epsilon$.
* De geschatte regressievergelijking is: $\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X$.
* De coëfficiënten ($\hat{\beta}_0$ en $\hat{\beta}_1$) worden geschat met de methode van de kleinste kwadraten (Ordinary Least Squares - OLS).
* De methode van de kleinste kwadraten minimaliseert de som van de gekwadrateerde residuen.
* **Residu:** Het verschil tussen de geobserveerde waarde van Y en de voorspelde waarde $\hat{Y}$.
* In de praktijk is de populatiestandaardafwijking ($\sigma$) onbekend, waardoor de t-verdeling wordt gebruikt in plaats van de z-verdeling voor inferentie over de coëfficiënten.
* De **standaardfout van de regressiecoëfficiënt** is cruciaal voor het beoordelen van de significantie van de variabele.
### Implicaties
* Regressieanalyse helpt bij het begrijpen van oorzaak-gevolgrelaties (met de nodige voorzichtigheid).
* Het maakt voorspellingen mogelijk voor nieuwe observaties.
* Het helpt bij het identificeren van de meest invloedrijke voorspellers voor een bepaalde uitkomst.
* Het is een veelgebruikte techniek in diverse onderzoeksgebieden zoals economie, psychologie, geneeskunde en sociale wetenschappen.
- > **Tip:** Bij de interpretatie van regressieresultaten is het essentieel om rekening te houden met de assumpties van het model (lineariteit, onafhankelijkheid van fouten, homoscedasticiteit, normaliteit van de fouten)
### Common pitfalls
---
### Kernbegrippen
* Regressieanalyse is een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren.
* Het doel is om te voorspellen hoe veranderingen in de onafhankelijke variabele(n) de afhankelijke variabele beïnvloeden.
* De relatie wordt weergegeven door een regressievergelijking.
* **Lineaire regressie:** Gaat uit van een lineaire relatie tussen de variabelen.
* De eenvoudigste vorm is enkelvoudige lineaire regressie, met één afhankelijke en één onafhankelijke variabele.
* Meervoudige lineaire regressie omvat meerdere onafhankelijke variabelen.
* **Regressievergelijking:**
* Voor enkelvoudige lineaire regressie: $Y = \beta_0 + \beta_1 X + \epsilon$.
* Voor meervoudige lineaire regressie: $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon$.
* **Interpretatie van coëfficiënten:**
* $\beta_0$ (intercept): De verwachte waarde van $Y$ wanneer alle onafhankelijke variabelen gelijk zijn aan nul.
* $\beta_i$ (hellingcoëfficiënt): De verwachte verandering in $Y$ voor een eenheidsverandering in de onafhankelijke variabele $X_i$, holding all other independent variables constant.
* $\epsilon$ (error term): Vertegenwoordigt de onverklaarde variantie in $Y$.
### Belangrijke feiten
* De coëfficiënten ($\beta_i$) worden geschat met behulp van de methode van de kleinste kwadraten (Ordinary Least Squares - OLS).
* OLS minimaliseert de som van de gekwadrateerde residuen (de verschillen tussen de geobserveerde en voorspelde waarden van $Y$).
* De schattingen van de coëfficiënten worden aangeduid met $\hat{\beta}_i$.
* Regressieanalyse maakt het mogelijk om voorspellingen te doen over de afhankelijke variabele op basis van de waarden van de onafhankelijke variabelen.
* De sterkte van de relatie wordt beoordeeld met behulp van statistische testen en betrouwbaarheidsintervallen voor de coëfficiënten.
* Het R-kwadraat ($R^2$) geeft aan welk deel van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n) in het model.
### Voorwaarden van lineaire regressie
* **Lineariteit:** De relatie tussen de afhankelijke variabele en de onafhankelijke variabelen moet lineair zijn.
* **Onafhankelijkheid van fouten:** De fouttermen ($\epsilon$) zijn onafhankelijk van elkaar.
* **Homoscedasticiteit:** De variantie van de fouttermen is constant over alle niveaus van de onafhankelijke variabelen.
* **Normaliteit van fouten:** De fouttermen zijn normaal verdeeld.
* **Geen multicollineariteit (voor meervoudige regressie):** De onafhankelijke variabelen zijn niet (sterk) gecorreleerd met elkaar.
- > **Tip:** Het controleren van deze aannames is cruciaal voor de geldigheid van de regressieresultaten
### Interpretatie van regressie-uitvoer
---
### Kernconcepten
* Regressieanalyse: een techniek om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren.
* Doel: het begrijpen van hoe veranderingen in onafhankelijke variabelen de afhankelijke variabele beïnvloeden en het voorspellen van de afhankelijke variabele.
### Sleutelfiguren en hun rol (impliciet in de context van de tekst)
* William Sealy Gosset (Student-t): introduceerde de t-verdeling, cruciaal bij inferentie wanneer de populatiestandaardafwijking onbekend is.
### Betrouwbaarheidsintervallen (BI) en Significantietoetsen
* 95% betrouwbaarheidsinterval: geeft het bereik aan waarbinnen het populatiegemiddelde naar verwachting ligt in 95% van de replicaties.
* Formule BI voor populatiegemiddelde $\mu$: $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$ (wanneer $\sigma$ bekend is).
* Componenten BI:
* $\bar{x}$: steekproefgemiddelde.
* $Z$: kritieke waarde voor betrouwbaarheidsniveau (bv. 1,96 voor 95%).
* $\alpha$: significantieniveau (kans op Type I fout).
* $\sigma$: populatiestandaardafwijking.
* $n$: steekproefgrootte.
* Klein BI impliceert hoge betrouwbaarheid (kleine foutenmarge).
* Invloed op BI breedte:
* Grote steekproefgrootte ($n$) verkleint het interval.
* Lager betrouwbaarheidsniveau (bv. 90%) verkleint het interval, maar verhoogt het risico.
* Kleinere populatiestandaardafwijking ($\sigma$) verkleint het interval.
* Significantietoets: hypothesetoets om te bepalen of een waargenomen verschil statistisch significant is.
* Stappen significantietoets:
- 1
- Formuleer nul- en alternatieve hypothesen ($H_0$, $H_a$)
- 2
- Bepaal de waarde van de toetsingsgrootheid
- 3
- Bepaal de overschrijdingskans ($p$-waarde)
- 4
### Klassieke versus Resampling (Bootstrap) Aanpak
### Cruciale Vragen bij Significantietoetsen
### Onderscheidingsvermogen (Power)
### T-verdelingen (indien $\sigma$ onbekend)
### Inferentie over de verwachting van een populatie (indien $\sigma$ te schatten is)
### Vergelijkingen van twee verwachtingen (t-toetsen)
---
* Regressieanalyse onderzoekt de relatie tussen een afhankelijke variabele en één of meerdere onafhankelijke variabelen.
* Het doel is om de afhankelijke variabele te voorspellen op basis van de onafhankelijke variabelen.
* Onafhankelijke variabelen worden ook wel predictoren of verklarende variabelen genoemd.
### Lineaire Regressie
* De relatie wordt gemodelleerd door een rechte lijn.
* De vergelijking voor enkelvoudige lineaire regressie is: $Y = \beta_0 + \beta_1 X + \epsilon$.
* $Y$: Afhankelijke variabele.
* $X$: Onafhankelijke variabele.
* $\beta_0$: Y-intercept (waarde van $Y$ als $X$ nul is).
* $\beta_1$: Richtingscoëfficiënt (verandering in $Y$ voor een eenheidstoename in $X$).
* $\epsilon$: Foutterm (residuele afwijking, niet verklaard door $X$).
### Schatting van de regressiecoëfficiënten
* Regressiecoëfficiënten ($\beta_0$, $\beta_1$) worden geschat uit steekproefgegevens.
* De meest gebruikte methode is de kleinste-kwadratenmethode (Least Squares Method).
* Deze methode minimaliseert de som van de gekwadrateerde residuen (verschillen tussen waargenomen en voorspelde waarden).
* De geschatte coëfficiënten worden aangeduid met $\hat{\beta}_0$ en $\hat{\beta}_1$.
* De regressievergelijking wordt dan: $\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X$.
### Interpretatie van de resultaten
#### De regressievergelijking
* $\hat{\beta}_0$: De voorspelde waarde van de afhankelijke variabele als de onafhankelijke variabele gelijk is aan nul. Dit kan soms een theoretische waarde zijn die in de praktijk geen betekenis heeft.
* $\hat{\beta}_1$: De verwachte verandering in de afhankelijke variabele voor elke eenheidstoename in de onafhankelijke variabele, *als alle andere variabelen constant blijven*. Dit is de kern van de interpretatie.
#### Statistische significantie van coëfficiënten
* Elke geschatte coëfficiënt wordt getest op statistische significantie.
* De nulhypothese ($H_0$) stelt meestal dat de populatiecoëfficiënt nul is ($\beta_i = 0$), wat betekent dat de onafhankelijke variabele geen lineair verband heeft met de afhankelijke variabele.
* Als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$, meestal 0,05), wordt de nulhypothese verworpen.
* Dit indiceert dat de onafhankelijke variabele een statistisch significant lineair verband heeft met de afhankelijke variabele.
#### Maatstaf voor modelkwaliteit
* **R-kwadraat ($R^2$)**: Geeft het percentage van de variatie in de afhankelijke variabele aan dat verklaard wordt door het regressiemodel.
* Een hogere $R^2$ duidt op een betere 'fit' van het model met de data.
* De formule is: $R^2 = 1 - \frac{\sum(Y_i - \hat{Y}_i)^2}{\sum(Y_i - \bar{Y})^2}$.
### Aannames van lineaire regressie
### Meervoudige Lineaire Regressie
---
* Regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meerdere onafhankelijke variabelen te modelleren.
### Belangrijke concepten
* **Regressievergelijking:** Een formule die de relatie tussen variabelen beschrijft, bijvoorbeeld $Y = \beta_0 + \beta_1 X_1 + \epsilon$.
* $Y$: de afhankelijke variabele.
* $X_1$: de onafhankelijke variabele.
* $\beta_0$: het intercept (de waarde van Y als X nul is).
* $\beta_1$: de regressiecoëfficiënt (de verandering in Y voor een eenheidstoename in X).
* $\epsilon$: de error term, die de onverklaarde variantie vertegenwoordigt.
* **Schatten van parameters:** De coëfficiënten ($\beta_0, \beta_1$) worden geschat uit steekproefgegevens, meestal met behulp van de kleinste-kwadratenmethode.
* **Foutenterm ($\epsilon$):** Vertegenwoordigt willekeurige variatie, meetfouten en invloeden van niet-gemodelleerde variabelen.
* **Kleinste-kwadratenmethode (Ordinary Least Squares - OLS):** Minimaliseert de som van de gekwadrateerde residuen (de verschillen tussen de geobserveerde en voorspelde waarden van Y).
* **Residuen:** De verschillen tussen de werkelijke waarden van de afhankelijke variabele en de voorspelde waarden uit het regressiemodel.
### Kernfeiten
* De regressiecoëfficiënt ($\beta_1$) geeft de verwachte verandering in de afhankelijke variabele aan voor elke eenheidstoename in de onafhankelijke variabele, *ceteris paribus* (alle andere variabelen gelijkblijvend).
* Het intercept ($\beta_0$) vertegenwoordigt de verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen nul zijn.
* Bij enkelvoudige lineaire regressie beschrijft de regressievergelijking een rechte lijn door de data.
* Meervoudige regressie gebruikt meerdere onafhankelijke variabelen om de afhankelijke variabele te voorspellen.
* De verdeling van de residuen is cruciaal voor de validiteit van het model; deze worden vaak getoetst op normaliteit, homoscedasticiteit en onafhankelijkheid.
### Interpretatie van resultaten
- **Statistische significantie van coëfficiënten:** Een t-toets wordt gebruikt om te bepalen of de regressiecoëfficiënt significant verschilt van nul. Een lage p-waarde (< 0.05) suggereert dat de onafhankelijke variabele een significante
* **Betrouwbaarheidsintervallen voor coëfficiënten:** Bieden een reeks waarden waarbinnen de ware populatiecoëfficiënt waarschijnlijk ligt. Een interval dat nul niet bevat, suggereert significantie.
* **Model fit:**
* **R-kwadraat ($R^2$):** Geeft het percentage van de variantie in de afhankelijke variabele aan dat verklaard wordt door het regressiemodel. Een hogere $R^2$ duidt op een betere fit.
* **Aangepaste $R^2$ (Adjusted $R^2$):** Corrigeert voor het aantal voorspellers in het model en is nuttiger bij meervoudige regressie.
* **F-toets:** Toetst de algehele significantie van het regressiemodel (d.w.z. of ten minste één van de voorspellers significant is).
* Regressieanalyse maakt het mogelijk om voorspellingen te doen over toekomstige waarden van de afhankelijke variabele.
* Het helpt bij het begrijpen van de sterkte en richting van de relaties tussen variabelen.
### Gebruikelijke valkuilen
---
* Regressieanalyse is een statistische techniek om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren.
* Het doel is om voorspellingen te doen en inzicht te krijgen in hoe veranderingen in onafhankelijke variabelen de afhankelijke variabele beïnvloeden.
* **Afhankelijke variabele (Y)**: De variabele die wordt voorspeld of verklaard.
* **Onafhankelijke variabele(n) (X)**: De variabele(n) die worden gebruikt om de afhankelijke variabele te voorspellen.
* **Regressievergelijking**: Een wiskundige formule die de relatie tussen de variabelen weergeeft.
* **Intercept ($\beta_0$)**: De verwachte waarde van Y wanneer alle X-variabelen nul zijn.
* **Regressiecoëfficiënt ($\beta_1$, $\beta_2$, ...)**: Geeft de verandering in Y aan voor een eenheidstoename in de corresponderende X-variabele, terwijl andere X-variabelen constant worden gehouden.
* **Foutterm ($\epsilon$)**: Het deel van Y dat niet door de X-variabelen wordt verklaard; vertegenwoordigt willekeurige variatie en andere ongemodelleerde factoren.
* **Kleinste kwadratenmethode (OLS)**: Een methode om de regressievergelijking te schatten door de som van de gekwadrateerde residuen (verschillen tussen geobserveerde en voorspelde waarden) te minimaliseren.
* **Residuen**: Het verschil tussen de werkelijke waarde van Y en de voorspelde waarde van Y.
* **R-kwadraat ($R^2$)**: Een maat voor de proportie van de variantie in Y die wordt verklaard door de X-variabelen in het model.
* **Getest voor 2 onafhankelijke steekproeven**: Een statistische test die wordt gebruikt om de gemiddelden van twee verschillende, onafhankelijke groepen te vergelijken.
* **Paired samples t-test**: Gebruikt voor metingen die aan elkaar gekoppeld zijn, zoals voor- en nametingen bij dezelfde proefpersonen.
* **Vrijheidsgraden (df)**: Het aantal onafhankelijke gegevenspunten dat beschikbaar is voor het schatten van een parameter. Voor een t-verdeling is dit typisch $n-1$ voor een enkele steekproef.
### Implementatie en Interpretatie
* De regressievergelijking voor een enkelvoudige lineaire regressie is: $Y = \beta_0 + \beta_1 X + \epsilon$.
* Voor meervoudige lineaire regressie is de vergelijking: $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon$.
* Een positieve $\beta$ coëfficiënt geeft een positieve relatie aan (als X toeneemt, neemt Y toe).
* Een negatieve $\beta$ coëfficiënt geeft een negatieve relatie aan (als X toeneemt, neemt Y af).
* Een $\beta$ coëfficiënt van nul betekent dat de onafhankelijke variabele geen lineaire relatie heeft met de afhankelijke variabele, rekening houdend met andere variabelen.
* De $R^2$-waarde ligt tussen 0 en 1, waarbij een hogere waarde aangeeft dat het model meer variantie in Y verklaart.
* **Tip**: Een hoge $R^2$ betekent niet noodzakelijk dat het model goed is; het kan ook duiden op overfitting.
* **Vraag 1**: "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?" (Dit is de $\alpha$-waarde of significantieniveau).
- **Vraag 2**: "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?" (Dit heeft te maken met
### Fouten bij Significantietoetsen
* **Type I fout (vals positief)**: De nulhypothese wordt onterecht verworpen. De kans hierop is gelijk aan $\alpha$.
* **Type II fout (vals negatief)**: De nulhypothese wordt niet verworpen, terwijl deze wel vals is. De kans hierop is gelijk aan $\beta$.
### T-verdelingen en de Z-verdeling
### Vergelijking van Twee Gemiddelden met T-toetsen
### Rapportage van Resultaten
---
* Het hoofddoel is het voorspellen van de afhankelijke variabele op basis van de onafhankelijke variabelen.
* Een regressiemodel kwantificeert de sterkte en richting van deze relaties.
* **Lineaire regressie**: Gaat ervan uit dat de relatie tussen variabelen lineair is.
* **Enkelvoudige lineaire regressie**: Betreft één afhankelijke variabele en één onafhankelijke variabele.
* **Meervoudige lineaire regressie**: Betreft één afhankelijke variabele en twee of meer onafhankelijke variabelen.
* **Regressievergelijking**: Beschrijft de relatie. Voor enkelvoudige lineaire regressie: $Y = \beta_0 + \beta_1 X + \epsilon$.
* $Y$: afhankelijke variabele (geobserveerde waarde).
* $\beta_0$: intercept (waarde van Y wanneer X nul is).
* $\beta_1$: helling (verandering in Y voor een eenheidstoename in X).
* $\epsilon$: foutterm (niet verklaarde variatie).
* **Schatting van de regressiecoëfficiënten**: Meestal via de kleinste kwadratenmethode (Ordinary Least Squares, OLS).
* **Intercept ($\beta_0$)**: De verwachte waarde van de afhankelijke variabele als alle onafhankelijke variabelen gelijk zijn aan nul.
- **Regressiecoëfficiënt ($\beta_1$ voor enkelvoudige, $\beta_i$ voor meervoudige)**: Geeft aan hoeveel de afhankelijke variabele naar verwachting verandert als de betreffende onafhankelijke variabele met één eenheid toeneemt, terwijl de andere onafhankelijke variabelen
* **Statistische significantie van regressiecoëfficiënten**: Toetst of de gevonden relatie tussen een onafhankelijke variabele en de afhankelijke variabele significant verschilt van nul.
* Vaak gerapporteerd met een p-waarde. Een p-waarde < 0,05 suggereert een statistisch significante relatie.
* Wordt ook vaak geassocieerd met een betrouwbaarheidsinterval voor de coëfficiënt.
* **Betrouwbaarheidsinterval (BI) voor regressiecoëfficiënten**: Geeft een bereik aan waarbinnen de werkelijke populatiecoëfficiënt waarschijnlijk ligt (bv. 95% BI).
* Als het BI voor een coëfficiënt nul niet bevat, is de relatie statistisch significant.
* **Model fit statistieken**: Beoordelen hoe goed het regressiemodel de data verklaart.
* **R-kwadraat ($R^2$)**: Het proportie van de totale variatie in de afhankelijke variabele dat verklaard wordt door het model.
* $R^2 = \frac{\text{Verklaarde variantie}}{\text{Totale variantie}}$.
* **Gecorrigeerde R-kwadraat**: Past $R^2$ aan voor het aantal voorspellers in het model; nuttig bij meervoudige regressie om overschatting te voorkomen.
* **F-toets voor het model**: Toetst de algemene significantie van het regressiemodel (of alle regressiecoëfficiënten samen significant verschillen van nul).
### Toepassingen en overige aspecten
### Onderscheidingsvermogen (Power) en fouten
### T-verdelingen en schattingen
---
* Regressieanalyse wordt gebruikt om de relatie tussen variabelen te modelleren en voorspellingen te doen.
* De focus ligt op het begrijpen van hoe een afhankelijke variabele verandert als gevolg van veranderingen in een of meer onafhankelijke variabelen.
* **Regressievergelijking:** Een wiskundige uitdrukking die de lineaire relatie tussen variabelen beschrijft.
* Voor een simpele lineaire regressie: $\hat{y} = b_0 + b_1x$
* **Afhankelijke variabele ($\hat{y}$ of $y$):** De variabele die we proberen te voorspellen of te verklaren.
* **Onafhankelijke variabele ($x$):** De variabele die wordt gebruikt om de afhankelijke variabele te voorspellen.
* **Intercept ($b_0$):** De verwachte waarde van de afhankelijke variabele wanneer de onafhankelijke variabele gelijk is aan nul.
* **Regressiecoëfficiënt ($b_1$):** Geeft de verwachte verandering in de afhankelijke variabele aan voor elke eenheidstoename in de onafhankelijke variabele.
* **Schatting van de standaardfout van de regressiecoëfficiënt ($\text{SE}(b_1)$):** Een maat voor de onzekerheid in de schatting van de regressiecoëfficiënt.
* **Toetsingsgrootheid ($t$):** Berekend als het verschil tussen de geschatte regressiecoëfficiënt en nul, gedeeld door de standaardfout van de regressiecoëfficiënt.
* $t = \frac{b_1 - 0}{\text{SE}(b_1)}$
* **Vrijheidsgraden ($df$):** Voor een simpele lineaire regressie is dit $n-2$, waarbij $n$ de steekproefgrootte is.
* **Betrouwbaarheidsinterval (BI) voor de regressiecoëfficiënt:** Geeft een reeks waarden aan waarbinnen de werkelijke populatie regressiecoëfficiënt waarschijnlijk ligt.
* **Significantie van de regressiecoëfficiënt:**
* Als de nulhypothese ($H_0: \beta_1 = 0$) wordt verworpen, is er een statistisch significant lineair verband tussen de onafhankelijke en afhankelijke variabele.
* Een $p$-waarde kleiner dan het significantieniveau (bv. $0,05$) leidt tot verwerping van $H_0$.
* **Betekenis van de regressiecoëfficiënt ($b_1$):**
* Een positieve $b_1$ betekent dat de afhankelijke variabele toeneemt wanneer de onafhankelijke variabele toeneemt.
* Een negatieve $b_1$ betekent dat de afhankelijke variabele afneemt wanneer de onafhankelijke variabele toeneemt.
* De grootte van $b_1$ geeft de verwachte verandering per eenheid van $x$ aan.
* **Betrouwbaarheidsinterval:**
* Een 95% betrouwbaarheidsinterval voor $b_1$ betekent dat we er 95% zeker van kunnen zijn dat de werkelijke populatie regressiecoëfficiënt binnen dit interval ligt.
* Als het betrouwbaarheidsinterval voor $b_1$ de nul niet bevat, is de regressiecoëfficiënt statistisch significant.
* **Grootte van de steekproef en de standaardfout:**
* Een grotere steekproefgrootte ($n$) leidt doorgaans tot een kleinere standaardfout van de regressiecoëfficiënt.
### Voorwaarden voor regressieanalyse
### Conclusies en Rapportering
---
* Regressieanalyse onderzoekt de relatie tussen variabelen om voorspellingen te doen.
* Het doel is om de sterkte en richting van het verband tussen een afhankelijke en een of meer onafhankelijke variabelen te kwantificeren.
* **Lineaire regressie:** Veronderstelt een lineair verband tussen variabelen.
* **Enkelvoudige lineaire regressie:** Eén afhankelijke variabele en één onafhankelijke variabele.
* **Meervoudige lineaire regressie:** Eén afhankelijke variabele en meerdere onafhankelijke variabelen.
* **Regressievergelijking:** Een wiskundige uitdrukking die het verband beschrijft.
* Voor enkelvoudige lineaire regressie: $Y = \beta_0 + \beta_1X + \epsilon$
* $Y$: Afhankelijke variabele
* $X$: Onafhankelijke variabele
* $\beta_0$: Intercept (waarde van Y als X nul is)
* $\beta_1$: Regressiecoëfficiënt (verandering in Y voor een eenheidstoename in X)
* $\epsilon$: Foutterm (ongeobserveerde variatie in Y)
* **Schatting van coëfficiënten:** Wordt meestal gedaan met de kleinste-kwadratenmethode (Ordinary Least Squares - OLS).
* Minimaliseert de som van de gekwadrateerde residuen (verschil tussen geobserveerde en voorspelde waarden van Y).
* **Residuen:** Het verschil tussen de werkelijke waarde van de afhankelijke variabele en de door het model voorspelde waarde.
* **Determinatiecoëfficiënt ($R^2$):** Geeft aan welk deel van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n).
* Varieert tussen 0 en 1.
* Een hogere $R^2$ duidt op een betere fit van het model.
* **Standaardfout van de regressiecoëfficiënt:** Meet de onzekerheid in de schatting van de regressiecoëfficiënt.
* **Hypothesetoetsen voor coëfficiënten:** Worden gebruikt om te bepalen of een onafhankelijke variabele een statistisch significant effect heeft op de afhankelijke variabele.
* Nulhypothese ($H_0$): De regressiecoëfficiënt is gelijk aan nul ($\beta_i = 0$).
* Alternatieve hypothese ($H_a$): De regressiecoëfficiënt is niet gelijk aan nul ($\beta_i \neq 0$).
* De $t$-toets wordt hiervoor gebruikt.
* **Interpretatie van $\beta_0$ (intercept):** De gemiddelde waarde van $Y$ wanneer alle onafhankelijke variabelen gelijk zijn aan nul. Moet wel interpreteerbaar zijn in de context van de data.
- **Interpretatie van $\beta_1$ (regressiecoëfficiënt):** Geeft de verwachte verandering in de afhankelijke variabele ($Y$) aan voor elke eenheidstoename in de betreffende onafhankelijke variabele ($X$), terwijl alle andere onafhankelijke variabelen constant worden
### Voorwaarden en assumpties
### Belangrijke overwegingen
---
* Regressieanalyse verklaart de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen.
* **Regressievergelijking:** Een wiskundige formule die de lineaire relatie weergeeft.
* Voor enkelvoudige lineaire regressie: $Y = \beta_0 + \beta_1 X + \epsilon$
* $\beta_1$: helling (verandering in Y bij een eenheidstoename in X)
* $\epsilon$: foutterm (onverklaarde variatie)
* **Schatten van de regressievergelijking:** Meestal met de methode van de kleinste kwadraten (Ordinary Least Squares - OLS).
* Minimaliseert de som van de gekwadrateerde residuen (het verschil tussen geobserveerde en voorspelde waarden).
* **Residuen:** Het verschil tussen de daadwerkelijke waarde van de afhankelijke variabele en de voorspelde waarde uit het regressiemodel ($\hat{y}$).
* Residu = $Y - \hat{y}$
* **Modelassumpties:** Essentieel voor de geldigheid van de regressieanalyse en de interpretatie van de resultaten.
* Lineariteit: De relatie tussen de variabelen is lineair.
* Onafhankelijkheid van fouten: Fouten zijn niet gecorreleerd met elkaar.
* Homoscedasticiteit: De variantie van de fouten is constant over alle niveaus van de onafhankelijke variabele.
* Normaliteit van fouten: Fouten zijn normaal verdeeld.
* **R-kwadraat ($R^2$):** Geeft aan welk percentage van de variantie in de afhankelijke variabele verklaard wordt door het regressiemodel.
* $R^2 = 1 - \frac{\text{som van gekwadrateerde residuen}}{\text{totale som van kwadraten}}$
* **Gecorrigeerde R-kwadraat:** Past $R^2$ aan voor het aantal voorspellers in het model; nuttig bij meervoudige regressie.
* **Intercept ($\beta_0$):** De verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen nul zijn. Interpreteer alleen als nul een zinvolle waarde is in de context.
* **Regressiecoëfficiënten ($\beta_i$):** De verwachte verandering in de afhankelijke variabele voor een eenheidstoename in de betreffende onafhankelijke variabele, *terwijl alle andere onafhankelijke variabelen constant worden gehouden*.
* **Statistische significantie:** Getoetst met p-waarden. Een lage p-waarde (typisch < 0,05) suggereert dat de relatie niet door toeval komt.
* De t-toets voor de coëfficiënten evalueert of de coëfficiënt significant verschilt van nul.
### Praktische overwegingen
### Toepassingen
---
# Meervoudige regressieanalyse en modelverfijning
### Kernidee
* Meervoudige regressieanalyse onderzoekt de relatie tussen een afhankelijke variabele en twee of meer onafhankelijke variabelen.
* Het model wordt verfijnd door onnodige variabelen te verwijderen, die geen significante bijdrage leveren aan de verklaring van de afhankelijke variabele.
### Belangrijke feiten
* Het model wordt opgebouwd met behulp van de stappenmethode (forward, backward, stepwise).
* De stappenmethode verwijdert variabelen met een lage statistische significantie (hoge p-waarde).
* Bij het verwijderen van een variabele, is de p-waarde voor het behoud van de variabele (de p-value for inclusion) een belangrijke indicator.
* Een variabele wordt verwijderd als de p-waarde groter is dan de ingestelde grenswaarde (meestal 0,05).
* Dit proces van toevoegen en verwijderen van variabelen kan herhaald worden om het model te optimaliseren.
### Belangrijke concepten
* **Variabelen die worden toegevoegd aan het model:** De variabele met de laagste p-waarde wordt als eerste toegevoegd.
* **Variabelen die worden verwijderd uit het model:** De variabele met de hoogste p-waarde wordt als eerste verwijderd.
* **Stapsgewijze selectie (stepwise):** Een gecombineerde methode die zowel variabelen toevoegt als verwijdert.
* **F-test voor modelselectie:** Deze test evalueert de significantie van het totale model, waarbij de nulhypothese stelt dat alle regressiecoëfficiënten gelijk zijn aan nul.
* **Adjusted R-kwadraat:** Een aangepaste versie van R-kwadraat die rekening houdt met het aantal predictoren in het model, wat helpt bij modelselectie.
### Implicaties
* Modelverfijning leidt tot een eenvoudiger en beter interpreteerbaar model.
* Het verwijdert variabelen die weinig of geen voorspellende waarde hebben.
* Dit kan helpen bij het voorkomen van overfitting, waarbij het model te veel rekening houdt met de specifieke kenmerken van de steekproef.
* Een verfijnd model generaliseert vaak beter naar nieuwe, ongeziene data.
---
* Modelverfijning omvat technieken om de geschiktheid van het regressiemodel te beoordelen en te verbeteren.
* Regressiemodellen kunnen worden gebruikt voor voorspelling en verklaring.
* Modelverfijning streeft naar een optimale balans tussen modelcomplexiteit en verklaringskracht.
* Het proces van modelverfijning omvat vaak het iteratief toevoegen of verwijderen van variabelen.
* **Afhankelijke variabele (Y):** De variabele die we proberen te verklaren of voorspellen.
* **Onafhankelijke variabelen (X1, X2, ...):** De variabelen waarvan wordt aangenomen dat ze de afhankelijke variabele beïnvloeden.
* **Regressiecoëfficiënten ($\beta_i$):** De waarden die aangeven hoeveel de afhankelijke variabele verandert wanneer een specifieke onafhankelijke variabele met één eenheid toeneemt, terwijl alle andere variabelen constant blijven.
* **Intercept ($\beta_0$):** De verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen gelijk zijn aan nul.
* **$R^2$ (Determinatiecoëfficiënt):** Geeft aan welk deel van de variantie in de afhankelijke variabele wordt verklaard door het regressiemodel.
* **Gestandaardiseerde regressiecoëfficiënten ($\beta_i^*$):** De coëfficiënten nadat de variabelen zijn gestandaardiseerd, waardoor hun relatieve belang vergeleken kan worden.
* **Modelselectiecriteria:** Methoden zoals AIC (Akaike Information Criterion) en BIC (Bayesian Information Criterion) om modellen met elkaar te vergelijken, waarbij lagere waarden duiden op een beter model.
* **Forward selection:** Een methode om variabelen stapsgewijs toe te voegen aan het model.
* **Backward elimination:** Een methode om variabelen stapsgewijs uit het model te verwijderen.
* **Stepwise regression:** Een combinatie van forward selection en backward elimination.
* **Multicollineariteit:** Een situatie waarin onafhankelijke variabelen sterk met elkaar correleren, wat de interpretatie van de coëfficiënten kan bemoeilijken.
* **Residuenanalyse:** Het onderzoeken van de verschillen tussen de waargenomen en voorspelde waarden om de assumpties van het model te controleren.
* Een goed gemodelleerd regressiemodel kan waardevolle inzichten bieden in complexe relaties.
* Het selecteren van de juiste variabelen is cruciaal voor een valide en betrouwbaar model.
* Modellen moeten worden gevalideerd op nieuwe data om overfitting te voorkomen.
* De interpretatie van coëfficiënten vereist voorzichtigheid, vooral bij multicollineariteit.
### Voorbeeld
- > **Voorbeeld:** Een onderzoeker wil de studiepunten van studenten verklaren (afhankelijke variabele)
- Onafhankelijke variabelen zijn studie-uren per week, vorige GPA, en motivatiescore
- Meervoudige regressie kan de gecombineerde invloed van deze variabelen op de studiepunten analyseren
- Modelverfijning zou kunnen inhouden dat de motivatiescore niet significant bijdraagt aan de verklaring en daarom uit het model wordt verwijderd om een eenvoudiger, even effectief model te verkrijgen
---
### Kernbegrippen
* Een betrouwbaarheidsinterval (BI) geeft een reeks waarden aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Een 95% BI betekent dat bij 95% van de herhaalde steekproeven het interval de werkelijke populatiewaarde bevat.
* Significantietoetsen beoordelen of waargenomen verschillen waarschijnlijk niet door toeval ontstaan zijn.
* De nulhypothese ($H_0$) stelt dat er geen effect of verschil is.
* De alternatieve hypothese ($H_a$) stelt dat er wel een effect of verschil is.
### Betrouwbaarheidsintervallen
* Het berekenen van een BI voor het populatiegemiddelde ($\mu$) vereist het steekproefgemiddelde ($\bar{x}$), de Z-score voor het betrouwbaarheidsniveau, het significantieniveau ($\alpha$), de populatiestandaardafwijking ($\sigma$), en de steekproefgrootte ($n$).
* De formule voor het BI is: $\bar{x} \pm Z \cdot (\sigma / \sqrt{n})$.
* De foutenmarge rondom het populatiegemiddelde wordt beïnvloed door:
* Het steekproefgemiddelde ($\bar{x}$).
* De Z-score (kritieke waarde voor het betrouwbaarheidsniveau).
* Het significantieniveau ($\alpha$).
* De populatiestandaardafwijking ($\sigma$).
* De steekproefgrootte ($n$).
* De standaardfout is $\sigma / \sqrt{n}$.
* Een kleiner BI impliceert een hogere betrouwbaarheid (kleinere foutenmarge).
* Een kleiner BI kan verkregen worden door:
* Een grotere steekproefgrootte ($n$).
* Een lager betrouwbaarheidsniveau (bv. 90% i.p.v. 95%).
* Een kleinere populatiestandaardafwijking ($\sigma$).
### Significantietoetsen
* Significantietoetsen volgen meestal 4 stappen:
- 1
- Formuleer de nul- en alternatieve hypothesen
- 2
- Bepaal de waarde van de toetsingsgrootheid
- 3
### T-verdelingen
### T-toetsen voor het vergelijken van gemiddelden
### Conclusies en implicaties
---
### Kernconcepten
* Een betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen het echte populatiegemiddelde verwacht wordt te liggen.
* Een 95% BI betekent dat in 95% van de replicaties een interval wordt gevonden dat de echte populatiewaarde bevat.
* Significante toetsen helpen bij het bepalen of een waargenomen verschil groot genoeg is om niet door toeval verklaard te worden.
* De p-waarde geeft de kans aan om een resultaat te krijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is.
* Het betrouwbaarheidsinterval wordt beïnvloed door het steekproefgemiddelde ($\bar{x}$), het betrouwbaarheidsniveau (Z), het significantieniveau ($\alpha$), de populatiestandaardafwijking ($\sigma$), en de steekproefgrootte (n).
* Een kleiner BI impliceert een hogere betrouwbaarheid door een kleinere foutenmarge.
* Een kleiner BI wordt verkregen door een grotere steekproef, een lager betrouwbaarheidsniveau, of een kleinere populatiestandaardafwijking.
* Significante toetsen volgen vier stappen: formuleren van hypothesen, bepalen toetsingsgrootheid, bepalen overschrijdingskans (p), en formuleren conclusie.
* De nulhypothese ($H_0$) stelt dat er geen verschil is tussen groepen of variabelen.
* De alternatieve hypothese ($H_a$) stelt dat er wel een verschil is.
* De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking (s).
* t-verdelingen zijn symmetrisch rond 0, maar hebben dikkere staarten dan de normaalverdeling, wat resulteert in meer Type I fouten indien niet correct toegepast.
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden (df), wat meestal $n-1$ is.
* Bij het vergelijken van twee gemiddelden met t-toetsen, wanneer $\sigma$ onbekend is, wordt de t-toets voor onafhankelijke steekproeven of voor gekoppelde paren gebruikt.
* Voor t-procedures (betrouwbaarheidsintervallen en toetsen) zijn de voorwaarden: willekeurigheid van de steekproef, normaal verdeeldheid van de populatie (of voldoende grote steekproefgrootte door Centrale Limietstelling), en onafhankelijkheid van de waarnemingen.
* De 1-steekproef t-betrouwbaarheidsinterval wordt berekend met de formule: $\bar{x} \pm t^\ast \frac{s}{\sqrt{n}}$.
* De toetsingsgrootheid voor een 1-steekproef t-toets is $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$, waarbij $\mu_0$ de hypothetische populatiewaarde is.
* Bij het rapporteren van toetsresultaten in APA-stijl worden de toetsingsgrootheid, vrijheidsgraden, p-waarde, betrouwbaarheidsinterval en effectgrootte vermeld.
* Een kleiner betrouwbaarheidsinterval geeft meer zekerheid over de schatting van de populatieparameter.
* Het verhogen van de steekproefgrootte verkleint het betrouwbaarheidsinterval en vergroot de power van een toets.
* Het onderscheidingsvermogen (power) is de kans om een echt effect te detecteren wanneer dit aanwezig is.
* Type I fout (vals positief) treedt op wanneer de nulhypothese onterecht wordt verworpen ($\alpha$).
* Type II fout (vals negatief) treedt op wanneer de nulhypothese onterecht niet wordt verworpen ($\beta$).
* Gekoppelde t-toetsen zijn krachtiger dan onafhankelijke t-toetsen wanneer er een verband is tussen de metingen.
### Voorbeelden
* Een 95% BI voor lichaamslengte: als dit interval tussen 165 en 170 cm ligt, verwachten we dat het gemiddelde populatiegemiddelde voor lichaamslengte binnen dit bereik valt.
### Tip
---
* Een betrouwbaarheidsinterval (BI) geeft de grenzen aan waarbinnen men verwacht dat het echte populatiegemiddelde ligt.
* Een 95% BI betekent dat bij 95% van de herhalingen van het onderzoek het interval de werkelijke populatiewaarde bevat.
* De formule voor een BI voor het populatiegemiddelde $\mu$ is: $\bar{x} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$ (wanneer $\sigma$ bekend is).
* Hypothesetoetsen, of significantietoetsen, evalueren of een waargenomen verschil groot genoeg is om te concluderen dat de nulhypothese verworpen kan worden.
### Kernfeiten
* De foutenmarge van een betrouwbaarheidsinterval wordt beïnvloed door:
* $\bar{x}$ (steekproefgemiddelde)
* $Z$ (Z-score, gerelateerd aan het betrouwbaarheidsniveau)
* $\alpha$ (significantieniveau, de kritische grens voor het verwerpen van de nulhypothese)
* $\sigma$ (populatiestandaardafwijking)
* $n$ (steekproefgrootte)
* Een kleiner betrouwbaarheidsinterval impliceert een hogere betrouwbaarheid en kan verkregen worden door:
* Een lager betrouwbaarheidsniveau (bv. 90% in plaats van 95%).
* Significanteietoetsen volgen vier stappen:
* Formuleren van nul- en alternatieve hypothesen ($H_0$ en $H_a$).
* Bepalen van de toetsingsgrootheid.
* Bepalen van de overschrijdingskans ($p$-waarde).
* Formuleren van de conclusie.
* De $p$-waarde is de kans op het waargenomen resultaat (of extremer) als de nulhypothese waar is.
* Bij het verwerpen van de nulhypothese bij $\alpha = 0,05$, is er 5% kans op een Type I fout (vals positief).
* Bij het niet verwerpen van de nulhypothese als de alternatieve hypothese waar is, is er een Type II fout (vals negatief, $\beta$).
* Power (onderscheidingsvermogen) is de kans dat een statistische toets een relevant verschil detecteert als dat verschil echt bestaat ($1 - \beta$).
* **Betrouwbaarheidsinterval (BI):** Een interval rondom een steekproefstatistiek dat met een bepaalde waarschijnlijkheid de populatieparameter bevat.
* **Significantieniveau ($\alpha$):** Het risico dat men accepteert om de nulhypothese te verwerpen terwijl deze waar is (Type I fout). Typische waarden zijn 0,05, 0,01 of 0,001.
---
* Modelverfijning binnen meervoudige regressieanalyse focust op het selecteren van de beste subset van predictoren om een model te bouwen dat zowel theoretisch relevant als statistisch efficiënt is.
* **Stapsgewijze selectie (Stepwise Selection):** Een geautomatiseerde methode om predictoren toe te voegen of te verwijderen uit een regressiemodel.
* **Forward Selection:** Beginnen met een model zonder predictoren en iteratief de predictor toevoegen die de grootste verbetering geeft.
* **Backward Elimination:** Beginnen met een model dat alle predictoren bevat en iteratief de minst significante predictor verwijderen.
* **Stepwise Regression:** Een combinatie van forward selection en backward elimination, waarbij in elke stap predictoren kunnen worden toegevoegd of verwijderd.
* **Criteria voor selectie:** Beslissingen om predictoren toe te voegen of te verwijderen zijn gebaseerd op statistische criteria.
* **AIC (Akaike Information Criterion):** Meet de relatieve kwaliteit van een statistisch model ten opzichte van andere modellen. Lagere AIC-waarden geven een beter model aan.
* **BIC (Bayesian Information Criterion):** Vergelijkbaar met AIC, maar geeft een zwaardere straf voor extra parameters, wat leidt tot eenvoudigere modellen. Lagere BIC-waarden zijn beter.
* **Cross-validatie:** Een methode om de generaliseerbaarheid van een model te evalueren door het te testen op onafhankelijke subsets van de data.
* **K-fold cross-validation:** De data wordt opgedeeld in K 'folds'. Het model wordt K keer getraind, waarbij telkens één fold apart wordt gehouden voor validatie.
* **Modelcomplexiteit:** Een eenvoudig model (met minder predictoren) heeft vaak de voorkeur boven een complex model, zelfs als het iets minder verklaart, om overfitting te voorkomen.
* **Overfitting:** Een model dat te goed past op de trainingsdata, waardoor het slecht presteert op nieuwe, ongeziene data.
* **Validatie:** Het proces van het evalueren van de prestaties van een model op data die niet is gebruikt tijdens de modeltraining.
* Het correct toepassen van modelverfijningstechnieken kan leiden tot parsimoniere modellen die beter interpreteerbaar zijn.
* Het risico op overfitting wordt verminderd door selectieprocedures en validatiemethoden.
* Automatische selectiemethoden zoals stepwise regression kunnen soms 'lokale optima' vinden in plaats van het 'globale optimum'.
* Theoretische kennis over de relaties tussen variabelen blijft cruciaal voor het interpreteren en valideren van de geselecteerde modellen.
### Tips
* > **Tip:** Hoewel automatische selectiemethoden nuttig zijn, is het essentieel om de theoretische relevantie van de geselecteerde variabelen altijd te beoordelen.
* > **Tip:** Gebruik meerdere selectiecriteria (bv. AIC en BIC) en cross-validatie om een robuustere modelselectie te waarborgen.
* > **Tip:** Wees voorzichtig met het gebruik van stepwise selection in de finale analyse; het wordt vaker aanbevolen voor exploratieve doeleinden.
---
* Meervoudige regressieanalyse onderzoekt de relatie tussen een afhankelijke variabele en meerdere onafhankelijke variabelen tegelijkertijd.
* Het doel is om een lineair model te construeren dat de afhankelijke variabele zo goed mogelijk voorspelt op basis van de onafhankelijke variabelen.
* Het model neemt de algemene vorm aan van een lineaire functie: $Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_kX_k + \epsilon$.
* $\beta_0$ is het intercept, de verwachte waarde van Y als alle X'en nul zijn.
* $\beta_i$ zijn de regressiecoëfficiënten die de verandering in Y beschrijven per eenheidstoename in $X_i$, terwijl alle andere X'en constant worden gehouden.
* $\epsilon$ is de error term, die de onverklaarde variatie in Y vertegenwoordigt.
* De schatting van de coëfficiënten gebeurt middels Ordinary Least Squares (OLS), wat de som van de gekwadrateerde residuen minimaliseert.
* Het principe van "parsimonie" (eenvoud) is cruciaal: het eenvoudigste model dat de data adequaat verklaart, heeft de voorkeur.
* Modelverfijning omvat stappen om de geschiktheid en interpreteerbaarheid van het regressiemodel te verbeteren.
* Dit kan inhouden: toevoegen, verwijderen of transformeren van variabelen.
* Het selecteren van variabelen gebeurt op basis van theoretische relevantie en statistische significantie.
* **Modelselectie:** Methoden zoals forward selection, backward elimination en stepwise regression helpen bij het systematisch selecteren van de beste subset van voorspellers.
* **Regelmatige regressie (Regularization):** Technieken zoals LASSO en Ridge regressie worden gebruikt om overfitting te voorkomen, met name bij veel voorspellende variabelen.
* LASSO (Least Absolute Shrinkage and Selection Operator) kan coëfficiënten naar nul krimpen, wat resulteert in variabele selectie.
* Ridge regressie krimpt coëfficiënten naar nul, maar zelden precies naar nul.
- **Interactietermen:** Termen van de vorm $X_i X_j$ kunnen worden toegevoegd om te onderzoeken of het effect van de ene onafhankelijke variabele op Y afhangt van de waarde van een andere onafhankelijke
* **Niet-lineaire transformaties:** Variabelen kunnen worden getransformeerd (bv. logaritme, kwadraat) om niet-lineaire relaties tussen X en Y te modelleren.
* **Modeldiagnostiek:** Na het fitten van een model, is het essentieel om de aannames van de regressie te controleren (bv. lineariteit, onafhankelijkheid van residuen, homoscedasticiteit, normaliteit van residuen).
* **Indicatorvariabelen (Dummyvariabelen):** Gebruikt om categorische onafhankelijke variabelen in het model op te nemen.
* Een goed gemodelleerde meervoudige regressie kan krachtige voorspellingen genereren en inzicht verschaffen in causale verbanden.
* Zonder zorgvuldige modelverfijning kan overfitting optreden, wat leidt tot slechte generaliseerbaarheid naar nieuwe data.
* De interpretatie van coëfficiënten vereist een goed begrip van de context en de andere variabelen in het model.
* Het gebruik van modelselectie technieken kan leiden tot modellen die statistisch "optimaal" zijn maar minder theoretisch onderbouwd.
- > **Tip:** Start modelselectie altijd met een theoretisch onderbouwde set van variabelen en gebruik statistische methoden ter ondersteuning, niet als enige leidraad
- > **Voorbeeld:** In een model voor huisprijzen zou een interactieterm tussen "aantal slaapkamers" en "locatie" kunnen onderzoeken of het aantal slaapkamers anders voorspelt in stedelijke versus landelijke gebieden
---
### Kernideeën
- De focus ligt op het begrijpen van de interpretatie van regressiecoëfficiënten en de stappen die genomen worden bij modelverfijning.
- Belangrijke aspecten zijn het interpreteren van de foutenmarge, het belang van de effectgrootte en de rol van de steekproefgrootte.
- **Betrouwbaarheidsinterval (BI)**: Geeft een bereik aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
- Een 95% BI betekent dat bij 95% van de herhalingen het interval de werkelijke populatiewaarde bevat.
- Het BI wordt beïnvloed door het steekproefgemiddelde ($\bar{x}$), de Z-score (betrouwbaarheidsniveau), het significantieniveau ($\alpha$) en de populatiestandaardafwijking ($\sigma$).
- **Foutmarge**: Het deel dat rond het steekproefgemiddelde wordt toegevoegd en afgetrokken om het betrouwbaarheidsinterval te vormen.
- Verkleint met een grotere steekproefgrootte ($n$).
- Verkleint met een lager betrouwbaarheidsniveau (kleinere Z-waarde).
- **Significantieniveau ($\alpha$)**: De vooraf vastgestelde kritieke grens (meestal 5%) om de nulhypothese te verwerpen.
- **P-waarde**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is.
- Als $p < \alpha$, is het resultaat statistisch significant.
- **Standaardafwijking ($\sigma$)**: Een maat voor de spreiding van data in de populatie.
- **Standard Error (SE)**: De standaardafwijking van de steekproevenverdeling, berekend als $\sigma / \sqrt{n}$.
### Significantietoets in vier stappen
- **Stap 1**: Formuleer de nul- en alternatieve hypothesen ($H_0$ en $H_a$).
- **Stap 2**: Bepaal de waarde van de toetsingsgrootheid (bv. gemiddelde, t-waarde, z-waarde).
- **Stap 3**: Bepaal de overschrijdingskans ($p$-waarde) voor de data (theoretisch of via resampling).
- **Stap 4**: Formuleer de conclusie (vaak in APA-stijl).
### Klassieke benadering versus resampling (bootstrap)
- **Klassieke benadering**: Gebaseerd op kansberekening en theoretische verdelingen (bv. binomiale, normale verdeling).
- **Resampling/Bootstrap methode**: Simuleert steekproevenverdelingen door herhaalde steekproeftrekkingen uit de originele steekproef.
- Levert een geobserveerde steekproevenverdeling op, geen theoretische.
- De verkregen verdeling is doorgaans niet perfect symmetrisch.
### Cruciale vragen bij significantietoetsen
- **Hoe groot is de kans dat het resultaat tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?** (Dit is gerelateerd aan $\alpha$).
- **Hoe groot is de kans dat het resultaat tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?** (Dit is gerelateerd aan de power van de test).
### Onderscheidingsvermogen (Power)
- De kans dat een statistische toets een werkelijk effect (op populatieniveau) detecteert, als dat effect groot genoeg is om relevant te zijn.
- Power = $1 - \beta$, waarbij $\beta$ de kans is op een Type II fout (vals negatief).
### Beslissingsfouten
### -steekproef t-betrouwbaarheidsinterval en t-toets
### Twee-steekproeven t-toetsen
### Rapporteren van toetsresultaten (APA-stijl)
---
# Introductie tot variantieanalyse (ANOVA)
### Kernidee
* Variantieanalyse (ANOVA) is een statistische methode om de gemiddelden van drie of meer groepen te vergelijken.
* Het principe achter ANOVA is het analyseren van de totale variatie in de gegevens.
### Sleutelconcepten
* **Groepen vergelijken:** ANOVA wordt gebruikt wanneer we meer dan twee groepen willen vergelijken, in tegenstelling tot t-toetsen die slechts twee groepen kunnen vergelijken.
* **Risico op fouten (alfa):** Het herhaaldelijk uitvoeren van t-toetsen tussen alle mogelijke paren van groepen verhoogt de kans op een Type I fout (vals positief).
- **Variatie binnen en tussen groepen:** ANOVA deelt de totale variatie op in variatie *tussen* de groepen (toe te schrijven aan het onafhankelijke variabelen) en variatie *binnen* de groepen (resulterend uit
* **F-verdeling:** De verhouding van de variantie tussen de groepen tot de variantie binnen de groepen volgt een F-verdeling, die wordt gebruikt om de significantie van de groepsverschillen te testen.
* **Nulhypothese (H₀):** Alle groepsgemiddelden zijn gelijk.
* **Alternatieve hypothese (H₁):** Minstens één groepsgemiddelde verschilt van de andere.
### Belangrijke feiten
* ANOVA is een algemene methode, de t-toets is een speciaal geval van ANOVA voor twee groepen.
* De methode maakt gebruik van de variantie (spreiding) van de gegevens.
* Het doel is om te bepalen of de geobserveerde verschillen tussen groepsgemiddelden statistisch significant zijn, of dat ze verklaard kunnen worden door toeval.
* ANOVA vereist meestal dat de steekproeven onafhankelijk zijn en afkomstig zijn uit populaties die ongeveer normaal verdeeld zijn.
* De variantie binnen de groepen (error variance) dient als een schatting van de willekeurige variatie die in de gegevens aanwezig is.
* De variantie tussen de groepen (treatment variance of group variance) meet hoe sterk de groepsgemiddelden van elkaar afwijken.
### Implicaties
* ANOVA biedt een efficiëntere en nauwkeurigere manier om meerdere groepen te vergelijken dan herhaalde t-toetsen.
* Het helpt om te begrijpen of de onafhankelijke variabele (bv. verschillende behandelingen, methoden) een significant effect heeft op de afhankelijke variabele.
* Een significant resultaat van ANOVA suggereert dat er ergens een verschil is tussen de groepen, maar specificeert niet welke specifieke groepen van elkaar verschillen.
* Vervolganalyses (post-hoc tests) zijn nodig om te bepalen welke specifieke groepen significant van elkaar verschillen.
### Gemeenschappelijke valkuilen
* Het vergeten van de aanname van normaal verdeelde populaties voor de t-toets-gerelateerde aspecten van ANOVA.
* Het interpreteren van een significant ANOVA-resultaat zonder de nodige post-hoc analyses uit te voeren om specifieke groepsverschillen te identificeren.
* Het negeren van de aanname van gelijke varianties (homogeniteit van varianties) tussen de groepen, wat de resultaten van de ANOVA kan beïnvloeden.
---
* ANOVA wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken, om te zien of er een significant verschil is tussen minstens één paar groepen.
* Het is een uitbreiding van de t-toets voor onafhankelijke steekproeven, die slechts twee groepen kan vergelijken.
* ANOVA analyseert de variantie binnen en tussen de groepen om te bepalen of de groepsgemiddelden significant van elkaar verschillen.
### Belangrijke concepten
* **Variantieanalyse (ANOVA):** Een statistische techniek die de totale variantie in data opsplitst in verschillende componenten die aan verschillende bronnen van variatie worden toegeschreven.
* **Factoren:** Onafhankelijke variabelen die categorisch zijn en de groepen definiëren die vergeleken worden (bijvoorbeeld behandelgroepen, lesmethoden).
* **Niveaus:** De specifieke categorieën binnen een factor (bijvoorbeeld placebo, medicijn A, medicijn B).
* **Afhankelijke variabele:** De continue variabele die wordt gemeten om de groepen te vergelijken (bijvoorbeeld bloeddruk, leesvaardigheidsscore).
* **Totale variantie:** De totale spreiding in de data, die wordt opgesplitst in variantie tussen de groepen en variantie binnen de groepen.
* **Variantie tussen groepen (Between-group variance):** De spreiding van de groepsgemiddelden rond het algemene gemiddelde. Dit geeft aan hoeveel de groepsgemiddelden van elkaar verschillen.
* **Variantie binnen groepen (Within-group variance):** De gemiddelde spreiding van de individuele observaties binnen elke groep rond het groepsgemiddelde. Dit vertegenwoordigt de willekeurige fout of onverklaarbare variatie.
* **F-statistiek:** De toetsingsgrootheid in ANOVA, berekend als de verhouding van de variantie tussen groepen tot de variantie binnen groepen. $$F = \frac{\text{Variantie tussen groepen}}{\text{Variantie binnen groepen}}$$
* **Nulhypothese (H₀):** Alle groepsgemiddelden zijn gelijk (µ₁ = µ₂ = µ₃ = ...).
* **Alternatieve hypothese (H₁):** Minstens één groepsgemiddelde verschilt significant van de andere.
* **Vrijheidsgraden (df):** Twee waarden van vrijheidsgraden worden gebruikt bij ANOVA:
* dfbetween: aantal groepen - 1
* dfwithin: totaal aantal observaties - aantal groepen
* **p-waarde:** De kans om de geobserveerde of extremere groepsverschillen te verkrijgen als de nulhypothese waar is.
* ANOVA wordt gebruikt wanneer er meer dan twee groepen worden vergeleken.
* Een significant resultaat van de F-statistiek (lage p-waarde) betekent dat er een statistisch significant verschil is tussen ten minste twee van de groepsgemiddelden.
* Een significant F-resultaat vertelt ons NIET welke specifieke groepen van elkaar verschillen. Hiervoor zijn post-hoc toetsen nodig.
* De robuustheid van ANOVA ten opzichte van schendingen van aannames (zoals normaliteit en gelijke varianties) is redelijk goed, vooral bij grotere steekproeven.
* ANOVA maakt het mogelijk om efficiënt meerdere groepen tegelijk te vergelijken zonder het probleem van 'multiple testing' (een verhoogd alfa-niveau door talloze t-toetsen).
* Het identificeren van significante verschillen tussen groepen kan leiden tot belangrijke conclusies over de effectiviteit van verschillende behandelingen, methoden of condities.
* Post-hoc toetsen (zoals Tukey's HSD, Bonferroni) zijn noodzakelijk om specifieke groepsverschillen te identificeren na een significante ANOVA.
### Voorwaarden voor ANOVA
* **Onafhankelijke waarnemingen:** De waarnemingen binnen en tussen de groepen moeten onafhankelijk zijn.
### Uitwerking van hetconcept
---
* Variantieanalyse (ANOVA) is een statistische techniek om groepen te vergelijken.
* Het hoofddoel is om te bepalen of de gemiddelden van twee of meer groepen significant van elkaar verschillen.
* ANOVA analyseert de variatie *binnen* groepen en *tussen* groepen.
### Kernconcepten
* **Groepsgemiddelden vergelijken:** ANOVA is primair bedoeld voor het vergelijken van gemiddelden van meer dan twee groepen tegelijkertijd.
* **Variantie:** ANOVA ontleedt de totale variatie in de data in verschillende componenten.
* **Totale variantie:** De totale variatie in de dataset.
* **Variantie tussen groepen (Sum of Squares Between, SSB):** Meet de variatie tussen de gemiddelden van de verschillende groepen.
* **Variantie binnen groepen (Sum of Squares Within, SSW):** Meet de variatie van individuele observaties rond het gemiddelde van hun eigen groep.
* **Vrijheidsgraden (degrees of freedom, df):** Aantal onafhankelijke stukjes informatie die beschikbaar zijn om de variatie te schatten.
* $df_{tussen} = k - 1$ (waarbij $k$ het aantal groepen is).
* $df_{binnen} = N - k$ (waarbij $N$ het totale aantal observaties is).
* **Variantie schattingen (Mean Squares, MS):** Worden berekend door de Sum of Squares te delen door de vrijheidsgraden.
* $MS_{tussen} = \frac{SSB}{df_{tussen}}$
* $MS_{binnen} = \frac{SSW}{df_{binnen}}$
* **F-statistiek:** De ratio van de variantie tussen groepen tot de variantie binnen groepen ($F = \frac{MS_{tussen}}{MS_{binnen}}$). Een hoge F-waarde suggereert dat de groepsgemiddelden significant verschillen.
* ANOVA maakt het mogelijk om meerdere groepen tegelijk te vergelijken zonder de alfa-waarde te verhogen zoals bij meervoudige t-toetsen.
* Bij een significante F-statistiek kan worden geconcludeerd dat er ten minste één paar groepen is dat significant van elkaar verschilt.
* Vervolgonderzoek (post-hoc tests) is nodig om te bepalen welke specifieke groepen van elkaar verschillen.
* ANOVA kan worden toegepast op verschillende meetniveaus (interval of ratio) en vereist aannames zoals normaliteit en homogeniteit van varianties.
### Belangrijke Aannames (kort aangestipt)
* **Normaliteit:** De residuen (verschillen tussen observaties en groepsgemiddelden) zijn normaal verdeeld.
* **Homogeniteit van varianties:** De varianties binnen de groepen zijn ongeveer gelijk.
* **Onafhankelijkheid:** Observaties binnen en tussen groepen zijn onafhankelijk.
---
* ANOVA wordt gebruikt om gemiddelden van meer dan twee groepen te vergelijken, wat het risico op type I fouten (alfaje) minimaliseert dat optreedt bij herhaalde t-toetsen.
* Het principe is het ontbinden van de totale variatie in de data in verschillende bronnen van variatie.
* **Totale variatie**: De algehele spreiding van de data rond het algemene gemiddelde.
* **Tussen-groepsvariatie (verklaarde variatie)**: De spreiding van de groepsgemiddelden rond het algemene gemiddelde. Dit deel van de variatie wordt toegeschreven aan de verschillen tussen de groepen.
* **Binnen-groepsvariatie (onverklaarde variatie)**: De spreiding van de individuele datapunten binnen elke groep rond het groepsgemiddelde. Dit deel van de variatie wordt beschouwd als "ruis" of willekeurige fouten.
* **F-statistiek**: De ratio van de tussen-groepsvariatie ten opzichte van de binnen-groepsvariatie.
* Een grote F-statistiek suggereert dat de verschillen tussen de groepen groter zijn dan de variatie binnen de groepen.
* Formule: $$F = \frac{\text{variantie tussen groepen}}{\text{variantie binnen groepen}}$$
* **Vrijheidsgraden (df)**: Worden gebruikt om de kritieke waarde van de F-verdeling te bepalen.
* $df_{\text{tussen}} = k - 1$ (waarbij $k$ het aantal groepen is).
* $df_{\text{binnen}} = N - k$ (waarbij $N$ het totale aantal observaties is).
* **ANOVA-tabel**: Een gestructureerd overzicht van de variantieanalyse, inclusief bronnen van variatie, sommen van kwadraten, vrijheidsgraden, gemiddelde kwadraten en de F-statistiek.
* ANOVA helpt bij het identificeren of er een significant verschil bestaat tussen de gemiddelden van twee of meer groepen.
* Als de ANOVA significant is ($p < \alpha$), kan dit leiden tot post-hoc toetsen om specifieke groepsverschillen te identificeren.
* Het principe van variantieontbinding is fundamenteel voor veel geavanceerdere statistische modellen.
* ANOVA kan worden uitgebreid naar complexere ontwerpen met meerdere factoren (factoren met meer dan twee niveaus of meerdere onafhankelijke variabelen).
* Het wordt gebruikt in diverse disciplines, zoals psychologie, geneeskunde, landbouw en marketing, om experimentele resultaten te analyseren.
### Kritische overwegingen
* **Aannames**: ANOVA vereist dat de data binnen elke groep normaal verdeeld zijn en dat de varianties tussen de groepen ongeveer gelijk zijn (homogeniteit van varianties).
* **Schending van aannames**: Schending van de aannames kan leiden tot onbetrouwbare resultaten, hoewel ANOVA redelijk robuust is, met name bij grote steekproeven.
- **Post-hoc toetsen**: Een significante F-statistiek in ANOVA betekent alleen dat er *ergens* een verschil is tussen de groepen, niet *waar* het verschil zit. Post-hoc toetsen (zoals Tukey's HSD of Bonferroni)
* **Steekproefgrootte**: Een adequate steekproefgrootte per groep is cruciaal voor de kracht van de test en de betrouwbaarheid van de resultaten.
---
### Kernbegrippen en context
* Inferentiële statistiek overbrugt de kloof tussen steekproefgegevens en populatieconclusies.
* De steekproevenverdeling beschrijft de variabiliteit van steekproefstatistieken bij herhaaldelijk trekken van steekproeven.
* Betrouwbaarheidsintervallen schatten het bereik van de populatieparameter op basis van steekproefgegevens.
* Significantietoetsen evalueren hypotheses over populatieparameters door steekproefresultaten te vergelijken met verwachte waarden onder de nulhypothese.
### Betrouwbaarheidsintervallen en significantieniveau
* Een 95% betrouwbaarheidsinterval (BI) geeft het bereik aan waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* Formule voor betrouwbaarheidsinterval voor het populatiegemiddelde ($\mu$): $\bar{x} \pm Z \times \frac{\sigma}{\sqrt{n}}$ (met bekende $\sigma$) of $\bar{x} \pm t \times \frac{s}{\sqrt{n}}$ (met geschatte $\sigma$).
* Factoren die de breedte van het BI beïnvloeden:
* $\bar{x}$ (steekproefgemiddelde)
* $Z$ of $t$ (kritieke waarde, afhankelijk van betrouwbaarheidsniveau en vrijheidsgraden)
* $\alpha$ (significantieniveau, bv. 5%)
* $\sigma$ (populatiestandaardafwijking) of $s$ (steekproefstandaardafwijking)
* $n$ (steekproefgrootte)
* Een kleiner BI impliceert hogere betrouwbaarheid (kleinere foutenmarge).
* Een kleiner BI wordt verkregen door:
* Een grotere steekproefgrootte ($n$).
* Een lager betrouwbaarheidsniveau (bv. 90% in plaats van 95%).
* Een kleinere standaardafwijking ($\sigma$ of $s$).
* Het significantieniveau ($\alpha$) is de vooraf vastgestelde kans op een Type I fout (onterecht verwerpen van de nulhypothese).
* De p-waarde is de kans op het observeren van de steekproefresultaten (of extremere) als de nulhypothese waar is. Bij $p < \alpha$ wordt de nulhypothese verworpen.
### Significantietoetsen
* **Vier stappen voor significantietoetsing:**
- 1
- Formuleer nul- en alternatieve hypothesen ($H_0$ en $H_a$)
- 2
- Bepaal de waarde van de toetsingsgrootheid (bv
- gemiddelde, $t$-score)
### T-verdelingen
### Toepassingen van t-verdelingen
### Rapportage van resultaten (APA-stijl)
---
* ANOVA wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken.
* Het vergelijken van meerdere groepen met t-toetsen verhoogt de kans op Type I fouten.
* ANOVA analyseert de totale variabiliteit in de data en deelt deze op in delen die toe te schrijven zijn aan verschillende bronnen.
* ANOVA test de nulhypothese dat alle populatiegemiddelden gelijk zijn.
* Een significant resultaat in ANOVA suggereert dat ten minste één groepsgemiddelde verschilt van de andere.
* Het is een "omnibus" test; het vertelt ons dat er een verschil is, maar niet waar.
* Post-hoc tests zijn nodig om te bepalen welke specifieke groepen van elkaar verschillen.
* **Variatie binnen groepen (Within-group variance):** De spreiding van individuele scores rond het groepsgemiddelde. Dit wordt ook wel "error variance" genoemd.
* **Variatie tussen groepen (Between-group variance):** De spreiding van de groepsgemiddelden rond het algemene gemiddelde. Dit wordt ook wel "effect variance" genoemd.
* **F-statistiek:** De ratio van de variatie tussen groepen tot de variatie binnen groepen. Een grote F-statistiek suggereert dat de groepsgemiddelden significant van elkaar verschillen. $$ F = \frac{\text{Variatie tussen groepen}}{\text{Variatie binnen groepen}} $$
* Het toepassen van ANOVA is efficiënter dan het herhaaldelijk uitvoeren van t-toetsen bij het vergelijken van meerdere groepen.
* Het kan helpen bij het identificeren van de bronnen van variabiliteit in een dataset.
* Het leidt tot een beter begrip van de relatie tussen onafhankelijke variabelen (groepen) en een afhankelijke variabele.
### Veelvoorkomende valkuilen
* Het vergeten om post-hoc tests uit te voeren na een significante ANOVA, wat leidt tot een onvolledige interpretatie.
* Het verkeerd interpreteren van een niet-significante ANOVA als bewijs dat er *geen* verschillen zijn tussen de groepen.
* Het schenden van de aannames van ANOVA, zoals normaliteit en gelijke varianties, wat de resultaten ongeldig kan maken.
---
* Het vergelijkt de variantie *tussen* groepen met de variantie *binnen* groepen.
* Een significant verschil tussen deze varianties suggereert dat ten minste één groepsgemiddelde verschilt van de anderen.
* ANOVA is een uitbreiding van de t-toets voor twee groepen.
* Het wordt toegepast wanneer er drie of meer onafhankelijke groepen zijn die worden vergeleken op een afhankelijke continue variabele.
- Het werkt door de totale variatie in de data op te splitsen in twee componenten: variantie verklaard door de groepsverschillen (tussen-groepsvariantie) en variantie die niet door de groepsverschillen wordt verklaard
* De nulhypothese (H₀) in ANOVA stelt dat alle groepsgemiddelden gelijk zijn.
* De alternatieve hypothese (H₁) stelt dat ten minste één groepsgemiddelde verschilt van de andere.
* De statistische toets in ANOVA is de F-toets, gebaseerd op de F-verdeling.
* **Tussen-groepsvariantie (Mean Square Between, MSB):** Een maat voor de variatie tussen de gemiddelden van de verschillende groepen. Dit vertegenwoordigt de door de groepen verklaarde variatie.
* **Binnen-groepsvariantie (Mean Square Within, MSW) of Error Variantie:** Een maat voor de variatie binnen elke groep, rond het gemiddelde van die groep. Dit vertegenwoordigt de niet-verklaarde variatie (ruis).
* **F-statistiek:** De ratio van de tussen-groepsvariantie tot de binnen-groepsvariantie: $F = \frac{MSB}{MSW}$. Een grotere F-waarde suggereert grotere verschillen tussen groepsgemiddelden ten opzichte van de variatie binnen de groepen.
* **Vrijheidsgraden (df):** Twee sets van vrijheidsgraden worden gebruikt:
* df_between = aantal groepen - 1
* df_within = totaal aantal observaties - aantal groepen
- **P-waarde:** De kans om een F-statistiek te verkrijgen die zo extreem is als de waargenomen waarde (of extremer), onder de aanname dat de nulhypothese waar is. Een lage p-waarde (<
* Als de ANOVA significant is (p < 0.05), weten we dat er een verschil is tussen de groepen, maar niet welke groepen specifiek verschillen.
* **Post-hoc toetsen** (zoals Tukey's HSD, Bonferroni) zijn nodig om te bepalen welke specifieke groepen significant van elkaar verschillen nadat een significante ANOVA is gevonden.
* ANOVA wordt vaak gebruikt in experimentele designs om de effecten van verschillende behandelingen of interventies te evalueren.
* Het laat toe om meerdere vergelijkingen te maken in één analyse, wat efficiënter is dan meerdere t-toetsen (die leiden tot een verhoogd Type I fout risico).
* Het vergeten uit te voeren van post-hoc toetsen na een significante ANOVA-uitkomst, wat leidt tot onvolledige conclusies.
* Het uitvoeren van meerdere t-toetsen in plaats van een ANOVA wanneer er meer dan twee groepen zijn, wat het alfa-niveau verhoogt.
* Het negeren van de aannames van ANOVA (normaliteit, homogeniteit van varianties, onafhankelijkheid), wat de geldigheid van de resultaten kan ondermijnen.
---
* De t-toets voor twee onafhankelijke steekproeven wordt gebruikt om de gemiddelden van twee verschillende groepen te vergelijken.
* Wanneer de standaardafwijkingen van de twee groepen gelijk worden verondersteld, wordt een gecombineerde standaardfout berekend.
* Als de standaardafwijkingen van de groepen significant verschillen, wordt een aangepaste t-toets gebruikt (Welch's t-toets), die geen gelijke varianties veronderstelt.
* De t-toets voor gekoppelde paren wordt gebruikt wanneer metingen van dezelfde personen of gekoppelde subjecten worden vergeleken (bv. voor- en nametingen).
- Bij de t-toets voor twee onafhankelijke steekproeven, wanneer de nulhypothese (geen verschil tussen gemiddelden) niet verworpen wordt, betekent dit dat de twee groepen niet significant van elkaar verschillen op de
* Een kleine steekproefgrootte kan leiden tot een lage power om significante verschillen te detecteren.
* Het verhogen van de steekproefgrootte of het verkleinen van de standaardafwijking vergroot de power.
* Als de populatie standaardafwijkingen ($\sigma_1, \sigma_2$) onbekend zijn, worden deze geschat met de steekproefstandaardafwijkingen ($s_1, s_2$).
* Bij de t-toets voor gekoppelde paren worden de verschilscores tussen de paren geanalyseerd.
* Het gebruik van de t-toets voor gekoppelde paren is efficiënter dan de onafhankelijke t-toets bij afhankelijke data, omdat het meer power heeft en minder fouten toelaat.
* Bij het vergelijken van meer dan twee groepen is het gebruik van meerdere t-toetsen af te raden vanwege het verhoogde risico op Type I fouten (alfacontaminatie).
* De keuze tussen een eenzijdige of tweezijdige t-toets hangt af van de specifieke onderzoeksvraag en voorafgaande hypothesen.
* Robuustheid van t-procedures suggereert dat t-toetsen relatief ongevoelig zijn voor schendingen van de normaliteitsaanname, vooral bij grotere steekproeven.
* Het ten onrechte toepassen van een onafhankelijke t-toets op gekoppelde data kan leiden tot een onderschatting van de significantie en een verhoogd risico op Type II fouten.
* Het negeren van de aannames (normaliteit, onafhankelijkheid, gelijke varianties) van de t-toetsen kan leiden tot misleidende resultaten.
* Het niet correct interpreteren van p-waarden en betrouwbaarheidsintervallen kan leiden tot verkeerde conclusies.
---
# Signicantietoetsen in stappen en klassieke benadering
### Kernidee
* Inferentiële statistiek maakt het mogelijk om conclusies te trekken over een populatie op basis van steekproefgegevens.
* Significantietoetsen (hypothesetoetsen) helpen te bepalen of waargenomen verschillen of verbanden in een steekproef waarschijnlijk ook in de populatie bestaan, of dat ze door toeval zijn ontstaan.
* De klassieke benadering van significantietoetsen maakt gebruik van kansrekening en theoretische verdelingen.
### Belangrijke feiten
* De nulhypothese ($H_0$) stelt dat er geen effect of verschil is.
* De alternatieve hypothese ($H_a$) stelt dat er wel een effect of verschil is.
* De toetsingsgrootheid is een waarde die de grootte van het waargenomen effect meet.
* De overschrijdingskans (p-waarde) is de kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is.
* Als de p-waarde kleiner is dan het significantieniveau ($\alpha$), wordt de nulhypothese verworpen.
* Een significantieniveau van 5% ($\alpha = 0.05$) wordt vaak gebruikt als drempel.
### Kernbegrippen
* **Steekproevenverdeling:** Een frequentieverdeling van resultaten van herhaalde steekproeven; deze beschrijft de variabiliteit van een statistiek (bv. steekproefgemiddelde) als gevolg van steekproeftrekking.
* **Betrouwbaarheidsinterval (BI):** Een interval van waarden waarbinnen het populatiegemiddelde waarschijnlijk ligt met een bepaald betrouwbaarheidsniveau (bv. 95%).
* **Significantieniveau ($\alpha$):** De vooraf vastgestelde drempel voor het verwerpen van de nulhypothese.
* **Type I fout (vals positief):** De nulhypothese wordt verworpen terwijl deze waar is ($\alpha$).
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen terwijl deze onwaar is ($\beta$).
* **Onderscheidingsvermogen (Power):** De kans om een werkelijk bestaand verschil te detecteren (1 - $\beta$).
* **Binomiaalverdeling:** Een discrete kansverdeling die gebruikt wordt voor het aantal successen in een vast aantal onafhankelijke experimenten met slechts twee mogelijke uitkomsten.
* **Normaalverdeling:** Een continue, symmetrische kansverdeling met een klokvorm, gekenmerkt door gemiddelde en standaardafwijking.
* **Resampling (Bootstrap):** Een methode waarbij herhaaldelijk steekproeven worden getrokken uit de originele steekproef om een empirische steekproevenverdeling te creëren.
### Implicaties
* Kleine p-waarden suggereren dat het waargenomen resultaat onwaarschijnlijk is onder de nulhypothese, wat leidt tot verwerping ervan.
* Een grotere steekproefgrootte ($n$) leidt tot een smallere standaardfout en vergroot het onderscheidingsvermogen.
* Een kleiner betrouwbaarheidsniveau verkleint het interval maar verhoogt het risico op een Type I fout.
* Het niet kennen van de populatiestandaardafwijking ($\sigma$) vereist het gebruik van de t-verdeling in plaats van de z-verdeling.
### Classieke aanpak versus resampling
* **Klassieke aanpak:** Gebruikt theoretische verdelingen (binomiaal, normaal) om kansen te berekenen.
* **Resampling (Bootstrap):** Simuleert herhaalde steekproeven om een empirische verdeling te creëren, zonder afhankelijk te zijn van theoretische aannames over populatieverdelingen.
### Student's t-verdeling
* **Kenmerken:** Symmetrisch met top op 0, maar heeft dikkere staarten dan de normaalverdeling.
### Significantietoets stappen
### Rapportage van toetsresultaten (APA-stijl)
---
* Significanteitstoetsen onderzoeken de kans dat een waargenomen resultaat in een steekproef toeval is, gegeven dat de nulhypothese waar is.
* Het doel is om conclusies te trekken over een populatie op basis van steekproefdata.
### Belangrijke concepten
* **Inferentiële statistiek**: Het proces van het trekken van conclusies over een populatie uit steekproefdata.
* **Steekproevenverdeling**: Een frequentieverdeling van resultaten van vele steekproeven; beschrijft de spreiding van steekproefstatistieken.
* **Nulhypothese ($H_0$)**: Stelt dat er geen effect of verschil is.
* **Alternatieve hypothese ($H_a$)**: Stelt dat er wel een effect of verschil is.
* **Toetsingsgrootheid**: Een statistiek berekend uit steekproefdata om hypothesen te toetsen.
* **P-waarde**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat $H_0$ waar is.
* **Significantieniveau ($\alpha$)**: Een vooraf bepaalde drempel (vaak 0.05) voor het verwerpen van $H_0$. Als p-waarde $\leq \alpha$, wordt $H_0$ verworpen.
* **Betrouwbaarheidsinterval (BI)**: Een reeks waarden die met een bepaald betrouwbaarheidsniveau de populatieparameter bevat.
* **Type I fout (vals positief)**: $H_0$ wordt verworpen terwijl deze waar is ($\alpha$ is de kans hierop).
* **Type II fout (vals negatief)**: $H_0$ wordt niet verworpen terwijl deze onwaar is ($\beta$ is de kans hierop).
* **Onderscheidingsvermogen (Power)**: De kans om $H_a$ correct te verwerpen wanneer deze waar is ($1 - \beta$).
### Stappen van significantietoetsen
* **Stap 1: Formuleer de nul- en alternatieve hypothesen ($H_0$ en $H_a$)**.
* **Stap 2: Bepaal de waarde van de toetsingsgrootheid** (bv. steekproefgemiddelde).
* **Stap 3: Bepaal de overschrijdingskans (p-waarde)** (theoretisch of via resampling).
* **Stap 4: Formuleer de conclusie** (vaak in APA-stijl).
### Klassieke benadering (met theoretische verdelingen)
* **Binomiaalverdeling**: Geschikt voor het aantal successen in een vast aantal onafhankelijke Bernoulli-experimenten (bv. genezingen).
* Kan benaderd worden door een normaalverdeling als $n \times p \geq 10$.
* **Normaalverdeling (Z-verdeling)**: Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) bekend is.
* De Z-score standaardiseert het steekproefgemiddelde.
* **Student's t-verdeling**: Gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* Heeft dikkere staarten dan de normaalverdeling, vooral bij kleine steekproeven.
* De vorm hangt af van de **vrijheidsgraden (df)**, meestal $n-1$.
* Naarmate $df$ toeneemt, nadert de t-verdeling de normaalverdeling.
### Benadering met resampling (Bootstrap)
### Vergelijkingen van gemiddelden
### Voorwaarden voor t-procedures
### Rapporteren van toetsresultaten (APA-stijl)
---
### Kernconcepten
* **Inductieve statistiek** is het proces van het trekken van conclusies over een populatie op basis van steekproefgegevens.
* **Betrouwbaarheidsintervallen** schatten het bereik waarbinnen een populatieparameter waarschijnlijk ligt.
* **Significantietoetsen (hypothesetoetsen)** evalueren of een waargenomen verschil in steekproefgegevens groot genoeg is om te concluderen dat er een werkelijk verschil is in de populatie.
* De **nulhypothese ($H_0$)** stelt doorgaans dat er geen effect of verschil is.
* De **alternatieve hypothese ($H_a$)** stelt dat er wel een effect of verschil is.
### Stappen van een significantietoets (klassieke benadering)
* $H_0$: Er is geen verschil tussen groepen of condities.
* $H_a$: Er is wel een verschil.
* **Stap 2: Bepaal de waarde van de toetsingsgrootheid**.
* Dit is een statistische maat berekend uit de steekproefgegevens (bv. gemiddelde verschil).
* **Stap 3: Bepaal de overschrijdingskans (p-waarde)**.
* Dit is de kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat $H_0$ waar is.
* Dit kan theoretisch (bv. binomiaalverdeling) of via resampling (bootstrap) worden berekend.
* Verwerp $H_0$ als de p-waarde kleiner is dan het significantieniveau ($\alpha$).
* Aanvaard $H_0$ als de p-waarde groter of gelijk is aan $\alpha$.
### Klassieke benadering: Binomiaalverdeling en Normale benadering
* **Probleemstelling**: Spontane genezing versus medicijneffect (placebo-effect).
* **Aanname**: Als het medicijn niet werkt, geneest men spontaan met een kans van 1/2 (placebogroep).
* **Vraag**: Hoe groot is de kans dat bij 20 personen, 15 of meer genezen, als de kans op spontane genezing 1/2 is?
* **Binomiaalverdeling**: Gebruikt voor discrete kansberekeningen (bv. aantal successen in een reeks pogingen).
* Benaderbaar door de normaalverdeling indien $n \times p \geq 10$.
* **Normale benadering**: Kan de binomiaalverdeling benaderen, wat handig is vanwege de bekende eigenschappen (68-95-99.7 regel).
### Overschrijdingskans (p-waarde) en Besluitvorming
* **p-waarde**: De kans om het geobserveerde resultaat (of extremer) te vinden als de nulhypothese waar is.
* **Significantieniveau ($\alpha$)**: Een vooraf ingestelde drempelwaarde (meestal 0.05).
* **Beslissing**:
### Type I en Type II Fouten
### Steekproevenverdeling van het gemiddelde en t-verdelingen
### Toepassingen van t-toetsen
---
* Significantietoetsen, onderdeel van inductieve statistiek, helpen bij het interpreteren van steekproefdata om conclusies te trekken over een populatie.
* Ze beoordelen de waarschijnlijkheid dat een waargenomen resultaat toevallig is, gegeven een nulhypothese.
* **Steekproevenverdeling**: Een frequentieverdeling van resultaten van herhaalde steekproeven, die de variabiliteit van steekproefstatistieken weergeeft.
* **Betrouwbaarheidsinterval (BI)**: Een bereik van waarden waarbinnen het populatieparameter naar verwachting ligt, met een bepaald betrouwbaarheidsniveau.
* **Significantieniveau ($\alpha$)**: De vooraf bepaalde maximale kans op een Type I fout (vals positief), meestal 0,05.
* **P-waarde**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is.
* **Type I fout**: Het onterecht verwerpen van de nulhypothese (vals positief).
* **Type II fout ($\beta$)**: Het niet verwerpen van de nulhypothese terwijl deze onjuist is (vals negatief).
* **Onderscheidingsvermogen (Power)**: De kans om een echt bestaand verschil (alternatieve hypothese) correct te detecteren ($1-\beta$).
### Significantiestoets in 4 stappen
* **Stap 1**: Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$).
* **Stap 2**: Bepaal de waarde van de toetsingsgrootheid (bv. steekproefgemiddelde, t-waarde, z-waarde).
* **Stap 3**: Bepaal de overschrijdingskans (p-waarde) voor de data (theoretisch of via resampling).
* **Stap 4**: Formuleer de conclusie, vaak in APA-stijl.
### Klassieke benadering (binomiaalverdeling)
* **Aanname**: Nulhypothese klopt (bv. medicijn werkt niet, genezing is spontaan).
* **Methode**: Kansberekening om de kans op het waargenomen resultaat of extremer te bepalen onder de $H_0$.
* **Voorbeeld**: Kans op 15 of meer genezingen in een steekproef van 20 bij een spontane genezingskans van 1/2.
* **Binomiaalverdeling**: Discreet, klokvormig; kan benaderd worden door de normaalverdeling indien $n \times p \ge 10$.
### Benadering met normaalverdeling
* De normaalverdeling kan gebruikt worden om de binomiaalverdeling te benaderen onder bepaalde voorwaarden.
* Dit vereenvoudigt de berekening van kansen door gebruik te maken van bekende eigenschappen van de normaalverdeling (bv. 68-95-99.7 regel).
### Resampling (bootstrap) methode
* Alternatieve aanpak die steekproeven met teruglegging simuleert vanuit de steekproefdata.
* Levert een geobserveerde steekproevenverdeling op, die niet noodzakelijk perfect symmetrisch is.
### Cruciale vragen bij significantietoetsen
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?" ($\alpha$)
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?" (Power)
### Onderscheidingsvermogen (Power)
* De kans om een significant verschil te detecteren als dat verschil er in werkelijkheid is en van belang is.
* Wordt beïnvloed door:
### Vergelijken van twee gemiddelden
### T-verdelingen
### -steekproef t-betrouwbaarheidsinterval en t-toets
### T-toetsen voor twee groepen
---
## Signicantietoetsen in stappen en klassieke benadering
* Inferentiële statistiek gebruikt steekproefgegevens om conclusies te trekken over populaties.
* Significantietoetsen evalueren de kans dat waargenomen resultaten optreden onder een specifieke nulhypothese.
* De klassieke benadering vertrouwt op theoretische verdelingen (binomiale, normale) en kansrekening.
* Resampling-methoden (bootstrap) bieden een alternatief door simulaties van de steekproevenverdeling.
* **Toetsingsgrootheid**: Een statistiek berekend uit steekproefgegevens om hypothesen te toetsen.
* **Significantieniveau ($\alpha$)**: Een vooraf bepaalde drempelwaarde (vaak 0,05) waaronder de nulhypothese wordt verworpen.
* **Type I fout**: Het onterecht verwerpen van de nulhypothese (vals positief), met kans $\alpha$.
* **Type II fout**: Het onterecht niet verwerpen van de nulhypothese (vals negatief), met kans $\beta$.
* **Onderscheidingsvermogen (power)**: De kans om de nulhypothese terecht te verwerpen wanneer de alternatieve hypothese waar is ($1 - \beta$).
* **Binomiaalverdeling**: Geschikt voor discrete uitkomsten met twee mogelijkheden (succes/falen) en een constante kans.
* **Normaalverdeling**: Een continue verdeling met klokvorm, gebruikt als benadering voor de binomiale verdeling indien $n \cdot p \ge 10$.
* **Resampling (bootstrap)**: Een methode die de steekproevenverdeling simuleert door herhaaldelijk met teruglegging te trekken uit de oorspronkelijke steekproef.
* **Vrijheidsgraden ($df$)**: Bepalen de specifieke t-verdeling; voor een 1-steekproef t-toets is $df = n - 1$.
### Kernfeiten
* Statistische conclusies worden getrokken op basis van de p-waarde en het significantieniveau.
* Een p-waarde kleiner dan $\alpha$ leidt tot het verwerpen van de nulhypothese.
* De klassieke benadering maakt gebruik van de binomiaalverdeling voor discrete data.
* De normaalverdeling kan de binomiaalverdeling benaderen bij voldoende grote steekproeven.
* Resampling-methoden produceren empirische steekproevenverdelingen die niet noodzakelijk symmetrisch zijn.
* De foutenmarge in een betrouwbaarheidsinterval wordt beïnvloed door de steekproefgrootte ($n$), de standaardafwijking ($\sigma$), en het betrouwbaarheidsniveau ($Z$-score).
* Een grotere steekproefgrootte leidt tot een smaller betrouwbaarheidsinterval en een hoger onderscheidingsvermogen.
* Een lager betrouwbaarheidsniveau resulteert in een smaller interval, maar verhoogt het risico op een Type I fout.
* Klassieke toetsen vereisen aannames over theoretische verdelingen.
### Typische stappen voor significantietoetsen
### Overwegingen bij de klassieke aanpak
### De t-verdeling en de klassieke benadering
### T-toetsen voor twee gemiddelden
---
## Significantietsen in stappen en klassieke benadering
* Inferentiële statistiek overbrugt de kloof tussen steekproefgegevens en populatieconclusies door gebruik te maken van steekproevenverdelingen.
* Significantietoetsen helpen te bepalen of waargenomen verschillen in steekproefgegevens waarschijnlijk niet aan toeval te wijten zijn, maar een echt populatieverschil weerspiegelen.
* **Nulhypothese (H₀):** Stelt dat er geen effect of verschil is in de populatie.
* **Alternatieve hypothese (H₁):** Stelt dat er wel een effect of verschil is in de populatie.
* **Toetsingsgrootheid:** Een statistiek berekend uit steekproefgegevens om hypothesen te toetsen (bv. gemiddelde, t-waarde, z-waarde).
* **Steekproevenverdeling:** De verdeling van een statistiek over herhaaldelijke steekproeven.
* **Overschrijdingskans (p-waarde):** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is.
* **Significantieniveau (α):** Een vooraf bepaalde drempelwaarde (meestal 0,05) waaronder de nulhypothese wordt verworpen.
* **Type I fout (vals positief):** H₀ wordt verworpen terwijl deze waar is (kans is α).
* **Type II fout (vals negatief):** H₀ wordt niet verworpen terwijl deze onwaar is (kans is β).
* **Onderscheidingsvermogen (power, 1-β):** De kans om een echt effect te detecteren wanneer dit aanwezig is.
### Klassieke aanpak (met binomiaalverdeling)
* Wordt toegepast wanneer de uitkomsten discreet en binair zijn (bv. genezen/niet genezen).
* Aanname: Mensen genezen spontaan met een bepaalde kans (bv. 50%).
* De nulhypothese wordt getoetst door de kans te berekenen op een bepaald aantal successen (bv. genezingen) in een steekproef, gegeven de kans in de populatie.
* De binomiaalverdeling kan benaderd worden met de normaalverdeling indien $n \times p \ge 10$.
* Simuleert herhaalde steekproeven uit de data om een empirische steekproevenverdeling te creëren.
* Leidt tot een geobserveerde, niet theoretische, steekproevenverdeling.
* De verdeling is niet altijd perfect symmetrisch, wat gemeld dient te worden.
### T-verdelingen en de student t-toets
* **Gebruik:** Wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* **Vorm:** De t-verdeling is symmetrisch rond 0, maar heeft dikkere staarten dan de normaalverdeling. Dit compenseert voor de extra onzekerheid door het schatten van $\sigma$.
* **Vrijheidsgraden (df):** Bepalen de specifieke vorm van de t-verdeling ($df = n-1$ voor een steekproef). Naarmate $df$ toeneemt, benadert de t-verdeling de normaalverdeling.
* **Doel:** Net als bij de z-verdeling, geeft de t-waarde aan hoeveel standaardfouten een steekproefgemiddelde verwijderd is van de verwachte waarde.
### Betrouwbaarheidsintervallen met de t-verdeling
* De formule is vergelijkbaar met die voor z-intervallen, maar gebruikt een $t^*$-waarde uit de t-tabel in plaats van een $z^*$-waarde.
* Formule: $\bar{x} \pm t^*\cdot \frac{s}{\sqrt{n}}$
* **Voorwaarden:** Steekproef moet willekeurig (random) zijn, de data moeten minstens benaderend normaal verdeeld zijn (vooral bij kleine steekproeven), en de populatie moet minstens 20 keer groter zijn dan de steekproef.
### Eénsteekproef t-toets
### Vergelijking van twee gemiddelden: t-toetsen
### Implicaties voor onderzoek
---
* Inferentiële statistiek stelt ons in staat om conclusies te trekken over een populatie op basis van steekproefgegevens.
* Significantietoetsen, ook wel hypothesetoetsen genoemd, helpen bepalen of waargenomen verschillen in steekproefdata significant zijn of verklaard kunnen worden door toeval.
* **Steekproevenverdeling:** Een frequentieverdeling van statistische maten (zoals gemiddelden) uit herhaaldelijk getrokken steekproeven uit een populatie. Deze is cruciaal voor inferentiële statistiek.
* **Schatten (Betrouwbaarheidsintervallen):** Een interval rond een steekproefgemiddelde waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* **Toetsen (Significantietoetsen):** Hypothesetoetsen die nagaan of een waargenomen steekproefresultaat significant verschilt van een verwachte populatieparameter.
* **Nulhypothese (H₀):** De aanname dat er geen effect of verschil is tussen populaties of dat een steekproef afkomstig is uit een specifieke populatie.
* **Alternatieve hypothese (H₁ of Hₐ):** De hypothese die stelt dat er wel een effect of verschil is.
* **Significantieniveau ($\alpha$):** De vooraf vastgestelde kans op een Type I fout (vals positief), meestal 5% (0,05).
* **P-waarde:** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is.
* **Type I fout (vals positief):** De nulhypothese wordt verworpen terwijl deze waar is. Kans hierop is $\alpha$.
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen terwijl deze onwaar is. Kans hierop is $\beta$.
* **Onderscheidingsvermogen (Power, 1 - $\beta$):** De kans om een werkelijk bestaand verschil (wanneer de alternatieve hypothese waar is) correct te detecteren.
### Significantietoets in 4 stappen
* Formuleer de nul- en alternatieve hypothesen.
* Bepaal de waarde van de toetsingsgrootheid (bv. gemiddelde).
* Bepaal de overschrijdingskans (p-waarde) voor de data.
* Formuleer de conclusie (vaak in APA-stijl).
### Klassieke benadering (met binomiale verdeling)
* **Principe:** Een aanname maken dat de nulhypothese klopt en berekenen hoe waarschijnlijk het waargenomen resultaat of een extremer resultaat is.
- **Voorbeeld:** Als spontane genezing 50% kans heeft (H₀: p = 0,5), hoe groot is de kans op 15 of meer genezingen in een steekproef van 20 als de medicatie niet
* **Binomiaalverdeling:** Gebruikt voor discrete uitkomsten (bv. genezen/niet genezen) met een vaste kans op succes per poging.
* **Benadering met normaalverdeling:** Een binomiaalverdeling kan benaderd worden met een normaalverdeling als $n \times p \geq 10$.
* **Principe:** Simuleren van de steekproevenverdeling door herhaaldelijk te "resamplen" (met teruglegging) uit de oorspronkelijke steekproefdata.
* **Resultaat:** Een geobserveerde, niet-theoretische steekproevenverdeling.
* **Definitie:** De kans om een bestaand effect te detecteren als de alternatieve hypothese waar is.
* **Factoren die power beïnvloeden:**
* Effectgrootte: Hoe groter het werkelijke verschil, hoe hoger de power.
### Vrijheidsgraden (df)
### T-verdeling vs. Z-verdeling
### T-betrouwbaarheidsinterval
### T-toets (één steekproef)
---
* Significantietoetsen (hypothesetoetsen) maken het mogelijk om conclusies te trekken over een populatie op basis van steekproefgegevens.
* Het doel is te bepalen of waargenomen verschillen significant zijn, of dat ze door toeval verklaard kunnen worden.
* De nulhypothese ($H_0$) stelt doorgaans dat er geen effect of verschil is.
### Belangrijke stappen bij significantietoetsen
* Formuleer de nul- ($H_0$) en alternatieve hypothese ($H_a$).
* Bepaal de waarde van de toetsingsgrootheid (bv. gemiddelde, t-score, z-score).
* Bereken de overschrijdingskans (p-waarde) voor de data.
* Formuleer de conclusie, vaak in APA-stijl.
### Klassieke benadering en kansrekening
* De klassieke benadering vertrouwt op theoretische verdelingen zoals de binomiale en normale verdeling.
* **Binomiale verdeling**: Geschikt voor discrete uitkomsten met een vast aantal experimenten en twee mogelijke uitkomsten per experiment.
* **Normale benadering van de binomiale verdeling**: Mogelijk wanneer $n \times p \geq 10$, waarbij de normale verdeling de discrete binomiale verdeling benadert.
* De p-waarde vertegenwoordigt de kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is.
* Een p-waarde lager dan het significantieniveau ($\alpha$) leidt tot het verwerpen van de nulhypothese.
### Betrouwbaarheidsinterval
* Een betrouwbaarheidsinterval (BI) geeft een bereik aan waarbinnen de werkelijke populatiewaarde waarschijnlijk ligt.
* Het BI is de populatiegemiddelde ($\mu$) plus of min een foutenmarge.
* De foutenmarge wordt beïnvloed door:
* Steekproefgemiddelde ($\bar{x}$).
* Betrouwbaarheidsniveau (vertegenwoordigd door een Z-score, bv. 1.96 voor 95%).
* Significantieniveau ($\alpha$).
* Populatiestandaardafwijking ($\sigma$).
* Steekproefgrootte ($n$).
* Een kleiner BI impliceert een hogere betrouwbaarheid en wordt verkregen door een grotere steekproefgrootte of een lager betrouwbaarheidsniveau.
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?" ($\alpha$)
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?" (Power)
* Power is de kans om een werkelijk bestaand verschil te detecteren (d.w.z. de nulhypothese correct te verwerpen).
* Type I fout (vals positief): $H_0$ onterecht verwerpen ($\alpha$).
### T-toetsen voor het vergelijken van gemiddelden
### Rapporteren van toetsresultaten in APA-stijl
---
* Significanteoetsen onderzoeken of waargenomen verschillen in steekproefdata waarschijnlijk te wijten zijn aan toeval of aan een echt effect in de populatie.
* De klassieke aanpak gebruikt kansrekening en theoretische verdelingen om deze vraag te beantwoorden.
* **Nulhypothese (H₀):** Stelt dat er geen verschil of effect is in de populatie.
* **Alternatieve hypothese (H₁):** Stelt dat er wel een verschil of effect is in de populatie.
* **Toetsingsgrootheid:** Een statistiek berekend uit de steekproefdata die de hypothese test.
* **Overschrijdingskans (p-waarde):** De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is.
* **Significantieniveau (α):** Een vooraf bepaalde drempel (meestal 0,05) waaronder de p-waarde als 'statistisch significant' wordt beschouwd.
* **Type I-fout (vals positief):** Het verwerpen van de nulhypothese terwijl deze waar is (kans = α).
* **Type II-fout (vals negatief):** Het niet verwerpen van de nulhypothese terwijl deze onwaar is (kans = β).
* **Onderscheidingsvermogen (power):** De kans om een echt effect te detecteren wanneer dit aanwezig is (kans = 1 - β).
* Significanteoetsen helpen te besluiten of een steekproef afkomstig is uit een populatie die overeenkomt met de nulhypothese.
* De klassieke benadering maakt gebruik van bekende theoretische verdelingen zoals de binomiaalverdeling of normaalverdeling.
* De binomiaalverdeling is discreet en benadert de normaalverdeling wanneer $n \times p \ge 10$.
* Een t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking ($\sigma$) onbekend is en geschat wordt uit de steekproefstandaardafwijking ($s$).
* T-verdelingen hebben dikkere staarten dan de normaalverdeling, wat betekent dat meer extreme waarden minder zeldzaam zijn.
* De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden ($df = n-1$).
* Naarmate de steekproefgrootte ($n$) toeneemt, benadert de t-verdeling de normaalverdeling.
### Methoden en procedures
* **Vier stappen van significanteoetsing:**
* Formuleer nul- en alternatieve hypothesen.
* Bepaal de waarde van de toetsingsgrootheid.
* Bepaal de overschrijdingskans (p-waarde) theoretisch of via resampling.
* Formuleer de conclusie.
* **Klassieke aanpak:**
* Gebruikt kansrekening (bv. binomiaalverdeling) om de kans op een bepaald aantal successen te berekenen.
* Kan benaderd worden met een normaalverdeling indien aan voorwaarden is voldaan.
### Toepassingen en interpretatie
### Voorwaarden en assumpties
### Rapportage van resultaten
---
* Significantietoetsen onderzoeken of waargenomen verschillen in steekproefdata waarschijnlijk op toeval berusten of duiden op een werkelijk effect in de populatie.
* De klassieke benadering gebruikt kansrekening en theoretische verdelingen om de waarschijnlijkheid van resultaten onder de nulhypothese te bepalen.
* **Nulhypothese ($H_0$)**: Stelt dat er geen effect of verschil is in de populatie.
* **Alternatieve hypothese ($H_a$)**: Stelt dat er wel een effect of verschil is in de populatie.
* **Toetsingsgrootheid**: Een waarde berekend uit steekproefdata die de mate van afwijking van de nulhypothese weergeeft.
* **Overschrijdingskans (p-waarde)**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is.
* **Significantieniveau ($\alpha$)**: Een vooraf ingestelde drempelwaarde (meestal 0,05) waaronder de nulhypothese wordt verworpen.
* **Resampling/Bootstrap**: Een simulatiemethode waarbij herhaaldelijk steekproeven worden getrokken uit de originele data om een empirische steekproevenverdeling te creëren.
* Significantietoetsen beogen de nulhypothese te verwerpen ten gunste van de alternatieve hypothese.
* De klassieke benadering maakt gebruik van theoretische verdelingen zoals de binomiaal- en normaalverdeling.
* De binomiaalverdeling is discreet en kan benaderd worden door de normaalverdeling indien $n \times p \ge 10$.
* Resampling levert een geobserveerde, niet een theoretische, steekproevenverdeling op.
* De power van een toets is de kans om een werkelijk effect te detecteren wanneer de alternatieve hypothese waar is ($1 - \beta$).
* Type I fout (vals positief): Verwerpen van $H_0$ terwijl deze waar is ($\alpha$).
* Type II fout (vals negatief): Niet verwerpen van $H_0$ terwijl $H_a$ waar is ($\beta$).
* Een p-waarde lager dan $\alpha$ leidt tot het verwerpen van de nulhypothese, wat duidt op een statistisch significant resultaat.
* De interpretatie van resultaten moet rekening houden met het risico op Type I en Type II fouten.
* De power van een toets is cruciaal voor het detecteren van relevante effecten en wordt beïnvloed door steekproefgrootte en effectgrootte.
* Grotere steekproeven verhogen de power en verkleinen de foutenmarge in betrouwbaarheidsintervallen.
### Klassieke benadering in stappen
* **Stap 1**: Formuleer de nul- en alternatieve hypothesen.
* **Stap 2**: Bepaal de waarde van de toetsingsgrootheid.
* **Stap 3**: Bepaal de overschrijdingskans (p-waarde) theoretisch of via resampling.
* **Stap 4**: Formuleer de conclusie, vaak in APA-stijl.
### Studente t-verdelingen
* **Kernidee**: De t-verdeling wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproefstandaardafwijking ($s$).
* **Kenmerken**: T-verdelingen zijn symmetrisch met een top op 0, maar hebben dikkere staarten dan de normaalverdeling, vooral bij kleine steekproeven.
### Toepassing van de t-toets
---
* Significantietoetsen zijn methoden om te bepalen of waargenomen verschillen in steekproefdata groot genoeg zijn om te concluderen dat deze verschillen ook in de populatie bestaan.
* Het proces omvat het formuleren van hypothesen, het berekenen van een toetsingsgrootheid, het bepalen van een overschrijdingskans (p-waarde) en het formuleren van een conclusie.
* **Nulhypothese ($H_0$)**: Stelt dat er geen werkelijk verschil of verband bestaat in de populatie.
* **Alternatieve hypothese ($H_A$)**: Stelt dat er wel een werkelijk verschil of verband bestaat in de populatie.
* **Toetsingsgrootheid**: Een statistiek berekend uit de steekproefdata die aangeeft hoe ver het waargenomen resultaat afwijkt van wat onder de nulhypothese verwacht wordt.
* **Overschrijdingskans (p-waarde)**: De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is.
* **Significantieniveau ($\alpha$)**: Een vooraf vastgestelde drempelwaarde (meestal 0.05); als p < $\alpha$, wordt de nulhypothese verworpen.
* **Type I fout**: Het onterecht verwerpen van de nulhypothese (vals positief); de kans hierop is $\alpha$.
* **Type II fout**: Het niet verwerpen van de nulhypothese terwijl deze onwaar is (vals negatief); de kans hierop is $\beta$.
* **Onderscheidingsvermogen (Power)**: De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is ($1 - \beta$).
### Stappen van een significantietoets
* **Stap 2**: Bepaal de waarde van de toetsingsgrootheid op basis van de steekproefdata.
* **Stap 3**: Bepaal de overschrijdingskans (p-waarde) voor de data.
### Klassieke benadering (met voorbeelden)
* **Kansrekenen (binomiaalverdeling)**:
* Situatie: Genezing na medicatie vergeleken met placebo. Nulhypothese: medicijn werkt niet (kans op genezing 1/2).
* Berekening: Kans op 15 of meer genezingen in een steekproef van 20, indien de nulhypothese waar is.
* Resultaat: Als deze kans (p-waarde) kleiner is dan $\alpha$ (bv. 0.05), wordt de nulhypothese verworpen.
* **Benaderen met een normaalverdeling**:
* Mogelijk wanneer $n \times p \geq 10$. De normaalverdeling kan de binomiaalverdeling benaderen.
* Gebruikt simulaties (bv. 100.000 steekproeven met teruglegging) om een geobserveerde steekproevenverdeling te creëren, in plaats van een theoretische.
* Levert een empirische p-waarde op.
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese waar zou zijn?" (gerelateerd aan $\alpha$).
* "Hoe groot is de kans dat het resultaat van mijn onderzoek tot stand zou zijn gekomen indien de nulhypothese NIET waar zou zijn?" (gerelateerd aan power).
* De kans dat een statistische toets een significant verschil detecteert wanneer dat verschil er werkelijk is en relevant is voor het onderzoek.
### Twee populaties vergelijken
---
* Significantietoetsen beoordelen of waargenomen verschillen in steekproefdata groot genoeg zijn om te concluderen dat er een werkelijk verschil is in de populatie, of dat het verschil door toeval is ontstaan.
* De klassieke benadering vertrouwt op theoretische kansverdelingen (zoals de binomiale en normale verdeling) om de waarschijnlijkheid van resultaten onder de nulhypothese te bepalen.
* Resampling (bootstrap) methoden bieden een alternatieve, empirische benadering door vele steekproeven te simuleren uit de waargenomen data.
* **Nulhypothese ($H_0$):** Stelt dat er geen effect of geen verschil is tussen populaties.
* **Alternatieve hypothese ($H_A$):** Stelt dat er wel een effect of verschil is.
* **Toetsingsgrootheid:** Een statistiek berekend uit de steekproefdata (bv. gemiddelde, verschil in gemiddelden) om hypotheses te toetsen.
* **P-waarde:** De kans om een resultaat te observeren dat minstens zo extreem is als het waargenomen resultaat, *onder de aanname dat de nulhypothese waar is*.
* **Significantieniveau ($\alpha$):** Een vooraf bepaalde drempel (meestal 0,05) waaronder de nulhypothese wordt verworpen. Als $p < \alpha$, is het resultaat statistisch significant.
* **Type I fout (vals positief):** Het onterecht verwerpen van de nulhypothese ($p = \alpha$).
* **Type II fout (vals negatief):** Het onterecht aanvaarden van de nulhypothese ($p = \beta$).
* **Onderscheidingsvermogen (Power):** De kans om de nulhypothese correct te verwerpen wanneer de alternatieve hypothese waar is ($1 - \beta$).
### Key facts
* **Significante toets in 4 stappen:**
* Gebruikt theoretische verdelingen zoals de binomiale en normale verdeling.
* Veronderstelt vaak bekende populatieparameters (bv. $\sigma$).
* **Benadering met de normaalverdeling:**
* De binomiaalverdeling kan benaderd worden door een normaalverdeling als $n \times p \ge 10$.
* **Resampling (Bootstrap):**
* Simuleert een steekproevenverdeling door herhaaldelijk met teruglegging te trekken uit de eigen steekproefdata.
* Produceert een empirische, geen theoretische, steekproevenverdeling.
* Handig als theoretische verdelingen niet voldoen of te complex zijn.
### Gebruik van t-verdelingen
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Term | Definitie |
| Betrouwbaarheidsinterval (BI) | Een betrouwbaarheidsinterval geeft de grenzen aan waarbinnen je verwacht dat het echte populatiegemiddelde zal liggen. Dit betekent dat in 95% van de replicaties een interval wordt gevonden dat de echte populatiewaarde bevat. |
| Binomiaalverdeling | De binomiaalverdeling is een discrete kansverdeling die het aantal successen in een reeks van onafhankelijke Bernoulli-experimenten weergeeft. Het lijkt op de normaalverdeling door zijn klokvorm, maar is discreet. |
| Bootstrap-methode (Resampling) | De bootstrap- of resamplingmethode is een alternatieve aanpak voor klassieke statistische benaderingen, waarbij herhaaldelijk steekproeven met teruglegging worden getrokken uit de oorspronkelijke data om een empirische steekproevenverdeling te creëren. |
| Effectgrootte | De effectgrootte is de afstand tussen de gemiddelden van de nulhypothese- en alternatieve hypothese-verdelingen, en beïnvloedt de power van een test door de kans te vergroten dat de test correct de nulhypothese verwerpt wanneer de alternatieve hypothese waar is. |
| Inferentie | Inferentie verwijst naar het proces van het trekken van conclusies of het maken van algemene uitspraken over een populatie op basis van gegevens die zijn verzameld uit een steekproef van die populatie. |
| Kritieke waarde | De kritieke waarde is een beslissingscriterium in statistische toetsen; als de berekende toetsingsgrootheid deze waarde overschrijdt, wordt de nulhypothese verworpen ten gunste van de alternatieve hypothese. |
| Nulhypothese (H0) | De nulhypothese stelt dat er geen significant verschil of verband is tussen de onderzochte groepen of variabelen. Het is de hypothese die getoetst wordt en die verworpen kan worden als er voldoende bewijs is voor de alternatieve hypothese. |
| Onderscheidingsvermogen (Power) | Het onderscheidingsvermogen, of power, is de kans dat een statistische toets een werkelijk bestaand verschil op populatieniveau correct detecteert, gegeven dat dit verschil relevant is voor het onderzoek. Het is de kans om de nulhypothese te verwerpen wanneer deze vals is. |
| Overschrijdingskans (p-waarde) | De overschrijdingskans, of p-waarde, geeft de kans aan om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot verwerping van de nulhypothese. |
| Resampling | Resampling is een techniek waarbij herhaaldelijk steekproeven worden getrokken uit een bestaande dataset, vaak met teruglegging, om de variabiliteit van statistische schatters te onderzoeken of om empirische verdelingen te construeren. |
| Significantieniveau (α) | Het significantieniveau, of alfa (α), is een vooraf vastgestelde kritische grens (meestal 5%) die aangeeft wanneer de nulhypothese wordt verworpen. Het vertegenwoordigt de kans op een Type I fout. |
| Steekproevenverdeling | Een steekproevenverdeling is de frequentieverdeling van de resultaten van verschillende steekproeven die uit dezelfde populatie zijn getrokken. Het beschrijft de variabiliteit van een statistische maat (zoals het gemiddelde) over verschillende steekproeven. |
| P-waarde | De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, onder de aanname dat de nulhypothese waar is. Het is de kans dat de resultaten puur door toeval zijn ontstaan. |
| Alternatieve hypothese (HA) | Een stelling die het tegendeel beweert van de nulhypothese; er is wel een verschil tussen groepen of een verband tussen variabelen. |
| Type I fout (vals positief) | De fout waarbij de nulhypothese onterecht wordt verworpen, terwijl deze eigenlijk waar is. De kans hierop is gelijk aan het significantieniveau (α). |
| Type II fout (vals negatief) | De fout waarbij de nulhypothese niet wordt verworpen, terwijl deze eigenlijk verworpen zou moeten worden (dus de alternatieve hypothese is waar). De kans hierop wordt aangeduid met β. |
| Z-toets | Een statistische toets die wordt gebruikt om het gemiddelde van een populatie te vergelijken met een bekende populatiestandaardafwijking. Het standaardiseert de waarde zodat deze direct kan worden afgelezen uit de normaalverdeling. |
| T-verdeling | Een kansverdeling die lijkt op de normaalverdeling, maar dikkere staarten heeft. Deze wordt gebruikt wanneer de populatiestandaardafwijking onbekend is en geschat moet worden uit de steekproef. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke gegevenspunten in een steekproef dat elke mogelijke waarde kan aannemen. Voor een t-verdeling is dit meestal de steekproefgrootte min één ($n-1$). |
| Significantieniveau ($\alpha$) | Het significantieniveau, vaak aangeduid met $\alpha$, is een vooraf vastgestelde kritische drempel die aangeeft hoe groot het risico is dat je accepteert om de nulhypothese onterecht te verwerpen. Een veelgebruikte waarde voor $\alpha$ is 0,05 (of 5%). |
| Significantietoets | Een significantietoets is een statistische methode om te bepalen of een waargenomen verschil of verband in steekproefgegevens groot genoeg is om aan te nemen dat dit verschil of verband ook in de populatie bestaat. Het doel is om de nulhypothese te toetsen. |
| Nulhypothese ($H_0$) | De nulhypothese ($H_0$) stelt dat er geen verschil, geen verband of geen effect is tussen de te onderzoeken groepen of variabelen in de populatie. Het is de hypothese die getoetst wordt in een significantietoets. |
| Alternatieve hypothese ($H_A$) | De alternatieve hypothese ($H_A$) stelt dat er wel een verschil, een verband of een effect is tussen de te onderzoeken groepen of variabelen in de populatie. Deze hypothese wordt geaccepteerd als de nulhypothese wordt verworpen. |
| Z-score | Een Z-score geeft aan hoeveel standaardafwijkingen een bepaalde waarde afwijkt van het gemiddelde in een standaardnormale verdeling (met een gemiddelde van 0 en een standaardafwijking van 1). Het wordt gebruikt om steekproefstatistieken te standaardiseren voor inferentie. |
| Significantietoets (Hypothesetoets) | Een statistische methode om te bepalen of de waargenomen resultaten uit een steekproef voldoende bewijs leveren om een nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| T-verdeling (Student's t-verdeling) | Een kansverdeling die lijkt op de normaalverdeling, maar dikkere staarten heeft. Het wordt gebruikt bij statistische toetsen wanneer de populatiestandaardafwijking onbekend is en geschat wordt op basis van de steekproefstandaardafwijking. |
| Standaardfout | De standaardafwijking van de steekproevenverdeling van een statistiek, zoals het gemiddelde. Het geeft een maat voor de precisie van de schatting van de populatieparameter. |
| Resampling (Bootstrap) | Een methode waarbij herhaaldelijk steekproeven met teruglegging worden getrokken uit de oorspronkelijke steekproef om een geobserveerde steekproevenverdeling te creëren, in plaats van een theoretische verdeling. |
| Steekproefgrootte (n) | Het aantal observaties of eenheden in een steekproef. Een grotere steekproefgrootte leidt over het algemeen tot een kleiner betrouwbaarheidsinterval en een groter onderscheidingsvermogen. |
| Foutmarge | Het verschil tussen de steekproefstatistiek en de grenzen van het betrouwbaarheidsinterval. Het vertegenwoordigt de onzekerheid in de schatting van de populatieparameter. |
| Populatie | De volledige groep individuen, objecten of gebeurtenissen waarover men een uitspraak wil doen. |
| Populatie standaardafwijking ($\sigma$) | Een maat voor de spreiding van de gegevens in de gehele populatie. Het geeft aan hoe individuele waarden gemiddeld afwijken van het populatiegemiddelde. |
| Steekproef | Een subset van de populatie die wordt gebruikt om informatie te verzamelen en inferenties over de populatie te maken. |
| Significantieverschil | Een verschil tussen groepen of waarden dat zo groot is dat het waarschijnlijk niet door toeval is ontstaan, maar wijst op een werkelijk effect of verschil in de populatie. |
| Toetsingsgrootheid | Een statistische maat die wordt berekend uit steekproefgegevens om de nulhypothese te toetsen. Voorbeelden zijn het gemiddelde of de z-score. |
| Alternatieve hypothese | Een bewering die het tegenovergestelde stelt van de nulhypothese en die wordt aangenomen als de nulhypothese wordt verworpen. |
| Cruciale waarde | Een drempelwaarde die wordt gebruikt om te beslissen of een statistisch resultaat significant is. |
| Inferentiële statistiek | Het proces van het trekken van conclusies over een populatie op basis van gegevens verzameld uit een steekproef. |
| Klassieke benadering | Een statistische methode die gebaseerd is op kansberekening en theoretische verdelingen zoals de binomiale en normale verdeling om hypothesen te toetsen. |
| Type I-fout (vals positief) | De fout waarbij de nulhypothese onterecht wordt verworpen, terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau (α). |
| Type II-fout (vals negatief) | De fout waarbij de nulhypothese niet wordt verworpen, terwijl deze in werkelijkheid onjuist is. De kans hierop wordt aangeduid met β. |
| t-toets | Een statistische toets die wordt gebruikt om hypothesen te toetsen over populatiegemiddelden wanneer de populatiestandaardafwijking onbekend is. Er zijn verschillende typen, zoals de 1-steekproef t-toets, de t-toets voor gekoppelde paren en de t-toets voor onafhankelijke steekproeven. |
| Alfa ($\alpha$) | Alfa is een vooraf vastgestelde kritische grens, meestal 5%, die aangeeft wanneer de nulhypothese wordt verworpen. Het vertegenwoordigt het risico op een Type I-fout, oftewel het onterecht verwerpen van de nulhypothese. |
| Dikkere staarten (t-verdeling) | De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat betekent dat er meer kans is op extreme waarden. Dit is cruciaal bij het bepalen van significantie, omdat de beslissingen hierop gebaseerd zijn. |
| Steekproefgemiddelde ($\bar{x}$) | Het steekproefgemiddelde is het gemiddelde van de gegevens verzameld uit een steekproef. Het wordt gebruikt als schatting voor het populatiegemiddelde. |
| Significant verschil | Een verschil tussen groepen of variabelen dat groot genoeg is om niet verklaard te kunnen worden door toeval, wat leidt tot het verwerpen van de nulhypothese. |
| Niet-parametrische toetsen | Niet-parametrische toetsen zijn statistische methoden die geen aannames doen over de specifieke verdeling van de populatie waaruit de steekproef is getrokken, in tegenstelling tot parametrische toetsen die wel dergelijke aannames maken (bijvoorbeeld normaliteit). |
| Betrouwbaarheidsniveau | De kans dat een betrouwbaarheidsinterval de werkelijke populatieparameter bevat. Gangbare niveaus zijn 90%, 95% en 99%. |
| Z-verdeling (standaard normaalverdeling) | Een continue kansverdeling die symmetrisch is rond het gemiddelde en een klokvorm heeft. Het gemiddelde is 0 en de standaardafwijking is 1. Wordt gebruikt bij significantietoetsen wanneer de populatiestandaardafwijking bekend is. |
Cover
Statistiek 3.docx
Summary
# Inleiding tot inductieve statistiek: betrouwbaarheidsintervallen en toetsen
Inductieve statistiek stelt ons in staat om op basis van steekproefgegevens conclusies te trekken over grotere populaties, waarbij betrouwbaarheidsintervallen en hypothesetoetsen centraal staan om onzekerheid te kwantificeren en beslissingen te onderbouwen.
## 1. Inleiding tot inductieve statistiek: betrouwbaarheidsintervallen en toetsen
Inductieve statistiek maakt gebruik van steekproefgegevens om uitspraken te doen over populaties. Hierbij is het cruciaal om rekening te houden met de onzekerheid die inherent is aan het trekken van een steekproef. Betrouwbaarheidsintervallen bieden een methode om een bereik te bepalen waarbinnen de populatieparameter waarschijnlijk ligt, terwijl hypothesetoetsen ons helpen om specifieke beweringen over de populatie te evalueren.
### 1.1 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) geeft een reeks waarden waarbinnen we verwachten dat de ware populatieparameter (bijvoorbeeld het populatiegemiddelde) zich bevindt, met een bepaalde mate van zekerheid.
#### 1.1.1 Concept van betrouwbaarheidsintervallen
Het idee achter een betrouwbaarheidsinterval is dat, hoewel we slechts één steekproef trekken, we ons kunnen voorstellen wat er zou gebeuren als we dit proces vele malen zouden herhalen. De verzameling van de steekproefgemiddelden zou een steekproevenverdeling vormen, die vaak benaderd kan worden met een normale verdeling. Een betrouwbaarheidsinterval wordt dan geconstrueerd rondom het waargenomen steekproefgemiddelde, met een foutenmarge die aangeeft hoe ver we verwachten dat het populatiegemiddelde afwijkt.
De breedte van het betrouwbaarheidsinterval wordt beïnvloed door:
* De standaardafwijking van de populatie ($\sigma$): hoe kleiner $\sigma$, hoe smaller het interval en dus hoe preciezer de schatting.
* De grootte van de steekproef ($n$): hoe groter $n$, hoe smaller het interval en hoe preciezer de schatting.
#### 1.1.2 Interpretatie van betrouwbaarheidsintervallen
Een 95% betrouwbaarheidsinterval betekent dat als we het proces van steekproeftrekking en intervalconstructie oneindig vaak zouden herhalen, 95% van deze intervallen de ware populatieparameter zou bevatten. Het betekent *niet* dat er 95% kans is dat de ware populatieparameter binnen *één specifiek berekend* interval ligt.
> **Tip:** Wees voorzichtig met de interpretatie van betrouwbaarheidsintervallen. Focus op de herhalingsinterpretatie: als je het experiment vaak zou herhalen, zou een bepaald percentage van de intervallen de ware parameter bevatten.
#### 1.1.3 Foutenmarges en schatters
De foutenmarge in een betrouwbaarheidsinterval vertegenwoordigt de onzekerheid rondom de schatting van de populatieparameter op basis van de steekproef. Schatters zijn statistieken die worden gebruikt om populatieparameters te schatten; de kwaliteit van een schatter hangt af van eigenschappen zoals zuiverheid, efficiëntie en consistentie.
#### 1.1.4 Waarschuwingen bij schatters
Het is belangrijk om te realiseren dat schatters steekproefafhankelijk zijn en dat er een kans is op toevalsfluctuaties die de schatting beïnvloeden. Systematische aannames, zoals aselecte steekproeftrekking, zijn cruciaal voor de geldigheid van de inductieve statistiek.
### 1.2 Hypothesetoetsen (Significantietoetsen)
Hypothesetoetsen zijn nauw verwant aan betrouwbaarheidsintervallen en worden gebruikt om specifieke hypothesen over een populatie te evalueren op basis van steekproefgegevens.
#### 1.2.1 De vier stappen van een significantietoets
1. **Formuleer de nul- en de alternatieve hypothesen:** De nulhypothese ($H_0$) stelt meestal dat er geen effect of verschil is, terwijl de alternatieve hypothese ($H_1$) stelt dat er wel een effect of verschil is.
2. **Bepaal de waarde van de toetsingsgrootheid:** Dit is een statistiek berekend uit de steekproefgegevens die de hypothese test.
3. **Bepaal de overschrijdingskans (p-waarde):** Dit is de kans om data te verkrijgen die minstens zo extreem zijn als de waargenomen data, ervan uitgaande dat de nulhypothese waar is. Standaard wordt vaak een significantieniveau ($\alpha$) van 0.05 gehanteerd.
4. **Formuleer de conclusie:** Op basis van de p-waarde en het significantieniveau wordt besloten of de nulhypothese verworpen wordt of niet.
#### 1.2.2 Klassieke aanpak versus resampling
* **Klassieke aanpak:** Maakt gebruik van theoretische verdelingen (zoals de normaal- of t-verdeling) om de p-waarde te berekenen. Dit vereist vaak aannames over de populatieverdeling. Een discrete verdeling kan benaderd worden door een normale verdeling als de steekproefgrootte voldoende is.
* **Resampling (bv. bootstrap):** Simuleert de steekproevenverdeling door herhaaldelijk steekproeven te trekken met teruglegging uit de oorspronkelijke steekproef. Dit vereist minder aannames over de populatieverdeling. Dit kan nuttig zijn wanneer de $n \times p \ge 10$ voorwaarden voor normale benadering niet voldaan is.
#### 1.2.3 Nulhypothese en alternatieve hypothese
* **Nulhypothese ($H_0$):** Stelt een claim die we proberen te weerleggen. Bijvoorbeeld, een medicijn heeft geen effect ($ \mu_{medicijn} = \mu_{placebo} $).
* **Alternatieve hypothese ($H_1$):** De claim die we accepteren als we de nulhypothese verwerpen. Bijvoorbeeld, een medicijn heeft wel een effect ($ \mu_{medicijn} \neq \mu_{placebo} $, $ \mu_{medicijn} > \mu_{placebo} $, of $ \mu_{medicijn} < \mu_{placebo} $).
#### 1.2.4 Overschrijdingskans (p-waarde)
De p-waarde is de kans op het waarnemen van de steekproefresultaten, of nog extremere resultaten, indien de nulhypothese waar zou zijn. Een kleine p-waarde (typisch kleiner dan $\alpha = 0.05$) leidt tot verwerping van de nulhypothese.
> **Tip:** Een p-waarde is *niet* de kans dat de nulhypothese waar is.
#### 1.2.5 Cruciale vragen bij significantietoetsen
Naast het bepalen van statistische significantie, zijn er ook conceptuele vragen:
* **Hoe groot moet een verschil zijn om praktisch relevant te zijn?** Dit gaat verder dan alleen statistische significantie.
* **Wat is het onderscheidingsvermogen (power)?** Dit is de kans dat de toets een echt effect of verschil detecteert wanneer dat aanwezig is op populatieniveau.
#### 1.2.6 Type I en Type II fouten
* **Type I fout (vals positief, $\alpha$):** Het verwerpen van de nulhypothese terwijl deze waar is. De kans hierop is gelijk aan het significantieniveau ($\alpha$).
* **Type II fout (vals negatief, $\beta$):** Het niet verwerpen van de nulhypothese terwijl deze onwaar is. Het onderscheidingsvermogen is $1 - \beta$.
> **Tip:** Een hogere $\alpha$ verhoogt de kans op een Type I fout, maar verkleint de kans op een Type II fout (en vice versa). De keuze van $\alpha$ is een afweging.
#### 1.2.7 Onderscheidingsvermogen (Power)
Onderscheidingsvermogen is de kans om een werkelijk bestaand effect of verschil te detecteren. Factoren die het onderscheidingsvermogen beïnvloeden zijn:
* Steekproefgrootte ($n$): Grotere $n$ verhoogt het onderscheidingsvermogen.
* Effectgrootte: Grotere verschillen zijn makkelijker te detecteren.
* Significantieniveau ($\alpha$): Hogere $\alpha$ verhoogt het onderscheidingsvermogen (ten koste van meer Type I fouten).
* Variabiliteit in de data: Lagere variabiliteit verhoogt het onderscheidingsvermogen.
#### 1.2.8 Z-toets versus T-toets
* **Z-toets:** Wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) bekend is of wanneer de steekproef zeer groot is (zodat de steekproefstandaardafwijking $s$ een goede benadering is van $\sigma$). Gebruikt de standaardnormaalverdeling.
* **T-toets:** Wordt gebruikt wanneer de populatie standaardafwijking ($\sigma$) onbekend is en wordt geschat met de steekproefstandaardafwijking ($s$). De t-verdeling heeft dikkere staarten dan de normaalverdeling, wat een correctie is voor de extra onzekerheid door het schatten van $\sigma$. De vorm van de t-verdeling hangt af van de vrijheidsgraden ($df$).
#### 1.2.9 Vrijheidsgraden (df)
Vrijheidsgraden zijn een parameter die de vorm van de t-verdeling bepaalt. Voor een 1-steekproef t-toets is $df = n - 1$. Voor een 2-steekproeven t-toets, afhankelijk van de varianties, kan $df$ op verschillende manieren berekend worden (bv. $df = n_1 + n_2 - 2$ voor gelijke varianties, of een complexere formule voor ongelijke varianties).
#### 1.2.10 T-verdeling en de impact van vrijheidsgraden
Naarmate de vrijheidsgraden toenemen, nadert de t-verdeling de standaardnormaalverdeling. Bij lage vrijheidsgraden zijn de staarten van de t-verdeling dikker, wat betekent dat grotere t-waarden nodig zijn om significantie te bereiken. Dit is een conservatieve benadering om het risico op Type I fouten te beperken.
#### 1.2.11 Steekproevenverdeling van de toetsingsgrootheid
De steekproevenverdeling van de toetsingsgrootheid beschrijft de verdeling van de toetsingsgrootheid als de nulhypothese waar zou zijn. Deze verdeling wordt gebruikt om de p-waarde te bepalen.
#### 1.2.12 Vergelijken van twee gemiddelden
* **2-steekproeven Z-test:** Minder frequent gebruikt omdat de populatie standaardafwijking zelden bekend is.
* **2-steekproeven T-test:** De meest gebruikelijke methode. Hierbij wordt de testingsgrootheid berekend op basis van de steekproefgemiddelden en steekproefstandaardafwijkingen.
* **Gelijke varianties:** Gebruikt een gepoolde variantie. $df = n_1 + n_2 - 2$.
* **Ongelijke varianties (Welch's t-test):** Gebruikt aparte varianties. De vrijheidsgraden worden berekend met een complexere formule (Satterthwaite-Welch). Dit is vaak de conservatievere keuze.
#### 1.2.13 Voorwaarden voor T-procedures
Hoewel t-procedures relatief robuust zijn voor schendingen van aannames, zijn de volgende voorwaarden belangrijk:
* **Aselecte steekproef:** De data moeten afkomstig zijn van een aselecte steekproef.
* **Onafhankelijkheid:** Observaties binnen en tussen groepen moeten onafhankelijk zijn.
* **Normaliteit:** De populaties waaruit de steekproeven getrokken zijn, moeten ongeveer normaal verdeeld zijn. Dit is belangrijker bij kleine steekproeven. Voor grotere steekproeven (bv. $n > 30$) is de t-procedure robuuster tegen schendingen van normaliteit, vooral als de verdelingen ongeveer symmetrisch zijn.
* **Gelijke varianties (voor klassieke t-test met gelijke varianties):** De varianties in de populaties moeten ongeveer gelijk zijn. Levene's test kan gebruikt worden om dit te toetsen. Als deze aanname geschonden is, wordt Welch's t-test gebruikt.
> **Tip:** Robuustheid van t-procedures betekent dat ze nog steeds betrouwbaar kunnen zijn, zelfs als niet aan alle voorwaarden perfect is voldaan, vooral bij grote steekproeven. Echter, bij zeer kleine steekproeven is de normaliteitsassumptie belangrijker.
#### 1.2.14 Levene's test
Levene's test wordt gebruikt om te toetsen of de varianties van twee of meer groepen gelijk zijn. Als de p-waarde van Levene's test significant is (bv. $p < 0.05$), wordt de nulhypothese van gelijke varianties verworpen.
#### 1.2.15 Conservatief testen
Conservatief testen houdt in dat men strenger is bij het verwerpen van de nulhypothese. Dit kan bijvoorbeeld door lagere vrijheidsgraden te hanteren, wat leidt tot dikkere staarten in de t-verdeling. Dit verhoogt de kans op een Type II fout (minder onderscheidingsvermogen), maar verlaagt de kans op een Type I fout.
#### 1.2.16 Betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden ($\mu_1 - \mu_2$)
Een betrouwbaarheidsinterval voor het verschil tussen twee populatiegemiddelden wordt berekend op basis van de steekproefgemiddelden, standaardafwijkingen en vrijheidsgraden. Het biedt een bereik waarbinnen het werkelijke verschil waarschijnlijk ligt. Dit interval kan ook als "conservatief" worden ingeschat.
#### 1.2.17 Gepoelde variantie ($s_p^2$)
De gepoolde variantie is een gewogen gemiddelde van de varianties van twee steekproeven, gebruikt in de t-toets wanneer wordt aangenomen dat de populatievarianties gelijk zijn. De formule is:
$$ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} $$
#### 1.2.18 Robuustheid van t-procedures
T-procedures zijn over het algemeen robuust, wat betekent dat ze relatief ongevoelig zijn voor lichte schendingen van de aannames, met name de normaliteitsassumptie, vooral bij grotere steekproeven. Echter, bij zeer kleine steekproeven worden de aannames belangrijker.
#### 1.2.19 Onderscheidingsvermogen (Power) van de t-test
Het onderscheidingsvermogen van de t-test is de kans om een werkelijk bestaand verschil tussen groepsgemiddelden te detecteren. Dit wordt beïnvloed door factoren zoals steekproefgrootte, effectgrootte, significantieniveau en variabiliteit. Software zoals G\*Power kan worden gebruikt om het benodigde onderscheidingsvermogen te berekenen.
#### 1.2.20 Inferentie voor niet-normaal verdeelde populaties
Wanneer de data niet normaal verdeeld zijn en de steekproeven klein zijn, kunnen niet-parametrische toetsen worden overwogen. Data transformaties (bv. logaritmen, wortels) kunnen soms worden toegepast om de data meer normaal verdeeld te maken.
* **Tekentoets (voor gekoppelde data):** Vergelijkt de tekens van de verschillen tussen paren van observaties. Vereist geen normaliteitsassumptie. Het telt het aantal positieve en negatieve verschillen.
* **Niet-parametrische alternatieven:** Zoals de Wilcoxon rangsom test (ook bekend als Mann-Whitney U test) voor onafhankelijke steekproeven, en de Wilcoxon rangtekentoets voor gekoppelde steekproeven. Deze toetsen werken met rangnummers in plaats van de ruwe data en hebben daardoor minder onderscheidingsvermogen dan parametrische toetsen wanneer aan de aannames voor die toetsen is voldaan.
### 1.3 Inferentie voor populatiespreiding
Naast gemiddelden kunnen ook de spreidingen (varianties) van populaties worden vergeleken.
#### 1.3.1 F-toets voor varianties
De F-toets wordt gebruikt om de varianties van twee populaties te vergelijken. De toetsingsgrootheid is de ratio van de twee steekproefvarianties. De F-verdeling is scheef verdeeld en heeft twee vrijheidsgraden (één voor de teller en één voor de noemer).
### 1.4 Inferentie voor fracties (proporties en percentages)
Inductieve statistiek kan ook worden toegepast op proporties of percentages.
#### 1.4.1 Inferentie over een proportie in één populatie
* **Betrouwbaarheidsinterval voor een proportie:** Hierbij wordt vaak een aanpassing gedaan door een "plus-vier" methode, waarbij kunstmatig waarnemingen worden toegevoegd om met kleinere steekproeven te kunnen werken.
* **Significantietoets voor een proportie:** Gebruikt de normale benadering indien aan bepaalde voorwaarden is voldaan (bv. $n \times p \ge 10$ en $n \times q \ge 10$, waarbij $p$ de geschatte proportie is en $q = 1-p$). De foutenmarge is het grootst wanneer $p = 0.5$.
#### 1.4.2 Proporties in twee steekproeven vergelijken
Dit wordt gedaan om te onderzoeken of een bepaald kenmerk in de ene populatie vaker voorkomt dan in de andere. Hierbij worden soortgelijke concepten als bij de t-toetsen toegepast, inclusief het belang van het controleren van voorwaarden.
### 1.5 Niet-parametrische toetsen (uitgebreider)
Niet-parametrische toetsen bieden alternatieven wanneer de aannames van parametrische toetsen (zoals normaliteit) niet voldaan zijn, of wanneer men met ordinale data werkt.
#### 1.5.1 Bootstrap methode
De bootstrap methode is een resampling techniek waarbij men de steekproef als een populatie behandelt en herhaaldelijk steekproeven trekt met teruglegging om de steekproevenverdeling te simuleren. Dit kan worden gebruikt om betrouwbaarheidsintervallen en toetsingsstatistieken te schatten zonder specifieke aannames over de populatieverdeling.
#### 1.5.2 Procedures gebaseerd op ordenen van data
* **Wilcoxon rangsom test (Mann-Whitney U test):** Een alternatief voor de onafhankelijke 2-steekproeven t-toets. Het rangschikt alle observaties en vergelijkt de som van de rangen tussen de groepen.
* **Wilcoxon rangtekentoets:** Een alternatief voor de gepaarde t-toets. Het werkt met de rangen van de verschillen tussen gepaarde observaties.
* **Kruskal-Wallis toets:** Een niet-parametrisch alternatief voor de one-way ANOVA.
#### 1.5.3 Conversatie benaderingen en software
Verschillende statistische softwarepakketten implementeren deze toetsen, soms met kleine variaties in de berekeningen. Het is belangrijk om te begrijpen welke specifieke variant van een toets wordt gebruikt.
### 1.6 Specifieke toetsen en concepten
* **Kolmogorov-Smirnov toets:** Kan gebruikt worden om te toetsen of een variabele een bepaalde verdeling volgt (bv. normaliteit).
* **Chi-kwadraat toets:** Wordt gebruikt voor categorische data, bijvoorbeeld om de onafhankelijkheid van twee categorische variabelen te toetsen of om een waargenomen frequentieverdeling te vergelijken met een verwachte verdeling.
* **Regressieanalyse:** Hoewel niet direct een hypothesetoets op een enkele parameter, worden in regressieanalyse t-toetsen gebruikt om de significantie van regressiecoëfficiënten te beoordelen (bv. of de rico significant verschilt van nul).
#### 1.6.1 Betrouwbaarheidsinterval voor regressiecoëfficiënten
Voor elke regressiecoëfficiënt kan een betrouwbaarheidsinterval worden berekend om het bereik van plausibele waarden voor die coëfficiënt in de populatie te geven.
#### 1.6.2 Adjusted R-kwadraat
In meervoudige regressie wordt de adjusted R-kwadraat gebruikt om de R-kwadraat te corrigeren voor het aantal voorspellers in het model. Dit voorkomt dat de R-kwadraat kunstmatig wordt verhoogd door simpelweg meer variabelen toe te voegen.
#### 1.6.3 Multicollineariteit
Multicollineariteit treedt op wanneer voorspellende variabelen sterk met elkaar correleren. Dit kan leiden tot instabiele regressiecoëfficiënten en hogere standaardfouten, wat het moeilijk maakt om het unieke effect van elke variabele te bepalen. Tolerantiemaat is een indicator voor multicollineariteit; een lage tolerantie (dicht bij nul) duidt op hoge multicollineariteit.
#### 1.6.4 ANOVA (Variantieanalyse)
ANOVA wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. De hoofdtoets (omnibus test) bepaalt of er *ergens* een significant verschil is tussen de groepsgemiddelden.
* **Contrasten:** Specifieke hypotheses over groepsgemiddelden die vooraf worden gedefinieerd. Ze worden gebruikt om gerichte vergelijkingen te maken tussen groepen. De coëfficiënten in een contrast bepalen de weging van elk groepsgemiddelde.
* **Post-hoc toetsen:** Worden uitgevoerd *na* een significante ANOVA om te bepalen welke specifieke groepen significant van elkaar verschillen. Bekende post-hoc toetsen zijn Bonferroni (zeer conservatief) en LSD (Least Significant Difference, minder streng).
* **Voorwaarden voor ANOVA:** Aselecte steekproeven, onafhankelijkheid, normaliteit van de residuen, en gelijke varianties tussen de groepen (homogeniteit van varianties, getoetst met Levene's test).
Het correct toepassen van deze statistische technieken stelt ons in staat om betrouwbare conclusies te trekken uit onze gegevens en wetenschappelijk onderbouwde beslissingen te nemen.
---
# Significantietoetsen en onderscheidingsvermogen
Dit gedeelte behandelt de fundamentele concepten en methoden van significantietoetsen, inclusief hypothesestelling, de berekening van toetsingsgrootheden, het interpreteren van overschrijdingskansen, en het onderscheiden van klassieke en resampling benaderingen, met bijzondere aandacht voor type I en type II fouten en het onderscheidingsvermogen (power).
## 2. Significantietoetsen en onderscheidingsvermogen
Significantietoetsen zijn een kernonderdeel van inductieve statistiek, waarmee onderzoekers de kans op het maken van fouten evalueren wanneer zij conclusies trekken over een populatie op basis van steekproefgegevens. Het doel is om te bepalen of waargenomen verschillen of verbanden waarschijnlijk toeval zijn of dat ze duiden op een werkelijk effect in de populatie.
### 2.1 De principes van significantietoetsen
De redenering achter significantietoetsen is nauw verwant aan betrouwbaarheidsintervallen. Waar een betrouwbaarheidsinterval een reeks waarden biedt waarbinnen het populatiegemiddelde waarschijnlijk ligt, helpt een significantietoets te beoordelen of een specifieke hypothese over het populatiegemiddelde plausibel is gezien de steekproefgegevens.
#### 2.1.1 De stappen van een significantietoets
Een typisch significantietoetsproces bestaat uit vier essentiële stappen:
1. **Formuleer de nul- en de alternatieve hypothesen:**
* De **nulhypothese ($H_0$)** stelt dat er geen effect of verschil is, of dat het waargenomen effect verklaard kan worden door toeval. Dit is de hypothese die we proberen te weerleggen.
* De **alternatieve hypothese ($H_A$ of $H_1$)** stelt dat er wel een effect of verschil is, dat groter is dan wat door toeval alleen verklaard kan worden.
2. **Bepaal de waarde van de toetsingsgrootheid:** Dit is een statistiek die berekend wordt uit de steekproefgegevens en die aangeeft hoe ver de steekproefresultaten afwijken van wat verwacht wordt onder de nulhypothese. Voorbeelden zijn $z$, $t$, $\chi^2$ of $F$-statistieken. De formule hiervoor hangt af van het type toets en de data.
* Voor een gemiddelde in een populatie, zou de toetsingsgrootheid bijvoorbeeld de $z$-score kunnen zijn:
$$z = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$$
waarbij $\bar{x}$ het steekproefgemiddelde is, $\mu_0$ de waarde onder de nulhypothese, $s$ de steekproefstandaarddeviatie en $n$ de steekproefgrootte.
3. **Bepaal de overschrijdingskans (p-waarde):** De overschrijdingskans is de kans om, onder de aanname dat de nulhypothese waar is, een toetsingsgrootheid te observeren die minstens zo extreem is als degene die daadwerkelijk is berekend uit de steekproefgegevens.
* Een standaard significantieniveau is $\alpha = 0.05$ (5%). Als de p-waarde kleiner is dan $\alpha$, wordt de nulhypothese verworpen.
4. **Formuleer de conclusie:** Op basis van de p-waarde en het significantieniveau wordt een conclusie getrokken. Deze conclusie wordt vaak in APA-stijl gerapporteerd, met vermelding van de toetsingsgrootheid, de vrijheidsgraden (indien van toepassing), de p-waarde en de richting van het effect.
#### 2.1.2 Klassieke versus resampling benaderingen
Er zijn twee hoofdmanieren om significantietoetsen uit te voeren:
* **Klassieke aanpak:** Maakt gebruik van theoretische verdelingen (zoals de normaalverdeling of de $t$-verdeling) om de p-waarde te berekenen. Deze methode vereist vaak dat aan bepaalde aannames over de populatieverdeling wordt voldaan (bv. normaliteit). De $z$-toets en de $t$-toets zijn voorbeelden van klassieke benaderingen.
* **Resampling benaderingen (bv. bootstrap, permutatie):** Deze methoden simuleren de steekproevenverdeling door herhaaldelijk (met teruglegging) te samplen uit de waargenomen steekproefgegevens. Ze maken geen aannames over de theoretische verdeling van de populatie en zijn daardoor vaak robuuster, vooral bij kleinere steekproeven of wanneer aan de aannames van klassieke toetsen niet voldaan is.
### 2.2 Fouten bij significantietoetsen
Bij het toetsen van hypothesen is er altijd een kans op het maken van een fout. Twee soorten fouten zijn hierbij van belang:
* **Type I fout (vals positief):** De nulhypothese wordt verworpen, terwijl deze in werkelijkheid waar is. De kans op een Type I fout wordt gelijkgesteld aan het significantieniveau $\alpha$.
* **Type II fout (vals negatief):** De nulhypothese wordt niet verworpen, terwijl deze in werkelijkheid onjuist is. De kans op een Type II fout wordt aangeduid met $\beta$.
> **Tip:** Het is cruciaal om de impact van de gekozen $\alpha$-waarde te begrijpen. Een lagere $\alpha$ verkleint de kans op een Type I fout, maar vergroot tegelijkertijd de kans op een Type II fout.
### 2.3 Onderscheidingsvermogen (Power)
Het onderscheidingsvermogen (power) van een toets is de kans dat de toets de nulhypothese correct verwerpt wanneer de alternatieve hypothese waar is. Met andere woorden, het is de kans om een werkelijk bestaand effect te detecteren.
* **Power = $1 - \beta$**
Factoren die het onderscheidingsvermogen beïnvloeden zijn onder andere:
* **Significantieniveau ($\alpha$):** Een hogere $\alpha$ verhoogt de power.
* **Steekproefgrootte ($n$):** Een grotere $n$ verhoogt de power.
* **Effectgrootte:** De grootte van het werkelijke verschil of verband in de populatie. Een grotere effectgrootte verhoogt de power.
* **Variabiliteit van de data:** Minder variabiliteit (bv. kleinere standaarddeviatie) verhoogt de power.
Het berekenen van het benodigde onderscheidingsvermogen wordt vaak gedaan *voorafgaand* aan een studie (bv. met G*Power) om te bepalen welke steekproefgrootte nodig is om met een bepaald onderscheidingsvermogen een specifiek effect te kunnen detecteren.
#### 2.3.1 Visualisatie van fouten en power
Schematische voorstellingen, vaak met behulp van steekproevenverdelingen, helpen bij het visualiseren van deze concepten:
* De **blauwe verdeling** representeert de steekproevenverdeling onder de nulhypothese. De kritieke waarde bepaalt de afwijzing (bv. de staart aan de rechterkant, gelijk aan $\alpha$).
* De **rode verdeling** representeert de steekproevenverdeling wanneer de alternatieve hypothese waar is. De overlap tussen de twee verdelingen illustreert de kansen op Type I en Type II fouten, en daarmee het onderscheidingsvermogen ($1 - \beta$). De afstand tussen de gemiddelden van de blauwe en rode verdeling is gerelateerd aan de effectgrootte.
#### 2.3.2 Onderscheidingsvermogen bij specifieke toetsen (z-toets, t-toets)
* **Z-toets:** Als de populatiestandaarddeviatie ($\sigma$) bekend is of de steekproefgrootte groot genoeg is, kan een $z$-toets gebruikt worden. De berekening van de power hangt dan af van de $z$-waarden die corresponderen met $\alpha$ en de verwachte effectgrootte.
* **T-toets:** Wanneer $\sigma$ onbekend is en geschat wordt met de steekproefstandaarddeviatie ($s$), wordt een $t$-toets gebruikt. De $t$-verdeling heeft dikkere staarten dan de normale verdeling, wat betekent dat er meer data nodig is om een significant verschil te detecteren vergeleken met een $z$-toets met dezelfde $\alpha$. Het onderscheidingsvermogen wordt beïnvloed door de vrijheidsgraden van de $t$-verdeling.
### 2.4 Aanpassing van toetsen en betrouwbaarheidsintervallen
#### 2.4.1 T-toetsen en vrijheidsgraden
Bij t-toetsen is het aantal **vrijheidsgraden (df)** essentieel voor de correcte interpretatie van de $t$-verdeling. Deze vrijheidsgraden hangen af van de steekproefgrootte en de specifieke toets die wordt gebruikt. Bijvoorbeeld, voor een éénsteekproef $t$-toets is $df = n-1$. Bij de vergelijking van twee onafhankelijke groepen kan het aantal vrijheidsgraden conservatief geschat worden door te kiezen voor de kleinste van de twee steekproefgroottes min één ($min(n_1, n_2) - 1$).
#### 2.4.2 Robuustheid van t-procedures
T-procedures zijn over het algemeen robuust voor schendingen van de normaliteitsaanname, vooral bij grotere steekproeven. Wanneer steekproeven echter klein zijn, wordt de aanname van normaliteit belangrijker. Schendingen van homogeniteit van varianties (gelijke spreiding in populaties) kunnen ook de resultaten beïnvloeden, wat soms wordt aangepakt met conservatieve schattingen van de vrijheidsgraden of specifieke varianten van de $t$-toets (bv. Welch's $t$-test).
#### 2.4.3 Plus-vier correcties voor proporties
Bij het toetsen van proporties, vooral bij kleinere steekproeven, kunnen plus-vier correcties worden toegepast. Hierbij worden artificieel vier waarnemingen toegevoegd aan de data (twee successen en twee mislukkingen) om de schatting te stabiliseren en de benadering met de normaalverdeling te verbeteren.
#### 2.4.4 Niet-parametrische alternatieven
Wanneer de aannames van parametrische toetsen (zoals normaliteit) niet voldaan kunnen worden, zijn niet-parametrische toetsen een alternatief. Deze toetsen maken minder of geen aannames over de populatieverdeling.
* **Voorbeelden:**
* **Wilcoxon rangtekentoets:** Een alternatief voor de éénsteekproef $t$-toets of gepaarde $t$-toets, gebaseerd op de rangordes van de data.
* **Wilcoxon rangsomtoets / Mann-Whitney U-toets:** Een alternatief voor de onafhankelijke $t$-toets, eveneens gebaseerd op rangordes.
* **Kruskal-Wallis toets:** Een niet-parametrisch alternatief voor de one-way ANOVA.
Hoewel niet-parametrische toetsen nuttig zijn, hebben ze over het algemeen een lager onderscheidingsvermogen dan hun parametrische tegenhangers wanneer de aannames wel voldaan zijn.
### 2.5 Vergelijken van varianties
Naast gemiddelden kunnen ook de varianties van populaties vergeleken worden.
* **F-toets:** De $F$-toets, gebaseerd op de $F$-verdeling, wordt gebruikt om te toetsen of de varianties van twee populaties significant verschillen. Deze verdeling is scheef en kent twee vrijheidsgraden (één voor elke steekproef).
### 2.6 Inferentie voor fracties (proporties en percentages)
De principes van significantietoetsen en betrouwbaarheidsintervallen kunnen ook worden toegepast op proporties (fracties).
* **Z-toets voor proporties:** Gebruikt wanneer de steekproefgrootte voldoende is om de binomiale verdeling te benaderen met een normale verdeling.
* **Vergelijking van proporties in twee steekproeven:** Wordt gebruikt om te bepalen of een bepaald kenmerk in twee populaties vaker voorkomt.
### 2.7 Resampling methoden
Resampling-methoden, zoals de bootstrap, bieden een krachtig alternatief voor klassieke toetsen, vooral wanneer de aannames van theoretische verdelingen niet opgaan.
* **Bootstrap methode:** De steekproef wordt behandeld als een populatie waaruit herhaaldelijk met teruglegging wordt gesampled om de steekproevenverdeling te simuleren en zo bijvoorbeeld betrouwbaarheidsintervallen of p-waarden te schatten. Dit is een manier om de steekproevenverdeling te simuleren zonder te vertrouwen op theoretische verdelingen.
---
# T-toetsen en inferentie voor gemiddelden en proporties
Hieronder volgt een gedetailleerde studiehandleiding voor het onderwerp "T-toetsen en inferentie voor gemiddelden en proporties".
## 3. T-toetsen en inferentie voor gemiddelden en proporties
Dit deel van de cursus behandelt inferentiële statistische methoden voor het analyseren van gemiddelden en proporties, met een focus op t-toetsen en betrouwbaarheidsintervallen, inclusief de controle van voorwaarden en berekeningen voor steekproefgrootte.
### 3.1 Inferentie voor gemiddelden van één populatie
Inferentie voor het gemiddelde van één populatie maakt gebruik van steekproefgegevens om uitspraken te doen over het populatiegemiddelde. Dit kan zowel via betrouwbaarheidsintervallen als via significantietoetsen.
#### 3.1.1 Betrouwbaarheidsinterval voor het gemiddelde van één populatie
* **Concept:** Een betrouwbaarheidsinterval (BI) biedt een reeks waarden waarbinnen we met een bepaalde waarschijnlijkheid verwachten dat het ware populatiegemiddelde ligt. Het wordt berekend rond het steekproefgemiddelde.
* **Formule (algemeen):**
$$ \text{Steekproefgemiddelde} \pm \text{Foutmarge} $$
De foutmarge is afhankelijk van de gekozen betrouwbaarheid en de standaardfout van het gemiddelde.
* **Voorwaarden:**
* De steekproef moet aselect zijn.
* De populatie of de steekproef moet (bij benadering) normaal verdeeld zijn, of de steekproefgrootte $n$ moet voldoende groot zijn (vuistregel: $n \times p \ge 10$, waarbij $p$ de proportie is). Bij kleine steekproeven is normaliteit essentieel.
* **1-steekproef t-betrouwbaarheidsinterval:** Wanneer de populatie standaardafwijking ($\sigma$) onbekend is en geschat wordt met de steekproef standaardafwijking ($s$), wordt de t-verdeling gebruikt.
$$ \bar{x} \pm t^{\ast} \times \frac{s}{\sqrt{n}} $$
Hierbij is $\bar{x}$ het steekproefgemiddelde, $t^{\ast}$ de kritieke t-waarde voor een gegeven betrouwbaarheidsniveau en vrijheidsgraden, $s$ de steekproef standaardafwijking, en $n$ de steekproefgrootte.
* **Vrijheidsgraden ($df$):** Voor een 1-steekproef t-interval zijn de vrijheidsgraden $df = n - 1$. Deze zijn nodig om de specifieke t-verdeling te bepalen. De vrijheidsgraad is belangrijk om onderschatting van $\sigma$ te voorkomen.
* **Standaardfout van het gemiddelde:** $\frac{s}{\sqrt{n}}$.
* **Interpretatie:** Een 95% betrouwbaarheidsinterval betekent dat als we het proces van steekproeftrekken en intervalberekening oneindig vaak zouden herhalen, 95% van de berekende intervallen het ware populatiegemiddelde zou bevatten.
#### 3.1.2 1-steekproef t-toets
* **Doel:** Het toetsen of het populatiegemiddelde ($\mu$) gelijk is aan een specifieke theoretische waarde ($\mu_0$), of om na te gaan of er een significant verschil is met een verwachte waarde.
* **Stappen van een significantietoets:**
1. **Hypothesen formuleren:**
* Nulhypothese ($H_0$): Er is geen effect, geen verschil, of het populatiegemiddelde is gelijk aan een specifieke waarde (bv. $H_0: \mu = \mu_0$).
* Alternatieve hypothese ($H_a$): Er is wel een effect of verschil (bv. $H_a: \mu \ne \mu_0$, $H_a: \mu > \mu_0$, of $H_a: \mu < \mu_0$).
2. **Toetsingsgrootheid berekenen:**
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
3. **P-waarde bepalen:** De waarschijnlijkheid van het observeren van de data (of extremere data) gegeven dat de nulhypothese waar is. Een standaard significantieniveau ($\alpha$) is 0.05 (5%).
4. **Conclusie formuleren:** Als de p-waarde kleiner is dan $\alpha$, verwerpen we de nulhypothese ten gunste van de alternatieve hypothese. Anders behouden we de nulhypothese.
* **Voorwaarden:** Dezelfde als voor het betrouwbaarheidsinterval (aselecte steekproef, (bij benadering) normaliteit of grote $n$). Bij scheve verdelingen en kleine $n$ wordt de interpretatie lastiger.
* **APA-stijl:** T-waarden worden vaak positief gerapporteerd, met de richting van het effect aangegeven in de alternatieve hypothese en de conclusie.
### 3.2 Inferentie voor gemiddelden van twee populaties
Hierbij worden de gemiddelden van twee verschillende populaties met elkaar vergeleken.
#### 3.2.1 2-steekproeven t-test (onafhankelijke steekproeven)
* **Doel:** Het vergelijken van de gemiddelden van twee onafhankelijke groepen.
* **Nulhypothese (typisch):** Er is geen verschil tussen de populatiegemiddelden van de twee groepen ($H_0: \mu_1 = \mu_2$).
* **Toetsingsgrootheid:**
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)_0}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$
Hierbij is $(\mu_1 - \mu_2)_0$ de verwachte verschil onder $H_0$ (meestal 0), $\bar{x}_1$ en $\bar{x}_2$ de steekproefgemiddelden, $n_1$ en $n_2$ de steekproefgroottes, en $s_p$ de gepoelde standaardafwijking.
* **Gepoelde variantie ($s_p^2$):** Een gewogen gemiddelde van de varianties van de twee groepen, gebruikt wanneer gelijke varianties worden verondersteld.
$$ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} $$
* **Vrijheidsgraden:** Voor de gepoolde variantie t-toets is $df = n_1 + n_2 - 2$.
* **Voorwaarden:**
* **Normaliteit:** Beide populaties moeten (bij benadering) normaal verdeeld zijn, of de steekproefgroottes moeten groot zijn. T-toetsen zijn robuust voor schendingen van normaliteit, zeker bij grote steekproeven.
* **Gelijke varianties:** De varianties van de twee populaties worden verondersteld gelijk te zijn. Dit kan worden gecontroleerd met bijvoorbeeld Levene's test.
* **Levene's test:** Test of de varianties van de groepen gelijk zijn. Als de p-waarde van Levene's test significant is (bv. < 0.05), dan is er bewijs tegen de aanname van gelijke varianties.
* **Onafhankelijkheid:** De steekproeven uit de twee populaties moeten onafhankelijk zijn.
* **Aanpak bij ongelijke varianties (Welch's t-test):** Als de varianties niet gelijk zijn (vastgesteld met Levene's test), wordt een aangepaste formule voor de standaardfout en vrijheidsgraden gebruikt. De vrijheidsgraden worden dan conservatiever geschat (vaak door te kijken naar de kleinste van $n_1-1$ of $n_2-1$, of via complexere formules). Deze benadering is conservatiever.
* **Betrouwbaarheidsinterval voor $\mu_1 - \mu_2$:** Wordt berekend met de t-verdeling en de berekende standaardfout. De interpretatie is analoog aan het 1-steekproef BI.
$$ (\bar{x}_1 - \bar{x}_2) \pm t^{\ast} \times \text{Standaardfout} $$
* **Onderscheidingsvermogen (Power):** De kans om een werkelijk bestaand verschil tussen de populatiegemiddelden te detecteren. Dit wordt beïnvloed door $\alpha$, steekproefgrootte, en de effectgrootte (het daadwerkelijke verschil). G*Power is een tool om dit vooraf te berekenen.
#### 3.2.2 2-steekproeven z-test (voor gemiddelden)
* **Toepassing:** Wordt zelden gebruikt omdat de populatie standaardafwijking ($\sigma_1, \sigma_2$) vrijwel nooit bekend is. Als deze wel bekend zou zijn, zou de formule analoog zijn aan de t-toets maar met z-waarden en $\sigma$ in plaats van $s$.
#### 3.2.3 Robuustheid van t-procedures
T-procedures (zowel 1- als 2-steekproef) zijn relatief robuust tegen schendingen van de normaliteitsvoorwaarde, vooral bij grotere steekproeven. Bij zeer kleine steekproeven wordt de aanname van normaliteit belangrijker. Ook robuustheid tegen ongelijke varianties is een belangrijk aspect.
### 3.3 Inferentie voor proporties
Inferentie voor proporties behandelt de schatting en toetsing van populatieproporties of percentages.
#### 3.3.1 Inferentie voor een populatieproportie
* **Concept:** Een proportie ($p$) vertegenwoordigt het deel van een populatie met een bepaalde eigenschap. We schatten deze populatieproportie met de steekproefproportie ($\hat{p}$).
* **Voorwaarden voor normaliteitsbenadering:** Om inferentie te doen met behulp van de normaalverdeling, moeten aan de volgende voorwaarden worden voldaan:
* De steekproef is aselect.
* De populatie is groot genoeg in vergelijking met de steekproef (bv. de populatie is minimaal 10 keer groter dan de steekproef).
* Het aantal "successen" ($n \times \hat{p}$) en "mislukkingen" ($n \times (1 - \hat{p})$) in de steekproef is voldoende groot (vuistregel: minimaal 10).
* **Betrouwbaarheidsinterval voor $\hat{p}$:**
$$ \hat{p} \pm z^{\ast} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $$
Hierbij is $z^{\ast}$ de kritieke z-waarde voor het gewenste betrouwbaarheidsniveau.
* **Plus-vier betrouwbaarheidsinterval:** Een methode die correcties toepast om de prestaties te verbeteren, vooral bij kleinere steekproeven of proporties dicht bij 0 of 1. Hierbij worden 2 "successen" en 2 "mislukkingen" kunstmatig toegevoegd aan de data.
* Nieuwe steekproefgrootte: $n' = n + 4$.
* Nieuwe steekproefproportie: $\hat{p}' = (\text{aantal successen} + 2) / (n + 4)$.
* Interval: $\hat{p}' \pm z^{\ast} \sqrt{\frac{\hat{p}'(1-\hat{p}')}{n'}}$.
* **Significantietoets voor $\hat{p}$:**
* **Nulhypothese:** $H_0: p = p_0$ (de populatieproportie is gelijk aan een specifieke waarde).
* **Toetsingsgrootheid (z-toets):**
$$ z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} $$
* De p-waarde wordt bepaald op basis van de standaard normaalverdeling.
* **Benodigde steekproefgrootte ($n$):** Kan worden berekend om een gewenste foutmarge te bereiken.
$$ n = \left( \frac{z^{\ast}}{E} \right)^2 \hat{p}(1-\hat{p}) $$
Waar $E$ de foutmarge is. Indien er geen voorkennis is over $\hat{p}$, wordt voor een conservatieve schatting $\hat{p} = 0.5$ gebruikt, aangezien dit de grootste foutmarge oplevert.
#### 3.3.2 Vergelijken van proporties in twee steekproeven
* **Doel:** Nagaan of er een significant verschil is tussen de proporties van twee verschillende populaties.
* **Nulhypothese (typisch):** $H_0: p_1 = p_2$.
* **Toetsingsgrootheid (z-toets voor proporties):**
$$ z = \frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)_0}{\sqrt{\hat{p}_{pooled} \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}} $$
Waarbij $\hat{p}_{pooled}$ de gepoolde proportie is ($\frac{x_1+x_2}{n_1+n_2}$).
* **Plus-vier betrouwbaarheidsinterval:** Kan ook worden toegepast om het verschil tussen twee proporties te schatten.
### 3.4 Inferentie voor populatiespreiding
Naast gemiddelden kunnen ook de spreidingen van populaties worden vergeleken.
#### 3.4.1 F-toets voor varianties
* **Doel:** Het vergelijken van de varianties van twee populaties.
* **Nulhypothese:** $H_0: \sigma_1^2 = \sigma_2^2$.
* **Toetsingsgrootheid:** De F-statistiek is de ratio van de twee steekproefvarianties.
$$ F = \frac{s_1^2}{s_2^2} $$
* **F-verdeling:** De F-toetsingsgrootheid volgt een F-verdeling, die scheef is verdeeld en afhangt van twee vrijheidsgraden ($df_1$ en $df_2$, gerelateerd aan $n_1-1$ en $n_2-1$). Deze verdeling wordt gebruikt om de p-waarde te bepalen.
### 3.5 Niet-parametrische alternatieven
Wanneer de aannames van parametrische toetsen (zoals normaliteit) geschonden worden en data transformatie niet helpt, kunnen niet-parametrische toetsen worden gebruikt.
* **Bootstrap methode:** Een resamplingtechniek waarbij de steekproef behandeld wordt als een populatie om de steekproevenverdeling te simuleren. Dit vereist geen aannames over de populatieverdeling.
* **Wilcoxon rangtekentoets:** Een niet-parametrisch alternatief voor de gepaarde t-toets, gebaseerd op de rangen van de verschillen tussen gepaarde waarnemingen.
* **Wilcoxon rangsomtoets (ook Mann-Whitney U-test genoemd):** Een niet-parametrisch alternatief voor de 2-steekproeven t-toets voor onafhankelijke groepen, gebaseerd op de rangen van alle waarnemingen samen.
**Tip:** Niet-parametrische toetsen hebben over het algemeen een lager onderscheidingsvermogen (power) dan hun parametrische tegenhangers wanneer de aannames van de parametrische toetsen wel voldaan zijn. Echter, ze zijn een waardevol alternatief wanneer deze aannames niet houdbaar zijn.
---
# Niet-parametrische toetsen en correlatie/regressie
Dit deel van de studiebegeleiding behandelt methoden die alternatieven bieden voor parametrische toetsen, met een focus op niet-parametrische toetsen, de bootstrap methode, en technieken voor correlatie en regressieanalyse.
### 4.1 Alternatieven voor parametrische toetsen
Parametrische toetsen vereisen specifieke aannames over de verdeling van de populatiegegevens (zoals normaliteit). Wanneer deze aannames niet voldaan zijn, bieden niet-parametrische toetsen een uitkomst.
#### 4.1.1 Bootstrap methode
De bootstrap methode is een resamplimg techniek die geen aannames doet over de verdeling van de populatie.
* **Werkwijze:** De steekproef wordt behandeld als een populatie, waaruit met teruglegging herhaaldelijk nieuwe steekproeven worden getrokken. Dit simuleert de steekproevenverdeling.
* **Voordelen:** Flexibel en toepasbaar op diverse distributies.
* **Nadelen:** Kan leiden tot variaties in resultaten tussen onderzoekers door de willekeurigheid van het resamplen.
#### 4.1.2 Niet-parametrische toetsen gebaseerd op rangorde
Deze toetsen maken gebruik van de rangorde van de data in plaats van de ruwe waarden.
##### 4.1.2.1 Wilcoxon rangtekentoets
Deze toets vergelijkt twee gerelateerde (gepaarde) metingen.
* **Werkwijze:** De verschillen tussen de gepaarde observaties worden berekend en vervolgens gerangschikt. De toets kijkt naar het teken van deze verschillen.
* **Hypothese:** De nulhypothese stelt dat de medianen van de twee populaties gelijk zijn, wat impliceert dat de som van positieve en negatieve rangordes gelijk zou moeten zijn.
* **Toetsingsgrootheid:** Vaak gebaseerd op de som van de rangordes (W) of de gecorrigeerde rangsom (Wcorr), afhankelijk van de specifieke berekening en tabel die gebruikt wordt.
##### 4.1.2.2 Wilcoxon rangsomtest (ook bekend als Mann-Whitney U-test of Wilcoxon-Mann-Whitney test)
Deze toets vergelijkt twee onafhankelijke groepen.
* **Werkwijze:** De data van beide groepen worden samengevoegd en gerangschikt. Vervolgens worden de rangordes van de twee groepen vergeleken. De toets kijkt naar de som van de rangordes van de kleinste groep (of de gecorrigeerde rangsom).
* **Hypothese:** De nulhypothese stelt dat de medianen van de twee populaties gelijk zijn.
* **Toetsingsgrootheid:** De rangsom van de ene groep (bijvoorbeeld de kleinste).
##### 4.1.2.3 Kruskal-Wallis toets
Dit is een niet-parametrisch alternatief voor de one-way ANOVA, gebruikt om de medianen van drie of meer onafhankelijke groepen te vergelijken.
* **Werkwijze:** Vergelijkbaar met de Wilcoxon rangsomtest, maar dan uitgebreid naar meerdere groepen. Data wordt samengevoegd en gerangschikt, waarna de rangordes per groep worden geanalyseerd.
* **Hypothese:** De nulhypothese stelt dat de medianen van alle populaties gelijk zijn.
#### 4.1.3 Kolmogorov-Smirnov toets
Deze toets wordt gebruikt om te bepalen of de gegevens uit een bepaalde verdeling komen of om te vergelijken of twee steekproeven uit dezelfde verdeling komen.
* **Werkwijze:** Vergelijkt de cumulatieve verdelingsfuncties van de waargenomen gegevens met de theoretische verdeling of met de cumulatieve verdelingsfunctie van een andere steekproef.
* **Toepassing:** Kan gebruikt worden om de normaliteit van de data te toetsen, een voorwaarde voor veel parametrische toetsen.
### 4.2 Correlatie en regressie
Dit deel behandelt lineaire relaties tussen variabelen en het gebruik van deze relaties voor voorspelling.
#### 4.2.1 Correlatie
Correlatie meet de sterkte en richting van de lineaire relatie tussen twee variabelen.
##### 4.2.1.1 Pearson correlatiecoëfficiënt ($r$)
Meet de lineaire samenhang tussen twee continue variabelen.
##### 4.2.1.2 Spearman rangcorrelatiecoëfficiënt ($\rho$)
Meet de monotone samenhang tussen twee variabelen, gebruikmakend van hun rangordes. Dit is een niet-parametrisch alternatief voor de Pearson correlatie.
#### 4.2.2 Lineaire regressie
Lineaire regressie is een techniek om de relatie tussen een afhankelijke variabele ($Y$) en een of meer onafhankelijke variabelen ($X$) te modelleren.
##### 4.2.2.1 Eenvoudige lineaire regressie
Modelleert de relatie tussen één afhankelijke variabele en één onafhankelijke variabele.
* **Model:** De regressierechte wordt beschreven door de vergelijking:
$$Y = \beta_0 + \beta_1 X + \epsilon$$
Waarbij:
* $Y$ is de afhankelijke variabele.
* $X$ is de onafhankelijke variabele.
* $\beta_0$ is het intercept (de waarde van $Y$ wanneer $X$ nul is).
* $\beta_1$ is de regressiecoëfficiënt of helling (de verwachte verandering in $Y$ voor een eenheidstoename in $X$).
* $\epsilon$ is de foutterm (residu), die de variabiliteit in $Y$ vertegenwoordigt die niet door $X$ wordt verklaard.
##### 4.2.2.2 Meervoudige lineaire regressie
Modelleert de relatie tussen één afhankelijke variabele en twee of meer onafhankelijke variabelen.
* **Model:** De vergelijking wordt uitgebreid met een coëfficiënt voor elke onafhankelijke variabele:
$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon$$
Waarbij:
* $X_1, X_2, \dots, X_k$ zijn de onafhankelijke variabelen.
* $\beta_1, \beta_2, \dots, \beta_k$ zijn de regressiecoëfficiënten voor de respectieve onafhankelijke variabelen.
#### 4.2.3 Interpretatie van regressie-uitkomsten
##### 4.2.3.1 Regressierechte
De lijn die de beste lineaire aanpassing aan de data weergeeft. De schatting van deze lijn wordt vaak verkregen via de kleinste kwadratenmethode.
##### 4.2.3.2 Residuen
De verschillen tussen de waargenomen waarden van de afhankelijke variabele en de voorspelde waarden volgens het regressiemodel.
* **Belang:** Residuen worden geanalyseerd om de aannames van het regressiemodel te controleren (bv. normaliteit, homoscedasticiteit). Een residuplot toont de residuen tegen de voorspelde waarden of tegen de onafhankelijke variabelen.
##### 4.2.3.3 $R$-kwadraat ($R^2$)
De determinatiecoëfficiënt. Het geeft het proportie van de totale variantie in de afhankelijke variabele weer die verklaard wordt door de onafhankelijke variabele(n) in het model.
* **Interpretatie:** Een $R^2$ van 0.60 betekent dat 60% van de variantie in $Y$ verklaard wordt door de $X$-variabele(n). Een hogere $R^2$ duidt op een betere fit van het model.
* **Adjusted $R^2$:** Een aangepaste versie van $R^2$ die rekening houdt met het aantal voorspellers in het model. Dit voorkomt overschatting van de verklaarde variantie bij toevoeging van irrelevante variabelen.
##### 4.2.3.4 Significantie van regressiecoëfficiënten
De regressiecoëfficiënten ($\beta_1, \beta_2, \dots$) worden getoetst op significantie om te bepalen of ze significant verschillen van nul.
* **T-toets:** Vaak gebruikt om de significantie van individuele regressiecoëfficiënten te toetsen. Een significant resultaat suggereert dat de corresponderende onafhankelijke variabele een significante bijdrage levert aan de voorspelling van de afhankelijke variabele.
* **P-waarde:** Geeft de kans aan om een dergelijk verschil of een extremer verschil te observeren als de nulhypothese (dat de coëfficiënt nul is) waar zou zijn.
##### 4.2.3.5 Invloed van verschillende variabelen op voorspellingsmodellen
* **Gestandaardiseerde coëfficiënten (Beta):** Deze coëfficiënten worden gebruikt om het relatieve belang van verschillende onafhankelijke variabelen te vergelijken, omdat ze op dezelfde schaal zijn gebracht.
* **Tolerantie en VIF (Variance Inflation Factor):** Deze maten worden gebruikt om multicollineariteit te detecteren, een situatie waarin onafhankelijke variabelen sterk met elkaar gecorreleerd zijn. Een lage tolerantie of een hoge VIF suggereert multicollineariteit, wat de interpretatie van de coëfficiënten kan bemoeilijken.
* **Toevoeging van variabelen:** Het toevoegen van nieuwe variabelen aan een regressiemodel kan de $R^2$ verhogen, maar het is belangrijk om te beoordelen of de toegevoegde variabele een significante en zinvolle bijdrage levert. Dit kan worden geëvalueerd aan de hand van de verandering in $R^2$ of door de significantie van de coëfficiënt van de nieuwe variabele te toetsen.
#### 4.2.4 F-toets (in regressiecontext)
De F-toets wordt gebruikt om de algehele significantie van het regressiemodel te toetsen.
* **Hypothese:**
* Nulhypothese ($H_0$): Alle regressiecoëfficiënten (behalve het intercept) zijn gelijk aan nul. Het model verklaart geen variantie.
* Alternatieve hypothese ($H_a$): Ten minste één regressiecoëfficiënt is niet gelijk aan nul. Het model verklaart een significante hoeveelheid variantie.
* **Interpretatie:** Een significante F-toets suggereert dat het regressiemodel als geheel significant is.
#### 4.2.5 Vergelijking van varianties (F-test)
Hoewel niet direct een deel van correlatie/regressie, wordt de F-verdeling ook gebruikt om varianties van twee groepen te vergelijken.
* **Werkwijze:** De ratio van twee varianties wordt berekend. De verdeling kent twee vrijheidsgraden, één voor elke groep.
* **Toepassing:** Kan gebruikt worden als voorwaardecontrole voor sommige statistische toetsen of om te bepalen of groepen een gelijke spreiding hebben.
> **Tip:** Bij het interpreteren van regressiemodellen is het cruciaal om de modelaannames te controleren, zoals de normaliteit van de residuen, de homoscedasticiteit (gelijke variantie van residuen over de voorspelde waarden) en de onafhankelijkheid van de observaties. Residuanalyses zijn hierbij essentieel.
---
# Variantieanalyse (ANOVA) en contrasten
Hier is een gedetailleerde studiegids over Variantieanalyse (ANOVA) en contrasten, opgesteld volgens jouw instructies.
## 5. Variantieanalyse (ANOVA) en contrasten
Dit deel van de cursus introduceert de variantieanalyse (ANOVA) als een methode om gemiddelden van meer dan twee groepen te vergelijken, inclusief de vereiste voorwaarden, interpretatie van resultaten, en de toepassing van contrasten en posthoc-vergelijkingen om specifieke hypothesen te toetsen.
### 5.1 Inleiding tot variantieanalyse (ANOVA)
Variantieanalyse (ANOVA) is een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer onafhankelijke groepen te vergelijken. Het hoofddoel is om te bepalen of er een statistisch significant verschil is tussen de gemiddelden van deze groepen. ANOVA doet dit door de totale variatie in de data op te splitsen in verschillende bronnen: variatie *tussen* de groepen en variatie *binnen* de groepen.
#### 5.1.1 De basisgedachte van ANOVA
ANOVA werkt op basis van het principe dat de totale variatie in de data kan worden ontleed in twee componenten:
* **Variatie tussen groepen (Between-group variance):** Dit is de variatie die wordt toegeschreven aan verschillen tussen de gemiddelden van de verschillende groepen. Als de groepsgemiddelden sterk van elkaar verschillen, zal deze component groot zijn.
* **Variatie binnen groepen (Within-group variance / Error variance):** Dit is de variatie die wordt toegeschreven aan willekeurige fouten of individuele verschillen binnen elke groep. Dit wordt ook wel de 'error' variatie genoemd.
De kern van ANOVA is de vergelijking van deze twee bronnen van variatie. Als de variatie *tussen* de groepen significant groter is dan de variatie *binnen* de groepen, suggereert dit dat er een statistisch significant verschil bestaat tussen de groepsgemiddelden.
#### 5.1.2 De F-statistiek
ANOVA gebruikt de F-statistiek om de verhouding tussen de tussen-groepen variantie en de binnen-groepen variantie te kwantificeren. De F-statistiek wordt als volgt berekend:
$$F = \frac{\text{Variatie tussen groepen}}{\text{Variatie binnen groepen}}$$
$$F = \frac{MS_{between}}{MS_{within}}$$
Waar:
* $MS_{between}$ staat voor Mean Square Between groups (gemiddelde kwadratensom tussen groepen).
* $MS_{within}$ staat voor Mean Square Within groups (gemiddelde kwadratensom binnen groepen).
De F-verdeling is een scheef verdeelde verdeling die wordt gekenmerkt door twee vrijheidsgraden: één voor de teller (groepen) en één voor de noemer (fouten).
#### 5.1.3 Voorwaarden voor ANOVA
Voor een correcte toepassing van ANOVA zijn er verschillende voorwaarden waaraan de data moet voldoen:
* **Onafhankelijkheid van waarnemingen:** De waarnemingen binnen en tussen de groepen moeten onafhankelijk zijn. Dit betekent dat de meting van de ene persoon geen invloed mag hebben op de meting van een andere persoon.
* **Normaliteit:** De residuen (de verschillen tussen de waargenomen waarden en de groepsgemiddelden) moeten bij benadering normaal verdeeld zijn binnen elke groep. Robuustheid van de t-test (en dus ook ANOVA) houdt in dat lichte schendingen van normaliteit, vooral bij grotere steekproeven, niet direct problematisch zijn.
* **Homogeniteit van varianties (Homoscedasticiteit):** De varianties van de afhankelijke variabele moeten gelijk zijn voor alle groepen. Dit kan worden getoetst met de Levene-test. Als de Levene-test significant is (p < 0.05), suggereert dit dat de varianties niet gelijk zijn, en men mogelijk aangepaste formules voor ongelijke varianties (zoals Welch's ANOVA) of een conservatievere benadering van de vrijheidsgraden moet overwegen.
> **Tip:** Robuustheid is een belangrijk concept. ANOVA en t-toetsen zijn relatief robuust tegen schendingen van de normaliteitsvoorwaarde, vooral bij grotere, gelijkwaardige steekproeven. De homogeniteit van varianties is iets gevoeliger, maar ook hier biedt de Levene-test een richtlijn.
#### 5.1.4 Het interpreteren van ANOVA-resultaten
Na het uitvoeren van de ANOVA, wordt de F-statistiek vergeleken met een kritieke waarde uit de F-verdeling, of er wordt gekeken naar de p-waarde.
* Als de p-waarde kleiner is dan het gekozen significantieniveau (meestal $\alpha = 0.05$), verwerpt men de nulhypothese. De nulhypothese stelt dat er geen verschil is tussen de groepsgemiddelden (alle groepsgemiddelden zijn gelijk).
* Als de p-waarde groter is dan het significantieniveau, verwerpt men de nulhypothese niet. Dit betekent dat er onvoldoende bewijs is om te concluderen dat er een verschil is tussen de groepsgemiddelden.
Het is belangrijk op te merken dat een significant resultaat van een ANOVA (het verwerpen van de nulhypothese) alleen aangeeft *dat* er ergens een verschil is tussen de groepen, maar niet *welke* specifieke groepen van elkaar verschillen. Hiervoor zijn contrasten en posthoc-tests nodig.
### 5.2 contrasten
Contrasten worden gebruikt om specifieke, vooraf gedefinieerde hypotheses te toetsen na een significante ANOVA. Ze maken het mogelijk om gerichte vergelijkingen te maken tussen groepsgemiddelden, in plaats van alleen een algemene conclusie te trekken over alle groepen tegelijk.
#### 5.2.1 Definitie en doel van contrasten
Een contrast is een lineaire combinatie van de groepsgemiddelden die wordt getest op significantie. Het doel is om specifieke, theoretisch belangrijke vragen te beantwoorden over de relaties tussen de groepsgemiddelden. Contrasten moeten *voorafgaand* aan de data-analyse worden gespecificeerd om het risico op "capitalizing on chance" (het vinden van significante resultaten door het testen van te veel hypothesen) te vermijden.
#### 5.2.2 Lineaire combinaties en coëfficiënten
Een contrast wordt uitgedrukt als een lineaire combinatie van de groepsgemiddelden:
$$c = a_1\bar{y}_1 + a_2\bar{y}_2 + \dots + a_k\bar{y}_k$$
Waar:
* $c$ is de waarde van het contrast.
* $\bar{y}_i$ is het gemiddelde van groep $i$.
* $a_i$ zijn de coëfficiënten die aan elk groepsgemiddelde worden toegekend.
Voor een geldig contrast moeten de som van de coëfficiënten ($a_i$) nul zijn: $\sum a_i = 0$. Dit weerspiegelt het idee van een vergelijking (verschil) tussen groepen.
> **Tip:** De coëfficiënten ($a_i$) geven het "gewicht" aan dat aan elk groepsgemiddelde wordt toegekend. Voor een eenvoudige vergelijking tussen twee groepen, bijvoorbeeld groep 1 en groep 2, terwijl groep 3 buiten beschouwing wordt gelaten, kunnen de coëfficiënten $a_1=1$, $a_2=-1$, en $a_3=0$ zijn.
#### 5.2.3 Het toetsen van contrasten
Nadat de coëfficiënten zijn bepaald, wordt een t-toets gebruikt om de significantie van het contrast te evalueren. De t-statistiek voor een contrast wordt berekend als:
$$t = \frac{c}{\sqrt{MS_{within} \left(\frac{a_1^2}{n_1} + \frac{a_2^2}{n_2} + \dots + \frac{a_k^2}{n_k}\right)}}$$
Waar:
* $c$ is de waarde van het contrast.
* $MS_{within}$ is de gemiddelde kwadratensom binnen groepen uit de ANOVA.
* $a_i$ zijn de contrastcoëfficiënten.
* $n_i$ is de steekproefgrootte van groep $i$.
De vrijheidsgraden voor deze t-toets zijn gelijk aan de vrijheidsgraden van de $MS_{within}$ in de ANOVA.
#### 5.2.4 Soorten contrasten
* **Eenvoudige contrasten:** Vergelijken twee groepen tegelijkertijd (bijvoorbeeld groep 1 vs. groep 2).
* **Gepoolde contrasten:** Vergelijken een groep met het gemiddelde van twee of meer andere groepen.
* **Gemanipuleerde contrasten:** Vergelijken een subset van groepen met een andere subset van groepen. Bijvoorbeeld, het vergelijken van het gemiddelde van twee nieuwe methoden met het gemiddelde van een klassieke methode. Dit kan worden uitgedrukt met coëfficiënten zoals $a_1 = 1/2$, $a_2 = 1/2$, $a_3 = -1/3$, $a_4 = -1/3$, $a_5 = -1/3$ als er vijf groepen zijn.
> **Voorbeeld:** Stel we hebben drie groepen (A, B, C) met gemiddelden $\bar{y}_A$, $\bar{y}_B$, en $\bar{y}_C$. We willen weten of groep A significant verschilt van groep B. We definiëren het contrast met coëfficiënten $a_A = 1$, $a_B = -1$, en $a_C = 0$. Het contrast is dan $c = 1 \cdot \bar{y}_A - 1 \cdot \bar{y}_B + 0 \cdot \bar{y}_C = \bar{y}_A - \bar{y}_B$. Dit contrast wordt vervolgens getoetst met een t-test.
### 5.3 Posthoc-vergelijkingen
Wanneer de ANOVA een significant resultaat oplevert, maar er geen specifieke, vooraf gedefinieerde contrasten zijn getest, worden posthoc-vergelijkingen gebruikt. Deze tests voeren systematisch alle mogelijke parenvergelijkingen tussen de groepen uit.
#### 5.3.1 Het doel van posthoc-vergelijkingen
Posthoc-vergelijkingen helpen bij het identificeren welke specifieke groepen van elkaar verschillen wanneer de algehele ANOVA significant is. Ze zijn nuttig wanneer er geen duidelijke theoretische redenen zijn om specifieke paren te vergelijken *voorafgaand* aan de analyse.
#### 5.3.2 Methoden voor posthoc-vergelijkingen
Er zijn verschillende methoden voor posthoc-vergelijkingen, die variëren in hun strengheid en gevoeligheid voor het detecteren van verschillen:
* **Least Significant Difference (LSD):** Deze methode voert t-toetsen uit voor alle paren van groepen. Het is een van de minst conservatieve methoden en kan het risico op Type I-fouten verhogen (het ten onrechte verwerpen van de nulhypothese), vooral bij veel groepen. De LSD wordt soms ook wel de "foertmethode" genoemd omdat het de t-toetsen uitvoert zonder de aanpassing voor het veelvuldig toetsen.
* **Bonferroni correctie:** Dit is een zeer conservatieve methode. Het aangepaste significantieniveau voor elke individuele vergelijking wordt verkregen door het oorspronkelijke significantieniveau ($\alpha$) te delen door het aantal gemaakte vergelijkingen. Bijvoorbeeld, als er 3 groepen zijn, zijn er 3 mogelijke parenvergelijkingen. Het nieuwe significantieniveau wordt dan $\alpha/3$. Hoewel dit het risico op Type I-fouten sterk vermindert, vergroot het de kans op Type II-fouten (het niet verwerpen van de nulhypothese wanneer deze onjuist is).
* **Tukey's Honestly Significant Difference (HSD):** Deze methode is ontworpen om de foutenkans van Type I te controleren voor alle mogelijke parenvergelijkingen. Het is een populaire en veelgebruikte methode die een goede balans biedt tussen het detecteren van werkelijke verschillen en het controleren van Type I-fouten. De berekening houdt rekening met de steekproefgroottes en de variantie binnen de groepen.
* **Scheffé methode:** Deze methode is zeer flexibel en kan ook worden gebruikt om complexe contrasten te testen (niet alleen parenvergelijkingen). Het is een van de meest conservatieve methoden, vergelijkbaar met Bonferroni, en kan leiden tot een lage power (kans om een werkelijk verschil te detecteren).
> **Tip:** De keuze voor een posthoc-methode hangt af van de specifieke onderzoeksvraag en de gewenste balans tussen Type I- en Type II-fouten. Bonferroni en Scheffé zijn strenger (minder power), terwijl LSD en Tukey's HSD iets meer power bieden, maar met een potentieel hoger risico op Type I-fouten (afhankelijk van de implementatie).
#### 5.3.3 Interpretatie van posthoc-resultaten
De resultaten van posthoc-tests worden meestal gepresenteerd in tabellen die aangeven welke paren van groepen significant van elkaar verschillen, vaak met de berekende p-waarden voor elke vergelijking. Softwarepakketten zoals SPSS zullen deze berekeningen automatiseren en de resultaten in een overzichtelijke tabel weergeven.
> **Voorbeeld:** Na een significante ANOVA met drie groepen (Methode 1, Methode 2, Methode 3), kan een posthoc-test aantonen dat Methode 1 significant verschilt van Methode 2, maar dat er geen significant verschil is tussen Methode 1 en Methode 3, of tussen Methode 2 en Methode 3. Dit zou betekenen dat de nieuwe methoden (bijvoorbeeld 2 en 3) anders presteren dan de klassieke methode (bijvoorbeeld 1), maar dat er geen significant verschil is tussen de twee nieuwe methoden onderling.
### 5.4 Relatie met andere toetsen
* **ANOVA als uitbreiding van de t-test:** Wanneer een ANOVA wordt uitgevoerd met slechts twee groepen, is het resultaat equivalent aan een tweezijdige t-toets (met $F = t^2$). ANOVA generaliseert dit principe naar situaties met meer dan twee groepen.
* **Contrasten en t-toetsen:** Het toetsen van een contrast in ANOVA is in feite een t-toets die is aangepast voor de context van een groepsvergelijking, waarbij rekening wordt gehouden met de gepoolde variantie van de ANOVA.
Dit overzicht van variantieanalyse en contrasten biedt een stevige basis voor het begrijpen en toepassen van deze krachtige statistische methoden in onderzoek.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Inductieve statistiek | Een tak van statistiek die zich bezighoudt met het trekken van conclusies over een populatie op basis van een steekproef. Het gaat om het generaliseren van bevindingen van een beperkte dataset naar een grotere groep. |
| Betrouwbaarheidsinterval | Een reeks waarden binnen welke de ware populatieparameter waarschijnlijk ligt, met een bepaalde mate van zekerheid. Het geeft een interval waarbinnen het populatiegemiddelde verwacht wordt te vallen. |
| Steekproefgemiddelde | Het gemiddelde berekend uit de gegevens van een steekproef. Dit wordt vaak gebruikt als een schatting voor het populatiegemiddelde. |
| Populatiegemiddelde | Het gemiddelde van alle individuen in een gehele populatie. Dit is meestal onbekend en wordt geschat met behulp van steekproefgegevens. |
| Toetsen (Hypothesetoetsing) | Een statistische procedure om te bepalen of er voldoende bewijs is in een steekproef om de nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Steekproevenverdeling | De verdeling van resultaten die je zou verwachten als je herhaaldelijk een steekproef zou trekken uit dezelfde populatie. Dit helpt bij het begrijpen van de variabiliteit van steekproefstatistieken. |
| Normaalverdeling (Gauss-verdeling) | Een symmetrische, klokvormige kansverdeling die veel voorkomt in de statistiek. Het is gecentreerd rond het gemiddelde en de spreiding wordt bepaald door de standaardafwijking. |
| Foutmarge | Het verschil tussen de schatting uit een steekproef en de ware populatiewaarde. Het vertegenwoordigt de onzekerheid in de schatting. |
| Standaardafwijking (sa) | Een maat voor de spreiding van gegevens rond het gemiddelde. Een kleinere standaardafwijking geeft aan dat de gegevens dichter bij het gemiddelde liggen. |
| Aselecte steekproef | Een steekproef waarbij elk individu in de populatie een gelijke kans heeft om geselecteerd te worden. Dit is cruciaal voor representativiteit. |
| Nulhypothese ($H_0$) | Een stelling die stelt dat er geen effect, verschil of relatie is tussen variabelen. Het is de hypothese die we proberen te weerleggen. |
| Alternatieve hypothese ($H_1$ of $H_a$) | Een stelling die het tegendeel beweert van de nulhypothese. Het stelt dat er wel een effect, verschil of relatie is. |
| Toetsingsgrootheid | Een waarde berekend uit steekproefgegevens die wordt gebruikt om te bepalen of de nulhypothese verworpen moet worden. |
| Overschrijdingskans (p-waarde) | De kans om een resultaat te verkrijgen dat net zo extreem of extremer is dan het waargenomen resultaat, aangenomen dat de nulhypothese waar is. |
| Significant verschil | Een verschil dat statistisch significant is, wat betekent dat het onwaarschijnlijk is dat het is opgetreden door toeval alleen. Meestal gedefinieerd door een p-waarde kleiner dan een vooraf bepaald significantieniveau (alfa). |
| Resampling | Een methode waarbij herhaaldelijk steekproeven worden getrokken uit de oorspronkelijke steekproef om de verdeling van een statistiek te schatten. |
| Onderscheidingsvermogen (Power) | De kans dat een statistische toets de nulhypothese terecht verwerpt wanneer de alternatieve hypothese waar is. Het is het vermogen om een echt effect te detecteren. |
| Type I fout (alfa) | Het verwerpen van de nulhypothese terwijl deze waar is (vals positief). |
| Type II fout (beta) | Het niet verwerpen van de nulhypothese terwijl deze onwaar is (vals negatief). |
| Standaardnormaalverdeling | Een normaalverdeling met een gemiddelde van 0 en een standaardafwijking van 1. Vaak gebruikt na standaardisering van gegevens. |
| Standaardisering (z-score) | Het proces van het transformeren van ruwe gegevens naar z-scores door het gemiddelde af te trekken en te delen door de standaardafwijking. Dit maakt vergelijking van waarden uit verschillende verdelingen mogelijk. |
| T-toets | Een statistische toets die wordt gebruikt om de gemiddelden van twee groepen te vergelijken, vooral wanneer de populatie standaardafwijking onbekend is. |
| Vrijheidsgraden (df) | Een parameter die de vorm van een t-verdeling bepaalt en gerelateerd is aan de steekproefgrootte. Het geeft het aantal onafhankelijke waarden aan dat vrij kan variëren. |
| Betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden | Een interval dat waarschijnlijk het ware verschil tussen de gemiddelden van twee populaties bevat. |
| T-verdeling | Een kansverdeling die lijkt op de normaalverdeling maar dikkere staarten heeft, vooral bij kleinere steekproeven. Gebruikt in t-toetsen. |
| Populatieproportie | Het percentage van een populatie dat een bepaalde eigenschap heeft. |
| Proportie ($ \hat{p} $) | De proportie van een kenmerk in een steekproef. |
| Significantietoets voor een populatieproportie | Een statistische toets om te bepalen of de populatieproportie verschilt van een gespecificeerde waarde. |
| Steekproefgrootte | Het aantal waarnemingen in een steekproef. |
| Foutmarge bij proporties | Het interval rond een geschatte proportie dat waarschijnlijk de ware populatieproportie bevat. |
| Niet-parametrische toetsen | Statistische toetsen die geen aannames doen over de verdeling van de populatiegegevens (bv. normaliteit). Ze zijn vaak gebaseerd op rangordes van de gegevens. |
| Bootstrap methode | Een resamplingtechniek die wordt gebruikt om de standaardfout en betrouwbaarheidsintervallen te schatten door herhaaldelijk steekproeven met teruglegging te trekken uit de oorspronkelijke steekproef. |
| Wilcoxon rangteken toets | Een niet-parametrische toets die wordt gebruikt om de medianen van twee gerelateerde groepen te vergelijken. |
| Wilcoxon rangsom test (ook bekend als Mann-Whitney U test) | Een niet-parametrische toets die wordt gebruikt om de medianen van twee onafhankelijke groepen te vergelijken. |
| Variantieanalyse (ANOVA) | Een statistische methode die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. |
| F-statistiek | De toetsingsgrootheid die wordt gebruikt in ANOVA, berekend als de ratio van de variantie tussen groepen tot de variantie binnen groepen. |
| Contrasten (in ANOVA) | Specifieke lineaire combinaties van groepsgemiddelden die worden getest om gerichte hypothesen te onderzoeken. |
| Posthoc vergelijkingen | Meervoudige vergelijkingen die na een significante ANOVA worden uitgevoerd om te bepalen welke specifieke groepsgemiddelden van elkaar verschillen. |
| Bonferroni correctie | Een methode om het significantieniveau aan te passen bij het uitvoeren van meerdere vergelijkingen, om de kans op Type I fouten te verminderen. |
| Regressieanalyse | Een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren. |
| Regressierechte | De grafische weergave van de lineaire relatie tussen variabelen in een regressieanalyse. |
| Regressielijn | Een lijn die het beste de relatie tussen de afhankelijke en onafhankelijke variabele weergeeft in een regressiemodel. |
| Residu | Het verschil tussen de waargenomen waarde van de afhankelijke variabele en de voorspelde waarde uit het regressiemodel. |
| R-kwadraat ($R^2$) | Een maat die aangeeft welk percentage van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n) in het model. |
| Gecorrigeerde $R^2$ (Adjusted $R^2$) | Een aangepaste versie van $R^2$ die rekening houdt met het aantal voorspellende variabelen in het model. Het voorkomt overschatting van de verklaarde variantie. |
| Correlatie | Een statistische maat die de sterkte en richting van de lineaire relatie tussen twee variabelen aangeeft. |
| Multi-collineariteit | Een fenomeen in regressieanalyse waarbij twee of meer voorspellende variabelen sterk met elkaar gecorreleerd zijn. |
| Tolerantie | Een maat voor multi-collineariteit, die aangeeft hoeveel van de variantie in een voorspellende variabele niet wordt verklaard door andere voorspellende variabelen in het model. |
| F-waarde | De toetsingsgrootheid in ANOVA die de variantie tussen groepen vergelijkt met de variantie binnen groepen. |
| Variantie binnen groepen | De spreiding van de gegevens binnen elke individuele groep in een ANOVA. |
| Variantie tussen groepen | De spreiding van de groepsgemiddelden rond het algemene gemiddelde in een ANOVA. |
| Levene's test | Een statistische toets die wordt gebruikt om de gelijkheid van varianties tussen groepen te controleren, een belangrijke voorwaarde voor veel statistische toetsen. |
| Kolmogorov-Smirnov test | Een niet-parametrische toets die wordt gebruikt om te bepalen of twee steekproeven uit dezelfde verdeling komen, of om te controleren of een steekproef uit een specifieke verdeling komt. |
Cover
Statistiek_I_samenvatting.pdf
Summary
# De empirische cyclus en statistiek in onderzoek
Dit onderwerp introduceert de empirische cyclus en de fundamentele rol van statistiek binnen dit proces van wetenschappelijk onderzoek.
### 1.1 De empirische cyclus
De empirische cyclus beschrijft de stappen die doorlopen worden bij wetenschappelijk onderzoek, beginnend bij observatie en eindigend met evaluatie, waarna de cyclus zich vaak herhaalt [1](#page=1).
#### 1.1.1 Observatie
Dit is de eerste stap waarbij empirisch feitenmateriaal wordt waargenomen of verzameld. Een concreet voorbeeld is het constateren dat een fiets niet meer op de verwachte plaats staat [1](#page=1).
#### 1.1.2 Inductie
Op basis van de observatie worden hypothesen geformuleerd. In het fietsvoorbeeld zou dit kunnen leiden tot de hypothese dat de fiets gestolen is. In de context van onderzoek naar schermgebruik en mentaal welzijn kan inductie leiden tot het zogenaamde "Goudlokje-principe", waarbij men vermoedt dat beperkt schermgebruik acceptabel is en overmatig gebruik niet [1](#page=1) [2](#page=2).
#### 1.1.3 Deductie
Vanuit de geformuleerde hypothesen worden voorspellingen opgesteld. Als de fiets gestolen is, dan zal deze niet meer op het stationsplein staan. Bij het onderzoek naar schermgebruik leidt dit tot voorspellingen zoals: mentaal welzijn daalt niet bij beperkt schermgebruik, maar wel bij overmatig gebruik [1](#page=1) [2](#page=2).
#### 1.1.4 Toetsing
De opgestelde voorspellingen worden getoetst aan de hand van nieuw verzameld empirisch feitenmateriaal. Wanneer de fiets na enig zoeken wordt teruggevonden in een fietsrek, wordt de voorspelling getoetst. Onderzoek onder 120 Engelse scholieren met betrekking tot schermgebruik liet zien dat het gemiddelde gedrag in lijn was met de deducties [1](#page=1) [2](#page=2).
#### 1.1.5 Evaluatie
Dit is de kritische beoordeling van de resultaten van de toetsing. Uit het fietsvoorbeeld blijkt dat de fiets niet gestolen, maar verplaatst was. Bij het onderzoek naar schermgebruik kan geconcludeerd worden dat het Goudlokje-principe niet verworpen, maar ook niet bewezen is, dat de wijziging in mentaal welzijn beperkt was, er geen causaal verband kon worden vastgesteld, en vervolgonderzoek nodig is [1](#page=1) [2](#page=2).
### 1.2 De rol van statistiek in onderzoek
Statistiek wordt gedefinieerd als de wetenschap van het leren uit data en van het meten, controleren en communiceren van onzekerheid. Het speelt een rol in alle fasen van de empirische cyclus, niet alleen bij de toetsing, maar ook bij inductie, deductie en evaluatie [2](#page=2).
#### 1.2.1 Toepassingen van statistiek in onderzoeksvragen
Statistiek is relevant voor:
* Het formuleren van onderzoeksvragen die beantwoord kunnen worden met data [2](#page=2).
* Het ontwerpen van studies en het verzamelen van data [2](#page=2).
* Het verkennen van verzamelde data door middel van beschrijvende analyses [2](#page=2).
* Het formuleren van conclusies die verder reiken dan de geobserveerde data via inductieve analyses [2](#page=2).
#### 1.2.2 Statistische geletterdheid
Statistische geletterdheid is het vermogen om te redeneren met behulp van statistiek en data. Dit is een sleutelvaardigheid, niet alleen voor gedragswetenschappers, maar ook daarbuiten in een datagedreven wereld [2](#page=2).
#### 1.2.3 Voorbeeld van statistiek in de cyclus
Een onderzoek naar het mentale welzijn van scholieren die wel of geen smartphone gebruiken, illustreert de toepassing van statistiek. Hierbij worden kengetallen zoals het gemiddelde en de standaardafwijking gebruikt om de groepen te vergelijken [2](#page=2).
> **Tip:** Begrijp dat de empirische cyclus een iteratief proces is. De evaluatie van de ene cyclus leidt vaak tot nieuwe observaties en hypothesen voor de volgende cyclus.
> **Voorbeeld:** Stel je voor dat een onderzoeker de hypothese heeft dat meer sociale media-gebruik leidt tot minder slaap. Via deductie kan voorspeld worden dat scholieren die meer dan 3 uur per dag op sociale media zitten, gemiddeld minder dan 7 uur slaap per nacht hebben. De toetsing zou dan bestaan uit het meten van het sociale media-gebruik en de slaaptijd bij een steekproef scholieren, waarna de resultaten geanalyseerd worden met statistische methoden.
* * *
# Beschrijvende statistiek en variabele types
Hieronder volgt een gedetailleerde studiehandleiding voor "Beschrijvende statistiek en variabele types".
## 2\. Beschrijvende statistiek en variabele types
Beschrijvende statistiek biedt methoden om de belangrijkste kenmerken van een dataset samen te vatten en te begrijpen.
### 2.1 Onderzoek naar smartphonegebruik en mentaal welzijn
Dit onderzoek richt zich op adolescenten en hun smartphonegebruik in relatie tot hun mentaal welzijn. Adolescenten brengen steeds meer tijd online door, wat de noodzaak voor wetenschappelijk onderzoek naar de impact hiervan op mentaal welzijn onderstreept. Er wordt gesuggereerd dat er mogelijk sprake is van een "Goudlokje-principe" waarbij zowel te weinig als te veel gebruik negatieve effecten kan hebben [3](#page=3).
#### 2.1.1 Methodologie van het onderzoek
Het onderzoek is uitgevoerd onder scholieren in Engeland die in 2013-2014 15 jaar oud werden. De observatie-eenheden zijn individuele scholieren. Vanwege de grote populatie (650.000 scholieren) is een steekproef noodzakelijk [3](#page=3).
**Steekproefmethoden:**
* **Enkelvoudige aselecte steekproeftrekking (EAS):** Elke mogelijke steekproef heeft dezelfde kans om gekozen te worden, en elk element in het steekproefkader heeft een gelijke kans om geselecteerd te worden [3](#page=3).
* **Gestratificeerde steekproeftrekkingen:** De populatie wordt onderverdeeld in strata (subgroepen), waarna binnen elk stratum een EAS wordt uitgevoerd. De proportie personen per stratum in de steekproef komt overeen met die in de populatie. In dit onderzoek werden lokale besturen als strata gebruikt [3](#page=3) [4](#page=4).
* **Gemakshalve steekproeftrekkingen (convenience sampling):** Personen die gemakkelijker bereikbaar zijn, hebben een grotere kans om geselecteerd te worden. Dit kan leiden tot selectiebias [3](#page=3).
> **Tip:** Het steekproefkader is de lijst met informatie over de personen in de populatie die gebruikt wordt om de steekproef samen te stellen [3](#page=3).
**Non-respons bias:** In dit specifieke onderzoek namen 150.000 scholieren niet deel, wat kan leiden tot non-respons bias [4](#page=4).
**Variabelen:** Variabelen zijn karakteristieken van de observationele eenheden die men wenst te onderzoeken. Operationaliseren is het meetbaar maken van deze eigenschappen [4](#page=4).
* **Uitkomstvariabele:** Mentaal welzijn, gemeten met de Warwick-Edinburgh Mental Well-Being Scale [4](#page=4).
* **Verklarende variabelen:** Gemiddeld aantal uren per dag (week/weekend) besteed aan films, series, games, chatten/e-mails/schoolwerk op de pc, en sociale media/e-mails/games op de gsm [4](#page=4).
* **Controlevariabelen:** Geslacht, etniciteit, regio [4](#page=4).
Het doel van deze variabelen is het verklaren van de variabiliteit in de uitkomstvariabele, rekening houdend met de controlevariabelen [4](#page=4).
**Onderzoeksdesign:**
* **Cross-sectionele studie:** Variabelen worden slechts op één moment in de tijd bevraagd [4](#page=4).
* **Longitudinale studie:** Een of meerdere variabelen worden op verschillende momenten in de tijd bevraagd [4](#page=4).
* **Observationele studie:** Men observeert zonder interventie uit te voeren [5](#page=5).
* **Experimentele studie:** Er wordt een interventie uitgevoerd om de impact ervan te onderzoeken [5](#page=5).
**HARKing (Hypothesizing After the Results are Known):** Dit is een werkwijze waarbij hypotheses worden opgesteld op basis van bevindingen in de data, waarna dezelfde data worden gebruikt om deze hypotheses te toetsen. Dit is in strijd met de empirische cyclus [5](#page=5).
**Protocol:** Een protocol is essentieel voor de repliceerbaarheid van een studie en helpt HARKing tegen te gaan. Elementen van een protocol omvatten het doel van de studie, te meten variabelen, onderzoekshypotheses, de wijze van steekproefverkrijging, en de statistische analysewijze [4](#page=4).
### 2.2 Beschrijvende analyse
Beschrijvende analyses maken gebruik van statistische methoden, tabellen, samenvattende maten en figuren om inzicht te krijgen in data. De analysetechniek hangt af van het type variabele en de aangenomen waarden [5](#page=5).
#### 2.2.1 Verdelingen van variabelen
De verdeling van een variabele geeft weer welke waarden deze kan aannemen en hoe vaak elke waarde voorkomt (frequentie). Dit kan uitgedrukt worden in absolute of relatieve frequenties [5](#page=5).
* **Absolute frequentie:** Het aantal keren dat een waarde van een variabele voorkomt in de steekproef [5](#page=5).
* **Relatieve frequentie (proportie):** Absolute frequentie gedeeld door de steekproefgrootte [5](#page=5).
* Voorbeeld: AF = 53.273 & 58.880; RF = 53.273/112.153 = 47.5% & 58.880/112.153 = 52.5% [5](#page=5).
* **Odds:** Het aantal keren dat een waarde wordt aangenomen gedeeld door het aantal keren dat een andere waarde wordt aangenomen [6](#page=6).
* Voorbeeld: De odds voor meisjes is 58.880 / 53.273 = 1.1 [6](#page=6).
* Interpretatie: De odds van 1.1 betekent dat het aantal meisjes 10% hoger is dan het aantal jongens, ofwel dat er per 10 jongens 11 meisjes zijn [6](#page=6).
#### 2.2.2 Soorten variabelen
Variabelen kunnen worden ingedeeld op basis van hun aard en de waarden die ze kunnen aannemen [6](#page=6).
* **Kwalitatieve variabele (categorisch):**
* **Nominaal:** Waarden kunnen niet geordend worden (bv. geslacht) [6](#page=6).
* **Ordinaal:** Waarden kunnen wel geordend worden (bv. uitslag van een wedstrijd) [6](#page=6).
* **Kwantitatieve variabele (numeriek):**
* **Interval:** Geen absoluut nulpunt (bv. temperatuur) [6](#page=6).
* **Ratio:** Wel een absoluut nulpunt (bv. lengte) [6](#page=6).
* **Discreet:** Beperkt aantal waarden [6](#page=6).
* **Continu:** Veel waarden mogelijk [6](#page=6).
* **Belangrijk:** Een variabele die slechts één waarde kan aannemen is geen variabele, omdat deze niet varieert [6](#page=6).
* **Binaire variabele:** Een variabele met slechts twee waarden (bv. kop/munt) [6](#page=6).
#### 2.2.3 Grafische weergave van variabelen
* **Staafdiagram:** Vaak gebruikt voor kwalitatieve variabelen. Het is belangrijk dat de sprongen tussen de staven gelijk (equisidant) zijn en dat het diagram de waarden correct weergeeft [7](#page=7).
* **Histogram:** Een soort staafdiagram gebaseerd op gegroepeerde data, vaak gebruikt wanneer een numerieke variabele veel waarden aanneemt. De vorm van het histogram kan variëren afhankelijk van hoe de data worden gegroepeerd [9](#page=9).
* **Boxplot:** Een figuur gebaseerd op kwartielen, minimum en maximum, die ook uitschieters kan visualiseren [9](#page=9).
### 2.3 Centrum- en spreidingsmaten
Centrummaten geven een idee van het "centrum" van de verdeling, terwijl spreidingsmaten de variatie of spreiding van de waarden kwantificeren [8](#page=8).
#### 2.3.1 Centrummaten
* **Mediaan:** De middelste waarde in een geordende dataset [8](#page=8).
* **Gemiddelde:** De som van alle waarden gedeeld door het aantal waarden [8](#page=8).
#### 2.3.2 Spreidingsmaten
Spreidingsmaten kwantificeren de verschillen tussen waarden. Ze nemen de waarde 0 aan bij geen spreiding en worden groter naarmate er meer spreiding is. Ze kunnen nooit negatief zijn [18](#page=18) [8](#page=8).
* **Variatiebreedte (vx):** Het verschil tussen de maximale en minimale waarde van een variabele [18](#page=18) [8](#page=8).
* Interpretatie: Geeft het maximale verschil tussen twee waarden weer, maar is een eenvoudige maat met een beperkt beeld. Een variatiebreedte van 0 betekent dat alle waarden gelijk zijn [18](#page=18).
* Formule: $v\_x = \\text{max} - \\text{min}$ [18](#page=18).
* **Gemiddelde absolute afwijking (GAF):** De gemiddelde absolute afwijking van de waarden van de variabele ten opzichte van het steekproefgemiddelde [18](#page=18).
* Interpretatie: Een kleine GAF duidt op waarden dicht rond het gemiddelde; een grotere GAF wijst op meer spreiding [18](#page=18).
* **Standaardafwijking (sx):** De gemiddelde afstand tussen de waarden en het steekproefgemiddelde. Dit is de meest gebruikte spreidingsmaat [19](#page=19) [8](#page=8).
* **Variantie ($s^2\_x$):** Het kwadraat van de standaardafwijking. De standaardafwijking wordt vaker gebruikt omdat de variantie een andere meeteenheid heeft [19](#page=19) [8](#page=8).
* **Interkwartielafstand (IKA):** Het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1) [9](#page=9).
#### 2.3.3 Kwartielen
Wanneer de elementen van een steekproef geordend worden van klein naar groot en opgedeeld in vier gelijke stukken, ontstaan kwartielen [9](#page=9).
1. **Eerste kwartiel (Q1):** De waarde waarbij 25% van de waarden kleiner is en 75% groter [9](#page=9).
2. **Tweede kwartiel (Q2 / Mediaan):** De waarde waarbij 50% van de waarden kleiner is en 50% groter [9](#page=9).
3. **Derde kwartiel (Q3):** De waarde waarbij 75% van de waarden kleiner is en 25% groter [9](#page=9).
#### 2.3.4 Boxplot en uitschieters
Een boxplot visualiseert de kwartielen, mediaan, minimum en maximum van een dataset en kan uitschieters (waarden die ver van de centrale helft van de waarnemingen liggen) identificeren [19](#page=19) [20](#page=20) [9](#page=9).
* De box in een boxplot vertegenwoordigt het bereik tussen Q1 en Q3, en de lengte ervan is gelijk aan de IKA, wat een idee geeft van de spreiding [19](#page=19).
* De helft van de waarnemingen ligt binnen de box [20](#page=20).
* Boxplots kunnen helpen evalueren of een verdeling symmetrisch is; bij symmetrie ligt de mediaan in het midden van de box en zijn de "staarten" (uitschieters) even lang [20](#page=20).
#### 2.3.5 Gevoeligheid voor uitschieters
* Het gemiddelde en de standaardafwijking zijn **gevoelig** voor uitschieters [21](#page=21).
* De mediaan en de IKA zijn **minder gevoelig** voor uitschieters [21](#page=21).
#### 2.3.6 Scheefheid van de verdeling
* Een verdeling die scheef naar links is, betekent dat een groter percentage observaties groter is dan het gemiddelde [21](#page=21).
* Een verdeling die scheef naar rechts is, betekent dat een groter percentage observaties kleiner is dan het gemiddelde [21](#page=21).
#### 2.3.7 Correlatie en spreidingsdiagram
Spreidingsmaten, hoewel primair gericht op variatie binnen één variabele, bieden ook de basis om de samenhang tussen twee numerieke variabelen te visualiseren, met name via correlatie en spreidingsdiagrammen [21](#page=21).
* **Spreidingsdiagram:** Bestaat uit vier kwadranten gebaseerd op de afwijkingen van de gemiddelden van de variabelen X en Y [21](#page=21).
* Kwadranten 2 en 4 worden als "positieve kwadranten" beschouwd.
* Kwadranten 1 en 3 worden als "negatieve kwadranten" beschouwd.
* * *
# Samenhang tussen variabelen: bivariate analyse en correlatie
Dit onderwerp verkent de relaties tussen twee variabelen, waarbij methoden zoals kruistabellen, spreidingsdiagrammen, correlatiecoëfficiënten en regressieanalyse worden behandeld, met speciale aandacht voor het onderscheid tussen correlatie en causatie.
### 3.1 Bivariate verdelingen en samenhang
Bivariate analyse bestudeert de gezamenlijke verdeling van twee variabelen om hun samenhang te onderzoeken [10](#page=10).
#### 3.1.1 Kruistabellen
Een kruistabel wordt gebruikt om de bivariate verdeling van twee categorische variabelen weer te geven. De som van alle cellen in een kruistabel is gelijk aan de steekproefgrootte. Uit een kruistabel kunnen univariate verdelingen worden afgeleid door de rij- en kolomtotalen op te tellen [10](#page=10) [11](#page=11).
Verschillende soorten relatieve frequenties kunnen uit een kruistabel worden berekend:
* **Totale relatieve frequenties:** De frequentie van elke cel gedeeld door de totale steekproefgrootte [11](#page=11).
* **Voorwaardelijke relatieve frequenties:**
* Ten opzichte van de kolomtotalen (horizontale relatieve frequenties) [11](#page=11).
* Ten opzichte van de rijtotalen (verticale relatieve frequenties) [11](#page=11).
De som van alle cellen in een kruistabel met relatieve frequenties is steeds gelijk aan 100%. Een voorwaardelijke relatieve frequentie is de relatieve frequentie van een waarde binnen een deelverzameling van de steekproef [11](#page=11).
> **Tip:** Indien er geen samenhang is tussen twee variabelen die met een kruistabel worden geanalyseerd, verwachten we dat de voorwaardelijke relatieve frequenties per kolom (of rij) ongeveer gelijk zullen zijn [12](#page=12).
#### 3.1.2 Associatiematen voor kruistabellen
Om de samenhang in kruistabellen te kwantificeren, worden verschillende associatiematen gebruikt:
* **Risicoverschil:** Het verschil tussen twee voorwaardelijke relatieve frequenties. Als het risicoverschil gelijk is aan 0, is er geen samenhang [13](#page=13).
* **Relatief risico:** De verhouding van twee voorwaardelijke relatieve frequenties. Conventioneel wordt de grootste frequentie in de teller geplaatst om een relatief risico groter dan 1 te verkrijgen [13](#page=13).
* **Odds ratio:** De verhouding van twee voorwaardelijke odds. De grootste odds wordt in de teller geplaatst om een odds ratio groter dan 1 te verkrijgen. Als de odds ratio gelijk is aan 1, is er geen samenhang [13](#page=13).
> **Voorbeeld:** Een analyse van etniciteit en leefregio toonde een samenhang aan; scholieren met een niet-witte etniciteit woonden vaker in een gedepriveerde regio dan witte scholieren [13](#page=13).
#### 3.1.3 Spreidingsdiagram
Een spreidingsdiagram (scatter plot) is een tweedimensionale figuur waarop de waarden van twee numerieke variabelen ten opzichte van elkaar worden uitgezet. Het visualiseert de verdeling van twee numerieke variabelen en hun mogelijke samenhang (#page=14, 15) [14](#page=14) [15](#page=15).
> **Tip:** Als veel eenheden eenzelfde waarde hebben, kan de grootte van de punten in een spreidingsdiagram evenredig worden gemaakt aan het aantal herhalingen om belangrijke informatie niet te missen [15](#page=15).
#### 3.1.4 Correlatiecoëfficiënt
De correlatiecoëfficiënt, aangeduid als $R\_{xy}$, is een maat voor de lineaire samenhang tussen twee numerieke variabelen (#page=15, 22). De waarde van de correlatiecoëfficiënt ligt altijd tussen -1 en 1 [15](#page=15) [22](#page=22).
* Een waarde rond 0 duidt op geen lineaire samenhang [15](#page=15).
* Een toenemende lineaire samenhang leidt tot een waarde die verder van nul afwijkt [15](#page=15).
* De correlatiecoëfficiënt tussen X en Y is dezelfde als die tussen Y en X ($r\_{xy} = r\_{yx}$); de volgorde van de variabelen beïnvloedt de waarde niet [24](#page=24).
> **Tip:** De correlatiecoëfficiënt is nuttiger dan de spreidingsdiagram voor het beoordelen van de sterkte van de lineaire samenhang, omdat deze niet wordt beïnvloed door de schaal van de assen [23](#page=23).
De berekening van de correlatiecoëfficiënt is gebaseerd op de covariatie: $$r\_{xy} = \\frac{Cov(X,Y)}{s\_x s\_y}$$ waarbij $Cov(X,Y)$ de covariatie is en $s\_x$ en $s\_y$ de standaardafwijkingen van respectievelijk X en Y zijn [22](#page=22).
De covariatie zelf wordt berekend als: $$Cov(X,Y) = \\frac{\\sum\_{i=1}^{n}(x\_i - \\bar{x})(y\_i - \\bar{y})}{n-1}$$ waarbij $n$ het aantal observaties is, $x\_i$ en $y\_i$ de individuele waarden zijn, en $\\bar{x}$ en $\\bar{y}$ de gemiddelden zijn [22](#page=22).
De spreidingsdiagram wordt onderverdeeld in vier kwadranten ten opzichte van de gemiddelden van X en Y. Kwadranten waar $(x\_i - \\bar{x})(y\_i - \\bar{y})$ positief is, worden positieve kwadranten genoemd (kwadranten 2 en 4), en kwadranten waar dit product negatief is, worden negatieve kwadranten genoemd (kwadranten 1 en 3) [21](#page=21).
### 3.2 Regressieanalyse
Regressieanalyse wordt gebruikt om de relatie tussen variabelen te modelleren en voorspellingen te doen (#page=15, 24). De regressierechte is de best passende rechte door een puntenwolk, ook wel de kleinste kwadratenrechte genoemd [15](#page=15) [24](#page=24).
De vergelijking van de regressierechte is: $$y = a + bx$$ waarbij:
* $y$ de uitkomstvariabele is [24](#page=24).
* $x$ de verklarende variabele is [24](#page=24).
* $a$ het intercept is, wat het punt op de Y-as voorstelt waar de rechte begint (#page=24, 26). Het intercept geeft de voorspelde gemiddelde waarde van $y$ wanneer $x=0$ is. Soms heeft het intercept geen praktische interpretatie [24](#page=24) [26](#page=26).
* $b$ de helling (slope) is. De helling geeft het verschil in voorspelde gemiddelde score op de uitkomstvariabele weer indien de verklarende variabele met 1 eenheid stijgt [24](#page=24) [26](#page=26).
> **Belangrijk:** De regressierechte gaat altijd door het gemiddelde van $X$ en het gemiddelde van $Y$ [25](#page=25).
#### 3.2.1 Residuen
Een residu ($e\_i$) geeft het verschil weer tussen de geobserveerde waarde en haar voorspelling. Een residuendiagram, met de residuen op de verticale as en de voorspelde waarden of de verklarende variabele op de horizontale as, helpt bij het beoordelen van de geschiktheid van de regressierechte (#page=25, 27). Indien de regressierechte een goede beschrijving vormt, vertonen de residuen geen patroon [25](#page=25) [27](#page=27).
#### 3.2.2 Determinantiecoëfficiënt
De gekwadrateerde correlatiecoëfficiënt ($r^2$) wordt ook wel de determinantiecoëfficiënt genoemd. Het vertegenwoordigt de proportie van de totale variantie in de uitkomstvariabele die verklaard kan worden door wijzigingen in de verklarende variabele via het regressiemodel [27](#page=27). $$r^2\_{xy} = \\frac{\\text{Variantie van de voorspellingen}}{\\text{Totale variantie in de uitkomstvariabele}}$$
> **Voorbeeld:** Als de determinantiecoëfficiënt 0.55 is, betekent dit dat 55% van de variantie in de uitkomstvariabele verklaard kan worden door de verklarende variabele [27](#page=27).
#### 3.2.3 Uitschieters en invloedrijke observaties
Uitschieters kunnen de correlatiecoëfficiënt en de regressierechte beïnvloeden. Een invloedrijke observatie is een datapunt dat een grote impact heeft op de regressierechte of de correlatiecoëfficiënt. Het is belangrijk om bewust te zijn van de invloed van zulke observaties, maar ze worden niet per se verwijderd uit de dataset. De impact van een uitschieter op de regressierechte hangt af van de positie van het punt ten opzichte van de trend van de overige data (#page=28, 29) [28](#page=28) [29](#page=29).
### 3.3 Correlatie en causatie
Het is cruciaal om geen causale besluiten te trekken enkel op basis van een waargenomen samenhang tussen twee variabelen (X en Y) (#page=16, 30) [16](#page=16) [30](#page=30).
* **Causaliteit:** Een oorzaak-gevolgrelatie waarbij veranderingen in de ene variabele direct veroorzaakt worden door veranderingen in de andere. Het conceptueel aantonen van causaliteit vereist contrafeitelijk denken of, in de praktijk, randomisatie [16](#page=16).
* **Confounder:** Een derde variabele (Z) die de relatie tussen twee andere variabelen kan verstoren of verwarren (#page=17, 30). Een variabele wordt als confounder beschouwd als deze een samenhang vertoont met zowel X als Y. Confounders kunnen ervoor zorgen dat een samenhang ontstaat, versterkt of zelfs omgekeerd wordt (Simpsons paradox) [17](#page=17) [30](#page=30).
* **Observationeel onderzoek:** In observationele studies, waar geen randomisatie plaatsvindt, moeten conclusies voorzichtig worden geformuleerd, zelfs bij het meenemen van controlevariabelen [17](#page=17).
> **Tip:** Bij het analyseren van observationele data en het waarnemen van een samenhang, moet altijd rekening gehouden worden met mogelijke confounders. Zonder randomisatie kunnen we niet met zekerheid spreken over een oorzaak-gevolgrelatie.
* * *
# Inductieve analyse: hypothesetoetsing en betrouwbaarheidsintervallen
Dit deel introduceert inductieve analyses, de binomiaaltoets, nulhypotheses, p-waarden, betrouwbaarheidsintervallen en de interpretatie van deze statistische concepten om conclusies te trekken uit data.
### 4.1 Variabiliteit en inductieve analyses
Statistiek richt zich op het verkrijgen van inzicht in variabiliteit. Waar beschrijvende analyses variabiliteit binnen één dataset centraal stellen, focussen inductieve analyses op de variabiliteit tussen datasets die verkregen zouden worden door de studie herhaaldelijk uit te voeren. Dit inzicht wordt verkregen door middel van kansmodellen, die een wiskundige weergave zijn van de werkelijkheid en rekening houden met de rol van toeval bij steekproeftrekking. Inductieve analyses maken gebruik van deze kansmodellen om verder te kijken dan de geobserveerde data en te evalueren wat er zou gebeuren indien de studie herhaaldelijk onder vergelijkbare condities zou worden uitgevoerd [31](#page=31) [32](#page=32).
Een toevalsproces is een herhaalbaar proces waarbij individuele uitkomsten onbekend zijn, maar een patroon vertonen bij voldoende herhalingen. Data uit wetenschappelijke studies worden beschouwd als een momentopname van zo'n toevalsproces [32](#page=32) [33](#page=33).
> **Tip:** Het verschil tussen beschrijvende en inductieve analyses ligt in de focus: beschrijvend kijkt naar variabiliteit binnen één dataset, inductief naar variabiliteit tussen hypothetische datasets.
#### 4.1.1 Het experiment bij baby's
Een voorbeeld van een inductieve analyse is het onderzoek naar morele intuïtie bij baby's, waarbij onderzocht wordt of baby's een pop die een goede daad stelt verkiezen boven een pop die een slechte daad stelt. In dit experiment werden 16 baby's van 10 maanden oud bestudeerd. Technieken zoals balanceren en blinderen werden toegepast om mogelijke confounders uit te schakelen en ongewenste invloeden te minimaliseren (#page=33, 34) [33](#page=33) [34](#page=34).
### 4.2 Hypothesetoetsing
Hypothesetoetsing is een methode binnen de inductieve analyse om op basis van data uitspraken te doen over een nulhypothese [35](#page=35).
#### 4.2.1 Nulhypothese
De nulhypothese ($H\_0$) is een bewering of aanname over het toevalsproces die getoetst wordt aan de hand van de data. Het is de conventie om de nulhypothese in termen van een gelijkheid te formuleren. In het baby-experiment luidde de nulhypothese dat baby's geen voorkeur hebben, wat vertaald werd naar het idee dat de helper even vaak gekozen zou worden als de lastpost indien de studie eindeloos herhaald zou worden [35](#page=35) [37](#page=37).
#### 4.2.2 Alternatieve hypothese
De alternatieve hypothese ($H\_a$) is een complementaire aanname die we wensen te ondersteunen als de nulhypothese verworpen kan worden. Deze wordt geformuleerd in termen van een ongelijkheid (groter dan, kleiner dan, of verschillend van) [37](#page=37).
#### 4.2.3 Stappen van een hypothesetoets
Een hypothesetoets volgt doorgaans vijf stappen [37](#page=37):
1. **Hypotheses formuleren:** Opstellen van de nulhypothese ($H\_0$) en de alternatieve hypothese ($H\_a$).
2. **Toetsingsgrootheid vastleggen:** Een statistiek wordt gekozen die informatie geeft over de hypotheses, zoals de absolute of relatieve frequentie van een uitkomst. Dit wordt de geobserveerde toetsingsgrootheid genoemd [38](#page=38).
3. **Toevalsproces modelleren:** Gebruikmaken van kansmodellen om het onderzoek artificieel te herhalen en de steekproevenverdeling van de toetsingsgrootheid te bepalen (#page=38, 39) [38](#page=38) [39](#page=39).
4. **Nulverdeling opstellen:** Simuleren van de wereld waarin de nulhypothese waar is om de steekproevenverdeling van de toetsingsgrootheid onder die aanname te verkrijgen [40](#page=40).
5. **P-waarde berekenen en interpreteren:** Evalueren van de bewijskracht tegen de nulhypothese (#page=37, 41) [37](#page=37) [41](#page=41).
##### 4.2.3.1 De binomiale verdeling
De binomiale verdeling is een kansmodel dat gebruikt wordt om de kans op $k$ successen te bepalen bij $n$ onafhankelijke herhalingen van een experiment met twee uitkomsten (succes/geen succes), met een kans $p$ op succes bij elke herhaling. De formule voor de kans op $k$ successen is [39](#page=39): $$P(X=k) = \\binom{n}{k} p^k (1-p)^{n-k}$$ waarbij $\\binom{n}{k} = \\frac{n!}{k!(n-k)!}$. Een belangrijke voorwaarde is dat de observaties onderling onafhankelijk moeten zijn [39](#page=39).
##### 4.2.3.2 P-waarde
De p-waarde is de kans om een toetsingsgrootheid te observeren die minstens even extreem is als de geobserveerde toetsingsgrootheid, in de richting van de alternatieve hypothese, \_indien de nulhypothese waar is [42](#page=42). $$P\\text{-waarde} = P(T \\ge \\text{geobserveerde } T \\mid H\_0 \\text{ is waar})$$ (voor een rechtszijdige test) [41](#page=41). Een kleinere p-waarde betekent meer bewijskracht tegen de nulhypothese [41](#page=41).
> **Tip:** De p-waarde kwantificeert hoe onwaarschijnlijk de geobserveerde data zijn, \_gegeven dat de nulhypothese waar is.
##### 4.2.3.3 Eenzijdige en tweezijdige toetsen
Hypotheses kunnen eenzijdig (links- of rechtszijdig) of tweezijdig geformuleerd worden. Een tweezijdige alternatieve hypothese ($H\_a: p \\neq p\_0$) toetst of de parameter significant verschilt van de nulhypothese in beide richtingen. Een eenzijdige hypothese toetst een specifieke richting ($H\_a: p > p\_0$ of $H\_a: p < p\_0$). Het kiezen van de juiste richting is cruciaal; een verkeerde keuze kan leiden tot het missen van bewijs, zelfs als dat aanwezig is [43](#page=43).
#### 4.2.4 Beslissingen op basis van een hypothesetoets
Beslissingen worden genomen door de p-waarde te vergelijken met een vooraf vastgelegd significantieniveau $\\alpha$ (vaak 0.05) [46](#page=46).
* **Als $p < \\alpha$**: De nulhypothese wordt verworpen. Dit wordt een statistisch significant resultaat genoemd [46](#page=46).
* **Als $p \\ge \\alpha$**: De nulhypothese wordt niet verworpen. Dit betekent niet dat de nulhypothese waar is, maar dat er onvoldoende bewijs is tegen de nulhypothese [46](#page=46).
##### 4.2.4.1 Type I en Type II fouten
* **Type I fout**: De nulhypothese wordt verworpen, terwijl deze in werkelijkheid waar is. De kans hierop is $\\alpha$ (#page=46, 47) [46](#page=46) [47](#page=47).
* **Type II fout**: De nulhypothese wordt niet verworpen, terwijl de alternatieve hypothese in werkelijkheid waar is. De kans hierop wordt aangeduid met $\\beta$ [46](#page=46) [47](#page=47).
##### 4.2.4.2 Betrouwbaarheid en power
* **Betrouwbaarheid** (of correcte acceptatie): De kans om de nulhypothese niet te verwerpen wanneer deze waar is. Dit is gelijk aan $1 - \\alpha$ [46](#page=46) [47](#page=47).
* **Power** (onderscheidingsvermogen): De kans om de nulhypothese te verwerpen wanneer de alternatieve hypothese waar is. Dit is gelijk aan $1 - \\beta$ [46](#page=46) [47](#page=47).
> **Tip:** De kans op een Type I fout ($\\alpha$) en de kans op een Type II fout ($\\beta$) zijn gerelateerd. Het verkleinen van de kans op een Type I fout (door $\\alpha$ kleiner te kiezen) vergroot de kans op een Type II fout, en vice versa.
De power wordt beïnvloed door:
* Het verschil tussen de werkelijke parameterwaarde en de waarde onder de nulhypothese: hoe groter het verschil, hoe hoger de power [49](#page=49).
* De steekproefgrootte ($n$): een grotere steekproef vergroot de power [49](#page=49).
#### 4.2.5 Impact van steekproefgrootte
Een grotere steekproefgrootte ($n$) leidt tot kleinere p-waarden en dus sneller bewijs tegen de nulhypothese, mits de alternatieve hypothese waar is (#page=44, 45) [44](#page=44) [45](#page=45).
#### 4.2.6 Misvattingen rond p-waarden
* De p-waarde is **niet** de kans dat de nulhypothese waar is [50](#page=50).
* Een p-waarde kleiner dan of gelijk aan $\\alpha$ impliceert **niet** met zekerheid dat $H\_0$ fout is; het kan wijzen op bewijs tegen $H\_0$, maar ook op een Type I fout of geschonden assumpties [50](#page=50).
* Een p-waarde groter dan $\\alpha$ impliceert **niet** dat $H\_0$ juist is; het betekent enkel dat er onvoldoende bewijs is tegen $H\_0$ [50](#page=50).
* Een kleine p-waarde impliceert **niet** automatisch een belangrijke wetenschappelijke bevinding; de relevantie van de nulhypothese speelt ook een rol [50](#page=50).
### 4.3 Betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen bieden een alternatieve of aanvullende methode om conclusies te trekken uit data, door een reeks van compatibele waarden voor een parameter te presenteren [51](#page=51).
#### 4.3.1 Compatibiliteit van parameters
Een waarde $p\_0$ voor de parameter $p$ is compatibel met de data op het $\\alpha$\-significantieniveau indien de tweezijdige p-waarde die hoort bij $H\_0: p=p\_0$ groter is dan $\\alpha$ (#page=51, 52). Conceptueel worden alle $p\_0$\-waarden getoetst die niet verworpen kunnen worden op basis van de data behouden [51](#page=51) [52](#page=52).
#### 4.3.2 Het (1-$\\alpha$)-betrouwbaarheidsinterval
Het $(1-\\alpha)$\-betrouwbaarheidsinterval voor $p$ bestaat uit alle waarden van $p\_0$ die compatibel zijn met de data op het $\\alpha$\-significantieniveau. Voor $\\alpha = 0.05$ spreken we van een 95% betrouwbaarheidsinterval [51](#page=51) [52](#page=52).
> **Tip:** Een betrouwbaarheidsinterval laat toe om uitspraken te doen over de parameter met een bepaalde zekerheid, rekening houdend met steekproefvariabiliteit.
#### 4.3.3 Interpretatie van het betrouwbaarheidsinterval
Een 95% betrouwbaarheidsinterval betekent dat, indien de studie eindeloos herhaald zou worden, 95% van de resulterende intervallen de werkelijke parameterwaarde $p$ zou bevatten. Het interval zelf geeft de range aan mogelijke waarden voor $p$ die plausibel zijn gegeven de geobserveerde data (#page=51, 52) [51](#page=51) [52](#page=52) [53](#page=53).
> **Misvatting:** Een 95% betrouwbaarheidsinterval betekent **niet** dat de werkelijke parameter $p$ met 95% zekerheid binnen dat specifieke interval ligt. De betrouwbaarheid verwijst naar het proces van intervalconstructie over vele herhalingen van de studie [60](#page=60).
#### 4.3.4 Impact op het betrouwbaarheidsinterval
* **Betrouwbaarheid en $\\alpha$**: Een hogere betrouwbaarheid (kleinere $\\alpha$) resulteert in een breder interval [53](#page=53).
* **Steekproefgrootte**: Een toenemende steekproefgrootte ($n$) resulteert in een smaller betrouwbaarheidsinterval zonder dat de betrouwbaarheid afneemt [53](#page=53).
#### 4.3.5 Formules voor betrouwbaarheidsintervallen en toetsen
Voor binaire variabelen kan een benadering van het betrouwbaarheidsinterval voor de proportie $p$ gegeven worden door: $$\\hat{p} \\pm z\_{\\alpha/2} \\sqrt{\\frac{\\hat{p}(1-\\hat{p})}{n}}$$ waarbij $\\hat{p}$ de schatting van $p$ is en $z\_{\\alpha/2}$ de kritieke waarde uit de standaardnormale verdeling [54](#page=54). De binomiaaltoets kan ook benaderd worden met de gestandaardiseerde toetsingsgrootheid: $$Z = \\frac{\\hat{p} - p\_0}{\\sqrt{\\frac{p\_0(1-p\_0)}{n}}}$$[55](#page=55).
> **Voorwaarden:** De formules voor benaderde betrouwbaarheidsintervallen en toetsen zijn geldig indien de observaties onderling onafhankelijk zijn en er voor elke uitkomstcategorie minstens 10 observaties zijn (of minstens 5, afhankelijk van de specifieke regelgeving) (#page=54, 55) [54](#page=54) [55](#page=55).
#### 4.3.6 De normale verdeling
De normale verdeling, met centrum $\\mu$ en spreiding $s^2$, is een symmetrische, klokvormige functie die vaak gebruikt wordt om de steekproevenverdeling te benaderen, vooral bij grotere steekproeven (#page=57, 58, 59). De standaardnormale verdeling heeft $\\mu=0$ en $s=1$. De centrale limietstelling stelt dat de verdeling van steekproefgemiddelden (of proporties) naar een normale verdeling convergeert naarmate de steekproefgrootte toeneemt, ongeacht de oorspronkelijke verdeling van de populatie [57](#page=57) [58](#page=58) [59](#page=59) [60](#page=60).
* * *
# Vergelijken van groepen en effecten van interventies
Dit onderwerp behandelt de vergelijking van proporties en gemiddelden tussen twee onafhankelijke groepen, de impact van een netwerk op behandelbeslissingen, en de analyse van experimentele studies met focus op causaliteit.
### 5.1 Vergelijken van proporties van twee onafhankelijke groepen
Wanneer onderzoeksvragen complexer worden dan het vergelijken van één proportie met een nulhypothese, is het nodig om proporties tussen twee onafhankelijke groepen te vergelijken. Dit is gelijkaardig aan de binomiaaltoets wat betreft hypothesen, beslissingsregels, eenzijdige/tweezijdige toetsen, type 1- en type 2-fouten, en betrouwbaarheidsintervallen, maar vereist nieuwe toetsingsgrootheden en nulverdelingen [61](#page=61).
#### 5.1.1 De onderzoeksvraag en de studiecontext
Een onderzoek naar gender- en raciale bias in medische behandelingen gebruikte gestandaardiseerde video's van patiënten met hartklachten om te onderzoeken of de behandeling afhangt van het ras en gender van de patiënt. Artsen werden willekeurig toegewezen aan het zien van een video van een witte mannelijke patiënt of een zwarte vrouwelijke patiënt, en moesten een diagnose en behandeling kiezen. De behandelingen varieerden van te licht tot te ingrijpend, met een correcte behandeling als optie. Artsen werden gerandomiseerd in een individuele groep of een netwerkgroep, waarbij het verschil voornamelijk vanaf de tweede ronde relevant werd. Randomisatie en gestandaardiseerde video's zijn cruciaal voor causale conclusies [61](#page=61) [62](#page=62).
De onderzoeksvragen waren onder andere:
1. Is er in de eerste ronde een verschil in diagnose en behandeling tussen beide video's [62](#page=62)?
2. Hoe verschilt de diagnose en behandeling tussen de rondes [62](#page=62)?
3. Wat is het effect van informatie-uitwisseling (netwerk) op de gekozen behandeling [62](#page=62)?
4. Wat is het verband tussen de bijstelling van de diagnose in de laatste ronde en de fout in de diagnose in de eerste ronde [62](#page=62)?
#### 5.1.2 Beschrijvende analyse
Om de eerste onderzoeksvraag te beantwoorden ("Is er in de eerste ronde een verschil in behandeling tussen beide video's?"), wordt gekeken naar de afhankelijkheid van de behandeling van het type video. Hierbij is het type video de verklarende variabele en de gekozen behandeling de uitkomstvariabele. De groepen (artsen die de video van de witte man zagen en artsen die de video van de zwarte vrouw zagen) worden beschouwd als onafhankelijke groepen [63](#page=63).
De gekozen behandeling is een categorische variabele met vier mogelijke waarden (A, B, C, D), die ook als vier binaire variabelen behandeld kan worden (bijv. "Behandeling A gekozen: Ja/Nee"). Kruistabellen met voorwaardelijke relatieve frequenties tonen verschillen: behandelingen A en D werden vaker toegekend aan de zwarte vrouwelijke patiënt, terwijl behandeling B en C vaker aan de witte mannelijke patiënt werden toegekend [63](#page=63) [64](#page=64).
Het risicoverschil ($f\_{WM} - f\_{ZV}$) kwantificeert de samenhang tussen de gekozen behandeling en de video. Verschillen rond nul duiden op geen samenhang, terwijl waarden verschillend van nul op samenhang wijzen. In de steekproef waren deze verschillen aanwezig, zij het klein [64](#page=64).
#### 5.1.3 Inductieve analyse
Bij de inductieve analyse staat het toevalsproces centraal. Er wordt getest of de kans op het kiezen van behandeling C even groot is voor beide video's [65](#page=65).
**Hypothesen:**
* Nulhypothese ($H\_0$): De kans om behandeling C te kiezen hangt niet af van het type video ($p\_{WM} = p\_{ZV}$) [65](#page=65).
* Alternatieve hypothese ($H\_a$): De kans om behandeling C te kiezen hangt af van het type video ($p\_{WM} \\neq p\_{ZV}$) [65](#page=65).
Hierbij is $p\_{WM}$ de kans op het kiezen van behandeling C na het zien van de video met de witte mannelijke patiënt, en $p\_{ZV}$ de kans na het zien van de video met de zwarte vrouwelijke patiënt. De hypotheses kunnen ook geformuleerd worden in termen van het verschil tussen deze kansen [65](#page=65).
**Nulverdeling opstellen:** De nulverdeling kan worden opgesteld via permutaties. Als $H\_0$ waar is, dan maakt het type video niet uit voor de behandelkeuze. De keuzes van beide groepen kunnen worden samengevoegd om de kans op het kiezen van de correcte behandeling te schatten, wat resulteert in de gepoolde proportie ($p$) [65](#page=65) [66](#page=66) [67](#page=67).
$$p = \\frac{\\text{totaal aantal correcte behandelingen}}{\\text{totaal aantal artsen}} = \\frac{n\_{C,WM} + n\_{C,ZV}}{N\_1 + N\_2}$$ [66](#page=66).
De nulverdeling wordt verkregen door de volgende stappen vele malen te herhalen [66](#page=66):
1. Permuteer de data, waarbij de uitkomsten van de artsen van groep wisselen [68](#page=68).
2. Bereken de proporties per groep [68](#page=68).
3. Bereken het verschil tussen beide proporties [68](#page=68).
Dit proces kan worden vergeleken met het schudden van kaarten, waarbij elke kaart een arts voorstelt met de keuze voor de behandeling [68](#page=68).
De geobserveerde toetsingsgrootheid is het verschil tussen de geobserveerde proporties ($t = p\_{WM} - p\_{ZV}$). De p-waarde is de proportie waarden in de nulverdeling die minstens even extreem zijn als de geobserveerde toetsingsgrootheid [61](#page=61) [66](#page=66) [67](#page=67).
> **Tip:** Bij het opstellen van de p-waarde wordt vaak de absolute waarde van de toetsingsgrootheid genomen om een tweezijdige toets te simuleren [67](#page=67).
#### 5.1.4 Betrouwbaarheidsinterval
Een betrouwbaarheidsinterval kan ook worden berekend voor het verschil tussen twee proporties [67](#page=67) [69](#page=69).
#### 5.1.5 Formules en voorwaarden
Voor het vergelijken van proporties met formules gelden de volgende overwegingen [69](#page=69):
$$ \\text{Risicoverschil (RV)} = p\_1 - p\_2 $$ [69](#page=69).
$$ \\text{Standaardfout van het risicoverschil (SE)} = \\sqrt{\\frac{p\_1(1-p\_1)}{n\_1} + \\frac{p\_2(1-p\_2)}{n\_2}} $$ [69](#page=69).
$$ \\text{Toetsingsgrootheid (z)} = \\frac{RV - 0}{SE} $$ [69](#page=69).
**Voorwaarden voor formulegebruik:**
* De observaties moeten onderling onafhankelijk zijn [69](#page=69).
* Voor elke waarde van de binaire variabele moeten er minstens 10 observaties zijn (d.w.z. minstens 10 artsen die een correcte behandeling kozen en minstens 10 die een foutieve behandeling kozen) [69](#page=69).
#### 5.1.6 Het multipliciteitsprobleem en p-hacking
Bij het toetsen van meerdere hypotheses neemt de kans op een Type 1-fout toe [70](#page=70).
**Multipliciteitsprobleem:** Naarmate meer hypothesetoetsen worden uitgevoerd, stijgt de kans op ten minste één Type 1-fout [70](#page=70).
**Oplossingen:**
* **Bonferroni-correctie:** Voor $k$ toetsen wordt elk significantieniveau verlaagd naar $\\alpha/k$. Dit verhoogt echter de kans op een Type 2-fout [70](#page=70).
* **Grote steekproef:** Een grotere steekproefgrootte verkleint de kans op een Type 2-fout [70](#page=70).
* **Exploratieve analyse:** Als de Bonferroni-correctie niet wordt toegepast, moeten de resultaten als exploratief worden beschouwd [70](#page=70).
**No go: P-hacking:** Het uitvoeren van vele hypothesetoetsen en enkel het rapporteren van statistisch significante resultaten, wat leidt tot een vertekend beeld van de evidentie [70](#page=70).
#### 5.1.7 Het effect van het netwerk
De impact van informatie-uitwisseling tussen een netwerk van artsen op behandelbeslissingen kan worden geanalyseerd. Dit kan bijvoorbeeld door de diagnose en behandeling in de eerste ronde (individueel) te vergelijken met latere rondes waar netwerkinteractie mogelijk is [62](#page=62) [71](#page=71).
### 5.2 Vergelijken van gemiddelden van twee onafhankelijke groepen
Om te onderzoeken of de gemiddelde diagnose in de eerste ronde afhangt van het type video, vergelijken we de gemiddelden van twee onafhankelijke groepen. Hierbij is het type video de verklarende variabele en de gekozen diagnose de numerieke uitkomstvariabele [71](#page=71).
#### 5.2.1 Inductieve analyse
Bij het vergelijken van gemiddelden is de parameter van het toevalsproces het populatiegemiddelde ($\\mu$ of $E(Y)$), in plaats van een kans ($p$) [72](#page=72).
**Hypothesen:**
* Nulhypothese ($H\_0$): Het populatiegemiddelde van de diagnose hangt niet af van het type video ($\\mu\_{WM} = \\mu\_{ZV}$) [72](#page=72).
* Alternatieve hypothese ($H\_a$): Het populatiegemiddelde van de diagnose hangt wel af van het type video ($\\mu\_{WM} \\neq \\mu\_{ZV}$) [72](#page=72).
Deze hypotheses kunnen ook geformuleerd worden in termen van het verschil tussen de gemiddelden: $\\mu\_{WM} - \\mu\_{ZV} = 0$ versus $\\mu\_{WM} - \\mu\_{ZV} \\neq 0$ [72](#page=72).
**Toetsingsgrootheid:** De toetsingsgrootheid is het verschil tussen de steekproefgemiddelden ($\\bar{x}\_1 - \\bar{x}\_2$) [72](#page=72).
**Nulverdeling:** De nulverdeling kan, net als bij proporties, worden verkregen via permutaties. De permutatiestrategie beschrijft het toevalsproces goed als de observaties onderling onafhankelijk zijn [72](#page=72).
#### 5.2.2 Formules
Voor het vergelijken van gemiddelden gelden de volgende formules [73](#page=73):
$$ \\text{Populatiegemiddelde} = \\mu \\text{ of } E(Y) $$ [73](#page=73).
$$ \\text{Populatiestandaardafwijking} = s \\text{ of } s\_Y $$ [73](#page=73).
$$ \\text{Toetsingsgrootheid} = \\frac{(\\bar{x}\_1 - \\bar{x}\_2) - (\\mu\_1 - \\mu\_2)}{\\sqrt{\\frac{s\_1^2}{n\_1} + \\frac{s\_2^2}{n\_2}}} $$ [73](#page=73).
**Centrale Limietstelling:** De centrale limietstelling stelt dat, onder bepaalde voorwaarden (zoals onafhankelijke observaties), de steekproefverdeling van het gemiddelde bij benadering normaal verdeeld is, zelfs als de onderliggende populatieverdeling niet normaal is, mits de steekproefgrootte groot genoeg is [73](#page=73).
#### 5.2.3 De t-verdeling
De t-verdeling wordt gebruikt wanneer de populatiestandaardafwijking onbekend is en geschat wordt uit de steekproef. De vorm van de t-verdeling hangt af van de steekproefgrootte ($n$) en wordt genoteerd als $T \\sim t\_n$. De t-verdeling lijkt op een standaardnormale verdeling, maar de kritische waarden verschillen. Het verschil tussen de t-verdeling en de standaardnormale verdeling wordt kleiner naarmate $n$ groter wordt. Software maakt vaak gebruik van deze verdeling [74](#page=74).
### 5.3 Analyse van experimentele studies en causaliteit
Experimentele studies, met name die gebruik maken van randomisatie, zijn cruciaal voor het trekken van causale conclusies. Door deelnemers willekeurig toe te wijzen aan verschillende condities (bijvoorbeeld een interventiegroep en een controlegroep), wordt gezorgd dat de groepen vergelijkbaar zijn op alle mogelijke confounders, behalve de interventie zelf. Dit minimaliseert de kans dat waargenomen verschillen worden veroorzaakt door andere factoren dan de interventie. De analyse van dergelijke studies richt zich op het kwantificeren van het effect van de interventie, vaak uitgedrukt als een risicoverschil of een verschil in gemiddelden [62](#page=62).
* * *
## Veelgemaakte fouten om te vermijden
* Bestudeer alle onderwerpen grondig voor examens
* Let op formules en belangrijke definities
* Oefen met de voorbeelden in elke sectie
* Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Empirische cyclus | Een systematisch proces van wetenschappelijk onderzoek dat begint met observatie, gevolgd door inductie voor het formuleren van hypotheses, deductie voor het opstellen van voorspellingen, toetsing van deze voorspellingen met nieuw data, en evaluatie van de resultaten. |
| Inductie | Het proces waarbij hypotheses worden geformuleerd op basis van verzamelde observaties of empirisch feitenmateriaal. Dit is de tweede stap in de empirische cyclus. |
| Deductie | Het proces waarbij voorspellingen worden opgesteld op basis van geformuleerde hypotheses. Dit is de derde stap in de empirische cyclus. |
| Toetsing | Het aftoetsen van een opgestelde voorspelling aan de hand van nieuw verzameld empirisch feitenmateriaal. Dit is de vierde stap in de empirische cyclus. |
| Evaluatie | Het kritisch beoordelen van het resultaat van de toetsing. Dit is de laatste stap in de empirische cyclus en leidt vaak tot nieuwe observaties of aanpassingen van hypotheses. |
| Statistiek | De wetenschap die zich bezighoudt met het leren uit data, inclusief het meten, controleren en communiceren van onzekerheid. Het speelt een rol in diverse fasen van de empirische cyclus. |
| Statistische geletterdheid | Het vermogen om te redeneren met behulp van statistiek en data. Dit wordt beschouwd als een sleutelvaardigheid in de hedendaagse datagedreven wereld. |
| Observationele eenheden | De eenheden waarvoor men data zal verzamelen tijdens een onderzoek. Dit kunnen individuen, objecten of gebeurtenissen zijn. |
| Steekproefkader | De lijst met informatie over de personen of elementen in de populatie die gebruikt wordt om de steekproef samen te stellen. Het is essentieel voor representatieve steekproeftrekking. |
| Enkelvoudige aselecte steekproeftrekking (EAS) | Een methode van steekproeftrekking waarbij elke mogelijke steekproef dezelfde kans heeft om gekozen te worden, wat impliceert dat elk element in het steekproefkader dezelfde kans heeft om in de steekproef te belanden. |
| Gestratificeerde steekproeftrekking | Een methode waarbij de populatie wordt onderverdeeld in subgroepen (strata) en vervolgens binnen elk stratum een enkelvoudige aselecte steekproeftrekking wordt uitgevoerd. |
| Gemakshalve steekproeftrekking (convenience sampling) | Een methode waarbij personen die het makkelijkst bereikbaar zijn, een grotere kans hebben om in de steekproef te worden opgenomen. Dit kan leiden tot selectiebias. |
| Non-respons bias | Een vorm van bias die ontstaat wanneer de personen die niet deelnemen aan een onderzoek systematisch verschillen van degenen die wel deelnemen, wat de representativiteit van de steekproef kan beïnvloeden. |
| Variabelen | Karakteristieken van de observationele eenheden die men wenst te onderzoeken. Deze kunnen variëren tussen de eenheden. |
| Operationaliseren | Het proces waarbij abstracte concepten of eigenschappen meetbaar worden gemaakt voor wetenschappelijk onderzoek. |
| Analysestrategie/protocol | Een gedetailleerd plan dat beschrijft hoe een studie zal worden uitgevoerd, inclusief het doel, de te meten variabelen, de onderzoekshypotheses, de steekproefmethode en de statistische analysemethoden. |
| Cross-sectionele studie | Een type studie waarbij variabelen slechts op één specifiek moment in de tijd worden bevraagd of gemeten. |
| Longitudinale studie | Een type studie waarbij één of meerdere variabelen op verschillende momenten in de tijd worden bevraagd of gemeten om veranderingen over tijd te bestuderen. |
| Observationele studie | Een type studie waarbij men enkel observeert zonder een interventie uit te voeren. De onderzoeker grijpt niet in, maar registreert wat er gebeurt. |
| Experimentele studie | Een type studie waarbij een interventie wordt uitgevoerd om de impact van die interventie te onderzoeken. De onderzoeker manipuleert een variabele om effecten te meten. |
| HARKing (Hypothesizing After the Results are Known) | Een werkwijze waarbij onderzoekshypotheses worden opgesteld nadat de resultaten van de data-analyse al bekend zijn. Dit is in strijd met de empirische cyclus en de wetenschappelijke methode. |
| Beschrijvende analyse | Het gebruik van statistische methoden om inzicht te krijgen in de data, vaak door middel van tabellen, samenvattende maten en grafische voorstellingen. |
| Univariate verdeling | De verdeling van één enkele variabele, die weergeeft welke waarden de variabele kan aannemen en hoe vaak elke waarde voorkomt. |
| Absolute frequentie | Het aantal keren dat een specifieke waarde van een variabele voorkomt in een dataset. |
| Relatieve frequentie | De absolute frequentie gedeeld door de totale steekproefgrootte; ook wel proportie genoemd. Het geeft het aandeel van een bepaalde waarde weer. |
| Odds | De verhouding tussen het aantal keren dat een waarde van een variabele wordt aangenomen en het aantal keren dat een andere waarde wordt aangenomen. |
| Kwalitatieve variabele (categorisch) | Een variabele waarvan de waarden geen numerieke betekenis hebben en die kan worden ingedeeld in categorieën. Dit kan nominaal (niet-geordend) of ordinaal (geordend) zijn. |
| Kwantitatieve variabele (numeriek) | Een variabele waarvan de waarden numeriek zijn en betekenisvolle berekeningen mogelijk maken. Dit kan interval (geen absoluut nulpunt) of ratio (wel een absoluut nulpunt) zijn, en discreet (beperkt aantal waarden) of continu (veel waarden) zijn. |
| Nominale variabele | Een kwalitatieve variabele waarvan de waarden niet op een logische volgorde geplaatst kunnen worden, zoals geslacht of kleur. |
| Ordinale variabele | Een kwalitatieve variabele waarvan de waarden wel op een logische volgorde geplaatst kunnen worden, zoals opleidingsniveau of rangorde. |
| Intervalvariabele | Een kwantitatieve variabele waarbij de verschillen tussen waarden betekenisvol zijn, maar er geen absoluut nulpunt is, zoals temperatuur in Celsius. |
| Ratio variabele | Een kwantitatieve variabele waarbij de verschillen tussen waarden betekenisvol zijn en er een absoluut nulpunt is, zoals lengte of gewicht. |
| Discrete variabele | Een kwantitatieve variabele die slechts een beperkt, telbaar aantal waarden kan aannemen, zoals het aantal kinderen. |
| Continue variabele | Een kwantitatieve variabele die een oneindig aantal waarden kan aannemen binnen een bepaald bereik, zoals lengte of tijd. |
| Binaire variabele | Een variabele die slechts twee mogelijke waarden kan aannemen, zoals ja/nee of succes/falen. |
| Staafdiagram | Een grafische weergave die de frequentie of relatieve frequentie van categorieën van een variabele toont met behulp van rechthoekige staven. |
| Centrummaten | Statistische maten die een indicatie geven van het midden of centrum van een dataset, zoals het gemiddelde en de mediaan. |
| Spreidingsmaten (variatie) | Statistische maten die de mate van verspreiding of variabiliteit van de data rond het centrum kwantificeren, zoals de variatiebreedte, standaardafwijking en interkwartielafstand. |
| Variatiebreedte | Een eenvoudige spreidingsmaat die gelijk is aan het verschil tussen de maximale en minimale waarde van een variabele. |
| Standaardafwijking (standaarddeviatie) | Een spreidingsmaat die de gemiddelde afstand van de waarden tot het steekproefgemiddelde weergeeft. |
| Variantie | Het kwadraat van de standaardafwijking; een maat voor de spreiding van data. |
| Interkwartielafstand (IKA) | Een spreidingsmaat die gelijk is aan het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1). Het geeft de spreiding van de middelste 50% van de data weer. |
| Kwartielen | Waarden die een dataset opdelen in vier gelijke delen. Q1 is de waarde waaronder 25% van de data ligt, Q2 (de mediaan) is de waarde waaronder 50% ligt, en Q3 is de waarde waaronder 75% ligt. |
| Histogram | Een soort staafdiagram dat wordt gebruikt voor gegroepeerde numerieke data, waarbij de breedte van de staven de klasse-intervallen vertegenwoordigt en de hoogte de frequentie. |
| Boxplot | Een grafische weergave die de verdeling van data samenvat met behulp van kwartielen, de mediaan en de extreme waarden (uitschieters). |
| Uitschieter | Een datapunt dat significant afwijkt van de rest van de data, vaak gedefinieerd als een waarde die meer dan 1.5 keer de IKA buiten Q1 of Q3 ligt. |
| Symmetrische verdeling | Een verdeling waarbij de linker- en rechterhelft spiegelbeeldig zijn rond het centrum; de mediaan ligt in het midden en de staarten zijn ongeveer even lang. |
| Scheve verdeling | Een verdeling die niet symmetrisch is. Bij een verdeling scheef naar links is de staart aan de linkerkant langer; bij een verdeling scheef naar rechts is de staart aan de rechterkant langer. |
| Bivariate verdeling | De verdeling van twee variabelen gezamenlijk, waarbij men geïnteresseerd is in hun onderlinge samenhang. |
| Kruistabel | Een tabel die de bivariate verdeling van twee categorische variabelen weergeeft, waarbij de waarden van de ene variabele worden gekruist met de waarden van de andere. |
| Voorwaardelijke relatieve frequentie | De relatieve frequentie van een bepaalde waarde binnen een specifieke subgroep van de steekproef, berekend ten opzichte van het kolom- of rijgetal. |
| Risicoverschil | Het verschil tussen de voorwaardelijke relatieve frequenties van een uitkomst in twee verschillende groepen. |
| Relatief risico | De verhouding van twee voorwaardelijke relatieve frequenties; het geeft aan hoe veel vaker een gebeurtenis optreedt in de ene groep vergeleken met de andere. |
| Odds ratio | De verhouding van twee voorwaardelijke odds; het kwantificeert de associatie tussen twee variabelen in een kruistabel. |
| Spreidingsdiagram | Een tweedimensionale grafiek waarop de waarden van twee numerieke variabelen tegen elkaar worden uitgezet om hun samenhang te visualiseren. |
| Correlatiecoëfficiënt (Rxy) | Een maat die de sterkte en richting van de lineaire samenhang tussen twee numerieke variabelen aangeeft, met waarden tussen -1 en 1. |
| Regressierechte | De best passende rechte door een puntenwolk in een spreidingsdiagram, die wordt gebruikt om de relatie tussen twee variabelen te modelleren en voorspellingen te doen. |
| Causaliteit | Een oorzaak-gevolgrelatie tussen twee variabelen, waarbij veranderingen in de ene variabele directe veranderingen in de andere veroorzaken. |
| Contrafeitelijk denken | Het zich voorstellen hoe de werkelijkheid eruit zou zien bij een bepaalde interventie zonder dat deze daadwerkelijk is uitgevoerd. |
| Confounder | Een variabele die de relatie tussen twee andere variabelen kan verstoren of verwarren, omdat deze samenhangt met zowel de onafhankelijke als de afhankelijke variabele. |
| Steekproefvariabiliteit | Variabiliteit in samenvattende maten (zoals het steekproefgemiddelde) die optreedt wanneer een studie herhaaldelijk wordt uitgevoerd met verschillende steekproeven. |
| Kansmodel | Een wiskundige weergave van de werkelijkheid die rekening houdt met de rol van toeval bij steekproeftrekking. Het wordt gebruikt om data te genereren en kansen te berekenen. |
| Inductieve analyse (inferentiële analyse) | Statistische analyses die gebruikmaken van kansmodellen om steekproefvariabiliteit in rekening te brengen en conclusies te trekken die verder reiken dan de geobserveerde data. |
| Toevalsproces | Een herhaalbaar proces waarbij de individuele uitkomsten op voorhand onbekend zijn, maar een patroon vertonen bij voldoende herhalingen. Data uit wetenschappelijke studies worden vaak beschouwd als een momentopname van een toevalsproces. |
| Experimentele eenheden | De eenheden (vaak personen) die worden bestudeerd in een experimentele studie en waarvoor data wordt verzameld. |
| Balanceren | Het gelijk verdelen van de waarden van een variabele over de onderzoekseenheden om mogelijke confounders uit te schakelen. |
| Blinderen | Het achterhouden van bepaalde informatie voor deelnemers of onderzoekers tijdens een studie om ongewenste invloeden te elimineren, zoals in dubbel-blinde studies. |
| Nulhypothese (H0) | Een bewering of aanname over het toevalsproces (de populatie) die wordt getoetst. Het stelt vaak dat er geen effect of verschil is. |
| Alternatieve hypothese (Ha) | Een bewering die het tegenovergestelde stelt van de nulhypothese en die wordt aangenomen als de nulhypothese wordt verworpen. |
| Toetsingsgrootheid (statistiek) | Een statistiek die wordt berekend op basis van de steekproefgegevens en die informatie geeft over de hypotheses die worden getoetst. |
| Geobserveerde toetsingsgrootheid | De waarde van de toetsingsgrootheid berekend op basis van de werkelijk geobserveerde data. |
| Schatter | Een statistiek die wordt gebruikt om een parameter van het toevalsproces te schatten; de waarde berekend uit de steekproef heet de schatting. |
| Steekproevenverdeling | De verdeling van een statistiek wanneer de studie herhaaldelijk wordt uitgevoerd met nieuwe steekproeven. Het beschrijft de variabiliteit van de statistiek. |
| Binomiale verdeling | Een wiskundige kansverdeling die de kans op een bepaald aantal successen weergeeft bij een vast aantal onafhankelijke pogingen, elk met twee mogelijke uitkomsten (succes/falen). |
| Onafhankelijk | Observaties zijn onafhankelijk als de kennis van de ene observatie geen informatie oplevert over de mogelijke waarden van een andere observatie. |
| Nulverdeling | De steekproevenverdeling van de toetsingsgrootheid onder de aanname dat de nulhypothese waar is. |
| P-waarde | De kans om een toetsingsgrootheid te observeren die minstens even extreem is als de geobserveerde toetsingsgrootheid, in de richting van de alternatieve hypothese, gegeven dat de nulhypothese waar is. |
| Hypothesetoets | Een statistische procedure om te bepalen of er voldoende bewijs is in de data om de nulhypothese te verwerpen ten gunste van de alternatieve hypothese. |
| Eenzijdige hypothese | Een alternatieve hypothese die een specifieke richting van het effect aangeeft (groter dan of kleiner dan). |
| Tweezijdige hypothese | Een alternatieve hypothese die aangeeft dat er een verschil is, zonder specificatie van de richting (ongelijk aan). |
| Significantieniveau (alfa) | Een vooraf vastgelegd drempelwaarde (vaak 0.05) waaronder een p-waarde als statistisch significant wordt beschouwd, wat leidt tot het verwerpen van de nulhypothese. |
| Statistisch significant | Een resultaat dat statistisch significant is wanneer de p-waarde kleiner is dan het significantieniveau, wat aangeeft dat het waarschijnlijk is dat de nulhypothese onjuist is. |
| Type 1-fout | Het verwerpen van de nulhypothese wanneer deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau (alfa). |
| Type 2-fout | Het niet verwerpen van de nulhypothese wanneer deze in werkelijkheid onjuist is. De kans hierop wordt aangeduid met bèta. |
| Betrouwbaarheid | De kans om de nulhypothese niet te verwerpen wanneer deze in werkelijkheid waar is (gelijk aan 1 - alfa). |
| Power | De kans om de nulhypothese te verwerpen wanneer de alternatieve hypothese in werkelijkheid waar is (gelijk aan 1 - bèta). |
| Determinantiecoëfficiënt (R-kwadraat) | De gekwadrateerde correlatiecoëfficiënt, die de proportie van de totale variantie in de uitkomstvariabele weergeeft die verklaard kan worden door de verklarende variabele. |
| Invloedrijke observatie | Een datapunt dat een grote impact heeft op de regressierechte of de correlatiecoëfficiënt, waardoor de resultaten van de analyse aanzienlijk kunnen veranderen. |
| Simpsons paradox | Een fenomeen waarbij de richting van de associatie tussen twee variabelen omkeert wanneer data van verschillende groepen worden gecombineerd, vaak veroorzaakt door een confounder. |
| Betrouwbaarheidsinterval | Een interval van waarden dat, met een bepaalde mate van zekerheid (bv. 95%), de werkelijke populatieparameter bevat. |
| Populatieparameter | Een numerieke eigenschap van het toevalsproces of de populatie die men wenst te bestuderen, zoals een kans (p) of een gemiddelde (µ). |
| Standaardfout (SE) | De standaardafwijking van de steekproevenverdeling van een schatter; het geeft aan hoe sterk de schatter zal variëren als de studie herhaaldelijk zou worden uitgevoerd. |
| Normale verdeling | Een symmetrische, klokvormige kansverdeling die vaak wordt gebruikt om de verdeling van variabelen wiskundig te beschrijven. |
| Standaardnormale verdeling | Een speciaal geval van de normale verdeling met een gemiddelde van 0 en een standaardafwijking van 1. |
| Centrale limietstelling | Een fundamentele stelling in de statistiek die stelt dat de steekproevenverdeling van het steekproefgemiddelde, of de som van onafhankelijke random variabelen, bij benadering normaal verdeeld is naarmate de steekproefgrootte toeneemt, ongeacht de oorspronkelijke verdeling. |
| T-verdeling | Een kansverdeling die lijkt op de standaardnormale verdeling, maar wordt gebruikt bij het schatten van populatiegemiddelden wanneer de populatiestandaardafwijking onbekend is. De vorm hangt af van de vrijheidsgraden (gerelateerd aan de steekproefgrootte). |
| Permutatie | Een techniek waarbij de gegevens van verschillende groepen worden herschikt om een nulverdeling te creëren onder de aanname dat de groepen niet van elkaar verschillen. |
| Multipliciteitsprobleem | Het probleem dat ontstaat wanneer meerdere hypothesetoetsen worden uitgevoerd, wat de kans op het maken van ten minste één Type 1-fout verhoogt. |
| Bonferroni-correctie | Een methode om het significantieniveau aan te passen (te verlagen) bij het uitvoeren van meerdere hypothesetoetsen om de kans op een Type 1-fout te beheersen. |
| P-hacking | Het selectief rapporteren van statistisch significante resultaten uit een reeks uitgevoerde toetsen, wat leidt tot een vertekend beeld van de evidentie. |
| Populatiegemiddelde (verwachtingswaarde) | Het gemiddelde van een variabele over alle mogelijke uitkomsten van een toevalsproces of over de gehele populatie. Wordt genoteerd als µ of E(Y). |
| Populatiestandaardafwijking | De standaardafwijking van de waarden van een variabele over alle mogelijke uitkomsten van een toevalsproces of over de gehele populatie. Wordt genoteerd als s of sy. |
Cover
Statistiek-Samenvatting .pdf
Summary
# Inleiding tot statistiek en de wetenschappelijke methode
Dit onderwerp introduceert de rol van statistiek in het ordenen van variatie en toeval in wetenschappelijk onderzoek, en verklaart de wetenschappelijke methode.
### 1.1 De rol van statistiek in wetenschap
Statistiek helpt bij het scheppen van orde in de chaos die wordt veroorzaakt door variatie en toeval in biologische processen. Biologische variabiliteit betekent dat er nooit direct een definitief antwoord is na het bekijken van gegevens. Het omvat het verzamelen, exploreren en analyseren van wetenschappelijke gegevens. Dit omvat een goede proefopzet, het leren uit data, het kwantificeren, controleren en rapporteren van variabiliteit, en besluitvorming. Statistiek is een essentieel instrument in alle wetenschappen [11](#page=11).
### 1.2 De wetenschappelijke methode
De wetenschappelijke methode (WM) is gericht op het begrijpen van de natuur. Deze methode begint met een theorie, die voorspellingen doet over natuurlijke processen. Observaties worden vervolgens gebruikt om deze theorie te bevestigen of te ontkrachten. Een enkele observatie kan een theorie nooit bewijzen, maar wel ontkrachten (het falsificatieprincipe van Popper) . Theorieën, die aanvankelijk zonder observatie worden gepostuleerd, worden als 'waar' aangenomen nadat ze herhaaldelijk zijn getoetst aan observaties [11](#page=11).
De wetenschappelijke methode kent de volgende componenten [11](#page=11):
* **Theorie (model):** Een denkbeeld over een aspect van het universum dat predicties doet over het gedrag daarvan [11](#page=11).
* **Experiment:** Het vergaren van data uit de natuur die het gedrag representatief en reproduceerbaar weerspiegelt [11](#page=11).
* **Besluitvorming:** Dit is de brug tussen het model en de data, waarbij het model wordt getoetst aan de verzamelde data [11](#page=11).
Het doel van de wetenschappelijke methode is het vergaren van kennis, wat leidt tot nieuwe vragen en onderzoeksvragen. Deze leiden tot de formulering van een hypothese. Een hypothese moet zo geformuleerd worden dat deze verworpen kan worden als deze onwaar is. Dit is cruciaal voor de opzet van een experiment, de analyse van data en de uiteindelijke conclusie [11](#page=11).
De wetenschappelijke methode kent drie hoofddomeinen [11](#page=11):
* **Proefopzet:** Het ontwerp van het experiment.
* **Data-exploratie:** Het exploreren, samenvatten en visualiseren van data.
* **Statistische besluitvorming:** Het veralgemenen van de data.
Methoden worden gebruikt om consistente data te toetsen. Als data consistent zijn, betekent dit niet per se dat ze waar zijn. De manier waarop data worden verkregen is van belang, omdat het model uitgedaagd moet worden. Als het moeilijk is om foute data te vinden, wordt de hypothese als waar aangenomen vanwege de grote waarschijnlijkheid. Inconsistente data leiden tot verwerping van de hypothese [11](#page=11).
De wetenschappelijke methode is een cyclisch proces. Indien een model fout blijkt, wordt het aangepast en worden de stappen opnieuw doorlopen. Reproduceerbaarheid is een cruciaal aspect van wetenschappelijk onderzoek [11](#page=11).
### 1.3 Voorbeeld: Horizon - Homeopathy the test
#### 1.3.1 Wetenschappelijke hypothese in homeopathie
Een observatie was dat granulocyten bij blootstelling aan allergenen granules vrijlaten, wat leidt tot allergie. Een test hierop was het scheiden van actieve en inactieve substanties met kleur om allergie te detecteren door te tellen. Een opvallende bevinding was dat bij sterke verdunning van anti-IgE een degranulatie van basofielen optrad, wat werd gekoppeld aan homeopathie [12](#page=12).
Dit werd getest via de wetenschappelijke methode met de hypothese: "The Memory of Water" . De deductie was dat als een substantie (anti-IgE) sterk wordt verdund en geschud, de informatie naar het water wordt overgedragen. Een experimentele opzet werd ontworpen om dit te testen, gevolgd door interpretatie van de resultaten en verspreiding van de informatie [12](#page=12).
#### 1.3.2 De rol van reproduceerbaarheid en blindering
Reproduceerbaarheid van een experiment werd gecontroleerd. De eerste drie pogingen met hoge activiteit van basofielen slaagden. Echter, de onderzoekers wisten welke monsters met de controle en welke met de te testen substantie waren behandeld, wat leidde tot bias. Door dit op te lossen met dubbele blindering, verdween de reproduceerbaarheid [12](#page=12).
Een fout in de proefopzet was de bias die ontstond doordat de wetenschapper wist hoe alles in elkaar zat. Om dit te voorkomen, werden stalen willekeurig gelabeld met codes die pas werden gebroken na het verzamelen van de data. Dubbele blindering houdt in dat zowel de proefpersoon als de wetenschapper niet weten welke behandeling wordt toegepast. Dit is essentieel in geneesmiddelenonderzoek, waar ook een placebo nodig is om het placebo-effect te controleren [12](#page=12).
#### 1.3.3 De ultieme test: proefopzet
Om de hypothese "The Memory of Water" verder te onderzoeken, werd een verbeterde proefopzet gehanteerd, rekening houdend met gebrekkige controles en slechte reproduceerbaarheid. Een stockoplossing met de actieve stof en een negatieve controle werden gebruikt. Beide ondergingen dezelfde stappen. Er werd een verdunning ondergaan ($2 \times 5^{5C}$), waarbij vijf monsters de actieve stof en vijf de watercontrole bevatten. Deze werden willekeurig gelabeld voor blindering. Na verdere verdunning tot $18C$ werden de monsters opnieuw gelabeld en verwerkt door twee laboratoria. Vervolgens werden granulocyten toegevoegd en geteld met flowcytometrie, waarbij 20 met de actieve stof en 20 met de controle werden vergeleken [12](#page=12).
#### 1.3.4 De ultieme test: data-analyse
Bij data-exploratie bleek dat sommige monsters meer activiteit vertoonden dan andere, wat mogelijk een gevolg was van de verdunning. Marion rapporteerde 9 verdunde (D) monsters en 11 negatieve (C) monsters. Volgens het falsificatieprincipe probeert men niet een hypothese te bewijzen, maar te weerleggen. In dit geval werd geprobeerd aan te tonen dat controle (C) en de verdunde (D) monsters niet hetzelfde effect hadden. Als er geen verschil is tussen C en D, zou dit betekenen dat in 37,6% van de gevallen minimaal 11 van de 20 correcte resultaten door toeval verkregen zouden kunnen worden. Dit geeft geen bewijs voor een verschil. Het aantal positieve tests wordt gebruikt om de bewijskracht te bepalen via kansberekening: $p = P(\text{ten minste } x \text{ correcte positieve tests } | \text{ effect } D = \text{ effect } C)$ ] [12](#page=12).
#### 1.3.5 Mogelijke fouten in conclusies
Conclusies kunnen worden beïnvloed door willekeurige variabiliteit. Zelfs als het aantal D-monsters gelijk is aan het aantal C-monsters, kan het voorkomen dat 15 correcte resultaten door toeval worden verkregen (een kans van 2 op 1000) . Dit kan leiden tot de onjuiste conclusie dat D werkt, terwijl er geen werkelijk verschil is. Er kan nooit met absolute zekerheid uitspraken worden gedaan over eindige steekproeven [13](#page=13).
---
# Concepten, studiedesigns en data-exploratie
Dit deel introduceert fundamentele statistische concepten, verschillende studiedesigns en technieken voor data-exploratie en beschrijvende statistiek om gegevens te begrijpen en samen te vatten.
### 2.1 Variabelen
Een variabele is een karakteristiek die varieert per subject. Variabelen kunnen worden ingedeeld in kwalitatieve en numerieke types [14](#page=14).
#### 2.1.1 Kwalitatieve variabelen
Kwalitatieve variabelen hebben een beperkt aantal uitkomsten en zijn niet numeriek. Ze worden onderverdeeld in:
* **Nominale variabelen**: Categorieën zonder inherente ordening (bv. geslacht) [14](#page=14).
* **Ordinale variabelen**: Categorieën met een eigen ordening (bv. opleidingsniveau) [14](#page=14).
#### 2.1.2 Numerieke variabelen
Numerieke variabelen kunnen discreet of continu zijn:
* **Discrete variabelen**: Worden verkregen door tellingen (bv. aantal kinderen) [14](#page=14).
* **Continue variabelen**: Kunnen elke waarde aannemen binnen bepaalde grenzen en zijn meetbaar (bv. lengte, gewicht) [14](#page=14).
Het is soms nodig om continue variabelen te dichotomiseren (bv. bloeddruk in hypertensie/normotensie) of af te ronden, wat echter leidt tot informatieverlies. Numerieke rangen toekennen aan ordinale variabelen (codes) geeft geen wiskundige betekenis aan de codes zelf [14](#page=14).
### 2.2 Populatie en steekproef
Het doel van veel statistisch onderzoek is om uitspraken te doen over een gehele populatie. Aangezien het zelden mogelijk is om de hele populatie te onderzoeken, wordt een steekproef gebruikt [14](#page=14) [15](#page=15).
* **Populatie**: De gehele groep subjecten of de verzameling van alle mogelijke uitkomsten waarover men uitspraken wil doen. Dit kan een theoretisch concept zijn, met name bij continue verandering of interesse in toekomstige subjecten [14](#page=14).
* **Steekproef**: Een deelverzameling van de populatie die wordt onderzocht om conclusies te trekken over de populatie. Een representatieve steekproef is cruciaal voor de validiteit van de conclusies [14](#page=14) [15](#page=15).
* **Inclusie- en exclusiecriteria**: Bepalen welke subjecten wel of niet tot de steekproef mogen behoren [14](#page=14).
### 2.3 Toevalsveranderlijken
Een toevalsveranderlijke (hoofdletter, bv. $X$) vertegenwoordigt een variabele karakteristiek die aan random variabiliteit onderhevig is. Het resultaat van een toevallige trekking van een individu uit een populatie. De waargenomen waarde van een toevalsveranderlijke wordt met een kleine letter aangeduid (bv. $x$) [15](#page=15).
De spreiding van gegevens rond de centrale waarde is belangrijk voor de nauwkeurigheid van uitspraken. De verdeling van een toevalsveranderlijke beschrijft de waarschijnlijkheid om een bepaalde waarde te observeren. Dit kan worden weergegeven door een densiteitsfunctie $f(X)$ [15](#page=15).
### 2.4 Beschrijven van de populatie en schatten van de verdeling
De populatie kan worden beschreven door een verdeling, vaak benaderd met een normale verdeling, gekarakteriseerd door een gemiddelde ($\mu$) en variantie ($\sigma^2$). Kansen op waarden binnen bepaalde intervallen kunnen worden berekend met behulp van de cumulatieve distributiefunctie $F(x)$ [15](#page=15).
De verdeling in de populatie is vaak ongekend en wordt geschat uit de steekproefgegevens [15](#page=15).
* **Histogram**: Een grafische weergave die de frequentie van waarden binnen bepaalde intervallen toont, waarbij de oppervlakte van de balken de kans weergeeft [15](#page=15).
* **Samenvattingsmaten**: Gemiddelde en variantie worden geschat uit de steekproef om de populatieparameters te benaderen [15](#page=15).
#### 2.4.1 Statistieken
Statistieken zijn formules of berekeningen op basis van steekproefgegevens die worden gebruikt om populatieparameters te schatten. Populatieparameters worden doorgaans aangeduid met Griekse letters (bv. $\mu$, $\sigma^2$), terwijl statistieken met Romeinse letters worden weergegeven (bv. $\bar{x}$, $s^2$) [16](#page=16).
### 2.5 Studiedesign
Een goed studiedesign is cruciaal voor het verkrijgen van betrouwbare conclusies en het beperken van fouten. Studiedesigns kunnen worden onderverdeeld in experimentele en observationele studies [17](#page=17).
#### 2.5.1 Steekproefdesigns
Het selecteren van subjecten voor een studie is essentieel voor de veralgemeenbaarheid van de resultaten. Diverse steekproefdesigns bestaan [17](#page=17):
* **Eenvoudige lukrake steekproeftrekking**: Elk subject heeft een gelijke kans om geselecteerd te worden [17](#page=17).
* **Haphazard sampling**: Een minder formele manier van steekproefverzameling [17](#page=17).
* **Gestratificeerde lukrake steekproeven**: Populatie wordt opgedeeld in strata, waarna er binnen elk stratum een eenvoudige lukrake steekproef wordt getrokken [17](#page=17).
* **Geclusterde steekproeftrekking**: Populatie wordt opgedeeld in clusters, en er wordt een lukrake steekproef van clusters getrokken, gevolgd door een steekproef binnen die clusters [17](#page=17).
* **Systematische steekproeven**: Subjecten worden op vaste, niet-lukrake afstanden gekozen [17](#page=17).
**Replicatie**: Herhaalde observaties zijn essentieel om ruis te onderdrukken en variabiliteit te beoordelen. Pseudoreplicatie, waarbij meerdere metingen binnen eenzelfde experimentele eenheid worden gedaan alsof het onafhankelijke replicaties zijn, kan leiden tot overschatting van significantie [17](#page=17).
#### 2.5.2 Experimentele studies
In experimentele studies worden condities gecontroleerd om het effect van interventies te onderzoeken [18](#page=18).
* **Gerandomiseerde gecontroleerde studie (RCT)**: Subjecten worden willekeurig toegewezen aan verschillende interventiegroepen. Dit minimaliseert confounding en zorgt voor vergelijkbare groepen [18](#page=18).
* **Placebotoediening en blindering**: Gebruikt om het effect van de interventie te isoleren van het placebo-effect en verwachtingen van deelnemers en onderzoekers [19](#page=19).
* **Dubbelblinde studie**: Zowel de deelnemers als de onderzoekers weten niet wie welke interventie krijgt [19](#page=19).
* **Parallelle designs**: Meerdere groepen ontvangen tegelijkertijd verschillende interventies [19](#page=19).
* **Cross-over designs**: Alle subjecten ondergaan sequentieel alle interventies in willekeurige volgorde. Voordeel is dat subjecten met zichzelf vergeleken worden, wat de benodigde steekproefgrootte kan verminderen. Nadelen zijn carry-over effecten en interactie tussen interventie en periode [20](#page=20).
* **Factoriële designs**: Testen de effecten van meerdere interventies tegelijkertijd en evalueren interacties tussen interventies [20](#page=20).
* **Quasi-experimentele designs**: Er is een vergelijking tussen groepen, maar zonder willekeurige allocatie, wat leidt tot potentiële confounding [20](#page=20).
#### 2.5.3 Observationele studies
Observationele studies observeren bestaande groepen die al dan niet verschillende interventies of blootstellingen hebben ondergaan, zonder actieve controle over de condities [20](#page=20).
* **Nadeel**: Gevoelig voor confounding, waarbij verschillen niet enkel door de blootstelling, maar ook door andere, niet gemeten factoren veroorzaakt kunnen worden [20](#page=20).
* **Prospectieve studies**: Identificeren subjecten op basis van blootstelling en volgen ze in de tijd om de uitkomst te observeren (bv. cohortstudies) [21](#page=21).
* **Retrospectieve studies**: Identificeren eerst subjecten met en zonder een bepaalde uitkomst en onderzoeken vervolgens hun blootstellingen uit het verleden (bv. case-controle studies). Deze zijn nuttig voor zeldzame aandoeningen, maar gevoelig voor recall bias [21](#page=21).
* **Niet-gecontroleerde studies**: Missen een controlegroep [21](#page=21).
* **Pre-test/Post-test studies**: Metingen worden gedaan voor en na een interventie zonder controlegroep [22](#page=22).
* **Cross-sectionele surveys**: Meten variabelen op één specifiek tijdstip [22](#page=22).
### 2.6 Data exploratie en beschrijvende statistiek
Data-exploratie omvat het samenvatten en visualiseren van gegevens om een beeld te krijgen van de verdeling, uitschieters te lokaliseren en de correctheid van onderstellingen te controleren [23](#page=23).
#### 2.6.1 Univariate beschrijving van variabelen
Dit houdt in dat elke variabele afzonderlijk wordt onderzocht met behulp van grafieken en samenvattingsmaten.
* **Kwalitatieve nominale variabelen**: Worden beschreven met staafdiagrammen of frequentietabellen, waarbij de y-as het aantal (absolute frequentie) of percentage (relatieve frequentie) weergeeft [23](#page=23).
* **Kwalitatieve ordinale variabelen**: Worden ook beschreven met frequentietabellen of staafdiagrammen, waarbij cumulatieve frequenties nuttig zijn [23](#page=23).
* **Numerieke continue variabelen**:
* **Tak-en-blad diagram (stem-and-leaf plot)**: Een manier om individuele uitkomsten te tonen en tegelijkertijd een idee te geven van de verdeling [23](#page=23).
* **Histogram**: Grafische weergave van frequenties in klassen van gelijke breedte. De keuze van het aantal klassen is belangrijk [24](#page=24).
* **Kernel density schatter**: Een genormaliseerde functie die de dichtheid van gegevens weergeeft [24](#page=24).
* **Boxplot (box and whisker plot)**: Een compacte weergave die percentielen, mediaan en mogelijke uitschieters toont, handig voor groepsvergelijkingen. Uitschieters worden gedefinieerd op basis van hun afstand tot de interkwartielafstand [24](#page=24).
#### 2.6.2 Samenvattingsmaten voor continue variabelen
Deze maten bieden een beknoptere samenvatting dan grafieken.
* **Maten voor centrale ligging**: Beschrijven het centrum van de data.
* **Gemiddelde ($\bar{x}$)**: De som van observaties gedeeld door het aantal observaties. Gevoelig voor outliers [25](#page=25).
* **Mediaan (50% percentiel)**: De middelste waarde in een geordende dataset. Niet gevoelig voor outliers [25](#page=25).
* **Modus**: De waarde die het meest voorkomt. Meest nuttig voor kwalitatieve en discrete numerieke gegevens [25](#page=25).
* **Geometrisch gemiddelde**: Kan nuttiger zijn dan de mediaan bij bepaalde scheve verdelingen [26](#page=26).
* **Spreidingsmaten**: Beschrijven de variatie van de data rond de centrale waarde.
* **Variantie ($s^2$)**: Het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde, gedeeld door $n-1$ [26](#page=26).
* **Standaarddeviatie ($s$)**: De vierkantswortel van de variantie. Wordt gebruikt om referentie-intervallen te definiëren (ongeveer 68% van de waarnemingen binnen $\bar{x} \pm s$, 95% binnen $\bar{x} \pm 2s$) [26](#page=26).
* **Bereik (Range)**: Het verschil tussen de grootste en kleinste waarde. Gevoelig voor outliers [27](#page=27).
* **Interkwartielafstand (IQR)**: Het verschil tussen het 75e en 25e percentiel. Een robuustere maat voor spreiding [27](#page=27).
* **Variatiecoëfficiënt (VC)**: De standaarddeviatie als percentage van het gemiddelde ($VC = \frac{s}{\bar{x}} \times 100\%$). Nuttig voor het vergelijken van spreiding tussen populaties met verschillende gemiddelden [27](#page=27).
#### 2.6.3 De normale benadering van gegevens
Veel datasets vertonen een normale verdeling, gekenmerkt door een symmetrische klokvorm [27](#page=27).
* **Normale dichtheidsfunctie**: $f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$, waarbij $\mu$ het gemiddelde en $\sigma$ de standaarddeviatie is [27](#page=27).
* **Standaardnormale curve**: Een normale curve met een gemiddelde van 0 en een standaarddeviatie van 1 [27](#page=27).
* **Standaardisatie**: Een normale veranderlijke $X$ kan worden omgezet naar een standaardnormale veranderlijke $Z$ met de formule $Z = \frac{X - \mu}{\sigma}$. Dit maakt het mogelijk om kansen te berekenen met behulp van standaardnormale tabellen (ɸ) [27](#page=27).
* **Referentie-interval**: Een interval dat een bepaald percentage (bv. 95% of $1-\alpha$) van de data omvat, berekend als $[\mu - z_{\alpha/2}\sigma, \mu + z_{\alpha/2}\sigma]$ [28](#page=28).
* **QQ-plot (Quantile-Quantile plot)**: Een grafische methode om de normaliteit van gegevens te verifiëren door de geobserveerde percentielen uit te zetten tegen de verwachte percentielen van een normale verdeling. Als de punten op een rechte lijn liggen, is de data waarschijnlijk normaal verdeeld [28](#page=28).
#### 2.6.4 Samenvattingsmaten voor categorische variabelen
Deze maten zijn specifiek voor categorische data.
* **Prospectieve studies en lukrake steekproeven**:
* **Absoluut risicoverschil (ARV)**: Het verschil in kans op een uitkomst tussen twee groepen ($p_T - p_C$) [28](#page=28).
* **Relatief risico (RR)**: De verhouding van de kans op een uitkomst tussen twee groepen ($P_T / P_C$). Een RR van 1 betekent dat de kansen gelijk zijn [29](#page=29).
* **Retrospectieve studies**:
* **Odds**: De verhouding van de kans op een gebeurtenis tot de kans op het uitblijven van die gebeurtenis ($p / (1-p)$) [29](#page=29).
* **Odds Ratio (OR)**: De verhouding van de odds in twee groepen ($odds_T / odds_C$). Bij lage risico's is de OR een goede benadering van de RR [29](#page=29) [30](#page=30).
* **Rates versus risico's**: Een rate meet het aantal gebeurtenissen per eenheid in de populatie gedurende een bepaalde tijdspanne, terwijl een risico de kans op een gebeurtenis binnen een interval is [30](#page=30).
#### 2.6.5 Associaties tussen twee variabelen
Analyse van de relatie tussen twee variabelen.
* **Twee kwalitatieve variabelen**: Beschreven met kruistabellen, die de frequenties in de combinaties van categorieën weergeven [30](#page=30).
* **Eén kwalitatieve en één continue variabele**: Kan worden gevisualiseerd met een dot-plot of boxplot om verschillen tussen groepen te vergelijken [31](#page=31).
* **Twee continue variabelen**:
* **Scatterplot**: Visualiseert de relatie tussen twee continue variabelen [31](#page=31).
* **(Pearson's) Correlatiecoëfficiënt ($r$)**: Meet de sterkte en richting van de lineaire associatie tussen twee variabelen, met waarden tussen -1 en 1 [31](#page=31).
* **Waarschuwingen bij correlatie**: Correlatie impliceert geen causaliteit, kan beïnvloed worden door outliers en niet-lineaire verbanden [32](#page=32).
* **Spearman's rank correlatie**: Een robuustere maat voor associatie die werkt op de rangen van de data, minder gevoelig voor outliers en nuttig voor monotone niet-lineaire verbanden [32](#page=32).
### 2.7 Onvolledige gegevens
Ontbrekende gegevens (missing data) kunnen een probleem vormen in onderzoeken. Methoden zoals het negeren van ontbrekende data kunnen leiden tot vertekende resultaten. Gecensureerde gegevens, waarbij de exacte waarde niet bekend is maar wel een bereik (bv. levensverwachting), vereisen speciale analysemethoden [33](#page=33).
---
# Statistische besluitvorming: hypothesetoetsen en betrouwbaarheidsintervallen
Dit onderwerp behandelt het proces van statistische besluitvorming, inclusief het schatten van populatieparameters met puntschatters en betrouwbaarheidsintervallen, en het toetsen van hypotheses met behulp van t-tests en chi-kwadraat tests [34](#page=34).
### 3.1 Inleiding tot statistische besluitvorming
Statistische besluitvorming stelt ons in staat om op basis van steekproefgegevens uitspraken te doen over een populatie. Het doel is om wetenschappelijke argumenten te leveren die de representativiteit en variabiliteit van de resultaten weerspiegelen. Door een representatieve steekproef te selecteren en populatieparameters (zoals het populatiegemiddelde) te schatten, kunnen we onderzoeksvragen beantwoorden zonder de gehele populatie te bestuderen [34](#page=34).
### 3.2 Captopril voorbeeld: Bloeddrukverlagend effect
Het captopril-voorbeeld illustreert de toepassing van statistische besluitvorming. Hierbij wordt onderzocht of captopril een bloeddrukverlagend effect heeft op populatieniveau door een steekproef van patiënten met hypertensie te bestuderen [34](#page=34).
#### 3.2.1 Proefopzet
De studie maakt gebruik van een gestructureerd design met willekeurige selectie van patiënten. De response variabele is de systolische bloeddruk. Een pre-test/post-test design waarbij patiënten willekeurig worden geselecteerd en hun bloeddruk zowel voor als na de behandeling wordt gemeten, biedt voordelen voor het kwantificeren van het effect. Een nadeel is het ontbreken van een controlegroep, waardoor placebo-effecten niet volledig uitgesloten kunnen worden [34](#page=34) [35](#page=35).
#### 3.2.2 Data exploratie en beschrijvende statistiek
Na het verzamelen van de data is data-exploratie cruciaal om inzicht te krijgen in de verdeling en eigenschappen van de gegevens. Hulpmiddelen zoals boxplots en dotplots zijn nuttig om de effecten te visualiseren. Een dotplot, waarbij de twee bloeddrukmetingen per patiënt worden verbonden, toont direct de bloeddrukdaling na behandeling. Het verschil in systolische druk na en voor de behandeling is een goede maat voor het effect van captopril. Een QQ-plot kan worden gebruikt om de normaliteit van de data te beoordelen, wat van belang is voor verdere modelleren. In het captopril-voorbeeld wordt het gemiddelde verschil in systolische bloeddruk geraamd op -18,93 mmHg met een standaarddeviatie van 9,03 mmHg [34](#page=34) [35](#page=35) [36](#page=36).
#### 3.2.3 Schatten van effecten
Het geschatte effect van captopril in de steekproef, gemeten als het verschil in systolische bloeddruk, kan worden gemodelleerd. Als de QQ-plot geen grote afwijkingen van normaliteit laat zien, kan een normale verdeling worden aangenomen voor de modellering, met het steekproefgemiddelde ($\bar{X}$) als schatter voor het populatiegemiddelde ($\mu$) en de steekproefstandaarddeviatie (S) als schatter voor de populatiestandaarddeviatie ($\sigma$). De vraag of het effect groot genoeg is om te veralgemenen naar het populatieniveau vereist inzicht in de mate van variatie van steekproef tot steekproef [36](#page=36).
### 3.3 Puntschatters: het steekproefgemiddelde
Het steekproefgemiddelde ($\bar{X}$) is een veelgebruikte puntschatter voor het populatiegemiddelde ($\mu$). Als een toevalsveranderlijke varieert de waarde van het steekproefgemiddelde van steekproef tot steekproef. De theoretische verdeling van het steekproefgemiddelde is essentieel om de mate van variatie van een studie te begrijpen en de afwijking van het populatiegemiddelde te bepalen [36](#page=36).
#### 3.3.1 Het steekproefgemiddelde als onvertekende schatter
Onder aanname van representativiteit en willekeurige trekkingen, is het verwachte steekproefgemiddelde gelijk aan het populatiegemiddelde, wat het steekproefgemiddelde een onvertekende schatter maakt. Dit betekent dat $E(\bar{X}) = \mu$ [37](#page=37).
#### 3.3.2 Imprecisie en standaard error
De imprecisie of standaard error (SE) kwantificeert de variabiliteit van het steekproefgemiddelde rond het populatiegemiddelde. De SE is de standaarddeviatie van de schatter. Als de populatiestandaarddeviatie ($\sigma$) onbekend is, wordt de SE geschat met $S / \sqrt{n}$, waarbij S de steekproefstandaarddeviatie is [37](#page=37) [38](#page=38).
##### 3.3.2.1 Standaarddeviatie versus standard error
Het is cruciaal om onderscheid te maken tussen de standaarddeviatie (SD) van individuele observaties en de standaard error (SE) van het steekproefgemiddelde. De SD beschrijft de variabiliteit tussen individuen, terwijl de SE de onzekerheid van de schatter van het populatiegemiddelde weergeeft. De SE daalt met een toenemende steekproefgrootte, terwijl de SD van de populatie constant blijft [38](#page=38).
##### 3.3.2.2 Geclusterde metingen
Wanneer metingen niet onafhankelijk zijn (bv. herhaalde metingen bij dezelfde persoon), heeft dit consequenties voor de berekening van de SE. Geclusterde of gepaarde metingen kunnen leiden tot een hogere SE dan bij onafhankelijke metingen, omdat de tweede meting minder nieuwe informatie toevoegt. Bij gepaarde gegevens, zoals pre- en post-metingen, kan het verschil tussen de metingen worden geanalyseerd, wat de variantie van het verschil kan verlagen en leidt tot een preciezere schatting [38](#page=38) [39](#page=39).
##### 3.3.2.3 Normaal verdeelde gegevens
Voor normaal verdeelde gegevens is het steekproefgemiddelde een zeer efficiënte schatter voor het populatiegemiddelde, omdat het de kleinste standaard error heeft [39](#page=39).
#### 3.3.3 Verdeling van het steekproefgemiddelde
Als de individuele observaties normaal verdeeld zijn met gemiddelde $\mu$ en variantie $\sigma^2$, dan is het steekproefgemiddelde ook normaal verdeeld met gemiddelde $\mu$ en variantie $\sigma^2/n$. Volgens de Centrale Limietstelling (CLT) geldt dat bij een voldoende grote steekproefgrootte ($n$), de verdeling van het steekproefgemiddelde steeds beter benaderd wordt door een normale verdeling met gemiddelde $\mu$ en variantie $\sigma^2/n$, ongeacht de oorspronkelijke verdeling van de observaties [39](#page=39).
### 3.4 Intervalschatters
Intervalschatters, zoals betrouwbaarheidsintervallen, geven een reeks waarden aan waarbinnen de populatieparameter met een bepaalde waarschijnlijkheid verwacht kan worden [39](#page=39).
#### 3.4.1 Gekende variantie op de metingen
Als de populatievariantie ($\sigma^2$) bekend is en de observaties normaal verdeeld zijn, volgt het steekproefgemiddelde een normale verdeling $N(\mu, \sigma^2/n)$. Een 95%-betrouwbaarheidsinterval (BI) voor $\mu$ wordt dan berekend als $\bar{X} \pm 1.96 \frac{\sigma}{\sqrt{n}}$. Het betrouwbaarheidsniveau van (1 - $\alpha$)100% geeft de kans aan dat het interval de ware populatieparameter bevat. De breedte van het betrouwbaarheidsinterval wordt beïnvloed door het betrouwbaarheidsniveau, de standaarddeviatie ($\sigma$), en de steekproefgrootte ($n$) [40](#page=40).
#### 3.4.2 Ongekende variantie op metingen
Wanneer de populatievariantie ongekend is, wordt deze geschat met de steekproefvariantie ($S^2$). Voor kleine steekproeven leidt dit tot een gestandaardiseerde waarde die een t-verdeling volgt met $n-1$ vrijheidsgraden. De t-verdeling heeft zwaardere staarten dan de normale verdeling, wat resulteert in bredere betrouwbaarheidsintervallen. Een (1 - $\alpha$)100%-betrouwbaarheidsinterval voor $\mu$ met ongekende variantie wordt berekend als $\bar{X} \pm t_{n-1, \alpha/2} \frac{S}{\sqrt{n}}$, waarbij $t_{n-1, \alpha/2}$ het (1 - $\alpha$/2) kwantiel van de t-verdeling met $n-1$ vrijheidsgraden is [41](#page=41).
#### 3.4.3 Interpretatie van betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval geeft de range aan waarbinnen de ware populatieparameter met een bepaalde kans ligt. Het is belangrijk te beseffen dat de grenzen van het interval toevalsveranderlijk zijn en variëren met elke steekproef. Bij het interpreteren van een BI concluderen we dat er een kans van (1 - $\alpha$) is dat het interval de populatieparameter bevat [41](#page=41) [42](#page=42).
#### 3.4.4 Wat rapporteren?
Het rapporteren van betrouwbaarheidsintervallen is essentieel voor het communiceren van de onzekerheid rond schattingen. Dit voorkomt misleidende conclusies op basis van een enkele schatting [42](#page=42).
### 3.5 Principe van hypothesetoetsen
Hypothesetoetsen worden gebruikt om te bepalen of een waargenomen effect in een steekproef significant is of te wijten is aan toeval. Het principe is gebaseerd op falsificatie: het trachten te ontkrachten van een nulhypothese ($H_0$) [42](#page=42).
#### 3.5.1 Hypotheses
Er worden twee hypothesen geformuleerd: de nulhypothese ($H_0$), die de status quo of de afwezigheid van een effect representeert, en de alternatieve hypothese ($H_A$), die stelt wat bewezen dient te worden (bv. een effect) [42](#page=42).
#### 3.5.2 Test-statistiek
Een test-statistiek wordt geconstrueerd om de evidentie in de steekproef tegen de nulhypothese te meten. Voor het captopril-voorbeeld is de t-statistiek $t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}$ een geschikte test-statistiek, waarbij $\mu_0$ de waarde van het populatiegemiddelde onder de nulhypothese is (vaak 0). Onder de nulhypothese volgt deze t-statistiek een t-verdeling met $n-1$ vrijheidsgraden [43](#page=43).
#### 3.5.3 De p-waarde
De p-waarde is de kans om een test-statistiek te observeren die minstens zo extreem is als de geobserveerde waarde, aangenomen dat de nulhypothese waar is. Een kleine p-waarde (< $\alpha$, het significantieniveau) suggereert dat de nulhypothese onwaarschijnlijk is en verworpen kan worden ten gunste van de alternatieve hypothese [43](#page=43) [44](#page=44).
#### 3.5.4 Kritieke waarde
Een alternatieve methode om een beslissing te nemen is via de kritieke waarde. De kritieke waarde is de drempelwaarde van de test-statistiek waarboven (of waaronder, afhankelijk van de richting van de test) de nulhypothese wordt verworpen [44](#page=44) [45](#page=45).
#### 3.5.5 Beslissingsfouten
Bij het nemen van een beslissing op basis van een steekproef kunnen twee soorten fouten worden gemaakt:
* **Type I fout:** Het verwerpen van de nulhypothese terwijl deze waar is. De kans hierop is gelijk aan het significantieniveau ($\alpha$) [45](#page=45).
* **Type II fout:** Het aanvaarden van de nulhypothese terwijl deze onjuist is. De kans hierop wordt aangeduid met $\beta$ [45](#page=45).
De **kracht** van een test is de kans om de nulhypothese correct te verwerpen wanneer deze onjuist is ($1-\beta$) [46](#page=46).
#### 3.5.6 Conclusies Captopril voorbeeld
Voor het captopril-voorbeeld werd een eenzijdige paired t-test uitgevoerd. De resultaten toonden een extreem significante verlaging in systolische bloeddruk (p << 0.001), met een gemiddelde daling van 18.9 mmHg (95% BI [-oneindig, -14.83]). Het pre-/post-test design maakt het echter moeilijk om definitief uit te sluiten of het effect door het medicijn of door een placebo komt [46](#page=46).
#### 3.5.7 Eenzijdig of tweezijdig toetsen?
* **Eenzijdig toetsen** wordt gebruikt wanneer er een specifieke richting van het effect wordt verwacht (bv. alleen daling). Dit biedt meer kracht om een effect aan te tonen, maar vereist een duidelijke theoretische onderbouwing vooraf [47](#page=47).
* **Tweezijdig toetsen** wordt gebruikt wanneer er geen specifieke richting van het effect wordt verwacht, maar alleen een afwijking van de nulhypothese. Dit is de meest gebruikte methode omdat het elke afwijking kan detecteren [47](#page=47).
### 3.6 Two-sample t-test
De two-sample t-test wordt gebruikt om verschillen in gemiddelden tussen twee **onafhankelijke** groepen te detecteren. Hierbij worden de gemiddelden van twee steekproeven vergeleken om uitspraken te doen over de populatiegemiddelden [47](#page=47) [48](#page=48).
#### 3.6.1 Oksel-voorbeeld
In het oksel-voorbeeld wordt de two-sample t-test gebruikt om de relatieve abundantie van *Staphylococcus* (Staph) na een microbiële transplantatie te vergelijken met een placebo. De nulhypothese stelt dat er geen verschil is tussen de groepen ($\mu_1 = \mu_2$), terwijl de alternatieve hypothese stelt dat er wel een verschil is ($\mu_1 \neq \mu_2$). De test-statistiek volgt onder $H_0$ een t-verdeling met $n_1 + n_2 - 2$ vrijheidsgraden, indien homoscedasticiteit (gelijke varianties) wordt aangenomen. De p-waarde van 0.16 x 10⁻³ suggereert dat de nulhypothese verworpen kan worden. De conclusie is dat de relatieve abundantie van Staph significant hoger is in de transplantatiegroep dan in de controlegroep, met een 95% BI van [10.0%, 25.8%] [48](#page=48) [49](#page=49).
### 3.7 Aannames
De geldigheid van t-tests en bijbehorende betrouwbaarheidsintervallen is afhankelijk van bepaalde distributionele veronderstellingen:
* **Onafhankelijke gegevens:** De observaties binnen en tussen de groepen moeten onafhankelijk zijn [49](#page=49).
* **Normaliteit:** De gegevens in elke groep (voor de one-sample en two-sample t-test) of de verschillen tussen gepaarde waarnemingen (voor de paired t-test) moeten normaal verdeeld zijn [49](#page=49).
* **Homoscedasticiteit:** Voor de standaard two-sample t-test wordt aangenomen dat de varianties in de twee populaties gelijk zijn [49](#page=49).
#### 3.7.1 Nagaan van de veronderstelling van normaliteit
Normaliteit kan worden nagegaan met grafische methoden (boxplots, histogrammen, QQ-plots) en formele hypothesetests (bv. Shapiro-Wilk). Het is echter belangrijk om kritisch te kijken naar de resultaten van deze tests, met name bij kleine steekproeven waar de kracht beperkt is [49](#page=49).
#### 3.7.2 Nagaan van homoscedasticiteit
Homoscedasticiteit kan visueel worden beoordeeld met boxplots door de interkwartielafstand (IQR) te vergelijken. Formele tests zoals de F-test kunnen ook worden gebruikt, maar kennen vergelijkbare beperkingen als bij de normaliteitstest. Indien de homoscedasticiteit niet voldaan is, kan de Welch two-sample T-test worden toegepast, die geen gepoolde variantieschatting gebruikt [49](#page=49) [50](#page=50).
### 3.8 Wat rapporteren?
Het is goede statistische praktijk om naast p-waarden ook schattingen van parameters en hun betrouwbaarheidsintervallen te rapporteren. Betrouwbaarheidsintervallen bieden meer informatie dan alleen statistische significantie [50](#page=50).
#### 3.8.1 Relatie tussen betrouwbaarheidsintervallen en hypothesetoetsen
Een (1 - $\alpha$)100%-betrouwbaarheidsinterval bevat alle waarden van de parameter waarvoor de tweezijdige nulhypothese op het $\alpha$-niveau niet verworpen zou worden. Als de controlewaarde niet binnen het BI valt, kan de nulhypothese op het significantieniveau van de test worden verworpen [50](#page=50).
#### 3.8.2 Statistische significantie versus wetenschappelijke relevantie
Statistische significantie (p < $\alpha$) geeft aan dat een geobserveerd effect waarschijnlijk niet door toeval komt. Echter, de wetenschappelijke relevantie van een effect moet ook worden geëvalueerd, bijvoorbeeld met behulp van betrouwbaarheidsintervallen en het beoordelen van de effectgrootte [50](#page=50).
### 3.9 Equivalentie-intervallen
Equivalentie-intervallen worden gebruikt om te bepalen of twee interventies wetenschappelijk equivalent zijn. Dit is het geval als het verschil in populatiegemiddelden binnen een vooraf gedefinieerd equivalentie-interval ligt, wat aangeeft dat het verschil klinisch verwaarloosbaar is. Het bepalen van wetenschappelijke equivalentie vereist zowel het berekenen van een betrouwbaarheidsinterval voor het verschil als het vergelijken hiervan met een vooraf gespecificeerd equivalentie-interval [50](#page=50) [51](#page=51).
---
# Lineaire regressie en variantie-analyse
Dit gedeelte behandelt de principes van lineaire regressie voor het modelleren van verbanden tussen variabelen en variantie-analyse (ANOVA) voor het vergelijken van groepsgemiddelden.
### 4.1 Enkelvoudige lineaire regressie
Enkelvoudige lineaire regressie wordt gebruikt om een lineair verband te modelleren tussen een continue afhankelijke variabele ($Y$) en één continue onafhankelijke variabele ($X$). Het doel is om het conditionele gemiddelde van $Y$ te beschrijven als functie van $X$ [54](#page=54).
#### 4.1.1 Het model
Het lineaire regressiemodel wordt wiskundig uitgedrukt als:
$$E(Y|X=x) = \beta_0 + \beta_1 x$$ [54](#page=54).
Hierin zijn:
* $E(Y|X=x)$: Het conditionele gemiddelde van $Y$ gegeven $X=x$.
* $\beta_0$: De intercept, wat de verwachte waarde van $Y$ is wanneer $X=0$ [54](#page=54).
* $\beta_1$: De helling, die aangeeft hoeveel $Y$ gemiddeld verandert bij een toename van $X$ met één eenheid [54](#page=54).
* $x$: De waarde van de onafhankelijke variabele $X$.
Het model maakt de veronderstelling dat de observaties variëren rond dit lineaire verband, waarbij de foutterm ($\epsilon_i$) deze variabiliteit representeert:
$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ [53](#page=53).
#### 4.1.2 Gebruik van het lineaire regressiemodel
Het lineaire regressiemodel kan voor twee hoofddoelen worden gebruikt [54](#page=54):
1. **Predictie**: Het voorspellen van de waarde van $Y$ voor een gegeven waarde van $X$.
2. **Associatie**: Het bestuderen van de biologische of statistische relatie tussen $X$ en $Y$.
#### 4.1.3 Parameterschatting
De modelparameters $\beta_0$ en $\beta_1$ zijn onbekend en worden geschat uit steekproefgegevens met behulp van de kleinste kwadratenmethode (#page=54, #page=55). Dit houdt in dat de waarden voor $\beta_0$ en $\beta_1$ worden gekozen om de som van de gekwadrateerde verschillen tussen de geobserveerde waarden ($y_i$) en de voorspelde waarden ($\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$) te minimaliseren. Deze verschillen worden residuen ($e_i$) genoemd [54](#page=54) [55](#page=55).
$$\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}$$ [55](#page=55).
$$\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$$ [55](#page=55).
> **Tip:** Extrapolatie buiten het geobserveerde bereik van $X$ moet met voorzichtigheid gebeuren, aangezien het modelgedrag zich buiten dit bereik kan veranderen [55](#page=55).
#### 4.1.4 Statistische besluitvorming en modelveronderstellingen
Om statistische beslissingen te kunnen nemen en de onzekerheid van de parameterschattingen te kwantificeren, worden er vier belangrijke aannames gedaan over de residuen of de conditionele verdeling van $Y$ [56](#page=56):
1. **Lineariteit**: Het conditionele gemiddelde van $Y$ varieert lineair met $X$.
2. **Onafhankelijkheid**: De metingen zijn onafhankelijk van elkaar.
3. **Homoscedasticiteit**: De observaties hebben een gelijke variantie rond de regressierechte ($\text{var}(Y|X=x) = \sigma^2$ voor alle $x$).
4. **Normaliteit**: De residuen ($\epsilon_i$) zijn normaal verdeeld.
Indien aan deze aannames wordt voldaan, zijn de parameterschatters ($\hat{\beta}_0, \hat{\beta}_1$) normaal verdeeld (#page=56, #page=61). De variabiliteit van deze schatters wordt gekwantificeerd met de residuele standaarddeviatie ($\sigma$), die wordt geschat met behulp van de Mean Squared Error (MSE). De MSE corrigeert voor het aantal geschatte parameters (2 in enkelvoudige regressie) door te delen door $n-2$ [56](#page=56) [57](#page=57) [61](#page=61).
$$MSE = s^2 = \frac{SSE}{n-2} = \frac{\sum_{i=1}^{n} e_i^2}{n-2}$$ [57](#page=57).
Deze schattingen maken het mogelijk om hypothesetesten uit te voeren (bijvoorbeeld $H_0: \beta_1 = 0$ vs. $H_A: \beta_1 \neq 0$) en betrouwbaarheidsintervallen (BI) te construeren voor de parameters, waarbij de teststatistieken een t-verdeling volgen met $n-2$ vrijheidsgraden [57](#page=57).
> **Tip:** De Central Limit Theorem (CLT) kan worden ingeroepen als aan de normaliteitsassumptie niet volledig is voldaan, maar de rest wel, waardoor de teststatistiek bij voldoende grote steekproeven bij benadering normaal verdeeld is [57](#page=57).
#### 4.1.5 Nagaan van modelveronderstellingen
Het controleren van modelveronderstellingen is cruciaal voor de geldigheid van de resultaten. Dit gebeurt voornamelijk via grafische methoden (#page=57, #page=58) [57](#page=57) [58](#page=58):
* **Lineariteit**: Een scatterplot van de uitkomst tegen de verklarende variabele, en een residuplot (residuen vs. verklarende variabele). Patronen in het residuplot duiden op niet-lineariteit [58](#page=58).
* **Homoscedasticiteit**: Een residuplot (residuen vs. voorspelde waarden of verklarende variabele) kan patronen onthullen zoals een toenemende spreiding, wat duidt op heteroscedasticiteit. Kwadratische transformaties van de residuen of het gebruik van gewogen kleinste kwadraten kunnen hierbij helpen [58](#page=58).
* **Normaliteit**: QQ-plots van de residuen worden gebruikt om te beoordelen of de residuen normaal verdeeld zijn [58](#page=58).
> **Tip:** Afwijkingen in lineariteit kunnen fataal zijn voor het model. Heteroscedasticiteit of niet-normaliteit kunnen leiden tot incorrecte besluitvorming omdat de teststatistiek niet langer correct verdeeld is [57](#page=57).
#### 4.1.6 Afwijkingen van modelveronderstellingen en transformaties
Wanneer modelveronderstellingen niet worden voldaan, kunnen transformaties van de uitkomstvariabele of de verklarende variabele uitkomst bieden [59](#page=59).
* **Transformaties van de verklarende variabele ($X$)**: Bijvoorbeeld een log-transformatie van genexpressie-data. Dit kan lineariteit herstellen, maar maakt de interpretatie van de parameters complexer, tenzij het een log2-transformatie is, waarbij een toename van 1 eenheid in de log-schaal overeenkomt met een verdubbeling in de originele schaal (#page=59, #page=60). Deze transformaties hebben geen invloed op de homogeniteit en normaliteit van de residuen [59](#page=59) [60](#page=60).
* **Transformaties van de uitkomstvariabele ($Y$)**: Zoals een log-transformatie voor rechtsscheve verdelingen (vaak bij intensiteitsmetingen). Dit helpt bij het stabiliseren van de variantie en het normaliseren van de residuen. De interpretatie van de parameters wordt hierdoor ook beïnvloed, en de terugtransformatie geeft geometrische gemiddelden (#page=59, #page=60) [59](#page=59) [60](#page=60).
* **Hogere-orde regressie**: Niet-lineaire relaties kunnen ook gemodelleerd worden door hogere-orde termen (bijvoorbeeld kwadratische termen) toe te voegen aan het model, waardoor de transformatie zelf wordt geschat [59](#page=59).
#### 4.1.7 Besluitvorming over gemiddelde uitkomst en predictie-intervallen
Onder de modelvoorwaarden kunnen betrouwbaarheidsintervallen (BI) worden geconstrueerd voor de gemiddelde uitkomst $E(Y|X=x)$ bij een specifieke waarde van $x$. Deze intervallen worden smaller naarmate de waarde van $x$ dichter bij het gemiddelde van de $x$-waarden ligt (#page=61, #page=63) [61](#page=61) [63](#page=63).
Naast BI's voor het gemiddelde, kunnen ook predictie-intervallen (PI's) worden geconstrueerd voor de voorspelling van een *nieuwe, individuele uitkomst* ($Y^*$) bij een gegeven $x$ (#page=62, #page=63). PI's zijn breder dan BI's omdat ze zowel de onzekerheid in de geschatte regressielijn als de inherente willekeurige variatie van individuele observaties rond het gemiddelde meenemen [62](#page=62) [63](#page=63).
#### 4.1.8 Kwadratensommen en ANOVA-tabel
De variantie-analyse (ANOVA) tabel is een standaardmanier om de resultaten van een regressieanalyse samen te vatten (#page=63, #page=66). De totale kwadratensom ($SST_{Tot}$) is de totale variabiliteit in de uitkomstvariabele, die wordt ontbonden in de kwadratensom van de regressie ($SSR$, de verklaarde variabiliteit door het model) en de kwadratensom van de fout ($SSE$, de onverklaarde residuele variabiliteit) (#page=64, #page=65) [63](#page=63) [64](#page=64) [65](#page=65) [66](#page=66).
* $SST_{Tot} = \sum_{i=1}^{n} (y_i - \bar{y})^2$ [63](#page=63).
* $SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2$ [64](#page=64).
* $SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2$ [65](#page=65).
De determinatiecoëfficiënt ($R^2$) is de fractie van de totale variabiliteit die door het regressiemodel wordt verklaard:
$$R^2 = \frac{SSR}{SST_{Tot}} = 1 - \frac{SSE}{SST_{Tot}}$$ [65](#page=65).
Een $F$-test wordt gebruikt om de nulhypothese te toetsen dat er geen lineair verband is tussen $X$ en $Y$ ($H_0: \beta_1 = 0$). De $F$-statistiek wordt berekend als de verhouding van de Mean Squared Regression ($MSR = SSR / (\text{df}_{\text{reg}}))$ en de Mean Squared Error ($MSE = SSE / (\text{df}_{\text{res}}))$, met $\text{df}_{\text{reg}} = 1$ en $\text{df}_{\text{res}} = n-2$ voor enkelvoudige regressie [66](#page=66).
> **Tip:** De p-waarde van de $F$-test in enkelvoudige lineaire regressie is equivalent aan de tweezijdige p-waarde van de $t$-test voor de helling ($\beta_1$) (#page=66, #page=69) [66](#page=66) [69](#page=69).
#### 4.1.9 Dummy-variabelen
Om categorische predictoren te includeren in een lineair regressiemodel, worden dummy-variabelen gebruikt. Een dummy-variabele neemt de waarde 1 aan voor een specifieke categorie en 0 voor de referentiecategorie. Met één dummy-variabele kan het verschil tussen de gemiddelde uitkomsten van twee groepen worden getest. Dit is equivalent aan een twee-steekproeven $t$-test [66](#page=66) [67](#page=67).
### 4.2 Variantie-analyse (ANOVA)
Variantie-analyse (ANOVA) wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het kernidee is om de totale variabiliteit in de gegevens te ontbinden in variabiliteit *tussen* de groepen en variabiliteit *binnen* de groepen [69](#page=69).
#### 4.2.1 Het model
ANOVA kan worden geformuleerd als een lineair regressiemodel met dummy-variabelen. Voor $g$ groepen worden $g-1$ dummy-variabelen gebruikt. Het model voor de uitkomst $Y_i$ van observatie $i$ in groep $j$ is [70](#page=70):
$$Y_i = \mu_j + \epsilon_i$$ [70](#page=70).
waarbij $\mu_j$ het gemiddelde is van groep $j$ en $\epsilon_i$ een foutterm is die onafhankelijk en identiek normaal verdeeld is met gemiddelde 0 en variantie $\sigma^2$ [70](#page=70).
De nulhypothese (H0) stelt dat alle groepsgemiddelden gelijk zijn:
$H_0: \mu_1 = \mu_2 = \dots = \mu_g$ (#page=69, #page=70) [69](#page=69) [70](#page=70).
De alternatieve hypothese (HA) stelt dat er minstens één paar groepsgemiddelden is dat verschilt:
$H_A: \exists j, k \in \{1, \dots, g\}: \mu_j \neq \mu_k$ (#page=69, #page=70) [69](#page=69) [70](#page=70).
#### 4.2.2 Kwadratensommen in ANOVA
Net als bij regressie, wordt de totale variabiliteit opgedeeld:
* **Totale Kwadratensom ($SST_{Tot}$)**: De totale variabiliteit in de uitkomstvariabele rond het algemene steekproefgemiddelde (#page=63, #page=71) [63](#page=63) [71](#page=71).
* **Kwadratensom van de Behandeling ($SST$ of $SS_{\text{Between}}$)**: De variabiliteit *tussen* de groepsgemiddelden en het algemene steekproefgemiddelde. Deze meet het effect van de behandeling of groepstoewijzing. Deze heeft $g-1$ vrijheidsgraden [71](#page=71).
* **Kwadratensom van de Fout ($SSE$ of $SS_{\text{Within}}$)**: De variabiliteit *binnen* de groepen, tussen de individuele observaties en hun respectieve groepsgemiddelden. Deze meet de onverklaarde residuele variabiliteit (#page=65, #page=71). Deze heeft $n-g$ vrijheidsgraden [65](#page=65) [71](#page=71).
De relatie is $SST_{Tot} = SST + SSE$ [71](#page=71).
#### 4.2.3 De F-test in ANOVA
De ANOVA-test maakt gebruik van de verhouding van de Mean Squared Treatment ($MST = SST / (g-1)$) en de Mean Squared Error ($MSE = SSE / (n-g)$) om de nulhypothese te toetsen [72](#page=72).
$$F = \frac{MST}{MSE}$$ [72](#page=72).
De $F$-statistiek volgt een $F$-verdeling met $g-1$ vrijheidsgraden in de teller en $n-g$ vrijheidsgraden in de noemer, mits de modelvoorwaarden (normaliteit, homoscedasticiteit, onafhankelijkheid) voldaan zijn. Een grote $F$-waarde en een kleine p-waarde duiden op een significant verschil tussen de groepsgemiddelden [72](#page=72) [73](#page=73).
#### 4.2.4 De ANOVA-tabel
De resultaten van de ANOVA worden gepresenteerd in een ANOVA-tabel [72](#page=72).
| Bron van Variatie | Kwadratensom (SS) | Vrijheidsgraden (df) | Kwadratensom (MS) | F-statistiek | p-waarde |
| :----------------- | :---------------- | :------------------- | :---------------- | :----------- | :------- |
| Groepen (Treatment) | $SST$ | $g-1$ | $MST = SST/(g-1)$ | $F = MST/MSE$| |
| Fout (Error) | $SSE$ | $n-g$ | $MSE = SSE/(n-g)$ | | |
| Totaal | $SST_{Tot}$ | $n-1$ | | | |
> **Tip:** ANOVA is een krachtige test omdat het de totale variabiliteit gebruikt om de hypothese te evalueren en hierdoor meer power heeft dan herhaalde twee-steekproeven $t$-testen [76](#page=76).
### 4.3 Post-hoc analyse: meervoudig vergelijken van gemiddelden
Als de ANOVA-test significant is ($H_0$ verworpen), weten we dat er minstens twee groepen verschillen, maar niet welke. Post-hoc analyses worden gebruikt om specifieke paren van groepen te vergelijken [73](#page=73).
#### 4.3.1 Meervoudige toetsing en de FWER
Het uitvoeren van meerdere $t$-testen leidt tot een verhoogd risico op Type I-fouten (vals positieve resultaten). Dit fenomeen staat bekend als multipliciteit. Om dit te controleren, worden correcties toegepast op het significantieniveau of de p-waarden. De Family-Wise Error Rate (FWER) is de kans op ten minste één Type I-fout over alle uitgevoerde testen [74](#page=74).
#### 4.3.2 Bonferroni correctie
De Bonferroni-correctie is een conservatieve methode waarbij het significantieniveau voor elke individuele test wordt aangepast door het oorspronkelijke niveau ($\alpha_E$) te delen door het aantal testen ($m$) [75](#page=75):
$$\alpha_{\text{Bonferroni}} = \frac{\alpha_E}{m}$$
Dit garandeert dat de FWER niet hoger is dan $\alpha_E$, maar kan leiden tot een verlies aan power.
#### 4.3.3 Methode van Tukey
De methode van Tukey is minder conservatief dan Bonferroni en wordt specifiek gebruikt voor het vergelijken van alle paarsgewijze gemiddelden in ANOVA. Deze methode, vaak geïmplementeerd in softwarepakketten, biedt aangepaste p-waarden en betrouwbaarheidsintervallen die rekening houden met de multipliciteit (#page=75, #page=76). Tukey's methode controleert ook de FWER, maar met een kleiner verlies aan power dan de Bonferroni-correctie. De resultaten van Tukey's methode kunnen grafisch worden weergegeven, wat nuttig is bij veel groepen [75](#page=75) [76](#page=76).
> **Tip:** Bij het interpreteren van post-hoc analyses is het belangrijk te onthouden of er correcties voor multipliciteit zijn toegepast en welke methode is gebruikt [76](#page=76).
---
# Niet-parametrische statistiek en categorische data-analyse
Dit hoofdstuk introduceert methoden om statistische inferentie uit te voeren wanneer de aannames van parametrische methoden niet voldaan zijn, en behandelt vervolgens technieken voor de analyse van categorische data [77](#page=77).
### 5.1 Niet-parametrische statistiek
Niet-parametrische methoden vormen een alternatief voor parametrische technieken wanneer de aannames over de verdeling van de data (zoals normaliteit of gelijke varianties) niet voldaan zijn. Dit is vooral relevant bij kleine steekproeven waar deze aannames moeilijk te controleren zijn. De p-waarden en betrouwbaarheidsintervallen van parametrische methoden zijn enkel correct interpreteerbaar onder hun specifieke aannames [77](#page=77).
#### 5.1.1 Permutatietesten
Permutatietesten zijn een klasse van niet-parametrische toetsen die de nulhypothese evalueren door de waargenomen data te permuteren. Ze zijn gebaseerd op het idee dat onder de nulhypothese (H0) de groepslabels irrelevant zijn [78](#page=78).
**Hypothesenformulering:**
De nulhypothese (H0) kan geformuleerd worden als de gelijkheid van verdelingen (bv. $F_1 = F_2$) of van gemiddelden ($\mu_1 = \mu_2$). De alternatieve hypothese (HA) is doorgaans dat de verdelingen niet gelijk zijn of dat er een locatieverschuiving is [78](#page=78).
**Verdeling van de statistiek onder H0:**
Onder H0 worden alle mogelijke permutaties van de groepslabels gegenereerd. Voor elke permutatie wordt de teststatistiek berekend, wat resulteert in een empirische nuldistributie van de statistiek [78](#page=78).
**p-waarde en kritieke waarde:**
De p-waarde voor een tweezijdige test is de fractie van permutaties waarbij de teststatistiek minstens zo extreem is als de geobserveerde statistiek. Dit is een *exacte* p-waarde, aangezien deze gebaseerd is op de volledige permutatienuldistributie. De kritieke waarde wordt bepaald door het significantieniveau $\alpha$ en de discrete aard van de nuldistributie [79](#page=79).
**Praktische overwegingen:**
Bij grote steekproeven kan het aantal permutaties extreem groot zijn. In zulke gevallen wordt de nuldistributie benaderd door een groot aantal willekeurige permutaties uit te voeren, wat leidt tot een *approximatieve* p-waarde [80](#page=80).
#### 5.1.2 Rank-testen
Rank-testen vormen de belangrijkste groep niet-parametrische tests en bieden een alternatief voor parametrische toetsen zoals de t-test en ANOVA. Ze zijn populair omdat ze geen exacte p-waarden geven zonder de noodzaak om de permutatienuldistributie voor elke dataset opnieuw te berekenen [80](#page=80).
**Rangtransformatie:**
Observaties worden gerangschikt van klein naar groot, waarbij de kleinste observatie rank 1 krijgt en de grootste rank $n$. Bij identieke observaties (ties) worden midranks toegepast [80](#page=80) [81](#page=81).
##### 5.1.2.1 Wilcoxon-Mann-Whitney Test (WMW)
De WMW-test is een niet-parametrisch alternatief voor de ongepaarde t-test voor het vergelijken van twee groepen. Het test of de verdelingen van twee groepen gelijk zijn (H0) of verschoven zijn (HA) [81](#page=81).
**Teststatistiek:**
De teststatistiek kan gebaseerd zijn op het verschil tussen de gemiddelde ranks van de twee groepen ($T$) of de som van de ranks van de eerste groep ($S_1$). De Mann-Whitney U-statistiek ($U_1$) telt het aantal keren dat een observatie uit de eerste groep groter of gelijk is aan een observatie uit de tweede groep. Deze statistieken zijn equivalent en leiden tot dezelfde conclusies [81](#page=81) [82](#page=82).
**Interpretatie:**
De WMW-test test de hypothese $F_1 = F_2$. Als de locatie-shift aanname geldt ($f_1(y) = f_2(y-\Delta)$), dan test de verwerping van H0 de hypothese $\mu_1 \neq \mu_2$. Zonder deze aanname, interpreteert de test de resultaten in termen van de *probabilistische index*, die de kans aangeeft dat een observatie uit de ene groep groter of gelijk is aan een observatie uit de andere groep [81](#page=81) [82](#page=82).
#### 5.1.3 Vergelijken van $g$ Behandelingen
##### 5.1.3.1 Permutatietest voor $g$ groepen
Dit is de niet-parametrische tegenhanger van de one-way ANOVA. De test statistiek, vaak de F-statistiek, wordt berekend op basis van de geobserveerde data en de nuldistributie wordt verkregen door groepslabels te permuteren. Gezien het grote aantal mogelijke permutaties bij veel groepen en observaties, wordt vaak gebruik gemaakt van willekeurige permutaties [83](#page=83) [84](#page=84).
##### 5.1.3.2 Kruskal-Wallis Test (KW-test)
De KW-test is het niet-parametrische alternatief voor de one-way ANOVA. De teststatistiek is gebaseerd op de ranks van de geobserveerde uitkomsten [84](#page=84).
**Teststatistiek:**
$$ H = \frac{12}{n(n+1)} \sum_{j=1}^{g} n_j (\bar{R}_j - \bar{R})^2 $$
waarbij $n$ het totale aantal observaties is, $g$ het aantal groepen, $n_j$ het aantal observaties in groep $j$, $\bar{R}_j$ het gemiddelde rank in groep $j$, en $\bar{R}$ het gemiddelde van alle ranks [84](#page=84).
**Interpretatie en p-waarde:**
Onder H0 volgt de teststatistiek een $\chi^2$-verdeling met $(g-1)$ vrijheidsgraden. Bij kleine steekproefgroottes kan de exacte p-waarde worden verkregen met behulp van de `coin` package in R. Indien de locatie-shift aanname niet geldt, interpreteert de test de resultaten in termen van probabilistische indexen [85](#page=85).
**Post-hoc analyses:**
Na een significante KW-test worden paarsgewijze vergelijkingen uitgevoerd met de `pairwise.wilcox.test()` functie, gecorrigeerd voor multiple testing (bv. met de Holm-methode) [85](#page=85).
### 5.2 Categorische data-analyse
Categorische data-analyse richt zich op het analyseren van uitkomsten die in categorieën zijn ingedeeld, vaak in relatie tot andere categorische of continue predictoren [86](#page=86).
#### 5.2.1 Toetsen voor een proportie
Dit omvat het testen van hypothesen over de proportie van een bepaalde uitkomst in een populatie, vaak binair (bv. succes/mislukking) [86](#page=86).
**Bernoulli-verdeling:**
Een binaire uitkomst kan gemodelleerd worden met een Bernoulli-verdeling, met één parameter $\pi$, de kans op succes [86](#page=86).
**Binomiale test:**
De binomiale test wordt gebruikt om te toetsen of een waargenomen proportie significant afwijkt van een hypothesede proportie $\pi_0$ [87](#page=87).
**Binomiale verdeling:**
De som $S$ van $n$ onafhankelijke Bernoulli-variabelen volgt een binomiale verdeling met parameters $n$ en $\pi$, genoteerd als $S \sim \text{Binomial}(n, \pi)$. De kans op $k$ successen in $n$ trials is [87](#page=87):
$$ P(S=k) = \binom{n}{k} \pi^k (1-\pi)^{n-k} $$
In R kan dit berekend worden met `dbinom(k, n, p)` [87](#page=87).
**Teststatistiek en p-waarde:**
De teststatistiek is vaak het verschil tussen de geobserveerde proportie ($\hat{\pi}$) en de hypothesede proportie ($\pi_0$). De p-waarde voor een tweezijdige test is de kans om een resultaat te observeren dat minstens zo extreem is als het geobserveerde resultaat onder H0. In R wordt dit berekend met `binom.test(x, n, p)` [88](#page=88) [89](#page=89).
**Betrouwbaarheidsinterval:**
Een betrouwbaarheidsinterval (BI) voor een proportie kan berekend worden met behulp van de Centrale Limietstelling (CLT) of door de binomiale test te inverteren. Het exacte BI, verkregen door de binomiale test te inverteren, heeft de voorkeur bij kleinere steekproeven [89](#page=89).
#### 5.2.2 Toets voor associatie tussen 2 kwalitatieve variabelen
##### 5.2.2.1 Gepaarde gegevens
Bij gepaarde gegevens (bv. metingen voor en na een behandeling op dezelfde subjecten) worden specifieke toetsen gebruikt die rekening houden met de afhankelijkheid tussen de metingen [90](#page=90).
**Absolute Risicoverschil (ARV):**
Voor binaire gepaarde uitkomsten kan het ARV berekend worden om het verschil in risico's tussen twee condities te kwantificeren. Een betrouwbaarheidsinterval kan worden opgesteld voor het ARV [91](#page=91).
**McNemar Test:**
De McNemar-test is een toets voor associatie tussen twee binaire kwalitatieve variabelen bij gepaarde gegevens. Het vergelijkt de aantallen discordante paren in een 2x2 kruistabel. De nulhypothese stelt dat er geen associatie is tussen de twee variabelen [92](#page=92).
**Teststatistiek (zonder continuïteitscorrectie):**
$$ Z = \frac{(f-g)}{\sqrt{f+g}} $$
waarbij $f$ en $g$ de aantallen discordante paren zijn. Bij kleine aantallen in de cellen wordt een continuïteitscorrectie (Yates-correctie) toegepast, of een exacte binomiale test gebruikt [92](#page=92).
##### 5.2.2.2 Ongepaarde gegevens
Bij ongepaarde gegevens komen de metingen van verschillende subjecten [93](#page=93).
**Odds Ratio (OR):**
De odds ratio is een maat voor associatie die de verhouding van de odds van de uitkomst tussen twee blootstellingsgroepen weergeeft. Het is een symmetrische maat en wordt vaak gebruikt in case-control studies [93](#page=93).
**Pearson Chi-kwadraat Test:**
De Pearson $\chi^2$-test is de standaardtoets voor het testen van associatie tussen twee categorische variabelen, ongeacht of ze binaire of multi-level zijn. De nulhypothese is dat de variabelen onafhankelijk zijn [94](#page=94).
**Teststatistiek:**
$$ \chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
waarbij $O_{ij}$ het geobserveerde aantal in cel $(i,j)$ is en $E_{ij}$ het verwachte aantal onder H0. Onder H0 volgt deze statistiek een $\chi^2$-verdeling met $(r-1)(c-1)$ vrijheidsgraden, waar $r$ het aantal rijen en $c$ het aantal kolommen is [95](#page=95).
**Voorwaarden en alternatieven:**
De $\chi^2$-benadering is accuraat als de verwachte aantallen in de cellen voldoende groot zijn (typisch $\geq 5$). Anders wordt een exacte toets zoals de Fisher's exact test gebruikt (voor 2x2 tabellen) [95](#page=95).
#### 5.2.3 Logistische regressie
Logistische regressie wordt gebruikt om binaire uitkomsten te modelleren als functie van continue en/of categorische predictoren. Het modelleert de logaritme van de odds van de uitkomst [96](#page=96).
**Lineaire predictor:**
$$ \log\left(\frac{\pi(x)}{1-\pi(x)}\right) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p $$
waarbij $\pi(x)$ de kans op succes is gegeven de predictoren $x_1, \dots, x_p$. Categorische predictoren worden via dummy-variabelen in het model opgenomen [96](#page=96).
**Interpretatie:**
De coëfficiënten ($\beta_i$) representeren de verandering in de log-odds per eenheidstoename in de corresponderende predictor. De exponent van de coëfficiënt, $e^{\beta_i}$, is de odds ratio (OR) [97](#page=97).
**Toetsing en Modelselectie:**
Model testen en associaties worden geëvalueerd met behulp van $\chi^2$-tests, analoog aan ANOVA. Logistische regressie maakt voornamelijk gebruik van asymptotische theorie, wat geschikte is voor grote steekproeven [97](#page=97).
**Voorspellingen:**
Voorspellingen van de waarschijnlijkheid kunnen worden verkregen met de `predict()` functie met `type="response"` [98](#page=98).
---
# Algemeen lineair model en modelselectie
Dit deel breidt het lineaire regressiemodel uit naar meervoudige regressie met meerdere predictoren en interactietermen, behandelt technieken voor modelselectie, en de diagnostiek van regressiemodellen.
## 6. Algemeen lineair model en modelselectie
### 6.1 Introductie tot het algemeen lineair model
Tot nu toe is de associatie tussen een uitkomstvariabele ($Y$) en een predictorvariabele ($X$) beschreven. Echter, in de praktijk is het vaak wenselijk om de gemiddelde uitkomst in termen van meerdere predictoren te beschrijven. Dit kan noodzakelijk zijn om de invloed van confounders te corrigeren, de belangrijkste predictoren te identificeren, of om een zo nauwkeurig mogelijke voorspelling van de uitkomst te maken [99](#page=99).
Het algemeen lineair model (ALM) breidt het enkelvoudige lineaire regressiemodel uit naar situaties met meerdere predictoren en interactietermen [99](#page=99).
#### 6.1.1 Prostaatkanker dataset als voorbeeld
De prostaatkanker dataset, bestaande uit gegevens van 97 mannen zonder prostaatkanker, wordt gebruikt om de principes van het ALM te illustreren. De dataset bevat onder andere het prostate specific antigen (PSA)-niveau, tumorvolume, gewicht van de prostaat, leeftijd, en de mate van invasie van zaadblaasjes (svi). Variabelen zoals PSA, tumorvolume en gewicht zijn vaak log-getransformeerd om aan de modelaannames te voldoen. Een scattermatrix toont de correlaties tussen de variabelen, waarbij bijvoorbeeld een sterke positieve correlatie wordt waargenomen tussen gelogde PSA (lpsa) en gelogd tumorvolume (lcavol) [99](#page=99).
### 6.2 Het additieve meervoudig lineair regressiemodel
In een additief meervoudig lineair regressiemodel wordt de gemiddelde uitkomst ($E[Y]$) lineair beschreven als een functie van meerdere verklarende variabelen ($X_1, \dots, X_{p-1}$). Dit model maakt het mogelijk om de effecten van verschillende predictoren te evalueren en te corrigeren voor confounding, waarbij de associatie tussen een specifieke predictor en de uitkomst wordt bestudeerd terwijl de andere predictoren constant worden gehouden [100](#page=100).
#### 6.2.1 Statistisch model
Voor $n$ subjecten met een uitkomst $Y$ en $p-1$ verklarende variabelen $X_1, \dots, X_{p-1}$, wordt het additieve meervoudige lineaire regressiemodel als volgt gedefinieerd:
$$ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_{p-1} X_{i,p-1} + \epsilon_i $$
Hierbij zijn $\beta_0, \beta_1, \dots, \beta_{p-1}$ de onbekende parameters (intercept en hellingen), en $\epsilon_i$ zijn de fouttermen die niet verklaarde residuen vertegenwoordigen. De parameters worden doorgaans geschat met de kleinste kwadratenmethode, hoewel dit via software automatisch gebeurt [100](#page=100).
**Interpretatie van parameters:**
* De geschatte parameters ($\hat{\beta}_j$) maken het mogelijk om de verwachte uitkomst voor subjecten met specifieke waarden van de verklarende variabelen te voorspellen:
$$ \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \dots + \hat{\beta}_{p-1} X_{i,p-1} $$
* De coëfficiënt $\beta_j$ kan geïnterpreteerd worden als het verschil in de gemiddelde uitkomst tussen subjecten die één eenheid verschillen in de waarde van $X_j$, terwijl de waarden van de overige variabelen gelijk blijven [100](#page=100).
**Voorbeeld in prostaatkanker dataset:**
* Een enkelvoudige analyse toonde dat een 1% hogere tumorvolume gepaard ging met een 0.72% hogere PSA [100](#page=100).
* In een meervoudige analyse met lcavol, lweight en svi, werd de associatie van lcavol met lpsa bijgesteld naar 0.55%. De parameter voor svi toonde aan dat PSA bij invasie van zaadblaasjes gemiddeld met een factor $e^{0.666} \approx 1.95$ hoger lag, na correctie voor lweight en lcavol [100](#page=100).
* De $R^2$-waarde van dit meervoudige model was 0.622, wat betekent dat 62.2% van de variabiliteit in log-PSA werd verklaard door lcavol, lweight en svi .
### 6.3 Besluitvorming in regressiemodellen
Om resultaten uit een steekproef te veralgemenen naar de populatie, is inzicht in de verdeling van de parameterschatters noodzakelijk, wat steunt op de volgende aannames:
1. **Lineariteit:** De uitkomst varieert lineair met de verklarende variabelen .
2. **Onafhankelijkheid:** Metingen bij $n$ onafhankelijke subjecten .
3. **Homoscedasticiteit:** Observaties variëren met een gelijke variantie ($\sigma^2$) rond het regressievlak. Dit betekent dat de conditionele variantie van $Y$ constant is voor elk patroon van covariaten: $var(Y|X_1, \dots, X_{p-1}) = \sigma^2$. $\sigma$ is de residuele standaarddeviatie .
4. **Normaliteit:** De residuen ($\epsilon_i$) zijn normaal verdeeld .
Als aannames 2, 3 en 4 voldaan zijn, zijn de residuen onafhankelijk en volgen ze eenzelfde normale verdeling. De aanname van lineariteit impliceert dat de originele observaties conditioneel op de predictoren ook normaal verdeeld zijn, met een gemiddelde dat varieert met de onafhankelijke variabelen .
De onzekerheid op de hellingen neemt af met een toenemend aantal observaties en een grotere spreiding van de data. De conditionele variantie ($\sigma^2$) is onbekend en wordt geschat met de Mean Squared Error (MSE) :
$$ MSE = \frac{SSE}{n-p} $$
Testen en betrouwbaarheidsintervallen worden geconstrueerd met behulp van teststatistieken. Als aan alle aannames is voldaan, volgt de teststatistiek $T_k$ een $t$-verdeling met $n-p$ vrijheidsgraden. Indien de normaliteitsaanname niet voldaan is, maar lineariteit en andere wel, kan voor inferentie gebruik worden gemaakt van de Centrale Limietstelling (CLT), waardoor de statistiek $T_k$ normaal verdeeld is bij voldoende observaties .
#### 6.3.1 Nagaan van modelveronderstellingen
De aannames worden gecontroleerd met behulp van diagnostische plots:
* **Lineariteit:** Residuplots. Een lineair model wordt gekenmerkt door geen patroon in de residuen .
* **Homoscedasticiteit:** Residuplots en plots van gestandaardiseerde errors versus predicties. Een egale spreiding zonder patronen duidt op homoscedasticiteit .
* **Normaliteit:** QQ-plots (Quantile-Quantile plots) worden gebruikt om afwijkingen van normaliteit te detecteren .
* **Onafhankelijkheid:** Deze aanname kan niet worden geverifieerd aan de hand van de data zelf, maar hangt af van het studiedesign .
### 6.4 Het niet-additieve meervoudig lineair regressiemodel
#### 6.4.1 Interactie tussen twee continue variabelen
Interactietermen worden toegevoegd aan het model om te onderzoeken of het effect van de ene predictor op de uitkomst afhangt van de waarde van een andere predictor. In het additieve model wordt aangenomen dat de bijdrage van elke predictor onafhankelijk is van de andere. Als bijvoorbeeld het effect van lcavol op lpsa afhangt van lweight, is er sprake van interactie .
Het model met een interactieterm ziet er als volgt uit:
$$ Y_i = \beta_0 + \beta_v X_{iv} + \beta_w X_{iw} + \beta_{vw} X_{iv} X_{iw} + \epsilon_i $$
Hierbij is $\beta_{vw}$ de interactiecoëfficiënt die kwantificeert hoe de gecombineerde bijdrage van $X_v$ en $X_w$ afwijkt van de som van hun individuele bijdragen. Grafisch wordt interactie weergegeven door niet-parallelle lijnen of vlakken .
**Voorbeeld:** Als de interactie-schatting voor $\beta_{vw}$ negatief is, betekent dit dat de toename in lpsa per eenheid toename in lcavol kleiner wordt bij een hoger lweight. Indien de interactieterm niet significant is, kan deze verwijderd worden uit het model .
#### 6.4.2 Interactie tussen continue variabele en factor variabele
Interactie kan ook optreden tussen een continue variabele en een factorvariabele (een categorische variabele). Als $X_S$ een dummyvariabele is (met waarden 0 en 1), en $X_V$ is een continue variabele, wordt het model:
$$ Y_i = (\beta_0 + \beta_S X_{Si}) + (\beta_v + \beta_{vS} X_{Si}) X_{iv} + \beta_w X_{iw} + \epsilon_i $$
Hierbij vertegenwoordigt $\beta_S$ het verschil in intercept tussen de twee groepen van de factorvariabele, en $\beta_{vS}$ vertegenwoordigt het verschil in de helling van $X_v$ tussen de twee groepen. Grafisch leidt dit tot regressievlakken met verschillende hellingen voor de verschillende niveaus van de factorvariabele .
### 6.5 ANOVA Tabel
De ANOVA-tabel (Analysis of Variance) deelt de totale variabiliteit in de uitkomsten ($SST_{tot}$) op in de door het model verklaarde variabiliteit ($SSR$, Regression Sum of Squares) en de niet-verklaarde variabiliteit (residuele som van kwadraten, $SSE$) .
#### 6.5.1 $SST_{tot}$, $SSR$ en $SSE$
* $SST_{tot}$: Maat voor de totale variabiliteit in de geobserveerde uitkomsten. Het heeft $n-1$ vrijheidsgraden .
* $SSE$: Maat voor de residuele variabiliteit (niet verklaard door het model). Het heeft $n-p$ vrijheidsgraden, waarbij $p$ het aantal parameters in het model is (inclusief intercept). $MSE = SSE/(n-p)$ schat de residuele variantie $\sigma^2$ .
* $SSR$: Maat voor de variabiliteit verklaard door het regressiemodel. Het heeft $p-1$ vrijheidsgraden. $MSR = SSR/(p-1)$ .
De determinatiecoëfficiënt ($R^2$) blijft de fractie van de totale variabiliteit verklaard door het model:
$$ R^2 = \frac{SSR}{SST_{tot}} $$
Een algemene $F$-teststatistiek wordt gebruikt om te toetsen of alle regressieparameters gelijk zijn aan nul ($H_0: \beta_1 = \dots = \beta_{p-1} = 0$). Onder $H_0$ volgt deze teststatistiek een $F$-verdeling met $p-1$ en $n-p$ vrijheidsgraden .
$$ F = \frac{MSR}{MSE} $$
Als deze $F$-test significant is, wordt de nulhypothese verworpen, wat aangeeft dat minstens één predictor significant geassocieerd is met de respons .
#### 6.5.2 Extra kwadratensommen
Extra kwadratensommen (Type II en Type III) kwantificeren de toegevoegde waarde van een predictor of set van predictoren aan een model dat reeds andere predictoren bevat. Ze worden gebruikt om te bepalen hoeveel extra variantie in de uitkomst wordt verklaard door de nieuwe predictoren, gegeven de al aanwezige predictoren .
* **Extra kwadratensom van $x_2$ t.o.v. model met $x_1$:** $SSR(x_2|x_1) = SSE_1 - SSE_2$, waar $SSE_1$ de residuele som van kwadraten is voor het model met $x_1$ en $SSE_2$ voor het model met $x_1$ en $x_2$ .
#### 6.5.3 Type I Kwadratensommen
Type I kwadratensommen zijn gebaseerd op een sequentiële toevoeging van predictoren. De kwadratensom voor een predictor is de extra variabiliteit die deze verklaart bovenop de predictoren die eerder in de sequentie zijn opgenomen. Het nadeel is dat deze afhankelijk zijn van de volgorde waarin de predictoren worden opgenomen .
$$ SSR_{j|1, \dots, j-1} $$
Elke Type I SSR heeft één vrijheidsgraad en wordt gebruikt voor een $F$-test: $F = MSR_{j|1, \dots, j-1}/MSE$, die onder $H_0: \beta_j=0$ een $F_{1;n-(j+1)}$-verdeling volgt .
#### 6.5.4 Type III Kwadratensommen
Type III kwadratensommen worden gebruikt om het effect van een predictor te evalueren, rekening houdend met alle andere predictoren in het model, ongeacht de volgorde. Ze meten het aandeel van de totale variantie van de uitkomst dat door een specifieke predictor ($x_j$) wordt verklaard, en niet door de overige $p-2$ predictoren. Dit is de meest gebruikelijke methode in softwarepakketten zoals R .
$$ SSR_{j|1, \dots, j-1, j+1, \dots, p-1} $$
De $F$-teststatistiek voor Type III kwadratensommen volgt een $F_{1;n-p}$-verdeling onder $H_0$. De p-waarden van deze testen zijn identiek aan de p-waarden van de tweezijdige t-testen voor individuele parameters .
### 6.6 Regressiediagnostieken
Diagnostieken helpen bij het beoordelen van de betrouwbaarheid van het regressiemodel en het identificeren van potentiële problemen.
#### 6.6.1 Multicollineariteit
Multicollineariteit treedt op wanneer twee of meer predictoren in een model sterk met elkaar gecorreleerd zijn. Dit kan leiden tot onstabiele parameter-schattingen, opgeblazen standaardfouten (SE's), en brede betrouwbaarheidsintervallen (BI's) .
* **Problemen herkennen:**
* Grote wijzigingen in parameters na toevoeging van een predictor.
* Brede BI's voor sommige parameters.
* Onverwachte resultaten.
* **Variance Inflation Factor (VIF):** Een formele maat voor multicollineariteit. Voor de $j$-de parameter:
$$ VIF_j = \frac{1}{1 - R_j^2} $$
Hierbij is $R_j^2$ de determinatiecoëfficiënt van een regressie van de $j$-de predictor op alle andere predictoren in het model. Een VIF van 1 betekent geen multicollineariteit. Een VIF groter dan 10 wordt als ernstig beschouwd .
* **Oplossingen:** Variabelen centreren rond het gemiddelde bij het gebruik van hogere-orde termen (zoals interacties) kan helpen, hoewel dit niet altijd noodzakelijk is .
#### 6.6.2 Invloedrijke observaties
Invloedrijke observaties (outliers) zijn datapunten die een onevenredig grote impact hebben op de regressieparameters en de regressielijn. Zelfs als een observatie geen extreme waarde heeft voor $Y$, kan een extreme combinatie van $X$-waarden invloedrijk zijn .
* **Detectie:**
* **Residuen:** De afwijking van observaties van de regressielijn. Grote residuen kunnen op outliers duiden .
* **Studentized residuen:** Een getransformeerde versie van residuen die $t$-verdeeld zijn, wat nauwkeuriger is voor outlier-detectie .
* **Leverage:** Een maat voor hoe extreem de predictorwaarden van een observatie zijn ten opzichte van het gemiddelde van de predictorwaarden in de steekproef. Een hoge leverage duidt op mogelijke invloed. De gemiddelde leverage is $(p+1)/n$. Een waarde groter dan $2p/n$ wordt als extreem beschouwd .
#### 6.6.3 Cook's distance
Cook's distance ($D_i$) is een maat die de invloed van een individuele observatie ($i$) op alle voorspellingen van het model kwantificeert. Een grote Cook's distance geeft aan dat observatie $i$ het model aanzienlijk beïnvloedt. Een observatie wordt als invloedrijk beschouwd als $D_i$ groter is dan het 50e percentiel van een $F_{p+1, n-(p+1)}$-verdeling .
* **DFBETAS:** Deze maat kwantificeert de invloed van een observatie op elke regressieparameter afzonderlijk. De teken van DFBETAS geeft de richting van de invloed aan. Extreem hoge waarden liggen typisch boven 1 (of 2/$\sqrt{n}$ voor grote datasets) .
### 6.7 Modelselectie
Modelselectie is het proces van het kiezen van een model uit een verzameling kandidaat-modellen om aan een specifieke onderzoeksvraag te voldoen. Dit is cruciaal wanneer er veel potentiële predictoren zijn en het doel is om een model te vinden dat zowel goed de data beschrijft als goed veralgemeniseert naar nieuwe data .
#### 6.7.1 Modelselectie op basis van hypothesetesten
Hierbij worden de effecten van predictoren getest met hypothesetesten. Er zijn drie gangbare stapsgewijze procedures:
* **Voorwaartse modelselectie (Forward Selection):** Start met een leeg model (alleen intercept) en voegt iteratief de significantste predictor toe totdat geen enkele predictor meer significant is op een bepaald significantieniveau ($\alpha_{IN}$) .
* **Achterwaartse modelselectie (Backward Elimination):** Start met het maximale model (alle predictoren) en verwijdert iteratief de minst significante predictor totdat alle resterende predictoren significant zijn op een bepaald significantieniveau ($\alpha_{OUT}$). Interactietermen worden alleen behouden als hun hoofdeffecten ook in het model zijn opgenomen .
* **Stapsgewijze modelselectie (Stepwise Selection):** Een combinatie van voorwaartse en achterwaartse selectie, waarbij in elke stap wordt gekeken of een predictor kan worden toegevoegd of verwijderd .
**Opmerkingen over hypothesetest-gebaseerde selectie:**
* De p-waarden in het geselecteerde model kunnen niet direct geïnterpreteerd worden als bij het kiezen van een model uit een grote verzameling zijn meerdere testen uitgevoerd .
* Deze methoden missen een sterke theoretische basis, aangezien de selectie wordt gedreven door de data zelf, wat de interpretatie van p-waarden bemoeilijkt .
#### 6.7.2 Modelselectie voor predictie
Bij predictiemodellen is het primaire doel om zo nauwkeurig mogelijke voorspellingen te genereren, ongeacht of het model de werkelijkheid perfect weerspiegelt. Hypothesetesten zijn hier minder geschikt omdat ze gevoelig zijn voor steekproefgrootte en de significantie van een parameter niet direct de voorspellende kracht garandeert .
* **Selectiecriteria:** Kwaliteit van het predictieve karakter wordt gekwantificeerd met modelselectiecriteria die een compromis zoeken tussen de fit van het model en de complexiteit ervan.
* **$R^2$ is geen goed criterium:** Een hogere $R^2$ wordt verkregen met complexere modellen, wat kan leiden tot overfitting (het model past te goed op de trainingsdata en generaliseert slecht) .
* **Akaike Information Criterion (AIC):** Een criterium dat de kwaliteit van de fit (via de likelihood) en de modelcomplexiteit (aantal parameters) balanceert. Een kleiner AIC duidt op een beter model .
$$ AIC = -2 \ln(L) + 2(p+1) $$
Hierbij is $L$ de likelihood en $p+1$ het aantal geschatte modelparameters (inclusief de variantie $\sigma^2$).
* **Functies in R:** De `step()` functie in R kan worden gebruikt voor voorwaartse, achterwaartse en stapsgewijze selectie op basis van AIC .
* **Alternatieve criteria:** In machine learning worden technieken zoals cross-validatie gebruikt, die de performantie van een model evalueren op data die niet gebruikt zijn tijdens het trainen van het model. Dit is vaak beter geschikt voor het bouwen van predictiemodellen .
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Wetenschappelijke Methode | Een gestructureerd proces dat wetenschappers gebruiken om de natuur te begrijpen, bestaande uit het vormen van theorieën, het doen van observaties, het testen van hypotheses en het trekken van conclusies. |
| Hypothese | Een voorlopige, toetsbare verklaring of voorspelling die voortkomt uit een theorie, die vervolgens empirisch getest kan worden door middel van onderzoek. |
| Populatie | De gehele groep subjecten of eenheden waarover men een uitspraak wil doen in een wetenschappelijk onderzoek. |
| Steekproef | Een representatieve subset van de populatie die wordt onderzocht om conclusies te kunnen trekken over de gehele populatie. |
| Variabele | Een karakteristiek of eigenschap die varieert tussen subjecten of eenheden in een onderzoek. |
| Kwalitatieve variabele | Een variabele waarvan de uitkomsten niet-numeriek zijn en worden ingedeeld in categorieën, zoals nominaal (zonder ordening) of ordinaal (met ordening). |
| Numerieke variabele | Een variabele waarvan de uitkomsten numeriek zijn, hetzij discreet (telbaar) of continu (elke waarde binnen een bereik). |
| Toevalsveranderlijke | Een variabele waarvan de waarde wordt bepaald door een willekeurig proces; de resultaten kunnen variëren bij herhaalde metingen of trekkingen. |
| Beschrijvende statistiek | Statistiek die zich bezighoudt met het samenvatten en visualiseren van data, met behulp van grafieken en samenvattingsmaten, om inzicht te krijgen in de eigenschappen van de gegevens. |
| Histogram | Een grafische weergave van de verdeling van continue numerieke data, waarbij de frequentie van waarden binnen bepaalde klassen wordt weergegeven door de hoogte van staven. |
| Boxplot | Een grafische weergave die de verdeling van numerieke data toont, inclusief mediaan, kwartielen, bereik en uitschieters, vaak gebruikt voor het vergelijken van groepen. |
| Gemiddelde | De rekenkundige som van alle observaties gedeeld door het aantal observaties; een maat voor centrale ligging. |
| Mediaan | De middelste waarde in een geordende dataset; de waarde die de data in twee gelijke helften verdeelt. |
| Standaarddeviatie | Een maat voor de spreiding van gegevens rond het gemiddelde; de wortel van de variantie. |
| Betrouwbaarheidsinterval | Een reeks waarden die waarschijnlijk de populatieparameter bevat, berekend op basis van steekproefdata met een gespecificeerd betrouwbaarheidsniveau (bv. 95%). |
| Hypothesetoets | Een statistische procedure om te bepalen of er voldoende bewijs is om de nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| P-waarde | De kans om een teststatistiek te observeren die minstens zo extreem is als de waargenomen waarde, aangenomen dat de nulhypothese waar is. |
| Type I fout | Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. |
| Type II fout | Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onjuist is. |
| Lineaire regressie | Een statistische methode die de lineaire relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen modelleert. |
| Correlatiecoëfficiënt | Een statistische maat die de sterkte en richting van de lineaire associatie tussen twee variabelen aangeeft, met waarden tussen -1 en 1. |
| Confounding | Een vertekenende factor in een onderzoek die zowel geassocieerd is met de blootstelling als met de uitkomst, waardoor het moeilijk wordt om het ware effect van de blootstelling te bepalen. |
| Experimentele studie | Een studie waarbij onderzoekers de condities controleren en interventies toepassen om causale verbanden te onderzoeken. |
| Observationele studie | Een studie waarbij onderzoekers observaties doen zonder interventies toe te passen, om verbanden te onderzoeken in natuurlijke omstandigheden. |
| Gerandomiseerde gecontroleerde studie (GCS) | Een experimenteel design waarbij subjecten willekeurig worden toegewezen aan interventie- of controlegroepen om bias te minimaliseren. |
| Variantie-analyse (ANOVA) | Een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken door de totale variabiliteit in de data te ontleden in componenten die toe te schrijven zijn aan verschillende bronnen van variatie. |
| Niet-parametrische statistiek | Een tak van statistiek die methoden gebruikt die geen strikte aannames doen over de verdeling van de populatie, vaak gebruikt wanneer parametrische aannames niet voldaan zijn. |
| Permutatietest | Een niet-parametrische test waarbij de nulhypothese wordt getoetst door de data herhaaldelijk te permuteren om de nuldistributie van de teststatistiek te benaderen. |
| Wilcoxon-Mann-Whitney test | Een niet-parametrische test voor het vergelijken van twee onafhankelijke groepen, die de rangen van de data gebruikt in plaats van de ruwe waarden. |
| Kruskal-Wallis test | Een niet-parametrische test voor het vergelijken van drie of meer onafhankelijke groepen, als alternatief voor een eenweg ANOVA. |
| Chi-kwadraat test | Een statistische test die wordt gebruikt om de associatie tussen twee categorische variabelen te analyseren, gebaseerd op de vergelijking van geobserveerde en verwachte frequenties in een kruistabel. |
| Logistische regressie | Een statistische methode die wordt gebruikt om de relatie te modelleren tussen een binaire afhankelijke variabele en één of meer predictoren. |
| Algemeen lineair model (ALM) | Een flexibel statistisch raamwerk dat zowel lineaire regressie als variantie-analyse omvat, en dat de relatie tussen een continue uitkomst en meerdere predictoren kan modelleren. |
| Interactieterm | Een term in een regressiemodel die aangeeft dat het effect van de ene predictor op de uitkomst afhankelijk is van de waarde van een andere predictor. |
| Multicollineariteit | Een situatie in meervoudige regressie waarbij twee of meer predictoren sterk met elkaar gecorreleerd zijn, wat kan leiden tot instabiele schattingen van de regressiecoëfficiënten. |
| VIF (Variance Inflation Factor) | Een maatstaf die aangeeft in welke mate de variantie van de geschatte regressiecoëfficiënt wordt opgeblazen door multicollineariteit. |
| Invloedrijke observatie | Een datapunten die een onevenredig grote invloed heeft op de regressieresultaten, zoals de regressielijn of parameter-schattingen. |
| Cook’s distance | Een diagnostische maat die de invloed van een individuele observatie op alle voorspelde waarden in het model kwantificeert. |
| Modelselectie | Het proces van het kiezen van het meest geschikte statistische model uit een reeks mogelijke modellen, vaak op basis van criteria zoals AIC of hypothesetesten. |
| AIC (Akaike Information Criterion) | Een criterium voor modelselectie dat een balans zoekt tussen de fit van het model en de complexiteit ervan, waarbij lagere AIC-waarden duiden op een beter model. |
| Odds Ratio (OR) | Een maatstaf die de verhouding van de odds van een gebeurtenis in twee groepen weergeeft; vaak gebruikt in case-control studies en logistische regressie. |
| Relatief Risico (RR) | De verhouding van de kans op een uitkomst in een blootgestelde groep ten opzichte van de kans op dezelfde uitkomst in een niet-blootgestelde groep. |
| Homoscedasticiteit | De aanname in regressiemodellen dat de variantie van de residuen constant is over alle niveaus van de predictoren. |
| Heteroscedasticiteit | Het schenden van de aanname van homoscedasticiteit, waarbij de variantie van de residuen niet constant is. |
| QQ-plot | Een grafische techniek om te beoordelen of een dataset uit een specifieke verdeling komt, meestal de normale verdeling. |
| Residu | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de voorspelde waarde van die variabele door het regressiemodel. |
| Puntschatting | Een enkele waarde die wordt gebruikt om een populatieparameter te schatten. |
| Intervalschatting | Een reeks waarden (een interval) die waarschijnlijk de populatieparameter bevat, met een gespecificeerd betrouwbaarheidsniveau. |
| F-test | Een statistische test die wordt gebruikt om te vergelijken of de varianties van twee of meer populaties gelijk zijn, of om de significantie van regressiemodellen te evalueren. |
| Dummy variabele | Een categorische variabele die wordt omgezet in numerieke variabelen (meestal 0 of 1) om te worden gebruikt in regressiemodellen. |
| Familie-wijs foutenpercentage (FWER) | De kans op het maken van ten minste één Type I fout bij het uitvoeren van meerdere statistische toetsen binnen een enkel onderzoek. |
| Bonferroni correctie | Een methode om het familie-wijs foutenpercentage te controleren door het significantieniveau voor elke individuele toets te verlagen. |
| Tukey’s methode | Een post-hoc methode die wordt gebruikt na een significante ANOVA om paarsgewijze vergelijkingen tussen groepsgemiddelden uit te voeren, met correctie voor meervoudig testen. |
| Exacte p-waarde | De precieze kans op het observeren van een teststatistiek die minstens zo extreem is als de waargenomen waarde, onder de nulhypothese, berekend zonder asymptotische benaderingen. |
| Locatie-shift | Een aanname in niet-parametrische testen waarbij de verdelingen van de groepen dezelfde vorm hebben, maar verschillen in hun gemiddelde of locatie. |
| Probabilistische index | Een maat die de kans weergeeft dat een observatie uit de ene groep groter of gelijk is aan een observatie uit de andere groep, gebruikt in niet-parametrische testen zonder locatie-shift aanname. |
| Asymptotische theorie | Statistische theorie die zich bezighoudt met het gedrag van statistieken naarmate de steekproefgrootte toeneemt, vaak gebruikt om benaderingen te rechtvaardigen. |
| Genexpressie | Het proces waarbij informatie uit een gen wordt gebruikt om een functioneel product te maken, zoals een eiwit. |
| Toxicogenomics | Het bestuderen van de effecten van toxische stoffen op genexpressie. |
| Bio-assay | Een experimentele test die de biologische activiteit van een stof meet. |
| Microarray | Een biotechnologische tool die wordt gebruikt om de expressie van duizenden genen tegelijk te meten. |
| Overfitting | Een fenomeen waarbij een statistisch model te goed past bij de trainingsdata, waardoor het slecht presteert op nieuwe, ongeziene data. |
| Crossvalidatie | Een techniek om de prestaties van een statistisch model te evalueren door de data op te splitsen in trainings- en testsets. |
| Likelihood | Een statistische maat die aangeeft hoe waarschijnlijk het is om de geobserveerde data te verkrijgen, gegeven een bepaald model en parameters. |
| Regressierechte | De rechte lijn die de beste lineaire fit voor een set datapunten vertegenwoordigt in een regressieanalyse. |
| Predictie-interval | Een reeks waarden die waarschijnlijk een toekomstige individuele observatie zal bevatten, rekening houdend met zowel de onzekerheid in de modelparameters als de inherente variabiliteit van de data. |
| Kwadratensom | Een maat voor de totale variabiliteit in een dataset of de variabiliteit verklaard door een model. |
| ANOVA-tabel | Een tabel die de resultaten van een variantie-analyse samenvat, inclusief kwadratensommen, vrijheidsgraden, gemiddelde kwadratensommen en p-waarden. |
| Determinatiecoëfficiënt (R-kwadraat) | Een maat die aangeeft welk percentage van de variabiliteit in de afhankelijke variabele wordt verklaard door het regressiemodel. |
| Type I kwadratensommen | Kwadratensommen die afhankelijk zijn van de volgorde waarin predictoren aan een regressiemodel worden toegevoegd. |
| Type III kwadratensommen | Kwadratensommen die de unieke bijdrage van elke predictor aan het model kwantificeren, onafhankelijk van de andere predictoren. |
| VIF (Variance Inflation Factor) | Een maatstaf die aangeeft in welke mate de variantie van de geschatte regressiecoëfficiënt wordt opgeblazen door multicollineariteit. |
| DFBETAS | Een diagnostische maat die de invloed van een individuele observatie op elke specifieke regressieparameter kwantificeert. |
Cover
stat samenvatting testen.pdf
Summary
# Overzicht van biostatistische testen
Dit document geeft een overzicht van biostatistische testen, ingedeeld op basis van het type data en de onderzoeksvraag (verschillen of relaties), en onderscheidt parametrische van non-parametrische benaderingen met hun assumpties [2](#page=2).
### 1.1 Parametrische versus non-parametrische testen
Biostatistische testen kunnen worden onderverdeeld in parametrische en non-parametrische benaderingen. De keuze tussen deze twee hangt af van of de assumpties voor parametrische testen voldaan zijn [2](#page=2).
#### 1.1.1 Parametrische testen
Parametrische testen gaan ervan uit dat de data een specifieke verdeling volgt, vaak een normale verdeling. Ze worden gebruikt voor continue data en wanneer de assumpties voldaan zijn [2](#page=2).
* **Verschillen tussen groepen:**
* **Twee groepen:** Student's unpaired T-test (voor onafhankelijke groepen) of Paired T-test (voor afhankelijke/gepaarde groepen) ] [2](#page=2).
* **Tip:** Indien de resultaten significant zijn, kunnen paarsgewijze testen zoals Tukey's of Bonferroni's worden toegepast voor verdere analyse [2](#page=2).
* **Meer dan twee groepen:** ANOVA (Analysis of Variance) ] [2](#page=2).
* **Tip:** Indien de resultaten significant zijn, kunnen paarsgewijze testen zoals Tukey's of Bonferroni's worden toegepast voor verdere analyse [2](#page=2).
* **Relaties tussen variabelen:**
* **Pearson's correlatie (r):** Meet de lineaire relatie tussen twee continue variabelen [2](#page=2).
#### 1.1.2 Non-parametrische testen
Non-parametrische testen hebben minder strikte assumpties over de datadistributie en worden vaak gebruikt wanneer de assumpties van parametrische testen niet voldaan zijn of wanneer de data discreet of categorisch is [2](#page=2).
* **Verschillen tussen groepen:**
* **Twee groepen:** Mann-Whitney U test of Wilcoxon rank sum test (voor onafhankelijke groepen) . Indien de resultaten significant zijn, kunnen paarsgewijze testen met de Wilcoxon-Mann-Whitney test worden uitgevoerd [2](#page=2).
* **Meer dan twee groepen:** Kruskal-Wallis Test [2](#page=2).
* **Tip:** Indien significant, kunnen paarsgewijze testen met de Wilcoxon-Mann-Whitney test worden toegepast [2](#page=2).
* **Relaties tussen variabelen:**
* **Spearman's rank correlation:** Meet de rang-ordinale relatie tussen twee variabelen [2](#page=2).
### 1.2 Testen op basis van data type en onderzoeksvraag
De keuze voor een biostatistische test hangt af van het type data (discreet/categorisch of continu) en de onderzoeksvraag (verschillen of relaties) ] [2](#page=2).
#### 1.2.1 Testen voor verschillen
* **Continue data:**
* **Twee groepen:** Student's unpaired T-test, Paired T-test (parametrisch) of Mann-Whitney U/Wilcoxon rank sum test (non-parametrisch) ] [2](#page=2).
* **Meer dan twee groepen:** ANOVA (parametrisch) of Kruskal-Wallis test (non-parametrisch) ] [2](#page=2).
* **Discreet/categorische data:**
* **Pearson's chi-square tests:** Gebruikt voor het onderzoeken van verschillen of relaties tussen categorische variabelen. Deze kunnen worden toegepast op one-sample en two-sample situaties [2](#page=2).
#### 1.2.2 Testen voor relaties
* **Pearson's correlatie (r):** Voor continue data [2](#page=2).
* **Spearman's rank correlation:** Voor rang-ordinale data [2](#page=2).
### 1.3 Overwegingen bij de keuze van testen
#### 1.3.1 Assumpties en data transformatie
Bij de keuze van een statistische test is het cruciaal om te evalueren of de assumpties van de test voldaan zijn. Indien de assumpties voor parametrische testen niet voldaan zijn, kan data transformatie een optie zijn om de assumpties te normaliseren. Indien data transformatie niet slaagt, moet worden uitgeweken naar een non-parametrische test [2](#page=2).
#### 1.3.2 Onafhankelijke data
De testen worden ook geselecteerd op basis van de onafhankelijkheid van de data. Voor onafhankelijke data worden andere testen gebruikt dan voor afhankelijke of gepaarde data [2](#page=2).
* **Tip:** Een handig schema op basis van data type, de onderzoeksvraag en parametrische/non-parametrische benaderingen helpt bij het maken van de juiste keuze [2](#page=2).
---
# Relaties en correlaties in data
Dit hoofdstuk behandelt methoden voor het onderzoeken van relaties tussen variabelen, met een focus op correlatieanalyses en regressieanalyse [2](#page=2).
### 2.1 Correlatieanalyse
Correlatieanalyse wordt gebruikt om de sterkte en richting van de lineaire relatie tussen twee continue variabelen te meten. Er zijn verschillende typen correlatieanalyses, afhankelijk van de aard van de data en de te onderzoeken relatie [2](#page=2).
#### 2.1.1 Pearson's correlatiecoëfficiënt ($r$)
Pearson's correlatiecoëfficiënt, aangeduid met $r$, meet de sterkte van de lineaire relatie tussen twee continue variabelen. De waarde van $r$ ligt tussen -1 en +1 [2](#page=2).
* Een waarde van +1 geeft een perfecte positieve lineaire relatie aan.
* Een waarde van -1 geeft een perfecte negatieve lineaire relatie aan.
* Een waarde van 0 geeft aan dat er geen lineaire relatie is.
De berekening van Pearson's $r$ vereist dat de data voldoet aan bepaalde assumpties, zoals normaliteit en lineariteit. Indien de assumpties niet voldaan zijn, kan data transformatie nodig zijn [2](#page=2).
#### 2.1.2 Spearman's rangcorrelatie
Spearman's rangcorrelatie is een non-parametrische meting van de monotone relatie tussen twee variabelen. In tegenstelling tot Pearson's $r$, vereist Spearman's rangcorrelatie niet dat de data normaal verdeeld is. Deze methode is nuttig wanneer de relatie niet strikt lineair is of wanneer er sprake is van ordinale data. De berekening is gebaseerd op de rangen van de data [2](#page=2).
### 2.2 Regressieanalyse
Regressieanalyse is een statistische methode die gebruikt wordt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren. Het doel is om een voorspellend model te creëren [2](#page=2).
#### 2.2.1 Lineaire regressie
Een veelvoorkomende vorm is de lineaire regressie, die wordt gebruikt om de lineaire relatie tussen een continue afhankelijke variabele en een of meer continue of categorische onafhankelijke variabelen te analyseren. Het resultaat is een regressievergelijking die de verwachte waarde van de afhankelijke variabele kan voorspellen op basis van de waarden van de onafhankelijke variabelen.
> **Tip:** Regressieanalyse kan zowel voor voorspellende als verklarende doeleinden worden ingezet. Het is cruciaal om de assumpties van de gekozen regressiemethode te controleren om de validiteit van de resultaten te waarborgen [2](#page=2).
### 2.3 Keuze van analyse
De keuze tussen correlatieanalyse en regressieanalyse, en de specifieke test binnen deze categorieën, hangt af van de onderzoeksvraag en de aard van de data (continue, discrete, categorische variabelen) [2](#page=2).
* **Relaties** worden primair onderzocht met correlatieanalyse en regressieanalyse [2](#page=2).
* **Verschillen** tussen groepen worden onderzocht met andere statistische tests zoals t-toetsen, ANOVA, Mann-Whitney U, of Kruskal-Wallis, afhankelijk van het aantal groepen en de parametrische/non-parametrische aard van de data [2](#page=2).
> **Tip:** Een belangrijk onderscheid is dat correlatie de *sterkte van de relatie* aangeeft, terwijl regressie een *voorspellend model* opstelt. Correlatie impliceert geen causaliteit [2](#page=2).
---
# Meten van overeenkomst en nauwkeurigheid
Dit gedeelte behandelt het concept van het meten van de overeenkomst tussen een gemeten waarde en een aangenomen werkelijke waarde, met nadruk op de kwantificering van nauwkeurigheid [3](#page=3).
### 3.1 De maat voor overeenkomst
De overeenkomst tussen een gemeten waarde en de aangenomen werkelijke waarde wordt gekwantificeerd door middel van een specifieke maatstaf. Deze maatstaf is gebaseerd op het verschil tussen het experimenteel verkregen gemiddelde en de veronderstelde werkelijke waarde [3](#page=3).
#### 3.1.1 Formule voor de maat van overeenkomst
De formule die het verschil tussen het experimentele gemiddelde en de werkelijke waarde weergeeft, wordt als volgt uitgedrukt:
Het experimentele gemiddelde wordt hier aangeduid met $\mu$ [3](#page=3).
De aangenomen werkelijke waarde wordt ook aangeduid met $\mu$ [3](#page=3).
De maat voor de overeenkomst wordt gedefinieerd als het verschil tussen het experimentele gemiddelde en de aangenomen werkelijke waarde. Hoewel de precieze formule niet expliciet in de verstrekte tekst staat, wordt het concept beschreven als een "maat voor de overeenkomst tussen de gemeten waarde en de (aangenomen) echte waarde = experimenteel gemiddelde waarde $\mu$ = aangenomen echte waarde". Dit suggereert dat nauwkeurigheid in feite de afwijking van het gemiddelde van de metingen ten opzichte van de werkelijke waarde is [3](#page=3).
> **Tip:** In de context van metingen is het cruciaal om te onderscheiden tussen nauwkeurigheid (hoe dicht de metingen bij de werkelijke waarde liggen) en precisie (hoe dicht de metingen bij elkaar liggen). Dit gedeelte focust specifiek op nauwkeurigheid.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Biostatistiek | Een tak van de statistiek die zich bezighoudt met de ontwikkeling en toepassing van statistische methoden in biologische en medische wetenschappen. Het helpt bij het interpreteren van data verkregen uit experimenten en observaties. |
| Pearson's chi-square test | Een statistische test die gebruikt wordt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen door de geobserveerde frequenties te vergelijken met de verwachte frequenties onder de nulhypothese van onafhankelijkheid. |
| Onafhankelijke data | Data waarbij de observaties binnen een dataset geen invloed hebben op elkaar. Dit is een belangrijke aanname voor veel statistische toetsen. |
| Regressieanalyse | Een reeks statistische methoden die worden gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren. Het doel is om de afhankelijke variabele te voorspellen op basis van de onafhankelijke variabelen. |
| Correlatieanalyse | Een statistische methode die wordt gebruikt om de sterkte en richting van een lineair verband tussen twee continue variabelen te meten. Het resultaat is een correlatiecoëfficiënt. |
| Spearman's rank correlation | Een non-parametrische maat voor de correlatie tussen de rangschikkingen van twee variabelen. Het meet de sterkte en richting van de associatie tussen twee variabelen op ordinaal niveau. |
| Pearson's correlatie(r) | Een parametrische maat voor de lineaire correlatie tussen twee continue variabelen. De coëfficiënt, aangeduid met 'r', varieert van -1 tot +1, waarbij 1 perfecte positieve correlatie, -1 perfecte negatieve correlatie en 0 geen lineaire correlatie aangeeft. |
| F-test | Een statistische test die wordt gebruikt om de varianties van twee of meer populaties te vergelijken. Het wordt vaak gebruikt in de context van ANOVA om te testen of de groepsgemiddelden significant van elkaar verschillen. |
| Data transformatie | Een techniek die wordt toegepast op data om de verdeling ervan te wijzigen, vaak om te voldoen aan de assumpties van parametrische statistische testen, zoals normaliteit of homogeniteit van varianties. |
| Kruskal-Wallis Test | Een non-parametrische statistische test die wordt gebruikt om te bepalen of er significante verschillen zijn tussen de medianen van drie of meer onafhankelijke groepen. Het is de non-parametrische equivalent van een eenweg ANOVA. |
| Mann-Whitney U test | Een non-parametrische statistische test die gebruikt wordt om te bepalen of er significante verschillen zijn tussen de medianen van twee onafhankelijke groepen. Het is de non-parametrische equivalent van de ongepaarde T-test. |
| Wilcoxon rank sum test | Een synoniem voor de Mann-Whitney U test, een non-parametrische test om twee onafhankelijke groepen te vergelijken. |
| Paarsgewijze testen | Statistische toetsen die worden uitgevoerd nadat een significante resultaat is gevonden in een analyse met meerdere groepen (zoals ANOVA of Kruskal-Wallis), om specifieke paren van groepen te vergelijken en te bepalen welke groepen van elkaar verschillen. |
| ANOVA (Analysis of Variance) | Een statistische methode die wordt gebruikt om verschillen tussen de gemiddelden van drie of meer groepen te analyseren. Het deelt de totale variatie in de data op in verschillende bronnen van variatie. |
| Student's unpaired T-test | Een parametrische statistische test die wordt gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken. Het controleert of het verschil tussen de gemiddelden statistisch significant is. |
| Paired T-test | Een parametrische statistische test die wordt gebruikt om de gemiddelden van twee gerelateerde metingen te vergelijken, zoals metingen voor en na een behandeling bij dezelfde individuen. |
| Tukey's HSD (Honestly Significant Difference) | Een post-hoc test die wordt gebruikt na een significante ANOVA om te bepalen welke specifieke paren van groepsgemiddelden statistisch significant van elkaar verschillen. |
| Bonferroni correctie | Een methode om de significantiedrempel aan te passen bij het uitvoeren van meerdere statistische toetsen om het risico op een type I fout (onterechte verwerping van de nulhypothese) te verminderen. |
| Discreet, categorisch | Beschrijft data die worden geclassificeerd in distincte, niet-overlappende categorieën. Categorische data kunnen nominaal (geen inherente volgorde) of ordinaal (wel een volgorde) zijn. |
| Continue data | Beschrijft data die elke waarde binnen een bepaald bereik kunnen aannemen, zoals lengte, gewicht of temperatuur. Deze data kunnen theoretisch oneindig veel waarden hebben. |
| Variatie | De mate waarin data punten verspreid zijn rondom het gemiddelde. Statistieken zoals variantie en standaarddeviatie meten dit. |
| Gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden. Het is een maat voor de centrale tendens van de data. |
| Non-parametrisch | Een klasse van statistische testen die geen aannames doen over de verdeling van de populatie waaruit de data zijn getrokken, zoals normaliteit. Ze zijn geschikt voor data op ordinaal of nominaal niveau, of voor parametrische data die niet aan de assumpties voldoen. |
| Parametrisch | Een klasse van statistische testen die aannames doen over de verdeling van de populatie, meestal dat de data normaal verdeeld zijn. Ze worden doorgaans gebruikt voor continue data. |
| Overeenkomst | De mate waarin twee of meer metingen of observaties vergelijkbaar zijn. In de context van metingen, verwijst het naar de nauwkeurigheid en precisie van de gemeten waarde ten opzichte van de werkelijke waarde. |
| Experimenteel gemiddelde waarde | Het gemiddelde van metingen verkregen uit een experiment of studie. |
| Aangenomen echte waarde ($\mu$) | De theoretische of werkelijke waarde van een parameter of meting, die vaak als referentie wordt gebruikt bij het evalueren van de nauwkeurigheid van experimentele resultaten. |
Cover
Stats.Sum.notes.pdf
Summary
# Basic R operations and data manipulation
This section covers fundamental R operators, data storage mechanisms, and initial steps for loading data and packages in R.
### 1.1 Basic operators
R utilizes several operators for performing arithmetic operations and storing data.
#### 1.1.1 Arithmetic operators
* **Addition and Subtraction:** The `+` or `-` operators are used for adding or subtracting values [1](#page=1).
* **Multiplication:** The `*` operator is used for multiplication [1](#page=1).
* **Division:** The `/` operator is used for division [1](#page=1).
* **Exponentiation:** The `^` operator is used to raise a number to a power [1](#page=1).
#### 1.1.2 Data storage operator
* **Assignment:** The `<-` operator is used to store data or results into objects or variables [1](#page=1).
> **Example:** To store the text "apples" into an object named `c`, you would use `c <- "apples"` [1](#page=1).
> **Example:** To store a sequence of numbers (1, 2, 3) into an object named `c`, you would use `c <- c(1,2,3)` [1](#page=1).
#### 1.1.3 Comments
* The `#` symbol is used to ignore lines of code, effectively making them comments [1](#page=1).
### 1.2 Vectors
Vectors are fundamental data structures in R that can hold multiple values, which can be either text (letters) or numbers [1](#page=1).
* **Creating vectors:** The `c()` function (which stands for combine) is used to create vectors by listing the values within the parentheses [1](#page=1).
* For text, values should be enclosed in double quotes (`""`) [1](#page=1).
* For numbers, no quotes are needed [1](#page=1).
> **Example:** To create a vector named `d` with the numeric values 3, 7, and 1, you would use `d <- c(3,7,1)` [1](#page=1).
* **Accessing vector elements:**
* To recall a specific value from a vector, you use square brackets `[]` with the index (position) of the element. For example, `d ` would recall the second data value from vector `d`, which is `7` [1](#page=1) [2](#page=2).
### 1.3 Data frames and indexing
Data frames are tabular data structures in R. Specific elements within a data frame can be accessed using a specific indexing syntax.
* **Accessing elements:** The syntax `dataframe[row, column]` is used to recall a specific value from a table [1](#page=1) [2](#page=2).
> **Example:** `d ` would recall the element at the second row and third column of a data frame named `d` [1](#page=1) [2](#page=2) .
### 1.4 Loading data and packages
R provides functions to load external data files and to utilize pre-written functionalities from packages.
#### 1.4.1 Loading data files
* **RData files:** The `load("filename.rdata")` command is used to load data stored in an RData file [1](#page=1).
* **CSV files:** The `read.csv("filename.csv", row.names = 1)` command is used to import data from a CSV file. The `row.names = 1` argument correctly sets the first column as row names [1](#page=1).
#### 1.4.2 Working directory management
* **Checking the current directory:** The `getwd()` function returns the path of the current working directory [2](#page=2).
* **Setting the working directory:** The `setwd("folder address")` command is used to change the current working directory to a specified folder address [2](#page=2).
#### 1.4.3 Package management
* **Installing packages:** The `install.packages("package name")` command is used to download and install a package from a repository [2](#page=2).
* **Loading packages:** The `library("package name")` command makes the functions and data within an installed package available for use in the current R session [2](#page=2).
### 1.5 Investigating and manipulating data
R offers various tools for examining and modifying the structure and content of data.
#### 1.5.1 Data examination
* **Subsetting data:** The `$` operator is used to extract a specific column from a data frame. For instance, `cars$mpg` retrieves the `mpg` column from the `cars` data frame [2](#page=2).
* **Recalling column names:** The `names(dataframe)` function returns a vector containing the names of all columns in the specified data frame [2](#page=2).
* **Viewing data subsets:**
* `head(dataframe)` displays the column names and the first 6 rows of a data frame [2](#page=2).
* `head(dataframe, n=x)` displays the column names and the first `x` rows of a data frame. This can be used to view all rows if `x` is set to the total number of rows using `nrow()` [2](#page=2).
* **Counting dimensions:**
* `nrow(dataframe)` returns the number of rows in a dataset [2](#page=2).
* `ncol(dataframe)` returns the number of columns in a dataset [2](#page=2).
* **Converting data types:** The `dataframe$column <- factor(dataframe$column)` command converts the data in a specified column into a factor class. This can also be applied to convert data into integer or numeric classes [2](#page=2).
* **Checking data class:** The `class(dataframeUSDcolumn)` function is used to determine the data type (class) of a variable or column [2](#page=2).
* **Filtering data:** The `[which(dataframeUSDcolumn == "category")]` syntax is used to select rows from a specific column that meet a certain condition or match a specific category [2](#page=2).
#### 1.5.2 Graphical presentation
* **Boxplots:** The `boxplot(dataframeUSDcolumn)` command generates a boxplot for the data in a specified column.
> **Example:** `boxplot(miceUSDweight)` creates a boxplot visualizing the distribution of weights from the `mice` dataset [2](#page=2).
---
# Data exploration and graphical presentation
This section outlines essential methods for exploring datasets, including data subsetting, inspecting column names and dimensions, converting data types, and generating various graphical presentations such as boxplots and histograms.
### 2.1 Data examination
Exploring a dataset is a crucial first step to understand its structure and content. Several functions and operators are used for this purpose.
#### 2.1.1 Accessing and inspecting data
* The `$` operator is used to access specific columns (variables) within a data frame. For example, `cars$mpg` retrieves the `mpg` column from the `cars` dataset [2](#page=2).
* To recall a specific value within a table (data frame), you can use square bracket notation: `dataframe[row number, column number]` [2](#page=2).
* `names(dataframe)` displays all column names of a data frame [2](#page=2).
* `head(dataframe)` shows the column names and the top 6 rows of the data frame. You can specify the number of rows to display using `head(dataframe, n=x)` [2](#page=2).
* `nrow(dataframe)` returns the number of rows in a dataset [2](#page=2).
* `ncol(dataframe)` returns the number of columns in a dataset [2](#page=2).
#### 2.1.2 Data type conversion
* Data can be converted into a factor class using the command `dataframe$column <- factor(dataframe$column)`. This is also applicable for integer or numeric data types [2](#page=2).
* To check the data type of a variable, use `class(dataframeUSDcolumn)` [2](#page=2).
#### 2.1.3 Subsetting data based on conditions
* You can select data from a specific column that meets certain criteria using `which(dataframeUSDcolumn == "category")`. This function returns the indices of the elements that satisfy the condition [2](#page=2).
### 2.2 Graphical presentation
Visualizing data is vital for understanding distributions, relationships, and patterns.
#### 2.2.1 Boxplots
Boxplots are useful for visualizing the distribution of a numerical variable and identifying potential outliers.
* A basic boxplot for a single variable is created with `boxplot(dataframe$column)`. For instance, `boxplot(mice$weight)` would generate a boxplot of mice weights [2](#page=2).
* To create boxplots grouped by another variable, the syntax `boxplot(dataframe$column1 ~ dataframe$column2)` or `boxplot(dataframe$column2, data=dataframe)` is used. Here, `column1` is the response variable (dependent), and `column2` is the explanatory variable (used for grouping). For example, `boxplot(mice$weight, miceUSDgenotype)` would group the weights by genotype [3](#page=3).
> **Tip:** When creating grouped boxplots, ensure the grouping variable is a factor or a categorical type for proper visualization.
#### 2.2.2 Histograms
Histograms display the distribution of a numerical variable by dividing the data into bins.
* A basic histogram is generated using `hist(dataframeUSDcolumn)` [3](#page=3).
* To create a histogram for a specific subset of data, such as a particular treatment group, you can combine `hist()` with the subsetting condition: `hist(dataframe$column[which(dataframe$treatment == "treatment group type")])`. For example, `hist(data1$weight[which(data1$treatment=="control")])` would show the distribution of weights only for the control group [3](#page=3).
#### 2.2.3 Quantile-Quantile (Q-Q) plots
Q-Q plots are used to assess whether a dataset follows a specified theoretical distribution, typically the normal distribution.
* `qqnorm(dataframeUSDcolumn)` generates a Q-Q plot for the specified column [3](#page=3).
* `qqline(dataframeUSDcolumn)` adds a reference line of best fit to the Q-Q plot [3](#page=3).
#### 2.2.4 Scatter plots
Scatter plots are used to visualize the relationship between two numerical variables.
* The general syntax for a scatter plot is `plot(a ~ b, data = dataframe)`, where `b` is the independent/explanatory variable (plotted on the x-axis) and `a` is the dependent/response variable (plotted on the y-axis). The tilde symbol `~` signifies "is explained by" [3](#page=3).
* Plot customization options include:
* `xlab = "x-axis title"` to set the x-axis label [3](#page=3).
* `ylab = "y-axis title"` to set the y-axis label [3](#page=3).
* `main = "graph title"` to set the main title of the graph [3](#page=3).
* `xlim = c(x, y)` to set the limits of the x-axis [3](#page=3).
* `ylim = c(x, y)` to set the limits of the y-axis [3](#page=3).
* Text can be added to any location on the plot using `text(coordinates, coordinates, "text")` [3](#page=3).
#### 2.2.5 Pairwise scatter plots
* `pairs(dataframe)` generates a matrix of scatter plots, showing pairwise relationships between all numerical columns in a data frame. This is a quick way to visualize multiple relationships simultaneously [3](#page=3).
### 2.3 Summarising data
Summarizing data provides key statistical information about the variables in a dataset.
* `summary(dataframe)` provides a comprehensive summary of all variables in the dataset, including minimum, maximum, mean, first quartile (Q1), median, and third quartile (Q3) [3](#page=3).
* `summary(dataframe, column)` provides a summary for a specific column [3](#page=3).
---
# Statistical summaries and correlation/regression
This section details how to generate descriptive statistics for datasets and individual variables, including group-wise summaries, and introduces the concepts and functions for analyzing correlations and linear regressions.
### 3.1 Summarizing data
#### 3.1.1 Overall dataset summary
The `summary()` function in R provides a comprehensive overview of all variables within a dataset. For each column (variable), it typically outputs [3](#page=3) [4](#page=4):
* **Minimum value:** The smallest observation in the dataset [3](#page=3).
* **1st Quartile (Q1):** The value below which 25% of the data falls [3](#page=3).
* **Median:** The middle value of the dataset when ordered [3](#page=3).
* **Mean:** The average of all observations [3](#page=3).
* **3rd Quartile (Q3):** The value below which 75% of the data falls [3](#page=3).
* **Maximum value:** The largest observation in the dataset [3](#page=3).
#### 3.1.2 Summary for a specific column
To obtain a summary for a single column (variable) within a dataset, you can specify the column name within the `summary()` function [3](#page=3):
`summary(dataframeUSDcolumn)`
#### 3.1.3 Grouped summaries
To calculate summary statistics for a variable, broken down by a grouping variable, the `describeBy()` function from the `psych` package is useful. This function provides detailed statistics for each group, including [4](#page=4):
* Variance [4](#page=4).
* Number of observations (`n`) [4](#page=4).
* Mean [4](#page=4).
* Standard deviation [4](#page=4).
* Median [4](#page=4).
* Trimmed mean [4](#page=4).
* Median absolute deviation [4](#page=4).
* Minimum and Maximum values [4](#page=4).
* Range [4](#page=4).
* Skewness and Kurtosis [4](#page=4).
* Standard error of the mean [4](#page=4).
The `aggregate()` function can also be used to calculate specific statistics for groups.
* **Calculating Mean:** `aggregate(a ~ b, data = dataframe, FUN = mean)` [4](#page=4).
* **Calculating Standard Deviation (SD):** `aggregate(a ~ b, data = dataframe, FUN = sd)` [4](#page=4).
* **Calculating Standard Error of the Mean (SEM):** This requires a custom function:
`aggregate(a ~ b, data = dataframe, FUN = function(x) sd(x) / sqrt(n))` where `n` is the number of observations in each group [4](#page=4).
* **Calculating Confidence Interval (CI):** This also requires a custom function, using a multiplier (e.g., 2.571 for a t-distribution or 2 for a large sample size) and the SD and `n`:
`aggregate(a ~ b, data = dataframe, FUN = function(x) CL = 2.571 * sd(x) / sqrt(n))` [4](#page=4).
The `do.call()` function can be used to apply multiple aggregate functions at once and store the results in a data frame [24](#page=24) [4](#page=4).
### 3.2 Correlation and Regression
Correlation and regression analysis are used to understand the relationship between two or more variables.
#### 3.2.1 Correlation
Correlation measures the strength and direction of the linear relationship between two variables [17](#page=17).
* **Calculating correlation between two variables:** The `cor(a, b)` function calculates the Pearson correlation coefficient between variables `a` and `b` [4](#page=4).
* **Calculating correlation for all pairs of variables in a dataframe:** The `cor(dataframe)` function computes the correlation matrix for all possible pairs of columns within the specified dataframe [17](#page=17) [4](#page=4).
#### 3.2.2 Linear Regression
Linear regression models the relationship between a dependent variable and one or more independent variables by fitting a linear equation to the observed data.
* **Fitting a linear model:** The `lm()` function is used to build a linear regression model. The syntax `lm(column1 ~ column2, data = dataframe)` specifies that `column1` (the response variable) is explained by `column2` (the explanatory variable) within the `dataframe`. The model equation is stored in an object (e.g., `fit`) [17](#page=17) [18](#page=18) [19](#page=19) [20](#page=20) [21](#page=21) [22](#page=22) [23](#page=23) [24](#page=24) [4](#page=4).
* **Interpreting the regression model:** The `summary(fit)` function provides a detailed output of the regression analysis, including coefficients, standard errors, t-values, p-values, and the R-squared value [17](#page=17) [18](#page=18) [19](#page=19) [20](#page=20) [21](#page=21) [22](#page=22) [23](#page=23) [24](#page=24).
* The "coefficients" section details the intercept and slope of the regression line [17](#page=17).
* The **adjusted R-squared value** indicates how well the data fits the line, ranging from 0 to 1, where 1 represents a perfect fit. However, limitations exist: large variations around the line can result in a low R-squared value, and a high R-squared doesn't guarantee the line is a good fit if there are consistent differences [17](#page=17).
* **Visualizing the regression line:** A scatter plot of the two variables can be created using `plot(column1 ~ column2, data = dataframe)`, and the fitted regression line can be added using `abline(fit)` [17](#page=17) [18](#page=18) [19](#page=19) [20](#page=20) [21](#page=21) [22](#page=22) [23](#page=23) [24](#page=24) [5](#page=5).
* **Predicting new values:** The `predict()` function uses the fitted model to estimate the dependent variable for new, unseen independent variable values [17](#page=17) [18](#page=18) [19](#page=19) [20](#page=20) [21](#page=21) [22](#page=22) [23](#page=23) [24](#page=24).
* A new data frame must be created for the input values: `newdata <- data.frame(column=c(value))` [17](#page=17) [5](#page=5).
* The prediction can include confidence intervals: `predict(object, newdata, interval = "confidence")` [17](#page=17) [5](#page=5).
* **Analyzing residuals:** Residuals (the difference between observed and predicted values) can be plotted against the fitted values to check model assumptions: `plot(fit$residuals ~ fit$fitted.values)`. A horizontal line at `y=0` should be added using `abline(h = 0)` [17](#page=17) [18](#page=18) [19](#page=19) [20](#page=20) [21](#page=21) [22](#page=22) [23](#page=23) [24](#page=24) [5](#page=5).
#### 3.2.3 Plotting relationships
* **Scatter plots:** Visualize the relationship between two variables. The format `plot(dependent_variable ~ independent_variable, data = dataframe)` is used [17](#page=17) [3](#page=3).
* **Pairwise scatter plots:** Generate scatter plots for all combinations of variables in a dataframe using `pairs(dataframe)` [17](#page=17) [3](#page=3).
* **Limiting plot axes:** Use `xlim = c(min, max)` and `ylim = c(min, max)` to set the display range for the x and y axes, respectively [3](#page=3).
* **Adding text to plots:** The `text(x_coordinate, y_coordinate, "Your text")` function allows adding custom text labels to specific locations on a plot [3](#page=3).
---
# Probability distributions and hypothesis testing
This section covers the fundamentals of probability distributions, specifically binomial and normal distributions, and then delves into the principles of hypothesis testing, including its components, potential errors, and related metrics.
### 4.1 Probability distributions
Probability distributions are graphical representations of the probabilities of different outcomes within a dataset or experiment. They are theoretical and describe the likelihood of each possible result [10](#page=10).
#### 4.1.1 Binomial distribution
The binomial distribution is used for discrete data and models scenarios with a fixed number of independent trials, each having only two possible outcomes: "success" and "failure" [10](#page=10).
**Conditions for a binomial distribution:**
* There are exactly two outcomes for each trial: success and failure [10](#page=10).
* The number of trials is fixed [10](#page=10).
* Each trial is independent of the others [10](#page=10).
* The probability of success ($p$) is the same for every trial [10](#page=10).
**Key functions for binomial distribution:**
* `dbinom(x, size, prob)`: Calculates the probability of an *exact* number of successes.
* `x`: The exact number of successes.
* `size`: The total number of trials.
* `prob`: The probability of success in a single trial.
* `pbinom(q, size, prob)`: Calculates the *cumulative* probability, meaning the probability of getting up to and including a certain number of successes.
* `q`: The maximum number of successes to include.
* To find the probability of *more than* a certain number of successes (e.g., $P(X > x)$), you can use `1 - pbinom(x, size, prob)` [5](#page=5).
* To find the number of successes required for a certain cumulative probability, you can use `qbinom(cumulative probability, size, prob)` [5](#page=5).
**Visualizing binomial distributions:**
* `barplot(dbinom(x_values, size, prob))`: Creates a bar plot showing the probability of each outcome in the distribution [6](#page=6).
* `barplot(pbinom(q_values, size, prob))`: Plots cumulative probabilities [6](#page=6).
> **Tip:** When defining success and failure for a binomial distribution, ensure they are mutually exclusive and cover all possibilities within a trial.
#### 4.1.2 Normal distribution
The normal distribution, also known as the Gaussian distribution or bell curve, is used for continuous data that is often normally distributed. It is characterized by its mean and standard deviation [10](#page=10) [6](#page=6).
**Key function for normal distribution:**
* `pnorm(q, mean, sd, lower.tail = TRUE)`: Calculates the cumulative probability for a normal distribution.
* `q`: The value up to which to calculate the probability.
* `mean`: The mean of the distribution.
* `sd`: The standard deviation of the distribution.
* `lower.tail = TRUE` (default): Calculates $P(X \le q)$.
* `lower.tail = FALSE`: Calculates $P(X > q)$ (upper tail probability).
> **Tip:** For continuous data, the probability of any single exact value is theoretically zero. We are interested in ranges of values.
### 4.2 Hypothesis testing
Hypothesis testing is a statistical method used to make conclusions or predictions about a population based on sample data. It involves formulating hypotheses and using sample evidence to determine if the hypotheses can be rejected [10](#page=10).
#### 4.2.1 Null and alternative hypotheses
* **Null hypothesis ($H_0$)**: This is the default assumption, typically stating that there is no effect, no difference, or no relationship. It is assumed to be true until evidence suggests otherwise [10](#page=10) [15](#page=15).
* **Alternative hypothesis ($H_A$ or $H_1$)**: This is a statement that contradicts the null hypothesis, proposing that there is an effect, a difference, or a relationship. The null and alternative hypotheses are mutually exclusive [10](#page=10) [15](#page=15).
**Steps in hypothesis testing:**
1. **Formulate hypotheses**: Define the null ($H_0$) and alternative ($H_A$) hypotheses [15](#page=15).
2. **Set significance level ($\alpha$)**: This is the probability of rejecting the null hypothesis when it is actually true (Type I error). Commonly set at 0.05 [10](#page=10) [15](#page=15).
3. **Collect data**: Gather sample data relevant to the hypotheses.
4. **Calculate test statistic**: Compute a statistic based on the sample data.
5. **Determine p-value**: The probability of observing a test statistic as extreme as, or more extreme than, the one calculated from the sample, assuming the null hypothesis is true [10](#page=10) [15](#page=15).
6. **Make a decision**:
* If $p$-value $\le \alpha$, reject $H_0$ in favor of $H_A$ [10](#page=10) [15](#page=15).
* If $p$-value $> \alpha$, fail to reject $H_0$ [10](#page=10) [15](#page=15).
> **Tip:** The p-value does not measure the effect size or confirm the truth of the hypothesis; it only indicates how compatible the data is with the null hypothesis.
#### 4.2.2 Type I and Type II errors
Errors can occur in hypothesis testing, leading to incorrect conclusions.
* **Type I Error (False Positive)**: Rejecting the null hypothesis ($H_0$) when it is actually true. The probability of a Type I error is denoted by $\alpha$ (the significance level). The sample size does not affect the probability of a Type I error [10](#page=10) [15](#page=15).
* **Type II Error (False Negative)**: Failing to reject the null hypothesis ($H_0$) when it is actually false. The probability of a Type II error is denoted by $\beta$. Increasing the sample size can reduce the probability of a Type II error [10](#page=10) [15](#page=15).
#### 4.2.3 Power
**Statistical power** is the probability of correctly rejecting a false null hypothesis; it is the complement of the Type II error rate ($1 - \beta$) [10](#page=10) [15](#page=15).
* Higher power means a greater likelihood of detecting a real effect if one exists [15](#page=15).
* A powerful study is more reliable and increases certainty [15](#page=15).
**Factors that increase power:**
* Larger sample size [15](#page=15).
* Larger effect size [15](#page=15).
* Higher significance level ($\alpha$) (though this also increases Type I error risk) [15](#page=15).
* Using a one-tailed test (when justified) [15](#page=15).
* Lower variance within the data [15](#page=15).
#### 4.2.4 Effect size
**Effect size** quantifies the magnitude or practical importance of a statistical difference or relationship, indicating how meaningful the finding is in the real world [10](#page=10) [15](#page=15).
* A study can achieve a statistically significant p-value with a small effect size, especially with large sample sizes, meaning the result is statistically detectable but not practically important [15](#page=15).
* Effect size can be measured using metrics like Cohen's $d$, the correlation coefficient ($r$), or $R^2$ [15](#page=15).
**Factors that increase effect size:**
* A larger true difference between groups [15](#page=15).
* Lower variability in the data [15](#page=15).
* Less measurement error [15](#page=15).
* Improved study design, such as controlled experiments and reduced confounding variables [15](#page=15).
> **Tip:** While the p-value tells you if an effect is statistically significant, the effect size tells you if it is practically important.
### 4.3 Key concepts and functions in R
* **Binomial Distribution Functions:**
* `dbinom(x, size, prob)`: Probability of an exact number of successes.
* `pbinom(q, size, prob)`: Cumulative probability up to $q$ successes.
* `qbinom(p, size, prob)`: The number of successes for a given cumulative probability $p$.
* **Normal Distribution Function:**
* `pnorm(q, mean, sd)`: Cumulative probability for a normal distribution.
* **Hypothesis Testing Function (Binomial):**
* `binom.test(x, n, p, alternative)`: Performs a binomial test.
* `x`: Number of successes.
* `n`: Number of trials.
* `p`: Hypothesized probability of success under $H_0$.
* `alternative`: Specifies "less", "greater", or "two.sided" for one- or two-tailed tests.
> **Tip:** When performing a one-tailed binomial test, ensure the `alternative` argument correctly reflects the direction of the alternative hypothesis.
---
# Specific statistical tests and ANOVA
This section details the assumptions, applications, and interpretation of t-tests and Analysis of Variance (ANOVA), including methods for post-hoc analysis and multiple comparisons correction.
### 5.1 T-tests
T-tests are statistical methods used to evaluate if there is a statistically significant difference between up to two samples. They utilize the mean and standard deviation of a sample to estimate its representation of the population [10](#page=10) [15](#page=15).
#### 5.1.1 Types of T-tests
* **One-sample t-test:** Used to compare a single sample's mean to a known population mean [10](#page=10) [15](#page=15).
* **R Code:** `t.test(group, mu = x)` where `group` is the data for the sample and `mu` is the population mean being compared against [7](#page=7).
* **Two-sample t-test:** Used to compare the means of two independent samples [10](#page=10) [15](#page=15).
* **R Code:** `t.test(dataframe$sample1, dataframe$sample2)` [7](#page=7).
* When performing a two-sample t-test in R, the assumption of equal variances is not automatically made. If variances are known to be equal, `var.equal = TRUE` can be added to the function, which may increase the test's power, though often with little advantage [10](#page=10) [15](#page=15).
* **Paired t-test:** Applied when samples are closely related, analyzing data in pairs, such as measurements before and after an intervention on the same individuals [10](#page=10) [15](#page=15).
* **R Code:** `t.test(dataframe$sample1, dataframe$sample2, paired = TRUE)` [7](#page=7).
* For a paired t-test, the order of `pre_supplementation` and `post_supplementation` typically does not affect the results [7](#page=7).
#### 5.1.2 Assumptions of T-tests
T-tests rely on several assumptions about the data:
1. **Continuous Dependent Variable and Bivariate Independent Variable:** The dependent variable must be continuous, and the independent variable must be categorical with only two outcomes (bivariate). For example, comparing the effect of a "normal" diet versus a "western" diet (bivariate independent variable) on the time spent running on an exercise wheel (continuous dependent variable) [10](#page=10) [15](#page=15).
2. **Normal Distribution:** The population from which the samples are drawn is assumed to have a normal distribution. A normal quantile-quantile plot (Q-Q plot) can help assess if the data fits a normal distribution model by comparing dataset quantiles to theoretical normal distribution quantiles; a straight line indicates a good fit [10](#page=10) [15](#page=15).
3. **Equal Variances (Homoscedasticity):** The two populations from which the samples are drawn are assumed to have equal variances (spread of data). This can be checked by examining the variance or standard deviation of summary statistics. In R, `describeBy()` can be used to check summary statistics by group. A common heuristic is to consider variances equal if the ratio of the larger variance to the smaller variance is less than 4, though this is an estimation and may not be accurate for small sample sizes [10](#page=10) [15](#page=15).
#### 5.1.3 Interpreting T-test Output
* **Confidence Interval:** The 95% confidence interval for the difference between means is provided. If this interval does not include 0, it suggests a statistically significant difference, indicating that the population mean difference is unlikely to be zero [10](#page=10) [15](#page=15).
* **P-value:** While the confidence interval is informative, the p-value is considered the most important indicator of significance [10](#page=10) [15](#page=15).
### 5.2 Analysis of Variance (ANOVA)
ANOVA is a statistical test used to compare the means of three or more groups by comparing the variance within the groups to the variance between the groups. It determines if the observed differences between sample means are likely due to random variation or a genuine effect [10](#page=10) [15](#page=15).
#### 5.2.1 Performing ANOVA in R
**Assumptions for ANOVA:**
* Data should be normally distributed [10](#page=10) [15](#page=15).
* Observations within each group and between groups should be independent [10](#page=10) [15](#page=15).
* Groups must have equal variances (homoscedasticity) [10](#page=10) [15](#page=15).
**R Code:**
* To perform an ANOVA test: `aov(dependent_variable ~ independent_variable, data = dataframe)` [8](#page=8).
* To view the results: `summary(aov_test_output)` [10](#page=10) [15](#page=15).
**Understanding ANOVA Output:**
* The output typically includes Sum of Squares, Degrees of Freedom (DF), Mean Squares, an F-statistic, and a p-value [10](#page=10) [15](#page=15).
* **F-statistic:** Calculated as the ratio of the variance between groups to the variance within groups. A high F-statistic suggests that variation between groups is larger than within groups, potentially indicating a statistically significant effect [10](#page=10) [15](#page=15).
* **P-value:** Indicates the probability of observing the data (or more extreme data) if the null hypothesis (all group means are equal) were true. A p-value below the significance level (alpha) leads to rejecting the null hypothesis [10](#page=10) [15](#page=15).
* **Reporting ANOVA:** Results are typically reported as $F(\text{df}_{\text{between}}, \text{df}_{\text{within}}) = \text{F-value}, p = \text{p-value}$. For example: $F(2, 42) = 39.45, p = 2.21 \times 10^{-10}$ [10](#page=10) [15](#page=15).
#### 5.2.2 Post-Hoc Tests
If an ANOVA test yields a significant result (i.e., a significant p-value), it indicates that at least one group mean differs from the others, but it does not specify *which* groups differ. Post-hoc tests are used to identify these specific differences [10](#page=10) [15](#page=15).
* **Tukey's Honestly Significant Difference (HSD) Test:** A common post-hoc test used after ANOVA.
* **R Code:** `TukeyHSD(aov_test_output)` [8](#page=8).
* The output provides the differences between conditions and adjusted p-values. Adjusted p-values below the significance level indicate significant differences between specific group pairs [10](#page=10) [15](#page=15).
### 5.3 Correcting for Multiple Comparisons
When performing multiple statistical tests, the probability of obtaining a false positive (Type I error) increases. This is known as the **family-wise error rate (FWER)**. Methods to correct for multiple testing are employed to maintain a desired overall significance level [10](#page=10) [15](#page=15).
* **Bonferroni Correction:** This method controls the family-wise error rate by dividing the original alpha level by the number of tests performed. It is a strict method, reducing the chance of false positives but increasing the risk of false negatives (Type II errors), thus decreasing statistical power. It is best used when the number of tests is small and tolerance for false positives is very low [10](#page=10) [15](#page=15).
* **Benjamini-Hochberg (BH) Correction:** This method controls the **false discovery rate (FDR)**, which is the expected proportion of false positives among the rejected null hypotheses. It is generally more powerful than Bonferroni, especially with a large number of tests, as it allows for some false positives while limiting their overall proportion. If an adjusted p-value (using BH) is below 0.05, it is expected that about 5% of these significant results might be false positives [10](#page=10) [15](#page=15).
* **R Code:** `p.adjust(p_values, method = "bonferroni")` or `p.adjust(p_values, method = "BH")`. The `p_values` would be a vector or column of p-values obtained from multiple tests [9](#page=9).
### 5.4 Power and Sample Size Calculation
The `pwr` package in R can be used for power and sample size calculations. The `pwr.t.test()` function can be used for t-tests, requiring three of the four values: sample size (`n`), effect size (`d` for Cohen's d), significance level (`sig.level`), and power (`power` = 1 - $\beta$) [7](#page=7).
---
## Common mistakes to avoid
- Review all topics thoroughly before exams
- Pay attention to formulas and key definitions
- Practice with examples provided in each section
- Don't memorize without understanding the underlying concepts
Glossary
| Term | Definition |
|---|---|
| Dataframe | A two-dimensional data structure in R, similar to a table, where columns can contain different data types. |
| Vector | A one-dimensional array in R that can hold a sequence of elements of the same basic type, such as numbers, characters, or logical values. |
| Package | A collection of R functions, data, and compiled code that can be loaded into an R session to extend its functionality. |
| Working directory | The default location on your computer where R looks for files to load and saves files to by default. |
| Factor | A data structure in R used to store categorical data, where values are treated as categories or labels. |
| Boxplot | A graphical representation that displays the distribution of data through their quartiles, with outliers often plotted as individual points. |
| Histogram | A graphical representation of the distribution of numerical data, where the data is binned, and the frequency of data points in each bin is shown as bars. |
| QQ plot (Quantile-Quantile plot) | A graphical tool used to assess whether a dataset follows a certain distribution, typically comparing the quantiles of the sample data against the quantiles of a theoretical distribution. |
| Null hypothesis (H0) | A statement that there is no significant difference or relationship between variables or groups, serving as a baseline for statistical testing. |
| Alternative hypothesis (HA) | A statement that contradicts the null hypothesis, suggesting there is a significant difference or relationship between variables or groups. |
| P-value | The probability of obtaining test results at least as extreme as the results actually observed, assuming that the null hypothesis is true. |
| Significance level (alpha) | A threshold used in hypothesis testing to determine whether to reject the null hypothesis. Commonly set at 0.05. |
| Correlation coefficient | A statistical measure that indicates the strength and direction of a linear relationship between two variables, ranging from -1 (perfect negative correlation) to +1 (perfect positive correlation). |
| Linear regression | A statistical method used to model the relationship between a dependent variable and one or more independent variables by fitting a linear equation to the observed data. |
| Residuals | The difference between an observed value and the value predicted by a statistical model, often used to assess the model's fit. |
| T-test | A statistical hypothesis test used to determine if there is a significant difference between the means of two groups or between a sample mean and a population mean. |
| Paired t-test | A specific type of t-test used when the observations are paired or related, such as measurements taken from the same subject before and after an intervention. |
| ANOVA (Analysis of Variance) | A statistical test used to compare the means of three or more groups to determine if there are any statistically significant differences among them. |
| Tukey's HSD (Honestly Significant Difference) | A post-hoc test used after ANOVA to determine which specific pairs of group means are significantly different from each other. |
| Bonferroni correction | A method used to control the family-wise error rate when performing multiple statistical tests, by adjusting the significance level for each test. |
| False Discovery Rate (FDR) | The expected proportion of 'discoveries' (i.e., rejected null hypotheses) that are actually false positives. |
| Standard Error of the Mean (SEM) | A measure of the dispersion of sample means around the population mean, calculated as the sample standard deviation divided by the square root of the sample size. |
| Confidence Interval (CI) | A range of values, derived from sample statistics, that is likely to contain the value of an unknown population parameter with a certain level of confidence (e.g., 95% CI). |
| Effect size | A measure of the magnitude of a phenomenon, indicating the strength of the relationship or difference between variables, independent of sample size. |
| Type I error (False Positive) | The error of rejecting the null hypothesis when it is actually true. |
| Type II error (False Negative) | The error of failing to reject the null hypothesis when it is actually false. |
| Power | The probability of correctly rejecting the null hypothesis when it is false, essentially the ability of a test to detect a true effect. |
| Observational study | A study where researchers observe subjects and measure variables of interest without assigning treatments or interventions. |
| Experimental study | A study where researchers manipulate one or more variables (independent variables) and observe their effect on a dependent variable, while controlling other factors. |
| Independent variable | The variable that is manipulated or changed by the researcher in an experiment to observe its effect on the dependent variable. |
| Dependent variable | The variable that is measured in an experiment to see if it is affected by changes in the independent variable. |
| Confounding variable | An extraneous variable that can influence both the independent and dependent variables, potentially distorting the observed relationship. |
| Technical replicates | Multiple measurements taken from the same biological sample to assess the precision and reliability of the experimental technique. |
| Biological replicates | Independent samples from different biological sources that are subjected to the same experimental conditions to account for natural biological variability. |
| Negative control | A group or condition in an experiment where no effect is expected, used as a baseline for comparison. |
| Positive control | A group or condition in an experiment where an effect is known to occur, used to validate the experimental setup and confirm that the system is responsive. |
| Descriptive statistics | Statistical methods used to summarize and describe the main features of a dataset, such as mean, median, and standard deviation. |
| Inferential statistics | Statistical methods used to draw conclusions or make predictions about a population based on a sample of data. |
| Binomial distribution | A probability distribution that describes the number of successes in a fixed number of independent Bernoulli trials, each with the same probability of success. |
| Normal distribution | A continuous probability distribution characterized by its bell-shaped curve, where data is symmetrically distributed around the mean. |
| Hypothesis testing | A statistical method used to determine whether there is enough evidence in a sample of data to infer that there is a significant difference or relationship in the population. |
| Randomization | The process of assigning subjects to treatment groups by chance, to minimize bias and ensure that groups are comparable. |
| Blinding | A procedure in clinical trials where participants (and sometimes researchers) are unaware of which treatment group participants have been assigned to, to prevent bias. |
| Placebo effect | A phenomenon where a participant's belief in a treatment can lead to a perceived or actual improvement in their condition, even if the treatment is inert. |
| Questionable Research Practices (QRPs) | Actions such as cherry-picking data or p-hacking that can lead to biased results or misleading conclusions, even if not outright fabrication or falsification. |
| Publication bias | The tendency for studies with statistically significant results to be more likely to be published than studies with non-significant results. |
| Sampling error | The difference between a sample statistic and the corresponding population parameter, due to the random nature of sampling. |
| Bias | A systematic error that leads to a distortion of results, causing them to deviate from the true value. |
| Mean | The average of a set of numbers, calculated by summing all values and dividing by the count of values. |
| Median | The middle value in a dataset that has been ordered from least to greatest. |
| Standard deviation | A measure of the amount of variation or dispersion in a set of data values, indicating how spread out the data is from the mean. |
| Correlation | A statistical measure that describes the extent to which two variables change together. |
| Regression | A statistical technique used to estimate the relationship between a dependent variable and one or more independent variables. |
| F-statistic | A statistic used in ANOVA and regression analysis that measures the ratio of variance between groups to variance within groups. |
| Sum of squares | A measure of the total variability in a dataset, calculated as the sum of the squared differences between each data point and the mean. |
| Degrees of freedom | The number of independent values that can be freely assigned when estimating a parameter. |
| Tukey’s honest significant difference (HSD) | A statistical test used in ANOVA to find out which specific groups differ from each other. |
| Family-wise error rate (FWER) | The probability of making at least one Type I error (false positive) when performing multiple hypothesis tests. |
| False Discovery Rate (FDR) | The expected proportion of rejected null hypotheses that are actually false positives across a set of tests. |
| Replicates | Repetitions of an experiment or measurement, used to assess variability and increase the reliability of results. |
| Blocking | A technique in experimental design where experimental units are grouped into homogeneous blocks to reduce variability and improve the precision of treatment comparisons. |
| Randomization | The process of randomly assigning subjects to different treatment groups to minimize bias and ensure that groups are comparable. |
| Control group | A group in an experiment that does not receive the treatment being tested, serving as a baseline for comparison. |
| Bar plot | A chart that displays categorical data with rectangular bars with heights or lengths proportional to the values that they represent. |
| Continuous data | Data that can take any value within a given range, such as height or temperature. |
| Discrete data | Data that can only take specific, distinct values, often integers, such as the number of heads in coin flips. |
Cover
Student - Hoocollege 7 - Toetsen voor 2 afh SP.pptx
Summary
# Herhaling van afhankelijke en onafhankelijke steekproeven
Dit gedeelte herhaalt het cruciale onderscheid tussen afhankelijke en onafhankelijke steekproeven, met nadruk op de methoden voor hun verkrijging en kenmerkende voorbeelden om het begrip te versterken.
### 1.1 Wat zijn afhankelijke steekproeven?
Afhankelijke steekproeven worden verkregen op twee primaire manieren:
#### 1.1.1 Herhaalde metingen
Bij deze methode worden metingen uitgevoerd op dezelfde steekproef op twee of meer verschillende tijdstippen. Dit is typisch voor onderzoeken naar de werkzaamheid van interventies, zoals medicatie. Een initiële meting wordt gevolgd door de interventie, waarna een tweede meting bij dezelfde groep proefpersonen plaatsvindt.
> **Voorbeeld:** Het meten van de werkzaamheid van een geneesmiddel door een test af te nemen vóór toediening van het medicijn, vervolgens na toediening van het medicijn bij dezelfde personen.
#### 1.1.2 Gematchte paren
Afhankelijke steekproeven kunnen ook ontstaan door het creëren van gematchte paren. Hierbij worden individuen uit verschillende groepen zodanig geselecteerd dat ze vergelijkbare kenmerken vertonen. Dit wordt vaak toegepast in experimentele designs waarbij een experimentele groep en een controlegroep worden vergeleken.
> **Voorbeeld:** Bij het testen van een therapie tegen depressie worden individuen in de experimentele groep gematcht met individuen in de controlegroep op basis van kenmerken zoals depressieniveau, leeftijd en geslacht. Hoewel ze in verschillende groepen zitten, zijn de paren vergelijkbaar, wat de steekproeven afhankelijk maakt.
> **Tip:** Het is essentieel dat de geselecteerde paren werkelijk vergelijkbaar zijn. Als er significante verschillen zijn in belangrijke kenmerken tussen de groepen (bv. zwaar depressieve mensen in de ene groep en niet in de andere), kan dit leiden tot vertekende resultaten.
### 1.2 Kenmerken en toepassing van afhankelijke steekproeven
In het kader van hypothesetoetsing met afhankelijke steekproeven, is het primaire doel na te gaan of het waargenomen verschil tussen de twee steekproefgemiddelden groot genoeg is om te spreken van een significant effect in de populatie. Bij afhankelijke steekproeven wordt gekeken naar het verschil *binnen* de paren.
De keuze voor de juiste statistische toets hangt af van verschillende factoren:
* **Onderzoeksvraag:** Wat probeert men precies te onderzoeken?
* **Afhankelijke en onafhankelijke variabelen:** Wat zijn de variabelen die gemeten worden en wat is de aard van de interventie of factor die gemanipuleerd wordt?
* **Meetniveau van de afhankelijke variabele:** Voor de hier besproken toetsen moet de afhankelijke variabele minimaal op intervalniveau gemeten zijn.
* **Aantal populaties:** Er worden twee populaties bestudeerd, maar omdat de steekproeven afhankelijk zijn, is er een specifieke benadering.
* **Afhankelijke of onafhankelijke steekproeven:** Dit is de kernvraag die in dit hoofdstuk wordt uitgediept.
* **Parametrische of nonparametrische toets:** Voor afhankelijke steekproeven met intervalniveau data en normale verdeling is de parametrische **t-toets voor twee afhankelijke steekproeven** (paired samples t-test) de aangewezen methode. Nonparametrische alternatieven zoals de Wilcoxon signed rank-sum toets bestaan, maar zijn hier niet de focus.
* **Eenzijdig of tweezijdig:** De hypothese bepaalt of er sprake is van een gericht verschil (eenzijdig) of een algemeen verschil (tweezijdig).
### 1.3 Stramien voor hypothesetoetsing met afhankelijke steekproeven
Bij het uitvoeren van hypothesetoetsen met afhankelijke steekproeven wordt een gestructureerd stappenplan gevolgd:
1. **Toetsingssituatie:** Bepalen van het type onderzoeksvraag en gegevens, en het concrete scenario waarin de toets wordt toegepast.
2. **Voorwaarden:** Controleren of de statistische voorwaarden voor de gekozen toets voldaan zijn. Voor de paired samples t-test zijn dit:
* Afhankelijke variabele gemeten op minimaal intervalniveau.
* De afhankelijke variabele is normaal verdeeld in de populatie van de verschillen (dit maakt de t-toets robuust, zelfs bij kleinere steekproeven).
* De steekproeven zijn afhankelijk.
3. **Hypothesen:** Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$). Bij afhankelijke steekproeven wordt gekeken naar het gemiddelde verschil ($\mu_D$) per paar:
* Linkseenzijdig: $H_0: \mu_D \ge 0$, $H_1: \mu_D < 0$
* Rechtseenzijdig: $H_0: \mu_D \le 0$, $H_1: \mu_D > 0$
* Tweezijdig: $H_0: \mu_D = 0$, $H_1: \mu_D \neq 0$
> **Voorbeeld Evelien:** Om te onderzoeken of partners elkaars uiterlijk anders beoordelen, formuleert Evelien tweezijdig: $H_0: \mu_D = 0$ en $H_1: \mu_D \neq 0$.
4. **Toetsingsgrootheid:** Berekenen van de toetsingsgrootheid, die bij de t-toets voor twee afhankelijke steekproeven een t-score is. Deze volgt een student t-verdeling met $df = n-1$ vrijheidsgraden, waarbij $n$ het aantal paren is.
> De formule voor de t-score is: $$t = \frac{\bar{d}}{\frac{s_d}{\sqrt{n}}}$$
> Waarbij:
> * $\bar{d}$ het gemiddelde verschil is binnen de steekproefparen.
> * $s_d$ de standaardafwijking is van de verschillen binnen de steekproefparen.
> * $n$ het aantal paren is.
5. **Beslissingsregel:** Vaststellen of de nulhypothese wordt verworpen op basis van de berekende toetsingsgrootheid, via overschrijdingskansen (p-waarde) of kritieke waarden.
6. **Effectgrootte:** Beoordelen van de praktische significantie van het gevonden effect, vaak uitgedrukt met maten zoals Cohen's $r$.
> **Voorbeeld Evelien:** Een effectgrootte van $r = .79$ duidt op een sterk effect.
7. **Rapporteren:** Het op de juiste wijze presenteren van de resultaten, inclusief de toetsingsstatistiek, vrijheidsgraden, p-waarde en effectgrootte.
> **Voorbeeld Rapportering (Evelien):** "Om na te gaan of verliefde mensen het uiterlijk van hun partner beter beoordelen dan dat ze zichzelf beoordelen werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde beoordeling door de partner ($M = 76.80$, $SD = 3.75$) hoger was dan de gemiddelde zelfbeoordeling ($M = 69.05$, $SD = 5.02$). Dit verschil bleek significant op niveau $\alpha = .05$; $t(19) = 5.63$, $p < .001$, $r = .79$."
> **Tip:** Een p-waarde van ',000' in SPSS output betekent dat de p-waarde extreem klein is (veel nullen achter de komma), wat duidt op een zeer significante bevinding.
---
# Inleiding tot toetsen voor 2 populaties met afhankelijke steekproeven
Dit hoofdstuk introduceert de methoden voor het toetsen van hypotheses wanneer we te maken hebben met twee populaties en afhankelijke steekproeven, waarbij de significantie van het verschil tussen de steekproefgemiddelden centraal staat.
### 2.1 Afhankelijke steekproeven: definitie en voorbeelden
Afhankelijke steekproeven ontstaan wanneer metingen op twee of meer momenten worden uitgevoerd op dezelfde groep proefpersonen, of wanneer proefpersonen worden gematcht op basis van relevante kenmerken.
#### 2.1.1 Herhaalde metingen
Bij herhaalde metingen wordt op dezelfde individuen een meting verricht vóór en na een bepaalde interventie of op verschillende tijdstippen. Dit creëert twee afhankelijke metingen voor dezelfde groep.
* **Voorbeeld:** Het meten van de werkzaamheid van een geneesmiddel door een test af te nemen vóór medicatie en een tweede test na medicatie bij dezelfde patiënten.
#### 2.1.2 Gematchte paren
Gematchte paren worden gevormd door individuen uit twee verschillende groepen (bv. experimentele en controlegroep) zodanig aan elkaar te koppelen dat ze vergelijkbare kenmerken vertonen (bv. leeftijd, geslacht, uitgangsniveau). Hoewel ze tot verschillende groepen behoren, is er een afhankelijkheid door de matching.
* **Voorbeeld:** Het testen van een therapie tegen depressie. Personen in de experimentele groep worden gematcht met personen in de controlegroep op basis van hun depressieniveau, leeftijd en geslacht.
### 2.2 Kernvraagstelling bij toetsen voor twee populaties met afhankelijke steekproeven
De centrale vraag is of het waargenomen verschil tussen de twee steekproefgemiddelden groot genoeg is om te concluderen dat er een significant effect is in de populatie.
### 2.3 Keuze van de juiste toets
De keuze voor de juiste toetsingsmethode is afhankelijk van verschillende factoren:
* **Onderzoeksvraag:** Wat is de specifieke vraag die beantwoord moet worden?
* **Variabelen:** Wat zijn de afhankelijke en onafhankelijke variabelen, en wat is hun meetniveau?
* De afhankelijke variabele moet minstens van intervalniveau zijn.
* **Aantal populaties:** Er worden twee populaties bestudeerd, maar met afhankelijke steekproeven.
* **Type steekproef:** Zijn de steekproeven afhankelijk of onafhankelijk? (In dit hoofdstuk focussen we op afhankelijke steekproeven).
* **Type toets:** Moet er een parametrische of nonparametrische toets worden gebruikt?
* **Parametrisch:** De t-toets voor twee afhankelijke steekproeven (paired samples t-test).
* **Non-parametrisch:** De Wilcoxon signed-rank sum test (niet te kennen voor dit examen).
* **Eenzijdig of tweezijdig:** Is er een specifieke richting van het effect voorspeld, of wordt er simpelweg een verschil onderzocht?
### 2.4 Stramien voor hypothesetoetsing
Voor het uitvoeren van hypothesetoetsen wordt een vast stramien gevolgd, ongeacht de specifieke toets:
1. **Toetsingssituatie:** Identificeer het type onderzoeksvraag en de bijbehorende situatie waarin de toets wordt gebruikt.
2. **Voorwaarden:** Controleer of de statistische voorwaarden voor de gekozen toets zijn voldaan.
3. **Hypothesen:** Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$).
4. **Toetsingsgrootheid:** Bereken de toetsingsgrootheid en bepaal de bijbehorende kansverdeling.
5. **Beslissingsregel:** Stel de regel op voor het al dan niet verwerpen van de nulhypothese, gebaseerd op overschrijdingskansen of kritieke waarden.
6. **Effectgrootte:** Kwantificeer de belangrijkheid van het gevonden effect, wat aangeeft hoe sterk het effect is, onafhankelijk van de significantie.
7. **Rapporteren:** Communiceer de resultaten van de toets op een correcte en volledige manier.
### 2.5 Parametrische toets: T-toets voor twee afhankelijke steekproeven (paired samples t-test)
Deze toets wordt gebruikt wanneer de voorwaarden voor de t-toets zijn voldaan en er sprake is van afhankelijke steekproeven.
#### 2.5.1 Toetsingssituatie
De t-toets voor twee afhankelijke steekproeven wordt gebruikt om na te gaan of het gemiddelde verschil tussen paren in de populatie significant verschilt van nul.
* **Voorbeeld:** Evelien onderzoekt of de zelfbeoordeling van iemands uiterlijk significant verschilt van de beoordeling door de partner. Ze gebruikt tien koppels, wat resulteert in twintig personen. De vraag is of de gemiddelde beoordelingen van partners significant verschillen van de gemiddelde zelfbeoordelingen.
#### 2.5.2 Voorwaarden
* De afhankelijke variabele is gemeten op minimaal intervalniveau (bv. een beoordeling op een schaal van 0 tot 100).
* De steekproeven zijn afhankelijk.
* De afhankelijke variabele, of het verschil tussen de paren, is normaal verdeeld in de populatie. Bij een voldoende grote steekproefgrootte ($N \geq 30$) is deze voorwaarde minder kritisch vanwege de centrale limietstelling. Zelfs bij kleinere steekproeven kan de t-toets nog worden uitgevoerd indien de data ruwweg normaal verdeeld zijn.
#### 2.5.3 Hypothesen
De hypotheses richten zich op het gemiddelde verschil ($µ_D$) tussen de paren in de populatie, waarbij $D$ staat voor het verschil binnen elk paar (bv. steekproef1 - steekproef2).
* **Linkseenzijdig:**
* $H_0: µ_D \geq 0$
* $H_1: µ_D < 0$
* **Rechtseenzijdig:**
* $H_0: µ_D \leq 0$
* $H_1: µ_D > 0$
* **Tweezijdig:**
* $H_0: µ_D = 0$
* $H_1: µ_D \neq 0$
* **Voorbeeld Evelien (tweezijdig):**
* $H_0: µ_D = 0$ (Er is geen significant verschil tussen zelfbeoordelingen en partnerbeoordelingen).
* $H_1: µ_D \neq 0$ (Er is een significant verschil tussen zelfbeoordelingen en partnerbeoordelingen).
#### 2.5.4 Toetsingsgrootheid
De toetsingsgrootheid is de t-score, die wordt berekend op basis van het gemiddelde verschil in de steekproef, de standaardafwijking van de verschillen, en de steekproefgrootte ($n$). De kansverdeling van deze t-score is de Student t-verdeling met $df = n-1$ vrijheidsgraden.
$$t = \frac{\bar{d}}{\frac{s_d}{\sqrt{n}}}$$
Waarbij:
* $\bar{d}$ het gemiddelde verschil in de steekproef is.
* $s_d$ de standaardafwijking van de verschillen in de steekproef is.
* $n$ het aantal paren is.
#### 2.5.5 Beslissingsregel
De nulhypothese wordt verworpen als de berekende t-score buiten het gebied van acceptatie valt (bepaald door kritieke waarden) of als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$).
#### 2.5.6 Effectgrootte
De effectgrootte, vaak gerapporteerd als $r$, kwantificeert de omvang van het gevonden effect.
* **Voorbeeld Evelien:** Een effectgrootte van $r=.79$ duidt op een sterk effect.
#### 2.5.7 Rapporteren
De resultaten worden gerapporteerd volgens een gestandaardiseerd format, inclusief de toetsnaam, gemiddelden, standaardafwijkingen, de t-waarde, het aantal vrijheidsgraden, de p-waarde, en de effectgrootte.
* **Voorbeeld Evelien:** "Om na te gaan of verliefde mensen het uiterlijk van hun partner beter beoordelen dan dat ze zichzelf beoordelen werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde beoordeling door de partner ($M = 76.80, SD = 3.75$) hoger was dan de gemiddelde zelfbeoordeling ($M = 69.05, SD = 5.02$). Dit verschil bleek significant op niveau $\alpha = .05$; $t(19) = 5.63$, $p <.001$, $r=.79$."
### 2.6 SPSS Output voor Paired Samples T-test
SPSS output voor een paired samples t-test bevat informatie over de t-score, het aantal vrijheidsgraden ($df$), en de significantie (p-waarde) voor een tweezijdige toets. Een p-waarde van .000 wordt geïnterpreteerd als een p-waarde met zeer veel nullen achter de komma, wat leidt tot verwerping van de nulhypothese indien deze kleiner is dan het gekozen significantieniveau ($\alpha$).
#### 2.6.1 Interpretatie van SPSS Output
* **Paired Samples Test:** Geeft aan dat de analyse is uitgevoerd voor gekoppelde steekproeven.
* **t:** De berekende t-score.
* **df:** Het aantal vrijheidsgraden ($n-1$).
* **Sig. (2-tailed):** De p-waarde voor een tweezijdige toets. Als deze waarde kleiner is dan $\alpha$, wordt $H_0$ verworpen. Een waarde van .000 geeft een zeer kleine p-waarde aan, wat leidt tot verwerping van $H_0$.
### 2.7 Extra Oefening: Analyse van Mountainbiker Prestaties
Deze oefening illustreert de toepassing van de paired samples t-test in een praktisch scenario.
* **Onderzoeksvraag:** Fietsen mountainbikers sneller bij 18 graden of bij 25 graden Celsius?
* **Toetskeuze:** Paired samples t-test omdat het herhaalde metingen betreft (dezelfde mountainbikers op verschillende temperaturen). De afhankelijke variabele (tijd) is op ratio-niveau en de data zijn normaal verdeeld. Er wordt een tweezijdige toets gebruikt om te onderzoeken of er een verschil is.
* **Hypothesen:**
* $H_0: µ_D = 0$ (Er is geen verschil in gemiddelde tijd tussen 18 en 25 graden).
* $H_1: µ_D \neq 0$ (Er is een verschil in gemiddelde tijd tussen 18 en 25 graden).
* **Berekening T-score:** Met $n=15$ paren en de gegeven gemiddelden en standaardafwijkingen van de tijden bij de twee temperaturen, wordt de t-score berekend.
* **Beslissingsregel:** De berekende t-score (3.712) wordt vergeleken met de kritieke waarde voor $\alpha = .05$ en $df = 14$, die 2.145 bedraagt. Aangezien de t-score de kritieke waarde overschrijdt, wordt de nulhypothese verworpen.
* **Effectgrootte:** De gerapporteerde effectgrootte ($r=.70$) duidt op een sterk effect.
* **Rapportage:** "Om na te gaan of mountainbikers sneller rijden bij 18 of 25 graden werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde tijd bij 18 graden ($M=106.40, SD= 7.72$) hoger was dan bij 25 graden ($M=97.13, SD = 6.97$). Dit verschil bleek significant op niveau $\alpha = .05$, $t(14) = 3.71$, $p=.002$, $r=.70$."
**Tip:** De standaardafwijking wordt voor een steekproef berekend door te delen door $n-1$, terwijl voor de populatie $n$ wordt gebruikt. Bij de t-toets voor afhankelijke steekproeven berekenen we de standaardafwijking van de *verschillen* binnen de paren.
---
# Het stramien voor hypothesetoetsing
## 3. Het stramien voor hypothesetoetsing
Dit stramien biedt een gestructureerd, zevenstappenplan dat consistent toegepast wordt bij het uitvoeren van hypothesetoetsingen, van de definitie van de toetsingssituatie tot het rapporteren van de resultaten.
### 3.1 Algemeen stramien voor hypothesetoetsing
Het volgende stramien wordt gebruikt om de stappen bij het uitvoeren van hypothesetoetsingen te doorlopen, ongeacht de specifieke toets die gekozen wordt.
#### 3.1.1 Toetsingssituatie
* **Beschrijving:** Identificeer de concrete toetsingssituatie en de aard van de onderzoeksvraag. Bij welk soort onderzoeksvragen wordt deze specifieke toets gebruikt?
* **Focus:** Begrijp de onderzoeksvraag goed, identificeer de afhankelijke en onafhankelijke variabelen, en bepaal het meetniveau van de variabelen. Beoordeel hoeveel populaties worden bestudeerd en of de steekproeven afhankelijk of onafhankelijk zijn. Bepaal tevens of een parametrische of nonparametrische toets, en een eenzijdige of tweezijdige toets, passend is.
#### 3.1.2 Voorwaarden
* **Beschrijving:** Wat zijn de statistische voorwaarden waaraan voldaan moet zijn om de gekozen toets correct te kunnen toepassen? Dit omvat vaak aannames over het meetniveau van de afhankelijke variabele en de verdeling van de data in de populatie(s).
* **Voorbeeld:** Bij parametrische toetsen, zoals de t-toets, is een intervalniveau voor de afhankelijke variabele en een normale verdeling van de data in de populatie doorgaans vereist.
#### 3.1.3 Hypothesen
* **Beschrijving:** Hoe zien de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) eruit voor de specifieke toets die wordt uitgevoerd? De formulering hangt af van de onderzoeksvraag en het feit of de toets eenzijdig of tweezijdig is.
* **Formulering:**
* **Eenzijdig links:**
$H_0: \mu \leq \text{hypothetische waarde}$
$H_1: \mu < \text{hypothetische waarde}$
* **Eenzijdig rechts:**
$H_0: \mu \geq \text{hypothetische waarde}$
$H_1: \mu > \text{hypothetische waarde}$
* **Tweezijdig:**
$H_0: \mu = \text{hypothetische waarde}$
$H_1: \mu \neq \text{hypothetische waarde}$
* Voor toetsen die betrekking hebben op het verschil tussen populatiegemiddelden ($\mu_D$) wordt de hypothetische waarde vaak gesteld op nul.
#### 3.1.4 Toetsingsgrootheid
* **Beschrijving:** Welke grootheid moet berekend worden om de hypotheses te toetsen? Wat is de kansverdeling van deze toetsingsgrootheid onder de nulhypothese?
* **Berekening:** De waarde van de toetsingsgrootheid wordt berekend aan de hand van de verzamelde steekproefgegevens en een specifieke formule, afhankelijk van de gekozen toets.
#### 3.1.5 Beslissingsregels
* **Beschrijving:** Op basis van welke criteria wordt besloten om de nulhypothese te verwerpen of niet te verwerpen? Dit kan gebeuren via overschrijdingskansen (p-waarden) of kritieke waarden.
* **Overschrijdingskans (p-waarde):** Als de berekende p-waarde kleiner is dan het vooraf bepaalde significantieniveau ($\alpha$), wordt de nulhypothese verworpen.
* **Kritieke waarden:** Als de berekende toetsingsgrootheid buiten het acceptatiegebied valt (bijvoorbeeld groter is dan de kritieke waarde voor een eenzijdige rechtse toets), wordt de nulhypothese verworpen.
#### 3.1.6 Effectgrootte
* **Beschrijving:** Hoe belangrijk is het gevonden effect in de praktijk? Dit geeft aan hoe groot de omvang van het effect is, onafhankelijk van de steekproefgrootte. Significantie vertelt of er een effect is, effectgrootte vertelt hoe belangrijk dat effect is.
* **Toepassing:** De berekening van de effectgrootte (bijvoorbeeld $r$ voor de paired samples t-test) helpt bij het interpreteren van de praktische relevantie van de resultaten.
#### 3.1.7 Rapporteren
* **Beschrijving:** Hoe worden de resultaten van de hypothesetoets op een correcte en volledige manier gerapporteerd?
* **Inhoud:** Een correcte rapportage bevat doorgaans:
* De gebruikte toets.
* De richting van de toets (eenzijdig/tweezijdig).
* De gemiddelden en standaardafwijkingen van de groepen.
* De berekende toetsingsgrootheid, het aantal vrijheidsgraden, de p-waarde, en de effectgrootte.
* Een conclusie die de resultaten interpreteert in de context van de onderzoeksvraag.
> **Tip:** Het is cruciaal om de stappen van dit stramien consequent te volgen. Dit zorgt voor helderheid en voorkomt fouten bij het uitvoeren en interpreteren van statistische toetsen.
### 3.2 Toetsen voor 2 populaties: afhankelijke steekproeven
Dit onderdeel focust op het stramien toegepast op situaties met afhankelijke steekproeven, specifiek met behulp van de parametrische t-toets voor twee afhankelijke steekproeven (paired samples t-test).
#### 3.2.1 Toetsingssituatie voor paired samples t-test
* **Toepassing:** Deze toets wordt gebruikt wanneer men wil onderzoeken of het gemiddelde verschil tussen paren in de populatie significant verschilt van een hypothetische waarde (meestal nul). Dit is het geval bij herhaalde metingen bij dezelfde individuen of bij gematchte paren.
* **Voorbeeld Evelien:** Onderzoek naar de vraag of beoordelingen van het uiterlijk significant verschillen tussen zelfbeoordelingen en beoordelingen door een partner. Hierbij worden tien koppels bevraagd, waarbij elk koppel een afhankelijk paar vormt. De steekproefgrootte is $n=10$ paren, wat neerkomt op $N=20$ individuele metingen.
#### 3.2.2 Voorwaarden voor de paired samples t-test
* **Afhankelijke variabelen:** De afhankelijke variabele moet minstens op intervalniveau gemeten zijn. Bijvoorbeeld, een beoordeling op een schaal van 0 tot 100 voldoet hieraan.
* **Normaliteit:** De verschillen tussen de paren moeten normaal verdeeld zijn in de populatie. Bij een voldoende grote steekproefgrootte kan met de centrale limietstelling ook bij een minder strikte normaliteit nog een t-toets worden uitgevoerd. Voor Evelien met $N=20$ is de aanname van normaliteit belangrijk.
* **Afhankelijke steekproeven:** De steekproeven zijn duidelijk afhankelijk, wat inherent is aan herhaalde metingen of gematchte paren.
#### 3.2.3 Hypothesen voor de paired samples t-test
* **Definitie:** $D$ staat voor het gemiddelde verschil per paar in de populatie, geschat door het verschil tussen de metingen in steekproef 1 en steekproef 2 voor elk paar.
* **Formulering:**
* **Tweezijdig (meest gebruikelijk bij "verschil"):**
$H_0: \mu_D = 0$ (Het gemiddelde verschil tussen de paren in de populatie is nul.)
$H_1: \mu_D \neq 0$ (Het gemiddelde verschil tussen de paren in de populatie is niet nul.)
* **Voorbeeld Evelien:** Omdat de vraag is of de beoordelingen significant *verschillen*, wordt een tweezijdige toets gebruikt:
$H_0: \mu_D = 0$
$H_1: \mu_D \neq 0$
#### 3.2.4 Toetsingsgrootheid voor de paired samples t-test
* **Kansverdeling:** De toetsingsgrootheid volgt een Student t-verdeling met $df = n-1$ vrijheidsgraden, waarbij $n$ het aantal paren is.
* **Berekening:** De t-score wordt berekend met de formule:
$$t = \frac{\bar{d}}{\frac{s_d}{\sqrt{n}}}$$
Waarbij:
* $\bar{d}$ het gemiddelde verschil van de geobserveerde verschillen in de steekproef is.
* $s_d$ de standaardafwijking van de geobserveerde verschillen in de steekproef is.
* $n$ het aantal paren is.
#### 3.2.5 Beslissingsregels voor de paired samples t-test
* **Overschrijdingskans (p-waarde):** Indien de berekende p-waarde kleiner is dan het significantieniveau ($\alpha$), wordt $H_0$ verworpen.
* **Kritieke waarde:** Indien de berekende t-score groter is dan de kritieke waarde uit de t-verdeling voor het gekozen $\alpha$ en $df = n-1$, wordt $H_0$ verworpen.
> **Tip:** De p-waarde geeft de kans aan om de geobserveerde resultaten (of extremere resultaten) te verkrijgen, *als* de nulhypothese waar zou zijn. Een lage p-waarde (< $\alpha$) suggereert dat de geobserveerde resultaten onwaarschijnlijk zijn onder de $H_0$.
#### 3.2.6 Effectgrootte voor de paired samples t-test
* **Doel:** Kwantificeert de omvang van het verschil. Een veelgebruikte maat is Cohen's r, die kan worden geïnterpreteerd als:
* $r \approx 0.1$ : klein effect
* $r \approx 0.3$ : gemiddeld effect
* $r \approx 0.5$ : groot effect
* **Berekening:** De effectgrootte $r$ kan berekend worden op basis van de t-score en de vrijheidsgraden. De formule is:
$$r = \sqrt{\frac{t^2}{t^2 + df}}$$
* **Voorbeeld Evelien:** Een berekende $r = 0.79$ duidt op een sterk effect.
#### 3.2.7 Rapporteren van de paired samples t-test
* **Formaat:** Een gestandaardiseerde rapportage is essentieel.
* **Inhoud voorbeeld Evelien:** "Om na te gaan of verliefde mensen het uiterlijk van hun partner beter beoordelen dan dat ze zichzelf beoordelen, werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde beoordeling door de partner ($M = 76.80, SD = 3.75$) hoger was dan de gemiddelde zelfbeoordeling ($M = 69.05, SD = 5.02$). Dit verschil bleek significant op niveau $\alpha = .05$; $t(19) = 5.63, p < .001, r = .79$."
> **Opmerking:** Een p-waarde van '$p < .001$' (of '$p=.000$' in SPSS output) betekent dat de p-waarde extreem klein is (veel nullen achter de komma) en dus significant lager dan elk realistisch $\alpha$-niveau.
### 3.3 SPSS Voorbeeld
* **Analyse:** De output van een SPSS paired samples t-test toont de t-score, het aantal vrijheidsgraden ($df$), en de significantie (p-waarde) voor een tweezijdige toets.
* **Interpretatie:** Een significantie van '.000' (of '.001' als er een klein getal achter de nullen staat) geeft aan dat de nulhypothese verworpen mag worden, omdat de p-waarde kleiner is dan $\alpha = .05$.
### 3.4 Extra Oefening: Mountainbikers
Deze oefening illustreert de toepassing van het stramien op een nieuw scenario.
* **Onderzoeksvraag:** Fietsen mountainbikers sneller bij 18 graden of bij 25 graden Celsius?
* **Toetskeuze:** Paired samples t-test is aangewezen omdat het gaat om herhaalde metingen (dezelfde mountainbikers onder twee verschillende omstandigheden). De afhankelijke variabele (tijd) is van ratio-niveau en de normale verdeling van de verschillen wordt aangenomen (met $N=15$ paren). De toets is tweezijdig omdat er een verschil wordt onderzocht, niet een specifieke richting.
**Stappen conform het stramien:**
1. **Toetsingssituatie:** Vergelijken van rijtijden onder twee verschillende temperatuurcondities bij dezelfde groep mountainbikers.
2. **Voorwaarden:**
* Afhankelijke variabele (tijd) is van ratio-niveau.
* Verwachting van normale verdeling van de tijdverschillen.
* Afhankelijke steekproeven (herhaalde metingen).
3. **Hypothesen:**
$H_0: \mu_D = 0$ (Er is geen verschil in rijtijd tussen 18 en 25 graden Celsius.)
$H_1: \mu_D \neq 0$ (Er is een verschil in rijtijd tussen 18 en 25 graden Celsius.)
4. **Toetsingsgrootheid:** Berekening van de t-score met $df = n-1 = 15-1 = 14$.
$$t = 3.712$$
5. **Beslissingsregels:**
* Kritieke waarde voor $\alpha = .05$ (tweezijdig) en $df = 14$ is 2.145.
* Aangezien $t_{berekend} = 3.712 > t_{kritiek} = 2.145$, wordt de nulhypothese verworpen.
6. **Effectgrootte:** Berekening van $r$:
$$r = \sqrt{\frac{3.712^2}{3.712^2 + 14}} = \sqrt{\frac{13.779}{13.779 + 14}} = \sqrt{\frac{13.779}{27.779}} \approx \sqrt{0.496} \approx 0.70$$
Dit duidt op een sterk effect.
7. **Rapporteren:** "Om na te gaan of mountainbikers sneller rijden bij 18 of 25 graden, werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde tijd bij 18 graden ($M = 106.40, SD = 7.72$) hoger was dan bij 25 graden ($M = 97.13, SD = 6.97$). Dit verschil bleek significant op niveau $\alpha = .05$, $t(14) = 3.71, p = .002, r = .70$."
---
# De t-toets voor twee afhankelijke steekproeven
Hieronder volgt een gedetailleerd studieoverzicht van de t-toets voor twee afhankelijke steekproeven, gebaseerd op de verstrekte documentatie.
## 4. De t-toets voor twee afhankelijke steekproeven
Dit hoofdstuk behandelt de parametrische t-toets voor afhankelijke steekproeven, inclusief de stappen voor het opstellen van hypothesen, het berekenen van de toetsingsgrootheid en het interpreteren van resultaten en effectgrootte.
### 4.1 Inleiding tot de t-toets voor afhankelijke steekproeven
Bij het toetsen van hypothesen over twee populaties wordt onderscheid gemaakt tussen afhankelijke en onafhankelijke steekproeven. Afhankelijke steekproeven ontstaan wanneer metingen herhaaldelijk worden uitgevoerd op dezelfde groep proefpersonen (bijvoorbeeld een voor- en nameting) of wanneer paren van proefpersonen worden gevormd op basis van gelijksoortige kenmerken (gematchte paren). In dit hoofdstuk ligt de focus op de parametrische t-toets voor twee afhankelijke steekproeven. De kernvraag is of een waargenomen verschil tussen twee steekproefgemiddelden groot genoeg is om te spreken van een significant effect in de populatie.
### 4.2 Het stramien voor hypothesetoetsing
Bij het uitvoeren van hypothesetoetsen wordt een vast stramien gevolgd, dat bestaat uit de volgende stappen:
1. **Toetsingssituatie**: Begrijpen van de onderzoeksvraag, de aard van de variabelen (afhankelijke variabele op intervalniveau) en het aantal te bestuderen populaties (twee populaties voor afhankelijke steekproeven). De keuze tussen een parametrische en nonparametrische toets hangt af van de voorwaarden. Voor afhankelijke steekproeven is de t-toets een veelgebruikte parametrische toets. Tot slot wordt bepaald of de toets eenzijdig of tweezijdig is.
2. **Voorwaarden**: Nagaan of aan de statistische voorwaarden voor de gekozen toets wordt voldaan.
3. **Hypothesen**: Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) die passen bij de toetsingssituatie.
4. **Toetsingsgrootheid**: Berekenen van de waarde van de toetsingsgrootheid en bepalen van de bijbehorende kansverdeling.
5. **Beslissingsregel**: Vaststellen wanneer de nulhypothese wordt verworpen, gebaseerd op overschrijdingskansen (p-waarden) of kritieke waarden.
6. **Effectgrootte**: Kwantificeren van de belangrijkheid van het gevonden effect, onafhankelijk van de significantie.
7. **Rapporteren**: Correct rapporteren van de resultaten van de toetsing.
### 4.3 De t-toets voor twee afhankelijke steekproeven: een gedetailleerde analyse
#### 4.3.1 Toetsingssituatie
De t-toets voor twee afhankelijke steekproeven wordt gebruikt wanneer men wil onderzoeken of het gemiddelde verschil tussen paren van waarnemingen significant verschilt van nul. Dit is van toepassing in situaties met herhaalde metingen bij dezelfde individuen of bij gematchte paren.
* **Onderzoeksvraag**: Verschilt het gemiddelde van populatie 1 van het gemiddelde van populatie 2, waarbij de steekproeven afhankelijk zijn?
* **Voorbeeld**: Evelien onderzoekt of de beoordeling van het uiterlijk door de persoon zelf significant verschilt van de beoordeling door de partner. Er worden tien koppels bevraagd.
#### 4.3.2 Voorwaarden
Om de t-toets voor twee afhankelijke steekproeven te mogen toepassen, dient aan de volgende voorwaarden te worden voldaan:
* De afhankelijke variabele is gemeten op intervalniveau.
* De steekproeven zijn afhankelijk (d.w.z. herhaalde metingen of gematchte paren).
* De verschillen tussen de paren zijn (ongeveer) normaal verdeeld in de populatie. Dit maakt de toets robuust, zelfs bij een kleinere steekproefomvang ($N=20$ in het voorbeeld), mits de normaliteit redelijk benaderd wordt.
#### 4.3.3 Hypotheses
De hypothesen worden geformuleerd in termen van het populatiegemiddelde verschil, aangeduid met $\mu_D$. Het verschil $D$ wordt meestal berekend als $\text{steekproef}_1 - \text{steekproef}_2$.
* **Linkseenzijdig**:
* $H_0: \mu_D \ge 0$ (Het gemiddelde verschil is nul of positief)
* $H_1: \mu_D < 0$ (Het gemiddelde verschil is negatief)
* **Rechtseenzijdig**:
* $H_0: \mu_D \le 0$ (Het gemiddelde verschil is nul of negatief)
* $H_1: \mu_D > 0$ (Het gemiddelde verschil is positief)
* **Tweezijdig**:
* $H_0: \mu_D = 0$ (Het gemiddelde verschil is nul)
* $H_1: \mu_D \ne 0$ (Het gemiddelde verschil is niet nul)
* **Voorbeeld Evelien (tweezijdig)**:
* $H_0: \mu_D = 0$ (Er is geen verschil tussen zelfbeoordelingen en partnerbeoordelingen)
* $H_1: \mu_D \ne 0$ (Er is wel een verschil tussen zelfbeoordelingen en partnerbeoordelingen)
#### 4.3.4 Toetsingsgrootheid
De toetsingsgrootheid is de $t$-score, die de verhouding weergeeft tussen het steekproefgemiddelde verschil en de standaardfout van dat verschil. De kansverdeling van deze grootheid is de Student $t$-verdeling met $n-1$ vrijheidsgraden, waarbij $n$ het aantal paren is.
De formule voor de $t$-score is:
$$t = \frac{\bar{d}}{s_d / \sqrt{n}}$$
Waarbij:
* $\bar{d}$ het gemiddelde verschil in de steekproef is.
* $s_d$ de standaardafwijking van de verschillen in de steekproef is.
* $n$ het aantal paren is.
Het gemiddelde verschil $\bar{d}$ wordt berekend als:
$$\bar{d} = \frac{\sum_{i=1}^{n} d_i}{n}$$
De standaardafwijking van de verschillen $s_d$ wordt berekend als:
$$s_d = \sqrt{\frac{\sum_{i=1}^{n} (d_i - \bar{d})^2}{n-1}}$$
> **Tip**: Zorg ervoor dat je bij het berekenen van de standaardafwijking van de steekproef deelt door $n-1$, en niet door $n$.
#### 4.3.5 Beslissingsregel
De beslissingsregel bepaalt of de nulhypothese wordt verworpen. Dit kan op twee manieren:
1. **Via kritieke waarden**: Als de berekende $t$-score groter is dan de kritieke $t$-waarde (voor een tweezijdige toets $|t| > t_{\text{kritiek}}$) of kleiner is dan de negatieve kritieke $t$-waarde (voor een linkseenzijdige toets $t < -t_{\text{kritiek}}$), of groter is dan de positieve kritieke $t$-waarde (voor een rechtseenzijdige toets $t > t_{\text{kritiek}}$), wordt $H_0$ verworpen. De kritieke waarden zijn af te lezen uit de $t$-verdelingstabel, afhankelijk van het significantieniveau ($\alpha$) en het aantal vrijheidsgraden ($df = n-1$).
2. **Via overschrijdingskansen (p-waarden)**: Als de berekende p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$), wordt $H_0$ verworpen.
* Voor een tweezijdige toets: $p < \alpha$.
* Voor een eenzijdige toets: $p < \alpha$.
* **Voorbeeld kritieke waarde**: Voor een tweezijdige toets met $\alpha = 0.05$ en $df = 14$, is de kritieke waarde $t_{\text{kritiek}} \approx 2.145$. Als de berekende $t$-score $3.712$ is, dan overschrijdt deze de kritieke waarde ($3.712 > 2.145$), waardoor $H_0$ wordt verworpen.
> **Tip**: In softwarepakketten zoals SPSS wordt direct de p-waarde gerapporteerd. Als de gerapporteerde p-waarde kleiner is dan het gekozen $\alpha$, verwerp dan de nulhypothese. Een p-waarde van ,000 betekent dat de werkelijke p-waarde extreem klein is (veel nullen achter de komma), en dus zeker kleiner dan $\alpha = 0.05$.
#### 4.3.6 Effectgrootte
De effectgrootte kwantificeert de omvang van het gevonden effect, wat belangrijk is voor de interpretatie van de praktische relevantie van de resultaten. Voor de t-toets voor afhankelijke steekproeven kan Cohen's $r$ worden berekend.
De formule voor Cohen's $r$ is:
$$r = \frac{t}{\sqrt{t^2 + df}}$$
Waarbij $t$ de berekende $t$-score is en $df$ het aantal vrijheidsgraden.
* **Interpretatie van Cohen's $r$**:
* $r \approx 0.1$: klein effect
* $r \approx 0.3$: gemiddeld effect
* $r \approx 0.5$: groot effect
* **Voorbeeld Evelien**: Met $t = 5.63$ en $df = 19$, wordt $r$ berekend als:
$$r = \frac{5.63}{\sqrt{5.63^2 + 19}} = \frac{5.63}{\sqrt{31.6969 + 19}} = \frac{5.63}{\sqrt{50.6969}} \approx \frac{5.63}{7.12} \approx 0.79$$
Dit duidt op een sterk effect.
* **Voorbeeld mountainbikers**: Met $t = 3.71$ en $df = 14$, wordt $r$ berekend als:
$$r = \frac{3.71}{\sqrt{3.71^2 + 14}} = \frac{3.71}{\sqrt{13.7641 + 14}} = \frac{3.71}{\sqrt{27.7641}} \approx \frac{3.71}{5.27} \approx 0.70$$
Ook dit duidt op een sterk effect.
#### 4.3.7 Rapporteren
Het correct rapporteren van de resultaten van de t-toets omvat de toetsingssituatie, de teststatistiek, het aantal vrijheidsgraden, de p-waarde, de gemiddelden en standaardafwijkingen van de groepen, en de effectgrootte.
* **Voorbeeld Evelien**: "Om na te gaan of verliefde mensen het uiterlijk van hun partner beter beoordelen dan dat ze zichzelf beoordelen werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde beoordeling door de partner ($M = 76.80$, $SD = 3.75$) hoger was dan de gemiddelde zelfbeoordeling ($M = 69.05$, $SD = 5.02$). Dit verschil bleek significant op niveau $\alpha = 0.05$; $t(19) = 5.63$, $p < .001$, $r=.79$."
* **Voorbeeld mountainbikers**: "Om na te gaan of mountainbikers sneller rijden bij 18 of 25 graden werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde tijd bij 18 graden ($M=106.40$, $SD= 7.72$) hoger was dan bij 25 graden ($M=97.13$, $SD = 6.97$). Dit verschil bleek significant op niveau $\alpha = 0.05$, $t(14) = 3.71$, $p=.002$, $r=.70$."
### 4.4 SPSS voorbeeld
Softwarepakketten zoals SPSS bieden output die alle benodigde informatie bevat voor het uitvoeren en interpreteren van de paired samples t-test. Deze output omvat de t-score, het aantal vrijheidsgraden (df) en de significantie (p-waarde) voor een tweezijdige toets. Een significantiewaarde van ,000 geeft aan dat de nulhypothese verworpen mag worden omdat de p-waarde kleiner is dan 0.05.
> **Tip**: Leer de output van SPSS kennen; deze bevat de t-score, df, en p-waarde die nodig zijn voor de beslissingsregel en de rapportering.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Afhankelijke steekproeven | Steekproeven waarbij de metingen op de ene steekproef direct gerelateerd zijn aan de metingen op de andere steekproef. Dit kan gebeuren door herhaalde metingen bij dezelfde personen of door gematchte paren in verschillende groepen. |
| Onafhankelijke steekproeven | Steekproeven waarbij de metingen op de ene steekproef geen invloed hebben op de metingen op de andere steekproef. De selectie van deelnemers voor de ene steekproef heeft geen enkele relatie met de selectie voor de andere steekproef. |
| Gematchte paren | Individuen of eenheden die zo zijn geselecteerd dat ze zoveel mogelijk op elkaar lijken qua relevante kenmerken, om zo confounding te minimaliseren. Ze worden vervolgens toegewezen aan verschillende condities of groepen. |
| Herhaalde metingen | Het uitvoeren van metingen op dezelfde individuen of eenheden op meerdere tijdstippen. Dit leidt tot afhankelijke steekproeven omdat de metingen binnen hetzelfde subject plaatsvinden. |
| Toetsingssituatie | De specifieke context en aard van de onderzoeksvraag die bepaalt welke statistische toets het meest geschikt is om te worden toegepast. Hierbij wordt gekeken naar het aantal populaties en de aard van de steekproeven. |
| Voorwaarden | De statistische aannames die voldaan moeten zijn om een specifieke statistische toets valide te kunnen toepassen. Voor de t-toets voor afhankelijke steekproeven zijn dit onder andere het intervalniveau van de afhankelijke variabele en normaliteit van de verschillen. |
| Hypothesen | Een formele bewering over een populatieparameter die getest wordt met statistische methoden. Dit omvat de nulhypothese (H0) en de alternatieve hypothese (H1). |
| Nulhypothese (H0) | De hypothese die stelt dat er geen effect of verschil is in de populatie. Het is de hypothese die we proberen te weerleggen met de data. |
| Alternatieve hypothese (H1) | De hypothese die stelt dat er wel een effect of verschil is in de populatie. Dit is wat de onderzoeker hoopt te bewijzen. |
| Toetsingsgrootheid | Een statistiek berekend uit de steekproefgegevens die gebruikt wordt om de nulhypothese te testen. De verdeling van deze grootheid onder de nulhypothese is bekend. |
| Student t-verdeling | Een kansverdeling die gebruikt wordt in statistische hypothesetoetsing, met name voor het toetsen van gemiddelden wanneer de populatiestandaardafwijking onbekend is. De vorm hangt af van het aantal vrijheidsgraden. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische berekening. Voor de t-toets voor afhankelijke steekproeven is dit het aantal paren min één ($df = n-1$). |
| Beslissingsregel | Een criterium dat wordt gebruikt om te beslissen of de nulhypothese verworpen wordt op basis van de berekende toetsingsgrootheid en een vooraf bepaald significantieniveau ($\alpha$). |
| Overschrijdingskans (p-waarde) | De kans om een toetsingsgrootheid te observeren die minstens zo extreem is als de waargenomen waarde, aangenomen dat de nulhypothese waar is. |
| Kritieke waarde | De grenswaarde in de kansverdeling die de verwerpingszone van de nulhypothese afbakent. Als de toetsingsgrootheid groter is dan de kritieke waarde (of kleiner, afhankelijk van de richting van de toets), wordt de nulhypothese verworpen. |
| Effectgrootte | Een maat die aangeeft hoe groot het geobserveerde effect of verschil is, onafhankelijk van de steekproefgrootte. Het kwantificeert de praktische significantie van een statistisch resultaat. |
| Paired samples t-test | Een statistische toets die gebruikt wordt om te bepalen of er een significant verschil is tussen de gemiddelden van twee gerelateerde (afhankelijke) groepen. Het is de Engelse term voor de t-toets voor twee afhankelijke steekproeven. |
| Significante | Een resultaat dat als statistisch significant wordt beschouwd wanneer de waarschijnlijkheid van het observeren van zo een extreem resultaat onder de nulhypothese kleiner is dan een vooraf bepaald significantieniveau (meestal $\alpha$ = .05). |
| Rapporteren | Het op de correcte manier presenteren van de resultaten van een statistische analyse, inclusief de gebruikte toets, de resultaten van de toetsingsgrootheid, de p-waarde, de effectgrootte en de interpretatie in de context van de onderzoeksvraag. |
Cover
Student - Hoorcollege 10 - Toetsen voor het verband tussen 2 variabelen.pptx
Summary
# De Pearson correlatietoets
Dit deel van de cursus behandelt de Pearson correlatietoets, een statistische methode om het lineaire verband tussen twee intervalvariabelen te onderzoeken.
### 1.1 Inleiding tot de Pearson correlatietoets
De Pearson correlatietoets wordt gebruikt om de sterkte en richting van een lineair verband tussen twee variabelen te kwantificeren, die beide van minimaal intervalniveau moeten zijn. De correlatiecoëfficiënt, aangeduid met $r$, varieert tussen -1 en +1. Een waarde van +1 duidt op een perfect positief lineair verband, -1 op een perfect negatief lineair verband, en 0 op afwezigheid van een lineair verband. Naast het meten van de sterkte en richting van het verband, dient de Pearson correlatiecoëfficiënt ook als maat voor de effectgrootte. In deze context wordt echter ook het toetsen van de significantie van deze correlatie behandeld.
### 1.2 Stappenplan voor het toetsen met de Pearson correlatietoets
Het toetsen van een verband met de Pearson correlatietoets volgt een gestandaardiseerd stappenplan:
#### 1.2.1 Toetsingssituatie
Dit omvat het identificeren van de gegevens in de onderzoeksvraag, het definiëren van de concrete toetsingssituatie en het bepalen van het type onderzoeksvraag waarvoor de toets geschikt is. De Pearson correlatietoets is specifiek bedoeld voor het onderzoeken van het verband tussen twee interval- of ratio-variabelen.
#### 1.2.2 Voorwaarden
Voor het correct toepassen van de Pearson correlatietoets moeten de volgende statistische voorwaarden vervuld zijn:
* De te onderzoeken variabelen moeten van interval- of ratio meetniveau zijn.
* De scores op beide variabelen moeten (ongeveer) normaal verdeeld zijn in de populatie.
* Er mag geen sprake zijn van extreme uitschieters (outliers).
#### 1.2.3 Hypothesen
Bij het opstellen van de hypothesen voor de Pearson correlatietoets, wordt meestal onderscheid gemaakt tussen een eenzijdige en een tweezijdige toets.
* **Tweezijdige toets:** Dit wordt gebruikt wanneer men alleen wil weten of er een significant verband is, zonder specifieke richting aan te nemen.
* Nulhypothese ($H_0$): Er is geen lineair verband tussen de twee variabelen in de populatie ($\rho = 0$).
* Alternatieve hypothese ($H_1$): Er is wel een lineair verband tussen de twee variabelen in de populatie ($\rho \neq 0$).
* **Eenzijdige toets:** Dit wordt gebruikt wanneer men een specifieke richting van het verband verwacht (positief of negatief).
* Nulhypothese ($H_0$): Het verband is niet sterker/zwakker dan nul in de verwachte richting ($\rho \le 0$ of $\rho \ge 0$).
* Alternatieve hypothese ($H_1$): Het verband is wel sterker/zwakker dan nul in de verwachte richting ($\rho > 0$ of $\rho < 0$).
De $\rho$ (rho) vertegenwoordigt de populatiecorrelatiecoëfficiënt.
#### 1.2.4 Toetsingsgrootheid
De toetsingsgrootheid voor de Pearson correlatietoets is gebaseerd op de berekende correlatiecoëfficiënt ($r$) in de steekproef. Deze toetsingsgrootheid volgt een t-verdeling met vrijheidsgraden ($df$) gelijk aan $N-2$, waarbij $N$ het aantal paren observaties is. De formule om de t-waarde te berekenen is:
$$t = r \sqrt{\frac{N-2}{1-r^2}}$$
#### 1.2.5 Beslissingsregel
De beslissing om de nulhypothese te verwerpen of niet, kan genomen worden op basis van twee methoden:
* **Overschrijdingskansen (p-waarde):** Als de berekende p-waarde kleiner is dan het vooraf bepaalde significantieniveau ($\alpha$), wordt de nulhypothese verworpen.
* **Kritieke waarden:** De berekende waarde van de toetsingsgrootheid wordt vergeleken met de kritieke waarde(n) uit de t-verdeling voor het gekozen significantieniveau en de vrijheidsgraden. Als de berekende waarde buiten het acceptatiegebied valt (d.w.z. kleiner is dan de negatieve kritieke waarde of groter dan de positieve kritieke waarde bij een tweezijdige toets), wordt de nulhypothese verworpen.
#### 1.2.6 Effectgrootte
De Pearson correlatiecoëfficiënt ($r$) zelf dient als de maat voor de effectgrootte bij deze toets. Deze geeft de sterkte en richting van het lineaire verband aan.
> **Tip:** Hoewel de correlatiecoëfficiënt een effectgrootte aangeeft, is het belangrijk om ook de significantie te rapporteren om te bepalen of het gevonden effect waarschijnlijk op toeval berust.
#### 1.2.7 Rapporteren
Bij het rapporteren van de resultaten van een Pearson correlatietoets, worden de volgende elementen opgenomen:
* De naam van de toets (Pearson correlatie).
* De berekende correlatiecoëfficiënt ($r$), inclusief de richting.
* De p-waarde (overschrijdingskans).
* Het aantal deelnemers ($N$).
* Indien van toepassing, de vrijheidsgraden ($df$).
**Voorbeeld van rapportage:**
"Er werd een Pearson correlatie berekend om het verband tussen X en Y na te gaan. De resultaten toonden een matig positief en significant verband aan ($r = .44, p < .001, N = 110$)."
### 1.3 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt ($R^2$), die berekend wordt door de Pearson correlatiecoëfficiënt te kwadrateren ($R^2 = r^2$), geeft aan welk percentage van de variantie in de ene variabele verklaard wordt door de variantie in de andere variabele.
> **Belangrijk:** De determinatiecoëfficiënt suggereert geen oorzakelijk verband. Causaliteit kan immers in twee richtingen lopen, of er kan een derde variabele zijn die het verband tussen X en Y verklaart.
### 1.4 Partiële correlatie
De partiële correlatie onderzoekt het verband tussen twee variabelen nadat er gecontroleerd is voor het effect van één of meerdere andere variabelen. Dit helpt om de unieke bijdrage van een specifieke variabele aan het verband te isoleren.
**Voorbeeld:** Onderzoeken of subjectieve affectie tegenover statistiek de examenscores beïnvloedt, *nadat er gecorrigeerd is voor intelligentie (IQ)*. De partiële correlatie zal hierdoor waarschijnlijk lager uitvallen dan de bivariate correlatie.
### 1.5 Voorbeeld van de Pearson correlatietoets
**Onderzoeksvraag:** Bestaat er een verband tussen studenten die plezier beleven aan statistiek en hun eindscore?
* **Variabelen:** Plezier in statistiek (interval), Eindscore statistiek (interval).
* **Resultaten:** Een correlatie van $r = .44$ werd gevonden, wat duidt op een matig positief verband. Deze correlatie was significant ($p < .001, N = 110$).
* **Rapportage:** "De correlatie tussen het resultaat op statistiek en de score op de affectietest is gelijk aan .44. De toets is significant (p<.001)."
* **Met partiële correlatie:** "Nadat gecorrigeerd werd op IQ daalde deze correlatie tot $r=.37, p<.001, N=110$."
### 1.6 SPSS-voorbeeld
Een klinisch psycholoog onderzoekt het verband tussen depressie en sociale vermijding bij zestigplussers.
* **Steekproefgrootte:** $N = 56$.
* **Resultaten:** Een negatieve correlatie van $r = -.049$ werd vastgesteld. Deze correlatie was echter niet significant ($p > .05$).
* **Conclusie:** Er is geen statistisch significant lineair verband tussen depressie en sociale vermijding in deze populatie van zestigplussers.
---
**NB:** De informatie over de Spearman correlatietoets en de chikwadraat toets voor kruistabellen, hoewel aanwezig in de bron, valt buiten het specifieke onderwerp van de Pearson correlatietoets en wordt hier daarom niet gedetailleerd beschreven. De kern van dit document focust puur op de Pearson correlatietoets zoals gevraagd.
---
# De rangcorrelatie van Spearman
Deze sectie behandelt de Spearman rangcorrelatietoets, een non-parametrische toets die gebruikt wordt om het verband tussen twee ordinale variabelen of variabelen die niet normaal verdeeld zijn te onderzoeken.
### 2.1 Toetsingssituatie
De Spearman rangcorrelatietoets wordt ingezet wanneer de voorwaarden voor parametrische toetsen, zoals de Pearson correlatietoets, niet voldaan zijn. Dit is met name het geval bij:
* **Ordinale variabelen:** Wanneer de variabelen gemeten zijn op ten minste een ordinaal niveau.
* **Niet-normaal verdeelde variabelen:** Zelfs als variabelen interval of ratio zijn, maar de aanname van normaliteit geschonden is.
Het doel is het onderzoeken van de richting en sterkte van het verband tussen twee dergelijke variabelen.
### 2.2 Voorwaarden
De Spearman rangcorrelatietoets heeft weinig strikte voorwaarden:
* De data moet minimaal van **nominaal niveau** zijn, maar bij voorkeur **ordinaal**.
* Er is geen aanname over de verdeling van de data (zoals normaliteit).
### 2.3 Hypothesen
Net als bij andere toetsen, wordt er gewerkt met nul- en alternatieve hypothesen:
* **Nulhypothese ($H_0$):** Er is geen verband (correlatie is nul) tussen de rangordes van de twee variabelen in de populatie.
$H_0: \rho_s = 0$
* **Alternatieve hypothese ($H_1$):** Er is wel een verband (correlatie is niet nul) tussen de rangordes van de twee variabelen in de populatie. Dit kan eenzijdig zijn (bijvoorbeeld een positief verband, $H_1: \rho_s > 0$, of een negatief verband, $H_1: \rho_s < 0$) of tweezijdig ($H_1: \rho_s \neq 0$).
De keuze voor een een- of tweezijdige toets hangt af van de onderzoeksvraag.
### 2.4 Toetsingsgrootheid
De berekening van de toetsingsgrootheid voor de Spearman rangcorrelatietoets is gebaseerd op de rangordes van de data. De formule voor de Spearman rangcorrelatiecoëfficiënt ($r_s$) is:
$$
r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
$$
waarbij:
* $d_i$ het verschil is tussen de rangordes van de twee variabelen voor observatie $i$.
* $n$ het aantal paren observaties is.
De berekening houdt in dat de ruwe scores eerst worden omgezet naar rangordes. Bij gelijke scores (ties) wordt het gemiddelde van de betreffende rangordes toegekend.
Voor kleinere steekproeven ($n < 30$), kan de toetsingsgrootheid worden getoetst met een $t$-verdeling met $n-2$ vrijheidsgraden. De $t$-waarde wordt berekend als:
$$
t = r_s \sqrt{\frac{n-2}{1-r_s^2}}
$$
Voor grotere steekproeven ($n \geq 30$) kan de toetsingsgrootheid benaderd worden met de $z$-verdeling, waarbij de $z$-score gelijk is aan de $r_s$-waarde.
### 2.5 Beslissingsregel
De beslissingsregel is gebaseerd op het vergelijken van de berekende toetsingsgrootheid met een kritieke waarde uit de betreffende kansverdeling (t-verdeling of z-verdeling) bij een bepaald significantieniveau ($\alpha$), of op het vergelijken van de $p$-waarde met $\alpha$.
* Als de toetsingsgrootheid de kritieke waarde overschrijdt (in de richting van de alternatieve hypothese) of als de $p$-waarde kleiner is dan $\alpha$, wordt de nulhypothese verworpen. Dit betekent dat er een statistisch significante correlatie is.
* Als de toetsingsgrootheid niet de kritieke waarde overschrijdt of als de $p$-waarde groter is dan $\alpha$, wordt de nulhypothese niet verworpen. Er is dan onvoldoende bewijs voor een significant verband.
### 2.6 Effectgrootte
De correlatiecoëfficiënt zelf, $r_s$, dient als maat voor de effectgrootte. De interpretatie van de sterkte van het verband is vergelijkbaar met die van de Pearson correlatie:
* Een waarde dicht bij 0 duidt op een zwak verband.
* Een waarde dicht bij 1 (positief of negatief) duidt op een sterk verband.
Er is geen aparte berekening voor de effectgrootte nodig, aangezien de $r_s$-waarde deze functie al vervult.
### 2.7 Rapporteren
Bij het rapporteren van de resultaten van een Spearman rangcorrelatietoets worden de volgende elementen opgenomen:
* De gebruikte toets: Spearman rangcorrelatietoets.
* De correlatiecoëfficiënt: $r_s$.
* De $p$-waarde: $p$-waarde.
* Het aantal paren observaties: $N$.
* Indien relevant, de $t$-waarde en de vrijheidsgraden.
**Voorbeeld van rapportage:**
"Om het verband tussen het examenresultaat en de affectie tegenover statistiek na te gaan, werd een Spearman rangcorrelatietoets uitgevoerd. Er werd een positief, maar zwak verband gevonden ($r_s = .15, p=.31, N=62$). Dit verband was niet statistisch significant."
**Tip:** Bij het rapporteren is het belangrijk om zowel de richting als de sterkte van het verband te vermelden, evenals de significantie ervan.
---
# De chikwadraat toets voor kruistabellen
Dit deel van de studieleidraad focust op de chikwadraat toets voor kruistabellen, een non-parametrische toets die gebruikt wordt om het verband tussen twee nominale variabelen te onderzoeken.
### 3.1 Inleiding en toetsingssituatie
De chikwadraat toets voor kruistabellen wordt aangewend wanneer men het verband tussen twee nominale variabelen wil onderzoeken. Het is een non-parametrische toets, wat betekent dat er geen specifieke verdelingseisen aan de data worden gesteld, behalve dat de variabelen van nominaal niveau zijn en dat er uitsluitend met frequenties wordt gewerkt. Deze toets is een uitbreiding van de chikwadraattoets voor frequenties die in Statistiek I werd behandeld, waarbij destijds de frequentieverdeling in een steekproef werd vergeleken met een theoretische populatieverdeling. Nu gaat het om het vergelijken van de frequentieverdelingen van twee nominale variabelen binnen een kruistabel om te bepalen of deze variabelen significant met elkaar samenhangen.
**Toetsingssituatie:** Bij deze toets is de onderzoeksvraag gericht op het bestaan van een verband tussen twee categorische variabelen. Voorbeelden hiervan zijn:
* Is er een verband tussen de studierichting van studenten en hun succes (geslaagd/niet-geslaagd) in een bepaalde cursus?
* Vertonen studenten uit verschillende studierichtingen een evenredig succespercentage in de cursus statistiek?
De kern is het onderzoeken of de frequenties van observaties in de cellen van een kruistabel significant afwijken van wat men zou verwachten als er geen verband zou bestaan tussen de twee variabelen.
### 3.2 Voorwaarden
Voor een correcte toepassing van de chikwadraat toets voor kruistabellen, dient aan de volgende voorwaarden te worden voldaan:
1. **Meetniveau:** De variabelen moeten nominaal zijn.
2. **Meetmethode:** Er wordt gewerkt met absolute frequenties (counts), niet met percentages.
3. **Onafhankelijkheid:** De metingen mogen niet herhaald zijn (geen herhaalde metingen bij dezelfde participanten).
4. **Mutueel exclusieve categorieën:** De categorieën van beide variabelen moeten elkaar wederzijds uitsluiten.
5. **Verwachte frequenties:** De verwachte frequenties in de cellen van de kruistabel mogen niet te klein zijn. Specifiek geldt:
* Niet meer dan 20% van de cellen mag een verwachte frequentie kleiner dan 5 hebben.
* Geen enkele cel mag een verwachte frequentie kleiner dan 1 hebben.
### 3.3 Hypothesen
Bij de chikwadraat toets voor kruistabellen worden de volgende nulhypothese ($H_0$) en alternatieve hypothese ($H_1$) geformuleerd:
* **Nulhypothese ($H_0$):** Er bestaat geen verband tussen de twee nominale variabelen. De variabelen zijn statistisch onafhankelijk.
* **Alternatieve hypothese ($H_1$):** Er bestaat wel een verband tussen de twee nominale variabelen. De variabelen zijn statistisch afhankelijk.
Het is belangrijk op te merken dat de chikwadraat toets voornamelijk aangeeft óf er een verband is, maar niet welke specifieke categorieën of cellen in de kruistabel significant van elkaar verschillen.
### 3.4 Toetsingsgrootheid
De toetsingsgrootheid die berekend wordt, is de chikwadraat ($\chi^2$) statistiek. Deze statistiek meet het verschil tussen de geobserveerde frequenties in de kruistabel en de frequenties die verwacht zouden worden als de nulhypothese waar zou zijn.
De formule voor de chikwadraat toetsingsgrootheid is:
$$ \chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i} $$
Waarbij:
* $O_i$ staat voor de geobserveerde frequentie in cel $i$.
* $E_i$ staat voor de verwachte frequentie in cel $i$.
* $k$ is het totale aantal cellen in de kruistabel.
De verwachte frequentie ($E_i$) voor elke cel wordt berekend met de volgende formule:
$$ E_{ij} = \frac{(\text{rijtotaal}_i) \times (\text{kolomtotaal}_j)}{\text{totaal aantal observaties}} $$
Waarbij $E_{ij}$ de verwachte frequentie is in rij $i$ en kolom $j$.
De chikwadraat toetsingsgrootheid volgt bij benadering een $\chi^2$-verdeling. Het aantal vrijheidsgraden ($df$) voor deze verdeling wordt berekend met de volgende formule:
$$ df = (aantal \ rijen - 1) \times (aantal \ kolommen - 1) $$
### 3.5 Beslissingsregel
Om te beslissen of de nulhypothese ($H_0$) verworpen wordt, wordt de berekende $\chi^2$-waarde vergeleken met een kritieke waarde uit de $\chi^2$-verdeling voor een bepaald significantieniveau ($\alpha$) en het berekende aantal vrijheidsgraden. Alternatief kan de overschrijdingskans (p-waarde) worden gebruikt:
* **Via kritieke waarden:** Als de berekende $\chi^2$-waarde groter is dan de kritieke waarde, wordt $H_0$ verworpen.
* **Via overschrijdingskansen (p-waarde):** Als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$), wordt $H_0$ verworpen. Dit betekent dat het gevonden verband statistisch significant is.
SPSS output toont vaak direct de p-waarde, wat de besluitvorming vergemakkelijkt.
### 3.6 Effectgrootte
De effectgrootte kwantificeert de sterkte van het verband tussen de twee nominale variabelen, onafhankelijk van de steekproefgrootte. Voor de chikwadraat toets kunnen verschillende maten voor effectgrootte worden berekend, zoals de contingentiecoëfficiënt, de $\phi$-coëfficiënt, en Cramér's $V$.
* **Cramér's V** wordt algemeen beschouwd als de meest geschikte maat in de meeste scenario's, vooral bij tabellen groter dan 2x2. De formule voor Cramér's V is:
$$ V = \sqrt{\frac{\chi^2}{N \times \min(df_rijen, df_kolommen)}} $$
Waarbij $N$ het totale aantal observaties is en $\min(df_{rijen}, df_{kolommen})$ het minimum is van het aantal vrijheidsgraden voor rijen en kolommen.
Interpretatie van Cramér's $V$:
* $< 0.10$: triviaal effect
* $0.10 - 0.30$: klein effect
* $0.30 - 0.50$: medium effect
* $> 0.50$: sterk effect
### 3.7 Rapporteren
Bij het rapporteren van de resultaten van een chikwadraat toets voor kruistabellen, worden de volgende elementen vermeld:
1. De gebruikte toets (chikwadraat toets voor kruistabellen).
2. De variabelen die onderzocht zijn.
3. De waarde van de toetsingsgrootheid ($\chi^2$) en het aantal vrijheidsgraden ($df$).
4. De p-waarde (overschrijdingskans).
5. De berekende effectgrootte (bv. Cramér's $V$).
6. Een interpretatie van de resultaten in de context van de onderzoeksvraag.
**Voorbeeld van rapportage:**
Het verband tussen de variabelen studierichting en examenresultaat (geslaagd/niet-geslaagd) werd onderzocht met behulp van een chikwadraat toets. Deze toets wees uit dat de twee variabelen statistisch onafhankelijk zijn, $\chi^2(2) = 1.88$, $p = .39$. De effectgrootte, gemeten met Cramér's $V$, was $V = .15$, wat duidt op een eerder zwak verband.
> **Tip:** De chikwadraat toets is vooral nuttig voor exploratief onderzoek of wanneer men werkt met nominale variabelen. Voor meer diepgaande analyses, vooral bij het vermoeden van complexere verbanden, is het vaak wenselijk om te werken met variabelen van een hoger meetniveau.
> **Aanvullende bemerking:** Als de chikwadraat toets resulteert in een statistisch significant verband (dus $H_0$ wordt verworpen), geeft dit nog geen uitsluitsel over *welke* specifieke cellen in de kruistabel significant van elkaar verschillen. Er is geen standaardprocedure voor post-hoc toetsing zoals bij ANOVA. Daarom is deze toets primair geschikt voor exploratief onderzoek. Het is cruciaal te onthouden dat een gevonden verband (associatie) nog geen oorzaak-gevolg relatie impliceert.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Pearson correlatietoets | Een statistische toets die gebruikt wordt om de sterkte en richting van het lineaire verband tussen twee continue variabelen te meten. |
| Spearman rangcorrelatietoets | Een non-parametrische toets die het verband tussen twee ordinale variabelen of twee variabelen die niet normaal verdeeld zijn, meet door de rangordes van de observaties te vergelijken. |
| Chikwadraat toets voor kruistabellen | Een statistische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee categorische (nominale) variabelen door de geobserveerde frequenties in een kruistabel te vergelijken met de verwachte frequenties onder de nulhypothese van onafhankelijkheid. |
| Toetsingsgrootheid | Een waarde die berekend wordt uit steekproefgegevens en die gebruikt wordt om de nulhypothese te toetsen. De kansverdeling van de toetsingsgrootheid onder de nulhypothese is bekend. |
| Nulhypothese (H0) | Een stelling over een populatieparameter of de relatie tussen variabelen die verondersteld wordt waar te zijn, tenzij er voldoende bewijs is om deze te verwerpen. |
| Alternatieve hypothese (H1) | Een stelling die het tegenovergestelde beweert van de nulhypothese en die wordt aangenomen als de nulhypothese wordt verworpen. |
| Significantie | De mate waarin een resultaat onwaarschijnlijk is onder de nulhypothese. Een significant resultaat suggereert dat de nulhypothese verworpen kan worden. |
| Overchrijdingskans (p-waarde) | De waarschijnlijkheid om een toetsingsgrootheid te verkrijgen die extreem is, of extremer, dan de waargenomen toetsingsgrootheid, aannemende dat de nulhypothese waar is. |
| Kritieke waarde | De grens waarde van de toetsingsgrootheid waarboven (of waaronder) de nulhypothese wordt verworpen. |
| Effectgrootte | Een maat voor de omvang van een effect, onafhankelijk van de steekproefgrootte. Het geeft aan hoe sterk het verband of verschil is. |
| Determinatiecoëfficiënt (R²) | De proportie van de variantie in de afhankelijke variabele die verklaard wordt door de variantie in de onafhankelijke variabele. |
| Partiële correlatie | Een correlatiecoëfficiënt die het verband tussen twee variabelen meet nadat er is gecontroleerd voor het effect van één of meer andere variabelen. |
| Cramers V | Een maat voor effectgrootte bij de chikwadraat toets voor kruistabellen, die de sterkte van het verband tussen twee nominale variabelen aangeeft. |
| Nominale variabele | Een categorische variabele waarbij de categorieën geen natuurlijke volgorde hebben. |
| Ordinale variabele | Een categorische variabele waarbij de categorieën een natuurlijke volgorde hebben, maar de afstanden tussen de categorieën niet noodzakelijk gelijk zijn. |
| Intervalvariabele | Een continue variabele waarbij de afstanden tussen opeenvolgende waarden gelijk zijn, maar er geen absoluut nulpunt is. |
| Ratio variabele | Een continue variabele waarbij de afstanden tussen opeenvolgende waarden gelijk zijn en er wel een absoluut nulpunt is. |
| Vrijheidsgraden (df) | Het aantal waarden dat vrij kan variëren in een berekening van een statistische toets. |
Cover
Student - Hoorcollege 11 - Kiezen van de juiste toets.pptx
Summary
# Voorbereiding op het kiezen van de juiste statistische toets
Het correct kiezen van een statistische toets is cruciaal voor het beantwoorden van een onderzoeksvraag en wordt bepaald door verschillende factoren die ontleed moeten worden uit de onderzoeksvraag en de data.
### 1.1 De stappen voor het kiezen van de juiste statistische toets
Het proces van het selecteren van de juiste statistische toets omvat een systematische aanpak:
#### 1.1.1 Stap 1: Ontleding van de onderzoeksvraag
Het is essentieel om de onderzoeksvraag grondig te begrijpen. Hierbij wordt gekeken naar:
* Welke variabelen worden onderzocht?
* Wat zijn de onderzoekseenheden of cases (bijvoorbeeld personen, groepen, scholen)?
#### 1.1.2 Stap 2: Identificatie van de afhankelijke en onafhankelijke variabelen
Dit is een belangrijke stap die de keuze van de meetniveaus beïnvloedt.
* **Effect:** Bij een effect is er sprake van de invloed van variabele X op variabele Y.
* **Verband:** Bij een verband wordt gekeken naar de relatie tussen variabele X en variabele Y, waarbij de richting van de relatie niet noodzakelijk bepaald kan worden (correlatie impliceert geen causaliteit).
#### 1.1.3 Stap 3: Bepaling van het meetniveau van de variabelen
Het meetniveau van de variabelen is bepalend voor de keuze van de statistische toets. Het bepaalt ook aan welke voorwaarden (zoals normaliteit van de verdeling of het intervalniveau van de afhankelijke variabele) voor een bepaalde toets voldaan moet worden.
* Het verlagen van een meetniveau is altijd toegestaan (bijvoorbeeld van interval naar ordinaal), maar het verhogen niet.
**Recap: Meetniveaus**
* Nominaal
* Ordinaal
* Interval
* Ratio
#### 1.1.4 Stap 4: Vaststellen van het aantal te bestuderen populaties
Dit wordt bepaald door het aantal niveaus of categorieën van een onafhankelijke variabele.
#### 1.1.5 Stap 5: Bepalen of het om onafhankelijke of afhankelijke steekproeven gaat
* **Onafhankelijke steekproeven:** Bij het trekken van de tweede steekproef wordt geen rekening gehouden met de samenstelling van de eerste steekproef.
* **Afhankelijke steekproeven:** Beide steekproeven bevatten dezelfde deelnemers tijdens verschillende meetmomenten (bijvoorbeeld voor- en nameting), of er is sprake van gematchte steekproeven.
#### 1.1.6 Stap 6: Keuze tussen parametrische en non-parametrische toetsen
Parametrische toetsen hebben vaak de voorkeur boven non-parametrische toetsen, mits aan de bijbehorende voorwaarden wordt voldaan.
**In SPSS:**
* Normaliteit kan worden nagegaan met de Kolmogorov-Smirnov toets of de Shapiro-Wilk toets.
* De Shapiro-Wilk toets wordt als het meest accuraat beschouwd.
* Een P-waarde groter of gelijk aan .05 duidt op een normale verdeling.
* Een P-waarde kleiner dan .05 duidt op niet-normaal verdeelde data.
#### 1.1.7 Stap 7: Keuze tussen eenzijdige en tweezijdige toetsing
* In de praktijk wordt doorgaans tweezijdig getoetst om geen effecten te missen. Het is echter belangrijk het verschil tussen éénzijdige en tweezijdige hypothesen te kennen.
### 1.2 Overzicht van statistische toetsen
Het volgende schema geeft een overzicht van veelgebruikte toetsen, waarbij P staat voor parametrisch en NP voor non-parametrisch.
| Populaties | Variabele(n) | Parametrisch (P) | Non-parametrisch (NP) |
| --------------- | ------------------------------------------ | ----------------------------------------------- | --------------------------------- |
| **1 populatie** | Gemiddelde | Z-toets / t-toets voor één gemiddelde | - |
| | Frequenties | - | Chi-kwadraattoets voor frequenties|
| **2 populaties**| Verschil in gemiddelden (onafhankelijk) | t-toets voor twee onafhankelijke steekproeven | Wilcoxon rank-sum test |
| | Verschil in gemiddelden (afhankelijk) | t-toets voor twee afhankelijke steekproeven | Wilcoxon signed-rank toets |
| **Meer dan 2** | Verschil in gemiddelden (onafhankelijk) | One-way ANOVA (variantieanalyse) | - |
| **Verband** | Tussen twee variabelen | Pearson correlatietoets | Spearman rank correlation |
| | Tussen twee variabelen (categorisch) | - | Chi-kwadraattoets voor kruistabellen|
**Voorwaarden parametrische toetsen:**
* Afhankelijke variabele (AV) minimaal intervalniveau.
* AV normaal verdeeld.
**Voorwaarden non-parametrische toetsen:**
* AV lager dan intervalniveau of AV niet normaal verdeeld.
### 1.3 Toepassingsvoorbeelden
#### 1.3.1 Voorbeeld 1: Verband tussen materialisme en agressief rijgedrag
* **Onderzoeksvraag:** Wat is het verband tussen materialisme en agressief rijgedrag van autobestuurders?
* **Onderzoekseenheden:** 564 mannen en vrouwen (18-55 jaar).
* **Variabelen:**
* Materialisme (OV): gemeten via vragenlijst, totaalscore omgezet naar score tussen 0 en 150 (hogere score = meer materialistisch).
* Agressief rijgedrag (AV): gemeten via zelfrapportering, totaalscore tussen 0 en 90 (hogere score = meer agressiviteit).
* **Meetniveau:** Beide variabelen zijn intervalvariabelen (door combinatie van Likert-items).
* **Aantal populaties:** Eén populatie wordt bestudeerd.
* **Steekproeven:** Niet van toepassing, er is één steekproef.
* **Toets:** Parametrisch, aangezien de AV intervalniveau heeft en de steekproefomvang (N=564) normaliteit suggereert: **Pearson correlatietoets**.
* **Toetsing:** Tweezijdig.
#### 1.3.2 Voorbeeld 2: Verschil in agressief rijgedrag tussen mannen en vrouwen
* **Onderzoeksvraag:** Is er een verschil tussen mannen en vrouwen op gebied van agressief rijgedrag?
* **Onderzoekseenheden:** 32 deelnemers, geobserveerd gedurende één week.
* **Variabelen:**
* Geslacht (OV): nominaal (mannen/vrouwen).
* Agressieniveau (AV): toegekend na observatie, variërend van 1 tot 5 (geheel getal).
* **Meetniveau:** Geslacht is nominaal, agressieniveau is ordinaal.
* **Aantal populaties:** Twee populaties (mannen en vrouwen).
* **Steekproeven:** Onafhankelijke steekproeven (mannen en vrouwen zijn geen familie/partners).
* **Toets:** Non-parametrisch, aangezien de AV ordinaal is: **Wilcoxon rank-sum toets**.
* **Toetsing:** Tweezijdig.
#### 1.3.3 Voorbeeld 3: Effect van energiedrank/repen op loopprestaties
* **Onderzoeksvraag:** Welk energiemiddel heeft het beste effect op de loopprestaties van langeafstandslopers?
* **Onderzoekseenheden:** 180 langeafstandslopers.
* **Variabelen:**
* Energievorm (OV): nominaal (geen, enkel drank, enkel repen, drank én repen).
* Looptijd (AV): geregistreerd in aantal minuten (ratio).
* **Meetniveau:** OV is nominaal, AV is ratio.
* **Aantal populaties:** Vier populaties (de vier condities).
* **Steekproeven:** Onafhankelijke steekproeven (lopers zijn verdeeld over vier groepen).
* **Toets:** Parametrisch, aangezien de AV rationiveau heeft en N=80 (per groep, 180/4=45) normaliteit kan aannemen: **One-way ANOVA**.
* **Toetsing:** Tweezijdig.
> **Tip:** De keuze van de statistische methode is sterk afhankelijk van het onderzoeksdesign. Het is aan te raden om hierover reeds voorafgaand aan het onderzoek na te denken en waar mogelijk non-parametrische toetsen te vermijden door te voldoen aan de voorwaarden voor parametrische toetsen.
---
# Overzicht van statistische toetsen en hun toepassingen
Dit gedeelte biedt een systematisch overzicht van statistische toetsen, waarbij de keuze voor de juiste toets wordt bepaald door de onderzoeksvraag, het meetniveau van variabelen, het aantal populaties, de steekproefafhankelijkheid en de aannames van parametrische toetsen.
### 2.1 De keuze voor de juiste toets: een stappenplan
Het kiezen van de juiste statistische toets kan een uitdaging zijn. Een gestructureerde aanpak helpt hierbij. De belangrijkste stappen zijn:
1. **Ontleed de onderzoeksvraag:** Begrijp de kern van de onderzoeksvraag en identificeer wat er onderzocht wordt.
2. **Identificeer variabelen:** Bepaal welke variabelen bestudeerd worden en of het gaat om een effect (invloed van variabele X op variabele Y) of een verband (relatie tussen X en Y, zonder causaliteit aan te tonen).
3. **Bepaal het meetniveau van de variabelen:** Het meetniveau (nominaal, ordinaal, interval, ratio) is cruciaal voor de toetskeuze.
* **Tip:** Het verlagen van een meetniveau is altijd mogelijk (bv. van interval naar ordinaal), maar het verhogen niet.
4. **Bepaal het aantal populaties:** Dit wordt bepaald door het aantal niveaus of categorieën van een onafhankelijke variabele.
5. **Onderscheid afhankelijke en onafhankelijke steekproeven:**
* **Onafhankelijke steekproeven:** De samenstelling van de ene steekproef heeft geen invloed op de andere.
* **Afhankelijke steekproeven:** Betreffen dezelfde deelnemers (bv. voor- en nameting) of gematchte paren.
6. **Kies tussen parametrische en non-parametrische toetsen:** Parametrische toetsen worden geprefereerd indien aan de voorwaarden (zoals normaal verdeelde data en interval/ratio niveau van de afhankelijke variabele) is voldaan, omdat ze meer power hebben.
* **Tip:** Non-parametrische toetsen worden gebruikt wanneer de afhankelijke variabele een lager meetniveau heeft (ordinaal) of wanneer de assumpties van normaliteit niet voldaan zijn.
7. **Bepaal of eenzijdig of tweezijdig wordt getoetst:** In de praktijk wordt meestal tweezijdig getoetst om geen potentiële effecten te missen. Het onderscheid tussen éénzijdige en tweezijdige hypotheses is echter belangrijk.
#### 2.1.1 Meetniveaus van variabelen
* **Nominaal:** Categorieën zonder inherente volgorde (bv. geslacht, haarkleur).
* **Ordinaal:** Categorieën met een inherente volgorde, maar de afstand tussen de categorieën is niet per se gelijk (bv. opleidingsniveau, Likert-schaal scores).
* **Interval:** Numerieke schaal met gelijke afstanden tussen opeenvolgende waarden, maar zonder een absoluut nulpunt (bv. temperatuur in Celsius).
* **Ratio:** Numerieke schaal met gelijke afstanden en een absoluut nulpunt, waardoor verhoudingen zinvol zijn (bv. lengte, gewicht, inkomen).
#### 2.1.2 Kenmerken van parametrische en non-parametrische toetsen
* **Parametrisch:** Vereisen aannames over de populatieverdeling, meestal normaliteit en voldoende steekproefgrootte. De afhankelijke variabele (AV) moet minimaal intervalniveau hebben. Voorbeelden zijn de t-toetsen en ANOVA.
* **Non-parametrisch:** Stellen minder stringente eisen aan de populatieverdeling en kunnen gebruikt worden bij ordinale data of wanneer aan de assumpties van parametrische toetsen niet wordt voldaan. Voorbeelden zijn de Chi-kwadraat toets, Wilcoxon rang-sum test, en Spearman correlatie.
#### 2.1.3 Normaal verdeeldheid nagaan in SPSS
De normaliteit van data kan worden getoetst in SPSS met de Kolmogorov-Smirnov en Shapiro-Wilk toetsen. De Shapiro-Wilk toets wordt als accurater beschouwd.
* Als de p-waarde groter of gelijk is aan $.05$, wordt de data als normaal verdeeld beschouwd.
* Als de p-waarde kleiner is dan $.05$, wordt de data als niet normaal verdeeld beschouwd.
### 2.2 Overzicht van specifieke statistische toetsen
De keuze van de statistische toets hangt af van het onderzoeksdesign en de kenmerken van de variabelen. Hieronder volgt een overzicht van veelgebruikte toetsen, onderverdeeld naar het aantal populaties en het type variabele.
#### 2.2.1 Toetsen voor één populatie
* **Parametrisch:**
* $z$-toets / $t$-toets voor één gemiddelde: Gebruikt om te toetsen of het gemiddelde van een populatie significant verschilt van een hypothetische waarde.
* **Non-parametrisch:**
* Chi-kwadraat toets voor frequenties: Gebruikt om te toetsen of waargenomen frequenties significant afwijken van verwachte frequenties in één populatie.
#### 2.2.2 Toetsen voor twee onafhankelijke populaties
* **Parametrisch:**
* $t$-toets voor twee onafhankelijke steekproeven: Gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken. Vereist dat de afhankelijke variabele minstens intervalniveau heeft en bij voorkeur normaal verdeeld is binnen elke groep.
* **Non-parametrisch:**
* Wilcoxon rank-sum test: De non-parametrische tegenhanger van de onafhankelijke t-toets, gebruikt bij ordinale data of wanneer aan de normaliteitsaannames niet wordt voldaan.
#### 2.2.3 Toetsen voor twee afhankelijke populaties
* **Parametrisch:**
* $t$-toets voor twee afhankelijke steekproeven: Gebruikt om de gemiddelden van twee gerelateerde metingen binnen dezelfde groep te vergelijken (bv. voor- en nameting).
* **Non-parametrisch:**
* Wilcoxon signed-rank test: De non-parametrische tegenhanger van de afhankelijke t-toets.
#### 2.2.4 Toetsen voor meer dan twee (onafhankelijke) populaties
* **Parametrisch:**
* One-way ANOVA (variantieanalyse): Gebruikt om de gemiddelden van drie of meer onafhankelijke groepen te vergelijken. Vereist dat de afhankelijke variabele minstens intervalniveau heeft en normaal verdeeld is binnen de groepen.
* **Non-parametrisch:**
* Er zijn non-parametrische equivalenten voor ANOVA, zoals de Kruskal-Wallis toets, maar deze worden niet specifiek in dit overzicht genoemd als aparte sectie.
#### 2.2.5 Toetsen voor het verband tussen twee variabelen
* **Parametrisch:**
* Pearson correlatiecoëfficiënt ($r$): Meet de lineaire sterkte en richting van het verband tussen twee interval- of ratiovariabelen.
* **Non-parametrisch:**
* Spearman rangcorrelatiecoëfficiënt ($r_s$): Meet de sterkte en richting van het monotone verband tussen twee ordinale variabelen, of tussen twee variabelen waarvan één of beide variabelen niet voldoen aan de assumpties voor Pearson correlatie.
* Chi-kwadraat toets voor kruistabellen: Gebruikt om de associatie te toetsen tussen twee categorische (nominale of ordinale) variabelen.
### 2.3 Schema voor het kiezen van de juiste toets
Het onderstaande schema, gebaseerd op de stappen 1 tot en met 7 hierboven, helpt bij het bepalen van de geschikte statistische toets:
| Aantal populaties | Variabelen | Type steekproef | Parametrisch (AV min. interval, normaal verdeeld) | Non-parametrisch (AV < interval of niet normaal) |
| :---------------- | :------------------------------- | :-------------- | :-------------------------------------------------------------------------------- | :-------------------------------------------------------------------------------- |
| **1** | Gemiddelde | N.v.t. | $z$-toets / $t$-toets voor één gemiddelde | |
| | Frequenties | N.v.t. | | Chi-kwadraat toets voor frequenties |
| **2** | Verschil in gemiddelden | Onafhankelijk | $t$-toets voor twee onafhankelijke steekproeven | Wilcoxon rank-sum test |
| | Verschil in gemiddelden | Afhankelijk | $t$-toets voor twee afhankelijke steekproeven | Wilcoxon signed-rank test |
| **> 2** | Verschil in gemiddelden | Onafhankelijk | One-way ANOVA | Kruskal-Wallis toets (niet expliciet in dit document uitgewerkt) |
| **Verband** | Tussen 2 interval/ratio variabelen | N.v.t. | Pearson correlatiecoëfficiënt ($r$) | |
| | Tussen 2 ordinale variabelen | N.v.t. | | Spearman rangcorrelatiecoëfficiënt ($r_s$) |
| | Tussen 2 categorische variabelen | N.v.t. | | Chi-kwadraat toets voor kruistabellen |
#### 2.3.1 Voorbeelden van toetskeuze
> **Voorbeeld 1: Verband tussen materialisme en agressief rijgedrag**
>
> * **Onderzoeksvraag:** Verband tussen materialisme en agressief rijgedrag.
> * **Variabelen:** Materialisme (onafhankelijk, OV), agressief rijgedrag (afhankelijk, AV).
> * **Meetniveau:** Beide zijn intervalvariabelen (gecombineerde Likert-schalen).
> * **Aantal populaties:** Eén populatie (alle bestuurders).
> * **Steekproef:** Eén steekproef van 564 deelnemers.
> * **Keuze:** Parametrisch (interval AV, grote steekproef veronderstelt normaliteit).
> * **Toets:** Pearson correlatiecoëfficiënt.
> * **Toetsing:** Standaard tweezijdig.
> **Voorbeeld 2: Verschil in agressief rijgedrag tussen mannen en vrouwen**
>
> * **Onderzoeksvraag:** Verschil in agressief rijgedrag tussen mannen en vrouwen.
> * **Variabelen:** Geslacht (OV, nominaal), agressief rijgedrag (AV, ordinaal).
> * **Meetniveau:** Geslacht is nominaal; agressief rijgedrag is ordinaal.
> * **Aantal populaties:** Twee (mannen en vrouwen).
> * **Steekproef:** Onafhankelijke steekproeven (mannen en vrouwen zijn niet aan elkaar gerelateerd).
> * **Keuze:** Non-parametrisch (AV is ordinaal).
> * **Toets:** Wilcoxon rank-sum test.
> * **Toetsing:** Standaard tweezijdig.
> **Voorbeeld 3: Effect van energiedrank/repen op loopprestaties**
>
> * **Onderzoeksvraag:** Welk middel heeft het beste effect op loopprestaties?
> * **Variabelen:** Energiedrank/repen conditie (OV, nominaal met 4 niveaus), loopprestaties in minuten (AV, ratio).
> * **Meetniveau:** OV is nominaal; AV is ratio.
> * **Aantal populaties:** Vier (de vier condities).
> * **Steekproef:** Onafhankelijke steekproeven (lopers zijn verdeeld over de condities).
> * **Keuze:** Parametrisch (AV is ratio, N=180 verdeeld over 4 groepen, dus ca. 45 per groep, wat als voldoende wordt beschouwd voor normaliteitsaanname).
> * **Toets:** One-way ANOVA.
> * **Toetsing:** Standaard tweezijdig.
### 2.4 Slotopmerkingen over toetskeuze
De keuze van de statistische methode is inherent verbonden aan het onderzoeksdesign. Het is aan te raden om hierover voorafgaand aan het onderzoek na te denken en, waar mogelijk, parametrische toetsen te prefereren boven non-parametrische toetsen vanwege hun grotere sensitiviteit en power, mits aan hun voorwaarden is voldaan. Eenzijdig toetsen is in de praktijk uitzonderlijk en tweezijdig toetsen is de standaard om geen mogelijke effecten te missen.
---
# Toepassing van het toetskeuzeschema met voorbeelden
Dit onderdeel demonstreert de praktische toepassing van het stappenplan voor het kiezen van de juiste statistische toets aan de hand van concrete onderzoeksvoorbeelden.
### 3.1 De stappen in het toetskeuzeschema
Het correct kiezen van een statistische toets vereist een systematische aanpak, waarbij de volgende stappen worden doorlopen:
#### 3.1.1 Stap 1: Ontleed de onderzoeksvraag
Een grondige analyse van de onderzoeksvraag is cruciaal om te begrijpen welke variabelen worden onderzocht en wat de onderzoekseenheden zijn (bv. personen, koppels, scholen, groepen).
#### 3.1.2 Stap 2: Bepaal de afhankelijke en onafhankelijke variabelen
Het identificeren van de afhankelijke variabele (AV) en de onafhankelijke variabele(n) (OV) is essentieel, met name voor het bepalen van de meetniveaus. Er kan onderscheid gemaakt worden tussen:
* **Effect:** Het effect van variabele X op variabele Y.
* **Verband:** Een relatie tussen variabele X en variabele Y, waarbij de richting niet noodzakelijk bepaald kan worden (correlatie ≠ causaliteit).
#### 3.1.3 Stap 3: Bepaal het meetniveau van de variabelen
Het meetniveau van de variabelen is een belangrijke determinant voor de keuze van de statistische toets. Het bepaalt ook aan welke voorwaarden een toets moet voldoen (bv. normaal verdeeld zijn, intervalvariabele als AV).
**Recap: meetniveaus**
* Nominaal
* Ordinaal
* Interval
* Ratio
Het verlagen van een meetniveau (bv. van interval naar ordinaal) is altijd toegestaan, het verhogen niet.
#### 3.1.4 Stap 4: Bepaal het aantal te bestuderen populaties
Sommige toetsen vereisen duidelijkheid over het aantal te bestuderen populaties. Dit wordt bepaald door het aantal niveaus of categorieën van een onafhankelijke variabele.
#### 3.1.5 Stap 5: Bepaal of het om onafhankelijke of afhankelijke steekproeven gaat
* **Onafhankelijke steekproeven:** Bij het trekken van de tweede steekproef wordt geen rekening gehouden met de samenstelling van de eerste steekproef.
* **Afhankelijke steekproeven:** Beide steekproeven bevatten dezelfde deelnemers (bv. bij voor- en nametingen) of gematchte deelnemers.
#### 3.1.6 Stap 6: Bepaal of we parametrisch of non-parametrisch moeten toetsen
Parametrische toetsen hebben doorgaans de voorkeur boven non-parametrische toetsen, mits de voorwaarden van de specifieke toets voldaan zijn (zie vorige lessen). De keuze hangt af van het meetniveau van de AV en de verdeling van de data.
**Voorwaarden voor parametrische toetsen:**
* AV is minstens van intervalniveau.
* AV is normaal verdeeld (dit kan worden nagegaan met de Kolmogorov-Smirnov of Shapiro-Wilk toetsen in SPSS; de Shapiro-Wilk toets is het meest accuraat).
* Als de p-waarde van deze toetsen groter of gelijk is aan $0.05$, wordt de data als normaal verdeeld beschouwd.
* Als de p-waarde kleiner is dan $0.05$, is de data niet normaal verdeeld.
**Non-parametrische toetsen:** Worden gebruikt wanneer de AV een lager meetniveau heeft (nominaal of ordinaal) of wanneer de data niet normaal verdeeld is.
#### 3.1.7 Stap 7: Bepaal of we eenzijdig of tweezijdig toetsen
In de praktijk wordt er standaard tweezijdig getoetst om geen mogelijke effecten te missen. Eenzijdig toetsen is uitzonderlijk. Het is echter belangrijk om het verschil tussen eenzijdige en tweezijdige hypothesen te kennen.
### 3.2 Voorbeelden van toetskeuzes
#### 3.2.1 Voorbeeld 1: Verband tussen materialisme en agressief rijgedrag
**Onderzoeksvraag:** Wat is het verband tussen materialisme en agressief rijgedrag van autobestuurders?
**Studieopzet:** 564 mannen en vrouwen tussen 18 en 55 jaar nemen deel. Materialisme en agressief rijgedrag worden gemeten via vragenlijsten (Likert-items).
1. **Onderzoeksvraag ontleed:** Het onderzoekt het verband tussen twee concepten bij autobestuurders.
2. **Variabelen:**
* Onafhankelijke variabele (OV): Materialisme (door middel van een totaalscore tussen 0 en 150, hogere score = meer materialisme).
* Afhankelijke variabele (AV): Agressief rijgedrag (door middel van een totaalscore tussen 0 en 90, hogere score = meer agressiviteit).
3. **Meetniveau:** Beide variabelen worden gemeten met Likert-schalen en gecombineerd tot totaalscores, wat resulteert in intervalvariabelen.
4. **Aantal populaties:** Er wordt één populatie van bestuurders onderzocht.
5. **Steekproeven:** Er is één steekproef van 564 bestuurders, dus er is geen sprake van afhankelijke of onafhankelijke steekproeven in de zin van vergelijkingen tussen groepen.
6. **Parametrisch/Non-parametrisch:** Aangezien de AV een intervalniveau heeft en de steekproefgrootte ($N = 564$) groot is (wat normaliteit suggereert), wordt een parametrische toets gekozen.
7. **Eenzijdig/Tweezijdig:** Standaard wordt tweezijdig getoetst.
**Gekozen toets:** Pearson correlatietoets. Deze toets onderzoekt het lineaire verband tussen twee intervalvariabelen.
#### 3.2.2 Voorbeeld 2: Verschil in agressief rijgedrag tussen mannen en vrouwen
**Onderzoeksvraag:** Is er een verschil tussen mannen en vrouwen op het gebied van agressief rijgedrag?
**Studieopzet:** 32 deelnemers worden geobserveerd en krijgen een agressieniveau toegekend (1-5). Mannen en vrouwen zijn geen familie of partners.
1. **Onderzoeksvraag ontleed:** Vergelijkt agressief rijgedrag tussen twee groepen (mannen en vrouwen).
2. **Variabelen:**
* Onafhankelijke variabele (OV): Geslacht (man/vrouw).
* Afhankelijke variabele (AV): Agressief rijgedrag (niveau van 1 tot 5).
3. **Meetniveau:**
* Geslacht: Nominaal.
* Agressief rijgedrag: Ordinaal (uitgedrukt in gehele getallen van 1 tot 5).
4. **Aantal populaties:** Er worden twee populaties bestudeerd: mannen en vrouwen.
5. **Steekproeven:** De deelnemende mannen en vrouwen zijn geen familie of partners van elkaar, wat duidt op onafhankelijke steekproeven.
6. **Parametrisch/Non-parametrisch:** Omdat de AV ordinaal is, wordt een non-parametrische toets gebruikt.
7. **Eenzijdig/Tweezijdig:** Standaard wordt tweezijdig getoetst.
**Gekozen toets:** Wilcoxon rank-sum toets (ook bekend als de Mann-Whitney U toets). Deze toets vergelijkt de verdelingen van twee onafhankelijke groepen op een ordinale variabele.
#### 3.2.3 Voorbeeld 3: Effect van energiedrank en energierepen op prestaties
**Onderzoeksvraag:** Welk middel (energiedrank, energierepen, beide, of geen) heeft het beste effect op de loopprestaties van langeafstandslopers?
**Studieopzet:** 180 langeafstandslopers worden verdeeld in vier condities (geen, enkel drank, enkel repen, drank én repen). De tijden voor een halve marathon worden geregistreerd.
1. **Onderzoeksvraag ontleed:** Vergelijkt de effectiviteit van vier verschillende condities op de loopprestaties.
2. **Variabelen:**
* Onafhankelijke variabele (OV): Energiemiddel (conditie: geen, drank, repen, drank + repen).
* Afhankelijke variabele (AV): Loopprestaties (tijd in minuten).
3. **Meetniveau:**
* Energiemiddel: Nominaal.
* Loopprestaties: Ratio (tijd in minuten is een continue variabele met een absoluut nulpunt).
4. **Aantal populaties:** Er worden vier groepen (populaties) vergeleken, gebaseerd op de vier condities.
5. **Steekproeven:** De lopers worden verdeeld over de condities, wat resulteert in onafhankelijke steekproeven.
6. **Parametrisch/Non-parametrisch:** Omdat de AV een rationiveau heeft en er meer dan twee groepen zijn, en met een redelijke steekproefgrootte per groep ($N = 180$ verdeeld over 4 groepen), wordt een parametrische toets gebruikt. De voorwaarde van normaliteit voor de AV binnen elke groep wordt verondersteld of getoetst.
7. **Eenzijdig/Tweezijdig:** Standaard wordt tweezijdig getoetst.
**Gekozen toets:** One-way ANOVA (variantieanalyse). Deze toets vergelijkt de gemiddelden van drie of meer onafhankelijke groepen op een interval- of rationiveau variabele.
### 3.3 Overzicht van toetsen en toepassingen
Een samenvattend overzicht van de meest voorkomende statistische toetsen en hun toepassingsgebieden op basis van het aantal populaties en het meetniveau van de afhankelijke variabele:
| Criterium | 1 Populatie | 2 Populaties (onafhankelijk) | 2 Populaties (afhankelijk) | Meer dan 2 Populaties (onafhankelijk) | Verband tussen 2 variabelen |
| :--------------------------------------- | :-------------------------------- | :---------------------------------- | :-------------------------------- | :------------------------------------ | :-------------------------- |
| **Parametrisch** (AV = interval/ratio, normaal verdeeld) | Z-toets / T-toets voor één gemiddelde | T-toets voor twee onafhankelijke steekproeven | T-toets voor twee afhankelijke steekproeven | One-way ANOVA | Pearson correlatietoets |
| **Non-parametrisch** (AV < interval of niet normaal verdeeld) | Chi-kwadraattoets voor frequenties | Wilcoxon rank-sum toets | Wilcoxon signed-rank toets | Kruskal-Wallis toets | Spearman rangcorrelatie, Chi-kwadraattoets voor kruistabellen |
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Toets-statistiek | Een waarde die wordt berekend uit steekproefgegevens om hypotheses te testen. Deze waarde wordt vergeleken met een kritieke waarde of een p-waarde om een beslissing te nemen over de nulhypothese. |
| Kritieke waarde | De drempelwaarde in een statistische toets. Als de berekende toets-statistiek deze waarde overschrijdt (of aan de andere kant van de verdeling ligt), wordt de nulhypothese verworpen. |
| H0 (Nulhypothese) | De hypothese die stelt dat er geen effect of verband is in de populatie. Het is de standaarduitgangspositie die we proberen te weerleggen met onze data. |
| Significante toets | Een toets die leidt tot het verwerpen van de nulhypothese. Dit betekent dat het waargenomen effect of verband in de steekproef waarschijnlijk ook in de populatie aanwezig is. |
| H0 behouden | De beslissing om de nulhypothese niet te verwerpen. Dit betekent niet dat de nulhypothese waar is, maar dat de data onvoldoende bewijs leveren om deze te verwerpen. |
| Parametrisch | Een klasse van statistische toetsen die aannames doen over de parameters van de populatie, zoals normaliteit van de verdeling en gelijke varianties. Deze toetsen zijn doorgaans krachtiger wanneer aan de voorwaarden is voldaan. |
| Non-parametrisch | Een klasse van statistische toetsen die minder strikte aannames doen over de populatieparameters. Ze zijn vaak geschikt voor data die niet aan de voorwaarden van parametrische toetsen voldoen, zoals ordinale data of scheve verdelingen. |
| Meetniveau | De eigenschappen van de waarden die een variabele kan aannemen. De belangrijkste meetniveaus zijn nominaal, ordinaal, interval en ratio, en bepalen welke statistische analyses mogelijk zijn. |
| Onafhankelijke variabele (OV) | De variabele die wordt gemanipuleerd of gemeten om een potentieel effect te veroorzaken of te verklaren. Het is de voorspellende of oorzakelijke variabele in een onderzoek. |
| Afhankelijke variabele (AV) | De variabele die wordt gemeten om het effect van de onafhankelijke variabele vast te stellen. Het is de uitkomst- of responsvariabele in een onderzoek. |
| Populatie | De gehele groep waarover een onderzoeker conclusies wil trekken. Een steekproef wordt getrokken uit deze populatie om informatie te verzamelen. |
| Steekproef | Een subset van de populatie die wordt geselecteerd voor onderzoek. De resultaten van de steekproef worden gebruikt om conclusies te trekken over de populatie. |
| Steekproefafhankelijkheid | Verwijst naar of de metingen in verschillende groepen (steekproeven) onafhankelijk van elkaar zijn of niet. Bij afhankelijke steekproeven zijn metingen aan dezelfde individuen gekoppeld. |
| Eenzijdig toetsen | Een statistische toets waarbij de richting van het verwachte effect van tevoren is gespecificeerd. De alternatieve hypothese stelt dat de parameter groter of kleiner is dan een bepaalde waarde. |
| Tweezijdig toetsen | Een statistische toets waarbij geen specifieke richting van het effect wordt aangenomen. De alternatieve hypothese stelt dat de parameter niet gelijk is aan een bepaalde waarde. |
| P-waarde | De kans op het observeren van de steekproefresultaten, of extremere resultaten, gegeven dat de nulhypothese waar is. Een lage p-waarde (< .05) leidt meestal tot het verwerpen van de nulhypothese. |
| Likert-schaal | Een psychometrische meetschaal die wordt gebruikt om de mate van overeenstemming of instemming met een stelling te meten. Respondenten geven antwoorden op een reeks items die variëren van sterk mee oneens tot sterk mee eens. |
| Variantieanalyse (ANOVA) | Een statistische techniek die wordt gebruikt om de verschillen tussen de gemiddelden van drie of meer groepen te analyseren. Het test of de variantie tussen de groepen significant groter is dan de variantie binnen de groepen. |
| Pearsoncorrelatietoets | Een parametrische toets die de sterkte en richting van de lineaire relatie tussen twee continue variabelen meet. Vereist dat de variabelen normaal verdeeld zijn. |
| Spearman rangcorrelatietoets | Een non-parametrische toets die de sterkte en richting van de monotone relatie tussen twee geordende variabelen meet. Geschikt voor ordinale data of wanneer de aannames van Pearson niet voldaan zijn. |
| Wilcoxon rank-sum test | Een non-parametrische toets die wordt gebruikt om te bepalen of er een significant verschil is tussen de medianen van twee onafhankelijke groepen. Een alternatief voor de onafhankelijke t-toets. |
| Kolmogorov-Smirnov toets | Een non-parametrische toets die wordt gebruikt om te bepalen of een steekproef afkomstig is uit een populatie met een specifieke verdeling, of om twee steekproeven te vergelijken. Vaak gebruikt om normaliteit te toetsen. |
| Shapiro-Wilk toets | Een parametrische toets die specifiek wordt gebruikt om de normaliteit van de verdeling van een steekproef te toetsen. Wordt beschouwd als een van de meest krachtige normaliteitstests. |
Cover
Student - Hoorcollege 11 - Kiezen van de juiste toets.pptx
Summary
# Planning van resterende lessen en vragenbehandeling
Dit document beschrijft de planning van de resterende lessen, de te behandelen leerstof en de richtlijnen voor het stellen van vragen.
## 1. Planning van resterende lessen en vragenbehandeling
### 1.1 Overzicht van resterende colleges en werkcolleges
De resterende onderwijsactiviteiten omvatten:
* Hoorcollege over statistiek in wetenschappelijk onderzoek (Hoofdstuk 11).
* Werkcollege 3.
* Hoorcollege over kwalitatieve data-analyse.
* Werkcollege 4.
* De laatste les is gewijd aan de voorbereiding op het examen en een vragencollege.
### 1.2 Richtlijnen voor het stellen van vragen
Het stellen van vragen gedurende het semester is cruciaal voor een goed begrip van de leerstof. De volgende kanalen en methoden worden aanbevolen:
* **Vragen via het forum:**
* Stel resterende vragen over de leerstof via het online forum.
* Deze vragen worden gebundeld en behandeld tijdens de colleges.
* De deadline voor het stellen van vragen via het forum is **voor de kerstvakantie**.
* Na de kerstvakantie worden in principe geen vragen meer beantwoord via het forum.
* **Vragen tijdens en na colleges:**
* Stel vragen aan de docent direct **voor, tijdens of na** de hoorcolleges.
* Werkcolleges bieden een uitgelezen gelegenheid om **individuele vragen** te stellen.
* **Ondersteuning via het handboek:**
* Raadpleeg het handboek voor verdere opheldering van de leerstof.
* **Signaleren van problemen:**
* Signaleer specifieke problemen met de leerstof tijdig aan de docent.
### 1.3 Recap: kritieke waarde methode bij 2-zijdig toetsen
Deze methode wordt toegepast om te bepalen of een toets significant is. De stappen zijn:
1. Bereken de waarde van de toets-statistiek.
2. Zoek de kritieke waarde van de toets-statistiek op.
Vervolgens wordt de absolute waarde van de toets-statistiek vergeleken met de kritieke waarde:
* Als de absolute waarde van de toets-statistiek groter is dan de kritieke waarde, is de toets significant en wordt de nulhypothese ($H_0$) verworpen.
* Zo niet, dan is de toets niet significant en wordt de nulhypothese ($H_0$) behouden.
Dit geldt zowel voor positieve als negatieve toets-statistieken.
### 1.4 Leerdoelen en studiestrategie
Het examen is ontworpen om de leerdoelen te evalueren. Het is daarom essentieel om de leerdoelen bij de hand te houden tijdens het studeren.
### 1.5 Hoofdstuk 11: Hoe kies je de juiste toets?
Het kiezen van de juiste statistische toets is een belangrijke vaardigheid. Dit proces vereist een grondige analyse van de onderzoeksvraag en de data.
#### 1.5.1 Overzicht van geziene technieken en toetsen
De volgende toetsen zijn behandeld, onderverdeeld per hoofdstuk:
* **Hoofdstuk 4: Toetsen voor één populatie**
* Parametrisch (P): z-toets / t-toets voor één gemiddelde
* Non-parametrisch (NP): Chi-kwadraattoets voor frequenties
* **Hoofdstuk 5: Toetsen voor twee onafhankelijke populaties**
* Parametrisch (P): t-toets voor twee onafhankelijke steekproeven
* Non-parametrisch (NP): Wilcoxon rank-sum test
* **Hoofdstuk 6: Toetsen voor twee afhankelijke populaties**
* Parametrisch (P): t-toets voor twee afhankelijke steekproeven
* Non-parametrisch (NP): Niet gespecificeerd in het document
* **Hoofdstuk 7: Toetsen voor meer dan 2 (onafhankelijke populaties)**
* Parametrisch (P): One-way ANOVA (variantieanalyse)
* Non-parametrisch (NP): Niet gespecificeerd in het document
* **Hoofdstuk 9: Toetsen voor het verband tussen twee variabelen**
* Parametrisch (P): Pearson correlatietoets
* Non-parametrisch (NP): Spearman rank correlation, Chi-kwadraattoets voor kruistabellen
> **Tip:** Houd een overzicht bij van deze toetsen, de voorwaarden waaraan voldaan moet zijn en wanneer ze toepasbaar zijn.
#### 1.5.2 Het stappenplan voor het kiezen van de juiste toets
Het kiezen van de juiste toets omvat de volgende zeven stappen:
1. **Ontleed de onderzoeksvraag:** Begrijp goed wat er onderzocht wordt.
2. **Bepaal de afhankelijke en onafhankelijke variabelen:** Identificeer welke variabele de uitkomstmaat is en welke de voorspeller of oorzaak is. Een effect gaat over de impact van X op Y, terwijl een verband de relatie tussen X en Y onderzoekt zonder noodzakelijk een causale richting aan te geven.
3. **Bepaal het meetniveau van de variabelen:**
* **Nominaal:** Categorieën zonder volgorde (bv. geslacht).
* **Ordinaal:** Categorieën met een logische volgorde (bv. opleidingsniveau).
* **Interval:** Gelijke intervallen tussen waarden, geen absoluut nulpunt (bv. temperatuur in Celsius).
* **Ratio:** Gelijke intervallen en een absoluut nulpunt (bv. lengte, gewicht).
* Het meetniveau is cruciaal voor de toetskeuze. Een lager meetniveau mag altijd verlaagd worden (bv. interval naar ordinaal), maar niet verhoogd.
4. **Bepaal het aantal te bestuderen populaties:** Dit wordt bepaald door het aantal niveaus of categorieën van de onafhankelijke variabele.
5. **Bepaal of het om onafhankelijke of afhankelijke steekproeven gaat:**
* **Onafhankelijke steekproeven:** De samenstelling van de ene steekproef heeft geen invloed op de andere.
* **Afhankelijke steekproeven:** Dezelfde deelnemers worden op verschillende momenten gemeten (bv. voor- en nameting), of er is sprake van gematchte paren.
6. **Bepaal of we parametrisch of non-parametrisch moeten toetsen:**
* **Parametrische toetsen** hebben doorgaans strengere voorwaarden (zoals normale verdeling van de data, interval/ratio niveau van de afhankelijke variabele). Ze hebben meer "power" als aan de voorwaarden is voldaan.
* **Non-parametrische toetsen** zijn robuuster en kunnen gebruikt worden als aan de voorwaarden van parametrische toetsen niet is voldaan.
* In SPSS kunnen de **Kolmogorov-Smirnov** en **Shapiro-Wilk toetsen** gebruikt worden om normaliteit te toetsen. De Shapiro-Wilk toets wordt als accurater beschouwd. Een p-waarde $\ge 0.05$ duidt op normale verdeling, een p-waarde $< 0.05$ duidt op niet-normaal verdeelde data.
7. **Bepaal of we eenzijdig of tweezijdig toetsen:**
* **Tweezijdig toetsen** is de standaardmethode om geen effecten te missen.
* **Eenzijdig toetsen** wordt in de praktijk zelden toegepast en vereist een duidelijke, vooraf bepaalde richting van het verwachte effect. Het is belangrijk het verschil tussen eenzijdige en tweezijdige hypotheses te kennen.
#### 1.5.3 Het schema toegepast: voorbeelden
De volgende voorbeelden illustreren de toepassing van het stappenplan:
* **Voorbeeld 1: Verband tussen materialisme en agressief rijgedrag**
* Onderzoeksvraag: Is er een verband tussen materialisme en agressief rijgedrag bij autobestuurders?
* Onderzoekseenheden: 564 mannen en vrouwen (18-55 jaar).
* Variabelen: Materialisme (OV, berekend uit Likert-items, score 0-150), Agressief rijgedrag (AV, berekend uit Likert-items, score 0-90).
* Meetniveau: Beide variabelen worden als intervalvariabelen beschouwd (combinatie van Likert-items).
* Aantal populaties: Eén populatie wordt bestudeerd.
* Steekproeven: Niet van toepassing, er is één steekproef.
* Parametrisch/Non-parametrisch: Parametrisch, omdat de afhankelijke variabele (materialisme) op intervalniveau is en de steekproefgrootte (N=564) groot is, wat normale verdeling suggereert. De **Pearson correlatietoets** is hier geschikt.
* Eenzijdig/Tweezijdig: Standaard tweezijdig.
* **Voorbeeld 2: Verschil in agressief rijgedrag tussen mannen en vrouwen**
* Onderzoeksvraag: Verschillen mannen en vrouwen in agressief rijgedrag?
* Onderzoekseenheden: 32 deelnemers, geobserveerd gedurende één week.
* Variabelen: Geslacht (OV, nominaal), Agressief rijgedrag (AV, score 1-5, geheel getal).
* Meetniveau: Geslacht is nominaal, agressief rijgedrag is ordinaal.
* Aantal populaties: Twee populaties (mannen en vrouwen).
* Steekproeven: Onafhankelijke steekproeven (deelnemers zijn geen familie of partners).
* Parametrisch/Non-parametrisch: Non-parametrisch, omdat de afhankelijke variabele (agressief rijgedrag) op ordinaal niveau is. De **Wilcoxon rank-sum toets** is hier geschikt.
* Eenzijdig/Tweezijdig: Standaard tweezijdig.
* **Voorbeeld 3: Effect van energiedrank/repen op loopprestaties**
* Onderzoeksvraag: Welk middel (energiedrank, energierepen, beide, geen) heeft het beste effect op de loopprestaties van langeafstandslopers?
* Onderzoekseenheden: 180 langeafstandslopers, verdeeld over vier condities.
* Variabelen: Energiemiddel (OV, nominaal: geen, drank, reep, beide), Loopprestaties (AV, tijd in minuten).
* Meetniveau: Energiemiddel is nominaal, loopprestaties (tijd) is ratio.
* Aantal populaties: Vier populaties (de vier condities).
* Steekproeven: Onafhankelijke steekproeven (lpers zijn verdeeld over condities).
* Parametrisch/Non-parametrisch: Parametrisch, omdat de afhankelijke variabele (tijd) op rationiveau is en de steekproefgrootte per groep (N=180/4=45) voldoende is voor normale verdeling. De **one-way ANOVA** is hier geschikt.
* Eenzijdig/Tweezijdig: Standaard tweezijdig.
#### 1.5.4 Alternatief toetsoverzicht
Een samenvattend schema kan helpen bij het kiezen van de juiste toets:
| | 1 populatie | 2 populaties | Meer dan 2 populaties |
| :------------------------ | :----------------------------------------- | :------------------------------------------------------------------------ | :------------------------------------------ |
| **Verschil in gemiddelden** | P: z-/t-toets voor 1 gem.
NP: - | P: t-toets voor 2 onafh. gem.
NP: Wilcoxon rank-sum toets | P: One-way ANOVA
NP: - | | **Verband** | P: -
NP: Chi-kwadraat toets | P: t-toets voor 2 afh. gem.
NP: Wilcoxon signed rank toets | P: -
NP: - | | **Correlatie** | P: Pearson correlatietoets
NP: Spearman rank correlation | | | | **Frequentietabellen** | P: -
NP: Chi-kwadraat toets | | | **Parametrisch:** Wanneer Afhankelijke Variabele (AV) minstens intervalniveau heeft en de AV normaal verdeeld is. **Non-parametrisch:** Wanneer AV < intervalniveau of AV niet normaal verdeeld is. #### 1.5.5 Extra oefeningen Er worden diverse oefeningen aangeboden die het toepassen van het stappenplan voor het kiezen van de juiste toets versterken, waarbij steeds motivatie voor de gekozen toets gevraagd wordt, rekening houdend met meetniveau en de aard van de data. --- # Leerdoelen en overzicht van statistische toetsen Dit gedeelte definieert de leerdoelen met betrekking tot het kiezen van de juiste statistische toets en biedt een overzicht van diverse statistische technieken, inclusief parametrische en non-parametrische toetsen. ### 2.1 Leerdoelen voor hoorcollege 11 Het examen zal de volgende leerdoelen evalueren: * Het selecteren van de juiste statistische toets op basis van de onderzoeksvraag en de kenmerken van de data. * Het begrijpen en toepassen van het stappenplan voor het kiezen van een statistische toets. ### 2.2 Overzicht van statistische technieken De keuze voor de juiste statistische toets kan uitdagend zijn. Hieronder volgt een overzicht van de besproken toetsen, georganiseerd naar het aantal populaties en het type onderzoeksvraag. #### 2.2.1 Toetsen voor één populatie * **Parametrisch:** * $z$-toets / $t$-toets voor één gemiddelde. * **Non-parametrisch:** * Chi-kwadraattoets voor frequenties. #### 2.2.2 Toetsen voor twee onafhankelijke populaties * **Parametrisch:** * $t$-toets voor twee onafhankelijke steekproeven. * **Non-parametrisch:** * Wilcoxon rank-sum test. #### 2.2.3 Toetsen voor twee afhankelijke populaties * **Parametrisch:** * $t$-toets voor twee afhankelijke steekproeven. * **Non-parametrisch:** * Wilcoxon signed-rank toets. #### 2.2.4 Toetsen voor meer dan twee onafhankelijke populaties * **Parametrisch:** * One-way ANOVA (variantieanalyse). * **Non-parametrisch:** * (Niet besproken in dit hoofdstuk). #### 2.2.5 Toetsen voor het verband tussen twee variabelen * **Parametrisch:** * Pearson correlatietoets. * **Non-parametrisch:** * Spearman rank correlation. * Chi-kwadraattoets voor kruistabellen. #### 2.2.6 Samenvattend overzicht van toetsen | Studieontwerp / Aantal populaties | Onderzoeksvraag: Verschil in gemiddelden | Onderzoeksvraag: Verband | | :--------------------------------- | :---------------------------------------- | :----------------------- | | **1 Populatie** | Parametrisch: $z$/$t$-toets voor één gemiddelde
Non-parametrisch: Chi-kwadraattoets voor frequenties | - | | **2 Onafhankelijke Populaties** | Parametrisch: $t$-toets voor 2 onafhankelijke steekproeven
Non-parametrisch: Wilcoxon rank-sum test | - | | **2 Afhankelijke Populaties** | Parametrisch: $t$-toets voor 2 afhankelijke steekproeven
Non-parametrisch: Wilcoxon signed-rank toets | - | | **Meer dan 2 Onafhankelijke Populaties** | Parametrisch: One-way ANOVA
Non-parametrisch: - | - | | **Verband tussen 2 Variabelen** | - | Parametrisch: Pearson correlatie
Non-parametrisch: Spearman correlatie, Chi-kwadraattoets voor kruistabellen | #### 2.2.7 Parametrisch versus Non-parametrisch * **Parametrische toetsen:** * Vereisen dat de afhankelijke variabele (AV) minstens van intervalniveau is. * Vereisen dat de AV normaal verdeeld is binnen de populatie(s). * Worden over het algemeen verkozen boven non-parametrische toetsen indien de voorwaarden voldaan zijn, omdat ze meer power hebben. * **Non-parametrische toetsen:** * Worden gebruikt wanneer de AV een lager meetniveau heeft (nominaal of ordinaal) of wanneer de data niet normaal verdeeld zijn. ### 2.3 Stappenplan voor het kiezen van de juiste toets Het correct kiezen van een statistische toets vereist een systematische aanpak. De volgende stappen helpen bij het ontleden van de onderzoeksvraag en het selecteren van de geschikte analyse. #### 2.3.1 Stap 1: Begrijp de onderzoeksvraag * Wat is de centrale vraag die beantwoord moet worden? * Gaat het om het vaststellen van een effect (variabele X op Y) of een verband (tussen X en Y)? #### 2.3.2 Stap 2: Identificeer de variabelen * Wat zijn de afhankelijke en onafhankelijke variabelen in het onderzoek? * Een effect-onderzoek focust op de invloed van de onafhankelijke variabele (OV) op de afhankelijke variabele (AV). * Een verband-onderzoek onderzoekt de relatie tussen twee variabelen, waarbij de richting niet noodzakelijk vaststaat (correlatie ≠ causaliteit). #### 2.3.3 Stap 3: Bepaal het meetniveau van de variabelen Het meetniveau van de variabelen is cruciaal voor de toetskeuze. * **Nominaal:** Categorieën zonder rangorde (bv. geslacht, haarkleur). * **Ordinaal:** Categorieën met een logische rangorde, maar ongelijke intervallen (bv. Likert-schalen, opleidingsniveau). * **Interval:** Gelijkwaardige intervallen tussen waarden, geen absoluut nulpunt (bv. temperatuur in Celsius, IQ-score). * **Ratio:** Gelijkwaardige intervallen én een absoluut nulpunt (bv. lengte, gewicht, leeftijd, reactietijd). > **Tip:** Het verlagen van een meetniveau (bv. van interval naar ordinaal) is altijd mogelijk, maar het verhogen ervan niet. #### 2.3.4 Stap 4: Bepaal het aantal te bestuderen populaties Dit wordt bepaald door het aantal niveaus of categorieën van de onafhankelijke variabele. #### 2.3.5 Stap 5: Ga na of de steekproeven afhankelijk of onafhankelijk zijn * **Onafhankelijke steekproeven:** De selectie van de ene steekproef heeft geen invloed op de selectie van de andere. * **Afhankelijke steekproeven:** De steekproeven zijn gerelateerd. Dit kan komen doordat dezelfde deelnemers op meerdere momenten gemeten worden (bv. voor- en nameting) of doordat paren van deelnemers gematcht zijn. #### 2.3.6 Stap 6: Kies tussen parametrische en non-parametrische toetsen * Controleer of de AV minstens intervalniveau heeft en voldoet aan de aannames van normaliteit. Indien ja, kies een parametrische toets. * Indien de AV ordinaal of nominaal is, of niet normaal verdeeld is, kies een non-parametrische toets. * In SPSS kan de normaliteit worden nagegaan met de Kolmogorov-Smirnov en Shapiro-Wilk toetsen. De Shapiro-Wilk toets wordt als accuraater beschouwd. * Een $p$-waarde groter dan of gelijk aan 0.05 suggereert normaliteit. * Een $p$-waarde kleiner dan 0.05 suggereert niet-normaal verdeelde data. #### 2.3.7 Stap 7: Bepaal of de toets eenzijdig of tweezijdig is * **Tweezijdig toetsen:** Standaard in de praktijk om alle mogelijke effecten of verbanden te detecteren. De nulhypothese ($H_0$) stelt dat er geen verschil of verband is, en de alternatieve hypothese ($H_1$) stelt dat er wel een verschil of verband is, zonder specificatie van de richting. * **Eenzijdig toetsen:** Wordt enkel gebruikt wanneer er een sterke theoretische onderbouwing is om een specifieke richting van het effect of verband te verwachten. De alternatieve hypothese specificeert de richting van het verschil of verband. > **Tip:** Tenzij er een zeer duidelijke theoretische reden is, is het aan te raden om altijd tweezijdig te toetsen om geen potentiële effecten te missen. ### 2.4 Voorbeelden van toetskeuzes #### 2.4.1 Voorbeeld 1: Verband tussen materialisme en agressief rijgedrag * **Onderzoeksvraag:** Zoeken naar het verband tussen materialisme en agressief rijgedrag van autobestuurders. * **Variabelen:** * OV: Materialisme (gemeten via Likert-items, totaalscore omgerekend naar 0-150). * AV: Agressief rijgedrag (gemeten via Likert-items, totaalscore 0-90). * **Meetniveau:** Beide variabelen worden als interval beschouwd (combinatie van Likert-schalen resulteert in intervalniveau). * **Aantal populaties:** Eén populatie (bestuurders). * **Steekproeven:** Niet van toepassing, er is één steekproef. * **Parametrisch/Non-parametrisch:** Parametrisch, omdat de AV intervalniveau heeft en met een grote steekproef ($N=564$) aangenomen kan worden dat de data (ongeveer) normaal verdeeld zijn. * **Toets:** Pearson correlatietoets. * **Eenzijdig/Tweezijdig:** Tweezijdig, om een eventueel verband in beide richtingen te detecteren. #### 2.4.2 Voorbeeld 2: Verschil in agressief rijgedrag tussen mannen en vrouwen * **Onderzoeksvraag:** Zoeken naar een verschil tussen mannen en vrouwen op gebied van agressief rijgedrag. * **Variabelen:** * OV: Geslacht (man/vrouw). * AV: Agressief rijgedrag (gemeten op een schaal van 1 tot 5, geheel getal). * **Meetniveau:** Geslacht is nominaal. Agressief rijgedrag is ordinaal (rangorde, maar de intervallen zijn niet per se gelijk). * **Aantal populaties:** Twee populaties (mannen en vrouwen). * **Steekproeven:** Onafhankelijke steekproeven (mannen en vrouwen zijn geen familie/partners van elkaar). * **Parametrisch/Non-parametrisch:** Non-parametrisch, omdat de AV ordinaal is. * **Toets:** Wilcoxon rank-sum test. * **Eenzijdig/Tweezijdig:** Tweezijdig. #### 2.4.3 Voorbeeld 3: Effect van energiedrank/repen op prestaties * **Onderzoeksvraag:** Welk middel (energiedrank, energierepen, beide, of geen) heeft het beste effect op de loopprestaties van langeafstandslopers? * **Variabelen:** * OV: Energiemiddel (geen, energiedrank, energierepen, beide). * AV: Prestatietijd in minuten. * **Meetniveau:** Energiemiddel is nominaal. Prestatietijd is ratio. * **Aantal populaties:** Vier condities (die als vier populaties beschouwd kunnen worden). * **Steekproeven:** Onafhankelijke steekproeven (verschillende groepen lopers). * **Parametrisch/Non-parametrisch:** Parametrisch, omdat de AV ratio is en de steekproefgrootte ($N=180$, verdeeld over 4 groepen, dus $N \approx 45$ per groep) suggereert dat de normaliteitsassumptie redelijk zal gelden. * **Toets:** One-way ANOVA. * **Eenzijdig/Tweezijdig:** Tweezijdig. ### 2.5 Belangrijke overwegingen * De keuze van de statistische methode is sterk afhankelijk van het onderzoeksdesign. * Het is aan te raden om al vóór het uitvoeren van het onderzoek na te denken over de te gebruiken statistische methoden. * Non-parametrische toetsen worden bij voorkeur vermeden indien de voorwaarden voor parametrische toetsen vervuld zijn, vanwege hun lagere power. > **Tip:** Gebruik dit stappenplan consequent bij het oefenen met verschillende onderzoeksvoorbeelden om de vaardigheid in het kiezen van de juiste toets te verbeteren. --- # Stappenplan voor het kiezen van de juiste statistische toets Dit hoofdstuk biedt een systematisch stappenplan om de geschikte statistische toets te selecteren voor een gegeven onderzoeksvraag, beginnend bij de vraag zelf en eindigend met de overweging tussen een eenzijdige of tweezijdige toets. ### 3.1 De zeven stappen voor het kiezen van de juiste toets Het selecteren van de correcte statistische toets is cruciaal voor de validiteit van onderzoeksresultaten. Dit proces kan worden opgedeeld in zeven logische stappen: #### 3.1.1 Stap 1: Ontleed de onderzoeksvraag De allereerste stap is het grondig begrijpen van de onderzoeksvraag. Hierbij is het essentieel om te identificeren welke variabelen bestudeerd worden en wat de onderzoekseenheden (bijvoorbeeld personen, groepen, objecten) zijn. #### 3.1.2 Stap 2: Bepaal de afhankelijke en onafhankelijke variabelen Vervolgens moeten de afhankelijke variabele (AV) en de onafhankelijke variabele (OV) worden vastgesteld. Dit onderscheid is fundamenteel voor het bepalen van de meetniveaus en het begrijpen van de aard van het onderzochte verband: * **Effect:** Onderzoek naar het effect van variabele X op variabele Y. * **Verband:** Onderzoek naar de relatie tussen variabele X en variabele Y, waarbij de richting (causaliteit) niet noodzakelijk wordt bepaald. #### 3.1.3 Stap 3: Bepaal het meetniveau van de variabelen Het meetniveau van de variabelen (nominaal, ordinaal, interval, ratio) is een van de meest bepalende factoren voor de keuze van de statistische toets. Daarnaast zijn de voorwaarden die aan verschillende toetsen verbonden zijn (zoals normaliteit van de verdeling, intervalniveau van de AV) hier ook van belang. Het verlagen van een meetniveau is toegestaan (bijvoorbeeld van interval naar ordinaal), maar het verhogen ervan niet. De vier meetniveaus zijn: * **Nominaal:** Categorieën zonder rangorde (bv. geslacht). * **Ordinaal:** Categorieën met een rangorde, maar zonder gelijke intervallen (bv. opleidingsniveau). * **Interval:** Gelijkwaardige intervallen tussen waarden, maar geen absoluut nulpunt (bv. temperatuur in Celsius). * **Ratio:** Gelijkwaardige intervallen en een absoluut nulpunt (bv. lengte, gewicht). #### 3.1.4 Stap 4: Bepaal het aantal te bestuderen populaties Sommige statistische toetsen vereisen een duidelijk inzicht in het aantal te bestuderen populaties. Dit aantal wordt bepaald door het aantal niveaus of categorieën van de onafhankelijke variabele. #### 3.1.5 Stap 5: Bepaal of het om onafhankelijke of afhankelijke steekproeven gaat Het onderscheid tussen onafhankelijke en afhankelijke steekproeven is cruciaal: * **Onafhankelijke steekproeven:** De samenstelling van de ene steekproef heeft geen invloed op de samenstelling van de andere. * **Afhankelijke steekproeven:** Dezelfde deelnemers worden op meerdere momenten gemeten (longitudinaal) of er is sprake van gematchte paren. #### 3.1.6 Stap 6: Bepaal of we parametrisch of non-parametrisch moeten toetsen Over het algemeen heeft een parametrische toets de voorkeur boven een non-parametrische toets, mits aan de specifieke voorwaarden van de toets wordt voldaan (zoals eerder behandeld). Parametrische toetsen maken gebruik van informatie over de verdeling van de populatie (bv. gemiddelde, standaarddeviatie), terwijl non-parametrische toetsen hier minder strenge eisen aan stellen. Non-parametrische toetsen zijn geschikt wanneer de afhankelijke variabele een lager meetniveau heeft dan interval (ordinaal) of wanneer niet aan de assumpties van normaliteit voor parametrische toetsen is voldaan. #### 3.1.7 Stap 7: Bepaal of we eenzijdig of tweezijdig toetsen In de praktijk wordt doorgaans tweezijdig getoetst om te voorkomen dat men effecten mist. Eenzijdig toetsen is uitzonderlijk en wordt alleen toegepast wanneer er een zeer specifieke, theoretisch onderbouwde verwachting is over de richting van het effect. Het is echter wel belangrijk het verschil tussen eenzijdige en tweezijdige hypotheses te kennen. > **Tip:** Bij het toetsen van normaliteit in SPSS kunnen de Kolmogorov-Smirnov en Shapiro-Wilk toetsen worden gebruikt. De Shapiro-Wilk toets wordt als het meest accuraat beschouwd. Een $p$-waarde groter of gelijk aan $0.05$ wijst op normaliteit, terwijl een $p$-waarde kleiner dan $0.05$ op niet-normaal verdeelde data duidt. ### 3.2 Overzicht van statistische toetsen op basis van onderzoeksvraag Het volgende schema geeft een overzicht van veelgebruikte statistische toetsen, gerangschikt naar het aantal bestudeerde populaties, het type steekproef en het meetniveau van de variabelen. | Situatie | Parametrisch (AV minstens interval, normaal verdeeld) | Non-parametrisch (AV < interval of niet normaal verdeeld) | | :--------------------------------- | :---------------------------------------------------- | :------------------------------------------------------- | | **1 populatie** | Z-toets / T-toets voor één gemiddelde | Chi-kwadraattoets voor frequenties | | **2 onafhankelijke populaties** | T-toets voor twee onafhankelijke steekproeven | Wilcoxon rank-sum test | | **2 afhankelijke populaties** | T-toets voor twee afhankelijke steekproeven | Wilcoxon signed-rank toets | | **Meer dan 2 onafhankelijke populaties** | One-way ANOVA (variantieanalyse) | Kruskal-Wallis toets (niet expliciet genoemd maar analogie) | | **Verband tussen 2 variabelen** | Pearson correlatietoets | Spearman rank correlation, Chi-kwadraattoets voor kruistabellen | ### 3.3 Toepassingsvoorbeelden Hieronder worden enkele voorbeelden uitgewerkt aan de hand van het zeven-stappenplan. #### 3.3.1 Voorbeeld 1: Verband tussen materialisme en agressief rijgedrag **Onderzoeksvraag:** Is er een verband tussen materialisme en agressief rijgedrag bij autobestuurders? * **Stap 1 (Onderzoeksvraag):** Verband tussen materialisme en agressief rijgedrag. * **Stap 2 (AV/OV):** Onafhankelijke variabele: materialisme. Afhankelijke variabele: agressief rijgedrag. * **Stap 3 (Meetniveau):** Beide variabelen worden gemeten met Likert-items, waarbij de totaalscore wordt berekend en omgerekend naar een score op een schaal. Dit leidt tot intervalvariabelen. * **Stap 4 (Aantal populaties):** Eén populatie (alle bestuurders in de steekproef van 564 mannen en vrouwen). * **Stap 5 (Afhankelijk/Onafhankelijk):** Er is sprake van één enkele steekproef; de vraag naar afhankelijke of onafhankelijke steekproeven is hier niet van toepassing. * **Stap 6 (Parametrisch/Non-parametrisch):** Aangezien de afhankelijke variabele van intervalniveau is en de steekproef groot ($N=564$) is, kan worden aangenomen dat de data redelijk normaal verdeeld zijn. Een parametrische toets is aangewezen. * **Stap 7 (Eenzijdig/Tweezijdig):** Standaard tweezijdig toetsen. **Gekozen toets:** Pearson correlatietoets (voor het verband tussen twee intervalvariabelen). #### 3.3.2 Voorbeeld 2: Verschil in agressief rijgedrag tussen mannen en vrouwen **Onderzoeksvraag:** Verschillen mannen en vrouwen in agressief rijgedrag? * **Stap 1 (Onderzoeksvraag):** Verschil in agressief rijgedrag tussen geslachten. * **Stap 2 (AV/OV):** Onafhankelijke variabele: geslacht. Afhankelijke variabele: agressief rijgedrag. * **Stap 3 (Meetniveau):** Geslacht is een nominale variabele. Agressief rijgedrag wordt gemeten met een Likert-schaal met scores van 1 tot 5 (gehele getallen), wat duidt op een ordinaal meetniveau. * **Stap 4 (Aantal populaties):** Twee populaties (mannen en vrouwen). * **Stap 5 (Afhankelijk/Onafhankelijk):** Dit zijn onafhankelijke steekproeven, omdat de mannen en vrouwen geen familie of partners zijn van elkaar. * **Stap 6 (Parametrisch/Non-parametrisch):** Omdat de afhankelijke variabele (agressief rijgedrag) van ordinaal niveau is, kan geen parametrische toets zoals de t-toets voor onafhankelijke steekproeven worden gebruikt. Een non-parametrische toets is noodzakelijk. * **Stap 7 (Eenzijdig/Tweezijdig):** Standaard tweezijdig toetsen. **Gekozen toets:** Wilcoxon rank-sum test (voor het vergelijken van twee onafhankelijke groepen op een ordinale variabele). #### 3.3.3 Voorbeeld 3: Effect van energiedrank/repen op loopprestaties **Onderzoeksvraag:** Welk energievorm (energiedrank, energierepen, beide, geen) heeft het beste effect op de loopprestaties van langeafstandslopers? * **Stap 1 (Onderzoeksvraag):** Vergelijken van loopprestaties tussen verschillende condities van energietoevoer. * **Stap 2 (AV/OV):** Onafhankelijke variabele: energievorm (vier condities). Afhankelijke variabele: loopprestaties (tijd in minuten). * **Stap 3 (Meetniveau):** De onafhankelijke variabele (energievorm) is nominaal. De afhankelijke variabele (looptijd in minuten) is een ratio-variabele, wat ook als interval kan worden beschouwd voor statistische analyses. * **Stap 4 (Aantal populaties):** Vier populaties, overeenkomend met de vier condities. * **Stap 5 (Afhankelijk/Onafhankelijk):** De lopers worden in vier *verschillende* groepen verdeeld, wat duidt op onafhankelijke steekproeven. * **Stap 6 (Parametrisch/Non-parametrisch):** Aangezien de afhankelijke variabele van ratio-/intervalniveau is en er meer dan twee groepen zijn, is een variantieanalyse (ANOVA) geschikt. Bij een grote steekproef ($N=180$) en een interval-/ratiovariabele, kan een parametrische toets worden overwogen. * **Stap 7 (Eenzijdig/Tweezijdig):** Standaard tweezijdig toetsen. **Gekozen toets:** One-way ANOVA (voor het vergelijken van gemiddelden van meer dan twee onafhankelijke groepen op een interval-/ratiovariabele). --- # Toepassingen en voorbeelden van toetskeuze Dit onderdeel illustreert het keuzeproces van statistische toetsen aan de hand van concrete onderzoeksvoorbeelden, waarbij de stappen van een beslisschema worden doorlopen om de geschikte toets te motiveren. ### 4.1 Het proces van toetskeuze Het kiezen van de juiste statistische toets kan een uitdaging zijn en vereist een systematische aanpak. Dit proces kan worden gevisualiseerd aan de hand van een schema dat de onderzoeker door de belangrijkste beslissingsmomenten leidt. #### 4.1.1 De stappen in het keuzeproces Het keuzeproces van een statistische toets kan worden opgedeeld in de volgende essentiële stappen: 1. **Begrip van de onderzoeksvraag:** Zorg ervoor dat de onderzoeksvraag volledig wordt begrepen. Wat wil men precies onderzoeken of aantonen? 2. **Identificatie van variabelen:** Bepaal welke variabelen worden bestudeerd en identificeer de afhankelijke en onafhankelijke variabelen. Een effect wordt onderzocht wanneer er een invloed is van variabele X op variabele Y. Een verband wordt onderzocht wanneer de relatie tussen X en Y centraal staat, zonder noodzakelijk een causale richting te bepalen. 3. **Bepaling van het meetniveau:** Het meetniveau van de variabelen is cruciaal voor de keuze van de toets. * **Nominaal:** Categorieën zonder natuurlijke ordening (bv. geslacht, kleur). * **Ordinaal:** Categorieën met een natuurlijke ordening, maar ongelijke afstanden tussen de categorieën (bv. opleidingsniveau, rangschikking). * **Interval:** Gelijke afstanden tussen waarden, maar geen absoluut nulpunt (bv. temperatuur in Celsius). * **Ratio:** Gelijke afstanden tussen waarden én een absoluut nulpunt (bv. lengte, gewicht, leeftijd). Het verlagen van een meetniveau (bv. van interval naar ordinaal) is altijd mogelijk, maar het verhogen ervan niet. 4. **Aantal populaties:** Bepaal hoeveel populaties er worden bestudeerd. Dit wordt vaak bepaald door het aantal niveaus of categorieën van een onafhankelijke variabele. 5. **Onafhankelijke of afhankelijke steekproeven:** Ga na of de steekproeven onafhankelijk zijn (steekproeven trekken zonder rekening te houden met eerdere steekproeven) of afhankelijk (dezelfde deelnemers worden herhaaldelijk gemeten, of er zijn gematchte paren). 6. **Parametrisch of non-parametrisch toetsen:** Kies tussen parametrische en non-parametrische toetsen. Parametrische toetsen hebben strengere voorwaarden (bv. normaliteit van de afhankelijke variabele, interval- of rationiveau). Non-parametrische toetsen zijn geschikter wanneer deze voorwaarden niet voldaan zijn. Over het algemeen hebben parametrische toetsen meer power als aan de voorwaarden is voldaan. * **Validiteit van normaliteit:** In software zoals SPSS kan de normaliteit van de data worden nagegaan met de Kolmogorov-Smirnov-test of de Shapiro-Wilk-test. De Shapiro-Wilk-test wordt als accurater beschouwd. * **Interpretatie:** Een p-waarde groter dan of gelijk aan 0.05 indiceert dat de data normaal verdeeld zijn. Een p-waarde kleiner dan 0.05 suggereert dat de data niet normaal verdeeld zijn. 7. **Eenzijdig of tweezijdig toetsen:** Bepaal of de hypothese eenzijdig of tweezijdig is. In de praktijk wordt vrijwel altijd tweezijdig getoetst om geen mogelijke effecten te missen. Wel is het belangrijk het verschil tussen eenzijdige en tweezijdige hypotheses te kennen. > **Tip:** Het is raadzaam om al vóór het starten van het onderzoek na te denken over het onderzoeksdesign en de keuze van de statistische methode. Probeer non-parametrische toetsen te vermijden indien mogelijk door te zorgen dat aan de voorwaarden voor parametrische toetsen wordt voldaan. #### 4.1.2 Overzicht van technieken Een overzicht van veelgebruikte statistische toetsen, ingedeeld naar het aantal populaties en het type toets (parametrisch/non-parametrisch), helpt bij de keuze: **Toetsen voor één populatie:** * **Parametrisch:** $z$-toets of $t$-toets voor één gemiddelde. * **Non-parametrisch:** Chi-kwadraattoets voor frequenties. **Toetsen voor twee onafhankelijke populaties:** * **Parametrisch:** $t$-toets voor twee onafhankelijke steekproeven. * **Non-parametrisch:** Wilcoxon rank-sum test. **Toetsen voor twee afhankelijke populaties:** * **Parametrisch:** $t$-toets voor twee afhankelijke steekproeven. * **Non-parametrisch:** Wilcoxon signed-rank test. **Toetsen voor meer dan twee onafhankelijke populaties:** * **Parametrisch:** One-way ANOVA (variantieanalyse). **Toetsen voor het verband tussen twee variabelen:** * **Parametrisch:** Pearson correlatietoets. * **Non-parametrisch:** Spearman rank correlation; Chi-kwadraattoets voor kruistabellen. ### 4.2 Illustratieve voorbeelden Om het keuzeproces te verduidelijken, worden de stappen toegepast op verschillende onderzoeksscenario's. #### 4.2.1 Voorbeeld 1: Verband tussen materialisme en agressief rijgedrag **Onderzoeksvraag:** Wat is het verband tussen materialisme en agressief rijgedrag van autobestuurders? * **Onderzoekseenheden:** 564 mannen en vrouwen tussen 18 en 55 jaar. * **Variabelen:** * Onafhankelijke variabele (OV): Materialisme (gemeten met een vragenlijst, totaalscore omgezet naar een score van 0-150). * Afhankelijke variabele (AV): Agressief rijgedrag (gemeten met een vragenlijst, totaalscore van 0-90). * **Meetniveau:** Beide variabelen worden beschouwd als intervalvariabelen, aangezien ze zijn opgebouwd uit een som van Likert-items en een breed scorebereik hebben. * **Aantal populaties:** Eén populatie wordt bestudeerd. * **Steekproeven:** Er is sprake van één steekproef van bestuurders. * **Parametrisch/Non-parametrisch:** Aangezien de afhankelijke variabele (en ook de onafhankelijke variabele) een intervalniveau heeft en de steekproefomvang groot is ($N = 564$), kan worden aangenomen dat de data voldoen aan de voorwaarden voor parametrische toetsen. * **Toetskeuze:** **Pearson correlatietoets.** * **Eenzijdig/Tweezijdig:** Tweezijdig, omdat men zoekt naar een verband zonder voorafgaande specifieke richting te definiëren. #### 4.2.2 Voorbeeld 2: Verschil in agressief rijgedrag tussen mannen en vrouwen **Onderzoeksvraag:** Is er een verschil in agressief rijgedrag tussen mannen en vrouwen? * **Onderzoekseenheden:** 32 deelnemers. * **Variabelen:** * Onafhankelijke variabele (OV): Geslacht (man/vrouw). * Afhankelijke variabele (AV): Agressief rijgedrag (toegewezen score van 1-5 na observatie). * **Meetniveau:** Geslacht is een nominaal variabele. Agressief rijgedrag, gemeten op een schaal van 1 tot 5 met gehele getallen, kan als ordinaal worden beschouwd. * **Aantal populaties:** Twee populaties worden vergeleken (mannen en vrouwen). * **Steekproeven:** Deelnemende mannen en vrouwen mogen geen familie of partners zijn, wat duidt op onafhankelijke steekproeven. * **Parametrisch/Non-parametrisch:** Omdat de afhankelijke variabele ordinaal is, is een non-parametrische toets noodzakelijk. * **Toetskeuze:** **Wilcoxon rank-sum toets.** * **Eenzijdig/Tweezijdig:** Tweezijdig, om een eventueel verschil in beide richtingen te kunnen detecteren. #### 4.2.3 Voorbeeld 3: Effect van energiedrank en energierepen op loopprestaties **Onderzoeksvraag:** Welk middel (energiedrank, energierepen, beide, of geen) heeft het beste effect op de loopprestaties van langeafstandslopers? * **Onderzoekseenheden:** 180 langeafstandslopers van hetzelfde niveau. * **Variabelen:** * Onafhankelijke variabele (OV): Energiemiddel (vier condities: geen, energiedrank, energierepen, beide). Dit is een nominale variabele. * Afhankelijke variabele (AV): Loopprestatie (tijd in minuten voor een halve marathon). Dit is een ratio variabele. * **Meetniveau:** De onafhankelijke variabele is nominaal, de afhankelijke variabele is ratio. * **Aantal populaties:** Vier groepen (condities) worden vergeleken, wat neerkomt op het vergelijken van vier populaties. * **Steekproeven:** De lopers worden verdeeld in vier groepen, wat duidt op onafhankelijke steekproeven. * **Parametrisch/Non-parametrisch:** Aangezien de afhankelijke variabele een ratio niveau heeft en de steekproefomvang binnen elke groep groot genoeg is ($180/4 = 45$), wordt voldaan aan de voorwaarden voor parametrische toetsen. * **Toetskeuze:** **One-way ANOVA (variantieanalyse).** * **Eenzijdig/Tweezijdig:** Tweezijdig, om eventuele verschillen tussen de groepen te kunnen detecteren. #### 4.2.4 Extra voorbeeld: Onderzoek naar studie-uren en examenresultaten **Onderzoeksvraag:** Is er een verband tussen het aantal studie-uren en het examenresultaat van studenten? * **Onderzoekseenheden:** Een steekproef van studenten. * **Variabelen:** * OV: Aantal studie-uren. * AV: Examenresultaat. * **Meetniveau:** Beide variabelen zijn waarschijnlijk interval- of rationiveau (bv. studie-uren kunnen worden gemeten in uren en minuten, examenresultaten als een score op 100). * **Aantal populaties:** Eén populatie. * **Steekproeven:** Eén steekproef. * **Parametrisch/Non-parametrisch:** Parametrisch, gezien de waarschijnlijke meetniveaus. * **Toetskeuze:** **Pearson correlatietoets.** * **Eenzijdig/Tweezijdig:** Tweezijdig. #### 4.2.5 Extra voorbeeld: Vergelijking van effectiviteit van drie leermethoden **Onderzoeksvraag:** Verschillen de examenresultaten tussen studenten die drie verschillende leermethoden hebben gevolgd? * **Onderzoekseenheden:** Studenten verdeeld over drie groepen. * **Variabelen:** * OV: Leermethode (nominaal, 3 niveaus). * AV: Examenresultaat (interval/ratio). * **Meetniveau:** Leermethode is nominaal, examenresultaat is interval/ratio. * **Aantal populaties:** Drie populaties (één voor elke leermethode). * **Steekproeven:** Onafhankelijke steekproeven. * **Parametrisch/Non-parametrisch:** Parametrisch, omdat de AV een interval/ratio niveau heeft. * **Toetskeuze:** **One-way ANOVA.** * **Eenzijdig/Tweezijdig:** Tweezijdig. #### 4.2.6 Extra voorbeeld: Verschil in tevredenheid tussen drie afdelingen **Onderzoeksvraag:** Verschilt de tevredenheid van medewerkers tussen drie verschillende afdelingen? * **Onderzoekseenheden:** Medewerkers van drie afdelingen. * **Variabelen:** * OV: Afdeling (nominaal, 3 niveaus). * AV: Tevredenheid (bv. gemeten op een Likertschaal, ordinaal/interval). * **Meetniveau:** Afdeling is nominaal. Tevredenheid kan als ordinaal of interval worden beschouwd. Als ordinaal moet een non-parametrische toets worden overwogen. Als interval met normaal verdeelde data een parametrische toets. * **Aantal populaties:** Drie populaties (één voor elke afdeling). * **Steekproeven:** Onafhankelijke steekproeven. * **Parametrisch/Non-parametrisch:** Indien tevredenheid ordinaal is, de **Kruskal-Wallis test** (non-parametrisch alternatief voor ANOVA). Indien tevredenheid interval en data normaal verdeeld, de **One-way ANOVA**. * **Eenzijdig/Tweezijdig:** Tweezijdig. #### 4.2.7 Extra voorbeeld: Relatie tussen stress en slaapkwaliteit **Onderzoeksvraag:** Bestaat er een verband tussen de mate van stress en de ervaren slaapkwaliteit? * **Onderzoekseenheden:** Een groep deelnemers. * **Variabelen:** * Stress: gemeten op een schaal. * Slaapkwaliteit: gemeten op een schaal. * **Meetniveau:** Beide variabelen zijn waarschijnlijk intervalniveau. * **Aantal populaties:** Eén populatie. * **Steekproeven:** Eén steekproef. * **Parametrisch/Non-parametrisch:** Parametrisch. * **Toetskeuze:** **Pearson correlatietoets.** * **Eenzijdig/Tweezijdig:** Tweezijdig. --- ## Veelgemaakte fouten om te vermijden - Bestudeer alle onderwerpen grondig voor examens - Let op formules en belangrijke definities - Oefen met de voorbeelden in elke sectie - Memoriseer niet zonder de onderliggende concepten te begrijpen
NP: - | P: t-toets voor 2 onafh. gem.
NP: Wilcoxon rank-sum toets | P: One-way ANOVA
NP: - | | **Verband** | P: -
NP: Chi-kwadraat toets | P: t-toets voor 2 afh. gem.
NP: Wilcoxon signed rank toets | P: -
NP: - | | **Correlatie** | P: Pearson correlatietoets
NP: Spearman rank correlation | | | | **Frequentietabellen** | P: -
NP: Chi-kwadraat toets | | | **Parametrisch:** Wanneer Afhankelijke Variabele (AV) minstens intervalniveau heeft en de AV normaal verdeeld is. **Non-parametrisch:** Wanneer AV < intervalniveau of AV niet normaal verdeeld is. #### 1.5.5 Extra oefeningen Er worden diverse oefeningen aangeboden die het toepassen van het stappenplan voor het kiezen van de juiste toets versterken, waarbij steeds motivatie voor de gekozen toets gevraagd wordt, rekening houdend met meetniveau en de aard van de data. --- # Leerdoelen en overzicht van statistische toetsen Dit gedeelte definieert de leerdoelen met betrekking tot het kiezen van de juiste statistische toets en biedt een overzicht van diverse statistische technieken, inclusief parametrische en non-parametrische toetsen. ### 2.1 Leerdoelen voor hoorcollege 11 Het examen zal de volgende leerdoelen evalueren: * Het selecteren van de juiste statistische toets op basis van de onderzoeksvraag en de kenmerken van de data. * Het begrijpen en toepassen van het stappenplan voor het kiezen van een statistische toets. ### 2.2 Overzicht van statistische technieken De keuze voor de juiste statistische toets kan uitdagend zijn. Hieronder volgt een overzicht van de besproken toetsen, georganiseerd naar het aantal populaties en het type onderzoeksvraag. #### 2.2.1 Toetsen voor één populatie * **Parametrisch:** * $z$-toets / $t$-toets voor één gemiddelde. * **Non-parametrisch:** * Chi-kwadraattoets voor frequenties. #### 2.2.2 Toetsen voor twee onafhankelijke populaties * **Parametrisch:** * $t$-toets voor twee onafhankelijke steekproeven. * **Non-parametrisch:** * Wilcoxon rank-sum test. #### 2.2.3 Toetsen voor twee afhankelijke populaties * **Parametrisch:** * $t$-toets voor twee afhankelijke steekproeven. * **Non-parametrisch:** * Wilcoxon signed-rank toets. #### 2.2.4 Toetsen voor meer dan twee onafhankelijke populaties * **Parametrisch:** * One-way ANOVA (variantieanalyse). * **Non-parametrisch:** * (Niet besproken in dit hoofdstuk). #### 2.2.5 Toetsen voor het verband tussen twee variabelen * **Parametrisch:** * Pearson correlatietoets. * **Non-parametrisch:** * Spearman rank correlation. * Chi-kwadraattoets voor kruistabellen. #### 2.2.6 Samenvattend overzicht van toetsen | Studieontwerp / Aantal populaties | Onderzoeksvraag: Verschil in gemiddelden | Onderzoeksvraag: Verband | | :--------------------------------- | :---------------------------------------- | :----------------------- | | **1 Populatie** | Parametrisch: $z$/$t$-toets voor één gemiddelde
Non-parametrisch: Chi-kwadraattoets voor frequenties | - | | **2 Onafhankelijke Populaties** | Parametrisch: $t$-toets voor 2 onafhankelijke steekproeven
Non-parametrisch: Wilcoxon rank-sum test | - | | **2 Afhankelijke Populaties** | Parametrisch: $t$-toets voor 2 afhankelijke steekproeven
Non-parametrisch: Wilcoxon signed-rank toets | - | | **Meer dan 2 Onafhankelijke Populaties** | Parametrisch: One-way ANOVA
Non-parametrisch: - | - | | **Verband tussen 2 Variabelen** | - | Parametrisch: Pearson correlatie
Non-parametrisch: Spearman correlatie, Chi-kwadraattoets voor kruistabellen | #### 2.2.7 Parametrisch versus Non-parametrisch * **Parametrische toetsen:** * Vereisen dat de afhankelijke variabele (AV) minstens van intervalniveau is. * Vereisen dat de AV normaal verdeeld is binnen de populatie(s). * Worden over het algemeen verkozen boven non-parametrische toetsen indien de voorwaarden voldaan zijn, omdat ze meer power hebben. * **Non-parametrische toetsen:** * Worden gebruikt wanneer de AV een lager meetniveau heeft (nominaal of ordinaal) of wanneer de data niet normaal verdeeld zijn. ### 2.3 Stappenplan voor het kiezen van de juiste toets Het correct kiezen van een statistische toets vereist een systematische aanpak. De volgende stappen helpen bij het ontleden van de onderzoeksvraag en het selecteren van de geschikte analyse. #### 2.3.1 Stap 1: Begrijp de onderzoeksvraag * Wat is de centrale vraag die beantwoord moet worden? * Gaat het om het vaststellen van een effect (variabele X op Y) of een verband (tussen X en Y)? #### 2.3.2 Stap 2: Identificeer de variabelen * Wat zijn de afhankelijke en onafhankelijke variabelen in het onderzoek? * Een effect-onderzoek focust op de invloed van de onafhankelijke variabele (OV) op de afhankelijke variabele (AV). * Een verband-onderzoek onderzoekt de relatie tussen twee variabelen, waarbij de richting niet noodzakelijk vaststaat (correlatie ≠ causaliteit). #### 2.3.3 Stap 3: Bepaal het meetniveau van de variabelen Het meetniveau van de variabelen is cruciaal voor de toetskeuze. * **Nominaal:** Categorieën zonder rangorde (bv. geslacht, haarkleur). * **Ordinaal:** Categorieën met een logische rangorde, maar ongelijke intervallen (bv. Likert-schalen, opleidingsniveau). * **Interval:** Gelijkwaardige intervallen tussen waarden, geen absoluut nulpunt (bv. temperatuur in Celsius, IQ-score). * **Ratio:** Gelijkwaardige intervallen én een absoluut nulpunt (bv. lengte, gewicht, leeftijd, reactietijd). > **Tip:** Het verlagen van een meetniveau (bv. van interval naar ordinaal) is altijd mogelijk, maar het verhogen ervan niet. #### 2.3.4 Stap 4: Bepaal het aantal te bestuderen populaties Dit wordt bepaald door het aantal niveaus of categorieën van de onafhankelijke variabele. #### 2.3.5 Stap 5: Ga na of de steekproeven afhankelijk of onafhankelijk zijn * **Onafhankelijke steekproeven:** De selectie van de ene steekproef heeft geen invloed op de selectie van de andere. * **Afhankelijke steekproeven:** De steekproeven zijn gerelateerd. Dit kan komen doordat dezelfde deelnemers op meerdere momenten gemeten worden (bv. voor- en nameting) of doordat paren van deelnemers gematcht zijn. #### 2.3.6 Stap 6: Kies tussen parametrische en non-parametrische toetsen * Controleer of de AV minstens intervalniveau heeft en voldoet aan de aannames van normaliteit. Indien ja, kies een parametrische toets. * Indien de AV ordinaal of nominaal is, of niet normaal verdeeld is, kies een non-parametrische toets. * In SPSS kan de normaliteit worden nagegaan met de Kolmogorov-Smirnov en Shapiro-Wilk toetsen. De Shapiro-Wilk toets wordt als accuraater beschouwd. * Een $p$-waarde groter dan of gelijk aan 0.05 suggereert normaliteit. * Een $p$-waarde kleiner dan 0.05 suggereert niet-normaal verdeelde data. #### 2.3.7 Stap 7: Bepaal of de toets eenzijdig of tweezijdig is * **Tweezijdig toetsen:** Standaard in de praktijk om alle mogelijke effecten of verbanden te detecteren. De nulhypothese ($H_0$) stelt dat er geen verschil of verband is, en de alternatieve hypothese ($H_1$) stelt dat er wel een verschil of verband is, zonder specificatie van de richting. * **Eenzijdig toetsen:** Wordt enkel gebruikt wanneer er een sterke theoretische onderbouwing is om een specifieke richting van het effect of verband te verwachten. De alternatieve hypothese specificeert de richting van het verschil of verband. > **Tip:** Tenzij er een zeer duidelijke theoretische reden is, is het aan te raden om altijd tweezijdig te toetsen om geen potentiële effecten te missen. ### 2.4 Voorbeelden van toetskeuzes #### 2.4.1 Voorbeeld 1: Verband tussen materialisme en agressief rijgedrag * **Onderzoeksvraag:** Zoeken naar het verband tussen materialisme en agressief rijgedrag van autobestuurders. * **Variabelen:** * OV: Materialisme (gemeten via Likert-items, totaalscore omgerekend naar 0-150). * AV: Agressief rijgedrag (gemeten via Likert-items, totaalscore 0-90). * **Meetniveau:** Beide variabelen worden als interval beschouwd (combinatie van Likert-schalen resulteert in intervalniveau). * **Aantal populaties:** Eén populatie (bestuurders). * **Steekproeven:** Niet van toepassing, er is één steekproef. * **Parametrisch/Non-parametrisch:** Parametrisch, omdat de AV intervalniveau heeft en met een grote steekproef ($N=564$) aangenomen kan worden dat de data (ongeveer) normaal verdeeld zijn. * **Toets:** Pearson correlatietoets. * **Eenzijdig/Tweezijdig:** Tweezijdig, om een eventueel verband in beide richtingen te detecteren. #### 2.4.2 Voorbeeld 2: Verschil in agressief rijgedrag tussen mannen en vrouwen * **Onderzoeksvraag:** Zoeken naar een verschil tussen mannen en vrouwen op gebied van agressief rijgedrag. * **Variabelen:** * OV: Geslacht (man/vrouw). * AV: Agressief rijgedrag (gemeten op een schaal van 1 tot 5, geheel getal). * **Meetniveau:** Geslacht is nominaal. Agressief rijgedrag is ordinaal (rangorde, maar de intervallen zijn niet per se gelijk). * **Aantal populaties:** Twee populaties (mannen en vrouwen). * **Steekproeven:** Onafhankelijke steekproeven (mannen en vrouwen zijn geen familie/partners van elkaar). * **Parametrisch/Non-parametrisch:** Non-parametrisch, omdat de AV ordinaal is. * **Toets:** Wilcoxon rank-sum test. * **Eenzijdig/Tweezijdig:** Tweezijdig. #### 2.4.3 Voorbeeld 3: Effect van energiedrank/repen op prestaties * **Onderzoeksvraag:** Welk middel (energiedrank, energierepen, beide, of geen) heeft het beste effect op de loopprestaties van langeafstandslopers? * **Variabelen:** * OV: Energiemiddel (geen, energiedrank, energierepen, beide). * AV: Prestatietijd in minuten. * **Meetniveau:** Energiemiddel is nominaal. Prestatietijd is ratio. * **Aantal populaties:** Vier condities (die als vier populaties beschouwd kunnen worden). * **Steekproeven:** Onafhankelijke steekproeven (verschillende groepen lopers). * **Parametrisch/Non-parametrisch:** Parametrisch, omdat de AV ratio is en de steekproefgrootte ($N=180$, verdeeld over 4 groepen, dus $N \approx 45$ per groep) suggereert dat de normaliteitsassumptie redelijk zal gelden. * **Toets:** One-way ANOVA. * **Eenzijdig/Tweezijdig:** Tweezijdig. ### 2.5 Belangrijke overwegingen * De keuze van de statistische methode is sterk afhankelijk van het onderzoeksdesign. * Het is aan te raden om al vóór het uitvoeren van het onderzoek na te denken over de te gebruiken statistische methoden. * Non-parametrische toetsen worden bij voorkeur vermeden indien de voorwaarden voor parametrische toetsen vervuld zijn, vanwege hun lagere power. > **Tip:** Gebruik dit stappenplan consequent bij het oefenen met verschillende onderzoeksvoorbeelden om de vaardigheid in het kiezen van de juiste toets te verbeteren. --- # Stappenplan voor het kiezen van de juiste statistische toets Dit hoofdstuk biedt een systematisch stappenplan om de geschikte statistische toets te selecteren voor een gegeven onderzoeksvraag, beginnend bij de vraag zelf en eindigend met de overweging tussen een eenzijdige of tweezijdige toets. ### 3.1 De zeven stappen voor het kiezen van de juiste toets Het selecteren van de correcte statistische toets is cruciaal voor de validiteit van onderzoeksresultaten. Dit proces kan worden opgedeeld in zeven logische stappen: #### 3.1.1 Stap 1: Ontleed de onderzoeksvraag De allereerste stap is het grondig begrijpen van de onderzoeksvraag. Hierbij is het essentieel om te identificeren welke variabelen bestudeerd worden en wat de onderzoekseenheden (bijvoorbeeld personen, groepen, objecten) zijn. #### 3.1.2 Stap 2: Bepaal de afhankelijke en onafhankelijke variabelen Vervolgens moeten de afhankelijke variabele (AV) en de onafhankelijke variabele (OV) worden vastgesteld. Dit onderscheid is fundamenteel voor het bepalen van de meetniveaus en het begrijpen van de aard van het onderzochte verband: * **Effect:** Onderzoek naar het effect van variabele X op variabele Y. * **Verband:** Onderzoek naar de relatie tussen variabele X en variabele Y, waarbij de richting (causaliteit) niet noodzakelijk wordt bepaald. #### 3.1.3 Stap 3: Bepaal het meetniveau van de variabelen Het meetniveau van de variabelen (nominaal, ordinaal, interval, ratio) is een van de meest bepalende factoren voor de keuze van de statistische toets. Daarnaast zijn de voorwaarden die aan verschillende toetsen verbonden zijn (zoals normaliteit van de verdeling, intervalniveau van de AV) hier ook van belang. Het verlagen van een meetniveau is toegestaan (bijvoorbeeld van interval naar ordinaal), maar het verhogen ervan niet. De vier meetniveaus zijn: * **Nominaal:** Categorieën zonder rangorde (bv. geslacht). * **Ordinaal:** Categorieën met een rangorde, maar zonder gelijke intervallen (bv. opleidingsniveau). * **Interval:** Gelijkwaardige intervallen tussen waarden, maar geen absoluut nulpunt (bv. temperatuur in Celsius). * **Ratio:** Gelijkwaardige intervallen en een absoluut nulpunt (bv. lengte, gewicht). #### 3.1.4 Stap 4: Bepaal het aantal te bestuderen populaties Sommige statistische toetsen vereisen een duidelijk inzicht in het aantal te bestuderen populaties. Dit aantal wordt bepaald door het aantal niveaus of categorieën van de onafhankelijke variabele. #### 3.1.5 Stap 5: Bepaal of het om onafhankelijke of afhankelijke steekproeven gaat Het onderscheid tussen onafhankelijke en afhankelijke steekproeven is cruciaal: * **Onafhankelijke steekproeven:** De samenstelling van de ene steekproef heeft geen invloed op de samenstelling van de andere. * **Afhankelijke steekproeven:** Dezelfde deelnemers worden op meerdere momenten gemeten (longitudinaal) of er is sprake van gematchte paren. #### 3.1.6 Stap 6: Bepaal of we parametrisch of non-parametrisch moeten toetsen Over het algemeen heeft een parametrische toets de voorkeur boven een non-parametrische toets, mits aan de specifieke voorwaarden van de toets wordt voldaan (zoals eerder behandeld). Parametrische toetsen maken gebruik van informatie over de verdeling van de populatie (bv. gemiddelde, standaarddeviatie), terwijl non-parametrische toetsen hier minder strenge eisen aan stellen. Non-parametrische toetsen zijn geschikt wanneer de afhankelijke variabele een lager meetniveau heeft dan interval (ordinaal) of wanneer niet aan de assumpties van normaliteit voor parametrische toetsen is voldaan. #### 3.1.7 Stap 7: Bepaal of we eenzijdig of tweezijdig toetsen In de praktijk wordt doorgaans tweezijdig getoetst om te voorkomen dat men effecten mist. Eenzijdig toetsen is uitzonderlijk en wordt alleen toegepast wanneer er een zeer specifieke, theoretisch onderbouwde verwachting is over de richting van het effect. Het is echter wel belangrijk het verschil tussen eenzijdige en tweezijdige hypotheses te kennen. > **Tip:** Bij het toetsen van normaliteit in SPSS kunnen de Kolmogorov-Smirnov en Shapiro-Wilk toetsen worden gebruikt. De Shapiro-Wilk toets wordt als het meest accuraat beschouwd. Een $p$-waarde groter of gelijk aan $0.05$ wijst op normaliteit, terwijl een $p$-waarde kleiner dan $0.05$ op niet-normaal verdeelde data duidt. ### 3.2 Overzicht van statistische toetsen op basis van onderzoeksvraag Het volgende schema geeft een overzicht van veelgebruikte statistische toetsen, gerangschikt naar het aantal bestudeerde populaties, het type steekproef en het meetniveau van de variabelen. | Situatie | Parametrisch (AV minstens interval, normaal verdeeld) | Non-parametrisch (AV < interval of niet normaal verdeeld) | | :--------------------------------- | :---------------------------------------------------- | :------------------------------------------------------- | | **1 populatie** | Z-toets / T-toets voor één gemiddelde | Chi-kwadraattoets voor frequenties | | **2 onafhankelijke populaties** | T-toets voor twee onafhankelijke steekproeven | Wilcoxon rank-sum test | | **2 afhankelijke populaties** | T-toets voor twee afhankelijke steekproeven | Wilcoxon signed-rank toets | | **Meer dan 2 onafhankelijke populaties** | One-way ANOVA (variantieanalyse) | Kruskal-Wallis toets (niet expliciet genoemd maar analogie) | | **Verband tussen 2 variabelen** | Pearson correlatietoets | Spearman rank correlation, Chi-kwadraattoets voor kruistabellen | ### 3.3 Toepassingsvoorbeelden Hieronder worden enkele voorbeelden uitgewerkt aan de hand van het zeven-stappenplan. #### 3.3.1 Voorbeeld 1: Verband tussen materialisme en agressief rijgedrag **Onderzoeksvraag:** Is er een verband tussen materialisme en agressief rijgedrag bij autobestuurders? * **Stap 1 (Onderzoeksvraag):** Verband tussen materialisme en agressief rijgedrag. * **Stap 2 (AV/OV):** Onafhankelijke variabele: materialisme. Afhankelijke variabele: agressief rijgedrag. * **Stap 3 (Meetniveau):** Beide variabelen worden gemeten met Likert-items, waarbij de totaalscore wordt berekend en omgerekend naar een score op een schaal. Dit leidt tot intervalvariabelen. * **Stap 4 (Aantal populaties):** Eén populatie (alle bestuurders in de steekproef van 564 mannen en vrouwen). * **Stap 5 (Afhankelijk/Onafhankelijk):** Er is sprake van één enkele steekproef; de vraag naar afhankelijke of onafhankelijke steekproeven is hier niet van toepassing. * **Stap 6 (Parametrisch/Non-parametrisch):** Aangezien de afhankelijke variabele van intervalniveau is en de steekproef groot ($N=564$) is, kan worden aangenomen dat de data redelijk normaal verdeeld zijn. Een parametrische toets is aangewezen. * **Stap 7 (Eenzijdig/Tweezijdig):** Standaard tweezijdig toetsen. **Gekozen toets:** Pearson correlatietoets (voor het verband tussen twee intervalvariabelen). #### 3.3.2 Voorbeeld 2: Verschil in agressief rijgedrag tussen mannen en vrouwen **Onderzoeksvraag:** Verschillen mannen en vrouwen in agressief rijgedrag? * **Stap 1 (Onderzoeksvraag):** Verschil in agressief rijgedrag tussen geslachten. * **Stap 2 (AV/OV):** Onafhankelijke variabele: geslacht. Afhankelijke variabele: agressief rijgedrag. * **Stap 3 (Meetniveau):** Geslacht is een nominale variabele. Agressief rijgedrag wordt gemeten met een Likert-schaal met scores van 1 tot 5 (gehele getallen), wat duidt op een ordinaal meetniveau. * **Stap 4 (Aantal populaties):** Twee populaties (mannen en vrouwen). * **Stap 5 (Afhankelijk/Onafhankelijk):** Dit zijn onafhankelijke steekproeven, omdat de mannen en vrouwen geen familie of partners zijn van elkaar. * **Stap 6 (Parametrisch/Non-parametrisch):** Omdat de afhankelijke variabele (agressief rijgedrag) van ordinaal niveau is, kan geen parametrische toets zoals de t-toets voor onafhankelijke steekproeven worden gebruikt. Een non-parametrische toets is noodzakelijk. * **Stap 7 (Eenzijdig/Tweezijdig):** Standaard tweezijdig toetsen. **Gekozen toets:** Wilcoxon rank-sum test (voor het vergelijken van twee onafhankelijke groepen op een ordinale variabele). #### 3.3.3 Voorbeeld 3: Effect van energiedrank/repen op loopprestaties **Onderzoeksvraag:** Welk energievorm (energiedrank, energierepen, beide, geen) heeft het beste effect op de loopprestaties van langeafstandslopers? * **Stap 1 (Onderzoeksvraag):** Vergelijken van loopprestaties tussen verschillende condities van energietoevoer. * **Stap 2 (AV/OV):** Onafhankelijke variabele: energievorm (vier condities). Afhankelijke variabele: loopprestaties (tijd in minuten). * **Stap 3 (Meetniveau):** De onafhankelijke variabele (energievorm) is nominaal. De afhankelijke variabele (looptijd in minuten) is een ratio-variabele, wat ook als interval kan worden beschouwd voor statistische analyses. * **Stap 4 (Aantal populaties):** Vier populaties, overeenkomend met de vier condities. * **Stap 5 (Afhankelijk/Onafhankelijk):** De lopers worden in vier *verschillende* groepen verdeeld, wat duidt op onafhankelijke steekproeven. * **Stap 6 (Parametrisch/Non-parametrisch):** Aangezien de afhankelijke variabele van ratio-/intervalniveau is en er meer dan twee groepen zijn, is een variantieanalyse (ANOVA) geschikt. Bij een grote steekproef ($N=180$) en een interval-/ratiovariabele, kan een parametrische toets worden overwogen. * **Stap 7 (Eenzijdig/Tweezijdig):** Standaard tweezijdig toetsen. **Gekozen toets:** One-way ANOVA (voor het vergelijken van gemiddelden van meer dan twee onafhankelijke groepen op een interval-/ratiovariabele). --- # Toepassingen en voorbeelden van toetskeuze Dit onderdeel illustreert het keuzeproces van statistische toetsen aan de hand van concrete onderzoeksvoorbeelden, waarbij de stappen van een beslisschema worden doorlopen om de geschikte toets te motiveren. ### 4.1 Het proces van toetskeuze Het kiezen van de juiste statistische toets kan een uitdaging zijn en vereist een systematische aanpak. Dit proces kan worden gevisualiseerd aan de hand van een schema dat de onderzoeker door de belangrijkste beslissingsmomenten leidt. #### 4.1.1 De stappen in het keuzeproces Het keuzeproces van een statistische toets kan worden opgedeeld in de volgende essentiële stappen: 1. **Begrip van de onderzoeksvraag:** Zorg ervoor dat de onderzoeksvraag volledig wordt begrepen. Wat wil men precies onderzoeken of aantonen? 2. **Identificatie van variabelen:** Bepaal welke variabelen worden bestudeerd en identificeer de afhankelijke en onafhankelijke variabelen. Een effect wordt onderzocht wanneer er een invloed is van variabele X op variabele Y. Een verband wordt onderzocht wanneer de relatie tussen X en Y centraal staat, zonder noodzakelijk een causale richting te bepalen. 3. **Bepaling van het meetniveau:** Het meetniveau van de variabelen is cruciaal voor de keuze van de toets. * **Nominaal:** Categorieën zonder natuurlijke ordening (bv. geslacht, kleur). * **Ordinaal:** Categorieën met een natuurlijke ordening, maar ongelijke afstanden tussen de categorieën (bv. opleidingsniveau, rangschikking). * **Interval:** Gelijke afstanden tussen waarden, maar geen absoluut nulpunt (bv. temperatuur in Celsius). * **Ratio:** Gelijke afstanden tussen waarden én een absoluut nulpunt (bv. lengte, gewicht, leeftijd). Het verlagen van een meetniveau (bv. van interval naar ordinaal) is altijd mogelijk, maar het verhogen ervan niet. 4. **Aantal populaties:** Bepaal hoeveel populaties er worden bestudeerd. Dit wordt vaak bepaald door het aantal niveaus of categorieën van een onafhankelijke variabele. 5. **Onafhankelijke of afhankelijke steekproeven:** Ga na of de steekproeven onafhankelijk zijn (steekproeven trekken zonder rekening te houden met eerdere steekproeven) of afhankelijk (dezelfde deelnemers worden herhaaldelijk gemeten, of er zijn gematchte paren). 6. **Parametrisch of non-parametrisch toetsen:** Kies tussen parametrische en non-parametrische toetsen. Parametrische toetsen hebben strengere voorwaarden (bv. normaliteit van de afhankelijke variabele, interval- of rationiveau). Non-parametrische toetsen zijn geschikter wanneer deze voorwaarden niet voldaan zijn. Over het algemeen hebben parametrische toetsen meer power als aan de voorwaarden is voldaan. * **Validiteit van normaliteit:** In software zoals SPSS kan de normaliteit van de data worden nagegaan met de Kolmogorov-Smirnov-test of de Shapiro-Wilk-test. De Shapiro-Wilk-test wordt als accurater beschouwd. * **Interpretatie:** Een p-waarde groter dan of gelijk aan 0.05 indiceert dat de data normaal verdeeld zijn. Een p-waarde kleiner dan 0.05 suggereert dat de data niet normaal verdeeld zijn. 7. **Eenzijdig of tweezijdig toetsen:** Bepaal of de hypothese eenzijdig of tweezijdig is. In de praktijk wordt vrijwel altijd tweezijdig getoetst om geen mogelijke effecten te missen. Wel is het belangrijk het verschil tussen eenzijdige en tweezijdige hypotheses te kennen. > **Tip:** Het is raadzaam om al vóór het starten van het onderzoek na te denken over het onderzoeksdesign en de keuze van de statistische methode. Probeer non-parametrische toetsen te vermijden indien mogelijk door te zorgen dat aan de voorwaarden voor parametrische toetsen wordt voldaan. #### 4.1.2 Overzicht van technieken Een overzicht van veelgebruikte statistische toetsen, ingedeeld naar het aantal populaties en het type toets (parametrisch/non-parametrisch), helpt bij de keuze: **Toetsen voor één populatie:** * **Parametrisch:** $z$-toets of $t$-toets voor één gemiddelde. * **Non-parametrisch:** Chi-kwadraattoets voor frequenties. **Toetsen voor twee onafhankelijke populaties:** * **Parametrisch:** $t$-toets voor twee onafhankelijke steekproeven. * **Non-parametrisch:** Wilcoxon rank-sum test. **Toetsen voor twee afhankelijke populaties:** * **Parametrisch:** $t$-toets voor twee afhankelijke steekproeven. * **Non-parametrisch:** Wilcoxon signed-rank test. **Toetsen voor meer dan twee onafhankelijke populaties:** * **Parametrisch:** One-way ANOVA (variantieanalyse). **Toetsen voor het verband tussen twee variabelen:** * **Parametrisch:** Pearson correlatietoets. * **Non-parametrisch:** Spearman rank correlation; Chi-kwadraattoets voor kruistabellen. ### 4.2 Illustratieve voorbeelden Om het keuzeproces te verduidelijken, worden de stappen toegepast op verschillende onderzoeksscenario's. #### 4.2.1 Voorbeeld 1: Verband tussen materialisme en agressief rijgedrag **Onderzoeksvraag:** Wat is het verband tussen materialisme en agressief rijgedrag van autobestuurders? * **Onderzoekseenheden:** 564 mannen en vrouwen tussen 18 en 55 jaar. * **Variabelen:** * Onafhankelijke variabele (OV): Materialisme (gemeten met een vragenlijst, totaalscore omgezet naar een score van 0-150). * Afhankelijke variabele (AV): Agressief rijgedrag (gemeten met een vragenlijst, totaalscore van 0-90). * **Meetniveau:** Beide variabelen worden beschouwd als intervalvariabelen, aangezien ze zijn opgebouwd uit een som van Likert-items en een breed scorebereik hebben. * **Aantal populaties:** Eén populatie wordt bestudeerd. * **Steekproeven:** Er is sprake van één steekproef van bestuurders. * **Parametrisch/Non-parametrisch:** Aangezien de afhankelijke variabele (en ook de onafhankelijke variabele) een intervalniveau heeft en de steekproefomvang groot is ($N = 564$), kan worden aangenomen dat de data voldoen aan de voorwaarden voor parametrische toetsen. * **Toetskeuze:** **Pearson correlatietoets.** * **Eenzijdig/Tweezijdig:** Tweezijdig, omdat men zoekt naar een verband zonder voorafgaande specifieke richting te definiëren. #### 4.2.2 Voorbeeld 2: Verschil in agressief rijgedrag tussen mannen en vrouwen **Onderzoeksvraag:** Is er een verschil in agressief rijgedrag tussen mannen en vrouwen? * **Onderzoekseenheden:** 32 deelnemers. * **Variabelen:** * Onafhankelijke variabele (OV): Geslacht (man/vrouw). * Afhankelijke variabele (AV): Agressief rijgedrag (toegewezen score van 1-5 na observatie). * **Meetniveau:** Geslacht is een nominaal variabele. Agressief rijgedrag, gemeten op een schaal van 1 tot 5 met gehele getallen, kan als ordinaal worden beschouwd. * **Aantal populaties:** Twee populaties worden vergeleken (mannen en vrouwen). * **Steekproeven:** Deelnemende mannen en vrouwen mogen geen familie of partners zijn, wat duidt op onafhankelijke steekproeven. * **Parametrisch/Non-parametrisch:** Omdat de afhankelijke variabele ordinaal is, is een non-parametrische toets noodzakelijk. * **Toetskeuze:** **Wilcoxon rank-sum toets.** * **Eenzijdig/Tweezijdig:** Tweezijdig, om een eventueel verschil in beide richtingen te kunnen detecteren. #### 4.2.3 Voorbeeld 3: Effect van energiedrank en energierepen op loopprestaties **Onderzoeksvraag:** Welk middel (energiedrank, energierepen, beide, of geen) heeft het beste effect op de loopprestaties van langeafstandslopers? * **Onderzoekseenheden:** 180 langeafstandslopers van hetzelfde niveau. * **Variabelen:** * Onafhankelijke variabele (OV): Energiemiddel (vier condities: geen, energiedrank, energierepen, beide). Dit is een nominale variabele. * Afhankelijke variabele (AV): Loopprestatie (tijd in minuten voor een halve marathon). Dit is een ratio variabele. * **Meetniveau:** De onafhankelijke variabele is nominaal, de afhankelijke variabele is ratio. * **Aantal populaties:** Vier groepen (condities) worden vergeleken, wat neerkomt op het vergelijken van vier populaties. * **Steekproeven:** De lopers worden verdeeld in vier groepen, wat duidt op onafhankelijke steekproeven. * **Parametrisch/Non-parametrisch:** Aangezien de afhankelijke variabele een ratio niveau heeft en de steekproefomvang binnen elke groep groot genoeg is ($180/4 = 45$), wordt voldaan aan de voorwaarden voor parametrische toetsen. * **Toetskeuze:** **One-way ANOVA (variantieanalyse).** * **Eenzijdig/Tweezijdig:** Tweezijdig, om eventuele verschillen tussen de groepen te kunnen detecteren. #### 4.2.4 Extra voorbeeld: Onderzoek naar studie-uren en examenresultaten **Onderzoeksvraag:** Is er een verband tussen het aantal studie-uren en het examenresultaat van studenten? * **Onderzoekseenheden:** Een steekproef van studenten. * **Variabelen:** * OV: Aantal studie-uren. * AV: Examenresultaat. * **Meetniveau:** Beide variabelen zijn waarschijnlijk interval- of rationiveau (bv. studie-uren kunnen worden gemeten in uren en minuten, examenresultaten als een score op 100). * **Aantal populaties:** Eén populatie. * **Steekproeven:** Eén steekproef. * **Parametrisch/Non-parametrisch:** Parametrisch, gezien de waarschijnlijke meetniveaus. * **Toetskeuze:** **Pearson correlatietoets.** * **Eenzijdig/Tweezijdig:** Tweezijdig. #### 4.2.5 Extra voorbeeld: Vergelijking van effectiviteit van drie leermethoden **Onderzoeksvraag:** Verschillen de examenresultaten tussen studenten die drie verschillende leermethoden hebben gevolgd? * **Onderzoekseenheden:** Studenten verdeeld over drie groepen. * **Variabelen:** * OV: Leermethode (nominaal, 3 niveaus). * AV: Examenresultaat (interval/ratio). * **Meetniveau:** Leermethode is nominaal, examenresultaat is interval/ratio. * **Aantal populaties:** Drie populaties (één voor elke leermethode). * **Steekproeven:** Onafhankelijke steekproeven. * **Parametrisch/Non-parametrisch:** Parametrisch, omdat de AV een interval/ratio niveau heeft. * **Toetskeuze:** **One-way ANOVA.** * **Eenzijdig/Tweezijdig:** Tweezijdig. #### 4.2.6 Extra voorbeeld: Verschil in tevredenheid tussen drie afdelingen **Onderzoeksvraag:** Verschilt de tevredenheid van medewerkers tussen drie verschillende afdelingen? * **Onderzoekseenheden:** Medewerkers van drie afdelingen. * **Variabelen:** * OV: Afdeling (nominaal, 3 niveaus). * AV: Tevredenheid (bv. gemeten op een Likertschaal, ordinaal/interval). * **Meetniveau:** Afdeling is nominaal. Tevredenheid kan als ordinaal of interval worden beschouwd. Als ordinaal moet een non-parametrische toets worden overwogen. Als interval met normaal verdeelde data een parametrische toets. * **Aantal populaties:** Drie populaties (één voor elke afdeling). * **Steekproeven:** Onafhankelijke steekproeven. * **Parametrisch/Non-parametrisch:** Indien tevredenheid ordinaal is, de **Kruskal-Wallis test** (non-parametrisch alternatief voor ANOVA). Indien tevredenheid interval en data normaal verdeeld, de **One-way ANOVA**. * **Eenzijdig/Tweezijdig:** Tweezijdig. #### 4.2.7 Extra voorbeeld: Relatie tussen stress en slaapkwaliteit **Onderzoeksvraag:** Bestaat er een verband tussen de mate van stress en de ervaren slaapkwaliteit? * **Onderzoekseenheden:** Een groep deelnemers. * **Variabelen:** * Stress: gemeten op een schaal. * Slaapkwaliteit: gemeten op een schaal. * **Meetniveau:** Beide variabelen zijn waarschijnlijk intervalniveau. * **Aantal populaties:** Eén populatie. * **Steekproeven:** Eén steekproef. * **Parametrisch/Non-parametrisch:** Parametrisch. * **Toetskeuze:** **Pearson correlatietoets.** * **Eenzijdig/Tweezijdig:** Tweezijdig. --- ## Veelgemaakte fouten om te vermijden - Bestudeer alle onderwerpen grondig voor examens - Let op formules en belangrijke definities - Oefen met de voorbeelden in elke sectie - Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Toets-statistiek | Een statistische waarde die wordt berekend uit steekproefgegevens om te beslissen over het verwerpen of behouden van de nulhypothese. De waarde helpt bij het beoordelen van de significantie van de gevonden resultaten in relatie tot de hypothetische populatieparameters. |
| Kritieke waarde | Een drempelwaarde in de verdeling van de toetsstatistiek die wordt gebruikt om te bepalen of een resultaat statistisch significant is. Als de berekende toetsstatistiek deze waarde overschrijdt, wordt de nulhypothese verworpen. |
| Significant | Een resultaat wordt als significant beschouwd wanneer het waarschijnlijk is dat het niet door toeval is ontstaan, maar een echt effect of verband in de populatie weerspiegelt. Dit wordt meestal bepaald aan de hand van een vooraf vastgesteld significantieniveau. |
| Nulhypothese (H0) | Een statistische hypothese die stelt dat er geen significant effect of verband is tussen variabelen, of dat er geen verschil is tussen groepen. Het is de hypothese die we proberen te weerleggen met ons onderzoek. |
| Parametrische toets | Een statistische toets die bepaalde aannames maakt over de verdeling van de populatieparameters, zoals normaliteit en gelijke varianties. Deze toetsen zijn doorgaans krachtiger dan non-parametrische toetsen indien aan de voorwaarden is voldaan. |
| Non-parametrische toets | Een statistische toets die minder strikte aannames maakt over de verdeling van de populatieparameters. Ze zijn geschikt wanneer de data niet voldoen aan de voorwaarden voor parametrische toetsen, bijvoorbeeld bij ordinale data of scheve verdelingen. |
| Meetniveau | De schaal waarop een variabele wordt gemeten, wat bepaalt welke statistische analyses mogelijk zijn. De meest voorkomende meetniveaus zijn nominaal, ordinaal, interval en ratio. |
| Onafhankelijke variabele | De variabele die wordt gemanipuleerd of die wordt beschouwd als de oorzaak in een onderzoek. Het effect van deze variabele op de afhankelijke variabele wordt bestudeerd. |
| Afhankelijke variabele | De variabele die wordt gemeten om het effect van de onafhankelijke variabele te observeren. Deze variabele wordt beschouwd als het gevolg of de uitkomst van de manipulatie van de onafhankelijke variabele. |
| Steekproef | Een subset van de populatie die wordt geselecteerd voor onderzoek. De resultaten van de steekproef worden gebruikt om conclusies te trekken over de gehele populatie. |
| Steekproefdesign | De manier waarop de steekproeven worden getrokken en hoe de relatie tussen verschillende groepen of metingen is gestructureerd, wat kan leiden tot afhankelijke of onafhankelijke steekproeven. |
| Eenzijdige toets | Een statistische toets waarbij de hypothese een specifieke richting van een effect of verschil aangeeft (bijvoorbeeld, A is groter dan B). De alternatieve hypothese specificeert een richting. |
| Tweezijdige toets | Een statistische toets waarbij de hypothese aangeeft dat er een verschil of effect is, zonder een specifieke richting te specificeren (bijvoorbeeld, A is niet gelijk aan B). Dit is de standaard in veel onderzoek. |
| P-waarde | De waarschijnlijkheid om de geobserveerde resultaten te verkrijgen, of extremere resultaten, gegeven dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot verwerping van de nulhypothese. |
| Variantieanalyse (ANOVA) | Een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het deelt de totale variantie in de data op in verschillende bronnen. |
| t-toets | Een statistische toets die wordt gebruikt om te bepalen of er een significant verschil is tussen de gemiddelden van twee groepen. Er zijn varianten voor één gemiddelde, twee onafhankelijke gemiddelden en twee afhankelijke gemiddelden. |
| Pearsoncorrelatie | Een statistische maat die de sterkte en richting van een lineair verband tussen twee continue variabelen kwantificeert. De waarde varieert van -1 (perfect negatieve correlatie) tot +1 (perfect positieve correlatie). |
| Spearman rangcorrelatie | Een non-parametrische maat die de sterkte en richting van een monotoon verband tussen twee variabelen meet. Het is geschikt voor ordinale data of wanneer de aannames van Pearsoncorrelatie niet worden voldaan. |
| Chi-kwadraattoets | Een statistische toets die wordt gebruikt om te bepalen of er een significant verband is tussen categorische variabelen, vaak door middel van kruistabellen. Het kan ook gebruikt worden om te toetsen of de geobserveerde frequenties afwijken van de verwachte frequenties. |
| Kolmogorov-Smirnov toets | Een non-parametrische toets die wordt gebruikt om te bepalen of een steekproef afkomstig is uit een specifieke theoretische verdeling, zoals de normale verdeling. Het vergelijkt de empirische cumulatieve verdelingsfunctie met de theoretische. |
| Shapiro-Wilk toets | Een krachtige statistische toets die specifiek wordt gebruikt om de normaliteit van een dataset te toetsen. Het wordt over het algemeen als accurater beschouwd dan de Kolmogorov-Smirnov toets voor het testen van normaliteit. |
Cover
Student - Hoorcollege 1 - Introductie Statistiek 2.pptx
Summary
# Introductie tot statistiek 2 en de cursusstructuur
Dit documentgedeelte introduceert Statistiek 2, de voortzetting van Statistiek 1, met een focus op inductieve statistiek en schetst de structuur van de cursus, leerdoelen, werkcolleges en evaluatiemethoden.
## 1. Introductie tot statistiek 2 en de cursusstructuur
### 1.1 Situering van Statistiek 2
Statistiek 2 is de opvolger van Statistiek 1 en richt zich voornamelijk op inductieve statistiek, in tegenstelling tot de beschrijvende statistiek die in Statistiek 1 werd behandeld. Het vak bereidt studenten voor op empirisch onderzoek, het beantwoorden van praktijkgerichte onderzoeksvragen en het kritisch beoordelen van wetenschappelijke literatuur.
#### 1.1.1 Waarom inductieve statistiek?
Inductieve statistiek stelt ons in staat om algemene uitspraken te doen over een gehele populatie op basis van een steekproef. Dit is essentieel omdat het vrijwel onmogelijk is om de gehele populatie te meten. Door middel van inductieve statistiek kunnen we conclusies trekken en hypothesen toetsen die verder reiken dan de specifieke groep die is onderzocht.
#### 1.1.2 Stappen in wetenschappelijk onderzoek
Het proces van wetenschappelijk onderzoek omvat doorgaans de volgende stappen:
* Literatuurstudie
* Hypothesevorming
* Dataverzameling
* Beschrijvende statistiek
* Inductieve statistiek
* Conclusie
#### 1.1.3 Praktijkvoorbeelden van onderzoeksvragen
Statistiek kan antwoorden bieden op diverse onderzoeksvragen, zowel in het dagelijks leven als in specifieke vakgebieden zoals psychologie:
* **Dagelijks leven:** Hangt het aantal studie-uren samen met slaagkansen? Wat is de kans om de ware liefde te ontmoeten op een datingapp? Is er een verband tussen hygiëne en de kans op infectie?
* **Psychologisch werkveld:** Wat is het verband tussen hechtingsstijl en welzijn bij kinderen? Hoe beïnvloeden IQ en geletterdheid schoolse slaagkansen? Welke impact heeft gewetensvolheid op een planmatige aanpak bij werknemers?
### 1.2 Cursusstructuur en planning
#### 1.2.1 Leerdoelen
De leerdoelen van Statistiek 2 zijn ontworpen om de kennis en vaardigheden te evalueren die nodig zijn voor het toepassen van inductieve statistiek. Deze leerdoelen dienen als leidraad tijdens het studeren.
#### 1.2.2 Studietijd en planning
Regelmatig en tijdig beginnen met studeren is cruciaal voor succes. De cursus is opgebouwd uit hoorcolleges en werkcolleges.
#### 1.2.3 Werkcolleges
De werkcolleges zijn bedoeld voor:
* Diepere verwerking van de leerstof uit de hoorcolleges.
* Toepassing van theoretische kennis in concrete oefeningen.
* Gebruik van statistische software zoals SPSS.
De werkcolleges zijn als volgt ingedeeld:
* Werkcollege 1: oefeningen bij Hoorcollege 1, 2, 3
* Werkcollege 2: oefeningen bij Hoorcollege 4, 5, 6, 7
* Werkcollege 3: oefeningen bij Hoorcollege 8, 9, 10, 11
* Werkcollege 4: oefeningen bij Hoorcollege 12, 13, 14
#### 1.2.4 Evaluatie en examen
De evaluatie van de cursus gebeurt via een schriftelijk examen dat voor 100% meetelt. Dit examen bevat zowel kennisvragen als toepassingsvragen, gericht op het begrijpen van de belangrijkste inzichten, het uitrekenen van oefeningen en het correct rapporteren van onderzoeksresultaten. Verdere details over het examen worden later in de cursus verstrekt.
#### 1.2.5 Studiemateriaal
* **Verplicht:**
* Studiewijzer en schrijfwijzer (als leermiddel).
* Leermateriaal beschikbaar op Digitap.
* Handboek: Vanhoomissen, T., Valkeneers, G. (2019). *Inductieve statistiek in de gedragswetenschappen*. Leuven, België: Acco.
* **Aanbevolen (handboek Statistiek 1):**
* Handboek: Valkeneers, G., Vanhoomissen, T. (2018). *Inleiding in de statistiek voor de gedragswetenschappen*. Leuven, België: Acco.
#### 1.2.6 Praktische afspraken
* Stipte aanwezigheid wordt gewaardeerd.
* Vragen kunnen meegenomen worden naar de les, gesteld worden via het forum, of per e-mail verzonden worden voor persoonlijke en belangrijke zaken.
### 1.3 Herhaling Statistiek 1: Belangrijke begrippen
#### 1.3.1 Variabelen en meetniveaus
* **Variabelen:** Kenmerken die gemeten of ingedeeld kunnen worden in categorieën. Ze kunnen verschillende waarden aannemen. Voorbeelden zijn leeftijd, geslacht, of een score op een test.
* **Operationaliseren:** Het proces om variabelen meetbaar te maken. Dit geldt ook voor abstracte concepten zoals intelligentie of depressie.
* **Meetniveaus:** Variabelen kunnen worden ingedeeld op basis van hun meetniveau: nominaal, ordinaal, interval en ratio (NOIR). Het meetniveau bepaalt welke statistische methoden toegepast kunnen worden.
* **Betrouwbaarheid en validiteit:** Twee cruciale voorwaarden voor meten. Betrouwbaarheid verwijst naar de consistentie van een meting, terwijl validiteit aangeeft of de meting daadwerkelijk meet wat het beoogt te meten.
#### 1.3.2 Onafhankelijke en afhankelijke variabelen
* **Afhankelijke variabele (AV):** De variabele die we willen bestuderen of verklaren (bv. mate van depressie).
* **Onafhankelijke variabele (OV):** Een variabele die mogelijk invloed heeft op de afhankelijke variabele en de oorzaak is van verschillen hierin (bv. een bepaalde behandeling). Het is belangrijk te onthouden dat samenhang niet automatisch causaliteit impliceert. In experimenteel onderzoek worden OV's gemanipuleerd om hun effect op de AV te onderzoeken.
#### 1.3.3 Steekproeven
* **Steekproef:** Een deel van de populatie dat wordt onderzocht, vooral wanneer de populatie te groot is om volledig te meten.
* **Belang van representativiteit:** Een goede steekproef is een representatieve afspiegeling van de populatie, wat essentieel is voor het doen van verantwoorde uitspraken over die populatie. De inductieve statistiek heeft als doel om op basis van deze steekproef betrouwbare conclusies over de populatie te trekken.
#### 1.3.4 Soorten steekproeven
* **Aselecte steekproef:** Elk individu in de populatie heeft een gelijke kans om in de steekproef te worden opgenomen. Voorbeelden zijn de volledig aselecte steekproef, systematische aselecte steekproef, gestratificeerde steekproef, clustersteekproef en getrapte steekproef.
* **Niet-aselecte steekproef:** Niet elk individu in de populatie heeft een gelijke kans op selectie. Voorbeelden zijn de gemakheidssteekproef, beoordelingssteekproef, sneeuwbalsteekproef, quotasteekproef en routemethode.
* **Belang van steekproefselectie:** Een zorgvuldige en onderbouwde steekproefselectie is cruciaal voor de validiteit en betrouwbaarheid van onderzoek.
#### 1.3.5 Frequentieverdelingen, centrum- en spreidingsmaten
* **Frequentieverdelingen:** Een eerste manier om data te verkennen, weergegeven in absolute of relatieve frequenties en via grafische voorstellingen zoals taartdiagrammen, staafdiagrammen, histogrammen en boxplots. Percentielscores, kwartielen en decielen geven de positie van een score weer.
* **Centrummaten:** Beschrijven de centrale tendens van data.
* **Modus:** De meest voorkomende waarde.
* **Mediaan:** De middelste waarde in een gerangschikte dataset.
* **Gemiddelde:** De som van alle waarden gedeeld door het aantal waarnemingen. Bij een symmetrische verdeling zijn deze drie maten gelijk. De mediaan is minder gevoelig voor extreme waarden, het gemiddelde is consistenter over steekproeven.
* **Spreidingsmaten:** Beschrijven hoe scores van elkaar variëren.
* **Interkwartielafstand:** Het verschil tussen het 75e en 25e percentiel.
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van elke score ten opzichte van het gemiddelde.
* **Standaarddeviatie ($s$):** De vierkantswortel van de variantie, wat de spreiding in de oorspronkelijke eenheden weergeeft.
* **Standaardscores (Z-scores):** Drukken uit hoeveel standaarddeviaties een geobserveerde score boven of onder het gemiddelde ligt. De formule is: $Z = \frac{X - \mu}{\sigma}$.
#### 1.3.6 De normale verdeling
* De normale verdeling is een veelgebruikt theoretisch model voor het beschrijven van de kans op het voorkomen van bepaalde waarden. Veel variabelen in de natuur zijn normaal verdeeld, zoals lengte en IQ.
* Normale verdelingen worden gekenmerkt door hun klokvormige, symmetrische curve en worden bepaald door het gemiddelde ($\mu$) en de standaarddeviatie ($\sigma$).
* De standaardnormaalverdeling heeft een gemiddelde van $0$ en een standaarddeviatie van $1$ ($\mu = 0, \sigma = 1$). Met behulp van tabellen voor de standaardnormaalverdeling kunnen percentages van observaties onder specifieke Z-scores worden bepaald.
#### 1.3.7 Samenhang tussen variabelen (Statistiek 1)
* **Kruistabellen:** Worden gebruikt om de samenhang tussen nominale of ordinale variabelen te onderzoeken. Toetsen zoals de chikwadraattoets worden gebruikt om te bepalen of een verband statistisch significant is, en maten zoals Cramers V om de sterkte van het verband te kwantificeren.
* **Correlatie:** Wordt gebruikt om de lineaire samenhang tussen interval- of ratiovariabelen te onderzoeken (bv. IQ en schooluitslag).
> **Tip:** Begrijp het meetniveau (NOIR) van je variabelen, want dit bepaalt welke statistische gereedschappen je kunt gebruiken in zowel Statistiek 1 als Statistiek 2.
> **Tip:** Als je de cursus Statistiek 1 niet gevolgd hebt of weinig hebt onthouden, focus dan op de kernconcepten van Statistiek 2 en raadpleeg voor specifieke details het handboek van Statistiek 1. Zoek ook hulp bij medestudenten.
---
# Herhaling en uitbreiding van statistische concepten
Dit onderdeel herhaalt en verdiept fundamentele statistische concepten die cruciaal zijn voor inductieve statistiek, met een focus op variabelen, meetniveaus, betrouwbaarheid, validiteit, steekproeven en de relatie tussen variabelen.
### 2.1 Wetenschappelijk onderzoek en de rol van statistiek
Statistiek fungeert als een essentieel hulpmiddel binnen empirisch onderzoek om algemeen geldende uitspraken te kunnen doen over de realiteit, zelfs wanneer slechts een beperkt deel van de populatie wordt onderzocht. Inductieve statistiek stelt ons in staat om op basis van een steekproef conclusies te trekken over de gehele populatie.
#### 2.1.1 Stappen in wetenschappelijk onderzoek
Een typisch wetenschappelijk onderzoeksproces omvat de volgende stappen:
1. Literatuurstudie
2. Hypothesevorming
3. Dataverzameling
4. Beschrijvende statistiek
5. Inductieve statistiek
6. Conclusie
#### 2.1.2 Praktijkvoorbeelden van onderzoeksvragen
Statistiek kan antwoorden bieden op diverse onderzoeksvragen, zowel in het dagelijks leven als binnen specifieke vakgebieden:
* **Dagelijks leven:** Hangt het aantal uren studie voor Statistiek 2 samen met slaagkansen? Wat is de kans om de liefde van je leven te ontmoeten op Tinder? Is er een verband tussen handen wassen en de kans op Coronavirusbesmetting?
* **Psychologisch werkveld:**
* **Klinisch:** In welke mate is er een verband tussen de hechtingsstijl van een kind en zijn/haar/hun welzijn?
* **School/Pedagogisch:** Welke impact hebben IQ en geletterdheid op schoolse slaagkansen?
* **Arbeid/Organisatie:** Welke impact heeft gewetensvolheid (persoonlijkheidstrek) op een planmatige aanpak bij werknemers?
### 2.2 Variabelen
Een variabele is een "doosje" dat verschillende waarden kan bevatten en dat gemeten of ingedeeld kan worden. Voorbeelden zijn leeftijd, geslacht of een score op een test.
#### 2.2.1 Operationaliseren van variabelen
Operationaliseren is het proces waarbij abstracte concepten (zoals intelligentie, depressie of angst) meetbaar worden gemaakt.
#### 2.2.2 Eigenschappen van variabelen
Variabelen kunnen worden ingedeeld naar:
* **Kwantitatief of kwalitatief**
* **Continu of discreet**
* **Meetniveau:** nominaal, ordinaal, interval, ratio (NOIR)
* **Onafhankelijk of afhankelijk**
#### 2.2.3 Betrouwbaarheid en validiteit
Twee cruciale voorwaarden voor het meten van variabelen zijn:
* **Betrouwbaarheid:** De mate waarin een test of instrument consistent meet wat het beoogt te meten.
* **Validiteit:** De mate waarin een test of instrument daadwerkelijk meet wat het beoogt te meten.
#### 2.2.4 Meetniveaus (NOIR)
Het meetniveau van een variabele bepaalt welke statistische analyses mogelijk zijn.
* **Nominaal:** Categorieën zonder inherente volgorde (bv. geslacht: man, vrouw, anders; haarkleur: blond, bruin, zwart).
* **Ordinaal:** Categorieën met een inherente volgorde, maar de verschillen tussen de categorieën zijn niet noodzakelijk gelijk (bv. opleidingsniveau: lager onderwijs, middelbaar onderwijs, hoger onderwijs; rangen in een wedstrijd: 1e, 2e, 3e).
* **Interval:** Gelijkmatige intervallen tussen opeenvolgende waarden, maar geen natuurlijk nulpunt (bv. temperatuur in graden Celsius of Fahrenheit, jaartallen). Een verschil van 10 graden Celsius tussen 10 en 20 graden is gelijk aan het verschil tussen 20 en 30 graden, maar een temperatuur van 0 graden Celsius betekent niet de afwezigheid van temperatuur.
* **Ratio:** Gelijkmatige intervallen tussen opeenvolgende waarden, én een natuurlijk nulpunt (bv. lengte, gewicht, leeftijd, inkomen). Een lengte van 0 meter betekent de afwezigheid van lengte, en een lengte van 2 meter is twee keer zo lang als 1 meter.
#### 2.2.5 Onafhankelijke en afhankelijke variabelen
* **Afhankelijke variabele (AV):** De variabele die men wil bestuderen of verklaren (bv. mate van depressie).
* **Onafhankelijke variabele (OV):** Een variabele die een mogelijke oorzaak is voor verschillen in de afhankelijke variabele (bv. therapie wel/niet gevolgd). Het is belangrijk op te merken dat samenhang niet gelijk staat aan causaliteit.
In experimenteel onderzoek worden één of meerdere onafhankelijke variabelen gemanipuleerd om het effect ervan op de afhankelijke variabele te observeren.
### 2.3 Steekproeven
Een steekproef is een deel van de populatie dat wordt onderzocht, omdat het onderzoeken van de gehele populatie vaak onpraktisch of onmogelijk is. Het hoofddoel van inductieve statistiek is het trekken van verantwoorde uitspraken over de populatie op basis van de steekproef. Een goede steekproef is een representatieve afspiegeling van de populatie.
#### 2.3.1 Soorten steekproeven
Er wordt een onderscheid gemaakt tussen aselecte en niet-aselecte steekproeven.
##### 2.3.1.1 Aselecte steekproeven
Bij aselecte steekproeven heeft elk individu van de populatie een even grote kans om in de steekproef te worden opgenomen.
* **Volledig aselecte steekproef (simple random sampling):** Elk element van de populatie heeft een gelijke kans om in de steekproef te worden opgenomen.
* *Nadeel:* Niet altijd gegarandeerd representatief en soms moeilijk realiseerbaar.
* **Systematisch aselecte steekproef (systematic sampling):** Selectie van elementen uit een geordende lijst met een vaste interval.
* **Gestratificeerde steekproef (stratified sampling):** De populatie wordt opgedeeld in strata (subgroepen), en uit elk stratum wordt een aselecte steekproef getrokken.
* **Clustersteekproef (cluster sampling):** De populatie wordt opgedeeld in clusters, en een aantal clusters worden willekeurig geselecteerd om volledig onderzocht te worden.
* **Getrapte steekproef (multistage sampling):** Een combinatie van verschillende steekproefmethoden in meerdere fasen.
##### 2.3.1.2 Niet-aselecte steekproeven
Bij niet-aselecte steekproeven heeft niet elk individu van de populatie een gelijke kans om in de steekproef te worden opgenomen.
* **Gemakkelijkheidssteekproef (convenience sampling):** Selectie op basis van beschikbaarheid en toegankelijkheid.
* **Beoordelingssteekproef (judgement sampling):** Selectie op basis van de oordeel van de onderzoeker.
* **Sneeuwbalsteekproef (snowball sampling):** Bestaande deelnemers verwijzen naar nieuwe deelnemers.
* **Quotasteekproef (quota sampling):** De onderzoeker stelt quota vast voor bepaalde subgroepen in de populatie en selecteert respondenten tot deze quota zijn gevuld (niet-willekeurig).
* **Routemethode (random walk):** Een combinatie van willekeurigheid en gemak, waarbij de onderzoeker start op een willekeurig punt en vervolgens een vooraf bepaalde route volgt.
#### 2.3.2 Belang van goede steekproeven
Een zorgvuldige steekproefselectie is essentieel voor de validiteit en betrouwbaarheid van onderzoeksresultaten. De keuze voor een specifieke steekproefmethode moet altijd onderbouwd kunnen worden. Het negeren van dit belang kan leiden tot "garbage in, garbage out" (GIGO).
### 2.4 Beschrijvende statistiek: Frequentieverdelingen, centrum- en spreidingsmaten
Beschrijvende statistiek helpt bij de eerste verkenning en ordening van data.
#### 2.4.1 Frequentieverdelingen
* **Absolute frequentie:** Het aantal keren dat een waarde voorkomt.
* **Relatieve frequentie:** Het aandeel van een waarde ten opzichte van het totaal aantal waarnemingen.
* **Visuele voorstellingen:** Taartdiagram (nominaal), staafdiagram (nominaal/ordinaal), stamdiagram/histogram/boxplot (interval).
#### 2.4.2 Centrummaten
Centrummaten geven de centrale tendens van een verdeling aan.
* **Modus:** De waarde die het meest voorkomt (bruikbaar voor elk meetniveau).
* **Mediaan:** De middelste waarde in een gerangschikte dataset (minimaal ordinaal niveau). Minder gevoelig voor extreme waarden dan het gemiddelde.
* **Gemiddelde:** De som van alle waarden gedeeld door het aantal waarnemingen (minimaal interval niveau). Meer gevoelig voor extreme waarden, maar consistenter over verschillende steekproeven.
> **Tip:** Bij een symmetrische verdeling zijn modus, mediaan en gemiddelde gelijk.
#### 2.4.3 Spreidingsmaten
Spreidingsmaten geven aan hoe ver de scores uit elkaar liggen.
* **Interkwartielafstand:** Het verschil tussen het 75e percentiel ($P_{75}$) en het 25e percentiel ($P_{25}$).
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van elke observatie ten opzichte van het gemiddelde.
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
waarbij $x_i$ de waarneming is, $\bar{x}$ het steekproefgemiddelde, en $n$ het aantal waarnemingen.
* **Standaarddeviatie ($s$):** De vierkantswortel van de variantie. Deze maat is makkelijker te relateren aan de originele scores.
$$ s = \sqrt{s^2} $$
* **Standaardscores (Z-scores):** Drukken uit hoeveel standaarddeviaties een geobserveerde score boven of onder het gemiddelde ligt.
$$ z = \frac{x - \bar{x}}{s} $$
waarbij $x$ de individuele score is.
### 2.5 De normale verdeling
De normale verdeling is een theoretisch kansmodel dat vaak wordt gebruikt om geobserveerde data te beschrijven en te analyseren.
#### 2.5.1 Eigenschappen van de normale verdeling
* De curve is klokvormig en symmetrisch rond het gemiddelde.
* Verschillen tussen normale verdelingen zitten enkel in het gemiddelde ($\mu$) en de standaarddeviatie ($\sigma$).
* Veel variabelen in de natuur, zoals lengte en IQ, volgen bij benadering een normale verdeling.
#### 2.5.2 Standaardnormaalverdeling
De standaardnormaalverdeling is een speciaal geval van de normale verdeling met een gemiddelde ($\mu$) van 0 en een standaarddeviatie ($\sigma$) van 1. Z-scores worden gebruikt om waarden te standaardiseren en te vergelijken binnen de standaardnormaalverdeling.
> **Tip:** Kennis van de normale verdeling en de bijbehorende tabellen maakt het mogelijk om kansen op specifieke uitkomsten te bepalen.
### 2.6 Samenhang tussen variabelen (Statistiek I recap)
Statistiek I bood ook inzicht in de samenhang tussen variabelen.
#### 2.6.1 Kruistabellen
Kruistabellen worden gebruikt om de samenhang tussen twee nominale of ordinale variabelen weer te geven. De analyse omvat:
* **Chikwadraattoets / Goodness of Fit:** Om te bepalen of een verband statistisch significant is.
* **Cramérs V:** Om de sterkte van het verband te meten.
#### 2.6.2 Correlatie
Correlatie wordt gebruikt om de lineaire samenhang tussen twee interval- of ratiovariabelen te meten (bv. IQ en schooluitslag). De correlatiecoëfficiënt varieert van $-1$ (perfecte negatieve correlatie) tot $+1$ (perfecte positieve correlatie), met 0 als geen lineaire correlatie.
### 2.7 Belang van meetniveau en representatieve steekproeven
* Het **meetniveau (NOIR)** van variabelen bepaalt welke statistische gereedschappen gebruikt kunnen worden.
* Een **goede, representatieve steekproeftrekking** is cruciaal voor het verhogen van validiteit en betrouwbaarheid en het trekken van wetenschappelijk verantwoorde conclusies over de populatie.
> **Tip:** Voor studenten die Statistiek I niet hebben gevolgd, is het raadzaam om de basisprincipes van Statistiek II goed te beheersen en bij twijfel terug te grijpen naar het handboek van Statistiek I. Samen studeren en hulp zoeken bij medestudenten kan zeer effectief zijn.
---
# Frequentieverdelingen, centrum- en spreidingsmaten
Dit onderdeel behandelt de beschrijvende aspecten van data-analyse, met een focus op hoe data georganiseerd, samengevat en gevisualiseerd kan worden om inzicht te verkrijgen.
### 3.1 Frequentieverdelingen
Frequentieverdelingen bieden een eerste verkenning van data door te beschrijven hoe vaak bepaalde waarden voorkomen.
#### 3.1.1 Soorten frequenties
* **Absolute frequentie:** Het aantal keren dat een specifieke waarde of categorie voorkomt in de dataset.
* **Relatieve frequentie:** De proportie of het percentage van het totaal aantal observaties dat overeenkomt met een specifieke waarde of categorie. Dit wordt berekend door de absolute frequentie te delen door het totale aantal observaties.
#### 3.1.2 Grafische voorstellingen
De keuze van de grafische voorstelling hangt af van het meetniveau van de variabele.
* **Taartdiagram:** Geschikt voor nominale variabelen om de proportionele verdeling van categorieën weer te geven.
* **Staafdiagram:** Kan gebruikt worden voor nominale of ordinale variabelen om de frequentie van elke categorie te visualiseren.
* **Histogram:** Geschikt voor interval- of rationiveau variabelen om de frequentieverdeling van continue data weer te geven. De staven raken elkaar om continuïteit aan te duiden.
* **Boxplot (of doosdiagram):** Een grafische weergave die de spreiding van de data samenvat, met name nuttig voor interval- of rationiveau variabelen. Het toont de mediaan, kwartielen en uitschieters.
#### 3.1.3 Percentielscores
Percentielscores geven de positie van een specifieke score aan ten opzichte van alle andere scores in een dataset.
* **Kwartielen:** Verdelen de data in vier gelijke delen (P25, P50, P75).
* **Decielen:** Verdelen de data in tien gelijke delen.
### 3.2 Centrummaten
Centrummaten geven de centrale tendens van een dataset weer, wat aangeeft waar het "middelpunt" van de verdeling ligt.
#### 3.2.1 Modus
* **Definitie:** De waarde die het meest frequent voorkomt in een dataset.
* **Toepasbaar op:** Alle meetniveaus (nominaal, ordinaal, interval, ratio).
#### 3.2.2 Mediaan
* **Definitie:** De middelste waarde in een geordende dataset. Als er een even aantal observaties is, is de mediaan het gemiddelde van de twee middelste waarden.
* **Toepasbaar op:** Minimaal ordinaal niveau.
* **Eigenschap:** Minder gevoelig voor extreme waarden (uitschieters) dan het gemiddelde.
#### 3.2.3 Gemiddelde (arithmetisch gemiddelde)
* **Definitie:** De som van alle waarden gedeeld door het totale aantal observaties.
$$ \text{Gemiddelde} = \frac{\sum_{i=1}^{n} x_i}{n} $$
waarbij $x_i$ de waarden van de observaties zijn en $n$ het totale aantal observaties.
* **Toepasbaar op:** Minimaal interval niveau.
* **Eigenschap:** Consistenter over verschillende steekproeven dan de modus of mediaan.
#### 3.2.4 Relatie tussen centrummaten
* Bij een **symmetrische verdeling** zijn de modus, mediaan en gemiddelde gelijk.
### 3.3 Spreidingsmaten
Spreidingsmaten kwantificeren de mate waarin de scores in een dataset uit elkaar liggen of hoe geconcentreerd ze zijn rond het centrum.
#### 3.3.1 Interkwartielafstand (IQR)
* **Definitie:** Het verschil tussen het derde kwartiel (P75) en het eerste kwartiel (P25).
$$ \text{IQR} = P_{75} - P_{25} $$
* **Functie:** Meet de spreiding van de middelste 50% van de data. Minder gevoelig voor uitschieters dan het bereik.
#### 3.3.2 Variantie ($s^2$)
* **Definitie:** Het gemiddelde van de gekwadrateerde afwijkingen van elke score ten opzichte van het gemiddelde.
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
waarbij $x_i$ de individuele scores zijn, $\bar{x}$ het steekproefgemiddelde en $n$ het aantal observaties. De deling door $n-1$ zorgt voor een zuivere schatter voor de populatievariantie (steekproefvariantie).
* **Kenmerk:** De eenheden zijn gekwadrateerd ten opzichte van de originele data.
#### 3.3.3 Standaarddeviatie ($s$)
* **Definitie:** De vierkantswortel van de variantie.
$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$
* **Kenmerk:** De eenheden zijn gelijk aan de originele data, waardoor deze maat beter interpreteerbaar is in de context van de dataset. Het is de meest gebruikte spreidingsmaat.
#### 3.3.4 Standaardscores (Z-scores)
* **Definitie:** Een geobserveerde score omgezet naar een aantal standaarddeviaties dat deze score afwijkt van het gemiddelde.
$$ z = \frac{x - \mu}{\sigma} $$
waarbij $x$ de geobserveerde score is, $\mu$ het populatiegemiddelde en $\sigma$ de populatiestandaarddeviatie. Voor steekproefdata wordt vaak het steekproefgemiddelde ($\bar{x}$) en de steekproefstandaarddeviatie ($s$) gebruikt:
$$ z = \frac{x - \bar{x}}{s} $$
* **Doel:** Maakt het mogelijk om scores van verschillende variabelen of van verschillende datasets te vergelijken, zelfs als ze verschillende gemiddelden en standaarddeviaties hebben. Een positieve z-score geeft aan dat de score boven het gemiddelde ligt, een negatieve score geeft aan dat deze onder het gemiddelde ligt.
> **Tip:** Het berekenen van z-scores is een lineaire transformatie die de vorm van de verdeling niet verandert, maar de data standaardiseert met een gemiddelde van 0 en een standaarddeviatie van 1.
### 3.4 Toepassing van frequentieverdelingen
Geobserveerde data die passen binnen een theoretische verdeling, zoals de normale verdeling, bieden meer mogelijkheden voor verdere analyse.
#### 3.4.1 De normale verdeling
* **Kenmerken:** Een theoretische, klokvormige en symmetrische verdeling. Veel variabelen in de gedrags- en sociale wetenschappen (bv. lengte, intelligentie, reactietijd) vertonen een benadering van een normale verdeling.
* **Belang:** De normale verdeling fungeert als een model waarmee de kans op het voorkomen van bepaalde waarden kan worden bepaald.
* **Variatie:** Normale verdelingen verschillen in hun gemiddelde ($\mu$) en standaarddeviatie ($\sigma$).
* **Standaardnormaalverdeling:** Een specifieke normale verdeling met een gemiddelde van 0 en een standaarddeviatie van 1 ($\mu=0, \sigma=1$). Z-scores transformeren data naar deze standaardnormaalverdeling.
> **Tip:** Het gebruik van tabellen van de standaardnormaalverdeling (z-tabellen) maakt het mogelijk om percentages van observaties onder bepaalde z-scores te bepalen, wat essentieel is voor het berekenen van kansen en het maken van inferenties.
> **Example:** Om het percentage observaties onder een z-score van 1 te vinden, raadpleeg je een z-tabel. Dit percentage geeft de cumulatieve kans weer. Als je de kans wilt weten tussen twee z-scores, bereken je de cumulatieve kans voor de hogere z-score en trek je daar de cumulatieve kans voor de lagere z-score van af.
* **Berekeningen met de normale verdeling:**
* Het omzetten van ruwe scores naar z-scores is de eerste stap om de normale verdeling te kunnen toepassen.
* Vervolgens kan de kans op het voorkomen van een score binnen een bepaald interval berekend worden met behulp van z-tabellen of statistische software. Bijvoorbeeld, om de kans te bepalen dat een score tussen 120 en 140 ligt, zet je beide scores om naar z-scores en zoek je de proportie van het oppervlak onder de curve tussen deze twee z-scores.
> **Tip:** Wanneer je geconfronteerd wordt met complexe berekeningen of interpretaties met betrekking tot de normale verdeling, focus dan eerst op het begrijpen van de basisprincipes en het proces van het omzetten van ruwe data naar z-scores. Verdere verfijning kan later komen.
---
# De normale verdeling en de toepassing ervan
Dit gedeelte introduceert de normale verdeling als een cruciaal theoretisch model dat gebruikt wordt om data te analyseren, waarbij de focus ligt op de kenmerken, interpretatie via z-scores en berekeningen van percentages.
### 4.1 Introductie tot de normale verdeling
De normale verdeling is een veelgebruikt theoretisch model dat de kans op het voorkomen van een bepaalde waarde weergeeft. Wanneer geobserveerde gegevens passen binnen dit theoretische model, biedt dit meer mogelijkheden voor dataverwerking en interpretatie.
### 4.2 Kenmerken van de normale verdeling
* **Klokvormig en symmetrisch:** De curve van de normale verdeling is altijd klokvormig en symmetrisch rond het gemiddelde.
* **Gemiddelde en standaarddeviatie als unieke kenmerken:** Normale verdelingen verschillen enkel in hun gemiddelde ($\mu$) en standaarddeviatie ($\sigma$). Deze twee parameters bepalen de specifieke vorm en positie van de curve.
* **Relatie met natuurlijk voorkomende variabelen:** Veel variabelen in de natuur en menselijk gedrag, zoals lengte en IQ, volgen bij benadering een normale verdeling.
### 4.3 De standaardnormale verdeling
De standaardnormale verdeling is een speciaal geval van de normale verdeling met een gemiddelde van nul ($\mu = 0$) en een standaarddeviatie van één ($\sigma = 1$). Deze standaardisering maakt het mogelijk om verschillende normale verdelingen met elkaar te vergelijken en om gebruik te maken van standaardtabellen (z-tabellen) om kansen te bepalen.
### 4.4 Z-scores: interpretatie van observaties
Z-scores, ook wel standaardscores genoemd, drukken uit hoeveel standaarddeviaties een geobserveerde score boven of onder het gemiddelde ligt. Ze zijn essentieel voor het interpreteren van individuele observaties binnen de context van een normale verdeling. De formule voor een z-score is:
$$ z = \frac{X - \mu}{\sigma} $$
Waarbij:
* $z$ de z-score is.
* $X$ de geobserveerde score is.
* $\mu$ het gemiddelde van de verdeling is.
* $\sigma$ de standaarddeviatie van de verdeling is.
> **Tip:** Een positieve z-score betekent dat de observatie boven het gemiddelde ligt, terwijl een negatieve z-score aangeeft dat de observatie onder het gemiddelde ligt. Een z-score van 0 betekent dat de observatie exact gelijk is aan het gemiddelde.
### 4.5 Berekenen van percentages en kansen
De normale verdeling maakt het mogelijk om de proportie of kans te bepalen dat een bepaalde waarde wordt waargenomen. Dit gebeurt door het berekenen van de oppervlakte onder de curve. Verschillende situaties kunnen zich voordoen bij het bepalen van percentages:
* **Percentage onder een specifieke z-score:** Dit omvat de oppervlakte van de staart tot aan die z-score.
* **Percentage boven een specifieke z-score:** Dit is de resterende oppervlakte vanaf die z-score tot het einde van de verdeling.
* **Percentage tussen twee z-scores:** Dit wordt berekend door de proportie onder de hogere z-score te nemen en daarvan de proportie onder de lagere z-score af te trekken.
#### 4.5.1 Voorbeeld: IQ
De intelligentie (IQ) wordt vaak gemodelleerd met een normale verdeling, typisch met een gemiddelde van 100 en een standaarddeviatie van 15.
> **Voorbeeld:** Stel dat we willen weten welk percentage van de bevolking een IQ heeft tussen 120 en 140.
>
> 1. **Bereken de z-scores:**
> * Voor IQ = 120: $z_{120} = \frac{120 - 100}{15} \approx 1.33$
> * Voor IQ = 140: $z_{140} = \frac{140 - 100}{15} \approx 2.67$
>
> 2. **Zoek de proporties op in de z-tabel:**
> * De proportie onder $z = 1.33$ is ongeveer 0.9082.
> * De proportie onder $z = 2.67$ is ongeveer 0.9962.
>
> 3. **Bereken het percentage tussen de twee scores:**
> * Proportie tussen 120 en 140 = Proportie < 140 - Proportie < 120
> * Proportie = 0.9962 - 0.9082 = 0.0880
>
> Dit betekent dat ongeveer 8.80% van de bevolking een IQ heeft tussen 120 en 140.
#### 4.5.2 Verschillende situaties voor percentageberekeningen
De normale verdeling biedt een raamwerk om percentages te bepalen voor verschillende scenario's, afhankelijk van de vraagstelling:
* **Berekening van de proportie kleiner dan een bepaalde waarde:** Dit correspondeert met de oppervlakte links van die waarde op de curve.
* **Berekening van de proportie groter dan een bepaalde waarde:** Dit is de oppervlakte rechts van die waarde.
* **Berekening van de proportie tussen twee waarden:** Dit is de oppervlakte tussen de twee corresponderende z-scores.
> **Voorbeeld:** Het berekenen van de kans dat een IQ lager is dan 140:
>
> 1. Bereken de z-score voor IQ = 140: $z = \frac{140 - 100}{15} \approx 2.67$.
> 2. Zoek de proportie op in de z-tabel voor $z = 2.67$. Dit is ongeveer 0.9962.
>
> Dus, ongeveer 99.62% van de bevolking heeft een IQ lager dan 140.
> **Voorbeeld:** Het berekenen van de kans dat een IQ hoger is dan 140:
>
> 1. Bereken de z-score voor IQ = 140: $z \approx 2.67$.
> 2. De proportie lager dan $z = 2.67$ is 0.9962.
> 3. De proportie hoger dan $z = 2.67$ is $1 - 0.9962 = 0.0038$.
>
> Dus, ongeveer 0.38% van de bevolking heeft een IQ hoger dan 140.
> **Voorbeeld:** Het berekenen van de kans dat een IQ tussen 80 en 120 ligt:
>
> 1. Bereken de z-scores:
> * Voor IQ = 80: $z_{80} = \frac{80 - 100}{15} \approx -1.33$
> * Voor IQ = 120: $z_{120} = \frac{120 - 100}{15} \approx 1.33$
> 2. Zoek de proporties op in de z-tabel:
> * De proportie onder $z = 1.33$ is ongeveer 0.9082.
> * De proportie onder $z = -1.33$ is ongeveer 0.0918.
> 3. Bereken het percentage tussen de twee scores:
> * Proportie tussen 80 en 120 = Proportie < 120 - Proportie < 80
> * Proportie = 0.9082 - 0.0918 = 0.8164
>
> Dit betekent dat ongeveer 81.64% van de bevolking een IQ heeft tussen 80 en 120.
> **Tip:** Bij het werken met de normale verdeling is het cruciaal om eerst een schets te maken van de verdeling en de gevraagde gebieden aan te duiden. Dit helpt om de juiste berekeningen uit te voeren.
### 4.6 Praktische relevantie en toepassingen
De normale verdeling en de interpretatie via z-scores zijn fundamenteel in de inductieve statistiek. Ze maken het mogelijk om:
* Observaties te standaardiseren en te vergelijken over verschillende verdelingen heen.
* Kansen te berekenen voor specifieke uitkomsten.
* De basis te leggen voor verdere inferentiële statistische technieken.
Veel statistische analyses in de gedragswetenschappen gaan ervan uit dat de data (of de sampling distributie van een statistiek) normaal verdeeld is, wat het begrip van deze verdeling essentieel maakt.
---
# Samenhang tussen variabelen en vooruitblik naar statistiek 2
Dit document vat de overgang van beschrijvende statistiek (Statistiek 1) naar inductieve statistiek (Statistiek 2) samen, met een focus op de analyse van samenhang tussen variabelen en de voorbereiding op de volgende stappen in statistisch onderzoek.
## 5. Samenhang tussen variabelen en vooruitblik naar statistiek 2
Dit deel van de cursus bouwt voort op de concepten van Statistiek 1, met name de analyse van de samenhang tussen variabelen, en schetst de overgang naar de inductieve statistiek van Statistiek 2.
### 5.1 Situering van Statistiek 1 en 2
* **Statistiek 1 (Beschrijvend):** Focust op het beschrijven en samenvatten van data uit steekproeven. Dit omvat het organiseren van data in frequentieverdelingen, het berekenen van centrum- en spreidingsmaten, en het visualiseren van data.
* **Statistiek 2 (Inductief):** Gaat verder dan de beschrijvende statistiek door uitspraken te willen doen over een gehele populatie op basis van de analyse van een steekproef. Dit proces, waarbij conclusies worden getrokken over de populatie, heet inductieve statistiek.
### 5.2 Het belang van statistiek in onderzoek
Statistiek is een essentieel hulpmiddel in empirisch onderzoek om algemene, geldige uitspraken te kunnen doen over de realiteit. Het stelt ons in staat om, zonder de volledige populatie te meten, conclusies te trekken over grotere groepen. Dit is cruciaal in uiteenlopende domeinen zoals psychologie, onderwijs en arbeidsorganisatiekunde, waar vragen over verbanden tussen variabelen centraal staan.
### 5.3 Overzicht van de cursus Statistiek 2
Statistiek 2 bouwt voort op Statistiek 1 en bereidt studenten voor op praktijkonderzoek en bachelorproeven. Het behandelt inductieve statistiek om onderzoeksvragen uit de praktijk te beantwoorden en de kritische leesvaardigheid van vakliteratuur te verbeteren.
#### 5.3.1 Stappen in wetenschappelijk onderzoek
De typische stappen in wetenschappelijk onderzoek omvatten:
1. Literatuurstudie
2. Hypothesevorming
3. Dataverzameling
4. Beschrijvende statistiek
5. Inductieve statistiek
6. Conclusie
#### 5.3.2 Leerdoelen en praktische afspraken
* **Leerdoelen:** Zijn ontworpen om de kennis en vaardigheden te evalueren die nodig zijn voor het succesvol toepassen van statistische methoden. Het is raadzaam deze bij de hand te houden tijdens het studeren.
* **Studietijd:** Tijdige en regelmatige studie vergroot de kans op slagen aanzienlijk.
* **Lessenreeks:** Bestaat uit hoorcolleges en werkcolleges.
* Werkcolleges zijn bedoeld voor diepere verwerking van de leerstof, praktische toepassing in oefeningen, en het gebruik van statistische software zoals SPSS.
* **Examen en evaluatie:** Het examen is schriftelijk en kan zowel kennisvragen als toepassingsvragen bevatten, met een focus op het begrijpen van de belangrijkste inzichten, het uitrekenen van oefeningen en het rapporteren van onderzoeksresultaten.
* **Studiemateriaal:**
* **Verplicht:** Studiewijzer, schrijfwijzer, leermateriaal op Digitap, en het handboek "Inductieve statistiek in de gedragswetenschappen".
* **Aanbevolen:** Handboek "Inleiding in de statistiek voor de gedragswetenschappen" (Statistiek 1).
### 5.4 Herhaling Statistiek 1: Kernconcepten
#### 5.4.1 Variabelen en meten
* **Variabele:** Een "doosje" dat verschillende waarden kan bevatten (bv. leeftijd, geslacht, score op een test).
* **Operationaliseren:** Het meetbaar maken van variabelen, wat bij abstracte concepten zoals intelligentie of depressie een uitdaging kan zijn.
* **Meetniveaus (NOIR):**
* **Nominaal:** Categorieën zonder ordening (bv. geslacht, haarkleur).
* **Ordinaal:** Categorieën met een natuurlijke ordening (bv. opleidingsniveau, rangschikking).
* **Interval:** Gelijke afstanden tussen waarden, geen absoluut nulpunt (bv. temperatuur in Celsius, IQ-score).
* **Ratio:** Gelijke afstanden tussen waarden en een absoluut nulpunt (bv. lengte, gewicht, leeftijd).
* **Betrouwbaarheid en Validiteit:** Cruciale voorwaarden voor meten. Betrouwbaarheid verwijst naar de consistentie van de meting, validiteit naar de nauwkeurigheid van wat gemeten wordt.
#### 5.4.2 Onafhankelijke en afhankelijke variabelen
* **Afhankelijke variabele (AV):** De variabele die men wil bestuderen of verklaren (bv. mate van depressie).
* **Onafhankelijke variabele (OV):** Een potentiële oorzaak van verschillen in de afhankelijke variabele (bv. behandeling, persoonlijkheidstrek).
* **Causaliteit:** Het is belangrijk te onthouden dat een samenhang tussen variabelen niet automatisch een oorzakelijk verband impliceert, zeker niet in observationeel onderzoek. Experimenteel onderzoek manipuleert OV's om effecten op AV's te bestuderen.
#### 5.4.3 Steekproeven
* **Populatie:** De gehele groep waarin men geïnteresseerd is.
* **Steekproef:** Een deel van de populatie dat daadwerkelijk wordt onderzocht.
* **Representativiteit:** Een goede steekproef is een representatieve afspiegeling van de populatie, zodat verantwoorde uitspraken over de populatie mogelijk zijn.
* **Soorten steekproeven:**
* **Aselecte steekproeven:** Elk individu uit de populatie heeft een gelijke kans om geselecteerd te worden (bv. volledig aselecte, systematische, gestratificeerde, cluster, getrapte steekproeven). Deze verhogen de representativiteit.
* **Niet-aselecte steekproeven:** Niet elk individu heeft een gelijke kans (bv. gemakheids-, beoordelings-, sneeuwbal-, quotasteekproeven). Deze zijn vaak minder representatief.
* **Belang:** Een correcte steekproefselectie is essentieel voor de validiteit en betrouwbaarheid van onderzoeksresultaten. "Garbage in, garbage out" is hier van toepassing.
#### 5.4.4 Frequentieverdelingen, centrum- en spreidingsmaten
* **Frequentieverdelingen:** Geven een overzicht van hoe vaak bepaalde waarden of categorieën voorkomen (absolute en relatieve frequenties). Visualisaties omvatten taartdiagrammen, staafdiagrammen, histogrammen en boxplots, afhankelijk van het meetniveau.
* **Centrummaten:** Beschrijven de centrale tendens van een verdeling.
* **Modus:** De meest voorkomende waarde (geschikt voor alle meetniveaus).
* **Mediaan:** De middelste waarde bij gerangschikte data (minimaal ordinaal niveau). Minder gevoelig voor extreme waarden dan het gemiddelde.
* **Gemiddelde:** De som van alle waarden gedeeld door het aantal waarnemingen (minimaal intervalniveau).
* Bij een symmetrische verdeling zijn modus, mediaan en gemiddelde gelijk.
* **Spreidingsmaten:** Beschrijven hoe ver scores uit elkaar liggen.
* **Interkwartielafstand:** Het verschil tussen het 75e en 25e percentiel ($P_{75} - P_{25}$).
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde.
$$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$$
* **Standaarddeviatie ($s$):** De vierkantswortel van de variantie. Makkelijker te interpreteren omdat het in dezelfde eenheid als de originele scores is.
$$s = \sqrt{s^2}$$
* **Standaardscores (Z-scores):** Drukken uit hoeveel standaarddeviaties een geobserveerde score boven of onder het gemiddelde ligt.
$$z = \frac{x - \mu}{\sigma}$$
(Hierbij staan $\mu$ voor populatiegemiddelde en $\sigma$ voor populatiestandaarddeviatie, of $\bar{x}$ en $s$ voor steekproefgemiddelde en -standaarddeviatie).
#### 5.4.5 De normale verdeling
* Een theoretische kansverdeling die vaak wordt gebruikt als model voor geobserveerde data (bv. lengte, IQ).
* Kenmerken: klokvormig en symmetrisch rond het gemiddelde.
* Verschillen in gemiddelde ($\mu$) en standaarddeviatie ($\sigma$) bepalen de specifieke vorm en positie van de curve.
* De standaardnormaalverdeling heeft $\mu=0$ en $\sigma=1$.
* Tabellen van de standaardnormaalverdeling maken het mogelijk om percentages (kansen) voor specifieke Z-scores te bepalen, wat nuttig is voor het interpreteren van data en het testen van hypotheses.
#### 5.4.6 Samenhang tussen variabelen (uit Statistiek 1)
* **Kruistabellen (voor nominale/ordinale variabelen):**
* **Chikwadraattoets:** Toetst of een verband statistisch significant is (is het verband groter dan wat we door toeval zouden verwachten?).
* **Cramers V:** Meet de sterkte van het verband tussen nominale of ordinale variabelen.
* **Correlatie (voor interval/ratio variabelen):** Meet de lineaire samenhang tussen twee kwantitatieve variabelen (bv. IQ en schooluitslag). De correlatiecoëfficiënt ($r$) varieert tussen -1 en +1.
### 5.5 Belang van het meetniveau
Het meetniveau (NOIR) van variabelen bepaalt welke statistische gereedschappen en technieken correct kunnen worden toegepast. Dit principe is fundamenteel en geldt ook voor de technieken die in Statistiek 2 worden behandeld.
### 5.6 Tips voor studenten met minder voorkennis van Statistiek 1
* **Focus op Statistiek 2:** Probeer de kernconcepten van Statistiek 2 zo goed mogelijk te begrijpen.
* **Raadpleeg Statistiek 1:** Zoek bij uitdagingen de relevante concepten op in het handboek van Statistiek 1.
* **Samenwerken:** Zoek hulp bij medestudenten.
* **Ademhalen:** Blijf rustig en benader de stof stap voor stap.
### 5.7 Vooruitblik naar Statistiek 2
In Statistiek 2 zal de focus liggen op het maken van betrouwbare uitspraken over de populatie op basis van steekproefgegevens. Dit is de kern van inductieve statistiek en zal in de volgende les verder worden uitgediept. De basisprincipes van de normale verdeling en de analyse van samenhang zullen hierbij een belangrijke rol spelen.
---
* **Tip:** Het is cruciaal om het meetniveau van je variabelen correct te identificeren, aangezien dit de keuze van de statistische technieken direct beïnvloedt.
* **Tip:** Oefen de berekeningen van centrum- en spreidingsmaten en Z-scores grondig, aangezien deze basiskennis nodig is voor veel inductieve statistische technieken.
* **Tip:** Als je moeite hebt met het verband tussen steekproef en populatie, denk dan aan het belang van representatieve steekproeven om "garbage in, garbage out" te vermijden.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Beschrijvende statistiek | Een tak van statistiek die zich bezighoudt met het samenvatten en weergeven van data uit een steekproef, zonder conclusies te trekken over een grotere populatie. |
| Inductieve statistiek | Een tak van statistiek die zich bezighoudt met het trekken van conclusies en generalisaties over een populatie op basis van data uit een steekproef. |
| Populatie | De volledige groep individuen of objecten waarover men een uitspraak wil doen in een onderzoek. |
| Steekproef | Een deelverzameling van de populatie die wordt onderzocht om informatie te verzamelen. |
| Representatief | Een steekproef wordt als representatief beschouwd wanneer deze de kenmerken van de populatie waaruit hij is getrokken, nauwkeurig weerspiegelt. |
| Variabelen | Kenmerken of eigenschappen die gemeten of geobserveerd kunnen worden en die in waarde kunnen variëren tussen individuen of objecten. |
| Meetniveau | Geeft aan welk type informatie een variabele bevat en welke wiskundige operaties erop kunnen worden uitgevoerd; de vier niveaus zijn nominaal, ordinaal, interval en ratio (NOIR). |
| Nominaal meetniveau | Het laagste meetniveau waarbij waarden alleen categorieën vertegenwoordigen zonder inherente volgorde (bv. geslacht, haarkleur). |
| Ordinaal meetniveau | Meetniveau waarbij waarden categorieën vertegenwoordigen die een logische volgorde hebben, maar de afstanden tussen de categorieën zijn niet noodzakelijk gelijk (bv. opleidingsniveau, rangorde). |
| Interval meetniveau | Meetniveau waarbij de afstanden tussen opeenvolgende waarden gelijk zijn, maar er geen natuurlijk nulpunt is (bv. temperatuur in Celsius, IQ-score). |
| Ratio meetniveau | Het hoogste meetniveau waarbij de afstanden tussen opeenvolgende waarden gelijk zijn en er een natuurlijk nulpunt is, waardoor ratio's zinvol zijn (bv. lengte, gewicht, leeftijd). |
| Onafhankelijke variabele | Een variabele die wordt gemanipuleerd of waarvan wordt aangenomen dat deze van invloed is op een andere variabele. |
| Afhankelijke variabele | Een variabele waarvan de waarde wordt gemeten of geobserveerd en die afhankelijk wordt geacht van de onafhankelijke variabele. |
| Aselecte steekproef | Een steekproef waarbij elk individu in de populatie een gelijke kans heeft om geselecteerd te worden. |
| Niet-aselecte steekproef | Een steekproef waarbij de selectie van individuen niet gebaseerd is op gelijke kansen voor alle leden van de populatie. |
| Frequentieverdeling | Een overzicht van hoe vaak elke mogelijke waarde of categorie van een variabele voorkomt in een dataset. |
| Absolute frequentie | Het daadwerkelijke aantal keren dat een bepaalde waarde of categorie voorkomt. |
| Relatieve frequentie | Het aandeel van de absolute frequentie ten opzichte van het totaal aantal waarnemingen, vaak uitgedrukt als een percentage of proportie. |
| Centrummaten | Statistieken die de centrale tendens van een dataset samenvatten, zoals het gemiddelde, de mediaan en de modus. |
| Modus | De waarde die het meest frequent voorkomt in een dataset. |
| Mediaan | De middelste waarde in een gerangschikte dataset wanneer de waarnemingen van laag naar hoog zijn gesorteerd. |
| Gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden; ook wel het rekenkundig gemiddelde genoemd. |
| Spreidingsmaten | Statistieken die aangeven hoe ver de waarden in een dataset uit elkaar liggen, zoals de variantie, standaarddeviatie en interkwartielafstand. |
| Interkwartielafstand | Het verschil tussen het derde kwartiel (P75) en het eerste kwartiel (P25) van een dataset; geeft de spreiding van de middelste 50% van de data aan. |
| Variantie ($s^2$) | Een maat voor de spreiding van data rondom het gemiddelde, berekend als het gemiddelde van de gekwadrateerde afwijkingen van elke observatie tot het gemiddelde. |
| Standaarddeviatie ($s$) | De vierkantswortel van de variantie; geeft de gemiddelde afwijking van de observaties tot het gemiddelde aan en is in dezelfde eenheid als de originele data. |
| Z-score | Een gestandaardiseerde score die aangeeft hoeveel standaarddeviaties een individuele score afwijkt van het gemiddelde van de groep. De formule is $Z = (X - \mu) / \sigma$. |
| Normale verdeling | Een symmetrische, klokvormige kansverdeling die veel voorkomt in de natuur en in de statistiek; gekenmerkt door het gemiddelde ($\mu$) en de standaarddeviatie ($\sigma$). |
| Standaardnormaalverdeling | Een speciale normale verdeling met een gemiddelde van 0 en een standaarddeviatie van 1 ($\mu=0, \sigma=1$). |
| Kruistabel | Een tabel die de frequentieverdeling van twee of meer categorische variabelen toont, waarbij de cellen de gezamenlijke frequenties van de categorieën vertegenwoordigen. |
| Chikwadraattoets | Een statistische toets die gebruikt wordt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen door de geobserveerde frequenties te vergelijken met de verwachte frequenties. |
| Cramers V | Een associatiemaat die de sterkte van het verband tussen twee nominale variabelen in een kruistabel kwantificeert, variërend van 0 tot 1. |
| Correlatie | Een statistische maat die de richting en sterkte van de lineaire relatie tussen twee continue variabelen aangeeft; de correlatiecoëfficiënt (r) varieert van -1 tot +1. |
| Significant | Een resultaat wordt als statistisch significant beschouwd wanneer het waarschijnlijk is dat het verband of het verschil niet door toeval is ontstaan. |
| GIGO | Afkorting voor "Garbage In, Garbage Out", wat betekent dat de kwaliteit van de output (resultaten) direct afhangt van de kwaliteit van de input (data). |
Cover
Student - Hoorcollege 2 - Inductieve statistiek in onderzoek.pptx
Summary
# Nut en basisprincipes van inductieve statistiek
Inductieve statistiek stelt ons in staat om gefundeerde uitspraken te doen over populaties op basis van steekproefgegevens, waarbij de inherente onzekerheid wordt gekwantificeerd door middel van kansberekening.
## 1. Nut en basisprincipes van inductieve statistiek
### 1.1 Het doel van inductieve statistiek in gedragswetenschappelijk onderzoek
Statistiek is een essentieel hulpmiddel in empirisch onderzoek, met als voornaamste doel het formuleren van gefundeerde uitspraken over de wetmatigheden die menselijk gedrag sturen. Dit is met name relevant in de gedragswetenschappen, waar men vaak te maken heeft met complexe en variabele fenomenen. Omdat het vrijwel onmogelijk is om de gehele populatie te onderzoeken, wordt gewerkt met steekproeven. Statistische methoden bieden een raamwerk om, ondanks de beperkingen van steekproeven, toch betrouwbare conclusies te trekken en de mate van zekerheid over deze conclusies te bepalen.
### 1.2 De empirische cyclus en de rol van statistiek
De empirische cyclus beschrijft de iteratieve aard van wetenschappelijk onderzoek, beginnend bij een vraagstelling en eindigend met conclusies die weer leiden tot nieuwe onderzoeksvragen. De zeven fasen van de empirische cyclus zijn:
1. Vraagstelling of probleemstelling
2. Operationaliseren
3. Steekproef bepalen
4. Gegevens verzamelen
5. Beschrijvende statistiek
6. Inductieve statistiek
7. Conclusies trekken
Statistiek speelt een cruciale rol in de fasen van beschrijvende en inductieve statistiek. Beschrijvende statistiek helpt bij het samenvatten en visualiseren van de verzamelde gegevens, terwijl inductieve statistiek de brug slaat van de steekproef naar de populatie.
### 1.3 Statistiek als hulpmiddel en de inherente onzekerheid
Statistiek is geen doel op zich, maar een methode om wetenschappelijke vragen te beantwoorden. Het stelt onderzoekers in staat om de betekenis van geobserveerde verbanden of verschillen te beoordelen. Echter, omdat onderzoek vrijwel altijd gebaseerd is op steekproeven, die geen perfecte afspiegeling zijn van de populatie, is er altijd een mate van onzekerheid verbonden aan de conclusies. Toevallige variatie en meetfouten kunnen de resultaten beïnvloeden. Inductieve statistiek biedt daarom regels om te beslissen of waargenomen verschillen statistisch significant zijn, wat betekent dat ze waarschijnlijk niet aan toeval te wijten zijn.
> **Tip:** Begrijp dat statistiek helpt om de onzekerheid te *kwantificeren*, niet om deze volledig te elimineren. Het gaat erom te weten hoe zeker we zijn van onze uitspraken.
### 1.4 Statistische significantie en hypothesetoetsing
Een centraal concept binnen de inductieve statistiek is statistische significantie. Dit verwijst naar de vraag of een waargenomen verband of verschil tussen groepen groot genoeg is om als betekenisvol te worden beschouwd, in plaats van als een gevolg van toevallige factoren.
Het proces van hypothesetoetsing is hierbij cruciaal. Het begint met het formuleren van een **nulhypothese** ($H_0$), die stelt dat er geen effect, geen verband of geen verschil is. Bijvoorbeeld: "Muziek heeft geen invloed op intelligentie."
Vervolgens wordt op basis van de verzamelde data gekeken hoe groot de kans is dat de geobserveerde resultaten (de data) te verklaren zijn door toeval, *ervan uitgaande dat de nulhypothese waar is*.
* Als deze kans erg klein is, verwerpen we de nulhypothese en concluderen we dat er waarschijnlijk een echt effect is (de alternatieve hypothese, $H_A$, wordt aanvaard).
* Als de kans groot is, kunnen we de nulhypothese niet verwerpen en accepteren we dat de waargenomen verschillen waarschijnlijk aan toeval te wijten zijn.
De drempelwaarde voor een "kleine" kans is doorgaans $0.05$ (of 5%). Als de kans op de geobserveerde data onder de nulhypothese kleiner is dan $0.05$, spreken we van een statistisch significant resultaat.
> **Voorbeeld:** Stel, we onderzoeken of een nieuwe trainingsmethode de prestaties van sporters verbetert. De nulhypothese is dat de trainingsmethode geen effect heeft. Als de testresultaten laten zien dat er een significant verschil is in prestaties tussen de groep die de nieuwe methode volgde en een controlegroep, en de kans dat dit verschil puur toeval is kleiner is dan 5%, dan verwerpen we de nulhypothese en concluderen we dat de trainingsmethode effectief is.
### 1.5 Kansberekening en de rol van kansverdelingen
Om de kans te berekenen dat geobserveerde data optreden onder de nulhypothese, wordt gebruik gemaakt van kansberekening. Dit gebeurt met behulp van kansverdelingen, zoals de standaardnormale verdeling. Verschillende statistische toetsen zijn ontwikkeld om deze berekeningen uit te voeren, afhankelijk van de aard van de data en de onderzoeksvraag. De keuze van de "grote" of "kleine" kans (het significantieniveau, vaak aangeduid met $\alpha$) is een belangrijke beslissing die voorafgaand aan de analyse wordt genomen.
### 1.6 Variëteit aan toetsingssituaties en toetsen
De complexiteit van onderzoeksvragen leidt tot een breed scala aan toetsingssituaties. Enkele voorbeelden zijn:
* Verschillen in een variabele tussen verschillende groepen (bijv. depressie bij verschillende muziekgenres).
* Verschillen in een variabele vóór en na een interventie (bijv. depressie vóór en na muziektherapie).
* Combinaties van verschillende factoren die van invloed zijn (bijv. muziek en therapie op depressie).
* Verschillen in populaties met grote versus kleine steekproeven.
Elke specifieke situatie vereist een passende statistische toets. Gedurende de cursus worden diverse toetsen voor uiteenlopende toetsingssituaties behandeld.
### 1.7 Misbruik en valkuilen van statistiek
Statistiek is een krachtig instrument, maar kan ook misbruikt of verkeerd begrepen worden. Zelfs met complexe formules en software zijn de randvoorwaarden voor correct gebruik essentieel.
* **Methodologie:** De keuze van de juiste statistische toets is cruciaal.
* **Onderzoeksopzet:** Een correct en representatief onderzoeksopzet is fundamenteel. Een slechte steekproef leidt tot onbetrouwbare resultaten.
* **Rapportage:** Correcte vermelding van significantieniveaus, effectgroottes en beperkingen is noodzakelijk.
* **Variabelen:** Een duidelijk onderscheid tussen onafhankelijke variabelen (OV) en afhankelijke variabelen (AV) is van groot belang.
#### 1.7.1 Valkuilen bij interpretatie
* **Correlatie is geen causatie:** Een statistische correlatie tussen twee variabelen betekent niet automatisch dat de ene variabele de andere veroorzaakt. Er kunnen derde variabelen in het spel zijn.
* **Onduidelijke steekproef:** Uitspraken over een populatie zijn alleen geldig als de steekproef representatief is.
* **Gebrek aan context:** Cijfers moeten altijd binnen een relevante context worden geplaatst.
* **Interne validiteit:** De mate waarin causale conclusies over het effect van de OV op de AV kunnen worden getrokken. Dit vereist dat:
1. Het effect van de OV op de AV in de voorspelde richting plaatsvindt.
2. De oorzaak (OV) in tijd voorafgaat aan het gevolg (AV).
3. Er geen andere plausibele verklaringen zijn voor het gevonden verband. Experimenteel onderzoek met randomisatie en controle over storende variabelen is hierbij vaak noodzakelijk.
* **Externe validiteit:** De mate waarin de onderzoeksresultaten gegeneraliseerd kunnen worden naar andere situaties, methoden, tijdperken of populaties.
> **Voorbeeld:** De bewering "Duracell-batterijen gaan tot vijf keer langer mee" mist context. Hoe is dit gemeten? Vergeleken met welke batterijen? Zonder deze informatie is de uitspraak moeilijk te beoordelen.
> **Voorbeeld:** "95% van de Belgen is tevreden over Activia." Dit kan misleidend zijn als slechts een kleine, specifieke groep Belgen is ondervraagd, of als de vraagstelling sturend was.
#### 1.7.2 Variabelen in onderzoek
Bij het analyseren van onderzoeksvragen is het belangrijk om de verschillende soorten variabelen te identificeren:
* **Onafhankelijke variabelen (OV):** Variabelen die worden gemanipuleerd of geobserveerd om hun effect op andere variabelen te onderzoeken.
* **Afhankelijke variabelen (AV):** Variabelen die worden gemeten om te zien of ze beïnvloed worden door de onafhankelijke variabelen.
* **Onderzoekseenheden (cases):** De individuele elementen waarover gegevens worden verzameld (bijv. personen, bedrijven).
* **Populatie:** De gehele groep waarover men uitspraken wil doen.
* **Steekproef:** Een subset van de populatie die daadwerkelijk wordt onderzocht.
#### 1.7.3 Generalisatie vanuit steekproef naar populatie
Inductieve statistiek maakt het mogelijk om te generaliseren van de steekproef naar de populatie waaruit deze is getrokken. Dit is waar de kansberekening en hypothesetoetsing hun toepassing vinden, om de mate van zekerheid over deze generalisatie te bepalen.
Samenvattend, inductieve statistiek is een krachtig instrument dat, mits correct toegepast en geïnterpreteerd, ons in staat stelt om op basis van steekproefgegevens onderbouwde conclusies te trekken over bredere populaties, terwijl we de inherente onzekerheid transparant maken door middel van kansberekening en significantietoetsing. Het is echter cruciaal om de methodologische randvoorwaarden te respecteren en statistische misinterpretaties te vermijden.
---
# Hypothesetoetsing en statistische significantie
Statistische hypothesetoetsing is een methode om op basis van steekproefgegevens gefundeerde uitspraken te doen over de populatie, waarbij de nulhypothese centraal staat en de rol van toeval wordt ingeschat met kansberekening.
### 2.1 De rol van statistiek in onderzoek
Statistiek dient als een essentieel hulpmiddel in empirisch onderzoek, met name gedragswetenschappelijk onderzoek. Het stelt ons in staat om gefundeerde uitspraken te doen over wetmatigheden in menselijk gedrag. Omdat onderzoek doorgaans gebaseerd is op steekproeven die geen perfecte afspiegeling zijn van de populatie, en er altijd sprake kan zijn van foutieve variatie en toevallige meetfouten, biedt statistiek geen absolute zekerheid. In plaats daarvan maakt het gebruik van kansberekening om de mate van zekerheid van conclusies in te schatten.
> **Tip:** Statistiek is een hulpmiddel, geen doel op zich. De relevantie van statistische analyses hangt af van een correcte methodologie, onderzoeksopzet en rapportage.
#### 2.1.1 De empirische cyclus en hypothesetoetsing
De empirische cyclus illustreert hoe onderzoek verloopt, van vraagstelling tot conclusietrekking. Na de fase van beschrijvende statistiek, die data samenvat, volgt de inductieve statistiek. Deze laatste beoogt op basis van de verzamelde data een onderbouwde beslissing te nemen over een geobserveerd verband of verschil.
De zeven fasen van de empirische cyclus zijn:
1. Vraagstelling of probleemstelling
2. Operationaliseren
3. Steekproef bepalen
4. Gegevens verzamelen
5. Beschrijvende statistiek
6. Inductieve statistiek
7. Conclusies trekken
#### 2.1.2 Statistische significantie
Wanneer er verschillen worden waargenomen tussen groepen of condities in een steekproef, is de cruciale vraag of deze verschillen betekenisvol zijn of simpelweg het gevolg van toevallige factoren (zoals meetfouten of steekproefvariatie). Statistische significantie helpt ons hierbij: het geeft aan of een waargenomen verband of verschil groot genoeg is om niet aan toeval toe te schrijven.
> **Voorbeeld:** Stel, we onderzoeken of het luisteren naar muziek invloed heeft op intelligentie. Als een groep die één uur naar muziek X luisterde, gemiddeld een iets hogere intelligentiescore behaalt dan een groep die naar muziek Y luisterde, moeten we ons afvragen of dit verschil significant is. Is het verschil groot genoeg om te concluderen dat muziek X een positief effect heeft, of kan het verschil ook aan toeval te wijten zijn?
#### 2.1.3 Kansberekening en de nulhypothese
Centraal in hypothesetoetsing staat de **nulhypothese** ($H_0$), die stelt dat er geen werkelijk verband of verschil bestaat tussen de populatieparameters die we onderzoeken. De vraag wordt dan: hoe groot is de kans dat we de geobserveerde data zouden verkrijgen, *ervan uitgaande dat de nulhypothese waar is*?
* Als de kans op de geobserveerde data onder de nulhypothese **groot** is, accepteren we de nulhypothese (het waargenomen verschil is waarschijnlijk te wijten aan toeval).
* Als de kans op de geobserveerde data onder de nulhypothese **klein** is, verwerpen we de nulhypothese (het waargenomen verschil is statistisch significant en waarschijnlijk niet door toeval veroorzaakt).
De grens voor wat als een "kleine kans" wordt beschouwd, is vaak ingesteld op $0.05$ (of $5\%$). Dit wordt ook wel het significantieniveau ($\alpha$) genoemd.
#### 2.1.4 Kansverdelingen en toetsen
Om deze kansen te berekenen, maken we gebruik van kansverdelingen, zoals de standaardnormale verdeling. Afhankelijk van de onderzoeksvraag, de aard van de variabelen en de steekproefgrootte, worden diverse statistische toetsen toegepast.
> **Tip:** De keuze voor de juiste toets is cruciaal en hangt af van de specifieke toetsingssituatie (bv. verschil tussen groepen, verband tussen variabelen, herhaaldelijke metingen, etc.).
### 2.2 Misbruik en beperkingen van statistiek
Hoewel statistiek een krachtig instrument is, kan het ook misbruikt of verkeerd begrepen worden. Belangrijk is om te onthouden dat statistiek alleen onvoldoende is; het moet gecombineerd worden met een correct onderzoeksopzet en methodologie.
#### 2.2.1 Valkuilen in statistische interpretatie
* **Correlatie is geen causatie:** Het feit dat twee variabelen samenhangen (correlatie) betekent niet automatisch dat de ene variabele de andere veroorzaakt. Er kunnen storende variabelen zijn die de waargenomen relatie verklaren.
* **Onduidelijke steekproef en gebrek aan context:** Uitspraken over percentages of gemiddelden zijn pas betekenisvol als de populatie en de omstandigheden waarin de data zijn verzameld duidelijk zijn gespecificeerd.
* **Ongeoorloofde causale conclusies:** Zonder een correct onderzoeksopzet (bv. experimenteel ontwerp) is het moeilijk om causale verbanden te trekken.
#### 2.2.2 Interne en externe validiteit
* **Interne validiteit:** De mate waarin we causale conclusies kunnen trekken over het effect van een onafhankelijke variabele (OV) op een afhankelijke variabele (AV). Drie voorwaarden zijn hierbij essentieel:
1. Het effect van de OV op de AV moet in de voorspelde richting optreden.
2. De oorzaak moet in tijd voorafgaan aan het gevolg.
3. Er mogen geen andere plausibele verklaringen zijn voor het gevonden verband. Experimenteel onderzoek met randomisatie en controle voor storende variabelen is vaak nodig om de interne validiteit te waarborgen.
* **Externe validiteit:** De mate waarin de onderzoeksresultaten gegeneraliseerd kunnen worden naar andere situaties, methoden, tijden of populaties.
#### 2.2.3 Statistische generalisatie
Naast de externe validiteit in brede zin, is er ook **statistische generalisatie**: het vermogen om te generaliseren vanuit de steekproef naar de specifieke populatie waaruit de steekproef getrokken is. De mate van onzekerheid bij deze generalisatie wordt bepaald door de hypothesetoetsing.
### 2.3 Concepten en variabelen in onderzoek
Bij het opzetten van onderzoek is het belangrijk om de verschillende soorten variabelen en onderzoekseenheden te onderscheiden.
#### 2.3.1 Onafhankelijke en afhankelijke variabelen
* **Onafhankelijke Variabelen (OV):** Dit zijn de variabelen die worden gemanipuleerd of gemeten om hun mogelijke effect op andere variabelen te onderzoeken. Ze worden beschouwd als de potentiële 'oorzaken'.
* **Afhankelijke Variabelen (AV):** Dit zijn de variabelen die worden gemeten om te zien of ze beïnvloed worden door de onafhankelijke variabelen. Ze worden beschouwd als de potentiële 'gevolgen'.
#### 2.3.2 Onderzoekseenheden en populatie
* **Onderzoekseenheden (cases):** Dit zijn de individuen, objecten of entiteiten waarop het onderzoek is gericht en waarvan data worden verzameld.
* **Populatie:** De volledige groep waarover men uitspraken wil doen op basis van de steekproefresultaten.
> **Voorbeeld:** In een onderzoek naar de invloed van studiemethode (OV) op examenresultaten (AV) bij studenten, zouden de studenten de onderzoekseenheden zijn. De populatie zijn dan alle studenten van de betreffende opleiding. De studiemethoden (bv. actief studeren vs. passief lezen) zijn de onafhankelijke variabelen, en de behaalde examenresultaten zijn de afhankelijke variabelen.
---
# Misbruik en valkuilen van statistiek
Dit hoofdstuk belicht de gevaren van het misbruiken en verkeerd begrijpen van statistiek, met de nadruk op de noodzaak van correcte methodologie, onderzoeksopzet en formulering, en de specifieke valkuilen van correlatie versus causatie, interne en externe validiteit.
### 3.1 De rol en beperkingen van statistiek
Statistiek is een essentieel hulpmiddel binnen empirisch onderzoek, met als doel gefundeerde uitspraken te doen over wetmatigheden, zoals menselijk gedrag. Het fungeert als een brug tussen observaties in steekproeven en conclusies over de populatie. Echter, statistiek biedt geen absolute zekerheid, aangezien onderzoek vaak gebaseerd is op steekproeven die geen perfecte afspiegeling van de populatie vormen. Toevallige variatie en meetfouten kunnen optreden. Daarom is statistiek gebaseerd op kansberekening om de mate van zekerheid van conclusies in te schatten.
> **Tip:** Onthoud dat statistiek een hulpmiddel is en geen doel op zich. De waarde ervan wordt bepaald door de kwaliteit van de onderzoeksopzet en de correcte interpretatie.
#### 3.1.1 Statistische significantie
Statistische significantie helpt ons te bepalen of waargenomen verschillen of verbanden in steekproeven betekenisvol zijn, of dat ze mogelijk aan toeval te wijten zijn. Het vormt de basis voor hypothesetoetsing.
#### 3.1.2 Kansberekening en hypothesetoetsing
Het proces van hypothesetoetsing start doorgaans met de aanname dat er géén effect of verschil is (de nulhypothese). Vervolgens wordt de kans berekend dat de geobserveerde data het gevolg is van toevalligheden. Als deze kans klein is, wordt de nulhypothese verworpen.
* **Nulhypothese ($H_0$):** Een stelling die stelt dat er geen effect, verschil of verband is.
* **Kansberekening:** Gebaseerd op kansverdelingen (zoals de standaardnormale verdeling) en verschillende toetsen om de waarschijnlijkheid van de nulhypothese te evalueren.
* **Significantieniveau ($\alpha$):** De grens voor het bepalen van een "kleine" kans. Meestal wordt $0.05$ (of $5\%$) gehanteerd. Als de berekende kans kleiner is dan $\alpha$, wordt de nulhypothese verworpen.
> **Tip:** De keuze van de statistische toets is afhankelijk van de specifieke onderzoeksvraag, de aard van de variabelen en de onderzoeksopzet (bv. aantal groepen, steekproefgrootte).
### 3.2 Misbruik en valkuilen van statistiek
Ondanks de precieze formules en software, kan statistiek op verschillende manieren misbruikt of misbegrepen worden. Dit onderstreept het belang van randvoorwaarden die net zo belangrijk zijn als de statistische analyse zelf.
#### 3.2.1 Essentiële randvoorwaarden
1. **Juiste methodologie:** De keuze van de correcte statistische toets is cruciaal.
2. **Correct onderzoeksopzet:** Een goede, representatieve steekproef is fundamenteel.
3. **Correcte formulering in rapporten:** Duidelijke vermelding van significantieniveaus, effectgroottes, en beperkingen.
4. **Correcte vermelding van variabelen:** Een duidelijk onderscheid tussen onafhankelijke (OV) en afhankelijke variabelen (AV).
> **Voorbeeld:** Een advertentie die stelt "Duracell batterijen gaan tot vijf keer langer mee" mist context. Het is onduidelijk waar de vergelijking mee wordt gemaakt en onder welke omstandigheden.
#### 3.2.2 Correlatie versus causatie
Een veelvoorkomende valkuil is het verwarren van correlatie met causatie. Een statistisch verband tussen twee variabelen impliceert niet automatisch dat de ene variabele de andere veroorzaakt.
> **Voorbeeld:** De website "Spurious Correlations" toont talloze voorbeelden van variabelen die sterk met elkaar correleren (bv. het aantal haaienbeten en de consumptie van ijscrème), maar waarbij geen causaal verband bestaat.
#### 3.2.3 Onduidelijke steekproef en gebrek aan context
Claims zoals "95% van de Belgen is tevreden over Activia" kunnen misleidend zijn als de steekproef onduidelijk is of als er geen context wordt geboden over wie deelnam aan het onderzoek.
#### 3.2.4 Interne validiteit
Interne validiteit betreft de mate waarin een onderzoeksopzet toelaat causale conclusies te trekken over het effect van een onafhankelijke variabele (OV) op een afhankelijke variabele (AV).
Drie voorwaarden voor interne validiteit:
1. **Effect van OV op AV in voorspelde richting:** Het effect van de oorzaak moet op de verwachte manier optreden.
2. **Oorzaak gaat vooraf aan gevolg:** De vermoedelijke oorzaak moet in de tijd vóór het gevolg plaatsvinden.
3. **Geen andere verklaringen (storende variabelen):** Er mogen geen alternatieve factoren zijn die het waargenomen verband kunnen verklaren.
> **Voorbeeld:** In een studie naar het verband tussen veel voorgelezen worden en leesvaardigheid bij kinderen, moet men uitsluiten dat kinderen die veel worden voorgelezen sowieso al intrinsiek gemotiveerder zijn om te lezen (alternatieve verklaring). Experimenteel onderzoek met randomisatie en controle van storende variabelen is essentieel om de interne validiteit te waarborgen.
#### 3.2.5 Externe validiteit
Externe validiteit verwijst naar de mate waarin de resultaten van een onderzoek gegeneraliseerd kunnen worden naar andere situaties, methoden, tijdsperioden en populaties.
* **Situaties:** Lijkt de onderzoeksomgeving op de dagelijkse realiteit?
* **Methoden:** Worden dezelfde resultaten verkregen met andere meetinstrumenten?
* **Tijd:** Zijn de resultaten consistent over verschillende perioden?
* **Populaties:** Gelden de bevindingen voor andere groepen mensen?
**Statistische generalisatie** is een specifiek aspect hiervan en heeft betrekking op het generaliseren van steekproefresultaten naar de populatie waaruit de steekproef werd getrokken.
> **Tip:** Goede interne validiteit is een voorwaarde voor externe validiteit. Zonder causale conclusies uit een specifiek onderzoek, is generalisatie naar andere contexten zinloos.
---
# Toepassingen en oefeningen van inductieve statistiek
Dit onderdeel behandelt klassikale oefeningen die gericht zijn op het toepassen van de geleerde concepten van inductieve statistiek, inclusief het onderscheid met beschrijvende statistiek, de empirische cyclus en de identificatie van variabelen en populaties in onderzoeksscenario's.
### 4.1 Het nut van inductieve statistiek in gedragswetenschappelijk onderzoek
Inductieve statistiek dient als een cruciaal hulpmiddel binnen empirisch onderzoek, met name in de gedragswetenschappen. Het stelt onderzoekers in staat om gefundeerde uitspraken te doen over algemene wetmatigheden, zoals menselijk gedrag, op basis van gegevens verzameld uit steekproeven. Omdat onderzoek vrijwel altijd met steekproeven gebeurt, die geen perfecte afspiegeling zijn van de populatie, is er altijd sprake van onzekerheid. Inductieve statistiek biedt methoden om deze onzekerheid te kwantificeren door middel van kansberekening, waardoor men de betrouwbaarheid van de getrokken conclusies kan inschatten.
### 4.2 De empirische cyclus
De empirische cyclus beschrijft de opeenvolgende stappen in wetenschappelijk onderzoek. Deze cyclus is essentieel voor het systematisch vergaren en interpreteren van kennis.
#### 4.2.1 Fasen van de empirische cyclus
De zeven fasen van de empirische cyclus zijn:
1. Vraagstelling of probleemstelling
2. Operationaliseren
3. Steekproef bepalen
4. Gegevens verzamelen
5. Beschrijvende statistiek
6. Inductieve statistiek
7. Conclusies trekken
> **Tip:** Zorg dat je de fasen van de empirische cyclus zowel kunt benoemen als in de juiste volgorde kunt plaatsen voor het examen.
### 4.3 Beschrijvende versus inductieve statistiek
Het onderscheid tussen beschrijvende en inductieve statistiek is fundamenteel voor het begrijpen van de rol van statistiek in onderzoek.
* **Beschrijvende statistiek:** Deze vorm van statistiek richt zich op het schematisch voorstellen en samenvatten van de resultaten van een experiment of survey, vaak aan de hand van kengetallen. Het doel is om inzicht te geven in de verzamelde data zelf.
* **Inductieve statistiek:** Voortbouwend op de beschrijvende statistiek, stelt inductieve statistiek ons in staat om uitspraken te doen over de populatie waaruit de steekproef is getrokken. Het analyseert of de waargenomen verschillen of verbanden in de steekproef statistisch significant zijn, of dat ze waarschijnlijk toe te schrijven zijn aan toeval.
> **Voorbeeld:** De beschrijvende statistiek kan aangeven dat het gemiddelde van een testscore voor meisjes hoger is dan voor jongens. De inductieve statistiek onderzoekt vervolgens of dit verschil groot genoeg is om te concluderen dat er een reëel verschil bestaat tussen de populaties waaruit de meisjes en jongens afkomstig zijn, of dat het verschil waarschijnlijk door toeval is ontstaan.
### 4.4 Variabelen in onderzoek
Het correct identificeren en definiëren van variabelen is cruciaal voor een goed onderzoeksopzet. Variabelen kunnen worden onderverdeeld in onafhankelijke en afhankelijke variabelen.
#### 4.4.1 Onafhankelijke variabele (OV)
De onafhankelijke variabele is de variabele die wordt gemanipuleerd of die de vermeende oorzaak is in een onderzoek. Het is de factor waarvan men vermoedt dat deze invloed heeft op een andere variabele.
#### 4.4.2 Afhankelijke variabele (AV)
De afhankelijke variabele is de variabele die wordt gemeten om het effect van de onafhankelijke variabele te observeren. Het is de variabele die men verwacht te veranderen als gevolg van de onafhankelijke variabele.
> **Voorbeeld:** In onderzoek naar de invloed van haarkleur op intelligentie, is "haarkleur" de onafhankelijke variabele (de vermeende oorzaak) en "intelligentie" (gemeten via een IQ-test) de afhankelijke variabele (het gevolg dat gemeten wordt).
### 4.5 Populatie en onderzoekseenheden
Bij inductieve statistiek is het belangrijk om onderscheid te maken tussen de populatie waarover men uitspraken wil doen en de concrete eenheden waarop de metingen worden verricht.
* **Populatie:** Dit is de gehele groep waarover de onderzoeker conclusies wil trekken. Deze populatie wordt vaak gedefinieerd door specifieke kenmerken (bv. "vrouwelijke werknemers in de privésector").
* **Onderzoekseenheden (cases):** Dit zijn de individuele eenheden (bv. personen, bedrijven) waaruit de steekproef bestaat en waarop de metingen worden gedaan. Elk van deze eenheden wordt als een "case" beschouwd.
### 4.6 Statistische significantie en hypothesetoetsing
Inductieve statistiek maakt gebruik van statistische significantie en hypothesetoetsing om te bepalen of waargenomen verbanden of verschillen betekenisvol zijn en niet enkel het gevolg van toeval.
#### 4.6.1 Statistische significantie
Statistische significantie geeft aan of een waargenomen verschil of verband tussen variabelen waarschijnlijk niet op toeval berust. Het helpt ons te beslissen of we onze hypothesen kunnen verwerpen of aanhouden.
#### 4.6.2 Kansberekening en de nulhypothese
Bij hypothesetoetsing vertrekt men vaak vanuit de **nulhypothese** ($H_0$), die stelt dat er geen verband of verschil is in de populatie. Vervolgens berekent men de kans dat de geobserveerde data het gevolg zijn van toevalligheden, ervan uitgaande dat de nulhypothese waar is.
* Als de kans op de geobserveerde data onder de nulhypothese klein is (meestal kleiner dan 5% of 0.05), verwerpt men de nulhypothese. Dit suggereert dat er een reëel verband of verschil is.
* Als de kans groot is, wordt de nulhypothese aanvaard, wat betekent dat de geobserveerde data verklaard kunnen worden door toeval.
#### 4.6.3 Toetsingssituaties en toetsen
Afhankelijk van de onderzoeksvraag en de aard van de data, worden verschillende statistische toetsen gebruikt. Toetsingssituaties kunnen variëren op basis van het aantal groepen, het type variabele en het aantal deelnemers. De keuze van de juiste toets is essentieel voor valide conclusies.
### 4.7 Misbruik en beperkingen van statistiek
Hoewel statistiek een krachtig hulpmiddel is, is het belangrijk zich bewust te zijn van potentiële valkuilen en misbruik.
#### 4.7.1 Belang van methodologie en randvoorwaarden
Statistische formules en software zijn onvoldoende zonder een correcte methodologie en naleving van randvoorwaarden:
* **Juiste methodologie:** Selectie van de correcte statistische toets.
* **Correct onderzoeksopzet:** Zorgen voor een representatieve steekproef en een valide onderzoeksdesign.
* **Correcte formulering in rapporten:** Duidelijke vermelding van significanties, effectgroottes, en betrouwbaarheidsintervallen.
* **Correcte vermelding van variabelen:** Duidelijk onderscheid tussen onafhankelijke en afhankelijke variabelen.
#### 4.7.2 Veelvoorkomende vormen van misbruik
* **Ongeoorloofde causale conclusies:** Het trekken van causale verbanden uit correlaties. Correlatie impliceert geen causatie.
* **Onduidelijke steekproef:** Generaliseren van resultaten van een niet-representatieve steekproef naar de populatie.
* **Gebrek aan context:** Presenteren van resultaten zonder voldoende achtergrondinformatie (bv. "gaat 5 maal langer mee" zonder de context van de vergelijking te geven).
### 4.8 Validiteit in onderzoek
De validiteit van onderzoek is cruciaal voor de betrouwbaarheid en generaliseerbaarheid van de resultaten. Twee belangrijke vormen van validiteit zijn interne en externe validiteit.
#### 4.8.1 Interne validiteit
Interne validiteit verwijst naar de mate waarin een onderzoeksontwerp causale conclusies kan trekken over het effect van de onafhankelijke variabele (OV) op de afhankelijke variabele (AV). Hiervoor moeten drie voorwaarden vervuld zijn:
1. Het effect van de OV op de AV is in de voorspelde richting.
2. De oorzaak (OV) moet in de tijd voorafgaan aan het gevolg (AV).
3. Er zijn geen andere verklaringen voor het gevonden verband.
Experimenteel onderzoek met randomisatie is vaak nodig om alternatieve verklaringen uit te sluiten en de interne validiteit te waarborgen.
#### 4.8.2 Externe validiteit
Externe validiteit betreft de mate waarin de resultaten van een onderzoek kunnen worden gegeneraliseerd naar andere situaties, methoden, tijdsperioden of populaties. Statistische generalisatie, het generaliseren van de steekproef naar de populatie waaruit deze getrokken is, is een specifiek aspect hiervan.
### 4.9 Samenvatting en oefeningen
Inductieve statistiek volgt op beschrijvende statistiek in de empirische cyclus en stelt ons in staat om op basis van steekproefgegevens onderbouwde beslissingen te nemen over verbanden en verschillen in de populatie. De mate van onzekerheid hierbij wordt gekwantificeerd door kansberekening. De waarde van statistische conclusies hangt echter sterk af van de correcte methodologie en het vermijden van misbruik.
#### 4.9.1 Oefening 1: Onderscheid beschrijvende en inductieve statistiek
* **Beschrijvende statistiek:** Vat verzamelde data samen met kengetallen.
* **Inductieve statistiek:** Bepaalt de betekenis van deze resultaten voor de populatie en toetst hypothesen.
#### 4.9.2 Oefening 2: Fasen van de empirische cyclus
1. Vraagstelling
2. Operationaliseren
3. Steekproef bepalen
4. Gegevens verzamelen
5. Beschrijvende statistiek
6. Inductieve statistiek
7. Conclusies trekken
#### 4.9.3 Oefening 3-7: Variabelen en populatie in onderzoek
Een onderzoek naar de redenen waarom vrouwelijke werknemers in de privésector van job veranderen, verzamelt gegevens van 1008 werknemers over nettomaandloon, pendeltijd, effectiviteit van work-life balance maatregelen, werkelijke turn-over en intentie tot turn-over.
* **Bestudeerde variabelen:** Nettomaandloon, pendeltijd, effectiviteit van work-life balance maatregelen, turnover, intentie tot turnover.
* **Bestudeerde populatie:** Vrouwelijke werknemers in de privésector.
* **Onderzoekseenheden (cases):** Eén persoon.
* **Onafhankelijke variabelen:** Nettomaandloon, pendeltijd, effectiviteit van work-life balance maatregelen.
* **Afhankelijke variabelen:** Turnover, intentie tot turnover.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Inductieve statistiek | Het domein binnen de statistiek dat zich bezighoudt met het trekken van conclusies over een populatie op basis van gegevens verkregen uit een steekproef. Het is bedoeld om generalisaties te maken en hypothesen te toetsen. |
| Empirische cyclus | Een wetenschappelijke methode die bestaat uit opeenvolgende stappen van observatie, inductie, deductie, toetsing en evaluatie. Deze cyclus helpt bij het systematisch vergaren en analyseren van kennis door middel van onderzoek. |
| Steekproef | Een selectie van individuen of eenheden uit een grotere populatie die wordt gebruikt om informatie te verzamelen. De resultaten van de analyse van de steekproef worden geëxtrapoleerd naar de gehele populatie. |
| Populatie | De volledige groep van individuen, objecten of gebeurtenissen die van belang zijn voor een onderzoeksvraag. Een steekproef wordt genomen uit deze populatie om conclusies te kunnen trekken. |
| Onafhankelijke variabele (OV) | Een variabele die wordt gemanipuleerd of geobserveerd om het effect ervan op een afhankelijke variabele te bestuderen. In de context van onderzoek is dit de vermoedelijke oorzaak. |
| Afhankelijke variabele (AV) | Een variabele die wordt gemeten om de invloed van de onafhankelijke variabele te bepalen. Dit is het gevolg dat wordt bestudeerd in relatie tot de onafhankelijke variabele. |
| Statistische significantie | Een maatstaf die aangeeft hoe waarschijnlijk het is dat een waargenomen verband of verschil in de gegevens toeval is. Een significant resultaat suggereert dat het verband waarschijnlijk echt is in de populatie. |
| Nulhypothese ($H_0$) | De hypothese die stelt dat er geen verband of verschil is tussen de variabelen die worden onderzocht. Het doel van hypothesetoetsing is om deze nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Kansberekening | Het wiskundige domein dat zich bezighoudt met het analyseren van willekeurige gebeurtenissen. Het wordt gebruikt om de waarschijnlijkheid van verschillende uitkomsten te kwantificeren. |
| Hypothesetoetsing | Een statistische procedure die wordt gebruikt om te bepalen of er voldoende bewijs is in een steekproef om de nulhypothese te verwerpen. Het proces omvat het formuleren van hypothesen en het analyseren van data. |
| Kansverdeling | Een functie die de waarschijnlijkheid van verschillende uitkomsten voor een willekeurige variabele weergeeft. Bekende voorbeelden zijn de normale verdeling en de binomiale verdeling. |
| Interne validiteit | De mate waarin een onderzoeksontwerp causale conclusies toelaat. Dit houdt in dat het effect van de onafhankelijke variabele op de afhankelijke variabele betrouwbaar kan worden vastgesteld, zonder dat externe factoren een rol spelen. |
| Externe validiteit | De mate waarin de resultaten van een onderzoek kunnen worden gegeneraliseerd naar andere situaties, populaties, methoden of tijdsperioden. Het gaat om de generaliseerbaarheid van de bevindingen buiten de specifieke onderzoekscontext. |
| Correlatie | Een statistische maat die de sterkte en richting van de lineaire relatie tussen twee variabelen aangeeft. Correlatie impliceert geen causaliteit. |
| Causatie | Het principe dat een gebeurtenis (de oorzaak) direct leidt tot een andere gebeurtenis (het gevolg). Causale verbanden vereisen meer dan alleen correlatie; er moeten specifieke voorwaarden voldaan zijn. |
Cover
Student - Hoorcollege 4 - Hypothesetoetsing en betrouwbaarheidsintervallen (1).pptx
Summary
# Inleiding tot betrouwbaarheidsintervallen en hypothesetoetsing
Inleiding tot betrouwbaarheidsintervallen en hypothesetoetsing
Dit onderdeel introduceert het belang van statistiek bij het doen van uitspraken over populaties op basis van steekproefgegevens en legt de basis voor het begrijpen van onzekerheid.
## 1. Inleiding tot betrouwbaarheidsintervallen en hypothesetoetsing
Inductieve statistiek maakt het mogelijk om conclusies te trekken over een populatie op basis van steekproefgegevens, waarbij de mate van onzekerheid wordt gekwantificeerd.
### 1.1 Soorten vragen in inductieve statistiek
Er zijn twee hoofdtypes vragen die met inductieve statistiek worden onderzocht:
* **Schatten van een populatieparameter:**
* Het bepalen van een populatiegemiddelde voor een variabele met behulp van een betrouwbaarheidsinterval (BI).
* Voorbeelden: "Vanaf welke leeftijd tonen baby's een sociale glimlach?" of "Hoeveel uren gamen 16 tot 18-jarigen gemiddeld?"
* **Toetsen van verschillen of samenhang:**
* Het toetsen van verschillen tussen groepen (bv. vrouwen versus mannen) of de samenhang tussen variabelen (bv. hondeneigenaarschap en welzijn).
* Voorbeelden: "Zijn vrouwen gemiddeld gezien meer empathisch dan mannen?" of "Is er een verband tussen het hebben van een hond en je algemeen welzijn?"
### 1.2 Wat is een betrouwbaarheidsinterval?
Een betrouwbaarheidsinterval (BI) is een intervalschatting van een populatieparameter. De breedte van dit interval kan door de onderzoeker worden bepaald, maar dit heeft consequenties voor de zekerheid en de informativiteit van de schatting. Er is een afweging tussen zekerheid en informativiteit: een breder interval biedt meer zekerheid, maar minder specifieke informatie. In de praktijk wordt vaak een 95% betrouwbaarheidsinterval gehanteerd.
* Een 95% betrouwbaarheidsinterval geeft bijvoorbeeld aan dat er 95% zekerheid is dat het populatiegemiddelde binnen dit interval ligt.
* Een belangrijke voorwaarde voor het berekenen van een betrouwbaarheidsinterval is een aselecte steekproef.
#### 1.2.1 Een betrouwbaarheidsinterval berekenen
Het betrouwbaarheidsinterval wordt uitgedrukt in de meeteenheid van de oorspronkelijke variabele. De formule voor een betrouwbaarheidsinterval is doorgaans:
$$
\text{Steekproefgemiddelde} \pm \text{kritieke waarde} \times \text{standaardfout}
$$
De kritieke waarde is afhankelijk van het gewenste betrouwbaarheidsniveau. Voor een 95% betrouwbaarheidsinterval wordt vaak een kritieke $Z$-waarde van $\pm 1.96$ gebruikt, wat overeenkomt met 2.5% in elke staart van de standaardnormale verdeling.
> **Tip:** Een grotere steekproefomvang ($N$) leidt over het algemeen tot een smaller betrouwbaarheidsinterval, wat meer informatief is.
#### 1.2.2 Betrouwbaarheidsintervallen bij een normaal verdeelde variabele
Bij een normaal verdeelde variabele met gemiddelde $\mu$ en standaardafwijking $\sigma$ gelden de volgende vuistregels voor de verdeling van waarnemingen:
* Ongeveer 68% van de waarnemingen ligt binnen $\pm 1$ standaardafwijking van het gemiddelde.
* Ongeveer 95% van de waarnemingen ligt binnen $\pm 1.96$ standaardafwijkingen van het gemiddelde.
* Ongeveer 99.7% van de waarnemingen ligt binnen $\pm 3$ standaardafwijkingen van het gemiddelde.
**Variërende accuraatheid:** Met een 95% betrouwbaarheidsinterval weten we met 95% zekerheid dat het populatiegemiddelde binnen het berekende interval valt. Echter, in 5% van de gevallen bevat het interval niet het werkelijke populatiegemiddelde.
### 1.3 Hypothesetoetsing
Hypothesetoetsing is een procedure om op basis van steekproefgegevens uitspraken te doen over een populatiehypothese.
#### 1.3.1 Wat is een hypothese?
Een hypothese is een veronderstelling die voortkomt uit een redenering of theorie, en wordt geformuleerd in duidelijke, meetbare termen.
#### 1.3.2 Nulhypothese en alternatieve hypothese
* **Nulhypothese ($H_0$):** Stelt dat er géén verschil of verband is tussen groepen of variabelen in de populatie. We gaan er initieel van uit dat deze waar is.
* **Alternatieve hypothese ($H_1$ of $H_a$):** Stelt dat er wél een verschil of verband is in de populatie.
Het proces van hypothesetoetsing houdt in dat we evidentie verzamelen om de nulhypothese te weerleggen. Als er onvoldoende evidentie is, behouden we de nulhypothese. Als er voldoende bewijs is dat de nulhypothese tegenspreekt, verwerpen we deze en accepteren we de alternatieve hypothese. Dit proces kan vergeleken worden met het principe "onschuldig tot het tegendeel bewezen is".
#### 1.3.3 Toetsen van de onderzoekshypothese
De onderzoekshypothese (alternatieve hypothese, $H_1$) wordt niet direct getoetst, maar altijd afgezet tegen de nulhypothese ($H_0$).
* $H_0$ wordt behouden als de kans groot is om een bepaald steekproefgemiddelde te observeren, ervan uitgaande dat $H_0$ waar is.
* $H_0$ wordt verworpen als de kans klein is om een bepaald steekproefgemiddelde te observeren, ervan uitgaande dat $H_0$ waar is.
#### 1.3.4 Grote kans en kleine kans
In de praktijk wordt een "grote kans" doorgaans gedefinieerd als $\ge 95\%$ (of $\ge 0.95$) en een "kleine kans" als $\le 5\%$ (of $\le 0.05$).
* **Significantieniveau ($\alpha$):** Dit is het vooraf vastgestelde criterium voor "kleine kans", meestal ingesteld op 0.05 (5%).
* Als de kans om het geobserveerde steekproefgemiddelde te vinden onder de $H_0$ kleiner is dan $\alpha$, wordt $H_0$ verworpen.
#### 1.3.5 Hypotheses in cijfers en kansberekening
Om te bepalen of een geobserveerd verschil significant is, wordt de kans berekend op het verkrijgen van de steekproefgegevens, aannemende dat de nulhypothese waar is. Als deze kans kleiner is dan $\alpha$, wordt de nulhypothese verworpen.
* **Voorbeeld:** Als we bij een gemiddelde $\mu = 100$ en $\sigma = 15$ een kans berekenen op een steekproefgemiddelde van 96 of lager, en deze kans $P(z < -1.6) = 0.0548$ bedraagt, dan wordt de $H_0$ niet verworpen omdat $0.0548 > 0.05$. De drummers scoren dan niet significant lager dan gemiddelde personen.
#### 1.3.6 Samenvatting van hypothesetoetsing
Hypothesetoetsing omvat het trekken van een steekproef, het berekenen van de kans op deze steekproefgegevens onder de nulhypothese, en het vergelijken van deze kans met het significantieniveau $\alpha$. Als de kans kleiner is dan $\alpha$, wordt de nulhypothese verworpen ten gunste van de alternatieve hypothese.
### 1.4 Eenzijdig en tweezijdig toetsen
Hypothesetoetsen kunnen eenzijdig of tweezijdig zijn, afhankelijk van de richting van de onderzoekshypothese.
* **Eenzijdig toetsen:** Test of een parameter groter is dan een bepaalde waarde (rechtseenzijdig) of kleiner is dan een bepaalde waarde (linkseenzijdig). Dit is enkel toegestaan als er een duidelijke theoretische reden is voor de verwachte richting van het effect.
* **Tweezijdig toetsen:** Test of een parameter significant verschilt van een bepaalde waarde, zonder specificatie van de richting van het verschil. Dit is de meer conservatieve benadering.
#### 1.4.1 Keuze tussen eenzijdig en tweezijdig toetsen
De keuze tussen eenzijdig en tweezijdig toetsen kan de significantie van de resultaten beïnvloeden. Een eenzijdige toets vereist een extremer steekproefgemiddelde om de nulhypothese te verwerpen dan een tweezijdige toets, omdat het significantieniveau $\alpha$ wordt verdeeld over één of twee staarten van de verdeling.
* Bij een tweezijdige toets met $\alpha = 0.05$, wordt het significantieniveau verdeeld als 0.025 in elke staart.
* Bij een eenzijdige toets met $\alpha = 0.05$, ligt het gehele 0.05 in één staart.
> **Tip:** Bij gebruik van software zoals SPSS, wordt vaak de "sig. (2-tailed)" waarde gerapporteerd. Deze kan direct vergeleken worden met $\alpha$ voor tweezijdige toetsen. Voor eenzijdige toetsen moet deze waarde gedeeld worden door twee (of de correcte proportie afhankelijk van de richting).
#### 1.4.2 Toetsen met kritieke waarden
Naast het toetsen via overschrijdingskansen (p-waarden), is het ook mogelijk om te toetsen met kritieke waarden. Hierbij wordt eerst de kritieke waarde(n) bepaald die hoort bij het significantieniveau $\alpha$. Vervolgens wordt de berekende toetsingsgrootheid (bv. $Z$-score) van de steekproef hiermee vergeleken.
* **Tweezijdig toetsen met $\alpha = 0.05$:** De kritieke $Z$-waarden zijn $\pm 1.96$. Als de berekende $Z$-score buiten dit interval valt (dus $> 1.96$ of $< -1.96$), wordt $H_0$ verworpen.
* **Eenzijdig toetsen met $\alpha = 0.05$:** De kritieke $Z$-waarde is $-1.64$ (linkseenzijdig) of $+1.64$ (rechtseenzijdig). Als de berekende $Z$-score aan de betreffende zijde van de kritieke waarde valt, wordt $H_0$ verworpen.
### 1.5 Onzekerheden bij hypothesetoetsing
Hypothesetoetsing is gebaseerd op kansberekening, wat betekent dat er altijd een kans op fouten bestaat.
* **Fout type I ($\alpha$):** Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau.
* **Fout type II ($\beta$):** Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onwaar is.
### 1.6 Effectgrootte
De significantie van een toets (geïndiceerd door de p-waarde) zegt alleen iets over de aanwezigheid van een verschil of verband, niet over de omvang of het belang ervan. De effectgrootte kwantificeert de omvang van het waargenomen effect.
* **Significantie:** Geeft aan of een effect statistisch significant is (werkt het of niet, is er een verschil of niet).
* **Effectgrootte:** Geeft aan hoe sterk of hoe betekenisvol een effect is (hoe goed werkt het, hoe sterk bepaalt een variabele de uitkomst).
#### 1.6.1 Interpretatie van effectgrootte
Effectgroottes kunnen worden uitgedrukt in diverse maten, zoals $r$ (correlatiecoëfficiënt).
* $r$ rond 0.10: klein effect
* $r$ rond 0.30: matig effect
* $r$ rond 0.50: sterk effect
#### 1.6.2 Hedendaags onderzoek
In modern onderzoek wordt steeds meer nadruk gelegd op zowel significantie als effectgrootte. Grote steekproeven kunnen leiden tot statistisch significante resultaten, zelfs bij kleine, praktisch irrelevante effecten. Effectgrootte biedt een maat voor de klinische of praktische relevantie, ongeacht de steekproefomvang.
### 1.7 Parametrisch en nonparametrisch toetsen
Hypothesetoetsen kunnen worden onderverdeeld in twee hoofdcategorieën:
* **Parametrische toetsen:** Vereisen dat aan bepaalde statistische voorwaarden (aannames) van de populatieverdeling wordt voldaan, zoals normaliteit.
* **Nonparametrische toetsen:** Hebben minder strikte aannames over de populatieverdeling en zijn vaak robuuster.
Het $Z$-toets voor het gemiddelde, besproken in dit hoofdstuk, is een voorbeeld van een parametrische toets. Er bestaan diverse andere toetsen binnen beide categorieën, afhankelijk van de onderzoeksvraag en de aard van de data.
---
# Het berekenen en interpreteren van betrouwbaarheidsintervallen
Hier is een gedetailleerd studieoverzicht voor het berekenen en interpreteren van betrouwbaarheidsintervallen, gebaseerd op de verstrekte documentatie.
## 2. Het berekenen en interpreteren van betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen bieden een manier om uitspraken te doen over populatieparameters op basis van steekproefgegevens, met een gekwantificeerde mate van onzekerheid.
### 2.1 Wat is een betrouwbaarheidsinterval?
In de inductieve statistiek trekken we conclusies over een populatie op basis van steekproefgegevens. Omdat steekproeven nooit perfect de gehele populatie weerspiegelen, introduceert dit onzekerheid. Een betrouwbaarheidsinterval (BI) is een intervalschatting die ons helpt deze onzekerheid te kwantificeren.
Een veelvoorkomende vraag in onderzoek is het schatten van een populatiegemiddelde. Bijvoorbeeld: "Vanaf welke leeftijd tonen baby's een sociale glimlach?" of "Hoeveel uren gamen 16 tot 18-jarigen gemiddeld?"
In plaats van een puntschatting (één enkel getal) te geven voor het populatiegemiddelde ($\mu$), biedt een betrouwbaarheidsinterval een bereik van waarden waarbinnen het populatiegemiddelde waarschijnlijk ligt.
#### 2.1.1 Afweging tussen zekerheid en informativiteit
De breedte van het betrouwbaarheidsinterval wordt door de onderzoeker zelf bepaald en heeft consequenties voor de interpretatie. Er is een fundamentele afweging tussen zekerheid en informativiteit:
* **Meer zekerheid**: Een breder interval biedt meer zekerheid dat het populatiegemiddelde erin is opgenomen, maar geeft minder precieze informatie. Bijvoorbeeld, een 100% betrouwbaarheidsinterval (theoretisch) dat aangeeft dat baby's hun eerste sociale glimlach vertonen tussen 0 en 86 dagen, is erg zeker, maar weinig informatief.
* **Meer informatie (precisie)**: Een smaller interval is informatief en preciezer, maar biedt minder zekerheid dat het werkelijk het populatiegemiddelde bevat. Bijvoorbeeld, een 95% betrouwbaarheidsinterval tussen 34 en 52 dagen is informatiever.
In de praktijk wordt vaak een 95% betrouwbaarheidsinterval gehanteerd als een gangbare balans.
#### 2.1.2 Voorwaarden voor het construeren van een betrouwbaarheidsinterval
Een cruciale voorwaarde voor het correct berekenen en interpreteren van een betrouwbaarheidsinterval is het gebruik van een **aselecte steekproef**. Als de steekproef niet aselect is, kan deze vertekend zijn en een vertekend beeld geven van de werkelijke populatieverhoudingen. Bijvoorbeeld, enkel baby's selecteren die te vroeg geboren zijn, geeft een vertekend beeld van de gemiddelde leeftijd waarop alle baby's hun eerste sociale glimlach vertonen.
### 2.2 Een betrouwbaarheidsinterval berekenen
Een betrouwbaarheidsinterval wordt uitgedrukt in dezelfde meeteenheid als de oorspronkelijke variabele. Het is opgebouwd rondom het steekproefgemiddelde ($\bar{x}$) en omvat een onder- en bovengrens.
De algemene formule voor een betrouwbaarheidsinterval rond een gemiddelde is gebaseerd op het steekproefgemiddelde, de standaardfout van het gemiddelde, en een kritieke waarde die de gewenste betrouwbaarheid bepaalt:
$$ \text{BI} = \bar{x} \pm z^{\ast} \cdot \frac{\sigma}{\sqrt{n}} $$
Waar:
* $\bar{x}$ is het steekproefgemiddelde.
* $z^{\ast}$ is de kritieke z-waarde die overeenkomt met het gewenste betrouwbaarheidsniveau (bijvoorbeeld 1.96 voor 95% betrouwbaarheid).
* $\sigma$ is de standaarddeviatie van de populatie (als deze bekend is, anders wordt de steekproefstandaarddeviatie $s$ gebruikt).
* $n$ is de steekproefgrootte.
* $\frac{\sigma}{\sqrt{n}}$ is de standaardfout van het gemiddelde (standard error of the mean, SEM).
Het interval kan ook worden geschreven als:
$$ \text{Ondergrens} = \bar{x} - z^{\ast} \cdot \frac{\sigma}{\sqrt{n}} $$
$$ \text{Bovengrens} = \bar{x} + z^{\ast} \cdot \frac{\sigma}{\sqrt{n}} $$
Er is dan een bepaald percentage (bijvoorbeeld 95%) kans dat het werkelijke populatiegemiddelde ($\mu$) tussen deze twee waarden ligt.
#### 2.2.1 Invloed van steekproefgrootte en betrouwbaarheidsniveau
* **Grotere steekproef ($n$)**: Een grotere steekproefomvang leidt tot een kleinere standaardfout ($\frac{\sigma}{\sqrt{n}}$), wat resulteert in een smaller en dus informatiever betrouwbaarheidsinterval, mits de standaarddeviatie constant blijft.
* **Hoger betrouwbaarheidsniveau**: Een hoger betrouwbaarheidsniveau (bijvoorbeeld 99% in plaats van 95%) vereist een grotere kritieke waarde ($z^{\ast}$), wat leidt tot een breder betrouwbaarheidsinterval. Voor 99% betrouwbaarheid is de $z^{\ast}$-waarde ongeveer 2.58, terwijl deze voor 95% ongeveer 1.96 is.
**Voorbeeld:**
Stel, een steekproef ($n = 121$) heeft een gemiddelde van $\bar{x} = 101$ en een standaarddeviatie van $s = 14$.
* **95% BI**: Met $z^{\ast} \approx 1.96$, is de SEM = $\frac{14}{\sqrt{121}} = \frac{14}{11} \approx 1.27$.
Het 95% BI is $101 \pm 1.96 \cdot 1.27 \approx 101 \pm 2.49$, dus het interval is ongeveer (98.51, 103.49).
* **99% BI**: Met $z^{\ast} \approx 2.58$, is de SEM nog steeds 1.27.
Het 99% BI is $101 \pm 2.58 \cdot 1.27 \approx 101 \pm 3.28$, dus het interval is ongeveer (97.72, 104.28).
Zoals te zien, is het 99% BI breder dan het 95% BI.
#### 2.2.2 Betrouwbaarheidsintervallen bij een normaal verdeelde variabele
Bij een normaal verdeelde variabele met populatiegemiddelde $\mu$ en standaardafwijking $\sigma$ geldt dat:
* Ongeveer 68% van de waarnemingen ligt binnen $\mu \pm 1\sigma$.
* Ongeveer 95% van de waarnemingen ligt binnen $\mu \pm 1.96\sigma$.
* Ongeveer 99.7% van de waarnemingen ligt binnen $\mu \pm 2.58\sigma$.
Deze eigenschappen van de normaalverdeling worden gebruikt bij het bepalen van de kritieke waarden ($z^{\ast}$) voor betrouwbaarheidsintervallen.
#### 2.2.3 Variërende accuraatheid en de 5% foutmarge
Het is belangrijk te onthouden dat met een 95% betrouwbaarheidsinterval we met 95% zekerheid kunnen zeggen dat het populatiegemiddelde binnen het interval ligt. Dit betekent echter ook dat er in 5% van de gevallen een kans is dat het berekende betrouwbaarheidsinterval het *echte* populatiegemiddelde *niet* bevat.
> **Tip:** Beschouw een betrouwbaarheidsinterval niet als een reeks waarden die het gemiddelde *zou kunnen* zijn, maar eerder als een reeks intervallen die, indien we het experiment oneindig vaak zouden herhalen, in 95% van de gevallen het werkelijke populatiegemiddelde zou bevatten.
### 2.3 Interpretatie van betrouwbaarheidsintervallen
De interpretatie van een betrouwbaarheidsinterval is cruciaal. Een 95% BI geeft aan dat we, op basis van onze steekproef, met 95% zekerheid kunnen stellen dat het populatiegemiddelde binnen de berekende grenzen ligt. De breedte van het interval weerspiegelt de precisie van onze schatting. Een smal interval duidt op een preciezere schatting dan een breed interval.
#### 2.3.1 Conclusies trekken
Als het betrouwbaarheidsinterval dat we berekenen voor een bepaalde parameter (bijvoorbeeld het gemiddelde verschil tussen twee groepen) de waarde nul (of 1, afhankelijk van de parameter en de context) niet bevat, kan dit wijzen op een statistisch significant verschil of verband op het gekozen betrouwbaarheidsniveau. Omgekeerd, als het interval de nul wel bevat, is het verschil of verband niet significant op dat niveau.
**Voorbeeld:**
Als we een 95% betrouwbaarheidsinterval berekenen voor het verschil in gemiddelde scores tussen twee behandelgroepen en het interval is bijvoorbeeld (2.5, 7.8), dan bevat dit interval de waarde nul niet. Dit suggereert dat er een statistisch significant verschil is in gemiddelde scores tussen de twee groepen. Als het interval ( -1.2, 4.5) zou zijn, bevat het de nul wel, wat aangeeft dat het verschil niet significant is op het 95% niveau.
### 2.4 Verband met hypothesetoetsing
Betrouwbaarheidsintervallen en hypothesetoetsing zijn nauw verwante concepten en kunnen elkaar aanvullen. Een betrouwbaarheidsinterval biedt meer informatie dan enkel de significantie van een hypothesetoets. Het geeft niet alleen aan *of* er een effect is (significantie), maar ook *hoe groot* het effect waarschijnlijk is en in welke richting.
Wanneer een hypothesetoets een nulhypothese verwerpt (wat aangeeft dat er een significant effect is), zal het corresponderende betrouwbaarheidsinterval de waarde die onder de nulhypothese werd getest (meestal nul) niet bevatten.
> **Tip:** Het berekenen van een betrouwbaarheidsinterval kan een alternatief zijn voor het uitvoeren van een tweezijdige hypothesetoets. Als het interval de nul niet bevat, verwerpen we de nulhypothese van geen verschil.
---
# Hypothesetoetsing: nul- en alternatieve hypotheses, en significantie
Dit segment legt de fundamenten van hypothesetoetsing uit, inclusief het formuleren van nul- en alternatieve hypotheses, het concept van 'grote kans' en 'kleine kans' (alfa), en de interpretatie van resultaten.
### 3.1 Inleiding tot hypothesetoetsing
Inductieve statistiek maakt het mogelijk om conclusies te trekken over een populatie op basis van steekproefgegevens. Hypothesetoetsing is een methode binnen de inductieve statistiek om de waarheid van een bepaalde veronderstelling (hypothese) te evalueren. Een hypothese is een duidelijke, testbare veronderstelling over de te meten variabelen, vaak voortkomend uit een theoretische redenering.
#### 3.1.1 Nulhypothese en alternatieve hypothese
Bij hypothesetoetsing onderscheiden we twee soorten hypotheses:
* **Nulhypothese ($H_0$)**: Deze hypothese stelt dat er geen verschil of verband is tussen groepen of variabelen in de populatie. Men gaat er initieel van uit dat de nulhypothese waar is. De nulhypothese wordt behouden als de kans groot is om een bepaald steekproefresultaat te observeren, ervan uitgaande dat de nulhypothese correct is.
* **Alternatieve hypothese ($H_1$)**: Deze hypothese stelt dat er wél een verschil of verband is. Men gaat er initieel van uit dat deze hypothese onwaar is. We verzamelen evidentie *tegen* de nulhypothese. Als er voldoende evidentie is die de nulhypothese tegenspreekt, wordt deze verworpen ten gunste van de alternatieve hypothese.
Dit proces kan vergeleken worden met het principe "onschuldig tot het tegendeel bewezen is": we gaan uit van de nulhypothese totdat er voldoende bewijs is om deze te verwerpen.
#### 3.1.2 Het concept van grote en kleine kans: significantie
De kern van hypothesetoetsing ligt in het beoordelen van de waarschijnlijkheid van een steekproefresultaat, gegeven dat de nulhypothese waar is.
* **Grote kans**: Als de kans om een bepaald steekproefgemiddelde te observeren groot is (in de praktijk vaak gedefinieerd als $\geq 95\%$), behouden we de nulhypothese. Dit suggereert dat het geobserveerde resultaat niet ongebruikelijk is onder de aanname van de nulhypothese.
* **Kleine kans**: Als de kans om een bepaald steekproefgemiddelde te observeren klein is (in de praktijk vaak gedefinieerd als $\leq 5\%$), verwerpen we de nulhypothese. Dit suggereert dat het geobserveerde resultaat uitzonderlijk is onder de aanname van de nulhypothese, en dat de alternatieve hypothese waarschijnlijker is.
Deze "kleine kans" wordt het significantieniveau, aangeduid met $\alpha$ (alfa). De gebruikelijke afspraak is $\alpha = 0.05$ (of $5\%$), en soms wordt ook $\alpha = 0.01$ gebruikt. Als de kans op het observeren van de steekproefgegevens kleiner is dan $\alpha$, verwerpen we de nulhypothese.
**Voorbeeld**: Stel dat we de onderzoekshypothese hebben dat drummers gemiddeld minder intelligent zijn dan de algemene populatie (met een gemiddelde IQ van 100).
* $H_1$: $\mu_{\text{drummers}} < 100$
* $H_0$: $\mu_{\text{drummers}} \geq 100$
Als we in een steekproef een gemiddeld IQ van 96 vinden, berekenen we de kans om een gemiddelde van 96 of lager te observeren als $H_0$ waar zou zijn. Als deze kans groter is dan $\alpha = 0.05$, verwerpen we $H_0$ niet.
> **Tip**: De p-waarde is de kans om een resultaat te vinden dat minstens zo extreem is als het geobserveerde resultaat, gegeven dat de nulhypothese waar is. Als $p < \alpha$, verwerpen we $H_0$.
### 3.2 Berekenen van betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) is een intervalschatting voor een populatieparameter (zoals het populatiegemiddelde $\mu$).
* **Doel**: Het schatten van een populatieparameter op basis van steekproefgegevens.
* **Werkwijze**: Omdat het onderzoeken van de volledige populatie onhaalbaar is, trekken we een steekproef. Op basis van deze steekproef wordt een puntschatting (het steekproefgemiddelde) gemaakt, en vervolgens wordt een betrouwbaarheidsinterval berekend.
* **Afweging**: De grootte van het betrouwbaarheidsinterval bepaalt de afweging tussen zekerheid en informativiteit.
* Een breed interval (bv. 95% tot 100% zekerheid) biedt meer zekerheid dat de populatieparameter erin ligt, maar is minder informatief (het interval is groot).
* Een smal interval (bv. 95% zekerheid tussen twee specifieke waarden) biedt meer informatie, maar met een grotere kans dat de populatieparameter buiten het interval valt (bv. 5% kans bij een 95% BI).
* **Standaardpraktijk**: In de praktijk wordt vaak een 95% betrouwbaarheidsinterval gebruikt.
* **Voorwaarde**: Een aselecte steekproef is een cruciale voorwaarde voor het correct berekenen van een betrouwbaarheidsinterval.
#### 3.2.1 Formule en interpretatie
Een $95\%$ betrouwbaarheidsinterval voor het populatiegemiddelde $\mu$ wordt vaak berekend rondom het steekproefgemiddelde ($\bar{x}$) met behulp van de standaardafwijking van de steekproef ($s$) en de steekproefgrootte ($n$). De formule omvat een kritieke waarde die afhangt van het gewenste betrouwbaarheidsniveau.
Voor een normaal verdeelde variabele met populatiegemiddelde $\mu$ en standaardafwijking $\sigma$:
* Ongeveer 68% van de waarnemingen ligt binnen $\mu \pm 1\sigma$.
* Ongeveer 95% van de waarnemingen ligt binnen $\mu \pm 1.96\sigma$.
* Ongeveer 99.7% van de waarnemingen ligt binnen $\mu \pm 2.58\sigma$.
Een betrouwbaarheidsinterval wordt uitgedrukt in de meeteenheid van de oorspronkelijke variabele. De interpretatie is dat er een bepaald percentage (bv. 95%) kans is dat het populatiegemiddelde binnen de berekende grenzen ligt. Het is belangrijk te beseffen dat in het resterende percentage van de gevallen (bv. 5% bij een 95% BI) het interval het echte populatiegemiddelde niet bevat.
#### 3.2.2 Invloed van steekproefgrootte ($N$)
Een grotere steekproefgrootte ($N$) leidt over het algemeen tot een smaller betrouwbaarheidsinterval, wat meer precisie betekent voor de schatting van het populatiegemiddelde.
### 3.3 Eenzijdig en tweezijdig toetsen
Hypotheses kunnen op twee manieren worden getoetst:
* **Eenzijdig toetsen**: Hierbij wordt gekeken naar afwijkingen van de nulhypothese in één specifieke richting (bv. $\mu > \mu_0$ of $\mu < \mu_0$). Dit wordt toegepast wanneer er op voorhand een duidelijke theoretische reden is om een effect in een specifieke richting te verwachten.
* **Tweezijdig toetsen**: Hierbij wordt gekeken naar afwijkingen van de nulhypothese in beide richtingen (bv. $\mu \neq \mu_0$). Dit is de standaardbenadering wanneer er geen specifieke richting wordt verwacht.
#### 3.3.1 Impact op significantie
De keuze tussen eenzijdig en tweezijdig toetsen kan bepalend zijn voor de significantie van het resultaat. Bij tweezijdig toetsen moet het steekproefgemiddelde extremer afwijken van de nulhypothese om de nulhypothese te verwerpen, vergeleken met een eenzijdig toets.
**Voorbeeld**: Bij een $\alpha = 0.05$ en een tweezijdige toets is de kritieke waarde bijvoorbeeld $\pm 1.96$. Bij een eenzijdige toets (bv. rechtszijdig) is de kritieke waarde $1.64$ voor dezelfde $\alpha$. Een resultaat dat bij een eenzijdige toets significant is, hoeft dat bij een tweezijdige toets niet te zijn.
#### 3.3.2 Keuze tussen eenzijdig en tweezijdig
* **Eenzijdig toetsen** mag enkel toegepast worden als er een duidelijk verantwoorde richting in de hypothese zit, gebaseerd op theorie of eerdere bevindingen.
* **Tweezijdig toetsen** is de veiligere en meer conservatieve keuze wanneer de richting van het effect onzeker is. In softwarepakketten zoals SPSS wordt de significantie voor tweezijdige toetsen direct gerapporteerd (sig. 2-tailed).
### 3.4 Toetsen met kritieke waarden
Naast het toetsen via overschrijdingskansen (p-waarden), is het ook mogelijk om te toetsen met kritieke waarden.
* **Methode**: Hierbij zoekt men eerst de kritieke waarde van de teststatistiek die hoort bij het gekozen significantieniveau $\alpha$. Vervolgens vergelijkt men de berekende teststatistiek uit de steekproef met deze kritieke waarde.
* **Gelijkheid**: Beide methoden (overschrijdingskansen en kritieke waarden) leiden tot dezelfde conclusie.
* Bij tweezijdig toetsen met $\alpha = 0.05$ zijn de kritieke z-waarden bijvoorbeeld $\pm 1.96$. Als de berekende z-waarde buiten dit interval valt (dus $|z| > 1.96|$), wordt $H_0$ verworpen.
* Bij eenzijdig toetsen (bv. rechtszijdig) met $\alpha = 0.05$ is de kritieke z-waarde $1.64$. Als de berekende z-waarde groter is dan $1.64$, wordt $H_0$ verworpen.
### 3.5 Onzekerheden bij hypothesetoetsing
Hypothesetoetsing is gebaseerd op kansberekening, wat betekent dat er altijd onzekerheden en mogelijke fouten zijn.
* **Fout Type I ($\alpha$)**: Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau $\alpha$.
* **Fout Type II ($\beta$)**: Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onwaar is. De kans hierop wordt aangeduid met $\beta$.
#### 3.5.1 Effectgrootte
Significantie (bepaald door de p-waarde) geeft aan of er een effect is, maar zegt niets over hoe groot of belangrijk dit effect is.
* **Definitie**: Effectgrootte (effect size) meet de hoeveelheid variatie in de resultaten die verklaard wordt door het geobserveerde effect. Het kwantificeert de sterkte van het verband of het verschil.
* **Interpretatie**:
* Kleine effectgrootte: bv. een correlatiecoëfficiënt ($r$) tussen $0.10$ en $0.30$.
* Matige effectgrootte: bv. een $r$ tussen $0.30$ en $0.50$.
* Sterke effectgrootte: bv. een $r$ groter dan $0.50$.
* **Hedendaags onderzoek**: Met grote steekproeven kunnen zelfs kleine effecten statistisch significant worden gevonden. Effectgrootte is essentieel om de praktische relevantie van bevindingen in te schatten, onafhankelijk van de steekproefomvang. Een significant effect betekent niet automatisch dat het praktisch belangrijk is.
### 3.6 Parametrisch en nonparametrisch toetsen
Hypothesetoetsing omvat diverse toetsen. Twee hoofdcategorieën zijn:
* **Parametrische toetsen**: Deze toetsen vereisen dat bepaalde statistische voorwaarden met betrekking tot de verdeling van de populatie (bv. normaliteit) voldaan zijn. De z-toets voor het gemiddelde is hier een voorbeeld van.
* **Nonparametrische toetsen**: Deze toetsen stellen minder strikte eisen aan de verdeling van de populatie.
### 3.7 Samenvatting van hypothesetoetsing
* Hypothesetoetsing evalueert de waarheid van een veronderstelling.
* Er wordt gewerkt met een nulhypothese ($H_0$) en een alternatieve hypothese ($H_1$).
* De beslissing om $H_0$ te verwerpen of te behouden hangt af van de kans (p-waarde) om het steekproefresultaat te observeren, gegeven dat $H_0$ waar is, vergeleken met het significantieniveau $\alpha$ (meestal $0.05$).
* Een kleinere kans dan $\alpha$ leidt tot het verwerpen van $H_0$ en het accepteren van $H_1$.
* Hypotheses kunnen éénzijdig of tweezijdig getoetst worden; de keuze beïnvloedt de significantiedrempel.
* Toetsen kan gebeuren via overschrijdingskansen (p-waarden) of via kritieke waarden.
* Er zijn altijd onzekerheden en mogelijke fouten (Type I en Type II) bij hypothesetoetsing.
* Effectgrootte is cruciaal om de praktische betekenis van een statistisch significant resultaat te beoordelen.
---
# Eenzijdig en tweezijdig toetsen, kritieke waarden en onzekerheden
Hier is een gedetailleerde studiehandleiding voor het onderwerp "Eenzijdig en tweezijdig toetsen, kritieke waarden en onzekerheden" in het Nederlands.
## 4. Eenzijdig en tweezijdig toetsen, kritieke waarden en onzekerheden
Dit gedeelte duikt dieper in de verschillende manieren van toetsen (eenzijdig vs. tweezijdig), het gebruik van kritieke waarden als alternatief voor overschrijdingskansen, en de inherente onzekerheden en mogelijke fouten bij hypothesetoetsing.
### 4.1 Hypothesetoetsing: een samenvatting
Hypothesetoetsing is een methode om conclusies te trekken over een populatie op basis van steekproefgegevens. Het doel is om een gestelde hypothese (een veronderstelling) te toetsen. Dit gebeurt door een steekproef te trekken en te onderzoeken of de resultaten van die steekproef voldoende afwijken van wat verwacht zou worden onder een nulhypothese ($H_0$).
#### 4.1.1 Nulhypothese en alternatieve hypothese
* **Nulhypothese ($H_0$)**: Stelt dat er geen verschil of verband is tussen groepen of variabelen in de populatie. Men gaat er initieel van uit dat deze hypothese waar is.
* **Alternatieve hypothese ($H_1$)**: Stelt dat er wel een verschil of verband is tussen groepen of variabelen in de populatie. Deze hypothese wordt ook wel de onderzoekshypothese genoemd.
Het proces van hypothesetoetsing bestaat uit het verzamelen van bewijs tegen de nulhypothese. Als er onvoldoende bewijs is om de nulhypothese te verwerpen, wordt deze behouden. Als er voldoende bewijs is dat de nulhypothese tegenspreekt, wordt deze verworpen en de alternatieve hypothese aangenomen. Dit proces is vergelijkbaar met het principe "onschuldig tot het tegendeel bewezen is".
#### 4.1.2 Significantieniveau ($\alpha$) en beslissingsregels
Om te bepalen of een waargenomen verschil significant is, wordt een significantieniveau ($\alpha$) vastgesteld. Dit niveau vertegenwoordigt de maximale kans op een fout type I (het verwerpen van een ware nulhypothese).
* **Grote kans**: Als de kans om een bepaald steekproefgemiddelde te observeren, terwijl de nulhypothese waar is, groot is (typisch $\ge$ 95%, wat overeenkomt met een kans $\ge$ 0.95), wordt de nulhypothese behouden.
* **Kleine kans**: Als de kans om een bepaald steekproefgemiddelde te observeren, terwijl de nulhypothese waar is, klein is (typisch $\le$ 5%, wat overeenkomt met een kans $\le$ 0.05), wordt de nulhypothese verworpen. Dit significantieniveau, $\alpha$, is in de praktijk vaak ingesteld op 0.05 (of soms 0.01).
De kans die hierbij berekend wordt, is de kans om het geobserveerde steekproefgemiddelde of een extremere waarde te vinden, onder aanname dat de nulhypothese waar is.
#### 4.1.3 Overschrijdingskansen en toetsen met kritieke waarden
Er zijn twee principale manieren om de nulhypothese te toetsen:
1. **Toetsen via overschrijdingskansen (p-waarde)**: Hierbij wordt de kans berekend om een steekproefresultaat te observeren dat minstens zo extreem is als het gevonden resultaat, gegeven dat de nulhypothese waar is. Als deze kans kleiner is dan het significantieniveau $\alpha$, wordt $H_0$ verworpen.
2. **Toetsen via kritieke waarden**: Bij deze methode wordt eerst de 'kritieke waarde' bepaald. Dit is de grens (een z-score) die hoort bij het vastgestelde significantieniveau $\alpha$. Vervolgens wordt de berekende toetsingsgrootheid (bijvoorbeeld een z-score van het steekproefgemiddelde) vergeleken met deze kritieke waarde. Als de berekende toetsingsgrootheid de kritieke waarde overschrijdt (afhankelijk van de richting van de toets), wordt $H_0$ verworpen.
Beide methoden leiden tot dezelfde conclusie. Het gebruik van kritieke waarden kan directer zijn omdat het niet vereist dat men in tabellen naar de exacte kans zoekt.
### 4.2 Eenzijdig en tweezijdig toetsen
De manier waarop de alternatieve hypothese wordt geformuleerd, bepaalt of er eenzijdig of tweezijdig wordt getoetst.
#### 4.2.1 Tweezijdig toetsen
Bij tweezijdig toetsen wordt onderzocht of er een verschil of verband bestaat, zonder een specifieke richting aan te geven.
* **Alternatieve hypothese ($H_1$)**: Stelt dat er een verschil is, bijvoorbeeld $\mu \ne 100$.
Bij tweezijdig toetsen wordt de kans op extreme waarden aan *beide* zijden van de verdeling in overweging genomen. Als $\alpha = 0.05$, dan wordt 2.5% van de kans aan de linkerstaart en 2.5% aan de rechterstaart van de verdeling toegewezen. De kritieke waarden voor een tweezijdige toets met $\alpha = 0.05$ zijn typisch $Z = -1.96$ en $Z = +1.96$.
#### 4.2.2 Eenzijdig toetsen
Bij eenzijdig toetsen wordt onderzocht of er een verschil of verband is in een specifieke richting. Dit is enkel toegestaan als er een duidelijke, theoretische onderbouwing is voor die specifieke richting.
* **Alternatieve hypothese ($H_1$)**: Stelt een specifieke richting, bijvoorbeeld $\mu < 100$ (linkseenzijdig) of $\mu > 100$ (rechtseenzijdig).
Bij eenzijdig toetsen wordt de gehele $\alpha$ aan één staart van de verdeling toegekend.
* **Rechtseenzijdig toetsen**: $H_1: \mu > 100$. De kritieke waarde voor $\alpha = 0.05$ is $Z = +1.64$.
* **Linkseenzijdig toetsen**: $H_1: \mu < 100$. De kritieke waarde voor $\alpha = 0.05$ is $Z = -1.64$.
#### 4.2.3 Gevolgen van de keuze voor eenzijdig of tweezijdig toetsen
De keuze tussen eenzijdig en tweezijdig toetsen kan bepalend zijn voor de significantie van de resultaten. Een eenzijdige toets kan sneller leiden tot de verwerping van de nulhypothese, omdat de kritieke waarde minder extreem is dan bij een tweezijdige toets. Om de nulhypothese te verwerpen bij een tweezijdige toets, moet het steekproefgemiddelde extremer afwijken van de nulhypothese dan bij een eenzijdige toets.
* **Voorbeeld**: Bij een tweezijdige toets met $\alpha = 0.05$ en een berekende z-waarde van 1.67, wordt $H_0$ niet verworpen. De overschrijdingskans is $2 \times P(Z \ge 1.67) = 2 \times 0.0475 = 0.095$, wat groter is dan 0.05. Echter, bij een rechtseenzijdige toets met dezelfde berekende z-waarde van 1.67, wordt $H_0$ wél verworpen, omdat de overschrijdingskans $P(Z \ge 1.67) = 0.0475$ kleiner is dan 0.05.
### 4.3 Onzekerheden bij hypothesetoetsing
Hypothesetoetsing is gebaseerd op kansberekeningen, wat betekent dat er altijd een zekere mate van onzekerheid en fouten mogelijk is.
#### 4.3.1 Fouten bij hypothesetoetsing
Er zijn twee typen fouten die gemaakt kunnen worden bij hypothesetoetsing:
* **Fout van de eerste soort (Type I fout)**: Het verwerpen van een ware nulhypothese. De kans hierop is gelijk aan het significantieniveau $\alpha$.
* **Fout van de tweede soort (Type II fout)**: Het niet verwerpen van een onware nulhypothese. De kans hierop wordt aangeduid met $\beta$.
#### 4.3.2 Betrouwbaarheidsinterval en onzekerheid
Een betrouwbaarheidsinterval (BI) geeft een reeks waarden aan waarbinnen het populatieparameter met een bepaalde mate van zekerheid zal liggen. Bijvoorbeeld, een 95% betrouwbaarheidsinterval betekent dat, als we het proces van steekproeftrekking en intervalconstructie vele malen zouden herhalen, 95% van deze intervallen de ware populatieparameter zal bevatten. In 5% van de gevallen zal het interval de ware populatieparameter echter niet bevatten. Dit illustreert de inherente onzekerheid.
#### 4.3.3 Effectgrootte
* **Significantie (p-waarde)**: Geeft aan óf er een statistisch significant verschil of verband is, maar zegt niets over de grootte of praktische belangrijkheid van dat effect. Een kleine p-waarde kan soms voortkomen uit een zeer grote steekproef, zelfs als het waargenomen effect klein is.
* **Effectgrootte (Effect Size)**: Kwantificeert de sterkte van het verband of het verschil. Het toont hoeveel van de variatie in de resultaten verklaard kan worden door het waargenomen effect. Effectgroottes helpen bij het inschatten van de praktische relevantie van bevindingen, onafhankelijk van de steekproefgrootte.
* Veelgebruikte maten voor effectgrootte zijn $r$ (correlatiecoëfficiënt) en $d$ (Cohen's d).
* Interpretatie van $r$:
* 0.10 tot 0.30: klein effect
* 0.30 tot 0.50: matig effect
* groter dan 0.50: sterk effect
Hedendaags onderzoek legt steeds meer nadruk op zowel significantie als effectgrootte om een vollediger beeld te krijgen van onderzoeksresultaten.
### 4.4 Kritieke waarden en hun relatie tot de verdeling
De kritieke waarden zijn de grenzen die worden bepaald door het significantieniveau ($\alpha$) en de gekozen toetsrichting (eenzijdig of tweezijdig). Ze markeren de grens tussen het "acceptatiegebied" van de nulhypothese en het "verwerpingsgebied".
* **Tweezijdig, $\alpha = 0.05$**: Kritieke waarden zijn $Z = -1.96$ en $Z = +1.96$.
* **Rechtseenzijdig, $\alpha = 0.05$**: Kritieke waarde is $Z = +1.64$.
* **Linkseenzijdig, $\alpha = 0.05$**: Kritieke waarde is $Z = -1.64$.
Als de berekende toetsingsgrootheid (bijvoorbeeld de z-score van het steekproefgemiddelde) in het verwerpingsgebied valt (d.w.z. groter of kleiner is dan de respectievelijke kritieke waarden), wordt de nulhypothese verworpen.
#### 4.4.1 Voorbeeld met kritieke waarden
Gegeven: populatiegemiddelde $\mu = 100$, standaardafwijking $\sigma = 20$. Steekproef van $n = 49$ met steekproefgemiddelde $\bar{x} = 106$ en standaarddeviatie $s = 18$. We toetsen $H_0: \mu = 100$ tegen $H_1: \mu \ne 100$ (tweezijdig) met $\alpha = 0.05$.
Eerst berekenen we de z-score voor het steekproefgemiddelde:
$$Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} = \frac{106 - 100}{20 / \sqrt{49}} = \frac{6}{20 / 7} = \frac{6}{2.857} \approx 2.1$$
De kritieke waarden voor een tweezijdige toets met $\alpha = 0.05$ zijn $-1.96$ en $+1.96$.
Aangezien de berekende z-score ($2.1$) groter is dan de positieve kritieke waarde ($1.96$), valt deze in het verwerpingsgebied aan de rechterkant van de verdeling. De nulhypothese $H_0$ wordt verworpen. Er is statistisch significant bewijs voor een verschil tussen het steekproefgemiddelde en het populatiegemiddelde.
Dit komt overeen met de overschrijdingskansbenadering, waarbij de kans op een z-waarde van 2.1 of extremer aan beide zijden wordt bekeken. Als de som van deze kansen kleiner is dan $\alpha$, wordt $H_0$ verworpen.
---
# Effectgrootte, parametrisch vs. nonparametrisch toetsen
Dit deel bespreekt het belang van effectgrootte ter aanvulling van significantie en introduceert de twee hoofdcategorieën van statistische toetsen: parametrisch en nonparametrisch.
### 5.1 De rol van effectgrootte in hypothesetoetsing
Bij het trekken van conclusies over populaties op basis van steekproefgegevens, is het cruciaal om niet alleen te kijken of een resultaat statistisch significant is (dus of het onwaarschijnlijk is om op toeval te berusten), maar ook hoe groot en praktisch relevant het waargenomen effect is.
#### 5.1.1 Significantie versus effectgrootte
* **Significantie (p-waarde):** Vertelt ons of er al dan niet een verschil of verband is. Het antwoordt op de vraag: "Werkt het?" of "Is er een effect van X op Y?". Een kleine p-waarde (typisch < $0.05$) suggereert dat het geobserveerde resultaat onwaarschijnlijk is onder de nulhypothese, wat leidt tot het verwerpen van de nulhypothese. Significantie is echter gevoelig voor steekproefgrootte; met een grote steekproef kunnen zelfs zeer kleine effecten significant worden.
* **Effectgrootte (effect size):** Geeft aan hoe groot of klinisch relevant een effect werkelijk is, onafhankelijk van de steekproefomvang. Het antwoordt op de vraag: "Hoe goed werkt het?" of "Hoe sterk bepaalt X de uitkomst Y?". Het kwantificeert de hoeveelheid variatie in de resultaten die verklaard kan worden door het waargenomen effect.
> **Tip:** Een klein, maar statistisch significant effect kan weinig praktische betekenis hebben, terwijl een groot effect, zelfs als het niet significant is, wel aanzienlijke gevolgen kan hebben. Effectgrootte helpt bij het inschatten van de praktische relevantie van bevindingen.
#### 5.1.2 Interpretatie van effectgrootte
Effectgroottes kunnen worden uitgedrukt in verschillende maten, zoals Cohen's $r$ (correlatie), Cohen's $d$ (verschil tussen gemiddelden), etc. Bij de correlatiecoëfficiënt $r$ (die varieert tussen $-1$ en $1$) worden vaak de volgende interpretaties gehanteerd:
* $0.10 < |r| < 0.30$: klein effect
* $0.30 < |r| < 0.50$: matig effect
* $|r| > 0.50$: sterk effect
Effectgrootte maakt resultaten gemakkelijker te interpreteren en te communiceren, omdat het de impact van een interventie of variabele directer weergeeft.
### 5.2 Parametrische versus nonparametrische toetsen
Statistische toetsen kunnen worden onderverdeeld in twee hoofdcategorieën, afhankelijk van de aannames die ze maken over de populatie waaruit de steekproef is getrokken.
#### 5.2.1 Parametrische toetsen
Parametrische toetsen maken specifieke aannames over de parameters van de populatie, met name over de verdeling van de data.
* **Aannames:** De belangrijkste aanname is vaak dat de data uit een populatie komen die normaal verdeeld is (of dat de steekproeven groot genoeg zijn voor het centrale limietstelling om te gelden). Andere mogelijke aannames zijn homogeniteit van varianties en onafhankelijkheid van waarnemingen.
* **Voorbeelden:** De $z$-toets voor het gemiddelde, de $t$-toetsen, de $F$-toets (ANOVA).
* **Voordelen:** Parametrische toetsen zijn over het algemeen krachtiger dan nonparametrische toetsen wanneer aan de aannames is voldaan, wat betekent dat ze een grotere kans hebben om een werkelijk effect te detecteren.
#### 5.2.2 Nonparametrische toetsen
Nonparametrische toetsen, ook wel "verdelingsvrije toetsen" genoemd, maken minder of geen aannames over de populatieverdeling.
* **Aannames:** Ze vereisen geen normaliteitsassumptie en zijn daarom geschikt wanneer de data niet normaal verdeeld zijn, of wanneer er sprake is van kleine steekproefgroottes waarvoor de centrale limietstelling niet volstaat. Ze zijn ook nuttig bij ordinale of nominale data.
* **Voorbeelden:** De Mann-Whitney U-toets (alternatief voor onafhankelijke $t$-toets), de Wilcoxon signed-rank test (alternatief voor gepaarde $t$-toets), de chi-kwadraat toets.
* **Nadelen:** Ze kunnen minder krachtig zijn dan parametrische toetsen wanneer de aannames van de parametrische toetsen wel voldaan zijn.
> **Tip:** De keuze tussen een parametrische en een nonparametrische toets hangt af van de aard van de data en of de onderliggende aannames van de parametrische toetsen zijn geschonden. Als de aannames niet voldaan zijn, kan een nonparametrische toets een betrouwbaardere conclusie opleveren.
#### 5.2.3 Belang van de keuze
De keuze van de toets is cruciaal voor de validiteit van de statistische conclusies. Het correct toepassen van de juiste toets, gebaseerd op de data en de onderzoeksvraag, is essentieel voor betrouwbare resultaten.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Populatiegemiddelde | Het gemiddelde van een bepaalde variabele over de gehele populatie waarover men uitspraken wil doen. Dit is vaak onbekend en wordt geschat op basis van steekproefgegevens. |
| Betrouwbaarheidsinterval (BI) | Een intervalschatting die een reeks waarden weergeeft waarvan men met een bepaalde mate van zekerheid kan zeggen dat het populatiegemiddelde erin ligt. Een 95% BI betekent dat als men het proces van steekproeftrekking en intervalconstructie 100 keer zou herhalen, ongeveer 95 van deze intervallen het werkelijke populatiegemiddelde zouden bevatten. |
| Puntestimatie | Een enkele waarde die als schatting voor een populatieparameter dient. In tegenstelling tot een betrouwbaarheidsinterval geeft een puntschatting geen indicatie van de onzekerheid rond de schatting. |
| Steekproef | Een subset van de populatie die wordt geselecteerd voor onderzoek. De eigenschappen van de steekproef worden gebruikt om conclusies te trekken over de populatie. |
| Steekproevenverdeling | De verdeling van een statistiek (zoals het gemiddelde) berekend uit meerdere steekproeven van dezelfde omvang uit dezelfde populatie. Deze verdeling is cruciaal voor hypothesetoetsing en het construeren van betrouwbaarheidsintervallen. |
| Nulhypothese (H0) | Een statistische hypothese die stelt dat er geen significant verschil of verband is tussen twee groepen of variabelen. Het is de hypothese die men initieel aanneemt en probeert te weerleggen met steekproefgegevens. |
| Alternatieve hypothese (H1) | Een statistische hypothese die stelt dat er wel een significant verschil of verband is tussen twee groepen of variabelen. Deze hypothese wordt aangenomen als de nulhypothese significant wordt verworpen. |
| Alfa (α) | Het significantieniveau dat wordt gebruikt om de nulhypothese te verwerpen. Meestal ingesteld op 0.05 (5%), wat betekent dat er een 5% kans is op het maken van een Type I fout (het verwerpen van een ware nulhypothese). |
| Overschrijdingskans (p-waarde) | De kans om een steekproefresultaat te observeren dat minstens zo extreem is als het gevonden resultaat, ervan uitgaande dat de nulhypothese waar is. Een p-waarde kleiner dan alfa leidt tot het verwerpen van de nulhypothese. |
| Eenzijdig toetsen | Een type hypothesetoets waarbij men zich richt op een specifiek richting van een verschil of verband (bijvoorbeeld groter dan of kleiner dan). Dit wordt gebruikt wanneer er een duidelijke theoretische reden is om eenrichtingsverwachtingen te hebben. |
| Tweezijdig toetsen | Een type hypothesetoets waarbij men rekening houdt met verschillen of verbanden in beide richtingen (bijvoorbeeld niet gelijk aan). Dit is de standaardbenadering wanneer er geen specifieke richting wordt verwacht. |
| Kritieke waarde | Een drempelwaarde in de verdeling van een toetsingsgrootheid. Als de berekende toetsingsgrootheid (bijvoorbeeld Z-score) groter is in absolute waarde dan de kritieke waarde, wordt de nulhypothese verworpen. |
| Effectgrootte | Een maat die aangeeft hoe groot of hoe belangrijk een waargenomen effect is, onafhankelijk van de steekproefomvang. Het kwantificeert de mate van verschil of de sterkte van een verband, wat helpt bij het interpreteren van de praktische relevantie van resultaten. |
| Parametrische toetsen | Statistische toetsen die aannames doen over de verdeling van de populatieparameters (bijvoorbeeld normaliteit, gelijke varianties). Voorbeelden zijn de t-toets en de Z-toets. |
| Nonparametrische toetsen | Statistische toetsen die minder strikte aannames doen over de populatieverdeling. Ze worden vaak gebruikt wanneer de voorwaarden voor parametrische toetsen niet zijn voldaan. Voorbeelden zijn de Mann-Whitney U-toets en de chi-kwadraattoets. |
Cover
Student - Hoorcollege 5 - Toetsen voor één populatie.pptx
Summary
# Inleiding tot hypothesetoetsing en de keuze van toetsen
Dit gedeelte introduceert het concept van hypothesetoetsing, de verschillende soorten toetsen, en de criteria om de juiste statistische toets te kiezen op basis van de onderzoeksvraag en variabelen.
## 1. Inleiding tot hypothesetoetsing en de keuze van toetsen
Hypothesetoetsing is een statistische methode die gebruikt wordt om te bepalen of een bepaalde aanname over een populatie (de nulhypothese) verworpen kan worden op basis van steekproefgegevens. De kern van elke hypothesetoets is het gebruik van kansberekening om te evalueren of de waargenomen resultaten overeenkomen met wat verwacht mag worden onder de aanname van de nulhypothese.
### 1.1 Het stramien van toetsen
Elke hypothesetoets volgt een gestructureerd stappenplan om tot een conclusie te komen:
1. **Toetsingssituatie**: Identificeren van de gegevens en de specifieke onderzoeksvraag die beantwoord moet worden. Dit omvat het vaststellen van het type onderzoeksvraag en de context waarin de toets wordt toegepast.
2. **Voorwaarden**: Nagaan of aan de statistische voorwaarden voor de gekozen toets is voldaan. Deze voorwaarden zijn cruciaal voor de validiteit van de resultaten.
3. **Hypothesen**: Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$). De nulhypothese representeert de status quo of de aanname die getest wordt, terwijl de alternatieve hypothese de theorie representeert die men hoopt te ondersteunen.
4. **Toetsingsgrootheid**: Berekenen van de toetsingsgrootheid, een waarde die de mate van afwijking van de nulhypothese samenvat. De kansverdeling van deze grootheid onder de nulhypothese is essentieel.
5. **Beslissingsregel**: Bepalen wanneer de nulhypothese verworpen wordt, meestal door te vergelijken met een kritieke waarde of door de overschrijdingskans (p-waarde) te beoordelen.
6. **Effectgrootte**: Berekenen van de effectgrootte om de sterkte of het belang van het gevonden effect te kwantificeren, onafhankelijk van de significantie.
7. **Rapporteren**: Op een correcte en volledige manier rapporteren van de resultaten van de toets, inclusief de toetsingsgrootheid, p-waarde, vrijheidsgraden en effectgrootte.
### 1.2 Criteria voor het kiezen van de juiste toets
De keuze voor de juiste statistische toets hangt af van verschillende factoren gerelateerd aan de onderzoeksvraag en de variabelen:
* **Onderzoeksvraag**: Begrijpen wat precies onderzocht wordt.
* **Variabelen**: Identificeren van afhankelijke en onafhankelijke variabelen.
* **Meetniveau van variabelen**: Bepalen of variabelen nominaal, ordinaal, interval of ratio zijn.
* **Aantal populaties**: Onderzoeken of de toets betrekking heeft op één, twee of meer populaties.
* **Steekproeven**: Vaststellen of de steekproeven afhankelijk of onafhankelijk zijn.
* **Parametrisch vs. Non-parametrisch**: Kiezen tussen parametrische toetsen (die aannames doen over de populatieverdeling, zoals normaliteit) en non-parametrische toetsen (die minder strikte aannames hebben).
* **Eenzijdig vs. Tweezijdig**: Beslissen of de alternatieve hypothese een specifieke richting van het effect voorspelt (eenzijdig) of enkel een verschil aangeeft (tweezijdig).
### 1.3 Parametrische toetsen: de t-toets voor één gemiddelde (One Sample t-test)
De t-toets voor één gemiddelde wordt gebruikt om te onderzoeken of het gemiddelde van een steekproef significant afwijkt van een bekende populatiewaarde, wanneer de populatiestandaarddeviatie onbekend is.
#### 1.3.1 Toetsingssituatie
Deze toets is geschikt wanneer men het gemiddelde van één steekproef uit één populatie wil vergelijken met een specifieke waarde (bijvoorbeeld een theoretisch gemiddelde of een historisch gemiddelde). De toets kan eenzijdig (links of rechts) of tweezijdig worden uitgevoerd.
> **Voorbeeld**: Een fabrikant beweert dat hun chocoladerepen gemiddeld 300 gram wegen. Om dit te controleren, wordt een steekproef van 40 repen gewogen. De vraag is of het gemiddelde gewicht van deze steekproef significant afwijkt van de geclaimde 300 gram. Dit is een tweezijdige toets, omdat men geïnteresseerd is in zowel afwijkingen naar boven als naar beneden.
#### 1.3.2 Voorwaarden
De belangrijkste voorwaarden voor het gebruik van de t-toets voor één gemiddelde zijn:
* De afhankelijke variabele is normaal verdeeld in de populatie. Als dit niet het geval is, is de toets robuust bij een steekproefgrootte ($N$) van 30 of meer.
* De afhankelijke variabele is gemeten op minstens intervalniveau (bv. gewicht, IQ-score, score op een taak).
#### 1.3.3 Waarom een t-toets en geen z-toets?
De z-toets wordt gebruikt wanneer de populatiestandaarddeviatie ($\sigma$) bekend is. In veel praktische situaties is $\sigma$ echter onbekend en moet deze geschat worden met de steekproefstandaarddeviatie ($s$). De t-toets is ontworpen voor deze situaties, met name bij kleinere steekproeven ($N < 100$). Bij zeer grote steekproeven ($N \geq 100$) benadert de t-verdeling de normale verdeling, waardoor de resultaten van een t-toets en z-toets vergelijkbaar worden.
#### 1.3.4 Hypothesen
* **Eenzijdig (links)**:
* $H_0$: Het populatiegemiddelde is gelijk aan of groter dan de referentiewaarde.
* $H_1$: Het populatiegemiddelde is kleiner dan de referentiewaarde.
* **Eenzijdig (rechts)**:
* $H_0$: Het populatiegemiddelde is gelijk aan of kleiner dan de referentiewaarde.
* $H_1$: Het populatiegemiddelde is groter dan de referentiewaarde.
* **Tweezijdig**:
* $H_0$: Het populatiegemiddelde is gelijk aan de referentiewaarde.
* $H_1$: Het populatiegemiddelde is niet gelijk aan de referentiewaarde.
#### 1.3.5 Toetsingsgrootheid
De t-statistiek wordt berekend met de volgende formule:
$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{N}}$$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de hypothetische populatiewaarde is.
* $s$ de steekproefstandaarddeviatie is.
* $N$ de steekproefgrootte is.
De t-toets maakt gebruik van de t-verdeling, die afhankelijk is van de vrijheidsgraden.
#### 1.3.6 Vrijheidsgraden
De vrijheidsgraden ($df$) voor de one sample t-test worden berekend als:
$$df = N - 1$$
De vrijheidsgraden bepalen de specifieke vorm van de t-verdeling en beïnvloeden de kritieke waarden.
#### 1.3.7 Beslissingsregel (Kritieke waarden en p-waarde)
De nulhypothese wordt verworpen als:
* De berekende t-waarde groter is dan de kritieke t-waarde (voor rechtseenzijdig) of kleiner is dan de kritieke t-waarde (voor linkseenzijdig).
* Voor een tweezijdige toets, de absolute waarde van de berekende t-waarde groter is dan de kritieke t-waarde die hoort bij $\alpha/2$.
* De overschrijdingskans (p-waarde) kleiner is dan het gekozen significantieniveau ($\alpha$).
> **Voorbeeld**: Een studie met $N = 29$ en een significantieniveau van $\alpha = 0.05$. De vrijheidsgraden zijn $df = 29 - 1 = 28$. Voor een rechtseenzijdige toets, met $\alpha = 0.05$ en $df = 28$, is de kritieke waarde ongeveer 1.701. Als de berekende t-score $1.28$ is, wordt de nulhypothese niet verworpen omdat $1.28 < 1.701$.
Bij een tweezijdige toets met dezelfde parameters, is de kritieke waarde voor $|t|$ ongeveer 2.048. Als de berekende t-score $1.28$ is, wordt de nulhypothese niet verworpen omdat $|1.28| < 2.048$.
#### 1.3.8 Effectgrootte
Effectgrootte meet de omvang van het effect en wordt vaak uitgedrukt met $r$:
* $0.10 < r < 0.30$: klein effect
* $0.30 < r < 0.50$: matig effect
* $r > 0.50$: sterk effect
> **Voorbeeld**: Een t-toets leverde $t(28) = 1.28$, $p > 0.05$, en een effectgrootte van $r = 0.2351$ (klein effect). Dit betekent dat er weliswaar een indicatie is van een effect, maar dit is niet statistisch significant en van geringe omvang.
#### 1.3.9 Rapporteren
Een correcte rapportage van een one sample t-test omvat:
* De toetsingssituatie en de uitgevoerde toets.
* Het steekproefgemiddelde ($M$) en de standaarddeviatie ($SD$).
* De referentiewaarde uit de populatie.
* De berekende t-statistiek met vrijheidsgraden: $t(df) = \text{waarde}$.
* De p-waarde ($p$).
* De effectgrootte ($r$).
> **Voorbeeld**: Om na te gaan of vaders uit grote gezinnen een gemiddelde intelligentie hebben, werd een one sample t-test uitgevoerd. Gemiddeld hadden de vaders uit de steekproef een hogere intelligentie ($M = 102.93$, $SD = 12.36$) dan de referentiewaarde 100 uit de populatie. Dit effect was niet significant met $t(28) = 1.28$, $p > 0.05$, $r = 0.2351$ (klein effect).
#### 1.3.10 Opmerkingen over t-toets vs. z-toets in software (SPSS)
Software zoals SPSS voert standaard een t-toets uit omdat de populatiestandaarddeviatie zelden bekend is. Belangrijk is dat de overschrijdingskansen (p-waarden) bij een t-toets over het algemeen groter zijn dan bij een z-toets. Dit betekent:
* **Type I-fout (alpha)**: De kans op een Type I-fout (onterecht verwerpen van $H_0$) is kleiner bij een t-toets dan bij een z-toets, omdat de drempel voor significantie hoger is.
* **Type II-fout (beta)**: De kans op een Type II-fout (onterecht aanvaarden van $H_0$) is groter bij een t-toets. Een echt effect kan minder snel gedetecteerd worden door de bredere t-verdeling.
### 1.4 Non-parametrische toetsen: de chikwadraattoets voor frequenties (Chi-square goodness of fit test)
De chikwadraattoets voor frequenties is een non-parametrische toets die wordt gebruikt wanneer de afhankelijke variabele categorisch is (nominaal of ordinaal) en men de geobserveerde frequenties in categorieën vergelijkt met verwachte frequenties.
#### 1.4.1 Toetsingssituatie
Deze toets is geschikt wanneer men wil nagaan of de frequentieverdeling in een steekproef overeenkomt met een verwachte verdeling uit de populatie. De variabelen worden hierbij als categorieën beschouwd, zelfs als ze oorspronkelijk ordinaal waren.
> **Voorbeeld**: Men onderzoekt of een specifieke klas van 7-8 jarigen afwijkt van de algemene populatie qua leesniveau (AVI-niveaus). Van de 26 leerlingen lezen 9 (34.62%) op AVI 5-niveau. Uit eerder onderzoek blijkt dat 23% van de 7-8 jarigen in de algemene populatie op AVI 5-niveau leest. De vraag is of deze klas uitzonderlijk is qua leesniveau vergeleken met de populatie. Dit is een test voor geobserveerde versus verwachte frequenties.
#### 1.4.2 Voorwaarden
De voorwaarden voor de chikwadraattoets voor frequenties zijn:
* De categorieën moeten elkaar uitsluiten.
* Maximaal 20% van de categorieën mag een verwachte frequentie kleiner dan 5 hebben.
* Geen enkele categorie mag een verwachte frequentie kleiner dan 1 hebben.
* Ordinale variabelen worden als nominale variabelen (categorieën) behandeld.
#### 1.4.3 Hypothesen
* $H_0$: De geobserveerde frequenties komen overeen met de verwachte frequenties.
* $H_1$: De geobserveerde frequenties wijken significant af van de verwachte frequenties.
#### 1.4.4 Toetsingsgrootheid
De chikwadraat ($\chi^2$) statistiek wordt berekend met de formule:
$$\chi^2 = \sum_{i=1}^{k} \frac{(f_{o,i} - f_{e,i})^2}{f_{e,i}}$$
waarbij:
* $f_o$ de geobserveerde frequenties zijn.
* $f_e$ de verwachte frequenties zijn.
* $k$ het aantal categorieën is.
De toetsingsgrootheid volgt een $\chi^2$-verdeling.
#### 1.4.5 Vrijheidsgraden
De vrijheidsgraden ($df$) voor de chikwadraattoets voor frequenties worden berekend als:
$$df = k - 1$$
waarbij $k$ het aantal categorieën is. Dit verschilt van de $df = N-1$ bij de t-toets.
#### 1.4.6 Beslissingsregel
De nulhypothese wordt verworpen als:
* De berekende $\chi^2$-waarde groter is dan de kritieke $\chi^2$-waarde voor het gekozen significantieniveau ($\alpha$) en de berekende vrijheidsgraden.
* De overschrijdingskans (p-waarde) kleiner is dan $\alpha$.
De $\chi^2$-toets is per definitie altijd tweezijdig, omdat de toetsingsgrootheid altijd positief is en de verdeling zich uitstrekt van 0 tot oneindig. Men kijkt dus altijd naar de rechterstaart van de verdeling.
> **Voorbeeld**: Bij een $\alpha = 0.05$ en $df = 1$ (twee categorieën), is de kritieke $\chi^2$-waarde 3.84. Als de berekende $\chi^2$-statistiek $1.95$ is, wordt de nulhypothese niet verworpen omdat $1.95 < 3.84$.
#### 1.4.7 Effectgrootte
De effectgrootte voor de chikwadraattoets is vaak "phi" ($\phi$):
* $0.10 < \phi < 0.30$: klein effect
* $0.30 < \phi < 0.50$: matig effect
* $\phi > 0.50$: sterk effect
#### 1.4.8 Rapporteren
Een correcte rapportage van een chikwadraattoets voor frequenties omvat:
* De toetsingssituatie en de uitgevoerde toets.
* De geobserveerde en verwachte frequenties per categorie.
* De berekende $\chi^2$-statistiek met vrijheidsgraden: $\chi^2(df) = \text{waarde}$.
* De p-waarde ($p$).
* De effectgrootte ($\phi$).
> **Voorbeeld**: Om na te gaan of de leesniveaus in een klas afwijken van de populatie, werd een chikwadraattoets voor frequenties uitgevoerd. De geobserveerde frequentie van leerlingen op AVI 5-niveau was 9, tegenover een verwachte frequentie van 6. De toets gaf $\chi^2(1) = 1.95$, $p > 0.05$, $\phi = 0.27$ (klein effect).
### 1.5 Conclusie: overzicht van toetsen voor één populatie
| Type Toets | Afhankelijke Variabele | Populatie(s) | Steekproef(en) | Toets Naam | Kenmerken |
| :--------------------------- | :--------------------- | :----------- | :------------- | :----------------------------- | :------------------------------------------------------ |
| **Parametrisch** | Minstens interval | 1 | 1 | T-toets voor één gemiddelde | $\sigma$ onbekend, normale verdeling (of $N \geq 30$) |
| | | | | (One Sample t-test) | Eenzijdig/tweezijdig mogelijk |
| **Non-parametrisch** | Categorisch (nominaal/ordinaal) | 1 | 1 | Chikwadraattoets voor frequenties | Vergelijkt geobserveerde met verwachte frequenties |
| | | | | (Chi square goodness of fit) | Altijd tweezijdig, $df = k-1$ |
De keuze tussen deze toetsen hangt cruciaal af van het meetniveau van de afhankelijke variabele en de specifieke onderzoeksvraag.
---
# De t-toets voor één gemiddelde
2. De t-toets voor één gemiddelde
Dit onderwerp behandelt de parametrische t-toets voor één gemiddelde, inclusief de stappen van het toetsingsproces, de voorwaarden, hypothesen, toetsingsgrootheid, beslissingsregels, effectgrootte en rapportering.
### 2.1 Inleiding tot hypothesetoetsing
Hypothesetoetsing omvat diverse toetsen die, ondanks hun variërende formules en toepassingsgebieden, hetzelfde principe hanteren: het beoordelen van de houdbaarheid van de nulhypothese aan de hand van kansberekening. Binnen de hypothesetoetsing worden parametrische en non-parametrische toetsen onderscheiden.
### 2.2 Het stramien van hypothesetoetsen
Het algemene proces voor het uitvoeren van een hypothesetoets bestaat uit de volgende stappen:
1. **Toetsingssituatie**: Bepalen van de specifieke situatie en het onderzoeksvraagstuk.
2. **Voorwaarden**: Nagaan of aan de statistische voorwaarden voor de gekozen toets is voldaan.
3. **Hypothesen**: Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$).
4. **Toetsingsgrootheid**: Berekenen van de toetsingsgrootheid en bepalen van de bijbehorende kansverdeling.
5. **Beslissingsregel**: Vaststellen van de criteria om de nulhypothese te verwerpen, gebaseerd op overschrijdingskansen of kritieke waarden.
6. **Effectgrootte**: Kwantificeren van de belangrijkheid of sterkte van het gevonden effect.
7. **Rapporteren**: Correct presenteren van de onderzoeksresultaten.
### 2.3 De t-toets voor één gemiddelde (One-sample t-test)
De t-toets voor één gemiddelde wordt gebruikt om te onderzoeken of een steekproefgemiddelde significant afwijkt van een bepaalde (populatie)waarde binnen één enkele populatie.
#### 2.3.1 Toetsingssituatie
De t-toets voor één gemiddelde is van toepassing wanneer de onderzoeksvraag luidt of een steekproefgemiddelde significant afwijkt van een specifieke waarde in de populatie. Men kan zowel eenzijdige als tweezijdige toetsen toepassen.
> **Voorbeeld:** Een fabrikant beweert dat chocoladerepen gemiddeld 300 gram wegen. Om dit te controleren, worden 40 repen gewogen en wordt het steekproefgemiddelde vergeleken met de geclaimde 300 gram. Dit is een tweezijdige toets, omdat men wil weten of het gewicht significant *afwijkt* van 300 gram (dus zowel eronder als erboven).
#### 2.3.2 Voorwaarden
Voor het correct toepassen van de t-toets voor één gemiddelde moet aan de volgende voorwaarden worden voldaan:
* De afhankelijke variabele is normaal verdeeld in de populatie. Indien de populatieverdeling niet normaal is, is de toets nog steeds bruikbaar als de steekproefomvang ($N$) groter of gelijk is aan 30.
* De afhankelijke variabele is gemeten op minstens intervalniveau (bijvoorbeeld gewicht, IQ-scores, lengte, score op een taak).
#### 2.3.3 Waarom de t-toets in plaats van de Z-toets?
De Z-toets is doorgaans niet geschikt voor kleinere steekproeven ($N < 100$) omdat de populatiestandaarddeviatie ($\sigma$) vaak onbekend is. In plaats daarvan wordt de standaarddeviatie van de steekproef ($s$) gebruikt. De t-toets gebruikt de steekproefstandaarddeviatie en hanteert een t-verdeling die afhankelijk is van de steekproefomvang. Bij grote steekproeven ($N \ge 100$) leveren de t-toets en de Z-toets vergelijkbare resultaten op.
#### 2.3.4 Hypothesen
De hypothesen voor de t-toets voor één gemiddelde kunnen als volgt geformuleerd worden:
* **Linkseenzijdig:**
* $H_0$: Het populatiegemiddelde is gelijk aan of groter dan de referentiewaarde ($\mu \ge \mu_0$).
* $H_1$: Het populatiegemiddelde is kleiner dan de referentiewaarde ($\mu < \mu_0$).
* **Rechtseenzijdig:**
* $H_0$: Het populatiegemiddelde is gelijk aan of kleiner dan de referentiewaarde ($\mu \le \mu_0$).
* $H_1$: Het populatiegemiddelde is groter dan de referentiewaarde ($\mu > \mu_0$).
* **Tweezijdig:**
* $H_0$: Het populatiegemiddelde is gelijk aan de referentiewaarde ($\mu = \mu_0$).
* $H_1$: Het populatiegemiddelde is niet gelijk aan de referentiewaarde ($\mu \neq \mu_0$).
#### 2.3.5 Toetsingsgrootheid
De toetsingsgrootheid voor de t-toets voor één gemiddelde wordt berekend met de volgende formule:
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{N}} $$
Waarbij:
* $\bar{x}$ het steekproefgemiddelde is.
* $\mu_0$ de hypothetische populatiewaarde is onder de nulhypothese.
* $s$ de standaarddeviatie van de steekproef is.
* $N$ de steekproefomvang is.
De t-toets maakt gebruik van de t-verdeling, die verschilt van de standaardnormale verdeling (Z-verdeling) en afhankelijk is van de vrijheidsgraden.
**Vrijheidsgraden (df):**
De vrijheidsgraden voor de t-toets worden berekend als $df = N - 1$. Dit aantal bepaalt de specifieke t-verdeling die gebruikt wordt en dus ook de kritieke t-waarde.
> **Voorbeeld:** Bij een onderzoek met een steekproefomvang van $N = 100$ bedragen de vrijheidsgraden $df = 100 - 1 = 99$.
#### 2.3.6 Beslissingsregel
De beslissingsregel houdt in dat de nulhypothese ($H_0$) wordt verworpen als de berekende toetsingsgrootheid (t-score) buiten het acceptatiegebied valt, wat kan worden vastgesteld aan de hand van:
* **Overschrijdingskansen (p-waarde):** Als de p-waarde kleiner is dan het significantieniveau ($\alpha$), wordt $H_0$ verworpen.
* **Kritieke waarden:** Als de berekende t-score groter is dan de kritieke t-waarde (bij rechtseenzijdige toets) of kleiner is dan de negatieve kritieke t-waarde (bij linkseenzijdige toets), of als de absolute waarde van de t-score groter is dan de kritieke t-waarde (bij tweezijdige toets), wordt $H_0$ verworpen.
Bij een tweezijdige toets worden de kansen in beide staarten van de symmetrische t-verdeling in acht genomen. Als het significantieniveau $\alpha$ is, wordt vergeleken met $\alpha/2$ in elke staart.
> **Voorbeeld:** Bij een eenzijdige toets met $\alpha = 0.05$ en $df = 28$, is de kritieke t-waarde gelijk aan 1.701. Als de berekende t-score $t = 1.28$ is, wordt $H_0$ niet verworpen omdat $1.28 < 1.701$. Bij een tweezijdige toets met dezelfde parameters wordt vergeleken met een kritieke waarde van $t_{kritiek} = 2.048$. De t-score van 1.28 valt binnen het acceptatiegebied (-2.048 tot +2.048), waardoor $H_0$ niet verworpen wordt.
#### 2.3.7 Gevolgen voor Type I en Type II fouten
* **Type I fout ( $\alpha$ ):** De kans op een Type I fout is *kleiner* bij een t-toets dan bij een Z-toets. Dit komt doordat de overschrijdingskansen (p-waarden) bij een t-toets over het algemeen groter zijn, wat de kans verkleint dat een nulhypothese ten onrechte wordt verworpen.
* **Type II fout ( $\beta$ ):** De kans op een Type II fout is *groter* bij een t-toets dan bij een Z-toets. De bredere staarten van de t-verdeling vergroten de kans dat een werkelijk bestaand effect niet wordt gedetecteerd.
#### 2.3.8 Effectgrootte
De effectgrootte kwantificeert de sterkte van een gevonden effect, onafhankelijk van de significantie. Voor de t-toets voor één gemiddelde wordt vaak de effectgrootte $r$ gebruikt, die interpreteerbaar is als volgt:
* $0.10 < r < 0.30$: klein effect
* $0.30 < r < 0.50$: matig effect
* $r > 0.50$: sterk effect
> **Voorbeeld:** De resultaten van een one-sample t-test tonen een gemiddelde intelligentie van $M = 102.93$ met $SD = 12.36$ bij vaders uit grote gezinnen, vergeleken met een referentiewaarde van 100. Het effect was niet significant met $t(28) = 1.28, p > .05$, maar de effectgrootte was $r = .2351$, wat duidt op een klein effect. Dit betekent dat hoewel er een licht verhoogd gemiddelde werd gevonden, dit verschil niet groot genoeg was om statistisch significant te zijn.
#### 2.3.9 Rapporteren
Bij het rapporteren van de resultaten van een t-toets voor één gemiddelde worden de volgende elementen vermeld: de uitgevoerde toets, het gemiddelde en de standaarddeviatie van de steekproef, de referentiewaarde, de t-score, de vrijheidsgraden, de p-waarde, en de effectgrootte.
> **Voorbeeld van rapportage:** "Om na te gaan of vaders uit grote gezinnen een gemiddelde intelligentie hebben, werd een one-sample t-test uitgevoerd. Gemiddeld hadden de vaders uit de steekproef een hogere intelligentie ($M = 102.93, SD = 12.36$) dan de referentiewaarde van 100 uit de populatie. Dit effect was echter niet significant met $t(28) = 1.28, p > .05$, met een kleine effectgrootte van $r = .2351$."
### 2.4 Parametrisch versus Non-parametrisch
De t-toets is een **parametrische toets**, wat betekent dat deze gebaseerd is op aannames over de parameters van de populatie, zoals de normale verdeling. Als aan de voorwaarden voor een parametrische toets niet kan worden voldaan, bijvoorbeeld omdat de afhankelijke variabele categorisch is (nominaal of ordinaal) en er met frequenties wordt gewerkt, wordt een **non-parametrische toets** zoals de chikwadraattoets voor frequenties overwogen.
---
# De chikwadraattoets voor frequenties
Hieronder volgt een gedetailleerde studiehandleiding voor de chikwadraattoets voor frequenties.
## 3. De chikwadraattoets voor frequenties
Deze non-parametrische toets wordt gebruikt om te bepalen of de geobserveerde frequenties van een categorische variabele significant afwijken van de verwachte frequenties binnen één populatie.
### 3.1 Toetsingssituatie
De chikwadraattoets voor frequenties (ook wel chi-kwadraattoets voor één steekproef of chi square goodness of fit test genoemd) wordt toegepast wanneer je onderzoeksvraag draait om de verdeling van geobserveerde frequenties over verschillende categorieën van een variabele en je deze wilt vergelijken met een verwachte verdeling. Dit is met name relevant wanneer de afhankelijke variabele categorisch is (nominaal of ordinaal) en je de frequenties binnen deze categorieën bestudeert. Parametrische toetsen, zoals de t-toets, vereisen doorgaans variabelen op minstens intervalniveau.
**Voorbeeld:** Stel je voor dat je wilt onderzoeken of een specifieke klas van 7-8 jarigen een uitzonderlijk leesniveau heeft in vergelijking met de algemene populatie. Je observeert dat 9 van de 26 leerlingen (ongeveer 34,62%) op AVI-niveau 5 lezen. Uit eerder onderzoek weet je dat dit percentage in de algemene populatie 23% is. Je wilt weten of de geobserveerde frequenties in deze klas overeenkomen met de verwachte frequenties op basis van de populatiegegevens.
In dit voorbeeld is het AVI-niveau een ordinale variabele, maar voor deze toets wordt deze behandeld als een nominale variabele met geobserveerde frequenties.
### 3.2 Voorwaarden
Om de chikwadraattoets voor frequenties correct toe te passen, moet aan de volgende voorwaarden worden voldaan:
* **Onafhankelijke categorieën:** De categorieën van de variabele waarvan de frequenties worden bestudeerd, moeten elkaar uitsluiten. Een observatie kan slechts in één categorie vallen.
* **Verwachte frequenties:**
* Maximaal 20% van de categorieën mag een verwachte frequentie kleiner dan 5 hebben.
* Geen enkele categorie mag een verwachte frequentie kleiner dan 1 hebben.
* **Variabele type:** Ordinale variabelen worden beschouwd als nominale variabelen (categorieën) bij deze toets.
### 3.3 Hypothesen
Bij de chikwadraattoets voor frequenties worden de volgende hypothesen geformuleerd:
* **Nulhypothese ($H_0$):** Er is geen significant verschil tussen de geobserveerde frequenties en de verwachte frequenties. De steekproefverdeling komt overeen met de verwachte populatieverdeling.
$$H_0: f_o = f_e$$
* **Alternatieve hypothese ($H_1$):** Er is een significant verschil tussen de geobserveerde frequenties en de verwachte frequenties. De steekproefverdeling wijkt af van de verwachte populatieverdeling.
$$H_1: f_o \neq f_e$$
De chikwadraattoets is per definitie altijd een tweezijdige toets, omdat de toetsingsgrootheid enkel positieve waarden kan aannemen en dus altijd naar de rechterstaart wordt gekeken.
### 3.4 Toetsingsgrootheid
De toetsingsgrootheid voor de chikwadraattoets voor frequenties is de chikwadraatstatistiek, aangeduid met het symbool $\chi^2$. Deze wordt berekend met de volgende formule:
$$ \chi^2 = \sum_{i=1}^{k} \frac{(f_{o,i} - f_{e,i})^2}{f_{e,i}} $$
Waarin:
* $f_{o,i}$ staat voor de geobserveerde frequentie in categorie $i$.
* $f_{e,i}$ staat voor de verwachte frequentie in categorie $i$.
* $k$ staat voor het aantal categorieën.
De $\chi^2$-statistiek volgt een chikwadraatverdeling met $df = k - 1$ vrijheidsgraden. Dit is een belangrijk verschil met de $df$ bij de t-toets, die berekend wordt als $N-1$.
### 3.5 Beslissingsregels
De beslissing om de nulhypothese te verwerpen wordt genomen op basis van een significantieniveau ($\alpha$) en de berekende $\chi^2$-waarde in relatie tot de kritieke waarde uit de $\chi^2$-verdeling, of via de overschrijdingskans (p-waarde).
* **Via kritieke waarden:** Als de berekende $\chi^2$-waarde groter is dan de kritieke $\chi^2$-waarde die hoort bij het gekozen $\alpha$-niveau en het aantal vrijheidsgraden, wordt $H_0$ verworpen.
* **Via overschrijdingskansen:** Als de berekende p-waarde kleiner is dan het gekozen $\alpha$-niveau, wordt $H_0$ verworpen.
**Let op:** De vorm van de chikwadraatverdeling is scheef naar rechts, met waarden die lopen van 0 tot oneindig. De tabellen met kritieke waarden voor de $\chi^2$-verdeling geven doorgaans de "rechter kritieke waarde" weer, wat aansluit bij de tweezijdige aard van de toets.
**Voorbeeld berekening en beslissing:**
Stel, voor het AVI-5 voorbeeld:
* Geobserveerde frequentie ($f_o$) voor AVI-5 of hoger: 9
* Verwachte frequentie ($f_e$) voor AVI-5 of hoger: 6 (gebaseerd op 23% van 26 leerlingen)
* Geobserveerde frequentie ($f_o$) voor AVI-5 of lager: 17
* Verwachte frequentie ($f_e$) voor AVI-5 of lager: 20
Met 2 categorieën (AVI-5 of hoger, AVI-5 of lager), is het aantal vrijheidsgraden $df = 2 - 1 = 1$. Bij een significantieniveau van $\alpha = 0.05$ is de kritieke $\chi^2$-waarde uit de tabel 3.84.
De berekende $\chi^2$-statistiek is $\frac{(9-6)^2}{6} + \frac{(17-20)^2}{20} = \frac{9}{6} + \frac{9}{20} = 1.5 + 0.45 = 1.95$.
Aangezien $1.95 < 3.84$, wordt de nulhypothese niet verworpen. Dit betekent dat het waargenomen leesniveau in deze klas niet significant afwijkt van het populatieniveau.
### 3.6 Effectgrootte
De p-waarde vertelt ons of een verschil significant is, maar niets over de omvang of het belang van het gevonden effect. Daarom berekenen we de effectgrootte. Voor de chikwadraattoets voor frequenties wordt vaak de effectgrootte "Phi" ($\phi$) gebruikt, die vergelijkbaar is met Cohen's $r$ in andere contexten.
De interpretatie van $\phi$ is als volgt:
* $0.10 < \phi < 0.30$: Klein effect
* $0.30 < \phi < 0.50$: Matig effect
* $\phi > 0.50$: Sterk effect
In het AVI-voorbeeld, waar de $\chi^2$-waarde 1.95 was, zou de berekende $\phi$ wijzen op de sterkte van het gevonden (niet-significante) verschil.
### 3.7 Rapporteren
Bij het rapporteren van de resultaten van een chikwadraattoets voor frequenties worden doorgaans de volgende elementen opgenomen: de toetsingssituatie, de geobserveerde en verwachte frequenties, de berekende $\chi^2$-waarde, het aantal vrijheidsgraden, de p-waarde, de effectgrootte en de conclusie met betrekking tot de nulhypothese.
**Voorbeeld van rapportage:**
Om na te gaan of het geobserveerde leesniveau (AVI-5) in een klas significant afwijkt van het populatieniveau, werd een chikwadraattoets voor frequenties uitgevoerd. In de steekproef van 26 leerlingen lazen 9 leerlingen op AVI-5 niveau of hoger (geobserveerde frequentie $f_o = 9$), terwijl de verwachte frequentie op basis van populatiegegevens 6 was ($f_e = 6$). Voor de categorie AVI-5 of lager waren de geobserveerde en verwachte frequenties respectievelijk 17 en 20. De toets toonde geen significant verschil aan: $\chi^2(1) = 1.95$, $p > 0.05$. De effectgrootte ($\phi$) was klein, wat duidt op een beperkt verschil tussen de geobserveerde en verwachte frequenties. Daarom werd de nulhypothese behouden.
### 3.8 Samenvatting: Parametrisch vs. Non-parametrisch
| Kenmerk | T-toets voor gemiddelde (Parametrisch) | Chikwadraattoets voor frequenties (Non-parametrisch) |
| :-------------------- | :---------------------------------------------------------------------- | :---------------------------------------------------------------------------------- |
| **Afhankelijke variabele** | Minimaal intervalniveau (bijv. scores, gewichten) | Categorisch (nominaal of ordinaal), geanalyseerd op basis van frequenties |
| **Onderzoeksvraag** | Wijkt steekproefgemiddelde significant af van populatiegemiddelde? | Stemmen geobserveerde frequenties overeen met verwachte frequenties? |
| **Toetsingsgrootheid** | $t$-waarde | $\chi^2$-waarde |
| **Vrijheidsgraden** | $df = N - 1$ | $df = k - 1$ (waarbij $k$ het aantal categorieën is) |
| **Toepassing** | Eén populatie, gemiddelden vergelijken | Eén populatie, frequentieverdelingen vergelijken |
| **Aantal zijden** | Eenzijdig of tweezijdig mogelijk | Altijd tweezijdig |
| **Voorwaarden** | Normaliteit van de afhankelijke variabele (of grote steekproef $N \geq 30$) | Uitsluitende categorieën, voldoende verwachte frequenties per categorie |
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Hypothesetoetsing | Een statistische methode om te bepalen of er voldoende bewijs is om een aanname (hypothese) over een populatie te verwerpen, gebaseerd op gegevens uit een steekproef. |
| Nulhypothese (H0) | Een bewering over een populatie die wordt aangenomen waar te zijn totdat bewijs wordt gevonden om deze te weerleggen. Het vertegenwoordigt vaak de status quo of een gebrek aan effect. |
| Alternatieve hypothese (H1) | Een bewering die wordt geaccepteerd als de nulhypothese statistisch significant wordt verworpen. Het vertegenwoordigt een effect of verschil. |
| Parametrische toets | Een statistische toets die ervan uitgaat dat de populatiegegevens bepaalde kenmerken volgen, zoals een normale verdeling, en die meestal wordt gebruikt voor gegevens op interval- of rationiveau. |
| Non-parametrische toets | Een statistische toets die geen aannames doet over de verdeling van de populatiegegevens en die vaak wordt gebruikt voor categorische (nominale of ordinale) gegevens. |
| T-toets voor één gemiddelde (one sample t-test) | Een parametrische toets die wordt gebruikt om te bepalen of het gemiddelde van een steekproef significant verschilt van een bekende of veronderstelde populatiegemiddelde. |
| Chikwadraattoets voor frequenties (Chi square goodness of fit test) | Een non-parametrische toets die wordt gebruikt om te bepalen of de geobserveerde frequenties van een categorische variabele significant verschillen van de verwachte frequenties. |
| Toetsingsgrootheid | Een waarde berekend uit de steekproefgegevens die wordt gebruikt om de nulhypothese te evalueren. De verdeling van deze grootheid onder de nulhypothese is bekend. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische berekening. Voor de t-toets is dit N-1; voor de chikwadraattoets is dit k-1, waarbij k het aantal categorieën is. |
| Kritieke waarde | Een grens- of drempelwaarde die wordt gebruikt in hypothesetoetsing. Als de toetsingsgrootheid deze waarde overschrijdt (of onderschrijdt, afhankelijk van de toets), wordt de nulhypothese verworpen. |
| Overschrijdingskans (p-waarde) | De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aangenomen dat de nulhypothese waar is. Een lage p-waarde (typisch < 0.05) leidt tot verwerping van de nulhypothese. |
| Effectgrootte | Een maatstaf die de sterkte of het belang van een statistisch significant effect kwantificeert, onafhankelijk van de steekproefgrootte. |
| Steekproefgemiddelde (M) | Het gemiddelde van de waarden in een steekproef. |
| Standaarddeviatie van de steekproef (SD) | Een maatstaf voor de spreiding van gegevens in een steekproef rond het steekproefgemiddelde. |
| Geobserveerde frequenties (fo) | Het werkelijke aantal waarnemingen dat in een bepaalde categorie valt in een steekproef. |
| Verwachte frequenties (fe) | Het aantal waarnemingen dat in een bepaalde categorie wordt verwacht onder de aanname dat de nulhypothese waar is. |
| Type 1-fout (alpha) | De kans om de nulhypothese te verwerpen terwijl deze in werkelijkheid waar is. Dit wordt meestal vastgesteld op 0.05. |
| Type 2-fout (beta) | De kans om de nulhypothese te aanvaarden terwijl deze in werkelijkheid onwaar is. |
Cover
Student - Hoorcollege 8-9 - Toetsen voor meer dan 2 populaties.pptx
Summary
# Herhaling van toetsen voor één en twee populaties
Deze sectie biedt een herhaling van de principes van statistische toetsen voor één en twee populaties, waarbij zowel parametrische als non-parametrische methoden zoals de t-toets en de chikwadraattoets worden behandeld.
## 1. Toetsen voor één populatie
Bij toetsen voor één populatie vergelijken we een specifiek steekproefgemiddelde met een algemeen bekend populatiegemiddelde.
### 1.1 Mogelijke toetsen
Er zijn twee hoofdtypen toetsen voor één populatie:
* **Parametrische toets:** De t-toets voor het gemiddelde (one sample t-test).
* Vereist dat de afhankelijke variabele een intervalvariabele is.
* **Non-parametrische toets:** De chikwadraattoets voor frequenties (Chi-square goodness of fit).
* Geschikt voor nominale of ordinale variabelen, waarbij de focus ligt op frequenties.
### 1.2 Toetsingssituatie en hypotheses
* **Onderzoeksvraag:** Is er een significant verschil tussen het steekproefgemiddelde en het populatiegemiddelde?
* **Hypotheses (tweezijdig):**
* $H_0$: Het steekproefgemiddelde is gelijk aan het populatiegemiddelde.
* $H_1$: Het steekproefgemiddelde is niet gelijk aan het populatiegemiddelde.
## 2. Toetsen voor twee populaties
Bij toetsen voor twee populaties vergelijken we twee steekproeven met elkaar. De manier waarop deze steekproeven zijn samengesteld, is cruciaal voor de keuze van de toets.
### 2.1 Onafhankelijke steekproeven
Bij onafhankelijke steekproeven zijn de deelnemers in de ene groep niet gerelateerd aan de deelnemers in de andere groep. Dit is vaak het geval bij experimentele designs waar een interventie wordt vergeleken met een controlegroep.
* **Onderzoeksvraag:** Is er een significant verschil tussen de gemiddelden van twee onafhankelijke groepen?
* **Parametrische toets:** T-toets voor twee onafhankelijke steekproeven.
* Vereist dat de afhankelijke variabele een intervalvariabele is.
* **Non-parametrische toets:** Wilcoxon rank-sum toets (ook bekend als Mann-Whitney U toets).
* Geschikt wanneer de afhankelijke variabele minstens op ordinaal niveau is gemeten en de aannames voor de t-toets niet voldaan zijn.
### 2.2 Afhankelijke steekproeven
Bij afhankelijke steekproeven zijn de metingen binnen groepen gerelateerd. Dit kan op twee manieren voorkomen:
* **Herhaalde metingen:** Dezelfde groep deelnemers wordt tweemaal gemeten (bv. voor- en nameting van een therapie).
* **Parametrische toets:** T-toets voor twee afhankelijke steekproeven (paired samples t-test).
* **Gematchte paren:** Deelnemers worden gepaard op basis van bepaalde kenmerken, waarna één lid van elk paar aan de ene conditie wordt toegewezen en het andere lid aan de andere conditie.
* **Parametrische toets:** T-toets voor twee afhankelijke steekproeven (paired samples t-test).
* **Non-parametrische toets:** Wilcoxon signed-rank toets.
## 3. Toetsen voor meer dan twee populaties (ANOVA)
Wanneer er meer dan twee populaties vergeleken worden, volstaat het niet om herhaaldelijk t-toetsen uit te voeren. Dit verhoogt namelijk de kans op een Type I-fout (het ten onrechte verwerpen van de nulhypothese).
### 3.1 Probleem van meervoudige toetsen
Het herhaaldelijk uitvoeren van toetsen verhoogt de cumulatieve kans op een Type I-fout. Als het significantieniveau $\alpha = 0.05$ is, dan is de kans op een Type I-fout bij $N$ onafhankelijke toetsen $1 - (1-\alpha)^N$. Dit kan leiden tot een onaanvaardbaar hoge kans op het ten onrechte verwerpen van de nulhypothese.
### 3.2 De Eenwegs Variantieanalyse (One-way ANOVA)
De eenwegs variantieanalyse (ANOVA) is een parametrische toets die wordt gebruikt om te bepalen of er een significant verschil bestaat tussen de gemiddelden van drie of meer onafhankelijke groepen.
#### 3.2.1 Toetsingssituatie
* **Onderzoeksvraag:** Is er een verschil in het gemiddelde van een afhankelijke variabele (intervalniveau) tussen drie of meer groepen, gedefinieerd door een onafhankelijke variabele (nominaal/ordinaal niveau met minimaal drie niveaus)?
* **Voorbeeld:** Nagaan of het eten van chocolade (groepen: geen, één reep, twee repen) een effect heeft op het stressniveau (afhankelijke variabele) bij dansers.
#### 3.2.2 Voorwaarden
De volgende voorwaarden moeten voldaan zijn om een eenwegs ANOVA correct toe te passen:
1. **Afhankelijke variabele:** Minstens op intervalniveau gemeten.
2. **Normaliteit:** De afhankelijke variabele is normaal verdeeld binnen elke populatie (of elke groep heeft minimaal 30 deelnemers als de normaliteitsscheef is).
3. **Onafhankelijkheid:** De steekproeven zijn onafhankelijk van elkaar.
4. **Homogeniteit van varianties:** De varianties in de populaties waaruit de steekproeven zijn getrokken, zijn gelijk aan elkaar.
#### 3.2.3 Hypothesen
* $H_0$: De gemiddelden van alle groepen zijn gelijk ($\mu_1 = \mu_2 = ... = \mu_j$).
* $H_1$: Minstens één groep is significant anders dan een andere groep ($\mu_i \neq \mu_j$ voor minstens één paar $i$ en $j$).
* ANOVA is een "omnibus-test", wat betekent dat het enkel aangeeft of er *ergens* een verschil is, maar niet waar precies.
#### 3.2.4 Principe van ANOVA
ANOVA vergelijkt twee soorten varianties:
* **Between-groups variantie (variantie tussen groepen):** Meet de spreiding van de groepsgemiddelden rond het totale gemiddelde. Een grote between-groups variantie suggereert dat de groepsgemiddelden ver uit elkaar liggen.
* **Within-groups variantie (variantie binnen groepen):** Meet de spreiding van de individuele scores rond het gemiddelde van hun eigen groep. Dit wordt ook wel de error-variantie genoemd.
De ratio tussen de between-groups variantie en de within-groups variantie (de F-statistiek) geeft aan of de verschillen tussen de groepen groter zijn dan de verschillen binnen de groepen. Een hogere F-waarde suggereert significante verschillen.
#### 3.2.5 Toetsingsgrootheid
De toetsingsgrootheid in een eenwegs ANOVA is de F-statistiek, die wordt berekend als de ratio van de Mean Squares (MS) between-groups en de Mean Squares within-groups.
$$F = \frac{MS_{\text{between}}}{MS_{\text{within}}}$$
Hierbij geldt:
* $SS_{\text{between}}$ = Sum of Squares between groups
* $SS_{\text{within}}$ = Sum of Squares within groups
* $df_{\text{between}} = k-1$ (waarbij $k$ het aantal groepen is)
* $df_{\text{within}} = N-k$ (waarbij $N$ het totale aantal deelnemers is)
* $MS_{\text{between}} = \frac{SS_{\text{between}}}{df_{\text{between}}}$
* $MS_{\text{within}} = \frac{SS_{\text{within}}}{df_{\text{within}}}$
De F-statistiek volgt een F-verdeling met $df_{\text{between}}$ en $df_{\text{within}}$ vrijheidsgraden.
#### 3.2.6 Beslissingsregel
De nulhypothese ($H_0$) wordt verworpen als de berekende F-statistiek groter is dan de kritieke F-waarde uit de F-verdelingstabel, of als de overschrijdingskans (p-waarde) kleiner is dan het gekozen significantieniveau ($\alpha$).
#### 3.2.7 Post hoc toetsing
Indien de ANOVA significant is ($H_0$ verworpen), weet men enkel dat er ergens een verschil is. Om te achterhalen tussen welke specifieke groepen de verschillen significant zijn, worden post hoc toetsen uitgevoerd.
* **Probleem:** Het herhaaldelijk uitvoeren van paarsgewijze vergelijkingen verhoogt de kans op een Type I-fout.
* **Oplossing:** Gebruik een correctie zoals de Bonferroni correctie. Hierbij wordt het significantieniveau $\alpha$ gedeeld door het aantal uitgevoerde vergelijkingen. Bijvoorbeeld, als er 3 groepen zijn, worden 3 paarsgewijze vergelijkingen gedaan. Het nieuwe significantieniveau wordt dan $\alpha/3$. In veel statistische software (bv. SPSS) wordt dit automatisch toegepast bij de presentatie van de resultaten, waarbij de aangepaste p-waarden direct met de oorspronkelijke $\alpha$ vergeleken kunnen worden.
#### 3.2.8 Effectgrootte
De effectgrootte, vaak gerapporteerd als $\eta^2$ (eta-kwadraat) of $r$ (gecorreleerde $r$ bij ANOVA), geeft aan hoeveel van de variantie in de afhankelijke variabele verklaard kan worden door de groepsindeling.
* $r$ wordt berekend als: $r = \sqrt{\frac{F}{F + df_{\text{within}}}}$
#### 3.2.9 Rapportering
Een correcte rapportage van een eenwegs ANOVA omvat:
1. De onderzoeksvraag en de uitgevoerde toets.
2. Beschrijvende statistieken van de steekproef (gemiddelden en standaarddeviaties per groep).
3. De resultaten van de statistische toets (F-statistiek, vrijheidsgraden, p-waarde) en de effectgrootte.
4. Conclusies gebaseerd op de resultaten, inclusief eventuele post hoc bevindingen.
### 3.3 Non-parametrische alternatieven (niet te kennen voor dit vak)
* **Kruskal-Wallis toets:** De non-parametrische tegenhanger van de eenwegs ANOVA voor onafhankelijke steekproeven. Dit wordt gebruikt wanneer de afhankelijke variabele niet aan de voorwaarden voor ANOVA voldoet.
## 4. Overzicht van getoetste methoden (tot nu toe)
| Aantal populaties | Steekproef type | Parametrisch | Non-parametrisch | Afhankelijke variabele | Onafhankelijke variabele |
| :---------------- | :----------------- | :----------------------------------------- | :---------------------------------------------- | :----------------------------- | :----------------------- |
| 1 | - | T-toets voor gemiddelde (one sample t-test) | Chikwadraattoets voor frequenties | Interval | Nominaal/Ordinaal |
| 2 | Onafhankelijk | Independent samples t-test | Wilcoxon Rank-sum (=Mann-Whitney) | Interval | Nominaal/Ordinaal |
| 2 | Afhankelijk | Paired samples t-test | Wilcoxon Signed-rank (niet te kennen) | Interval | - |
| >2 | Onafhankelijk | **ANOVA** | Kruskal-Wallis (niet te kennen) | Interval | Nominaal/Ordinaal |
**Tip:** Een goede voorbereiding op statistische toetsen omvat het begrijpen van de onderzoeksvraag, de variabelen (afhankelijk en onafhankelijk, meetniveau), het aantal populaties, en of de steekproeven afhankelijk of onafhankelijk zijn. Dit helpt bij het selecteren van de juiste toets.
---
# Inleiding tot toetsen voor meer dan twee populaties
Dit gedeelte introduceert toetsen voor meer dan twee populaties en legt uit waarom het herhaaldelijk toepassen van t-toetsen leidt tot een verhoogd risico op Type I-fouten.
## 2. Inleiding tot toetsen voor meer dan twee populaties
### 2.1 Noodzaak van toetsen voor meer dan twee populaties
Tot nu toe zijn t-toetsen gebruikt om gemiddelden van één of twee populaties te vergelijken. Echter, in de praktijk is men vaak geïnteresseerd in het vergelijken van drie of meer groepen. Een voorbeeld hiervan is het onderzoeken van het effect van verschillende studiemethoden op examenresultaten, waarbij drie of meer methoden vergeleken worden.
### 2.2 Het probleem van meervoudige t-toetsen
Een intuïtieve aanpak zou kunnen zijn om herhaaldelijk t-toetsen uit te voeren om alle mogelijke paren van groepen te vergelijken. Bijvoorbeeld, als we drie groepen (A, B, C) hebben, zouden we t-toetsen kunnen doen voor de paren (A, B), (B, C) en (A, C). Dit leidt echter tot een significant probleem: het verhoogde risico op het maken van een Type I-fout.
#### 2.2.1 Type I-fout bij meervoudige toetsen
Een Type I-fout treedt op wanneer de nulhypothese ten onrechte wordt verworpen, terwijl deze in werkelijkheid waar is. De kans op een Type I-fout wordt doorgaans vastgesteld op $\alpha = 0.05$ (of 5%). Bij het uitvoeren van meerdere toetsen achter elkaar, neemt de cumulatieve kans op een Type I-fout toe.
De algemene formule om de kans op het *terecht* behouden van de nulhypothese bij het uitvoeren van $N$ onafhankelijke toetsen, elk met een $\alpha$-niveau van 0.05, is:
$$ (1 - \alpha)^N $$
Dit betekent dat de kans om de nulhypothese *onterecht* te verwerpen (cumulatieve Type I-foutkans) gelijk is aan $1 - (1 - \alpha)^N$.
Stel dat we drie toetsen uitvoeren met $\alpha = 0.05$. De kans om de nulhypothese terecht te behouden na deze drie toetsen is dan $0.95 \times 0.95 \times 0.95 \approx 0.857$. De kans om de nulhypothese onterecht te verwerpen is $1 - 0.857 = 0.143$, wat neerkomt op 14.3%. Dit is aanzienlijk hoger dan de oorspronkelijke $\alpha = 0.05$.
Voor een algemeen aantal toetsen $N$ met $\alpha = 0.05$, geldt de formule voor de cumulatieve Type I-foutkans:
$$ \text{Cumulatieve Type I-foutkans} = 1 - (0.95)^N $$
* **Voorbeeld:** Bij $N=4$ toetsen is de kans op een Type I-fout ongeveer 18.5%. Bij $N=6$ toetsen loopt dit op tot ongeveer 26.4%.
Dit probleem illustreert de noodzaak van een statistische toets die specifiek ontworpen is om meer dan twee populaties tegelijkertijd te vergelijken, zonder het risico op een sterk verhoogde Type I-foutkans. Dit leidt tot de introductie van de variantieanalyse (ANOVA).
### 2.3 Keuze van de juiste toets
De keuze voor de juiste statistische toets hangt af van verschillende factoren:
* **Onderzoeksvraag:** Wat wil de onderzoeker precies weten?
* **Variabelen:** Wat zijn de afhankelijke en onafhankelijke variabelen?
* **Meetniveau:** Wat is het meetniveau van de variabelen? De afhankelijke variabele moet minstens van intervalniveau zijn voor parametrische toetsen.
* **Aantal populaties:** Worden één, twee of meer dan twee populaties vergeleken?
* **Steekproefsamenstelling:** Zijn de steekproeven onafhankelijk of afhankelijk?
* **Parametrisch vs. Non-parametrisch:** Voldoen de data aan de voorwaarden voor parametrische toetsen?
Voor het vergelijken van meer dan twee populaties met een afhankelijke variabele van intervalniveau en onafhankelijke steekproeven, komen de volgende toetsen in aanmerking:
* **Parametrisch:** Eenwegs variantieanalyse (one-way ANOVA) of tweewegs variantieanalyse (niet te kennen in deze cursus).
* **Non-parametrisch:** Kruskal-Wallis toets (niet te kennen in deze cursus).
Variantieanalyse wordt altijd als tweezijdig beschouwd.
### 2.4 Algemeen stramien voor het uitvoeren van toetsen
Bij het uitvoeren van een statistische toets wordt een gestructureerd proces gevolgd:
1. **Toetsingssituatie:** Begrijpen van de onderzoeksvraag, de gegevens en het soort onderzoek.
2. **Voorwaarden:** Nagaan of aan de statistische voorwaarden voor de gekozen toets is voldaan.
3. **Hypothesen:** Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$).
4. **Toetsingsgrootheid:** Berekenen van de toetsingsgrootheid en bepalen van de bijbehorende kansverdeling.
5. **Beslissingsregel:** Beslissen of $H_0$ wordt verworpen op basis van overschrijdingskansen (p-waarde) of kritieke waarden.
6. **Effectgrootte:** Nagaan hoe belangrijk het gevonden effect is.
7. **Rapporteren:** Correct rapporteren van de resultaten.
#### 2.4.1 Eenzijdig of tweezijdig?
Variantieanalyse (ANOVA) is altijd een tweezijdige toets. Dit betekent dat de alternatieve hypothese stelt dat er een verschil is tussen minstens één paar populatiegemiddelden, zonder een specifieke richting aan te geven.
#### 2.4.2 Post hoc toetsing
Wanneer de ANOVA een significant verschil tussen de groepen aantoont ($H_0$ wordt verworpen), geeft dit nog geen informatie over *welke* specifieke groepen van elkaar verschillen. Hiervoor is post hoc toetsing noodzakelijk, waarbij paarsgewijze vergelijkingen tussen de groepen worden uitgevoerd.
Het herhaaldelijk uitvoeren van deze paarsgewijze vergelijkingen kan opnieuw leiden tot een verhoogd risico op Type I-fouten. Daarom worden speciale correctiemethoden gebruikt, zoals de Bonferroni-correctie.
* **Bonferroni-correctie:** Bij het uitvoeren van $N$ paarsgewijze vergelijkingen, wordt het oorspronkelijke $\alpha$-niveau gedeeld door $N$. Een significant verschil wordt dan alleen geconcludeerd als de p-waarde kleiner is dan $\alpha / N$. Als bijvoorbeeld drie groepen worden vergeleken, worden er drie paarsgewijze toetsen uitgevoerd, en de p-waarde moet kleiner zijn dan $0.05 / 3 \approx 0.017$ om als significant te worden beschouwd. In softwarepakketten zoals SPSS worden de herberekende overschrijdingskansen getoond, waarna deze direct met $\alpha = 0.05$ vergeleken kunnen worden.
---
# De eenweg variantieanalyse (ANOVA)
Hieronder vind je een gedetailleerde studiegids voor de eenweg variantieanalyse (ANOVA).
## 3. De eenweg variantieanalyse (ANOVA)
De eenweg variantieanalyse (ANOVA) is een statistische methode om significante verschillen tussen de gemiddelden van drie of meer groepen te detecteren.
### 3.1 Toetsingssituatie
De eenweg variantieanalyse wordt gebruikt wanneer men de volgende onderzoeksvragen wil beantwoorden:
* Is er een verschil in gemiddelden tussen groep a, b, c, … op variabele Y?
* Is er een effect van variabele X (met niveaus a, b, c,..) op variabele Y?
* Indien er een effect is, tussen welke specifieke groepen bestaat er een significant verschil? Dit vereist aanvullende post hoc toetsing.
### 3.2 Voorwaarden
Om de eenweg variantieanalyse correct toe te passen, moeten aan de volgende voorwaarden worden voldaan:
* De afhankelijke variabele moet minstens gemeten zijn op intervalniveau.
* De afhankelijke variabele moet normaal verdeeld zijn in de populatie. Indien dit niet het geval is, dient de steekproefomvang voor elke groep minstens 30 te zijn.
* De steekproeven moeten onafhankelijk van elkaar zijn.
* De varianties in de steekproeven dienen gelijk te zijn aan elkaar (homogeniteit van varianties).
### 3.3 Hypothesen
Bij de eenweg variantieanalyse worden de volgende hypothesen geformuleerd:
* **Nulhypothese ($H_0$):** Alle populatiegemiddelden zijn gelijk aan elkaar ($\mu_1 = \mu_2 = ... = \mu_k$).
* **Alternatieve hypothese ($H_1$):** Minstens één populatiegemiddelde verschilt van de andere ($\mu_i \ne \mu_j$ voor minstens één paar van $i$ en $j$).
De ANOVA fungeert als een "omnibustest", wat betekent dat het een algemeen effect detecteert. Indien de nulhypothese verworpen wordt, zijn er aanvullende hypotheses en toetsen (post hoc toetsen) nodig om te bepalen tussen welke specifieke groepen de verschillen significant zijn.
### 3.4 Principe van ANOVA
Het principe achter ANOVA is het vergelijken van twee bronnen van variantie: de *between-groups variance* en de *within-groups variance*.
* **Between-groups variance:** Meet de variatie tussen de gemiddelden van de verschillende groepen. Een grotere between-groups variance suggereert grotere verschillen tussen de groepen.
* **Within-groups variance:** Meet de variatie binnen elke individuele groep. Dit wordt ook wel de error variance genoemd en vertegenwoordigt de willekeurige variatie die niet door de onafhankelijke variabele verklaard wordt.
De verhouding tussen de between-groups variance en de within-groups variance geeft een indicatie van significante verschillen. Een grotere between-groups variance in verhouding tot de within-groups variance verhoogt de kans op significante verschillen tussen de groepen.
Scenario A (lage between-groups variance): De groepsgemiddelden liggen dicht bij elkaar en de verdelingen van de groepen overlappen elkaar sterk. De variantie tussen de groepen is kleiner dan de variantie binnen de groepen.
Scenario B (hoge between-groups variance): De groepsgemiddelden liggen ver uit elkaar, wat resulteert in minder overlap tussen de groepsverdelingen. De variantie tussen de groepen is groter dan de variantie binnen de groepen.
### 3.5 Toetsingsgrootheid
De toetsingsgrootheid in een eenweg variantieanalyse is de F-statistiek, die wordt berekend als de ratio van de mean squares (gemiddelde kwadratensommen) tussen de groepen en de mean squares binnen de groepen.
De berekening omvat de volgende stappen:
1. **Sum of Squares (SS):**
* **SS\_between (tussen groepen):** De som van de gekwadrateerde verschillen tussen elk groepsgemiddelde en het totale gemiddelde, gewogen naar de groepsgrootte.
$$SS_{between} = \sum_{i=1}^{k} n_i (\bar{y}_i - \bar{y}_{total})^2$$
waarbij:
* $k$ = aantal groepen
* $n_i$ = aantal observaties in groep $i$
* $\bar{y}_i$ = gemiddelde van groep $i$
* $\bar{y}_{total}$ = totaal gemiddelde over alle groepen
* **SS\_within (binnen groepen):** De som van de gekwadrateerde verschillen tussen elke observatie en het gemiddelde van zijn groep.
$$SS_{within} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_i)^2$$
waarbij:
* $y_{ij}$ = de $j$-de observatie in groep $i$
2. **Vrijheidsgraden (df - degrees of freedom):**
* **df\_between:** Aantal groepen minus 1.
$$df_{between} = k - 1$$
* **df\_within:** Totaal aantal observaties min het aantal groepen.
$$df_{within} = N - k$$
waarbij $N$ = totale aantal observaties over alle groepen.
3. **Mean Squares (MS):** De gemiddelde kwadratensommen, verkregen door de SS te delen door de corresponderende df.
* **MS\_between:**
$$MS_{between} = \frac{SS_{between}}{df_{between}}$$
* **MS\_within:**
$$MS_{within} = \frac{SS_{within}}{df_{within}}$$
4. **F-statistiek:** De ratio van MS\_between en MS\_within.
$$F = \frac{MS_{between}}{MS_{within}}$$
De F-statistiek volgt een F-verdeling met $df_{between}$ en $df_{within}$ vrijheidsgraden.
> **Tip:** De som van de SS\_between en SS\_within is gelijk aan de totale SS (Sum of Squares Total). $SS_{total} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_{total})^2 = SS_{between} + SS_{within}$.
### 3.6 Beslissingsregels
Om te beslissen of de nulhypothese verworpen mag worden, worden de volgende methoden gebruikt:
1. **Via overschrijdingskansen (p-waarde):**
* Bereken de p-waarde die hoort bij de berekende F-statistiek en de vrijheidsgraden.
* Als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$), wordt de nulhypothese verworpen. Dit betekent dat er een significant verschil is tussen de groepsgemiddelden.
$$p < \alpha \implies H_0 \text{ verwerpen}$$
2. **Via kritieke waarden:**
* Zoek in een F-verdelingstabel de kritieke F-waarde op voor het gekozen significantieniveau ($\alpha$) en de berekende vrijheidsgraden ($df_{between}$ en $df_{within}$).
* Als de berekende F-statistiek groter is dan de kritieke F-waarde, wordt de nulhypothese verworpen.
$$F_{berekend} > F_{kritiek} \implies H_0 \text{ verwerpen}$$
### 3.7 Effectgrootte
Naast de significantie is het belangrijk om de effectgrootte te rapporteren om de praktische significantie van het gevonden effect te beoordelen. Een veelgebruikte maat voor effectgrootte bij ANOVA is $\eta^2$ (eta-kwadraat) of $r$ (Pearson's $r$ voor een eenwegs ANOVA, die equivalent is aan $\sqrt{\eta^2}$).
* **$\eta^2$ (eta-kwadraat):**
$$\eta^2 = \frac{SS_{between}}{SS_{total}}$$
Dit geeft het proportionele deel van de totale variantie in de afhankelijke variabele aan dat verklaard wordt door de onafhankelijke variabele (de groepen).
* **$r$ (correlatiecoëfficiënt):**
$$r = \sqrt{\eta^2}$$
Voor de interpretatie van $r$ kunnen vuistregels worden gehanteerd, vergelijkbaar met die voor correlaties (bv. .10 voor klein effect, .30 voor gemiddeld effect, .50 voor groot effect).
### 3.8 Post hoc toetsing
Wanneer de ANOVA een significant effect aantoont ($H_0$ verworpen), weten we alleen dat er *ergens* een verschil is tussen de groepen. Om te bepalen *welke specifieke groepen* significant van elkaar verschillen, zijn post hoc toetsen nodig.
Het probleem bij het uitvoeren van meerdere paarsgewijze vergelijkingen (bv. t-toetsen) is dat de kans op het maken van een Type I-fout (ten onrechte verwerpen van $H_0$) oploopt. Om dit te corrigeren, worden correctiemethoden zoals de **Bonferroni-correctie** toegepast.
* **Bonferroni-correctie:** Het significantieniveau ($\alpha$) wordt gedeeld door het aantal vergelijkingen ($k$). Een verschil wordt als significant beschouwd als de p-waarde kleiner is dan dit aangepaste significantieniveau ($\alpha / k$).
Voorbeeld: Als er 3 groepen zijn, zijn er 3 mogelijke paarsgewijze vergelijkingen (A vs B, B vs C, A vs C). Het nieuwe significantieniveau wordt $0.05 / 3 = 0.017$. Alleen p-waarden kleiner dan $0.017$ worden dan als significant beschouwd.
In softwarepakketten zoals SPSS worden de herberekende overschrijdingskansen (p-waarden) van de post hoc toetsen vaak direct getoond, waardoor de vergelijking met $\alpha = 0.05$ volstaat.
### 3.9 Rapporteren
De resultaten van een eenweg variantieanalyse worden doorgaans als volgt gerapporteerd:
1. **Onderzoeksvraag en gebruikte toets:** Beschrijf de onderzoeksvraag en vermeld dat een eenweg variantieanalyse (one-way ANOVA) is uitgevoerd.
2. **Beschrijvende statistieken:** Rapporteer de gemiddelden (M) en standaarddeviaties (SD) voor elke groep.
3. **Resultaten van de statistische toets:** Vermeld de F-statistiek, de vrijheidsgraden voor de between-groups en within-groups, de p-waarde, en de effectgrootte (bv. $\eta^2$ of $r$).
* Formaat: $F(df_{between}, df_{within}) = \text{waarde}, p = \text{waarde}, \eta^2 = \text{waarde}$.
4. **Conclusie:** Geef aan of de nulhypothese verworpen wordt en interpreteer dit in de context van de onderzoeksvraag. Indien post hoc toetsen zijn uitgevoerd, vermeld dan welke groepen significant van elkaar verschillen.
**Voorbeeld van een rapportage:**
"Om na te gaan of het eten van chocolade een effect heeft op het stressniveau bij dansers, werd een eenweg variantieanalyse uitgevoerd. De dansers die geen chocolade aten, rapporteerden een hogere stressniveau ($M = 65.50, SD = 10.54$) dan dansers die twee repen chocolade aten ($M = 59.12, SD = 12.27$). Er was een significant effect van chocolade op het stressniveau van de dansers, $F(2, 99) = 3.14, p = .048, \eta^2 = .059$. Het stressniveau van de dansers die één reep chocolade aten ($M = 61.32, SD = 8.95$) verschilde niet significant van de andere condities."
> **Tip:** Zorg ervoor dat je altijd de relevante F-waarde, de vrijheidsgraden, de p-waarde en de effectgrootte vermeldt voor een volledige rapportage.
### 3.10 Extra voorbeeld: Leeftijd en compulsief koopgedrag
**Onderzoeksvraag:** Heeft leeftijd invloed op het compulsief koopgedrag? Drie leeftijdsgroepen werden onderzocht: Generatie Y (jaren 90), Generatie X (jaren 80) en Babyboomers (jaren 50-60). Compulsief koopgedrag werd gemeten met de Faber en O’Guinn test (intervalniveau, normaal verdeeld).
* **Hypothesen:**
* $H_0: \mu_{Y} = \mu_{X} = \mu_{BB}$
* $H_1:$ Minstens één gemiddelde verschilt.
* **Beschrijvende statistieken:**
* Generatie Y: $M = 63.10, SD = 7.06$
* Generatie X: $M = 43.00, SD = 13.01$
* Babyboomers: $M = 39.88, SD = 14.52$
* **ANOVA resultaten:**
* $F(2, 19) = 6.83, p = .006, \eta^2 = .417$ (oftewel $r = .65$)
* **Post hoc toetsing (bv. Bonferroni):**
* Significant verschil tussen Generatie Y en Generatie X.
* Significant verschil tussen Generatie Y en Babyboomers.
* Geen significant verschil tussen Generatie X en Babyboomers.
* **Rapportage:**
"Om na te gaan of generaties verschillen op het vlak van compulsief koopgedrag, werd een eenwegs variantieanalyse uitgevoerd. Generatie Y vertoonde meer compulsief koopgedrag ($M = 63.10, SD = 7.06$) dan Generatie X ($M = 43.00, SD = 13.01$) en de Babyboomers ($M= 39.88, SD = 14.52$), en dit effect was significant, $F(2, 19) = 6.83, p = .006, \eta^2 = .417$. Generatie X verschilde niet significant van de Babyboomers."
### 3.11 Overzicht van toetsen tot nu toe
| Aantal Populaties | Steekproeven | Parametrisch | Non-parametrisch | Afhankelijke Variabele | Onafhankelijke Variabele |
| :---------------- | :----------- | :----------- | :--------------- | :--------------------- | :----------------------- |
| 1 | - | T-toets voor gemiddelde (one sample t-test) | Chikwadraattoets voor frequenties (goodness of fit) | Interval/Ratio | Nominaal/Ordinaal |
| 2 | Onafhankelijk | T-toets voor 2 onafhankelijke steekproeven | Wilcoxon rank-sum (Mann-Whitney U) | Interval/Ratio | Nominaal (met 2 niveaus) |
| 2 | Afhankelijk | T-toets voor 2 afhankelijke steekproeven | Wilcoxon signed-rank | Interval/Ratio | - |
| \>2 | Onafhankelijk | **Eenwegs variantieanalyse (ANOVA)** | Kruskal-Wallis toets | Interval/Ratio | Nominaal (met >2 niveaus) |
De eenweg variantieanalyse is dus de parametrische toets voor het vergelijken van gemiddelden van meer dan twee onafhankelijke groepen, waarbij de afhankelijke variabele minstens op intervalniveau is gemeten.
---
# Post hoc toetsing en overzicht van toetsen
Na een significante ANOVA is het noodzakelijk om post hoc toetsingen uit te voeren om te bepalen welke specifieke groepen van elkaar verschillen, met speciale aandacht voor de Bonferroni correctie. Dit gedeelte sluit af met een overzicht van de verschillende statistische toetsen die tot nu toe zijn behandeld.
### 4.1 Post hoc toetsing
Nadat de ANOVA een significant verschil tussen de groepsgemiddelden heeft aangetoond, weten we nog niet welke specifieke groepen van elkaar verschillen. Om dit te achterhalen, worden paarsgewijze vergelijkingen tussen de condities uitgevoerd via post hoc toetsingen.
#### 4.1.1 Het probleem van Type I fouten bij meervoudige toetsen
Bij het uitvoeren van meerdere paarsgewijze toetsen na elkaar, stijgt de kans op het maken van een Type I fout (het ten onrechte verwerpen van de nulhypothese). De kans op een Type I fout wordt vastgesteld op $\alpha = 0.05$ (5%). Bij het uitvoeren van $N$ toetsen, stijgt de totale kans op een Type I fout aanzienlijk.
De algemene formule voor de kans op een Type I fout bij meervoudige toetsen met $\alpha = 0.05$ is:
$$ \text{Kans op Type I fout} = 1 - (1 - \alpha)^N $$
Waarbij $N$ het aantal uitgevoerde toetsen is. Als bijvoorbeeld $N=3$ is, wordt de kans op een Type I fout: $1 - (0.95)^3 \approx 0.143$ (14.3%). Bij $N=4$ stijgt dit tot 18.5%, en bij $N=6$ tot 26.4%.
#### 4.1.2 De Bonferroni correctie
Om de stijgende kans op Type I fouten te corrigeren, wordt de Bonferroni correctie toegepast. Deze methode verlaagt het significantieniveau voor elke individuele vergelijking.
Wanneer drie groepen worden vergeleken, wordt het oorspronkelijke significantieniveau ($\alpha = 0.05$) gedeeld door het aantal vergelijkingen. Dus, in plaats van te toetsen met $p \leq 0.05$, wordt getoetst met $p \leq 0.05/3 = 0.017$. Dit betekent dat een verschil alleen als significant wordt beschouwd als de berekende $p$-waarde kleiner is dan dit gecorrigeerde significantieniveau.
> **Tip:** Sommige statistische software (zoals SPSS) toont de herberekende overschrijdingskansen na de Bonferroni correctie. In dat geval kunt u deze direct vergelijken met het oorspronkelijke $\alpha = 0.05$ niveau.
#### 4.1.3 Interpretatie van post hoc toetsingstabellen
Tabellen met resultaten van post hoc toetsingen presenteren doorgaans de paarsgewijze vergelijkingen. Er wordt aangegeven tussen welke groepen een significant verschil is gevonden. Een $p$-waarde die kleiner is dan het (gecorrigeerde) significantieniveau, indiceert een significant verschil.
### 4.2 Overzicht van statistische toetsen
Hieronder volgt een overzicht van de tot nu toe behandelde statistische toetsen, ingedeeld naar het aantal populaties dat wordt vergeleken en het type steekproeven (onafhankelijk of afhankelijk).
#### 4.2.1 Toetsen voor één populatie
| Toets | Parametrisch | Non-parametrisch | Afhankelijke Variabele | Onafhankelijke Variabele |
| :------------------------- | :------------------------------- | :------------------------------------- | :--------------------- | :----------------------- |
| Vergelijken met bekend gemiddelde | $t$-toets voor het gemiddelde (one sample $t$-test) | Chikwadraattoets voor frequenties (goodness of fit) | Interval | Nominaal, Ordinaal |
| Vergelijken van frequenties | - | - | Nominaal, Ordinaal | Nominaal, Ordinaal |
* **Parametrisch:** Vereist dat de afhankelijke variabele minstens intervalniveau heeft en doorgaans normaal verdeeld is in de populatie.
* **Non-parametrisch:** Geschikt voor nominale of ordinale afhankelijke variabelen, of wanneer de aannames van parametrische toetsen niet voldaan zijn.
#### 4.2.2 Toetsen voor twee populaties
**Onafhankelijke steekproeven:** De groepen zijn niet aan elkaar gerelateerd.
| Toets | Parametrisch | Non-parametrisch | Afhankelijke Variabele | Onafhankelijke Variabele |
| :------------------------ | :---------------------------------- | :--------------------------------------------- | :--------------------- | :----------------------- |
| Vergelijken van gemiddelden | $t$-toets voor twee onafhankelijke steekproeven | Wilcoxon rank-sum toets (Mann-Whitney U) | Interval | Nominaal (met 2 niveaus) |
**Afhankelijke steekproeven:** De groepen zijn aan elkaar gerelateerd (bv. herhaalde metingen, gematchte paren).
| Toets | Parametrisch | Non-parametrisch | Afhankelijke Variabele | Onafhankelijke Variabele |
| :------------------------ | :-------------------------------- | :-------------------------------- | :--------------------- | :----------------------- |
| Vergelijken van gemiddelden | $t$-toets voor twee afhankelijke steekproeven | Wilcoxon signed-rank toets (niet te kennen) | Interval | Nominaal (met 2 niveaus) |
#### 4.2.3 Toetsen voor meer dan twee populaties (onafhankelijke steekproeven)
| Toets | Parametrisch | Non-parametrisch | Afhankelijke Variabele | Onafhankelijke Variabele |
| :---------------------------- | :------------------------------ | :--------------------------------- | :--------------------- | :----------------------- |
| Vergelijken van gemiddelden | Eénwegs variantieanalyse (ANOVA) | Kruskal-Wallis toets (niet te kennen) | Interval | Nominaal (met >2 niveaus) |
* **Eénwegs variantieanalyse (ANOVA):** Gebruikt wanneer de afhankelijke variabele minimaal intervalniveau heeft en er meer dan twee onafhankelijke groepen vergeleken worden. Vereist onafhankelijke steekproeven, normaliteit van de afhankelijke variabele binnen de groepen (of groepen van minimaal 30 deelnemers) en homogeniteit van varianties. ANOVA is een "omnibus-test", wat betekent dat het aangeeft *of* er een verschil is, maar niet *waar* het verschil zit. Hiervoor zijn post hoc toetsingen nodig.
* **Tweewegs variantieanalyse:** Niet te kennen voor dit examen.
#### 4.2.4 Algemene stappen bij het uitvoeren van toetsen
Bij het uitvoeren van statistische toetsen, inclusief de ANOVA, worden de volgende stappen doorlopen:
1. **Toetsingssituatie:** Begrijpen van de onderzoeksvraag, identificeren van de afhankelijke en onafhankelijke variabelen, en het meetniveau van deze variabelen. Vaststellen of er meer dan twee populaties worden vergeleken en of de steekproeven afhankelijk of onafhankelijk zijn. Bepalen of een parametrische of non-parametrische toets geschikt is.
2. **Voorwaarden:** Nagaan of de statistische voorwaarden voor de gekozen toets voldaan zijn.
3. **Hypothesen:** Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$). Voor ANOVA is de $H_0$ dat alle populatiegemiddelden gelijk zijn ($\mu_1 = \mu_2 = \dots = \mu_j$), en de $H_1$ dat er minstens één paar populatiegemiddelden is dat significant verschilt ($\mu_i \neq \mu_j$ voor minstens één paar $i$ en $j$).
4. **Toetsingsgrootheid:** Berekenen van de toetsingsgrootheid (bv. de $F$-statistiek voor ANOVA) en de bijbehorende kansverdeling bepalen.
5. **Beslissingsregel:** Een beslissing nemen om de nulhypothese al dan niet te verwerpen, gebaseerd op de $p$-waarde (overschrijdingskans) of kritieke waarden.
6. **Effectgrootte:** Beoordelen van de grootte van het gevonden effect met een effectmaat (bv. $r$ voor ANOVA).
7. **Rapporteren:** Correct rapporteren van de resultaten, inclusief de onderzoeksvraag, de uitgevoerde toets, steekproefgegevens (gemiddelden, standaarddeviaties), de resultaten van de statistische toets ($F$-waarde, vrijheidsgraden, $p$-waarde, effectgrootte) en de conclusie in de context van de onderzoeksvraag.
#### 4.2.5 Eenwegs variantieanalyse (ANOVA)
ANOVA wordt gebruikt om te bepalen of er een significant verschil is in gemiddelden tussen drie of meer groepen.
* **Principe:** ANOVA vergelijkt de variantie *tussen* de groepen (between-groups variance) met de variantie *binnen* de groepen (within-groups variance). Als de between-groups variance aanzienlijk groter is dan de within-groups variance, duidt dit op significante verschillen tussen de groepsgemiddelden.
* **Toetsingsgrootheid:** De $F$-statistiek wordt berekend als de verhouding van de Mean Squares (gemiddelde kwadratensommen) tussen de groepen en binnen de groepen:
$$ F = \frac{MS_{between}}{MS_{within}} $$
Waarbij:
* $MS_{between} = \frac{SS_{between}}{df_{between}}$
* $MS_{within} = \frac{SS_{within}}{df_{within}}$
* $SS_{between}$ = Sum of Squares between groups
* $df_{between} = k - 1$ (aantal groepen $k$ minus 1)
* $SS_{within}$ = Sum of Squares within groups
* $df_{within} = N - k$ (totaal aantal deelnemers $N$ minus het aantal groepen $k$)
* **Beslissingsregel:** De nulhypothese wordt verworpen als de berekende $F$-waarde groter is dan de kritieke $F$-waarde uit de $F$-verdeling, of als de $p$-waarde kleiner is dan het significantieniveau ($\alpha$).
* **Post hoc toetsing:** Na een significante ANOVA zijn post hoc toetsingen noodzakelijk om te bepalen welke specifieke groepen significant van elkaar verschillen (bv. met de Bonferroni correctie).
#### 4.2.6 Voorbeeld van een ANOVA-berekening
Stel, we onderzoeken het verschil in examenscores (op 100) voor drie studiemethoden (A, B, C), met 34 studenten per methode ($N=102$, $k=3$).
* **Gemiddelden:** Groep A: $65.50$, Groep B: $61.32$, Groep C: $59.12$. Totaal gemiddelde: $61.98$.
* **Sum of Squares between-groups ($SS_{between}$):**
$$ SS_{between} = 34 \cdot (65.50 - 61.98)^2 + 34 \cdot (61.32 - 61.98)^2 + 34 \cdot (59.12 - 61.98)^2 $$
$$ SS_{between} = 34 \cdot (3.52)^2 + 34 \cdot (-0.66)^2 + 34 \cdot (-2.86)^2 $$
$$ SS_{between} \approx 34 \cdot 12.39 + 34 \cdot 0.44 + 34 \cdot 8.18 \approx 421.26 + 14.96 + 278.12 = 714.34 $$
* **Vrijheidsgraden between-groups ($df_{between}$):** $k-1 = 3-1 = 2$.
* **Mean Sum of Squares between-groups ($MS_{between}$):** $\frac{SS_{between}}{df_{between}} = \frac{714.34}{2} = 357.17$.
* **Sum of Squares within-groups ($SS_{within}$):** Gegeven als $11277.471$.
* **Vrijheidsgraden within-groups ($df_{within}$):** $N-k = 102-3 = 99$.
* **Mean Sum of Squares within-groups ($MS_{within}$):** $\frac{SS_{within}}{df_{within}} = \frac{11277.471}{99} \approx 113.91$.
* **Toetsingsgrootheid ($F$):** $\frac{MS_{between}}{MS_{within}} = \frac{357.17}{113.91} \approx 3.14$.
* **Kritieke waarde:** Voor een tweezijdige $F$-toets met $df_1 = 2$ en $df_2 = 99$ bij $\alpha = 0.05$, is de kritieke waarde ongeveer $3.09$.
* **Conclusie:** Aangezien de berekende $F$-waarde ($3.14$) groter is dan de kritieke waarde ($3.09$), wordt de nulhypothese verworpen. Er is een significant effect van studiemethode op de examenpunten. Om te bepalen welke studiemethode het beste is, zijn post hoc toetsingen nodig.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Populatie | Een volledige verzameling van individuen, objecten of gebeurtenissen die men wil bestuderen en waarover conclusies getrokken worden op basis van een steekproef. |
| Steekproef | Een selectie van individuen, objecten of gebeurtenissen uit een populatie, gebruikt om informatie te verkrijgen over die populatie. |
| Statistische toets | Een procedure om op basis van steekproefgegevens een beslissing te nemen over een hypothese betreffende een populatieparameter. |
| Parametrische toets | Een statistische toets die veronderstelt dat de gegevens uit een populatie komen die een specifieke kansverdeling volgt, vaak de normale verdeling, en die parameters van deze verdeling schat. |
| Non-parametrische toets | Een statistische toets die geen specifieke veronderstellingen maakt over de onderliggende kansverdeling van de populatie en vaak gebruikt wordt bij ordinale of nominale data. |
| T-toets voor het gemiddelde (one sample t test) | Een parametrische toets om te bepalen of het gemiddelde van een steekproef significant verschilt van een bekend populatiegemiddelde. |
| Chikwadraattoets voor frequenties (Chi-square goodness of fit) | Een non-parametrische toets die gebruikt wordt om te bepalen of de waargenomen frequenties van een categorische variabele significant afwijken van de verwachte frequenties. |
| Afhankelijke steekproeven | Steekproeven waarbij de metingen binnen de ene steekproef afhankelijk zijn van of gerelateerd zijn aan de metingen in de andere steekproef, zoals bij herhaalde metingen bij dezelfde personen. |
| Onafhankelijke steekproeven | Steekproeven waarbij de metingen in de ene steekproef geen invloed hebben op de metingen in de andere steekproef, wat typisch is wanneer verschillende groepen worden vergeleken. |
| T-toets voor twee onafhankelijke steekproeven | Een parametrische toets om te bepalen of de gemiddelden van twee onafhankelijke groepen significant van elkaar verschillen. |
| Wilcoxon rank-sum toets | Een non-parametrische toets voor twee onafhankelijke steekproeven, gebruikt om te bepalen of de twee populaties waaruit de steekproeven zijn getrokken, significant van elkaar verschillen. |
| T-toets voor twee afhankelijke steekproeven | Een parametrische toets om te bepalen of de gemiddelden van twee afhankelijke steekproeven significant van elkaar verschillen, vaak gebruikt bij herhaalde metingen. |
| Gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden. |
| Variantie | Een maat voor de spreiding van gegevenspunten rondom het gemiddelde; het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde. |
| Between-groups variantie | Een maat voor de variabiliteit tussen de gemiddelden van verschillende groepen. |
| Within-groups variantie | Een maat voor de variabiliteit binnen elke individuele groep. |
| Eenwegs variantieanalyse (ANOVA) | Een statistische toets die wordt gebruikt om te bepalen of er significante verschillen zijn tussen de gemiddelden van drie of meer onafhankelijke groepen. |
| Type I-fout | De fout die gemaakt wordt wanneer een nulhypothese ten onrechte wordt verworpen, terwijl deze in werkelijkheid waar is (een vals positief resultaat). |
| Nulhypothese (H0) | Een stelling die geen effect, verschil of relatie tussen variabelen postuleert, en die getoetst wordt met statistische methoden. |
| Alternatieve hypothese (H1) | Een stelling die een effect, verschil of relatie tussen variabelen postuleert, en die wordt aangenomen als de nulhypothese wordt verworpen. |
| Overtoetsingskans (p-waarde) | De kans om de waargenomen resultaten of extremere resultaten te verkrijgen, aangenomen dat de nulhypothese waar is. |
| Kritieke waarde | De grens die bepaalt of de nulhypothese wordt verworpen of niet, gebaseerd op de gekozen significantieniveau ($\alpha$). |
| Post hoc toetsing | Extra statistische toetsen die worden uitgevoerd na een significante ANOVA om te bepalen welke specifieke groepen significant van elkaar verschillen. |
| Bonferroni correctie | Een methode om de overtoetsingskansen aan te passen bij het uitvoeren van meerdere vergelijkingen om het risico op Type I-fouten te verminderen. |
| Effectgrootte | Een maat die de omvang van een effect of verschil kwantificeert, onafhankelijk van de steekproefgrootte. |
Cover
sv Statistiek voor de gezondheidswetenschappen theorie (2).pdf
Summary
# Vergelijking van statistische methoden en modellering
Dit onderwerp behandelt de methoden voor het omgaan met confounders en effectmodificatie, en de opbouw en beoordeling van predictiemodellen.
### 1.1 Omgaan met confounders en effectmodificatie
Bij het analyseren van de relatie tussen een centrale determinant en een uitkomstvariabele, is het cruciaal om rekening te houden met mogelijke verstorende factoren.
#### 1.1.1 Effectmodificatie nagaan
Effectmodificatie gaat na of de relatie tussen de centrale determinant en de uitkomstvariabele anders verloopt door de aanwezigheid van een effectmodificator [41](#page=41).
* **Determinanten voor effectmodificatie:** In theorie kunnen alle determinanten getest worden, maar in de praktijk wordt dit beperkt tot een select aantal variabelen [41](#page=41).
* **Stratificatie:** De mate van stratificatie hangt af van de specifieke context en het aantal variabelen dat wordt onderzocht [41](#page=41).
#### 1.1.2 Confounding nagaan
Confounding kan op verschillende manieren worden aangepakt:
* **A) Simultane toevoeging van confounders:** Een set van mogelijke confounders wordt in één keer toegevoegd aan het model om te observeren hoe de oorspronkelijke relatie tussen de centrale determinant en de uitkomstvariabele verandert [41](#page=41).
* **B) One-by-one testen van confounders:** Confounders worden één voor één getest om een gedetailleerder beeld te krijgen. Een veelgebruikte vuistregel is dat als de regressiecoëfficiënt met meer dan 10 procent verandert na het toevoegen van een variabele, deze als een confounder wordt beschouwd [41](#page=41).
* **C) Stepwise adjustments:** Groepen van variabelen die inhoudelijk samenhangen, worden stapsgewijs toegevoegd [41](#page=41).
**Methode van confounding nagaan:**
* Een verandering van 10% in de regressiecoëfficiënt na het opnemen van een variabele in het model leidt tot de beslissing om deze variabele op te nemen [41](#page=41).
* Het controleren van de p-waarde van de oorspronkelijke relatie en hoe deze verandert in het gecorrigeerde model, helpt bij het bepalen van confounding [41](#page=41).
#### 1.1.3 Meervoudige regressiemodellen
Vaak worden mogelijke confounders standaard opgenomen in een regressiemodel. Dit heeft als doel:
* Het aantonen van het onafhankelijke effect van de centrale determinant [41](#page=41).
* Het schatten van onafhankelijke effecten: de relatie van determinant X tot uitkomstvariabele U, onafhankelijk van andere determinanten in het model [41](#page=41).
* Confounders worden constant gehouden om de relatie tussen de centrale determinant en de uitkomstvariabele te beoordelen onder deze constante condities [41](#page=41).
**Volgorde van analyse:**
* In de praktijk wordt confounding vaak eerst nagegaan, waarna effectmodificatie wordt onderzocht. Echter, het is ook gangbaar om eerst effectmodificatie op een beperkt aantal variabelen te onderzoeken en vervolgens groepen apart te onderzoeken op mogelijke confounders [42](#page=42).
* De ruwe analyse wordt vergeleken met de gecorrigeerde analyse [42](#page=42).
### 1.2 Opbouw van predictiemodellen
Predictiemodellen worden opgebouwd om een continue uitkomstvariabele zo goed mogelijk te voorspellen aan de hand van een reeks variabelen. Dit kan handmatig of via software zoals SPSS [42](#page=42).
#### 1.2.1 Selectieprocedures voor predictiemodellen
Er zijn verschillende procedures voor het selecteren van variabelen in een predictiemodel:
* **A) Backward selectieprocedure:**
* Men start met een ruim model en verwijdert stapsgewijs variabelen die het minste bijdragen (hoogste p-waarde) aan de relatie [42](#page=42).
* Een veelgebruikte grens voor verwijdering is een p-waarde van 0.10 [42](#page=42).
* **B) Forward selectieprocedure:**
* Alle mogelijke determinanten worden apart bekeken en de beste voorspeller met de laagste p-waarde wordt geselecteerd voor het basismodel [42](#page=42).
* Vervolgens worden alle overige determinanten apart toegevoegd aan het basismodel en wordt de beste voorspeller voor het nieuwe basismodel geselecteerd [42](#page=42).
* Dit proces wordt herhaald totdat er geen voorspellers meer opduiken, met een grens van een p-waarde van 0.10 [42](#page=42).
#### 1.2.2 Kwaliteit van predictiemodellen
De algemene kwaliteit van een finaal predictiemodel wordt beoordeeld op basis van hoe goed het de uitkomstvariabele voorspelt [42](#page=42).
* **Verklarende variantie:** De verklaarde variantie (R-kwadraat) is een indicatie voor de totale voorspellingskwaliteit. Het is belangrijk om de **adjusted R-square** te gebruiken in plaats van de standaard R-square [42](#page=42).
* `> **Voorbeeld:** Een adjusted R-square van 0.474 betekent dat 47 procent van de variatie in de uitkomstvariabele verklaard kan worden door de lineaire relatie met de determinanten in het model.` [42](#page=42).
### 1.3 Toetsen en schatten in statistische analyse
Toetsen en schatten zijn complementaire processen in statistische analyse [44](#page=44).
#### 1.3.1 Toetsen
* Toetsen geeft een idee of de nulhypothese verworpen kan worden en of een resultaat significant is [44](#page=44).
* Het doel is om te berekenen hoeveel evidentie er is tegen de nulhypothese. Dit gebeurt door een statistische grootheid (bv. t-waarde) te berekenen en de bijbehorende p-waarde te bepalen aan de hand van een tabel [44](#page=44).
#### 1.3.2 Schatten
* Schatten richt zich op de betrouwbaarheid en de effectgrootte van een schatting [44](#page=44).
* Dit wordt gedaan door het berekenen van een betrouwbaarheidsinterval rond de puntschatting. De berekening van dit interval vereist de t-waarde, die uit de tabel wordt afgeleid [44](#page=44).
### 1.4 Overzicht van statistische tests (impliciet uit de vragen)
De vragen in het document impliceren kennis van verschillende statistische tests:
* **Gepaarde t-test:** Geschikt wanneer de verschillen tussen gepaarde observaties normaal verdeeld zijn. Het is een parametrische test voor continue uitkomstvariabelen waarbij dezelfde variabele tweemaal bij dezelfde personen wordt gemeten. De nulhypothese betreft de doelpopulatie, niet de steekproef [42](#page=42).
* **ANOVA test:** Veronderstelt dat de uitkomstvariabele normaal verdeeld is in elk van de te vergelijken groepen en vereist gelijke varianties (homogeniteit van varianties). ANOVA vergelijkt gemiddelden tussen groepen. Het is een parametrische test [43](#page=43).
* **Betrouwbaarheidsinterval (BI):** Als een 95% BI rond een steekproefgemiddelde een theoretische waarde µ1 omvat, betekent dit dat er 95% zekerheid is dat het werkelijke populatiegemiddelde binnen de grenzen ligt, of een kans van 5% dat het daarbuiten valt. Het steekproefgemiddelde ligt altijd binnen het betrouwbaarheidsinterval [43](#page=43).
* **Independent-sample of two-sample t-test:** Veronderstelt dat de waarden in elke van de twee te vergelijken groepen onafhankelijk zijn. Deze test vergelijkt één variabele tussen twee onafhankelijke groepen [43](#page=43).
* **Mann-Whitney U test:** Een non-parametrische test gebaseerd op de rangorde van observaties in twee te vergelijken groepen. Het vereist geen normaliteitsveronderstelling en is daardoor minder krachtig dan parametrische testen [43](#page=43).
* **Kruskal-wallis test:** Een non-parametrische test die een uitbreiding is van de Mann-Whitney U test. Het wordt gebruikt om na te gaan of de uitkomstvariabele in de doelpopulatie gelijk is aan die van gelijke groepen [43](#page=43).
* **Regressielijn (slope/helling):** De helling van de regressielijn tussen een verklarende variabele x en een afhankelijke variabele y vertegenwoordigt de gemiddelde voorspelde verandering in Y voor een eenheid stijging in x. Het is synoniem aan de regressiecoëfficiënt en de gradiënt van de regressielijn. De helling kan negatief zijn. De regressiecoëfficiënt ligt altijd binnen de grenzen van het 95% betrouwbaarheidsinterval [43](#page=43).
* **Partiële regressiecoëfficiënt (bi) in meervoudige lineaire regressie:** Geeft de gemiddelde verwachte verandering weer in de afhankelijke variabele wanneer de covariaat i met één eenheid stijgt, en alle andere covariaten constant blijven. Het beschrijft de lineaire relatie van de covariaat i met de afhankelijke variabele, onafhankelijk van de andere covariaten in het model. Dit maakt het mogelijk om meerdere determinanten tegelijkertijd te vergelijken [43](#page=43) [44](#page=44).
---
# Analyse van overlevingsdata
Overlevingsanalyse is een statistische methode die de tijd tot het optreden van een bepaalde uitkomst onderzoekt. Hoewel oorspronkelijk ontwikkeld voor sterfteonderzoek, kan het ook worden toegepast op andere gebeurtenissen zoals morbiditeit of herstel [60](#page=60) [61](#page=61).
### 2.1 Grondbeginselen van overlevingsanalyse
* **Kernconcept:** Overlevingsanalyse focust niet primair op het al dan niet optreden van een dichotome uitkomst, maar op de *tijd* die verstrijkt totdat deze uitkomst zich voordoet [60](#page=60) [61](#page=61).
* **Toepassing:** Het doel is te onderzoeken of bepaalde groepen of determinanten leiden tot een vroegere of latere intrede van de uitkomst, zoals sterfte [60](#page=60).
* **Censoring:** Dit fenomeen treedt op wanneer deelnemers de studie niet voltooien, de uitkomst niet bereiken aan het einde van de follow-up, of de studie voortijdig verlaten [60](#page=60).
### 2.2 Kaplan-Meier-overlevingscurve
De Kaplan-Meier-overlevingscurve is een grafische weergave die de overlevingsgegevens op een visuele manier weergeeft [60](#page=60).
* **Werking:** De follow-up tijd wordt opgedeeld in segmenten. Per segment wordt de kans op overleven berekend, gegeven dat de persoon aan het begin van die periode nog in leven is [60](#page=60).
* **Resultaat:** Dit resulteert in een trapvormige curve die de cumulatieve overlevingskans weergeeft [60](#page=60).
* **Markeringen:** Zwarte vierkantjes op de curve duiden op gecensureerde gegevens, waarbij individuen niet langer deelnemen aan de studie [60](#page=60).
### 2.3 Log-ranktoets
De log-ranktoets wordt gebruikt om overlevingscurves te vergelijken [60](#page=60) [61](#page=61).
* **Toepassing:** Geschikt voor het vergelijken van twee of meerdere groepen [60](#page=60) [61](#page=61).
* **Nulhypothese:** De twee (of meer) curves vallen volledig samen [60](#page=60).
* **Uitkomst:** De toets berekent de mate van evidentie tegen de nulhypothese en levert een p-waarde op die aangeeft of er een significant verschil is tussen de overlevingscurves. Het is een algemene toets en geeft geen effectmaat [60](#page=60) [61](#page=61).
### 2.4 Cox-regressieanalyse
De Cox-regressieanalyse is een regressiemodel dat analoog is aan logistische regressie, maar specifiek is ontworpen voor overlevingsdata [60](#page=60) [61](#page=61).
* **Toepassing:** Vereist prospectieve gegevens en een follow-up periode [60](#page=60) [61](#page=61).
* **Modellering:** In plaats van de dichotome uitkomst zelf, modelleert de Cox-regressie de *tijd* tot het optreden van die uitkomst [61](#page=61).
* **Uitkomstvariabele transformatie:** De natuurlijke logaritme van de hazard (het inverse van overleving) wordt gebruikt om een lineaire functie mogelijk te maken [62](#page=62).
#### 2.4.1 Enkelvoudige en meervoudige Cox-regressie
* **Enkelvoudige analyse (simple cox analysis):** Test één determinant in het model [62](#page=62).
* **Meervoudige analyse (multiple cox analysis):** Modelleert meerdere determinanten tegelijkertijd [62](#page=62).
* **Determinanttypen:** Geschikt voor categorische, dichotome, meervoudig categorische en continue determinanten [62](#page=62).
#### 2.4.2 Hazard Ratio
De hazard ratio (HR) is de effectmaat in de Cox-regressieanalyse [62](#page=62).
* **Interpretatie:** Het kwantificeert de kans op de uitkomstvariabele op elk tijdstip [62](#page=62).
* Een HR van 1 betekent geen effect [62](#page=62).
* Een HR groter dan 1 duidt op een grotere kans op de uitkomst [63](#page=63).
* Een HR kleiner dan 1 duidt op een lagere kans op de uitkomst [63](#page=63).
* **Berekening (voor dichotome determinant):** De HR drukt het verband uit tussen de determinant en de uitkomstvariabele. Bijvoorbeeld, een HR van 2.6 betekent 2.6 keer meer kans op herstel in de interventiegroep vergeleken met de controlegroep, berekend op basis van het gemiddelde [62](#page=62).
* **Voorwaarde voor constante HR:** De hazard ratio moet constant blijven over de tijd (proportional hazards assumption). Dit kan getest worden door de continue predictor te categoriseren [62](#page=62) [63](#page=63).
#### 2.4.3 Output van de Cox-regressieanalyse
De output verschilt enigszins van standaardregressieanalyses, met name door het ontbreken van een intercept [62](#page=62).
* **Sig (p-waarde):** Afgeleid van de Wald-statistiek, wordt gebruikt om de significantie van het resultaat te beoordelen [62](#page=62).
* **Betrouwbaarheidsinterval:** Als 1 buiten het betrouwbaarheidsinterval ligt, is het resultaat significant [62](#page=62).
#### 2.4.4 Schattingsmethode
* **Maximum Likelihood:** Parameters worden geschat op basis van maximum likelihood [62](#page=62).
* **Likelihood Ratio-toets:** Deze toets wordt meegeleverd in de output. Het verschil tussen twee modellen (bijvoorbeeld een nulmodel en een model met een predictor) wordt geëvalueerd [62](#page=62) [63](#page=63).
* De toets volgt een chi-kwadraatverdeling met vrijheidsgraden gelijk aan het verschil in het aantal parameters tussen de vergeleken modellen [63](#page=63).
#### 2.4.5 Omgaan met determinanten
* **Categorische determinanten:** Gebruik van dummycodering waarbij categorieën worden vergeleken met een referentiegroep [63](#page=63).
* **Continue determinanten:** Kunnen als zodanig worden ingevoerd. De hazard ratio wordt geïnterpreteerd als de verandering in hazard voor een stijging van één eenheid in de determinant. Soms wordt de determinant omgezet naar een groter aantal eenheden voor betere interpretatie [63](#page=63).
> **Tip:** De interpretatie van de hazard ratio voor een continue determinant veronderstelt een lineair verband, wat betekent dat de HR constant is, ongeacht de waarde van de determinant [63](#page=63).
* **Confounding en effectmodificatie:** Deze concepten zijn op dezelfde manier relevant als in eerdere analyses. Om confounding te testen, wordt een tweede analyse uitgevoerd waarbij de potentiële confounder als determinant wordt toegevoegd en de hazard ratio's van de ruwe en gecorrigeerde analyses worden vergeleken [63](#page=63).
---
# Hypothesen testen met theoretische kansverdelingen
Hypothesen testen met theoretische kansverdelingen stelt ons in staat om de plausibiliteit van een nulhypothese te evalueren aan de hand van steekproefgegevens door gebruik te maken van wiskundige modellen die de kans op waargenomen resultaten onder de nulhypothese kwantificeren [13](#page=13).
### 3.1 Algemene principes van hypothesetesten
Het proces van hypothesetesten kent vijf hoofdfasen [13](#page=13):
1. **Formuleren van hypothesen:** Vanuit de onderzoeksvraag worden de nulhypothese ($H_0$) en de alternatieve hypothese ($H_a$) opgesteld [13](#page=13).
2. **Gegevensverzameling:** Data wordt verzameld uit een steekproef van individuen [13](#page=13).
3. **Berekenen van de teststatistiek:** Op basis van de steekproefgegevens wordt een teststatistiek (het steekproefresultaat) berekend [13](#page=13).
4. **Berekenen van een statistische grootheid:** Een statistische grootheid wordt berekend die de verhouding tot de nulhypothese weergeeft [13](#page=13).
5. **Afleiden van de p-waarde:** Op basis van de statistische grootheid wordt een p-waarde afgeleid [13](#page=13).
Een statistische test vergelijkt het steekproefresultaat met de nulhypothese. De teststatistiek, berekend op basis van het steekproefresultaat, geeft een indicatie van de hoeveelheid evidentie tegen de nulhypothese; een grotere teststatistiek duidt op minder compatibiliteit met $H_0$ en dus meer evidentie tegen $H_0$ [13](#page=13).
### 3.2 Theoretische kansverdelingen in hypothesetesten
Theoretische kansverdelingen zijn wiskundige modellen die het mogelijk maken om een bijbehorende p-waarde af te leiden voor de berekende teststatistieken. Deze verdelingen zijn gebaseerd op het principe van oneindige herhaling van steekproeftrekkingen, waarbij de steekproefschatting wordt beschouwd als een random variabele. Omdat in werkelijkheid niet meerdere keren een steekproef kan worden genomen, spreken we van een *theoretische* kansverdeling. De probabiliteitsdistributie wordt gebruikt om de p-waarde te vinden die overeenkomt met de teststatistiek [13](#page=13).
Enkele veelgebruikte theoretische kansverdelingen in de statistiek zijn [13](#page=13):
* **Z-distributie (Standaardnormale verdeling):** Gebruikt voor het schatten van gemiddelden van continue uitkomstvariabelen [13](#page=13) [14](#page=14).
* **T-distributie:** Een alternatieve verdeling voor het toetsen van gemiddelden, met name wanneer de populatiestandaarddeviatie onbekend is en de steekproefgrootte klein is.
* **Binomiale verdelingen:** Gebruikt voor dichotome uitkomstvariabelen.
#### 3.2.1 Probabiliteitsdistributie voor continue variabelen
Bij continue variabelen is de X-as van de probabiliteitsdistributie de teststatistiek. De Y-as representeert kansdichtheden, niet exacte kansen. Hoe verder een steekproefresultaat van het midden van de distributie ligt, hoe meer evidentie er is tegen de nulhypothese. Het gearceerde gebied, bijvoorbeeld het gebied voorbij een bepaalde teststatistiek (zoals X2), vertegenwoordigt de p-waarde. Deze p-waarde geeft de kans weer om een steekproefresultaat te bekomen dat even extreem of extremer is dan het waargenomen resultaat, áls de nulhypothese waar zou zijn [14](#page=14).
#### 3.2.2 De Z-verdeling (Standaardnormale verdeling)
De Z-verdeling is de standaardnormale kansverdeling en wordt gebruikt voor het toetsen van steekproefgemiddelden van continue uitkomstvariabelen. Het doel is om de teststatistiek te berekenen, die aangeeft hoe het onderzoeksresultaat zich verhoudt tot de nulhypothese. Deze toetsingsgrootheid, vaak aangeduid als 'Z', geeft een idee van de hoeveelheid evidentie tegen $H_0$, rekening houdend met de onzekerheid in de schatting [14](#page=14).
De formule voor de Z-toetsingsgrootheid kan worden weergegeven als:
$$Z = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$$
Hierbij is:
* $\bar{x}$ het waargenomen gemiddelde in de steekproef [15](#page=15).
* $\mu_0$ het verwachte gemiddelde onder de nulhypothese [15](#page=15).
* $s$ de standaarddeviatie van de steekproef [15](#page=15).
* $n$ de steekproefgrootte [15](#page=15).
Een grotere absolute waarde van Z betekent dat het steekproefgemiddelde verder afwijkt van het verwachte gemiddelde onder $H_0$, wat meer evidentie tegen $H_0$ genereert. De bijbehorende p-waarde wordt bepaald door de positie van Z op de standaardnormale distributie te zoeken [15](#page=15).
**Kenmerken van de Z-distributie:**
* Het is de enige standaardnormale verdeling [15](#page=15).
* Het gemiddelde is 0 en de standaarddeviatie is 1 [15](#page=15).
* De X-as loopt van negatief oneindig tot positief oneindig [15](#page=15).
* De Y-as toont kansdichtheden, en de totale oppervlakte onder de curve is gelijk aan 1 of 100% [15](#page=15).
* Het standaardiseren van een variabele betekent deze uitdrukken in het aantal standaarddeviaties van het gemiddelde. Elke normaal verdeelde variabele kan worden gestandaardiseerd, wat nuttig is voor het vergelijken van variabelen in verschillende eenheden [15](#page=15).
#### 3.3 De p-waarde en statistisch toetsen
Statistische toetsen leiden tot p-waarden, waarbij een zo klein mogelijke p-waarde wenselijk is. De p-waarde is de overschrijdingskans: de kans op het waargenomen onderzoeksresultaat (of extremer), gegeven dat de nulhypothese waar is. Als $H_0$ waar is, betekent dit dat er geen effect is in de volledige onderzoekspopulatie. Een lagere p-waarde, corresponderend met een hogere teststatistiek, duidt erop dat het onderzoeksresultaat slecht past bij de nulhypothese, en er dus voldoende evidentie is om $H_0$ te verwerpen [15](#page=15).
### 3.4 Specifieke theoretische kansverdelingen en hun toepassingen
#### 3.4.1 De Z-distributie voor continue variabelen
De Z-distributie, of standaardnormale verdeling, wordt gebruikt voor het schatten van gemiddelden van continue uitkomstvariabelen. De berekening van de toetsingsgrootheid Z helpt om de teststatistiek te kwantificeren en de mate van evidentie tegen de nulhypothese te beoordelen [13](#page=13) [14](#page=14).
#### 3.4.2 De T-distributie
Hoewel de documentatie kort de T-distributie noemt wordt de specifieke toepassing ervan niet verder uitgewerkt in de verstrekte tekst. De T-distributie wordt doorgaans gebruikt wanneer de populatiestandaarddeviatie ($\sigma$) onbekend is en wordt geschat met de steekproefstandaarddeviatie ($s$). Dit is vaak het geval bij kleinere steekproeven [13](#page=13) [14](#page=14).
#### 3.4.3 Binomiale verdelingen
Binomiale verdelingen zijn relevant voor dichotome (binaire) uitkomstvariabelen. Ze modelleren het aantal successen in een vast aantal onafhankelijke Bernoulli-experimenten, elk met dezelfde succeskans. De toepassing hiervan in hypothesetesten zou gericht zijn op het toetsen van proporties of het testen van hypotheses over het aantal gebeurtenissen in een binair scenario [13](#page=13).
> **Tip:** Het kiezen van de juiste theoretische kansverdeling is cruciaal voor de correctheid van hypothesetesten. Dit hangt af van het type variabele (continu, categorisch) en de informatie die beschikbaar is over de populatie (bijvoorbeeld of de populatiestandaarddeviatie bekend is).
### 3.5 Overgang van beschrijvende naar inferentiële statistiek
De theoretische kansverdelingen vormen een brug tussen beschrijvende statistiek (zoals het berekenen van gemiddelden en spreidingsmaten) en inferentiële statistiek (het trekken van conclusies over een populatie op basis van een steekproef). Terwijl beschrijvende statistiek de data samenvat, maken theoretische kansverdelingen het mogelijk om te kwantificeren hoe waarschijnlijk deze samenvattingen zijn onder een specifieke hypothese [13](#page=13).
---
# Statistische toetsen voor het vergelijken van gemiddelden
Statistische toetsen voor het vergelijken van gemiddelden worden gebruikt om te bepalen of waargenomen verschillen tussen groepen of metingen statistisch significant zijn [23](#page=23).
### 4.1 Verschillende testen
Parametrische testen zijn specifiek ontworpen voor vergelijkende onderzoeksvragen waarbij met gemiddelde waarden van continue uitkomstvariabelen wordt gewerkt. Deze testen vereisen dat bepaalde voorwaarden worden voldaan om correct toegepast te kunnen worden; bij het niet voldoen aan deze voorwaarden, wordt overgeschakeld op non-parametrische testen, die werken met rangnummers in plaats van gemiddelden. Parametrische testen worden als krachtiger en informatiever beschouwd dan non-parametrische testen [23](#page=23).
#### 4.1.1 Gepaarde t-toets
De gepaarde t-toets is een analysetechniek binnen één groep om gemiddelden van twee metingen bij dezelfde personen te vergelijken. Dit is nuttig bij gepaarde observaties, zoals wanneer dezelfde personen meerdere keren worden gemeten op een continue variabele. De nulhypothese ($\text{H}_0$) stelt dat het gemiddeld verschil in de continue variabelen tussen de eerste en tweede meting in de doelpopulatie gelijk is aan nul ($\Delta = 0$) (#page=23, 24) [23](#page=23) [24](#page=24).
De gepaarde t-toets is een parametrische test en vereist dat de continue uitkomstvariabele normaal verdeeld is. De toets berekent een t-statistiek die de verhouding weergeeft tussen het waargenomen verschil in de steekproef en de nulhypothese, rekening houdend met de standaardfout van het gemiddelde. Deze t-waarde wordt vervolgens in een t-distributie getoetst om een p-waarde te bepalen, waarbij de vrijheidsgraden afhangen van de steekproefgrootte ($n-1$). Naast het toetsen op significantie, wordt ook het 95% betrouwbaarheidsinterval (BI) voor het verschil geschat om de grootte van het effect en de klinische relevantie te beoordelen. Als de waarde van de nulhypothese buiten de grenzen van het BI valt, wordt de nulhypothese verworpen [24](#page=24).
> **Tip:** In SPSS wordt de p-waarde van een gepaarde t-toets vaak gerapporteerd als "Sig. (2-tailed)" en kan deze zeer klein zijn (bv. < 0,001) [25](#page=25).
#### 4.1.2 One sample t-toets
De one sample t-toets wordt gebruikt om het gemiddelde van een continue variabele in een steekproef te vergelijken met een specifieke standaardwaarde, die niet gemeten is binnen de steekproef. De nulhypothese stelt dat het gemiddelde van de populatie gelijk is aan deze standaardwaarde [25](#page=25).
Net als bij de gepaarde t-toets, vereist de one sample t-toets dat de uitkomstvariabele of het verschil tussen de variabele en de standaardwaarde min of meer normaal verdeeld is. De toets berekent een t-statistiek en een p-waarde om de nulhypothese te toetsen. Er wordt ook een betrouwbaarheidsinterval rond het gemiddelde verschil berekend; als 0 niet binnen dit interval valt, is het resultaat significant [25](#page=25) [26](#page=26).
> **Voorbeeld:** Een onderzoeker vergelijkt de gemiddelde kennis van een groep studenten met een historische gemiddelde kennis van 75 punten uit de populatie [25](#page=25).
#### 4.1.3 Independent samples t-toets / T-test
De independent samples t-toets vergelijkt de gemiddelden van een continue variabele tussen twee onafhankelijke groepen. De nulhypothese stelt dat de gemiddelden van de twee populaties gelijk zijn ($\mu_1 = \mu_2$) [26](#page=26).
Voor deze toets zijn de volgende voorwaarden van belang:
* **Normaliteit:** De uitkomstvariabele moet in beide groepen min of meer normaal verdeeld zijn [26](#page=26).
* **Homoscedasticiteit:** De varianties (spreiding) van de uitkomstvariabele moeten gelijk zijn in beide groepen [26](#page=26).
Bij het berekenen wordt rekening gehouden met de spreiding in beide groepen, waarbij soms de 'pooled standard error' (sp) wordt berekend als tussenstap (#page=26, 27). De p-waarde die uit de t-distributie wordt afgelezen, moet verdubbeld worden als de voorwaarde van gelijke varianties geschonden is. Een betrouwbaarheidsinterval rond het verschil van de gemiddeldes wordt berekend om de grootte van het effect te schatten [26](#page=26) [27](#page=27).
In SPSS wordt de Levene's test for equality of variances gebruikt om homoscedasticiteit te toetsen. Als de p-waarde van Levene's test significant is (bv. < 0,05), wat aangeeft dat de varianties niet gelijk zijn, wordt de onderste rij van de t-toetsoutput ("equal variances not assumed") gebruikt. Anders wordt de bovenste rij ("equal variances assumed") geïnterpreteerd [27](#page=27).
#### 4.1.4 ANOVA (Variantieanalyse) toets
De variantieanalyse (ANOVA) wordt gebruikt om de gemiddelden van een continue variabele te vergelijken wanneer er drie of meer onafhankelijke groepen zijn. In plaats van de t-distributie, maakt ANOVA gebruik van de F-distributie [28](#page=28).
De nulhypothese stelt dat alle groepsgemiddelden gelijk zijn ($\mu_1 = \mu_2 = \mu_3$). Net als parametrische t-toetsen, heeft ANOVA voorwaarden van normaliteit en homoscedasticiteit. De kern van ANOVA ligt in het opsplitsen van de totale variantie in de steekproef in twee componenten [28](#page=28):
* **Tussengroepsvariantie (between-groups variance):** Meet het verschil tussen de gemiddelden van de groepen [28](#page=28).
* **Binnengroepsvariantie (within-groups variance):** Meet de spreiding van waarden binnen elke groep [28](#page=28).
De F-toetsingsgrootheid vergelijkt de verhouding tussen deze twee varianties. Een hoge F-waarde, die duidt op meer tussengroepsvariantie ten opzichte van binnengroepsvariantie, geeft meer evidentie tegen de nulhypothese [28](#page=28).
Omdat ANOVA alleen een algemeen significant verschil tussen de groepen aangeeft, zijn post-hoc testen nodig voor paarsgewijze vergelijkingen om te bepalen welke specifieke groepen van elkaar verschillen [28](#page=28).
> **Tip:** Bij het uitvoeren van meerdere post-hoc testen is het belangrijk om te corrigeren voor het multiple-toetsingsprobleem om een verhoogde kans op Type I fouten te vermijden [28](#page=28).
### 4.2 Vergelijken scheef verdeelde continue variabelen
Wanneer een continue variabele significant afwijkt van de normaliteitsverdeling, zijn er twee hoofdstrategieën: transformatie van de variabele of het gebruik van non-parametrische testen [29](#page=29).
1. **Transformatie:**
* De variabele kan worden getransformeerd, bijvoorbeeld met de natuurlijke logaritme [29](#page=29).
* Na transformatie wordt de parametrische test (bv. t-toets of ANOVA) uitgevoerd op de getransformeerde variabele [29](#page=29).
* Het resultaat van de test wordt vervolgens terug getransformeerd met de inverse functie (bv. exponentiële functie) om het te interpreteren in de oorspronkelijke meeteenheid [29](#page=29).
* Bij het gebruik van gemiddelden na een logaritmische transformatie, is het geometrische gemiddelde relevanter [29](#page=29).
> **Tip:** Het histogram van een variabele biedt visuele informatie over de verdeling, maar de beslissing om te transformeren hangt ook af van de steekproefgrootte.
2. **Non-parametrische testen:**
* Deze testen zijn gebaseerd op rangnummers in plaats van op de werkelijke waarden van de data [29](#page=29).
* Ze vereisen geen normaliteitsassumptie [29](#page=29).
* Non-parametrische testen zijn doorgaans minder krachtig dan parametrische testen en bieden geen effectschattingen, enkel een p-waarde om significantie aan te geven [29](#page=29).
### 4.3 Vergelijken met non-parametrische testen
Non-parametrische testen worden gebruikt wanneer de aannames voor parametrische testen, met name normaliteit, niet worden voldaan, of bij kleine steekproeven waar normaliteit moeilijk te beoordelen is (#page=23, 29). Ze werken met rangnummers en bieden doorgaans geen effectschattingen, enkel een p-waarde voor significantie [23](#page=23) [29](#page=29).
#### 4.3.1 Mann-Whitney U test
De Mann-Whitney U test is de non-parametrische tegenhanger van de independent samples t-toets. Deze test wordt gebruikt om twee onafhankelijke groepen te vergelijken op een numerieke variabele die niet normaal verdeeld is. De nulhypothese stelt dat de distributie van de variabele in de twee groepen gelijk is, wat impliceert dat de som van de rangnummers in de ene groep gelijk is aan die in de andere [30](#page=30).
#### 4.3.2 Wilcoxon signed rank test
De Wilcoxon signed rank test is de non-parametrische equivalent van de gepaarde t-toets en wordt toegepast bij gepaarde observaties binnen één groep (twee verschillende metingen bij dezelfde personen). De nulhypothese stelt dat de mediaan van het verschil tussen de metingen nul is, of equivalent, dat de som van de rangnummers met een positief teken gelijk is aan de som van de rangnummers met een negatief teken. Positieve rangnummers indiceren een stijging tussen metingen, negatieve een daling [30](#page=30).
#### 4.3.3 Sign test (tekentoets)
De sign test (tekentoets) is een non-parametrische toets die gebruikt kan worden om het gemiddelde van één groep te vergelijken met een standaardwaarde, vergelijkbaar met de one sample t-toets. De nulhypothese wordt hierbij getoetst op basis van de tekens (positief of negatief) van de verschillen tussen de observaties en de standaardwaarde [30](#page=30).
---
# Meervoudige lineaire regressie
Meervoudige lineaire regressie is een statistisch model dat de lineaire relatie tussen één continue uitkomstvariabele en meerdere onafhankelijke variabelen (determinanten of predictoren) onderzoekt, rekening houdend met hun gecombineerde effecten en onafhankelijke bijdragen.
### 5.1 Principes van meervoudige lineaire regressie
Meervoudige lineaire regressie breidt enkelvoudige lineaire regressie uit door het modelleren van de relatie tussen een continue uitkomstvariabele en meerdere onafhankelijke variabelen tegelijkertijd. Het model schat partiële regressiecoëfficiënten, die de verandering in de uitkomstvariabele vertegenwoordigen voor een eenheidstoename in een specifieke onafhankelijke variabele, terwijl alle andere onafhankelijke variabelen in het model constant worden gehouden [37](#page=37) [41](#page=41).
#### 5.1.1 Voorwaarden
De voorwaarden voor meervoudige lineaire regressie zijn vergelijkbaar met die van enkelvoudige regressie [37](#page=37):
* **Lineariteit**: Voor alle continue predictoren moet er een lineaire relatie bestaan met de uitkomstvariabele [37](#page=37).
* **Normaliteit van residuen**: Een histogram van de residuen kan worden opgevraagd om te controleren of de normaliteit wordt voldaan [37](#page=37).
* **Homoscedasticiteit**: De variantie van de residuen moet constant zijn over de voorspelde waarden. Een trechtervorm in de residuenplot duidt op een sterke afwijking van homoscedasticiteit [37](#page=37).
#### 5.1.2 Typen modellen
Meervoudige regressie kan worden gebruikt voor twee hoofdtypes modellen [37](#page=37):
1. **Associatiemodellen**: Deze modellen zijn gericht op het zuiver beschrijven van de relatie tussen een centrale determinant en de uitkomstvariabele, terwijl er rekening wordt gehouden met mogelijke confounders en effectmodificatoren. Het doel is om de relatie zo zuiver mogelijk te beschrijven [37](#page=37).
* **Confounding (verstorende variabele)**: Confounding treedt op wanneer een variabele ($C$) gerelateerd is aan de onafhankelijke variabele ($X$) en tegelijkertijd ook gerelateerd is aan de uitkomstvariabele ($Y$). Dit kan de geschatte relatie tussen $X$ en $Y$ vertekenen. Confounding wordt getest door de regressiecoëfficiënt voor $X$ te vergelijken in een enkelvoudig model (enkel $X$ en $Y$) met die in een meervoudig model (waarin $C$ is toegevoegd). Als de regressiecoëfficiënt voor $X$ met minstens 10% verandert na het toevoegen van $C$, wordt $C$ beschouwd als een confounder. Verschillende methoden om confounding na te gaan zijn onder meer het tegelijk toevoegen van een set mogelijke confounders, het één voor één testen van confounders, of het stapsgewijs toevoegen van groepen van variabelen (stepwise adjustments). Vaak worden mogelijke confounders sowieso meegenomen in het regressiemodel om het onafhankelijke effect van de centrale determinant te kunnen aantonen [38](#page=38) [41](#page=41).
* **Effectmodificatie (interactie)**: Effectmodificatie, ook wel interactie genoemd, treedt op wanneer de relatie tussen $X$ en $Y$ afhankelijk is van de waarde op een andere variabele ($C$). De relatie tussen $X$ en $Y$ is dus anders voor verschillende niveaus van $C$. Interactie wordt getest door een interactieterm toe te voegen aan het model, wat het product is van de centrale determinant ($X$) en de potentiële effectmodificator ($C$). Meestal wordt er gekeken naar de p-waarde van de interactieterm; een p-waarde kleiner dan 0.10 wordt vaak als significant beschouwd voor interactie. Als er sprake is van interactie, kan dit verder worden onderzocht door middel van stratificatie, waarbij de analyse wordt uitgevoerd binnen verschillende subgroepen (strata) gedefinieerd door de effectmodificator. Dit kan visueel worden weergegeven met een lijndiagram [38](#page=38) [39](#page=39).
> **Tip:** Bij het opbouwen van associatiemodellen is het belangrijk om rekening te houden met de steekproefgrootte ($N$). Een veelgebruikte vuistregel is dat het aantal predictoren niet meer dan 1/10e van de steekproefgrootte mag zijn (bijvoorbeeld maximaal 20 predictoren bij $N=200$). Ook moet aandacht worden besteed aan multicollineariteit, waarbij onafhankelijke variabelen sterk met elkaar correleren [40](#page=40).
> **Tip:** Het ruwe model (crude model of unadjusted model) dient als vertrekpunt om de impact van toegevoegde factoren (confounders of effectmodificatoren) te beoordelen [40](#page=40).
2. **Predictiemodellen**: Deze modellen zijn gericht op het zo goed mogelijk voorspellen van de uitkomstvariabele aan de hand van een reeks determinanten [39](#page=39).
#### 5.1.2.1 Procedure voor het opbouwen van predictiemodellen
Er zijn verschillende procedures om predictiemodellen op te bouwen, zowel handmatig als via software zoals SPSS [42](#page=42):
* **Backward selectieprocedure**: Men begint met een uitgebreid model en verwijdert stapsgewijs variabelen met de hoogste p-waarde (meestal boven 0.10) die het minst bijdragen aan de relatie [42](#page=42).
* **Forward selectieprocedure**: Men start met het selecteren van de beste enkele voorspeller (laagste p-waarde) en voegt vervolgens stapsgewijs de beste resterende voorspeller toe aan het model, totdat er geen nieuwe variabelen meer significant bijdragen (p-waarde grens van 0.10) [42](#page=42).
#### 5.1.2.2 Kwaliteit van predictiemodellen
De algehele kwaliteit van een predictiemodel wordt beoordeeld aan de hand van de verklarende variantie, vaak weergegeven door de **adjusted R-square**. Een adjusted R-square van bijvoorbeeld 0.474 betekent dat 47.4 procent van de spreiding (variatie) in de uitkomstvariabele kan worden verklaard door de lineaire relatie met de determinanten in het model [42](#page=42).
### 5.2 Formules en berekeningen
De basisvergelijking voor een meervoudig lineair regressiemodel met $k$ onafhankelijke variabelen ($X_1, X_2, \dots, X_k$) en een uitkomstvariabele ($Y$) is:
$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon $$
Waar:
* $Y$ is de uitkomstvariabele.
* $\beta_0$ is het intercept (de verwachte waarde van $Y$ wanneer alle onafhankelijke variabelen gelijk zijn aan nul).
* $\beta_i$ ($i=1, \dots, k$) is de partiële regressiecoëfficiënt voor de onafhankelijke variabele $X_i$. Deze vertegenwoordigt de verwachte verandering in $Y$ voor een eenheidstoename in $X_i$, waarbij alle andere onafhankelijke variabelen constant worden gehouden.
* $X_i$ is de $i$-de onafhankelijke variabele.
* $\epsilon$ is de foutterm, die de onverklaarde variatie in $Y$ vertegenwoordigt.
#### 5.2.1 Interactieterm in LaTeX
Wanneer een interactie tussen twee variabelen $X$ en $C$ wordt gemodelleerd, wordt een interactieterm, $X \cdot C$, toegevoegd aan het model. De formule wordt dan:
$$ Y = \beta_0 + \beta_1 X + \beta_2 C + \beta_3 (X \cdot C) + \epsilon $$
Hierbij is $\beta_3$ de coëfficiënt van de interactieterm die aangeeft in welke mate de relatie tussen $X$ en $Y$ afhankelijk is van $C$.
> **Tip:** Bij het interpreteren van de resultaten van een meervoudige lineaire regressie is het cruciaal om onderscheid te maken tussen geassocieerde en onafhankelijke effecten. Het meenemen van confounders in het model helpt bij het schatten van het onafhankelijke effect van een centrale determinant [41](#page=41).
---
# Statistische toetsen voor categorische uitkomstvariabelen
Dit hoofdstuk behandelt statistische toetsen die gebruikt worden wanneer de uitkomstvariabele categorisch is, met een specifieke focus op dichotome uitkomstvariabelen en vergelijkingen tussen groepen [45](#page=45).
### 6.1 Dichotome uitkomstvariabelen – 1 groep
Wanneer er één groep met een dichotome uitkomstvariabele wordt geanalyseerd, kan dit betrekking hebben op het vergelijken van twee metingen bij dezelfde personen of het vergelijken van een proportie binnen een groep met een standaardwaarde [45](#page=45).
#### 6.1.1 Vergelijken van twee metingen bij dezelfde personen (gepaarde observaties)
* **McNemar-toets**
* Deze toets wordt gebruikt om verschillen tussen proporties in dezelfde groep te testen bij herhaalde metingen [45](#page=45).
* De nulhypothese stelt dat er geen verandering is in de dichotome variabele tussen de eerste en tweede meting, wat betekent dat de proportie van de uitkomst bij de tweede meting gelijk is aan die bij de eerste meting [45](#page=45).
* Het verschil tussen de twee proporties wordt gelijk aan nul verondersteld onder de nulhypothese [45](#page=45).
* Deze toets wordt niet frequent gebruikt en de berekening ervan wordt buiten het bestek van deze samenvatting gelaten, met focus op interpretatie van de output [45](#page=45).
#### 6.1.2 Vergelijken van een proportie in een groep met een standaardwaarde
* **Z-toets voor proportie**
* Deze toets wordt ingezet om het verschil tussen de proportie in een bepaalde groep en een theoretisch betekenisvolle standaardwaarde (vaak gebaseerd op eerder onderzoek) te toetsen [45](#page=45).
* De nulhypothese kan op twee manieren geformuleerd worden:
1. De proportie in de volledige doelpopulatie is gelijk aan de standaardproportie [45](#page=45).
2. Het verschil tussen de proportie in de doelpopulatie en de standaardwaarde is gelijk aan nul [45](#page=45).
* **Voorwaarden voor de Z-distributie:**
* Een minimale voorwaarde is dat er in beide groepen meer dan 5 personen zijn. Dit is een arbitraire vuistregel; grotere aantallen leiden tot een betere benadering door de normale verdeling [46](#page=46).
* **Toetsen:**
* Hierbij wordt een statistische grootheid berekend die de evidentie tegen de nulhypothese weergeeft [46](#page=46).
* De standaardfout van de proportie onder de nulhypothese ($sep HO$) wordt eerst berekend met de formule:
$$ sep HO = \sqrt{\frac{p_0(1-p_0)}{n}} $$
waarbij $p_0$ de standaardproportie is en $n$ het aantal observaties [46](#page=46).
* Vervolgens wordt de Z-statistiek berekend:
$$ Z = \frac{\hat{p} - p_0}{sep HO} $$
waarbij $\hat{p}$ de geobserveerde proportie in de steekproef is [46](#page=46).
* De uitkomst van de Z-score wordt vervolgens in een tabel opgezocht om de bijbehorende p-waarde te bepalen [46](#page=46).
* **Schatten (Betrouwbaarheidsinterval):**
* Een betrouwbaarheidsinterval (BI) wordt geschat rond de steekproefproportie (puntschatting). Hiervoor is opnieuw de standaardfout nodig, maar met een aangepaste formule voor het BI [46](#page=46).
* De Z-waarde die nodig is voor het BI is doorgaans 1,96 voor een 95% betrouwbaarheidsniveau, aangezien er met één Z-verdeling gewerkt wordt [46](#page=46).
* De formule voor het betrouwbaarheidsinterval is:
$$ \hat{p} \pm Z_{\alpha/2} \times SE(\hat{p}) $$
waarbij $SE(\hat{p})$ de standaardfout van de geobserveerde proportie is.
* Alternatief kan een betrouwbaarheidsinterval worden berekend rond het verschil met de standaardwaarde [47](#page=47).
* De formule voor het BI rond het verschil is:
$$ (\hat{p} - p_0) \pm Z_{\alpha/2} \times SE(\hat{p} - p_0) $$
waarbij $SE(\hat{p} - p_0)$ de standaardfout van het verschil is [47](#page=47).
* De standaardfout van de proportie ($sep$) wordt berekend met de formule:
$$ se = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $$
waarbij $\hat{p}$ de geobserveerde proportie is [47](#page=47).
> **Tip:** Bij een standaardwaarde van 50 procent, wordt een proportie van minder dan 50 procent als significant beschouwd als de p-waarde kleiner is dan 0,5 [47](#page=47).
### 6.2 Dichotome variabelen – twee groepen
Dit gedeelte behandelt situaties waarin proporties tussen twee onafhankelijke groepen worden vergeleken. Dit is relevant voor het onderzoeken van de associatie tussen twee dichotome variabelen [47](#page=47).
#### 6.2.1 Vergelijken van proporties tussen 2 onafhankelijke groepen
* **Chikwadraattoets (Chi-kwadraattoets)**
* Dit is een veelgebruikte toets om de associatie tussen twee dichotome variabelen te toetsen [47](#page=47).
* Het is een uitbreiding van de Z-distributie en kan worden gebruikt voor diverse verbanden tussen categorische variabelen [47](#page=47).
* **Werking:**
* De toets berekent de evidentie tegen de nulhypothese, die stelt dat er geen associatie is tussen de variabelen in de doelpopulatie [47](#page=47).
* De berekening start vanuit een kruistabel en vergelijkt de geobserveerde aantallen (O) met de verwachte aantallen (E) in elke cel [48](#page=48).
* Het geobserveerde aantal is het aantal dat uit de steekproef komt [48](#page=48).
* Het verwachte aantal (E) wordt berekend op basis van kansberekening, gebruikmakend van de rijtotaal, kolomtotaal en het volledige totaal per cel. De formule voor het verwachte aantal in een cel is [48](#page=48):
$$ E_{ij} = \frac{\text{Rijtotaal}_i \times \text{Kolomtotaal}_j}{\text{Totaal Aantal}} $$
* De toetsingsgrootheid chi-kwadraat wordt berekend door de bijdragen van elke cel op te tellen:
$$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
Een grotere chi-kwadraat waarde duidt op meer evidentie tegen de nulhypothese [48](#page=48).
* **Vrijheidsgraden:** De vorm van de chi-kwadraatverdeling is afhankelijk van het aantal vrijheidsgraden. Bij een 2x2 kruistabel is dit $(r-1)(c-1)$, wat voor een 2x2 tabel neerkomt op 1 vrijheidsgraad [48](#page=48).
* **Interpretatie:** De p-waarde wordt opgezocht in een chi-kwadraattabel, waarbij men kijkt naar de vrijheidsgraden en de berekende toetsingsgrootheid [48](#page=48).
* **Benadering:** De chikwadraattoets is een benadering; de exacte p-waarde wordt onderschat, en de werkelijke associatie wordt overschat [48](#page=48).
* **Fisher's Exact Toets**
* Dit is een exacte methode om de p-waarde te schatten en wordt gebruikt als alternatief voor de chikwadraattoets, met name bij kleinere steekproeven. De berekening hoeft niet gekend te zijn, enkel de interpretatie [48](#page=48).
* **Continuïteitscorrectie**
* Deze correctie kan worden toegepast bij de chikwadraattoets om de benadering te verbeteren [48](#page=48).
* **Voorwaarden chikwadraattoets:**
* Een voorwaarde voor het gebruik van de chikwadraattoets is dat de verwachte aantallen in de meerderheid (80%) van de cellen minimaal 5 zijn, en in elke cel moet het aantal groter zijn dan 1 [48](#page=48).
* Indien de voorwaarden voor de chikwadraattoets niet voldaan zijn, biedt de Fisher's Exact Toets een alternatief.
#### 6.2.2 Schatten van het verschil tussen twee proporties
* De chikwadraattoets geeft enkel een p-waarde en geen directe schattingsmethode. Om de grootte van het verband te kwantificeren, worden effectmaten gebruikt, afhankelijk van het studiedesign [49](#page=49).
* **Risicoverschil (Risk Difference - RD):** Gebruikt in prospectieve cohortstudies.
* **Odds Ratio (OR):** Gebruikt in geval-controle studies.
* Een neutrale methode om het verschil tussen twee proporties te beoordelen is door de effectgrootte van dit verschil te bekijken, onafhankelijk van het studiedesign [49](#page=49).
* Het verschil tussen de twee proporties wordt geschat met de formule $P_1 - P_2$ [49](#page=49).
* Hierbij worden een bovengrens en ondergrens berekend, na een tussenstap om de mate van onzekerheid te bepalen met de standaardfout van het verschil in proporties ($Se$) [49](#page=49).
* De kritieke Z-waarde is ook hier nodig [49](#page=49).
* **Basisvoorwaarde voor het schatten van het verschil:**
* De aantallen moeten voldoende groot zijn voor de standaardnormale verdeling. Een minimale voorwaarde is dat het aantal groter is dan 5 in beide groepen [49](#page=49).
### 6.3 Dichotome variabelen bij meer dan twee groepen
Dit deel behandelt het vergelijken van proporties tussen drie of meer onafhankelijke groepen [50](#page=50).
#### 6.3.1 Vergelijken van proporties tussen 3 of meer onafhankelijke groepen
* **Chikwadraattoets**
* Wanneer er drie of meer groepen zijn, wordt de chikwadraattoets gebruikt om de verschillen tussen de proporties te toetsen [50](#page=50).
* De onderzoeksresultaten worden weergegeven in een kruistabel, minimaal een 3x3 tabel [50](#page=50).
* De toets onderzoekt de algemene associatie of samenhang tussen twee categorische variabelen, gebaseerd op geobserveerde en verwachte aantallen in elke cel [50](#page=50).
* **Vrijheidsgraden:** Zijn minimaal 2 bij meer dan twee groepen.
* **Voorwaarden:**
* 80% van de cellen moet een verwachte count van minimaal 5 hebben [50](#page=50).
* Alle cellen moeten een waarde groter dan 1 hebben [50](#page=50).
* **Fisher's Exact Toets en Continuïteitscorrectie**
* Deze methoden zijn niet beschikbaar wanneer er meer dan twee groepen worden vergeleken [50](#page=50).
* Als de voorwaarden voor de chikwadraattoets niet voldaan zijn bij meer dan twee groepen, is er geen direct alternatief voor deze toets in de vorm van een exacte toets of een continuïteitscorrectie [50](#page=50).
* **Trendtoets (Lineair by Lineair Association)**
* Wanneer er meer dan twee groepen worden vergeleken en de groeperingsvariabele een ordinaal karakter heeft, kan de trendtoets interessant zijn [50](#page=50).
* Deze toets geeft een waarde, een aantal vrijheidsgraden en een p-waarde, die belangrijk is voor interpretatie [50](#page=50).
* Het is met name nuttig om te kijken naar de trend in de percentage van de uitkomstvariabele over de geordende groepen [50](#page=50).
> **Tip:** De trendtoets is enkel interessant en interpreteerbaar als de variabele die de groepen definieert een ordinale variabele is [50](#page=50).
---
# Logistische regressie voor dichotome uitkomstvariabelen
Logistische regressie is een veelgebruikte regressietechniek voor het analyseren van dichotome uitkomstvariabelen, waarbij de relatie met één of meerdere determinanten wordt onderzocht [51](#page=51).
### 7.1 Principe van logistische regressie
Logistische regressie analyse is analoog aan lineaire regressie, maar specifiek ontworpen voor situaties waarin de uitkomstvariabele dichotoom is. Het doel is om een model op te bouwen waarin de dichotome uitkomstvariabele in verband wordt gebracht met één of meerdere determinanten [51](#page=51).
#### 7.1.1 Enkelvoudige en meervoudige logistische regressie
* **Enkelvoudige logistische regressie:** Hierbij wordt één determinant als onafhankelijke variabele gebruikt [51](#page=51).
* **Meervoudige logistische regressie:** Hierbij worden meerdere determinanten tegelijkertijd in het model getest [52](#page=52).
Zowel categorische als continue variabelen kunnen als determinanten worden ingezet in een logistische regressieanalyse [52](#page=52).
#### 7.1.2 Transformatie van de uitkomstvariabele
Omdat een dichotome uitkomstvariabele niet direct continu en normaal verdeeld is, kan de standaard lineaire regressievergelijking niet zomaar worden toegepast. Om dit te omzeilen, wordt de dichotome uitkomstvariabele getransformeerd naar een continue, normaal verdeelde variabele door de natuurlijke logaritme van de odds te nemen. Wat in een logistische regressieanalyse gemodelleerd wordt, is de natuurlijke logaritme van de odds [52](#page=52).
#### 7.1.3 Odds Ratio als effectmaat
De Odds Ratio (OR) is de primaire effectmaat die voortkomt uit een logistische regressieanalyse. Een Odds Ratio is een verhouding van odds, waarbij odds de relatieve kans op een bepaalde uitkomst weergeven [51](#page=51).
* **Odds:** `P / (1-P)`, waarbij `P` de kans is dat een bepaalde uitkomstvariabele `y` optreedt [51](#page=51).
* **Interpretatie van Odds Ratio:** De Odds Ratio wordt geïnterpreteerd als het verschil in odds dat optreedt wanneer de determinant met één eenheid stijgt. Een Odds Ratio groter dan 1 duidt op een verhoogde kans op de uitkomst, terwijl een Odds Ratio kleiner dan 1 wijst op een verlaagde kans. Een Odds Ratio van 1 geeft aan dat er geen verband is tussen de determinant en de uitkomst [52](#page=52) [53](#page=53).
> **Tip:** De interpretatie van een Odds Ratio als een relatief risico is een overschatting [53](#page=53).
#### 7.1.4 Schattingsmethode: Maximum Likelihood
Logistische regressie maakt gebruik van de 'methode van de maximum likelihood' (ML) om regressiecoëfficiënten te schatten. Deze methode schat de regressiecoëfficiënten zodanig dat de aannemelijkheid (likelihood) van het waargenomen model zo groot mogelijk is. Dit gebeurt op basis van de berekening van de kans op de uitkomst voor elke persoon in het onderzoek [53](#page=53).
* **-2 log likelihood:** Een output van een logistische regressieanalyse is de waarde van -2 log likelihood. Deze waarde moet zo laag mogelijk zijn voor een goed geschat model. Deze waarde kan gebruikt worden om de kwaliteit van verschillende modellen te vergelijken [53](#page=53) [54](#page=54).
* **Likelihood ratio test:** Deze test vergelijkt de -2 log likelihood waarden van twee modellen. Het aantal vrijheidsgraden is het verschil in het aantal parameters tussen de twee modellen. Deze test wordt gebruikt om te bepalen of twee modellen significant van elkaar verschillen [54](#page=54).
### 7.2 Determinanten in logistische regressie
#### 7.2.1 Categorische determinanten met meer dan twee groepen
Categorische variabelen met meer dan twee groepen moeten in logistische regressie worden geanalyseerd als dummyvariabelen, omdat de relatie niet noodzakelijkerwijs lineair is. Drie groepen kunnen bijvoorbeeld worden beschreven met twee dummyvariabelen. De onderzoeker bepaalt welke groep als referentiegroep dient. De Odds Ratio van een dummyvariabele geeft dan de odds weer ten opzichte van de referentiegroep [54](#page=54).
#### 7.2.2 Continue determinanten
Continue variabelen kunnen ook als determinant worden getest. De Odds Ratio die wordt gerapporteerd is voor een stijging van één eenheid in de variabele. Om de interpretatie te vergemakkelijken, kan de Odds Ratio worden omgezet om de verandering voor meerdere eenheden te berekenen. Een alternatieve aanpak is het categoriseren van de continue predictor en deze vervolgens als categorische variabele te analyseren. Als de analyse met de categorische variabele een lineair verband suggereert, kan de continue variabele als zodanig worden gemodelleerd. Anders is het beter om met de categorische variabele te werken. Gebruikelijke categorisaties zijn tertielen of kwartielen, of inhoudelijke groeperingen (bv. BMI-categorieën) [55](#page=55).
### 7.3 Meervoudige logistische regressie
Meervoudige logistische regressie maakt het mogelijk om de relatie tussen meerdere determinanten en een dichotome uitkomstvariabele te onderzoeken. Hierbij worden partiële regressiecoëfficiënten geschat, die het effect van een determinant weergeven terwijl andere determinanten constant worden gehouden [56](#page=56).
#### 7.3.1 Associatiemodellen en predictiemodellen
Er zijn twee hoofdbenaderingen binnen de meervoudige logistische regressie:
1. **Associatiemodellen:** Deze modellen richten zich op het 'uitzuiveren' van het verband tussen een centrale determinant en de dichotome uitkomstvariabele, door rekening te houden met confounding en effectmodificatie [56](#page=56).
2. **Predictiemodellen:** Deze modellen hebben als doel de uitkomstvariabele zo goed mogelijk te voorspellen aan de hand van een set mogelijke determinanten [56](#page=56).
#### 7.3.2 Confounding
Confounding treedt op wanneer een variabele geassocieerd is met de centrale determinant én zelf een bepalende factor is voor de uitkomstvariabele. Om confounding te corrigeren, wordt de confounder meegenomen in het model. Een veelgebruikte vuistregel is om het model aan te passen en te kijken of de regressiecoëfficiënt van de centrale determinant met minstens 10% verandert [56](#page=56).
#### 7.3.3 Effectmodificatie (interactie)
Effectmodificatie, ook wel interactie genoemd, treedt op wanneer het effect van een determinant op de uitkomstvariabele verschilt voor verschillende waarden van een andere variabele (de effectmodificator). Dit wordt onderzocht door een interactieterm toe te voegen aan het model, wat het product is van de twee variabelen. Een significante p-waarde (vaak kleiner dan 0.10) voor de interactieterm duidt op effectmodificatie. Bij interactie worden de hoofdeffecten gestratificeerd, wat betekent dat subgroepen worden gecreëerd [56](#page=56) [57](#page=57).
#### 7.3.4 Opbouw van associatiemodellen
De opbouw van associatiemodellen in logistische regressie is vergelijkbaar met lineaire regressie. Dit omvat het corrigeren voor confounders en het nagaan van effectmodificatie. De keuze van mogelijke confounders en effectmodificatoren is afhankelijk van de onderzoeksvraag, theorie en de steekproefgrootte. Een vuistregel voor de steekproefgrootte is N(y=1) = 10*K, waarbij K het aantal predictoren is. Er moet ook gelet worden op multicollineariteit [57](#page=57).
* **Modelbouwstrategieën:**
* Beginnen met de ruwe relatie (unadjusted).
* Geleidelijk toevoegen van confounders.
* Stepwise procedures (forward of backward selectie) kunnen worden gebruikt [57](#page=57) [58](#page=58).
#### 7.3.5 Opbouw van predictiemodellen
Predictiemodellen zijn erop gericht om overtollige variabelen te verwijderen [57](#page=57).
* **Backward selectie:** Alle mogelijke predictoren worden in het model opgenomen en variabelen die geen voorspellende waarde hebben, worden systematisch verwijderd [58](#page=58).
* **Forward selectie:** Variabelen worden één voor één toegevoegd aan het model [58](#page=58).
Variabelen met een 'sig' waarde boven 0.10 worden doorgaans uit het predictiemodel verwijderd [58](#page=58).
### 7.4 Kwaliteitsindicatoren van het model
#### 7.4.1 Classificatietabel
Een classificatietabel (ook wel predictietabel genoemd) wordt gebruikt om de voorspellende kracht van het model te evalueren. Standaard in SPSS wordt een afkappunt van 50% voorspelde kans gebruikt. De tabel vergelijkt de voorspelde uitkomsten met de geobserveerde uitkomsten. Het percentage correct voorspelde gevallen moet zo hoog mogelijk zijn. De afkapwaarde kan aangepast worden op basis van het aantal personen dat daadwerkelijk de uitkomst heeft [58](#page=58).
#### 7.4.2 Hosmer-Lemeshow test
De Hosmer-Lemeshow test is een 'goodness of fit' test die de geschiktheid van het logistische regressiemodel evalueert. Deze test bekijkt of de geobserveerde en voorspelde gebeurtenissen in het model overeenkomen [58](#page=58).
#### 7.4.3 R-kwadraat
In tegenstelling tot lineaire regressie, waar de R-kwadraat de proportie verklaarde variantie aangeeft, wordt de R-kwadraat bij logistische regressie doorgaans niet geïnterpreteerd. Er zijn andere indicatoren die de kwaliteit van het model beoordelen [58](#page=58).
#### 7.4.4 Likelihood Ratio Test
De likelihood ratio test kan handmatig worden uitgevoerd om te bepalen of er een significant verschil is tussen twee modellen, bijvoorbeeld tussen een model met een predictor en een nulmodel zonder predictoren. Het verschil in de -2 log likelihood waarden, gedeeld door het verschil in het aantal parameters (vrijheidsgraden), geeft de significantie aan [58](#page=58).
---
# Correlatie en lineaire regressie
Dit onderwerp behandelt de statistische methoden om de samenhang tussen variabelen te kwantificeren en te modelleren.
### 8.1 Correlatie
Correlatie beschrijft de samenhang tussen twee continue variabelen, waarbij wordt gekeken of variatie in de ene variabele gepaard gaat met variatie in de andere variabele. Het doel is om de mate van lineaire associatie tussen twee numerieke variabelen in kaart te brengen [31](#page=31) [32](#page=32).
#### 8.1.1 Pearson correlatiecoëfficiënt (r)
De Pearson correlatiecoëfficiënt (r) is een puntschatting voor de populatieparameter, gebaseerd op een steekproef [32](#page=32).
* **Interpretatie van r:**
* **Teken:**
* Positief: Positieve lineaire relatie; stijging in X gaat samen met stijging in Y [32](#page=32).
* Negatief: Stijging in de ene variabele gaat samen met daling in de andere variabele [32](#page=32).
* Geeft de richting van het verband aan [32](#page=32).
* **Grootte:**
* Hoe dichter r bij +1 of -1 ligt, hoe sterker de lineaire correlatie [32](#page=32).
* 0.30 wordt beschouwd als een matige relatie [32](#page=32).
* 0.70 wordt beschouwd als een sterke lineaire relatie [32](#page=32).
* **Niet afhankelijk van de as-indeling:** De waarde van r blijft hetzelfde, ongeacht welke variabele op de x-as en welke op de y-as wordt geplaatst [32](#page=32).
* **Voorwaarden voor Pearson CC:**
* Twee continue variabelen die normaal verdeeld zijn [32](#page=32).
* Afwezigheid van outliers [32](#page=32).
* Geschikt voor het in kaart brengen van lineaire relaties [32](#page=32).
* Visuele inspectie via een histogram per variabele kan helpen [32](#page=32).
* **Gekwadrateerde correlatiecoëfficiënt (R²):**
* Geeft de proportie verklaarde variantie weer [32](#page=32).
* Dit is de hoeveelheid spreiding in de ene variabele die verklaard kan worden door de lineaire relatie met de andere variabele [32](#page=32).
#### 8.1.2 Spearman's rank correlatiecoëfficiënt
Dit is een non-parametrische test die wordt berekend op basis van rangnummers. Het is een alternatief wanneer de voorwaarden voor de Pearson CC niet voldaan zijn, zoals bij afwijkingen van normaliteit (vooral bij kleine steekproeven), ordinale variabelen, of wanneer een niet-lineaire relatie beschreven moet worden [33](#page=33).
### 8.2 Lineaire regressie
Lineaire regressie modelleert de relatie waarbij een continue uitkomstvariabele (Y) in verband wordt gebracht met één of meerdere determinanten (X) [33](#page=33).
#### 8.2.1 Enkelvoudige lineaire regressie
Hierbij wordt één uitkomstvariabele getest ten opzichte van één determinant [33](#page=33).
* **Proces:**
* Begint met een scatterplot [33](#page=33).
* X (determinant) en Y (uitkomstvariabele) zijn niet inwisselbaar [33](#page=33).
* Er wordt een best passende rechte getrokken, gebaseerd op de methode van de kleinste kwadraten, om de residuen (afstanden van punten tot de rechte) te minimaliseren [33](#page=33).
* **Lineaire regressievergelijking:**
$$ Y = a + bX $$
* $Y$: afhankelijke uitkomstvariabele [33](#page=33).
* $X$: onafhankelijke determinant of predictor [33](#page=33).
* $a$ (of $B_0$): intercept of constante; de verwachte waarde van Y als X gelijk is aan 0. Dit bepaalt het beginpunt van de rechte [33](#page=33).
* $b$ (of $b_1$): helling (slope) of regressiecoëfficiënt; het verwachte verschil in Y bij een eenheidsverschil in X. Het bepaalt de steilheid van de rechte [33](#page=33).
* **Nulhypothese:** Er is geen lineaire relatie, dus de helling is gelijk aan 0 [34](#page=34).
#### 8.2.2 Gestandaardiseerde regressiecoëfficiënt (Beta)
Wanneer variabelen worden uitgedrukt in standaarddeviatie-eenheden, wordt de gestandaardiseerde regressiecoëfficiënt (Beta) verkregen. Dit maakt interpretatie los van de oorspronkelijke meeteenheden en is vergelijkbaar met de Pearson correlatiecoëfficiënt [34](#page=34).
#### 8.2.3 Verklaarde variantie (R²)
$R^2$ geeft de proportie van de variantie in Y die verklaard wordt door X. Het zegt iets over de kwaliteit van het regressiemodel [34](#page=34).
* **Adjusted R²:** Een gecorrigeerde versie van $R^2$ die een overschatting van de kwaliteit voorkomt, met name bij meervoudige regressie [34](#page=34).
#### 8.2.4 Dichotome en categorische determinanten
* **Dichotome determinanten:** Een rechte kan door de best passende gemiddelden van de twee groepen getrokken worden [35](#page=35).
* **Categorische determinanten:** Deze moeten worden opgesplitst in dummyvariabelen (K-1 aantal dummyvariabelen, waarbij K het aantal categorieën is) en samen worden getest in een regressieanalyse. De dummyvariabelen beschrijven samen de categorische determinant [35](#page=35).
#### 8.2.5 Voorwaarden voor lineaire regressie
* **Onafhankelijke observaties:** Niet gepaard of geclusterd [36](#page=36).
* **Lineaire relatie:** De relatie tussen continue determinanten en de continue uitkomstvariabele moet lineair verlopen. Dit kan visueel worden nagegaan met een scatterplot of via formele tests. Als de regressiecoëfficiënt significant is, wordt aangenomen dat elke eenheidsstijging in de determinant leidt tot een specifieke verandering in de uitkomstvariabele [36](#page=36).
* **Normaliteit van residuen:** De residuen (de afstanden van de punten tot de regressierechte) moeten normaal verdeeld zijn. Dit kan worden gecontroleerd met een histogram van de residuen. Bij scheve verdeling kan een logtransformatie van de uitkomstvariabele nodig zijn [36](#page=36).
* **Homoscedasticiteit:** De variantie van de residuen moet constant zijn over de voorspelde waarden van Y. Een trechtervorm in een scatterplot van residuen versus voorspelde waarden duidt op heteroscedasticiteit (schending van homoscedasticiteit) [37](#page=37).
### 8.3 Meervoudige lineaire regressie
Dit model onderzoekt de relatie tussen meerdere determinanten en één continue uitkomstvariabele. Het maakt gebruik van partiële regressiecoëfficiënten, die worden geschat binnen een model met meerdere covariaten en de interpretatie ervan verschilt van enkelvoudige regressie. De voorwaarden voor meervoudige regressie zijn dezelfde als voor enkelvoudige regressie. Meervoudige regressie maakt het mogelijk om onafhankelijke effecten van determinanten te testen [37](#page=37).
#### 8.3.1 Associatiemodellen
Deze modellen zijn gericht op het zo zuiver mogelijk beschrijven van de relatie tussen een centrale determinant en de uitkomstvariabele, rekening houdend met andere factoren [37](#page=37).
* **Confounding (verstorende variabele):** Een variabele die gerelateerd is aan zowel de onafhankelijke variabele (X) als de uitkomstvariabele (Y) [38](#page=38).
* **Testen van confounding:** Vergelijken van een enkelvoudige regressieanalyse met een meervoudige regressieanalyse waarin de potentiële confounder is opgenomen. Als de regressiecoëfficiënt van X met minstens 10% verandert bij toevoeging van de confounder, is er sprake van confounding [38](#page=38).
* **Effectmodificatie (interactie):** De relatie tussen X en Y verschilt afhankelijk van de waarden van een andere variabele (C). Er is interactie tussen X en C ten opzichte van Y [38](#page=38).
* **Testen van effectmodificatie:** Een interactieterm wordt gecreëerd door de centrale determinant (X) te vermenigvuldigen met de potentiële effectmodificator (C). Deze interactieterm wordt samen met de hoofdeffecten van X en C in een meervoudige regressieanalyse opgenomen. Een significante p-waarde voor de interactieterm (vaak kleiner dan 0.10) duidt op interactie [39](#page=39).
* **Stratificatie:** Indien interactie wordt vastgesteld, kan de analyse worden uitgevoerd in verschillende strata (subgroepen) van de effectmodificator om de relatie van X tot Y binnen die groepen te onderzoeken [39](#page=39).
#### 8.3.2 Predictiemodellen
Deze modellen stellen een uitkomstvariabele zo goed mogelijk voor te stellen aan de hand van een reeks determinanten [39](#page=39).
* **Opbouw van predictiemodellen:**
* **Backward selectieprocedure:** Beginnen met een uitgebreid model en stapsgewijs variabelen verwijderen die het minste bijdragen (hoogste p-waarde) [42](#page=42).
* **Forward selectieprocedure:** Beginnen met een leeg model en stapsgewijs de beste voorspeller toevoegen die voldoet aan een bepaalde significantiedrempel (bv. p-waarde < 0.10) [42](#page=42).
* **Kwaliteit van predictiemodellen:**
* Wordt beoordeeld aan de hand van de verklaarde variantie (R²) of Adjusted R². Een Adjusted R² van 0.474 betekent bijvoorbeeld dat 47% van de variatie in de uitkomstvariabele verklaard kan worden door de lineaire relatie met de determinanten [42](#page=42).
#### 8.3.3 Model opbouw en vuistregels
* **Aantal predictoren:** Een veelgebruikte vuistregel is dat het aantal predictoren in een model niet meer dan 10% van de steekproefgrootte (N) mag bedragen [40](#page=40).
* **Multicollineariteit:** Wees alert op hoge correlaties tussen onafhankelijke variabelen [40](#page=40).
* **Crude model:** Het ruwe model (unadjusted) dient als vertrekpunt voor vergelijkingen [40](#page=40).
* **Confounders opnemen:** Vaak worden potentiële confounders sowieso opgenomen in het regressiemodel om het onafhankelijke effect van de centrale determinant aan te tonen [41](#page=41).
* **Order van testen:** Bij het onderzoeken van zowel confounding als effectmodificatie, wordt vaak eerst confounding nagetrokken en vervolgens effectmodificatie [42](#page=42).
> **Tip:** Bij het interpreteren van resultaten uit regressiemodellen is het cruciaal om te weten of het gaat om een crude model of een model met gecorrigeerde variabelen. De conclusies kunnen significant verschillen [42](#page=42).
---
# het nagaan van de normaliteit van continue variabelen
Het nagaan van de normaliteit van continue variabelen is een cruciale stap in de statistische analyse, aangezien het bepaalt welke beschrijvende en verklarende statistische technieken het meest geschikt zijn voor de data. Dit proces helpt bij het begrijpen van de distributie van de gegevens en het maken van betrouwbare inferenties over de populatie [10](#page=10).
### 9.1 Theoretische achtergrond en belang van normaliteit
De normale verdeling, ook wel bekend als de Gauss-curve of klokvormige curve, is een fundamenteel concept in de statistiek. De kenmerken ervan zijn een symmetrische verdeling, waarbij het rekenkundig gemiddelde en de mediaan dicht bij elkaar liggen. De ideale normale verdeling is noch te hoog en spits, noch te plat. Een veelgebruikte vuistregel is dat ongeveer 68% van de waarnemingen binnen één standaarddeviatie van het gemiddelde valt, en ongeveer 95% binnen twee standaarddeviaties [7](#page=7).
> **Tip:** Veel statistische toetsen, met name parametrische toetsen, gaan ervan uit dat de data normaal verdeeld zijn. Wanneer deze aanname geschonden wordt, kunnen de resultaten van deze toetsen onbetrouwbaar zijn [10](#page=10).
### 9.2 Identificeren van niet-normale verdelingen
Niet-normale verdelingen kunnen op verschillende manieren afwijken van de ideale normale curve:
* **Rechtse scheve verdeling (positieve scheefheid):** Hierbij ligt het rekenkundig gemiddelde boven de mediaan. De 'staart' van de distributie strekt zich uit naar de rechterkant [7](#page=7).
* **Linkse scheve verdeling (negatieve scheefheid):** In dit geval ligt het rekenkundig gemiddelde lager dan de mediaan. De 'staart' van de distributie wijst naar de linkerkant [7](#page=7).
> **Tip:** Variabelen die inherent aan hun aard beperkingen hebben, zoals de meeste tellingsvariabelen of variabelen met een natuurlijk nulpunt (bv. reactietijd), vertonen vaak geen normale verdeling [4](#page=4).
### 9.3 Methodes om normaliteit na te gaan
Er zijn verschillende methoden om de normaliteit van continue variabelen te beoordelen:
#### 9.3.1 Grafische methoden
Grafische methoden bieden een visuele eerste indruk van de distributie van de data [10](#page=10).
* **Histogram:** Dit toont de frequentieverdeling van de data, waarbij de breedte van de staven de klasse-intervallen vertegenwoordigt en de hoogte de frequentie. Een histogram dat lijkt op een klokvorm suggereert normaliteit [10](#page=10) [5](#page=5).
* **Tak en blad diagram (Stem and Leaf Plot):** Hoewel minder gebruikt bij grote datasets, kan dit diagram een overzicht geven van de verdeling [5](#page=5).
* **Boxplot (Box and Whisker Plot):** Deze plot visualiseert de spreiding van de data, inclusief de mediaan, kwartielen en mogelijke uitschieters. De 'snorharen' vertegenwoordigen de range, de box het interkwartielbereik (Q1 tot Q3), de zwarte streep de mediaan (P50), en de onder- en bovenzijde van de box respectievelijk het 25e (Q1) en 75e percentiel (Q3). Een symmetrische boxplot met de mediaan centraal in de box kan wijzen op normaliteit [10](#page=10) [9](#page=9).
> **Tip:** Grafische methoden zijn subjectief. Ze geven een indicatie, maar geen definitief bewijs van normaliteit.
#### 9.3.2 Vergelijkende methoden (numeriek)
Numerieke vergelijkingen bieden meer objectieve indicaties:
* **Vergelijking van gemiddelde en mediaan:** Als het rekenkundig gemiddelde en de mediaan dicht bij elkaar liggen, is dit een indicatie van symmetrie, wat kenmerkend is voor een normale verdeling. Een significant verschil tussen beide kan wijzen op scheefheid [10](#page=10) [7](#page=7).
* **Vergelijking van gemiddelde en standaarddeviatie:** Bij een normale verdeling bevindt een aanzienlijk deel van de data zich binnen twee standaarddeviaties van het gemiddelde. De vuistregel wordt hierbij toegepast [10](#page=10) [7](#page=7).
#### 9.3.3 Formele statistische toetsen (niet behandeld in dit specifieke gedeelte, maar relevant voor bredere context)
Hoewel niet expliciet uitgewerkt in de gepresenteerde pagina's over het nagaan van normaliteit, zijn er formele statistische toetsen zoals de Shapiro-Wilk test en de Kolmogorov-Smirnov test die de normaliteit van data kunnen evalueren. Deze toetsen bieden een p-waarde die aangeeft hoe waarschijnlijk de geobserveerde data zijn onder de aanname van normaliteit.
### 9.4 Transformaties voor niet-normale variabelen
Wanneer continue variabelen significant afwijken van de normale verdeling, kunnen transformaties worden toegepast om de data meer normaal te verdelen, wat de analyse met parametrische toetsen mogelijk maakt [8](#page=8).
* **Natuurlijk logaritme transformatie:** Deze transformatie wordt vaak gebruikt voor rechtse scheve variabelen. Door de natuurlijke logaritme van elke waarde te nemen, kan de distributie worden gecentreerd en symmetrischer worden gemaakt. Na de analyse moet het resultaat echter vaak weer worden teruggetransformeerd naar de oorspronkelijke schaal met behulp van de inverse functie (bv. de exponentiële functie $e^x$) [8](#page=8).
* **Andere transformaties:** Naast de logaritmetransformatie zijn er andere methoden, zoals worteltransformaties of reciproque transformaties, afhankelijk van de aard van de scheefheid [8](#page=8).
> **Tip:** Een succesvolle transformatie moet leiden tot een distributie die de aannames van de beoogde statistische toets beter voldoet. Het is essentieel om na transformatie de distributie opnieuw te beoordelen [8](#page=8).
### 9.5 Alternatieve centrum- en spreidingsmaten
Bij scheef verdeelde data of data met uitschieters, zijn het rekenkundig gemiddelde en de standaarddeviatie mogelijk geen geschikte samenvattingen [7](#page=7) [8](#page=8) [9](#page=9).
* **Centrummaten:** De mediaan is een robuustere centrummaat bij scheve verdelingen, aangezien deze niet wordt beïnvloed door uitschieters. Het geometrisch gemiddelde kan ook een alternatief zijn voor rechtse scheve data, vooral na een logtransformatie [8](#page=8).
* **Spreidingsmaten:** De range (minimum-maximum) geeft een beeld van de spreiding maar bevat weinig informatie over de distributie binnen dat interval en is gevoelig voor uitschieters. De interkwartielrange (Q1 tot Q3) is een robuustere maat voor spreiding, vooral bij scheve data [9](#page=9).
> **Voorbeeld:** Bij een dataset met leeftijden die zeer scheef naar rechts is verdeeld (veel jonge personen en enkele zeer oude personen), zal het rekenkundig gemiddelde aanzienlijk hoger zijn dan de mediaan. In dit geval is de mediaan een betere weergave van de 'typische' leeftijd in de steekproef dan het gemiddelde.
De keuze van de juiste centrum- en spreidingsmaten hangt direct af van de distributie van de continue variabele, en het nagaan van normaliteit is hierbij cruciaal [6](#page=6) [9](#page=9).
---
Dit onderdeel van de studiehandleiding behandelt de methoden en technieken om de normaliteit van continue variabelen te beoordelen, wat essentieel is voor het kiezen van de juiste statistische toetsen [22](#page=22) [24](#page=24).
### 9.1 Parametrische versus non-parametrische testen
Parametrische testen zijn vergelijkende onderzoeksvragen die gebruikmaken van gemiddelden van continue uitkomstvariabelen. Ze vereisen echter dat aan bepaalde voorwaarden wordt voldaan. Wanneer deze voorwaarden niet vervuld zijn, worden non-parametrische testen toegepast, die werken met rangnummers in plaats van gemiddelden. Parametrische testen worden als krachtiger en informatiever beschouwd dan non-parametrische testen [23](#page=23).
#### 9.1.1 Gepaarde t-toets
De gepaarde t-toets is een analysetechniek die wordt gebruikt binnen één groep om gemiddelden van twee metingen bij dezelfde personen te vergelijken. Dit is relevant wanneer er gepaarde observaties zijn, wat betekent dat dezelfde personen tweemaal worden gemeten op dezelfde continue variabele. De focus ligt op het verschil tussen deze herhaalde metingen [23](#page=23).
De nulhypothese ($H_0$) voor de gepaarde t-toets stelt dat het gemiddelde verschil in de continue variabelen tussen de eerste en tweede meting in de doelpopulatie gelijk is aan nul ($\Delta = 0$). De toets berekent een t-statistiek die aangeeft hoe de steekproefresultaten zich verhouden tot de nulhypothese, rekening houdend met de standaardfout van het gemiddelde. Deze statistiek wordt vervolgens vergeleken met een t-distributie om een p-waarde te bepalen. Het betrouwbaarheidsinterval (BI) van 95% schat de grootte van het verschil en kan helpen bepalen of het resultaat klinisch relevant is. Als de nulwaarde buiten het BI valt, wordt de nulhypothese verworpen [23](#page=23) [24](#page=24).
> **Tip:** De p-waarde in SPSS wordt vaak gerapporteerd als "Sig. (2-tailed)". Een waarde kleiner dan 0,05 duidt doorgaans op significantie [25](#page=25).
#### 9.1.2 One sample t-toets
De one sample t-toets wordt gebruikt om het gemiddelde van een continue variabele in een steekproef te vergelijken met een bekende of gestandaardiseerde waarde. De voorwaarde is dat de gemeten variabele of het verschil tussen de variabele en de standaardwaarde min of meer normaal verdeeld is. De toets berekent een t-waarde en een bijbehorende p-waarde. Het betrouwbaarheidsinterval rond het gemiddelde verschil helpt bij het inschatten van de grootte van het effect [25](#page=25) [26](#page=26).
#### 9.1.3 Independent samples t-toets
De independent samples t-toets vergelijkt de gemiddelden van een continue variabele tussen twee onafhankelijke groepen. De nulhypothese stelt dat er geen verschil is tussen de gemiddelden van de twee populaties ($\mu_1 = \mu_2$) [26](#page=26).
Voorwaarden voor deze toets zijn:
* **Normaliteit:** De uitkomstvariabele moet in beide groepen normaal verdeeld zijn [26](#page=26).
* **Homoscedasticiteit:** De varianties van de uitkomstvariabele moeten gelijk zijn in beide groepen. Levene's test wordt gebruikt om homoscedasticiteit te toetsen; als de p-waarde van Levene's test groter is dan 0,05, wordt de nulhypothese van gelijke varianties niet verworpen [26](#page=26) [27](#page=27).
Als aan de voorwaarde van gelijke varianties (homoscedasticiteit) is voldaan, wordt de reguliere t-test berekend. Als deze voorwaarde geschonden is, wordt een aangepaste versie van de t-test gebruikt [27](#page=27).
#### 9.1.4 ANOVA (Variantieanalyse)
ANOVA wordt gebruikt om de gemiddelden van een continue variabele te vergelijken tussen **meer dan twee** onafhankelijke groepen. Hoewel het nog steeds met gemiddelden werkt, wordt de t-distributie niet langer gebruikt; in plaats daarvan wordt de F-distributie toegepast [27](#page=27).
De nulhypothese stelt dat alle groepsgemiddelden aan elkaar gelijk zijn ($\mu_1 = \mu_2 = \mu_3$) [28](#page=28).
Voorwaarden voor ANOVA zijn:
* **Normaliteit:** De uitkomstvariabele moet in alle groepen gelijk verdeeld zijn [28](#page=28).
* **Homoscedasticiteit:** De varianties moeten gelijk zijn in alle groepen [28](#page=28).
ANOVA splitst de totale variantie in de steekproef op in:
* **Tussengroepsvariantie (between-groups variance):** Meet het verschil tussen de groepsgemiddelden [28](#page=28).
* **Binnengroepsvariantie (within-groups variance):** Meet de spreiding van waarden binnen elke groep [28](#page=28).
De F-toetsingsgrootheid verhoudt de tussengroepsvariantie tot de binnengroepsvariantie; een hogere verhouding suggereert meer evidentie tegen de nulhypothese [28](#page=28).
ANOVA geeft enkel aan of er *een* algemeen verschil is tussen de groepen. Om te weten welke specifieke groepen van elkaar verschillen, zijn **post-hoc testen** nodig. Deze testen voeren paarsgewijze vergelijkingen uit (vergelijkbaar met t-testen), maar vereisen correctie voor het **multiple-testing problem** om de kans op een Type I fout te beperken [28](#page=28).
> **Tip:** Bij kleine steekproeven kan de normaliteitsvoorwaarde van parametrische testen problematisch zijn. Hoewel de Central Limit Theorem (CLT) aangeeft dat de verdeling van steekproefgemiddelden naar een normale verdeling neigt bij grotere steekproeven, kan de interpretatie van het gemiddelde problematisch blijven bij scheve verdelingen [29](#page=29).
### 9.2 Vergelijken van scheef verdeelde continue variabelen
Wanneer een continue variabele sterk afwijkt van normaliteit, zijn er twee hoofdbenaderingen: transformatie of het gebruik van non-parametrische testen [29](#page=29).
#### 9.2.1 Transformeren van variabelen
Een veelgebruikte transformatietechniek is de natuurlijke logaritme ($\ln$). Hierbij wordt een nieuwe variabele aangemaakt door de natuurlijke logaritme van elke oorspronkelijke waarde te nemen. Als de getransformeerde variabele een normale verdeling vertoont, kunnen parametrische testen worden toegepast. Het gemiddelde van de getransformeerde variabele wordt berekend, de test wordt uitgevoerd, en het resultaat wordt teruggetransformeerd met de inverse functie (exponentiële functie, $e^x$) om het in de oorspronkelijke meeteenheid te interpreteren. Bij het gebruik van het gemiddelde na transformatie, kan het geometrische gemiddelde relevanter zijn in de oorspronkelijke schaal [29](#page=29).
> **Tip:** Een histogram is een nuttig visueel hulpmiddel om de verdeling van een continue variabele te beoordelen. De beslissing om te transformeren of over te stappen op non-parametrische testen hangt vaak af van de steekproefgrootte en de mate van scheefheid [29](#page=29).
#### 9.2.2 Non-parametrische testen
Non-parametrische testen zijn gebaseerd op rangnummers in plaats van de werkelijke waarden. Ze zijn over het algemeen minder krachtig dan parametrische testen en bieden doorgaans geen effectschattingen, maar enkel een p-waarde voor significantie [29](#page=29).
##### 9.2.2.1 Mann-Whitney U test
Dit is de non-parametrische tegenhanger van de independent samples t-toets. De Mann-Whitney U test vergelijkt twee onafhankelijke groepen op een numerieke variabele die niet normaal verdeeld is. De nulhypothese stelt dat de distributie van de variabele in beide groepen gelijk is. De test rangschikt alle waarden binnen de groepen en vergelijkt de som van de rangnummers (rangsommen) tussen de groepen [30](#page=30).
##### 9.2.2.2 Wilcoxon signed rank test
Dit is de non-parametrische tegenhanger van de gepaarde t-toets voor gepaarde observaties (twee metingen binnen één groep). De nulhypothese stelt dat de mediaan van het verschil nul is, of dat de som van de positieve rangnummers gelijk is aan de som van de negatieve rangnummers. Elke observatie krijgt een rangnummer op basis van het verschil tussen de twee metingen, waarna de rangnummers met positieve en negatieve tekens worden gesommeerd [30](#page=30).
##### 9.2.2.3 Sign test (tekentoets)
De sign test is een non-parametrische test die gebruikt kan worden om één groep te vergelijken met een standaardwaarde. De nulhypothese stelt dat de mediaan van de variabele gelijk is aan de standaardwaarde, wat impliceert dat er ongeveer evenveel observaties boven als onder de mediaan liggen [30](#page=30) [31](#page=31).
##### 9.2.2.4 Kruskal-Wallis test
Dit is de non-parametrische tegenhanger van de ANOVA. De Kruskal-Wallis test vergelijkt de distributie van een variabele tussen **minstens drie** onafhankelijke groepen. De nulhypothese stelt dat de distributie van de variabele in alle groepen gelijk is [31](#page=31).
### 9.3 Correlatie
Correlatieanalyse onderzoekt de samenhang tussen twee continue variabelen. Het doel is om te zien of variatie in de ene variabele gepaard gaat met variatie in de andere variabele [31](#page=31).
#### 9.3.1 Pearson correlatiecoëfficiënt (r)
De Pearson correlatiecoëfficiënt ($r$) is een puntschatting van de mate van lineaire associatie tussen twee numerieke variabelen. De waarde ligt tussen -1 en +1 [31](#page=31) [32](#page=32).
* **Teken:** Een positief teken ($+$) duidt op een positieve lineaire relatie (stijging in X gaat samen met stijging in Y), terwijl een negatief teken ($-$) een negatieve lineaire relatie aangeeft (stijging in X gaat samen met daling in Y) [32](#page=32).
* **Grootte:** Hoe dichter de waarde bij +1 of -1 ligt, hoe sterker de lineaire correlatie is [32](#page=32).
De Pearson correlatiecoëfficiënt meet enkel de **lineaire** samenhang. Wanneer $r$ wordt gekwadrateerd, verkrijgen we $R^2$, de verklaarde variantie. $R^2$ geeft de proportie van de variantie in de ene variabele weer die verklaard kan worden door de lineaire relatie met de andere variabele [32](#page=32).
Voorwaarden voor de Pearson correlatie zijn:
* Twee continue variabelen [32](#page=32).
* Beide variabelen moeten normaal verdeeld zijn [32](#page=32).
* Geen uitschieters (outliers) [32](#page=32).
#### 9.3.2 Spearman's rank correlatiecoëfficiënt
Spearman's rho ($\rho$) is een non-parametrische correlatiecoëfficiënt die wordt berekend op basis van de rangnummers van de data. Deze wordt gebruikt wanneer de voorwaarden voor Pearson's $r$ niet voldaan zijn, met name bij afwijkingen van normaliteit, ordinale variabelen, of wanneer een niet-lineaire relatie wordt beschreven [33](#page=33).
### 9.4 Lineaire regressie
Lineaire regressie modelleert de relatie tussen een continue uitkomstvariabele (Y) en een of meerdere determinanten (X) [33](#page=33).
#### 9.4.1 Enkelvoudige lineaire regressie
Bij enkelvoudige lineaire regressie wordt de relatie tussen één continue uitkomstvariabele (Y) en één determinant (X) onderzocht. Het model zoekt de best passende rechte lijn door de datapunten in een scatterplot [33](#page=33).
De lineaire regressievergelijking is: $Y = A + BX$ [33](#page=33).
* $A$ (of $B_0$) is het intercept of de constante: de verwachte waarde van Y als X nul is [33](#page=33).
* $B$ (of $B_1$) is de helling (slope) of regressiecoëfficiënt: het verwachte verschil in Y bij een eenheidsverschil in X [33](#page=33).
De nulhypothese in een lineaire relatie stelt dat er geen lineaire relatie is, wat overeenkomt met een horizontale rechte lijn en een helling gelijk aan nul [33](#page=33).
**Gestandaardiseerde regressiecoëfficiënt (Beta):** In tegenstelling tot de niet-gestandaardiseerde regressiecoëfficiënt ($B$), worden bij de gestandaardiseerde coëfficiënt ($ \beta $) X en Y uitgedrukt in standaarddeviatie-eenheden. Dit maakt het mogelijk om de effecten van variabelen met verschillende meeteenheden directer te vergelijken. De interpretatie van $ \beta $ is vergelijkbaar met die van Pearson's $r$ [34](#page=34).
**Verklaarde variantie ($R^2$):** Dit is de proportie van de variantie in Y die verklaard wordt door X [34](#page=34).
* **Adjusted $R^2$:** Een correctie op $R^2$ die een realistischere schatting geeft van de verklaarde variantie, vooral bij modellen met veel predictoren [34](#page=34).
**Dichotome en categorische determinanten:** Lineaire regressie kan ook worden gebruikt met dichotome (variabelen met twee categorieën) of categorische determinanten door deze om te zetten in dummyvariabelen [34](#page=34).
#### 9.4.2 Voorwaarden voor lineaire regressie
* **Onafhankelijke observaties:** De observaties mogen niet gepaard of geclusterd zijn [36](#page=36).
* **Lineaire relatie:** De relatie tussen continue determinanten en de uitkomstvariabele moet lineair zijn. Dit kan visueel worden gecontroleerd met een scatterplot [36](#page=36).
* **Normaliteit van residuen:** De residuen (de verschillen tussen de geobserveerde en voorspelde Y-waarden) moeten normaal verdeeld zijn. Een histogram van de residuen kan dit nagaan. Indien niet voldaan, kan transformatie van de uitkomstvariabele nodig zijn [36](#page=36).
* **Homoscedasticiteit:** De variantie van de residuen moet constant zijn over alle voorspelde waarden van Y. Een trechtervorm in een plot van residuen tegen voorspelde waarden duidt op heteroscedasticiteit [37](#page=37).
#### 9.4.3 Meervoudige lineaire regressie
Meervoudige lineaire regressie onderzoekt de relatie tussen een continue uitkomstvariabele (Y) en **meerdere** determinanten (X'en). Dit model maakt het mogelijk om de onafhankelijke effecten van elke determinant te schatten, rekening houdend met de andere determinanten in het model [37](#page=37).
* **Partiële regressiecoëfficiënt:** De effecten van determinanten worden geschat in een meervoudig model, waarbij rekening wordt gehouden met andere onafhankelijke variabelen. Dit staat in contrast met de regressiecoëfficiënt uit een enkelvoudige analyse [37](#page=37).
**Typen modellen in meervoudige regressie:**
1. **Associatiemodellen:** Gericht op het zuiver beschrijven van de relatie tussen een centrale determinant en de uitkomstvariabele, rekening houdend met mogelijke **confounding** (verstorende variabelen) en **effectmodificatie** (interactie) [37](#page=37).
* **Confounding:** Een variabele C verstoort de relatie tussen X en Y als C zowel gerelateerd is aan X als aan Y. Confounding wordt getest door C toe te voegen aan het regressiemodel en te kijken of de regressiecoëfficiënt van X significant verandert (bijvoorbeeld meer dan 10%) [38](#page=38) [41](#page=41).
* **Effectmodificatie (Interactie):** Het verband tussen X en Y verschilt afhankelijk van de waarde van een andere variabele C. Dit wordt getest door een interactieterm ($X \times C$) aan het model toe te voegen. Een significante interactieterm (vaak met een significantieniveau van 0,10) duidt op effectmodificatie. Het effect van X moet dan per niveau van C worden bekeken (stratificatie) [38](#page=38) [39](#page=39).
2. **Predictiemodellen:** Gericht op het zo goed mogelijk voorspellen van de uitkomstvariabele aan de hand van een reeks determinanten [39](#page=39).
**Opbouw van modellen:**
* Het is belangrijk om de steekproefgrootte (N) in acht te nemen bij het aantal predictoren in een model (vuistregel: N = 10 * aantal predictoren) [40](#page=40).
* **Multicollineariteit:** Hoge correlatie tussen predictoren kan problemen veroorzaken [40](#page=40).
* **Ruwe (crude) model:** Een model zonder correctie voor andere factoren, gebruikt als referentie [40](#page=40).
Meervoudige regressie is essentieel om het **onafhankelijke effect** van een determinant te schatten, door de invloed van andere variabelen constant te houden [41](#page=41).
---
Dit document beschrijft methoden en testen om de normaliteit van continue variabelen na te gaan, wat een cruciale voorwaarde is voor veel statistische analyses. Er wordt ingegaan op verschillende toetsen en hun toepassingen, en hoe deze te interpreteren.
Het nagaan van de normaliteit van continue variabelen is een fundamentele stap in de statistische analyse, aangezien veel parametrische tests ervan uitgaan dat de data normaal verdeeld zijn. Schending van deze aanname kan leiden tot onjuiste conclusies. Hoewel de focus op deze pagina's ligt op tests die normaliteit *veronderstellen* (zoals de t-test en ANOVA), wordt de essentie van wat normaliteit betekent en waarom het belangrijk is, benadrukt [43](#page=43).
### 9.1 Vereisten van statistische testen
Verschillende statistische testen hebben specifieke vereisten met betrekking tot de verdeling van continue variabelen:
* **Gepaarde t-test**: Geschikt wanneer de verschillen tussen gepaarde observaties normaal verdeeld zijn. Dit is een parametrische test die wordt toegepast wanneer dezelfde variabele tweemaal wordt gemeten bij dezelfde personen [42](#page=42).
* **ANOVA (Analysis of Variance)**: Veronderstelt dat de uitkomstvariabele normaal verdeeld is in elk van de te vergelijken groepen. Naast normaliteit, is de voorwaarde van gelijke varianties (homogeniteit van varianties) ook belangrijk voor ANOVA. ANOVA vergelijkt gemiddelden tussen groepen [43](#page=43).
* **Independent-sample of two-sample t-test**: Veronderstelt dat de waarden in elke van de twee te vergelijken groepen onafhankelijk zijn. Deze test wordt gebruikt om één variabele te vergelijken tussen twee onafhankelijke groepen [43](#page=43).
* **Mann-Whitney U-test**: Dit is een non-parametrische test die niet veronderstelt dat de waarden normaal verdeeld zijn. De test is gebaseerd op de rangorde van observaties binnen elke groep en is daardoor minder krachtig dan parametrische testen [43](#page=43).
* **Kruskal-Wallis test**: Dit is eveneens een non-parametrische test en een uitbreiding van de Mann-Whitney U-test. Het doel is na te gaan of de uitkomstvariabele in de doelpopulatie gelijk is voor alle groepen [43](#page=43).
### 9.2 Concepten rondom schatten en toetsen
Toetsen en schatten worden gezien als complementaire methoden in de statistiek [44](#page=44).
* **Toetsen**: Richt zich op het bepalen of de nulhypothese kan worden verworpen en of een resultaat significant is. Dit gebeurt door het berekenen van een statistische grootheid (zoals een t-waarde) en het bepalen van de bijbehorende p-waarde. Het verzamelt bewijs tegen de nulhypothese [44](#page=44).
* **Schatten**: Focust op de betrouwbaarheid en de effectgrootte van een resultaat. Dit omvat het berekenen van een betrouwbaarheidsinterval rond een puntschatting [44](#page=44).
### 9.3 Dichotome uitkomstvariabelen en normaliteit
Bij dichotome uitkomstvariabelen (een kenmerk treedt wel of niet op, dus 1/0) wordt er gekeken naar proporties. Het onderscheid tussen parametrische en non-parametrische testen is hier minder prominent dan bij continue variabelen [45](#page=45).
* **McNemar-toets**: Gebruikt om verschillen tussen proporties in dezelfde groep te toetsen, met name bij gepaarde observaties. De nulhypothese stelt dat er geen verandering is opgetreden tussen de metingen [45](#page=45).
* **Z-toets voor proportie**: Wordt gebruikt om een proportie binnen een groep te vergelijken met een theoretische standaardwaarde. De nulhypothese stelt dat de proportie in de doelpopulatie gelijk is aan de standaardproportie. Voor deze toets is een minimale voorwaarde dat er in beide groepen meer dan 5 mensen zijn, wat een arbitraire vuistregel is [45](#page=45) [46](#page=46).
* **Toetsen**: Hierbij wordt een statistische grootheid (Z-waarde) berekend die aangeeft hoeveel bewijs er is tegen de nulhypothese, gebaseerd op de standaardfout van de proportie onder de nulhypothese ($se_{\text{H}_0}$). De formule hiervoor is [46](#page=46):
$$ Z = \frac{\hat{p} - p_0}{se_{\text{H}_0}} $$
waarbij $\hat{p}$ de geschatte proportie in de steekproef is en $p_0$ de proportie onder de nulhypothese [46](#page=46).
* **Schatten**: Hierbij wordt een betrouwbaarheidsinterval rond de steekproefproportie ($\hat{p}$) berekend. De formule voor de standaardfout van de proportie ($\text{se}$) is:
$$ \text{se} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $$
Het betrouwbaarheidsinterval wordt berekend als:
$$ \hat{p} \pm Z_{kritiek} \times \text{se} $$
Hierbij is $Z_{kritiek}$ typisch 1,96 voor een 95% betrouwbaarheidsinterval [46](#page=46).
### 9.4 Associatie tussen categorische variabelen
Wanneer we de associatie tussen twee dichotome variabelen onderzoeken, is de **chikwadraattoets** een veelgebruikte methode. Deze toets kan ook worden uitgebreid voor het analyseren van de samenhang tussen meerdere categorische variabelen [47](#page=47).
* **Chikwadraattoets**: Test de associatie tussen twee dichotome variabelen door te berekenen hoeveel evidentie er is tegen de nulhypothese van geen associatie. Dit gebeurt door in elke cel van een kruistabel het geobserveerde aantal (O) te vergelijken met het verwachte aantal (E) onder de nulhypothese. De testingsgrootheid $\chi^2$ volgt een chikwadraatverdeling, waarvan de vorm afhankelijk is van het aantal vrijheidsgraden (bij dichotome variabelen is dit 1) [48](#page=48).
> **Tip:** De chikwadraattoets is een benadering; de Fisher's exact toets of continuïteitscorrectie kan worden gebruikt voor een meer accurate schatting van de p-waarde, met name bij kleine aantallen [48](#page=48).
* **Voorwaarden voor de chikwadraattoets**: De verwachte aantallen (expected counts) in de meeste cellen (80%) moeten minstens 5 zijn, en in elke cel moet het aantal groter zijn dan 1 [48](#page=48).
Bij dichotome variabelen met meer dan twee groepen (bijvoorbeeld 3 of meer onafhankelijke groepen), wordt eveneens de chikwadraattoets gebruikt voor de r x c kruistabel. Het aantal vrijheidsgraden is hier minstens 2. Indien de voorwaarden voor de chikwadraattoets niet voldaan zijn, is er geen direct alternatief zoals Fisher's exact toets of continuïteitscorrectie [50](#page=50).
* **Trendtoets**: Indien de variabele van de groepen ordinaal is, kan de trendtoets (ook wel 'lineair by lineair association' genoemd) interessant zijn om te interpreteren. Deze toets geeft aan of er een lineaire trend is in de uitkomstvariabele over de ordinale groepen [50](#page=50).
### 9.5 Logistische regressie
Logistische regressie is een regressietechniek die gebruikt wordt voor dichotome uitkomstvariabelen. Het modelleert het natuurlijke logaritme van de odds, wat een transformatie is om een normaal verdeelde uitkomstvariabele te verkrijgen [51](#page=51) [52](#page=52).
* **Odds Ratio (OR)**: Dit is de effectmaat die als output wordt verkregen bij logistische regressie. Het is de verhouding van de odds, en wordt vaak gebruikt als schatting van het relatieve risico, met name in case-control studies. Een OR van 1 betekent geen verband; een OR groter dan 1 duidt op een verhoogd risico, en een OR kleiner dan 1 op een verlaagd risico [51](#page=51) [52](#page=52).
> **Tip:** Een Odds Ratio van 4 bij rokers ten opzichte van niet-rokers betekent dat rokers vier keer zoveel kans hebben op een bepaalde ziekte [53](#page=53).
* **Betrouwbaarheidsinterval voor de Odds Ratio**: Als de waarde 1 buiten het 95% betrouwbaarheidsinterval van de OR ligt, is het verband statistisch significant [53](#page=53).
* **Maximum Likelihood**: De schattingsmethode die gebruikt wordt in logistische regressie is 'maximum likelihood'. Hierbij worden de regressiecoëfficiënten zo geschat dat de aannemelijkheid van het model (de likelihood) gemaximaliseerd wordt [53](#page=53).
* **Meervoudige logistische regressie**: Hierbij worden de relaties tussen meerdere determinanten en een dichotome uitkomstvariabele onderzocht, rekening houdend met confounding en effectmodificatie [56](#page=56).
### 9.6 Kwaliteit van predictiemodellen
De kwaliteit van een predictiemodel wordt beoordeeld aan de hand van verschillende indicatoren [58](#page=58).
* **Classificatietabel**: Een tabel die gebaseerd is op een afkappunt (standaard 50% voorspelde kans) om te beoordelen hoe goed het model de werkelijke uitkomsten voorspelt. Het percentage correct voorspelde gevallen is hier een belangrijke indicator [58](#page=58).
* **Hosmer-Lemeshow toets**: Een 'goodness-of-fit' test die aangeeft of het predictiemodel een goede fit heeft met de data. Een niet-significante p-waarde (hoger dan 0.05) is wenselijk, omdat de nulhypothese stelt dat het predictiemodel 'past' [58](#page=58).
Deze secties (pagina's 42-61) bieden een uitgebreid overzicht van hoe om te gaan met continue en dichotome variabelen in statistische analyses, met een sterke focus op de voorwaarden voor de gebruikte testen en de interpretatie van de resultaten. Hoewel 'het nagaan van normaliteit' als thema centraal staat, wordt dit kader breed toegepast op diverse toetsen en modellen die normaliteit als voorwaarde hebben of juist omzeilen door non-parametrische methoden of transformaties te gebruiken.
---
Dit onderdeel van de studiehandleiding behandelt verschillende methoden om de normaliteit van continue variabelen te beoordelen, variërend van visuele inspectie tot formele statistische toetsen en grafische weergaven [65](#page=65).
### 9.1 Visuele inspectie van normaliteit
Voor een snelle en intuïtieve beoordeling van de normaliteit van continue variabelen kunnen de volgende visuele methoden worden gebruikt:
* **Histogram observeren:** Een histogram biedt een grafische weergave van de frequentieverdeling van de data. Een normale verdeling kenmerkt zich door een symmetrische, klokvormige curve [65](#page=65).
* **Box-plot:** Een box-plot kan eveneens visueel worden geanalyseerd om de symmetrie en mogelijke uitschieters te beoordelen, wat indirect informatie geeft over de normaliteit [65](#page=65).
* **Vergelijking van gemiddelde en mediaan:** Bij een symmetrische distributie liggen het gemiddelde en de mediaan waarden dicht bij elkaar. Een groter verschil kan wijzen op scheefheid van de verdeling [65](#page=65).
* **Vergelijking van gemiddelde en standaarddeviatie (sd):** Een normale verdeling wordt gekenmerkt door een klokvormige curve. De verhouding tussen het gemiddelde en de standaarddeviatie kan hierbij een indicatie geven [65](#page=65).
> **Tip:** Hoewel visuele methoden snel inzicht bieden, zijn ze subjectief. Voor een meer objectieve beoordeling zijn formele statistische indicatoren en toetsen essentieel.
### 9.2 Formele indicatoren van normaliteit
Naast visuele inspectie zijn er meer formele statistische maten en toetsen om de normaliteit van continue variabelen te evalueren.
#### 9.2.1 Skewness en Kurtosis
Skewness en kurtosis zijn twee statistische kenmerken die de mate van normaliteit van een distributie kwantificeren [65](#page=65):
* **Skewness (scheefheid):** Dit meet de mate van symmetrie of afwijking van een distributie.
* Een waarde van 0 voor skewness indiceert perfecte symmetrie en geen scheefheid [65](#page=65).
* Waarden tussen -1 en +1 worden doorgaans beschouwd als een voldoende normale verdeling [66](#page=66).
* Een waarde onder -1 duidt op een scheve linker distributie en een te platte verdeling [66](#page=66).
* Een waarde boven +1 duidt op een scheve rechter distributie en een te hoge piek [66](#page=66).
* **Kurtosis (platheid):** Dit beschrijft de "platheid" of "puntigheid" van de piek van een distributie in vergelijking met een normale verdeling.
* Een kurtosis van 0 wordt geassocieerd met een perfecte klokvormige distributie [65](#page=65).
* Afwijkingen van 0, zowel positief (te hoge piek) als negatief (te platte verdeling), duiden op afwijkingen van de normaliteit [65](#page=65).
Voor een normale distributie worden beide waarden (skewness en kurtosis) idealiter rond de 0 verwacht [65](#page=65).
#### 9.2.2 Statistische toetsen voor normaliteit
Specifieke statistische toetsen zijn ontworpen om de normaliteit van een dataset te evalueren. De nulhypothese ($H_0$) voor deze toetsen is meestal dat er geen afwijking is van de normaliteit, dus dat de data normaal verdeeld zijn [66](#page=66).
* **Kolmogorov-Smirnov toets:** Deze toets vergelijkt de empirische cumulatieve distributiefunctie van de steekproef met de cumulatieve distributiefunctie van een theoretische normale verdeling [66](#page=66).
* **Shapiro-Wilks toets:** Deze toets is specifiek bedoeld voor het nagaan van normaliteit en wordt over het algemeen als krachtiger beschouwd dan de Kolmogorov-Smirnov toets, vooral bij kleinere steekproeven [66](#page=66).
Bij het interpreteren van de p-waarde van deze toetsen, is het belangrijk om te onthouden dat een **niet-significante p-waarde** (typisch $p > 0.05$) wenselijk is wanneer men normaliteit wil aantonen, omdat dit betekent dat de nulhypothese (geen afwijking van normaliteit) niet verworpen kan worden [66](#page=66).
> **Tip:** Zowel de Kolmogorov-Smirnov als de Shapiro-Wilks toets zijn sterk gevoelig voor de steekproefgrootte. Bij zeer grote steekproeven kan zelfs een kleine, klinisch irrelevante afwijking van normaliteit leiden tot een significant resultaat (verwerpen van $H_0$), terwijl bij zeer kleine steekproeven een substantiële afwijking mogelijk niet significant wordt bevonden [66](#page=66).
#### 9.2.3 QQ-plot (Quantile-Quantile plot)
Een QQ-plot is een grafische methode die de gekwantificeerde waarden van de data plot tegen de theoretische kwantielen van een normale verdeling [66](#page=66).
* **Interpretatie:** Indien de datapunten nauwkeurig langs de diagonale lijn liggen, suggereert dit dat de data normaal verdeeld zijn. Hoe dichter de punten bij de diagonaal liggen, hoe beter de normaliteit. Afwijkingen van de diagonaal wijzen op afwijkingen van de normaliteit [66](#page=66).
> **Voorbeeld:** Een S-vormige afwijking van de diagonaal in een QQ-plot kan duiden op een te hoge piek (kurtosis) of te dunne staarten van de distributie.
### 9.3 Valkuilen bij het nagaan van normaliteit
Bij het toepassen van statistische analyses, met name regressiemodellen, zijn er valkuilen met betrekking tot normaliteit en samenhang tussen variabelen.
#### 9.3.1 Multicollineariteit
Multicollineariteit treedt op wanneer twee of meer onafhankelijke variabelen in een regressiemodel sterk met elkaar samenhangen. Dit probleem doet zich voornamelijk voor bij meervoudige regressieanalyses (lineair, logistisch, Cox-regressie) [66](#page=66).
* **Impact:** Hoge multicollineariteit maakt het moeilijk om de onafhankelijke impact van elke predictor op de uitkomstvariabele te bepalen [66](#page=66).
* **Detectie:**
* **Continue variabelen:** De onderlinge samenhang kan worden beoordeeld met behulp van Pearson correlatiecoëfficiënten. Een cut-off waarde van 0.60 wordt vaak gebruikt om een te sterke samenhang aan te duiden [66](#page=66).
* **Categorische variabelen:** De samenhang kan worden geanalyseerd met behulp van kruistabellen en chi-kwadraattoetsen. Er is hier geen vaste cut-off waarde [67](#page=67).
* **Oplossing:** Indien multicollineariteit wordt vastgesteld, wordt doorgaans één van de sterk gecorreleerde variabelen uit het model verwijderd. Bij voorkeur wordt die variabele behouden die de sterkste relatie heeft met de uitkomstvariabele [67](#page=67).
#### 9.3.2 Overige redenen voor "ontplofte modellen"
Naast multicollineariteit kunnen andere factoren leiden tot problemen in regressiemodellen, vaak aangeduid als "ontplofte modellen":
* **Te veel variabelen in het model:** Een te complex model met te veel predictoren kan leiden tot instabiliteit van de schattingen [67](#page=67).
* **Onvoldoende vergelijking tussen predictor en uitkomst (bij logistische regressie):** Dit kan optreden wanneer er onvoldoende gebeurtenissen (bv. geen herstelgevallen) zijn in een subgroep van de populatie, waardoor geen betrouwbare schattingen kunnen worden verkregen [67](#page=67).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Effectmodificatie | Het onderzoeken of de relatie tussen een determinant (X) en een uitkomstvariabele (Y) anders verloopt door de aanwezigheid van een specifieke variabele, de effectmodificator. |
| Confounding | Een fenomeen waarbij de waargenomen relatie tussen een determinant en een uitkomstvariabele wordt verstoord door een derde variabele (confounder) die zowel gerelateerd is aan de determinant als aan de uitkomstvariabele. |
| Regressiecoëfficiënt | Een waarde die de sterkte en richting van de relatie tussen een onafhankelijke variabele en een afhankelijke variabele in een regressiemodel aangeeft. |
| Meervoudige regressie | Een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en twee of meer onafhankelijke variabelen te analyseren, waarbij de effecten van de onafhankelijke variabelen op elkaar worden gecontroleerd. |
| Predictiemodel | Een statistisch model dat wordt opgebouwd om een continue uitkomstvariabele zo goed mogelijk te voorspellen op basis van een reeks verklarende variabelen. |
| Backward selectieprocedure | Een methode voor het opbouwen van een predictiemodel waarbij gestart wordt met een uitgebreid model en vervolgens stapsgewijs variabelen worden verwijderd die het minst bijdragen aan de voorspellende kracht van het model. |
| Forward selectieprocedure | Een methode voor het opbouwen van een predictiemodel waarbij gestart wordt met een leeg model en vervolgens stapsgewijs de best presterende variabelen worden toegevoegd die de voorspellende kracht van het model verbeteren. |
| Verklarende variantie (R-kwadraat) | Een maatstaf die aangeeft welk percentage van de totale variatie in de afhankelijke variabele kan worden verklaard door de onafhankelijke variabelen in het model. |
| Gecorrigeerde R-kwadraat (Adjusted R-squared) | Een aangepaste versie van de R-kwadraat die rekening houdt met het aantal voorspellers in het model, waardoor een realistischere schatting wordt gegeven van de verklaarde variantie, vooral bij modellen met veel variabelen. |
| Gepareerde t-test | Een statistische test die wordt gebruikt om het verschil tussen twee gerelateerde metingen van dezelfde variabele te vergelijken, bijvoorbeeld metingen voor en na een interventie bij dezelfde personen. |
| Nulhypothese | Een hypothese die stelt dat er geen effect of geen verschil is tussen de populatieparameters die worden onderzocht, en die wordt getoetst met statistische methoden. |
| ANOVA (Variantieanalyse) | Een statistische test die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken en te bepalen of er significante verschillen tussen deze groepen bestaan. |
| Term | Definitie |
| Survival analyse | Een statistische methode die de tijd analyseert totdat een specifieke uitkomst optreedt, oorspronkelijk ontwikkeld voor sterfteonderzoek, maar ook toepasbaar op morbiditeit en herstel. |
| Cox regressieanalyse | Een regressiemethode die lijkt op logistische regressie, maar specifiek is ontworpen voor overlevingsdata, waarbij de tijd tot een uitkomst centraal staat in plaats van enkel de dichotomie van de uitkomst. |
| Censoring | Het fenomeen waarbij gegevens in een statistische analyse worden "afgekapt", wat betekent dat sommige deelnemers het einde van de studie niet bereiken, geen uitkomst ervaren aan het einde, of de studie vroegtijdig verlaten. |
| Kaplan-Meier-overlevingscurve | Een grafische weergave van overlevingsdata die de cumulatieve kans op overleving over de tijd weergeeft, waarbij de follow-up tijd in segmenten wordt opgedeeld en de overlevingskans per segment wordt berekend. |
| Log-rank toets | Een statistische toets die wordt gebruikt om twee of meer overlevingscurves te vergelijken en te bepalen of er een significant verschil is in de overleving tussen de groepen, gebaseerd op de nulhypothese dat de curves samenvallen. |
| Hazard ratio (HR) | Een effectmaat die wordt gebruikt in de Cox-regressieanalyse om het verband tussen een determinant en de uitkomstvariabele uit te drukken; een HR van 1 betekent geen effect, een HR boven 1 duidt op een verhoogde kans op de uitkomst, en een HR onder 1 op een verlaagde kans. |
| Likelihood ratiotoets | Een statistische toets die wordt gebruikt om het verschil tussen twee Cox-regressiemodellen te evalueren, waarbij het verschil in de waarden van -2 log likelihood wordt vergeleken met een chi-kwadraatverdeling. |
| Dummycodering | Een methode die wordt gebruikt om categorische determinanten met meerdere categorieën te representeren in een regressieanalyse, waarbij dummyvariabelen worden gecreëerd om elke categorie te vergelijken met een referentiegroep. |
| Nulhypothese (H0) | Een stelling die stelt dat er geen effect is in de volledige onderzoekspopulatie, wat de basis vormt voor statistische toetsen. |
| Alternatieve hypothese | De hypothese die wordt geformuleerd vanuit de onderzoeksvraag en die het tegenovergestelde van de nulhypothese stelt. |
| Teststatistiek | Een berekende waarde op basis van steekproefgegevens die een indicatie geeft van hoeveel bewijs er wordt verzameld tegen de nulhypothese. |
| Theoretische kansverdeling | Een wiskundig model dat wordt gebruikt om de waarschijnlijkheid van verschillende uitkomsten te beschrijven, gebaseerd op het principe van oneindige herhaling van steekproeftrekkingen. |
| P-waarde | De kans om het waargenomen onderzoeksresultaat te verkrijgen, of een extremer resultaat, gegeven dat de nulhypothese waar is. Een lage p-waarde suggereert bewijs tegen de nulhypothese. |
| Z-verdeling (Standaardnormale kansverdeling) | Een theoretische kansverdeling die wordt gebruikt voor het schatten van gemiddelden bij continue uitkomstvariabelen, gekenmerkt door een gemiddelde van 0 en een standaarddeviatie van 1. |
| Standaardiseren | Het proces waarbij een variabele wordt uitgedrukt in termen van het aantal standaarddeviaties dat een waarde afwijkt van het gemiddelde, waardoor variabelen met verschillende eenheden vergelijkbaar worden. |
| Kansdichtheid | De waarde op de y-as van een kansverdeling, die geen exacte kans weergeeft, maar een indicatie geeft van de waarschijnlijkheid van een bepaald bereik van uitkomsten. |
| Steekproefgrootte | Het aantal waarnemingen of individuen dat is opgenomen in een steekproef, aangeduid met '$n$'. |
| Variantie | Een maat voor de spreiding van gegevens rond het gemiddelde, berekend door de gekwadrateerde afstanden van elke waarde tot het gemiddelde op te tellen en te delen door N-1. |
| Standaarddeviatie | De vierkantswortel van de variantie, die de gemiddelde afstand van de waarnemingen tot het gemiddelde weergeeft in de oorspronkelijke meeteenheid. |
| Interkwartiel-range (IQR) | Het verschil tussen het 75e percentiel (Q3) en het 25e percentiel (Q1), wat de spreiding van de middelste 50% van de gegevens weergeeft. |
| Parametrische testen | Statistische toetsen die worden gebruikt om vergelijkende onderzoeksvragen te beantwoorden wanneer men werkt met gemiddelde waarden van continue uitkomstvariabelen. Deze testen hebben specifieke voorwaarden waaraan voldaan moet worden. |
| Non-parametrische testen | Statistische toetsen die worden gebruikt wanneer de voorwaarden voor parametrische testen niet voldaan zijn. In plaats van gemiddelden, werken deze testen met rangnummers van de data. |
| Gepaarde t-toets | Een analysetechniek binnen één groep om gemiddelden van twee metingen bij dezelfde personen te vergelijken. Deze toets is nuttig bij gepaarde observaties, zoals meerdere metingen op een continue variabele bij dezelfde individuen. |
| T-distributie | Een kansverdeling die wordt gebruikt bij t-testen. De t-distributie helpt bij het bepalen van de waarschijnlijkheid van het observeren van een bepaald testresultaat, gegeven de nulhypothese. |
| Vrijheidsgraden | Een parameter die de mate van onafhankelijkheid van de waarnemingen in een steekproef aangeeft en die wordt gebruikt bij het interpreteren van statistische toetsen, zoals de t-toets. Voor een t-toets is dit vaak de steekproefgrootte min één. |
| Betrouwbaarheidsinterval (BI) | Een reeks waarden die waarschijnlijk de werkelijke populatieparameter bevat. Bij het schatten van het verschil tussen gemiddelden geeft een 95% BI aan dat we er 95% zeker van zijn dat het werkelijke verschil binnen die grenzen valt. |
| One sample t-toets | Een statistische toets die wordt gebruikt om het gemiddelde van een steekproef te vergelijken met een bekende of gestandaardiseerde waarde. De continue uitkomstvariabele moet hierbij min of meer normaal verdeeld zijn. |
| Independent samples t-toets | Een statistische toets die wordt gebruikt om de gemiddelden van een continue variabele tussen twee onafhankelijke groepen te vergelijken. De voorwaarden zijn onder andere normale verdeling in beide groepen en homoscedasticiteit. |
| Homoscedasticiteit | De aanname dat de varianties van de uitkomstvariabele in de te vergelijken groepen gelijk zijn. Dit is een belangrijke voorwaarde voor de independent samples t-toets. |
| Levene's test | Een statistische toets die wordt gebruikt om de homoscedasticiteit te controleren, oftewel de gelijkheid van varianties tussen twee of meer groepen. |
| ANOVA (Variantieanalyse) toets | Een statistische toets die wordt gebruikt om de gemiddelden van drie of meer onafhankelijke groepen te vergelijken. Deze toets maakt gebruik van de F-distributie en splitst de totale variantie op in tussengroepsvariantie en binnengroepsvariantie. |
| Meervoudige lineaire regressie | Een statistisch model dat de lineaire relatie onderzoekt tussen één continue uitkomstvariabele en meerdere onafhankelijke variabelen (covariaten). Het model kijkt naar hoe deze variabelen in combinatie met elkaar de uitkomstvariabele beïnvloeden. |
| Partiële regressiecoëfficiënt | Een regressiecoëfficiënt die wordt geschat binnen een meervoudig regressiemodel, rekening houdend met de invloed van andere onafhankelijke variabelen. De interpretatie ervan verschilt van die in een enkelvoudige regressieanalyse. |
| Associatiemodellen | Een type regressiemodel dat gericht is op het zuiver beschrijven van het verband tussen een centrale determinant en de uitkomstvariabele, door rekening te houden met mogelijke confounders en effectmodificatoren. |
| Confounding (verstorende variabele) | Een variabele die zowel gerelateerd is aan de onafhankelijke variabele als aan de uitkomstvariabele, waardoor het ware verband tussen de onafhankelijke variabele en de uitkomstvariabele vertekend kan worden. Het testen hiervan gebeurt door de regressiecoëfficiënt te vergelijken met en zonder de mogelijke confounder. |
| Effectmodificatie (interactie) | Situatie waarbij de sterkte of richting van het verband tussen een onafhankelijke variabele en de uitkomstvariabele verschilt afhankelijk van de waarde van een andere variabele (de effectmodificator). Dit wordt onderzocht door een interactieterm toe te voegen aan het model. |
| Interactieterm | Een nieuwe variabele die wordt gecreëerd door het product te nemen van twee hoofdeffecten (bijvoorbeeld de centrale determinant en een mogelijke effectmodificator). De significantie van deze term in een regressiemodel duidt op interactie. |
| Predictiemodellen | Een type regressiemodel dat wordt opgesteld met als doel de uitkomstvariabele zo nauwkeurig mogelijk te voorspellen aan de hand van een reeks mogelijke determinanten. |
| Ruw model (crude model / unadjusted model) | Een regressiemodel dat nog geen rekening houdt met andere factoren of covariaten. Dit dient als uitgangspunt om de invloed van toegevoegde variabelen te beoordelen. |
| Dichotome uitkomstvariabele | Een variabele die slechts twee mogelijke uitkomsten kent, zoals de aanwezigheid of afwezigheid van een bepaald kenmerk, vaak gecodeerd als 1 of 0. |
| McNemar-toets | Een statistische toets die wordt gebruikt om het verschil tussen proporties te toetsen bij gepaarde observaties binnen dezelfde groep, bijvoorbeeld bij het vergelijken van twee metingen bij dezelfde personen. |
| Nulhypothese (bij McNemar-toets) | De aanname dat er geen verandering is opgetreden in de dichotome variabele tussen de eerste en tweede meting, wat impliceert dat de proportie van de uitkomst gelijk blijft. |
| Z-toets voor proportie | Een statistische toets die wordt gebruikt om het verschil tussen een geobserveerde proportie in een groep en een theoretisch betekenisvolle standaardwaarde te toetsen. |
| Standaardfout van de proportie (sep) | Een maat voor de variabiliteit van de steekproefproportie, die wordt gebruikt bij het berekenen van toetsingsgrootheden en betrouwbaarheidsintervallen. De formule is `$\sqrt{p(1-p)/n}$` onder de nulhypothese. |
| Betrouwbaarheidsinterval | Een reeks waarden die waarschijnlijk de ware populatieparameter bevat, berekend rond een steekproefresultaat (puntschatting) met een bepaalde mate van betrouwbaarheid. |
| Kruistabel | Een tabel die wordt gebruikt om de associatie tussen twee categorische variabelen weer te geven, waarbij de data worden georganiseerd in rijen en kolommen die de categorieën van de variabelen vertegenwoordigen. |
| Chikwadraattoets ($\chi^2$-toets) | Een veelgebruikte statistische toets om de associatie tussen twee categorische variabelen te toetsen, gebaseerd op het vergelijken van geobserveerde aantallen met verwachte aantallen onder de nulhypothese. |
| Geobserveerd aantal (O) | Het daadwerkelijke aantal observaties in een cel van een kruistabel, zoals verkregen uit de steekproefdata. |
| Verwacht aantal (E) | Het aantal observaties dat men zou verwachten in een cel van een kruistabel onder de aanname dat de nulhypothese waar is, berekend op basis van marginale totalen. De formule is `$(rijtotaal \times kolomtotaal) / totaal$`. |
| Vrijheidsgraden (bij $\chi^2$-toets) | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische verdeling, wat de vorm van de chikwadraatverdeling beïnvloedt. Voor een $r \times k$ kruistabel is dit `$(r-1)(k-1)$`. |
| Fisher's exact toets | Een exacte statistische toets die wordt gebruikt om de associatie tussen twee categorische variabelen te toetsen, vooral nuttig bij kleine steekproefgroottes waar de aannames van de chikwadraattoets mogelijk niet voldaan zijn. |
| Chikwadraattoets | Een statistische toets die een p-waarde oplevert om de algemene associatie tussen variabelen te toetsen. Bij een 2x2 kruistabel kan de grootte van het verband worden gekwantificeerd met een effectmaat, zoals het verschil tussen twee proporties, het risico in prospectieve cohortstudies of de odds ratio in geval-controle studies. |
| Dummy variabele | Een variabele die wordt gecreëerd om categorische variabelen met meer dan twee categorieën te representeren in een regressieanalyse. Elke categorie (behalve een referentiecategorie) krijgt een eigen dummy variabele. |
| Effectmaat | Een kwantitatieve maat die de grootte van een verband of effect weergeeft, onafhankelijk van het studiedesign. Voorbeelden zijn het verschil tussen twee proporties, het relatieve risico en de odds ratio. |
| Enkelvoudige logistische regressie | Een regressietechniek waarbij een dichotome uitkomstvariabele wordt gerelateerd aan slechts één determinant (onafhankelijke variabele). |
| Exponentiële functie van het regressiecoëfficiënt | De exponentiële functie van de regressiecoëfficiënt in een logistische regressieanalyse, die gelijk is aan de Odds Ratio. Dit geeft de verhouding van de odds van de uitkomst aan voor een eenheidstoename in de determinant. |
| Logistische regressie | Een regressietechniek die specifiek wordt gebruikt voor het modelleren van dichotome uitkomstvariabelen. Het modelleert de natuurlijke logaritme van de odds van de uitkomst als een lineaire functie van de determinanten. |
| Maximum likelihood schatting | Een schattingsmethode die wordt gebruikt in logistische regressie om de modelparameters te bepalen. Het doel is om de parameters zo te schatten dat de waarschijnlijkheid (likelihood) van het observeren van de data zo groot mogelijk is. |
| Meervoudige logistische regressie | Een regressietechniek waarbij een dichotome uitkomstvariabele wordt gerelateerd aan meerdere determinanten (onafhankelijke variabelen) tegelijkertijd. Dit maakt het mogelijk om de onafhankelijke effecten van elke determinant te onderzoeken, rekening houdend met andere variabelen. |
| Correlatie | Een maat voor de samenhang tussen twee continue variabelen, die aangeeft of variatie in de ene variabele samengaat met variatie in de andere variabele. |
| Pearson correlatiecoëfficiënt ($r$) | Een puntschatting die de mate van lineaire associatie tussen twee numerieke variabelen in kaart brengt, met waarden tussen -1 en +1. Een positief teken duidt op een positieve lineaire relatie, een negatief teken op een negatieve lineaire relatie, en de grootte van de coëfficiënt geeft de sterkte van de lineaire correlatie aan. |
| $R^2$ (gekwadrateerde Pearson correlatiecoëfficiënt) | Geeft de proportie van de variantie in de ene variabele die verklaard wordt door de lineaire relatie met de andere variabele. Het geeft aan hoeveel van de spreiding in de ene variabele verklaard kan worden door de lineaire relatie met de andere. |
| Spearman's rank correlatiecoëfficiënt | Een non-parametrische correlatiecoëfficiënt die wordt berekend op basis van de rangnummers van de observaties. Deze test is geschikt wanneer er afwijkingen zijn van normaliteit, bij ordinale variabelen, of wanneer een niet-lineaire relatie beschreven moet worden. |
| Lineaire regressie | Een statistisch model dat wordt gebruikt om de relatie tussen een continue uitkomstvariabele (Y) en één of meerdere determinanten (X) te testen. Het doel is om een best passende rechte te trekken door de puntenwolk van de data. |
| Enkelvoudige lineaire regressie | Een regressiemodel waarbij één uitkomstvariabele (Y) wordt getest ten opzichte van één determinant (X). |
| Intercept ($B_0$ of A) | De verwachte waarde van de uitkomstvariabele (Y) wanneer de determinant (X) gelijk is aan nul. Dit vertegenwoordigt het beginpunt van de regressierechte. |
| Helling (Slope, $B_1$ of B) | De regressiecoëfficiënt die aangeeft wat het verwachte verschil in de uitkomstvariabele (Y) is bij een verschil van één eenheid in de determinant (X). Dit bepaalt de steilheid van de regressierechte. |
| Gestandaardiseerde regressiecoëfficiënt (Beta) | Een regressiecoëfficiënt waarbij zowel de determinant (X) als de uitkomstvariabele (Y) zijn uitgedrukt in standaarddeviatie-eenheden. Dit maakt interpretatie mogelijk, los van de oorspronkelijke meeteenheden. |
| Verklaarde variantie ($R^2$) | De proportie van de variantie in de uitkomstvariabele (Y) die verklaard wordt door het regressiemodel met de predictoren. |
| Adjusted $R^2$ | Een gecorrigeerde versie van $R^2$ die een potentieel overschatten van de modelkwaliteit voorkomt, vooral bij meervoudige regressie. |
| Continue variabele | Een variabele die oneindig veel mogelijke waarden kan aannemen binnen een bepaald bereik, zoals gewicht of lengte. |
| Normale verdeling | Een symmetrische, klokvormige kansverdeling waarbij de meeste waarnemingen zich rond het gemiddelde bevinden en er geen uitschieters zijn. Het gemiddelde en de mediaan liggen dicht bij elkaar. |
| Histogram | Een grafische weergave die de frequentieverdeling van continue variabelen toont, waarbij de x-as de mogelijke waarden van de variabele weergeeft en de y-as de frequentie of aantallen. |
| Gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden. Het is een centrummaat die een indicatie geeft van de meest typische waarde, vooral wanneer de variabele normaal verdeeld is. |
| Mediaan | De middelste waarde in een geordende dataset. Het is een centrummaat die minder gevoelig is voor uitschieters dan het gemiddelde en nuttig is bij scheef verdeelde data. |
| Scheefheid (Skewness) | Een maat voor de asymmetrie van een kansverdeling. Een rechtsscheve verdeling heeft een lange staart naar rechts en het gemiddelde ligt boven de mediaan, terwijl een linksscheve verdeling een lange staart naar links heeft en het gemiddelde lager ligt dan de mediaan. |
| Transformatie | Een wiskundige bewerking die wordt toegepast op de waarden van een variabele om de verdeling ervan te veranderen, bijvoorbeeld om een scheef verdeelde variabele meer normaal te maken. Een veelgebruikte transformatie is de natuurlijke logaritme. |
| Natuurlijke logaritme | Een wiskundige functie (ln) die de inverse is van de exponentiële functie met grondtal e. Het wordt vaak gebruikt als transformatie om scheef verdeelde data te normaliseren. |
| Boxplot (Box and whisker plot) | Een grafische weergave die de distributie van een continue variabele toont, inclusief de mediaan, kwartielen en mogelijke uitschieters. Het geeft een idee van de spreiding en symmetrie van de data. |
Cover
Werkcollege 1 -student_24-25 (1).pptx
Summary
# Herhaling en oefeningen statistiek 1
Dit document is een studiehandleiding voor werkcollege 1 van Statistiek 2, gericht op de herhaling van concepten uit Statistiek 1 en bijbehorende oefeningen, met een specifieke focus op inductieve statistiek en berekeningen van centrum- en spreidingsmaten.
### 1.1 Inductieve statistiek in onderzoek
Inductieve statistiek is een cruciaal onderdeel van de empirische cyclus en volgt op beschrijvende statistiek. Het doel is om op basis van verzamelde data onderbouwde beslissingen te nemen over verbanden of verschillen. Hoewel er altijd een zekere mate van onzekerheid is bij deze beslissingen, is het essentieel om deze onzekerheid te kennen. Kansberekeningen zijn hiervoor noodzakelijk, waarna significantie berekend kan worden. Statistische conclusies zijn echter pas waardevol als ook voldaan is aan de randvoorwaarden van interne en externe validiteit, en wanneer statistiek niet misbruikt wordt.
#### 1.1.1 Oefeningen inductieve statistiek
* **Omschrijving inductieve statistiek:** Inductieve statistiek maakt het mogelijk om op basis van een steekproef conclusies te trekken over een grotere populatie.
* **Operationaliseren in de empirische cyclus:** In de fase van operationaliseren worden abstracte concepten omgezet in meetbare variabelen. Dit omvat het definiëren van hoe variabelen gemeten zullen worden in het onderzoek.
* **Meetniveau van variabelen:**
* **Nominaal:** Categorieën zonder natuurlijke ordening (bv. provincie, akkoord/niet akkoord, diploma).
* **Ordinaal:** Categorieën met een natuurlijke ordening (bv. tevredenheidsschaal: niet tevreden, tevreden, heel tevreden; angstschaal 1-100; hoe graag naar school: niet graag, redelijk graag, heel graag).
* **Interval:** Gelijke afstanden tussen waarden, geen natuurlijk nulpunt (bv. temperatuur in graden Celsius).
* **Ratio:** Gelijke afstanden tussen waarden en een natuurlijk nulpunt (bv. leeftijd in jaren, postcode, hartslag, nettomaandloon).
* **Identificeren van steekproef, populatie, afhankelijke en onafhankelijke variabelen:**
* **Populatie:** De gehele groep waarover conclusies getrokken worden (bv. alle leerlingen met ADHD, alle patiënten met alcoholverslaving, alle vrouwelijke werknemers in de privésector).
* **Steekproef:** Een deelverzameling van de populatie die daadwerkelijk onderzocht wordt (bv. 50 leerlingen uit 5 scholen, 10 patiënten per behandelmethode, 1008 werknemers uit 158 bedrijven).
* **Onafhankelijke variabele(n):** De variabele(n) waarvan men vermoedt dat ze een effect hebben op andere variabelen (bv. ondersteuning leerkracht/schoolpsycholoog/ouders, oude/nieuwe behandelmethode, nettomaandloon/pendeltijd/work-life balance).
* **Afhankelijke variabele(n):** De variabele(n) waarvan men verwacht dat ze beïnvloed worden door de onafhankelijke variabele(n) (bv. welzijn van leerlingen, tevredenheid/angst/alcoholconsumptie/toekomstinschatting patiënten, turn-over/intentie tot turn-over).
#### 1.1.2 Misbruik van statistiek
Statistische gegevens kunnen misleidend worden gepresenteerd. Kritische vragen zijn hierbij essentieel:
* **Bron van de data:** Wie heeft de data verzameld en met welk doel? (bv. fabrikant van tandpasta).
* **Representativiteit van de steekproef:** Is de steekproef wel representatief voor de populatie? (bv. tandartsen mochten meerdere merken kiezen).
* **Presentatie van grafieken:**
* **As-aanduidingen:** Zeker maken dat de assen correct zijn ingedeeld. Het starten van de y-as niet bij nul kan de verschillen uitvergroten (bv. KFC calorieën voorbeeld).
* **Tijdsperiode:** De gekozen tijdsperiode kan een verkeerde indruk geven van trends (bv. Britse staatsschuld).
* **Correlatie vs. Causaliteit:** Een sterke correlatie betekent niet noodzakelijk dat de ene variabele de andere veroorzaakt. Er kan een derde, onderliggende factor zijn die beide variabelen beïnvloedt (bv. ijsverkoop en haaienaanvallen worden beide beïnvloed door warm weer).
### 1.2 Frequentieverdelingen en percentielen
Frequentieverdelingen geven weer hoe vaak bepaalde waarden voorkomen in een dataset. Percentielen geven de waarde aan waaronder een bepaald percentage van de data valt.
* **Pc 40 (40e percentiel):** De waarde waaronder 40% van de scores ligt.
* **Pc 50 (50e percentiel):** De waarde waaronder 50% van de scores ligt. Dit is gelijk aan de mediaan.
* **Pc 75 (75e percentiel):** De waarde waaronder 75% van de scores ligt. Dit is gelijk aan het derde kwartiel (Q3).
Het aanmaken van relatieve frequenties, cumulatieve frequenties en cumulatieve proporties helpt bij het visualiseren en interpreteren van de verdeling van data en het bepalen van percentielen.
### 1.3 Berekening van centrummaten
Centrummaten beschrijven het midden van een dataset.
* **Gemiddelde:** De som van alle waarden gedeeld door het aantal waarden.
$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$
waarbij $x_i$ de individuele waarden zijn en $n$ het aantal waarden.
* **Mediaan:** De middelste waarde in een geordende dataset. Als er een even aantal waarden is, is de mediaan het gemiddelde van de twee middelste waarden.
* **Modus:** De waarde die het vaakst voorkomt in een dataset. Een dataset kan één modus (unimodaal), meerdere modi (multimodaal) of geen modus hebben.
### 1.4 Berekening van spreidingsmaten
Spreidingsmaten beschrijven hoe verspreid de data is rondom het centrum.
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde.
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
* **Standaarddeviatie ($s$):** De vierkantswortel van de variantie. Het is een maat voor de gemiddelde afwijking van het gemiddelde in de oorspronkelijke eenheden van de data.
$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$
### 1.5 Berekening van Z-scores (standaardscores)
Z-scores, ook wel standaardscores genoemd, geven aan hoeveel standaarddeviaties een individuele score afwijkt van het gemiddelde. Ze zijn nuttig om scores van verschillende distributies met elkaar te vergelijken.
* **Formule Z-score:**
$$ z = \frac{x - \mu}{\sigma} $$
waarbij:
* $z$ de Z-score is
* $x$ de individuele score is
* $\mu$ het populatiegemiddelde is (of $\bar{x}$ voor een steekproefgemiddelde)
* $\sigma$ de populatiestandaarddeviatie is (of $s$ voor een steekproefstandaarddeviatie)
Voor de oefeningen waarvoor we de steekproefvariantie en -standaarddeviatie gebruiken, is de formule:
$$ z = \frac{x - \bar{x}}{s} $$
* **Interpretatie:**
* Een positieve Z-score geeft aan dat de score boven het gemiddelde ligt.
* Een negatieve Z-score geeft aan dat de score onder het gemiddelde ligt.
* Een Z-score van 0 geeft aan dat de score gelijk is aan het gemiddelde.
* Een hogere absolute Z-score betekent dat de score verder van het gemiddelde af ligt, en dus relatief extremer is binnen die distributie.
* **Oorspronkelijke gegevens berekenen uit Z-scores:**
Als het gemiddelde ($\bar{x}$) en de standaarddeviatie ($s$) bekend zijn, kan de oorspronkelijke score ($x$) berekend worden uit een Z-score:
$$ x = \bar{x} + z \cdot s $$
---
# Berekening van centrum- en spreidingsmaten
Dit onderwerp richt zich op de berekening en interpretatie van maten die de centrale tendens en de variabiliteit van een dataset beschrijven.
### 2.1 Centrummaten
Centrummaten geven een indicatie van de typische waarde in een dataset. De meest voorkomende centrummaten zijn de modus, de mediaan en het gemiddelde.
#### 2.1.1 Modus
De modus is de waarde die het meest frequent voorkomt in een dataset.
> **Tip:** Een dataset kan één modus (unimodaal), meerdere modi (multimodaal) of geen modus hebben als alle waarden even frequent voorkomen.
**Voorbeeld:**
In de dataset $5, 9, 16, 4, 3, 8, 4, 6, 19, 18, 13, 1, 4, 7, 19, 4, 3, 4, 1, 4$ komt de waarde $4$ het vaakst voor (6 keer). De modus is dus $4$.
#### 2.1.2 Mediaan
De mediaan is de middelste waarde in een geordende dataset. Als de dataset een even aantal waarden bevat, is de mediaan het gemiddelde van de twee middelste waarden.
Om de mediaan te bepalen, moet de dataset eerst geordend worden van laag naar hoog.
**Voorbeeld 1 (oneven aantal waarden):**
Dataset: $1, 3, 4, 4, 4, 4, 4, 4, 6, 7, 8, 9, 13, 16, 18, 19, 19$
Aantal waarden ($n$): $17$
De middelste waarde is de $\frac{n+1}{2}$-de waarde. In dit geval $\frac{17+1}{2} = 9$-de waarde.
De $9$-de waarde is $6$. De mediaan is $6$.
**Voorbeeld 2 (even aantal waarden):**
Dataset: $1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 5, 6, 8, 8, 9, 9$
Aantal waarden ($n$): $22$
De middelste waarden zijn de $\frac{n}{2}$-de en de $(\frac{n}{2}+1)$-de waarde. In dit geval de $11$-de en de $12$-de waarde.
De $11$-de waarde is $3$ en de $12$-de waarde is $4$.
De mediaan is het gemiddelde van deze twee: $\frac{3+4}{2} = 3.5$.
#### 2.1.3 Gemiddelde
Het rekenkundig gemiddelde is de som van alle waarden in de dataset, gedeeld door het totale aantal waarden.
De formule voor het gemiddelde is:
$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$
waarbij $\bar{x}$ het gemiddelde is, $x_i$ de individuele waarden zijn en $n$ het totale aantal waarden is.
**Voorbeeld:**
Dataset: $5, 9, 16, 4, 3, 8, 4, 6, 19, 18, 13, 1, 4, 7, 19, 4, 3, 4, 1, 4$
Som van de waarden: $5+9+16+4+3+8+4+6+19+18+13+1+4+7+19+4+3+4+1+4 = 152$
Aantal waarden ($n$): $20$
Gemiddelde ($\bar{x}$): $\frac{152}{20} = 7.6$
### 2.2 Spreidingsmaten
Spreidingsmaten geven aan hoe ver de waarden in een dataset uit elkaar liggen. Ze beschrijven de variabiliteit of de spreiding van de data rond het centrum. Belangrijke spreidingsmaten zijn de variantie en de standaarddeviatie.
#### 2.2.1 Variantie
De variantie is de gemiddelde gekwadrateerde afwijking van het gemiddelde. Het geeft aan hoe de data verspreid zijn ten opzichte van het gemiddelde. Een hogere variantie betekent een grotere spreiding.
De formule voor de populatievariantie ($\sigma^2$) is:
$$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} $$
waarbij $\mu$ het populatiegemiddelde is en $N$ de populatiegrootte.
De formule voor de steekproefvariantie ($s^2$) is:
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
waarbij $\bar{x}$ het steekproefgemiddelde is en $n$ de steekproefgrootte. De $n-1$ in de noemer wordt gebruikt om de variantie uit een steekproef te schatten en zorgt voor een zuivere schatter van de populatievariantie (Bessel's correctie).
**Voorbeeld:**
Dataset: $5, 9, 16, 4, 3, 8, 4, 6, 19, 18, 13, 1, 4, 7, 19, 4, 3, 4, 1, 4$
Gemiddelde ($\bar{x}$): $7.6$
Aantal waarden ($n$): $20$
| $x_i$ | $x_i - \bar{x}$ | $(x_i - \bar{x})^2$ |
|---|---|---|
| 5 | -2.6 | 6.76 |
| 9 | 1.4 | 1.96 |
| 16 | 8.4 | 70.56 |
| 4 | -3.6 | 12.96 |
| 3 | -4.6 | 21.16 |
| 8 | 0.4 | 0.16 |
| 4 | -3.6 | 12.96 |
| 6 | -1.6 | 2.56 |
| 19 | 11.4 | 129.96 |
| 18 | 10.4 | 108.16 |
| 13 | 5.4 | 29.16 |
| 1 | -6.6 | 43.56 |
| 4 | -3.6 | 12.96 |
| 7 | -0.6 | 0.36 |
| 19 | 11.4 | 129.96 |
| 4 | -3.6 | 12.96 |
| 3 | -4.6 | 21.16 |
| 4 | -3.6 | 12.96 |
| 1 | -6.6 | 43.56 |
| 4 | -3.6 | 12.96 |
| **Som** | **0** | **728.8** |
Steekproefvariantie ($s^2$):
$$ s^2 = \frac{728.8}{20-1} = \frac{728.8}{19} \approx 38.36 $$
#### 2.2.2 Standaarddeviatie
De standaarddeviatie is de vierkantswortel van de variantie. Het is een maat voor de spreiding in dezelfde eenheden als de oorspronkelijke data, wat de interpretatie vergemakkelijkt. Een kleinere standaarddeviatie duidt op data die dichter bij het gemiddelde liggen, terwijl een grotere standaarddeviatie duidt op een grotere spreiding.
De formule voor de populatiestandaarddeviatie ($\sigma$) is:
$$ \sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}} $$
De formule voor de steekproefstandaarddeviatie ($s$) is:
$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$
**Voorbeeld (vervolg van variantie-voorbeeld):**
Steekproefvariantie ($s^2$): $38.36$
Steekproefstandaarddeviatie ($s$):
$$ s = \sqrt{38.36} \approx 6.19 $$
> **Tip:** De standaarddeviatie is een veelgebruikte maat om de spreiding van gegevens te beschrijven, vooral bij normaal verdeelde data.
### 2.3 Z-scores (standaardscores)
Z-scores, ook wel standaardscores genoemd, geven aan hoeveel standaarddeviaties een bepaalde waarde afwijkt van het gemiddelde. Ze zijn nuttig om scores van verschillende datasets met verschillende gemiddelden en standaarddeviaties met elkaar te vergelijken.
De formule voor een Z-score is:
$$ z = \frac{x - \mu}{\sigma} $$
waarbij $x$ de individuele score is, $\mu$ het populatiegemiddelde is en $\sigma$ de populatiestandaarddeviatie.
Als we met steekproefgegevens werken, gebruiken we het steekproefgemiddelde ($\bar{x}$) en de steekproefstandaarddeviatie ($s$):
$$ z = \frac{x - \bar{x}}{s} $$
Een positieve Z-score betekent dat de waarde boven het gemiddelde ligt, terwijl een negatieve Z-score aangeeft dat de waarde onder het gemiddelde ligt. Een Z-score van $0$ betekent dat de waarde gelijk is aan het gemiddelde.
**Voorbeeld:**
Nieuwe vragenlijst: gemiddelde $\mu = 60$, standaarddeviatie $\sigma = 2$. Samira scoort $x = 80$.
Z-score Samira (nieuwe lijst): $z = \frac{80 - 60}{2} = \frac{20}{2} = 10$.
Dit betekent dat Samira's score $10$ standaarddeviaties boven het gemiddelde ligt op de nieuwe vragenlijst.
Oude vragenlijst: gemiddelde $\mu = 20$, standaarddeviatie $\sigma = 5$. Samira scoort $x = 25$.
Z-score Samira (oude lijst): $z = \frac{25 - 20}{5} = \frac{5}{5} = 1$.
Dit betekent dat Samira's score $1$ standaarddeviatie boven het gemiddelde ligt op de oude vragenlijst.
**Interpretatie:** Hoewel Samira op de nieuwe vragenlijst hoger scoort (80 vs. 25), is haar relatieve positie op de nieuwe lijst (Z-score 10) veel extremer dan op de oude lijst (Z-score 1). Haar score van 80 op de nieuwe lijst is zeer hoog in vergelijking met de gemiddelde score op die lijst.
**Voorbeeld 2:**
Leestest A: gemiddelde $\mu_A = 90$, standaarddeviatie $\sigma_A = 10$. Marieke scoort $x_M = 80$.
Z-score Marieke: $z_M = \frac{80 - 90}{10} = \frac{-10}{10} = -1$.
Marieke scoort $1$ standaarddeviatie onder het gemiddelde op leestest A.
Leestest B: gemiddelde $\mu_B = 30$, standaarddeviatie $\sigma_B = 2$. Lisa scoort $x_L = 25$.
Z-score Lisa: $z_L = \frac{25 - 30}{2} = \frac{-5}{2} = -2.5$.
Lisa scoort $2.5$ standaarddeviaties onder het gemiddelde op leestest B.
**Wie scoort het beste?** Marieke heeft een Z-score van $-1$, wat betekent dat ze $1$ standaarddeviatie onder het gemiddelde presteert. Lisa heeft een Z-score van $-2.5$, wat betekent dat ze $2.5$ standaarddeviaties onder het gemiddelde presteert. Hoewel beide scores onder het gemiddelde liggen, scoort Marieke relatief beter omdat haar score dichter bij het gemiddelde van haar test ligt dan Lisa's score ten opzichte van het gemiddelde van haar test. Dus Marieke scoort beter.
---
# Berekening en interpretatie van z-scores
De berekening en interpretatie van z-scores is essentieel om de relatieve positie van een waarneming binnen een verdeling te bepalen en om vergelijkingen te kunnen maken tussen waarnemingen uit verschillende verdelingen.
### 3.1 Wat is een z-score?
Een z-score, ook wel een standaardscore genoemd, geeft aan hoeveel standaarddeviaties een specifieke waarneming afwijkt van het gemiddelde van de verdeling. Een positieve z-score betekent dat de waarneming boven het gemiddelde ligt, terwijl een negatieve z-score aangeeft dat de waarneming onder het gemiddelde ligt. Een z-score van nul betekent dat de waarneming gelijk is aan het gemiddelde.
### 3.2 De formule voor de z-score
De z-score wordt berekend met de volgende formule:
$$ z = \frac{X - \mu}{\sigma} $$
Waarbij:
* $z$ staat voor de z-score.
* $X$ staat voor de individuele waarneming.
* $\mu$ (mu) staat voor het gemiddelde van de populatie.
* $\sigma$ (sigma) staat voor de standaarddeviatie van de populatie.
Indien we met een steekproef werken, gebruiken we de steekproefstatistieken:
$$ z = \frac{X - \bar{X}}{s} $$
Waarbij:
* $X$ staat voor de individuele waarneming.
* $\bar{X}$ (X-bar) staat voor het steekproefgemiddelde.
* $s$ staat voor de steekproefstandaarddeviatie.
### 3.3 Interpretatie van z-scores
Z-scores maken het mogelijk om waarnemingen uit verschillende datasets met verschillende gemiddelden en standaarddeviaties met elkaar te vergelijken. Een hogere z-score wijst op een relatief betere prestatie of een hogere waarde ten opzichte van de specifieke verdeling.
**Voorbeeld 1: Vergelijken van testresultaten**
Stel, leestest A heeft een gemiddelde score van 90 en een standaarddeviatie van 10. Marieke behaalt een score van 80.
De z-score voor Marieke is:
$$ z_{\text{Marieke}} = \frac{80 - 90}{10} = \frac{-10}{10} = -1.0 $$
Dit betekent dat Marieke één standaarddeviatie onder het gemiddelde scoort op leestest A.
Leestest B heeft een gemiddelde score van 30 en een standaarddeviatie van 2. Lisa behaalt een score van 25.
De z-score voor Lisa is:
$$ z_{\text{Lisa}} = \frac{25 - 30}{2} = \frac{-5}{2} = -2.5 $$
Dit betekent dat Lisa 2,5 standaarddeviaties onder het gemiddelde scoort op leestest B.
Hoewel Marieke absoluut meer punten heeft dan Lisa, scoort Lisa relatief slechter omdat haar score 2,5 standaarddeviaties onder het gemiddelde ligt, terwijl Marieke 1 standaarddeviatie onder het gemiddelde scoort. Om te bepalen wie het beste scoort, kijken we naar de hoogste z-score. In dit geval scoort Marieke relatief beter dan Lisa.
**Voorbeeld 2: Vergelijken van vragenlijsten**
Een nieuwe depressievragenlijst heeft een gemiddelde van 60 en een standaarddeviatie van 2. Samira scoort hierop 80.
De z-score voor Samira op de nieuwe vragenlijst is:
$$ z_{\text{nieuw}} = \frac{80 - 60}{2} = \frac{20}{2} = 10.0 $$
De oude vragenlijst heeft een gemiddelde van 20 en een standaarddeviatie van 5. Samira scoort hierop 25.
De z-score voor Samira op de oude vragenlijst is:
$$ z_{\text{oud}} = \frac{25 - 20}{5} = \frac{5}{5} = 1.0 $$
Samira's score op de nieuwe vragenlijst ($z=10.0$) is relatief veel hoger dan op de oude vragenlijst ($z=1.0$), wat aangeeft dat de scores op de nieuwe vragenlijst significant hoger liggen dan het gemiddelde. De vraag of haar scores vergelijkbaar zijn, hangt af van de context. Relatief gezien is haar positie op de nieuwe vragenlijst veel extremer.
> **Tip:** Bij het interpreteren van z-scores, onthoud dat de z-score zelf een relatieve maat is. Een z-score van 2 is altijd 'beter' dan een z-score van 1, ongeacht de oorspronkelijke schaal van de meting.
### 3.4 Z-scores en normale verdelingen
Z-scores zijn bijzonder nuttig wanneer de data normaal verdeeld is. In een normale verdeling liggen de meeste waarnemingen rond het gemiddelde.
* Ongeveer 68% van de waarnemingen valt binnen 1 standaarddeviatie van het gemiddelde (tussen $z=-1$ en $z=1$).
* Ongeveer 95% van de waarnemingen valt binnen 2 standaarddeviaties van het gemiddelde (tussen $z=-2$ en $z=2$).
* Ongeveer 99.7% van de waarnemingen valt binnen 3 standaarddeviaties van het gemiddelde (tussen $z=-3$ en $z=3$).
### 3.5 Berekenen van oorspronkelijke scores uit z-scores
Wanneer we de z-score kennen, het gemiddelde ($\mu$ of $\bar{X}$) en de standaarddeviatie ($\sigma$ of $s$), kunnen we de oorspronkelijke score ($X$) terugberekenen. Door de formule voor de z-score te herschikken, verkrijgen we:
$$ X = \mu + z \cdot \sigma $$
of voor steekproefgegevens:
$$ X = \bar{X} + z \cdot s $$
**Voorbeeld:** Een dataset heeft een gemiddelde van 3 en een standaarddeviatie van 2. Een waarneming heeft een z-score van 1.5.
De oorspronkelijke score is:
$$ X = 3 + (1.5 \cdot 2) = 3 + 3 = 6 $$
---
# Misbruik van statistiek
Dit onderdeel behandelt voorbeelden van hoe statistieken misleidend kunnen worden gebruikt en hoe men kritische vragen kan stellen bij statistische claims en grafieken.
### 4.1 De rol van statistiek in onderzoek
Statistische conclusies zijn pas waardevol als aan de randvoorwaarden van interne en externe validiteit is voldaan en statistiek niet misbruikt wordt. Inductieve statistiek is bedoeld om op basis van verzamelde data een onderbouwde beslissing te nemen over verbanden of verschillen. Het kennen van de mate van onzekerheid hierbij is essentieel, wat mede bepaald wordt door kansberekeningen en significantie.
### 4.2 Voorbeelden van misbruik van statistiek
Statistieken kunnen op verschillende manieren misleidend worden gepresenteerd of geïnterpreteerd. Dit kan zowel opzettelijk als onopzettelijk gebeuren. Hieronder worden enkele veelvoorkomende methoden besproken.
#### 4.2.1 Misleidende claims en aanbevelingen
Een veelvoorkomende misleiding betreft het gebruik van aanbevelingen of claims die gebaseerd zijn op enquêtes waarbij respondenten meerdere opties konden kiezen.
> **Voorbeeld:** Een claim als "Meer dan 80% van de tandartsen beveelt Colgate aan" kan misleidend zijn als de enquête tandartsen toestond om één of meerdere tandpastamerken te selecteren. De claim kan zo de indruk wekken dat 80% van de tandartsen Colgate aanbeveelt boven andere merken, terwijl het werkelijke aantal tandartsen dat dit specifieke merk verkiest, aanzienlijk lager kan zijn. Daarnaast kan de onjuiste mededeling dat het onderzoek door een onafhankelijk onderzoeksbureau is uitgevoerd, de geloofwaardigheid van dergelijke claims verder ondermijnen.
#### 4.2.2 Manipulatie van grafieken
Grafieken zijn krachtige visuele hulpmiddelen, maar kunnen ook eenvoudig worden gemanipuleerd om een gewenst beeld te creëren.
##### 4.2.2.1 Aanpassing van de y-as
Een veelgebruikte techniek is het aanpassen van de schaal van de y-as, vaak door deze niet bij nul te laten beginnen.
> **Voorbeeld:** Een grafiek die de calorieën van verschillende kipwrap-producten vergelijkt, waarbij de y-as begint bij 590 calorieën in plaats van nul, kan suggereren dat het product van KFC aanzienlijk minder calorieën bevat dan concurrenten. In werkelijkheid kan het verschil slechts marginaal zijn, bijvoorbeeld 70 calorieën minder, wat door de aangepaste schaal enorm wordt uitvergroot.
##### 4.2.2.2 Selectie van tijdsperioden
De gekozen tijdsperiode voor het presenteren van data kan de perceptie van trends significant beïnvloeden.
> **Voorbeeld:** Een grafiek die de Britse staatsschuld van 1995 tot 2016 toont, kan de indruk wekken dat de schuld hoger is dan ooit. Echter, wanneer dezelfde data wordt gepresenteerd over een langere periode, zoals 1910 tot 2015, kan blijken dat de schuld in vergelijking met andere historische perioden relatief laag is. Dit illustreert hoe de keuze van de tijdsperiode de interpretatie van informatie kan veranderen.
#### 4.2.3 Correlatie versus causaliteit
Het is cruciaal om onderscheid te maken tussen correlatie en causaliteit. Twee variabelen kunnen sterk met elkaar gecorreleerd zijn zonder dat de één de ander veroorzaakt.
> **Voorbeeld:** Er kan een hoge correlatie worden gevonden tussen de maandelijkse ijsverkoop en het aantal haaienaanvallen. Dit betekent echter niet dat ijsconsumptie haaienaanvallen veroorzaakt. De meest waarschijnlijke verklaring is dat beide variabelen worden beïnvloed door een derde factor: warmer weer. Bij warmer weer consumeren meer mensen ijs en gaan meer mensen zwemmen, wat het risico op haaienaanvallen vergroot.
### 4.3 Kritische vragen bij statistische claims en grafieken
Bij het tegenkomen van statistische claims of grafieken is het essentieel om kritische vragen te stellen om mogelijke misleiding te herkennen. Enkele belangrijke vragen zijn:
* **Wie heeft de data verzameld en wat was hun motief?** (Bijvoorbeeld, is de enquête uitgevoerd door de fabrikant zelf?)
* **Hoe is de data verzameld?** (Welke methoden zijn gebruikt, hoe groot was de steekproef, was deze representatief?)
* **Zijn de gebruikte definities duidelijk en eenduidig?** (Bijvoorbeeld, wat wordt er precies bedoeld met "aanbeveelt"?)
* **Is de schaal van de grafieken realistisch?** (Beginnen de assen bij nul? Zijn er geen onnatuurlijke vergrotingen?)
* **Welke tijdsperiode wordt er getoond en waarom juist deze periode?** (Is er sprake van selectiviteit?)
* **Wordt correlatie verward met causaliteit?** (Is er een plausibele verklaring voor het verband, of wordt een derde variabele genegeerd?)
* **Welke informatie wordt mogelijk weggelaten?** (Zijn er data die de claim zouden kunnen ontkrachten?)
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Inductieve statistiek | Een tak van statistiek die zich bezighoudt met het trekken van conclusies over een populatie op basis van gegevens uit een steekproef. Het doel is om generalisaties te maken en hypothesen te toetsen. |
| Frequentieverdeling | Een tabel of grafiek die laat zien hoe vaak bepaalde waarden of klassen van waarden voorkomen in een dataset. Het geeft een overzicht van de verdeling van de gegevens. |
| Percentiel | Een waarde onder of gelijk aan een bepaald percentage van de gegevens in een frequentieverdeling. Bijvoorbeeld, het 40e percentiel (Pc 40) is de waarde waaronder 40% van de gegevens valt. |
| Centrummaat | Een statistische maat die de centrale tendens van een dataset samenvat, zoals het gemiddelde, de mediaan of de modus. Het geeft een indicatie van het "typische" of "middelste" punt in de gegevens. |
| Modus | De waarde die het vaakst voorkomt in een dataset. Een dataset kan één modus (unimodaal), meerdere modi (multimodaal) of geen modus hebben. |
| Mediaan | De middelste waarde in een gesorteerde dataset. Als er een even aantal waarden is, is de mediaan het gemiddelde van de twee middelste waarden. Het is minder gevoelig voor uitschieters dan het gemiddelde. |
| Gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden. Dit is de meestgebruikte centrummaat, maar kan gevoelig zijn voor uitschieters. |
| Spreidingsmaat | Een statistische maat die de mate van variabiliteit of spreiding in een dataset samenvat. Voorbeelden zijn de variantie en de standaarddeviatie. |
| Variantie | Een maat voor de gemiddelde gekwadrateerde afwijking van elke waarde ten opzichte van het gemiddelde van de dataset. Het geeft aan hoe ver de gegevens verspreid zijn rondom het gemiddelde. |
| Standaarddeviatie | De vierkantswortel van de variantie. Het is een veelgebruikte spreidingsmaat die de typische afwijking van individuele datapunten ten opzichte van het gemiddelde aangeeft. |
| Z-score (standaardscore) | Een gestandaardiseerde score die aangeeft hoeveel standaarddeviaties een bepaald datapunt verwijderd is van het gemiddelde van de dataset. Formule: $z = \frac{x - \mu}{\sigma}$, waarbij $x$ de individuele score is, $\mu$ het populatiegemiddelde en $\sigma$ de populatiestandaarddeviatie. |
| Populatie | De volledige groep individuen, objecten of metingen waarover men een conclusie wil trekken. |
| Steekproef | Een deelverzameling van de populatie die wordt geobserveerd of gemeten om informatie te verkrijgen over de gehele populatie. |
| Afhankelijke variabele | De variabele die wordt gemeten en waarvan wordt aangenomen dat deze beïnvloed wordt door de onafhankelijke variabele. Het is het "resultaat" dat men onderzoekt. |
| Onafhankelijke variabele | De variabele die wordt gemanipuleerd of geobserveerd om te zien of deze een effect heeft op de afhankelijke variabele. Het is de "oorzaak" of de voorspeller. |
Cover
Werkcollege2_oplossing.docx
Summary
# Statistische analyse van kredietkaartuitgaven
Dit onderwerp behandelt de statistische analyse van kredietkaartuitgaven, specifiek gericht op het vergelijken van gemiddelde uitgaven met populatiegemiddelden en tussen verschillende groepen zoals geslacht en jaartal.
## 1. Statistische analyse van kredietkaartuitgaven
### 1.1 Vergelijken van steekproefgemiddelden met populatiegemiddelden
Dit deel van de analyse richt zich op het vergelijken van het gemiddelde van een steekproef van kredietkaartuitgaven met een bekend populatiegemiddelde.
#### 1.1.1 De one-sample t-test
* **Doel:** Nagaan of het gemiddelde van een interval gemeten variabele (in dit geval 'amount spent' of uitgegeven bedrag) in een steekproef significant verschilt van een specifiek populatiegemiddelde.
* **Hypotheses:**
* Nulhypothese ($H_0$): Het gemiddelde uitgavenbedrag is gelijk aan het populatiegemiddelde.
$H_0: \mu_{\text{amount spent}} = \mu_{\text{populatie}}$
* Alternatieve hypothese ($H_a$): Het gemiddelde uitgavenbedrag verschilt van het populatiegemiddelde.
$H_a: \mu_{\text{amount spent}} \neq \mu_{\text{populatie}}$
* **Toepassing:** Gegeven een populatiegemiddelde van 500 dollars, wordt de 'amount spent' variabele vergeleken met deze waarde.
* **Resultaten:**
* In de steekproef met 300 respondenten wordt een gemiddeld uitgavenbedrag van 191.8413 dollars waargenomen, met een standaardafwijking van 203.13275 dollars.
* De 'One-Sample Test' tabel toont de t-waarde, vrijheidsgraden en het tweezijdig significantieniveau.
* **Interpretatie:** Als het significantieniveau (p-waarde) kleiner is dan 0.05, wordt de nulhypothese verworpen, wat aangeeft dat het steekproefgemiddelde statistisch significant verschilt van het populatiegemiddelde. In het gegeven voorbeeld is de p-waarde kleiner dan 0.05 (vaak wordt dit als 'p < .000' gerapporteerd in software), wat leidt tot de conclusie dat het gemiddelde in de steekproef significant verschilt van 500 dollars.
> **Tip:** De one-sample t-test is geschikt wanneer je de gemiddelde waarde van één groep wilt vergelijken met een bekende, vastgestelde waarde (het populatiegemiddelde).
#### 1.1.2 Gemiddelde vergelijken tussen groepen: Geslacht
* **Doel:** Het gemiddelde uitgavenbedrag tussen verschillende groepen vergelijken, specifiek tussen mannen en vrouwen.
* **Hypotheses:**
* Nulhypothese ($H_0$): Het gemiddelde uitgavenbedrag van mannen is gelijk aan dat van vrouwen.
$H_0: \mu_{\text{amount spent, man}} = \mu_{\text{amount spent, vrouw}}$
* Alternatieve hypothese ($H_a$): Het gemiddelde uitgavenbedrag van mannen verschilt van dat van vrouwen.
$H_a: \mu_{\text{amount spent, man}} \neq \mu_{\text{amount spent, vrouw}}$
* **Test:** Independent samples t-test.
* **Toepassing:** De variabele 'amount spent' wordt vergeleken tussen de groepen 'gender' (mannen en vrouwen).
* **Resultaten:**
* Mannen (149 respondenten) gaven gemiddeld 192.8440 dollars uit (standaardafwijking: 205.53192 dollars).
* Vrouwen (151 respondenten) gaven gemiddeld 190.8519 dollars uit (standaardafwijking: 201.41656 dollars).
* **Voorwaarde: Levene's Test voor Gelijkheidsvarianties:**
* Voordat de t-test geïnterpreteerd wordt, moet de Levene's test gecontroleerd worden om te beoordelen of de varianties tussen de groepen gelijk zijn.
* De nulhypothese van de Levene's test is dat de varianties gelijk zijn. Als de p-waarde van de Levene's test groter is dan 0.05 (niet significant), worden gelijke varianties aangenomen (de eerste rij van de 'Independent Samples Test' tabel wordt geïnterpreteerd).
* In het gegeven voorbeeld is de Levene's test niet significant (p = 0.825), dus wordt aangenomen dat de varianties gelijk zijn.
* **Interpretatie:** De onafhankelijke t-test wordt uitgevoerd. Als de p-waarde van de t-test groter is dan 0.05, wordt de nulhypothese niet verworpen, wat betekent dat er geen statistisch significant verschil is in uitgaven tussen mannen en vrouwen. In het voorbeeld is de p-waarde 0.932, wat leidt tot de conclusie dat er geen significant verschil is.
> **Tip:** De Levene's test is cruciaal bij de independent samples t-test om te bepalen welke resultaten (gelijke of ongelijke varianties) je moet raadplegen in de output.
#### 1.1.3 Gemiddelde vergelijken tussen groepen: Jaartal
* **Doel:** Het gemiddelde uitgavenbedrag vergelijken tussen verschillende jaartallen waarin de uitgaven werden gedaan.
* **Hypotheses:**
* Nulhypothese ($H_0$): Het gemiddelde uitgavenbedrag in 2009 is gelijk aan dat in 2010.
$H_0: \mu_{\text{amount spent, 2009}} = \mu_{\text{amount spent, 2010}}$
* Alternatieve hypothese ($H_a$): Het gemiddelde uitgavenbedrag in 2009 verschilt van dat in 2010.
$H_a: \mu_{\text{amount spent, 2009}} \neq \mu_{\text{amount spent, 2010}}$
* **Test:** Independent samples t-test.
* **Toepassing:** De variabele 'amount spent' wordt vergeleken tussen de groepen 'jaartal' (2009 en 2010). Er wordt aangenomen dat dit onafhankelijke groepen zijn, aangezien het om verschillende metingen in verschillende jaren gaat.
* **Resultaten:**
* In 2009 (170 respondenten) was het gemiddelde uitgavenbedrag 204.8603 dollars (standaardafwijking: 212.96987 dollars).
* In 2010 (130 respondenten) was het gemiddelde uitgavenbedrag 174.8164 dollars (standaardafwijking: 188.95725 dollars).
* **Voorwaarde: Levene's Test voor Gelijkheidsvarianties:**
* De Levene's test toont aan dat de varianties gelijk zijn (niet significant, p = 0.252). Daarom worden de resultaten van de 'Equal variances assumed' rij geïnterpreteerd.
* **Interpretatie:** De onafhankelijke t-test wordt uitgevoerd. De p-waarde is 0.205. Aangezien dit groter is dan 0.05, wordt de nulhypothese niet verworpen. Er is geen statistisch significant verschil in gemiddelde kredietkaartuitgaven tussen 2009 en 2010.
> **Tip:** Bij het vergelijken van gemiddelden tussen twee onafhankelijke groepen is het altijd essentieel om eerst de Levene's test te controleren om de juiste interpretatie van de t-test te garanderen.
---
Dit samenvattingsgedeelte is gebaseerd op de informatie die beschikbaar is op pagina's 1-3 van het document met betrekking tot de statistische analyse van kredietkaartuitgaven.
---
# Evaluatie van reclamecampagnes en winkelervaring met self-scanning
Dit hoofdstuk behandelt de evaluatie van reclamecampagnes door de merkattitude voor en na de campagne te vergelijken, en analyseert de impact van self-scanning op de winkelervaring.
### 2.1 Evaluatie van reclamecampagnes
De effectiviteit van een reclamecampagne wordt geëvalueerd door de merkattitude van consumenten te meten vóór en na blootstelling aan de campagne. Een stijging in de merkattitude na de campagne duidt op succes.
#### 2.1.1 Statistische analyse van merkattitude
Om te bepalen of het verschil in merkattitude statistisch significant is, wordt een **paired samples t-test** uitgevoerd. Deze test is geschikt wanneer twee metingen (vóór en na de campagne) worden gedaan bij dezelfde groep respondenten, wat resulteert in afhankelijke "groepen".
* **Hypothesen:**
* Tweezijdig testen:
* Nulhypothese ($H_0$): Het gemiddelde van de merkattitude vóór de campagne is gelijk aan het gemiddelde van de merkattitude na de campagne.
* Alternatieve hypothese ($H_a$): Het gemiddelde van de merkattitude vóór de campagne is niet gelijk aan het gemiddelde van de merkattitude na de campagne.
* Eenzijdig testen (gericht op een verbetering):
* Nulhypothese ($H_0$): Het gemiddelde van de merkattitude vóór de campagne is groter dan of gelijk aan het gemiddelde van de merkattitude na de campagne.
* Alternatieve hypothese ($H_a$): Het gemiddelde van de merkattitude vóór de campagne is kleiner dan het gemiddelde van de merkattitude na de campagne.
* **Procedure:**
De analyse wordt uitgevoerd via `Analyze > Compare Means > Paired Samples T-Test`. De variabele voor de merkattitude vóór de campagne en de variabele voor de merkattitude na de campagne worden als paren ingevoerd.
* **Interpretatie van resultaten:**
1. **Paired Samples Statistics:** Geeft het gemiddelde en de standaardafwijking voor zowel de attitude vóór als na de campagne weer. Hieruit kan een eerste indruk worden verkregen of de attitude na de campagne hoger is.
2. **Paired Samples Test:** Toont de t-waarde, de vrijheidsgraden, en het tweezijdig significantieniveau (p-waarde). Als het significantieniveau kleiner is dan .05, wordt de nulhypothese verworpen, wat aangeeft dat de campagne een statistisch significant effect heeft gehad op de merkattitude (in dit specifieke geval een verhoging).
> **Tip:** Bij een eenzijdige test moet het significantieniveau uit de Paired Samples Test tabel worden gedeeld door twee om het correcte significantieniveau te verkrijgen.
#### 2.1.2 Voorbeeld van merkattitude analyse
In een onderzoek met 30 respondenten werd de merkattitude vóór een reclamecampagne gemeten als gemiddeld 4.70 met een standaardafwijking van 1.56. Na de campagne steeg de gemiddelde merkattitude naar 5.70 met een standaardafwijking van 1.62. De paired samples t-test gaf een t-waarde van -2.921 met 29 vrijheidsgraden en een tweezijdig significantieniveau van .007. Aangezien p < .05, wordt de nulhypothese verworpen, wat bevestigt dat de reclamecampagne geleid heeft tot een statistisch significant hogere merkattitude.
### 2.2 Impact van self-scanning op de winkelervaring
De implementatie van self-scanning technologie in supermarkten is bedoeld om de winkelervaring te verbeteren. Onderzoek hiernaar omvat het analyseren van consumentenpercepties en gedragingen met betrekking tot self-scanning.
#### 2.2.1 Onderzoeksvragen en statistische methoden
Verschillende onderzoeksvragen kunnen worden gesteld over de impact van self-scanning, waarvoor specifieke statistische toetsen nodig zijn.
* **Onderzoeksvraag 1: Is de gemiddelde perceived waiting time minder dan 3 minuten?**
* **Methode:** One-sample t-test.
* **Hypothesen:**
* $H_0$: Gemiddelde waargenomen wachttijd $\geq$ 3 minuten.
* $H_a$: Gemiddelde waargenomen wachttijd $<$ 3 minuten.
* **Resultaat:** In een steekproef was de gemiddelde waargenomen wachttijd 2.34 minuten, wat statistisch significant lager was dan 3 minuten ($t(413) = -5.34, p < .001$). De nulhypothese werd verworpen.
* **Onderzoeksvraag 2: Verwachten klanten minder tijd in de winkel te besteden dan ze daadwerkelijk doen?**
* **Methode:** Paired t-test (vergelijking van twee afhankelijke metingen bij dezelfde respondenten).
* **Hypothesen:**
* $H_0$: Verwachte tijd $\geq$ Werkelijke tijd.
* $H_a$: Verwachte tijd $<$ Werkelijke tijd.
* **Resultaat:** De verwachte tijd (M = 25.39 minuten) was significant korter dan de werkelijke tijd (M = 27.31 minuten) ($t(413) = -2.71, p < .01$). Klanten onderschatten dus de tijd die ze nodig hebben.
* **Onderzoeksvraag 3: Is het aandeel klanten dat self-scanning gebruikt groter dan 30%?**
* **Methode:** Binomiale test (toetsen van een proportie).
* **Hypothesen:**
* $H_0$: Aandeel self-scanning gebruik (SST) $\leq$ 30%.
* $H_a$: Aandeel self-scanning gebruik (SST) $>$ 30%.
* **Resultaat:** Het aandeel gebruikers van self-scanning was 40%, wat significant groter was dan 30% ($p = .001$). Het streefdoel was dus behaald.
> **Tip:** Let op hoe de test-proportie in SPSS wordt vergeleken; soms moet de codering van de variabele of de test-proportie aangepast worden.
* **Onderzoeksvraag 4: Zijn de ervaren wachttijden lager bij self-scanning gebruikers dan bij niet-gebruikers?**
* **Methode:** Independent samples t-test (vergelijking van twee onafhankelijke groepen).
* **Hypothesen:**
* $H_0$: Waargenomen wachttijd (SST-gebruikers) $\geq$ Waargenomen wachttijd (niet-SST-gebruikers).
* $H_a$: Waargenomen wachttijd (SST-gebruikers) $<$ Waargenomen wachttijd (niet-SST-gebruikers).
* **Resultaat:** De ervaren wachttijd bij self-scanning gebruikers (1.74) was significant kleiner dan bij niet-gebruikers (2.69) ($t(412) = 3.94, p < .001$). Self-scanning gebruikers ervaren dus kortere wachttijden.
* **Onderzoeksvraag 5: Gebruiken shoppers met een hogere opleiding vaker zelfscanning?**
* **Methode:** Chi-kwadraat test (X²-test) van onafhankelijkheid (vergelijking van twee nominale variabelen).
* **Hypothesen:**
* $H_0$: Aandeel self-scanning gebruik (hogere opleiding) $\leq$ Aandeel self-scanning gebruik (lagere opleiding).
* $H_a$: Aandeel self-scanning gebruik (hogere opleiding) $>$ Aandeel self-scanning gebruik (lagere opleiding).
* **Resultaat:** Het percentage shoppers met een hogere opleiding dat self-scanning gebruikte (37.3%) was niet significant hoger dan het percentage met een lagere opleiding (36.4%) ($X^2 = .041, p > .84$). De nulhypothese kon niet verworpen worden.
> **Tip:** Let bij kruistabellen op welke percentages relevant zijn voor de onderzoeksvraag (kolom-, rij- of totaalpercentages) en controleer of de cellen groot genoeg zijn voor de Chi²-test.
#### 2.2.2 Dataverzameling voor self-scanning onderzoek
De data voor dit onderzoek werd verzameld via een veldexperiment met enquêtes bij het binnengaan en buitengaan van de winkel. Variabelen die werden gemeten, omvatten het gebruik van self-scanning, het aantal shoppers, het aantal beschikbare self-scanners, wachtrijlengtes, en de waargenomen wachttijd. Elke rij in de dataset representeert één consument.
---
# Analyse van de relatie tussen geslacht en CD-aankoopgedrag
Deze sectie onderzoekt de associatie tussen het geslacht van de respondent en het al dan niet aankopen van een CD, met behulp van kruistabellen en de chi-kwadraat toets.
### 3.1 Inleiding en databron
De analyse wordt uitgevoerd op basis van de 'Database CM_bb', die informatie bevat over het geslacht van respondenten en of zij een CD hebben aangeschaft. Dit stelt ons in staat om te onderzoeken of er een significante relatie bestaat tussen deze twee variabelen.
### 3.2 Variabelen
* **Geslacht van de respondent:** Dit is een nominale variabele.
* **Al dan niet aankopen van een CD:** Dit is eveneens een nominale variabele.
### 3.3 Onderzoeksvraag en hypothesen
De centrale onderzoeksvraag is of er een significante associatie bestaat tussen het geslacht van de respondent en het al dan niet aankopen van een CD.
De bijbehorende hypothesen luiden:
* Nulhypothese ($H_0$): Het aandeel mannen dat CD's koopt, is hetzelfde als het aandeel vrouwen.
* Alternatieve hypothese ($H_a$): Het aandeel mannen dat CD's koopt, is niet hetzelfde als het aandeel vrouwen.
### 3.4 Statistische analyse: Kruistabel en Chi-kwadraat toets
Om de relatie tussen twee nominale variabelen te onderzoeken, wordt een kruistabel met een chi-kwadraat toets gebruikt.
#### 3.4.1 Uitvoering van de analyse
De analyse wordt als volgt uitgevoerd in statistische software:
1. Ga naar `Analyze > Descriptive Statistics > Crosstabs`.
2. Plaats de variabele 'buying' (CD gekocht: ja/nee) in de rij (`Row(s)`).
3. Plaats de variabele 'gender' (geslacht) in de kolom (`Column(s)`).
4. Onder de tab `Statistics`, selecteer `Chi-square`.
5. Onder de tab `Cells`, vraag `Expected counts` en `Column percentages` op.
#### 3.4.2 Interpretatie van de resultaten
De interpretatie van de resultaten omvat verschillende stappen:
1. **Case Processing Summary:** Controleer het aantal respondenten en eventuele missende waarden. De analyse in dit voorbeeld omvat 100 respondenten met 0 missende waarden.
2. **Kruistabel (Crosstabulation):**
* Deze tabel toont de absolute aantallen (counts) en de percentages per cel. Het is cruciaal om de **kolompercentages** te interpreteren om de relatie tussen de variabelen te beoordelen.
* In het gegeven voorbeeld:
* Van de vrouwen heeft $66.7\%$ de CD gekocht, terwijl slechts $27.3\%$ van de mannen de CD heeft gekocht.
* Dit suggereert een potentieel verschil in aankoopgedrag tussen mannen en vrouwen.
3. **Voorwaarden voor de Chi-kwadraat toets:**
* Voordat de chi-kwadraat toets geïnterpreteerd kan worden, moeten de voorwaarden gecontroleerd worden. De belangrijkste voorwaarde is dat de verwachte aantallen (expected counts) in de cellen niet te klein mogen zijn. Een gangbare vuistregel is dat minder dan 20% van de cellen een verwachte count kleiner dan 5 mag hebben, en geen enkele cel mag een verwachte count kleiner dan 1 hebben.
* In het voorbeeld wordt aangegeven dat $0\%$ van de cellen een verwachte waarde kleiner dan 5 heeft, en de minimale verwachte waarde is $20.25$. Dit betekent dat de voorwaarden voor de chi-kwadraat toets **niet geschonden** zijn, en de test kan betrouwbaar geïnterpreteerd worden.
4. **Chi-Square Tests tabel:**
* Deze tabel bevat de resultaten van de chi-kwadraat toets. De belangrijkste waarde is de `Pearson Chi-Square` met bijbehorende `Asymptotic Significance (2-sided)`.
* In het voorbeeld is de `Pearson Chi-Square` gelijk aan $15.519$ met $1$ vrijheidsgraad (`df`).
* Het significantieniveau (`Sig. (2-tailed)`) is kleiner dan $0.05$ (in dit geval $0.000$).
#### 3.4.3 Conclusie
Aangezien het significantieniveau kleiner is dan $0.05$, wordt de nulhypothese verworpen. Dit betekent dat er een **statistisch significante associatie** is tussen het geslacht van de respondent en het al dan niet aankopen van de CD. Specifiek, vrouwen kopen significant vaker een CD dan mannen in deze steekproef.
> **Tip:** Bij het interpreteren van kruistabellen is het essentieel om te focussen op de percentages die de relatie tussen de categorieën van de variabelen weergeven. Kolompercentages zijn vaak het meest informatief wanneer er een causale of voorspellende relatie wordt onderzocht (bijvoorbeeld, hoe geslacht voorspelt aankoop).
> **Voorbeeld:** De kruistabel toont dat 15 vrouwen de CD niet hebben gekocht en 40 mannen de CD niet hebben gekocht. Echter, in termen van percentages binnen hun eigen geslacht, betekent dit dat 33.3% van de vrouwen en 72.7% van de mannen de CD niet heeft gekocht. Dit percentageverschil is significant en wijst op een verband.
---
# Invloed van land, stereotypen en geslacht op advertentieattitude
Dit gedeelte behandelt de invloed van land, stereotypen en geslacht op de attitude ten opzichte van advertenties, inclusief de methodologische stappen om de vergelijkbaarheid van steekproeven te waarborgen en de analyse van deze attitudes door middel van factoranalyse.
## 4.5 Invloed van land, stereotypen en geslacht op advertentieattitude
### 4.5.1 Vergelijkbaarheid van steekproeven (land: Zweden vs. Duitsland)
Om de invloed van verschillende factoren op de attitude ten opzichte van advertenties te onderzoeken, is het cruciaal om eerst de vergelijkbaarheid van de gebruikte steekproeven te waarborgen. In dit specifieke geval worden de steekproeven uit Zweden en Duitsland vergeleken op het gebied van leeftijd en geslacht. Grote verschillen in deze demografische variabelen tussen de landen zouden namelijk kunnen verklaren waarom er verschillen in attitude ten opzichte van advertenties worden waargenomen, in plaats van de onderzochte factoren (land, stereotypen, geslacht model).
#### 4.5.1.1 Vergelijking van leeftijd tussen Zweden en Duitsland
* **Onderzoeksvraag:** Is er een verschil in gemiddelde leeftijd tussen de steekproeven uit Zweden en Duitsland?
* **Variabelen:** Leeftijd (interval variabele) en Land (nominale variabele met twee onafhankelijke groepen).
* **Statistische toets:** Independent samples t-test.
* **Hypothesen:**
* $H_0$: De gemiddelde leeftijd in Zweden is gelijk aan de gemiddelde leeftijd in Duitsland.
* $H_a$: De gemiddelde leeftijd in Zweden is niet gelijk aan de gemiddelde leeftijd in Duitsland.
* **Resultaten:**
* De Levene's test voor gelijke varianties gaf een significantieniveau groter dan .05, wat impliceert dat we uitgaan van gelijke varianties (equal variances assumed).
* De t-test liet zien dat er geen statistisch significant verschil is in de gemiddelde leeftijd tussen Duitsland ($M = 42.58$, $SD = 12.70$) en Zweden ($M = 42.54$, $SD = 13.65$). De resultaten waren $t(1011) = 0.054$, $p = 0.957$.
* **Conclusie:** De gemiddelde leeftijd van de respondenten in de Duitse en Zweedse steekproeven is vergelijkbaar, wat de vergelijkbaarheid van de steekproeven op dit aspect garandeert.
#### 4.5.1.2 Vergelijking van geslacht tussen Zweden en Duitsland
* **Onderzoeksvraag:** Is de verhouding tussen mannen en vrouwen statistisch significant verschillend tussen de steekproeven uit Zweden en Duitsland?
* **Variabelen:** Geslacht (nominale variabele) en Land (nominale variabele met twee onafhankelijke groepen).
* **Statistische toets:** Kruistabel met Chi-kwadraat toets ($\chi^2$).
* **Hypothesen:**
* $H_0$: De verhouding geslachten in Zweden is gelijk aan de verhouding geslachten in Duitsland.
* $H_a$: De verhouding geslachten in Zweden is niet gelijk aan de verhouding geslachten in Duitsland.
* **Resultaten:**
* De analyse van de kruistabel toonde aan dat de verdeling van mannen en vrouwen in Duitsland (48.8% mannen) en Zweden (49.9% mannen) niet statistisch significant verschilde. De resultaten waren $\chi^2(1, N=1013) = 0.120$, $p = 0.729$.
* De voorwaarden voor de Chi-kwadraat toets waren niet geschonden, aangezien er geen cellen waren met een verwachte count kleiner dan 5 en de minimum verwachte count ruim voldoende was.
* **Conclusie:** De samenstelling van de steekproeven qua geslacht is vergelijkbaar tussen Zweden en Duitsland, wat bijdraagt aan de vergelijkbaarheid van de steekproeven.
### 4.5.2 Factoranalyse van attitudes tegenover de advertentie
Na het vaststellen van de vergelijkbaarheid van de steekproeven, wordt de attitude ten opzichte van de advertentie onderzocht door middel van factoranalyse. Dit helpt om de onderliggende dimensies van de attitude te identificeren.
* **Procedure:** Factoranalyse wordt uitgevoerd via het menu `Analyze > Dimension Reduction > Factor`.
* **Interpretatie van Tabellen:** De interpretatie van de verschillende outputtabellen (zoals Communalities, Total Variance Explained, en Rotated Component Matrix) is analoog aan eerdere oefeningen in datareductie.
* **Belangrijkste conclusies:**
* Er worden **twee factoren** geïdentificeerd die samen 72.98% van de totale variantie in de attitude ten opzichte van de advertentie verklaren.
* **Factor 1** omvat de items die de **algemene attitude** tegenover de advertentie bevragen.
* **Factor 2** omvat drie items die specifiek de **ethische attitude** ten opzichte van de advertentie bevragen.
> **Tip:** Factoranalyse helpt om een complex geheel van variabelen te reduceren tot een kleiner aantal latente constructen (factoren). Dit is essentieel om de structuur van attitudes te begrijpen en de belangrijkste dimensies te isoleren.
> **Voorbeeld:** Als een reeks vragen gaat over de aantrekkelijkheid, informativiteit en overtuigingskracht van een advertentie, en deze items groeperen zich sterk onder één factor, dan duidt dit op een onderliggende dimensie van "algemene positieve evaluatie" van de advertentie. Items die daarentegen specifiek de waarachtigheid of correctheid van de advertentie bevragen, kunnen een aparte factor van "ethische beoordeling" vormen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Populatie | De volledige verzameling van individuen of objecten waarover een statistisch onderzoek uitspraken wil doen. |
| Steekproef | Een subset van de populatie die wordt geselecteerd om de kenmerken van de populatie te schatten. |
| Gemiddelde | De som van alle waarden gedeeld door het aantal waarden, wat een maat is voor centrale tendens. |
| Afhankelijke variabele | De variabele die wordt gemeten of geobserveerd en waarvan men vermoedt dat deze wordt beïnvloed door de onafhankelijke variabele. |
| Onafhankelijke variabele | De variabele die wordt gemanipuleerd of geobserveerd om te zien of deze een effect heeft op de afhankelijke variabele. |
| Interval gemeten variabele | Een variabele waarbij de verschillen tussen opeenvolgende waarden gelijk zijn en er een zinvolle ordinale volgorde is, maar geen absoluut nulpunt. |
| Nulhypothese (H0) | Een stelling die stelt dat er geen effect, verschil of relatie bestaat tussen de variabelen die onderzocht worden. |
| Alternatieve hypothese (Ha) | Een stelling die stelt dat er wel een effect, verschil of relatie bestaat tussen de variabelen die onderzocht worden. |
| One-sample t-test | Een statistische toets om te bepalen of het gemiddelde van een enkele steekproef significant verschilt van een bekend populatiegemiddelde. |
| t-waarde | De toetsingsgrootheid van de t-test, die de steekproefstatistiek relateert aan de nulhypothese. |
| Vrijheidsgraden (df) | Het aantal waarden in de berekening van een statistiek dat vrij kan variëren; het bepaalt de vorm van de t-verdeling. |
| Significantieniveau (p-waarde) | De kans om de geobserveerde resultaten (of extremere) te verkrijgen, gegeven dat de nulhypothese waar is. Een lage p-waarde (typisch < .05) leidt tot verwerping van de nulhypothese. |
| Independent samples t-test | Een statistische toets om te bepalen of de gemiddelden van twee onafhankelijke groepen significant van elkaar verschillen. |
| Groep | Een verzameling individuen of objecten die gemeenschappelijke kenmerken delen. |
| Levene’s Test | Een statistische toets om te bepalen of de varianties van twee of meer groepen gelijk zijn, wat een voorwaarde is voor de independent samples t-test. |
| Gelijk(e) varianties aangenomen | De aanname dat de varianties van de groepen die vergeleken worden, gelijk zijn. |
| Gelijk(e) varianties niet aangenomen | De situatie waarin de varianties van de groepen die vergeleken worden, significant verschillen. |
| Paired samples t-test | Een statistische toets om te bepalen of de gemiddelden van twee gerelateerde (afhankelijke) metingen significant van elkaar verschillen. |
| Merkattitude | De algemene evaluatie die een consument heeft ten opzichte van een bepaald merk. |
| Factoranalyse | Een statistische methode die wordt gebruikt om de onderliggende structuur van een set geobserveerde variabelen te identificeren en te meten. |
| Variantie | Een maat voor de spreiding van gegevens rondom het gemiddelde; de gemiddelde gekwadrateerde afwijking van het gemiddelde. |
| Binomial test | Een statistische toets die wordt gebruikt om te bepalen of de proportie van succesvolle uitkomsten in een reeks van onafhankelijke Bernoulli-experimenten significant verschilt van een verwachte proportie. |
| Crosstabs (Kruistabellen) | Een tabel die de frequentieverdeling van twee of meer categorische variabelen toont, waardoor de relatie ertussen kan worden geanalyseerd. |
| Chi-kwadraat toets (X²) | Een statistische toets die wordt gebruikt om te bepalen of er een significante associatie is tussen twee categorische variabelen. |
| Nominale variabele | Een variabele waarbij de waarden categorisch zijn zonder inherente volgorde (bv. geslacht, kleur). |
| Frequentie | Het aantal keren dat een bepaalde waarde of categorie voorkomt in een dataset. |
| Percentage | Een proportie uitgedrukt als een deel van honderd. |
| Associatie | Een statistische relatie tussen twee of meer variabelen, waarbij veranderingen in de ene variabele gepaard gaan met veranderingen in de andere. |
| KMO and Bartlett's Test | Statistieken die worden gebruikt om de geschiktheid van gegevens voor factoranalyse te beoordelen. De KMO meet de mate waarin de steekproef adequaat is voor factoranalyse, en Bartlett's test van sfericiteit toetst of er correlaties bestaan tussen de variabelen. |
| Communalities | In factoranalyse, de proportie van de variantie van een variabele die wordt verklaard door de geëxtraheerde factoren. |
| Eigenvalues | In factoranalyse, waarden die de hoeveelheid variantie weergeven die door een factor wordt verklaard. |
| Rotated Component Matrix | Een componentenmatrix waarin de factoren zijn geroteerd om de interpretatie te vergemakkelijken door de ladingen op de factoren te maximaliseren. |
Cover
Werkcollege3_oplossing (1).docx
Summary
# Regressieanalyse van klanttevredenheid en woonprijzen
Deze studie onderzoekt de impact van verschillende factoren op algemene klanttevredenheid in de horeca en verklaart woonprijzen aan de hand van vastgoedkenmerken met behulp van lineaire regressiemodellen.
### 1.1 Regressieanalyse van klanttevredenheid in de horeca
#### 1.1.1 Inleiding en data
In dit deel wordt onderzocht welke kenmerken van dienstverlening in een pizzarestaurant een significante impact hebben op de algemene klanttevredenheid. De dataset bevat een algemene tevredenheidsscore (afhankelijke variabele, interval gemeten) en tevredenheidsscores op vijf kenmerken: prijs, ontvangst, service, wachttijd en kwaliteit van het eten (onafhankelijke variabelen, interval gemeten op een schaal van 5 punten).
#### 1.1.2 Hypotheses
De hypotheses die worden getoetst zijn:
* **Nulhypothese (H0):** De coëfficiënten van de onafhankelijke variabelen (ontvangst, service, wachttijd, kwaliteit van het eten en prijs) zijn gelijk aan nul. Dit impliceert dat deze factoren geen significante invloed hebben op de algemene tevredenheid.
$H_0: \beta_{\text{reception, service, waiting time, food quality and price}} = 0$
* **Alternatieve hypothese (Ha):** Ten minste één van de coëfficiënten van de onafhankelijke variabelen is niet gelijk aan nul. Dit impliceert dat deze factoren wel een significante invloed hebben op de algemene tevredenheid.
$H_a: \beta_{\text{reception, service, waiting time, food quality and price}} \neq 0$
#### 1.1.3 Analyse en resultaten
De analyse werd uitgevoerd met een lineaire regressie, waarbij de algemene tevredenheid als afhankelijke variabele en de vijf kenmerken als onafhankelijke variabelen werden gedefinieerd.
* **Model Evaluatie:**
* De $R^2$ waarde van .575 geeft aan dat 57.5% van de variantie in de algemene tevredenheidsscore verklaard wordt door het model.
* De Durbin-Watson statistiek (1.130) ligt tussen 1 en 4, wat duidt op geen problemen met autocorrelatie en dus ook geen probleem met multicollineariteit.
* De ANOVA-tabel toont een significantie van .000 (kleiner dan .05), wat betekent dat het model verklaringskracht heeft.
* **Coëfficiënten Analyse:**
* De beta-coëfficiënten (gestandaardiseerd) worden gebruikt om de onderlinge impact van de onafhankelijke variabelen op de algemene tevredenheid te vergelijken. De ongestandaardiseerde coëfficiënten worden gebruikt om de absolute waarde van de algemene tevredenheid te voorspellen.
* Alle kenmerken (receptie, service, wachttijd, kwaliteit van het eten, prijs) dragen significant bij aan een positieve algemene tevredenheid. Bijvoorbeeld, een stijging van de tevredenheid over de kwaliteit van het voedsel met één punt leidt tot een stijging van de algemene tevredenheid met .442.
* De collineariteitsdiagnostiek (Tolerance > .3 en VIF < 2) en de laatste waarde in de collineariteitsdiagnostiek tabel (onder 30) bevestigen dat er geen multicollineariteitsprobleem is.
#### 1.1.4 Controle van regressievoorwaarden
* **Lineariteit:** Het normal probability plot van de gestandaardiseerde residuen toont dat de grijze punten dicht bij de zwarte lijn liggen, wat duidt op geen probleem met lineariteit.
* **Homoscedasticiteit:** Het scatterplot van gestandaardiseerde voorspelde waarden tegenover gestandaardiseerde residuen toont geen duidelijk patroon (zoals een trompetvorm). De residuen lijken gelijke variantie te hebben, wat duidt op homoscedasticiteit.
> **Tip:** Bij het interpreteren van de coëfficiënten is het belangrijk om te onderscheiden of je de impact relatief wilt vergelijken (gestandaardiseerde $\beta$) of de absolute voorspelling van de afhankelijke variabele wilt doen (ongestandaardiseerde $B$).
### 1.2 Regressieanalyse van woonprijzen
#### 1.2.1 Verklaren van woonprijzen met afstand en aantal kamers
Dit deel onderzoekt de relatie tussen verkoopprijzen van huizen en kenmerken zoals afstand tot het stadscentrum en het aantal kamers.
* **Data:** De dataset bevat verkoopprijzen (afhankelijke variabele, interval gemeten) en afstand tot het stadscentrum (onafhankelijke variabele, ratio gemeten) en het aantal kamers (onafhankelijke variabele, ratio gemeten).
* **Hypotheses:**
* **Nulhypothese (H0):** De coëfficiënten van het aantal kamers en afstand tot de stad zijn gelijk aan nul.
$H_0: \beta_{\text{n\_rooms and distance}} = 0$
* **Alternatieve hypothese (Ha):** Ten minste één van de coëfficiënten van het aantal kamers en afstand tot de stad is niet gelijk aan nul.
$H_a: \beta_{\text{n\_rooms and distance}} \neq 0$
* **Regressieformule en resultaten:**
* De regressieformule is:
$$Y = 131601.42 + 21457.57 X - 1008.652 Z$$
Waarbij $Y$ de prijs van het huis is, $X$ het aantal kamers, en $Z$ de afstand tot de stad.
* Alle p-waarden zijn significant (p < 0.05), waardoor de nulhypothese wordt verworpen.
#### 1.2.2 Verklaren van woonprijzen met afstand, aantal kamers en vrijstaand karakter
Hier wordt de prijs van een huis verklaard met afstand tot de stad, aantal kamers, en of het huis vrijstaand is.
* **Hypotheses:**
* **Nulhypothese (H0):** De coëfficiënten van het aantal kamers, afstand tot de stad en de variabele 'vrijstaand' zijn gelijk aan nul.
$H_0: \beta_{\text{n\_rooms, distance, detached}} = 0$
* **Alternatieve hypothese (Ha):** Ten minste één van de coëfficiënten van het aantal kamers, afstand tot de stad en de variabele 'vrijstaand' is niet gelijk aan nul.
$H_a: \beta_{\text{n\_rooms, distance, detached}} \neq 0$
* **Regressieformule en resultaten:**
* Het aantal kamers en de afstand tot de stad hebben significante p-waarden (p < 0.05), waardoor H0 voor deze variabelen wordt verworpen.
* De variabele 'vrijstaand' heeft een niet-significante p-waarde (0.071 > 0.05), waardoor H0 voor deze variabele niet wordt verworpen. De variabele 'vrijstaand' wordt daarom niet opgenomen in de uiteindelijke regressieformule.
* De regressieformule is:
$$Y = 120234.792 + 24544.026 X + (-1141.349) Z$$
Waarbij $Y$ de prijs van het huis is, $X$ het aantal kamers, en $Z$ de afstand tot de stad.
#### 1.2.3 Voorspelling van woonprijzen
* **Voorbeeld:** Bereken de verwachte prijs van een huis met 2 kamers dat zich op 29 km van de stad bevindt.
* Gebruikmakend van de formule uit 1.2.1:
$Y = 131601 + 21458 \times 2 - 1009 \times 29$
$Y = 131601 + 42916 - 29261$
$Y = 145256$ dollars
> **Voorbeeld:** Een huis met 2 kamers, gelegen op 29 kilometer van de stad, wordt verwacht voor een prijs van 145,256 dollars.
### 1.3 Analyse van houding ten opzichte van zelfscannen
#### 1.3.1 Doel en data
Dit deel onderzoekt de belangrijkste sterke en zwakke punten van zelfscantechnologie in de retailomgeving, door de relatie tussen verschillende evaluatiecriteria en de algemene houding ten opzichte van zelfscannen te analyseren.
* **Afhankelijke variabele:** Algemene attitude tegenover zelfscannen.
* **Onafhankelijke variabelen:** Evaluatiecriteria zoals nieuwheid (new), prestatie/betrouwbaarheid (rel), plezier (fun), snelheid (pu), en gebruiksgemak (eou).
#### 1.3.2 Stappen en resultaten
1. **Creëren van een algemene attitudemeting:** Een nieuwe variabele wordt aangemaakt, bestaande uit het gemiddelde van de attitude-items (bv. `(att1+att2+att3)/3`).
2. **Formuleren van hypotheses:**
* **Nulhypothese (H0):** De coëfficiënten van de evaluatiecriteria (new, rel, fun, pu, eou) zijn gelijk aan nul.
$H_0: \beta_{\text{new, rel, fun, pu \& eou}} = 0$
* **Alternatieve hypothese (Ha):** Ten minste één coëfficiënt is niet gelijk aan nul.
$H_a: \beta_{\text{new, rel, fun, pu \& eou}} \neq 0$
3. **Analyse en significatie:** De resultaten tonen dat 'rel', 'fun', 'pu' en 'eou' significant zijn (p < 0.05). De variabele 'new' (nieuwheid) is niet significant.
4. **Conclusie over sterke en zwakke punten:**
* Om de algemene houding van klanten te beïnvloeden, moet er gefocust worden op de verbetering van prestaties (rel), plezier (fun), snelheid (pu), en gebruiksgemak (eou).
* Gebruiksgemak (eou) heeft het grootste gewicht op de algemene houding en verdient daarom speciale aandacht.
> **Tip:** Bij het maken van een algemene attitudemeting, gebruik de MEAN functie als er veel missing values zijn om een betrouwbaarder gemiddelde te verkrijgen.
### 1.4 Overkoepelende oefeningen met regressieanalyse
#### 1.4.1 Rock in de tuin (1) - Analyse van bezoekersvoorkeuren en tevredenheid
Deze sectie beschrijft een onderzoek naar de sterktes en werkpunten van het festival 'Rock in de tuin', gebaseerd op enquêtes van bezoekers.
* **Data:** Enquêtes met demografische gegevens (geslacht, leeftijd, land van herkomst) en beoordelingen van festivalattributen (kwaliteitsvolle acts, diversiteit voeding/dranken, kwaliteit eten/drinken, bereikbaarheid, ticketprijs). Tevens werd de voorkeur voor bands op de shortlist gevraagd.
* **Stap 1: Datacleaning:** Missing values en vreemde waarden worden geïdentificeerd en gecodeerd als 9999.
* **Stap 2: Analyse van leeftijd:** De gemiddelde leeftijd van de bezoekers is 28.95 jaar (SD=9.465). Een histogram met normaalcurve suggereert dat de leeftijdsverdeling visueel niet volledig normaal is.
* **Stap 3: Gemiddelde waardering van attributen:**
* De organisator scoort goed op: kwaliteit acts (M=3.7059), diversiteit aanbod (M=3.3167), en prijs (M=3.4833).
* Lagere scores zijn er voor: kwaliteit eten/drinken (M=2.3390) en bereikbaarheid (M=2.1667).
* Variabelen die in tegengestelde richting zijn geformuleerd (bv. 'aanbod kwaliteit' en 'aanbod kwaliteit niet kwaliteitsvol') moeten worden omgeschaald.
* **Stap 4: Analyse van bandvoorkeuren:** Een multiple response tabel toont dat Marino Falco het populairst is (54.7%), gevolgd door Maria Gallas (47.2%).
#### 1.4.2 Rock in de tuin (2) - Vergelijking en evaluatie van tevredenheid 2017
Deze sectie vergelijkt de tevredenheidsscores van bezoekers in 2017 met eerdere metingen en onderzoekt de impact van attributen op bezoekersintentie.
* **Stap 1: Datacleaning:** Net als in de vorige stap, worden missing en vreemde waarden behandeld.
* **Stap 2: Steekproefonderzoek:**
* **Leeftijd tussen mannen en vrouwen:** Een independent samples t-test toont geen significant verschil in leeftijd tussen mannen en vrouwen (t = -.482, p = .631).
* **Land van afkomst tussen mannen en vrouwen:** Een chi-kwadraat test toont geen significant verschil in land van afkomst tussen mannen en vrouwen (χ² = 4.260, p = .372).
* **Stap 3: Vergelijking van attribuutscores met voorgaande meting:**
* De kwaliteit van eten en drinken is significant verbeterd (M=3.3051 in 2017 vs. M=2.3390 voorheen, t = 8.731, p < .002).
* Bereikbaarheid is ook verbeterd (M=3.1750 vs. M=2.1167, t = 8.621, p < .001).
* De prijs krijgt echter een significant lagere score dan voorheen (M=3.1500 vs. M=3.4833, t = -2.597, p = 0.011).
* **Stap 4: Verschillen in waardering tussen mannen en vrouwen:** Een reeks independent samples t-tests toont geen significante verschillen in de beoordeling van de attributen tussen mannen en vrouwen voor alle onderzochte attributen.
* **Stap 5: Bepalende attributen voor bezoekersintentie:**
* Een lineaire regressie werd uitgevoerd om te bepalen welke attributen voorspellend zijn voor de intentie om volgend jaar opnieuw te bezoeken.
* Het model verklaart 89.9% van de variantie in de bezoekersintentie ($R^2 = .899$).
* De belangrijkste voorspellers zijn prijs ($\beta$ = .602, p < .001), diversiteit van het aanbod ($\beta$ = .539, p < .001), en de waardering van de kwaliteit van het festival ($\beta$ = .490, p < .001).
* Bereikbaarheid ($\beta$ = -.006, p = .854) en kwaliteit van eten en drinken ($\beta$ = -.015, p = .637) zijn geen significante voorspellers.
* Er werden geen problemen met multicollineariteit gevonden (Tolerancemin = .900; VIFmax = 1.111).
> **Tip:** Bij het interpreteren van de regressieanalyse voor de bezoekersintentie, let op de gestandaardiseerde bèta-coëfficiënten ($\beta$) om de relatieve sterkte van de voorspellers te bepalen.
---
# Evaluatie van festivalattributen en bezoekersintenties
Dit gedeelte behandelt de evaluatie van festivalattributen en bezoekersintenties, met een focus op het analyseren van sterke en zwakke punten van een festival ('Rock in de tuin') door middel van enquêtes, het vergelijken van bezoekersbeoordelingen over meerdere jaren en het onderzoeken van factoren die de intentie om het festival opnieuw te bezoeken beïnvloeden.
## 2. Evaluatie van festivalattributen en bezoekersintenties
### 2.1 Onderzoek naar de kwaliteiten van 'Rock in de tuin'
Dit onderdeel analyseert de sterke en zwakke punten van het festival 'Rock in de tuin' door middel van enquêtedata, verzameld van bezoekers van eerdere edities.
#### 2.1.1 Data cleaning en demografische analyse
Voorafgaand aan de analyse wordt data cleaning uitgevoerd. Ontbrekende waarden en vreemde waarden worden geïdentificeerd en gecodeerd als `9999`, waarna ze als 'missing values' worden gemarkeerd.
De gemiddelde leeftijd van de bezoekers is ongeveer 28.95 jaar, met een standaarddeviatie van 9.465. Een histogram met een normaalcurve suggereert dat de variabele leeftijd visueel niet volledig normaal verdeeld is.
#### 2.1.2 Beoordeling van festivalattributen
De gemiddelde waarderingen van bezoekers over verschillende attributen van het festival worden onderzocht. Hierbij is het belangrijk om rekening te houden met de formulering van de stellingen; indien nodig worden variabelen omgeschaald. In dit geval moest de variabele 'aanbod kwaliteit' worden herschaald.
* **Sterke punten:** De organisator scoort goed op vlakken zoals de kwaliteit van de acts (gemiddelde waardering van 3.7059), de diversiteit van het aanbod aan voeding en dranken (gemiddelde waardering van 3.3167) en de ticketprijs (gemiddelde waardering van 3.4833).
* **Zwakke punten:** De score op de kwaliteit van eten en drinken (gemiddelde waardering van 2.3390) en de bereikbaarheid van het festival (gemiddelde waardering van 2.1667) zijn lager. Het is belangrijk op te merken dat zonder verdere statistische tests geen conclusies kunnen worden getrokken over de significantie van deze verschillen.
#### 2.1.3 Voorkeuren voor artiesten
Om de voorkeuren van bezoekers voor artiesten op de shortlist voor het volgende jaar te bepalen, wordt een multiple response tabel opgesteld. Hieruit blijkt dat Marino Falco de meest gekozen artiest is (54.7% van de stemmen), gevolgd door Maria Gallas (47.2%).
### 2.2 Vergelijking van bezoekersbeoordelingen over meerdere jaren
Na afloop van het festival in 2017 werd een tevredenheidsenquête afgenomen. De resultaten van deze enquête worden vergeleken met die van de eerdere meting om de impact van eventuele aanpassingen door de organisator te evalueren.
#### 2.2.1 Demografische analyse en vergelijking
* **Leeftijd en geslacht:** Er werden geen significante verschillen gevonden in leeftijd tussen mannen (gemiddelde leeftijd 28.561, standaarddeviatie 7.967) en vrouwen (gemiddelde leeftijd 29.442, standaarddeviatie 11.143; $t(\text{89.026}) = -0.482$, $p = 0.631$).
* **Land van afkomst en geslacht:** Een kruistabel met Chi-kwadraat test toonde geen significant verschil in land van afkomst tussen mannen en vrouwen ( $\chi^2(\text{4}) = 4.260$, $p = 0.372$). De meeste bezoekers komen uit België (52.5%), gevolgd door Nederland (15.0%).
#### 2.2.2 Evolutie van attributenbeoordelingen
De scores van de festivalattributen in 2017 worden vergeleken met de eerdere meting met behulp van one-sample t-tests. De baseline voor deze vergelijking is het gemiddelde uit de vorige bevraging.
* **Verbeteringen:** De kwaliteit van eten en drinken liet een significante verbetering zien (gemiddelde score 3.3051 in 2017 versus 2.3390 voorheen; $t(\text{117}) = 8.731$, $p < 0.002$). De bereikbaarheid werd eveneens significant verbeterd (gemiddelde score 3.1750 in 2017 versus 2.1667 voorheen; $t(\text{119}) = 8.621$, $p < 0.001$).
* **Achteruitgang:** De score voor de prijs is significant gedaald (gemiddelde score 3.1500 in 2017 versus 3.4833 voorheen; $t(\text{119}) = -2.597$, $p = 0.011$).
#### 2.2.3 Verschillen in waardering tussen mannen en vrouwen
Independent samples t-tests werden gebruikt om te onderzoeken of er verschillen zijn in de waardering van attributen tussen mannen en vrouwen. Uit de analyses bleek dat er geen significante verschillen waren in de beoordeling van de onderzochte attributen tussen mannen en vrouwen voor alle geteste variabelen (Kwaliteit, Aanbod divers, Bereikbaar, Prijs, Aanbod kwaliteit).
### 2.3 Factoren die de herbezoekintentie beïnvloeden
Om te bepalen welke festivalattributen de intentie van bezoekers om het festival volgend jaar opnieuw te bezoeken beïnvloeden, wordt een meervoudige lineaire regressieanalyse uitgevoerd. De afhankelijke variabele ('Intentie om volgend jaar opnieuw te komen') is interval gemeten.
* **Model evaluatie:** Het model verklaart 89.9% van de variantie in de herbezoekintentie ($R^2 = 0.899$). Dit wordt beschouwd als een sterk model. De ANOVA-tabel bevestigt dat het model significant verklarende kracht heeft ($F = 198.531$, $p < 0.001$).
* **Belangrijkste voorspellers:**
* **Prijs:** Is de belangrijkste voorspeller van de intentie om volgend jaar terug te komen ( $\beta = 0.602$, $p < 0.001$).
* **Aanbod diversiteit:** Is eveneens een sterke voorspeller ( $\beta = 0.539$, $p < 0.001$).
* **Kwaliteit van het festival:** Draagt ook significant bij ( $\beta = 0.490$, $p < 0.001$).
* **Niet-significante voorspellers:**
* Bereikbaarheid ( $\beta = -0.006$, $p = 0.854$)
* Kwaliteit van eten en drinken ( $\beta = -0.015$, $p = 0.637$)
* **Multicollineariteit:** Er werden geen problemen met multicollineariteit vastgesteld, aangezien de tolerantiewaarden minimaal 0.900 waren en de VIF-waarden maximaal 1.111.
> **Tip:** Bij de interpretatie van meervoudige lineaire regressie is het cruciaal om de gestandaardiseerde bèta-coëfficiënten ($\beta$) te bekijken om de relatieve impact van de onafhankelijke variabelen op de afhankelijke variabele te vergelijken.
#### 2.3.1 Regressieformule
De regressieformule voor de intentie om volgend jaar opnieuw te komen, gebaseerd op de significante voorspellers, is als volgt:
$$
\text{Intentie} = -0.015 + 0.321 \times \text{Kwaliteit} + 0.351 \times \text{Aanbod\_divers} + 0.348 \times \text{Prijs}
$$
Waarbij:
* `Intentie` de intentie om volgend jaar opnieuw te komen is.
* `Kwaliteit` de waardering van de kwaliteit van het festival vertegenwoordigt.
* `Aanbod_divers` de waardering van de diversiteit van het aanbod vertegenwoordigt.
* `Prijs` de waardering van de ticketprijs vertegenwoordigt.
---
# Toepassing van statistische technieken in data-analyse
Deze sectie behandelt de praktische toepassing van diverse statistische methoden, waaronder datacleaning, frequentieanalyses, hypothesestoetsing, regressieanalyse en t-tests, aan de hand van concrete datasets.
### 3.1 Lineaire regressieanalyse
Lineaire regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren. Het doel is om te bepalen hoe sterk de onafhankelijke variabelen de variatie in de afhankelijke variabele kunnen verklaren en om voorspellingen te doen.
#### 3.1.1 Hypothensestoetsing in regressie
Bij regressieanalyse formuleren we hypotheses over de coëfficiënten van de onafhankelijke variabelen.
* **Nulhypothese ($H_0$)**: De coëfficiënt van de onafhankelijke variabele(n) is gelijk aan nul. Dit betekent dat de onafhankelijke variabele(n) geen lineair verband heeft/hebben met de afhankelijke variabele.
* Formeel: $H_0: \beta_i = 0$ voor alle relevante onafhankelijke variabelen $i$.
* **Alternatieve hypothese ($H_a$)**: De coëfficiënt van de onafhankelijke variabele(n) is niet gelijk aan nul. Dit betekent dat de onafhankelijke variabele(n) wel een significante invloed heeft/hebben op de afhankelijke variabele.
* Formeel: $H_a: \beta_i \neq 0$ voor ten minste één relevante onafhankelijke variabele $i$.
#### 3.1.2 Evaluatie van het regressiemodel
Bij het evalueren van een lineair regressiemodel zijn er verschillende statistieken en plots die we interpreteren.
* **R-kwadraat ($R^2$)**: Dit geeft het percentage van de variantie in de afhankelijke variabele aan dat verklaard wordt door het model. Een hogere $R^2$ duidt op een beter passend model.
* Voorbeeld: Een $R^2$ van .575 betekent dat 57.5% van de variantie in de algemene tevredenheidsscore verklaard wordt door het model.
* **Durbin-Watson statistiek**: Deze maat wordt gebruikt om autocorrelatie in de residuen te detecteren. Een waarde tussen 1 en 4 suggereert geen problemen met multicollineariteit of autocorrelatie.
* **ANOVA tabel**: Deze tabel toont de verhouding tussen de verklaarde variantie door het model (Regressie) en de onverklaarde variantie (Residueel). Een significantieniveau (p-waarde) kleiner dan 0.05 impliceert dat het model verklaringskracht heeft.
* **Coëfficiënten tabel**: Hier bekijken we de ongestandaardiseerde ($\beta$) en gestandaardiseerde ($\beta$) coëfficiënten.
* **Ongestandaardiseerde coëfficiënten (B)**: Geven de verwachte verandering in de afhankelijke variabele aan wanneer de corresponderende onafhankelijke variabele met één eenheid toeneemt, terwijl alle andere onafhankelijke variabelen constant blijven. Deze worden gebruikt om de afhankelijke variabele in absolute waarden te voorspellen.
* **Gestandaardiseerde coëfficiënten (Beta)**: Geven de verwachte verandering in de afhankelijke variabele aan in standaarddeviaties, wanneer de corresponderende onafhankelijke variabele met één standaarddeviatie toeneemt. Deze zijn nuttig om de relatieve impact van verschillende onafhankelijke variabelen onderling te vergelijken.
* **Significantieniveau (Sig.)**: De p-waarde geassocieerd met elke coëfficiënt. Als deze kleiner is dan 0.05, verwerpen we de nulhypothese en concluderen we dat de onafhankelijke variabele significant bijdraagt aan het verklaren van de afhankelijke variabele.
#### 3.1.3 Voorwaarden van lineaire regressie
Het correct toepassen van lineaire regressie vereist de controle van bepaalde voorwaarden:
* **Lineariteit**: De relatie tussen de onafhankelijke en afhankelijke variabelen moet lineair zijn. Dit kan gevisualiseerd worden met een scatterplot van gestandaardiseerde voorspelde waarden (ZPRED) tegen gestandaardiseerde residuen (ZRESID). Als de punten willekeurig rond nul liggen, is aan deze voorwaarde voldaan.
* **Normaliteit van residuen**: De residuen (de verschillen tussen de waargenomen en voorspelde waarden) moeten normaal verdeeld zijn. Dit kan worden gecontroleerd met een normal probability plot van de gestandaardiseerde residuen. Als de punten dicht bij de diagonale lijn liggen, is aan deze voorwaarde voldaan.
* **Homoscedasticiteit**: De variantie van de residuen moet constant zijn over alle niveaus van de voorspellende variabelen. Dit kan gevisualiseerd worden met een scatterplot van gestandaardiseerde voorspelde waarden tegen gestandaardiseerde residuen. Een duidelijke patroonvorming (bv. een trompetvorm) duidt op heteroscedasticiteit.
* **Onafhankelijkheid van residuen**: De residuen moeten onafhankelijk van elkaar zijn. Dit is vooral belangrijk bij tijdreeksdata. De Durbin-Watson statistiek kan hier een indicatie voor geven.
* **Multicollineariteit**: Er mag geen (hoge) correlatie zijn tussen de onafhankelijke variabelen. Dit kan worden gecontroleerd met 'collinearity diagnostics' (Tolerance en VIF-waarden) en de Durbin-Watson statistiek.
* **Tolerance**: Een waarde kleiner dan 0.3 kan duiden op een probleem.
* **VIF (Variance Inflation Factor)**: Een waarde groter dan 2 (of soms 5 of 10, afhankelijk van de context) kan wijzen op een probleem.
* **Collinearity Diagnostics**: Een belangrijke indicator is de 'Condition Index', waarbij waarden boven 30 duiden op mogelijke multicollineariteit.
#### 3.1.4 Voorbeelden van regressieanalyse
##### 3.1.4.1 Pizzarestaurant dataset
* **Doel**: Vaststellen welke kenmerken (prijs, ontvangst, service, wachttijd, kwaliteit eten) een significante impact hebben op de algemene tevredenheidsscore.
* **Variabelen**:
* Afhankelijke variabele: Algemene tevredenheidsscore (interval).
* Onafhankelijke variabelen: Prijs, ontvangst, service, wachttijd, kwaliteit eten (allemaal interval, 5 schaalpunten).
* **Resultaten**:
* $R^2 = .575$ (57.5% van de variantie in algemene tevredenheid wordt verklaard).
* Durbin-Watson score suggereert geen probleem met multicollineariteit.
* ANOVA significant (p < .05), dus het model heeft verklaringskracht.
* Alle kenmerken dragen significant bij aan een positieve algemene tevredenheid. Bijvoorbeeld, een stijging van 1 punt in tevredenheid over voedselkwaliteit leidt tot een stijging van .442 in de algemene tevredenheidsscore (ongestandaardiseerde coëfficiënt).
* Collinearity diagnostics: Tolerances boven .3 en VIFs onder 2 duiden op geen multicollineariteitsprobleem. Condition index bleef onder 30.
* Normal probability plot: Grijze punten liggen dicht bij de zwarte lijn, wat duidt op lineariteit.
* Scatterplot (ZPRED vs. ZRESID): Geen duidelijk patroon (trompetvorm), dus homoscedasticiteit is waarschijnlijk aanwezig.
##### 3.1.4.2 Housing dataset
* **Doel 1**: Prijs van een huis verklaren als functie van afstand tot stad en aantal kamers.
* Afhankelijke variabele: Prijs (ratio).
* Onafhankelijke variabelen: Afstand tot stad (km, ratio), aantal kamers (ratio).
* $H_0$: $\beta_{\text{n\_rooms, distance}} = 0$
* $H_a$: $\beta_{\text{n\_rooms, distance}} \neq 0$
* **Resultaten**: Beide p-waarden waren significant (p < 0.05), dus $H_0$ wordt verworpen.
* **Regressieformule**: $Y = 131601.42 + 21457.57 \times X - 1008.652 \times Z$
* $Y$ = prijs van het huis
* $X$ = aantal kamers
* $Z$ = afstand tot de stad
* **Voorspelling**: Prijs voor een huis met 2 kamers op 29 km van de stad: $Y = 131601.42 + 21457.57 \times 2 - 1008.652 \times 29 \approx 145256$ dollars.
* **Doel 2**: Prijs verklaren als functie van afstand tot stad, aantal kamers en of het huis vrijstaand is.
* Afhankelijke variabele: Prijs (ratio).
* Onafhankelijke variabelen: Aantal kamers (ratio), afstand tot stad (km, ratio), vrijstaand (dummy variabele).
* $H_0$: $\beta_{\text{n\_rooms, distance, detached}} = 0$
* $H_a$: $\beta_{\text{n\_rooms, distance, detached}} \neq 0$
* **Resultaten**:
* Aantal kamers en afstand: p-waarden significant (p < 0.05), dus $H_0$ wordt verworpen voor deze variabelen.
* Vrijstaand: p-waarde niet significant (0.071 > 0.05), dus $H_0$ wordt niet verworpen voor deze variabele.
* **Regressieformule**: $Y = 120234.792 + 24544.026 \times X + (-1141.349) \times Z$
* $Y$ = prijs van het huis
* $X$ = aantal kamers
* $Z$ = afstand tot de stad
* De variabele 'vrijstaand' is niet opgenomen in de uiteindelijke formule vanwege de niet-significantie.
##### 3.1.4.3 Ahold Delhaize Data Long
* **Doel**: Bepalen welke evaluatiecriteria (nieuwheid, prestatie/betrouwbaarheid, plezier, snelheid, gebruiksgemak) de belangrijkste zijn voor de algemene attitude ten opzichte van zelfscannen.
* **Variabelen**:
* Afhankelijke variabele: Algemene attitude tegenover zelfscannen (gemiddelde van att1, att2, att3).
* Onafhankelijke variabelen: Nieuwheid, betrouwbaarheid (rel), plezier (fun), snelheid (pu), gebruiksgemak (eou).
* **Voorbereiding**: Een nieuwe variabele 'gemiddelde houding' is gecreëerd door het gemiddelde van de attitude scores te nemen.
* **Hypotheses**:
* $H_0: \beta_{\text{new, rel, fun, pu, eou}} = 0$
* $H_a: \beta_{\text{new, rel, fun, pu, eou}} \neq 0$
* **Resultaten**: Alleen 'betrouwbaarheid' (rel), 'plezier' (fun), 'snelheid' (pu) en 'gebruiksgemak' (eou) bleken significant (p < 0.05). Nieuwheid was niet significant.
* **Conclusie**: Om de algehele houding van klanten te verbeteren, moet men zich richten op het verbeteren van de prestaties, het plezier, de snelheid en het gebruiksgemak, met een speciale focus op gebruiksgemak, aangezien dit de grootste invloed heeft op de algemene attitude.
### 3.2 t-testen
t-testen worden gebruikt om het gemiddelde van twee groepen te vergelijken.
#### 3.2.1 Independent samples t-test
Deze test wordt gebruikt om te bepalen of er een significant verschil is in het gemiddelde van een intervalvariabele tussen twee onafhankelijke groepen.
* **Toepassing**: Onderzoeken of er verschillen zijn in leeftijd tussen mannen en vrouwen.
* **Resultaten**: Er werden geen significante verschillen in leeftijd gevonden tussen mannen (M=28.56, SD=7.97) en vrouwen (M=29.44, SD=11.14) ($t(89.026) = -0.482, p = 0.631$).
#### 3.2.2 One-samples t-test
Deze test wordt gebruikt om het gemiddelde van één groep te vergelijken met een bekende of theoretische waarde (de testwaarde).
* **Toepassing**: Vergelijken van de gemiddelde waardering van attributen in 2017 met de gemiddelde waarderingen uit een eerdere bevraging (die als testwaarde wordt gebruikt).
* **Resultaten**:
* **Kwaliteit eten en drinken**: Gemiddelde score in 2017 (M=3.3051) was significant hoger dan de vorige bevraging (M=2.339) ($t(117) = 8.731, p < .002$).
* **Bereikbaarheid**: Verbeterd in 2017 (M=3.1750) vergeleken met de vorige bevraging (M=2.1667) ($t(119) = 8.621, p < .001$).
* **Prijs**: Kreeg een significant lagere score in 2017 (M=3.1500) dan in de vorige bevraging (M=3.4833) ($t(119) = -2.597, p = 0.011$).
#### 3.2.3 Vergelijking van attributen tussen mannen en vrouwen
* **Toepassing**: Nagaan of er verschillen zijn in de waardering van attributen tussen mannen en vrouwen. Er wordt voor elk attribuut een independent samples t-test uitgevoerd.
* **Resultaten**: Er werden geen significante verschillen gevonden in de beoordeling van de attributen tussen mannen en vrouwen voor geen van de onderzochte attributen.
### 3.3 Frequentieanalyses en Datacleaning
Frequentieanalyses zijn een fundamenteel onderdeel van data-analyse, gebruikt voor datacleaning en het verkrijgen van inzicht in de verdeling van variabelen.
#### 3.3.1 Datacleaning met frequentieverdelingen
* **Doel**: Identificeren van ontbrekende waarden (missing values) en vreemde waarden in de dataset.
* **Werkwijze**: Gebruik maken van 'Analyze > Descriptive Statistics > Frequencies'. Ontbrekende en vreemde waarden worden gecodeerd als 9999 en vervolgens als missing values ingesteld in de 'Variable View'.
#### 3.3.2 Beschrijvende statistieken
* **Doel**: Samenvatten van de basiskenmerken van de data.
* **Voorbeeld (leeftijd bezoekers)**:
* Gemiddelde leeftijd: 28.95 jaar, met een standaarddeviatie (SD) van 9.465.
* Histogram met normaalcurve: Visuele inspectie suggereert dat de leeftijdsverdeling niet volledig normaal verdeeld is.
* **Voorbeeld (waardering attributen)**:
* Gemiddelde waardering voor kwaliteit: M=3.7059.
* Gemiddelde waardering voor diversiteit aanbod: M=3.3167.
* Gemiddelde waardering voor prijs: M=3.4833.
* Gemiddelde waardering voor kwaliteit eten/drinken: M=2.3390.
* Gemiddelde waardering voor bereikbaarheid: M=2.1667.
* **Belangrijk**: Controleren of stellingen in dezelfde richting zijn geformuleerd; variabelen moeten mogelijk worden herschaald om consistentie te garanderen.
#### 3.3.3 Multiple response analyse
* **Doel**: Analyseren van vragen waarbij meerdere antwoorden mogelijk zijn (bijvoorbeeld voorkeur voor artiesten).
* **Werkwijze**: Opstellen van een 'multiple response table' om de frequentie en het percentage van de gekozen opties te bekijken.
* **Voorbeeld (Rock in de tuin artiesten)**:
* Marino Falco: 54.7% van de bezoekers gaf voorkeur.
* Maria Gallas: 47.2% van de bezoekers gaf voorkeur.
### 3.4 Hypthesestoetsing met Chi-kwadraat
De Chi-kwadraat test ($\chi^2$) wordt gebruikt om te onderzoeken of er een significant verband is tussen twee categorische variabelen.
* **Toepassing**: Nagaan of er verschillen zijn in het land van afkomst tussen mannen en vrouwen.
* **Werkwijze**: Kruistabel maken met 'geslacht' en 'land van afkomst', gevolgd door de Chi-kwadraat test.
* **Voorwaarden**: De voorwaarden voor de $\chi^2$-test (bv. minimale verwachte aantallen in cellen) moeten gecontroleerd worden.
* **Resultaten**: Er is geen significant verschil in land van afkomst tussen mannen en vrouwen ($ \chi^2(4) = 4.260, p = 0.372$).
> **Tip**: Bij het interpreteren van kruistabellen is het vaak nuttiger om te kijken naar de percentages (met name de percentages binnen de rijen of kolommen) dan naar de absolute aantallen, om beter te kunnen vergelijken.
### 3.5 Concluderende analyse en aanbevelingen
Statistische technieken zoals regressieanalyse en t-testen bieden waardevolle inzichten om data te analyseren en gefundeerde beslissingen te nemen.
* **Regressieanalyse** helpt bij het identificeren van de belangrijkste drijfveren achter een bepaalde uitkomst, zoals de factoren die de klanttevredenheid beïnvloeden of de prijs van een huis verklaren.
* **t-testen** zijn cruciaal voor het vergelijken van gemiddelden tussen groepen (bv. mannen vs. vrouwen) of voor het evalueren van de impact van veranderingen over tijd (bv. scoreverbeteringen na interventies).
* **Frequentieanalyses** en **datacleaning** vormen de basis voor elke betrouwbare analyse door de integriteit van de data te waarborgen.
Door deze technieken correct toe te passen en de resultaten zorgvuldig te interpreteren, kunnen organisaties sterke en zwakke punten identificeren, voorspellingen doen en gerichte aanbevelingen formuleren om hun producten, diensten of evenementen te verbeteren. Een goed model verklaart bijvoorbeeld een groot deel van de variantie in de afhankelijke variabele ($R^2$ hoog) en de onafhankelijke variabelen hebben significante p-waarden.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Regressie | Een statistische methode die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te onderzoeken en te modelleren. |
| Afhankelijke variabele | De variabele die wordt gemeten of voorspeld en waarvan wordt aangenomen dat deze wordt beïnvloed door de onafhankelijke variabelen. |
| Onafhankelijke variabele | Een variabele die wordt gebruikt om de afhankelijke variabele te voorspellen of te verklaren. |
| Lineaire regressie | Een statistische techniek die de lineaire relatie tussen een afhankelijke variabele en ten minste één onafhankelijke variabele modelleert. |
| Nulhypothese (H0) | Een stelling die wordt getest en die stelt dat er geen effect, geen verschil of geen relatie is tussen de onderzochte variabelen. |
| Alternatieve hypothese (Ha) | Een stelling die stelt dat er wel een effect, een verschil of een relatie is tussen de onderzochte variabelen, wat het tegenovergestelde is van de nulhypothese. |
| R-kwadraat (R²) | Een statistische maat die aangeeft welk percentage van de variantie in de afhankelijke variabele kan worden verklaard door het regressiemodel. |
| ANOVA | Analyse van variantie, een statistische test die wordt gebruikt om de gemiddelden van twee of meer groepen te vergelijken en om de verklaarde variantie door het model te evalueren. |
| Coëfficiënt (Beta) | Een waarde in een regressiemodel die de sterkte en richting van de relatie tussen een onafhankelijke variabele en de afhankelijke variabele weergeeft. |
| Multicollineariteit | Een fenomeen waarbij twee of meer onafhankelijke variabelen in een regressiemodel sterk gecorreleerd zijn met elkaar, wat de interpretatie van het model kan bemoeilijken. |
| Collinearity diagnostics | Statistieken die worden gebruikt om de mate van multicollineariteit in een regressiemodel te beoordelen, zoals tolerantie en VIF (Variance Inflation Factor). |
| Gestandaardiseerde residuals | De residuen (verschil tussen geobserveerde en voorspelde waarden) die zijn gestandaardiseerd om de verdeling ervan te evalueren en afwijkingen te detecteren. |
| Normal probability plot | Een grafische weergave die de geobserveerde waarden van een variabele vergelijkt met de verwachte waarden van een normale verdeling om normaliteit te beoordelen. |
| Homoscedasticiteit | De aanname in regressieanalyse dat de variantie van de residuen constant is over alle niveaus van de onafhankelijke variabelen. |
| Scatterplot | Een grafiek die de relatie tussen twee variabelen weergeeft door punten te plotten op een tweedimensionaal vlak, vaak gebruikt om patronen en de homoscedasticiteit te beoordelen. |
| T-toets (Independent samples t-test) | Een statistische test die wordt gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken. |
| Chi-kwadraat test (χ²) | Een statistische test die wordt gebruikt om de associatie tussen twee categorische variabelen te onderzoeken door middel van kruistabellen. |
| P-waarde | De kans om de geobserveerde resultaten te verkrijgen (of extremere resultaten) als de nulhypothese waar zou zijn. Een p-waarde kleiner dan het significantieniveau (bv. .05) leidt tot het verwerpen van de nulhypothese. |
| Significantieniveau (α) | De drempelwaarde (meestal .05) die wordt gebruikt om te bepalen of de resultaten van een statistische test significant zijn. |
| Datacleaning | Het proces van het identificeren en corrigeren of verwijderen van fouten, inconsistenties en ontbrekende waarden in een dataset. |
| Frequentieverdelingen | Een tabel die aangeeft hoe vaak elke waarde of categorie van een variabele voorkomt in een dataset. |
| Histogram | Een grafiek die de frequentieverdeling van numerieke data weergeeft door middel van staven. |
| Normaalcurve | Een theoretische curve die een perfecte normale verdeling vertegenwoordigt, vaak over een histogram geplaatst om de mate van normaliteit van de data te beoordelen. |
| Meervoudige respons (Multiple response) | Een analyse die wordt gebruikt om de antwoorden op vragen waarbij meerdere opties gekozen kunnen worden te analyseren. |
| One-sample t-test | Een statistische test die wordt gebruikt om het gemiddelde van een steekproef te vergelijken met een bekend of hypothetisch populatiegemiddelde. |
| Regressieformule | De wiskundige vergelijking die de relatie tussen de afhankelijke en onafhankelijke variabelen in een regressiemodel beschrijft. |
| Interval gemeten variabele | Een variabele waarbij de verschillen tussen waarden betekenisvol zijn, maar er geen absoluut nulpunt is (bv. temperatuur in Celsius). |
| Ratio gemeten variabele | Een variabele waarbij de verschillen tussen waarden betekenisvol zijn en er een absoluut nulpunt is, waardoor ratios zinvol zijn (bv. lengte, gewicht). |
| Categorische variabele | Een variabele die waarden aanneemt die tot een beperkt aantal groepen of categorieën behoren (bv. geslacht, land van afkomst). |
| Intentie om te bezoeken | De waarschijnlijkheid of waarschijnlijkheid dat iemand een gebeurtenis, zoals een festival, zal bijwonen. |
Cover
Werkcollege 4_student.pptx
Summary
# Toetsen voor het verband tussen twee variabelen
Dit deel behandelt de statistische toetsen die gebruikt worden om het verband tussen twee variabelen te analyseren, inclusief parametrische en non-parametrische methoden.
## 1. Toetsen voor het verband tussen twee variabelen
Het stramien voor het uitvoeren van statistische toetsen volgt een logische volgorde:
1. **Toetsingssituatie:** Identificeer de gegevens en de specifieke onderzoeksvraag om de geschikte toets te bepalen.
2. **Voorwaarden:** Controleer of de statistische voorwaarden voor de gekozen toets voldaan zijn.
3. **Hypothesen:** Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) die de onderzoeksvraag weerspiegelen.
4. **Toetsingsgrootheid:** Bereken de waarde van de toetsingsgrootheid, gebaseerd op de data en de specifieke formule van de toets, en bepaal de bijbehorende kansverdeling.
5. **Beslissingsregel:** Neem een beslissing over het verwerpen of behouden van de nulhypothese, gebaseerd op de overschrijdingskans (p-waarde) of kritieke waarden.
6. **Effectgrootte:** Kwantificeer de omvang van het gevonden effect om de praktische relevantie te beoordelen.
7. **Rapporteren:** Communiceer de resultaten van de toets op een correcte en volledige manier.
### 1.1 Parametrische toetsen: Pearson correlatietoets
De Pearson correlatietoets wordt gebruikt om de sterkte en richting van het lineaire verband tussen twee kwantitatieve variabelen (interval/ratio) te meten, ervan uitgaande dat deze variabelen normaal verdeeld zijn in de populatie.
#### 1.1.1 Toetsingssituatie
De onderzoeksvraag richt zich op het bestaan van een lineair verband tussen twee variabelen die op interval- of rationiveau zijn gemeten.
#### 1.1.2 Voorwaarden
* De variabelen moeten op interval- of rationiveau gemeten zijn.
* De variabelen moeten (ongeveer) normaal verdeeld zijn in de populatie.
* Er mag geen sprake zijn van uitschieters die de correlatie sterk beïnvloeden.
#### 1.1.3 Hypothesen
* $H_0$: Er is geen lineair verband tussen de twee variabelen in de populatie ($\rho = 0$).
* $H_1$: Er is wel een lineair verband tussen de twee variabelen in de populatie ($\rho \neq 0$). Dit kan ook eenzijdig geformuleerd worden indien er een specifieke verwachting is over de richting van het verband.
#### 1.1.4 Toetsingsgrootheid
De toetsingsgrootheid is gebaseerd op de Pearson correlatiecoëfficiënt ($r$). Deze wordt getransformeerd tot een t-verdeling met $N-2$ vrijheidsgraden, waarbij $N$ het aantal waarnemingsparen is.
De formule voor de t-toets is:
$$ t = r \sqrt{\frac{N-2}{1-r^2}} $$
Waarbij:
* $r$ de Pearson correlatiecoëfficiënt is.
* $N$ het aantal waarnemingsparen is.
#### 1.1.5 Beslissingsregel
De nulhypothese wordt verworpen als de berekende t-waarde groter is dan de kritieke t-waarde (bij tweezijdige toetsing) of als de p-waarde kleiner is dan het significantieniveau ($\alpha$).
#### 1.1.6 Effectgrootte
De Pearson correlatiecoëfficiënt ($r$) zelf dient als maat voor de effectgrootte. Waarden variëren van -1 (perfecte negatieve correlatie) tot +1 (perfecte positieve correlatie). Een waarde van 0 geeft geen lineair verband aan.
#### 1.1.7 Rapporteren
De resultaten worden gerapporteerd met de correlatiecoëfficiënt, de p-waarde en het aantal waarnemingen. Bijvoorbeeld: "Er werd een significante positieve correlatie gevonden tussen variabele X en variabele Y ($r = \text{waarde}, p < \alpha, N = \text{aantal}$)."
> **Tip:** De interpretatie van de effectgrootte van $r$ kan als volgt zijn:
> * 0.10 - 0.30: Klein effect
> * 0.30 - 0.50: Medium effect
> * > 0.50: Groot effect
### 1.2 Non-parametrische toetsen
Non-parametrische toetsen worden gebruikt wanneer de voorwaarden voor parametrische toetsen niet voldaan zijn, met name wanneer variabelen op ordinaal niveau gemeten zijn of niet normaal verdeeld zijn.
#### 1.2.1 Rangcorrelatie van Spearman
De rangcorrelatie van Spearman meet de sterkte en richting van het monotone verband tussen twee variabelen die op minimaal ordinaal niveau gemeten zijn. De toets verwerkt de rangordes van de data in plaats van de ruwe data zelf.
##### 1.2.1.1 Toetsingssituatie
Onderzoeksvragen die gericht zijn op het verband tussen twee variabelen op minimaal ordinaal niveau, of wanneer de voorwaarden voor de Pearson correlatietoets niet voldaan zijn (bijv. schending van normaliteit).
##### 1.2.1.2 Voorwaarden
* De variabelen moeten op minimaal ordinaal niveau gemeten zijn.
* De observaties moeten onafhankelijk zijn.
##### 1.2.1.3 Hypothesen
* $H_0$: Er is geen verband tussen de rangordes van de twee variabelen in de populatie ($\rho_s = 0$).
* $H_1$: Er is wel een verband tussen de rangordes van de twee variabelen in de populatie ($\rho_s \neq 0$). Ook hier is een eenzijdige toets mogelijk.
##### 1.2.1.4 Toetsingsgrootheid
De toetsingsgrootheid is de Spearman rangcorrelatiecoëfficiënt ($r_s$). Voor kleine steekproeven ($N \leq 30$) kan een specifieke t-verdeling met $N-2$ vrijheidsgraden gebruikt worden. Voor grotere steekproeven wordt vaak een z-transformatie gebruikt, of wordt de normale verdeling benaderd.
De formule voor de t-transformatie is:
$$ t = r_s \sqrt{\frac{N-2}{1-r_s^2}} $$
##### 1.2.1.5 Beslissingsregel
Net als bij Pearson correlatie, wordt $H_0$ verworpen als de berekende toetsingsgrootheid (t-waarde) buiten het betrouwbaarheidsinterval valt of als de p-waarde kleiner is dan $\alpha$.
##### 1.2.1.6 Effectgrootte
De Spearman rangcorrelatiecoëfficiënt ($r_s$) zelf dient als maat voor de effectgrootte. De interpretatie van de sterkte van het verband is vergelijkbaar met die van Pearson $r$.
##### 1.2.1.7 Rapporteren
De rapportage omvat de Spearman rangcorrelatiecoëfficiënt, de p-waarde en het aantal waarnemingen. Bijvoorbeeld: "Er werd een significante negatieve correlatie gevonden tussen variabele X en variabele Y ($r_s = \text{waarde}, p < \alpha, N = \text{aantal}$).".
#### 1.2.2 Chikwadraattoets voor kruistabellen
De chikwadraattoets voor kruistabellen wordt gebruikt om te onderzoeken of er een verband bestaat tussen twee categorische variabelen (nominaal of ordinaal) die in een kruistabel worden weergegeven. De toets vergelijkt de geobserveerde frequenties met de verwachte frequenties onder de aanname van onafhankelijkheid.
##### 1.2.2.1 Toetsingssituatie
Onderzoeksvragen die nagaan of twee nominale of ordinale variabelen afhankelijk zijn van elkaar, weergegeven in een kruistabel.
##### 1.2.2.2 Voorwaarden
* De variabelen moeten nominaal of ordinaal zijn.
* De data moeten frequenties zijn (geen percentages).
* De categorieën van de variabelen moeten elkaar wederzijds uitsluiten.
* De verwachte frequenties ($f_e$) in de cellen van de kruistabel mogen niet te klein zijn: maximaal 20% van de cellen mag een verwachte frequentie kleiner dan 5 hebben, en geen enkele cel mag een verwachte frequentie kleiner dan 1 hebben.
##### 1.2.2.3 Hypothesen
* $H_0$: De twee variabelen zijn onafhankelijk; er is geen verband tussen de variabelen.
* $H_1$: De twee variabelen zijn afhankelijk; er is wel een verband tussen de variabelen.
> **Tip:** De chikwadraattoets voor kruistabellen is altijd een tweezijdige toets.
##### 1.2.2.4 Toetsingsgrootheid
De toetsingsgrootheid is de chikwadraat ($\chi^2$) waarde, die berekend wordt als de som van de gekwadrateerde verschillen tussen de geobserveerde frequenties ($f_o$) en de verwachte frequenties ($f_e$), gedeeld door de verwachte frequenties:
$$ \chi^2 = \sum \frac{(f_o - f_e)^2}{f_e} $$
De kansverdeling is een chikwadraatverdeling met $(k-1)(l-1)$ vrijheidsgraden, waarbij $k$ het aantal categorieën is van de ene variabele en $l$ het aantal categorieën van de andere variabele.
##### 1.2.2.5 Beslissingsregel
De nulhypothese wordt verworpen als de berekende $\chi^2$-waarde groter is dan de kritieke $\chi^2$-waarde uit de tabel, of als de p-waarde kleiner is dan het significantieniveau ($\alpha$).
##### 1.2.2.6 Effectgrootte
Er zijn verschillende maten voor effectgrootte beschikbaar voor de chikwadraattoets, zoals de contingentiecoëfficiënt, de $\phi$-coëfficiënt (voor 2x2 tabellen) en Cramér's V. Cramér's V is het meest aangewezen in algemene scenario's.
De vuistregels voor Cramér's V zijn:
* $0.10 \leq V < 0.30$: klein effect
* $0.30 \leq V < 0.50$: medium effect
* $V \geq 0.50$: sterk effect
##### 1.2.2.7 Rapporteren
De resultaten worden gerapporteerd met de $\chi^2$-waarde, het aantal vrijheidsgraden, de p-waarde en de effectgrootte (bijv. Cramér's V). Bijvoorbeeld: "Het verband tussen de variabelen A en B was significant, $\chi^2(\text{df}) = \text{waarde}, p < \alpha$. De effectgrootte (Cramér's V) was .XX."
> **Voorbeeld:** Om het verband tussen politieke voorkeur en de mening over een milieubelasting na te gaan, wordt een kruistabel opgesteld. De geobserveerde frequenties worden vergeleken met de verwachte frequenties onder de aanname van onafhankelijkheid. Als de $\chi^2$-toets significant is, betekent dit dat er een verband bestaat tussen politieke voorkeur en de mening over de milieubelasting.
### 1.3 Kiezen van de juiste toets
Het kiezen van de juiste toets hangt af van de onderzoeksvraag en de kenmerken van de data:
* **Meetniveau van de variabelen:** Nominaal, ordinaal, interval/ratio.
* **Aantal variabelen:** Eén, twee of meer.
* **Aantal populaties/groepen:** Eén, twee of meer.
* **Onafhankelijke of afhankelijke steekproeven:** Worden dezelfde proefpersonen meerdere keren gemeten?
* **Verdeling van de data:** Normaal verdeeld of niet normaal verdeeld.
Voor het analyseren van het verband tussen twee variabelen zijn de volgende toetsen relevant:
* **Parametrisch:** Pearson correlatietoets (interval/ratio variabelen, normaal verdeeld).
* **Non-parametrisch:**
* Spearman rangcorrelatie (ordinale variabelen, of wanneer normaliteitsschending).
* Chikwadraattoets voor kruistabellen (nominale variabelen, voor frequenties in kruistabellen).
---
# Hoe de juiste statistische toets te kiezen
Hier volgt een gedetailleerd studieoverzicht voor het kiezen van de juiste statistische toets, gebaseerd op de verstrekte documentatie.
## 2. Hoe de juiste statistische toets te kiezen
Het systematisch kiezen van de juiste statistische toets is essentieel voor het correct analyseren van onderzoeksdata en het beantwoorden van onderzoeksvragen.
### 2.1 Systematische aanpak voor toetskeuze
Een gestructureerde aanpak helpt bij het identificeren van de meest geschikte statistische toets, rekening houdend met de specifieke kenmerken van het onderzoek.
#### 2.1.1 Onderzoeksvraag en variabelen
De eerste stap is het grondig begrijpen van de onderzoeksvraag. Dit omvat het identificeren van:
* **Afhankelijke en onafhankelijke variabelen:** Wat wordt gemeten en wat wordt gemanipuleerd of gebruikt als voorspeller?
* **Meetniveau van de variabelen:** Is de variabele nominaal, ordinaal, interval of ratio? Dit is cruciaal voor het bepalen van parametrische versus non-parametrische toetsen.
* **Parametrische toetsen:** Vereisen variabelen van minimaal intervalniveau en normaliteit van de verdeling in de populatie.
* **Non-parametrische toetsen:** Gebruikt wanneer variabelen van nominaal of ordinaal niveau zijn, of wanneer de normaliteitsvoorwaarde voor parametrische toetsen geschonden is.
#### 2.1.2 Aantal populaties
Het aantal populaties dat bestudeerd wordt, bepaalt de complexiteit van de toets:
* **Eén populatie:** Toetsen om te kijken of een steekproefgemiddelde significant afwijkt van een bekend populatiegemiddelde (bv. een één-steekproef t-toets of z-toets).
* **Twee populaties:** Toetsen om verschillen tussen twee groepen te analyseren (bv. t-toetsen voor onafhankelijke of afhankelijke steekproeven, Wilcoxon rank-sum test).
* **Meer dan twee populaties:** Toetsen om verschillen tussen drie of meer groepen te vergelijken (bv. variantieanalyse of ANOVA).
#### 2.1.3 Afhankelijke of onafhankelijke steekproeven
De relatie tussen de steekproeven is bepalend:
* **Onafhankelijke steekproeven:** Metingen uit verschillende, niet-gerelateerde groepen (bv. vergelijking van twee verschillende afdelingen).
* **Afhankelijke steekproeven:** Metingen uit dezelfde groep op verschillende tijdstippen of onder verschillende condities (bv. voor- en nameting bij dezelfde personen, of paren van deelnemers).
#### 2.1.4 Eenzijdig of tweezijdig toetsen
De richting van de onderzoekshypothese bepaalt of een eenzijdige of tweezijdige toets gebruikt wordt:
* **Tweezijdig toetsen:** Wordt gebruikt wanneer er geen specifieke verwachting is over de richting van het effect of verschil (bv. "is er een verschil?"). Dit is de meest conservatieve benadering.
* **Eenzijdig toetsen:** Wordt gebruikt wanneer er een duidelijke verwachting is over de richting van het effect of verschil (bv. "is groep A beter dan groep B?"). Dit vereist sterke theoretische onderbouwing.
### 2.2 Overzicht van statistische toetsen
De keuze voor een toets kan worden voorgesteld in tabellen die het meetniveau, het aantal populaties, en het type vraag (verschil of verband) in kaart brengen.
#### 2.2.1 Toetsen voor één populatie
* **Parametrisch:**
* **Z-toets of t-toets voor één gemiddelde:** Om te toetsen of een steekproefgemiddelde significant afwijkt van een bekend populatiegemiddelde. Vereist interval/ratio niveau en normaliteit.
* **Non-parametrisch:**
* **Chi-kwadraattoets voor frequenties:** Om te toetsen of de frequentieverdeling in een steekproef overeenkomt met een verwachte verdeling in de populatie. Geschikt voor nominale variabelen.
#### 2.2.2 Toetsen voor twee populaties
* **Verschil in gemiddelden:**
* **Parametrisch:**
* **T-toets voor twee onafhankelijke steekproeven:** Vergelijkt gemiddelden van twee onafhankelijke groepen (interval/ratio, normaliteit vereist).
* **T-toets voor twee afhankelijke steekproeven:** Vergelijkt gemiddelden van twee gerelateerde metingen binnen dezelfde groep (interval/ratio, normaliteit van verschillen vereist).
* **Non-parametrisch:**
* **Wilcoxon rank-sum test (ook Mann-Whitney U test):** Vergelijkt rangorden tussen twee onafhankelijke groepen (ordinaal, of wanneer parametrische voorwaarden geschonden zijn).
* **Wilcoxon signed-rank test:** Vergelijkt rangorden tussen twee afhankelijke metingen (ordinaal, of wanneer parametrische voorwaarden geschonden zijn).
#### 2.2.3 Toetsen voor meer dan twee populaties (onafhankelijk)
* **Parametrisch:**
* **One-way ANOVA (Variantieanalyse):** Vergelijkt gemiddelden van drie of meer onafhankelijke groepen (interval/ratio, normaliteit vereist).
* **Non-parametrisch:**
* **Kruskal-Wallis H-toets:** Non-parametrisch alternatief voor ANOVA, vergelijkt rangorden tussen drie of meer onafhankelijke groepen (ordinaal, of wanneer parametrische voorwaarden geschonden zijn).
#### 2.2.4 Toetsen voor het verband tussen twee variabelen
Deze toetsen onderzoeken of er een relatie bestaat tussen twee variabelen.
* **Parametrisch:**
* **Pearson correlatietoets:** Meet de lineaire samenhang tussen twee continue variabelen (interval/ratio). Vereist normaliteit van beide variabelen.
* **Toetsingsgrootheid:** De t-verdeling met $N-2$ vrijheidsgraden, waarbij $N$ het aantal paren is.
* **Effectgrootte:** De correlatiecoëfficiënt ($r$) zelf.
* **Non-parametrisch:**
* **Spearman rangcorrelatietoets:** Meet de monotone samenhang tussen twee ordinale variabelen (of wanneer parametrische voorwaarden geschonden zijn).
* **Toetsingsgrootheid:** Vaak omgezet naar een t-statistiek, met afhankelijk van de $N$ en de berekeningsmethode.
* **Effectgrootte:** De correlatiecoëfficiënt ($r$) zelf.
* **Chi-kwadraattoets voor kruistabellen:** Onderzoekt de afhankelijkheid tussen twee nominale variabelen.
* **Voorwaarden:** Nominale variabelen, wederzijds uitsluitende categorieën, verwachte frequenties ($f_e$) mogen niet te klein zijn (max. 20% met $f_e < 5$, geen enkele $f_e < 1$).
* **Toetsingsgrootheid:** Chi-kwadraat ($\chi^2$).
* **Effectgrootte:** Contingentiecoëfficiënt, phi-coëfficiënt, of **Cramér's V** (meest aangewezen). Richtlijnen voor Cramér's V: $r < 0.10$ (triviaal), $0.10 - 0.30$ (klein), $0.30 - 0.50$ (medium), $> 0.50$ (sterk).
### 2.3 Stappenplan voor het uitvoeren van een statistische toets
Ongeacht de specifieke toets, volgt men doorgaans een vast stramien:
1. **Toetsingssituatie:** Begrijp de concrete onderzoeksvraag en identificeer de relevante variabelen en hun meetniveau.
2. **Voorwaarden:** Controleer of aan de statistische voorwaarden voor de gekozen toets is voldaan. Dit is cruciaal voor de validiteit van de resultaten.
> **Tip:** Bij schending van de voorwaarden voor een parametrische toets, overweeg dan een non-parametrisch alternatief.
3. **Hypothesen:** Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$).
4. **Toetsingsgrootheid:** Bereken de waarde van de toetsingsgrootheid op basis van de data en identificeer de bijbehorende kansverdeling.
5. **Beslissingsregel:** Verwerp of behoud de nulhypothese op basis van de overschrijdingskans (p-waarde) of door de berekende toetsingsgrootheid te vergelijken met kritieke waarden.
6. **Effectgrootte:** Bereken de effectgrootte om de praktische significantie van het gevonden effect te kwantificeren.
7. **Rapporteren:** Rapporteer de resultaten op een duidelijke en gestructureerde manier, inclusief de toets, de toetsingsgrootheid, de vrijheidsgraden (indien van toepassing), de p-waarde en de effectgrootte.
### 2.4 Voorbereiding op examens
Effectieve voorbereiding voor statistische toetsvragen omvat:
* Het begrijpen van de theoretische concepten achter elke toets.
* Het oefenen met concrete toepassingsvragen die een systematische analyse vereisen.
* Het kunnen koppelen van uitspraken aan de verschillende fasen van de empirische cyclus.
* Het correct uitleggen van concepten zoals significantie en effectgrootte.
> **Tip:** Maak gebruik van overzichtstabellen en stroomdiagrammen om de relaties tussen verschillende toetsen en hun toepassingsgebieden te visualiseren. Oefen veel met voorbeeldvragen om vertrouwd te raken met de verschillende soorten vragen die gesteld kunnen worden.
---
# Voorbereiding op het examen
Dit gedeelte bevat voorbeeldvragen en oefeningen die bedoeld zijn om studenten te helpen bij de voorbereiding op hun examen. Het omvat zowel theorievragen als toepassingsvragen over verschillende statistische concepten en toetsen.
## 3. Voorbereiding op het examen
De voorbereiding op een statistisch examen vereist een systematische aanpak, waarbij zowel theoretische kennis als de praktische toepassing van statistische toetsen centraal staan. Dit omvat het begrijpen van het stramien van toetsen, het kiezen van de juiste statistische methode op basis van de onderzoeksvraag en data, en het correct interpreteren en rapporteren van resultaten.
### 3.1 Het stramien van statistische toetsen
Elke statistische toets volgt een vast stramien, essentieel voor een correcte analyse en interpretatie:
1. **Toetsingssituatie:** Vaststellen welke gegevens in de vraag staan, wat de concrete onderzoeksvraag is, en bij welk soort onderzoek deze toets gebruikt wordt.
2. **Voorwaarden:** Nagaan welke statistische voorwaarden vervuld moeten zijn om de gekozen toets te mogen toepassen.
3. **Hypothesen:** Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) die bij de toetsingssituatie passen.
4. **Toetsingsgrootheid:** Berekenen van de waarde van de toetsingsgrootheid en identificeren van de bijbehorende kansverdeling.
5. **Beslissingsregel:** Bepalen wanneer de nulhypothese verworpen wordt, hetzij via overschrijdingskansen (p-waarde) of kritieke waarden.
6. **Effectgrootte:** Berekenen van de effectgrootte om de praktische significantie van het gevonden effect te kwantificeren.
7. **Rapporteren:** Correct rapporteren van de resultaten van de statistische analyse.
### 3.2 Toetsen voor het verband tussen twee variabelen (Hoofdstuk 9)
Dit hoofdstuk behandelt toetsen om het verband tussen twee variabelen van een gelijk meetniveau na te gaan.
#### 3.2.1 Parametrische toetsen: Pearson Correlatietoets
Deze toets wordt gebruikt om het lineaire verband tussen twee interval/ratio-variabelen te onderzoeken, onder de aanname dat beide variabelen normaal verdeeld zijn in de populatie.
* **Onderzoeksvraag voorbeeld:** Bestaat er een verband tussen de slaapkwaliteit van studenten tijdens de examenperiode en de mate van rust/kalmte die studenten ervaren?
* **Toetsingsgrootheid:** De Pearson correlatiecoëfficiënt ($r$), getransformeerd naar een t-verdeling met vrijheidsgraden $df = N - 2$, waarbij $N$ het aantal paren observaties is.
$$t = r \sqrt{\frac{N-2}{1-r^2}}$$
* **Beslissingsregel:** Verwerpen van $H_0$ indien de berekende t-waarde groter is dan de kritieke waarde (bij tweezijdige toetsing) of kleiner dan de kritieke waarde (bij eenzijdige toetsing), of indien de p-waarde kleiner is dan het gekozen significantieniveau $\alpha$.
* **Effectgrootte:** De Pearson correlatiecoëfficiënt ($r$) zelf dient als maat voor de effectgrootte. Een waarde dicht bij 1 of -1 duidt op een sterk lineair verband, terwijl een waarde dicht bij 0 duidt op een zwak of afwezig lineair verband.
* **Rapportage:** Vermelding van de correlatiecoëfficiënt, de p-waarde, en de steekproefgrootte. Bijvoorbeeld: "Het verband tussen beide variabelen was significant verschillend van nul ($r=.99, p<.05, N=5$)."
#### 3.2.2 Non-parametrische toetsen
##### 3.2.2.1 Rangcorrelatie van Spearman
Deze toets wordt gebruikt om het verband tussen twee ordinaal gemeten variabelen na te gaan, of wanneer de voorwaarden voor parametrische toetsen geschonden zijn (bv. niet normaal verdeelde variabelen op interval/ratio niveau).
* **Onderzoeksvraag voorbeeld:** Wat is het verband tussen gebruik van sociale media en zelfbeeld bij jongeren, waarbij beide variabelen op een Likert-schaal zijn gemeten?
* **Voorwaarden:** Variabelen op minimaal ordinaal niveau.
* **Toetsingsgrootheid:** De Spearman rangcorrelatiecoëfficiënt ($\rho$ of $r_s$). Voor kleine steekproeven ($N \le 30$) kan deze getransformeerd worden naar een t-verdeling met $df = N - 2$.
$$r_s = 1 - \frac{6 \sum d_i^2}{N(N^2-1)}$$
waarbij $d_i$ het verschil is tussen de rangen van de observaties en $N$ het aantal paren observaties is.
De bijbehorende t-toetsgrootheid is:
$$t = r_s \sqrt{\frac{N-2}{1-r_s^2}}$$
* **Beslissingsregel:** Vergelijk de berekende t-waarde met de kritieke t-waarde uit de tabel, of vergelijk de p-waarde met $\alpha$.
* **Effectgrootte:** De Spearman rangcorrelatiecoëfficiënt ($r_s$) zelf wordt gebruikt als maat voor de effectgrootte.
* **Rapportage:** "Het verband tussen beide variabelen was significant verschillend van nul ($r_s = -,87, p<,05, N=6$)."
##### 3.2.2.2 Chikwadraat voor kruistabellen
Deze toets wordt gebruikt om het verband tussen twee nominaal gemeten variabelen na te gaan door de geobserveerde frequenties in een kruistabel te vergelijken met de verwachte frequenties onder de aanname van onafhankelijkheid.
* **Onderzoeksvraag voorbeeld:** Bestaat er een betekenisvol verband tussen politieke voorkeur en de mening over het opleggen van een milieubelasting?
* **Voorwaarden:**
* Nominale variabelen.
* Enkel frequenties (geen percentages).
* Categorieën van variabelen zijn mutueel exclusief.
* Verwachte frequenties ($f_e$) in de kruistabel mogen niet te klein zijn: maximaal 20% van de cellen mag een verwachte frequentie kleiner dan 5 hebben, en geen enkele cel mag een verwachte frequentie kleiner dan 1 hebben.
* **Berekening verwachte frequentie ($f_e$):**
$$f_e = \frac{\text{rijtotaal} \times \text{colomtotaal}}{\text{totaaltotaal}}$$
* **Toetsingsgrootheid:** De chikwadraat ($\chi^2$) toetsingsgrootheid.
$$\chi^2 = \sum \frac{(f_o - f_e)^2}{f_e}$$
waarbij $f_o$ de geobserveerde frequentie is en $f_e$ de verwachte frequentie.
* **Vrijheidsgraden:** $df = (\text{aantal rijen} - 1) \times (\text{aantal kolommen} - 1)$.
* **Beslissingsregel:** Verwerpen van $H_0$ indien de berekende $\chi^2$-waarde groter is dan de kritieke $\chi^2$-waarde of indien de p-waarde kleiner is dan $\alpha$.
* **Effectgrootte:** Diverse maten kunnen gebruikt worden, zoals de continuïteitscoëfficiënt, phi-coëfficiënt, of Cramér's V. Cramér's V wordt vaak als het meest geschikt beschouwd.
* Cramér's V:
$$V = \sqrt{\frac{\chi^2}{N(K-1)}}$$
waarbij $N$ het totaal aantal observaties is en $K$ het kleinste aantal categorieën van de twee variabelen.
* Interpretatie van Cramér's V: $<.10$ (triviaal), $.10-.30$ (klein), $.30-.50$ (medium), $>.50$ (sterk).
* **Rapportage:** "De chikwadraattoets wees uit dat beide variabelen statistisch afhankelijk zijn ($\chi^2(4)=21,86, p<,001$). Het verband bleek matig te zijn (Cramér's V = .36)."
### 3.3 Hoe kies je de juiste toets? (Hoofdstuk 11)
Het kiezen van de juiste statistische toets is cruciaal en hangt af van verschillende factoren:
* **Begrip van de onderzoeksvraag:** Wat wil de onderzoeker precies weten (verschil, verband)?
* **Onderscheid afhankelijke en onafhankelijke variabelen:** Wat beïnvloedt wat?
* **Meetniveau van de variabelen:** Nominaal, ordinaal, interval, of ratio?
* **Aantal populaties/groepen:** Wordt één populatie vergeleken, twee, of meer?
* **Afhankelijke of onafhankelijke steekproeven:** Zijn de metingen binnen dezelfde personen (afhankelijk) of binnen verschillende personen (onafhankelijk)?
* **Parametrisch of non-parametrisch:** Voldoen de data aan de aannames van parametrische toetsen (bv. normaliteit)?
* **Eenzijdig of tweezijdig toetsen:** Is er een specifieke verwachting over de richting van het effect?
#### 3.3.1 Overzicht van toetsen
Het document biedt een overzicht van verschillende toetsen, ingedeeld naar het aantal populaties en of ze parametrisch (P) of non-parametrisch (NP) zijn:
* **1 populatie:**
* P: z-toets / t-toets voor één gemiddelde
* NP: Chi-kwadraattoets voor frequenties (voor één steekproef)
* **2 (onafhankelijke) populaties:**
* P: t-toets voor twee onafhankelijke steekproeven
* NP: Wilcoxon rank-sum test
* **2 (afhankelijke) populaties:**
* P: t-toets voor twee afhankelijke steekproeven
* NP: Wilcoxon signed-rank test
* **Meer dan 2 (onafhankelijke) populaties:**
* P: One-way ANOVA (variantieanalyse)
* **Verband tussen twee variabelen:**
* P: Pearson correlatietoets (interval/ratio)
* NP: Spearman rangcorrelatie (ordinaal), Chi-kwadraattoets voor kruistabellen (nominaal)
> **Tip:** Bij twijfel over normaliteit of als de variabelen op ordinaal niveau zijn, kies dan voor een non-parametrische toets.
### 3.4 Voorbeeldvragen en oefeningen
De voorbereiding op het examen omvat het oefenen met verschillende soorten vragen:
#### 3.4.1 Theorievragen
Deze vragen testen het begrip van de basisprincipes van statistiek, zoals de empirische cyclus, significantie en effectgrootte, en de keuze tussen eenzijdige en tweezijdige toetsen.
* **Empirische cyclus:** Vragen kunnen vereisen dat uitspraken gekoppeld worden aan de verschillende fasen van de empirische cyclus (observatie, inductie, deductie, toetsing, evaluatie).
* **Significantie vs. Effectgrootte:**
* **Significantie:** Geeft aan of een gevonden resultaat waarschijnlijk niet op toeval berust (vaak via de p-waarde). Een significant resultaat betekent niet noodzakelijk een belangrijk of praktisch relevant resultaat.
* **Effectgrootte:** Kwantificeert de omvang van het effect of het verband, ongeacht de steekproefgrootte. Het geeft aan hoe belangrijk het gevonden effect is.
* Ze hangen samen in die zin dat een sterk effect bij een grote steekproef waarschijnlijk significant zal zijn, en een zwak effect bij een kleine steekproef mogelijk niet significant is.
* **Eenzijdig vs. Tweezijdig toetsen:**
* **Tweezijdig:** Wordt gebruikt wanneer er geen specifieke voorspelling is over de richting van het effect of verband. De nulhypothese wordt verworpen als het resultaat significant afwijkt in beide richtingen.
* **Eenzijdig (links- of rechts):** Wordt gebruikt wanneer er een specifieke voorspelling is over de richting van het effect of verband (bv. dat groep A hoger scoort dan groep B). Dit verhoogt de power van de toets, maar kan alleen worden toegepast bij een duidelijke theoretische onderbouwing.
#### 3.4.2 Toepassingsvragen
Deze vragen vereisen de toepassing van statistische toetsen op gegeven data of scenario's.
* **Voorbeeld 1 (Pearson correlatie):** Nagaan of er een verband bestaat tussen de steun die een leerkracht biedt en de betrokkenheid van leerlingen. Beide variabelen zijn intervalniveau en normaal verdeeld. Hierbij wordt gevraagd de juiste toets te kiezen, hypothesen te formuleren, de toetsingsgrootheid te berekenen, en de resultaten te interpreteren met effectgrootte.
* **Voorbeeld 2 (One-way ANOVA):** Onderzoeken of er een verschil is in beoordelingscijfers voor memes tussen studenten van verschillende vakken (PW1, GPW, STAT2). De data is normaal verdeeld, en er worden stappen gevraagd zoals het berekenen van de tussen- en binnen-groepsvariantie, vrijheidsgraden, Mean Sum of Squares, en de toetsingsgrootheid (F-waarde).
* **Voorbeeld 3 (Independent samples t-test):** Nagaan of er een verschil is in huidgeleiding tussen groepen die mindfulness of EMDR hebben gevolgd na blootstelling aan een trauma cue. De p-waarde en t-score worden gegeven, en de student moet H0 al dan niet verwerpen en de mogelijke fouten (Type I/II) bespreken.
* **Voorbeeld 4 (Toetskeuze en rappotering):** Een onderzoeker wil weten of slaap een invloed heeft op studieprestaties. Er worden twee testen afgenomen bij dezelfde studenten onder verschillende slaapcondities. Hier wordt gevraagd de juiste toets te kiezen (in dit geval een afhankelijke t-toets, omdat dezelfde studenten tweemaal zijn gemeten), de voorwaarden te motiveren, en de resultaten correct te rapporteren.
> **Tip:** Bij het beantwoorden van toepassingsvragen, doorloop systematisch de zeven stappen van het toetsingsstramien. Definieer duidelijk de variabelen, hun meetniveau, en de steekproefstructuur.
#### 3.4.3 Kennis- en inzichtsvragen
Deze vragen toetsen de algemene kennis en het inzicht in statistische concepten.
* **Statistische significantie:** Het gaat om de vraag of er een significant verschil is tussen groepen of een significant verband, gebaseerd op de p-waarde.
* **Type-I fout:** De kans om de nulhypothese ten onrechte te verwerpen, terwijl deze in werkelijkheid waar is. Een alpha van .05 betekent een 5% kans op een Type-I fout.
* **Effectgrootte:** Moderne statistiek vereist de vermelding van effectgrootte, zelfs bij significante resultaten, om de praktische relevantie te beoordelen. Een effectgrootte van -.7 kan inderdaad wijzen op een aanzienlijk deel van de variabiliteit in Y verklaard door X.
* **Hypotheseformulering:** In statistisch onderzoek starten we meestal vanuit de nulhypothese ($H_0$) die we proberen te verwerpen. We onderzoeken een verschil of verband, en als de data onwaarschijnlijk is onder $H_0$ (lage p-waarde), verwerpen we $H_0$ ten gunste van de alternatieve hypothese ($H_1$).
Door deze verschillende soorten vragen te oefenen, kunnen studenten hun kennis versterken en zich optimaal voorbereiden op het examen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Pearson Correlatietoets | Een parametrische toets om de sterkte en richting van het lineaire verband tussen twee interval- of ratio-variabelen te meten. De toetsingsgrootheid volgt een t-verdeling met n-2 vrijheidsgraden. |
| Spearman Rangcorrelatietoets | Een non-parametrische toets die het monotone verband tussen twee ordinale variabelen of variabelen die als ordinaal behandeld kunnen worden, meet. De toetsingsgrootheid wordt berekend op basis van de rangordes van de waarnemingen en volgt vaak een t-verdeling. |
| Chikwadraat toets voor kruistabellen | Een non-parametrische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee nominale variabelen door de geobserveerde frequenties in een kruistabel te vergelijken met de verwachte frequenties onder de nulhypothese van onafhankelijkheid. |
| Hypothese | Een stelling die wordt geformuleerd om te testen. Bij statistische toetsen maken we onderscheid tussen de nulhypothese (H0), die stelt dat er geen effect of verband is, en de alternatieve hypothese (H1), die stelt dat er wel een effect of verband is. |
| Toetsingsgrootheid | Een waarde die wordt berekend uit de steekproefgegevens en die wordt gebruikt om de nulhypothese te toetsen. De verdeling van de toetsingsgrootheid onder de nulhypothese is bekend. |
| Beslissingsregel | Een regel die bepaalt wanneer de nulhypothese wordt verworpen op basis van de waarde van de toetsingsgrootheid en een vooraf bepaalde significantieniveau (alfa). Dit kan gebeuren via overschrijdingskansen (p-waarden) of kritieke waarden. |
| Effectgrootte | Een maat die de sterkte van het waargenomen effect of verband kwantificeert, onafhankelijk van de steekproefgrootte. Het helpt de praktische significantie van de resultaten te beoordelen. |
| Parametrisch | Een klasse van statistische toetsen die aannames doet over de parameters van de populatie waaruit de steekproef is getrokken, zoals normaliteit van de verdeling. |
| Non-parametrisch | Een klasse van statistische toetsen die minder strikte aannames doet over de populatieverdeling. Deze toetsen worden vaak gebruikt wanneer de aannames voor parametrische toetsen geschonden zijn, of wanneer de variabelen op nominaal of ordinaal niveau zijn gemeten. |
| Meetniveau | De schaal waarop een variabele is gemeten. De belangrijkste meetniveaus zijn nominaal, ordinaal, interval en ratio. Het meetniveau bepaalt welke statistische analyses mogelijk zijn. |
| Variantieanalyse (ANOVA) | Een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het deelt de totale variatie in de gegevens op in componenten die toe te schrijven zijn aan verschillende bronnen van variatie. |
| t-toets | Een parametrische toets die wordt gebruikt om te bepalen of er een significant verschil is tussen de gemiddelden van twee groepen (onafhankelijke t-toets) of tussen twee metingen binnen dezelfde groep (afhankelijke t-toets). |
| p-waarde (overschrijdingskans) | De kans om een toetsingsgrootheid te observeren die zo extreem is als, of extremer is dan, de geobserveerde toetsingsgrootheid, aangenomen dat de nulhypothese waar is. Een kleine p-waarde (< alfa) leidt tot verwerping van de nulhypothese. |
| Kritieke waarde | Een drempelwaarde die wordt gebruikt in de beslissingsregel van een statistische toets. Als de toetsingsgrootheid groter is dan (of kleiner dan, afhankelijk van de richting) de kritieke waarde, wordt de nulhypothese verworpen. |
| Kruistabel | Een tabel die de frequentieverdeling van twee of meer categorische variabelen weergeeft. Elke cel in de tabel toont het aantal waarnemingen dat aan een specifieke combinatie van categorieën voldoet. |
| Onafhankelijke variabelen | Variabelen die worden gemanipuleerd of gemeten om hun effect op een afhankelijke variabele te bestuderen. |
| Afhankelijke variabelen | Variabelen waarvan de waarden worden beïnvloed of verklaard door onafhankelijke variabelen. |
| Steekproeven | Een subset van een populatie die wordt gebruikt om conclusies te trekken over de gehele populatie. |
| Onafhankelijke steekproeven | Steekproeven waarbij de waarnemingen in de ene groep geen invloed hebben op de waarnemingen in de andere groep. De groepen zijn distinct. |
| Afhankelijke steekproeven | Steekproeven waarbij de waarnemingen in de ene groep gerelateerd zijn aan de waarnemingen in de andere groep, bijvoorbeeld door herhaalde metingen bij dezelfde personen. |
| Wilcoxon rank-sum test | Een non-parametrische toets die wordt gebruikt om te bepalen of er een significant verschil is tussen twee onafhankelijke groepen. Het is het non-parametrische alternatief voor de onafhankelijke t-toets. |
| Cramer's V | Een maat voor de effectgrootte bij de chikwadraattoets voor kruistabellen. Het kwantificeert de sterkte van het verband tussen twee nominale variabelen, waarbij waarden variëren van 0 (geen verband) tot 1 (perfect verband). |
Cover
WPO+1+S3+Power+2526.pptx
Summary
# Inleiding tot statistiek en cursusstructuur
Deze sectie biedt een overzicht van de structuur van de cursus statistiek, inclusief de verschillende onderdelen zoals hoorcolleges, werkcolleges, software-introductie en de examens, evenals richtlijnen voor communicatie en het stellen van vragen.
### 1.1 Cursusonderdelen en structuur
De cursus is opgebouwd uit verschillende onderdelen die bijdragen aan de volledige beheersing van de statistische materie:
* **Hoorcolleges (HOC):** Deze worden gegeven door Professor Theuns en bieden de theoretische basis van de statistiek.
* **Werkcolleges (WPO):** Onder begeleiding van assistenten worden oefeningen uitgewerkt om de theoretische concepten toe te passen.
* **Software-introductie:** Een deel van de cursus is gewijd aan het leren gebruiken van specifieke software voor statistische analyses.
* **Oefeningenlessen:** Specifieke sessies gericht op het oplossen van oefeningen.
* **Extra oefeningen en zelfstudie:** Aanvullend materiaal om de kennis te verdiepen.
* **Examen THEO + OEF:** Een examen dat zowel de theoretische kennis als de vaardigheid in het oplossen van oefeningen test.
* **Examen SOFTWARE:** Een praktisch examen gericht op de beheersing van de statistische software.
#### 1.1.1 Good practices
Gedurende de cursus wordt nadruk gelegd op goede praktijken, waaronder effectief gebruik van leermiddelen en het correct benaderen van de cursusinhoud.
> **Tip:** De lesopnames van de werkcolleges (WPO) zijn beschikbaar, maar mogen de aanwezigheid en actieve deelname aan de live lessen niet vervangen.
#### 1.1.2 Gebruik van rekenmachines
Studenten mogen een rekenmachine naar keuze gebruiken, mits deze geen verbinding met een computer kan maken. Een eenvoudige wetenschappelijke rekenmachine van maximaal 30 euro wordt aangeraden. Smartphones en tablets zijn niet toegestaan als rekenmachine tijdens examens of oefeningen waarbij een rekenmachine vereist is.
### 1.2 Communicatie en vragen
Duidelijke communicatiekanalen zijn essentieel voor een soepel verloop van de cursus.
#### 1.2.1 Vragen stellen
Er wordt onderscheid gemaakt tussen verschillende soorten vragen:
* **Inhoudelijke vragen:** Vragen over de cursusinhoud, zoals de oefeningen. Deze kunnen gesteld worden via het discussieplatform op CANVAS.
* **Praktische vragen:** Vragen over logistieke aspecten, zoals het lessenrooster. Deze kunnen eveneens via het discussieplatform op CANVAS worden gesteld.
* **Persoonlijke vragen:** Vragen die betrekking hebben op individuele omstandigheden, zoals ziekte of studietrajecten. Deze dienen per e-mail aan het statistiekteam te worden gestuurd.
#### 1.2.2 Communicatiekanalen
* **Discussieplatform op CANVAS:** Voor algemene inhoudelijke en praktische vragen.
* **E-mail aan het statistiekteam:** Voor persoonlijke vragen. Het is cruciaal om altijd het hele team in 'cc' te zetten.
* **Tijdens hoorcolleges en werkcolleges:** Studenten kunnen direct vragen stellen aan Professor Theuns of de begeleidende assistent.
#### 1.2.3 Opvolging van vragen
Vragen worden gedurende de hele lessenreeks opgevolgd. Na afloop van de lessenreeks is er een finale Q&A sessie tijdens de blokperiode om laatste vragen te beantwoorden.
### 1.3 Contactpersonen statistiekteam
* **Alyson Staels:** Alyson.Staels@vub.be
* Kantooruren: op afspraak via mail
* Kantoor: C3.12
* **Alain Isaac:** Alain.Isaac@vub.be
* Kantooruren: op afspraak via mail
* Kantoor: C3.19
* **Jeroen Frans:** Jeroen.Frans@vub.be
* Kantooruren: op afspraak via mail
* Kantoor: C3.19
### 1.4 Significantietoetsen: De z-toets en Power
Dit deel van de cursus introduceert het concept van significantietoetsen, met specifieke aandacht voor de z-toets en de rol van power.
#### 1.4.1 Stappenplan voor significantietoetsen
Elke significantietoets volgt een gestructureerd vier-stappenplan:
1. **Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_A$).**
2. **Bereken de toetsingsgrootheid.**
3. **Bereken de p-waarde (overschrijdingskans) voor de data.**
4. **Formuleer de conclusie (in APA-stijl).**
#### 1.4.2 De z-toets
De z-toets is een specifieke vorm van significantietoetsen die gebruikt wordt onder bepaalde voorwaarden (bv. gekende populatievariantie of grote steekproef).
##### 1.4.2.1 Formuleren van hypothesen voor de z-toets
* **Nulhypothese ($H_0$):** Dit is de stelling die we proberen te weerleggen. Standaardvorm is $H_0: \mu = \mu_0$, waarbij $\mu_0$ een specifieke populatieparameter is.
* **Alternatieve hypothese ($H_A$):** Dit is de stelling die we accepteren als de nulhypothese verworpen wordt. Er zijn drie mogelijke vormen:
* Eenzijdig links: $H_A: \mu < \mu_0$
* Eenzijdig rechts: $H_A: \mu > \mu_0$
* Tweezijdig: $H_A: \mu \neq \mu_0$
##### 1.4.2.2 Berekenen van de toetsingsgrootheid (z-toets)
De toetsingsgrootheid voor de z-toets wordt berekend op basis van de steekproefgegevens en de gespecificeerde nulhypothese. De precieze formule is afhankelijk van het type data en de specifieke context, maar de algemene vorm relateert het verschil tussen de steekproefstatistiek en de hypothetische populatieparameter aan de standaardfout.
##### 1.4.2.3 Berekenen van de p-waarde (overschrijdingskans)
De p-waarde is de kans om de geobserveerde steekproefresultaten (of extremere resultaten) te verkrijgen, *aangenomen dat de nulhypothese waar is*.
##### 1.4.2.4 Formuleren van de conclusie (APA-stijl)
De conclusie wordt getrokken door de berekende p-waarde te vergelijken met het vooraf bepaalde significantieniveau ($\alpha$).
* **Als $p \le \alpha$:** De nulhypothese wordt verworpen. Er is voldoende bewijs om te stellen dat de alternatieve hypothese ($H_A$) waar is. Dit wordt gerapporteerd met de geobserveerde toetsingsgrootheid en p-waarde (bv. $z = z_{observed}$, $p = p_{observed}$).
* **Als $p > \alpha$:** De nulhypothese wordt aanvaard (of preciezer: er is onvoldoende bewijs om deze te verwerpen). Er is onvoldoende bewijs om te stellen dat de alternatieve hypothese ($H_A$) waar is. Dit wordt eveneens gerapporteerd met de geobserveerde waarden (bv. $z = z_{observed}$, $p = p_{observed}$).
> **Tip:** Het significantieniveau ($\alpha$) is typisch ingesteld op 0.05 (vijf procent).
#### 1.4.3 Kritische z-waarden
Kritische z-waarden worden gebruikt om de beslissingsregel direct te kunnen toepassen zonder de p-waarde expliciet te berekenen. Deze waarden zijn terug te vinden in standaard z-tabellen (Tabel D of af te leiden uit Tabel A).
#### 1.4.4 Type I en Type II fouten
Bij het nemen van beslissingen in significantietoetsen kunnen er twee soorten fouten optreden:
* **Type I fout ( $\alpha$ ):** Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. De kans hierop is gelijk aan het significantieniveau $\alpha$.
* **Type II fout ( $\beta$ ):** Het aanvaarden van de nulhypothese terwijl deze in werkelijkheid onwaar is. De kans hierop wordt aangeduid met $\beta$.
##### 1.4.4.1 Metafoor van de kelder
De metafoor van de kelder illustreert de concepten van Type I en Type II fouten en power:
* Stel je voor dat je zoekt naar een bal in de kelder.
* **Situatie:** De bal is niet in de kelder ($H_0$ is waar).
* **Type I fout:** Je zoekt, vindt de bal niet, en concludeert dat hij er niet is (correct). Maar als je toch concluderer dat de bal er is (terwijl hij er niet is), heb je een Type I fout gemaakt.
* **Situatie:** De bal is wel in de kelder ($H_0$ is onwaar).
* **Type II fout:** Je zoekt, vindt de bal niet, en concludeert dat hij er niet is (fout). Je hebt de bal gemist terwijl hij er wel was.
#### 1.4.5 Power van een test
Power is de kans om correct de nulhypothese te verwerpen wanneer deze onwaar is. Het is dus $1 - \beta$.
* **Metafoor van de kelder en Power:** Als de bal wel in de kelder is, wat is de kans dat je kind de bal zou gevonden hebben? Deze kans wordt beïnvloed door:
* **Hoe lang heeft kind gezocht?** Dit correspondeert met de **steekproefgrootte**. Een grotere steekproef vergroot de kans op detectie.
* **Hoe groot is de bal?** Dit correspondeert met de **effectgrootte**. Grotere effecten zijn makkelijker te detecteren.
* **Hoeveel rommel ligt er in de kelder?** Dit correspondeert met de **standaarddeviatie** (variabiliteit) van de data. Meer variabiliteit bemoeilijkt detectie.
#### 1.4.6 Factoren die de power beïnvloeden
Om een zinvolle poweranalyse te kunnen doen, moeten we vastleggen hoe groot het effect is dat we wensen te detecteren. Dit kan op basis van twee criteria:
1. **Domeinkennis:** Wat is op basis van expertise als een substantieel of zinvol verschil te beschouwen? Bijvoorbeeld, als IQ-scores altijd op gehele getallen worden afgerond, is een verschil van minder dan 1 punt mogelijk niet zinvol om te detecteren.
2. **Gestandaardiseerde effectgroottes:** Algemene poweranalyses maken vaak gebruik van gestandaardiseerde effectgroottes (bv. z-scores). Gangbare interpretaties zijn:
* $0.2$: klein effect
* $0.5$: gemiddeld effect
* $0.8$: groot effect
#### 1.4.7 Relatie tussen effectgrootte en power
* Hoe groter het gewenste (of verwachte) effect, hoe meer onderscheidend vermogen (power) de test zal hebben. Kleine effecten zijn moeilijker te detecteren en vereisen meer power (of een grotere steekproef) om ze met voldoende zekerheid te kunnen vaststellen.
#### 1.4.8 Voorbeelden van powerberekeningen (Oefening 4A, 4B, 4C, 5, 6, 7)
De oefeningen in dit gedeelte demonstreren hoe de power van een test wordt berekend of hoe de benodigde steekproefgrootte wordt bepaald om een gewenste power te bereiken bij een bepaald significantieniveau en effectgrootte.
**Voorbeeld (gebaseerd op Oefening 7):**
Een arbeidspsycholoog onderzoekt of stressniveaus in de publieke sector lager zijn dan in de rest van het land. De populatiegemiddelde stress-score is 150 met een standaardafwijking van 20. De psycholoog wil een effectgrootte van 10 punten kunnen detecteren als substantieel verschil. De vraag is hoe groot de steekproef moet zijn om de kans op een Type I fout te beperken tot 5% ($\alpha = 0.05$) en een onderscheidingsvermogen van 80% ($1 - \beta = 0.80$) te behouden. Hierbij worden de formele berekeningen met z-scores en de bijbehorende kritische waarden toegepast om de benodigde steekproefgrootte te bepalen.
* **$H_0: \mu \ge 150$** (stressniveau is niet lager)
* **$H_A: \mu < 150$** (stressniveau is lager)
* Gewenste effectgrootte: 10 punten.
* $\alpha = 0.05$.
* Gewenste power = $0.80$, dus $\beta = 0.20$.
Door de formules voor de z-toets en de relatie tussen $\alpha$, $\beta$, steekproefgrootte en effectgrootte te gebruiken, kan de vereiste steekproefgrootte berekend worden.
##### 1.4.8.1 Schematische weergave van toetsingsvariabelen
Bij het analyseren van hypothesen en de bijbehorende kritische waarden, wordt vaak een schematische weergave gebruikt:
* $H_0$: Nulhypothese
* $H_A$: Alternatieve hypothese
* $\mu_0$: De populatieparameter onder de nulhypothese
* $\mu_A$: De populatieparameter onder de alternatieve hypothese (het te detecteren effect)
* Kritieke waarde: De grens die bepaalt of de nulhypothese wordt verworpen.
---
# Significantietoetsen en de z-toets
Dit deel behandelt de vier kernstappen van significantietoetsen, met een specifieke focus op de z-toets, inclusief het formuleren van hypothesen, het berekenen van toetsingsgrootheden en p-waarden, en het trekken van conclusies in APA-stijl.
### 2.1 Het proces van significantietoetsen
Significantietoetsen volgen een gestandaardiseerd vierstappenplan om te bepalen of waargenomen data voldoende bewijs leveren om een hypothese te verwerpen.
#### 2.1.1 De vier stappen van significantietoetsen
1. **Formuleer de nul- ($H_0$) en alternatieve ($H_A$) hypothesen:** Dit omvat het definiëren van de te toetsen stelling en de mogelijke afwijking daarvan.
2. **Bereken de toetsingsgrootheid:** Dit is een waarde berekend uit de steekproefdata die de mate van afwijking van de nulhypothese samenvat.
3. **Bereken de p-waarde (overschrijdingskans) voor de data:** Dit is de kans om een toetsingsgrootheid te observeren die minstens zo extreem is als de waargenomen waarde, aangenomen dat de nulhypothese waar is.
4. **Formuleer een conclusie (APA-stijl):** Op basis van de p-waarde en het significantieniveau ($\alpha$), wordt besloten of de nulhypothese verworpen kan worden.
### 2.2 De z-toets
De z-toets is een specifieke vorm van significantietoetsing die gebruikt wordt wanneer de populatiestandaarddeviatie bekend is of wanneer de steekproefgrootte groot genoeg is om de steekproeven-verdeling van het gemiddelde te benaderen met een normale verdeling.
#### 2.2.1 Formuleren van hypothesen voor de z-toets
* **Nulhypothese ($H_0$):** Stelt dat er geen effect is of dat het populatiegemiddelde gelijk is aan een specifieke waarde. Deze wordt meestal genoteerd als:
$H_0: \mu = \mu_0$
Hierin is $\mu$ het populatiegemiddelde en $\mu_0$ de hypothetische waarde onder de nulhypothese.
* **Alternatieve hypothese ($H_A$):** Stelt dat er wel een effect is. Er zijn drie mogelijke vormen:
* **Eenzijdige toets (linkszijdig):** Het populatiegemiddelde is kleiner dan de hypothetische waarde.
$H_A: \mu < \mu_0$
* **Eenzijdige toets (rechtszijdig):** Het populatiegemiddelde is groter dan de hypothetische waarde.
$H_A: \mu > \mu_0$
* **Tweezijdige toets:** Het populatiegemiddelde is niet gelijk aan de hypothetische waarde.
$H_A: \mu \neq \mu_0$
#### 2.2.2 Berekenen van de toetsingsgrootheid (z-waarde)
De z-toetsingsgrootheid wordt berekend met de volgende formule, waarbij de steekproefdata wordt vergeleken met de hypothetische populatiewaarde, rekening houdend met de spreiding in de populatie:
$$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$
Hierin is:
* $\bar{x}$: het steekproefgemiddelde.
* $\mu_0$: het hypothetische populatiegemiddelde onder $H_0$.
* $\sigma$: de populatiestandaarddeviatie.
* $n$: de steekproefgrootte.
#### 2.2.3 Berekenen van de p-waarde
De p-waarde is de kans om een steekproefgemiddelde te verkrijgen dat, gegeven dat $H_0$ waar is, net zo extreem of extremer is dan het waargenomen steekproefgemiddelde. Deze waarde wordt bepaald aan de hand van de z-verdeling en het type toets (eenzijdig of tweezijdig).
#### 2.2.4 Formuleren van de conclusie (APA-stijl)
De conclusie wordt getrokken door de berekende p-waarde te vergelijken met een vooraf bepaald significantieniveau ($\alpha$), meestal ingesteld op 0.05.
* **Als $p \leq \alpha$:** De nulhypothese ($H_0$) wordt verworpen. Dit betekent dat er voldoende statistisch bewijs is om te stellen dat de alternatieve hypothese ($H_A$) ondersteund wordt. De conclusie wordt genoteerd in APA-stijl, inclusief de berekende z-waarde en p-waarde.
> **Voorbeeld APA-conclusie (verwerpen $H_0$):** "Er werd voldoende bewijs gevonden om te stellen dat het gemiddelde stressniveau lager is dan 150, $z$ = -2.50, $p$ < .001."
* **Als $p > \alpha$:** De nulhypothese ($H_0$) wordt aanvaard (of, preciezer, niet verworpen). Dit betekent dat er onvoldoende statistisch bewijs is om de nulhypothese te verwerpen en dus de alternatieve hypothese te ondersteunen.
> **Voorbeeld APA-conclusie (niet verwerpen $H_0$):** "Er werd onvoldoende bewijs gevonden om te stellen dat het gemiddelde stressniveau afwijkt van 150, $z$ = 1.20, $p$ = .23."
#### 2.2.5 Kritische z-waarden
Kritische z-waarden zijn de grenswaarden op de z-verdeling die de verwerpingsregio's definiëren. Ze worden bepaald door het significantieniveau ($\alpha$) en het type toets (eenzijdig of tweezijdig). Deze waarden kunnen worden afgeleid uit de standaard normale verdelingstabel (Tabel A) of specifieke tabellen voor kritische z-waarden (Tabel D).
### 2.3 Type I en Type II fouten
Bij het toetsen van hypothesen kunnen twee soorten fouten worden gemaakt:
* **Type I fout:** Het verwerpen van de nulhypothese ($H_0$) terwijl deze in werkelijkheid waar is. De kans op een Type I fout wordt gelijkgesteld aan het significantieniveau ($\alpha$).
* **Type II fout:** Het niet verwerpen van de nulhypothese ($H_0$) terwijl deze in werkelijkheid onwaar is. De kans op een Type II fout wordt aangeduid met $\beta$.
#### 2.3.1 Power van een toets
De power van een statistische toets is de kans om een werkelijk bestaand effect te detecteren, oftewel de kans om de nulhypothese correct te verwerpen wanneer deze onwaar is. De power wordt berekend als $1 - \beta$.
> **Tip:** Een hogere power betekent een kleinere kans op een Type II fout. Om de power te verhogen, kan men de steekproefgrootte vergroten, de effectgrootte vergroten, of het significantieniveau ($\alpha$) verhogen (hoewel dit de kans op een Type I fout vergroot).
#### 2.3.2 Factoren die de power beïnvloeden
* **Steekproefgrootte ($n$):** Een grotere steekproef vergroot de power, omdat dit leidt tot een kleinere standaardfout van het gemiddelde en dus een betere precisie.
* **Effectgrootte:** De magnitude van het effect dat men probeert te detecteren. Grotere effecten zijn gemakkelijker te detecteren, wat leidt tot hogere power. Effectgroottes kunnen domeinspecifiek zijn (bv. een verschil van 10 punten op een schaal) of gestandaardiseerd (bv. z-scores zoals 0.2 voor klein, 0.5 voor gemiddeld, 0.8 voor groot).
* **Standaarddeviatie ($\sigma$):** Een kleinere standaarddeviatie vergroot de power, omdat dit betekent dat de data minder verspreid is.
* **Significantieniveau ($\alpha$):** Een hoger significantieniveau (bv. $\alpha = 0.10$ in plaats van $\alpha = 0.05$) vergroot de power, maar verhoogt ook de kans op een Type I fout.
#### 2.3.3 Vastleggen van de gewenste effectgrootte
Voor een zinvolle poweranalyse moet de onderzoeker specificeren hoe groot het effect moet zijn om als substantieel te worden beschouwd. Dit kan gebaseerd zijn op:
* **Domeinkennis:** Wat is praktisch significant of zinvol binnen het onderzoeksveld?
* **Gestandaardiseerde effectgroottes:** Gebruik van algemeen aanvaarde richtlijnen voor kleine, gemiddelde en grote effecten.
### 2.4 Voorbeelden van berekeningen en toepassingen
De gegeven documentatie bevat diverse oefeningen die illustreren hoe de stappen van significantietoetsen, specifiek met de z-toets, worden toegepast. Deze oefeningen behandelen onder andere het formuleren van hypothesen, het berekenen van toetsingsgrootheden en p-waarden, en het uitvoeren van poweranalyses om de benodigde steekproefgrootte te bepalen voor een gewenst onderscheidingsvermogen en een beperkte kans op een Type I fout.
> **Voorbeeld oefening (schematisch):** Een onderzoeker wil nagaan of stressniveaus in de publieke sector lager zijn dan gemiddeld (populatiegemiddelde = 150, standaarddeviatie = 20). De gewenste detecteerbare effectgrootte is 10 punten. Met $\alpha = 0.05$ en een gewenste power van 80% (dus $\beta = 0.20$), wordt de benodigde steekproefgrootte berekend. Dit illustreert de praktische toepassing van poweranalyse om een studie adequaat te ontwerpen.
---
# Type I en Type II fouten en poweranalyse
Deze sectie introduceert de concepten van Type I en Type II fouten en legt uit hoe poweranalyse kan worden toegepast om de kans op deze fouten te beperken, waarbij factoren zoals effectgrootte en steekproefgrootte worden belicht.
### 3.1 Significantietoetsen en fouten
Significantietoetsen zijn een fundamenteel onderdeel van statistische inferentie, waarbij we proberen te beslissen tussen een nulhypothese ($H_0$) en een alternatieve hypothese ($H_A$). Bij dit proces kunnen echter fouten optreden.
#### 3.1.1 Type I fout
Een Type I fout, ook wel bekend als een vals positief, treedt op wanneer de nulhypothese ($H_0$) ten onrechte wordt verworpen, terwijl deze in werkelijkheid waar is. De kans op een Type I fout wordt aangeduid met de Griekse letter $\alpha$. Dit is het significantieniveau dat de onderzoeker van tevoren vaststelt, meestal op $0.05$ (of 5%).
> **Tip:** $\alpha$ is de kans op een Type I fout, de kans om een effect te vinden wanneer er in werkelijkheid geen effect is.
#### 3.1.2 Type II fout
Een Type II fout, ook wel een vals negatief, treedt op wanneer de nulhypothese ($H_0$) ten onrechte niet wordt verworpen, terwijl de alternatieve hypothese ($H_A$) in werkelijkheid waar is. De kans op een Type II fout wordt aangeduid met de Griekse letter $\beta$.
> **Tip:** $\beta$ is de kans op een Type II fout, de kans om geen effect te vinden wanneer er in werkelijkheid wel een effect is.
### 3.2 Poweranalyse
Poweranalyse is een methode die wordt gebruikt om het onderscheidingsvermogen van een statistische test te bepalen. Het onderscheidingsvermogen, of de "power" van een test, is de kans om een werkelijk bestaand effect correct te detecteren. Mathematisch wordt de power berekend als $1 - \beta$. Een hogere power betekent een lagere kans op een Type II fout.
> **Tip:** Power ($1 - \beta$) is de kans om een werkelijk bestaand effect te vinden.
#### 3.2.1 Factoren die de power beïnvloeden
De power van een statistische test wordt beïnvloed door verschillende factoren:
* **Effectgrootte:** De grootte van het effect dat de onderzoeker wenst te detecteren. Grotere effecten zijn gemakkelijker te detecteren, wat leidt tot hogere power. De effectgrootte kan worden bepaald op basis van domeinkennis (wat als een substantieel verschil wordt beschouwd) of gestandaardiseerde effectgroottes (zoals $z$-scores, waarbij typisch $0.2$ als klein, $0.5$ als gemiddeld en $0.8$ als groot effect wordt beschouwd).
* **Steekproefgrootte:** Een grotere steekproefgrootte verhoogt doorgaans de power van een test. Met meer data is er meer informatie beschikbaar om de nulhypothese te toetsen en kleine, maar reële effecten te detecteren.
* **Significantieniveau ($\alpha$):** Een hoger significantieniveau (bijvoorbeeld $\alpha = 0.10$ in plaats van $\alpha = 0.05$) verhoogt de power, maar dit gaat ten koste van een grotere kans op een Type I fout.
* **Standaarddeviatie:** Een kleinere standaarddeviatie (variantie) in de populatie leidt tot hogere power, omdat de data dan minder verspreid zijn en de effecten duidelijker zichtbaar zijn.
#### 3.2.2 Het vastleggen van de gewenste effectgrootte
Om een zinvolle poweranalyse te kunnen uitvoeren, is het cruciaal om de grootte van het effect dat men wenst te detecteren, vast te leggen. Dit kan op twee manieren:
1. **Domeinkennis:** Wat is praktisch of theoretisch significant? Bijvoorbeeld, als een IQ-score altijd op gehele getallen wordt afgerond, is een verschil van minder dan één punt mogelijk niet relevant.
2. **Gestandaardiseerde effectgroottes:** Algemene poweranalyses maken vaak gebruik van gestandaardiseerde effectgroottes, uitgedrukt in $z$-scores. Gangbare interpretaties zijn:
* Kleine effectgrootte: $0.2$
* Gemiddelde effectgrootte: $0.5$
* Grote effectgrootte: $0.8$
#### 3.2.3 Toepassing van poweranalyse
Poweranalyse wordt gebruikt om de benodigde steekproefgrootte te berekenen voor een gewenst niveau van power en significantie, gegeven een bepaalde effectgrootte. Dit helpt onderzoekers om te zorgen dat hun studie voldoende "krachtig" is om een potentieel bestaand effect te detecteren, zonder onnodig grote steekproeven te gebruiken.
> **Voorbeeld:** Een arbeidspsycholoog onderzoekt of stressniveaus in de publieke sector lager zijn dan elders. De gemiddelde stressscore in de populatie is $150$ met een standaardafwijking van $20$. De onderzoeker wil een effectgrootte van $10$ punten detecteren met een power van $80\%$ en een $\alpha$ van $5\%$. De poweranalyse zal vervolgens de benodigde steekproefgrootte berekenen om dit te realiseren.
### 3.3 Illustratieve voorbeelden van fouten en power
De concepten van Type I en Type II fouten kunnen worden geïllustreerd met een metafoor. Stel je voor dat je zoekt naar een bal in een kelder.
* **Situatie:** De bal is mogelijk wel of niet in de kelder. Je probeert dit te onderzoeken.
* **Type I fout:** Je concludeert dat de bal *wel* in de kelder is, terwijl hij er in werkelijkheid *niet* is. Dit is een vals alarm.
* **Type II fout:** Je concludeert dat de bal *niet* in de kelder is, terwijl hij er in werkelijkheid *wel* is. Je hebt de bal gemist.
* **Power:** De kans dat je de bal vindt, *gegeven dat de bal er daadwerkelijk is*. Dit hangt af van hoe goed je zoekt (steekproefgrootte/zoekinspanning), hoe groot de bal is (effectgrootte) en hoe opgeruimd de kelder is (standaarddeviatie).
#### 3.3.1 Relatie tussen $\alpha$, $\beta$ en Power
Er bestaat een inherente afweging tussen Type I en Type II fouten. Het verlagen van de kans op een Type I fout (kleinere $\alpha$) leidt vaak tot een verhoging van de kans op een Type II fout (grotere $\beta$, lagere power), tenzij de steekproefgrootte wordt vergroot. Omgekeerd verhoogt een grotere $\alpha$ de power, maar ook de kans op een vals positief.
> **Tip:** Een kleine $\alpha$ beschermt tegen het ten onrechte verwerpen van $H_0$ (Type I fout), maar maakt het moeilijker om een werkelijk bestaand effect te detecteren (lage power, hoge kans op Type II fout). Een grotere $\alpha$ verhoogt de power, maar vergroot de kans op een Type I fout. De keuze van $\alpha$ hangt af van de consequenties van beide soorten fouten in een specifieke context.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Univariate data-analyse | Een statistische techniek die zich richt op het analyseren van één enkele variabele tegelijkertijd om patronen, trends en relaties te begrijpen binnen die variabele. Dit omvat het berekenen van beschrijvende statistieken zoals gemiddelde, mediaan en standaardafwijking. |
| Significantietoetsen | Een statistische methode die wordt gebruikt om te bepalen of de resultaten van een studie significant genoeg zijn om te concluderen dat ze niet door toeval zijn ontstaan. Dit proces omvat het formuleren van hypothesen, het berekenen van een toetsingsgrootheid en het interpreteren van de p-waarde. |
| Nulhypothese (H\textsubscript{0}) | De hypothese die stelt dat er geen significant verschil of geen effect is tussen de onderzochte groepen of variabelen. Het is de standaard aanname die wordt getest. |
| Alternatieve hypothese (H\textsubscript{A}) | De hypothese die stelt dat er wel een significant verschil of effect is. Dit is de hypothese die men hoopt te ondersteunen met de data. |
| Toetsingsgrootheid | Een statistische waarde die wordt berekend uit steekproefgegevens en wordt gebruikt om te bepalen of de nulhypothese verworpen moet worden. Voor de z-toets is dit de z-score. |
| p-waarde (overschrijdingskans) | De waarschijnlijkheid om een resultaat te observeren dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is. Een lage p-waarde suggereert dat het waargenomen resultaat onwaarschijnlijk is onder de nulhypothese. |
| APA-stijl | Een set richtlijnen voor academisch schrijven die zorgen voor consistentie in de presentatie van onderzoeksresultaten, inclusief de manier waarop statistische conclusies worden geformuleerd. |
| Kritische z-waarde | Een drempelwaarde die wordt gebruikt bij een z-toets. Als de berekende toetsingsgrootheid groter is dan de kritische waarde (in absolute zin), wordt de nulhypothese verworpen. |
| Type I fout | Het verwerpen van de nulhypothese wanneer deze in werkelijkheid waar is. Dit staat ook bekend als een "vals positief". De kans hierop wordt aangeduid met $\alpha$. |
| Type II fout | Het niet verwerpen van de nulhypothese wanneer deze in werkelijkheid onwaar is. Dit staat ook bekend als een "vals negatief". De kans hierop wordt aangeduid met $\beta$. |
| Power (onderscheidingsvermogen) | De kans dat een statistische test de nulhypothese correct verwerpt wanneer deze onwaar is. Het is gelijk aan 1 - $\beta$, en vertegenwoordigt de kans om een werkelijk bestaand effect te detecteren. |
| Effectgrootte | Een maat voor de omvang van een effect of het verschil tussen groepen, onafhankelijk van de steekproefgrootte. Het kwantificeert de praktische significantie van een resultaat. |
| Gestandaardiseerde effectgrootte | Een maat voor effectgrootte die wordt uitgedrukt in termen van standaarddeviaties, waardoor vergelijkingen tussen verschillende studies en metingen mogelijk worden. Voorbeelden zijn Cohen's d. |
| Steekproefgrootte | Het aantal observaties of deelnemers in een studie. Een grotere steekproefgrootte verhoogt over het algemeen de power van een onderzoek. |
Cover
WPO+2+S3+2526.pdf
Summary
# Inleiding tot univariaten data-analyse
Dit onderwerp introduceert de fundamentele concepten en technieken van univariaten data-analyse [1](#page=1).
### 1.1 Basisconcepten van univariaten data-analyse
Univariaten data-analyse richt zich op het analyseren van één enkele variabele tegelijk. Het doel is om inzicht te krijgen in de distributie, centrale tendens, spreiding en vorm van die variabele. Dit vormt de basis voor meer complexe analyses en helpt bij het beschrijven van de eigenschappen van een dataset [1](#page=1).
### 1.2 De rol van data-analyse in statistiek
Statistiek maakt het mogelijk om conclusies te trekken uit data, zelfs als deze onzekerheid bevatten. Echter, de interpretatie van statistische resultaten vereist kritisch denken, vooral bij hypothesetoetsing [1](#page=1) [2](#page=2).
#### 1.2.1 De 'null hypothesis' in context
De nulhypothese, wanneer letterlijk genomen, is in de echte wereld vrijwel altijd onjuist. Als deze zelfs maar in geringe mate onjuist is, zal een voldoende grote steekproef waarschijnlijk leiden tot de verwerping ervan. Dit roept de vraag op naar het belang van het verwerpen van een nulhypothese die per definitie onjuist is [2](#page=2).
> **Tip:** Begrijp de context waarin statistische toetsen worden uitgevoerd. De significantie van een resultaat hangt af van de steekproefgrootte en de werkelijke effectgrootte.
### 1.3 Toepassingen en interpretatie
Hoewel de exacte methoden en formules voor specifieke analyses niet in dit gedeelte worden uitgewerkt, legt dit onderwerp de noodzakelijke fundering voor het begrijpen van hoe individuele variabelen worden samengevat en begrepen. Dit is essentieel voor verdere stappen in data-analyse, zoals het onderzoeken van relaties tussen meerdere variabelen [1](#page=1).
---
# De student t-toets voor één steekproef
Dit onderdeel behandelt de student t-toets voor één steekproef, inclusief de theoretische achtergrond, voorwaarden, berekeningsmethoden en de interpretatie van de resultaten [3](#page=3) [4](#page=4).
### 2.1 Introductie tot de t-verdeling
De student t-toets is een alternatief voor de Z-toets wanneer de populatievariantie ($\sigma$) onbekend is en geschat moet worden met de steekproefvariantie ($s$). Deze toets is met name relevant voor kleine steekproeven (n < 30) of wanneer de data niet normaal verdeeld is. De t-verdeling werd ontwikkeld door William Sealy Gosset, een statisticus die werkte bij Guinness & Sons en zijn methoden toepaste op landbouwexperimenten met kleine steekproeven om gerstvariëteiten te selecteren [4](#page=4) [5](#page=5) [6](#page=6).
De t-verdeling, ook wel de Student t-verdeling genoemd, is vergelijkbaar met de normale verdeling maar heeft dikkere staarten, wat aangeeft dat er een grotere kans is op extreme waarden. Voor elke steekproefgrootte ($n$) is er een andere t-verdeling, gekenmerkt door het aantal vrijheidsgraden ($df$), dat in dit geval gelijk is aan $n-1$ [6](#page=6) [7](#page=7).
### 2.2 Voorwaarden voor de t-toets voor één steekproef
Om de student t-toets voor één steekproef correct toe te passen, moeten de volgende voorwaarden voldaan zijn [6](#page=6):
* De populatievariantie ($\sigma$) is onbekend.
* De steekproefgrootte is $n \ge 30$ of de data is normaal verdeeld.
### 2.3 Vrijheidsgraden
Vrijheidsgraden (degrees of freedom, $df$) zijn cruciaal voor de t-verdeling en worden bepaald door de steekproefgrootte. Bij de t-toets voor één steekproef geldt: $df = n-1$. Dit komt doordat zodra het gemiddelde van een steekproef bekend is, slechts $n-1$ van de waarnemingen vrij gekozen kunnen worden; de laatste waarneming is dan gedefinieerd door het gemiddelde en de overige $n-1$ waarnemingen [6](#page=6) [8](#page=8) [9](#page=9).
### 2.4 De stappen van de t-toets voor één steekproef
De t-toets voor één steekproef volgt een gestructureerd proces:
#### 2.4.1 Formuleren van hypothesen
1. **Nulhypothese ($H_0$)**: Stelt dat het populatiegemiddelde gelijk is aan een specifieke waarde ($\mu_0$).
$H_0: \mu = \mu_0$ [10](#page=10).
2. **Alternatieve hypothese ($H_A$)**: Stelt dat het populatiegemiddelde afwijkt van de specifieke waarde. Er zijn drie mogelijke vormen:
* Eenzijdig links: $H_A: \mu < \mu_0$ [10](#page=10).
* Eenzijdig rechts: $H_A: \mu > \mu_0$ [10](#page=10).
* Tweezijdig: $H_A: \mu \neq \mu_0$ [10](#page=10).
#### 2.4.2 Berekenen van de toetsingsgrootheid
De toetsingsgrootheid ($t_{obs}$) meet het verschil tussen het steekproefgemiddelde ($\bar{x}$) en het hypothetische populatiegemiddelde ($\mu_0$), gedeeld door de standaardfout van het gemiddelde [10](#page=10).
De formule voor de toetsingsgrootheid is:
$$ t_{obs} = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$ [10](#page=10).
De steekproefstandaarddeviatie ($s$) wordt berekend met de formule:
$$ s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$ [10](#page=10).
#### 2.4.3 Berekenen van de p-waarde (overschrijdingskans)
De p-waarde vertegenwoordigt de kans om een toetsingsgrootheid te observeren die minstens zo extreem is als de berekende $t_{obs}$, gegeven dat de nulhypothese waar is. Er zijn drie methoden om de p-waarde te bepalen [11](#page=11) [12](#page=12) [13](#page=13):
**Methode 1: Gebruik van $|t_{obs}|$ en Tabel D (met p-waarde)** [11](#page=11).
* **Eenzijdige hypothese**: Zoek de absolute waarde van de berekende $t_{obs}$ op in Tabel D voor de corresponderende $df$. De tabel geeft direct de p-waarde aan.
* Als $p < \alpha$, verwerp $H_0$.
* Als $p > \alpha$, aanvaard $H_0$.
* **Tweezijdige hypothese**: Zoek $|t_{obs}|$ in Tabel D voor de corresponderende $df$. Vermenigvuldig de gevonden p-waarde met 2.
* Als $2p < \alpha$, verwerp $H_0$.
* Als $2p > \alpha$, aanvaard $H_0$.
**Methode 2: Gebruik van $t^*$ (kritieke waarde) en Tabel D** [12](#page=12).
* **Eenzijdige hypothese**: Zoek de kritieke t-waarde ($t^*$) in Tabel D, gebruikmakend van de kolom voor $\alpha$ en de rij voor $df$.
* Als $|t_{obs}| > t^*$, verwerp $H_0$.
* Als $|t_{obs}| \le t^*$, aanvaard $H_0$.
* **Tweezijdige hypothese**: Zoek de kritieke t-waarde ($t^*$) in Tabel D, gebruikmakend van de kolom voor $\alpha/2$ en de rij voor $df$.
* Als $|t_{obs}| > t^*$, verwerp $H_0$.
* Als $|t_{obs}| \le t^*$, aanvaard $H_0$.
**Methode 3: Gebruik van Betrouwbaarheidsinterval (BI)** [13](#page=13).
Een betrouwbaarheidsinterval geeft een reeks waarden waarbinnen het populatiegemiddelde waarschijnlijk ligt.
* **Formule voor BI**:
* Eenzijdig: $[\bar{x} \pm t_{(n-1), \alpha}^* \cdot \frac{s}{\sqrt{n}}]$ (Hierbij is $t^*$ de kritieke waarde voor een eenzijdige toets met significantieniveau $\alpha$ en $n-1$ vrijheidsgraden) [13](#page=13).
* Tweezijdig: $[\bar{x} \pm t_{(n-1), \alpha/2}^* \cdot \frac{s}{\sqrt{n}}]$ (Hierbij is $t^*$ de kritieke waarde voor een tweezijdige toets met significantieniveau $\alpha$ en $n-1$ vrijheidsgraden) [13](#page=13).
* **Beslissing**:
* Als de hypothetische waarde $\mu_0$ binnen het berekende betrouwbaarheidsinterval valt, wordt $H_0$ aanvaard (er is onvoldoende bewijs om $H_0$ te verwerpen) [13](#page=13).
* Als de hypothetische waarde $\mu_0$ buiten het berekende betrouwbaarheidsinterval valt, wordt $H_0$ verworpen (er is voldoende bewijs om $H_0$ te verwerpen) [13](#page=13).
#### 2.4.4 Formuleren van de conclusie (APA-style)
De conclusie moet duidelijk aangeven of de nulhypothese verworpen dan wel aanvaard wordt, en dit in de context van de onderzoeksvraag [14](#page=14).
* **Bij verwerping van $H_0$**:
* "Voldoende bewijs om te stellen dat [alternatieve hypothese in eigen woorden."
* De rapportage varieert afhankelijk van de gebruikte methode:
* Methode $|t_{obs}|$: $(t(df) = |t_{obs}|, p = p_{observed})$ [14](#page=14).
* Methode $t^*$: $(t(df) = t_{obs}, p < \alpha)$ [14](#page=14).
* Methode BI: $( (1-2 \cdot \alpha)\% \text{ BI} = [\bar{x} \mp t_{(n-1); \alpha}^* \cdot \frac{s}{\sqrt{n}}] \text{ (eenzijdig) of } (1-\alpha)\% \text{ BI} = [\bar{x} \mp t_{(n-1); \alpha/2}^* \cdot \frac{s}{\sqrt{n}}] \text{ (tweezijdig)} )$ [14](#page=14).
* **Bij aanvaarding van $H_0$**:
* "Onvoldoende bewijs om te stellen dat [alternatieve hypothese in eigen woorden."
* De rapportage varieert afhankelijk van de gebruikte methode op dezelfde wijze als bij verwerping van $H_0$, met dien verstande dat bij de $|t_{obs}|$ methode de p-waarde groter is dan $\alpha$ ($p > \alpha$) en bij de $t^*$ methode $|t_{obs}| \le t^*$. Bij de BI-methode valt $\mu_0$ binnen het interval [14](#page=14).
> **Tip:** Zorg dat je altijd de drie methoden (p-waarde, kritieke waarde, en betrouwbaarheidsinterval) beheerst, omdat examens de flexibiliteit kunnen vereisen om tussen deze methoden te schakelen of ze te vergelijken.
> **Tip:** Let goed op het verschil tussen eenzijdige en tweezijdige toetsen bij het opzoeken van kritieke waarden of het interpreteren van p-waarden uit tabellen. Dit is een veelvoorkomende foutbron.
---
# Oefeningen student t-toets
Dit gedeelte bevat een reeks oefeningen ter consolidatie van de leerstof over de student t-toets voor één steekproef.
### 3.1 Oefening 1
De eerste oefening, genummerd als Oef 1, is bedoeld om de basisprincipes van de student t-toets voor één steekproef te oefenen. De specifieke inhoud van deze oefening wordt niet uitgewerkt in de verstrekte documentatie, maar het valt binnen het kader van de opgaven op pagina's 15 tot en met 20 [15](#page=15).
### 3.2 Oefening 2
Oefening 2, te vinden op pagina 17, bouwt voort op de concepten geïntroduceerd in de vorige oefening. Net als Oef 1, is deze opgave gericht op het toepassen van de student t-toets voor één steekproef, waarbij de studenten de geleerde theorie in praktijk brengen [17](#page=17).
### 3.3 Oefening 3
Oefening 3 op pagina 18 biedt verdere oefenmogelijkheden voor de student t-toets. Deze opgaven zijn ontworpen om de kennis en vaardigheden van studenten te versterken bij het uitvoeren van deze specifieke statistische toets [18](#page=18).
### 3.4 Oefening 4
Pagina 19 bevat Oefening 4, gedateerd 16 januari 2019. Deze oefening is onderdeel van de reeks die gericht is op het toepassen van de student t-toets voor één steekproef. De oefening beoogt het consolideren van de leerstof op een praktisch niveau [19](#page=19).
### 3.5 Oefening 5
Oefening 5, eveneens gedateerd 16 januari 2019, is te vinden op pagina 20. Deze oefening is de laatste in de reeks van de kernoefeningen en dient ter verdere verankering van de kennis rondom de student t-toets voor één steekproef [20](#page=20).
### 3.6 Extra oefeningen
Naast de standaard oefeningen 1 tot en met 5, worden er ook extra oefeningen 6 en 7 aangeboden. Deze extra opgaven bieden de mogelijkheid om de beheersing van de student t-toets voor één steekproef verder te verdiepen en te testen [15](#page=15).
> **Tip:** Werk de oefeningen systematisch door, beginnend met de basisconcepten en werkend naar de meer complexe toepassingen. Controleer uw antwoorden grondig en probeer te begrijpen waarom een bepaalde conclusie wordt getrokken op basis van de t-toets resultaten.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Univariate data-analyse | Een statistische methode die zich richt op de analyse van één variabele tegelijkertijd om deze te beschrijven en te samenvatten. |
| Nulhypothese (H0) | Een statistische hypothese die stelt dat er geen significant verschil of verband is tussen variabelen of populaties. Deze wordt getest om te zien of deze verworpen kan worden. |
| Alternatieve hypothese (HA) | Een statistische hypothese die stelt dat er wel een significant verschil of verband is tussen variabelen of populaties, als tegenhanger van de nulhypothese. |
| Steekproef | Een deelverzameling van een populatie die wordt gebruikt om conclusies te trekken over de gehele populatie. |
| Populatie | De complete verzameling van alle individuen of objecten waarover een onderzoek informatie wil verkrijgen. |
| T-toets voor één steekproef | Een statistische test die wordt gebruikt om het gemiddelde van een enkele steekproef te vergelijken met een bekende of veronderstelde populatiegemiddelde. |
| Student t-verdeling | Een continue kansverdeling die vergelijkbaar is met de normale verdeling, maar wordt gebruikt bij het analyseren van kleine steekproeven wanneer de populatiestandaardafwijking onbekend is. |
| Vrijheidsgraden | Het aantal waarden dat vrij kan variëren in een berekening, gerelateerd aan de steekproefgrootte en het aantal parameters dat wordt geschat. Voor de t-toets voor één steekproef is dit doorgaans n-1. |
| Steekproefgemiddelde ($\bar{x}$) | Het gemiddelde van de waarden in een steekproef, gebruikt als schatter voor het populatiegemiddelde. |
| Standaardafwijking (s) | Een maat voor de spreiding van datapunten rondom het gemiddelde in een steekproef. Het is een schatter voor de populatiestandaardafwijking ($\sigma$). |
| Toetsingsgrootheid | Een waarde berekend uit steekproefgegevens die wordt gebruikt om de nulhypothese te evalueren. Voor de t-toets is dit de t-statistiek. |
| p-waarde (overschrijdingskans) | De kans om een resultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is. Een lage p-waarde (< $\alpha$) leidt tot verwerping van de nulhypothese. |
| Significantieniveau ($\alpha$) | De drempelwaarde voor de p-waarde waaronder de nulhypothese wordt verworpen. Vaak ingesteld op 0.05. |
| Betrouwbaarheidsinterval (BI) | Een reeks waarden die met een bepaalde waarschijnlijkheid (bijv. 95%) het ware populatieparameter bevat. |
| APA-stijl | Een reeks richtlijnen voor het schrijven en citeren in academische teksten, die specifieke formaten voorschrijft voor het rapporteren van statistische resultaten. |
Cover
WPO+3+S3+2526.pptx
Summary
# Introductie tot data-analyse
Dit gedeelte introduceert de concepten van univariate data-analyse en het belang van het formuleren van hypothesen.
### 1.1 Soorten steekproeven
Data-analyse kan worden onderverdeeld op basis van de structuur van de steekproeven, met name of deze ongepaard (onafhankelijk) of gepaard (afhankelijk) zijn.
#### 1.1.1 Ongepaarde (onafhankelijke) steekproeven
* **Kenmerken:** Deze steekproeven worden verzameld in een "between subjects" design, wat betekent dat de observaties binnen de ene groep geen relatie hebben met de observaties binnen de andere groep. De steekproeven zijn niet-gekoppeld en onafhankelijk.
* **Voorbeeld:** Het vergelijken van de snelheid van mannen met de snelheid van vrouwen.
#### 1.1.2 Gepaarde (afhankelijke) steekproeven
* **Kenmerken:** Deze steekproeven worden verzameld in een "within subjects" design, wat impliceert dat elke observatie gekoppeld is aan een andere observatie. De steekproeven zijn gekoppeld en afhankelijk. Dit design wordt vaak gebruikt bij herhaalde metingen.
* **Voorbeeld:** Het meten van de leerprestaties van leerlingen vóór en na het nemen van EPO om te zien of er een verschil is.
### 1.2 Paired sample T-test
De paired sample t-test is een statistische procedure die wordt gebruikt om het verschil in responsen tussen twee behandelingen te analyseren wanneer de data gepaard is.
* **Procedure:** Voor elk paar wordt het verschil berekend: $d_i = x_{i1} - x_{i2}$. Op deze verschilscores worden vervolgens procedures toegepast die vergelijkbaar zijn met een 1-steekproef t-test.
* **Hypothese:** Men kan op voorhand een specifiek verschil verwachten (bijvoorbeeld een verschil van 5 punten). In dat geval wordt deze verwachte waarde gebruikt in de analyse in plaats van 0.
### 1.3 One sample t-test versus paired t-test
Hoewel beide tests gebruik maken van t-procedures, verschillen ze in hun toepassing en de aard van de data die ze analyseren.
* **One sample t-test:** Wordt gebruikt om het gemiddelde van een enkele steekproef te vergelijken met een specifieke, bekende waarde (hypothetisch gemiddelde, $\mu$).
* **Voorwaarden:** De standaardafwijking ($\sigma$) is onbekend, en de data is normaal verdeeld of de steekproefgrootte ($n$) is minimaal 30.
* **Paired t-test:** Wordt gebruikt om het gemiddelde verschil tussen twee gerelateerde metingen te vergelijken met nul (of een andere hypothetische verschilwaarde).
* **Voorwaarden:** De standaardafwijking ($\sigma$) van de verschilscores is onbekend, en de verschilscores zijn normaal verdeeld of de steekproefgrootte ($n$) van de paren is minimaal 30.
#### 1.3.1 Betrouwbaarheidsinterval
Zowel voor de one sample t-test als voor de paired t-test kan een betrouwbaarheidsinterval worden berekend om het interval aan te geven waarbinnen het populatiegemiddelde of het populatieverschil waarschijnlijk ligt.
### 1.4 Formuleren van hypothesen
Het formuleren van duidelijke hypothesen is een cruciale eerste stap in data-analyse. Dit geldt met name voor het opzetten van een paired t-test, waar het verschil tussen twee gerelateerde metingen centraal staat.
> **Tip:** Zorg ervoor dat je nulhypothese ($H_0$) en alternatieve hypothese ($H_a$) specifiek en toetsbaar zijn, en dat ze het onderzochte fenomeen accuraat weerspiegelen.
### 1.5 Aannames controleren
Bij het uitvoeren van statistische tests, zoals de paired t-test, is het belangrijk om de onderliggende aannames te controleren.
* **Normaliteit:** Een van de belangrijkste aannames is dat de verschilscores normaal verdeeld zijn. Als deze aanname niet is voldaan, kunnen de resultaten van de t-test minder betrouwbaar zijn.
> **Tip:** Wanneer de aannames van de t-test niet voldaan zijn, kunnen niet-parametrische alternatieven zoals de Wilcoxon signed-rank test overwogen worden.
### 1.6 Conclusies trekken
Conclusies in data-analyse worden doorgaans getrokken op basis van twee methoden:
1. **Overschrijdingskans (p-waarde):** Vergelijkt de berekende p-waarde met het vooraf bepaalde significantieniveau ($\alpha$). Als $p < \alpha$, wordt de nulhypothese verworpen.
2. **Kritische waarde:** Vergelijkt de berekende teststatistiek met de kritische waarde(n) uit de t-verdeling. Als de teststatistiek buiten het acceptatiegebied valt, wordt de nulhypothese verworpen.
> **Tip:** Het begrijpen van zowel de p-waarde als de kritische waarde methode geeft een completer beeld van de statistische significantie van de resultaten.
### 1.7 Belangrijke overwegingen
* **Z-toets:** Hoewel niet direct behandeld in dit gedeelte, is het belangrijk te weten dat de z-toets een alternatief is voor de t-toets wanneer de populatie standaardafwijking bekend is of wanneer de steekproefgrootte zeer groot is ($n \ge 30$).
* **Toepassing van hypothesen:** Het formuleren van hypothesen kan leiden tot specifieke verwachtingen die direct in de berekening van verschilscores worden meegenomen (bv. een verwachte toename van 5 punten). Dit is een belangrijk aspect bij het opzetten van gepaarde analyses.
---
# Soorten steekproeven en het paired t-test
Dit onderwerp behandelt de verschillende soorten steekproeven, met een specifieke focus op ongepaarde en gepaarde steekproeven, en introduceert de paired t-test voor de analyse van gepaarde data.
### 2.1 Soorten steekproeven
Steekproeven kunnen worden onderscheiden op basis van de relatie tussen de waarnemingen binnen de steekproef. De twee hoofdtypen zijn ongepaarde (onafhankelijke) en gepaarde (afhankelijke) steekproeven.
#### 2.1.1 Ongepaarde (niet-gekoppelde) steekproeven
Ongepaarde steekproeven, ook wel onafhankelijke steekproeven genoemd, komen voort uit een *between subjects design*. Dit betekent dat de observaties in de ene groep onafhankelijk zijn van de observaties in de andere groep. Er is geen verband tussen de individuele metingen in de ene groep en die in de andere.
**Voorbeeld:** Het vergelijken van de snelheid van mannen en vrouwen. De groep mannen is onafhankelijk van de groep vrouwen.
#### 2.1.2 Gepaarde (gekoppelde) steekproeven
Gepaarde steekproeven, ook wel afhankelijke steekproeven genoemd, komen voort uit een *within subjects design* of een design waarbij paren van individuen worden gevormd op basis van bepaalde kenmerken. Dit betekent dat de observaties binnen een paar aan elkaar gerelateerd zijn. Typisch wordt bij gepaarde data tweemaal gemeten bij dezelfde proefpersoon of bij proefpersonen die gematcht zijn.
**Voorbeeld:** Het meten of leerlingen sneller worden na het nemen van EPO. Hierbij worden twee metingen gedaan bij dezelfde leerlingen: één meting vóór en één meting na de interventie.
### 2.2 De paired t-test
De paired t-test is een statistische toets die wordt gebruikt om het verschil in responsen tussen twee gerelateerde metingen te analyseren, zoals bij gepaarde steekproeven. Het principe is om het verschil te berekenen tussen de twee metingen voor elk paar. Deze verschilscores worden vervolgens geanalyseerd met een procedure die vergelijkbaar is met een *one sample t-test*.
#### 2.2.1 Toepassing van de paired t-test
Bij een paired t-test wordt voor elk paar *i* het verschil berekend:
$$d_i = x_{i1} - x_{i2}$$
waarbij $x_{i1}$ de score van het eerste paar is en $x_{i2}$ de score van het tweede paar. Deze verschilscores ($d_i$) worden vervolgens gebruikt om de gemiddelde verschilscore te berekenen en te toetsen of dit gemiddelde significant afwijkt van nul (of een andere verwachte waarde).
> **Tip:** Het is belangrijk op te merken dat men soms verwacht dat het verschil tussen de twee metingen een specifieke waarde zal hebben (bijvoorbeeld een toename van 5 punten). In dat geval kan deze verwachte waarde worden ingevuld in plaats van nul bij de berekening van de verschilscore, wat overeenkomt met een *one sample t-test* op de verschilscores.
#### 2.2.2 Voorwaarden voor de paired t-test
De voorwaarden voor het uitvoeren van een paired t-test zijn vergelijkbaar met die van een *one sample t-test*:
* **Onbekende populatievariantie ($\sigma^2$):** De standaarddeviatie van de populatie is onbekend.
* **Voldoende steekproefgrootte of normaliteit van de verschilscores:**
* De steekproefgrootte ($n$) is groter dan of gelijk aan 30, OF
* De verschilscores zijn normaal verdeeld.
#### 2.2.3 Hypothesen formuleren voor de paired t-test
Bij het formuleren van hypothesen voor een paired t-test ligt de focus op het gemiddelde verschil (${\mu}_d$) tussen de gepaarde metingen.
* **Nulhypothese ($H_0$):** Er is geen significant verschil tussen de gepaarde metingen.
$$H_0: {\mu}_d = 0$$
* **Alternatieve hypothese ($H_1$):** Er is wel een significant verschil tussen de gepaarde metingen. Dit kan een tweezijdige hypothese zijn (het verschil is niet nul):
$$H_1: {\mu}_d \neq 0$$
Of een eenzijdige hypothese, afhankelijk van de verwachting:
$$H_1: {\mu}_d > 0 \quad \text{of} \quad H_1: {\mu}_d < 0$$
#### 2.2.4 Betrouwbaarheidsinterval voor het verschil
Net als bij de *one sample t-test*, kan voor de paired t-test een betrouwbaarheidsinterval worden berekend voor het gemiddelde verschil. Dit interval geeft een reeks waarden aan waarbinnen het ware populatiegemiddelde verschil waarschijnlijk ligt.
> **Tip:** Bij het interpreteren van het betrouwbaarheidsinterval: als het interval de nul niet bevat, wordt de nulhypothese verworpen bij het corresponderende significantieniveau.
### 2.3 Vergelijking: One sample t-test vs. Paired t-test
Hoewel de paired t-test gebaseerd is op de principes van de *one sample t-test*, is het essentieel om het onderscheid te begrijpen:
* De **one sample t-test** wordt gebruikt om het gemiddelde van één steekproef te vergelijken met een bekende of verwachte populatiewaarde.
* De **paired t-test** wordt gebruikt om het gemiddelde verschil tussen twee gerelateerde metingen (paren) te analyseren, waarbij het gemiddelde verschil van de populatie wordt getoetst.
De kern van de paired t-test ligt in het transformeren van het probleem van twee gerelateerde variabelen naar één variabele (de verschilscore) die vervolgens wordt geanalyseerd met een *one sample t-test*. De assumptie van normaliteit slaat hierbij specifiek op de verdeling van deze verschilscores.
---
# Voorwaarden en toepassingen van de t-test
Dit onderwerp bespreekt de voorwaarden en toepassingen van de one-sample t-test en de paired t-test, inclusief betrouwbaarheidsintervallen.
### 3.1 De t-test: een overzicht
De t-test is een statistische methode die gebruikt wordt om hypothesen te toetsen over populatiegemiddelden wanneer de populatiestandaarddeviatie onbekend is. Dit in tegenstelling tot de z-toets, die de populatiestandaarddeviatie kent.
#### 3.1.1 Soorten steekproeven
Bij het analyseren van data is het cruciaal om onderscheid te maken tussen verschillende soorten steekproeven:
* **Ongepaarde (unpaired/independent) steekproeven:** Deze komen voort uit een between-subjects design, waarbij onafhankelijke groepen worden vergeleken. Een voorbeeld is het vergelijken van de snelheid van mannen ten opzichte van vrouwen.
* **Gepaarde (paired/dependent) steekproeven:** Deze komen voort uit een within-subjects design, waarbij herhaalde metingen bij dezelfde subjecten worden gedaan of waarbij subjecten gematcht zijn. Een voorbeeld is het meten van de snelheid van leerlingen vóór en na het nemen van EPO.
#### 3.1.2 De paired t-test: een diepere kijk
De paired t-test wordt toegepast om het verschil in responsen tussen twee behandelingen na te gaan in een design met gepaarde data. Hierbij wordt het verschilscore $d$ voor elk paar $i$ berekend als $d_i = x_{i1} - x_{i2}$. Op deze verschilscores worden vervolgens procedures van de one-sample t-test toegepast.
> **Tip:** Wees alert op de definitie van de verschilscore. Soms kan er een verwachte systematische afwijking zijn (bv. 5 punten verschil), die dan als nulhypothese wordt meegenomen in de verschilscoreberekening.
### 3.2 Voorwaarden van de t-testen
Om de resultaten van een t-test betrouwbaar te interpreteren, moeten aan bepaalde voorwaarden voldaan zijn:
#### 3.2.1 One sample t-test
* De populatiestandaarddeviatie ($\sigma$) is onbekend.
* De steekproef is willekeurig getrokken.
* De data is (bij benadering) normaal verdeeld, óf de steekproefgrootte ($n$) is voldoende groot (vuistregel: $n \ge 30$).
#### 3.2.2 Paired t-test
* De populatiestandaarddeviatie van de verschilscores ($\sigma_d$) is onbekend.
* De steekproef is willekeurig getrokken.
* De verschilscores ($d$) zijn (bij benadering) normaal verdeeld, óf de steekproefgrootte ($n$, het aantal paren) is voldoende groot (vuistregel: $n \ge 30$).
> **Tip:** Bij oefeningen kan soms expliciet gevraagd worden om aan te nemen dat aan de assumptie van normale verdeling van verschilscores is voldaan, wat de toetsing vergemakkelijkt.
### 3.3 Betrouwbaarheidsinterval
Naast hypothesetoetsing, bieden t-testen ook de mogelijkheid tot het construeren van betrouwbaarheidsintervallen.
* **Betrouwbaarheidsinterval voor de one-sample t-test:** Dit interval geeft een reeks van waarden waarbinnen het populatiegemiddelde ($\mu$) met een bepaalde mate van zekerheid (betrouwbaarheidsniveau) ligt.
* **Betrouwbaarheidsinterval voor de paired t-test:** Dit interval geeft een reeks van waarden waarbinnen het populatiegemiddelde van de verschilscores ($\mu_d$) met een bepaalde mate van zekerheid ligt.
### 3.4 Toepassingen en oefeningen
De t-test vindt brede toepassingen in diverse onderzoeksgebieden. Hieronder volgen voorbeelden van hoe deze toetsen in de praktijk kunnen worden toegepast, met de focus op het formuleren van hypothesen en het controleren van assumpties.
#### 3.4.1 Voorbeeld van een paired t-test toepassing (Chemotherapie en cognitie)
Stel, men onderzoekt het effect van chemotherapie op cognitieve functies.
* **Hypothese:** Er is een significant verschil in cognitieve prestaties vóór en ná chemotherapie.
* **Data:** Cognitieve scores van dezelfde patiënten worden gemeten op twee momenten: vóór de behandeling en na de behandeling.
* **Test:** Een paired t-test wordt gebruikt om te bepalen of het gemiddelde verschil in scores significant is.
#### 3.4.2 Voorbeeld van een paired t-test toepassing (Stressreductietraining)
Bij de evaluatie van een stressreductietraining kunnen de volgende stappen worden gevolgd:
1. **Formuleren van hypothesen:**
* Nulhypothese ($H_0$): Er is geen verschil in stressniveau vóór en na de training ($\mu_d = 0$).
* Alternatieve hypothese ($H_1$): Er is een verschil in stressniveau vóór en na de training ($\mu_d \ne 0$), of specifiek een reductie van stress ($\mu_d < 0$).
2. **Controleren van assumpties:** Aannemen dat de verschilscores normaal verdeeld zijn.
3. **Statistische toetsing:**
* **Met de overschrijdingskans (p-waarde):** Als de berekende p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$), wordt de nulhypothese verworpen.
* **Met de kritische waarde:** Als de berekende toetsingsgrootheid buiten het acceptatiegebied valt (bepaald door de kritische waarde), wordt de nulhypothese verworpen.
> **Example:** Een onderzoeker wil weten of een nieuwe trainingsmethode voor studenten leidt tot betere examenresultaten. De examenresultaten van een groep studenten worden gemeten na de traditionele methode en na de nieuwe methode. De verschilscores worden geanalyseerd met een paired t-test. Als de p-waarde bijvoorbeeld 0.03 is en het significantieniveau $\alpha = 0.05$, wordt de nulhypothese verworpen, wat suggereert dat de nieuwe methode significant andere resultaten oplevert.
---
# Praktische oefeningen en conclusietrekking
Deze sectie richt zich op het toepassen van statistische kennis op concrete scenario's, met name bij gepaarde steekproeven, en het trekken van conclusies met behulp van overschrijdingskansen en kritische waarden. Er wordt ingegaan op de berekening en interpretatie van deze waarden in de context van verschillende oefeningen.
### 4.1 Verschillen tussen ongepaarde en gepaarde steekproeven
Een cruciaal onderscheid in statistische analyses is het type steekproef dat wordt gebruikt:
* **Ongepaarde (onafhankelijke) steekproeven:** Deze worden gebruikt in een 'between subjects design', waarbij metingen onafhankelijk van elkaar zijn. Een voorbeeld is het vergelijken van de snelheid van mannen en vrouwen.
* **Gepaarde (afhankelijke) steekproeven:** Deze worden gebruikt in een 'within subjects design', waarbij metingen binnen dezelfde proefpersonen worden gedaan, bijvoorbeeld twee herhaalde metingen na een interventie. Hierbij wordt gekeken naar het verschil in responsen op twee behandelingen.
### 4.2 De Paired Sample T-test
De paired sample t-test wordt ingezet om het verschil in responsen op twee behandelingen te onderzoeken binnen een design met gepaarde data. Hierbij wordt het verschil, aangeduid als $d = (x_{i1} - x_{i2})$, voor elk paar $i$ berekend. Vervolgens worden hierop de procedures van de one-sample t-test toegepast.
#### 4.2.1 Voorwaarden voor de Paired Sample T-test
De voorwaarden voor het uitvoeren van een paired sample t-test zijn vergelijkbaar met die van een one sample t-test:
* De standaarddeviatie van de populatie ($\sigma$) is onbekend.
* De steekproefomvang ($n$) is minimaal 30, OF de verschilscores zijn normaal verdeeld.
#### 4.2.2 Betrouwbaarheidsinterval bij de Paired Sample T-test
Net als bij de one sample t-test kan een betrouwbaarheidsinterval worden berekend om de range van mogelijke populatieverschillen te schatten.
### 4.3 Conclusietrekking met overschrijdingskansen en kritische waarden
Bij het trekken van conclusies uit statistische analyses, zoals de paired sample t-test, zijn twee methoden centraal:
1. **Overschrijdingskans (p-waarde):** Dit is de kans om een steekproefresultaat te verkrijgen dat minstens zo extreem is als het waargenomen resultaat, ervan uitgaande dat de nulhypothese waar is. Een lage p-waarde (meestal kleiner dan een vooraf bepaald significantieniveau, $\alpha$, bijvoorbeeld 0.05) leidt tot verwerping van de nulhypothese.
2. **Kritische waarde:** Dit is de grens van de teststatistiek waarboven of waaronder de nulhypothese wordt verworpen. De kritische waarde hangt af van het gekozen significantieniveau ($\alpha$) en de vrijheidsgraden van de test.
#### 4.3.1 Toepassing in oefeningen
Bij het controleren van de assumpties van de paired sample t-test, zoals de normaliteit van de verschilscores, wordt aangenomen dat deze aan de voorwaarden voldoen. Vervolgens wordt de conclusie getrokken op basis van zowel de overschrijdingskans als de kritische waarde.
> **Tip:** Het is belangrijk om te begrijpen dat de overschrijdingskans en de kritische waarde twee verschillende, maar gerelateerde manieren zijn om tot dezelfde statistische conclusie te komen. Ze bieden een consistent kader voor hypothesetoetsing.
### 4.4 Specifieke Oefeningen
De documentatie verwijst naar diverse praktische oefeningen om deze concepten toe te passen:
* **Oefening 3: Chemotherapie en cognitie:** Deze oefening impliceert waarschijnlijk het analyseren van gepaarde data om de impact van chemotherapie op cognitieve functies te onderzoeken.
* **Oefening 4: Stressreductietraining:** Hierbij wordt de paired sample t-test gebruikt om de effectiviteit van een stressreductietraining te evalueren. De assumpties van de test (normaliteit van verschilscores) worden gecontroleerd, en conclusies worden getrokken met behulp van de overschrijdingskans en kritische waarde.
* **Oefening 6: Wie heeft gelijk?:** Deze oefening is waarschijnlijk ontworpen om studenten te laten redeneren over welke statistische aanpak (gepaard of ongepaard) het meest geschikt is voor een gegeven onderzoekssituatie en hoe de resultaten te interpreteren.
> **Voorbeeld:** Stel dat we de effectiviteit van een nieuwe leermethode onderzoeken door de testresultaten van studenten te meten vóór en na de introductie van de methode. Dit is een gepaard design. We berekenen de verschilscores voor elke student. Vervolgens passen we een paired sample t-test toe. Als de berekende p-waarde kleiner is dan 0.05, verwerpen we de nulhypothese (dat er geen verschil is) en concluderen we dat de leermethode een significant effect heeft. Alternatief kunnen we de berekende t-statistiek vergelijken met de kritische t-waarde uit de t-verdeling. Als de berekende t-statistiek groter is dan de kritische t-waarde, bereiken we dezelfde conclusie.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Univariate data-analyse | Een statistische methode die gericht is op het analyseren van één variabele tegelijk om patronen, tendensen en kenmerken ervan te ontdekken. |
| Paired sample T-test | Een statistische test die wordt gebruikt om het gemiddelde verschil tussen twee gerelateerde groepen metingen te evalueren, zoals metingen van dezelfde proefpersonen onder twee verschillende omstandigheden. |
| Formularium | Een verzameling van formules en regels die relevant zijn voor een bepaald studiegebied of vak, vaak gebruikt als naslagwerk. |
| Between subjects design | Een experimenteel ontwerp waarbij verschillende groepen proefpersonen worden blootgesteld aan verschillende behandelingen of condities. |
| Within subjects design | Een experimenteel ontwerp waarbij dezelfde proefpersonen worden blootgesteld aan alle behandelingen of condities, waardoor herhaalde metingen worden verkregen. |
| Gepaarde steekproeven | Een type steekproef waarbij observaties uit de ene groep op een systematische manier gekoppeld zijn aan observaties uit de andere groep, bijvoorbeeld door metingen van dezelfde individuen op twee verschillende tijdstippen. |
| Ongepaarde steekproeven | Een type steekproef waarbij de observaties in de ene groep onafhankelijk zijn van de observaties in de andere groep; de groepen zijn niet systematisch aan elkaar gerelateerd. |
| Verschilscores | De resultaten verkregen door het aftrekken van de ene meting van de andere binnen een gepaard paar, om het effect van een behandeling of conditie te kwantificeren. |
| One sample t-test | Een statistische test die wordt gebruikt om het gemiddelde van een enkele steekproef te vergelijken met een bekende of veronderstelde populatiegemiddelde wanneer de populatievariantie onbekend is. |
| Betrouwbaarheidsinterval | Een reeks waarden die naar verwachting een bepaald populatieparameter bevat, berekend uit steekproefgegevens, met een gespecificeerd betrouwbaarheidsniveau. |
| Overschrijdingskans (p-waarde) | De waarschijnlijkheid van het verkrijgen van testresultaten die minstens zo extreem zijn als de huidige testresultaten, aangenomen dat de nulhypothese waar is. |
| Kritische waarde | De grens- of grenswaarde die wordt gebruikt om te beslissen of de nulhypothese wordt verworpen, gebaseerd op de teststatistiek en het gekozen significantieniveau. |
Cover
WPO+4+S3+2526.pptx
Summary
# Introductie tot univariate data-analyse en steekproeftypes
Dit gedeelte introduceert de basisprincipes van univariate data-analyse en maakt onderscheid tussen ongepaarde en gepaarde steekproeven met psychologische voorbeelden.
### 1.1 Basisprincipes van univariate data-analyse
Univariate data-analyse richt zich op het analyseren van één variabele tegelijk. De centrale vraag is vaak of er een significant verschil is tussen groepen op basis van deze ene variabele.
### 1.2 Soorten steekproeven
Bij het analyseren van data is het cruciaal om het type steekproef te herkennen, aangezien dit de keuze van de statistische toets beïnvloedt. Er wordt een onderscheid gemaakt tussen twee hoofdtypes: ongepaarde en gepaarde steekproeven.
#### 1.2.1 Ongepaarde steekproeven
Ongepaarde steekproeven, ook wel niet-gepaarde, niet-gekoppelde of onafhankelijke steekproeven genoemd, komen voort uit een *between subjects design*. Dit betekent dat de metingen worden gedaan bij verschillende, onafhankelijke groepen subjecten.
* **Kenmerk:** De subjecten in de ene groep zijn op geen enkele wijze gerelateerd aan de subjecten in de andere groep.
* **Voorbeeld uit de psychologie:** Sara onderzoekt of mannen gemiddeld meer kinderen willen dan vrouwen. Ze vraagt aan 10 mannen en 10 vrouwen, die willekeurig zijn aangesproken op verschillende openbare plaatsen, hoeveel kinderen ze graag zouden willen. De mannen en vrouwen vormen twee onafhankelijke groepen.
#### 1.2.2 Gepaarde steekproeven
Gepaarde steekproeven, ook wel gekoppelde, gekoppelde of afhankelijke steekproeven genoemd, komen voort uit een *within subjects design* of een design waarbij paren van subjecten worden gevormd. Dit betekent dat de metingen worden gedaan bij dezelfde subjecten (herhaaldelijk) of bij subjecten die op een specifieke manier aan elkaar gekoppeld zijn.
* **Kenmerk:** Er is een direct verband of afhankelijkheid tussen de metingen binnen een paar of tussen herhaalde metingen bij dezelfde persoon.
* **Voorbeeld uit de psychologie:** Bart onderzoekt het effect van hypnose op het kortetermijngeheugen (KTG). Hij laat een groep mensen woorden opzeggen onder hypnose en vergelijkt dit met een controlegroep die dezelfde taak uitvoert zonder hypnose. Hierbij worden twee onafhankelijke groepen vergeleken, wat in dit specifieke voorbeeld van Bart een ongepaarde steekproef betreft (twee aparte groepen). Een beter voorbeeld van een *gepaarde steekproef* binnen de psychologie zou zijn: "Leerlingen sneller na het nemen van EPO?". Hierbij worden twee metingen gedaan bij dezelfde groep leerlingen: één meting vóór de EPO-toediening en één meting ná de EPO-toediening. De metingen vóór en ná EPO zijn gekoppeld aan dezelfde leerling. Een ander voorbeeld is wanneer men het effect van een bepaalde therapie onderzoekt. De scores vóór de therapie en de scores ná de therapie van dezelfde patiënten worden dan vergeleken.
### 1.3 De ongepaarde t-toets
De ongepaarde t-toets is een statistische toets die wordt gebruikt om te bepalen of er een significant verschil is in gemiddelden tussen twee onafhankelijke groepen.
* **Toetsstatistiek:** De toetsstatistiek van de ongepaarde t-toets is een verschilstatistiek, die het verschil tussen de groepsgemiddelden relateert aan de spreiding binnen de groepen.
* **Varianties:** In de praktijk worden twee soorten 2-steekproeven t-toetsen gebruikt, afhankelijk van de spreiding (varianties) in de groepen:
* **Gelijke varianties:** Wanneer de varianties in de twee populaties als gelijk worden beschouwd, wordt een *gepoolde standaardafwijking* gebruikt. Dit is een gewogen gemiddelde van de steekproefvarianties.
* **Ongelijke varianties:** Wanneer de varianties in de twee populaties als ongelijk worden beschouwd, wordt de ongepoolde steekproefstandaardafwijking gebruikt. Dit wordt ook wel de conservatievere optie genoemd, omdat deze robuuster is bij ongelijke varianties.
* **Controle van gelijke varianties:** De controle op gelijke varianties kan doorgaans enkel via statistische software worden uitgevoerd, bijvoorbeeld met een Levene's test. Handmatig is dit complex.
* **Voorwaarden (ongepaarde t-toets):**
* De populaties waaruit de steekproeven zijn getrokken, zijn normaal verdeeld.
* De varianties in de twee populaties zijn gelijk (voor de ongepoolde variant) of ongelijk (voor de ongepoolde variant, de conservatievere keuze).
* De metingen zijn onafhankelijk van elkaar.
* De steekproefgrootte is voldoende groot ($n \geq 30$ per groep), of de verdeling van de verschilscores is normaal verdeeld (dit geldt strikt genomen voor de gepaarde t-toets, maar wordt soms als vuistregel genoemd).
> **Tip:** Bij twijfel over de varianties of als software niet beschikbaar is, kies je bij voorkeur voor de t-toets die de ongepoolde steekproefstandaardafwijking gebruikt. Dit is de meer conservatieve en robuustere aanpak.
#### 1.3.1 Voorbeeld oefening 1: Kinderwens
Sara vroeg zich af of mannen meer kinderen willen dan vrouwen. Ze verzamelde data van 10 mannen en 10 vrouwen. De vraag is of het gemiddeld aantal gewenste kinderen significant verschilt tussen mannen en vrouwen, met een significantieniveau $\alpha = 5\%$. Er wordt aangenomen dat de voorwaarden voor de betreffende toets voldaan zijn. Aangezien de mannen en vrouwen willekeurig zijn geselecteerd en uit verschillende groepen komen, betreft dit een ongepaarde steekproef.
#### 1.3.2 Voorbeeld oefening 2: Kortetermijngeheugen en hypnose
Bart onderzoekt het effect van hypnose op het kortetermijngeheugen (KTG). Een groep mensen wordt onder hypnose getest en vergeleken met een controlegroep die niet onder hypnose is. De vraag is of mensen onder hypnose significant meer woorden kunnen onthouden dan mensen zonder hypnose, met $\alpha = 5\%$. Er wordt aangenomen dat de data uit normaal verdeelde populaties komen. De twee groepen (hypnose en controle) zijn onafhankelijk, dus dit is een ongepaarde steekproef.
#### 1.3.3 Voorbeeld oefening 3: Aandacht en slaaptekort
Een studie onderzoekt of slaaptekort de aandacht van volwassenen vermindert. Twee willekeurige steekproeven van 30 volwassenen nemen een aandachtstest af. De ene groep (testgroep) krijgt 4 uur slaap, de andere groep (controlegroep) krijgt 8 uur slaap. De resultaten worden vergeleken. De twee groepen zijn onafhankelijk, wat wijst op een ongepaarde steekproef.
### 1.4 Gepaarde t-toets versus ongepaarde t-toets
De keuze tussen een gepaarde en een ongepaarde t-toets hangt af van het onderzoeksdesign en de aard van de verzamelde data.
* **Gepaarde t-toets:**
* Wordt gebruikt wanneer de metingen gekoppeld zijn, bijvoorbeeld herhaalde metingen bij dezelfde personen (pre-test/post-test design) of metingen bij gematchte paren.
* **Voorwaarden:** De verschilscores tussen de gepaarde metingen zijn normaal verdeeld, of de steekproefgrootte is voldoende groot ($n \geq 30$). De variantie van de populatie van verschilscores is onbekend.
* **Ongepaarde t-toets:**
* Wordt gebruikt wanneer de metingen onafhankelijk zijn tussen twee groepen.
* **Voorwaarden:** De populaties waaruit de steekproeven zijn getrokken zijn normaal verdeeld. De varianties in de populaties kunnen gelijk of ongelijk zijn, met bijbehorende varianten van de toets.
> **Tip:** Een gepaarde t-toets is krachtiger (heeft meer power) dan een ongepaarde t-toets wanneer de data daadwerkelijk gepaard zijn, omdat het de variantie die door individuele verschillen tussen subjecten wordt veroorzaakt, elimineert. Gebruik het gepaarde design alleen wanneer het gepast is voor de onderzoeksvraag en het design.
---
# De ongepaarde t-toets: formulering en toepassing
Dit topic introduceert de ongepaarde t-toets, een statistische methode om de gemiddelden van twee onafhankelijke groepen te vergelijken, inclusief de formulering van de toetsstatistiek en de toepassing ervan in diverse praktijkscenario's, met speciale aandacht voor variantiehomogeniteit.
### 2.1 Algemene concepten en toetsstatistiek
De ongepaarde t-toets wordt gebruikt wanneer men de gemiddelden van twee populaties wil vergelijken, die gesampled zijn uit twee onafhankelijke groepen. Dit is typisch voor een "between-subjects" design, waarbij verschillende individuen aan verschillende condities worden blootgesteld of tot verschillende categorieën behoren. Een voorbeeld hiervan is de vraag of mannen sneller lopen dan vrouwen, waarbij mannen en vrouwen onafhankelijke groepen zijn.
De toetsstatistiek van de ongepaarde t-toets is een verschilstatistiek die het verschil tussen de steekproefgemiddelden relateert aan de spreiding binnen de groepen.
#### 2.1.1 De ongepaarde t-toets statistiek
Wanneer er twee normaal verdeelde populaties met verschillende varianties worden vergeleken, maakt men gebruik van de ongepaarde t-toets.
De kern van de toetsstatistiek is het verschil tussen de steekproefgemiddelden:
$$ T = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} $$
Waarbij:
* $\bar{X}_1$ en $\bar{X}_2$ de gemiddelden van de twee steekproeven zijn.
* $s_1^2$ en $s_2^2$ de varianties van de twee steekproeven zijn.
* $n_1$ en $n_2$ de groottes van de twee steekproeven zijn.
#### 2.1.2 Schatters voor standaardafwijking en variantiehomogeniteit
Bij de ongepaarde t-toets is de schatting van de standaardafwijking cruciaal. Er zijn twee belangrijke benaderingen, afhankelijk van de aanname over de varianties in de populaties:
1. **Gepoolde variantie (aanname van gelijke varianties):** Als men aanneemt dat de varianties in beide populaties gelijk zijn (${\sigma_1^2 = \sigma_2^2}$), kan een gepoolde variantieschatting worden gebruikt. Deze schatting is een gewogen gemiddelde van de steekproefvarianties. Bij het gebruik van de gepoolde variantie verliest men twee vrijheidsgraden. De t-toetsstatistiek met gepoolde variantie wordt gegeven door:
$$ T = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$
Waarbij de gepoolde variantie $s_p^2$ als volgt wordt berekend:
$$ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} $$
Het aantal vrijheidsgraden voor deze toets is $df = n_1 + n_2 - 2$.
2. **Ongepoolde variantie (geen aanname van gelijke varianties):** Als er geen aanname wordt gedaan over gelijke varianties, gebruikt men de ongepoolde variantieschatting, wat overeenkomt met de algemene formule voor $T$ zoals hierboven weergegeven. Dit is de meest conservatieve aanpak wanneer er twijfel is over variantiehomogeniteit. Het aantal vrijheidsgraden wordt hierbij benaderd met de Welch-Satterthwaite vergelijking, wat resulteert in een niet-geheel getal aan vrijheidsgraden.
> **Tip:** In de praktijk is het controleren van gelijke varianties vaak lastig en wordt het aangeraden om, zeker bij twijfel, de t-toets te gebruiken die de ongepoolde standaardafwijking hanteert. Dit is de meer conservatieve en robuustere methode. Softwarepakketten kunnen variantiehomogeniteit testen, bijvoorbeeld met een Levene's test.
### 2.2 Toepassingen en voorbeelden
De ongepaarde t-toets is een veelgebruikte methode in diverse onderzoeksgebieden.
#### 2.2.1 Oefening 1: Kinderwens bij mannen en vrouwen
**Context:** Sara onderzoekt of mannen meer kinderen willen dan vrouwen. Ze verzamelt data van 10 mannen en 10 vrouwen.
**Vraag:** Willen mannen gemiddeld significant meer kinderen dan vrouwen, bij een significantieniveau ${\alpha = 5\%}$?
**Assumpties:** De voorwaarden voor de toets zijn voldaan.
**Aanpak:** Dit scenario vereist een ongepaarde t-toets, omdat de groepen (mannen en vrouwen) onafhankelijk zijn en er geen paren gevormd worden. Men zou de toets uitvoeren met de verkregen steekproefgemiddelden en -varianties, en de p-waarde vergelijken met ${\alpha = 5\%}$.
#### 2.2.2 Oefening 2: Hypnose en kortetermijngeheugen
**Context:** Bart onderzoekt het effect van hypnose op het kortetermijngeheugen (KTG). Hij laat een groep mensen onder hypnose 12 woorden onthouden, en een controlegroep dezelfde taak zonder hypnose.
**Vraag:** Onthouden mensen onder hypnose gemiddeld significant meer woorden dan mensen zonder hypnose, bij ${\alpha = 5\%}$?
**Assumpties:** De data komen uit normaal verdeelde populaties.
**Aanpak:** Dit is een klassiek voorbeeld voor een ongepaarde t-toets. De twee groepen (hypnose vs. controle) zijn onafhankelijk. De toetsstatistiek wordt berekend op basis van de gemiddelde aantallen correct opgesomde woorden en hun spreiding in beide groepen. De conclusie wordt getrokken op basis van de overschrijdingskans (p-waarde).
#### 2.2.3 Oefening 3: Slaaptekort en aandacht
**Context:** Een studie onderzoekt of slaaptekort de aandacht van volwassenen vermindert. Twee groepen van 30 volwassenen (elk) nemen een aandachtstest (CPT). De ene groep krijgt slaapdeprivatie (4 uur slaap), de andere krijgt voldoende slaap (8 uur). In de controlegroep haalden slechts 26 personen de 8 uur slaap voor een geldige meting.
**Vraag:** Vermindert slaaptekort de aandacht van volwassenen significant?
**Aanpak:** Hier wordt een ongepaarde t-toets gebruikt om de gemiddelde scores op de CPT te vergelijken tussen de slaapgedepriveerde groep en de controlegroep. De groepen zijn onafhankelijk. De steekproefgroottes zijn $n_1 = 30$ (testgroep) en $n_2 = 26$ (controlegroep), waarbij de effectieve grootte van de controlegroep wordt gebruikt. Men zou de toetsstatistiek berekenen en de p-waarde interpreteren in relatie tot het gekozen significantieniveau ${\alpha}$.
### 2.3 Vergelijking met de gepaarde t-toets
De ongepaarde t-toets is te onderscheiden van de gepaarde t-toets. De gepaarde t-toets wordt gebruikt voor "within-subjects" designs, waarbij metingen herhaald worden bij dezelfde individuen of bij sterk gekoppelde paren.
**Voorwaarden voor de gepaarde t-toets:**
* De populatie van verschilscores is normaal verdeeld, of de steekproefgrootte is voldoende groot ($n \ge 30$).
* De standaarddeviatie van de populatie ($\sigma$) is onbekend (net als bij de ongepaarde t-toets).
**Voorwaarden voor de ongepaarde t-toets:**
* De twee populaties zijn normaal verdeeld.
* De varianties in de twee populaties zijn onbekend.
* De steekproeven zijn onafhankelijk.
Het betrouwbaarheidsinterval kan voor beide toetsen worden berekend, maar de onderliggende berekeningen en interpretatie verschillen vanwege de structuur van de data (gepaard vs. ongepaard).
---
# Voorwaarden en vergelijking van t-toetsen
Dit deel bespreekt de voorwaarden voor het uitvoeren van de gepaarde en ongepaarde t-toets en vergelijkt deze twee toetsen met betrekking tot hun toepassingen en criteria.
## 3.1 Verschillen tussen steekproeven: gepaard versus ongepaard
Bij het analyseren van gegevens met t-toetsen is het cruciaal om onderscheid te maken tussen het type steekproef dat is gebruikt. Dit onderscheid bepaalt welke specifieke t-toets het meest geschikt is voor de analyse.
### 3.1.1 Ongepaarde steekproeven (between subjects design)
Ongepaarde, of onafhankelijke, steekproeven worden verzameld wanneer de observaties binnen de ene groep geen systematische relatie hebben met de observaties binnen de andere groep. Dit design staat ook bekend als een "between subjects" design, wat betekent dat verschillende proefpersonen worden toegewezen aan verschillende condities of groepen.
* **Kenmerken:**
* Niet-gepaarde steekproeven.
* Niet-gekoppelde steekproeven.
* Onafhankelijke steekproeven.
* **Voorbeeldcontext:**
* De vraag of mannen sneller lopen dan vrouwen. Hier worden de prestaties van een groep mannen vergeleken met de prestaties van een groep vrouwen, waarbij elke deelnemer slechts aan één groep behoort.
### 3.1.2 Gepaarde steekproeven (within subjects design)
Gepaarde, of afhankelijke, steekproeven worden gebruikt wanneer de observaties systematisch aan elkaar gekoppeld zijn. Dit gebeurt typisch binnen een "within subjects" design, waarbij dezelfde proefpersonen meerdere metingen ondergaan, of wanneer proefpersonen gematcht worden op relevante kenmerken.
* **Kenmerken:**
* Gepaarde steekproeven.
* Gekoppelde steekproeven.
* Afhankelijke steekproeven.
* **Voorbeeldcontext:**
* De vraag of leerlingen sneller zijn na het nemen van EPO. Hierbij worden twee metingen verricht bij dezelfde groep leerlingen: één meting vóór het nemen van EPO en één meting na het nemen van EPO.
## 3.2 De ongepaarde t-toets
De ongepaarde t-toets, ook wel de "two sample t-test" genoemd, wordt gebruikt om het gemiddelde verschil tussen twee onafhankelijke groepen te onderzoeken. De toetsstatistiek is hierbij een verschilstatistiek.
### 3.2.1 Toepassingen en toetsstatistiek
In de praktijk worden twee varianten van de 2-steekproeven t-toets gebruikt, afhankelijk van de variantie binnen de groepen:
* **Gepoolde standaardafwijking:** Deze aanpak gaat uit van gelijke varianties in beide populaties.
* **Ongepoolde standaardafwijking:** Deze aanpak is conservatiever en wordt gebruikt wanneer de varianties in de populaties mogelijk verschillen.
> **Tip:** De controle van gelijke varianties wordt vaak gedaan met een Levene's test. In de praktijk, omdat handmatige controle complex kan zijn, kiest men vaak voor de conservatievere benadering van de t-toets die de ongepoolde steekproefstandaardafwijking gebruikt.
### 3.2.2 Voorwaarden voor de ongepaarde t-toets
Om de ongepaarde t-toets correct toe te passen, moeten aan de volgende voorwaarden worden voldaan:
* **Onafhankelijkheid van de steekproeven:** De metingen in de ene groep mogen geen invloed hebben op de metingen in de andere groep.
* **Normaal verdeelde populaties:** De verdeling van de populaties waaruit de steekproeven zijn getrokken, moet (bij benadering) normaal zijn. Als de steekproefgrootte groot is (meestal $n \ge 30$), is de t-toets redelijk robuust tegen schendingen van deze aanname vanwege de centrale limietstelling.
* **Gelijke varianties (optioneel, afhankelijk van de variant van de toets):** Hoewel er varianten van de ongepaarde t-toets zijn die met ongelijke varianties om kunnen gaan (zoals Welch's t-test), wordt er soms een assumptie van gelijke varianties gemaakt.
## 3.3 De gepaarde t-toets
De gepaarde t-toets wordt gebruikt om het gemiddelde verschil tussen twee gerelateerde metingen te analyseren. Dit kan bijvoorbeeld gaan om metingen vóór en na een interventie bij dezelfde personen, of metingen van gematchte paren.
### 3.3.1 Toepassingen en toetsstatistiek
Bij de gepaarde t-toets wordt het gemiddelde van de *verschillen* tussen de gepaarde observaties geanalyseerd.
### 3.3.2 Voorwaarden voor de gepaarde t-toets
De belangrijkste voorwaarden voor het uitvoeren van de gepaarde t-toets zijn:
* **Gepaarde observaties:** De data moeten bestaan uit paren van metingen die systematisch aan elkaar gekoppeld zijn.
* **Normaal verdeelde verschilscores:** De verschillen tussen de gepaarde observaties moeten normaal verdeeld zijn. Net als bij de ongepaarde t-toets, zorgt een voldoende grote steekproef (bijvoorbeeld $n \ge 30$ paren) voor robuustheid tegen schendingen van deze aanname.
* **Onbekende populatievariantie:** De populatievariantie van de verschilscores is onbekend.
## 3.4 Vergelijking van gepaarde en ongepaarde t-toetsen
De keuze tussen de gepaarde en ongepaarde t-toets hangt direct af van het onderzoeksdesign en de aard van de verzamelde data.
| Kenmerk | Gepaarde t-toets | Ongepaarde t-toets |
| :-------------------- | :-------------------------------------------------- | :---------------------------------------------------------- |
| **Steekproef type** | Gepaarde/afhankelijke steekproeven | Ongepaarde/onafhankelijke steekproeven |
| **Design** | Within subjects (herhaalde metingen bij dezelfde subjecten) of matched pairs | Between subjects (verschillende subjecten in elke groep) |
| **Focus van analyse** | Gemiddelde van de verschilscores | Verschil tussen de groepsgemiddelden |
| **Voorwaarden** | Verschilscores zijn normaal verdeeld; $n \ge 30$ of normaal verdeeld | Populaties zijn normaal verdeeld; $n \ge 30$ of normaal verdeeld; varianties gelijk (afhankelijk van de variant) |
### 3.4.1 Betrouwbaarheidsinterval
Zowel de gepaarde als de ongepaarde t-toets kunnen worden gebruikt om betrouwbaarheidsintervallen te construeren voor het gemiddelde verschil tussen twee groepen of twee metingen.
* Voor de **gepaarde t-toets** wordt het betrouwbaarheidsinterval berekend voor het gemiddelde verschilscore ($\mu_d$).
* Voor de **ongepaarde t-toets** wordt het betrouwbaarheidsinterval berekend voor het verschil tussen de populatiegemiddelden ($\mu_1 - \mu_2$).
### 3.4.2 Voorbeelden
**Voorbeeld 1: Ongepaarde t-toets**
Sara onderzoekt of mannen gemiddeld meer kinderen willen dan vrouwen. Ze verzamelt data van 10 mannen en 10 vrouwen, die willekeurig zijn geselecteerd. Dit is een klassiek voorbeeld van een ongepaarde steekproef, omdat de groep mannen onafhankelijk is van de groep vrouwen. De ongepaarde t-toets zou hier geschikt zijn om te bepalen of er een significant verschil is in het gemiddeld gewenst aantal kinderen tussen mannen en vrouwen.
**Voorbeeld 2: Gepaarde t-toets versus Ongepaarde t-toets**
Bart onderzoekt het effect van hypnose op kortetermijngeheugen. Hij heeft twee groepen: een hypnose groep en een controlegroep. Dit is een voorbeeld van een **ongepaarde t-toets** omdat de proefpersonen in de hypnose groep verschillen van de proefpersonen in de controlegroep.
Als Bart echter dezelfde groep proefpersonen twee keer had getest: eerst zonder hypnose (basismeting) en vervolgens met hypnose, dan zou dit een **gepaarde t-toets** vereisen omdat de metingen afkomstig zijn van dezelfde individuen.
**Voorbeeld 3: Gepaarde t-toets**
Een studie onderzoekt of slaaptekort de aandacht beïnvloedt. Twee groepen van 30 volwassenen worden vergeleken. Eén groep is slaapgedepriveerd (4 uur slaap), de andere groep heeft 8 uur slaap gehad (controlegroep). Dit is een voorbeeld van een **ongepaarde t-toets**, omdat de proefpersonen in de slaapgedepriveerde groep verschillen van de proefpersonen in de controlegroep. De metingen (CPT-scores) zijn onafhankelijk tussen de groepen.
> **Tip:** Het belangrijkste criterium bij de keuze is of de data uit onafhankelijke groepen komen (ongepaard) of dat er een systematische relatie is tussen de metingen binnen groepen of tussen paren van subjecten (gepaard).
---
# Praktische oefeningen en case studies
Dit gedeelte bevat diverse oefeningen en case studies die de toepassing van de besproken statistische methoden illustreren, zoals de ongepaarde t-toets in verschillende onderzoeksscenario's.
## 4.1 De ongepaarde t-toets: concept en toepassing
De ongepaarde t-toets, ook wel de two-sample t-test genoemd, is een statistische methode die wordt gebruikt om het verschil tussen de gemiddelden van twee onafhankelijke groepen te toetsen. Dit type toets is van toepassing wanneer de gegevens afkomstig zijn van "between subjects" designs, waarbij elke deelnemer slechts aan één conditie of groep deelneemt.
### 4.1.1 Soorten steekproeven
Het onderscheid tussen gepaarde en ongepaarde steekproeven is cruciaal voor de keuze van de juiste statistische toets:
* **Ongepaarde (onafhankelijke) steekproeven:** Deze worden gebruikt in "between subjects" designs. Er is geen logische koppeling tussen de metingen in de ene groep en de metingen in de andere groep. Voorbeelden zijn:
* Verschillen in snelheid tussen mannen en vrouwen.
* Vergelijking van testresultaten tussen een interventiegroep en een controlegroep.
* **Gepaarde (afhankelijke) steekproeven:** Deze worden gebruikt in "within subjects" designs. De metingen zijn aan elkaar gekoppeld, vaak door herhaalde metingen bij dezelfde personen (bv. voor en na een interventie) of door het matchen van deelnemers op bepaalde kenmerken. Voorbeelden zijn:
* Vergelijking van prestaties van leerlingen voor en na het gebruik van EPO.
* Het meten van reactietijden van dezelfde personen onder verschillende condities.
### 4.1.2 De toetsstatistiek van de ongepaarde t-toets
De ongepaarde t-toets berekent een verschilstatistiek die het verschil tussen de groepsgemiddelden relateert aan de spreiding binnen de groepen.
#### 4.1.2.1 Variaties op de ongepaarde t-toets
In de praktijk zijn er twee varianten van de 2-steekproeven t-toets, afhankelijk van de spreiding (varianties) in de groepen:
1. **Gepoolde t-toets:** Deze variant wordt gebruikt wanneer de varianties in de twee populaties als gelijk worden beschouwd. De standaardafwijkingen worden dan gepoold (gewogen gemiddelde) wat leidt tot een verlies van twee vrijheidsgraden.
2. **Ongepoolde t-toets (ook wel Welch's t-toets):** Deze variant wordt gebruikt wanneer de varianties in de twee populaties als ongelijk worden beschouwd. Dit is de conservatievere optie en wordt aangeraden wanneer de controle van gelijke varianties (bv. via een Levene's test) niet met zekerheid kan worden vastgesteld, of wanneer software de ongepoolde steekproefstandaardafwijking gebruikt.
#### 4.1.2.2 Voorwaarden voor de ongepaarde t-toets
De ongepaarde t-toets kent de volgende voorwaarden:
* **Onafhankelijke steekproeven:** De groepen moeten onafhankelijk zijn van elkaar.
* **Normaal verdeelde populaties:** De populaties waaruit de steekproeven getrokken zijn, dienen normaal verdeeld te zijn. Dit is vooral belangrijk bij kleine steekproeven. Bij grote steekproeven ($n \geq 30$) is de t-toets robuust tegen schendingen van deze aanname (Centrale Limietstelling).
* **Gelijke varianties (homoscedasticiteit):** Voor de gepoolde t-toets moet worden aangenomen dat de populatievarianties gelijk zijn. Als deze aanname niet voldaan is, wordt de ongepoolde t-toets gebruikt. De controle hiervan gebeurt idealiter via een statistische test zoals de Levene's test.
#### 4.1.2.3 Betrouwbaarheidsinterval
Naast de p-waarde kan een betrouwbaarheidsinterval voor het verschil tussen de groepsgemiddelden worden berekend. Dit interval geeft een reeks van plausibele waarden voor het werkelijke verschil tussen de populatiegemiddelden. Als dit interval de nul niet bevat, is het verschil significant op het gekozen significantieniveau.
### 4.1.3 Oefeningen en Case Studies
Hieronder worden enkele praktijkvoorbeelden besproken die de toepassing van de ongepaarde t-toets illustreren.
#### 4.1.3.1 Oefening 1: Kinderwens bij mannen en vrouwen
**Context:** Sara onderzoekt of mannen gemiddeld meer kinderen willen dan vrouwen. Ze heeft gegevens verzameld van 10 mannen en 10 vrouwen die willekeurig zijn aangesproken.
**Vraag:** Is het gemiddelde aantal gewenste kinderen significant hoger bij mannen dan bij vrouwen, met een significantieniveau $\alpha = 5\%$? Er wordt aangenomen dat de voorwaarden voor de ongepaarde t-toets voldaan zijn.
#### 4.1.3.2 Oefening 2: Hypnose en kortetermijngeheugen
**Context:** Bart onderzoekt het effect van hypnose op het kortetermijngeheugen (KTG). Een groep mensen onder hypnose krijgt 12 woorden voorgelezen, terwijl een controlegroep dezelfde taak zonder hypnose uitvoert. Het aantal correct opgesomde woorden wordt genoteerd. De vraag is of hypnose leidt tot significant meer onthouden woorden. Significantieniveau $\alpha=5\%$. Er wordt aangenomen dat de data uit normaal verdeelde populaties komen.
**Methode:** De conclusie moet getrokken worden via de overschrijdingskans (p-waarde).
#### 4.1.3.3 Oefening 3: Slaaptekort en aandacht
**Context:** Een studie onderzoekt of slaaptekort de aandacht van volwassenen vermindert. Twee willekeurige steekproeven van 30 volwassenen (18-35 jaar) worden vergeleken. De ene groep krijgt 4 uur slaap (testgroep), de andere groep 8 uur slaap (controlegroep). De Continuous Performance Test (CPT) meet de aandachtscapaciteit; hogere scores duiden op betere aandacht. Van de controlegroep haalden 26 personen de 8 uur slaap voor een geldige meting.
**Aannames:** De data komen uit normaal verdeelde populaties.
**Tip:** Bij het uitvoeren van de t-toets is het belangrijk om eerst de data te inspecteren op uitschieters en de normaliteitsaanname te controleren, met name bij kleinere steekproeven. Indien deze aannames geschonden worden, kan een non-parametrisch alternatief zoals de Mann-Whitney U-toets overwogen worden. Controleer ook de aanname van gelijke varianties. Indien deze sterk afwijkt, gebruik dan de ongepoolde t-toets.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Univariate data-analyse | Een statistische methode die wordt gebruikt om één variabele tegelijk te onderzoeken en te beschrijven, vaak met behulp van samenvattende statistieken en grafieken. |
| Ongepaarde steekproef (Unpaired samples) | Een type steekproef waarbij de observaties in de ene groep onafhankelijk zijn van de observaties in de andere groep; de groepen worden daarom vergeleken zonder directe koppeling. |
| Gepaarde steekproef (Paired samples) | Een type steekproef waarbij de observaties in de ene groep direct gekoppeld zijn aan de observaties in de andere groep, bijvoorbeeld door herhaalde metingen bij dezelfde personen. |
| Between subjects design | Een onderzoeksopzet waarbij verschillende groepen deelnemers worden blootgesteld aan verschillende condities of behandelingen, waarbij elke deelnemer slechts aan één conditie wordt toegewezen. |
| Within subjects design | Een onderzoeksopzet waarbij dezelfde deelnemers meerdere metingen ondergaan onder verschillende condities, wat leidt tot gepaarde observaties. |
| T-toets | Een inferentiële statistische toets die wordt gebruikt om het gemiddelde van twee groepen te vergelijken, voornamelijk wanneer de populatievariantie onbekend is en de steekproef klein. |
| Ongepaarde t-toets (Two sample t-test) | Een t-toets die wordt gebruikt om de gemiddelden van twee onafhankelijke, ongepaarde groepen te vergelijken, ervan uitgaande dat de data normaal verdeeld zijn. |
| Gepaarde t-toets | Een t-toets die wordt gebruikt om de gemiddelden van twee gerelateerde (gepaarde) groepen te vergelijken, vaak gebruikt bij herhaalde metingen of bij matched pairs. |
| Toetsstatistiek | Een waarde berekend uit steekproefgegevens die wordt gebruikt om de nulhypothese te beoordelen; deze waarde wordt vergeleken met een kritische waarde of gebruikt om een p-waarde te berekenen. |
| Spreiding in groepen | De mate waarin de gegevenspunten binnen een groep variëren of uit elkaar liggen, vaak gemeten door standaardafwijking of variantie. |
| Schatter voor standaardafwijking | Een statistische maat die wordt gebruikt om de standaardafwijking van een populatie te schatten op basis van een steekproef; de gepoolde of ongepoolde variant wordt gebruikt afhankelijk van de aannames over varianties. |
| Gepaarde standaardafwijking (Pooled standard deviation) | Een gewogen gemiddelde van de varianties van twee groepen, gebruikt in de ongepaarde t-toets wanneer wordt aangenomen dat de populatievarianties gelijk zijn; dit leidt tot een verlies van vrijheidsgraden. |
| Levene’s test | Een statistische test die wordt gebruikt om de homogeniteit van varianties te controleren tussen verschillende groepen, wat een belangrijke aanname is voor sommige statistische toetsen zoals de ongepaarde t-toets. |
| Twee normaalverdeelde populaties | Een aanname voor de t-toets die stelt dat de gegevens binnen de te vergelijken populaties een normale verdeling volgen. |
| Verschillende varianties | Een situatie waarin de spreiding (variantie) van de gegevens in de te vergelijken populaties significant verschilt. |
| Betrouwbaarheidsinterval | Een bereik van waarden dat waarschijnlijk de populatieparameter (zoals het gemiddelde) bevat, berekend uit de steekproefgegevens; het geeft de precisie van de schatting aan. |
| Overschrijdingskans (p-waarde) | De kans om een teststatistiek te observeren die minstens zo extreem is als de waargenomen waarde, ervan uitgaande dat de nulhypothese waar is. Een kleine p-waarde (meestal < 0.05) leidt tot verwerping van de nulhypothese. |
| Kortetermijngeheugen (KTG) | Een cognitief systeem dat verantwoordelijk is voor het tijdelijk vasthouden en manipuleren van informatie gedurende een korte periode. |
| Magische nummer 7 plus/min 2 | Een uitspraak van George Miller die suggereert dat het kortetermijngeheugen doorgaans 7 items kan bevatten, met een variatie van plus of min 2. |
| Hypnose | Een staat van verhoogde suggestibiliteit en focus, vaak gekenmerkt door verminderd perifere bewustzijn en verhoogde respons op suggesties. |
| Controlegroep | Een groep deelnemers in een experiment die geen actieve behandeling of interventie ontvangt, gebruikt als basislijn voor vergelijking met de experimentele groep. |
| Aandacht | Een cognitief proces dat betrokken is bij het selecteren van specifieke informatie uit de omgeving en het negeren van afleidende prikkels. |
| Slaaptekort | Een ontoereikende hoeveelheid slaap, die negatieve gevolgen kan hebben voor fysieke en cognitieve functies. |
| Continuous Performance Test (CPT) | Een gestandaardiseerde neuropsychologische test die wordt gebruikt om aandacht en impulsiviteit te meten door reactietijden en nauwkeurigheid te beoordelen bij het detecteren van specifieke stimuli. |
| Aandachtscapaciteit | Het vermogen van een individu om zich te concentreren op een taak en relevante informatie te verwerken gedurende een bepaalde periode. |
Cover
WPO+5+S3+proportietoetsen+2526.pdf
Summary
# Binomiale verdeling en steekproefproporties
Dit deel behandelt de binomiale verdeling, de voorwaarden waaraan voldaan moet worden om deze te gebruiken, en de concepten rond steekproevenverdelingen van steekproefproporties.
### 1.1 De binomiale verdeling
Een binomiale situatie ontstaat wanneer een toevalsproces meerdere keren wordt herhaald en we registreren hoe vaak een specifieke uitkomst ("succes") voorkomt. Om van een binomiale situatie te kunnen spreken, moet aan vier voorwaarden worden voldaan [4](#page=4):
* **Binair:** De mogelijke uitkomsten van elke poging zijn beperkt tot twee categorieën: "succes" en "mislukking" [4](#page=4).
* **Onafhankelijk:** Het resultaat van een vorige poging mag het resultaat van volgende pogingen niet beïnvloeden of voorspelbaarder maken [4](#page=4).
* **Aantal pogingen:** Het totale aantal pogingen, aangeduid met $n$, moet vooraf vastliggen [4](#page=4).
* **Succeskans:** De kans op "succes", aangeduid met $p$, moet voor elke poging constant blijven. Dit impliceert dat de bemonstering met teruglegging gebeurt [4](#page=4).
#### 1.1.1 Variabelen en notatie
Bij een binomiale verdeling wordt de populatieproportie van "successen" aangeduid met $p$ of $\pi$. De kans op een mislukking is dan $q = 1 - p$ [5](#page=5).
### 1.2 Steekproevenverdeling van steekproefproporties
Een steekproefproportie, aangeduid met $\hat{p}$, is een schatting van de populatieproportie $p$ gebaseerd op een steekproef. De steekproevenverdeling van $\hat{p}$ beschrijft de verdeling van deze steekproefproporties als we herhaaldelijk steekproeven van grootte $n$ uit de populatie zouden trekken [5](#page=5).
#### 1.2.1 Benadering van de steekproevenverdeling
Voor grote steekproeven kan de steekproevenverdeling van $\hat{p}$ worden benaderd door een normale verdeling. De belangrijkste kenmerken van deze benaderde normale verdeling zijn [5](#page=5):
* **Gemiddelde van de steekproefproporties:** Het gemiddelde van de steekproefproporties, ook wel de verwachte waarde van $\hat{p}$ genoemd, is gelijk aan de populatieproportie $p$. Dit kan worden uitgedrukt als $E(\hat{p}) = p$ [5](#page=5).
* **Standaardfout van de steekproefproportie:** De standaardafwijking van de steekproevenverdeling van $\hat{p}$, ook wel de standaardfout van $\hat{p}$ genoemd, geeft de spreiding van de steekproefproporties rond het populatiegemiddelde weer. Deze wordt berekend met de formule [5](#page=5):
$$SE(\hat{p}) = \sqrt{\frac{pq}{n}}$$
Hierbij is $p$ de populatieproportie van successen, $q = 1-p$ de populatieproportie van mislukkingen, en $n$ de steekproefgrootte [5](#page=5).
De figuur op pagina 5 illustreert de steekproevenverdeling van $\hat{p}$ als een normale curve, waarbij de horizontale as de mogelijke waarden van $\hat{p}$ weergeeft en de verticale as de dichtheid van deze waarden. De curve is gecentreerd rond de populatieproportie $p$ [5](#page=5).
> **Tip:** De normaliteitsbenadering van de binomiale verdeling, en dus ook van de steekproefproporties, is een krachtig hulpmiddel om waarschijnlijkheden te berekenen zonder de volledige binomiale kansformule te hoeven toepassen, mits de steekproefgrootte voldoende groot is. Controleer altijd de voorwaarden voor deze benadering (vaak $np \ge 10$ en $nq \ge 10$).
---
# Eén-steekproef proportietests en betrouwbaarheidsintervallen
Dit onderwerp behandelt het toetsen van hypothesen over proporties in een enkele populatie en het construeren van betrouwbaarheidsintervallen voor deze proporties.
### 2.1 Eén-steekproef proportietest
Een één-steekproef proportietest wordt gebruikt om te bepalen of de proportie van een bepaald kenmerk in een populatie significant verschilt van een vooraf bepaalde waarde [6](#page=6).
#### 2.1.1 Hypotheses
Bij deze tests worden de volgende hypothesen geformuleerd [6](#page=6):
* **Nulhypothese ($H_0$):** $p = p_0$, waarbij $p_0$ de hypothetische populatieproportie is.
* **Alternatieve hypothese ($H_A$):** Dit kan een eenzijdige test zijn ($p < p_0$ of $p > p_0$) of een tweezijdige test ($p \neq p_0$) [6](#page=6).
#### 2.1.2 Teststatistiek
De teststatistiek voor een één-steekproef proportietest wordt berekend met de volgende formule [6](#page=6):
$$z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 q_0}{n}}}$$
Waarbij:
* $\hat{p}$ de steekproefproportie is [6](#page=6).
* $p_0$ de hypothetische populatieproportie onder de nulhypothese is [6](#page=6).
* $q_0 = 1 - p_0$ de hypothetische proportie van "niet-successen" is [6](#page=6).
* $n$ de steekproefgrootte is [6](#page=6).
#### 2.1.3 Voorwaarden voor de test
Om de teststatistiek te mogen gebruiken, moet aan de volgende voorwaarden worden voldaan [6](#page=6) [9](#page=9):
* Het aantal successen in de steekproef ($X$) moet minstens 10 zijn, en het aantal niet-successen ($n-X$) moet ook minstens 10 zijn. Dit geldt zowel voor de steekproef als, bij een hypothesetoets, voor het hypothetische aantal successen en niet-successen onder de nulhypothese [6](#page=6).
* Een alternatieve formulering van deze voorwaarde, met name voor hypothesetoetsen, is dat $n p_0 \geq 10$ en $n q_0 \geq 10$ [6](#page=6).
* Voor betrouwbaarheidsintervallen (BI) geldt de voorwaarde dat $n \hat{p} \geq 10$ en $n \hat{q} \geq 10$, waarbij $\hat{q} = 1 - \hat{p}$ [6](#page=6) [9](#page=9).
> **Tip:** Deze voorwaarden zorgen ervoor dat de steekproevenverdeling van de steekproefproportie voldoende benaderd kan worden door een normaalverdeling, wat cruciaal is voor de geldigheid van de $z$-test [7](#page=7) [8](#page=8).
#### 2.1.4 Illustratief voorbeeld van voorwaarden
Stel een fabrikant beweert dat minstens 80% van hun producten aan de kwaliteitsnorm voldoet ($p_0 = 0.80$). Een controleur wil dit toetsen. Er wordt een steekproef genomen waarin 75% van de producten aan de norm voldoet ($\hat{p} = 0.75$). Om te bepalen hoeveel producten er minimaal in de steekproef moeten zitten zodat de steekproevenverdeling de normaalverdeling benadert, gebruiken we de voorwaarde $n p_0 \geq 10$ en $n q_0 \geq 10$. Met $p_0 = 0.80$ en $q_0 = 0.20$, krijgen we $n \times 0.80 \geq 10$ en $n \times 0.20 \geq 10$. De kleinste $n$ die hieraan voldoet, is 50 producten [8](#page=8).
> **Example:** Als $p_0 = 0.5$ en $n=20$, dan is $n p_0 = 20 \times 0.5 = 10$ en $n q_0 = 20 \times 0.5 = 10$. De voorwaarden zijn dan net voldaan. Als $n=19$, dan zou $n p_0 = 9.5$ zijn, en de voorwaarden niet voldaan zijn [8](#page=8).
### 2.2 Betrouwbaarheidsinterval voor een proportie
Een betrouwbaarheidsinterval (BI) biedt een reeks waarden waarbinnen de ware populatieproportie met een bepaalde mate van zekerheid wordt verwacht te liggen [9](#page=9).
#### 2.2.1 Constructie van het betrouwbaarheidsinterval
Een betrouwbaarheidsinterval voor een populatieproportie wordt geconstrueerd met de volgende formule [9](#page=9):
$$ \hat{p} \pm z^* \cdot \sqrt{\frac{\hat{p} \hat{q}}{n}} $$
Waarbij:
* $\hat{p}$ de steekproefproportie is [9](#page=9).
* $\hat{q} = 1 - \hat{p}$ de steekproefproportie van niet-successen is [9](#page=9).
* $n$ de steekproefgrootte is [9](#page=9).
* $z^*$ de kritieke waarde is die afhangt van het gewenste betrouwbaarheidsniveau (C). Een betrouwbaarheidsniveau van C = 90% (of 0.90) wordt als voorwaarde genoemd [9](#page=9).
#### 2.2.2 Voorwaarden voor het betrouwbaarheidsinterval
Voor het construeren van een betrouwbaarheidsinterval voor een proportie, moeten de volgende voorwaarden voldaan zijn [9](#page=9):
* Het gewenste betrouwbaarheidsniveau (C) moet 90% of hoger zijn.
* Het aantal successen ($X$) in de steekproef moet minstens 10 zijn, en het aantal niet-successen ($n-X$) moet ook minstens 10 zijn [6](#page=6) [9](#page=9).
* Een alternatieve formulering hiervan is dat $n \hat{p} \geq 10$ en $n \hat{q} \geq 10$ [6](#page=6) [9](#page=9).
> **Tip:** Hoe hoger het betrouwbaarheidsniveau, hoe breder het interval, omdat er meer zekerheid vereist is. De kritieke waarde $z^*$ neemt toe met het betrouwbaarheidsniveau.
---
# Twee-steekproeven proportietests en betrouwbaarheidsintervallen
Dit hoofdstuk behandelt de analyse van proporties tussen twee onafhankelijke groepen, inclusief de scenario's met gelijke en ongelijke varianties [12](#page=12).
### 3.1 Vergelijking van proporties tussen twee groepen
De kern van tweek-steekproeven proportietests is het vergelijken van de proportie van een bepaalde uitkomst in twee afzonderlijke, onafhankelijke populaties. Dit kan worden gedaan door middel van hypothesetests en het construeren van betrouwbaarheidsintervallen. De keuze van de juiste test hangt af van de aannames over de varianties van de populaties [12](#page=12).
#### 3.1.1 Aanname van gelijke varianties
Wanneer de nulhypothese ($H_0$) stelt dat de proporties gelijk zijn ($p_1 = p_2$ of $p_1 - p_2 = 0$), kan men theoretisch aannemen dat de varianties gelijk zijn ($s_1 = s_2$). In dit scenario wordt voor de berekening van de steekproefvariantie een gepoolde steekproefproportie gebruikt [12](#page=12).
##### 3.1.1.1 Hypothesetests met gelijke varianties
De nulhypothese ($H_0$) kan geformuleerd worden als $p_1 = p_2$, $p_1 - p_2 = 0$, $p_2 = p_1$ of $p_2 - p_1 = 0$. De alternatieve hypothese ($H_A$) kan eenzijdig zijn ($p_1 > p_2$, $p_1 < p_2$) of tweezijdig ($p_1 \neq p_2$) [13](#page=13).
De voorwaarden voor deze test zijn:
* $n_1 \hat{p} \geq 10$ en $n_1 (1 - \hat{p}) \geq 10$ [13](#page=13).
* $n_2 \hat{p} \geq 10$ en $n_2 (1 - \hat{p}) \geq 10$ [13](#page=13).
De toetsstatistiek voor het verschil tussen twee proporties, met de aanname van gelijke varianties, wordt gegeven door:
$$ z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}} $$
waarbij $\hat{p}$ de gepoolde proportie is, berekend als:
$$ \hat{p} = \frac{X_1 + X_2}{n_1 + n_2} $$
en $X_1, X_2$ de aantallen successen zijn in de respectievelijke steekproeven [13](#page=13).
> **Tip:** Bij de aanname van gelijke varianties wordt geen onderscheid gemaakt tussen gepaarde en ongepaarde steekproeven [13](#page=13).
##### 3.1.1.2 Betrouwbaarheidsinterval met gelijke varianties
Het betrouwbaarheidsinterval voor het verschil tussen twee proporties, met de aanname van gelijke varianties, wordt berekend met de volgende formule:
$$ (\hat{p}_1 - \hat{p}_2) \pm z^{\ast} \sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})} $$
waarbij $z^{\ast}$ de kritieke waarde is die overeenkomt met het gewenste betrouwbaarheidsniveau. De voorwaarden voor de geldigheid van dit interval zijn dezelfde als voor de hypothesetest [15](#page=15):
* $n_1 \hat{p} \geq 10$ en $n_1 (1 - \hat{p}) \geq 10$ [15](#page=15).
* $n_2 \hat{p} \geq 10$ en $n_2 (1 - \hat{p}) \geq 10$ [15](#page=15).
#### 3.1.2 Aanname van ongelijke varianties
Wanneer de aanname van gelijke varianties niet gemaakt kan worden, dient de formule voor de standaardfout van de toetsstatistiek aangepast te worden [12](#page=12).
##### 3.1.2.1 Hypothesetests met ongelijke varianties
Bij ongelijke varianties wordt de nulhypothese ($H_0$) geformuleerd als $p_1 - p_2 = (p_1 - p_2)_0$, waarbij $(p_1 - p_2)_0$ de gespecificeerde waarde van het verschil onder $H_0$ is (meestal nul). De alternatieve hypothese kan eenzijdig ($p_1 - p_2 > (p_1 - p_2)_0$ of $p_1 - p_2 < (p_1 - p_2)_0$) of tweezijdig ($p_1 - p_2 \neq (p_1 - p_2)_0$) zijn [14](#page=14).
De voorwaarden voor deze test zijn:
* $n_1 \hat{p}_1 \geq 10$, $n_1 (1 - \hat{p}_1) \geq 10$, $n_2 \hat{p}_2 \geq 10$, en $n_2 (1 - \hat{p}_2) \geq 10$ [14](#page=14).
* Of $n_1 \hat{p}_1 \geq 5$, $n_1 (1 - \hat{p}_1) \geq 5$, $n_2 \hat{p}_2 \geq 5$, en $n_2 (1 - \hat{p}_2) \geq 5$ [14](#page=14).
De toetsstatistiek voor het verschil tussen twee proporties, met de aanname van ongelijke varianties, wordt gegeven door:
$$ z = \frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)_0}{\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}} $$
Hierbij zijn $\hat{p}_1$ en $\hat{p}_2$ de afzonderlijke steekproefproporties [12](#page=12) [14](#page=14).
> **Tip:** Ook hier wordt geen onderscheid gemaakt tussen gepaarde en ongepaarde steekproeven [14](#page=14).
##### 3.1.2.2 Betrouwbaarheidsinterval met ongelijke varianties
Het betrouwbaarheidsinterval voor het verschil tussen twee proporties, met de aanname van ongelijke varianties, wordt berekend als:
$$ (\hat{p}_1 - \hat{p}_2) \pm z^{\ast} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} $$
waarbij $z^{\ast}$ de kritieke waarde is voor het gewenste betrouwbaarheidsniveau. De voorwaarden voor de geldigheid van dit interval zijn identiek aan die voor de hypothesetest bij ongelijke varianties [15](#page=15):
* $n_1 \hat{p}_1 \geq 10$, $n_1 (1 - \hat{p}_1) \geq 10$, $n_2 \hat{p}_2 \geq 10$, en $n_2 (1 - \hat{p}_2) \geq 10$ [15](#page=15).
* Of $n_1 \hat{p}_1 \geq 5$, $n_1 (1 - \hat{p}_1) \geq 5$, $n_2 \hat{p}_2 \geq 5$, en $n_2 (1 - \hat{p}_2) \geq 5$ [15](#page=15).
> **Voorbeeld:** Voor een 90% betrouwbaarheidsinterval wordt een $z^{\ast}$ waarde van 1.645 gebruikt [15](#page=15).
#### 3.1.3 Algemene overwegingen voor proportietests
Bij het uitvoeren van proportietests is het cruciaal om de juiste aannames te maken met betrekking tot de varianties. Het niet correct toepassen van deze aannames kan leiden tot incorrecte conclusies. De voorwaarden voor de geldigheid van de tests en betrouwbaarheidsintervallen, met name de minimale aantallen waarnemingen, moeten altijd worden gecontroleerd.
> **Tip:** Bij het interpreteren van de resultaten van tweek-steekproeven proportietests, is het belangrijk om de context van de studie en de steekproefgrootte in acht te nemen. Kleine steekproeven kunnen leiden tot minder betrouwbare resultaten.
---
# Oefeningen en toepassingen van proportietests
Deze sectie behandelt de toepassing van statistische methoden, specifiek proportietests, op concrete vraagstukken uit diverse domeinen, inclusief het uitvoeren van significantietests en het opstellen van betrouwbaarheidsintervallen voor proporties.
### 4.1 Oefening 1: Kwaliteitscontrole van aardappelen
Een producent van chips moet bepalen of een lading aardappelen moet worden teruggestuurd op basis van een contractuele eis dat niet meer dan 8% van de aardappelen beschadigd mag zijn [10](#page=10).
* **Probleemstelling:** Test of de proportie beschadigde aardappelen in een partij groter is dan 8%.
* **Gegeven:**
* Acceptatiecriterium: Beschadigde aardappelen ≤ 8%
* Steekproefgrootte: $n = 500$ aardappelen [10](#page=10).
* Aantal beschadigde aardappelen in steekproef: $x = 47$ [10](#page=10).
* Significantieniveau: $\alpha = 1\%$ [10](#page=10).
* **Analyse:**
* De steekproefproportie van beschadigde aardappelen is $\hat{p} = \frac{x}{n} = \frac{47}{500} = 0.094$ [10](#page=10).
* De nulhypothese ($H_0$) stelt dat de ware proportie beschadigde aardappelen gelijk is aan of kleiner is dan 8% ($p \le 0.08$) [10](#page=10).
* De alternatieve hypothese ($H_1$) stelt dat de ware proportie beschadigde aardappelen groter is dan 8% ($p > 0.08$) [10](#page=10).
* Er dient een eenzijdige toets te worden uitgevoerd.
* De toetsingsgrootheid (z-score) kan worden berekend met de formule: $Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$ [10](#page=10).
* Hierbij is $p_0 = 0.08$ de hypothetische proportie onder $H_0$ [10](#page=10).
* **Conclusie:** Op basis van de significantietoets zal worden bepaald of de lading moet worden teruggestuurd.
### 4.2 Oefening 2: Politieke verkiezingsuitslag
Na het tellen van een deel van de stemmen in Leuven wordt de voorlopige uitslag geanalyseerd om de uiteindelijke resultaten te schatten [11](#page=11).
* **Probleemstelling:**
1. Geef een intervalschatting voor het totale aantal stemmen dat de partij van de burgemeester zal behalen, met een betrouwbaarheidsniveau van 95% [11](#page=11).
2. Beargumenteer of de steekproef representatief is [11](#page=11).
* **Gegeven:**
* Totaal aantal stemmen: 35 000 [11](#page=11).
* Getelde stemmen: 2000 [11](#page=11).
* Percentage stemmen voor partij burgemeester (in getelde stemmen): 55% [11](#page=11).
* Betrouwbaarheidsniveau: 95% [11](#page=11).
* **Analyse (gedeelte 1 - intervalschatting):**
* De steekproefproportie voor de partij van de burgemeester is $\hat{p} = 0.55$ [11](#page=11).
* De steekproefgrootte is $n = 2000$ [11](#page=11).
* Het betrouwbaarheidsinterval voor een proportie wordt berekend met: $\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ [11](#page=11).
* Voor een betrouwbaarheidsniveau van 95% is $z_{\alpha/2} = 1.96$ [11](#page=11).
* Het interval voor de proportie stemmen wordt berekend.
* Dit proportie-interval wordt vervolgens vermenigvuldigd met het totale aantal stemmen (35 000) om het interval voor het aantal stemmen te verkrijgen [11](#page=11).
* **Analyse (gedeelte 2 - representativiteit):**
* Representativiteit hangt af van de steekproefmethode (is deze willekeurig en representatief voor de gehele populatie van 35 000 stemmers?) [11](#page=11).
* Het feit dat 2000 van de 35 000 stemmen (ongeveer 5.7%) zijn geteld, kan worden beoordeeld in relatie tot de verwachte variabiliteit en de gewenste precisie van de schatting [11](#page=11).
### 4.3 Oefening 3: Effectiviteit van medicatie tegen migraine
Een neurologieteam onderzoekt de effectiviteit van een nieuwe medicatie tegen migraine door patiënten willekeurig toe te wijzen aan een testgroep of een placebogroep [16](#page=16).
* **Probleemstelling:** Zijn er in verhouding minder mensen met migraine aanvallen in de testgroep dan in de placebogroep? Significantieniveau $\alpha = 5\%$ [16](#page=16).
* **Gegeven:**
* Testgroep: $n_1 = 35$ patiënten [16](#page=16).
* Testgroep met afgenomen aanvallen: $x_1 = 21$ [16](#page=16).
* Placebogroep: $n_2 = 20$ patiënten [16](#page=16).
* Placebogroep met afgenomen aanvallen: $x_2 = 10$ [16](#page=16).
* Significantieniveau: $\alpha = 5\%$ [16](#page=16).
* **Analyse:**
* Dit is een vergelijking van twee proporties uit twee onafhankelijke steekproeven.
* Steekproefproportie testgroep: $\hat{p}_1 = \frac{x_1}{n_1} = \frac{21}{35} = 0.60$ [16](#page=16).
* Steekproefproportie placebogroep: $\hat{p}_2 = \frac{x_2}{n_2} = \frac{10}{20} = 0.50$ [16](#page=16).
* Nulhypothese ($H_0$): De proportie patiënten met afgenomen aanvallen is gelijk in beide groepen ($p_1 = p_2$) [16](#page=16).
* Alternatieve hypothese ($H_1$): De proportie patiënten met afgenomen aanvallen is kleiner in de testgroep dan in de placebogroep ($p_1 < p_2$). Dit is een eenzijdige toets [16](#page=16).
* De gecombineerde proportie $\hat{p}_{pooled}$ wordt berekend om de standaardfout te schatten onder $H_0$: $\hat{p}_{pooled} = \frac{x_1 + x_2}{n_1 + n_2}$ [16](#page=16).
* De toetsingsgrootheid (z-score) voor het verschil tussen twee proporties is: $Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}_{pooled}(1-\hat{p}_{pooled})(\frac{1}{n_1} + \frac{1}{n_2})}}$ [16](#page=16).
* **Conclusie:** De berekende Z-waarde wordt vergeleken met de kritieke waarde voor $\alpha = 5\%$ om te bepalen of het nieuwe medicijn een significant grotere afname van migraineaanvallen veroorzaakt.
### 4.4 Oefening 4: Tevredenheid van werknemers in internationale filialen
Een internationaal bedrijf vergelijkt de tevredenheid van werknemers in België en Spanje. Er wordt onderzocht of het percentage tevreden werknemers lager is in Spanje dan in België [17](#page=17).
* **Probleemstelling:** Zijn er in verhouding minder tevreden werknemers in Spanje dan in België? Significantieniveau $\alpha = 1\%$ [17](#page=17).
* **Gegeven:**
* België: $n_{BE} = 100$ werknemers bevraagd, $x_{BE} = 51$ tevreden [17](#page=17).
* Spanje: $n_{ES} = 60$ werknemers bevraagd, $x_{ES,ontevreden} = 33$. Hieruit volgt dat $x_{ES} = 60 - 33 = 27$ tevreden werknemers [17](#page=17).
* Significantieniveau: $\alpha = 1\%$ [17](#page=17).
* **Analyse:**
* Dit betreft wederom een vergelijking van twee proporties uit twee onafhankelijke steekproeven.
* Steekproefproportie tevredenheid België: $\hat{p}_{BE} = \frac{51}{100} = 0.51$ [17](#page=17).
* Steekproefproportie tevredenheid Spanje: $\hat{p}_{ES} = \frac{27}{60} = 0.45$ [17](#page=17).
* Nulhypothese ($H_0$): De proportie tevreden werknemers is gelijk in beide filialen ($p_{BE} = p_{ES}$) [17](#page=17).
* Alternatieve hypothese ($H_1$): De proportie tevreden werknemers is kleiner in Spanje dan in België ($p_{ES} < p_{BE}$). Dit is een eenzijdige toets [17](#page=17).
* De gecombineerde proportie $\hat{p}_{pooled}$ wordt berekend: $\hat{p}_{pooled} = \frac{x_{BE} + x_{ES}}{n_{BE} + n_{ES}} = \frac{51 + 27}{100 + 60}$ [17](#page=17).
* De toetsingsgrootheid (z-score) voor het verschil tussen twee proporties is: $Z = \frac{\hat{p}_{ES} - \hat{p}_{BE}}{\sqrt{\hat{p}_{pooled}(1-\hat{p}_{pooled})(\frac{1}{n_{BE}} + \frac{1}{n_{ES}})}}$ [17](#page=17).
* **Conclusie:** De resulterende Z-waarde wordt getoetst tegen de kritieke waarde voor $\alpha = 1\%$ om te oordelen of er statistisch significant minder tevreden werknemers zijn in Spanje.
### 4.5 Oefening 5: Effectiviteit van antidepressivum
Een farmaceutisch bedrijf evalueert de effectiviteit van een nieuw antidepressivum ten opzichte van het standaard medicijn, en test een specifieke marketingclaim [18](#page=18).
* **Probleemstelling:**
a) Is het nieuwe medicijn effectiever dan het standaard medicijn? ($\alpha = 5\%$) [18](#page=18).
b) Is er voldoende bewijs voor de claim dat het nieuwe medicijn minstens 15 procentpunten effectiever is? ($\alpha = 5\%$) [18](#page=18).
* **Gegeven:**
* Nieuw medicijn: $n_{nieuw} = 120$ patiënten, $x_{nieuw} = 79$ met significante verbetering [18](#page=18).
* Standaard medicijn: $n_{std} = 110$ patiënten, $x_{std} = 54$ met significante verbetering [18](#page=18).
* Significantieniveau: $\alpha = 5\%$ [18](#page=18).
* **Analyse (deel a):**
* Vergelijking van twee proporties uit twee onafhankelijke groepen.
* Steekproefproportie verbetering nieuw medicijn: $\hat{p}_{nieuw} = \frac{79}{120} \approx 0.6583$ [18](#page=18).
* Steekproefproportie verbetering standaard medicijn: $\hat{p}_{std} = \frac{54}{110} \approx 0.4909$ [18](#page=18).
* Nulhypothese ($H_0$): Het nieuwe medicijn is niet effectiever dan het standaard medicijn ($p_{nieuw} \le p_{std}$) [18](#page=18).
* Alternatieve hypothese ($H_1$): Het nieuwe medicijn is effectiever dan het standaard medicijn ($p_{nieuw} > p_{std}$). Dit is een eenzijdige toets [18](#page=18).
* Berekening van $\hat{p}_{pooled} = \frac{79 + 54}{120 + 110}$ [18](#page=18).
* Toetsingsgrootheid: $Z = \frac{\hat{p}_{nieuw} - \hat{p}_{std}}{\sqrt{\hat{p}_{pooled}(1-\hat{p}_{pooled})(\frac{1}{n_{nieuw}} + \frac{1}{n_{std}})}}$ [18](#page=18).
* **Analyse (deel b):**
* Deze deelvraag onderzoekt een specifiek verschil in proporties.
* Nulhypothese ($H_0$): Het verschil in effectiviteit is kleiner dan 15 procentpunten ($p_{nieuw} - p_{std} \le 0.15$) [18](#page=18).
* Alternatieve hypothese ($H_1$): Het verschil in effectiviteit is minstens 15 procentpunten ($p_{nieuw} - p_{std} > 0.15$). Dit is een eenzijdige toets [18](#page=18).
* De toetsingsgrootheid wordt berekend met: $Z = \frac{(\hat{p}_{nieuw} - \hat{p}_{std}) - (p_{nieuw,0} - p_{std,0})}{\sqrt{\frac{p_{nieuw}(1-p_{nieuw})}{n_{nieuw}} + \frac{p_{std}(1-p_{std})}{n_{std}}}}$. Voor de berekening onder $H_0$ wordt het verschil van 0.15 gebruikt als $(p_{nieuw,0} - p_{std,0})$. Echter, bij het toetsen van een specifiek verschil is het vaak handiger om de standaardfout te schatten met de bekende proporties (indien mogelijk) of de gepoolde schatting, afhankelijk van de precieze statistische methode. Een directere methode is om de toetsingsgrootheid te construeren rond het hypothetische verschil van 0.15:
$Z = \frac{(\hat{p}_{nieuw} - \hat{p}_{std}) - 0.15}{\sqrt{\frac{\hat{p}_{nieuw}(1-\hat{p}_{nieuw})}{n_{nieuw}} + \frac{\hat{p}_{std}(1-\hat{p}_{std})}{n_{std}}}}$. Hierbij worden de eigen steekproefproporties gebruikt voor de schatting van de variantie [18](#page=18).
* **Conclusie:** Beide delen vereisen het vergelijken van de berekende Z-waarden met de kritieke Z-waarde voor $\alpha = 5\%$ om conclusies te trekken over de effectiviteit en de marketingclaim.
> **Tip:** Bij het toetsen van twee proporties is het cruciaal om te bepalen of de steekproeven onafhankelijk zijn en of de toets eenzijdig of tweezijdig is, gebaseerd op de vraagstelling.
> **Tip:** Zorg bij het berekenen van de gecombineerde proportie ($\hat{p}_{pooled}$) dat deze alleen wordt gebruikt wanneer de nulhypothese stelt dat de proporties gelijk zijn. Bij het toetsen van een specifiek verschil (zoals 15 procentpunten) worden de individuele steekproefproporties vaak gebruikt om de variantie te schatten voor een nauwkeurigere toetsing.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Binomiale verdeling | Een kansverdeling die de kans op een bepaald aantal successen beschrijft in een vast aantal onafhankelijke experimenten (pogingen), waarbij elke poging slechts twee mogelijke uitkomsten heeft (succes of mislukking) met een constante succeskans. |
| Steekproefproportie | De fractie van de observaties in een steekproef die een bepaalde eigenschap vertonen; wordt vaak gebruikt als schatting van de populatieproportie. |
| Nulhypothese ($H_0$) | Een stelling die wordt verondersteld waar te zijn totdat bewijs het tegendeel aantoont; in proportietests stelt deze vaak dat er geen verschil is tussen populatieproporties of dat een populatieproportie een specifieke waarde heeft. |
| Alternatieve hypothese ($H_A$) | Een stelling die wordt voorgesteld als alternatief voor de nulhypothese; deze stelt meestal dat er een verschil is of dat een parameter groter of kleiner is dan gespecificeerd in de nulhypothese. |
| Betrouwbaarheidsinterval | Een reeks waarden die waarschijnlijk de ware populatieparameter bevat, berekend op basis van steekproefgegevens, met een gespecificeerd betrouwbaarheidsniveau. |
| Steekproevenverdeling | De verdeling van de statistiek berekend uit alle mogelijke steekproeven van dezelfde grootte, getrokken uit dezelfde populatie. |
| Variantie | Een maat voor de spreiding van een set getallen; het is het gemiddelde van de gekwadrateerde afwijkingen van elk getal van het gemiddelde van die set. |
| Twee-steekproeven proportietest | Een statistische test die wordt gebruikt om te bepalen of er een significant verschil is tussen de proporties van twee verschillende populaties. |
| Gepoolde steekproefproportie | Een gewogen gemiddelde van de steekproefproporties van twee groepen, gebruikt in een twee-steekproeven proportietest wanneer de nulhypothese gelijke proporties veronderstelt. |
| Significantieniveau ($\alpha$) | De kans op het verwerpen van de nulhypothese wanneer deze feitelijk waar is (type I fout); vaak ingesteld op 0.05 of 0.01. |
Cover
WPO+6+S3+2526+wilcoxon+met+uitgewerkte+voorbeelden.pptx
Summary
# Inleiding tot non-parametrische testen
Dit deel introduceert de Wilcoxon testen als alternatieven voor de t-test wanneer de voorwaarden voor de t-test niet voldaan zijn, met specifieke aandacht voor de Mann Whitney U test en de Wilcoxon rangtekentest.
### 1.1 Wilcoxon testen als alternatieven voor de t-test
Non-parametrische testen, zoals de Wilcoxon testen, bieden een uitkomst wanneer de aannames van parametrische testen, zoals de t-test, niet voldaan zijn. Dit is met name relevant bij data die niet normaal verdeeld zijn of wanneer de data nominaal of ordinaal is en niet voldoet aan de interval/ratio voorwaarden van de t-test.
### 1.2 De Mann Whitney U test (Wilcoxon rangsomtest)
#### 1.2.1 Toepassingsgebied en voorwaarden
De Mann Whitney U test (ook bekend als de Wilcoxon rangsomtest) wordt gebruikt om het verschil te toetsen tussen twee onafhankelijke (ongepaarde) groepen.
* **Voorwaarden:**
* De data moet minstens van ordinaal niveau zijn.
* Er moeten twee onafhankelijke (ongepaarde) steekproeven zijn.
* Voor een betrouwbare toetsing wordt vaak een minimale steekproefgrootte van $n_1 \ge 10$ en $n_2 \ge 10$ gehanteerd.
#### 1.2.2 Hypothesen
De nulhypothese ($H_0$) stelt dat er geen verschil is in de medianen tussen de twee groepen, terwijl de alternatieve hypothese ($H_A$) stelt dat er een verschil is.
* $H_0$: $Mdn_x - Mdn_y = 0$
* $H_A$: $Mdn_x - Mdn_y > 0$ (éénzijdige toets) of $Mdn_x - Mdn_y \ne 0$ (tweezijdige toets)
#### 1.2.3 Berekening van de toetsingsgrootheid
De berekening van de toetsingsgrootheid omvat het rangschikken van alle observaties uit beide groepen samen. Bij gelijke waarden (ex aequo's) wordt het gemiddelde van de rangen toegekend.
> **Tip:** Bij ex aequo's die zich over groepen heen voordoen, moet in principe een correctie op de standaardfout van de z-statistiek worden uitgevoerd. Softwarepakketten voeren deze correctie doorgaans automatisch uit.
#### 1.2.4 Voorbeeld van toepassing
Professor Theuns onderzoekt de motivatie van studenten. Acht studenten schrijven een opstel, waarbij vier studenten hun onderwerp mogen kiezen en vier een onderwerp toegewezen krijgen. De motivatiescores (op een schaal van 0 tot 30) worden vergeleken.
* **Gegevens:** Motivatie scores zijn ordinaal, er zijn 2 ongepaarde steekproeven (zelfgekozen vs. opgelegd onderwerp).
* **Geschikte toets:** Wilcoxon rangsomtest (Mann Whitney U test) omdat de voorwaarden (ordinaal niveau, 2 ongepaarde steekproeven) voldaan zijn en $n_1=4, n_2=4$, hoewel dit lager is dan de aanbevolen $n \ge 10$. In de context van de oefening worden de voorwaarden als ok beschouwd.
* **Hypothesen:** $H_0$: $Mdn_{zelfgekozen} - Mdn_{opgelegd} = 0$, $H_A$: $Mdn_{zelfgekozen} - Mdn_{opgelegd} > 0$.
### 1.3 De Wilcoxon rangtekentest
#### 1.3.1 Toepassingsgebied en voorwaarden
De Wilcoxon rangtekentest wordt gebruikt om het verschil te toetsen tussen twee gerelateerde (gepaarde) metingen uit één steekproef. Dit is bijvoorbeeld het geval bij metingen voor en na een interventie bij dezelfde personen.
* **Voorwaarden:**
* De data moet minstens van ordinaal niveau zijn.
* Er is sprake van één steekproef die tweemaal gemeten is (oftewel, 2 gepaarde steekproeven).
* Een voorwaarde voor de exacte toets is dat de verdeling van de verschilscores symmetrisch is rond nul. Wanneer de verschilscores niet normaal verdeeld zijn, maar wel de symmetrie aanname geldt, kan de Wilcoxon rangtekentest gebruikt worden.
* Voor de benaderende z-toets wordt een minimale steekproefgrootte van $n \ge 10$ gehanteerd. Het aantal paren met een verschilscore groter dan nul, $N^*$, wordt berekend als $N^* = n - \#\text{paren met verschilscore 0}$.
> **Tip:** Een specifieke voorwaarde die soms wordt gesteld voor de *exacte* Wilcoxon rangtekentest is dat er geen enkel interval tussen twee opeenvolgende waarden groter mag zijn dan de som van twee andere opeenvolgende intervallen. Echter, voor de benaderende z-toets met grotere steekproeven is dit minder strikt.
#### 1.3.2 Voorbeeld van toepassing
Professor Isaac onderzoekt angst bij studenten. De hartslag per minuut van zestien studenten wordt gemeten in rust en na het bekijken van een videofragment van een slang. De verschilscores zijn niet normaal verdeeld.
* **Gegevens:** Hartslagen per minuut zijn van ratio niveau, er is één steekproef tweemaal gemeten (voor en na video). De verschilscores zijn niet normaal verdeeld.
* **Geschikte toets:** Omdat de verschilscores niet normaal verdeeld zijn en de data gepaard is, is de Wilcoxon rangtekentest de meest aangewezen non-parametrische test. De gepaarde t-test is niet geschikt.
* **Voorwaarden:** $n=16$, dus $N^* = 16 - 1 = 15$ (ervan uitgaande dat één paar een verschilscore van 0 had). Aangezien $N^*=15 \ge 10$, zijn de voorwaarden voor de benaderende z-toets voldaan.
* **Hypothesen:** $H_0$: De mediane hartslag voor het videofragment = De mediane hartslag na het videofragment, $H_A$: De mediane hartslag na het videofragment > De mediane hartslag voor het videofragment.
### 1.4 Belangrijke overwegingen
Bij het gebruik van non-parametrische testen, zoals de Mann Whitney U test en de Wilcoxon rangtekentest, is het cruciaal om de specifieke voorwaarden van elke test te controleren en te begrijpen hoe verschillende softwarepakketten de resultaten rapporteren, aangezien er variaties in output kunnen voorkomen. De keuze tussen de twee hangt af van of de steekproeven gepaard of ongepaard zijn.
---
# Toepassing van de Wilcoxon rangsomtest (Mann Whitney U test)
Deze sectie illustreert de toepassing van de Wilcoxon rangsomtest, ook wel bekend als de Mann Whitney U test, op een praktisch voorbeeld met motivatiescores van studenten, waarbij de voorwaarden en hypothesen worden uiteengezet.
### 2.1 De Wilcoxon rangsomtest en de Mann Whitney U test
De Wilcoxon rangsomtest (ook Mann Whitney U test genoemd) is een niet-parametrische toets die gebruikt kan worden wanneer de voorwaarden voor de t-test niet voldaan zijn.
#### 2.1.1 Toepassingsgebied
* **Voorwaarden:**
* De data moeten van ordinaal niveau zijn.
* Er moeten twee onafhankelijke (ongepaarde) steekproeven zijn.
* **Alternatief voor de t-test:** Beide testen kunnen worden gebruikt voor data die niet voldoen aan de voorwaarden van de t-test (zoals normaliteit).
* **Software rapportage:** Verschillende softwarepakketten rapporteren deze testen op uiteenlopende manieren.
* **Steekproefgrootte:** De voorwaarden voor deze test zijn doorgaans dat de steekproefgroottes van beide groepen voldoende groot zijn, bijvoorbeeld $n_1 \ge 10$ en $n_2 \ge 10$.
#### 2.1.2 Voorbeeld: Motivatie van studenten
Een professor doet onderzoek naar de motivatie van studenten. Acht studenten worden gevraagd een opstel te schrijven. Vier studenten mogen hun onderwerp zelf kiezen (groep X) en vier studenten krijgen een onderwerp toegewezen (groep Y). Na het inleveren van het opstel worden de motivatiescores gemeten op een schaal van 0 (niet gemotiveerd) tot 30 (uitermate gemotiveerd).
**Vraag:** Zijn de motivatiescores van studenten met een zelfgekozen onderwerp significant hoger dan die van studenten met een opgelegd onderwerp, met een significantieniveau $\alpha = 5\%$?
**Stap 1: Bepalen van de meest aangewezen toets**
* **Type variabele:** Motivatie scores zijn ordinaal.
* **Aantal steekproeven:** Er zijn twee onafhankelijke steekproeven (zelfgekozen onderwerp vs. opgelegd onderwerp).
* **Conclusie:** De Wilcoxon rangsomtest (Mann Whitney U test) is de meest geschikte toets.
* **Voorwaarden:** Aangenomen dat de voorwaarden, zoals $n_1 \ge 10$ en $n_2 \ge 10$, voldaan zijn voor de opgave.
**Stap 2: Opstellen van de hypothesen**
De nulhypothese ($H_0$) stelt dat er geen verschil is tussen de medianen van de twee groepen, terwijl de alternatieve hypothese ($H_A$) stelt dat de mediaan van groep X significant hoger is dan die van groep Y.
* $H_0$: $Mdn_X - Mdn_Y = 0$
* $H_A$: $Mdn_X - Mdn_Y > 0$
**Stap 3: Berekenen van de toetsingsgrootheid**
Dit omvat het rangschikken van alle observaties gezamenlijk en vervolgens het berekenen van de som van de rangen voor elke groep. Er zijn verschillende methoden om de toetsingsgrootheid te berekenen, waarbij softwarepakketten dit vaak automatiseren.
* **Omgang met ex aequo's (gelijke waarden):** Bij gelijke waarden worden de gemiddelde rangen voor deze waarden toegekend. Indien er ex aequo's optreden tussen de groepen, zou dit in principe een correctie op de standaardfout van de z-statistiek vereisen, maar dit wordt bij handmatige uitwerking vaak weggelaten.
> **Tip:** Bij de handmatige berekening is het essentieel om nauwkeurig de rangen toe te kennen en de som van de rangen voor elke groep correct te bepalen.
### 2.2 Vergelijking met andere Wilcoxon testen
De tekst noemt ook de **Wilcoxon tekentest** (ook wel rangtekentest genoemd) als een gerelateerde, maar distincte, niet-parametrische toets.
#### 2.2.1 De Wilcoxon tekentest
* **Voorwaarden:**
* De data moeten van ordinaal niveau zijn.
* Er is één steekproef die tweemaal gemeten wordt (gepaarde steekproeven). Dit is van toepassing bij situaties zoals een "voor en na" meting.
* Een specifieke voorwaarde met betrekking tot intervallen: geen enkel interval tussen twee opeenvolgende waarden mag groter zijn dan de som van twee andere opeenvolgende intervallen. Bijvoorbeeld, een reeks met waarden 1, 2, 3, 5 is oké, maar 1, 2, 3, 6 is dat niet, omdat de som van de intervallen $(2-1) + (3-2) = 2$ niet gelijk is aan $(6-3) = 3$.
* De steekproefgrootte moet voldoende zijn, doorgaans $n \ge 10$.
* **Toepassing:** De tekentest wordt gebruikt wanneer de verschilscores van gepaarde metingen niet normaal verdeeld zijn en men een niet-parametrisch alternatief zoekt voor de gepaarde t-test.
#### 2.2.2 Oefening met de Wilcoxon tekentest (Professor Isaac)
Een voorbeeld betreft het meten van de hartslag van studenten voor en na het bekijken van een videofragment met een slang. De verschilscores zijn niet normaal verdeeld. Met 16 studenten, en één paar met een verschilscore van 0, wordt de effective steekproefgrootte $n^* = 16 - 1 = 15$. Aangezien $n^* \ge 10$, is de Wilcoxon tekentest geschikt. Dit illustreert hoe de tekentest wordt toegepast op gepaarde data wanneer aan de voorwaarden voldaan is.
---
# Wilcoxon rangtekentest bij gepaarde steekproeven
De Wilcoxon rangtekentest bij gepaarde steekproeven is een non-parametrische toets die wordt gebruikt om te onderzoeken of er een significant verschil is tussen twee gerelateerde metingen, vaak uitgevoerd op dezelfde proefpersonen onder verschillende omstandigheden of op verschillende tijdstippen. Deze test is met name geschikt wanneer de verschilscores niet normaal verdeeld zijn, wat een voorwaarde is voor de gepaarde t-toets.
### 3.1 Toepassingsgebied en voorwaarden
De Wilcoxon rangtekentest voor gepaarde steekproeven wordt toegepast in de volgende situaties:
* **Niveau van meting:** De data moeten op ten minste ordinaal niveau gemeten zijn.
* **Steekproefstructuur:** Er is sprake van één steekproef die tweemaal is gemeten (oftewel, twee gepaarde steekproeven). Dit betekent dat de metingen van de ene groep direct gekoppeld zijn aan de metingen van de andere groep (bijvoorbeeld metingen bij dezelfde persoon voor en na een interventie).
* **Distributie van verschilscores:** De verschilscores tussen de gepaarde metingen mogen niet normaal verdeeld zijn.
* **Steekproefgrootte:** De effectieve steekproefgrootte ($n^*$) moet minimaal 10 zijn. De effectieve steekproefgrootte wordt berekend als de totale steekproefgrootte min het aantal paren met een verschilscore van nul.
> **Tip:** Deze test is een uitstekend alternatief voor de gepaarde t-toets wanneer de aanname van normaliteit van de verschilscores geschonden wordt.
Het document noemt ook een specifieke voorwaarde met betrekking tot de intervallen tussen opeenvolgende waarden op de ordinale schaal, maar dit lijkt meer gerelateerd aan de rangsomtest dan aan de rangtekentest zelf, en de nadruk ligt op de gepaarde metingen.
### 3.2 Hypothesen
Voor de Wilcoxon rangtekentest bij gepaarde steekproeven worden de volgende hypothesen opgesteld:
* **Nulhypothese ($H_0$):** Er is geen verschil tussen de medianen van de twee gerelateerde metingen. Dit kan formeel worden uitgedrukt als:
$H_0: \text{Mdn}_{\text{verschil}} = 0$
of, equivalent:
$H_0: \text{Mdn}_X = \text{Mdn}_Y$
waarbij $X$ en $Y$ de twee metingen van de gepaarde steekproef representeren.
* **Alternatieve hypothese ($H_A$):** Er is een verschil tussen de medianen van de twee gerelateerde metingen. Afhankelijk van de onderzoeksvraag kan dit een eenzijdige of tweezijdige hypothese zijn:
* Eenzijdig (groter): $H_A: \text{Mdn}_{\text{verschil}} > 0$ (oftewel, $\text{Mdn}_X > \text{Mdn}_Y$)
* Eenzijdig (kleiner): $H_A: \text{Mdn}_{\text{verschil}} < 0$ (oftewel, $\text{Mdn}_X < \text{Mdn}_Y$)
* Tweezijdig: $H_A: \text{Mdn}_{\text{verschil}} \neq 0$ (oftewel, $\text{Mdn}_X \neq \text{Mdn}_Y$)
### 3.3 Berekening van de toetsingsgrootheid
De berekening van de toetsingsgrootheid in de Wilcoxon rangtekentest bij gepaarde steekproeven omvat de volgende stappen:
1. **Bereken de verschilscores:** Voor elk paar metingen wordt het verschil berekend: $d_i = X_i - Y_i$.
2. **Negeer paren met een verschilscore van nul:** Deze paren dragen niet bij aan de analyse.
3. **Rangschik de absolute waarden van de verschilscores:** Rangschik de absolute waarden van de niet-nul verschilscores van klein naar groot.
4. **Ken rangen toe:**
* Geef de kleinste absolute verschilscore de rang 1, de volgende de rang 2, enzovoort.
* **Behandeling van ex aequo's (gelijke waarden):** Indien er gelijke absolute verschilscores zijn, krijgen deze de gemiddelde rang toegekend die ze zouden hebben ingenomen als ze net van elkaar verschilden. Bijvoorbeeld, als de derde en vierde kleinste absolute verschillen gelijk zijn, krijgen ze beide de rang $(3+4)/2 = 3.5$.
5. **Bepaal de som van de positieve rangen en de som van de negatieve rangen:**
* Ken de oorspronkelijke tekens (positief of negatief) toe aan de rangen die overeenkomen met de verschilscores.
* Bereken de som van de rangen met positieve verschilscores ($W^+$).
* Bereken de som van de rangen met negatieve verschilscores ($W^-$).
6. **Bepaal de toetsingsgrootheid:** De toetsingsgrootheid is meestal de kleinste van de twee sommen van rangen, $W = \min(W^+, W^-)$. Echter, in sommige softwarepakketten wordt de som van de positieve rangen ($W^+$) als toetsingsgrootheid gebruikt, waarbij de alternatieve hypothese dan aangepast wordt op basis van de richting van het verwachte verschil.
> **Tip:** De som van alle rangen ($n^*(n^*+1)/2$) moet gelijk zijn aan de som van de positieve en negatieve rangen ($W^+ + W^-$). Dit is een goede controle op de berekeningen.
**Behandeling van ex aequo's tussen groepen:** Het document vermeldt dat bij ex aequo's tussen groepen (in de context van de rangsomtest, maar principieel ook relevant voor de rangtekentest bij de toekenning van rangen aan verschillen) een correctie op de standaardfout van de z-statistiek nodig is. Dit wordt echter doorgaans door statistische software uitgevoerd en niet handmatig.
### 3.4 Voorbeeld: Hartslag bij angst
Professor Isaac onderzoekt angst. Zestien studenten nemen deel. De hartslag per minuut wordt gemeten in rust en opnieuw na het bekijken van een videofragment van een aanvallende slang. De verschilscores zijn niet normaal verdeeld. De vraag is of de hartslag na het videofragment significant hoger is dan ervoor, met een significantieniveau $\alpha = 5\%$.
* **Data:** Gepaarde metingen (hartslag voor en na video).
* **Aantal studenten:** $n=16$.
* **Voorwaarde verschilscores niet normaal:** Voldoen we aan.
* **Gepaarde t-test:** Niet geschikt vanwege niet-normaal verdeelde verschilscores en een steekproefgrootte ($n=16 < 30$).
* **Geschikte toets:** Wilcoxon rangtekentest bij gepaarde steekproeven.
* **Effectieve steekproefgrootte ($n^*$):** Als één student een verschilscore van 0 had, dan zou $n^* = 16 - 1 = 15$. De voorwaarde $n^* \geq 10$ is voldaan.
**Hypothesen:**
* $H_0: \text{Mdn}_{\text{verschil}} = 0$ (hartslag na = hartslag voor)
* $H_A: \text{Mdn}_{\text{verschil}} > 0$ (hartslag na > hartslag voor)
De verdere uitwerking zou de berekening van de verschilscores, rangschikking, toekenning van rangen en de sommatie van de rangen omvatten om de toetsingsgrootheid te bepalen en deze te vergelijken met een kritische waarde uit de Wilcoxon-tabel of een z-waarde uit de normale verdeling voor grote steekproeven.
---
# Verschil tussen examenprestaties
Dit onderdeel onderzoekt of er een significant verschil bestaat in examenprestaties tussen dezelfde studenten op twee verschillende vakken, waarbij de normaliteitsvoorwaarden voor t-testen niet voldaan zijn.
### 4.1 Situatiebeschrijving en probleemstelling
Oefening 4 behandelt een situatie waarin de examenprestaties van dezelfde studenten op twee verschillende vakken, Statistiek (X) en Algemene Psychologie (Y), met elkaar worden vergeleken. De kernvraag is of er een significant verschil bestaat tussen deze twee prestatieniveaus. Er wordt expliciet gesteld dat de verschillen tussen de scores niet normaal verdeeld zijn, wat betekent dat een parametrische toets zoals de gepaarde t-test niet de meest geschikte methode is. In plaats daarvan wordt er gekeken naar een non-parametrische alternatieve toets.
### 4.2 Keuze van de toets
Gezien de voorwaarden:
* De metingen komen van dezelfde studenten (dus gepaarde/afhankelijke steekproeven).
* De verschilscores voldoen niet aan de normaliteitsvoorwaarde.
Is de **Wilcoxon rangtekentest** de meest aangewezen non-parametrische toets. Deze test is geschikt voor het vergelijken van twee afhankelijke metingen wanneer de verschillen niet normaal verdeeld zijn, mits de data minimaal van ordinaal niveau zijn.
### 4.3 Hypothesen formuleren
Voor de Wilcoxon rangtekentest worden de hypothesen geformuleerd rond de mediaan van de verschilscores.
* **Nulhypothese ($H_0$)**: Er is geen verschil in de mediaan van de scores tussen de twee vakken. Dit kan geformuleerd worden als $Mdn_X - Mdn_Y = 0$ of $Mdn_{verschil} = 0$.
* **Alternatieve hypothese ($H_A$)**: Er is wel een verschil in de mediaan van de scores tussen de twee vakken. Dit kan zowel een tweezijdige hypothese zijn ($Mdn_X \neq Mdn_Y$ of $Mdn_{verschil} \neq 0$) als een eenzijdige hypothese, afhankelijk van de specifieke onderzoeksvraag. In dit specifieke geval wordt gevraagd om na te gaan *of er een significant verschil is*, wat impliceert dat de alternatieve hypothese tweezijdig is.
Voor dit voorbeeld, met een significantieniveau ($\alpha$) van 1% (0.01):
* $H_0$: $Mdn_X - Mdn_Y = 0$
* $H_A$: $Mdn_X - Mdn_Y \neq 0$
### 4.4 Toetsingsgrootheid berekenen
De Wilcoxon rangtekentest werkt door de absolute verschillen tussen de gepaarde scores te rangschikken. Vervolgens worden de rangen van de positieve en negatieve verschillen apart gesommeerd. De toetsingsgrootheid is doorgaans de kleinste van deze twee sommen (W).
**Stappen voor berekening (handmatig):**
1. **Bereken de verschilscores**: Voor elk paar scores ($X_i, Y_i$), bereken het verschil $D_i = X_i - Y_i$.
2. **Negeer nulverschillen**: Studenten met een verschilscore van 0 worden uit de analyse verwijderd. Het aantal resterende paren is $N^*$.
3. **Rangschik absolute verschillen**: Neem de absolute waarden van de niet-nul verschilscores ($|D_i|$). Rangschik deze van klein naar groot.
4. **Wijs rangen toe**: Geef aan elke $|D_i|$ de rang die overeenkomt met zijn positie in de gesorteerde lijst.
* **Ex aequo's (gelijke waarden)**: Bij gelijke absolute verschillen wordt het gemiddelde van de betrokken rangen toegekend aan alle gelijke waarden.
5. **Scheid rangen**: Wijs de oorspronkelijke rangen toe aan de positieve en negatieve verschilscores.
* Som van de rangen van de positieve verschillen ($W^+$).
* Som van de rangen van de negatieve verschillen ($W^-$).
6. **Bepaal de toetsingsgrootheid (W)**: De toetsingsgrootheid $W$ is de kleinste van $W^+$ en $W^-$.
**Tip:** Softwarepakketten voeren deze berekening efficiënt uit. Bij handmatige berekeningen is het cruciaal om zorgvuldig te werk te gaan, vooral bij ex aequo's.
### 4.5 Beslissingsregel en conclusie
De berekende toetsingsgrootheid $W$ wordt vergeleken met een kritische waarde uit de Wilcoxon-tabel, of er wordt een p-waarde berekend.
* **Kritische waarde methode**: Als $W$ kleiner is dan of gelijk is aan de kritische waarde voor de gegeven $N^*$ en $\alpha$, wordt de nulhypothese verworpen.
* **P-waarde methode**: Als de p-waarde kleiner is dan $\alpha$ (in dit geval 0.01), wordt de nulhypothese verworpen.
**Conclusie:**
Als $H_0$ wordt verworpen, concludeert men dat er een statistisch significant verschil is in examenprestaties tussen de twee vakken op het gekozen significantieniveau. De richting van het verschil kan worden afgeleid uit de gemiddelde rangen van de positieve en negatieve verschillen. Indien $H_0$ niet verworpen wordt, is er onvoldoende bewijs om te concluderen dat er een significant verschil bestaat.
### 4.6 Voorwaarden voor de Wilcoxon rangtekentest
* **Afhankelijke steekproeven**: De metingen moeten van dezelfde eenheden komen (bv. dezelfde studenten, dezelfde patiënten).
* **Ordinaal niveau of hoger**: De data moeten minstens ordinaal meetbaar zijn.
* **Verschilscores niet normaal verdeeld**: Dit is de reden waarom de Wilcoxon test verkozen wordt boven de gepaarde t-test.
* **Steekproefgrootte**: Hoewel de test theoretisch op kleine steekproeven kan worden toegepast, wordt een minimale steekproefgrootte van $N^* \ge 10$ vaak als wenselijk beschouwd voor betrouwbare resultaten, vooral bij het gebruik van z-approximaties voor grotere steekproeven. Voor de normale benadering geldt $N^* \ge 20$.
**Tip:** Controleer altijd of de data minimaal ordinaal zijn en of de metingen werkelijk gepaard zijn. De afwezigheid van normaliteit in de verschilscores is een sleutelcriterium.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Univariate data-analyse | Een statistische analyse die zich richt op één variabele tegelijk om de kenmerken ervan te beschrijven en te samenvatten. |
| Rangsomtest | Een non-parametrische statistische test die gebruikt wordt om de verschillen tussen twee onafhankelijke groepen te vergelijken door de rangordes van de data te analyseren. |
| Mann Whitney U test | Een non-parametrische toets die gelijkwaardig is aan de Wilcoxon rangsomtest en gebruikt wordt om te bepalen of twee onafhankelijke groepen significant van elkaar verschillen op een ordinale variabele. |
| Wilcoxon rangtekentest | Een non-parametrische toets voor gepaarde metingen, gebruikt om te beoordelen of er een significant verschil is tussen twee gerelateerde metingen van dezelfde proefpersoon of een gematcht paar. |
| Ordinaal niveau | Een meetniveau waarbij de data geordend kan worden, maar de afstanden tussen de waarden niet noodzakelijk gelijk zijn. |
| Steekproef | Een representatief deel van een populatie dat wordt geselecteerd voor onderzoek, om conclusies te kunnen trekken over de gehele populatie. |
| Gepaarde steekproeven | Twee sets metingen die aan elkaar gerelateerd zijn, meestal afkomstig van dezelfde proefpersonen onder verschillende omstandigheden of op verschillende tijdstippen. |
| Ongepaarde steekproeven | Twee sets metingen die onafhankelijk van elkaar zijn, afkomstig van verschillende groepen proefpersonen. |
| T-test | Een parametrische statistische test die gebruikt wordt om het verschil tussen de gemiddelden van twee groepen te vergelijken, ervan uitgaande dat de data normaal verdeeld zijn. |
| Motivatie | De drijfveer of redenen die leiden tot bepaald gedrag, in dit geval de mate van gemotiveerdheid van studenten. |
| Motivatie score | Een numerieke waarde die de mate van motivatie weergeeft, gemeten op een specifieke schaal. |
| Hypothese | Een voorlopige aanname of stelling die getoetst moet worden met statistische methoden. |
| H0 (Nulhypothese) | De hypothese die stelt dat er geen significant verschil of verband is tussen de populatieparameters. |
| HA (Alternatieve hypothese) | De hypothese die stelt dat er wel een significant verschil of verband is, en die geaccepteerd wordt als de nulhypothese verworpen wordt. |
| Mdn (Mediaan) | De middelste waarde in een geordende dataset; de waarde die de dataset in twee gelijke helften verdeelt. |
| Toetsingsgrootheid | Een waarde berekend uit steekproefgegevens die gebruikt wordt om een statistische toets uit te voeren en een beslissing te nemen over de nulhypothese. |
| Ex aequo | Betekent gelijke rangen in de data, wat voorkomt wanneer meerdere waarnemingen dezelfde waarde hebben. |
| Standaardfout | Een maat voor de spreiding van steekproefstatistieken rond de populatieparameter; een indicator van de precisie van een schatting. |
| Woo(n)st | Een term die wordt gebruikt om de woonomgeving of het huis aan te duiden. |
| Properheid | De mate van netheid en hygiëne van een woonomgeving. |
| Hartslag per minuut | Het aantal keer dat het hart klopt binnen een periode van zestig seconden. |
| Verschilscore | Het resultaat van het aftrekken van de ene meting van een andere, vaak gebruikt bij gepaarde metingen om de verandering te kwantificeren. |
| Ratio meetniveau | Het hoogste meetniveau, waarbij de data geordend kunnen worden, de afstanden gelijk zijn en er een absoluut nulpunt bestaat, waardoor verhoudingen betekenisvol zijn. |
Cover
WPO+7.2+S3+chi+kwadraat+2526.pptx
Summary
# Introductie tot de chi-kwadraatverdeling en toepassingen
Deze sectie introduceert de chi-kwadraatverdeling, haar kenmerken, en haar algemene toepassingen in hypothesetesten, met specifieke aandacht voor de toets voor onafhankelijkheid en de toets voor goedheid van fit.
### 1.1 De chi-kwadraatverdeling
De chi-kwadraatverdeling ($ \chi^2 $) is een continue kansverdeling die voornamelijk wordt gebruikt in hypothesetesten, met name bij het vergelijken van frequentieverdelingen.
#### 1.1.1 Kenmerken van de chi-kwadraatverdeling
* **Vrijheidsgraden ($df$)**: Dit is een cruciale parameter die de vorm van de verdeling bepaalt. Hoe meer vrijheidsgraden, hoe meer de chi-kwadraatverdeling naar rechts verschuift en symmetrischer wordt.
* **Scheefheid**: Chi-kwadraatverdelingen zijn van nature asymmetrisch. Ze hebben een lange staart aan de rechterkant. Deze scheefheid neemt af naarmate het aantal vrijheidsgraden toeneemt.
* **Kansen**: Kanswaarden onder de chi-kwadraatverdeling worden doorgaans afgelezen uit gespecialiseerde software of statistische tabellen.
#### 1.1.2 Toepassingen van de chi-kwadraatverdeling
De chi-kwadraatverdeling is van toepassing in hypothesetesten waarbij twee of meer frequentieverdelingen worden vergeleken. Twee veelvoorkomende toepassingen zijn:
1. **Chi-kwadraat toets voor onafhankelijkheid**: Deze toets onderzoekt of er een significant verband bestaat tussen twee variabelen. Minstens één van de variabelen moet gemeten zijn op nominaal niveau.
2. **Chi-kwadraat toets voor goedheid van fit (goodness of fit)**: Deze toets evalueert of de waargenomen verdeling van een variabele, gemeten op nominaal niveau, significant afwijkt van een theoretische of verwachte verdeling.
> **Voorbeeld:** Testen of het aantal mannen en vrouwen in een populatie gelijk is, of nagaan of een bepaalde fractie van de populatie linkshandig is.
>
> > **Voorbeeld:** Nagaan of de verdeling van studenten per "trimester" (6/9 nieuwe studenten, 2/9 bissers, 1/9 trissers) overeenkomt met een theoretische verdeling.
### 1.2 Voorwaarden voor de chi-kwadraat toetsen
Voor zowel de toets voor goedheid van fit als de toets voor onafhankelijkheid gelden specifieke voorwaarden met betrekking tot de verwachte frequenties:
* **Verwachte frequenties**: Niet meer dan 20% van de verwachte frequenties in de cellen mogen kleiner zijn dan 5.
* **Specifieke voorwaarde voor $df = 1$**: Indien het aantal vrijheidsgraden gelijk is aan 1, moet elke verwachte celfrequentie minimaal 5 zijn.
* **Geen nul-frequenties**: Geen enkele verwachte frequentie mag nul zijn. Een nulverwachte frequentie zou impliceren dat een bepaalde categorie volledig niet wordt gebruikt, wat de analyse van die categorie zinloos maakt.
### 1.3 Oefeningen en Toepassingsvoorbeelden
#### 1.3.1 Oefening 1: Chi-kwadraat aanpassingstoets
Jolien kweekt dahlia's en beweert dat ze deze zo heeft gekruist dat een verwachte verdeling van 65% oranje, 25% witte en 10% roze bloemen ontstaat. De vraag is of de daadwerkelijk gevonden verdeling van bloemsoorten significant afwijkt van deze verwachte verdeling, met een significantieniveau $ \alpha = 1\% $.
#### 1.3.2 Oefening 2: Chi-kwadraat afhankelijkheidstoets
De opinie van de actieve bevolking over werknemersparticipatie wordt onderzocht. Een steekproef van 500 personen uit België wordt ondervraagd, onderverdeeld in 300 arbeiders, 150 bedienden en 50 werkgevers. Van de totale groep is 36% tegen participatie. Driekwart van de bedienden is voorstander. Het aantal arbeiders dat tegenstemt is dubbel zo groot als het aantal werkgevers dat tegenstemt. De vraag is of er een verband bestaat tussen de arbeidscategorie en de opinie ten aanzien van werknemersparticipatie, met een significantieniveau $ \alpha = 5\% $.
> **Tip:** Bij het berekenen van verwachte frequenties voor de afhankelijkheidstoets, gaat men uit van de aanname van onafhankelijkheid. De verwachte frequentie in een cel is dan het product van de marginale kansen van die rij en kolom, vermenigvuldigd met het totaal aantal observaties.
>
> Bijvoorbeeld, de kans op een persoon die ziek is EN jong is, onder aanname van onafhankelijkheid, wordt berekend als de kans op ziek zijn maal de kans op jong zijn, vermenigvuldigd met het totale aantal mensen.
> $$ P(\text{ziek en jong}) = P(\text{ziek}) \times P(\text{jong}) \times \text{totaal aantal mensen} $$
---
# Soorten chi-kwadraattoetsen en hun voorwaarden
Deze sectie behandelt de twee hoofdtypen chi-kwadraattoetsen: de afhankelijkheidstoets, die de relatie tussen variabelen onderzoekt, en de aanpassingstoets, die afwijkingen van verwachte verdelingen evalueert, evenals de voorwaarden waaraan voldaan moet worden voor het correct toepassen van deze toetsen.
### 2.1 Inleiding tot chi-kwadraattoetsen
Chi-kwadraattoetsen worden vaak gebruikt in hypothesetesten om twee of meer frequentieverdelingen te vergelijken. Ze zijn met name nuttig bij het analyseren van nominale variabelen. De chi-kwadraatverdeling zelf wordt gekenmerkt door zijn asymmetrische vorm, met een langere staart aan de rechterkant. Naarmate het aantal vrijheidsgraden ($df$) toeneemt, wordt de verdeling symmetrischer en verschuift deze naar rechts. Kansberekeningen worden doorgaans uitgevoerd met behulp van software of specifieke tabellen.
### 2.2 Chi-kwadraat afhankelijkheidstoets
De chi-kwadraat afhankelijkheidstoets (ook wel onafhankelijkheidstoets genoemd) wordt toegepast om te bepalen of er een significant verband bestaat tussen twee variabelen. Cruciaal is dat ten minste één van de variabelen op nominaal niveau gemeten moet zijn. Deze toets evalueert of de waargenomen frequenties in een kruistabel significant afwijken van de frequenties die we zouden verwachten als de variabelen onafhankelijk van elkaar zouden zijn.
#### 2.2.1 Voorwaarden voor de afhankelijkheidstoets
Om de chi-kwadraat afhankelijkheidstoets correct toe te passen, moeten de volgende voorwaarden vervuld zijn:
* **Verwachte frequenties:** Niet meer dan 20% van de verwachte celfrequenties mag kleiner zijn dan 5.
* **Speciaal geval voor df = 1:** Als het aantal vrijheidsgraden gelijk is aan 1, moet elke verwachte celfrequentie minimaal 5 zijn.
* **Geen nul-frequenties:** Geen enkele verwachte frequentie mag nul zijn. Een nul verwachte frequentie impliceert dat een hele categorie niet wordt gebruikt, wat de analyse van die categorie zinloos maakt.
> **Tip:** Het begrijpen van de vrijheidsgraden is essentieel. Voor de afhankelijkheidstoets wordt dit berekend als $df = (aantal \ rows - 1) \times (aantal \ columns - 1)$, waarbij 'rows' en 'columns' verwijzen naar het aantal categorieën van de betreffende variabelen in de kruistabel.
#### 2.2.2 Voorbeeld van de afhankelijkheidstoets
Stel, we willen onderzoeken of er een verband is tussen de arbeidscategorie (arbeider, bediende, werkgever) en de mening over werknemersparticipatie (voor, tegen). We verzamelen gegevens van 500 personen. We observeren de aantallen in elke categorie en hun mening, en berekenen de verwachte aantallen onder de nulhypothese van onafhankelijkheid. Vervolgens vergelijken we de waargenomen met de verwachte frequenties met behulp van de chi-kwadraattoets.
### 2.3 Chi-kwadraat aanpassingstoets (goodness of fit)
De chi-kwadraat aanpassingstoets, ook wel toets voor goedheid van fit genoemd, wordt gebruikt om na te gaan of de verdeling van een enkele variabele, gemeten op nominaal niveau, significant afwijkt van een theoretische of verwachte verdeling. Deze toets vergelijkt de waargenomen frequenties van de categorieën van de variabele met de frequenties die verwacht worden op basis van een vooraf gespecificeerde theoretische verdeling.
#### 2.3.1 Voorwaarden voor de aanpassingstoets
Net als bij de afhankelijkheidstoets zijn er specifieke voorwaarden voor de aanpassingstoets:
* **Verwachte frequenties:** Niet meer dan 20% van de verwachte frequenties mag kleiner zijn dan 5.
* **Speciaal geval voor df = 1:** Als het aantal vrijheidsgraden gelijk is aan 1, moet elke verwachte celfrequentie minimaal 5 zijn.
* **Geen nul-frequenties:** Geen enkele verwachte frequentie mag nul zijn.
> **Tip:** Voor de aanpassingstoets is het aantal vrijheidsgraden gelijk aan het aantal categorieën van de variabele min 1 ($df = aantal \ categorieën - 1$).
#### 2.3.2 Voorbeeld van de aanpassingstoets
Een teler beweert dat bij het kruisen van dahlia's de verwachte verdeling 65% oranje, 25% witte en 10% roze bloemen is. Om dit te toetsen, telt men het aantal bloemen van elke kleur in een steekproef en vergelijkt de waargenomen verdeling met de verwachte verdeling met behulp van de chi-kwadraat aanpassingstoets.
De formule voor de chi-kwadraat statistiek ($X^2$) voor beide toetsen is:
$$ X^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} $$
waarbij:
* $O_i$ staat voor de waargenomen frequentie in categorie $i$.
* $E_i$ staat voor de verwachte frequentie in categorie $i$.
* $k$ staat voor het aantal categorieën.
---
# Praktische oefeningen met chi-kwadraattoetsen
Deze sectie bevat twee oefeningen die illustreren hoe de chi-kwadraat aanpassingstoets en de chi-kwadraat afhankelijkheidstoets worden toegepast op concrete datasets om hypothesen te toetsen.
### 3.1 De chi-kwadraat verdelings / aanpassingstoets
Deze toets gaat na of de waargenomen verdeling van een variabele, gemeten op nominaal niveau, significant afwijkt van een theoretische verdeling. Voorbeelden hiervan zijn het toetsen of er evenveel mannen als vrouwen zijn, of dat 10% van de populatie linkshandig is en 90% rechtshandig. Een ander voorbeeld is het controleren of de verdeling van studenten over verschillende groepen (bijvoorbeeld 6/9 nieuwe studenten, 2/9 bissers, 1/9 trissers) overeenkomt met een theoretische verwachting.
#### 3.1.1 Voorwaarden voor de chi-kwadraat aanpassingstoets
Om deze toets correct toe te passen, moeten aan de volgende voorwaarden voldaan worden:
* Niet meer dan 20% van de verwachte frequenties mag kleiner zijn dan 5.
* Indien het aantal vrijheidsgraden ($df$) gelijk is aan 1, dan moet elke verwachte celfrequentie groter of gelijk zijn aan 5.
* Geen enkele verwachte frequentie mag nul zijn. Een nulverwachting zou betekenen dat een volledige categorie niet wordt gebruikt, wat de zinvolheid van de opname in het onderzoek ondermijnt.
#### 3.1.2 Oefening 1: Dahlia's
**Vraag:** Jolien kweekt dahlia's en beweert dat ze de bloemen zodanig heeft gekruist dat men 65% oranje, 25% witte en 10% roze dahlia's kan verwachten. Ga na of de verdeling van de bloemsoorten die zij vindt in haar bloembedden significant afwijkt van de verwachte verdeling op basis van haar kruising, met een significantieniveau van $\alpha = 1\%$.
**Conceptuele Uitwerking:** Deze oefening past de chi-kwadraat aanpassingstoets toe. We vergelijken de waargenomen frequenties van oranje, witte en roze dahlia's met de theoretisch verwachte frequenties op basis van de opgegeven percentages.
#### 3.1.3 Berekening van de teststatistiek voor de aanpassingstoets
De chi-kwadraat teststatistiek ($X^2$) wordt berekend met de volgende formule:
$$X^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$
waarbij:
* $O_i$ de waargenomen frequentie is in categorie $i$.
* $E_i$ de verwachte frequentie is in categorie $i$.
* $k$ het aantal categorieën is.
#### 3.1.4 Vrijheidsgraden ($df$)
Voor de aanpassingstoets is het aantal vrijheidsgraden gelijk aan het aantal categorieën min 1:
$df = k - 1$
### 3.2 De chi-kwadraat afhankelijkheidstoets
Deze toets onderzoekt of er een significant verband bestaat tussen twee variabelen, waarbij minstens één van de variabelen op nominaal niveau is gemeten. De toets gaat na of de twee variabelen onafhankelijk van elkaar zijn, of dat er een afhankelijkheid tussen bestaat.
#### 3.2.1 Voorwaarden voor de chi-kwadraat afhankelijkheidstoets
De voorwaarden voor de chi-kwadraat afhankelijkheidstoets zijn identiek aan die voor de aanpassingstoets:
* Niet meer dan 20% van de verwachte frequenties mag kleiner zijn dan 5.
* Indien het aantal vrijheidsgraden ($df$) gelijk is aan 1, dan moet elke verwachte celfrequentie groter of gelijk zijn aan 5.
* Geen enkele verwachte frequentie mag nul zijn.
#### 3.2.2 Oefening 2: Werknemersparticipatie
**Vraag:** Je wenst de opinie te kennen van de actieve bevolking over werknemersparticipatie (werknemers delen mee in de winst en hebben ook een beperkte beslissingsmacht). Je hebt een Simple Random Sample (SRS) van 500 personen uit België ondervraagd, waarvan 300 arbeiders, 150 bedienden en 50 werkgevers. Uit het onderzoek blijkt dat 36% van de ondervraagden tegen participatie waren. Echter, 3/5 van de bedienden waren voorstanders. Het aantal arbeiders dat tegenstemde was dubbel zo groot als het aantal werkgevers dat tegenstemde. Bestaat er een verband tussen de arbeidscategorie en de opinie ten opzichte van werknemersparticipatie (significantieniveau $\alpha = 5\%$)?
**Conceptuele Uitwerking:** Deze oefening vereist de toepassing van de chi-kwadraat afhankelijkheidstoets. We moeten bepalen of er een statistisch significant verband is tussen de categorie van arbeid (arbeider, bediende, werkgever) en de mening over werknemersparticipatie (voor of tegen). We zullen een kruistabel moeten opstellen met waargenomen frequenties en vervolgens de verwachte frequenties berekenen onder de aanname van onafhankelijkheid.
#### 3.2.3 Berekening van de verwachte frequenties bij afhankelijkheid
Onder de nulhypothese van onafhankelijkheid, wordt de verwachte frequentie voor elke cel in de kruistabel berekend als:
$$E_{ij} = \frac{(\text{rijtotaal}_i) \times (\text{colomtotaal}_j)}{\text{totaal aantal observaties}}$$
waarbij:
* $E_{ij}$ de verwachte frequentie is voor de cel in rij $i$ en kolom $j$.
* $\text{rijtotaal}_i$ is het totaal van de waargenomen frequenties in rij $i$.
* $\text{colomtotaal}_j$ is het totaal van de waargenomen frequenties in kolom $j$.
#### 3.2.4 Vrijheidsgraden ($df$)
Voor de afhankelijkheidstoets zijn de vrijheidsgraden gelijk aan:
$df = (\text{aantal rijen} - 1) \times (\text{aantal kolommen} - 1)$
> **Tip:** Bij het opstellen van de kruistabel is het cruciaal om eerst alle gegeven informatie zorgvuldig te verwerken om de waargenomen frequenties correct te bepalen, voordat de verwachte frequenties worden berekend.
#### 3.2.5 De chi-kwadraat teststatistiek voor afhankelijkheid
De berekening van de chi-kwadraat teststatistiek is identiek aan die van de aanpassingstoets, maar wordt toegepast op de waargenomen en verwachte frequenties in de kruistabel:
$$X^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$
waarbij:
* $O_{ij}$ de waargenomen frequentie is in cel $(i, j)$.
* $E_{ij}$ de verwachte frequentie is in cel $(i, j)$.
* $r$ het aantal rijen is.
* $c$ het aantal kolommen is.
> **Belangrijk:** De kans dat iemand ziek is vermenigvuldigd met de kans dat iemand jong is, staat onder de aanname van onafhankelijkheid gelijk aan de kans op ziek *en* jong, gedeeld door het totaal aantal mensen. Bij de afhankelijkheidstoets gaat het om het controleren van deze onafhankelijkheid.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Chi-kwadraatverdeling | Een continue kansverdeling die wordt gebruikt in statistische inferentie, met name bij hypothesetesten en betrouwbaarheidsintervallen voor variantie. Deze verdeling is rechtsscheef en wordt bepaald door één parameter: de vrijheidsgraden. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische analyse. In de context van de chi-kwadraatverdeling beïnvloeden de vrijheidsgraden de vorm en de ligging van de verdeling. Hoe meer vrijheidsgraden, hoe symmetrischer de verdeling wordt. |
| Scheefheid | Een maatstaf voor de asymmetrie van een kansverdeling. Chi-kwadraatverdelingen vertonen positieve scheefheid (rechtsscheef), wat betekent dat de staart aan de rechterkant langer is dan aan de linkerkant. Deze scheefheid neemt af naarmate de vrijheidsgraden toenemen. |
| Onafhankelijkheidstoets | Een statistische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen. De toets evalueert of de verdeling van de ene variabele afhangt van de waarden van de andere variabele. |
| Goedheid van fit (Goodness of fit) | Een statistische toets die nagaat hoe goed de geobserveerde data passen bij een verwachte theoretische verdeling. Het bepaalt of de waargenomen frequenties significant afwijken van de frequenties die men zou verwachten op basis van een hypothetisch model. |
| Nominaal niveau | Een meetniveau waarbij data worden gecategoriseerd zonder inherente volgorde of rangschikking. Voorbeelden zijn haarkleur, geslacht of politieke voorkeur. Veel chi-kwadraattoetsen zijn geschikt voor variabelen op nominaal niveau. |
| Verwachte frequentie | Het aantal observaties dat men zou verwachten in een bepaalde categorie of cel, onder de aanname dat de nulhypothese waar is. Dit wordt berekend op basis van marginale totalen en de totale steekproefgrootte. |
| Significant verband | Een relatie tussen variabelen die waarschijnlijk niet het gevolg is van toeval. Statistische toetsen, zoals de chi-kwadraattoets, worden gebruikt om te beoordelen of een waargenomen verband significant genoeg is om de nulhypothese te verwerpen. |
Cover
WPO8_slides.pdf
Summary
# Pearson correlatiecoëfficiënt
De Pearson correlatiecoëfficiënt is een maat voor de lineaire samenhang tussen twee variabelen op intervalniveau of hoger [4](#page=4).
### 1.1 De Pearson correlatiecoëfficiënt (r)
De Pearson correlatiecoëfficiënt, vaak aangeduid met de letter $r$, kwantificeert de sterkte en richting van de lineaire relatie tussen twee continue variabelen [4](#page=4).
#### 1.1.1 Formule
De formule voor de Pearson correlatiecoëfficiënt ($r$) wordt gegeven door:
$$ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} $$
of alternatief:
$$ r = \frac{n \sum_{i=1}^{n} x_i y_i - (\sum_{i=1}^{n} x_i)(\sum_{i=1}^{n} y_i)}{\sqrt{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} \sqrt{n \sum_{i=1}^{n} y_i^2 - (\sum_{i=1}^{n} y_i)^2}} $$
Hierbij staat:
- $n$ voor het aantal waarnemingen [4](#page=4).
- $x_i$ en $y_i$ voor de individuele waarden van de variabelen $x$ en $y$ [4](#page=4).
- $\bar{x}$ en $\bar{y}$ voor het gemiddelde van de variabelen $x$ en $y$ [4](#page=4).
#### 1.1.2 Interpretatie van de effectgrootte
De waarde van $r$ ligt altijd tussen -1 en 1 [4](#page=4).
* Een waarde van $r = 1$ indiceert een perfecte positieve lineaire samenhang [4](#page=4).
* Een waarde van $r = -1$ indiceert een perfecte negatieve lineaire samenhang [4](#page=4).
* Een waarde van $r = 0$ indiceert de afwezigheid van een lineair verband tussen de twee variabelen [4](#page=4).
De interpretatie van de sterkte van het effect, gebaseerd op de absolute waarde van $r$, is als volgt [4](#page=4):
* $0 < |r| < 0.30$: Weinig effect
* $0.30 \le |r| < 0.70$: Matig effect
* $|r| \ge 0.70$: Sterk effect
> **Tip:** De Pearson correlatiecoëfficiënt meet enkel lineaire verbanden. Een lage correlatie sluit dus niet uit dat er een niet-lineair verband bestaat.
### 1.2 Toetsingsgrootheid t-toets voor correlatie
Om te toetsen of de geobserveerde correlatie in de steekproef significant is en dus kan worden gegeneraliseerd naar de populatie, wordt vaak een t-toets gebruikt [5](#page=5).
#### 1.2.1 Nulhypothese en alternatieve hypothese
De nulhypothese ($H_0$) stelt dat er geen correlatie is in de populatie ($\rho = 0$), waarbij $\rho$ de populatiecorrelatie vertegenwoordigt. De alternatieve hypothese ($H_a$) kan eenzijdig of tweezijdig zijn [5](#page=5):
* Tweezijdige toets: $\rho \neq 0$ [5](#page=5).
* Eenzijdige toetsen: $\rho > 0$ of $\rho < 0$ [5](#page=5).
#### 1.2.2 Voorwaarden voor de t-toets
Voor het correct toepassen van de t-toets voor correlatie, moeten de volgende voorwaarden voldaan zijn [5](#page=5):
* De twee variabelen moeten gemeten zijn op intervalniveau of hoger [5](#page=5).
* De data moeten bivariaat normaal verdeeld zijn, of de steekproefomvang ($n$) moet groter zijn dan 25 [5](#page=5).
### 1.3 Voorbeeld
**Oefening 3: Vossen- en konijnenpopulaties** [6](#page=6).
Natuurpunt wil nagaan of er een verband is tussen vossenpopulaties en konijnenpopulaties in Belgische natuurgebieden (met een significantieniveau $\alpha = 5\%$). In een willekeurige steekproef van natuurgebieden werd het aantal konijnen en vossen per hectare geteld [6](#page=6).
| Konijnenpopulatie (per hectare) | Vossenpopulatie (per hectare) |
| :------------------------------ | :---------------------------- |
| 148 | 34 |
| 147 | 19 |
| 147 | 33 |
| 145 | 30 |
| 132 | 17 |
| 138 | 24 |
| 132 | 30 |
| 126 | 13 |
| 127 | 16 |
Om het verband te analyseren, zou men eerst de Pearson correlatiecoëfficiënt berekenen op basis van deze data. Vervolgens kan een t-toets worden uitgevoerd om de significantie van deze correlatie te beoordelen, mits aan de voorwaarden is voldaan.
---
# Spearman rangcorrelatiecoëfficiënt
De Spearman rangcorrelatiecoëfficiënt meet de sterkte en richting van een monotone samenhang tussen twee variabelen door gebruik te maken van hun rangordes [7](#page=7).
### 1.1 Concept en doel
De Spearman rangcorrelatiecoëfficiënt, vaak aangeduid met de Griekse letter $\rho$ (rho), is een non-parametrische maat die wordt gebruikt om de mate van overeenkomst in rangorde tussen twee variabelen te kwantificeren. In plaats van de ruwe data zelf te gebruiken, wordt deze methode toegepast op de rangen die aan de data zijn toegekend. Dit maakt het een geschikte tool om de monotone samenhang te beoordelen, wat betekent dat we kijken of de ene variabele de neiging heeft toe te nemen (of af te nemen) wanneer de andere variabele toeneemt, zonder dat dit noodzakelijkerwijs een lineair verband hoeft te zijn [7](#page=7).
### 1.2 Hypothesen
Bij het toetsen met de Spearman rangcorrelatiecoëfficiënt worden de volgende hypothesen opgesteld:
* **Nulhypothese ($H_0$)**: Er is geen verband tussen de twee variabelen. Dit wordt wiskundig uitgedrukt als $\rho = 0$ [9](#page=9).
* **Alternatieve hypothesen ($H_a$)**: Er is wel een verband tussen de twee variabelen. Afhankelijk van de specifieke onderzoeksvraag, kunnen dit de volgende vormen aannemen:
* $\rho \neq 0$: Er is een verband (tweezijdige toets) [9](#page=9).
* $\rho > 0$: Er is een positief verband (eenzijdige toets) [9](#page=9).
* $\rho < 0$: Er is een negatief verband (eenzijdige toets) [9](#page=9).
### 1.3 Toepassing en voorbeeld
De Spearman rangcorrelatie kan worden toegepast om de samenhang tussen twee variabelen te onderzoeken, vooral wanneer de data niet voldoen aan de aannames voor parametrische correlatietests zoals de Pearson correlatiecoëfficiënt. Een typisch scenario is het onderzoeken van de relatie tussen subjectieve metingen of wanneer de variabelen ordinaal geschaald zijn [7](#page=7).
> **Voorbeeld:** Een onderzoeker wil nagaan of er een verband bestaat tussen de mate van ervaren stress en de beoordeling van slaapkwaliteit. De data kunnen er als volgt uitzien:
>
> | Ervaren stress (VAS-schaal) | Beoordeling slaapkwaliteit |
> | :--------------------------- | :------------------------ |
> | 3,2 | Goed |
> | 5,9 | Zeer goed |
> | 8,4 | Middelmatig |
> | 4,7 | Zeer slecht |
> | 12,7 | Slecht |
>
> Met behulp van de Spearman rangcorrelatie kan worden onderzocht of de uitspraak "Hoe meer stress iemand ervaart, hoe slechter hun slaapkwaliteit" bevestigd kan worden, uitgaande dat de voorwaarden voor de test voldaan zijn [10](#page=10).
### 1.4 Formules en berekening (algemeen)
De berekening van de Spearman rangcorrelatiecoëfficiënt is gebaseerd op de rangordes van de geobserveerde waarden voor elke variabele. De precieze formule en de stappen voor het berekenen van de rangen, en vervolgens de coëfficiënt zelf, zijn gedetailleerd in het formularium. Belangrijk is dat bij gelijke rangen (tied ranks) een correctie wordt toegepast in de berekening. De waarde van $\rho$ ligt altijd tussen -1 en +1, waarbij +1 perfecte positieve monotone samenhang aangeeft, -1 perfecte negatieve monotone samenhang, en 0 geen monotone samenhang [7](#page=7) [8](#page=8).
---
# Kendall rangcorrelatiecoëfficiënt
De Kendall rangcorrelatiecoëfficiënt is een statistische maat die de sterkte en richting van de associatie tussen twee gerangschikte variabelen kwantificeert [11](#page=11).
### 3.1 Concept en berekening
De Kendall rangcorrelatiecoëfficiënt, vaak aangeduid met de Griekse letter $\tau$ (tau), meet de mate waarin de rangschikking van paren van observaties overeenkomt. Het is een niet-parametrische methode, wat betekent dat het geen aannames doet over de onderliggende verdeling van de data. De berekening van $\tau$ is gebaseerd op het aantal concordante en discordante paren in de data [11](#page=11) [13](#page=13).
#### 3.1.1 Concordante en discordante paren
* **Concordant paar**: Een paar observaties $(x_i, y_i)$ en $(x_j, y_j)$ is concordant als de rangschikking van de $x$-waarden overeenkomt met de rangschikking van de $y$-waarden. Dit betekent dat als $x_i < x_j$, dan ook $y_i < y_j$, of als $x_i > x_j$, dan ook $y_i > y_j$ [13](#page=13).
* **Discordant paar**: Een paar observaties $(x_i, y_i)$ en $(x_j, y_j)$ is discordant als de rangschikking van de $x$-waarden tegengesteld is aan de rangschikking van de $y$-waarden. Dit betekent dat als $x_i < x_j$, dan $y_i > y_j$, of als $x_i > x_j$, dan $y_i < y_j$ [13](#page=13).
De formule voor de Kendall rangcorrelatiecoëfficiënt is:
$$ \tau = \frac{C - D}{\frac{n(n-1)}{2}} $$
waarbij:
* $C$ het aantal concordante paren is [13](#page=13).
* $D$ het aantal discordante paren is [13](#page=13).
* $n$ het aantal observatieparen is [13](#page=13).
Het maximum aantal mogelijke paren is $\frac{n(n-1)}{2}$ [13](#page=13).
#### 3.1.2 Interpretatie van $\tau$
De waarde van $\tau$ varieert tussen -1 en +1 [11](#page=11).
* $\tau = +1$: Perfecte positieve rangcorrelatie. De rangschikkingen zijn identiek.
* $\tau = -1$: Perfecte negatieve rangcorrelatie. De rangschikkingen zijn omgekeerd.
* $\tau = 0$: Geen rangcorrelatie. Er is geen lineair verband tussen de rangschikkingen.
> **Tip:** Een hogere absolute waarde van $\tau$ duidt op een sterkere associatie tussen de twee variabelen.
### 3.2 Hypothesetesten
De Kendall rangcorrelatiecoëfficiënt kan gebruikt worden om hypothesen te testen over de associatie tussen twee variabelen [13](#page=13).
#### 3.2.1 Nulhypothese en alternatieve hypothesen
* **Nulhypothese ($H_0$)**: Er is geen verband tussen de twee gerangschikte variabelen ($\tau = 0$) [13](#page=13).
* **Alternatieve hypothesen ($H_a$)**:
* Er is een verband tussen de twee gerangschikte variabelen ($\tau \neq 0$). Dit is een tweezijdige test [13](#page=13).
* Er is een positief verband tussen de twee gerangschikte variabelen ($\tau > 0$). Dit is een eenzijdige test [13](#page=13).
* Er is een negatief verband tussen de twee gerangschikte variabelen ($\tau < 0$). Dit is een eenzijdige test [13](#page=13).
### 3.3 Toepassing en voorbeeld
De Kendall rangcorrelatiecoëfficiënt is nuttig wanneer men de relatie tussen twee ordinale variabelen wil onderzoeken, of wanneer de assumpties voor andere correlatiematen (zoals Pearson's $r$) niet voldaan zijn [11](#page=11).
#### 3.3.1 Oefening 8
**Vraag:** Kan, op basis van de onderstaande data, de uitspraak “Hoe meer stress iemand ervaart, hoe slechter hun slaapkwaliteit” bevestigd worden? Er mag van uitgegaan worden dat de voorwaarden voldaan zijn voor de te uitvoeren test.
**Data:**
| Ervaren stress (gemeten via VAS-schaal) | Beoordeling slaapkwaliteit |
| :------------------------------------- | :------------------------- |
| 3,2 | Goed |
| 5,9 | Zeer goed |
| 8,4 | Middelmatig |
| 4,7 | Zeer slecht |
| 12,7 | Slecht |
Om deze vraag te beantwoorden, zouden we de data eerst moeten rangschikken voor zowel "Ervaren stress" als "Beoordeling slaapkwaliteit". Vervolgens zouden we het aantal concordante en discordante paren tellen om $\tau$ te berekenen en de resultaten toetsen aan de alternatieve hypothese dat er een negatief verband is ($\tau < 0$) [14](#page=14).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Pearson correlatiecoëfficiënt | Een statistische maat die de sterkte en richting van de lineaire relatie tussen twee continue variabelen kwantificeert. De waarde varieert van -1 (perfect negatieve correlatie) tot 1 (perfect positieve correlatie), waarbij 0 geen lineaire correlatie aangeeft. |
| Effectgrootte | Een kwantificering van de grootte van een effect of verband tussen variabelen. Bij de Pearson correlatiecoëfficiënt wordt de waarde van 'r' geïnterpreteerd als effectgrootte, waarbij 0 < .30 als weinig effect, .30 < .70 als matig effect en > .70 als sterk effect wordt beschouwd. |
| Nulhypothese | In statistische toetsing is dit de hypothese die stelt dat er geen effect, verschil of verband is tussen de bestudeerde populaties of variabelen. Bij correlatietoetsen is de nulhypothese vaak dat de populatiecorrelatie gelijk is aan nul ($\rho=0$ of $H_0: \rho = 0$). |
| Alternatieve hypothese | De hypothese die het tegendeel beweert van de nulhypothese. Als de nulhypothese wordt verworpen, wordt de alternatieve hypothese aangenomen. Dit kan eenzijdig ($\rho > 0$ of $\rho < 0$) of tweezijdig ($\rho \neq 0$) zijn. |
| Bivariaat normaal verdeeld | Een aanname bij bepaalde statistische analyses, waaronder de Pearson correlatietoets, waarbij de gezamenlijke verdeling van twee variabelen een bivariate normale verdeling volgt. |
| Spearman rangcorrelatiecoëfficiënt | Een non-parametrische maat die de sterkte en richting van de monotone relatie tussen twee variabelen test. In plaats van de ruwe data worden de rangen van de data gebruikt, wat deze methode geschikt maakt voor niet-lineaire verbanden of data die niet normaal verdeeld is. |
| Kendall rangcorrelatiecoëfficiënt | Een non-parametrische maat die de sterkte van de overeenkomst tussen twee rangordes meet. Het telt het aantal concordante en discordante paren in de data. Het wordt vaak gebruikt bij kleine steekproeven of wanneer er veel gelijke waarden zijn. |
| Concordante paren | Paren van observaties waarbij de rangorde van beide variabelen in dezelfde richting gaat (bijvoorbeeld, als X stijgt, stijgt Y ook). |
| Discordante paren | Paren van observaties waarbij de rangorde van de variabelen in tegengestelde richting gaat (bijvoorbeeld, als X stijgt, daalt Y). |
| $\tau$ (Kendall's tau) | De Kendall rangcorrelatiecoëfficiënt, die de mate van associatie tussen twee rangordes weergeeft. De formule is $\tau = \frac{C - D}{n(n-1)/2}$, waarbij C het aantal concordante paren is, D het aantal discordante paren, en n het aantal observaties. |