Cover
Jetzt kostenlos starten Stuvia-9202880-ba1-statistiek-van-de-sociale-wetenschappen-samenvatting.pdf
Summary
# Inleiding tot statistiek en data-analyse
Dit onderwerp introduceert de fundamentele principes van statistiek, het belang van data-analyse, en het proces van probleemstelling tot dataverzameling en -meting, inclusief de classificatie van gegevens en de rol van sociale data science [2](#page=2).
## 1. Data-analyse
### 1.1 Doel van de statistiek
Statistiek in de sociale wetenschappen omvat het omzetten van dagelijkse interacties in analyseerbare data (dataficatie). Kwantitatief onderzoek, waarbij data wordt omgezet in getallen voor statistische analyse, domineert binnen de sociale wetenschappen. Social data science combineert domeinspecifieke kennis, computervaardigheden en datawetenschap, waarbij sociale wetenschappers een brugfunctie vervullen [2](#page=2).
Het primaire doel van data-analyse is het verwerven van inzicht door het verzamelen, meten, organiseren, presenteren, analyseren en interpreteren van data. Dit inzicht stelt ons in staat om onderzoeksvragen te beantwoorden. Data-analyse wordt gezien als zowel een wetenschap, door zijn objectiviteit, als een kunst, door de creatieve interpretatie en beslissingen van de onderzoeker. Data kan diverse vormen aannemen, zoals numeriek, tekst, of audio, en afkomstig zijn uit verschillende bronnen [2](#page=2).
### 1.2 Van probleemstelling naar data-analyse
#### 1.2.1 Probleemstelling
Een onderzoek begint altijd met een probleemstelling, die leidt tot de onderzoeksvraag. De onderzoeksvraag bepaalt welke gegevens bij wie of wat verzameld moeten worden [2](#page=2).
#### 1.2.2 Data verzamelen
Onderzoekseenheden zijn de objecten of entiteiten waarop het onderzoek zich richt en waarvan kenmerken worden gemeten. Een populatie is de volledige verzameling van onderzoekseenheden, afgebakend in tijd en ruimte. Een steekproef is een deelverzameling van de populatie. Een steekproef is willekeurig als elke onderzoekseenheid een gelijke kans heeft om geselecteerd te worden, en representatief als de kenmerken in de steekproef in gelijke mate voorkomen als in de populatie. De omvang van een steekproef wordt genoteerd als $n$ [3](#page=3).
Data zijn de gemeten informatie en kenmerken van onderzoekseenheden. Data kunnen uit diverse bronnen komen, waaronder [3](#page=3):
* **Surveys:** Respondenten beantwoorden gesloten of open vragen om demografische kenmerken, attitudes en gedrag te meten [3](#page=3).
* **Experimenten:** Gericht op het in kaart brengen van oorzaak-gevolgverbanden door onderzoekseenheden willekeurig toe te wijzen aan verschillende groepen en bloot te stellen aan verschillende omstandigheden of interventies. Verschillen tussen groepen duiden op een oorzakelijk verband [3](#page=3).
**Big Data** wordt gekenmerkt door de 3 V's:
* **Volume:** De datahoeveelheid is zeer groot [3](#page=3).
* **Veranderlijkheid:** Data wordt in hoog tempo geproduceerd [3](#page=3).
* **Verscheidenheid:** Data kent verschillende soorten en vormen [3](#page=3).
Voorbeelden van big data zijn social media data, geodata en data uit medische dossiers [3](#page=3).
#### 1.2.3 Meten van gegevens
Na het selecteren van een steekproef worden kenmerken, variabelen genoteerd als $X, Y, Z$, gemeten bij de onderzoekseenheden. De uitkomstenverzameling, genoteerd als $\phi$ of $\varphi$, bevat alle mogelijke uitkomsten voor een variabele. De geobserveerde waarnemingen zijn de uitkomsten die daadwerkelijk zijn geobserveerd [3](#page=3).
Een statistische techniek houdt rekening met het **aard** (meetniveau) en de **omvang** (discreet/continu) van de gegevens [3](#page=3).
**Classificatie van gegevens:**
| Meetniveau | Type | Kenmerken | Codes | Voorbeeld |
| :----------- | :---------- | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Kwalitatief** | **Nominaal** | Categorieën die niet geïnterpreteerd kunnen worden als meer of minder. Verschillen in waarden representeren geen verschil in kwantiteit, enkel kwalitatieve verschillen. Geen wiskundige bewerkingen mogelijk. Meetschaal moet eindig, exhaustief en exclusief zijn. Een dichotome meetschaal heeft slechts twee waarden. | Kunnen elk symbool aannemen: letters, cijfers, woorden. | $\varphi = \{\text{Belg}, \text{Nederlander}, \text{Brit}, \text{Andere}\}$ of $\varphi = \{\text{BE, NL, UK, A}\}$ of $\varphi = \{1, 2, 3, 8\}$ waarbij 1=Belg, 2=NL, 3=Brit, 8=Andere. | [4](#page=4).
| | **Ordinaal** | Elementen van de uitkomstenverzameling kunnen geordend worden. Kunnen geïnterpreteerd worden als meer en minder, hoger en lager, maar hebben geen vaste meeteenheid. Verschillen zijn niet in vastgelegde hoeveelheden en wiskundige bewerkingen zijn beperkt tot de ordening (bv. mediaan). Meetschaal moet eindig, exhaustief en exclusief zijn. Likertschaal is een veelgebruikte meetschaal. | Getallen met numerieke betekenis. | Politieke interesse met $\varphi = \{\text{Niet geïnteresseerd, Een beetje geïnteresseerd, Geïnteresseerd, Heel geïnteresseerd}\}$. | [4](#page=4).
| **Kwantitatief** | **Interval** | Vaste, kwantificeerbare meeteenheid. Verschillen kunnen in hoeveelheden worden uitgedrukt, maar het nulpunt is arbitrair, waardoor verhoudingen tussen waarden betekenisloos zijn. Optellen en aftrekken is toegestaan, maar vermenigvuldigen en delen niet vanwege het arbitraire nulpunt. | Getallen met numerieke betekenis, meetresultaten. | Temperatuur, IQ. | [5](#page=5).
| | **Ratio** | Kwantificeerbare meeteenheid. Verschillen kunnen in hoeveelheden worden uitgedrukt en verhoudingen tussen waarden zijn zinvol vanwege een absoluut nulpunt. Alle wiskundige bewerkingen zijn mogelijk. | Getallen met numerieke betekenis, meetresultaten. | Aantal kinderen. | [5](#page=5).
Geobserveerde gegevens sluiten nauw aan bij wat letterlijk gemeten wordt, met een vaste, kwantificeerbare meeteenheid. Verschillen tussen waarden worden uitgedrukt in hoeveelheden [4](#page=4).
Kwantitatieve variabelen kunnen worden gegroepeerd tot nominale of ordinale meetschalen. Een typisch voorbeeld is leeftijd, dat initieel een ratio-meetschaal heeft maar gegroepeerd kan worden in leeftijdscategorieën, waardoor het een ordinale meetschaal wordt [5](#page=5).
Bijvoorbeeld: $\varphi = \{ [> 80]\}$ [5](#page=5) .
**Voordelen van groeperen in klassen:**
* Data kan snel en overzichtelijk worden weergegeven [5](#page=5).
* Privacy van respondenten wordt bewaakt [5](#page=5).
**Nadelen van groeperen in klassen:**
* Gedetailleerde informatie wordt vereenvoudigd tot klassen, wat informatieverlies veroorzaakt [5](#page=5).
**Quasi-metrische variabelen** zijn schalen die intrinsiek ordinaal zijn (geen meeteenheid), maar door de omvang van de uitkomstenverzameling toch als kwantitatief worden behandeld. Een voorbeeld is een links-rechts schaal (0-10) voor politieke voorkeur, waarbij de breedte van de schaal berekeningen zoals het gemiddelde zinvol maakt [5](#page=5).
**Hiërarchie van meetniveaus:**
Het meetniveau van een variabele bepaalt de keuze van analysetechniek, gebaseerd op het aantal mogelijke bewerkingen. Technieken die voor een lager niveau toegestaan zijn, mogen ook op een hoger niveau worden toegepast, maar niet omgekeerd [5](#page=5).
**Overzicht van beschrijvende statistieken per meetniveau:**
| Statistiek | Nominaal | Ordinaal | Kwantitatief: interval & ratio |
| :--------------- | :--------------------------------- | :-------------------------------------- | :----------------------------------------------------------------- |
| Frequentieverdeling | Absolute en relatieve frequentie | Absolute, relatieve, cumulatieve freq. | Absolute, relatieve, cumulatieve frequentie |
| Centrummaat | Modus | Modus, mediaan, kwantielen | Modus, mediaan, kwantielen, gemiddelde |
| Spreidingsmaat | - | IQR | IQR, variantie, standaardafwijking |
| Vormmaat | - | Boxplot | Boxplot, skewness |
#### 1.2.4 Data cleaning, transformeren & operationaliseren
Een **datamatrix** bestaat uit rijen, kolommen en cellen [6](#page=6).
* Een **rij** ($i$) bevat alle waarden gemeten voor één kenmerk ($x_i$) bij alle eenheden [6](#page=6).
* Een **kolom** ($j$) bevat alle waarden gemeten bij één onderzoekseenheid ($x_j$) [6](#page=6).
* Een **cel** ($x_{ij}$) bevat de specifieke waarde van respondent $i$ voor kenmerk $j$ [6](#page=6).
```
cel
^
|
rij ------>
```
**Datacleaning** is het proces van het 'kuisen' van verzamelde data en het verwijderen van fouten, zodat ze klaar zijn voor analyse. Stappen omvatten [6](#page=6):
* Elke rij moet één unieke onderzoekseenheid vertegenwoordigen en elke kolom één uniek kenmerk [6](#page=6).
* Verwijderen van tekstuele elementen [6](#page=6).
* Aangeven van missende waarden met 'NA' [6](#page=6).
**Transformeren van variabelen** gebeurt wanneer data klaar is voor analyse; nieuwe variabelen worden geconstrueerd op basis van bestaande gemeten kenmerken. Dit kan door de meetschaal te transformeren of door wiskundige bewerkingen uit te voeren. Bijvoorbeeld, een variabele 'geslaagd' kan worden geconstrueerd waar 1 staat voor geslaagd en 0 voor niet geslaagd over alle testen [6](#page=6).
**Indicatoren** zijn meetbare fenomenen die worden gebruikt om abstracte concepten (zoals populisme) meetbaar te maken via **operationaliseren**. Dit gebeurt bijvoorbeeld door respondenten verschillende stellingen te laten beoordelen. Een **gemiddelde somschaal** combineert ordinaal gemeten stellingen tot één schaalvariabele of construct door de scores op te tellen en te delen door het aantal stellingen [6](#page=6).
---
# Frequentieverdelingen en meetniveaus
Frequentieverdelingen bieden een overzichtelijke manier om weer te geven hoe vaak verschillende mogelijke uitkomsten van een variabele voorkomen, en hoe deze uitkomsten verdeeld zijn [9](#page=9).
### 2.1 Inleiding tot frequentieverdelingen
Frequentieverdelingen tonen hoe vaak bepaalde waarden van een variabele voorkomen binnen een dataset. Ze kunnen worden weergegeven in tabellen of grafieken en omvatten absolute frequenties, relatieve frequenties en cumulatieve frequenties. De manier waarop frequentieverdelingen worden opgesteld en gevisualiseerd, hangt af van het meetniveau van de variabele [9](#page=9).
#### 2.1.1 Frequentieverdelingen per meetniveau
Er is een hiërarchie in meetniveaus: nominaal, ordinaal en kwantitatief [9](#page=9).
* **Nominale variabelen:** Gebruiken staafdiagrammen en cirkeldiagrammen voor weergave. Frequentieverdelingen omvatten absolute en relatieve frequenties [9](#page=9).
* **Ordinale variabelen:** Kunnen ook worden weergegeven met staaf- en cirkeldiagrammen. Naast absolute en relatieve frequenties zijn cumulatieve frequenties hier ook relevant [10](#page=10) [11](#page=11).
* **Kwantitatieve variabelen:** Vereisen, vooral bij veel verschillende waarden, groepering in klassen. Hierbij worden absolute, relatieve en cumulatieve frequenties gebruikt, en visualisatie gebeurt vaak met histogrammen [11](#page=11) [12](#page=12).
### 2.2 Nominale variabelen
Voor nominale variabelen worden absolute en relatieve frequenties berekend [9](#page=9).
#### 2.2.1 Absolute en relatieve frequenties
* **Absolute frequentie ($n_j$)**: Dit is het aantal observaties in een steekproef dat gelijk is aan een specifieke uitkomst ($m_j$). De som van alle absolute frequenties is gelijk aan de totale steekproefomvang ($n$) [10](#page=10).
* **Relatieve frequentie ($f_i$)**: Dit is de absolute frequentie van een uitkomst gedeeld door de steekproefomvang ($n$). Het zet absolute frequenties op een gelijke schaal en de som van alle relatieve frequenties is gelijk aan 1. Relatieve frequenties kunnen worden uitgedrukt als proporties of percentages (door te vermenigvuldigen met 100) [10](#page=10).
#### 2.2.2 Staaf- en cirkeldiagrammen
Staafdiagrammen en cirkeldiagrammen zijn veelgebruikte grafische weergaven voor nominale variabelen [10](#page=10).
* **Staafdiagram**: Hierbij worden de frequenties weergegeven met verticale staven, waarbij de hoogte van de staaf de absolute of relatieve frequentie aangeeft. Op de horizontale as staan de verschillende uitkomsten [10](#page=10).
* **Cirkeldiagram**: Relatieve frequenties bepalen hoe een cirkel wordt verdeeld. Bij veel uitkomsten kan dit snel onoverzichtelijk worden [10](#page=10).
### 2.3 Ordinale variabelen
Net als bij nominale variabelen kunnen voor ordinale variabelen absolute en relatieve frequenties worden weergegeven met staaf- en cirkeldiagrammen [10](#page=10) [11](#page=11).
#### 2.3.1 Absolute en relatieve frequenties
Het percentage missende waarden kan worden berekend met de formule: $\frac{\text{#NA's}}{n} \times 100$ [11](#page=11).
#### 2.3.2 Cumulatieve frequenties
* **Cumulatieve frequentie**: Dit is de som van alle relatieve frequenties van uitkomsten met een code die kleiner of gelijk is aan een bepaalde uitkomst ($j$). Het bepaalt de relatieve positie van een observatie binnen de steekproef [11](#page=11).
* **Cumulatieve frequentieverdeling ($F(m_j)$)**: Dit zijn de relatieve cumulatieve frequenties voor opeenvolgende waarden. Grafisch wordt dit weergegeven als een trapfunctie. Deze functie blijft constant als de relatieve frequentie van een uitkomst nul is, en neemt toe om te eindigen bij 1. Dit maakt het mogelijk om direct het zwaartepunt van de verdeling af te lezen [11](#page=11).
#### 2.3.3 Kwantiel functie
* **Kwantiel functie ($Q$)**: Dit is de inverse functie van de cumulatieve verdelingsfunctie. Gegeven een proportie ($p$, waarbij $0 < p \le 1$), geeft de kwantiel functie aan welke uitkomst zich op die positie in de steekproef bevindt [11](#page=11).
* $Q(0.25)$: Eerste kwartiel.
* $Q(0.50)$: Tweede kwartiel (mediaan).
* $Q(0.75)$: Derde kwartiel.
### 2.4 Kwantitatieve variabelen
Voor kwantitatieve variabelen, die zowel discreet als continu kunnen zijn, worden absolute, relatieve en cumulatieve frequenties berekend [11](#page=11).
#### 2.4.1 Absolute, relatieve en cumulatieve frequenties
* **Absolute frequentie**: Het aantal keren dat een uitkomst ($m_j$) voorkomt. Bij continue variabelen kan elke geobserveerde waarde uniek zijn ($n_i = 1$, $f_i = \frac{1}{n}$) [11](#page=11).
* **Relatieve frequentie**: Het aandeel van een uitkomst als proportie of percentage [11](#page=11).
* **Cumulatieve frequentie**: De proportie van de steekproefuitkomsten die kleiner of gelijk is aan een bepaalde waarde [11](#page=11).
##### Uitschieters
Uitschieters zijn waarden die ver verwijderd zijn van de overige waarden in een dataset [12](#page=12).
* **Gewone uitschieter**: Ligt buiten het interval $[ \hat{Q}(0.25) - 1.5 (\hat{Q}(0.75) - \hat{Q}(0.25)) , \hat{Q}(0.75) + 1.5 (\hat{Q}(0.75) - \hat{Q}(0.25)) ]$.
* **Extreme uitschieter**: Ligt buiten het interval $[ \hat{Q}(0.25) - 3 (\hat{Q}(0.75) - \hat{Q}(0.25)), \hat{Q}(0.75) + 3 (\hat{Q}(0.75) - \hat{Q}(0.25)) ]$.
* Uitschieters kunnen het gevolg zijn van meetfouten of reële, sterk afwijkende waarden [12](#page=12).
#### 2.4.2 Groeperen in klassen
Wanneer kwantitatieve variabelen veel verschillende waarden aannemen, wordt de frequentieverdeling of weergave in staaf- of cirkeldiagrammen onoverzichtelijk. Daarom worden de uitkomsten gegroepeerd in deelintervallen of klassen [12](#page=12).
* **Klassenbreedte ($\Delta$)**: Kan berekend worden als $(\text{bovengrens} - \text{ondergrens}) + 1$ [12](#page=12).
* **Klassenmidden ($m_j$)**: Berekend als $\frac{\text{bovengrens} + \text{ondergrens}}{2}$ [12](#page=12).
> **Tip:** Het kiezen van het aantal klassen is een afweging tussen inhoudelijke criteria en het vinden van een balans tussen te veel en te weinig klassen. Vaak worden klassen van gelijke breedte gecreëerd [12](#page=12).
Nadelen van het groeperen in klassen zijn het verlies aan informatie en detail, en moeilijkheden bij het vergelijken van frequenties als klassenbreedtes niet gelijk zijn [12](#page=12).
#### 2.4.3 Histogram
Een histogram is geschikt voor het visualiseren van kwantitatieve gegevens met een groot bereik aan waarden [12](#page=12).
* **Klassen van gelijke breedte**: De hoogte van de staven wordt bepaald door de absolute of relatieve frequentie van het interval. De oppervlakte van elke staaf is recht evenredig met de frequentie in dat interval [12](#page=12).
* **Klassen van ongelijke breedte**: De y-as geeft niet de absolute of relatieve frequentie weer, maar de **frequentiedichtheid ($h_j$)** [12](#page=12).
* $h_j = \frac{f_j}{\Delta_j}$.
* Bij een histogram met frequentiedichtheid is het de oppervlakte van de staven die de frequentie aangeeft, niet de hoogte. De totale oppervlakte van alle staven is gelijk aan 1 [12](#page=12).
* Een histogram uitgedrukt in frequentiedichtheden kan worden weergegeven als een dichtheidscurve [12](#page=12).
### 2.5 Vormen van frequentieverdelingen
Het patroon in een histogram weerspiegelt de verdeling van een variabele. De vorm van de verdeling is bepalend voor de statistische technieken die gebruikt kunnen worden [13](#page=13).
#### 2.5.1 Symmetrische verdelingen
Bij een symmetrische verdeling kan een verticale lijn in het midden worden getrokken, waarbij beide zijden elkaars spiegelbeeld vormen [13](#page=13).
* **Normale verdeling**: Kenmerkt zich door een klokvormig histogram met een duidelijke piek, waarbij de verdeling aan beide zijden geleidelijk afneemt. Dit is een ideaaltype dat in de praktijk zelden volledig voorkomt [13](#page=13).
#### 2.5.2 Asymmetrische verdelingen
Bij asymmetrische verdelingen is er een scheefheid, waarbij de gegevens aan één zijde van de verdeling dichter geconcentreerd zijn. De verdeling loopt aan de ene kant langzamer af dan aan de andere [13](#page=13).
* **Rechtsscheef**: De rechterstaart zwakt langzamer af dan de linkerstaart. Een voorbeeld hiervan is inkomen, waarbij er meer mensen zijn met lage tot middelhoge inkomens dan met zeer hoge inkomens [13](#page=13).
* **Linksscheef**: De linkerstaart zwakt langzamer af dan de rechterstaart. Een voorbeeld hiervan is de duur van een zwangerschap, waarbij de meeste zwangerschappen rond de 40 weken duren, en slechts een minderheid korter dan 35 weken [13](#page=13).
---
# Centrummaten, spreidingskenmerken en vormmaten
Dit onderwerp behandelt de kengetallen die de centrale tendens, de spreiding en de vorm van een verdeling beschrijven.
### 3.1 Inleiding
Centrummaten, spreidingskenmerken en vormmaten zijn drie soorten kengetallen die gebruikt worden voor univariate statistieken. Centrummaten geven de centrale tendens van een verdeling aan, spreidingsmaten beschrijven hoe gegevens verspreid liggen rond een centrummaat, en vormmaten beschrijven de symmetrie en gepiektheid van een verdeling. De keuze van de meest geschikte parameter of statistiek hangt af van het meetniveau en de verdelingskenmerken van de variabele [13](#page=13).
### 3.2 Centrumkenmerken
Centrumkenmerken geven aan rond welke waarde een verdeling gecentreerd is, of welke waarde als representatief kan worden beschouwd voor een verdeling [14](#page=14).
#### 3.2.1 Modus
De modus is de waarde die het meest voorkomt in een steekproef, dus de waarde met de hoogste absolute of relatieve frequentie [14](#page=14).
* **Modale klasse:** Bij een kwantitatieve variabele die in klassen is gegroepeerd, is de modale klasse de klasse met de hoogste frequentie. De modus is dan het klassenmidden van deze klasse [14](#page=14).
* **Meetniveau:** De modus kan worden gebruikt voor variabelen van alle meetniveaus en is de enige geschikte centrummaat voor nominale variabelen [14](#page=14).
* **Multimodaliteit:**
* Een unimodale verdeling heeft één modus [14](#page=14).
* Een bimodale verdeling heeft twee modi en kan wijzen op de aanwezigheid van twee verschillende groepen binnen de populatie [14](#page=14).
* Een multimodale verdeling heeft meer dan twee modi [14](#page=14).
* **Voordeel:** Eenvoudig te bepalen [14](#page=14).
* **Nadeel:** Houdt geen rekening met de frequenties van andere waarden, waardoor erg verschillende verdelingen achter eenzelfde modus kunnen schuilgaan [14](#page=14).
#### 3.2.2 Mediaan
De mediaan is de waarde van de middelste eenheid in een geordende steekproef. Het is het punt in de verdeling waar er exact evenveel waarden links als rechts van liggen [14](#page=14).
* **Voorwaarde:** De variabele moet minstens ordinaal zijn om geordend te kunnen worden. Voor het berekenen van de mediaan als het gemiddelde van twee opeenvolgende observaties is het zinvol voor interval- en ratiovariabelen [14](#page=14).
* **Berekening:**
* Bij een oneven aantal observaties ($n$): $mediaan(x_1, \dots, x_n) = x_{(\frac{n+1}{2})}$ [14](#page=14).
* Bij een even aantal observaties ($n$): $mediaan(x_1, \dots, x_n) = \frac{x_{(\frac{n}{2})} + x_{(\frac{n}{2}+1)}}{2}$ [14](#page=14).
* **Mediane klasse:** Bij gegroepeerde gegevens is de mediane klasse de klasse waartoe de mediaan behoort [14](#page=14).
* **Relatie met kwantielen:** De mediaan is het 2e kwantiel ($Q_2$) of $Q_{0.50}$, de kleinste waarde waarvoor de relatieve cumulatieve verdelingsfunctie 50% overschrijdt. Voor even $n$ kan $Q_{0.50}$ als benadering van de mediaan dienen [15](#page=15).
#### 3.2.3 Gemiddelde
Het rekenkundig gemiddelde ($\bar{x}$) is de som van de waargenomen waarden gedeeld door het aantal eenheden in de steekproef [15](#page=15).
* **Voorwaarde:** De variabele moet kwantitatief zijn [15](#page=15).
* **Gewogen gemiddelde:** Elke waargenomen waarde krijgt een gewicht ($f_i$) toegewezen in de berekening. Dit wordt gebruikt voor discrete gegevens met absolute/relatieve frequentieverdelingen en voor gegroepeerde gegevens, waarbij $m_j$ het klassenmidden is [15](#page=15).
Het gewogen gemiddelde met absolute frequenties is:
$$ \bar{x} = \frac{\sum_{j=1}^{k} m_j \cdot f_j}{\sum_{j=1}^{k} f_j} $$
waarbij $k$ het aantal klassen is en $f_j$ de absolute frequentie van klasse $j$ [15](#page=15).
Het gewogen gemiddelde met relatieve frequenties is:
$$ \bar{x} = \sum_{j=1}^{k} m_j \cdot v_j $$
waarbij $v_j$ de relatieve frequentie van klasse $j$ is [15](#page=15).
* **Implicaties van het gemiddelde:**
1. Een wijziging in één observatie beïnvloedt het gemiddelde [15](#page=15).
2. Het toevoegen of verwijderen van een observatie wijzigt het gemiddelde [15](#page=15).
3. Het gemiddelde is erg gevoelig voor uitschieters [15](#page=15).
> **Voorbeeld:** In de dataset {12, 13, 8, 11, 15} is het gemiddelde 11.8 en de mediaan 12. Als de observatie 15 wordt veranderd naar 14, wordt het gemiddelde 12.2 terwijl de mediaan 13 wordt. Als een lagere observatie (bv. 9) wordt toegevoegd, wordt het gemiddelde 11.3 en de mediaan 11.5. Een uitschieter zoals 2 kan het gemiddelde sterk beïnvloeden (na toevoeging wordt het gemiddelde 10.2, terwijl de mediaan 11.5 blijft) [15](#page=15).
* **Getrimd gemiddelde:** Een robuustere versie van het gemiddelde waarbij een vast percentage (vaak 10%) van de kleinste en grootste gegevens wordt weggelaten voor de berekening. Dit vermindert de impact van uitschieters [16](#page=16).
### 3.3 Spreidingskenmerken
Spreidingskenmerken geven weer in welke mate gegevens verspreid liggen rond een centrummaat. Een spreidingsmaat van 0 betekent dat alle waarnemingen dezelfde waarde hebben [16](#page=16).
#### 3.3.1 Bereik
Het bereik ($R$) is het verschil tussen de grootste waarneming ($x_{max}$) en de kleinste waarneming ($x_{min}$) [16](#page=16).
$$ R = x_{max} - x_{min} $$
* **Nadeel:** Het bereik is erg gevoelig voor uitschieters omdat het enkel de twee meest extreme waarnemingen gebruikt [16](#page=16).
* **Gegroepeerde gegevens:** Het bereik is de afstand tussen de bovengrens van de hoogste klasse en de ondergrens van de laagste klasse [16](#page=16).
#### 3.3.2 Kwantielafstanden
Kwantielen verdelen een geordende dataset in gelijke delen [16](#page=16).
* **Kwartielen:** Verdelen de verdeling in 4 gelijke stukken van 25%. $Q_1$ markeert het einde van het eerste kwartiel, $Q_2$ (de mediaan) het einde van het tweede, en $Q_3$ het einde van het derde [16](#page=16).
* **Decielen:** Verdelen de verdeling in 10 gelijke stukken van 10% [16](#page=16).
* **Interkwartielafstand (IQR):** De lengte van het gebied rond de mediaan dat de middelste 50% van de observaties omvat [16](#page=16).
$$ IQR = Q_3 - Q_1 = Q_{0.75} - Q_{0.25} $$
* **Interdecielafstand (D):** De lengte van het gebied rond de mediaan dat ongeveer 80% van de middelste gegevens omvat [16](#page=16).
$$ D = D_9 - D_1 = Q_{0.90} - Q_{0.10} $$
* **Voordeel:** Minder gevoelig voor uitschieters dan spreidingsmaten die afhankelijk zijn van het gemiddelde [16](#page=16).
#### 3.3.3 Variantie en standaardafwijking
Dit zijn de meest gebruikte spreidingsmaten [17](#page=17).
* **Verschilscore (deviatiescore):** $x_i - \bar{x}$ is de afstand tussen elke meetwaarde ($x_i$) en het gemiddelde ($\bar{x}$). De som van alle verschilscores is altijd 0 [17](#page=17).
* **Variatie:** De som van de gekwadrateerde deviatiescores [17](#page=17).
$$ \text{Variatie} = \sum_{i=1}^{n} (x_i - \bar{x})^2 $$
* **Variantie ($s^2$):** De gemiddelde gekwadrateerde afwijking ten opzichte van het gemiddelde [17](#page=17).
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
* Een variantie van 0 betekent afwezigheid van spreiding [17](#page=17).
* Hoe hoger de variantie, hoe groter de spreiding [17](#page=17).
* Varianten worden uitgedrukt in gekwadrateerde eenheden, wat vergelijking met de oorspronkelijke meeteenheid bemoeilijkt [17](#page=17).
* **Standaardafwijking ($s$):** De vierkantswortel van de variantie, waardoor deze terug wordt uitgedrukt in de originele meeteenheid [17](#page=17).
$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$
* De standaardafwijking is altijd groter dan of gelijk aan 0; $s=0$ betekent afwezigheid van spreiding [17](#page=17).
* Hoe groter $s$, hoe groter de spreiding [17](#page=17).
* De standaardafwijking kan worden gebruikt om spreiding van een variabele tussen groepen te vergelijken [17](#page=17).
* De standaardafwijking is erg gevoelig voor uitschieters [17](#page=17).
* **Voor normaal verdeelde variabelen:**
* Ongeveer 68% van de gegevens ligt binnen 1 standaarddeviatie van het gemiddelde: $[\bar{x} - s, \bar{x} + s]$ [17](#page=17).
* Ongeveer 95% van de gegevens ligt binnen 1.96 standaarddeviaties van het gemiddelde: $[\bar{x} - 1.96s, \bar{x} + 1.96s]$ [17](#page=17).
### 3.4 Vormmaten
Vormmaten beschrijven de symmetrie en de gepiektheid van een verdeling [18](#page=18).
#### 3.4.1 Scheefheid en gepiektheid
* **Scheefheid (Skewness):** Een maat die aangeeft of een verdeling links- of rechtsscheef is ten opzichte van een normale verdeling [18](#page=18).
* Scheefheid $\approx 0$: afwezigheid van scheefheid [18](#page=18).
* Scheefheid $< 0$: linksscheve verdeling [18](#page=18).
* Scheefheid $> 0$: rechtsscheve verdeling [18](#page=18).
* Scheefheid $< -2$ of $> 2$: extreme scheefheid [18](#page=18).
* **Gepiektheid (Kurtosis):** Een maat voor de relatieve piekvorm of vlakheid van een verdeling ten opzichte van de normale verdeling [18](#page=18).
* Kurtosis $\approx 0$: gepiektheid volgens een normale verdeling [18](#page=18).
* Kurtosis $< 0$: vlakkere verdeling [18](#page=18).
* Kurtosis $> 0$: gepiektere verdeling [18](#page=18).
#### 3.4.2 Boxplot
Een boxplot is een grafische weergave van de verdelingsvorm die belangrijke kenmerken van de steekproefgegevens schematisch weergeeft [18](#page=18).
* **Opmaak:**
1. **Box:** Een rechthoek die wordt afgebakend door $Q_1$ en $Q_3$. De lengte van de box is de IQR [18](#page=18).
2. **Uitschieters:**
* Gewone uitschieter: valt buiten het interval $[Q_1 - 1.5 \cdot IQR, Q_3 + 1.5 \cdot IQR]$ [18](#page=18).
* Extreme uitschieter: valt buiten het interval $[Q_1 - 3 \cdot IQR, Q_3 + 3 \cdot IQR]$ [18](#page=18).
3. **Snorharen (Whiskers):** Lopen van $Q_1$ en $Q_3$ tot de kleinste/grootste observatie die geen uitschieter is [18](#page=18).
* Ongeveer even lange snorharen: symmetrische verdeling [18](#page=18).
* Rechts langere snorhaar: rechtsscheve verdeling [18](#page=18).
* Links langere snorhaar: linksscheve verdeling [18](#page=18).
### 3.5 Transformaties
Transformaties worden gebruikt om de waarden van variabelen aan te passen, bijvoorbeeld om de meeteenheid te wijzigen of het bereik aan te passen [19](#page=19).
#### 3.5.1 Lineaire transformaties
Lineaire transformaties zetten oorspronkelijke waarden ($x_i$) om naar nieuwe waarden ($g(x_i)$) volgens de vorm $g(x_i) = a + b x_i$ [19](#page=19).
* **Verschuiving over afstand $a$ ($g(x_i) = a + x_i$):**
* Als $a > 0$, worden alle waarden groter [19](#page=19).
* Als $a < 0$, worden alle waarden kleiner [19](#page=19).
* **Invloed:** Beïnvloedt centrummaten (gemiddelde, mediaan), maar niet de spreidingskenmerken [19](#page=19).
* **Vermenigvuldiging met constante factor $b$ ($g(x_i) = b x_i$):**
* **Invloed:** Beïnvloedt zowel centrummaten als spreidingskenmerken [19](#page=19).
* Variantie: wordt vermenigvuldigd met het kwadraat van de constante ($b^2$) [19](#page=19).
* Standaardafwijking: wordt vermenigvuldigd met de absolute waarde van de constante ($|b|$) [19](#page=19).
#### 3.5.2 Z-transformatie
De z-transformatie berekent de z-score ($z_i$) voor een geobserveerde waarde ($x_i$) door het verschil tussen $x_i$ en het gemiddelde ($\bar{x}$) te delen door de standaardafwijking ($s$) [19](#page=19).
$$ z_i = \frac{x_i - \bar{x}}{s} $$
* **Z-scores (gestandaardiseerde waarden):** Drukt uit hoeveel standaardafwijkingen een geobserveerde waarde van het gemiddelde verschilt [19](#page=19).
* $z_i > 0$: de geobserveerde waarde ligt boven het gemiddelde [19](#page=19).
* $z_i < 0$: de geobserveerde waarde ligt onder het gemiddelde [19](#page=19).
* Hoe verder de z-score van 0 verwijderd is, hoe verder de geobserveerde waarde van het gemiddelde ligt [19](#page=19).
---
# Kansen en kansverdelingen
Dit deel introduceert de fundamentele concepten van kansrekening, onderscheidt theoretische en empirische kansen, en beschrijft belangrijke kansverdelingen zoals de Bernoulli-, binomiale- en normale verdeling, met de nadruk op hun toepassingen bij het berekenen van kansen.
### 4.1 Kansbegrip
Kansrekening omvat het afwegen van de mogelijkheid om uitspraken over een steekproef te veralgemenen naar een populatie. Een kans verwijst naar een gebeurtenis die al dan niet kan voorkomen, zoals regen of geen regen. Een gebeurtenis zijn de eventualiteiten waaraan uitkomsten van een experiment kunnen voldoen en waaraan een specifieke kans kan worden gekoppeld. Als voorbeeld wordt het opgooien van een dobbelsteen genomen, waarbij de uitkomstenverzameling $\varphi = \{1, 2, 3, 4, 5, 6\}$ is. Gebeurtenis A, 'het gooien van een even aantal ogen', heeft een kans van $P(A) = \frac{3}{6}$. Gebeurtenis B, 'ogen lager of gelijk aan 4', heeft een kans van $P(B) = \frac{4}{6}$ [20](#page=20) [21](#page=21).
#### 4.1.1 Empirische en theoretische kansen
**Theoretische kansen** worden bepaald op basis van logica, zonder dat experimenten of steekproeven noodzakelijk zijn. **Empirische kansen** zijn daarentegen de relatieve frequenties die geobserveerd worden na het uitvoeren van een experiment. De empirische kans op een gebeurtenis A wordt berekend als het aantal keren dat de gebeurtenis geobserveerd wordt in een grote steekproef, gedeeld door het totale aantal observaties [21](#page=21):
$$P(A) = \frac{\text{Aantal observaties waarbij A zich voordoet}}{\text{Totaal aantal observaties}}$$
De relatieve frequentie van een gebeurtenis stabiliseert naar de theoretische kans bij een groot aantal experimenten, volgens de Wet van de Grote Getallen [21](#page=21).
Een **toevals- of stochastische variabele** is een variabele waarvan de uitkomst afhangt van toeval en die numerieke waarden aanneemt die overeenkomen met de uitkomst van een random fenomeen. We verwijzen naar deze variabelen met hoofdletters, zoals X, Y of Z. Voor elke waarde die een toevalsvariabele aanneemt, kan een bijbehorende kans berekend worden. De verzameling van al deze kansen wordt de **kansverdeling** of **dichtheid** van een toevalsvariabele genoemd. De kansen liggen altijd tussen 0 en 1, en de som van alle kansen is gelijk aan 1 [21](#page=21).
Kansverdelingen worden onderverdeeld op basis van de aard van de variabele:
* **Discreet:** De variabele kan slechts een eindig, of aftelbaar oneindig, aantal waarden aannemen [21](#page=21).
* **Continu:** De variabele kan een oneindig aantal waarden aannemen, vaak uitgedrukt in intervallen of klassen [21](#page=21).
#### 4.1.2 Empirische kansregels
De basisregels voor het berekenen van kansen zijn:
1. **Algemene kans:** Zoals hierboven gedefinieerd [21](#page=21).
2. **Complementaire gebeurtenis ($A^c$):** De kans op een gebeurtenis die niet plaatsvindt [21](#page=21).
$P(A^c) = 1 - P(A)$ [21](#page=21).
3. **Voorwaardelijke kans ($P(A|B)$):** De kans op gebeurtenis A, gegeven dat gebeurtenis B al is voorgevallen [21](#page=21).
$P(A|B) = \frac{P(A \cap B)}{P(B)}$ [21](#page=21).
4. **Doorsnede ($A \cap B$):** De gebeurtenis dat zowel A als B optreden [21](#page=21).
$P(A \cap B) = P(A)P(B|A) = P(B)P(A|B)$ [21](#page=21).
5. **Unie ($A \cup B$):** De gebeurtenis dat A of B optreedt, of beide [21](#page=21).
$P(A \cup B) = P(A) + P(B) - P(A \cap B)$ [21](#page=21).
### 4.2 Kansverdelingen voor discrete toevalsvariabelen
Voor discrete variabelen met een eindige uitkomstenverzameling, stabiliseert de relatieve frequentie van een waarde tot de kans op die waarde in de limiet van een oneindig grote steekproef. De kansdichtheid $f(m_j)$ representeert $P(X = m_j)$. De kansdichtheid $f$ is altijd groter dan of gelijk aan 0 en ligt tussen 0 en 1, waarbij de som van alle dichtheden gelijk is aan 1 [22](#page=22).
De **cumulatieve verdelingsfunctie (CDF)**, $F(x)$, geeft de kans weer dat de uitkomst van een variabele $X$ kleiner dan of gelijk aan $x$ is [22](#page=22):
$F(x) = P(X \le x) = \sum_{m_j \le x} f(m_j)$ [22](#page=22).
Centrummaten en spreidingskenmerken voor de populatie zijn het populatiegemiddelde ($\mathbb{E}(X)$ of $\mu$), de populatievariantie ($\sigma^2$) en de populatiestandaarddeviatie ($\sigma$) [22](#page=22).
### 4.3 Kansverdelingen voor continue toevalsvariabelen
Continue variabelen kunnen in theorie een oneindig aantal waarden aannemen. De kans om exact één specifieke waarde $x$ uit te komen is wiskundig 0, omdat er oneindig veel mogelijke uitkomsten zijn. Kansen worden berekend door waarden op te delen in klassen of intervallen [22](#page=22).
Wanneer de steekproef groot is en de intervallen klein, stabiliseert een histogram tot een dichtheidscurve $f$. De totale oppervlakte onder deze curve is 1, wat overeenkomt met de kans dat de variabele een waarde aanneemt binnen het interval dat alle mogelijke waarden bevat. De kans dat de continue toevalsvariabele $X$ een waarde aanneemt binnen een bepaald interval $[a, b]$ wordt berekend als de oppervlakte onder de dichtheidsfunctie tussen $a$ en $b$ [22](#page=22):
$P(a \le X \le b) = P(a < X < b)$ [22](#page=22).
De cumulatieve verdelingsfunctie $F(x)$ voor continue variabelen geeft de kans weer dat de waarde van variabele $X$ kleiner dan of gelijk aan $x$ is:
$F(x) = P(X \le x)$ [22](#page=22).
### 4.4 Bijzondere kansverdelingen
Er zijn verschillende specifieke kansverdelingen, waaronder:
* Bernoulli-verdeling [22](#page=22).
* Binomiale verdeling [22](#page=22).
* (Standaard)normale verdeling [22](#page=22).
#### 4.4.1 Bernoulli-verdeling
De Bernoulli-verdeling beschrijft een discrete toevalsvariabele die slechts twee mogelijke uitkomsten heeft: 0 (mislukking) en 1 (succes). De kansverdeling wordt bepaald door de kans op succes $p$ [23](#page=23):
* $f = P(X = 1) = p$ [1](#page=1) [23](#page=23).
* $f = P(X = 0) = 1 - p$ [23](#page=23).
Het gemiddelde van een Bernoulli-verdeling is $\mu = p$ en de variantie is $\sigma^2 = p(1 - p)$ [23](#page=23).
#### 4.4.2 Binomiale verdeling
De binomiale verdeling is de kansverdeling van het aantal successen in een reeks van $n$ onafhankelijke Bernoulli-experimenten. De uitkomstenverzameling is $\varphi = \{0, 1, 2,..., n\}$, waarbij $n$ het aantal herhalingen is. De parameter $p$ is de kans op succes in elk onderliggend Bernoulli-experiment [23](#page=23).
De scheefheid van de binomiale verdeling hangt af van $p$:
* Linksscheef: kans op succes is groot [23](#page=23).
* Rechtsscheef: kans op succes is klein [23](#page=23).
Het populatiegemiddelde is $\mu = n \ast p$ en de populatiestandaarddeviatie is $\sigma = \sqrt{np(1 - p)}$ [23](#page=23).
**Benadering met de normale verdeling:** Bij een voldoende grote steekproefomvang $n$, kan de binomiale verdeling de normale verdeling benaderen. Dit geldt indien $p \ast n \ge 10$ en $(1 - p) \ast n \ge 10$ [23](#page=23):
$B(n, p) \approx N(np, np(1 - p))$ [23](#page=23).
Indien deze voorwaarden niet voldaan zijn, is de benadering onvoldoende nauwkeurig. Het is belangrijk te onthouden dat de normale verdeling continu is, terwijl de binomiale verdeling discreet is [23](#page=23).
#### 4.4.3 (Standaard)normale verdeling
De normale verdeling is een modelverdeling voor continue variabelen. Zelfs als variabelen discreet worden gemeten, kunnen ze intrinsiek continu zijn [23](#page=23).
**Eigenschappen van de normale verdeling:**
* Symmetrische verdeling met de hoogste frequentie in het midden [23](#page=23).
* Modus, mediaan en gemiddelde vallen samen [23](#page=23).
* Bij toenemende steekproefgrootte neemt het histogram een klokvorm aan [23](#page=23).
De notatie voor een toevalsvariabele $X$ die een normale verdeling volgt met populatiegemiddelde $\mu$ en populatievariantie $\sigma^2$ is:
$X \sim N(\mu, \sigma^2)$ [24](#page=24).
**Kansen berekenen onder de normale verdeling:** Kansen worden bepaald door de oppervlakte onder de dichtheidscurve over een specifiek interval. De y-as van de normale verdeling geeft echter geen directe dichtheden weer, maar kansen [24](#page=24).
**Cruciale eigenschappen van de normale verdeling (empirische regel):**
* Ongeveer 68% van de gegevens ligt binnen één standaarddeviatie ($\sigma$) aan weerszijden van het populatiegemiddelde ($\mu$) [24](#page=24).
* Ongeveer 95% van de gegevens ligt binnen 1.96 standaarddeviatie ($\sigma$) aan weerszijden van het populatiegemiddelde ($\mu$) [24](#page=24).
* Ongeveer 99% van de gegevens ligt binnen 2.57 standaarddeviatie ($\sigma$) aan weerszijden van het populatiegemiddelde ($\mu$) [24](#page=24).
**Z-scores:** Z-scores drukken de positie van een observatie uit in termen van het aantal standaarddeviaties dat deze waarde verwijderd is van het gemiddelde [24](#page=24).
Wanneer een willekeurige normale verdeling een z-transformatie ondergaat, wordt deze een **standaardnormale verdeling**:
* Gemiddelde = 0 [24](#page=24).
* Standaarddeviatie = 1 [24](#page=24).
De notatie hiervoor is $Z \sim N(0,1)$ [24](#page=24).
**Betekenis van gebieden onder de curve van de standaardnormale verdeling:**
* $P(-1 \le Z \le 1) \approx 0.68$ [24](#page=24).
* $P(-1.96 \le Z \le 1.96) \approx 0.95$ [24](#page=24).
* $P(-2.57 \le Z \le 2.57) \approx 0.99$ [24](#page=24).
### 4.5 Kansen berekenen onder de (standaard)normale verdeling
Het doel van kansverdelingen is om kansvragen op te lossen en dieper inzicht te verkrijgen in gegevens en onderzoekscontexten. De standaardnormaalverdeling maakt het mogelijk concrete kansvragen over continue variabelen te beantwoorden [24](#page=24).
> **Tip:** Gebruik kans-tabellen om snel de benodigde waarden af te lezen voor het berekenen van kansen onder de normale verdeling [24](#page=24).
#### Eigenschappen van de lineaire transformatie op de z-transformatie:
* Nieuw gemiddelde $\bar{x} = 0$ [20](#page=20).
* Nieuwe variantie en standaardafwijking = 1 [20](#page=20).
* Verschuiving over afstand $a$ wordt omgerekend met $ \frac{x}{s_x} $ [20](#page=20).
* Herschaling met factor $b$ wordt omgerekend met $ \frac{1}{s_x} $ [20](#page=20).
* Z-transformaties standaardiseren variabelen wat betreft gemiddelde en variantie [20](#page=20).
* Het kan gebruikt worden om de positie van een waarde te vergelijken in verschillende verdelingen [20](#page=20).
De **standaardnormale verdeling** treedt op wanneer observaties van een normale verdeling worden getransformeerd naar z-scores met een gemiddelde $\bar{x} = 0$ en standaardafwijking $s = 1$ [20](#page=20).
**Vuistregels voor de standaard normale verdeling:**
* ~68% van de gegevens ligt binnen één standaarddeviatie van het gemiddelde (interval [-1, 1]) [20](#page=20).
* ~95% van de gegevens ligt binnen ongeveer 1.96 standaarddeviaties van het gemiddelde (interval [-1.96, 1.96]) [20](#page=20).
* ~99% van de gegevens ligt binnen ongeveer 2.58 standaarddeviaties van het gemiddelde (interval [-2.58, 2.58]) [20](#page=20).
---
# Inductieve statistiek: steekproeven en hypothesetesten
Dit onderwerp verkent de principes van inductieve statistiek, waarbij we leren hoe we uit een steekproef conclusies kunnen trekken over een grotere populatie door middel van steekproefdesigns, betrouwbaarheidsintervallen, hypothesetesten, de centrale limietstelling en de eigenschappen van schatters, inclusief de fouten die bij hypothesetesten kunnen optreden [25](#page=25) [26](#page=26).
### 5.1 Inleiding tot inductieve statistiek
Inductieve statistiek maakt het mogelijk om uitspraken te doen over populatieparameters op basis van gegevens uit een steekproef. Dit proces is essentieel omdat het zelden mogelijk is om de gehele populatie te onderzoeken. De kern ligt bij het schatten van onbekende populatieparameters met behulp van berekenbare steekproefstatistieken, zoals het steekproefgemiddelde ($\bar{x}$), de steekproefstandaarddeviatie ($s$), de correlatiecoëfficiënt ($r$), de proportie ($p$), en de regressiecoëfficiënt ($b$). Deze schattingen gaan echter gepaard met onzekerheid, die afneemt naarmate de steekproefomvang ($n$) groter wordt, volgens de wet van grote aantallen [26](#page=26).
#### 5.1.1 Steekproefdesigns
Een steekproefdesign beschrijft de methode om een steekproef te selecteren. Een cruciaal aspect is of de steekproef representatief is voor de populatie, wat voornamelijk wordt gewaarborgd door een toevalssteekproef, waarbij elke eenheid in de populatie een gelijke kans heeft om geselecteerd te worden. Niet-toevalssteekproeven, zoals quotasteekproeven of gelegenheidssteekproeven, maken geen betrouwbare kansuitspraken over de populatie mogelijk [25](#page=25).
#### 5.1.2 Kansuitspraken
Kansuitspraken, die de mogelijkheid bieden om veralgeningen te maken naar de populatie, zijn enkel mogelijk bij gegevens afkomstig uit een toevalssteekproef. Er zijn twee hoofdtypen kansuitspraken [26](#page=26):
1. **Betrouwbaarheidsintervallen:** Deze schatten een populatieparameter en leveren een interval waarbinnen de parameter met een bepaalde mate van zekerheid zal liggen [26](#page=26).
2. **Hypothesetesten:** Deze maken het mogelijk om een bewering of hypothese over een populatieparameter te evalueren [26](#page=26).
### 5.2 Basisconcepten van de inductieve statistiek
#### 5.2.1 Steekproevenverdeling
Een steekproevenverdeling is de verdeling van een steekproefstatistiek die verkregen wordt door herhaaldelijk onafhankelijke toevalssteekproeven van dezelfde omvang ($n$) uit dezelfde populatie te trekken. Een belangrijk concept hierbij is de steekproeferror ($e$), het verschil tussen een steekproefgemiddelde ($\bar{x}$) en het populatiegemiddelde ($\mu$), dat inherent is aan het veralgemenen van een steekproef naar de populatie [26](#page=26) [27](#page=27).
* **Steekproefgemiddelde als toevalsvariabele:** Als we een groot aantal onafhankelijke toevalssteekproeven van omvang $n$ trekken, wordt het steekproefgemiddelde ($\bar{X}$) een toevalsvariabele met potentiële uitkomsten [26](#page=26).
* **Steekproevenverdeling van gemiddelden:** Dit is de verdeling van de verzameling van steekproefgemiddelden, verkregen uit $q$ onafhankelijke toevalssteekproeven van omvang $n$ [27](#page=27).
* **Verwachte waarde van $\bar{X}$:** $E(\bar{X}) = \mu$. Het gemiddelde van de steekproefgemiddelden is gelijk aan het populatiegemiddelde en wordt gebruikt als schatter daarvoor [27](#page=27).
* **Variantie van $\bar{X}$:** $\sigma_{\bar{X}}^2 = \frac{\sigma^2}{n}$. Dit is een maatstaf voor de spreiding van de steekproefgemiddelden rond hun verwachtingswaarde [27](#page=27).
* **Standaarderror van $\bar{X}$:** $\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}$. Dit is de standaarddeviatie van de steekproevenverdeling van het gemiddelde en een maatstaf voor de betrouwbaarheid van het steekproefgemiddelde als schatter voor het populatiegemiddelde. Een kleinere standaarderror duidt op een betrouwbaardere schatting [27](#page=27).
#### 5.2.2 Centrale limietstelling (CLT)
De Centrale Limietstelling (CLT) is een fundamenteel principe dat de vorm, het centrum en de spreiding van de steekproevenverdeling beschrijft [28](#page=28).
* **Kern van de CLT:** Voor elke populatie met een eindig gemiddelde $\mu$ en variantie $\sigma^2$, zal de verdeling van de steekproefgemiddelden ($\bar{X}$) van een groot aantal onafhankelijke toevalssteekproeven van omvang $n$ een normale verdeling benaderen naarmate $n$ toeneemt [28](#page=28).
* **Eigenschappen van de steekproevenverdeling volgens CLT:**
* $E(\bar{X}) = \mu$
* Variantie: $\sigma_{\bar{X}}^2 = \frac{\sigma^2}{n}$
* Standaarderror: $\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}$
* **Toepassing van de normale verdeling:** De CLT garandeert dat de steekproevenverdeling een normale vorm zal aannemen, zelfs als de oorspronkelijke populatieverdeling niet normaal is, mits $n$ voldoende groot is (vaak wordt $n \geq 30$ als vuistregel gehanteerd als de populatie niet extreem scheef is). Als de populatie zelf normaal verdeeld is, geldt dit ook voor kleinere steekproeven [28](#page=28).
* **Discrete verdelingen:** De CLT kan ook worden toegepast op discrete verdelingen zoals de binomiale verdeling, indien $p \ast n \geq 10$ en $(1-p) \ast n \geq 10$, waarna de binomiale verdeling wordt benaderd door een normale verdeling [28](#page=28).
* **Essentieel voor hypothesetesten en betrouwbaarheidsintervallen:** De steekproevenverdeling stelt ons in staat om de kans op het verkrijgen van een bepaald steekproefgemiddelde te voorspellen, wat cruciaal is voor het uitvoeren van hypothesetesten en het construeren van betrouwbaarheidsintervallen [29](#page=29).
#### 5.2.3 Eigenschappen van schatters
Schattersevaluatie omvat twee belangrijke eigenschappen:
* **Zuiverheid (Onvertekendheid):** Een schatter is zuiver (onvertekend) als de verwachte waarde van de steekproevenverdeling van de schatter gelijk is aan de populatieparameter die geschat wordt. Indien dit niet het geval is, is er sprake van 'bias'. De bias wordt berekend als [29](#page=29):
$bias = populatieparameter - verwachte waarde$
* **Nauwkeurigheid (Precisie):** Een schatter is nauwkeurig of precies naarmate de standaarderror van de steekproevenverdeling kleiner is. Een kleinere standaarderror betekent dat de steekproefstatistieken dichter bij de populatieparameter liggen [29](#page=29).
Het is belangrijk op te merken dat zuiverheid en nauwkeurigheid niet noodzakelijk samenhangen [29](#page=29).
### 5.3 Hypothesetesten
Hypothesetesten zijn een statistisch instrument om uitspraken te doen over populatieparameters door gebruik te maken van steekproefgegevens. Het doel is om een hypothese over de populatie te evalueren [29](#page=29).
#### 5.3.1 Structuur van een hypothesetest
Een hypothesetest volgt een gestructureerd proces van vier stappen:
1. **Formuleren van hypothesen en controleren van assumpties:**
* **Nulhypothese ($H_0$):** Stelt dat er geen verandering, verschil, effect of samenhang is in de populatie. Voorbeelden: $\mu = \mu_0$, $r = 0$, $\beta = 0$ [30](#page=30).
* **Alternatieve hypothese ($H_a$):** Stelt dat er wél een verandering, verschil, effect of samenhang is. Dit kan gericht (linkseenzijdig of rechtseenzijdig) of tweezijdig zijn [30](#page=30).
* Tweezijdig: $H_a: \mu \neq \mu_0$
* Linkseenzijdig: $H_a: \mu < \mu_0$
* Rechtseenzijdig: $H_a: \mu > \mu_0$
* **Assumpties:** Voorafgaand aan de test moeten de specifieke assumpties voor de test gecontroleerd worden, aangezien niet-voldoen aan deze assumpties de betrouwbaarheid van de test kan ondermijnen [30](#page=30).
2. **Bepalen van het significantieniveau ($\alpha$) en het kritieke gebied:**
* **Significantieniveau ($\alpha$):** Dit is de kans op het onterecht verwerpen van de nulhypothese (Type 1-fout). Gangbare waarden zijn 0.05, 0.01, of 0.001 [30](#page=30) [31](#page=31) [33](#page=33).
* **Kritieke gebied:** Dit is het gebied in de steekproevenverdeling dat bestaat uit steekproefstatistieken met een zeer lage kans om voor te komen als de nulhypothese waar is, gedefinieerd door $\alpha$. Statistieken die in het kritieke gebied vallen, leiden tot het verwerpen van de nulhypothese [31](#page=31).
3. **Berekenen van de testwaarde en p-waarde:**
* **Testwaarde:** Deze wordt berekend op basis van de steekproefgegevens en een teststatistiek, en kwantificeert hoe ver de steekproefstatistiek afwijkt van de nulhypothese. De specifieke teststatistiek hangt af van de hypothese [31](#page=31).
* **P-waarde:** Dit is de kans om een testwaarde te observeren die minstens zo extreem is in de richting van de alternatieve hypothese als de geobserveerde testwaarde, aangenomen dat de nulhypothese waar is. Een kleine p-waarde (kleiner dan $\alpha$) suggereert sterk bewijs tegen de nulhypothese [31](#page=31) [33](#page=33).
4. **Nemen van een beslissing en formuleren van een conclusie:**
* **Beslissing:** Gebaseerd op de p-waarde ten opzichte van $\alpha$, of door de testwaarde te vergelijken met het kritieke gebied, wordt besloten de nulhypothese te verwerpen of niet te verwerpen [31](#page=31).
* **Conclusie:** Een interpretatie van de beslissing in de context van het oorspronkelijke onderzoeksprobleem wordt geformuleerd [31](#page=31).
> **Tip:** De grootte van de z-score, die gebruikt wordt in hypothesetesten, wordt beïnvloed door het verschil tussen het steekproef- en populatiegemiddelde, de standaarderror van de steekproevenverdeling, en de steekproefomvang ($n$). Houd er rekening mee dat significantie (een verwerpbare nulhypothese) niet automatisch gelijkstaat aan een praktisch zinvol of groot effect [32](#page=32).
#### 5.3.2 Onzekerheid en fouten bij hypothesetesten
Inductieve statistiek werkt met beperkte informatie, wat inherent onzekerheid met zich meebrengt. Dit kan leiden tot twee soorten fouten:
* **Type 1-fout:** Het onterecht verwerpen van een ware nulhypothese. De kans hierop wordt aangegeven met $\alpha$ [33](#page=33).
* **Type 2-fout:** Het niet verwerpen van een onware nulhypothese. De kans hierop wordt aangegeven met $\beta$ [33](#page=33).
* **Power:** De kans om een onware nulhypothese correct te verwerpen (1 - $\beta$). Dit vertegenwoordigt de kracht van de test om een bestaand effect te detecteren [33](#page=33).
#### 5.3.3 Test voor het populatiegemiddelde indien bekende populatievariantie $\sigma$
Wanneer de populatievariantie $\sigma^2$ bekend is, wordt de z-verdeling gebruikt voor het toetsen van hypothesen over het populatiegemiddelde. De teststatistiek is hierbij de z-score [34](#page=34).
#### 5.3.4 Test voor het populatiegemiddelde indien onbekende populatievariantie $\sigma$
Indien de populatievariantie $\sigma^2$ onbekend is, wordt de Student's t-verdeling gebruikt, met $n-1$ vrijheidsgraden. Dit introduceert extra onzekerheid omdat de populatievariantie geschat moet worden uit de steekproefgegevens. De t-verdeling is platter dan de normale verdeling, vooral bij kleine steekproeven, maar convergeert naar de normale verdeling naarmate de steekproefomvang toeneemt. Het afbakenen van het kritieke gebied vereist het gebruik van een student's-t-tabel, waarbij eerst $\alpha$ en het aantal vrijheidsgraden ($df = n-1$) bepaald moeten worden [35](#page=35) [36](#page=36).
#### 5.3.5 Test omtrent populatieproportie
Hypothesetesten kunnen ook worden uitgevoerd voor een populatieproportie ($p$) op basis van een voldoende grote steekproef ($n$) en onafhankelijke Bernoulli-verdeelde variabelen. De steekproefproportie ($\hat{p}$) wordt dan gebruikt als schatter voor $p$. De test vergelijkt de geobserveerde steekproefproportie met een vooraf gekozen populatieproportie ($p_0$) [37](#page=37).
---
# Samenhang tussen variabelen
Dit deel behandelt de analyse van de relatie tussen twee variabelen, waarbij zowel symmetrische als asymmetrische verbanden worden onderzocht, geïllustreerd met visualisaties zoals scatterplots en kruistabellen, en gekwantificeerd met statistische maten zoals covariantie, correlatie, chi-kwadraattest en t-testen [39](#page=39).
### 6.1 Inleiding
Univariate statistische maten geven inzicht in de verdeling van één variabele, terwijl het bestuderen van de samenhang tussen variabelen diepere inzichten kan opleveren. Er wordt onderscheid gemaakt tussen symmetrische en asymmetrische samenhang [39](#page=39).
* **Symmetrische samenhang:** Twee variabelen, X en Y, variëren samen zonder dat er een theoretisch oorzakelijk verband wordt gespecificeerd. Voorbeelden zijn homofobie en seksisme, of vertrouwen in de politie en vertrouwen in de rechtbank [39](#page=39).
* **Asymmetrische samenhang:** De verklarende (onafhankelijke) variabele X heeft een effect of invloed op de te verklaren (afhankelijke) variabele Y. Voorbeelden zijn de invloed van opleidingsniveau op jobzekerheid, of vaccinatie die de kans op ziekenhuisopname bepaalt [39](#page=39).
De keuze van de meest geschikte associatiemaat voor bivariate symmetrische samenhang hangt af van het meetniveau van de twee variabelen [39](#page=39):
| | Nominaal | Ordinaal | Kwantitatief |
| :---------- | :----------- | :----------- | :----------- |
| **Nominaal** | Kruistabel, Chi-kwadraattest | Kruistabel, Chi-kwadraattest | Ongepaarde t-test, Covariantie, Correlatie |
| **Ordinaal** | Kruistabel, Chi-kwadraattest | Kruistabel, Chi-kwadraattest | Ongepaarde t-test, Covariantie, Correlatie |
| **Kwantitatief** | Ongepaarde t-test | Ongepaarde t-test | Covariantie, Correlatie |
### 6.2 Samenhang tussen 2 kwantitatieve variabelen
Deze sectie richt zich op variabelen die gemeten zijn op (quasi-)interval of (quasi-)ratio niveau. Het doel is te onderzoeken of lage scores op de ene variabele systematisch gepaard gaan met lage scores op de andere variabele. Dit wordt gevisualiseerd met scatterplots en gekwantificeerd met covariantie en correlatie [39](#page=39).
#### 6.2.1 Visualisatie via scatterplots
Een scatterplot (puntenwolk) is een grafische weergave van de samenhang tussen twee kwantitatieve variabelen, X en Y, gemeten bij dezelfde onderzoekseenheden. De scores op de Y-as zijn de scores op variabele Y, en de scores op de X-as zijn de scores op variabele X. Elk punt in de plot vertegenwoordigt de scores van één onderzoekseenheid op beide variabelen [40](#page=40).
**Richting van de samenhang:**
* **Stijgt naar rechts:** Positief verband. Hoge X-waarden gaan systematisch gepaard met hoge Y-waarden, en lage X-waarden met lage Y-waarden [40](#page=40).
* **Daalt naar rechts:** Negatief verband. Hoge X-waarden gaan systematisch gepaard met lage Y-waarden, en lage X-waarden met hoge Y-waarden [40](#page=40).
* Een perfect horizontale rechte lijn geeft aan dat er geen verband is tussen X en Y [40](#page=40).
**Sterkte van de samenhang:**
* **Sterk geclusterd rond een lineair patroon:** Sterk verband (positief of negatief). De scores op X zijn een goede voorspeller voor Y, en vice versa [40](#page=40).
* **Verspreid rond een lineair patroon:** Zwak verband (positief of negatief). De scores op X zijn slechts een zwakke voorspeller voor Y, en vice versa [40](#page=40).
* **Alle punten op eenzelfde lineaire rechte:** Perfect verband (negatief of positief). De scores op X zijn een perfecte voorspeller voor Y, en vice versa [40](#page=40).
De opdeling in vier kwadranten, gedefinieerd door de gemiddelden van X en Y, helpt bij het duiden van de richting en sterkte van het verband. Een sterke positieve samenhang resulteert in clusters in kwadrant 1 en 3, terwijl een sterke negatieve samenhang clusters in kwadrant 2 en 4 vertoont [42](#page=42) [43](#page=43).
> **Tip:** Kijk altijd ook naar het scatterplot om de aard van het verband te beoordelen, aangezien correlatie slechts lineaire verbanden aangeeft [45](#page=45).
#### 6.2.2 Covariantie
Covariantie is een associatiemaat voor lineaire samenhang tussen twee kwantitatieve variabelen die aangeeft hoe twee variabelen co-variëren bij onderzoekseenheden [43](#page=43).
* **Positieve covariantie:** Positief verband, met meer observaties in kwadrant 1 en 3 [43](#page=43).
* **Negatieve covariantie:** Negatief verband, met meer observaties in kwadrant 2 en 4 [43](#page=43).
* **Covariantiematen:**
* Steekproef covariantie: $s_{xy} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{n-1}$ [43](#page=43).
**Eigenschappen van de covariantie:**
* Symmetrisch: $s_{xy} = s_{yx}$ [43](#page=43).
* Covariantie van een variabele met zichzelf is de variantie: $s_{xx} = s_x^2$ [43](#page=43).
* Afhankelijk van de meetschaal en er is geen vaste onder- of bovengrens. Hierdoor kan de sterkte van het verband niet direct worden afgelezen [44](#page=44).
**Richting van het verband gebaseerd op covariantie ($s_{xy}$):**
* $s_{xy} > 0$: Positief lineair verband [44](#page=44).
* $s_{xy} < 0$: Negatief lineair verband [44](#page=44).
* $s_{xy} = 0$: Geen lineair verband [44](#page=44).
#### 6.2.3 Correlatie
(Pearson) Correlatie is een symmetrische associatiemaat voor lineaire samenhang tussen twee kwantitatieve variabelen die ook de sterkte van het verband aangeeft. Het is de gestandaardiseerde covariantie, wat neerkomt op de covariantie van de z-scores van X en Y [44](#page=44).
De formule voor de correlatiecoëfficiënt ($r_{xy}$) is:
$$r_{xy} = \frac{s_{xy}}{s_x s_y} = \frac{\sum_{i=1}^{n}(z_{x_i} \cdot z_{y_i})}{n-1}$$
waarbij $z_x$ en $z_y$ de z-scores van respectievelijk X en Y zijn [44](#page=44).
**Eigenschappen van de correlatie:**
* Symmetrisch: $r_{xy} = r_{yx}$ [44](#page=44).
* Correlatie van een variabele met zichzelf is 1 (perfect positief) [44](#page=44).
* Ongevoelig voor meetschaal en transformaties, maar wel gevoelig voor uitschieters [44](#page=44).
**Richting van het verband gebaseerd op correlatie ($r_{xy}$):**
* $r_{xy} > 0$: Positief lineair verband [45](#page=45).
* $r_{xy} < 0$: Negatief lineair verband [45](#page=45).
* $r_{xy} = 0$: Geen lineair verband (er kan wel een ander type verband bestaan) [45](#page=45).
**Sterkte van het verband (correlatiecoëfficiënt $r_{xy}$):**
* $r = 1$: Perfect positieve lineaire samenhang [45](#page=45).
* $0.5 < r < 1$: Sterke positieve lineaire samenhang [45](#page=45).
* $0.3 < r < 0.5$: Matige positieve lineaire samenhang [45](#page=45).
* $0 < r < 0.3$: Zwakke positieve lineaire samenhang [45](#page=45).
* $r = 0$: Lineaire onafhankelijkheid [45](#page=45).
* $-0.3 < r < 0$: Zwakke negatieve lineaire samenhang [45](#page=45).
* $-0.5 < r < -0.3$: Matige negatieve lineaire samenhang [45](#page=45).
* $-1 < r < -0.5$: Sterke negatieve lineaire samenhang [45](#page=45).
* $r = -1$: Perfect negatieve lineaire samenhang [45](#page=45).
> **Belangrijk:** Correlatie impliceert geen causaliteit, hoewel causaliteit wel correlatie impliceert. Een gevonden correlatie kan ook een schijnverband zijn [45](#page=45).
#### 6.2.4 Hypothesetest omtrent correlatie
Een hypothesetest wordt gebruikt om te bepalen of een geobserveerde correlatie statistisch significant is [46](#page=46).
* **p-waarde:**
* Tweezijdig: $2 \times P(T_{n-2} > |t_{n-2}|)$ [46](#page=46).
* Eenzijdig: $P(T_{n-2} > |t_{n-2}|)$ [46](#page=46).
* De verdeling die hierbij wordt gebruikt is de Student's t-verdeling met $n-2$ vrijheidsgraden.
> **Let op:** Een significante correlatie, vooral bij grote steekproeven, betekent niet automatisch dat de correlatie inhoudelijk relevant is. Bij kleine steekproeven kan een sterke correlatie alsnog niet significant zijn [46](#page=46).
### 6.3 Ongepaarde t-test
De ongepaarde t-test wordt gebruikt om de gemiddelden van een kwantitatieve variabele te vergelijken tussen twee onafhankelijke groepen, gedefinieerd door een kwalitatieve variabele met twee categorieën [47](#page=47).
> **Doel:** Nagaan of het gemiddelde van een kwantitatieve variabele significant verschilt tussen twee onafhankelijke groepen [47](#page=47).
#### 6.3.1 Visualisatie via histogram & boxplot
Histogrammen en boxplots kunnen gebruikt worden om de verdeling van de kwantitatieve variabele te vergelijken tussen de twee groepen. Een eenvoudigere grafiek kan ook het gemiddelde per groep weergeven [47](#page=47).
#### 6.3.2 Hypothesetest voor vergelijken van gemiddelden tussen 2 groepen
De teststatistiek voor de ongepaarde t-test hangt af van de assumptie over de gelijkheid van de varianties in de twee groepen [47](#page=47).
1. **Gelijke varianties:** $\sigma_1^2 = \sigma_2^2$ [47](#page=47).
2. **Ongelijke varianties:** $\sigma_1^2 \neq \sigma_2^2$ [47](#page=47).
De formules voor de t-teststatistiek en de vrijheidsgraden variëren afhankelijk van deze assumptie [48](#page=48) [49](#page=49).
#### 6.3.3 Hypothese test voor vergelijken van de variantie tussen 2 groepen: Levene's test
Levene's test wordt gebruikt om te bepalen of de varianties in twee groepen gelijk zijn ($\sigma_1^2 = \sigma_2^2$ of $\sigma_1^2 \neq \sigma_2^2$), wat cruciaal is voor de keuze van de juiste ongepaarde t-test [50](#page=50).
* **Nulhypothese ($H_0$):** De populatievarianties van de kwantitatieve variabele zijn gelijk in beide groepen ($\sigma_1^2 = \sigma_2^2$) [50](#page=50).
* **Alternatieve hypothese ($H_a$):** De populatievarianties zijn niet gelijk in beide groepen ($\sigma_1^2 \neq \sigma_2^2$) [50](#page=50).
De teststatistiek volgt een F-verdeling [50](#page=50).
### 6.4 Samenhang tussen 2 kwalitatieve variabelen
Deze sectie behandelt variabelen met een nominaal of ordinaal meetniveau. De besproken technieken zijn ook toepasbaar wanneer een kwalitatieve variabele wordt gecombineerd met een kwantitatieve variabele die in klassen is gegroepeerd. De kwalitatieve variabelen kunnen meerdere categorieën hebben [50](#page=50).
**Drievoudige doelstellingen:**
1. **Aard/richting van het verband:** Analyseren van hoe het verband in elkaar zit, vaak via rij- en kolompercentages in een kruistabel [50](#page=50).
2. **Sterkte van het verband:** Bepalen of variabelen een sterke of zwakke voorspeller zijn van elkaar, met behulp van associatiematen zoals odds, odds-ratio's en Cramer's V [50](#page=50).
3. **Generaliseren naar de populatie:** Statistische inferentie via de Chi-kwadraattest [50](#page=50).
#### 6.4.1 Visualisatie via geclusterde staafdiagram
Een geclusterd staafdiagram is een bivariate uitbreiding van een staafdiagram die de frequentie van combinaties van categorieën van twee variabelen weergeeft [50](#page=50).
#### 6.4.2 Anatomie van een kruistabel
Een kruistabel toont de verdeling van observaties over de categorieën van twee variabelen [51](#page=51).
* **Celfrequentie:** Absolute frequentie van een specifieke combinatie van categorieën [51](#page=51).
* **Marginale verdeling:** De verdeling van elke variabele afzonderlijk, weergegeven door rij- en kolomtotalen. Geeft geen informatie over de samenhang [51](#page=51).
* **Relatieve celfrequenties:** Absolute celfrequenties en marginale frequenties uitgedrukt als percentages [51](#page=51).
* **Conditionele verdeling:** De verdeling van een variabele binnen de categorie van de andere variabele. Sommeert tot 100% per rij of kolom [51](#page=51).
* Bij een causale orde: Onafhankelijke variabele is de rij-variabele, afhankelijke variabele is de kolom-variabele [51](#page=51).
#### 6.4.3 Hypothesetest over samenhang tussen 2 kwalitatieve variabelen: Chi-kwadraat -test
De Chi-kwadraattest wordt gebruikt om te toetsen of twee kwalitatieve variabelen statistisch onafhankelijk zijn [52](#page=52).
* **Statistische onafhankelijkheid:** De kans op een categorie van de ene variabele hangt niet af van de waarde van de andere variabele. De conditionele verdeling van de ene variabele is gelijk voor elke categorie van de andere variabele [52](#page=52).
* Algemene productregel geldt: $P((X=m_x) \cap (Y=m_y)) = P(X=m_x) * P(Y=m_y)$ [53](#page=53).
* **Statistische afhankelijkheid:** Kennis van de waarde van de ene variabele kan de waarde van de andere variabele voorspellen [53](#page=53).
**Stappen van de Chi-kwadraattest:**
1. **Statistische onafhankelijkheid formuleren:** Hypothese $H_0$: X en Y zijn statistisch onafhankelijk. $H_a$: X en Y zijn statistisch afhankelijk [52](#page=52) [53](#page=53).
2. **Chi-kwadraatverdeling:** Nemen enkel positieve waarden aan en zijn vaak rechtsscheef [53](#page=53).
3. **Teststatistiek bepalen:** Vergelijkt de geobserveerde celfrequenties met de verwachte celfrequenties onder de nulhypothese [53](#page=53).
* De teststatistiek $\chi^2$ wordt berekend als: $\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$, waarbij $O_i$ de geobserveerde frequentie is en $E_i$ de verwachte frequentie [53](#page=53).
4. **Relevantie van het gevonden verband:** De Chi-kwadraattest zegt niets over de aard of richting van de samenhang, enkel of het verband significant is [53](#page=53).
#### 6.4.4 Associatiematen: Odds, Odds-ratio & Cramer’s V
Associatiematen kwantificeren de sterkte en de aard van een verband tussen kwalitatieve variabelen [53](#page=53).
* **Cramer’s V:** Een maat voor samenhang tussen twee nominale variabelen, met een waarde tussen 0 en 1 [53](#page=53).
* $V=0$: Geen samenhang [53](#page=53).
* $0 < V < 0.2$: Zwakke samenhang [53](#page=53).
* $0.2 < V < 0.5$: Matige samenhang [53](#page=53).
* $0.5 < V < 1.0$: Sterke samenhang [53](#page=53).
* $V=1$: Perfecte samenhang [53](#page=53).
* **Odds:** De kansverhouding die de kans op een gebeurtenis afzet tegen de kans dat deze niet voorkomt [54](#page=54).
* Odds = $\frac{P(X=1)}{1-P(X=1)}$ [54](#page=54).
* **Interpretatie van de marginale odd:**
* Odd = 1: Kansen zijn gelijk ($P(X=1) = 0.5$) [54](#page=54).
* Odd < 1: Kans op voorkomen is kleiner dan kans op niet voorkomen ($P(X=1) < 0.5$) [54](#page=54).
* Odd > 1: Kans op voorkomen is groter dan kans op niet voorkomen ($P(X=1) > 0.5$) [54](#page=54).
* **Conditionele odds:** Odds berekend voor een specifieke subgroep [54](#page=54).
* **Odds-ratio:** De verhouding van twee odds, gebruikt om de sterkte van een verband tussen kwalitatieve variabelen uit te drukken. (De specifieke berekening wordt niet gedetailleerd in dit document, maar het principe is het vergelijken van odds tussen groepen) [54](#page=54).
> **Tip:** Om van een odd terug te keren naar een kans: Kans $= \frac{odds}{1+odds}$ [54](#page=54).
---
# Gastcollege en toepassingen
Dit gedeelte vat het gastcollege over het YouVOICE-project samen, waarbij verschillende dataverzamelingsmethoden en onderzoeksresultaten over politieke kennis, generatieverschillen en de toepassing van statistische analyses worden besproken [55](#page=55) [56](#page=56) [57](#page=57).
### 7.1 Het YouVOICE-project
Het YouVOICE-project combineert diverse methoden voor dataverzameling. Dit omvat een cross-sectionele studie, die een momentopname van een populatie is en correlationeel van aard is. Daarnaast wordt gebruik gemaakt van een jeugdpanelstudie met een experimenteel design, waarbij dezelfde deelnemers op verschillende momenten gedurende een campagne worden bevraagd. Media-aandacht wordt als eerste keuze benoemd, gevolgd door nieuwsartikelen [55](#page=55).
De cross-sectionele populatiesurvey werd uitgevoerd via Bpact en omvatte een steekproef die representatief moest zijn voor de 16+ bevolking in Vlaanderen. Na kwaliteitscontroles werd een steekproefomvang van $n=2520$ gerealiseerd, gebruikmakend van quota sampling [55](#page=55).
De centrale onderzoeksvragen van het project waren:
1. Hoe goed zijn jongvolwassenen geïnformeerd over politiek [55](#page=55)?
2. Zijn er verschillen in politieke kennis tussen leeftijden en generaties [55](#page=55)?
3. Wat is het effect van drie digitale interventies [55](#page=55)?
### 7.2 Resultaten: meten van politieke kennis
Er worden drie soorten politieke kennis onderscheiden [56](#page=56):
1. **Algemene politieke kennis:** Dit omvat de samenstelling van de Vlaamse regering en het koppelen van politici aan hun partij [56](#page=56).
2. **Politieke kennis over actualiteit:** Deze wordt gemeten aan de hand van acht algemene kennisvragen [56](#page=56).
3. **Partijpositiekennis (PPK):** Dit betreft kennis over de standpunten van partijen ten opzichte van specifieke beleidsthema's, gemeten aan de hand van kwantitatieve variabelen (cijfers tussen 0-1, of 0-42) [56](#page=56).
De resultaten laten zien dat de verschillende soorten politieke kennis positief met elkaar samenhangen. Een correlatiematrix illustreert deze verbanden [56](#page=56):
| | Algemene politieke kennis 1 (regering) | Algemene politieke kennis 2 (link partij & politicus) | PPK (0-1 of 0-42) | Kennis over actualiteit |
| :------------------------ | :----------------------------------- | :------------------------------------------------- | :---------------- | :---------------------- |
| **Algemene politieke kennis 1 (regering)** | 1 | | | |
| **Algemene politieke kennis 2 (link partij-politika)** | $0.504^{\ast\ast\ast}$ | 1 | | |
| **PPK (0-1 of 0-42)** | $0.224^{\ast\ast\ast}$ | $0.327^{\ast\ast\ast}$ | 1 | |
| **Kennis over actualiteit** | $0.323^{\ast\ast\ast}$ | $0.500^{\ast\ast\ast}$ | $0.405^{\ast\ast\ast}$ | 1 |
De analyse van verschillen tussen generaties vereist eerst een inspectie van de variabelen. Vervolgens worden gemiddelden vergeleken. Afhankelijk van of er vergeleken wordt tussen verschillende generaties (nominaal) of leeftijd (kwantitatief), worden verschillende statistische testen gebruikt, zoals de t-test of Pearson's correlatie [56](#page=56).
De conclusies uit deze analyses zijn:
* Er is geen lineair verband voor PPK boven het significantieniveau van 0.05 [56](#page=56).
* Er is een significant positief verband voor alle andere politieke kennisvariabelen [56](#page=56).
* Oudere personen blijken meer kennis over politiek te hebben [56](#page=56).
#### 7.2.1 Stemtest jongerenpanel YouVOICE
Het jongerenpanel YouVOICE maakt gebruik van een longitudinaal design. Kennis wordt getest aan de hand van stellingen. Het doel van de stemtest is om te onderzoeken of jongeren die een stemtest invullen, vervolgens een betere politieke kennis hebben [56](#page=56).
De steekproef van het panel is groot, maar niet representatief voor de gehele populatie. Er is een oververtegenwoordiging van hoogopgeleide en geïnteresseerde jongeren, voornamelijk uit Antwerpen en Leuven. De steekproef bestaat voor een meerderheid uit vrouwen (64%) en heeft overwegend geen migratieachtergrond. Dit is minder problematisch voor experimenteel onderzoek, aangezien het doel hier niet generalisatie naar de populatie is, maar het testen van causale verbanden binnen de geëxperimenteerde groep. De steekproef is echter niet geschikt voor populatiegeneralisatie [57](#page=57).
### 7.3 Experiment: randomisering en analyses
Bij experimenteel onderzoek is randomisering essentieel, wat inhoudt dat deelnemers willekeurig worden toegewezen aan groepen. Hierbij wordt gemanipuleerd met een stimulus. Na de manipulatie worden dezelfde vragen gesteld om te onderzoeken of er statistisch significante verschillen zijn tussen de controle- en experimentele groepen [57](#page=57).
De voordelen van een experimenteel design zijn met name een hoge interne validiteit, waardoor causaliteit kan worden vastgesteld. De externe validiteit, de mate waarin resultaten breder toepasbaar zijn buiten de experimentele setting of generaliseerbaar zijn naar de populatie, kan echter een nadeel zijn [57](#page=57).
Bij de analyse van Partijpositiekennis (PPK) in een experimentele context, wordt altijd vergeleken met de controlegroep. Univariate analyses worden gebruikt om inzicht te krijgen in de frequentie van fenomenen en deze te veralgemenen van de steekproef ($n$) naar de populatie ($N$). Bivariate analyses helpen bij het begrijpen van de samenhang tussen fenomenen, met technieken als de t-test, correlaties en de chi-kwadraattoets. Multivariate analyses maken het mogelijk om te controleren voor meerdere factoren tegelijkertijd [57](#page=57).
Het uiteindelijke doel is om via statistische analyses significante verbanden te vinden die niet aan toeval te wijten zijn, zoals het verband tussen leeftijd en politieke kennis, door middel van hypothesetests [57](#page=57).
> **Tip:** Het onderscheid tussen interne en externe validiteit is cruciaal bij het beoordelen van de resultaten van experimenteel onderzoek [57](#page=57).
>
> **Voorbeeld:** Een t-test kan bijvoorbeeld gebruikt worden om te bepalen of het gemiddelde kennisniveau van de experimentele groep significant verschilt van dat van de controlegroep na een digitale interventie [56](#page=56) [57](#page=57).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Dataficatie | De trend waarbij dagelijkse acties en interacties worden omgezet in data die kunnen worden opgevolgd, geanalyseerd en geoptimaliseerd. |
| Kwantitatief onderzoek | Een onderzoeksbenadering waarbij data wordt omgezet in numerieke waarden om deze te analyseren met statistische methoden. Dit is dominant binnen de sociale wetenschappen. |
| Social data science | Een discipline die domein-specifieke kennis, computervaardigheden en datawetenschappen combineert om data-gerelateerde vraagstukken op te lossen. |
| Data-analyse | De kunst en wetenschap van het verzamelen, meten, organiseren, presenteren, analyseren en interpreteren van data met als doel hieruit inzicht te verkrijgen. |
| Onderzoeksvraag | Een vraag die voortkomt uit een probleemstelling en die richting geeft aan het verzamelen en analyseren van gegevens. |
| Onderzoekseenheden | De entiteiten of objecten waarop een onderzoek betrekking heeft en waarvan kenmerken worden gemeten; dit zijn niet altijd mensen. |
| Populatie | De volledige verzameling van onderzoekseenheden die gekenmerkt worden door een afbakening in tijd en ruimte. |
| Steekproef | Een deelverzameling van onderzoekseenheden die geselecteerd is uit de populatie, met als doel representatief te zijn voor die populatie. |
| Willekeurige steekproef | Een steekproef waarbij elke onderzoekseenheid uit de populatie een gelijke kans heeft om geselecteerd te worden. |
| Representatieve steekproef | Een steekproef die de kenmerken van de populatie in dezelfde mate weerspiegelt als de populatie zelf. |
| Variabelen | Kenmerken die bij onderzoekseenheden gemeten worden en die verschillende waarden kunnen aannemen, genoteerd als 𝑋, 𝑌, 𝑍. |
| Uitkomstenverzameling | De verzameling van alle mogelijke waarden of categorieën die een variabele kan aannemen, genoteerd als 𝜙 of 𝜑. |
| Geobserveerde waarnemingen | De uitkomsten die daadwerkelijk zijn geobserveerd in de steekproef of populatie voor een bepaalde variabele. |
| Nominale schaal | Een meetniveau waarbij gegevens in categorieën worden ingedeeld die geen inherente volgorde hebben. Verschillen tussen waarden vertegenwoordigen kwalitatieve, geen kwantitatieve verschillen. |
| Ordinale schaal | Een meetniveau waarbij gegevens in categorieën worden ingedeeld die wel een inherente volgorde hebben, waardoor ze geïnterpreteerd kunnen worden als meer of minder, maar zonder vaste meeteenheid. |
| Interval schaal | Een meetniveau met een vaste, kwantificeerbare meeteenheid, waarbij verschillen tussen waarden betekenisvol zijn, maar het nulpunt arbitrair is. |
| Ratio schaal | Een meetniveau met een vaste, kwantificeerbare meeteenheid en een absoluut nulpunt, waardoor zowel verschillen als verhoudingen tussen waarden betekenisvol zijn. |
| Datamatrix | Een tabelstructuur die data organiseert in rijen (onderzoekseenheden) en kolommen (variabelen), met specifieke waarden in de cellen. |
| Datacleaning | Het proces van het controleren, corrigeren en verwijderen van fouten en inconsistenties in verzamelde data om deze geschikt te maken voor analyse. |
| Operationaliseren | Het proces van het meetbaar maken van abstracte concepten door deze te definiëren in termen van observeerbare indicatoren of variabelen. |
| Beschrijvende statistiek | Het onderdeel van statistiek dat zich bezighoudt met het samenvatten en beschrijven van de belangrijkste kenmerken van een dataset, zoals gemiddelde, mediaan, en frequenties. |
| Steekproefstatistiek | Een maat die wordt berekend op basis van gegevens uit een steekproef om kenmerken van die steekproef te beschrijven. |
| Populatieparameter | Een maat die wordt berekend op basis van de gehele populatie en die kenmerken van die populatie beschrijft. |
| Univariaat | Een analyse die betrekking heeft op slechts één variabele tegelijk. |
| Bivariaat | Een analyse die betrekking heeft op twee variabelen tegelijk, om de relatie ertussen te onderzoeken. |
| Inductieve statistiek | Het onderdeel van statistiek dat zich bezighoudt met het veralgemenen van bevindingen uit een steekproef naar de populatie. |
| Wet van de grote aantallen | Een statistisch principe dat stelt dat naarmate de omvang van een steekproef toeneemt, de steekproefstatistieken de exacte populatiewaarden beter zullen benaderen. |
| Samenthang | De mate waarin twee variabelen samen variëren of gerelateerd zijn aan elkaar. |
| Frequentieverdeling | Een overzicht dat weergeeft hoe vaak verschillende mogelijke uitkomsten van een variabele voorkomen in een dataset. |
| Absolute frequentie | Het daadwerkelijke aantal observaties dat overeenkomt met een bepaalde uitkomst of categorie van een variabele. |
| Relatieve frequentie | Het aandeel van de absolute frequentie ten opzichte van de totale steekproefomvang, vaak uitgedrukt als proportie of percentage. |
| Cumulatieve frequentie | De som van de relatieve frequenties van alle uitkomsten tot en met een bepaalde uitkomst, wat de relatieve positie van een observatie in de verdeling aangeeft. |
| Staafdiagram | Een grafische weergave waarbij de frequenties van verschillende categorieën worden weergegeven door middel van verticale staven. |
| Cirkeldiagram | Een grafische weergave die de relatieve frequenties van categorieën weergeeft als segmenten van een cirkel. |
| Histogram | Een grafische weergave van de frequentieverdeling van kwantitatieve gegevens, waarbij de data wordt gegroepeerd in klassen en de frequenties worden weergegeven door staven. |
| Uitschieter | Een waarde die significant afwijkt van de overige waarden in een dataset, zowel extreem laag als extreem hoog. |
| Normale verdeling | Een symmetrische, klokvormige kansverdeling die veel voorkomt in de natuur en sociale wetenschappen, gekenmerkt door een piek in het midden en geleidelijke afname aan beide zijden. |
| Rechtsscheve verdeling | Een verdeling waarbij de staart aan de rechterkant langer is dan aan de linkerkant, wat aangeeft dat er meer waarden aan de lagere kant van het bereik zijn. |
| Linksscheve verdeling | Een verdeling waarbij de staart aan de linkerkant langer is dan aan de rechterkant, wat aangeeft dat er meer waarden aan de hogere kant van het bereik zijn. |
| Centrummaat | Een statistische maat die aangeeft rond welke waarde een verdeling gecentreerd is, zoals de modus, mediaan of gemiddelde. |
| Modus | De waarde die het meest frequent voorkomt in een dataset. |
| Mediaan | De middelste waarde in een geordende dataset; de waarde die de dataset in twee gelijke helften verdeelt. |
| Gemiddelde (rekenkundig) | De som van alle waarden in een dataset gedeeld door het aantal waarden. |
| Spreidingsmaat | Een statistische maat die aangeeft hoe verspreid de gegevens zijn rond een centrummaat, zoals het bereik, de variantie of de standaardafwijking. |
| Bereik | Het verschil tussen de hoogste en laagste waarde in een dataset. |
| Interkwartielafstand (IQR) | Het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1), wat de spreiding van de middelste 50% van de data aangeeft. |
| Variantie | Een maat voor de spreiding van gegevens rond het gemiddelde, berekend als het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde. |
| Standaardafwijking | De vierkantswortel van de variantie, die de gemiddelde afstand van de gegevenspunten tot het gemiddelde aangeeft in de oorspronkelijke meeteenheid. |
| Vormmaat | Een maat die de vorm van een kansverdeling beschrijft, zoals scheefheid en gepiektheid. |
| Scheefheid (Skewness) | Een maat die aangeeft of een verdeling symmetrisch is of scheef naar links of rechts. |
| Gepiektheid (Kurtosis) | Een maat die de relatieve piekvorm of vlakheid van een verdeling aangeeft in vergelijking met de normale verdeling. |
| Boxplot | Een grafische weergave die de centrale tendens, spreiding en mogelijke uitschieters van een dataset samenvat. |
| Lineaire transformatie | Een transformatie waarbij waarden worden verschoven en/of geschaald volgens een lineaire formule, zoals 𝑔(𝑥𝑖) = 𝑎 + 𝑏𝑥𝑖. |
| Z-transformatie | Een specifieke lineaire transformatie die een waarde omzet in een z-score, die aangeeft hoeveel standaardafwijkingen deze waarde van het gemiddelde verwijderd is. |
| Z-score | Een gestandaardiseerde waarde die aangeeft hoeveel standaardafwijkingen een datapunten afwijkt van het gemiddelde van de populatie of steekproef. |
| Standaardnormale verdeling | Een normale verdeling met een gemiddelde van 0 en een standaardafwijking van 1, verkregen door z-transformatie. |
| Kansrekening | Het wiskundige studiegebied dat zich bezighoudt met de waarschijnlijkheid van gebeurtenissen. |
| Kans | De waarschijnlijkheid dat een bepaalde gebeurtenis zal plaatsvinden, uitgedrukt als een getal tussen 0 en 1. |
| Gebeurtenis | Een specifiek resultaat of een set van resultaten van een experiment of observatie. |
| Theoretische kans | De kans op een gebeurtenis die wordt berekend op basis van logische redenering, zonder dat het experiment daadwerkelijk is uitgevoerd. |
| Empirische kans | De kans op een gebeurtenis die wordt berekend op basis van waargenomen frequenties uit een experiment of steekproef. |
| Toevalsvariabele (stochastische variabele) | Een variabele waarvan de waarde afhangt van de uitkomst van een willekeurig proces. |
| Kansverdeling | Een functie die de waarschijnlijkheid van elke mogelijke uitkomst van een toevalsvariabele specificeert. |
| Discrete kansverdeling | Een kansverdeling voor een discrete toevalsvariabele, die een eindig of aftelbaar oneindig aantal mogelijke uitkomsten heeft. |
| Continue kansverdeling | Een kansverdeling voor een continue toevalsvariabele, die een oneindig aantal mogelijke uitkomsten heeft binnen een bepaald bereik. |
| Bernoulli-verdeling | Een discrete kansverdeling voor een toevalsvariabele die slechts twee uitkomsten kan hebben (succes of falen), met een kans 𝑝 op succes. |
| Binomiale verdeling | Een discrete kansverdeling die het aantal successen in een vast aantal 𝑛 onafhankelijke Bernoulli-experimenten beschrijft. |
| Steekproefdesign | Het plan of de methode die wordt gebruikt om een steekproef te selecteren uit een populatie. |
| Toevalssteekproef | Een steekproef waarbij elke eenheid in de populatie een bekende, niet-nul kans heeft om geselecteerd te worden. |
| Betrouwbaarheidsinterval | Een reeks waarden die met een bepaalde mate van waarschijnlijkheid (betrouwbaarheidsniveau) de ware populatieparameter bevat. |
| Hypothesetest | Een statistische methode om te bepalen of er voldoende bewijs is in een steekproef om een nulhypothese over een populatie te verwerpen. |
| Nulhypothese (H0) | Een hypothese die stelt dat er geen effect, verschil of relatie is in de populatie. |
| Alternatieve hypothese (Ha) | Een hypothese die stelt dat er wel een effect, verschil of relatie is in de populatie. |
| Significantieniveau (α) | De kans op een Type I-fout (het verwerpen van een ware nulhypothese), meestal ingesteld op 0.05 of 0.01. |
| Kritieke gebied | Het gebied in de steekproevenverdeling dat leidt tot het verwerpen van de nulhypothese. |
| P-waarde | De kans om een teststatistiek te verkrijgen die minstens zo extreem is als de geobserveerde teststatistiek, onder de aanname dat de nulhypothese waar is. |
| Cohen's d | Een gestandaardiseerde maatstaf voor het effectgrootte, die het verschil tussen twee gemiddelden uitdrukt in termen van standaardafwijkingen. |
| Type 1-fout | Het onterecht verwerpen van de nulhypothese wanneer deze waar is. |
| Type 2-fout | Het onterecht niet verwerpen van de nulhypothese wanneer deze onwaar is. |
| Power (statistiek) | De kans dat een hypothesetest de nulhypothese terecht verwerpt wanneer deze onwaar is (1 - β). |
| Student's t-verdeling | Een kansverdeling die lijkt op de normale verdeling, maar die wordt gebruikt bij het schatten van het populatiegemiddelde wanneer de populatiestandaardafwijking onbekend is en de steekproefomvang klein is. |
| Vrijheidsgraden (df) | Een parameter in de t-verdeling die afhangt van de steekproefomvang en die de vorm van de verdeling beïnvloedt. |
| Populatieproportie | Het aandeel van de populatie dat een bepaalde kenmerk vertoont. |
| Steekproefproportie | Het aandeel van de steekproef dat een bepaalde kenmerk vertoont. |
| Puntschatting | Een enkele waarde die wordt gebruikt om een populatieparameter te schatten op basis van steekproefgegevens. |
| Intervalschatting | Een reeks waarden die een populatieparameter naar verwachting bevat, met een bepaalde mate van betrouwbaarheid. |
| Covariantie | Een maat voor de lineaire relatie tussen twee kwantitatieve variabelen, die aangeeft hoe de variabelen samen variëren. |
| Correlatie (Pearson) | Een gestandaardiseerde maat voor de lineaire relatie tussen twee kwantitatieve variabelen, die altijd tussen -1 en +1 ligt en zowel de richting als de sterkte van het verband aangeeft. |
| Scatterplot | Een grafische weergave die de relatie tussen twee kwantitatieve variabelen visualiseert door puntenwolken te tonen. |
| Kruistabel | Een tabel die de frequentieverdeling van twee of meer categorische variabelen weergeeft, vaak gebruikt om de samenhang tussen deze variabelen te onderzoeken. |
| Chi-kwadraattest | Een statistische test die wordt gebruikt om te bepalen of er een significant verband is tussen twee categorische variabelen. |
| Associatiemaat | Een statistische maat die de sterkte van de relatie tussen twee variabelen kwantificeert. |
| Odds | De verhouding van de kans dat een gebeurtenis optreedt tot de kans dat deze niet optreedt. |
| Odds-ratio | De verhouding van twee odds, vaak gebruikt om de sterkte van een verband tussen categorische variabelen te meten. |
| Cross-sectionele studie | Een onderzoeksmethode waarbij gegevens op één enkel tijdstip worden verzameld om de relatie tussen variabelen te onderzoeken. |
| Longitudinaal onderzoek | Een onderzoeksmethode waarbij gegevens van dezelfde deelnemers op verschillende tijdstippen worden verzameld om veranderingen of ontwikkelingen te bestuderen. |
| Experiment | Een onderzoeksopzet waarbij variabelen worden gemanipuleerd om een oorzaak-gevolgrelatie te onderzoeken. |
| Randomisering | Het willekeurig toewijzen van deelnemers aan verschillende groepen in een experiment om vooringenomenheid te minimaliseren. |
| Interne validiteit | De mate waarin een studie met zekerheid oorzakelijke conclusies kan trekken over de relatie tussen variabelen. |
| Externe validiteit | De mate waarin de resultaten van een studie gegeneraliseerd kunnen worden naar andere populaties, settings of tijdstippen. |
| Univariate analyse | Analyse van één enkele variabele. |
| Bivariate analyse | Analyse van twee variabelen om hun relatie te onderzoeken. |
| Multivariate analyse | Analyse van meer dan twee variabelen tegelijkertijd. |
| Gekuste staafdiagram | Een staafdiagram dat de frequenties weergeeft voor combinaties van categorieën van twee categorische variabelen. |
| Marginale verdeling | De frequentieverdeling van één enkele variabele in een kruistabel, onafhankelijk van de andere variabelen. |
| Conditionele verdeling | De frequentieverdeling van een variabele binnen een specifieke categorie van een andere variabele. |
| Statistische onafhankelijkheid | Twee variabelen zijn statistisch onafhankelijk als de kans op een uitkomst van de ene variabele niet wordt beïnvloed door de uitkomst van de andere variabele. |
| Statistische afhankelijkheid | Twee variabelen zijn statistisch afhankelijk als de kans op een uitkomst van de ene variabele wel wordt beïnvloed door de uitkomst van de andere variabele. |
| Cramer's V | Een associatiemaat die de sterkte van het verband tussen twee nominale variabelen meet, met waarden tussen 0 en 1. |
| Ongepaarde t-test | Een statistische test die wordt gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken. |
| Gepaarde t-test | Een statistische test die wordt gebruikt om de gemiddelden van twee gerelateerde metingen te vergelijken (bijvoorbeeld voor en na een interventie). |
| Levene's test | Een statistische test die wordt gebruikt om te bepalen of de varianties van twee of meer groepen significant van elkaar verschillen. |
| F-verdeling | Een kansverdeling die wordt gebruikt bij het testen van varianties, zoals in de Levene's test en ANOVA. |