Cover
Comença ara de franc Samenvatting statistiek alle 8 colleges .pdf
Summary
# Inleiding tot statistiek en soorten statistiek
Dit onderwerp introduceert statistiek als een kennismethode en verklaart het belang ervan voor empirisch onderzoek, waarbij drie hoofdcategorieën – beschrijvende, inferentiële en verklarende statistiek – worden besproken [1](#page=1).
### 1.1 Wat is statistiek?
Statistiek is een wetenschappelijke discipline die dient als kennismethode om de wereld beter te kennen en te begrijpen. Het wordt met name veelvuldig gebruikt bij empirisch onderzoek [1](#page=1).
### 1.2 Waarom statistiek?
Statistiek is essentieel om beweringen te staven, aangezien beweringen op zichzelf onvoldoende zijn. Empirische data en gegevens zijn nodig om beweringen te onderbouwen. Onderzoeksmethoden zijn gericht op het verzamelen van data volgens de regels van de kunst, terwijl statistiek gericht is op het analyseren van deze data volgens dezelfde regels. Voor empirisch onderzoek dat antwoorden zoekt op een vraagstelling, zijn zowel onderzoeksmethoden als statistiek vereist [1](#page=1).
### 1.3 Drie soorten statistiek
Er worden drie hoofdcategorieën van statistiek onderscheiden: beschrijvende statistiek, inferentiële statistiek en verklarende statistiek [1](#page=1).
#### 1.3.1 Beschrijvende statistiek
Beschrijvende statistiek heeft tot doel de wereld in cijfers weer te geven. Cijfers tonen precieze hoeveelheden. Deze statistiek herleidt grote hoeveelheden gegevens tot samenvattende maten, zoals het gemiddelde. Grafische technieken worden hierbij vaak ingezet om de gegevens te ordenen en te synthetiseren [1](#page=1).
> **Tip:** Beschrijvende statistiek helpt om een complex geheel aan data behapbaar te maken door middel van samenvattingen en visualisaties.
#### 1.3.2 Inferentiële statistiek
Inferentiële statistiek is een methode om met een beperkt aantal gegevens uitspraken te doen over een breder geheel, een volledige populatie. Dit proces staat bekend als extrapolatie. Het maakt het mogelijk om uitspraken te doen over de volledige bevolking op basis van een toevalsstreekproef uit die bevolking, zoals bij de veiligheidsmonitor. Belangrijke aspecten zijn de veralgemeenbaarheid van steekproefresultaten en het maken van voorspellingen op basis van een steekproef [2](#page=2).
> **Example:** Stel dat uit een steekproef van 1000 Nederlanders blijkt dat 70% tevreden is met het openbaar vervoer. Inferentiële statistiek kan worden gebruikt om te schatten hoeveel procent van *alle* Nederlanders tevreden is, met een bepaalde mate van zekerheid [2](#page=2).
#### 1.3.3 Verklarende statistiek
Verklarende statistiek richt zich op het verklaren van verschillen en samenhangen. Regressietechnieken, zoals bivariate regressie, worden hiervoor toegepast [2](#page=2).
### 1.4 Misleidende statistiek
Het is mogelijk dat uitkomsten van onderzoek gemanipuleerd worden gedurende verschillende fasen, namelijk bij het verzamelen van gegevens, de presentatie van uitkomsten, en het omschrijven van conclusies [2](#page=2).
> **Tip:** Wees kritisch bij het interpreteren van statistische resultaten en let op mogelijke manipulaties in de presentatie of interpretatie [2](#page=2).
### 1.5 Variabelen verkennen en visualiseren in sociale wetenschappen
Sociale wetenschappers streven ernaar kennis te genereren over de sociale werkelijkheid. Deze kennis wordt verkregen door middel van sociaalwetenschappelijk onderzoek en dataverzameling. Om onderzoeksresultaten op een overzichtelijke en korte manier weer te geven, worden vaak getallen, tabellen en grafieken gebruikt. Het samenvattend beschrijven van de kenmerken van een groep onderzoekseenheden, de onderzoekspopulatie, is hierbij cruciaal [2](#page=2).
---
# Variabelen, meetniveaus en visualisatie
Dit deel van de studiehandleiding behandelt de fundamentele concepten van onderzoekseenheden en variabelen, de verschillende meetniveaus die de keuze van statistische analyses bepalen, en de visualisatie van gegevens door middel van frequentieverdelingen en grafische voorstellingen.
### 2.1 Kernbegrippen en terminologie
* **Onderzoekseenheid:** Een element uit de te onderzoeken populatie, bijvoorbeeld een schaap in een populatie schapen [3](#page=3).
* **Populatie:** Alle eenheden van een welomschreven groep die je wilt onderzoeken. De omvang en het type populatie kunnen sterk variëren en moeten duidelijk omschreven zijn [3](#page=3).
* **Variabele:** Een kenmerk van onderzoekseenheden waarin onderzoekers geïnteresseerd zijn. Variabelen kunnen numerieke waarden hebben (zoals leeftijd) of niet-numerieke waarden (zoals geslacht) [3](#page=3).
* **Datamatrix/Dataset:** Een tabel waarin onderzoekseenheden in de rijen en variabelen in de kolommen staan. De waarden bevinden zich in de cellen [3](#page=3).
* **Steekproef:** Een deel van de populatie dat wordt onderzocht, vaak omdat het onmogelijk is de volledige populatie te onderzoeken [3](#page=3).
* **Parameters:** Kengetallen die de verdeling van een kenmerk in een populatie weergeven [3](#page=3).
* **Steekproefstatistieken/Schatter:** Statistische kengetallen van een steekproef die als schatting voor populatieparameters dienen, zoals het gemiddelde [3](#page=3).
* **Statistische reeks:** Een reeks waarnemingen, bijvoorbeeld kijkgedrag van verschillende personen [3](#page=3).
* **Tijdsreeks:** Een reeks waarnemingen over tijd, waarbij het moment van waarneming cruciaal is voor interpretatie, zoals de evolutie van Facebookgebruik door de tijd [3](#page=3).
* **Dimensie van een reeks:** Het aantal variabelen dat gelijktijdig wordt waargenomen, wat unidimensionaal, tweedimensionaal of multidimensionaal kan zijn [3](#page=3).
**Criteria voor een representatieve steekproef:**
* De steekproef moet dezelfde karakteristieken hebben als de populatie die zij vertegenwoordigt (representativiteit) [3](#page=3).
* Voor veel statistische technieken is een eenvoudige aselecte toevalssteekproef vereist, waarbij elke onderzoekseenheid een gelijke kans heeft om geselecteerd te worden [3](#page=3).
**Systematische steekproeffouten:**
* **Selectiebias:** De manier van selecteren van respondenten leidt tot een vertekend beeld [4](#page=4).
* **Non-respons bias:** Deelnemers die weigeren deel te nemen, verschillen systematisch van de respondenten [4](#page=4).
* **Item non-respons bias:** Respondent heeft op specifieke vragen geen antwoord gegeven [4](#page=4).
### 2.2 Variabelen en meetniveaus
* **Operationaliseren:** Het meetbaar maken van variabelen door middel van een of meerdere vragen. Dit is cruciaal voor het onderzoek en wordt vaak gebaseerd op eerder onderzoek of theorie [4](#page=4).
**Classificatie van variabelen:**
* **Kwalitatief (categorisch):** Variabelen waarvan de waarden categorieën vertegenwoordigen zonder verdere wiskundige betekenis [4](#page=4).
* **Kwantitatief (metrisch):** Variabelen waarvan de waarden een wiskundige betekenis hebben [4](#page=4).
**Vier meetniveaus (meetschalen):**
De manier waarop een variabele wordt gemeten, bepaalt het meetniveau en daarmee welke statistische analyses mogelijk zijn [5](#page=5).
1. **Nominaal meetniveau:**
* Kenmerk: Classificatie (indeling in groepen) [5](#page=5).
* Numerieke waarden dienen enkel voor naamgeving en hebben geen wiskundige waarde [5](#page=5).
* Voorbeelden: Migratie-achtergrond, religieuze strekking, woonplaats, politieke voorkeur, geslacht [5](#page=5).
2. **Ordinaal meetniveau:**
* Kenmerken: Classificatie plus rangordening [5](#page=5).
* De ordenbaarheid van waarden weerspiegelt een bestaande ordening van het kenmerk [5](#page=5).
* De volgorde is duidelijk, maar de intervallen tussen de waarden zijn niet noodzakelijk even groot of wiskundig interpreteerbaar [5](#page=5).
* Voorbeelden: Opleidingsniveau, veelgebruikte 5-puntenschalen (bv. eens, neutraal, oneens) [5](#page=5).
3. **Interval meetniveau:**
* Kenmerken: Classificatie, rangorde plus een meeteenheid [5](#page=5).
* Gelijke verschillen tussen waarden weerspiegelen gelijke verschillen in intensiteit van het kenmerk [5](#page=5).
* Toepasbaar op kwantitatieve variabelen [5](#page=5).
* Het nulpunt is arbitrair en duidt niet op de afwezigheid van het kenmerk [5](#page=5).
* Verschillen tussen waarden zijn berekenbaar en betekenisvol (bv. 20 jaar verschil tussen 1970 en 1990) [5](#page=5).
* Verhoudingen zijn niet betekenisvol (bv. 1990/1970 heeft geen duidelijke interpretatie) [5](#page=5).
* Voorbeelden: Temperatuur in Celsius, geboortejaar [5](#page=5).
4. **Ratio meetniveau:**
* Kenmerken: Classificatie, rangorde, meeteenheid plus een absoluut nulpunt [6](#page=6).
* Een absoluut nulpunt betekent de volledige afwezigheid van het gemeten kenmerk [6](#page=6).
* Negatieve waarden komen niet voor bij ratio variabelen [6](#page=6).
* Zowel verschillen als verhoudingen tussen waarden zijn betekenisvol [6](#page=6).
* Voorbeelden: Lengte, gewicht, aantal kinderen [6](#page=6).
* Verschil: Iemand met 4 kinderen heeft 2 kinderen meer dan iemand met 2 kinderen [6](#page=6).
* Verhouding: Iemand met 4 kinderen heeft dubbel zoveel kinderen als iemand met 2 kinderen [6](#page=6).
**Voordelen van kwantitatieve variabelen:**
* Eenduidiger dan kwalitatieve waarden [6](#page=6).
* Gemakkelijker te verwerken en bieden meer analysemogelijkheden [6](#page=6).
**Kwantitatieve variabelen: discreet en continu:**
* **Discreet:** Variabelen die enkel gehele getallen kunnen aannemen, vaak het resultaat van een telling of classificatie. Bijvoorbeeld het aantal auto's per gezin [6](#page=6).
* **Continu:** Variabelen die alle mogelijke waarden binnen een bepaald bereik kunnen aannemen. Bijvoorbeeld lichaamslengte of snelheid [6](#page=6).
**Tip:** Het bepalen van het meetniveau van een variabele is cruciaal. Sommige variabelen hebben een inherent meetniveau (bv. geslacht), terwijl voor andere het meetniveau afhangt van de operationalisatie. Dit bepaalt welke statistische technieken toegepast kunnen worden. Bewerkingen die toegelaten zijn voor een bepaald meetniveau mogen worden toegepast op hogere meetniveaus, maar niet op lagere [6](#page=6).
### 2.3 Frequentieverdelingen en grafische voorstellingen
Elementaire technieken omvatten het weergeven van frequenties in tabellen, grafische methodes en samenvattende numerieke getallen [7](#page=7).
* **Frequentieverdeling:** Geeft voor elke waarde of categorie van een variabele aan hoe vaak deze voorkomt (in absolute of relatieve aantallen) [7](#page=7).
* **Frequentietabel:** Een tabel die de waargenomen frequenties weergeeft [7](#page=7).
* Absolute frequentie ($F_i$): Het aantal keren dat een specifieke waarde ($x_i$) werd waargenomen. De som van de absolute frequenties is gelijk aan de steekproefomvang ($n$) [7](#page=7).
**Functies van een frequentietabel:**
* Kwaliteitscontrole van gegevens [7](#page=7).
* Basis voor verdere analyses [7](#page=7).
* Grondslag voor grafische voorstellingen [7](#page=7).
**Grafische voorstellingen:**
Visualiseren de frequentieverdeling en zijn essentieel voor bevattelijke rapportering, leesbaarheid en duidelijkheid. Ze helpen ook bij het opsporen van uitschieters en anomalieën tijdens de data-exploratie [7](#page=7).
#### 2.3.1 Grafieken voor nominale en ordinale schalen
**Bij nominale schalen:**
* **Staafdiagram:**
* Elke waarde wordt gerepresenteerd door een rechthoek waarvan de hoogte evenredig is met de frequentie [8](#page=8).
* Rechthoeken zijn even breed en worden best gescheiden [8](#page=8).
* De volgorde van de staven is willekeurig, maar alfabetische ordening kan de leesbaarheid bevorderen [8](#page=8).
* Duidelijke titels en labels zijn belangrijk [8](#page=8).
* Horizontale staafdiagrammen kunnen handig zijn bij veel categorieën [8](#page=8).
* **Cirkeldiagram (taartdiagram):**
* Elke waarde wordt voorgesteld door een cirkelsector waarvan de oppervlakte evenredig is met de frequentie [8](#page=8).
* Benadrukt de verhouding van elke groep tot het geheel [8](#page=8).
* Vereist dat alle categorieën van de populatie zijn opgenomen [8](#page=8).
* **Pictogram:**
* Gebruikt symbolen waarvan de grootte of het aantal evenredig is met de frequentie [8](#page=8).
* Vaak gebruikt om statistieken aantrekkelijker te maken, maar kan de leesbaarheid verminderen [8](#page=8).
**Bij ordinale schalen:**
Naast staafdiagrammen, cirkeldiagrammen en pictogrammen (zoals bij nominale schalen) zijn deze geschikt:
* **Cumulatieve frequentiefunctie (cumulatieve frequentiegrafiek):**
* Grafische weergave van de absolute of relatieve cumulatieve frequenties [9](#page=9).
* De cumulatieve frequentie voor een waarde is de som van de frequenties van die waarde en alle voorgaande waarden [11](#page=11).
* Is een trapfunctie bij ordinale variabelen. Hoge sprongen wijzen op hoge frequenties [9](#page=9).
* Zinvol om te berekenen vanaf ordinaal meetniveau [11](#page=11).
**Opmerkingen bij nominale en ordinale schalen:**
* Getallen kunnen gebruikt worden om nominale of ordinale variabelen te representeren (bv. Vlaanderen = 1, Wallonië = 2) [9](#page=9).
* Bij ordinale variabelen kan een getal een ordeningsbetekenis krijgen (bv. 1 = zeer onaangenaam, 5 = zeer aangenaam) [9](#page=9).
* Dezelfde gegevens kunnen op verschillende meetniveaus worden weergegeven (bv. inkomensgegevens als interval/ratio of als ordinaal) [9](#page=9).
#### 2.3.2 Grafieken voor interval- en ratio schalen
Het is belangrijk om onderscheid te maken tussen niet in klassen gegroepeerde en in klassen gegroepeerde gegevens.
**Niet in klassen gegroepeerde gegevens (interval en ratio):**
* De x-as (abcis) heeft een meeteenheid, en verschillen tussen waarden zijn betekenisvol [9](#page=9).
* **Staafdiagram:** De balken worden op de x-as op de juiste afstand geplaatst, hoogte is evenredig met frequentie [10](#page=10).
* **Histogram:**
* Benadrukt continuïteit door de aangrenzende balken [10](#page=10).
* De oppervlakte van de balken is evenredig met de absolute of relatieve frequentie in het interval [10](#page=10).
* **Frequentiepolygoon (lijndiagram):**
* De toppen van de staafjes in een staafdiagram of histogram worden rechtlijnig verbonden [10](#page=10).
* Oppervlakten onder de functie krijgen betekenis [10](#page=10).
* **Cumulatieve frequentiefunctie:**
* Voor discrete variabelen is dit een trapfunctie [10](#page=10).
* Voor continue gegevens kan deze worden weergegeven als een vloeiende curve [11](#page=11).
**In klassen gegroepeerde gegevens (interval en ratio):**
* Wordt gebruikt wanneer het aantal waargenomen waarden te groot is voor een overzichtelijke presentatie [10](#page=10).
* **Klassengrenzen:** Moeten exhaustief (elke waarneming kan aan een klasse worden toegewezen) en wederzijds exclusief (geen overlappende klassen) zijn [10](#page=10).
* **Klassengroepering:** Te veel klassen leiden tot onoverzichtelijkheid, te weinig tot informatieverlies [10](#page=10).
* **Grafische weergave van klassen:** Kan gebeuren via het klassenmidden, het gemiddelde van de exacte klassengrenzen [10](#page=10).
**Specifieke grafieken voor gegroepeerde gegevens:**
* **Histogram:**
* Intervallen worden bepaald door de klassen [11](#page=11).
* De oppervlakte van de rechthoeken (klassen van verschillende lengte) is recht evenredig met de frequentie [11](#page=11).
* De vorm kan symmetrisch of scheef zijn (links- of rechts-scheef) [11](#page=11).
* **Populatiepiramide:** In essentie een histogram voor frequentieverdelingen, vaak gebruikt voor leeftijd en geslacht [11](#page=11).
* **Frequentieveelhoek:** De klassenmiddens op de hoogte van de toppen van de rechthoeken in het histogram worden rechtlijnig verbonden [11](#page=11).
* **Diagram cumulatieve frequentie:** Gaat uit van de hypothese dat waarnemingen homogeen verdeeld zijn binnen elke klasse [11](#page=11).
**Frequentieverdelingen op ordinale schalen:**
* De frequentietabel wordt opgesteld zoals bij nominale variabelen, maar de volgorde van de waarden is gebaseerd op de ordening van de variabele [11](#page=11).
* **Cumulatieve frequenties:** Vanaf ordinaal niveau is het zinvol om cumulatieve frequenties te berekenen, zowel absoluut ($K(x_i)$) als relatief ($k(x_i)$) [11](#page=11).
---
# Univariate statistische maten
Hier is een gedetailleerde studiehandleiding over "Univariate statistische maten".
## 3. Univariate statistische maten
Univariate statistische maten bieden een wiskundige samenvatting van de geobserveerde frequentieverdeling van gegevens, waarbij ze kengetallen gebruiken om de ligging, spreiding en vorm van de data te beschrijven [13](#page=13).
### 3.1. Maten van ligging of positie
Maten van ligging (ook wel positie- of centrummaten genoemd) geven de centrale tendens van een dataset weer [14](#page=14).
#### 3.1.1. Centrummaten
Centrummaten beschrijven het "midden" van een dataset [14](#page=14).
* **Modus ($X_0$)**: De modus is de waargenomen waarde met de hoogste frequentie. Bij gegroepeerde gegevens is de modus het klassenmidden van de klasse met de hoogste frequentie [14](#page=14).
* **Voordelen**: Makkelijk te bepalen, bruikbaar voor alle meetschalen (vanaf nominaal) [14](#page=14).
* **Nadelen**: Niet noodzakelijk uniek, houdt geen rekening met andere waarden, moeilijk mathematisch te hanteren [14](#page=14).
* **Mediaan**: De mediaan is de waarde die alle waarnemingen in twee gelijke delen verdeelt, zodat evenveel waarnemingen kleiner of gelijk aan de mediaan zijn als groter of gelijk. Vereist minstens een ordinale meetschaal. Bij een even aantal waarnemingen wordt de mediaan berekend als het gemiddelde van de twee middelste waarden (lineaire interpolatie) [14](#page=14) [15](#page=15).
* **Voordelen**: Uniek, minder gevoelig voor extreme waarden (outliers) dan het gemiddelde, enkel afhankelijk van de orde [15](#page=15).
* **Nadelen**: Niet alle waarden worden in rekening gebracht, moeilijk mathematisch te hanteren, niet voor nominale variabelen [15](#page=15).
* **Rekenkundig gemiddelde ($\bar{x}$)**: De som van alle waarnemingen gedeeld door het aantal waarnemingen. Kan berekend worden op basis van brutogegevens of gegroepeerde gegevens (waarbij $x_i$ staat voor klassenmiddens). Vereist minstens een intervalmeetschaal [15](#page=15).
* **Voordelen**: Alle waarden worden gebruikt, uniek, mathematisch gebruiksvriendelijk en geschikt voor vergelijking van groepen [15](#page=15).
* **Nadelen**: Gevoelig voor extreme waarden, niet voor nominale of ordinale variabelen [15](#page=15).
> **Tip**: Centrummaten geven niet altijd een visueel midden weer en kunnen, zeker bij heterogene verdelingen, een onvolledige weerspiegeling van de realiteit zijn [20](#page=20).
#### 3.1.2. Kwantielen
Kwantielen verdelen geordende gegevens in een specifiek aantal gelijke delen en vereisen minstens een ordinale meetschaal [17](#page=17).
* **Q-kwantiel**: De waarde van een variabele die waarnemingen zodanig verdeelt dat een proportie $q$ van de waarnemingen kleiner of gelijk is aan het kwantiel, en een proportie $(1-q)$ groter of gelijk is [17](#page=17).
* **Kwartielen**: Verdelen geordende gegevens in 4 gelijke delen [17](#page=17).
* **Decielen**: Verdelen geordende gegevens in 10 gelijke delen [17](#page=17).
* **Percentielen**: Verdelen geordende gegevens in 100 gelijke delen [17](#page=17).
#### 3.1.3. Momenten
Momenten vormen een algemene klasse van statistische maten die de verhouding van een verdeling tot een bepaald punt samenvatten. Ze zijn gebaseerd op de waarde van elke waarneming ten opzichte van een constante $c$ [18](#page=18).
* **Momenten rond de oorsprong (gewone momenten)**: Hierbij is de constante $c = 0$ [18](#page=18).
$$ \mu_m' = \frac{\sum_{i=1}^{N} x_i^m}{N} $$
* **Momenten rond de constante**: Hierbij is de constante $c$ een willekeurige constante [18](#page=18).
* **Momenten rond het gemiddelde (centrale momenten)**: Hierbij is de constante $c = \bar{x}$. De formule is [18](#page=18):
$$ \mu_m = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^m}{N} $$
### 3.2. Maten van spreiding
Maten van spreiding kwantificeren de diversiteit of de mate van concentratie van gegevens rond een centrummaat [20](#page=20).
> **Tip**: Spreidingsmaten zijn essentieel omdat centrummaten, vooral bij heterogene verdelingen, een onvoldoende beeld geven van de werkelijkheid [20](#page=20).
* **Regels voor spreiding**:
* Als alle waarnemingen gelijk zijn, is de spreidingsmaat nul [20](#page=20).
* Hoe meer de waarnemingen gespreid zijn, hoe groter de spreidingsmaat [20](#page=20).
#### 3.2.1. Soorten spreidingsmaten
* **Variatiebreedte (Range, V)**: Het verschil tussen de grootste en de kleinste waargenomen waarde [21](#page=21).
* Voor brutogegevens: $V = x_{max} - x_{min}$ [21](#page=21).
* Voor gegroepeerde gegevens: $V =$ bovengrens hoogste klasse $-$ ondergrens laagste klasse [21](#page=21).
* **Nadeel**: Zeer gevoelig voor extreme waarden [21](#page=21).
* **Interkwartielafstand (IQR)**: Het verschil tussen het derde kwartiel ($K_3$ of $Q_3$) en het eerste kwartiel ($K_1$ of $Q_1$) [21](#page=21).
$$ IQR = K_3 - K_1 $$
Deze maat geeft aan tussen welke waarden de middelste 50% van de waarnemingen vallen en is relatief ongevoelig voor extreme scores [21](#page=21).
* **Interdecielafstand**: Het verschil tussen het negende deciel ($D_9$) en het eerste deciel ($D_1$). Het geeft aan tussen welke waarden de middelste 80% van de waarnemingen vallen [22](#page=22).
* **Gemiddelde absolute afwijking**: De gemiddelde waarde van de absolute verschillen tussen elke waarneming en een bepaald punt (meestal het gemiddelde) [22](#page=22).
$$ \frac{\sum_{i=1}^{N} |x_i - c|}{N} $$
* **Variantie ($s^2$)**: De som van de gekwadrateerde afwijkingen van het rekenkundig gemiddelde, gedeeld door het aantal waarnemingen (of $N-1$ voor een steekproef, hoewel dit document hoofdzakelijk de populatievariantie ($N$) presenteert) (#page=23, 24) [23](#page=23) [24](#page=24).
* Formule (populatie):
$$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} $$
* **Kenmerken**: Altijd positief of nul, geeft meer gewicht aan grote verschillen [24](#page=24).
* **Nadeel**: Kwadratische maat, moeilijk te interpreteren [24](#page=24).
* **Standaardafwijking ($s$ of $\sigma$)**: De vierkantswortel van de variantie [24](#page=24).
* Formule (populatie):
$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}} $$
* **Voordelen**: Houdt rekening met alle waarden, meest gebruikt, uitgedrukt in dezelfde meeteenheid als de waarnemingen, waardoor het eenvoudig te interpreteren is [24](#page=24).
* **Nadeel**: Zegt niets over de relatieve spreiding ten opzichte van de uitkomst zelf [24](#page=24).
* **Variatiecoëfficiënt (VC)**: De ratio van de standaardafwijking op het gemiddelde [25](#page=25).
$$ VC = \frac{s}{\bar{x}} $$
* **Voordelen**: Relatieve spreidingsmaat, onafhankelijk van de meeteenheid (dimensieloos), geschikt voor het vergelijken van de spreiding van verschillende groepen [25](#page=25).
#### 3.2.2. Toepassingen van spreidingsmaten
* **Oppervlakte onder de normale verdeling (Empirische Regel)**: Voor een normale, symmetrische en klokvormige verdeling geldt:
* Ongeveer 68% van de waarnemingen ligt tussen $\mu - \sigma$ en $\mu + \sigma$ [26](#page=26).
* Ongeveer 95% (meer nauwkeurig 98%) van de waarnemingen ligt tussen $\mu - 1.96\sigma$ en $\mu + 1.96\sigma$ [26](#page=26).
* Ongeveer 99.7% van de waarnemingen ligt tussen $\mu - 3\sigma$ en $\mu + 3\sigma$ [26](#page=26).
* **Gestandaardiseerde scores (Z-scores)**: Een score ($z_i$) die aangeeft hoeveel standaardafwijkingen een waarneming boven of onder het gemiddelde ligt [26](#page=26).
$$ z_i = \frac{x_i - \bar{x}}{s} $$
* **Kenmerken**: Gemiddelde van 0 en standaardafwijking van 1 [26](#page=26).
* **Voordeel**: Dimensieloos, waardoor verschillende verdelingen vergeleken kunnen worden [26](#page=26).
### 3.3. Maten van vorm
Maten van vorm beschrijven de contour van een verdeling, met name de symmetrie en afplatting [27](#page=27).
#### 3.3.1. Symmetrie
Symmetrie meet de mate van evenwicht van een verdeling rond een centraal punt [27](#page=27).
* **Symmetrische verdeling**: Gelijke aantallen waarden groter en kleiner dan het gemiddelde; modus = mediaan = gemiddelde [27](#page=27).
* **Positieve (rechtsscheve) asymmetrie**: Langere staart aan de rechterkant; de meeste massa links van het gemiddelde; doorgaans geldt: modus < mediaan < gemiddelde [27](#page=27).
* **Negatieve (linksscheve) asymmetrie**: Langere staart aan de linkerkant; de meeste massa rechts van het gemiddelde; doorgaans geldt: modus > mediaan > gemiddelde [27](#page=27).
#### 3.3.2. Maten voor symmetrie
* **Empirische coëfficiënt van Pearson (S)**: Gebaseerd op het verschil tussen het gemiddelde en de modus ten opzichte van de mediaan [28](#page=28).
$$ S = \frac{\text{gemiddelde} - \text{modus}}{s} $$
* $S = 0$: Symmetrisch.
* $S > 0$: Positieve (linkse) asymmetrie.
* $S < 0$: Negatieve (rechtse) asymmetrie [28](#page=28).
* **Coëfficiënt van Yule en Kendall (Y)**: Vergelijkt de afstand van de kwartielen tot de mediaan [28](#page=28).
$$ Y = \frac{(Q_3 - \text{Mediaan}) - (\text{Mediaan} - Q_1)}{Q_3 - Q_1} = \frac{Q_3 + Q_1 - 2 \cdot \text{Mediaan}}{Q_3 - Q_1} $$
* $Y = 0$: Symmetrie.
* $Y > 0$: Positieve (linkse) asymmetrie.
* $Y < 0$: Negatieve (rechtse) asymmetrie [28](#page=28).
* **Oneven centrale momenten**: Alle oneven centrale momenten geven een indicatie van de symmetrie ten opzichte van het gemiddelde [28](#page=28).
* Voor een symmetrische verdeling zijn alle oneven centrale momenten gelijk aan 0 [29](#page=29).
* Voor brutowaarnemingen (m=3):
$$ g_3 = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^3}{N} $$
* **Coëfficiënt van Fisher ($g_1$)**: Gebaseerd op het derde centrale moment [29](#page=29).
$$ g_1 = \frac{\mu_3}{\sigma^3} $$
* $g_1 = 0$: Waarschijnlijk symmetrisch.
* $g_1 > 0$: Positieve (linkse) asymmetrie.
* $g_1 < 0$: Negatieve (rechtse) asymmetrie [29](#page=29).
* **Voordeel**: Dimensieloos, maakt vergelijking van symmetrie tussen variabelen mogelijk [29](#page=29).
* **Coëfficiënt van Pearson ($b_1$)**: Gebaseerd op de coëfficiënt van Fisher [29](#page=29).
$$ b_1 = g_1^2 $$
* $b_1 = 0$: Symmetrisch.
* $b_1 > 0$: Asymmetrisch (geeft geen richting aan) [29](#page=29).
#### 3.3.3. Afplatting (Kurtosis)
Kurtosis meet de spitsheid of afplatting van een verdeling rond het gemiddelde, vergeleken met een Gauss-curve [30](#page=30).
* **Coëfficiënt van Pearson ($b_2$)**: Gebaseerd op het vierde centrale moment [30](#page=30).
$$ b_2 = \frac{\mu_4}{\sigma^4} $$
* $b_2 = 3$: Mesokurtisch (normaal of Gauss-verdeling).
* $b_2 > 3$: Lepokurtisch (meer gepiekt).
* $b_2 < 3$: Platykurtisch (minder gepiekt, platter) [30](#page=30).
* **Coëfficiënt van Fisher ($g_2$)**: Een aangepaste kurtosis-coëfficiënt [30](#page=30).
$$ g_2 = b_2 - 3 $$
* $g_2 = 0$: Mesokurtisch.
* $g_2 > 0$: Lepokurtisch.
* $g_2 < 0$: Platykurtisch [30](#page=30).
---
# Verbanden tussen variabelen
Dit deel behandelt methoden om de samenhang tussen variabelen te onderzoeken, afhankelijk van hun meetniveau, met specifieke aandacht voor categorische en metrische variabelen [31](#page=31).
### 4.1. Inleiding tot verbanden tussen variabelen
Het onderzoeken van de samenhang tussen variabelen is een kernactiviteit in de sociale wetenschappen, waarbij theoretische veronderstellingen empirisch worden getoetst. De keuze van de analysemethode hangt af van het meetniveau van de betrokken variabelen. Een belangrijke onderscheiding wordt gemaakt tussen **associatie** (samenhang tussen categorische variabelen) en **correlatie** (lineaire samenhang tussen numerieke variabelen). Causale verbanden vereisen meer dan enkel een statistische samenhang; er moet een theoretische reden zijn, verandering in de ene variabele moet de andere teweegbrengen, en alternatieve hypotheses moeten worden geëlimineerd [31](#page=31) [32](#page=32).
### 4.2. Samenhang tussen 2 categorische variabelen
#### 4.2.1. Kruistabellen en de analyse van samenhang
Kruistabellen worden gebruikt om de samenhang tussen twee categorische variabelen te onderzoeken. Bij het analyseren van een kruistabel wordt vaak een onderscheid gemaakt tussen een afhankelijke (te verklaren) variabele (Y, meestal in de rijen) en een onafhankelijke (verklarende) variabele (X, meestal in de kolommen) [33](#page=33).
* **Marginale verdelingen**: Dit zijn de verdelingen van elke variabele afzonderlijk, zonder rekening te houden met de andere variabele. Rijtotalen tonen de frequentie van elke waarde van de rijvariabele, en kolomtotalen tonen de frequentie van elke waarde van de kolomvariabele [33](#page=33).
* **Conditionele verdelingen**: Dit is de verdeling van een variabele binnen een specifieke categorie van de andere variabele [33](#page=33).
Er is sprake van **statistische onafhankelijkheid** tussen twee variabelen wanneer de relatieve conditionele verdelingen van de ene variabele niet verschillen binnen de categorieën van de andere variabele. Als de relatieve conditionele verdeling van Y hetzelfde is binnen de categorieën van X, dan helpt kennis van X niet om Y te voorspellen [34](#page=34) [36](#page=36).
#### 4.2.2. Berekenen van percentages en het inschatten van de sterkte van het verband
Om de aard en richting van het verband te beschrijven, worden relatieve conditionele verdelingen berekend, meestal via kolompercentages voor de afhankelijke variabele Y (#page=33, 34) [33](#page=33) [34](#page=34).
* **Kolompercentage**: Dit wordt berekend als `cel frequentie / kolomtotaal * 100`. Deze worden vergeleken binnen dezelfde rij [34](#page=34).
* **Rijpercentage**: Dit wordt berekend als `cel frequentie / rijtotaal * 100`. Deze worden vergeleken binnen dezelfde kolom [34](#page=34).
De percentages worden altijd vergeleken dwars op de richting waarin werd gepercenteerd. Een grote spreiding in percentages duidt op een sterk verband, terwijl een kleine spreiding wijst op een zwak verband. Nadelen van deze methode zijn dat het omstandig kan zijn bij grote tabellen, dat het verband niet veralgemeenbaar is naar de populatie zonder significantietoets, en dat het geen synthetische index van samenhang biedt [34](#page=34).
#### 4.2.3. Veralgemeenbaarheid naar de populatie: Significantietoetsen
Om te bepalen of een waargenomen verband in de steekproef ook in de populatie aanwezig is, worden significantietoetsen gebruikt. Een significantietoets bestaat uit vijf stappen [34](#page=34) [35](#page=35):
1. **Assumpties**:
* De data zijn verkregen via een toevalssteekproef [35](#page=35).
* Er zijn twee categorische variabelen betrokken [35](#page=35).
* Het verwachte aantal in elke cel is minstens 5 [35](#page=35).
2. **Hypothesen**:
* **Nulhypothese ($H_0$)**: Er bestaat geen verband tussen de variabelen (alle waargenomen verbanden zijn toeval) [35](#page=35).
* **Alternatieve hypothese ($H_1$)**: Er is wel een verband tussen de variabelen [35](#page=35).
3. **Toetsstatistiek (Chi-kwadraat)**:
* De **chi-kwadraat ($\chi^2$)** statistiek meet de discrepantie tussen de geobserveerde celfrequenties en de verwachte celfrequenties onder de nulhypothese (statistische onafhankelijkheid) (#page=35, 36) [35](#page=35) [36](#page=36).
* Formule voor chi-kwadraat:
$$ \chi^2 = \sum_{i} \sum_{j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
waarbij $O_{ij}$ de geobserveerde frequentie is in cel (i,j) en $E_{ij}$ de verwachte frequentie is in cel (i,j) (#page=35, 36) [35](#page=35) [36](#page=36).
* **Kenmerken van de chi-kwadraatverdeling**:
* Is altijd positief [36](#page=36).
* De vorm hangt af van het aantal vrijheidsgraden ($df$) [36](#page=36).
* Een hogere chi-kwadraatwaarde duidt op een grotere discrepantie en dus een sterker verband, wat de nulhypothese minder plausibel maakt [36](#page=36).
4. **P-waarde (overschrijdingskans)**:
* De p-waarde is de kans om de waargenomen of extremere resultaten te verkrijgen, gegeven dat de nulhypothese waar is [36](#page=36).
* Als de p-waarde kleiner is dan het gekozen significantieniveau (bv. 0,05), wordt de nulhypothese verworpen [36](#page=36).
5. **Conclusie**:
* De resultaten worden geïnterpreteerd in het licht van de oorspronkelijke vraagstelling, waarbij de p-waarde centraal staat [37](#page=37).
* **Vrijheidsgraden ($df$)**: Voor een $r \times c$ kruistabel met gegeven marginale totalen, zijn er $(r-1) \times (c-1)$ vrijheidsgraden [36](#page=36).
#### 4.2.4. Associatiematen: de sterkte van het verband
Associatiematen kwantificeren de sterkte van de samenhang tussen variabelen. Ze zijn conventioneel begrensd tussen 0 en 1 voor nominale variabelen, en tussen -1 en +1 voor ordinale variabelen [37](#page=37).
* **+1**: Perfecte positieve samenhang [37](#page=37).
* **0**: Afwezigheid van statistische samenhang [37](#page=37).
* **-1**: Perfecte negatieve samenhang [37](#page=37).
De keuze van de associatiemaat hangt af van het meetniveau van de variabelen [37](#page=37).
##### 4.2.4.1. Associatiematen voor nominale variabelen
* **Phi-kwadraat ($\phi^2$) en Phi ($\phi$)**:
* Phi is gebaseerd op de chi-kwadraat statistiek [37](#page=37).
* Het is een symmetrische associatiemaat [37](#page=37).
* De waarde 0 betekent statistische onafhankelijkheid [37](#page=37).
* In een $2 \times 2$ tabel kan Phi maximaal 1 bereiken. In algemene $r \times c$ tabellen kan de waarde groter dan 1 worden, wat de interpretatie bemoeilijkt [37](#page=37) [38](#page=38).
* **Cramer's V**:
* Is een symmetrische associatiemaat, gebaseerd op chi-kwadraat [38](#page=38).
* De formule is: $V = \sqrt{\frac{\chi^2}{N \cdot \min(r-1, c-1)}}$, waarbij $N$ het totale aantal observaties is en $\min(r-1, c-1)$ het kleinste aantal van (rijen-1) en (kolommen-1) [38](#page=38).
* De waarde varieert tussen 0 en 1, waarbij 0 onafhankelijkheid aangeeft en 1 een perfect verband [38](#page=38).
| Waarde Cramer's V | Interpretatie |
| :---------------- | :------------------------ |
| 0 – 0,10 | Zeer zwak of geen verband |
| 0,11 – 0,30 | Zwak verband |
| 0,31 – 0,50 | Redelijk verband |
| 0,51 – 0,80 | Sterk verband |
| 0,81 – 0,99 | Zeer sterk verband |
| 1 | Perfect verband |
##### 4.2.4.2. Associatiematen voor ordinale variabelen
Voor ordinale variabelen kan de richting van het verband worden bepaald, wat resulteert in associatiematen die variëren van -1 tot +1 [38](#page=38).
* **Concordante en discordante paren**:
* **Concordant paar (C)**: Twee onderzoekseenheden scoren op beide variabelen hoger (of lager) dan elkaar [39](#page=39).
* **Discordant paar (D)**: Twee onderzoekseenheden scoren op de ene variabele hoger en op de andere lager dan elkaar [39](#page=39).
* **Gamma ($\gamma$)**:
* Een symmetrische associatiemaat voor ordinale variabelen, gebaseerd op concordante en discordante paren [39](#page=39).
* Formule: $\gamma = \frac{C - D}{C + D}$ [39](#page=39).
* De waarde varieert van -1 tot +1; een grotere absolute waarde betekent een sterkere associatie [39](#page=39).
* **Kendall's Tau-b ($\tau_b$)**:
* Een symmetrische associatiemaat die de overeenkomst in rangorde tussen twee variabelen meet [39](#page=39).
* Het evalueert of de rangorde van respondenten voor variabele X overeenkomt met hun rangorde voor variabele Y [39](#page=39).
* Formules zijn complex en houden rekening met zowel concordante, discordante als geknoopte paren (#page=39, 40) [39](#page=39) [40](#page=40).
* **Somers' d**:
* Lijkt op Gamma, maar is geschikt voor **asymmetrische** relaties [40](#page=40).
* Houdt rekening met paren die 'geknoopt' zijn op de afhankelijke variabele [40](#page=40).
* Formule: $d = \frac{C - D}{C + D + T_y}$, waarbij $T_y$ het aantal geknoopte paren op de afhankelijke variabele is [40](#page=40).
* **Spearman's Rho ($\rho$)**:
* Een rangcorrelatiecoëfficiënt die de correlatie tussen rangnummers meet (#page=40, 45) [40](#page=40) [45](#page=45).
* Het is een symmetrische maat die gebaseerd is op de verschillen in rangorde van de waarden (#page=40, 45) [40](#page=40) [45](#page=45).
* Het wordt berekend alsof de variabelen metrisch zijn, maar dan op de rangwaarden van de ordinale variabelen [45](#page=45).
* Waarde varieert van -1 tot +1 [45](#page=45).
### 4.3. Verbanden tussen metrische variabelen (interval en ratio)
#### 4.3.1. Spreidingsdiagram (scatterplot)
Een spreidingsdiagram is een grafische weergave die de samenhang tussen twee metrische variabelen visualiseert door de waarden van onderzoekseenheden als punten weer te geven (#page=40, 43) [40](#page=40) [43](#page=43).
* **Asymmetrische relatie**: De onafhankelijke variabele (X) staat op de horizontale as en de afhankelijke variabele (Y) op de verticale as [40](#page=40).
* **Doel**: Overzicht geven van de trend (lineair, curvilineair, clusters, geen patroon), richting (positief, negatief, geen) en sterkte van het verband (#page=40, 43) [40](#page=40) [43](#page=43).
Er kan sprake zijn van:
* **Analytische afhankelijkheid**: De waarde van de ene variabele kan exact worden bepaald door de andere (#page=41, 42) [41](#page=41) [42](#page=42).
* **Stochastische afhankelijkheid**: Een schatting van de ene variabele is mogelijk op basis van de andere, maar geen exacte relatie (#page=41, 42) [41](#page=41) [42](#page=42).
* **Stochastische onafhankelijkheid**: Kennis van de ene variabele helpt niet bij het voorspellen van de andere (#page=41, 42) [41](#page=41) [42](#page=42).
#### 4.3.2. Covariantie
De covariantie is een maat voor de lineaire samenhang tussen twee variabelen van interval- of ratiomeetniveau (#page=43, 44). Het meet in welke mate de waarden van twee variabelen bij respondenten samenhangen [43](#page=43) [44](#page=44).
* Formule:
$$ \text{Cov}(X, Y) = \frac{1}{N-1} \sum_{i=1}^{N} (x_i - \bar{x})(y_i - \bar{y}) $$
waarbij $x_i$ en $y_i$ de waarden zijn van de variabelen, en $\bar{x}$ en $\bar{y}$ de gemiddelden [43](#page=43).
* **Interpretatie**:
* Positieve covariantie: positieve samenhang [44](#page=44).
* Covariantie = 0: lineaire onafhankelijkheid [44](#page=44).
* Negatieve covariantie: negatieve samenhang [44](#page=44).
* **Nadeel**: De covariantie heeft geen vaste boven- of ondergrens en is gevoelig voor de meeteenheid van de variabelen [44](#page=44).
#### 4.3.3. Correlatie (Pearson's correlatiecoëfficiënt)
Pearson's correlatiecoëfficiënt ($r$) is een gestandaardiseerde maat voor de lineaire samenhang tussen twee metrische variabelen. Het is een symmetrische maat, ongevoelig voor meeteenheden [44](#page=44).
* Formule:
$$ r = \frac{\text{Cov}(X, Y)}{s_x s_y} $$
waarbij $s_x$ en $s_y$ de standaardafwijkingen van respectievelijk X en Y zijn [44](#page=44).
* **Kenmerken**:
* De waarde ligt altijd tussen -1 en +1 [44](#page=44).
* Hoe dichter de waarde bij -1 of +1 ligt, hoe sterker de lineaire samenhang [44](#page=44).
* $r=0$ betekent lineaire onafhankelijkheid, maar er kan nog steeds een sterke niet-lineaire samenhang zijn [44](#page=44).
* Correlatie is niet robuust en gevoelig voor outliers [44](#page=44).
* **Interpretatie van de sterkte van de correlatie**:
| Waarde $r$ | Interpretatie |
| :---------------------- | :-------------------------------- |
| $r = 1$ | Perfecte positieve lineaire afhankelijkheid |
| $0,7 < r < 1$ | Sterke positieve lineaire afhankelijkheid |
| $0,3 < r < 0,7$ | Matige positieve lineaire afhankelijkheid |
| $0 < r < 0,3$ | Zwakke positieve lineaire afhankelijkheid |
| $r = 0$ | Lineaire onafhankelijkheid |
| $-0,3 < r < 0$ | Zwakke negatieve lineaire onafhankelijkheid |
| $-0,7 < r < -0,3$ | Matige negatieve lineaire onafhankelijkheid |
| $-1 < r < -0,7$ | Sterke negatieve lineaire afhankelijkheid |
| $r = -1$ | Perfecte negatieve lineaire afhankelijkheid |
#### 4.3.4. Regressieanalyse
Regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele (Y) en één of meer onafhankelijke variabelen (X) te modelleren, waarbij het onderscheid tussen afhankelijke en onafhankelijke variabele cruciaal is. Het doel is het verklaren van variantie in de afhankelijke variabele en het voorspellen van waarden. In de klassieke vorm zijn beide variabelen van interval- of ratiomeetniveau [46](#page=46).
* **Model van de regressieanalyse**:
* De vergelijking van een regressierechte is:
$$ \hat{y} = a + bx $$
waarbij $\hat{y}$ de voorspelde waarde van Y is, $a$ het intercept (snijpunt met de y-as), en $b$ de hellingscoëfficiënt (slope) [47](#page=47).
* **Residuen**:
* Een residu is het verschil tussen de geobserveerde waarde ($y_i$) en de voorspelde waarde ($\hat{y}_i$) op de regressierechte [48](#page=48).
* Formule voor een residu ($e_i$):
$$ e_i = y_i - \hat{y}_i $$
* Positieve residuen duiden op onderschatting, negatieve op overschatting, en residuen van 0 op perfecte voorspelling [48](#page=48).
* **Kleinste Kwadratenmethode (OLS)**:
* Deze methode minimaliseert de som van de gekwadrateerde residuen (Sum of Squared Errors - SSE) om de regressierechte te vinden die het beste bij de data past [49](#page=49).
* $$ \text{SSE} = \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 $$
* Dit leidt tot de volgende formules voor $a$ en $b$:
$$ b = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = r \frac{s_y}{s_x} $$
$$ a = \bar{y} - b\bar{x} $$
waarbij $r$ de Pearson correlatiecoëfficiënt is, $s_y$ en $s_x$ de standaardafwijkingen, en $\bar{y}$ en $\bar{x}$ de gemiddelden zijn (#page=49, 50) [49](#page=49) [50](#page=50).
* **Sterkte van het verband in regressieanalyse**:
* **Correlatiecoëfficiënt ($r$)**: Geeft de richting en sterkte van de *lineaire* associatie aan. De correlatie heeft hetzelfde teken als de slope $b$ [50](#page=50).
* **$R$-kwadraat ($R^2$)**:
* Ook wel de **determinatiecoëfficiënt** genoemd [51](#page=51).
* Geeft aan welk deel van de variantie in de afhankelijke variabele (Y) verklaard wordt door de onafhankelijke variabele (X). Het is de proportie reductie in totale fout door Y te voorspellen obv de regressielijn in plaats van obv het gemiddelde van Y [51](#page=51).
* Formule:
$$ R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}} $$
waarbij SST de totale kwadratensom is (totale variabiliteit in Y) en SSR de verklaarde kwadratensom (door de regressie) is (#page=50, 51) [50](#page=50) [51](#page=51).
* $R^2 = 0$ betekent dat X geen variantie in Y verklaart [51](#page=51).
* $R^2 = 1$ betekent dat alle punten op de regressierechte liggen en Y perfect wordt voorspeld door X [51](#page=51).
* Een correlatie van 0,9 impliceert een $R^2$ van $0,9^2 = 0,81$, wat betekent dat 81% van de variantie in Y verklaard wordt door X [51](#page=51).
* $1 - R^2$ geeft de proportie variantie in Y die *niet* verklaard wordt door X [51](#page=51).
---
# Tijdsreeksanalyse
Tijdsreeksanalyse onderzoekt de evolutie van een variabele in de tijd door middel van chronologisch geordende gegevens [52](#page=52).
### 6.1. Inleiding tot tijdsreeksen
#### 6.1.1. Wat is een tijdsreeks?
Een tijdsreeks is een opeenvolging van chronologisch geordende kwantitatieve gegevens, gemeten met een vast tijdsinterval (bv. jaar, maand, dag, uur). Het is een tweedimensionale waargenomen reeks waarbij één variabele de tijd is. De frequentie van elk punt $(t_i, y_i)$ is één, en deze frequenties spelen geen verdere rol in de analyse [52](#page=52).
#### 6.1.2. Verschil met een gewone tweedimensionale reeks
Het fundamentele verschil ligt in het belang van de volgorde van de waarden van variabele $y$. Bij een tijdsreeks is de chronologische ordening cruciaal voor het analyseren van de evolutie. Bij een gewone tweedimensionale verdeling is de volgorde van waarnemingen irrelevant. Tijd is een bijzondere variabele: het is een vast gegeven dat niet door andere variabelen wordt beïnvloed, en is daarom altijd de onafhankelijke variabele in de analyse. Statistische parameters zoals variantie en momenten zijn bij tijd niet gedefinieerd. De uniforme frequentie van waarnemingen vereenvoudigt berekeningen aanzienlijk [52](#page=52).
#### 6.1.3. Toepassingsgebieden
Tijdsreeksen hebben een zeer breed toepassingsgebied met specifieke analysemethoden, waaronder economie (evolutie van werkloosheid, schulden), demografie (bevolkingsevolutie), epidemiologie (sterfte, griepepidemieën), geschiedenis (migratie), social media-gebruik en criminaliteit. Een expliciete tijdsgebonden dimensie is essentieel. Tijdsreeksanalyse onderzoekt de relatie tussen tijd en een bepaalde variabele [52](#page=52) [53](#page=53).
#### 6.1.4. Belangrijke vragen bij het bekijken van een tijdsreeks
Bij het analyseren van een tijdsreeks zijn de volgende vragen van belang [53](#page=53):
* Is er een trend? (gemiddelde toename of afname over tijd)
* Is er seizoensgebondenheid? (regelmatige pieken en dalen afhankelijk van tijd van het jaar, maand of dag)
* Zijn er outliers? (waarden die significant afwijken)
* Is er een lange termijnscyclus buiten de seizoensgebondenheid?
* Is de variantie constant over tijd, of verandert de spreiding?
* Zijn er plotselinge veranderingen in het niveau of de spreiding?
#### 6.1.5. Tijdsreeksanalyse als ontleding
Tijdsreeksanalyse behelst het ontleden van tijdsreeksen in hun samenstellende delen, zoals trends, schommelingen en onregelmatige of toevallige kortetermijnveranderingen. Om de evolutie van variabelen in de tijd te meten, worden technieken als lineaire trends, voortschrijdende gemiddelden en foutenpercentages toegepast. Ook groei, groeivoeten en de constructie van trends vallen hieronder [53](#page=53).
### 6.2. Groei en groeivoeten
Er zijn drie soorten indicatoren voor groei [54](#page=54):
* Gemiddelde groei
* Groeivoet
* Gemiddelde groeivoet
De groeivoet wordt berekend als de relatieve groei ten opzichte van de beginjaren [54](#page=54).
### 6.3. Lineaire trend
#### 6.3.1. Constructie van een lineaire trend
Hoewel een relatie niet altijd lineair hoeft te zijn, wordt de constructie van een lineaire trend vaak gemodelleerd met behulp van (enkelvoudige) lineaire regressieanalyse, waarbij tijd fungeert als de onafhankelijke variabele. De parameters $a$ en $b$ van de lineaire regressievergelijking $y = a + bx$ worden gekozen om de som van de gekwadrateerde afwijkingen tussen de geobserveerde en verwachte waarden te minimaliseren [54](#page=54).
$$ \sum_{i=1}^{n} (y_i - (a + bx_i))^2 \text{ geminimaliseerd} $$
Een lineaire trendlijn wordt verkregen via een bivariate regressieanalyse met tijd als onafhankelijke variabele [54](#page=54).
> **Tip:** Een nadeel van simpelweg kijken naar begin- en eindwaarden is dat dit geen volledig beeld geeft van de trend. Regressieanalyse biedt een meer robuuste methode [54](#page=54).
#### 6.3.2. Voordelen van lineaire trends
Met een lineaire trend kunnen we extrapoleren naar de toekomst en interpoleren voor ontbrekende waarden [55](#page=55).
#### 6.3.3. Nadelen en opmerkingen bij lineaire trends
* **Veronderstelling van lineariteit:** Een lineaire trend gaat uit van een lineaire evolutie. Niet-lineaire ontwikkelingen vereisen andere methoden (bv. logaritmische, exponentiële functies) [55](#page=55).
* **Rudimentaire vorm:** Het gebruik van een lineair model voor geobserveerde waarden is een basale vorm van tijdsreeksanalyse [55](#page=55).
* **Verwarring met seizoenseffecten:** Bij korte tijdsreeksen bestaat het gevaar om de trend te verwarren met seizoenseffecten of kortetermijnschommelingen [55](#page=55).
* **Autocorrelatie:** Opeenvolgende waarnemingen in de tijd zijn geen onafhankelijke waarnemingen (autocorrelatie). Dit kan leiden tot het ten onrechte interpreteren van toevalsfluctuaties als significante trends [55](#page=55).
> **Voorbeeld:** Een bedrijf dat de verkoopprijs van zijn product analyseert, kan een lineaire trend gebruiken om te voorspellen hoe de prijs zich in de komende maanden zal ontwikkelen, ervan uitgaande dat de prijs lineair stijgt of daalt [54](#page=54) [55](#page=55).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Statistiek | Een wetenschappelijke discipline die dient als kennismethode om de wereld beter te kennen en te begrijpen, vaak toegepast in empirisch onderzoek voor data-analyse. |
| Empirie | Gegevens en informatie verzameld uit waarnemingen en experimenten, die dienen als basis voor wetenschappelijke beweringen en theorieën. |
| Onderzoeksmethoden | Procedures en technieken die worden gebruikt om data te verzamelen volgens vastgestelde wetenschappelijke regels en principes. |
| Beschrijvende statistiek | Een tak van statistiek die zich bezighoudt met het samenvatten en presenteren van gegevens uit een steekproef of populatie met behulp van cijfers, tabellen en grafieken. |
| Inferentiële statistiek | Een tak van statistiek die methoden gebruikt om uitspraken te doen over een populatie op basis van gegevens uit een steekproef, inclusief extrapolatie en generalisatie van resultaten. |
| Verklarende statistiek | Een tak van statistiek die zich richt op het verklaren van relaties en samenhangen tussen variabelen, vaak met behulp van regressietechnieken. |
| Populatie | De volledige groep van een welomschreven entiteiten die het onderwerp vormen van een statistisch onderzoek. |
| Onderzoekseenheid | Een individueel element of lid van de onderzochte populatie dat de basis vormt voor de verzameling van gegevens. |
| Variabele | Een kenmerk of eigenschap van onderzoekseenheden dat kan variëren en gemeten of waargenomen wordt in een onderzoek. |
| Datamatrix / Dataset | Een gestructureerde verzameling van gegevens waarin onderzoekseenheden in rijen en variabelen in kolommen zijn georganiseerd, met de waarden in de cellen. |
| Steekproef | Een deelverzameling van een populatie die wordt geselecteerd om representatieve informatie te verzamelen en conclusies te trekken over de gehele populatie. |
| Parameters | Kengetallen die de verdeling van een kenmerk in een gehele populatie beschrijven. |
| Steekproefstatistieken | Kengetallen die de verdeling van een kenmerk in een steekproef beschrijven; ze worden vaak gebruikt als schatters voor populatieparameters. |
| Schatter / Statistische maat | Een numerieke samenvatting van een steekproef die wordt gebruikt om een eigenschap van de populatie te schatten. |
| Tijdsreeks | Een opeenvolging van kwantitatieve gegevens die in de tijd geordend zijn met regelmatige, vaste intervallen. |
| Dimensie van een reeks | Het aantal variabelen dat gelijktijdig wordt waargenomen of bestudeerd in een dataset, variërend van unidimensionaal tot multidimensionaal. |
| Representativiteit | Het kenmerk van een steekproef dat deze dezelfde karakteristieken heeft als de populatie die het vertegenwoordigt. |
| Selectiebias | Een systematische vertekening in onderzoeksresultaten die ontstaat door de manier waarop respondenten of eenheden worden geselecteerd voor de steekproef. |
| Non-respons bias | Een vertekening die optreedt wanneer de personen die weigeren deel te nemen aan een onderzoek systematisch verschillen van de deelnemers. |
| Item non-respons bias | Een type bias waarbij respondenten bepaalde specifieke vragen (items) in een enquête niet beantwoorden, wat de resultaten kan beïnvloeden. |
| Operationaliseren | Het proces van het meetbaar maken van abstracte concepten of variabelen door ze te vertalen naar concrete vragen of indicatoren in een onderzoek. |
| Kwalitatieve variabele | Een variabele waarvan de waarden categorieën vertegenwoordigen zonder inherente wiskundige betekenis. |
| Kwantitatieve variabele | Een variabele waarvan de waarden een numerieke waarde hebben met wiskundige betekenis, en die meetbaar is. |
| Meetniveau / Meetschaal | De schaal waarop een variabele wordt gemeten, die bepaalt welke statistische bewerkingen mogelijk zijn (nominaal, ordinaal, interval, ratio). |
| Nominaal meetniveau | Het laagste meetniveau waarbij waarden categorisch zijn en enkel dienen voor classificatie zonder rangorde of numerieke betekenis. |
| Ordinaal meetniveau | Een meetniveau waarbij variabelen niet alleen geclassificeerd kunnen worden, maar ook gerangschikt volgens een bepaalde volgorde, zonder dat de intervallen tussen de waarden noodzakelijk gelijk zijn. |
| Interval meetniveau | Een meetniveau waarbij variabelen een rangorde hebben en de verschillen tussen waarden betekenisvol zijn door een vaste meeteenheid, maar waar een absoluut nulpunt ontbreekt. |
| Ratio meetniveau | Het hoogste meetniveau, waarbij variabelen een rangorde, een vaste meeteenheid en een absoluut nulpunt hebben, wat betekent dat verhoudingen tussen waarden betekenisvol zijn. |
| Discreet variabel | Een kwantitatieve variabele die alleen gehele getallen kan aannemen, vaak als resultaat van een telling. |
| Continu variabel | Een kwantitatieve variabele die elke waarde binnen een bepaald bereik kan aannemen, vaak gemeten op een schaal. |
| Frequentieverdeling | Een overzicht dat voor elke waarde of categorie van een variabele aangeeft hoe vaak deze voorkomt in een dataset, uitgedrukt in absolute of relatieve aantallen. |
| Frequentietabel | Een tabel waarin de frequentieverdeling van een variabele wordt weergegeven, met waarden of categorieën en hun corresponderende aantallen. |
| Absolute frequentie | Het aantal keren dat een specifieke waarde van een variabele voorkomt in een dataset. |
| Relatieve frequentie | De proportie of het percentage van de absolute frequentie ten opzichte van het totaal aantal waarnemingen. |
| Staafdiagram | Een grafische weergave waarbij de frequentie van categorieën wordt weergegeven door rechthoeken van gelijke breedte, waarvan de hoogte evenredig is met de frequentie. |
| Cirkeldiagram / Taartdiagram | Een grafische weergave die een geheel in sectoren verdeelt, waarbij de grootte van elke sector recht evenredig is met de frequentie of proportie van de betreffende categorie. |
| Pictogram | Een grafische weergave die symbolen gebruikt om frequenties weer te geven, waarbij de grootte of het aantal van de symbolen de frequentie vertegenwoordigt. |
| Cumulatieve frequentiefunctie | Een grafische weergave of tabel die de som van de frequenties tot en met een bepaalde waarde of categorie toont. |
| Maten van ligging / Centrummaten | Statistische maten die het centrale punt of de typische waarde van een dataset beschrijven, zoals modus, mediaan en gemiddelde. |
| Modus | De waarde die het vaakst voorkomt in een dataset; de meest voorkomende categorie of score. |
| Mediaan | De middelste waarde in een gesorteerde dataset; de waarde die de dataset in twee gelijke helften verdeelt. |
| Rekenkundig gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden; de meest gebruikte centrummaat. |
| Kwantielen | Waarden die een gesorteerde dataset verdelen in een specifiek aantal gelijke delen (bv. kwartielen verdelen in 4, decielen in 10, percentielen in 100). |
| Kwartielen | Waarden die een gesorteerde dataset verdelen in vier gelijke delen; Q1 (25e percentiel), Q2 (mediaan, 50e percentiel) en Q3 (75e percentiel). |
| Decielen | Waarden die een gesorteerde dataset verdelen in tien gelijke delen. |
| Percentielen | Waarden die een gesorteerde dataset verdelen in honderd gelijke delen. |
| Momenten | Een algemene klasse van statistische maten die de vorm, spreiding en locatie van een verdeling beschrijven door de relatie van de data tot een centraal punt te analyseren. |
| Centrale momenten | Momenten berekend ten opzichte van het rekenkundig gemiddelde van de verdeling. |
| Maten van spreiding | Statistische maten die de mate van variatie of diversiteit in een dataset beschrijven, zoals variatiebreedte, variantie en standaardafwijking. |
| Variatiebreedte / Range | Het verschil tussen de hoogste en de laagste waarde in een dataset; een eenvoudige maat voor spreiding. |
| Interkwartielafstand (IQR) | Het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1); een maat voor de spreiding van de middelste 50% van de data. |
| Gemiddelde absolute afwijking | Het gemiddelde van de absolute verschillen tussen elke datapunten en het gemiddelde; minder gevoelig voor uitschieters dan de variantie. |
| Variantie | De gemiddelde gekwadrateerde afwijking van het gemiddelde; een maat voor de spreiding van data rond het gemiddelde. |
| Standaardafwijking | De vierkantswortel van de variantie; een maat voor de spreiding van data uitgedrukt in dezelfde eenheden als de oorspronkelijke data. |
| Variatiecoëfficiënt | De ratio van de standaardafwijking tot het gemiddelde; een relatieve spreidingsmaat die dimensieloos is en gebruikt kan worden voor vergelijkingen tussen groepen met verschillende eenheden. |
| Normaalverdeling / Gauss-curve | Een symmetrische, klokvormige verdeling die veel voorkomt in de natuur en sociale wetenschappen, gekenmerkt door specifieke eigenschappen van de gemiddelde, standaardafwijking en oppervlakte onder de curve. |
| Empirische regel | Een vuistregel die stelt dat voor een normaalverdeling ongeveer 68% van de data binnen één standaardafwijking van het gemiddelde ligt, 95% binnen twee, en 99.7% binnen drie. |
| Gestandaardiseerde scores / Z-score | Een score die aangeeft hoeveel standaardafwijkingen een individuele datapunten boven of onder het gemiddelde ligt; deze scores zijn dimensieloos en maken vergelijking tussen verschillende datasets mogelijk. |
| Standaardnormaalverdeling | Een specifieke normaalverdeling met een gemiddelde van 0 en een standaardafwijking van 1. |
| Maten van vorm | Statistische maten die de vorm van een verdeling beschrijven, met name symmetrie (scheefheid) en afplatting (kurtosis). |
| Symmetrie (scheefheid) | De mate waarin een verdeling gelijkmatig is verdeeld rond het centrum; een symmetrische verdeling heeft geen staart aan één kant. |
| Positieve asymmetrie / Rechtsscheef | Een verdeling die uitbreidt naar rechts met een langere staart aan de rechterkant, wat impliceert dat de meeste waarden kleiner zijn dan het gemiddelde. |
| Negatieve asymmetrie / Linksscheef | Een verdeling die uitbreidt naar links met een langere staart aan de linkerkant, wat impliceert dat de meeste waarden groter zijn dan het gemiddelde. |
| Kurtosis (afplatting) | Een maat die de spitsheid of platheid van een verdeling beschrijft ten opzichte van een normale verdeling. |
| Lepokurtisch | Een verdeling die spitser is dan de normale verdeling (hoge kurtosis). |
| Mesokurtisch | Een verdeling die dezelfde spitsheid heeft als de normale verdeling (kurtosis gelijk aan 3 voor Pearson's coefficient). |
| Platykurtisch | Een verdeling die platter is dan de normale verdeling (lage kurtosis). |
| Associatie (samenhang) | Het verband of de relatie tussen twee of meer variabelen. |
| Correlatie | Een statistische maat die de sterkte en richting van de lineaire samenhang tussen twee kwantitatieve variabelen beschrijft. |
| Tweedimensionale frequentietabel / Kruistabel | Een tabel die de frequentieverdeling van twee categorische variabelen weergeeft, waarbij de cellen de gecombineerde frequenties van categorieën bevatten. |
| Rangcorrelatiecoëfficiënt | Een maat voor de samenhang tussen twee geordende variabelen, zoals Spearman's rho of Kendall's tau, die gebaseerd is op de rangschikking van de data. |
| Scatterplot | Een grafische weergave van de relatie tussen twee kwantitatieve variabelen, waarbij elk datapunt wordt weergegeven als een punt in een tweedimensionaal assenstelsel. |
| Covariantie | Een maat die aangeeft in hoeverre twee kwantitatieve variabelen samen variëren; een positieve covariantie duidt op een positieve relatie, een negatieve op een negatieve relatie. |
| Regressieanalyse | Een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren, met als doel voorspellingen te doen. |
| Causale samenhang | Een verband tussen twee variabelen waarbij een verandering in de ene variabele direct een verandering in de andere veroorzaakt. |
| Onafhankelijke variabele | De variabele waarvan men aanneemt dat deze een effect heeft op of invloed uitoefent op de afhankelijke variabele; vaak de verklarende variabele (X). |
| Afhankelijke variabele | De variabele waarvan men aanneemt dat deze wordt beïnvloed door de onafhankelijke variabele; vaak de te verklaren variabele (Y). |
| Conditionele verdeling | De verdeling van een variabele gegeven de waarde van een andere variabele. |
| Onafhankelijkheid | Een statistische relatie waarbij de waarde van de ene variabele geen invloed heeft op de waarden van de andere variabele. |
| Significantietoets | Een statistische procedure om te bepalen of waargenomen verschillen of relaties in een steekproef waarschijnlijk ook in de populatie bestaan, of dat ze door toeval zijn ontstaan. |
| Nulhypothese (H0) | De hypothese die stelt dat er geen significant verband of verschil is tussen de onderzochte variabelen of groepen. |
| Alternatieve hypothese (H1) | De hypothese die stelt dat er wel een significant verband of verschil is tussen de onderzochte variabelen of groepen. |
| Toetsstatistiek | Een statistische maat die wordt berekend uit de steekproefgegevens en wordt gebruikt om de nulhypothese te toetsen. |
| Chi-kwadraat (χ²) | Een toetsstatistiek die wordt gebruikt om de samenhang tussen categorische variabelen te toetsen door de waargenomen frequenties te vergelijken met de verwachte frequenties. |
| Vrijheidsgraden | Het aantal onafhankelijke waarden dat kan variëren in een statistische berekening; beïnvloedt de vorm van waarschijnlijkheidsverdelingen zoals de chi-kwadraatverdeling. |
| P-waarde (overschrijdingskans) | De waarschijnlijkheid om een toetsstatistiek te observeren die minstens zo extreem is als de waargenomen toetsstatistiek, ervan uitgaande dat de nulhypothese waar is. |
| Associatiemaat | Een statistische maat die de sterkte en soms de richting van de samenhang tussen variabelen kwantificeert. |
| Phi-kwadraat (Φ²) | Een associatiemaat voor nominale variabelen, afgeleid van de chi-kwadraat statistic, die de sterkte van het verband in een kruistabel aangeeft. |
| Cramer's V | Een symmetrische associatiemaat voor nominale variabelen die de sterkte van het verband tussen twee categorische variabelen weergeeft, genormaliseerd tot een bereik van 0 tot 1. |
| Gamma (γ) | Een symmetrische associatiemaat voor ordinale variabelen die de sterkte van de samenhang meet door concordante en discordante paren te vergelijken. |
| Kendall's tau (τ) | Een rangcorrelatiecoëfficiënt die de sterkte en richting van de monotone samenhang tussen twee ordinale variabelen meet. |
| Somers' d | Een assymmetrische associatiemaat voor ordinale variabelen, die de sterkte en richting van de samenhang meet, rekening houdend met geknoopte paren. |
| Spearmans rho (ρ) | Een rangcorrelatiecoëfficiënt die de sterkte en richting van de monotone samenhang tussen twee ordinale variabelen meet, berekend op basis van rangnummers. |
| Pearson's correlatiecoëfficiënt (r) | Een maat voor de sterkte en richting van de lineaire samenhang tussen twee interval- of ratio-variabelen, variërend van -1 tot +1. |
| Regressierechte | Een lijn die de beste lineaire benadering geeft van de relatie tussen twee variabelen in een scatterplot, gebruikt voor voorspellingen. |
| Residu | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de waarde die wordt voorspeld door de regressielijn. |
| Kleinste kwadratenmethode (OLS - Ordinary Least Squares) | Een methode om de parameters van een regressiemodel te schatten door de som van de gekwadrateerde residuen te minimaliseren. |
| R-kwadraat (R²) | Een maat die aangeeft welk proportie van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n) in een regressiemodel. |
| Totaal kwadratensom (SST) | De totale variantie in de afhankelijke variabele, gemeten als de som van de gekwadrateerde afwijkingen van het gemiddelde. |
| Verklaarde kwadratensom (SSR) | De variantie in de afhankelijke variabele die wordt verklaard door het regressiemodel. |
| Ongeregreerde kwadratensom (SSE) | De variantie in de afhankelijke variabele die niet wordt verklaard door het regressiemodel (de som van de gekwadrateerde residuen). |
| Tijdsreeksanalyse | Een statistische methode voor het analyseren van geordende gegevens in de tijd om trends, seizoensgebondenheid en andere patronen te identificeren. |
| Trend | De algemene richting (stijgend, dalend of stabiel) van gegevens in een tijdsreeks over een langere periode. |
| Seizoensgebondenheid | Regelmatige, voorspelbare schommelingen in een tijdsreeks die optreden binnen een specifieke tijdsperiode (bv. per jaar, kwartaal, maand). |
| Groeivoet | De relatieve toename of afname van een variabele over een bepaalde periode, vaak uitgedrukt als een percentage. |
| Lineaire trend | Een trend in een tijdsreeks die kan worden weergegeven door een rechte lijn, vaak berekend met lineaire regressie. |