Cover
Start now for free statistiek-1-sociale-wetenschappen-2021-2022-hoofdstukken-1-tot-6-overzicht.pdf
Summary
# Introductie tot statistiek en onderzoeksmethoden
Statistiek is een essentieel instrument binnen sociaal-wetenschappelijk onderzoek om gegevens te analyseren, interpreteren en presenteren, teneinde kennis en inzicht te genereren [2](#page=2).
### 1.1 Wat is statistiek?
Statistiek omvat het proces van het vertalen van ruwe data naar bruikbare kennis en inzicht door middel van analyse, interpretatie en presentatie. Empirisch onderzoek, dat gebaseerd is op waarnemingen in de realiteit, verzamelt data die vervolgens met behulp van statistische methoden geanalyseerd wordt. Het doel is om deze data begrijpelijk te maken, vaak door middel van grafische voorstellingen of kengetallen [2](#page=2).
### 1.2 Waarom statistiek in sociaal-wetenschappelijk onderzoek?
Statistiek is cruciaal voor het onderbouwen van beweringen. Het stelt onderzoekers in staat om data te verzamelen en te analyseren volgens gevestigde methoden, rekening houdend met de inherente onzekerheid die voortkomt uit het feit dat data slechts een fractie van de totale gegevens vertegenwoordigen. Het antwoord op een onderzoeksvraag wordt gevonden door het verzamelen en vervolgens statistisch analyseren van de data [2](#page=2).
### 1.3 Fasen in sociaal-wetenschappelijk onderzoek
Het sociaal-wetenschappelijk onderzoeksproces bestaat uit verschillende fasen:
1. **Probleemstelling**: Vereist diepgaande inhoudelijke kennis van het vakgebied [2](#page=2).
2. **Onderzoeksontwerp & Dataverzameling**: Hierbij wordt bepaald welke onderzoeksmethoden het meest geschikt zijn in relatie tot de probleem- en vraagstelling [2](#page=2).
3. **Data-analyse**: Dit is een cruciale fase waarin technieken zoals beschrijvende statistiek, inductieve statistiek en multivariate analyse worden toegepast [2](#page=2).
4. **Rapportering**: De uitkomsten worden gepresenteerd in overeenstemming met de wetenschapsmethodologie [2](#page=2).
### 1.4 Soorten statistiek
#### 1.4.1 Beschrijvende statistiek
Beschrijvende statistiek richt zich op het kwantitatief "beschrijven" van de wereld, vaak door het samenvatten van grote hoeveelheden gegevens. Dit omvat [2](#page=2):
* Het beantwoorden van frequentievragen [2](#page=2).
* Het samenvatten van data in kengetallen zoals percentages, mediaan, kwantielen en gemiddelden [2](#page=2) [3](#page=3).
* Het toepassen van grafische technieken om data te ordenen en te synthetiseren, vooral bij grote datasets zoals enquêtes [2](#page=2) [3](#page=3).
#### 1.4.2 Inferentiële statistiek
Inferentiële statistiek biedt methoden om uitspraken te doen over een grotere populatie op basis van een beperkte hoeveelheid gegevens, afkomstig uit een steekproef. Dit proces, bekend als extrapolatie, maakt het mogelijk om de resultaten van een steekproef te generaliseren naar de gehele bevolking en voorspellingen te doen [3](#page=3).
#### 1.4.3 Verklarende statistiek
Verklarende statistiek richt zich op het analyseren van de verbanden en verschillen tussen variabelen om deze te verklaren. Voorbeelden van onderzoeksvragen die hierbij gesteld kunnen worden, zijn [3](#page=3):
* Wat is de relatie tussen opleidingsniveau en inkomen [3](#page=3)?
* Wat is de relatie tussen opleiding en gezondheid [3](#page=3)?
### 1.5 Misleidende statistiek
Statistieken worden als zeer overtuigend beschouwd, wat kan leiden tot misbruik ervan om zwakke of incorrecte argumenten te ondersteunen. Het fenomeen "met statistiek kan je alles bewijzen" onderstreept dit risico. Manipulatie kan plaatsvinden op verschillende momenten [3](#page=3):
1. **Bij het verzamelen van gegevens**: Dit kan gebeuren door een gebrekkige vraagstelling, een onjuiste selectie van onderzoekspersonen, of een te kleine steekproef [3](#page=3).
2. **Bij de presentatie van uitkomsten**: Voorbeelden zijn het weglaten van delen van een grafiek of het manipuleren van schalen [3](#page=3).
3. **Bij het omschrijven van conclusies**: De interpretatie van de resultaten kan de data verdraaien [3](#page=3).
> **Tip:** Het is daarom essentieel om zelf kritisch te leren lezen en de onderliggende methodologie van statistische claims te begrijpen.
### 1.6 Terminologie en kernbegrippen
Om statistiek correct toe te passen, is het belangrijk om de volgende kernbegrippen te begrijpen:
* **Onderzoekspopulatie**: De complete groep van individuen of objecten die het onderwerp van onderzoek vormen; de omvang en aard van deze groep kan sterk variëren [3](#page=3).
* **Waarnemingseenheid / statistische eenheid**: Een individueel element dat deel uitmaakt van de te bestuderen populatie. Dit zijn de 'cases' in een dataset en hoeven niet noodzakelijk mensen te zijn [3](#page=3).
* **Variabele**: Een kenmerk van de onderzoekseenheden waarin men geïnteresseerd is. Variabelen kunnen numeriek zijn (zoals leeftijd) of niet-numeriek (zoals geslacht) [3](#page=3).
* **Datamatrix**: Een gestructureerde manier om alle verzamelde data te organiseren, waarbij variabelen de kolommen vormen en cases de rijen. In een datamatrix kunnen numerieke codes gebruikt worden om categorieën van variabelen te representeren, bijvoorbeeld '1' voor man en '2' voor vrouw [3](#page=3).
---
# Variabelen, meten en meetschalen
Dit deel behandelt de fundamentele concepten van onderzoekspopulaties, waarnemingseenheden, variabelen, datamatrices, het proces van meten, en de verschillende meetschalen die gebruikt worden om variabelen te classificeren.
### 2.1 Kernbegrippen en terminologie
Om onderzoeksuitkomsten te kunnen interpreteren en generaliseren, is het cruciaal om de basisterminologie te begrijpen [3](#page=3).
#### 2.1.1 Onderzoekspopulatie en waarnemingseenheid
* **Onderzoekspopulatie:** Dit verwijst naar alle leden van een welomschreven en duidelijk gedefinieerde groep die het onderwerp van onderzoek vormt. De omvang en het type van een onderzoekspopulatie kunnen sterk variëren [3](#page=3).
* **Waarnemingseenheid (of statistische eenheid):** Dit is een individueel element binnen de bestudeerde populatie. Deze eenheden zijn niet noodzakelijk mensen; het kunnen ook objecten, gebeurtenissen of andere entiteiten zijn [3](#page=3).
#### 2.1.2 Variabelen
Statistiek richt zich op het bestuderen van de kenmerken van een bevolking, en deze kenmerken zijn variabel [3](#page=3).
* **Variabele:** Een variabele is een kenmerk van de onderzoekseenheden waarin we geïnteresseerd zijn. Soms is een variabele al een getal (bijvoorbeeld leeftijd), maar vaak is dit niet het geval (bijvoorbeeld geslacht) [3](#page=3).
#### 2.1.3 Datamatrix
Een datamatrix is een gestructureerde manier om alle verzamelde gegevens te organiseren. Hierin worden de waarnemingseenheden (cases) gerepresenteerd in de rijen en de variabelen in de kolommen. Codes worden vaak gebruikt om categorieën van variabelen te representeren [3](#page=3).
#### 2.1.4 Parameters en statistieken
* **Parameters:** Dit zijn kengetallen die de verdeling van een kenmerk binnen een populatie weergeven, zoals het populatiegemiddelde ($\mu$) en de populatiestandaardafwijking ($\sigma$) [4](#page=4).
* **Steekproef:** Een deel van de populatie dat wordt onderzocht. Om de resultaten te kunnen veralgemenen naar de populatie, moet een steekproef representatief zijn en bij voorkeur op toevallige basis geselecteerd worden, waarbij elk lid van de populatie evenveel kans heeft om in de steekproef te worden opgenomen [4](#page=4).
* **Inferentiële statistiek:** Deze tak van statistiek maakt het mogelijk om conclusies te trekken over de volledige populatie op basis van onderzoek met een steekproef [4](#page=4).
* **Steekproefstatistieken (schatters):** Dit zijn statistische kengetallen van een steekproef, zoals het steekproefgemiddelde ($\bar{x}$) en de steekproefstandaardafwijking ($s$). Ze dienen als schatters voor de corresponderende populatieparameters [4](#page=4).
* **Schatter of statistische maat:** Een numerieke samenvatting van de steekproef die gebruikt wordt om een kenmerk van de populatie te schatten [4](#page=4).
#### 2.1.5 Statistishe reeksen
* **Statistische reeks:** Een verzameling van waarnemingen, bijvoorbeeld het kijkgedrag van verschillende personen [4](#page=4).
* **Tijdreeks:** Een specifieke vorm van een statistische reeks waarbij het tijdstip van waarneming cruciaal is voor de interpretatie van de gegevens, zoals de evolutie van Facebookgebruik door de tijd [4](#page=4).
* **Dimensie van een reeks:** Het aantal variabelen dat simultaan wordt waargenomen of bestudeerd. Een unidimensionale reeks betreft één variabele, een tweedimensionale reeks twee variabelen, en een multidimensionale reeks meer dan twee variabelen [4](#page=4).
### 2.2 Wat is meten?
Meten is het proces waarbij (numerieke) waarden aan objecten of kenmerken worden toegekend. Dit is een essentiële stap om zaken te bewijzen en vergelijkingen te maken. Het meetproces bestaat uit twee hoofdfasen [4](#page=4):
1. **Verdelen van de populatie in equivalentieklassen:** De populatie wordt opgedeeld in deelverzamelingen waarbij elk element binnen een klasse equivalent (gelijk) is voor het bestudeerde kenmerk [4](#page=4).
2. **Schalen van variabelen:** Aan elke equivalentieklasse wordt een specifieke waarde toegekend, die kwalitatief of kwantitatief kan zijn. Deze toegekende waarden moeten de onderlinge relaties tussen de equivalentieklassen in de realiteit weerspiegelen [4](#page=4).
* **Meetschaal van de variabele:** Dit is de verzameling van waarden die aan de equivalentieklassen worden toegekend. De variabele zelf kan gezien worden als een afbeelding van de populatie naar deze verzameling van waarden [4](#page=4).
> **Tip:** Het is voordeliger om waarden toe te kennen die gemakkelijker en eenduidiger te hanteren zijn, zoals een geboortejaar in plaats van een provincie [4](#page=4).
#### 2.2.1 Afhankelijke en onafhankelijke variabelen
In veel onderzoeken is men geïnteresseerd in het verklaren van een variabele of het in kaart brengen van relaties met andere variabelen [4](#page=4).
* **Afhankelijke variabele:** De variabele die verklaard of beïnvloed wordt [4](#page=4).
* **Onafhankelijke variabele:** De variabele die wordt gebruikt om de afhankelijke variabele te verklaren of te beïnvloeden [4](#page=4).
### 2.3 Eigenschappen van variabelen en meetschalen
Het **meetniveau** of de **meetschaal** van een variabele wordt bepaald door de manier waarop deze wordt gemeten. Dit meetniveau dicteert welke statistische analyses mogelijk zijn en welke niet. Er zijn vier primaire meetschalen, vaak samengevat met het acroniem NOIR: Nominaal, Ordinaal, Interval, en Ratio [4](#page=4).
Om het meetniveau van een variabele te bepalen, worden vier criteria gehanteerd: classificatie, rangorde, 'vaste' meeteenheid en een absoluut nulpunt [5](#page=5).
#### 2.3.1 Nominale variabelen
* **Kenmerken:** Classificatie [5](#page=5).
* **Beschrijving:** Numerieke waarden dienen enkel als een naamgeving en zijn niet geschikt voor rekenkundige bewerkingen. Er kan enkel een getal aan de variabele worden toegekend [5](#page=5).
* **Voorbeelden:** Haarkleur, migratieachtergrond, religieuze strekking, woonplaats, politieke partijvoorkeur, geslacht [5](#page=5).
#### 2.3.2 Ordinale variabelen
* **Kenmerken:** Classificatie en rangordening [5](#page=5).
* **Beschrijving:** De variabele is ordenbaar, wat betekent dat de waarden kunnen worden gerangschikt (X1 < X2 of X1 > X2). De volgorde is duidelijk, maar de verschillen tussen de opeenvolgende waarden zijn niet noodzakelijk interpreteerbaar als gelijke intervallen [5](#page=5).
* **Voorbeelden:** Opleidingsniveau, antwoorden op opiniepeilingen (bv. "zeer mee oneens" tot "zeer mee eens"), medailles (brons, zilver, goud) [5](#page=5).
#### 2.3.3 Intervalvariabelen
* **Kenmerken:** Classificatie, rangordening, en een 'vaste' meeteenheid [5](#page=5).
* **Beschrijving:** Gelijke verschillen tussen de waarden van de variabele weerspiegelen gelijke verschillen in de intensiteit van het bestudeerde kenmerk. Deze schaal is enkel van toepassing op kwantitatieve variabelen. Het nulpunt duidt in dit geval niet op de afwezigheid van het kenmerk [5](#page=5).
* **Voorbeelden:** Temperatuur in graden Celsius, geboortejaar [5](#page=5).
#### 2.3.4 Ratiovariabelen
* **Kenmerken:** Classificatie, rangordening, een 'vaste' meeteenheid, en een absoluut nulpunt [5](#page=5).
* **Beschrijving:** Een absoluut nulpunt geeft de volledige afwezigheid van het bestudeerde kenmerk aan. Negatieve waarden komen niet voor op deze schaal [5](#page=5).
* **Voorbeelden:** Aantal Facebookvrienden, lengte, aantal uren tv kijken, aantal studenten in een aula [5](#page=5).
> **Tip:** Bewerkingen die zijn toegelaten voor variabelen van een bepaald meetniveau, mogen ook worden toegepast op variabelen van een hiërarchisch hoger meetniveau, maar niet omgekeerd. Dit betekent dat je berekeningen die geschikt zijn voor rato-variabelen ook kunt uitvoeren op intervalvariabelen, maar niet andersom [6](#page=6).
### 2.4 Soorten variabelen
Variabelen kunnen verder worden onderverdeeld op basis van hun aard:
* **Kwalitatieve (of categorische) variabelen:** Kenmerken die geen numerieke waarde hebben, maar categorieën representeren (bv. geslacht, kleur) [6](#page=6).
* **Nominale variabelen** zijn kwalitatief en niet-ordenbaar [6](#page=6).
* **Ordinale variabelen** zijn kwalitatief en wel ordenbaar [6](#page=6).
* **Kwantitatieve (of numerieke) variabelen:** Kenmerken die numerieke waarden aannemen [6](#page=6).
* **Intervalvariabelen** zijn kwantitatief en hebben gelijke intervallen, maar geen absoluut nulpunt [6](#page=6).
* **Ratiovariabelen** zijn kwantitatief en hebben zowel gelijke intervallen als een absoluut nulpunt [6](#page=6).
#### 2.4.1 Discrete en continue variabelen
Binnen de kwantitatieve variabelen wordt nog een onderscheid gemaakt:
* **Discrete variabelen:** Kunnen alleen gehele waarden aannemen (bv. aantal kinderen). Er zitten 'sprongen' tussen mogelijke waarden [6](#page=6).
* **Continue variabelen:** Kunnen elke waarde binnen een bepaald bereik aannemen, inclusief kommagetallen (bv. lichaamslengte, afstand) [6](#page=6).
#### 2.4.2 Dummy variabelen
* **Beschrijving:** Dummy variabelen zijn categorische variabelen die slechts twee categorieën hebben en worden gecodeerd met 0 en 1. Dit wordt vaak gebruikt om nominale of ordinale variabelen met twee categorieën in statistische modellen op te nemen [6](#page=6).
* **Voorbeeld:** Een variabele voor geslacht waarbij 'man' wordt gecodeerd als 0 en 'vrouw' als 1 is een dummy-variabele. Een codering van 'man' als 1 en 'vrouw' als 2 is dit niet, omdat de waarden geen betekenis hebben buiten de ordering [6](#page=6).
---
# Frequentieverdelingen en univariate statistische maten
Dit hoofdstuk introduceert frequentieverdelingen en diverse statistische maten om univariabele gegevens te synthetiseren en te beschrijven.
## 3 Frequentieverdelingen en grafische voorstellingen
Om onderzoeksvragen te beantwoorden, wordt vaak kwantitatief onderzoek gebruikt, waarbij eendimensionale reeksen (met betrekking tot één variabele) centraal staan. Een frequentieverdeling geeft voor elke waarde of categorie van een variabele aan hoeveel waarnemingen er zijn, in absolute of relatieve aantallen. Frequentietabellen dienen om de kwaliteit van gegevens te controleren, latere bewerkingen uit te voeren en de basis te vormen voor grafische voorstellingen [6](#page=6).
Een grafiek is een visuele weergave van de frequentieverdeling, die helpt bij het bevattelijk rapporteren van resultaten en het verbeteren van leesbaarheid en duidelijkheid [7](#page=7).
### 3.1 Definities en notatie
* $N$: de steekproefgrootte of het effectief van de steekproef of populatie [7](#page=7).
* $n$: het aantal waarden dat een variabele kan aannemen ($X_1, X_2, X_3, \dots, X_n$), waarbij $n \le N$ [7](#page=7).
### 3.2 Absolute en relatieve frequenties
* **Absolute frequentie ($F_i$)**: het aantal keren dat een bepaalde waarde $X_i$ werd waargenomen. De som van alle $F_i$ is gelijk aan de steekproefomvang ($N$) [7](#page=7).
$$ \sum_{i=1}^{n} F_i = N $$
* **Relatieve frequentie ($f_i$)**: de absolute frequentie gedeeld door de steekproefomvang. De som van alle $f_i$ is gelijk aan 1 [7](#page=7).
$$ f_i = \frac{F_i}{N} $$
$$ \sum_{i=1}^{n} f_i = 1 $$
Een voorbeeld van een frequentieverdeling:
| Variabele ($X_i$) | Absolute frequentie ($F_i$) | Relatieve frequentie ($f_i$) |
| :---------------- | :-------------------------- | :-------------------------- |
| $X_1$ | 20 | 20 / 130 = 0,15 |
| $X_2$ | 40 | 40 / 130 = 0,31 |
| $X_3$ | 70 | 70 / 130 = 0,54 |
| **Totaal** | **130 = $N$** | **1** |
* **Absolute cumulatieve frequentie ($K(X_i)$)**: het aantal waarnemingen dat kleiner of gelijk is aan $X_i$ [7](#page=7).
* **Relatieve cumulatieve frequentie ($k(X_i)$)**: de absolute cumulatieve frequentie gedeeld door de steekproefomvang [7](#page=7).
### 3.3 Grafische voorstellingen
Wanneer de waargenomen frequenties van een populatie of steekproef samen worden beschouwd, spreekt men van een frequentieverdeling, die grafisch kan worden weergegeven met verschillende grafieken [7](#page=7).
#### 3.3.1 Nominale schalen
Bij nominale schalen zijn de waarden niet geordend. Hoewel de volgorde in de tabel willekeurig is, is het voor de leesbaarheid beter deze numeriek, alfabetisch, of volgens stijgende/dalende frequenties te ordenen. Cumulatieve percentages hebben geen zin bij nominale schalen [7](#page=7).
* **Staafdiagram**: Elke waarde $X_i$ wordt voorgesteld door een rechthoek. De rechthoeken zijn even breed, en de hoogte is recht evenredig met $F_i$ of $f_i$. Assen kunnen getransponeerd worden voor een horizontaal staafdiagram [7](#page=7).
* **Cirkeldiagram / Taartdiagram**: Elke waarde $X_i$ wordt voorgesteld door een cirkelsector. De oppervlakte is recht evenredig met de frequentie. Alle categorieën moeten opgenomen zijn. Dit diagram benadrukt de verhouding van elke groep tot het geheel [7](#page=7).
* **Pictogram**: De grootte van de figuur of het aantal keer dat een figuur wordt herhaald, is recht evenredig met de frequentie van elke waarde $X_i$ [8](#page=8).
#### 3.3.2 Ordinale schalen
Bij ordinale schalen is de volgorde van de waarden gebaseerd op hun ordinale ordening ($X_1 < X_2 < X_3 < \dots < X_n$) [8](#page=8).
* **Histogram**: Elke waarde $X_i$ wordt voorgesteld door een rechthoek waarvan de hoogte recht evenredig is met de frequentie. De x-as is gericht maar is geen meeteenheid [8](#page=8).
* **Cumulatieve frequentiefunctie**: Voor iedere waarde $X_i$ gedefinieerd. Voor ordinale variabelen is dit een trapfunctie. Hoge sprongen duiden op hoge frequenties [8](#page=8).
#### 3.3.3 Interval- en ratioschalen
Bij interval- en ratioschalen hebben de verschillen tussen waarden betekenis, en de waarden moeten door recht evenredige verschillen op de x-as worden voorgesteld. Oppervlakten onder functies krijgen betekenis [8](#page=8).
**Niet in klassen gegroepeerde gegevens:**
* **Balkendiagram**: De x-as heeft een meeteenheid en de balken worden op de correcte afstand geplaatst. De hoogte van de balk is recht evenredig met de frequentie [8](#page=8).
* **Histogram**: De x-as heeft een meeteenheid. De balken grenzen aan elkaar om continuïteit te benadrukken. De oppervlakte is recht evenredig met de absolute of relatieve frequentie in het interval [8](#page=8).
* **Frequentiepolygoon**: De x-as heeft een meeteenheid en oppervlakten onder de functie krijgen betekenis. Dit wordt verkregen door de toppen in een staafdiagram rechtlijnig te verbinden [8](#page=8).
* **Cumulatieve frequentiefunctie**: De x-as heeft een meeteenheid. Dit is een trapfunctie bij discrete variabelen [8](#page=8).
**In klassen gegroepeerde gegevens:**
Wanneer het aantal verschillende waargenomen waarden ($n$) groot is, wordt het onoverzichtelijk, waardoor gegevens in klassen worden gegroepeerd. De twee basisregels voor klassen zijn: wederzijds exclusief (niet-overlappende klassen) en exhaustief (elke waarneming kan aan een klasse worden toegewezen). Het aantal klassen moet niet te groot zijn voor overzichtelijkheid, maar ook niet te klein om informatieverlies te vermijden [8](#page=8).
* **Klassenmidden**: Het gemiddelde van de exacte klassengrenzen, gebruikt bij zowel discrete als continue variabelen [8](#page=8).
* **Exacte klasse**: Verschilt bij continue en discrete variabelen. Bij continue variabelen is de waarnemingsklasse gelijk aan de exacte klasse. Bij discrete variabelen wordt een continuïteitscorrectie toegepast door een gelijk stukje voor en achter het discrete getal te plaatsen (bv. 23 wordt [22,5; 23,5[) [9](#page=9).
* **Frequentietabel**: Het klassenmidden is de representatieve waarde voor de beschouwde klasse [9](#page=9).
* **Histogram**: De x-as heeft een meeteenheid en de intervallen worden bepaald door de klassen. De oppervlakte van de rechthoeken is recht evenredig met de absolute of relatieve frequentie (bij klassen van verschillende lengte) [9](#page=9).
* **Frequentieveelhoek**: De x-as heeft een meeteenheid. Klassenmiddens worden op de hoogte van de toppen van de rechthoeken in het histogram rechtlijnig verbonden [9](#page=9).
* **Diagram cumulatieve frequentie**: De x-as heeft een meeteenheid. Er wordt aangenomen dat waarnemingen homogeen verdeeld zijn binnen elke klasse [9](#page=9).
## 4 Univariate statistische maten
Statistische maten worden gebruikt om gegevens te synthetiseren tot kenmerkende waarden, die de geobserveerde frequentieverdeling mathematisch beschrijven. Deze maten kunnen parameters zijn voor een populatie of statistische maten voor een steekproef [10](#page=10).
### 4.1 Soorten statistische maten
Er zijn drie hoofdcategorieën van statistische maten:
1. **Maten van ligging (centrummaten)**: Beschrijven waar de verdeling op de x-as gesitueerd is en liggen steeds tussen de kleinste en grootste waarde. Ze zijn nuttig voor vergelijkingen en geven aan rond welke waarde de verdeling gecentreerd is. Voorbeelden zijn modus, gemiddelde, mediaan en kwartielen [11](#page=11).
2. **Maten van spreiding**: Beschrijven hoe sterk de waarden zich concentreren [11](#page=11).
3. **Maten van vorm**: Beschrijven de symmetrie (scheefheid) en afplatting van de verdeling [11](#page=11).
#### 4.1.1 Maten van ligging
**Modus**:
* De waargenomen waarde van de variabele met de hoogste frequentie (bij brutowaarnemingen) [11](#page=11).
* Kan gebruikt worden bij elke meetschaal, maar is met name relevant voor nominale schalen [11](#page=11).
* In klassen gegroepeerde gegevens: De **modale klasse** is de klasse met de hoogste frequentie; de modus is dan het klassenmidden van deze klasse [11](#page=11).
* **Eigenschappen**: Makkelijk te bepalen, maar niet noodzakelijk uniek (bimodale verdeling). Houdt geen rekening met andere waarden [11](#page=11).
**Mediaan**:
* De waarde van de variabele die de waarnemingen in twee gelijke delen opdeelt; het middelpunt van de verdeling [12](#page=12).
* Vereist minimaal een ordinale schaal [12](#page=12).
* Bepaald a.d.h.v. cumulatieve frequenties. Bij een even aantal waarnemingen wordt de mediaan berekend door lineaire interpolatie van de twee middelste waarden [12](#page=12).
* In klassen gegroepeerde gegevens: De mediaan wordt bepaald via lineaire interpolatie met de formule:
$$ M = X'_m + \frac{N/2 - K(X'_m)}{F_m} \cdot l $$
waarbij $X'_m$ de ondergrens is van de klasse waarin $K(X) = N/2$, $K(X'_m)$ de cumulatieve frequentie voor die ondergrens is, $F_m$ de absolute frequentie van die klasse, en $l$ de lengte van de klasse [12](#page=12).
* **Eigenschappen**: Uniek, minder gevoelig voor extreme waarden (outliers), maar niet geschikt voor nominale variabelen en niet alle waarden worden in rekening gebracht [12](#page=12).
**Rekenkundig gemiddelde ($\bar{x}$)**:
* De som van alle waarnemingen gedeeld door het effectief ($N$) [12](#page=12).
* Vereist minimaal een intervalschaal omdat gelijke afstanden tussen waarden betekenisvol zijn [12](#page=12).
* **Brutowaarnemingen**:
$$ \bar{x} = \frac{\sum_{i=1}^{N} x_i}{N} $$
* **Gegroepeerde gegevens**: Waarbij $X_i$ de klassenmiddens zijn.
$$ \bar{x} = \frac{\sum_{i=1}^{n} X_i F_i}{N} $$
* **Eigenschappen**: Gebruikt alle waarden, is uniek, en wiskundig gebruiksvriendelijk, maar wordt sterk beïnvloed door extreme scores (outliers) en is niet toepasbaar op nominale of ordinale variabelen. Het is de meest courante centrummaat vanaf de intervalschaal [12](#page=12).
**Kwantielen**:
* **Kwartielen**: Verdelen geordende gegevens in 4 gelijke delen. Het tweede kwartiel ($K_2$) is gelijk aan de mediaan. Vereist minimaal een ordinale schaal [13](#page=13).
* **Decielen**: Verdelen geordende gegevens in 10 gelijke delen. Het vijfde deciel ($d_5$) is gelijk aan de mediaan ($K_2$). Vereist minimaal een ordinale schaal [13](#page=13).
* **Percentielen**: Verdelen geordende gegevens in 100 gelijke delen. Het vijftigste percentiel ($p_{50}$) is gelijk aan de mediaan ($d_5$, $K_2$). Vereist minimaal een ordinale schaal [13](#page=13).
#### 4.1.2 Maten van spreiding
Maten van spreiding beschrijven de mate van variatie rond een centrummaat, meestal het gemiddelde. Als alle waarnemingen dezelfde waarde hebben, is de spreidingsmaat nul [14](#page=14).
* **Variatiebreedte (range)**: Het verschil tussen de grootste en de kleinste waargenomen waarde. Vereist minimaal een ordinale schaal (kwantitatief). Bij gegroepeerde gegevens is dit de bovengrens van de hoogste klasse min de ondergrens van de laagste klasse. Gevoelig voor extreme waarden [14](#page=14).
* **Interkwartielafstand (IQR)**: De middelste 50% van de waarnemingen. Berekend als $I = K_3 - K_1$. Vereist minimaal een ordinale schaal (kwantitatief). Relatief ongevoelig voor extreme waarden [14](#page=14).
* **Interdecielafstand**: De middelste 80% van de waarnemingen. Berekend als $D = d_9 - d_1$. Vereist minimaal een ordinale schaal (kwantitatief) [14](#page=14).
* **Centraal moment van rang 1**: Het gemiddelde van de afwijkingen van het rekenkundig gemiddelde. Dit is altijd gelijk aan nul omdat de positieve en negatieve afwijkingen elkaar opheffen. Vereist minimaal een intervalschaal [14](#page=14) [15](#page=15).
* Brutowaarnemingen: $$ \frac{\sum_{i=1}^{N} (x_i - \bar{x})}{N} = 0 $$
* Gegroepeerde gegevens: $$ \frac{\sum_{i=1}^{n} (X_i - \bar{x}) F_i}{N} = 0 $$
* **Gemiddelde absolute afwijking**: De som van de absolute verschillen tussen elke waarde $X_i$ en het rekenkundig gemiddelde, gedeeld door $N$. Vereist minimaal een intervalschaal [15](#page=15).
* Brutowaarnemingen: $$ \frac{\sum_{i=1}^{N} |x_i - \bar{x}|}{N} $$
* Gegroepeerde gegevens: $$ \frac{\sum_{i=1}^{n} |X_i - \bar{x}| F_i}{N} $$
* **Variantie ($s^2$)**: Het gemiddelde van de gekwadrateerde afwijkingen van het rekenkundig gemiddelde. Vereist minimaal een intervalschaal. Alle even centrale momenten geven een indicatie van spreiding [15](#page=15).
* Brutowaarnemingen: $$ s^2 = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^2}{N} $$
* Gegroepeerde gegevens: $$ s^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{x})^2 F_i}{N} $$
* **Standaardafwijking ($s$)**: De vierkantswortel uit de variantie. Vereist minimaal een intervalschaal. Bij een normaalverdeling bevindt 68,3% van de waarnemingen zich tussen $\bar{x} - s$ en $\bar{x} + s$ [15](#page=15).
$$ s = \sqrt{s^2} $$
* **Variatiecoëfficiënt ($v$)**: De ratio van de standaardafwijking op het gemiddelde; een dimensieloze maat. Hoe groter $v$, hoe groter de relatieve spreiding. Vereist minimaal een intervalschaal [15](#page=15).
$$ v = \frac{s}{\bar{x}} $$
* **Z-score**: Een gestandaardiseerde score die aangeeft hoeveel standaardafwijkingen een waarneming boven of onder het gemiddelde ligt [15](#page=15).
**Boxplot**:
* Een grafische weergave die 5 waarden toont: minimum, $K_1$, mediaan, $K_3$, en maximum [16](#page=16).
* Outliers (observaties meer dan 1,5 maal de interkwartielafstand onder $K_1$ of boven $K_3$) worden buiten de boxplot als punten voorgesteld [16](#page=16).
#### 4.1.3 Maten van vorm
De vorm van een verdeling wordt beschreven aan de hand van symmetrie en afplatting.
**1. Symmetrie (scheefheid)**
Er zijn drie situaties:
* **Symmetrisch**: Modus = Mediaan = Gemiddelde. Er zijn evenveel waarden groter als kleiner dan het gemiddelde [16](#page=16).
* **Scheef naar rechts (positieve asymmetrie)**: Modus < Mediaan < Gemiddelde. De "staart" van de verdeling wijst naar rechts [16](#page=16).
* **Scheef naar links (negatieve asymmetrie)**: Modus > Mediaan > Gemiddelde. De "staart" van de verdeling wijst naar links [16](#page=16).
Verschillende coëfficiënten meten symmetrie:
* **Empirische coëfficiënt van Pearson**:
$$ S = \frac{\text{gemiddelde} - \text{modus}}{\text{standaardafwijking}} $$
$S < 0$ = negatief of rechts asymmetrisch, $S = 0$ = symmetrisch, $S > 0$ = positief of links asymmetrisch [17](#page=17).
* **Coëfficiënt van Yule en Kendall**:
$$ Y = \frac{K_3 + K_1 - 2 \cdot \text{Mediaan}}{K_3 - K_1} $$
$Y < 0$ = negatief of rechts asymmetrisch, $Y = 0$ = symmetrisch (kwartielen op gelijke afstand van de mediaan), $Y > 0$ = positief of links asymmetrisch [17](#page=17).
* **Oneven centrale momenten ($m_k$)**: Alle oneven centrale momenten geven een indicatie van de symmetrie ten opzichte van het gemiddelde [17](#page=17).
* Brutowaarnemingen: $$ m_k = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^k}{N} $$
* Gegroepeerde gegevens: $$ m_k = \frac{\sum_{i=1}^{n} (X_i - \bar{x})^k F_i}{N} $$
$m < 0$ = negatief of rechts asymmetrisch, $m = 0$ = symmetrisch, $m > 0$ = positief of links asymmetrisch [17](#page=17).
* **Coëfficiënt van Fisher ($g_1$)**: Dimensieloos, waardoor symmetrie voor verschillende variabelen vergeleken kan worden [17](#page=17).
$g < 0$ = negatief of rechts asymmetrisch, $g = 0$ = symmetrisch, $g > 0$ = positief of links asymmetrisch [17](#page=17).
* **Coëfficiënt van Pearson (niet de empirische)**: Dimensieloos [17](#page=17).
$b = 0$ = symmetrisch, $b > 0$ = asymmetrisch. Geeft geen informatie over linkse of rechtse asymmetrie [17](#page=17).
**2. Afplatting (kurtosis)**
Kurtosis geeft aan hoe spits of hoe plat de verdeling is, met drie situaties [17](#page=17):
* **Platykurtisch**: Minder gepiekt dan de Gauss-verdeling.
* **Mesokurtisch**: Gelijk aan de Gauss-verdeling.
* **Leptokurtisch**: Meer gepiekt dan de Gauss-verdeling.
Formules voor kurtosis zijn gebaseerd op centrale momenten van rang 4:
* **Coëfficiënt van Pearson ($b_2$)**:
$b < 3$ = platykurtisch, $b = 3$ = mesokurtisch, $b > 3$ = leptokurtisch [18](#page=18).
* **Coëfficiënt van Fisher ($g_2$)**:
$g < 0$ = platykurtisch, $g = 0$ = mesokurtisch, $g > 0$ = leptokurtisch [18](#page=18).
Een overzicht van momenten is beschikbaar [18](#page=18).
---
# Tweedimensionale reeksen en associatiematen
Hier is een gedetailleerde studiehandleiding voor het onderwerp "Tweedimensionale reeksen en associatiematen", gebaseerd op de verstrekte documentinhoud.
## 4. Tweedimensionale reeksen en associatiematen
Dit onderwerp onderzoekt de analyse van de samenhang tussen twee variabelen, beginnend met categorische gegevens en uitbreidend naar continue gegevens, met behulp van verschillende statistische technieken en maten.
### 4.1 De kruistabel en associatiematen voor nominale en ordinale variabelen
Analyse van de samenhang tussen twee variabelen vereist het bestuderen van tweedimensionale (bivariate) reeksen, waarbij de variabelen samen variëren. Het meetniveau van de variabelen bepaalt de geschikte analysemethode. Wanneer variabelen van verschillende meetniveaus worden gecombineerd, kiest men altijd het laagste niveau [18](#page=18).
#### 4.1.1 Kruistabellen
Een kruistabel, ook wel dwars- of contigentietabel genoemd, toont de frequentieverdeling van twee categorische variabelen. Onafhankelijke variabelen worden meestal in kolommen en afhankelijke variabelen in rijen geplaatst voor asymmetrische relaties [19](#page=19).
* **Marginale verdeling:** De verdeling van een enkele variabele, ongeacht de andere variabele (rij- of kolomtotaal) [19](#page=19).
* **Conditionele verdeling:** De verdeling van de ene variabele binnen een specifieke categorie van de andere variabele [19](#page=19).
* **Statistische afhankelijkheid:** De conditionele verdelingen verschillen tussen de categorieën van de ene variabele [19](#page=19).
* **Statistische onafhankelijkheid:** De conditionele verdelingen zijn identiek in alle categorieën, wat betekent dat kennis van de ene variabele niet helpt bij het voorspellen van de andere [19](#page=19).
Relatieve conditionele verdelingen (rij- en kolompercentages) helpen de aard van het verband te beschrijven [19](#page=19).
* **Kolompercentage:** $ (\text{celfrequentie} / \text{kolomtotaal}) \times 100 $ [19](#page=19).
* **Rijpercentage:** $ (\text{celfrequentie} / \text{rijtotaal}) \times 100 $ [19](#page=19).
#### 4.1.2 Chi-kwadraattoets
De chi-kwadraattoets wordt gebruikt om te bepalen of een waargenomen verband significant is, dus niet aan toeval te wijten [19](#page=19) [20](#page=20).
* **Stappen van de hypothesetoetsing:**
1. **Assumpties:** Gegevens uit een aselecte steekproef, correct meetniveau, etc. [19](#page=19).
2. **Hypothesen:** De nulhypothese ($H_0$) stelt dat er geen verband is (toeval) [20](#page=20).
3. **Toetsstatistiek (Chi-kwadraat):** Vergelijkt geobserveerde ($f_o$) en verwachte ($f_e$) celfrequenties, bij afwezigheid van afhankelijkheid. De formule is [20](#page=20):
$$ \chi^2 = \sum \frac{(f_o - f_e)^2}{f_e} $$
De verwachte celfrequentie ($f_e$) wordt berekend als: $f_e = (\text{rijtotaal} \times \text{kolomtotaal}) / \text{totaal aantal waarnemingen}$. Een hogere chi-kwadraatwaarde duidt op een sterker verband [20](#page=20).
4. **Overschrijdingskans (p-waarde):** De kans om de geobserveerde of extremere resultaten te verkrijgen indien de nulhypothese waar is. Een kleinere p-waarde versterkt het bewijs tegen de nulhypothese. Deze kans wordt bepaald met behulp van een chi-kwadraattabel, rekening houdend met het significantieniveau en de vrijheidsgraden ($df = (\text{aantal rijen} - 1) \times (\text{aantal kolommen} - 1)$) [20](#page=20).
5. **Conclusie:** Interpreteren van de resultaten in relatie tot de vraagstelling [20](#page=20).
#### 4.1.3 Associatiematen voor nominale en ordinale variabelen
Associatiematen kwantificeren de sterkte van de samenhang tussen variabelen.
* **Phi-kwadraat ($\phi^2$):** Een associatiemaat voor 2x2 tabellen. Een waarde van 0 betekent statistische onafhankelijkheid; 1 betekent perfecte positieve samenhang. De bovengrens is niet vast bij grotere tabellen [20](#page=20).
* **Cramer's V:** Een associatiemaat die de beperkingen van phi-kwadraat oplost voor grotere kruistabellen. De formule is [20](#page=20):
$$ V = \sqrt{\frac{\chi^2}{n \cdot \min(r-1, c-1)}} $$
Waarbij $n$ het totaal aantal waarnemingen is, $r$ het aantal rijen en $c$ het aantal kolommen. $\min(r-1, c-1)$ is het minimum van het aantal rijen min 1 en het aantal kolommen min 1 [21](#page=21).
**Interpretatie van Cramer's V:**
* 0: geen verband [21](#page=21).
* 0 – 0,10: zeer zwak verband [21](#page=21).
* 0,11 – 0,30: zwak verband [21](#page=21).
* 0,31 – 0,50: redelijk verband [21](#page=21).
* 0,51 – 0,80: sterk verband [21](#page=21).
* 0,81 – 0,99: zeer sterk verband [21](#page=21).
* 1: perfect verband [21](#page=21).
### 4.2 Samenhang tussen interval- en ratiovariabelen
Voor kwantitatieve variabelen (interval/ratio) worden scatterplots, covariantie en correlatie gebruikt [21](#page=21).
#### 4.2.1 Scatterplots
Een scatterplot (spreidingsdiagram) is een grafische weergave van de samenhang tussen twee kwantitatieve variabelen, waarbij elke waarneming als een punt wordt geplot. De onafhankelijke variabele wordt op de x-as geplaatst en de afhankelijke op de y-as [21](#page=21).
Een scatterplot kan inzicht geven in:
* **Trend:** Lineair, curvilineair, clusters of geen patroon [21](#page=21).
* **Richting:** Positief verband (beide variabelen stijgen of dalen samen) of negatief verband (één variabele stijgt, de andere daalt) [22](#page=22).
* **Sterkte:** Hoe geconcentreerd de punten zijn rond de trendlijn [22](#page=22).
#### 4.2.2 Covariantie
Covariantie is een maat voor de mate waarin de waarden van twee interval- of ratiovariabelen samen variëren. Het zwaartepunt van de tweedimensionale verdeling is het punt van de gemiddelden $( \bar{x}, \bar{y} )$. De covarantie wordt berekend door de som van de producten van de afwijkingen van elk punt ten opzichte van het gemiddelde te delen door het aantal waarnemingen ($N$) [23](#page=23).
* **Interpretatie:**
* Covariantie $< 0$: negatieve samenhang [23](#page=23).
* Covariantie $= 0$: lineaire onafhankelijkheid [23](#page=23).
* Covariantie $> 0$: positieve samenhang [23](#page=23).
Een nadeel van covariantie is dat het geen vaste boven- of ondergrens heeft, wat standaardisatie noodzakelijk maakt [23](#page=23).
#### 4.2.3 Pearson productmoment correlatiecoëfficiënt ($r$)
De Pearson productmoment correlatiecoëfficiënt is een gestandaardiseerde maat voor de mate van lineaire samenhang tussen twee interval- of ratiovariabelen. Het is een symmetrische associatiemaat, wat betekent dat het onderscheid tussen afhankelijke en onafhankelijke variabele hier niet relevant is [24](#page=24).
* **Eigenschappen:**
* Gevoelig voor outliers [24](#page=24).
* Ongevoelig voor meeteenheid van variabelen [24](#page=24).
* Een waarde van $r=0$ kan wijzen op sterke niet-lineaire samenhang [24](#page=24).
* **Interpretatie van de mate van afhankelijkheid ($r$):**
* $r = 1$: perfecte positieve lineaire correlatie [24](#page=24).
* $r = -1$: perfecte negatieve lineaire correlatie [24](#page=24).
* $r = 0$: onafhankelijkheid of geen correlatie [24](#page=24).
**Richtlijnen voor interpretatie van de sterkte:**
* $ [0,7; 1[ $: sterke positieve correlatie [24](#page=24).
* $ [0,3; 0,7[ $: matige positieve correlatie [24](#page=24).
* $ ]0; 0,3[ $: zwakke positieve correlatie [24](#page=24).
* $ ]0; -0,3[ $: zwakke negatieve correlatie [24](#page=24).
* $ [-0,3; -0,7[ $: matige negatieve correlatie [24](#page=24).
* $ [-0,7; -1[ $: sterke negatieve correlatie [24](#page=24).
### 4.3 Regressieanalyse
Regressieanalyse wordt gebruikt om de afhankelijke variabele te voorspellen op basis van de onafhankelijke variabele(n), wat het een asymmetrische analyse maakt [24](#page=24).
#### 4.3.1 Bivariate regressie
Bij bivariate regressie is er één onafhankelijke en één afhankelijke variabele. De regressierechte (RR) wordt gebruikt om de relatie te modelleren [24](#page=24).
* **Regressievergelijking:** $ \hat{Y} = a + bX $ [24](#page=24).
* $a$: Intercept (constante), de voorspelde waarde van $Y$ als $X=0$ [24](#page=24).
* $b$: Richtingscoëfficiënt, geeft de verandering in $\hat{Y}$ aan voor een eenheidstoename in $X$ [24](#page=24).
* **Residu:** Het verschil tussen de geobserveerde waarde ($Y_i$) en de voorspelde waarde ($\hat{Y}_i$) [25](#page=25).
$$ e_i = Y_i - \hat{Y}_i $$
Negatieve residuen duiden op overschatting, positieve op onderschatting [25](#page=25).
* **Methode van de kleinste kwadraten:** Minimaliseert de som van de gekwadrateerde residuen om de regressierechte te bepalen [25](#page=25).
* **Verband tussen correlatie en richtingscoëfficiënt:**
* De correlatiecoëfficiënt is symmetrisch en onafhankelijk van de meeteenheid [24](#page=24) [25](#page=25).
* De richtingscoëfficiënt is asymmetrisch en afhankelijk van de meeteenheid; deze verandert als de onafhankelijke en afhankelijke variabelen worden verwisseld [25](#page=25).
* Bij perfecte correlatie ($r = 1$ of $r = -1$) vallen beide regressierechten samen. Bij $r=0$ staan de regressierechten loodrecht op elkaar [26](#page=26).
#### 4.3.2 Verklaarde en residuele variantie
De totale variantie in de afhankelijke variabele kan worden opgesplitst in een verklaard deel door de regressie en een onverklaard deel (residu) [26](#page=26).
* **Totale variantie (SST):** De gemiddelde gekwadrateerde verschillen tussen de geobserveerde waarden en het gemiddelde van $Y$ [26](#page=26).
* **Verklaarde variantie (SSR):** Het deel van de variantie dat door de regressie wordt verklaard [26](#page=26).
* **Residuele variantie (SSE):** Het onverklaarde deel van de variantie, ook wel foutvariantie genoemd [26](#page=26).
$$ \text{SST} = \text{SSR} + \text{SSE} $$
* **Determinatiecoëfficiënt ($R^2$):** De proportie van de totale variantie in de afhankelijke variabele die wordt verklaard door de onafhankelijke variabele. Het wordt berekend als [26](#page=26):
$$ R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}} $$
Een hogere $R^2$ geeft aan dat de regressielijn de gegevens beter beschrijft [26](#page=26).
> **Tip:** Correlatie impliceert niet noodzakelijk causaliteit. Wees voorzichtig met het trekken van conclusies over oorzaak-gevolgrelaties op basis van correlatie alleen [27](#page=27).
#### 4.3.3 Rangcorrelatiecoëfficiënten
Voor ordinale variabelen, waarbij alleen een rangordening bekend is, zijn rangcorrelatiecoëfficiënten geschikt [27](#page=27).
* **Rangcorrelatiecoëfficiënt van Spearman ($\rho$ of $r_s$):** Berekent de correlatie op basis van de rangen van de waarnemingen. De formule is [27](#page=27):
$$ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $$
Waarbij $d_i$ het verschil is tussen de rangen van variabele X en Y voor de $i$-de waarneming, en $n$ het aantal waarnemingen [28](#page=28).
* Interpretatie is vergelijkbaar met Pearson's $r$: $-1$ (perfect negatieve samenhang), $0$ (onafhankelijkheid), $1$ (perfect positieve samenhang) [28](#page=28).
* **Kendall's Tau ($\tau$):** Een andere rangcorrelatiecoëfficiënt die gebaseerd is op concordante en discordante paren. Het controleert of de rangordening van respondenten voor de ene variabele overeenkomt met die voor de andere [28](#page=28).
* **Concordant paar:** Twee paren (A, B) en (C, D) zijn concordant als (A < C en B < D) of (A > C en B > D) [28](#page=28).
* **Discordant paar:** Twee paren (A, B) en (C, D) zijn discordant als (A < C en B > D) of (A > C en B < D) [28](#page=28).
De formule is:
$$ \tau = \frac{C - D}{0.5n(n-1)} $$
Waarbij $C$ het aantal concordante paren is en $D$ het aantal discordante paren [28](#page=28).
* Interpretatie is ook hier vergelijkbaar: $-1$ (perfect negatieve afhankelijkheid), $0$ (onafhankelijkheid), $1$ (perfect positieve afhankelijkheid) [28](#page=28).
---
# Analyse van tijdreeksen
Tijdreeksen analyseren de evolutie van chronologisch geordende gegevens om trends, schommelingen en veranderingen over tijd te meten [29](#page=29).
### 5.1 Wat is een tijdreeks?
Een tijdreeks is een opeenvolging van chronologisch geordende kwantitatieve gegevens die met een vast tijdsinterval zijn verzameld, zoals een jaar, maand of dag. Het is een tweedimensionale waargenomen reeks waarbij één variabele de tijd is, en elk punt $(T_i, Y_i)$ een frequentie van 1 heeft. De tijdgebonden dimensie is expliciet aanwezig, en tijdreeksanalyse onderzoekt de relatie tussen een specifieke variatie en de tijd [29](#page=29).
Voorbeelden hiervan zijn de groei van de wereldbevolking sinds 1800, de evolutie van de levensverwachting van Belgische vrouwen van 1841 tot 2005, of de evolutie van maag- en longkanker in België tussen 1954 en 1994 [29](#page=29).
Het fundamentele verschil met een 'gewone' tweedimensionale reeks is dat de volgorde van de $Y$-waarden cruciaal is bij tijdreeksen, omdat ze in de tijd zijn geordend. Tijd is hierbij een bijzondere variabele die vaststaat, niet wordt beïnvloed door andere variabelen, en steeds de onafhankelijke variabele is in de analyse [29](#page=29).
### 5.2 Toepassingsgebied en componenten van tijdreeksen
Tijdreeksanalyse kent een breed toepassingsgebied in diverse disciplines zoals economie, demografie, epidemiologie, geneeskunde, geschiedenis en politieke evoluties. Het doel is het ontleden van tijdreeksen om ontwikkelingen van variabelen in de tijd te meten [29](#page=29).
Tijdreeksen kunnen ontleed worden in de volgende componenten:
* **Trends (LT):** Lange termijn ontwikkeling [29](#page=29).
* **Schommelingen (MT):** Middellange termijn variaties [29](#page=29).
* **Onregelmatige of toevallige KT veranderingen op trends (KT):** Korte termijn fluctuaties [29](#page=29).
### 5.3 Technieken voor tijdreeksanalyse
Er worden drie primaire technieken onderscheiden voor de analyse van tijdreeksen:
#### 5.3.1 Groei en groeivoeten
Binnen deze techniek worden drie soorten indicatoren gebruikt: de gemiddelde groei, de groeivoet en de gemiddelde groeivoet [29](#page=29).
* **Gemiddelde groei:** Dit wordt berekend als het verschil tussen de eindwaarde en de beginwaarde, gedeeld door de periode. Het nadeel is dat deze waarde in absolute termen per jaar wordt uitgedrukt en niets zegt over de relatieve groei [29](#page=29).
$$ \text{Gemiddelde groei} = \frac{\text{eindwaarde} - \text{beginwaarde}}{\text{periode}} $$
* **Groeivoet:** Dit vertegenwoordigt de relatieve groei ten opzichte van de beginwaarde [29](#page=29).
$$ \text{Groeivoet} = \frac{\text{eindwaarde} - \text{beginwaarde}}{\text{beginwaarde}} $$
* **Gemiddelde groeivoet:** Dit is de procentuele toename ten opzichte van het voorgaande jaar, dus de groei per jaar. Deze indicator is het meest gebruikt omdat het de procentuele toe- of afname op cumulatieve wijze uitdrukt ten opzichte van het voorgaande jaar [30](#page=30).
$$ \text{Gemiddelde groeivoet} = \frac{Y_t - Y_{t-1}}{Y_{t-1}} $$
waarbij $n$ het aantal jaren in de onderzochte periode is [30](#page=30).
#### 5.3.2 Lineaire trends
Een alternatieve methode om een trend te construeren, vooral als de groeivoet te beperkt is (enkel gebaseerd op begin- en eindwaarden), is via lineaire regressieanalyse. Hierbij worden de waargenomen waarden geanalyseerd aan de hand van een lineair model. Het doel is het minimaliseren van de som van de kwadraten van de residuen [30](#page=30).
$$ \sum_{i=1}^{n} (Y_i - (\hat{a} + \hat{b}X_i))^2 $$
**Voordelen van lineaire trends:**
* Extrapoleren naar de toekomst [30](#page=30).
* Interpoleren voor ontbrekende waarden [30](#page=30).
**Nadelen van lineaire trends:**
* Veronderstelling van lineariteit [30](#page=30).
* Minder geschikt voor niet-lineaire evoluties, waar mogelijk andere functievormen nodig zijn [30](#page=30).
#### 5.3.3 Voortschrijdende gemiddelden
Voortschrijdende gemiddelden (moving averages) vormen een alternatieve manier om een trend te identificeren door korte termijn schommelingen (zoals seizoens- of cyclische schommelingen) uit te vlakken om de lange termijn trend te benadrukken. Het is het gemiddelde van een vast aantal opeenvolgende elementen in een tijdreeks [30](#page=30).
> **Tip:** Voortschrijdende gemiddelden helpen bij het visualiseren van de onderliggende trend door het 'ruis' van kortetermijnfluctuaties te verminderen.
### 5.4 Aandachtspunten bij tijdreeksanalyse
Bij het analyseren van tijdreeksen is voorzichtigheid geboden. Tijdreeksen zijn gevoelig voor veranderingen, en men dient altijd alert te zijn voor meetfouten of veranderde definities. Vooral bij korte tijdreeksen bestaat het gevaar om de trend te verwarren met seizoenseffecten of kortetermijnschommelingen [30](#page=30).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Statistiek | De wetenschap van het verzamelen, analyseren, interpreteren, presenteren en organiseren van gegevens om kennis en inzicht te verwerven. |
| Empirisch onderzoek | Onderzoek dat gebaseerd is op waarnemingen en ervaringen in de werkelijkheid, waarbij data worden verzameld en geanalyseerd. |
| Beschrijvende statistiek | Tak van statistiek die zich bezighoudt met het samenvatten en beschrijven van gegevens door middel van kengetallen en grafische technieken. |
| Inferentiële statistiek | Tak van statistiek die zich bezighoudt met het trekken van conclusies over een populatie op basis van een steekproef van gegevens. |
| Verklarende statistiek | Statistische analyse gericht op het verklaren van verschillen en samenhangen tussen variabelen. |
| Onderzoekspopulatie | De volledige groep leden die men wil onderzoeken. |
| Waarnemingseenheid / statistische eenheid | Een individueel element of geval binnen de bestudeerde populatie dat wordt onderzocht. |
| Variabele | Een kenmerk van onderzoekseenheden dat kan variëren en waarin men geïnteresseerd is voor analyse. |
| Datamatrix | Een gestructureerde tabel die alle verzamelde gegevens organiseert, met variabelen als kolommen en waarnemingseenheden als rijen. |
| Parameters | Kengetallen die de verdeling van een kenmerk in een populatie beschrijven, zoals het populatiegemiddelde ($\mu$) en de populatiestandaardafwijking ($\sigma$). |
| Steekproef | Een representatief deel van de populatie dat wordt geselecteerd voor onderzoek, met als doel conclusies te kunnen trekken over de gehele populatie. |
| Steekproefstatistieken / schatters | Statistische kengetallen berekend uit een steekproef, die worden gebruikt om parameters van de populatie te schatten, zoals het steekproefgemiddelde ($\bar{x}$) en de steekproefstandaardafwijking ($s$). |
| Meetschaal | De set van waarden die aan een variabele worden toegekend, bepaald door de manier waarop de variabele wordt gemeten, en die aangeeft welke statistische analyses mogelijk zijn. |
| Nominale schaal | Een meetschaal die variabelen classificeert in categorieën zonder rangorde of kwantitatieve betekenis; getallen dienen slechts als labels. |
| Ordinale schaal | Een meetschaal die variabelen classificeert en rangschikt op basis van een volgorde, maar waarbij de verschillen tussen de waarden niet interpreteerbaar zijn. |
| Interval schaal | Een meetschaal die classificatie, rangorde en een gelijke meeteenheid biedt, waarbij de verschillen tussen waarden betekenisvol zijn, maar er geen absoluut nulpunt is. |
| Ratio schaal | Een meetschaal die classificatie, rangorde, een gelijke meeteenheid en een absoluut nulpunt biedt, waarbij de verhoudingen tussen waarden betekenisvol zijn. |
| Kwalitatieve variabele | Een variabele die categorische waarden weergeeft, zoals nominale of ordinale gegevens. |
| Kwantitatieve variabele | Een variabele die numerieke waarden weergeeft, zoals interval- of ratiogegevens. |
| Discrete variabele | Een variabele die alleen gehele waarden kan aannemen, vaak het resultaat van tellen. |
| Continue variabele | Een variabele die elke waarde binnen een bepaald bereik kan aannemen, vaak het resultaat van meten. |
| Dummy variabele | Een categorische variabele met twee categorieën die wordt gecodeerd met 0 en 1, vaak gebruikt in regressieanalyses. |
| Frequentieverdeling | Een overzicht dat aangeeft hoe vaak elke waarde of categorie van een variabele voorkomt in een dataset, uitgedrukt in absolute of relatieve aantallen. |
| Absolute frequentie (Fi) | Het aantal keren dat een specifieke waarde of categorie voorkomt in een dataset. |
| Relatieve frequentie (fi) | Het aandeel van de absolute frequentie ten opzichte van het totaal aantal waarnemingen ($fi = Fi / N$). |
| Cumulatieve frequentie | Het totaal aantal waarnemingen tot en met een bepaalde waarde of categorie. |
| Staafdiagram | Een grafische weergave waarbij rechthoeken de frequentie van elke categorie van een nominale of ordinale variabele voorstellen; de hoogte is evenredig met de frequentie. |
| Cirkeldiagram / taartdiagram | Een grafische weergave waarbij de oppervlakte van elke sector van een cirkel de relatieve frequentie van een categorie voorstelt. |
| Histogram | Een grafische weergave die de frequentieverdeling van continue of discrete variabelen toont met behulp van aangrenzende balken, waarbij de oppervlakte van elke balk evenredig is met de frequentie in een interval. |
| Maten van ligging | Statistische maten die de centrale tendens of de typische waarde van een dataset beschrijven, zoals modus, mediaan en gemiddelde. |
| Centrummaten | Maten die de centrale tendens van een dataset aangeven, zoals modus, mediaan en rekenkundig gemiddelde. |
| Modus | De waarde van een variabele die het vaakst voorkomt in een dataset. |
| Mediaan | De middelste waarde in een geordende dataset; deze waarde verdeelt de data in twee gelijke helften. |
| Rekenkundig gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden. |
| Kwantielen | Maten die een geordende dataset verdelen in gelijke delen, zoals kwartielen (4 delen), decielen (10 delen) en percentielen (100 delen). |
| Maten van spreiding | Statistische maten die de mate van variatie of verspreiding van gegevens rond een centrummaat weergeven. |
| Variatiebreedte / range | Het verschil tussen de hoogste en de laagste waarde in een dataset. |
| Interkwartielafstand (IQR) | Het verschil tussen het derde kwartiel (K3) en het eerste kwartiel (K1), dat de middelste 50% van de gegevens omvat. |
| Variantie | De gemiddelde gekwadrateerde afwijking van het rekenkundig gemiddelde; een maat voor spreiding. |
| Standaardafwijking ($s$) | De vierkantswortel van de variantie; een veelgebruikte maat voor de spreiding van gegevens rond het gemiddelde. |
| Variatiecoëfficiënt | De ratio van de standaardafwijking tot het gemiddelde ($v = s / \bar{x}$), gebruikt om spreiding relatief aan het gemiddelde te vergelijken. |
| Z-score | Een gestandaardiseerde score die aangeeft hoeveel standaardafwijkingen een bepaalde waarneming van het gemiddelde ligt ($Z = (X - \bar{x}) / s$). |
| Maten van vorm | Statistische maten die de vorm van een verdeling beschrijven, met name symmetrie (scheefheid) en afplatting (kurtosis). |
| Scheefheid | Een maat voor de asymmetrie van een verdeling; een scheve verdeling heeft een langere staart aan één kant. |
| Kurtosis | Een maat voor de afplatting of spitsheid van een verdeling ten opzichte van een normale verdeling. |
| Tweedimensionale reeks / bivariate reeks | Een reeks gegevens die twee variabelen tegelijkertijd bestudeert om de samenhang daartussen te analyseren. |
| Kruistabel | Een tabel die de frequentieverdeling van twee categorische variabelen weergeeft, met cellen die de frequentie van combinaties van categorieën tonen. |
| Associatiematen | Maten die de sterkte van de relatie tussen twee variabelen kwantificeren. |
| Chi-kwadraattoets ($\chi^2$) | Een statistische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen in een kruistabel. |
| Phi-kwadraat ($\phi^2$) | Een associatiemaat voor 2x2 kruistabellen die de sterkte van het verband aangeeft. |
| Cramer's V | Een associatiemaat die de sterkte van het verband tussen twee categorische variabelen in een kruistabel aangeeft, en die geschikt is voor tabellen van elke grootte. |
| Scatterplot / spreidingsdiagram | Een grafische weergave van de relatie tussen twee kwantitatieve variabelen, waarbij elk datapunt wordt weergegeven als een punt in een tweedimensionaal assenstelsel. |
| Covariantie | Een maat voor de mate waarin twee kwantitatieve variabelen samen variëren; positief als ze samen stijgen/dalen, negatief als ze tegengesteld variëren, en nul bij lineaire onafhankelijkheid. |
| Correlatiecoëfficiënt (Pearson $r$) | Een symmetrische associatiemaat die de sterkte en richting van de lineaire relatie tussen twee kwantitatieve variabelen aangeeft, variërend van -1 (perfecte negatieve correlatie) tot +1 (perfecte positieve correlatie). |
| Regressieanalyse | Een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren en voorspellingen te doen. |
| Regressierechte (RR) | De lijn die de geschatte relatie tussen een onafhankelijke en een afhankelijke variabele weergeeft in een regressiemodel. |
| Intercept ($a$) | De voorspelde waarde van de afhankelijke variabele wanneer de onafhankelijke variabele nul is. |
| Richtingscoëfficiënt ($b$) | Geeft aan hoeveel de afhankelijke variabele naar verwachting verandert voor elke eenheidstoename in de onafhankelijke variabele. |
| Residu | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de voorspelde waarde op basis van het regressiemodel. |
| Methode van de kleinste kwadraten | Een methode om de regressielijn te bepalen door de som van de gekwadrateerde residuen te minimaliseren. |
| Verklaarde variantie | Het deel van de totale variatie in de afhankelijke variabele dat kan worden verklaard door het regressiemodel. |
| Residuele variantie | Het deel van de totale variatie in de afhankelijke variabele dat niet kan worden verklaard door het regressiemodel (ook wel onverklaarde variantie genoemd). |
| Determinatiecoëfficiënt ($R^2$) | De verhouding van de verklaarde variantie tot de totale variantie; geeft aan welk percentage van de variatie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n). |
| Rangcorrelatiecoëfficiënt | Een maat voor de samenhang tussen twee ordinale variabelen, gebaseerd op hun rangordes. |
| Rangcorrelatiecoëfficiënt van Spearman ($\rho$) | Een rangcorrelatiecoëfficiënt die de lineaire samenhang tussen de rangordes van twee variabelen meet. |
| Kendall's Tau ($\tau$) | Een rangcorrelatiecoëfficiënt die de mate van overeenkomst in rangorde tussen twee variabelen meet door concordante en discordante paren te analyseren. |
| Tijdreeks | Een reeks kwantitatieve gegevens die chronologisch is geordend met regelmatige tijdsintervallen, gebruikt om ontwikkelingen in de tijd te analyseren. |
| Trends (LT) | De langetermijnontwikkeling of het algemene patroon in een tijdreeks. |
| Schommelingen (MT) | Middellange termijn variaties in een tijdreeks, zoals cyclische patronen. |
| Kortetermijnveranderingen (KT) | Onregelmatige of toevallige fluctuaties in een tijdreeks. |
| Groei | De verandering van een variabele over tijd. |
| Groeivoet | De relatieve groei van een variabele ten opzichte van de beginwaarde. |
| Gemiddelde groeivoet | De gemiddelde procentuele toename of afname per jaar in een tijdreeks. |
| Voortschrijdende gemiddelden | Een techniek om de trend in een tijdreeks te identificeren door het gemiddelde van opeenvolgende data-elementen te berekenen en zo kortetermijnschommelingen uit te vlakken. |