Cover
Empieza ahora gratis Samenvatting statistiek I.pdf
Summary
# Introductie tot statistiek
Statistiek dient als een essentiële kennismethode om de wereld te begrijpen door middel van empirisch onderzoek, waarbij gegevens worden verzameld, geanalyseerd en gepresenteerd [2](#page=2).
### 1.1 Wat is statistiek?
Statistiek fungeert als een instrument binnen het empirisch onderzoek, gericht op het observeren en analyseren van gegevens en verdelingen om de wereld beter te kennen en te begrijpen. Het proces van empirisch onderzoek omvat typisch vier stappen: de probleemstelling, het onderzoeksontwerp en de dataverzameling, de data-analyse, en de rapportage [2](#page=2).
### 1.2 Soorten statistiek
Er wordt een onderscheid gemaakt tussen beschrijvende statistiek en inferentiële statistiek:
#### 1.2.1 Beschrijvende statistiek
Beschrijvende statistiek, ook wel deductieve statistiek genoemd, heeft als doel om een grote hoeveelheid informatie en de kenmerken daarvan op een duidelijke en efficiënte manier samen te vatten en te ordenen. Dit kan worden bereikt door middel van samenvattende maten, zoals percentages, mediaan, kwantielen, gemiddelden, standaardafwijkingen en correlatiecoëfficiënten, evenals grafische weergaven [2](#page=2).
* **Doel:** Ordenen en synthetiseren van grote hoeveelheden gegevens [2](#page=2).
* **Voorbeelden:** Samenhang- en verschilvragen, analyse van 12.000 enquêtes, gegevens van de Veiligheidsmonitor, verkiezingsonderzoeken, of gezondheidsenquêtes [2](#page=2).
#### 1.2.2 Inferentiële statistiek
Inferentiële statistiek, ook wel inductieve statistiek genoemd, maakt het mogelijk om met een beperkt aantal gegevens uitspraken te doen over een breder geheel, oftewel een volledige populatie. Deze vorm van statistiek is gericht op het verklaren van verschillen en samenhangen. Technieken zoals regressieanalyse (bivariate, multivariate, logistische regressie) en survival analyse vallen hieronder [2](#page=2).
* **Doel:** Uitspraken doen over een volledige bevolking op basis van een toevalssteekproef [2](#page=2).
* **Voorbeelden:** Belgische lonen in 2018 [2](#page=2).
> **Tip:** Beschrijvende statistiek vat de data samen die je hebt, terwijl inferentiële statistiek deze data gebruikt om conclusies te trekken over een grotere groep dan je direct hebt onderzocht.
### 1.3 Misleiding door statistiek
Statistieken kunnen misleidend zijn wanneer de uitkomsten van een onderzoek worden gemanipuleerd. Dit kan op verschillende manieren gebeuren [3](#page=3):
1. **Verzamelen van gegevens:** Dit omvat het hanteren van een te klein aantal onderzochte personen of het formuleren van slechte vragen [3](#page=3).
2. **Presentatie van de gegevens:** Manipulatie kan plaatsvinden door bijvoorbeeld een deel van een grafiek weg te laten of de schaal te veranderen [3](#page=3).
3. **Het omschrijven van de conclusies:** De manier waarop de resultaten worden gerapporteerd, kan ook leiden tot misleiding [3](#page=3).
> **Tip:** Wees altijd kritisch op de manier waarop statistische resultaten worden gepresenteerd en vraag je af of er mogelijke manieren zijn waarop de data gemanipuleerd zouden kunnen zijn.
### 1.4 Oorsprong van de statistiek
De oorsprong van de statistiek ligt in het midden van de 18e eeuw, toen er behoefte ontstond aan informatie over naties ten behoeve van staatsboekhoudkunde en systematische verzameling van demografische en economische data door overheden voor fiscale en militaire doeleinden. In de loop van de 19e eeuw nam de hoeveelheid verzamelde gegevens toe, evenals de aandacht voor data-analyse en -presentatie. Adolphe Quetelet (1796-1874), geboren in Gent en werkzaam in Brussel, wordt gezien als een sleutelfiguur in de ontwikkeling van de statistiek [3](#page=3).
---
# Variabelen verkennen en visualiseren
Dit deel van de cursus behandelt de fundamentele concepten van onderzoekspopulaties, onderzoekseenheden en variabelen, evenals de verschillende meetniveaus en methoden voor het visualiseren van frequentieverdelingen [4](#page=4) [6](#page=6) [8](#page=8).
### 2.1 Terminologie en kernbegrippen
Om statistische analyses te kunnen uitvoeren, is een duidelijk begrip van de terminologie essentieel [4](#page=4).
#### 2.1.1 Onderzoekspopulatie en onderzoekseenheid
* **Onderzoekspopulatie**: Dit is de volledige groep eenheden die een onderzoeker wil bestuderen. Vaak is het onmogelijk om de gehele populatie te onderzoeken, waardoor er gebruik wordt gemaakt van steekproeven [4](#page=4).
* **Onderzoekseenheid**: Een individueel element binnen de bestudeerde populatie, zoals een persoon, een dier, een gebouw, of een land [4](#page=4).
#### 2.1.2 Variabelen
* **Variabele**: Een kenmerk van onderzoekseenheden waarin de onderzoeker geïnteresseerd is. Variabelen kunnen numerieke waarden aannemen (zoals leeftijd) of niet-numerieke waarden (zoals geslacht) [4](#page=4).
* **Datamatrix/dataset**: Een gestructureerde weergave van onderzoeksgegevens waarbij rijen onderzoekseenheden (cases) vertegenwoordigen, kolommen variabelen, en cellen de specifieke waarden van die variabelen voor een gegeven eenheid [4](#page=4).
#### 2.1.3 Steekproeven en fouten
* **Steekproef (Sample)**: Een representatief deel van de onderzoekspopulatie dat daadwerkelijk wordt onderzocht [4](#page=4).
* **Parameters**: Kengetallen die de verdeling van een kenmerk in de *populatie* beschrijven. Voorbeelden zijn de populatiegemiddelde ($\mu$) en de populatiestandaardafwijking ($\sigma$) [4](#page=4).
* **Steekproefstatistieken**: Statistische kengetallen van een *steekproef* die als schatters voor populatieparameters dienen. Voorbeelden zijn de steekproefgemiddelde ($\bar{x}$) en de steekproefstandaardafwijking ($s$) [4](#page=4).
> **Tip**: Onthoud het onderscheid: parameters voor populaties, statistieken voor steekproeven [4](#page=4).
* **Steekproeffouten**: Systematische fouten die kunnen optreden bij het trekken van een steekproef, zoals selectiebias (oneerlijke selectiemethode) en non-respons bias (deelnemers die weigeren mee te werken of specifieke vragen niet beantwoorden) [5](#page=5).
#### 2.1.4 Soorten reeksen
* **Statistische reeks**: Een reeks waarnemingen van kenmerken, bijvoorbeeld het kijkgedrag van verschillende personen [5](#page=5).
* **Tijdreeks**: Een reeks waarnemingen die in de tijd worden verzameld, waarbij het tijdstip cruciaal is voor interpretatie [5](#page=5).
* **Dimensie van een reeks**: Het aantal variabelen dat wordt bestudeerd. Dit kan unidimensionaal (1 variabele), tweedimensionaal (2 variabelen), of multidimensionaal (meer dan 2 variabelen) zijn [5](#page=5).
### 2.2 Meetniveaus van variabelen
Het meetniveau van een variabele bepaalt welke statistische analyses mogelijk zijn. Variabelen kunnen kwalitatief (categorisch) of kwantitatief (metrisch) zijn [6](#page=6).
#### 2.2.1 De vier meetniveaus
Er zijn vier hoofdmeetniveaus, oplopend in complexiteit en informatieve waarde:
1. **Nominaal meetniveau**:
* **Eigenschappen**: Classificatie. Waarden hebben geen logische volgorde en missen wiskundige betekenis [6](#page=6).
* **Voorbeelden**: Geslacht, woonplaats, politieke partijvoorkeur [6](#page=6).
2. **Ordinaal meetniveau**:
* **Eigenschappen**: Classificatie en rangorde. Waarden zijn logisch te ordenen, maar missen wiskundige betekenis voor de afstanden tussen de waarden [6](#page=6).
* **Voorbeelden**: Opleidingsniveau (lager onderwijs, middelbaar onderwijs, hoger onderwijs), rangen (brons, zilver, goud), en antwoordschalen in opiniepeilingen (eens, oneens) [6](#page=6).
3. **Interval meetniveau**:
* **Eigenschappen**: Classificatie, rangorde, en een vaste meeteenheid. Waarden zijn ordenbaar en hebben een vaste meeteenheid, waardoor de afstanden tussen waarden betekenis hebben en constant zijn [6](#page=6).
* **Kenmerk**: Er is geen natuurlijk of absoluut nulpunt. Een temperatuur van 0 graden Celsius betekent bijvoorbeeld niet de afwezigheid van warmte [6](#page=6).
* **Voorbeelden**: Temperatuur (in Celsius of Fahrenheit), geboortejaar [6](#page=6).
4. **Ratio meetniveau**:
* **Eigenschappen**: Classificatie, rangorde, vaste meeteenheid, en een absoluut nulpunt. Dit is het hoogste meetniveau, waarbij alle kenmerken van de lagere niveaus aanwezig zijn, plus een betekenisvol nulpunt dat de afwezigheid van de variabele aangeeft [7](#page=7).
* **Voorbeelden**: Gewicht, lengte, leeftijd, inkomen, aantal vrienden op sociale media [7](#page=7).
> **Tip**: Denk aan de initialen **N O I R** om de meetniveaus in de juiste volgorde te onthouden: **N**ominaal, **O**rdinaal, **I**nterval, **R**atio [6](#page=6).
#### 2.2.2 Soorten variabelen binnen meetniveaus
* **Dichotome variabelen**: Categorische variabelen met slechts twee categorieën (bv. man/vrouw, ja/nee) [7](#page=7).
* **Polytome variabelen**: Categorische variabelen met meer dan twee categorieën [7](#page=7).
* **Dummy variabelen**: Categorische variabelen (vaak nominaal) die worden gecodeerd met 0 en 1 om ze geschikt te maken voor bepaalde analyses [7](#page=7).
* **Discrete variabelen**: Variabelen die alleen gehele getallen kunnen aannemen en geen kommagetallen [7](#page=7).
* **Continue variabelen**: Variabelen die elke waarde binnen een bepaald bereik kunnen aannemen, inclusief kommagetallen [7](#page=7).
#### 2.2.3 Belang van kwantitatieve variabelen
Kwantitatieve variabelen bieden voordelen zoals eenduidigheid, efficiëntere verwerking door computers, en meer analyse-mogelijkheden, waaronder het uitdrukken van relaties als algebraïsche functies [7](#page=7).
#### 2.2.4 Bepalen van meetniveaus
Sommige variabelen hebben een vast meetniveau (bv. geslacht), terwijl voor andere het meetniveau afhankelijk is van de manier waarop ze worden opgemeten, wat de keuze van statistische technieken beïnvloedt [7](#page=7).
### 2.3 Frequentieverdelingen en grafische voorstellingen
Om grote hoeveelheden data overzichtelijk te maken, worden frequentieverdelingen en grafische methoden gebruikt [8](#page=8).
#### 2.3.1 Frequentieverdelingen
* **Frequentieverdeling**: Geeft voor elke waarde of categorie van een variabele aan hoe vaak deze voorkomt, uitgedrukt in absolute of relatieve aantallen [8](#page=8).
* **Frequentietabel**: Een tabel die de frequentieverdeling weergeeft. Dit is essentieel voor kwaliteitscontrole, verdere bewerkingen en als basis voor grafische voorstellingen [8](#page=8).
* **Notaties**:
* $N$: De steekproefgrootte of het effectief van de steekproef [8](#page=8).
* $x_i$: De $i$-de waargenomen waarde [8](#page=8).
* $f_i$: De absolute frequentie, d.w.z. het aantal keren dat een specifieke waarde voorkomt. De som van alle absolute frequenties is gelijk aan $N$ [8](#page=8).
* $f_i'$: De relatieve frequentie, berekend door de absolute frequentie te delen door de steekproefomvang [8](#page=8).
#### 2.3.2 Visuele weergave van frequentieverdelingen
Grafische voorstellingen helpen bij het rapporteren en verkennen van data, maken resultaten beter leesbaar en helpen bij het identificeren van uitschieters of anomalieën [9](#page=9).
> **Tip**: Een goede grafische voorstelling heeft een informatieve titel en duidelijke benoeming van de assen [9](#page=9).
#### 2.3.3 Grafische methoden per meetniveau
* **Nominale variabelen**:
* **Staafdiagram**: Elke categorie wordt voorgesteld door een rechthoek; de hoogte correspondeert met de frequentie. De rechthoeken zijn even breed en best gescheiden [9](#page=9).
* **Taartdiagram/cirkeldiagram**: Representeert de proporties van categorieën als sectoren van een cirkel. De totale oppervlakte is 360 graden [9](#page=9).
* **Pictogram**: Gebruikt symbolen om frequenties weer te geven; de grootte of het aantal symbolen is evenredig met de frequentie. Wordt soms gebruikt voor opmaak maar kan leesbaarheid verminderen [9](#page=9).
* **Ordinale variabelen**:
* **Staafdiagram**: Vergelijkbaar met dat voor nominale variabelen, maar de volgorde van de staven volgt de logische rangorde van de categorieën. De abscis (X-as) is gericht maar zonder meeteenheid [9](#page=9).
* **Cumulatief frequentiediagram**: Toont de cumulatieve frequentie voor elke waarde, resulterend in een trapfunctie. Het is zinvol om cumulatieve frequenties te berekenen vanaf ordinaal niveau [10](#page=10) [9](#page=9).
* **Interval- en Ratiovariabelen**:
* **Niet in klassen gegroepeerde gegevens**:
* **Staafdiagram**: Staven staan los van elkaar, de X-as heeft een meeteenheid [9](#page=9).
* **Histogram**: Balken sluiten op elkaar aan; de oppervlakte van elke balk is evenredig met de absolute (of relatieve) frequentie in het interval. De X-as heeft een meeteenheid en oppervlakten onder de grafiek krijgen betekenis [9](#page=9).
* **Frequentiepolygoon**: Verkregen door de toppen van de histogramstaven rechtlijnig te verbinden. De X-as is gericht en heeft een meeteenheid [9](#page=9).
* **Cumulatieve frequentiefunctie**: Een trapfunctie waarbij de X-as gericht is en een meeteenheid heeft [10](#page=10).
* **In klassen gegroepeerde gegevens**:
* **Frequentietabel**: Klassen worden gebruikt wanneer er te veel waarden zijn om overzichtelijk weer te geven. Klassen moeten uitputtend en wederzijds exclusief zijn [11](#page=11).
* **Histogram**: De oppervlakte van de rechthoeken is evenredig met de frequentie in de klasse [10](#page=10).
* **Populatiepyramide**: Een specifiek type histogram voor leeftijdsverdelingen, opgesplitst naar geslacht [10](#page=10).
* **Frequentieveelhoek**: Verkregen door de klassenmiddens van opeenvolgende klassen rechtlijnig te verbinden [10](#page=10).
* **Diagram cumulatieve frequentie**: Toont de cumulatieve frequenties, resulterend in een trapfunctie [10](#page=10).
#### 2.3.4 Klassenindeling
Goede klassen voldoen aan de regels van uitputtendheid en wederzijdse exclusiviteit, hebben een passend aantal klassen, en zijn bij voorkeur afgebakend met gehele getallen. Het klassenmidden, berekend als (ondergrens + bovengrens) / 2, wordt gebruikt om klassen grafisch weer te geven [11](#page=11) [12](#page=12).
#### 2.3.5 Waarom datavisualisatie?
Datavisualisatie is cruciaal omdat het zorgt voor hoge informatiedichtheid, aantrekkelijkheid, en maakt de data makkelijker te verwerken voor het menselijk brein. Drie sleutelkenmerken van goede datavisualisatie zijn: Clear (duidelijk), Correct (correct), en Beautiful (aantrekkelijk) [11](#page=11).
---
# Statistische maten van ligging, spreiding en vorm
Dit onderwerp behandelt de fundamentele statistische maten die worden gebruikt om univariate gegevens te samenvatten en te karakteriseren, inclusief maten van ligging, spreiding en vorm.
## 3 Statistische maten van ligging, spreiding en vorm
Statistische maten zijn essentieel om de informatie in ruwe waarnemingen samen te vatten wanneer frequentietabellen en grafieken onvoldoende zijn. Ze worden gebruikt om kenmerkende waarden te bepalen: parameters voor een populatie en statistieken voor een steekproef. Er zijn drie hoofdcategorieën: maten van ligging, maten van spreiding en maten van vorm [13](#page=13).
### 3.1 Maten van ligging
Maten van ligging helpen om de waargenomen verdeling op de x-as te situeren en liggen altijd tussen de kleinste en grootste waargenomen waarde. De keuze van de maat hangt af van het meetniveau van de verdeling en inhoudelijke criteria [14](#page=14).
#### 3.1.1 Centrummaten
Centrummaten geven een typische waarde van de verdeling weer [14](#page=14).
* **Modus ($X_0$)**: De waargenomen waarde van de variabele met de hoogste frequentie [14](#page=14).
* Kan vanaf nominaal meetniveau worden gebruikt [14](#page=14).
* **Voordelen**: Makkelijk te bepalen, bruikbaar voor alle meetschalen [15](#page=15).
* **Nadelen**: Niet uniek (bimodale, trimodale verdelingen), houdt geen rekening met andere waarden, wiskundig lastig te hanteren [15](#page=15).
* Bij gegroepeerde gegevens is de modus het klassenmidden van de klasse met de hoogste frequentie [14](#page=14).
* **Mediaan**: De waarde van de variabele die alle geordende waarnemingen in twee gelijke delen opdeelt [15](#page=15).
* Vanaf ordinaal meetniveau te gebruiken [15](#page=15).
* Voor een even aantal waarnemingen is de mediaan het gemiddelde van de twee middelste waarden (lineaire interpolatie) [15](#page=15).
* Bij gegroepeerde gegevens wordt de mediaan bepaald met lineaire interpolatie onder de homogeniteitshypothese [15](#page=15).
* **Voordelen**: Uniek, minder gevoelig voor extreme waarden (outliers), bruikbaar vanaf ordinaal meetniveau [16](#page=16).
* **Nadelen**: Alleen afhankelijk van de orde (nadeel voor hogere meetschalen), niet alle waarden worden gebruikt, wiskundig lastig, niet voor nominale variabelen [16](#page=16).
* **Rekenkundig gemiddelde ($\bar{x}$)**: De som van alle waarnemingen gedeeld door het effectief (aantal waarnemingen) [16](#page=16).
* Formule voor brutowaarnemingen: $\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$ [16](#page=16).
* Formule voor gegroepeerde gegevens: $\bar{x} = \frac{\sum_{i=1}^{k} x_i f_i}{N}$ [16](#page=16).
* **Voordelen**: Alle waarden worden gebruikt, uniek, wiskundig handig, meest courante centrummaat voor interval- en ratioveranderlijken [16](#page=16).
* **Nadelen**: Gevoelig voor extreme scores, niet voor nominale of ordinale variabelen [16](#page=16).
#### 3.1.2 Kwantielen
Kwantielen verdelen geordende gegevens in een bepaald aantal gelijke delen en zijn bruikbaar vanaf het ordinale meetniveau [17](#page=17).
* **Kwartielen ($K_1, K_2, K_3$)**: Verdelen geordende gegevens in 4 gelijke delen. $K_1$ (eerste kwartiel) is de waarde waaronder 25% van de waarnemingen valt, $K_2$ is de mediaan, en $K_3$ (derde kwartiel) is de waarde waaronder 75% van de waarnemingen valt [17](#page=17).
* Formules voor kwartielen zijn afhankelijk van brutowaarnemingen of gegroepeerde gegevens [17](#page=17).
* **Decielen**: Verdelen geordende gegevens in 10 gelijke delen. Formules zijn beschikbaar voor brutowaarnemingen en gegroepeerde gegevens [17](#page=17).
* **Percentielen**: Verdelen geordende gegevens in 100 gelijke delen. Formules zijn beschikbaar voor brutowaarnemingen en gegroepeerde gegevens [17](#page=17).
#### 3.1.3 Momenten
Momenten vormen een algemene klasse van statistische maten die samenvatten hoe een verdeling zich verhoudt tot een bepaald punt, en die een verdeling uniek kunnen vastleggen. Ze zijn gebaseerd op de waarde van elke waarneming ten opzichte van een constante waarde ($c$) [18](#page=18).
* **Momenten rond de oorsprong ($c=0$)**: Hierbij is de constante 0 [18](#page=18).
* **Momenten rond een constante ($c=c$)**: Een algemene vorm [18](#page=18).
* **Momenten rond het gemiddelde ($c=\bar{x}$)**: De meest relevante voor maten van ligging, spreiding en vorm [18](#page=18) [19](#page=19).
### 3.2 Maten van spreiding
Maten van spreiding geven de mate van diversiteit of concentratie rond een centrummaat aan. Ze zijn cruciaal voor het vergelijken van groepen [20](#page=20).
* **Spreidingsbreedte (Range, $V$)**: Het verschil tussen de grootste en kleinste waargenomen waarde [21](#page=21).
* Voor gegroepeerde gegevens: verschil tussen bovengrens van de hoogste klasse en ondergrens van de laagste klasse [21](#page=21).
* **Nadeel**: Zeer gevoelig voor extreme waarden [21](#page=21).
* **Interkwantielen**:
* **Interkwartielafstand ($IQR$)**: Het verschil tussen het derde en eerste kwartiel ($K_3 - K_1$). Geeft de spreiding van de middelste 50% van de waarnemingen aan en is relatief ongevoelig voor extreme scores [21](#page=21).
* **Interdecielafstand**: Geeft aan tussen welke waarden de middelste 80% van de waarnemingen vallen [22](#page=22).
* **Boxplot**: Een grafische weergave die de variatiebreedte, interkwartielafstand en mediaan combineert, samen met de minimum- en maximumwaarden, en eventuele uitschieters [21](#page=21).
* **Gemiddelde absolute afwijking**: Het gemiddelde van de absolute verschillen tussen elke waarneming en het gemiddelde [22](#page=22).
* Formule voor brutowaarnemingen: $GAA = \frac{\sum_{i=1}^{n} |x_i - \bar{x}|}{n}$ [22](#page=22).
* Formule voor gegroepeerde waarnemingen: $GAA = \frac{\sum_{i=1}^{k} |x_i - \bar{x}| f_i}{N}$ [22](#page=22).
* **Variantie ($s^2$)**: De gemiddelde gekwadrateerde afwijking van het rekenkundig gemiddelde [22](#page=22).
* Formule: $s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$ (voor steekproef) of $s^2 = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{N}$ (voor populatie) [23](#page=23).
* **Nadeel**: Gekwadrateerde maat, moeilijk te interpreteren [23](#page=23).
* **Standaardafwijking ($s$)**: De vierkantswortel uit de variantie [23](#page=23).
* Formule: $s = \sqrt{s^2}$ [23](#page=23).
* **Voordelen**: Rekening houdend met alle waarden, meest gebruikte kengetal voor spreiding, uitgedrukt in dezelfde meeteenheid als de waarnemingen [24](#page=24).
* **Nadeel**: De absolute waarde zegt weinig over de relatieve spreiding [24](#page=24).
* **Variatiecoëfficiënt ($VC$)**: De ratio van de standaardafwijking op het gemiddelde [24](#page=24).
* Formule: $VC = \frac{s}{\bar{x}}$ [24](#page=24).
* **Voordeel**: Relatieve spreidingsmaat, onafhankelijk van de meeteenheid, maakt vergelijking van spreiding tussen verschillende groepen mogelijk [24](#page=24).
* **De even centrale momenten**: Deze kunnen ook als spreidingsmaat worden beschouwd [20](#page=20).
### 3.3 Maten van vorm
Maten van vorm beschrijven kenmerken zoals symmetrie en afplatting van een verdeling [26](#page=26).
#### 3.3.1 Symmetrie
Symmetrie wordt gemeten door scheefheid (skewness) [26](#page=26).
* **Symmetrische verdeling**: Evenveel waarden groter dan het gemiddelde als kleiner. Modus = mediaan = gemiddelde [27](#page=27).
* **Positieve (rechtsscheve) asymmetrie**: Verdeling met een uitbreiding naar rechts, langere staart aan de rechterkant. Modus < mediaan < gemiddelde [27](#page=27).
* **Negatieve (linksscheve) asymmetrie**: Verdeling met een uitbreiding naar links, langere staart aan de linkerkant. Modus > mediaan > gemiddelde [27](#page=27).
**Matige van symmetrie**:
* **Empirische coëfficiënt van Pearson ($S$)**: Gebaseerd op het verschil tussen gemiddelde en modus, gedeeld door de standaardafwijking [27](#page=27).
* Formule: $S = \frac{\bar{x} - X_0}{s}$ [27](#page=27).
* **Coëfficiënt van Yule en Kendall**: Gebaseerd op kwartielen [28](#page=28).
* Formule: $Q = \frac{K_3 - K_1}{K_3 + K_1}$ [28](#page=28).
* **Oneven centrale momenten**: Alle oneven centrale momenten geven een indicatie van symmetrie ten opzichte van het rekenkundig gemiddelde. Voor een symmetrische verdeling zijn deze gelijk aan 0 [28](#page=28).
* **Coëfficiënt van Fisher (derde centrale moment)**: Wordt vaak gebruikt als maat voor symmetrie [28](#page=28).
* Formule: $\gamma_1 = \frac{\mu_3}{s^3}$ [28](#page=28).
* Is dimensieloos, waardoor symmetrie van verschillende variabelen vergeleken kan worden [28](#page=28).
* **Coëfficiënt van Pearson**: Gebaseerd op de coëfficiënt van Fisher, ook dimensieloos [29](#page=29).
* Formule: $b_1 = \gamma_1^2$ [29](#page=29).
#### 3.3.2 Afplatting
Afplatting wordt gemeten door kurtosis [26](#page=26).
* **Kurtosis**: Beschrijft hoe spits of plat een verdeling is ten opzichte van de normale (Gauss) curve [29](#page=29).
* Er zijn verschillende coëfficiënten, waaronder die van Pearson en Fisher [29](#page=29) [30](#page=30).
* **Coëfficiënt van Pearson**: Vaak gerelateerd aan het vierde centrale moment gedeeld door de vierde macht van de standaardafwijking [30](#page=30).
* **Coëfficiënt van Fisher**: Vaak de coëfficiënt van Pearson minus 3 [30](#page=30).
### 3.4 De normale verdeling
De normale verdeling is een klokvormige, symmetrische verdeling waarbij gemiddelde, mediaan en modus samenvallen. Ze speelt een cruciale rol in de inferentiële statistiek [24](#page=24) [25](#page=25).
* **Empirische regel**:
* Ongeveer 68% van de waarnemingen ligt binnen het gemiddelde $\pm$ 1 standaardafwijking [25](#page=25).
* Ongeveer 95% van de waarnemingen ligt binnen het gemiddelde $\pm$ 1.96 standaardafwijking [25](#page=25).
* Ongeveer 99.7% van de waarnemingen ligt binnen het gemiddelde $\pm$ 3 standaardafwijkingen [25](#page=25).
* **Gestandaardiseerde scores (z-scores)**: Worden gebruikt om waarnemingen te vergelijken op verschillende schalen [25](#page=25).
### 3.5 Toepassingen in Excel
Excel biedt functies om deze statistische maten te berekenen. Belangrijke functies omvatten `=max()`, `=som()`, `=abs()`, en `=wortel()`. De berekening van centrum- en spreidingsmaten in Excel vereist vaak het aanmaken van tussenkolommen zoals $K(x_i)$, $x_if_i$, $|x_i - \bar{x}|f_i$, $(x_i - \bar{x})^2f_i$, enz.. Ook maten van vorm, zoals het derde en vierde moment, kunnen worden berekend met behulp van specifieke kolommen en sommaties [30](#page=30) [31](#page=31) [32](#page=32).
---
# Statistische analyses met SPSS
Dit onderwerp behandelt de praktische toepassing van statistische analyses met behulp van SPSS, waaronder datamanipulatie, selectie van cases en tweedimensionale analyses zoals kruistabellen.
### 4.1 Werkomgeving en datamanipulatie in spss
SPSS (Statistical Package for the Social Sciences) is een softwarepakket dat wordt gebruikt voor het beheren en verwerken van kwantitatieve gegevens [33](#page=33).
#### 4.1.1 Begrippen en vensters in spss
**Belangrijke begrippen in SPSS:**
* **Name**: De naam van de variabele [33](#page=33).
* **Type**: Het soort variabele, zoals numeriek (getal), string (tekst) of datum [33](#page=33).
* **Width**: Hoe breed de variabele is in termen van het aantal karakters of cijfers [33](#page=33).
* **Decimals**: Het aantal decimalen dat wordt weergegeven [33](#page=33).
* **Label**: Een bredere beschrijving van de variabelenaam [33](#page=33).
* **Values**: Hieraan kunnen tekstlabels worden toegekend aan verschillende categorieën van een categorische variabele [33](#page=33).
* **Missing**: Hier worden user missing waarden gedefinieerd [33](#page=33).
**SPSS heeft drie basisvensters:**
1. **Data Editor**: Voor het beheren van de dataset (bestandsformaat.SAV) [33](#page=33).
2. **Output venster**: Voor het weergeven van de resultaten van analyses (bestandsformaat.SPV) [33](#page=33).
3. **Syntax editor**: Voor het schrijven en opslaan van commando's (bestandsformaat.SPS) [33](#page=33).
#### 4.1.2 Data prepareren en invoeren
Voor data-invoer is een **codeboek** essentieel, waarin wordt vastgelegd hoe de data is gecodeerd. Het codeboek wordt verschillend ingevuld afhankelijk van het type vraag: gesloten, halfgesloten of open vragen [34](#page=34).
* **Gesloten vragen** (numeriek): De antwoorden zijn direct de waarden, geen aparte coderingsfase nodig (bv. leeftijd) [34](#page=34).
* **Halfgesloten vragen**: Vereisen specifieke codering van de antwoordopties [35](#page=35).
**Missing values** zijn waarden die niet zijn ingevuld. Er zijn twee soorten:
1. **System missing values**: Ontstaan wanneer een respondent een vraag niet heeft beantwoord of als de vraag niet relevant was [36](#page=36).
2. **User missing values**: Waarden die de gebruiker zelf als ontbrekend heeft gecodeerd [36](#page=36).
**Manuele data-invoer:**
1. Maak een duidelijk codeboek [36](#page=36).
2. Ga naar `File` > `New` > `Data` [36](#page=36).
3. Gebruik de `Data View` om gegevens in te voeren [36](#page=36).
4. Documenteer de variabelen (label, decimalen, values) in de `Variable View` [36](#page=36).
5. Bij `Values` klik op de drie puntjes om waarden en labels in te stellen [36](#page=36).
**Importeren van databestanden:**
* **Excel (.xls of.xlsx)**: Ga naar `File` > `Import Data` > `Excel` [37](#page=37).
* **Tekstbestanden (.txt,.csv of.dat)**: Ga naar `File` > `Import Data` > `CSV Data…` en volg de instructies [37](#page=37).
#### 4.1.3 Datamanipulatie
Datamanipulatie omvat wijzigingen aanbrengen aan bestaande variabelen in de dataset [38](#page=38).
##### 4.1.3.1 Compute
Met de `COMPUTE`-functie kunnen nieuwe variabelen worden aangemaakt op basis van bewerkingen of berekeningen met één of meerdere bestaande variabelen. Dit is nuttig om bijvoorbeeld meerdere items die hetzelfde concept meten, samen te voegen tot een samengestelde score [39](#page=39) [40](#page=40).
**Hoe te gebruiken:**
1. Ga naar `Transform` > `Compute Variable` [40](#page=40).
2. Geef een naam op voor de nieuwe variabele in het `Target Variable`-veld. Variabelenamen mogen geen spaties bevatten en niet met een cijfer beginnen [40](#page=40).
3. Voer de bewerking uit in het `Numeric Expression`-veld [41](#page=41).
4. Klik op `OK`. De nieuwe variabele verschijnt onderaan de `Variable View` [41](#page=41).
In het `Compute`-venster kunnen ook specifiekere bewerkingen worden uitgevoerd met behulp van 'function groups' en 'Functions and Special Variables'. Voorbeelden hiervan zijn [42](#page=42):
* **Arithmetic functions**: Zoals `ABS` voor de absolute waarde [42](#page=42).
* **Date Arithmetic**: Functies zoals `Datediff` voor het berekenen van tijdsverschillen tussen datums [42](#page=42).
* **Concatenate**: Om tekstvariabelen samen te voegen (bv. voornaam en familienaam). Hierbij is het belangrijk om in `Type & Label…` 'String' te selecteren met voldoende 'width' [42](#page=42) [43](#page=43).
##### 4.1.3.2 Recode
`Recode` wordt gebruikt om één bestaande variabele om te zetten naar een nieuwe variabele door enkel de codering aan te passen. Dit kan bijvoorbeeld zijn om 'man' te coderen als 1 en 'vrouw' als 0 [39](#page=39).
**Eerste manier (Recode into different variables):**
1. Ga naar `Transform` > `Recode into Different Variables` [40](#page=40).
2. Selecteer de variabele die je wilt hercoderen [40](#page=40).
3. Geef een naam op voor de `Output Variable` [40](#page=40).
4. Klik op `Change` [40](#page=40).
5. Klik op `Old and New Values` [40](#page=40).
6. Definieer de oude en nieuwe waarden. Druk op `Add` na elke definitie [40](#page=40).
7. Klik op `Continue` [40](#page=40).
8. Documenteer de nieuwe variabele (labels, value labels, missing labels) in de `Variable View` [40](#page=40).
9. Controleer de hercodering met een kruistabel (`Analyze` > `Descriptive Statistics` > `Crosstabs`), waarbij de oude variabele in `Row` en de nieuwe in `Column` wordt geplaatst [40](#page=40).
**Tweede manier (voor continue naar categorische variabele):**
1. Ga naar `Transform` > `Recode into Different Variables` [41](#page=41).
2. Selecteer de continue variabele [41](#page=41).
3. Geef een naam op voor de `Output Variable` [41](#page=41).
4. Klik op `Change` [41](#page=41).
5. Klik op `Old and New Values` [41](#page=41).
6. Specificeer de ranges en ken de nieuwe categorische waarde toe. Bijvoorbeeld, de laagste waarde tot een bepaald punt wordt categorie 1. Gebruik `Range` voor tussenliggende waarden en `Highest` voor de hoogste waarden [41](#page=41).
7. Voor missing values, selecteer `System or user missing` en ken `System missing` toe als new value [41](#page=41).
8. Klik op `Continue` en `OK` [41](#page=41).
9. Documenteer de nieuwe variabele in de `Variable View` (bv. decimalen, labels) [41](#page=41).
10. Controleer de hercodering met een kruistabel (`Analyze` > `Descriptive Statistics` > `Crosstabs`), met de oude variabele in `Row` en de nieuwe in `Column` [41](#page=41).
#### 4.1.4 Select cases
`Select Cases` maakt het mogelijk om tijdelijk een specifieke groep respondenten (cases) te selecteren voor verdere analyses. Dit is handig als je bijvoorbeeld analyses wilt uitvoeren op een specifieke subgroep, zoals alleen mannen [43](#page=43).
**Hoe te selecteren:**
1. Ga naar `Data` > `Select Cases` [44](#page=44).
2. Kies de optie `If condition is satisfied` [44](#page=44).
3. Klik op `If` en voer de gewenste formule in [44](#page=44).
4. Klik op `Continue` en `OK` [44](#page=44).
5. In de `Data View` zie je dat niet-geselecteerde cases zijn doorgestreept [44](#page=44).
**Belangrijk:** Na de analyse moet de selectie verwijderd worden om te voorkomen dat SPSS verdere analyses toepast op de gefilterde dataset. Dit doe je door bij `Select Cases` de optie `All cases` te selecteren [44](#page=44).
**Methoden voor selectie:**
* **Random samples of cases**: Selecteert een willekeurige steekproef [44](#page=44).
* **Based on time or case range**: Selecteert cases op basis van hun positie in de dataset [44](#page=44).
* **Use filter variable**: Gebruikt een reeds bestaande variabele als filter [44](#page=44).
**Operators voor voorwaarden:**
* Logische operatoren: `AND` (`&`), `OR` (`|`), `NOT` [44](#page=44).
* Vergelijkingsoperatoren: `GE` (`>=`), `GT` (`>`), `LE` (`<=`), `LT` (`<`), `EQ` (`=`), `NE` (`<>`) [45](#page=45).
* Functies: `missing(variabele)`, `not missing(variabele)` [45](#page=45).
**Output-opties:**
* **Filter out unselected cases**: Geselecteerde cases worden gedeactiveerd, maar blijven behouden. Dit is de meest gebruikelijke en veilige optie [45](#page=45).
* **Copy selected cases to a new dataset**: Exporteert de selectie als een nieuwe dataset [46](#page=46).
* **Delete unselected case**: Verwijder niet-geselecteerde cases definitief. Dit is de minst aanbevolen optie omdat het destructief is [46](#page=46).
> **Tip:** Gebruik voldoende haakjes bij het formuleren van voorwaarden om zeker te zijn dat SPSS de juiste bewerking uitvoert [46](#page=46).
### 4.2 Tweedimensionale analyses met spss
Tweedimensionale analyses, met name kruistabellen, zijn essentieel voor het onderzoeken van de relatie tussen twee categorische variabelen [46](#page=46).
#### 4.2.1 Kruistabellen maken en interpreteren
Een kruistabel toont de frequentieverdeling van twee categorische variabelen [46](#page=46).
**Hoe te maken:**
1. Ga naar `Analyze` > `Descriptive Statistics` > `Crosstabs` [46](#page=46).
2. Plaats de ene variabele in `Row` en de andere in `Column` [46](#page=46).
3. Klik op `OK` om de kruistabel te genereren [46](#page=46).
**Interpretatie van de output:**
* De eerste tabel geeft het aantal **valid** en **missing cases** weer. Alleen cases met geldige scores voor beide variabelen worden opgenomen [47](#page=47).
* De tweede tabel toont de absolute celfrequenties. Dit is vaak niet voldoende voor interpretatie; men heeft ook percentages en significantietesten nodig [47](#page=47).
**Meer gedetailleerde kruistabellen:**
1. Genereer de kruistabel opnieuw [47](#page=47).
2. Klik op `Statistics` en selecteer gewenste statistieken zoals `Chi-square` of `Phi and Cramer's V` [47](#page=47).
3. Klik op `Cell Display` om extra opties te kiezen:
* `Expected`: De verwachte waarde onder de nulhypothese (geen verband) [47](#page=47).
* `Unstandardized residual`: Het verschil tussen de `observed` en `expected` count [47](#page=47).
* Rij-, kolom- en totaalpercentages kunnen ook worden aangevraagd [47](#page=47).
#### 4.2.2 Controleren voor een derde variabele
Om te onderzoeken of verbanden geen schijnverbanden zijn, kan gecontroleerd worden voor een derde (categorische) variabele. Dit is een eerste stap naar multivariate analyse [47](#page=47).
**Hoe te controleren voor een derde variabele:**
1. Ga naar `Analyze` > `Descriptive Statistics` > `Crosstabs` [48](#page=48).
2. Selecteer de variabelen voor `Row` en `Column` [48](#page=48).
3. Voeg de derde controlevariabele toe in het `Layer 1` of `Layer 2` veld [48](#page=48).
4. Pas de gewenste bewerkingen toe in `Cell Display` of `Statistics` [48](#page=48).
**Interpretatie van de output met 3 variabelen:**
De tabellen worden opgesplitst per waarde van de controlevariabele (bv. per geslacht), plus een 'Total' groep. Hierdoor worden feitelijk meerdere kruistabellen getoond, elk met eigen significantietoetsen en `Symmetric Measures`. Men kan zo nagaan of het verband tussen de eerste twee variabelen standhoudt na controle voor de derde variabele. De `Chi-square` waarden en p-waarden geven aan of het verband veralgemeend kan worden naar de populatie. `Cramer's V` meet de sterkte van het verband [51](#page=51).
#### 4.2.3 Kruistabel: rij, kolom en totaal percentages
Het gebruik van rij-, kolom- en totaalpercentages in kruistabellen geeft meer inzicht in hoe variabelen zich tot elkaar verhouden [50](#page=50).
#### 4.2.4 Statistieken van samenhang opvragen
SPSS biedt twee mogelijkheden om statistieken van samenhang op te vragen. Dit omvat typisch metingen zoals Chi-kwadraat, Phi en Cramer's V, die de sterkte en significantie van associaties tussen categorische variabelen kwantificeren [47](#page=47) [53](#page=53).
---
# Verbanden tussen variabelen
Dit deel verkent de analyse van samenhang tussen verschillende soorten variabelen, inclusief de interpretatie van kruistabellen, associatiematen, correlatie en regressieanalyse [55](#page=55).
### 5.1 Wat is samenhang?
Samenhang tussen variabelen betekent dat de variabelen samen variëren, wat resulteert in een betere voorspelbaarheid van de ene variabele, gegeven de andere. Dit concept is cruciaal voor theorievorming in de humane wetenschappen en wordt empirisch getoetst in sociaalwetenschappelijk onderzoek. De manier waarop samenhang wordt onderzocht, hangt af van het meetniveau van de betrokken variabelen [55](#page=55).
* **Associatie:** Samenhang tussen twee categorische variabelen (nominaal of ordinaal) [55](#page=55).
* **Correlatie:** Lineaire samenhang tussen twee numerieke variabelen [55](#page=55).
Courante probleemstellingen in sociaalwetenschappelijk onderzoek betreffen vaak variabelen van verschillende meetniveaus. Gevorderde analysetechnieken zijn uitbreidingen van bivariate analyses [56](#page=56).
#### 5.1.1 Samenhang en causaliteit
Een centrale vraag in kwantitatief onderzoek is of er een causale samenhang bestaat tussen twee variabelen (X en Y). Causale samenhang is niet gelijk aan statistische samenhang. Bij een statistisch verband veranderen de kenmerken samen, terwijl een oorzakelijk verband vereist dat een verandering in X altijd een verandering in Y teweegbrengt, waarbij Y afhankelijk is van X [56](#page=56).
Drie causaliteitsvoorwaarden zijn:
1. Ze veranderen altijd samen [56](#page=56).
2. Er is een tijdsverband [56](#page=56).
3. Alternatieve hypothesen worden geëlimineerd [56](#page=56).
De analyse van samenhang in een kruistabel heeft drie doelstellingen [56](#page=56):
1. Beschrijven van de aard en richting van het verband in de onderzochte steekproef (via rij- en kolompercentages) [56](#page=56).
2. Veralgemeenbaarheid van de samenhang in de steekproef naar de populatie (via chi-kwadraattoets) [56](#page=56).
3. Bepalen van de sterkte van de samenhang (via associatiematen) [56](#page=56).
### 5.2 Samenhang tussen twee categorische variabelen
Het analyseren van samenhang tussen twee categorische variabelen omvat de volgende stappen [57](#page=57):
1. Opstellen van een kruistabel [57](#page=57).
2. Vaststellen of er een asymmetrische relatie is, waarbij een afhankelijke variabele (Y, in rijen) en een onafhankelijke variabele (X, in kolommen) worden geïdentificeerd [57](#page=57).
3. Vergelijken van de relatieve verdeling van Y voor de categorieën van X, wat de relatieve conditionele verdeling vormt [57](#page=57).
* **Rijtotalen (marginale verdeling van Y):** De som van de absolute frequenties per rij. De som van de rijtotalen is gelijk aan het totale aantal waarnemingen (N) [57](#page=57).
* **Kolomtotalen (marginale verdeling van X):** De som van de absolute frequenties per kolom. De som van de kolomtotalen is gelijk aan N [57](#page=57).
* **Conditionele verdeling van Y (gegeven X):** De verdeling van de rijvariabele Y voor een specifieke categorie van de kolomvariabele X [57](#page=57).
* **Conditionele verdeling van X (gegeven Y):** De verdeling van de kolomvariabele X voor een specifieke categorie van de rijvariabele Y [57](#page=57).
#### 5.2.1 Onafhankelijkheid en conditionele verdelingen
Er is sprake van onafhankelijkheid tussen twee variabelen wanneer de relatieve conditionele verdeling van de afhankelijke variabele (Y) niet verschilt binnen de categorieën van de onafhankelijke variabele (X) [58](#page=58).
* **Asymmetrische relatie:** Conventioneel staat de afhankelijke variabele Y in de rijen en de onafhankelijke variabele X in de kolommen. Percentages worden berekend in de richting van de onafhankelijke variabele [58](#page=58).
* **Kolompercentages:** Berekening: `(celfrequentie / kolomtotaal) * 100`. Deze worden gebruikt om de relatieve verdeling van Y te vergelijken tussen categorieën van X [58](#page=58).
* **Rijpercentages:** Berekening: `(celfrequentie / rijtotaal) * 100`. Deze worden gebruikt om de relatieve verdeling van X te vergelijken tussen categorieën van Y [58](#page=58).
**Tip:** Rij- en kolompercentages moeten altijd dwars op de richting worden vergeleken waarin ze zijn berekend. Het vergelijken van kolompercentages kan een indicatie geven van de sterkte van het verband, maar strikt genomen beschrijft het alleen de aard en richting. Hoe verder de relatieve verdelingen uit elkaar liggen, hoe sterker het verband [58](#page=58).
#### 5.2.2 Toeval of samenhang: significantietoetsen
Soms kunnen verbanden het gevolg zijn van toeval. Significatietoetsen helpen om dit te beoordelen. Een significatietoets bestaat uit vijf stappen [59](#page=59):
1. **Assumpties:** Data verkregen via toevalssteekproef, twee categorische variabelen, verwachte aantal per cel is minstens 5 [59](#page=59).
2. **Hypothesen:** De nulhypothese (H0) stelt dat er geen significant verband bestaat en dat waargenomen verbanden louter toeval zijn [59](#page=59).
3. **Toetsstatistiek (Chi-kwadraat):** Vergelijkt geobserveerde celfrequenties met verwachte celfrequenties (bij afwezigheid van een statistisch verband) [59](#page=59).
* Verwachte celfrequentie ($E_{ij}$) bij statistische onafhankelijkheid wordt berekend op basis van marginalen [59](#page=59).
* De formule voor chi-kwadraat ($\chi^2$) is:
$$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$
waarbij $O_{ij}$ de geobserveerde frequentie is en $E_{ij}$ de verwachte frequentie in cel (i,j) [60](#page=60).
* Een hogere $\chi^2$-waarde duidt op een grotere discrepantie, een sterker verband en een grotere onwaarschijnlijkheid van de nulhypothese [60](#page=60).
4. **P-waarde:** De kans om een $\chi^2$-waarde te verkrijgen die minstens zo extreem is als de waargenomen waarde, gegeven dat de nulhypothese waar is [60](#page=60).
* **Vrijheidsgraden ($\nu$):** Bepalen de vorm van de $\chi^2$-verdeling. Voor een $r \times c$ kruistabel is dit $\nu = (r-1)(c-1)$. Een $2 \times 2$ tabel heeft 1 vrijheidsgraad [60](#page=60) [61](#page=61).
* Als de p-waarde kleiner is dan het gekozen significantieniveau (bv. 0.05), wordt de nulhypothese verworpen [60](#page=60).
5. **Conclusie:** Rapporteert de p-waarde en interpreteert de resultaten in het licht van de vraagstelling [61](#page=61).
### 5.3 Associatiematen voor categorische variabelen
Associatiematen kwantificeren de sterkte van de samenhang tussen variabelen en maken het mogelijk om verbanden te vergelijken. Ze zijn conventioneel begrensd tussen 0 en 1 voor nominale kenmerken, en tussen -1 en +1 vanaf ordinaal niveau [62](#page=62).
* **Symmetrische associatiematen:** Geen onderscheid tussen afhankelijke en onafhankelijke variabelen [62](#page=62).
* **Asymmetrische associatiematen:** Maken onderscheid tussen afhankelijke en onafhankelijke variabelen [62](#page=62).
#### 5.3.1 Associatiematen voor nominale variabelen
* **Phi ($\phi$):** Gebaseerd op de chi-kwadraat, een symmetrische associatiemaat. Voor een $2 \times 2$ tabel [62](#page=62):
$$\phi = \sqrt{\frac{\chi^2}{N}}$$
* **Cramer's V:** Een symmetrische associatiemaat, gebaseerd op chi-kwadraat. De formule is [63](#page=63):
$$V = \sqrt{\frac{\chi^2}{N \cdot \min(r-1, c-1)}}$$
waarbij $r$ het aantal rijen en $c$ het aantal kolommen is. De maximumwaarde is 1 [63](#page=63).
#### 5.3.2 Associatiematen voor ordinale variabelen
Voor ordinale variabelen kan ook via een kruistabel iets over de richting van het verband gezegd worden, dankzij de rangordening [63](#page=63).
* **Gamma ($\gamma$):** Een symmetrische associatiemaat die varieert van -1 tot +1. Grote absolute waarden weerspiegelen een sterke associatie [63](#page=63) [64](#page=64).
$$\gamma = \frac{C - D}{C + D}$$
waarbij C het aantal concordante paren is (paren waarbij de ene eenheid op beide variabelen hoger of lager scoort dan de andere) en D het aantal discordante paren is (paren waarbij de ene eenheid op de ene variabele hoger en op de andere lager scoort dan de andere) [64](#page=64).
* **Kendall's tau-b ($\tau_b$):** Een rangcorrelatiecoëfficiënt die nagaat of de rangorde van respondenten voor kenmerk X overeenkomt met hun rangorde voor kenmerk Y. Gelijk aan 0 bij onafhankelijkheid, +1 bij perfecte positieve afhankelijkheid, en -1 bij perfecte negatieve afhankelijkheid [64](#page=64) [65](#page=65).
* **Sommer'd:** Lijkt op gamma, maar is geschikt voor asymmetrische verbanden en houdt rekening met geknoopte paren op de afhankelijke variabele (paren met dezelfde waarde op de afhankelijke variabele) [65](#page=65).
$$Sommer'd = \frac{C - D}{C + D + T_Y}$$
waarbij $T_Y$ het aantal geknoopte paren op de afhankelijke variabele is [66](#page=66).
* **Spearman's rho ($\rho$):** Een rangcorrelatiecoëfficiënt die de correlatie tussen rangnummers meet. Het is een symmetrische maat gebaseerd op de verschillen in rangorde [66](#page=66).
### 5.4 Verbanden tussen metrische variabelen
#### 5.4.1 Spreidingsdiagram (Scatterplot)
Een spreidingsdiagram is een grafische weergave die de samenhang of correlatie tussen twee kwantitatieve variabelen zichtbaar maakt. Het is een puntenwolk gebaseerd op de waarden van onderzoekseenheden voor twee variabelen [66](#page=66) [67](#page=67).
* **Asymmetrische relatie:** Onafhankelijke variabele op de X-as, afhankelijke op de Y-as [67](#page=67).
* **Symmetrische relatie:** De as-indeling maakt niet uit [67](#page=67).
Het doel van een spreidingsdiagram is het geven van een overzicht van de trend, richting en sterkte van het verband [67](#page=67):
1. **Trend:** Lineair, curvilineair, clusters of geen patroon [68](#page=68).
2. **Richting:** Positief, negatief, of geen [68](#page=68).
* **Positief verband:** Hoge waarden van X gaan samen met hoge waarden van Y, en lage waarden van X met lage waarden van Y [69](#page=69).
* **Negatief verband:** Hoge waarden van de ene variabele gaan samen met lage waarden van de andere variabele [69](#page=69).
3. **Sterkte:** Hoe geconcentreerd de punten zijn rond de trendlijn [69](#page=69).
#### 5.4.2 Covariantie
Covariantie is een associatiemaat voor interval- en ratiomeetniveau die aangeeft in welke mate de waarden voor twee variabelen bij een groep respondenten samenhangen of covariëren [69](#page=69).
Formule:
$$Cov(X, Y) = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{n}$$
of met gebruik van de steekproefvariantie:
$$Cov(X, Y) = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{n-1}$$
* **Interpretatie:** Een positieve covariantie duidt op een positieve samenhang, nul op lineaire onafhankelijkheid, en een negatieve op een negatieve samenhang [70](#page=70).
* **Nadelen:** De covariantie heeft geen vaste bovengrens of ondergrens en is gevoelig voor veranderingen in meeteenheden [70](#page=70).
#### 5.4.3 Pearson's correlatiecoëfficiënt (r)
Pearson's correlatiecoëfficiënt is een gestandaardiseerde maat voor de lineaire samenhang tussen twee interval- of ratiovariabelen [70](#page=70).
Formule:
$$r = \frac{Cov(X, Y)}{s_x s_y} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}}$$
waarbij $s_x$ en $s_y$ de standaardafwijkingen van X en Y zijn [70](#page=70).
* **Interpretatie:**
* Positieve $r$: positief verband [71](#page=71).
* Negatieve $r$: negatief verband [71](#page=71).
* $r$ dicht bij +1 of -1: sterk lineair verband [71](#page=71).
* $r$ dicht bij 0: zwak lineair verband [71](#page=71).
**Tip:** Een correlatiecoëfficiënt van 0 betekent niet noodzakelijk geen verband; het kan duiden op een niet-lineair verband of op de aanwezigheid van outliers [71](#page=71).
#### 5.4.4 Rangcorrelatiecoëfficiënt
Rangcorrelatiecoëfficiënten zijn geschikt voor het analyseren van samenhang tussen ordinale variabelen, omdat ze ongevoelig zijn voor de specifieke waarden zolang de intrinsieke ordening wordt gerespecteerd [72](#page=72).
* **Spearman's rangcorrelatiecoëfficiënt ($\rho$):** Berekend op de rangnummers van de variabelen, vergelijkbaar met Pearson's correlatiecoëfficiënt [72](#page=72).
Formule:
$$\rho = 1 - \frac{6 \sum d_i^2}{n(n^2-1)}$$
waarbij $d_i$ het verschil is tussen de rangordes van een observatie en $n$ het aantal observaties [72](#page=72).
Resultaten variëren van -1 (perfecte negatieve samenhang) tot +1 (perfecte positieve samenhang) [72](#page=72).
### 5.5 Regressieanalyse
Regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele (Y) en een of meer onafhankelijke variabelen (X) te modelleren en te voorspellen [73](#page=73).
#### 5.5.1 Het bivariate regressiemodel
1. **Identificeren van variabelen:** Afhankelijke variabele Y, onafhankelijke variabele X [73](#page=73).
2. **Grafische weergave:** Een spreidingsdiagram toont de relatie tussen Y en X [73](#page=73).
3. **Lineaire regressie:** Het verklaren en voorspellen van Y op basis van X [73](#page=73).
Het model van een regressierechte wordt beschreven door:
$$E(y) = a + bx$$
of voor de voorspelde waarde:
$$\hat{y} = a + bx$$
waarbij:
* $a$ (intercept): de voorspelde/verwachte waarde van Y als X=0 [73](#page=73).
* $b$ (richtingscoëfficiënt/slope): de verwachte verandering in Y wanneer X met één eenheid toeneemt [73](#page=73).
#### 5.5.2 Residuelen
Residuelen ($\epsilon_i$) representeren het verschil tussen de geobserveerde waarde van Y ($y_i$) en de voorspelde waarde van Y ($\hat{y}_i$) [75](#page=75).
$$\epsilon_i = y_i - \hat{y}_i$$
* **Positief residu:** De geobserveerde waarde is hoger dan voorspeld (onderschatting) [75](#page=75).
* **Residu gelijk aan 0:** De geobserveerde waarde kon exact worden voorspeld [75](#page=75).
* **Negatief residu:** De geobserveerde waarde is lager dan voorspeld (overschatting) [75](#page=75).
Residuelen weerspiegelen de informatie over Y die niet verklaard wordt door X [75](#page=75).
#### 5.5.3 Kleinste kwadratenmethode
De kleinste kwadratenmethode wordt gebruikt om de regressierechte te schatten door de som van de gekwadrateerde residuelen (voorspellingsfouten) te minimaliseren [76](#page=76).
#### 5.5.4 Verband correlatie en regressie
* **Correlatie (r):** Beschrijft de sterkte van een lineaire associatie, heeft hetzelfde teken als de slope ($b$) en ligt tussen -1 en +1 [77](#page=77).
* **$R^2$ (Determinatiecoëfficiënt):** Geeft aan hoe goed de voorspellingen van Y ($\hat{y}$) de geobserveerde Y-waarden benaderen en hoe goed het model de variatie in Y kan verklaren. Het is de proportionele reductie in fout [78](#page=78):
$$R^2 = 1 - \frac{SSE}{SST} = \frac{SSR}{SST}$$
waarbij SST de totale som van kwadraten is, SSE de som van gekwadrateerde fouten (residuelen), en SSR de som van kwadraten verklaard door de regressie [78](#page=78).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Beschrijvende statistiek | Een tak van statistiek die zich richt op het organiseren, samenvatten en presenteren van gegevens op een duidelijke en efficiënte manier, vaak met behulp van maten zoals percentages, gemiddelden en standaardafwijkingen, alsook grafieken. |
| Inferentiële statistiek | Een tak van statistiek die methoden gebruikt om uitspraken te doen over een volledige populatie op basis van een beperkt aantal gegevens verkregen uit een steekproef. Dit omvat technieken zoals regressieanalyse om verschillen en samenhangen te verklaren. |
| Onderzoekspopulatie | De volledige groep van eenheden (mensen, objecten, etc.) die de onderzoeker wenst te bestuderen en waarover uitspraken gedaan moeten worden. |
| Onderzoekseenheid | Een individueel element of subject binnen de onderzoekspopulatie waarover gegevens worden verzameld en geanalyseerd. |
| Variabele | Een kenmerk van onderzoekseenheden dat in waarde kan variëren, zoals leeftijd, geslacht of inkomen. Waarden kunnen numeriek zijn of categorisch. |
| Datamatrix/dataset | Een tabelvormige structuur waarin onderzoeksgegevens zijn georganiseerd, waarbij rijen onderzoekseenheden voorstellen en kolommen de variabelen die gemeten zijn. |
| Steekproef | Een representatief deel van de onderzoekspopulatie dat wordt onderzocht, omdat het onderzoeken van de gehele populatie vaak onmogelijk of onpraktisch is. |
| Parameter | Een kengetal dat een kenmerk van de gehele populatie beschrijft, bijvoorbeeld het populatiegemiddelde ($\mu$) of de populatiestandaardafwijking ($\sigma$). |
| Steekproefstatistiek | Een kengetal dat een kenmerk van een steekproef beschrijft en dient als schatter voor een populatieparameter, bijvoorbeeld het steekproefgemiddelde ($\bar{x}$) of de steekproefstandaardafwijking ($s$). |
| Meetniveau | De manier waarop een variabele wordt gemeten, wat bepaalt welke statistische analyses mogelijk zijn. De vier belangrijkste meetniveaus zijn nominaal, ordinaal, interval en ratio. |
| Nominale variabele | Een categorische variabele waarbij de waarden geen inherente volgorde of wiskundige betekenis hebben, enkel dienen ter classificatie (bv. geslacht, politieke partij). |
| Ordinale variabele | Een categorische variabele waarbij de waarden wel een logische volgorde hebben (rangorde), maar de verschillen tussen de waarden niet per se gelijk zijn (bv. opleidingsniveau, rangen in een wedstrijd). |
| Intervalvariabele | Een kwantitatieve variabele met een vaste meeteenheid en rangorde, maar zonder een absoluut nulpunt. De verschillen tussen waarden zijn betekenisvol (bv. temperatuur in Celsius, geboortejaar). |
| Ratiovariabele | Een kwantitatieve variabele met een vaste meeteenheid, rangorde en een absoluut nulpunt. Alle wiskundige bewerkingen zijn mogelijk (bv. gewicht, aantal vrienden). |
| Dichotome variabele | Een categorische variabele die slechts twee mogelijke waarden of categorieën heeft (bv. ja/nee, man/vrouw). |
| Discrete variabele | Een kwantitatieve variabele die alleen gehele getallen kan aannemen, zonder tussenliggende kommagetallen (bv. aantal kinderen per gezin). |
| Continue variabele | Een kwantitatieve variabele die in principe elke waarde binnen een bepaald bereik kan aannemen, inclusief kommagetallen (bv. lengte, snelheid). |
| Frequentieverdeling | Een weergave die aangeeft hoe vaak elke waarde of categorie van een variabele voorkomt in een dataset, uitgedrukt in absolute of relatieve aantallen. |
| Absolute frequentie | Het aantal keren dat een specifieke waarde of categorie van een variabele voorkomt in een dataset. |
| Relatieve frequentie | De absolute frequentie gedeeld door de totale steekproefgrootte, wat de proportie van die waarde of categorie weergeeft. |
| Staafdiagram | Een grafische weergave voor categorische of discrete variabelen, waarbij de hoogte van rechthoeken de frequentie van elke categorie of waarde voorstelt. |
| Histogram | Een grafische weergave voor continue variabelen of gegroepeerde discrete variabelen, waarbij aangrenzende rechthoeken de frequentie van waarden binnen specifieke intervallen weergeven. |
| Modus | De waarde of categorie van een variabele die het vaakst voorkomt in een dataset; kan vanaf nominaal meetniveau worden bepaald. |
| Mediaan | De middelste waarde in een geordende dataset; de waarde die de geobserveerde gegevens in twee gelijke helften verdeelt; kan vanaf ordinaal meetniveau worden bepaald. |
| Rekenkundig gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden; een centrummaat die het meest geschikt is voor interval- en ratiovariabelen. |
| Kwartielen | Waarden die een geordende dataset verdelen in vier gelijke delen; Q1 (25%), Q2 (mediaan, 50%), en Q3 (75%). |
| Decielen | Waarden die een geordende dataset verdelen in tien gelijke delen. |
| Percentielen | Waarden die een geordende dataset verdelen in honderd gelijke delen. |
| Spreidingsbreedte (Range) | Het verschil tussen de grootste en de kleinste waargenomen waarde in een dataset; een simpele maat van spreiding, maar gevoelig voor uitschieters. |
| Interkwartielafstand (IQR) | Het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1); geeft de spreiding van de middelste 50% van de gegevens weer en is robuust tegen uitschieters. |
| Variantie | De gemiddelde gekwadrateerde afwijking van de waarden ten opzichte van het gemiddelde; een maat voor spreiding die eenheden kwadrateert. |
| Standaardafwijking | De vierkantswortel uit de variantie; een veelgebruikte spreidingsmaat die uitgedrukt is in dezelfde eenheden als de oorspronkelijke variabele. |
| Variatiecoëfficiënt | De ratio van de standaardafwijking tot het gemiddelde; een relatieve spreidingsmaat die nuttig is voor het vergelijken van de spreiding van groepen met verschillende gemiddelden. |
| Normale verdeling (Gauss-curve) | Een symmetrische, klokvormige kansverdeling die veel voorkomt in de natuur en sociale wetenschappen. Het gemiddelde, de mediaan en de modus vallen samen in het midden. |
| Scheefheid (Skewness) | Een maat voor de asymmetrie van een verdeling; positieve scheefheid betekent een lange staart aan de rechterkant, negatieve scheefheid een lange staart aan de linkerkant. |
| Afplatting (Kurtosis) | Een maat voor de "spitsheid" of "platheid" van de staarten van een kansverdeling in vergelijking met een normale verdeling. |
| Associatie | De mate van samenhang tussen twee categorische variabelen (nominaal of ordinaal). |
| Correlatie | De mate van lineaire samenhang tussen twee kwantitatieve variabelen (interval of ratio). |
| Kruistabel | Een tabel die de frequentieverdelingen van twee categorische variabelen weergeeft, waardoor de relatie tussen deze variabelen gevisualiseerd en geanalyseerd kan worden. |
| Chi-kwadraattoets | Een statistische toets die wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen door de geobserveerde frequenties te vergelijken met de verwachte frequenties onder de nulhypothese van onafhankelijkheid. |
| Vrijheidsgraden | Het aantal waarden in een statistische berekening dat vrij kan variëren; in een kruistabel bepaald door het aantal rijen en kolommen (r-1)*(c-1). |
| P-waarde | De kans om een resultaat te observeren dat minstens zo extreem is als het gevonden resultaat, onder aanname dat de nulhypothese waar is. Een lage p-waarde leidt tot verwerping van de nulhypothese. |
| Phi-coëfficiënt ($\phi$) | Een associatiemaat voor twee nominale variabelen, afgeleid van de chi-kwadraatstatistiek, die de sterkte van het verband aangeeft tussen 0 en 1. |
| Cramer's V | Een generalisatie van de phi-coëfficiënt voor grotere kruistabellen (meer dan 2x2); een symmetrische associatiemaat die de sterkte van het verband tussen twee categorische variabelen aangeeft op een schaal van 0 tot 1. |
| Gamma | Een associatiemaat voor ordinale variabelen die de concordante en discordante paren analyseert; de waarde varieert van -1 tot +1. |
| Kendall's tau ($\tau$) | Een rangcorrelatiecoëfficiënt die de mate van overeenkomst in rangorde tussen twee geordende variabelen meet; waarde varieert van -1 tot +1. |
| Spearman's rho ($\rho$) | Een rangcorrelatiecoëfficiënt die de sterkte van de lineaire relatie tussen de rangordes van twee variabelen meet; lijkt op de Pearson-correlatie maar wordt berekend op rangnummers. |
| Spreidingsdiagram (Scatterplot) | Een grafische weergave die de relatie tussen twee kwantitatieve variabelen toont door punten weer te geven op basis van hun gezamenlijke waarden. |
| Covariantie | Een maat die de gezamenlijke variatie van twee variabelen aangeeft; een positieve covariantie duidt op een positieve relatie, een negatieve op een negatieve relatie. De schaal is niet gestandaardiseerd. |
| Pearson's correlatiecoëfficiënt ($r$) | Een gestandaardiseerde maat voor de lineaire samenhang tussen twee kwantitatieve variabelen, variërend van -1 (perfect negatief) tot +1 (perfect positief), waarbij 0 onafhankelijkheid aangeeft. |
| Regressieanalyse | Een statistische methode die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren en voorspellingen te doen. |
| Intercept ($a$ of $b_0$) | De verwachte waarde van de afhankelijke variabele wanneer de onafhankelijke variabele gelijk is aan nul; het snijpunt van de regressielijn met de Y-as. |
| Richtingscoëfficiënt (Slope, $b$) | Geeft de verwachte verandering in de afhankelijke variabele aan voor elke eenheidstoename van de onafhankelijke variabele. |
| Residu | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de door het regressiemodel voorspelde waarde; geeft de onverklaarde variatie aan. |
| Kleinste kwadratenmethode | Een methode om de coëfficiënten van een regressielijn te schatten door de som van de gekwadrateerde residuen (voorspellingsfouten) te minimaliseren. |
| $R^2$ (Determinatiecoëfficiënt) | Geeft het proportionele deel van de variatie in de afhankelijke variabele aan dat verklaard wordt door de variatie in de onafhankelijke variabele(n) in het regressiemodel. |
| Tijdreeks | Een reeks kwantitatieve gegevens geordend in chronologische volgorde met een vast tijdsinterval, waarbij de volgorde van de data van fundamenteel belang is voor de analyse. |
| Trend | Een algemene, langetermijnrichting (stijgend of dalend) in een tijdreeks. |
| Seizoensgebondenheid | Regelmatige, cyclische patronen in een tijdreeks die zich herhalen binnen een bepaalde periode (bv. dag, week, maand, jaar). |
| Voortschrijdend gemiddelde | Een techniek om trends in tijdreeksen te identificeren door het gemiddelde van opeenvolgende datapunten over een bepaalde periode te berekenen. |