Cover
Mulai sekarang gratis 02e8da97-4894-4f23-a62e-49811fecb8e1.pdf
Summary
# Wat is statistiek en waarom is het belangrijk
Statistiek is een methodologie voor het verzamelen, analyseren, interpreteren en presenteren van gegevens om de wereld beter te begrijpen. Het is essentieel in sociale wetenschappen om kennis te genereren over de sociale werkelijkheid door middel van sociaalwetenschappelijk onderzoek en dataverzameling [2](#page=2) [3](#page=3).
## 1.1 Wat is statistiek?
Statistiek kan gedefinieerd worden als de wetenschap die zich bezighoudt met het verzamelen, analyseren, interpreteren en presenteren van gegevens. Het fungeert als een kennismethode om de wereld om ons heen beter te doorgronden. Het proces binnen statistische analyse omvat probleemanalyse, het opzetten van een onderzoeksontwerp, dataverzameling, data-analyse en rapportage [2](#page=2).
## 1.2 Waarom is statistiek belangrijk?
Statistiek is cruciaal om beweringen te onderbouwen en vereist empirie, wat betekent dat er behoefte is aan data en gegevens. In de sociale wetenschappen is het doel kennis te genereren over de sociale werkelijkheid, wat plaatsvindt door middel van dataverzameling. Een voorbeeld hiervan is de European Social Survey, die attitudes, geloofsovertuigingen en gedragspatronen peilt om de surveymethodologie te bevorderen. Statistiek stelt ons in staat om verschillen en samenhangen te verklaren, zoals de relatie tussen opleidingsniveau en inkomen [2](#page=2) [3](#page=3).
> **Tip:** Wees alert op misleidende statistiek. Dit kan voorkomen bij het verzamelen van gegevens, de presentatie van uitkomsten, en het formuleren van conclusies [2](#page=2).
## 1.3 Soorten statistiek
Er zijn verschillende soorten statistiek die gebruikt worden binnen de analyse:
### 1.3.1 Beschrijvende statistiek
Beschrijvende statistiek, ook wel deductieve statistiek genoemd, richt zich op het beschrijven, ordenen en synthetiseren van verzamelde gegevens. Het doel is om de wereld in cijfers weer te geven [2](#page=2) [3](#page=3).
Kenmerken van beschrijvende statistiek zijn:
* **Centrummaten:** Deze beschrijven het centrum van een dataset, zoals het gemiddelde, de mediaan en de modus [2](#page=2) [3](#page=3).
* **Spreidingsmaten:** Deze geven de variatie binnen een dataset weer, zoals de standaardafwijking, variantie en interkwartielafstand [4](#page=4).
* **Grafieken:** Visuele representaties zoals histogrammen, taartdiagrammen en boxplots worden gebruikt om gegevens overzichtelijk te presenteren [4](#page=4).
### 1.3.2 Inferentiële statistiek
Inferentiële statistiek, ook wel inductieve statistiek genoemd, maakt het mogelijk om op basis van gegevens uit een beperkt aantal gevallen conclusies te trekken over een bredere groep of populatie [2](#page=2) [4](#page=4).
## 1.4 Terminologie en kernbegrippen
Voor een goed begrip van statistiek is het belangrijk om de volgende terminologie te kennen:
* **Onderzoekspopulatie:** De gehele groep waarop een onderzoek gericht is [3](#page=3).
* **Onderzoekseenheid (case):** De individuele entiteit die onderzocht wordt, zoals een persoon, dier of object. Deze worden in een datamatrix in rijen weergegeven [3](#page=3).
* **Variabele:** Een kenmerk dat bestudeerd wordt en dat kan variëren tussen onderzoekseenheden. Variabelen worden in kolommen van een datamatrix geplaatst [3](#page=3).
* **Datamatrix/dataset:** Een tabel die onderzoekseenheden (rijen) en variabelen (kolommen) bevat, met de gemeten waarden in de cellen [3](#page=3).
* **Steekproef:** Een deelverzameling van de onderzoekspopulatie die daadwerkelijk wordt onderzocht. Vaak wordt gebruikgemaakt van een eenvoudig aselecte steekproef (EAS) ] [3](#page=3).
* **Steekproefstatistieken:** Kengetallen die gemeten worden in een steekproef. Voorbeelden zijn het steekproefgemiddelde ($ \bar{x} $) en de steekproefstandaardafwijking ($s$) ] [3](#page=3).
* **Parameters:** Kengetallen die de verdeling van een kenmerk in de gehele populatie beschrijven. Voorbeelden zijn het populatiegemiddelde ($ \mu $) en de populatiestandaardafwijking ($ \sigma $) ] [3](#page=3).
> **Belangrijk:** Houd altijd het onderscheid in gedachten tussen parameters die de populatie beschrijven en statistieken die de steekproef beschrijven [3](#page=3).
### 1.4.1 Systematische steekproeffouten
Systematische fouten kunnen leiden tot vertekende resultaten:
* **Selectiebias:** De manier waarop respondenten worden geselecteerd, kan een vertekend beeld van de populatie geven [3](#page=3).
* **Non-respons bias:** Wanneer respondenten niet deelnemen aan het onderzoek, kan dit leiden tot een vertekend beeld [3](#page=3).
* **Item non-respons bias:** Dit treedt op wanneer sommige vragen wel, maar andere niet worden ingevuld door respondenten [3](#page=3).
## 1.5 Variabelen en meetniveaus
### 1.5.1 Operationalisatie
Operationalisatie is het proces waarbij variabelen meetbaar worden gemaakt voor de steekproef, vaak door het formuleren van specifieke vragen, gebaseerd op een theorie of eerder onderzoek. Het vereist een duidelijke definitie van wat er gemeten moet worden en hoe dit concreet zal gebeuren [4](#page=4).
> **Voorbeeld:** Een foute operationalisatie zou zijn het tellen van Netflix-kijkers na slechts 3 minuten kijken [4](#page=4).
### 1.5.2 Kwantitatief versus kwalitatief
Variabelen kunnen worden ingedeeld in twee hoofdcategorieën:
* **Kwalitatief of categorisch:** Variabelen die geen directe wiskundige betekenis hebben en categorieën vertegenwoordigen, zoals woonplaats, haarkleur, geslacht of opleidingsniveau [4](#page=4).
* **Kwantitatief of metrisch:** Variabelen die numerieke waarden hebben en wiskundige bewerkingen toelaten, zoals IQ, geboortejaar of temperatuur [4](#page=4).
### 1.5.3 Meetniveaus
Binnen kwalitatieve en kwantitatieve variabelen worden verschillende meetniveaus onderscheiden:
* **Nominaal:** Categorieën zonder inherente ordening. Rekenkundige bewerkingen zijn niet mogelijk (bijv. haarkleur, woonplaats) ] [4](#page=4).
* **Ordinaal:** Categorieën met een duidelijke ordening, maar de afstand tussen de categorieën is niet gelijk of meetbaar (bijv. opleidingsniveau, een 5-puntsschaal) ] [4](#page=4).
* **Dichotome variabele:** Een categorische variabele met precies twee waarden [4](#page=4).
* **Dummyvariabele:** Een speciale vorm van een dichotome variabele waarbij 0/1-codering wordt gebruikt. Dit is géén indicatie van een gemiddelde waarde van een halve categorie [4](#page=4).
* **Polytome variabele:** Een categorische variabele met meer dan twee waarden [4](#page=4).
* **Interval:** Variabelen met wiskundige waarden en gelijke afstanden tussen opeenvolgende waarden, maar zonder een absoluut nulpunt. Delen of vermenigvuldigen is niet zinvol (bijv. temperatuur in Celsius, geboortejaar) ] [4](#page=4).
* **Ratio:** (Niet uitputtend behandeld in dit fragment, maar conceptueel wel een meetniveau) Variabelen met een absoluut nulpunt en gelijke intervallen, waardoor alle wiskundige bewerkingen mogelijk zijn (bijv. lengte, gewicht, leeftijd).
---
# Variabelen en meetniveaus in statistisch onderzoek
Dit onderdeel introduceert het concept van operationalisatie en de verschillende meetniveaus die cruciaal zijn voor het correct uitvoeren van statistisch onderzoek [4](#page=4).
### 2.1 Operationalisatie van variabelen
Operationalisatie is het proces waarbij variabelen meetbaar worden gemaakt binnen een steekproef. Dit houdt in dat een abstract concept wordt vertaald naar concrete vragen of meetinstrumenten. De definitie van een variabele specificeert wat er precies gemeten of uitgedrukt moet worden, terwijl de operationalisatie bepaalt *hoe* dit concept concreet gemeten zal worden. Dit proces is vaak gebaseerd op voorafgaand onderzoek of theoretische fundamenten. Een veelvoorkomende fout is bijvoorbeeld het definiëren van "kijken" als het kijken van minimaal drie minuten naar content, wat een specifieke operationalisatie is [4](#page=4).
#### 2.1.1 Kwantitatieve versus kwalitatieve variabelen
Variabelen kunnen worden onderverdeeld in twee hoofdcategorieën:
* **Kwalitatieve (of categorische) variabelen**: Dit zijn variabelen die geen inherente wiskundige betekenis hebben en die men kan categoriseren. Voorbeelden hiervan zijn woonplaats, haarkleur, geslacht en opleidingsniveau [4](#page=4).
* **Kwantitatieve (of metrische) variabelen**: Dit zijn variabelen die numerieke waarden vertegenwoordigen waarop wiskundige bewerkingen kunnen worden uitgevoerd. Voorbeelden zijn IQ-scores, geboortejaar en temperatuur [4](#page=4).
#### 2.1.2 Meetniveaus
Het meetniveau van een variabele bepaalt welke statistische bewerkingen ermee uitgevoerd mogen worden. De vier veelvoorkomende meetniveaus zijn, van laag naar hoog [4](#page=4):
* **Nominaal niveau**: Variabelen op dit niveau bestaan uit categorieën zonder enige logische ordening. Met de waarden op dit niveau kan niet gerekend worden [4](#page=4).
* *Voorbeelden*: Haarkleur (blond, bruin, zwart), woonplaats, geslacht [4](#page=4).
* **Ordinaal niveau**: Variabelen op dit niveau bestaan uit categorieën die wel een logische ordening hebben, maar de afstanden tussen deze categorieën zijn niet gelijk of meetbaar [4](#page=4).
* *Voorbeelden*: Opleidingsniveau (basisonderwijs, middelbaar onderwijs, hoger onderwijs), een 5-puntsschaal (helemaal oneens tot helemaal eens) [4](#page=4).
* **Dichotome variabelen**: Dit zijn categorische variabelen met slechts twee mogelijke waarden [4](#page=4).
* **Dummyvariabelen**: Dit zijn speciale dichotome variabelen die worden gecodeerd met 0 en 1 om ze in analyses te kunnen gebruiken [4](#page=4).
* **Polytome variabelen**: Dit zijn categorische variabelen met meer dan twee mogelijke waarden [4](#page=4).
* **Intervalniveau**: Variabelen op dit niveau hebben numerieke waarden en een consistente afstand tussen opeenvolgende waarden. Er is echter geen absoluut nulpunt. Delen of vermenigvuldigen van deze waarden is niet zinvol [4](#page=4).
* *Voorbeelden*: Temperatuur gemeten in graden Celsius of Fahrenheit, geboortejaar [4](#page=4).
* **Rationiveau**: Dit is het hoogste meetniveau. Variabelen op dit niveau hebben numerieke waarden, consistente afstanden tussen waarden en een absoluut nulpunt. Dit betekent dat deze waarden kunnen worden vergeleken in termen van verhoudingen en dat nul ook echt de afwezigheid van de gemeten eigenschap betekent [5](#page=5).
* *Voorbeelden*: Lengte, leeftijd, gewicht, inkomen [5](#page=5).
#### 2.1.3 Kenmerken van kwantitatieve variabelen
Kwantitatieve variabelen kunnen verder worden onderverdeeld op basis van de waarden die ze kunnen aannemen:
* **Discreet**: Een variabele is discreet als deze slechts een beperkt aantal gehele getallen kan aannemen [5](#page=5).
* *Voorbeeld*: Het aantal kinderen in een gezin, het aantal studenten in een klas.
* **Continu**: Een variabele is continu als deze in theorie elke waarde binnen een bepaald bereik kan aannemen [5](#page=5).
* *Voorbeeld*: Lengte, gewicht, temperatuur.
> **Tip**: Het meetniveau van een variabele bepaalt welke rekenkundige bewerkingen toegestaan zijn. Over het algemeen geldt: bewerkingen die op een hoger meetniveau toegestaan zijn, zijn dat vaak niet op een lager niveau. De volgorde van de meetniveaus voor toelaatbare bewerkingen is Nominaal $\rightarrow$ Ordinaal $\rightarrow$ Interval $\rightarrow$ Ratio [5](#page=5).
### 2.2 Frequentieverdelingen en grafische voorstellingen
Om onderzoeksvragen te beantwoorden, worden verzamelde gegevens vaak samengevat en gevisualiseerd. Dit gebeurt met behulp van elementaire technieken zoals frequentietabellen en grafische methodes [5](#page=5).
#### 2.2.1 Frequentieverdelingen en tabellen
Een frequentieverdeling geeft aan hoe vaak elke waarde of categorie van een variabele voorkomt in de dataset, uitgedrukt in absolute of relatieve aantallen. Een frequentietabel is een gestructureerde manier om deze informatie weer te geven [5](#page=5).
Belangrijke componenten van een frequentietabel:
* $X_i$: De mogelijke antwoordopties of waarden van de variabele [6](#page=6).
* $N$: De totale steekproefgrootte [6](#page=6).
* $F_i$: De absolute frequentie, oftewel het aantal keren dat een specifieke waarde $X_i$ is waargenomen [6](#page=6).
* $f_i$: De relatieve frequentie, vaak uitgedrukt als een percentage, berekend als $\frac{F_i}{N} \times 100\%$ [5](#page=5) [6](#page=6).
* Cumulatief percentage: Het percentage van de waarnemingen dat gelijk is aan of kleiner is dan een bepaalde waarde of categorie [5](#page=5).
#### 2.2.2 Grafische voorstellingen
Grafische methoden helpen om de verdeling van gegevens snel te begrijpen. De keuze voor een grafische voorstelling hangt af van het meetniveau van de variabele [5](#page=5) [6](#page=6).
* **Nominale schaal**: Voornamelijk gebruikt men staafdiagrammen of taartdiagrammen om de frequenties van categorieën weer te geven [6](#page=6).
* **Ordinale schaal**: Naast staafdiagrammen kunnen hier ook cumulatieve percentages worden weergegeven, bijvoorbeeld om aan te geven welk percentage van de respondenten "akkoord" of "sterk akkoord" is. De absolute cumulatieve frequentie wordt weergegeven als $K(X_i)$, en de relatieve cumulatieve frequentie als $k(X_i)$ [6](#page=6).
* **Interval- en rationiveau**:
* **Niet in klassen gegroepeerde gegevens**: Hier kunnen staafdiagrammen, histogrammen, frequentiepolygonen en boxplots gebruikt worden [6](#page=6).
* **Wel in klassen gegroepeerde gegevens**: Wanneer het aantal verschillende waargenomen waarden te groot is, worden de gegevens opgedeeld in klassen. Bij het groeperen in klassen is het belangrijk dat deze regels worden nageleefd [6](#page=6):
1. **Exhaustief**: Elke waarneming moet aan één klasse kunnen worden toegewezen [6](#page=6).
2. **Wederzijds exclusief**: Klassen mogen niet overlappen [6](#page=6).
* Voor continue variabelen wordt vaak het klassenmidden gebruikt, wat het gemiddelde van de onder- en bovengrens van de klasse is [6](#page=6).
> **Tip**: Het correct identificeren van het meetniveau van een variabele is essentieel voor de keuze van de juiste statistische analysemethoden en grafische voorstellingen [4](#page=4) [5](#page=5).
> **Example**: Stel dat we de variabele "opleidingsniveau" onderzoeken. Dit is een ordinale variabele met categorieën zoals "lager onderwijs", "middelbaar onderwijs" en "hoger onderwijs". We kunnen een staafdiagram gebruiken om de absolute aantallen per opleidingsniveau weer te geven. Daarnaast kunnen we een cumulatief percentage tonen, bijvoorbeeld "75% heeft minimaal middelbaar onderwijs gevolgd", wat de ordening van de variabele benut [6](#page=6).
---
# Beschrijvende univariate statistische maten
Beschrijvende univariate statistische maten helpen bij het samenvatten en beschrijven van de verdeling van gegevens van één variabele [7](#page=7).
### 3.1 Frequentieverdelingen en grafische voorstellingen
Om onderzoeksvragen te beantwoorden, worden verzamelde kwantitatieve gegevens samengevat met behulp van elementaire technieken zoals het weergeven van frequenties in tabellen, grafische methoden (staafdiagrammen, histogrammen) en samenvattende numerieke getallen [5](#page=5).
Een frequentieverdeling geeft voor elke waarde of categorie van een variabele aan hoeveel waarnemingen er zijn, in absolute of relatieve aantallen. Een frequentietabel toont deze gegevens [5](#page=5).
* **Absolute frequentie ($F_i$)**: Het aantal keren dat een bepaalde waarde $x_i$ werd waargenomen [6](#page=6).
* **Relatieve frequentie ($f_i$)**: Het percentage van de absolute frequentie ten opzichte van de totale steekproefgrootte ($N$). $f_i = \frac{F_i}{N} \times 100$ [5](#page=5).
* **Cumulatief percentage**: Het percentage van waarnemingen dat kleiner is dan of gelijk is aan een bepaalde waarde [5](#page=5).
#### 3.1.1 Grafische voorstellingen
De keuze voor een grafische voorstelling hangt af van het meetniveau van de variabele [6](#page=6).
* **Nominale schaal**: Staafdiagram of taartdiagram [6](#page=6).
* **Ordinale schaal**: Cumulatieve percentages kunnen worden weergegeven. Absolute cumulatieve frequentie: $K(x_i)$. Relatieve cumulatieve frequentie: $k(x_i)$ [6](#page=6).
* **Interval en ratio**:
* **Niet in klassen gegroepeerde gegevens**: Staafdiagram, histogram, frequentiepolygoon [6](#page=6).
* **Wel in klassen gegroepeerde gegevens**: De waarden worden opgedeeld in klassen die exhaustief (elke waarneming kan aan een klasse worden toegewezen) en wederzijds exclusief (niet-overlappend) zijn. Voor continue variabelen is het klassenmidden het gemiddelde. Voor discrete variabelen kan een klasse zoals `waarde 23` worden weergegeven als `[22,5; 23,5[` [6](#page=6) [7](#page=7).
#### 3.1.2 Datavisualisatie
Goede datavisualisatie wordt gekenmerkt door drie eigenschappen: duidelijk, correct en esthetisch (mooi) [7](#page=7).
### 3.2 Maten van ligging of positie
Maten van ligging (of positie) laten toe om groepen efficiënt te vergelijken. Ze liggen altijd tussen de kleinste en grootste waargenomen waarde, en de keuze hangt af van het meetniveau en inhoudelijke criteria [7](#page=7).
#### 3.2.1 Centrummaten
Centrummaten geven een typische waarde voor een dataset [8](#page=8).
* **Modus**: De waargenomen waarde van de variabele met de hoogste frequentie [8](#page=8).
* **Voordelen**: Makkelijk te bepalen, bruikbaar bij elke meetschaal [8](#page=8).
* **Nadelen**: Niet noodzakelijk uniek, houdt enkel rekening met de hoogste frequentie [8](#page=8).
* Bij gegroepeerde gegevens spreekt men van de **modale klasse**, het klassenmidden van de klasse met de hoogste frequentie [8](#page=8).
* **Mediaan**: De waarde die de geordende dataset in twee gelijke helften verdeelt (evenveel waarnemingen kleiner dan/gelijk aan/groter dan de mediaan) [8](#page=8).
* **Berekening bij gegroepeerde gegevens**: $X' + \frac{F_m - K(X'_m)}{f_m} \times l$, waarbij $X'$ de ondergrens van de klasse is, $F_m$ de absolute frequentie van die klasse, $K(X'_m)$ de absolute cumulatieve frequentie van de ondergrens van die klasse, en $l$ de lengte van de klasse [8](#page=8).
* **Voordelen**: Uniek, minder gevoelig voor extreme waarden dan het gemiddelde [8](#page=8).
* **Nadelen**: Niet te berekenen voor nominale variabelen, niet alle waargenomen waarden worden in rekening gebracht [8](#page=8).
* **Gemiddelde**: De som van alle waarnemingen gedeeld door het aantal waarnemingen [9](#page=9).
* **Berekening bij gegroepeerde gegevens**: Gebruik de klassenmiddens [9](#page=9).
* **Voordelen**: Uniek, alle waargenomen waarden worden gebruikt, mathematisch gebruiksvriendelijk [9](#page=9).
* **Nadelen**: Beïnvloed door extreme scores, niet geschikt voor nominale/ordinale schalen [9](#page=9).
#### 3.2.2 Kwantielen
Kwantielen verdelen de geordende dataset in gelijke delen en zijn beschikbaar vanaf ordinaal meetniveau [9](#page=9).
* **Kwartielen**: Verdelen de data in 4 gelijke delen (K1, K2=mediaan, K3) [9](#page=9).
* **Decielen**: Verdelen de data in 10 gelijke delen [9](#page=9).
* **Percentielen**: Verdelen de data in 100 gelijke delen [9](#page=9).
#### 3.2.3 Momenten
Momenten beschrijven hoe waarden zich verhouden ten opzichte van een constante waarde. Er zijn momenten rond de oorsprong, rond het gemiddelde, en rond een andere constante waarde [10](#page=10) [9](#page=9).
### 3.3 Maten van spreiding
Maten van spreiding geven aan hoe sterk waarden zich concentreren; liggen ze dicht of ver uit elkaar [7](#page=7).
#### 3.3.1 Variatiebreedte en interkwantielen
* **Variatiebreedte (Range)**: Het verschil tussen de grootste en kleinste waargenomen waarde [10](#page=10).
* **Nadeel**: Zeer gevoelig voor extreme waarden [10](#page=10).
* Bij gegroepeerde gegevens: verschil tussen de bovengrens van de hoogste klasse en de ondergrens van de laagste klasse [10](#page=10).
* **Interkwartielafstand**: Het verschil tussen het derde kwartiel ($K_3$) en het eerste kwartiel ($K_1$). Dit geeft aan tussen welke waarden de middelste 50% van de waarnemingen vallen. De snorharen van een boxplot representeren vaak 1.5 keer de interkwartielafstand [10](#page=10).
* **Interdecielafstand**: Het verschil tussen het negende deciel ($D_9$) en het eerste deciel ($D_1$). Dit geeft aan tussen welke waarden de middelste 80% van de waarnemingen vallen [10](#page=10).
#### 3.3.2 Afwijkingen van het gemiddelde
* **Gemiddelde absolute afwijking**: De absolute waarde van de verschillen tussen de waarnemingen en het gemiddelde [11](#page=11).
* **Variantie**: Het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde [11](#page=11).
* **Kwadratensom (Sum of Squares)**: De som van de gekwadrateerde afwijkingen van het rekenkundig gemiddelde [11](#page=11).
* **Kenmerken**: Geeft meer gewicht aan grote verschillen, altijd positief of nul, zegt iets over onderlinge verschillen [11](#page=11).
* **Nadelen**: Kwadratische maat, moeilijk te interpreteren [11](#page=11).
* **Standaardafwijking**: De vierkantswortel van de variantie [11](#page=11).
* **Voordelen**: Meest gebruikte kengetal voor spreiding, uitgedrukt in dezelfde meeteenheid als de waarneming [11](#page=11).
* **Nadelen**: De waarde op zich zegt niet of de spreiding groot of klein is in verhouding met de uitkomst zelf [12](#page=12).
#### 3.3.3 Relatieve spreiding
* **Variatiecoëfficiënt**: De ratio van de standaardafwijking op het gemiddelde [12](#page=12).
* **Voordeel**: Relatieve spreidingsmaat, gebruikt om spreiding van verschillende groepen te vergelijken [12](#page=12).
#### 3.3.4 Toepassing normaalverdeling en Z-scores
* **Normaalverdeling**: Een continue, klokvormige, symmetrische verdeling waarbij het gemiddelde, de mediaan en de modus samenvallen. Verschillen in spreiding maken de verdeling spitser of platter. Dit speelt een belangrijke rol in de inferentiële statistiek [12](#page=12).
* **Z-scores**: Een gestandaardiseerde score die aangeeft hoeveel standaardafwijkingen een waarneming onder of boven het gemiddelde ligt [12](#page=12).
* Een negatieve Z-score geeft aan dat de score onder het gemiddelde ligt, een positieve Z-score dat deze erboven ligt [12](#page=12).
* Een Z-verdeling heeft een gemiddelde van 0 en een standaardafwijking van 1 [12](#page=12).
* **Voordeel**: Dimensieloos, wat vergelijkbaarheid mogelijk maakt [12](#page=12).
### 3.4 Maten van vorm
Maten van vorm beschrijven kenmerken zoals symmetrie en afplatting van een verdeling [7](#page=7).
#### 3.4.1 Symmetrie (scheefheid)
Symmetrie wordt gemeten door scheefheid. Er zijn drie situaties: symmetrisch, rechtsscheef en linksscheef [13](#page=13).
* **Rechtsscheef**: modus < mediaan < gemiddelde [13](#page=13).
* **Linksscheef**: gemiddelde < mediaan < modus [13](#page=13).
Verschillende coëfficiënten meten scheefheid:
* **Empirische coëfficiënt van Pearson ($S$)**:
* $S = 0$: Symmetrisch [13](#page=13).
* $S > 0$: Linkse asymmetrie [13](#page=13).
* $S < 0$: Rechtse asymmetrie [13](#page=13).
* **Coëfficiënt van Yule en Kendall**:
* $Y = 0$: Symmetrisch [13](#page=13).
* $Y > 0$: Linkse asymmetrie [13](#page=13).
* $Y < 0$: Rechtse asymmetrie [13](#page=13).
* **Coëfficiënt van Fisher ($g_1$)**: Gebaseerd op het derde centrale moment.
* $g_1 = 0$: Symmetrisch [13](#page=13).
* $g_1 > 0$: Linkse asymmetrie [13](#page=13).
* $g_1 < 0$: Rechtse asymmetrie [13](#page=13).
#### 3.4.2 Afplatting (kurtosis)
Afplatting wordt gemeten door de kurtosis, die de buiging of gepiektheid van de verdeling aangeeft [13](#page=13).
* **Coëfficiënt Pearson ($b_2$)**:
* Leptokurtisch: $b_2 > 3$ (meer gepiekt) [14](#page=14).
* Mesokurtisch: $b_2 = 3$ [14](#page=14).
* Platykurtisch: $b_2 < 3$ (minder gepiekt) [14](#page=14).
* **Coëfficiënt Fisher ($g_2$)**:
* Leptokurtisch: $g_2 > 0$ [14](#page=14).
* Mesokurtisch: $g_2 = 0$ [14](#page=14).
* Platykurtisch: $g_2 < 0$ [14](#page=14).
Er bestaat een formule voor de berekening van de kurtosis op basis van het centrale moment van rang 4 [14](#page=14).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Statistiek | Een wetenschap die zich bezighoudt met het verzamelen, analyseren, interpreteren en presenteren van gegevens om de wereld beter te kennen en te begrijpen. |
| Beschrijvende statistiek | Het deel van de statistiek dat zich richt op het samenvatten, ordenen en synthetiseren van verzamelde gegevens om de wereld in cijfers te beschrijven. |
| Inferentiële statistiek | Het deel van de statistiek dat zich richt op het trekken van conclusies over een grotere populatie op basis van gegevens verkregen uit een beperkte steekproef. |
| Onderzoekspopulatie | De gehele groep individuen of objecten waarover een onderzoek uitspraken wil doen en waaruit een steekproef getrokken kan worden. |
| Onderzoekseenheid | Het individuele element binnen een populatie dat wordt bestudeerd in een onderzoek; dit kunnen mensen, objecten of andere entiteiten zijn. |
| Variabele | Een kenmerk of eigenschap die wordt bestudeerd en dat kan variëren tussen verschillende onderzoekseenheden. |
| Datamatrix/dataset | Een tabelstructuur waarin onderzoekseenheden als rijen en variabelen als kolommen zijn weergegeven, met de waarden van de variabelen in de cellen. |
| Steekproef | Een subset van de onderzoekspopulatie die wordt onderzocht om representatieve informatie te verkrijgen over de gehele populatie. |
| Parameters | Kengetallen die een kenmerk van een hele populatie beschrijven, zoals het populatiegemiddelde ($\mu$) of de populatiestandaardafwijking ($\sigma$). |
| Statistieken (steekproefstatistieken) | Kengetallen die worden gemeten in een steekproef en die worden gebruikt om de parameters van de populatie te schatten, zoals het steekproefgemiddelde ($\bar{x}$) of de steekproefstandaardafwijking ($s$). |
| Operationalisatie | Het proces van het vertalen van abstracte concepten of variabelen naar concrete, meetbare criteria en procedures die in een onderzoek kunnen worden toegepast. |
| Nominaal meetniveau | Een categorisch meetniveau waarbij de waarden categorieën vertegenwoordigen zonder inherente ordening; er kunnen geen wiskundige bewerkingen mee worden uitgevoerd. |
| Ordinaal meetniveau | Een categorisch meetniveau waarbij de categorieën een inherente volgorde hebben, maar de afstanden tussen de categorieën niet noodzakelijk gelijk zijn. |
| Interval meetniveau | Een numeriek meetniveau waarbij de waarden wiskundig betekenisvol zijn, met gelijke afstanden tussen opeenvolgende waarden, maar zonder een absoluut nulpunt. |
| Ratio meetniveau | Een numeriek meetniveau waarbij de waarden wiskundig betekenisvol zijn, met gelijke afstanden en een absoluut nulpunt, waardoor verhoudingen zinvol zijn. |
| Frequentieverdeling | Een overzicht dat voor elke waarde of categorie van een variabele aangeeft hoe vaak deze voorkomt in een dataset, uitgedrukt in absolute of relatieve aantallen. |
| Modus | De waarde of categorie van een variabele die het vaakst voorkomt in een dataset; toepasbaar vanaf nominaal meetniveau. |
| Mediaan | De middelste waarde in een geordende dataset die de data in twee gelijke helften verdeelt; toepasbaar vanaf ordinaal meetniveau. |
| Gemiddelde | De som van alle waarnemingen gedeeld door het aantal waarnemingen; de meest gebruikte centrummaat voor interval- en ratiogegevens. |
| Variantie | Een maat voor spreiding die het gemiddelde is van de gekwadrateerde afwijkingen van het gemiddelde; geeft de gemiddelde kwadratische afstand van de datapunten tot het gemiddelde aan. |
| Standaardafwijking | De vierkantswortel van de variantie, die de gemiddelde afwijking van de datapunten ten opzichte van het gemiddelde weergeeft in de oorspronkelijke meeteenheid. |
| Variatiecoëfficiënt | Een relatieve maat voor spreiding, berekend als de standaardafwijking gedeeld door het gemiddelde, gebruikt om de spreiding van verschillende datasets te vergelijken. |
| Scheefheid (skewness) | Een maat voor de asymmetrie van een kansverdeling, die aangeeft of de verdeling meer gewicht heeft aan de ene kant dan aan de andere. |
| Kurtosis (afplatting) | Een maat die de "gepiektheid" of "platheid" van een kansverdeling beschrijft in vergelijking met een normale verdeling. |