Cover
Empieza ahora gratis Hoorcollege 2_2025.pdf
Summary
# Beschrijvende statistiek met één variabele
Dit deel van de cursus behandelt de basisprincipes van beschrijvende statistiek voor één variabele, inclusief frequentieverdelingen, proporties en samenvattende maten zoals centrale tendens en spreiding [2](#page=2) [4](#page=4).
## 1. Beschrijvende statistiek met één variabele
Beschrijvende statistiek met één variabele heeft als doel het samenvatten en beschrijven van een dataset die bestaat uit observaties van één enkele variabele. Dit gebeurt middels frequentieverdelingen en samenvattende maten [2](#page=2) [4](#page=4).
### 1.1 Frequentie, proportie en cumulatieve proportie
* **Frequentie:** Het aantal keren dat een bepaalde waarde of categorie voorkomt in de dataset [5](#page=5).
* **Proportie:** De frequentie van een waarde gedeeld door het totaal aantal observaties. Dit geeft de relatieve frequentie weer [5](#page=5).
* **Cumulatieve proportie:** De som van de proporties van alle waarden tot en met een bepaalde waarde. Dit geeft aan welk percentage van de observaties kleiner is dan of gelijk is aan die waarde [6](#page=6).
> **Tip:** Frequentieverdelingen, proporties en cumulatieve proporties helpen om de distributie van de data visueel voor te stellen, bijvoorbeeld via een histogram [5](#page=5) [7](#page=7).
### 1.2 Samenvattende maten
Samenvattende maten worden gebruikt om de belangrijkste kenmerken van een dataset te kwantificeren. Ze kunnen grofweg worden ingedeeld in maten van centrale tendens en maten van spreiding [3](#page=3) [4](#page=4).
#### 1.2.1 Centrale tendensmaten
Centrale tendensmaten geven een indicatie van het 'middelpunt' of 'centrum' van de geobserveerde gegevens [3](#page=3).
* **Modus:** De waarde die het vaakst voorkomt in een dataset. Een dataset kan één modus (unimodaal), meerdere modi (multimodaal) of geen duidelijke modus hebben [5](#page=5).
* **Mediaan (Me):** De middelste waarde in een geordende dataset. Als de dataset een even aantal observaties heeft, is de mediaan het gemiddelde van de twee middelste waarden. De mediaan is ook gelijk aan het 50e percentiel ($P_{50}$), de 5e deciel ($D_5$), en het tweede kwartiel ($Q_2$) [6](#page=6) [8](#page=8).
* **Berekening:**
1. Orden de observaties van klein naar groot: $x_1 \leq x_2 \leq \dots \leq x_n$ [8](#page=8).
2. Als $n$ oneven is, is de mediaan de middelste observatie: $Me = x_{\frac{n+1}{2}}$ [8](#page=8).
3. Als $n$ even is, is de mediaan het gemiddelde van de twee middelste observaties: $Me = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2}$ [8](#page=8).
* **Gemiddelde (rekenkundig):** De som van alle observaties gedeeld door het aantal observaties [10](#page=10) [11](#page=11) [9](#page=9).
* **Formule:**
$$ \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$ [10](#page=10) [11](#page=11) [9](#page=9).
* **Formule met frequenties:** Als er herhaalde waarden zijn, kan het gemiddelde berekend worden met frequenties ($f_j$):
$$ \overline{x} = \frac{\sum_{j=1}^{m} f_j x_j}{n} $$ of
$$ \overline{x} = \sum_{j=1}^{m} p_j x_j $$ waar $p_j = \frac{f_j}{n}$ de proportie is [13](#page=13) [14](#page=14) [16](#page=16).
* **Eigenschap:** De som van de afwijkingen van elke observatie ten opzichte van het gemiddelde is altijd nul: $\sum_{i=1}^{n} (x_i - \overline{x}) = 0$ [19](#page=19) [20](#page=20).
> **Tip:** De keuze tussen mediaan en gemiddelde hangt af van de verdeling van de data. Bij scheve verdelingen (met uitschieters) is de mediaan een meer robuuste maat voor centrale tendens [18](#page=18).
#### 1.2.2 Spreidingsmaten
Spreidingsmaten geven aan hoe ver de gegevens van het middelpunt verwijderd zijn, of hoe ver de gegevens van elkaar verwijderd zijn [3](#page=3).
* **Bereik:** Het verschil tussen de grootste en de kleinste geobserveerde score [22](#page=22).
* **Formule:** $Bereik = max(X) - min(X)$ [22](#page=22).
* **Nadeel:** Erg gevoelig voor uitbijters (extreme waarden) [22](#page=22).
* **Interkwartielbereik (IQR):** Het verschil tussen het derde kwartiel ($Q_3$ of $P_{75}$) en het eerste kwartiel ($Q_1$ of $P_{25}$) [22](#page=22).
* **Formule:** $IQR = Q_3 - Q_1$ [22](#page=22).
* **Betekenis:** Omvat ongeveer het middelste 50% van de observaties. Minder gevoelig voor uitbijters dan het bereik [22](#page=22).
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van de observaties ten opzichte van het rekenkundig gemiddelde [23](#page=23) [24](#page=24) [25](#page=25) [26](#page=26).
* **Formule (standaarddeviatie in de populatie gedeeld door N, voor steekproeven wordt dit vaak N-1):**
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n} $$ [23](#page=23) [24](#page=24) [25](#page=25) [26](#page=26).
* **Chiastische eigenschap:** De variantie is gelijk aan het gemiddelde van de kwadraten min het kwadraat van het gemiddelde. Dit is een alternatieve, computationeel handige formule [29](#page=29) [30](#page=30) [31](#page=31) [34](#page=34).
$$ s^2 = \frac{\sum_{i=1}^{n} x_i^2}{n} - (\overline{x})^2 $$ [29](#page=29) [30](#page=30) [31](#page=31) [34](#page=34).
* **Betekenis:** De variantie meet de gemiddelde gekwadrateerde afstand van de observaties tot het gemiddelde [23](#page=23) [32](#page=32) [38](#page=38).
* **Complexere definitie:** De variantie kan ook worden gezien als het gemiddelde gekwadrateerde verschil tussen *alle paren* van observaties onderling [35](#page=35) [36](#page=36).
$$ s^2 = \frac{\sum_{i=1}^{n} \sum_{i'=1}^{n} (x_i - x_{i'})^2}{n^2} $$ [35](#page=35) [36](#page=36).
* **Standaarddeviatie ($s$):** De vierkantswortel van de variantie [28](#page=28).
* **Formule:**
$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n}} $$ [28](#page=28).
* **Betekenis:** De standaarddeviatie heeft dezelfde eenheid als de oorspronkelijke data en vertegenwoordigt de typische of gemiddelde afwijking van een observatie tot het gemiddelde [28](#page=28).
### 1.3 Eigenschappen van gemiddelde en variantie
#### 1.3.1 De regel van Steiner
De regel van Steiner stelt dat voor een willekeurig getal $c$, de som van de gekwadrateerde afwijkingen ten opzichte van $c$ altijd groter is dan of gelijk is aan de variantie, en dat deze som minimaal is wanneer $c$ gelijk is aan het gemiddelde $\overline{x}$ [42](#page=42) [43](#page=43) [44](#page=44).
* **Formule:** Voor elke willekeurige waarde $c$ geldt:
$$ \sum_{i=1}^{n} (x_i - c)^2 = \sum_{i=1}^{n} (x_i - \overline{x})^2 + n(c - \overline{x})^2 $$ [42](#page=42) [43](#page=43).
* **Interpretatie:** Het gemiddelde $\overline{x}$ is dus de waarde $c$ waarvoor de gemiddelde gekwadrateerde afwijking van $c$ tot de observaties ($x_i$) minimaal is. Dit bevestigt dat het gemiddelde een goed centrum van de gegevens is wanneer de spreiding wordt gemeten met kwadratische verschillen [44](#page=44).
#### 1.3.2 De ongelijkheid van Tchebychev
De ongelijkheid van Tchebychev biedt een manier om uitspraken te doen over de spreiding van de data, zelfs zonder de specifieke waarden van de observaties te kennen, enkel op basis van het gemiddelde en de variantie [46](#page=46) [47](#page=47) [48](#page=48) [49](#page=49) [50](#page=50) [51](#page=51).
* **Stelling:** Voor elke dataset en elke waarde $k > 0$, is de proportie geobserveerde scores die zich op een afstand van minstens $k$ standaarddeviaties tot het gemiddelde bevinden, gelijk aan of kleiner dan $1/k^2$ [46](#page=46) [47](#page=47).
* **Formule:**
$$ P(|x - \overline{x}| \geq ks) \leq \frac{1}{k^2} $$ of equivalent hiermee:
$$ P(|x - \overline{x}| < ks) \geq 1 - \frac{1}{k^2} $$ [46](#page=46) [48](#page=48) [49](#page=49) [50](#page=50) [51](#page=51).
* **Interpretatie:** Dit betekent dat ten hoogste $1/k^2$ deel van de observaties verder weg ligt van het gemiddelde dan $k$ standaarddeviaties. Bijvoorbeeld, met $k=2$, ligt ten hoogste $1/2^2 = 1/4$ (of 25%) van de observaties meer dan 2 standaarddeviaties van het gemiddelde verwijderd. Daarmee ligt minstens $1 - 1/k^2$ deel van de observaties binnen deze $k$ standaarddeviaties [46](#page=46) [50](#page=50) [51](#page=51).
* **Voorbeeld:** Als een score van 25 wordt gemeten met een gemiddelde van 15 en een standaarddeviatie van 4, kan de ongelijkheid van Tchebychev worden gebruikt om te bepalen of dit een extreme score is. Met $k=2.5$, $x=25$, $\overline{x}=15$, $s=4$, geldt $k \cdot s = 2.5 \cdot 4 = 10$. De score van 25 ligt 10 punten boven het gemiddelde, wat exact 2.5 standaarddeviaties is. Volgens de ongelijkheid ligt maximaal $1/(2.5)^2 = 1/6.25 = 0.16$ (of 16%) van de observaties op of boven deze score. Dit suggereert dat de score van 25 relatief hoog is binnen deze groep [52](#page=52).
---
# Transformaties van variabelen
Het transformeren van ruwe scores naar andere score-eenheden is vaak noodzakelijk omdat ruwe scores arbitrair kunnen zijn en moeilijk te interpreteren. Een transformatie zet een input (argument) om in een output (functiewaarde) met behulp van een functie [57](#page=57) [58](#page=58).
### 1.3.1 Lineaire transformaties
Een lineaire transformatie van een variabele $x$ heeft de algemene vorm $f(x) = ax + b$, waarbij $a$ en $b$ constanten zijn. Hierbij is $a$ de vermenigvuldigingsfactor en $b$ de optelconstante [62](#page=62).
#### 1.3.1.1 Invloed van lineaire transformaties op samenvattende maten
Lineaire transformaties hebben een voorspelbare invloed op het rekenkundig gemiddelde en de variantie van een dataset [63](#page=63).
* **Gemiddelde:** Als elke score $x_i$ getransformeerd wordt volgens $f(x_i) = ax_i + b$, dan wordt het nieuwe gemiddelde $\bar{f(x)} = a\bar{x} + b$. Met andere woorden, het gemiddelde wordt op dezelfde lineaire manier getransformeerd als de individuele scores [64](#page=64) [65](#page=65).
> **Tip:** De eigenschap $\bar{f(x)} = af(x) + b$ geldt uitsluitend voor lineaire transformaties [65](#page=65).
* **Variantie:** Als elke score $x_i$ getransformeerd wordt volgens $f(x_i) = ax_i + b$, dan wordt de nieuwe variantie $s^2_{f(x)} = a^2 s^2_x$. De variantie wordt vermenigvuldigd met het kwadraat van de vermenigvuldigingsfactor $a$. De optelconstante $b$ heeft geen invloed op de variantie [66](#page=66) [67](#page=67).
> **Opmerking:** Dit komt doordat variantie een maat is voor de spreiding, en het optellen of aftrekken van een constante de spreiding niet verandert [67](#page=67).
### 1.3.2 Z-transformatie (standaardscores)
De Z-transformatie is een bijzondere vorm van een lineaire transformatie die ruwe scores omzet naar standaardscores. Deze scores geven aan hoeveel standaarddeviaties een bepaalde score verwijderd is van het gemiddelde [68](#page=68) [69](#page=69) [70](#page=70).
De formule voor de Z-transformatie van een score $x$ is:
$$Z_x = \frac{x - \bar{x}}{s_x}$$
waarbij:
* $x$ de ruwe score is [71](#page=71).
* $\bar{x}$ het gemiddelde is van de variabele X [72](#page=72).
* $s_x$ de standaarddeviatie is van de variabele X [72](#page=72).
#### 1.3.2.1 Interpretatie van Z-scores
* Een Z-score van $-2$ betekent dat de score 5 twee standaarddeviaties onder het gemiddelde ligt [71](#page=71).
* Een Z-score van $1.5$ betekent dat de score 3.5 anderhalve standaarddeviatie boven het gemiddelde ligt [71](#page=71).
De Z-transformatie wordt vaak genoteerd als $Z_X(x)$, waar het subscript (X) de variabele aangeeft waarvoor het gemiddelde en de standaarddeviatie worden gebruikt, en de waarde tussen haakjes ($x$) de input (ruwe score) is waarvan de Z-score berekend wordt [72](#page=72).
> **Voorbeeld:** Gegeven een dataset met een gemiddelde ($\bar{x}$) van 3 en een standaarddeviatie ($s_x$) van 2. De Z-score voor een ruwe score van 5 wordt als volgt berekend:
> $$Z_5 = \frac{5 - 3}{2} = \frac{2}{2} = 1$$
> Dit betekent dat de score 5 één standaarddeviatie boven het gemiddelde ligt [73](#page=73).
#### 1.3.2.2 Kenmerken van Z-transformatie
* De getransformeerde X-scores, oftewel de Z-scores, worden ook wel standaardscores genoemd [74](#page=74).
* De Z-transformatie kan op elke waarde worden toegepast, niet alleen op geobserveerde X-waarden [74](#page=74).
* De Z-transformatie is een lineaire transformatie. Wanneer we een Z-score transformeren met $a = \frac{1}{s_x}$ en $b = -\frac{\bar{x}}{s_x}$, krijgen we [75](#page=75):
$$f(Z_x) = aZ_x + b = \frac{1}{s_x} \left( \frac{x - \bar{x}}{s_x} \right) - \frac{\bar{x}}{s_x} = \frac{x - \bar{x}}{s_x^2} - \frac{\bar{x}}{s_x}$$
Dit is niet de oorspronkelijke score $x$. Echter, de Z-transformatie zelf resulteert in scores met een gemiddelde van 0 en een standaarddeviatie van 1:
* Gemiddelde van Z-scores: $E(Z_x) = E\left(\frac{x - \bar{x}}{s_x}\right) = \frac{E(x) - \bar{x}}{s_x} = \frac{\bar{x} - \bar{x}}{s_x} = 0$ [75](#page=75).
* Variantie van Z-scores: $Var(Z_x) = Var\left(\frac{x - \bar{x}}{s_x}\right) = \left(\frac{1}{s_x}\right)^2 Var(x) = \frac{1}{s_x^2} s_x^2 = 1$ [75](#page=75).
> **Tip:** Een Z-score van 0 betekent dat de score gelijk is aan het gemiddelde. De standaarddeviatie van Z-scores is altijd 1 [71](#page=71) [75](#page=75).
---
# Studiehulp en samenvatting
Dit gedeelte biedt een overzicht van belangrijke studiehulpmiddelen en samenvattingen van centrale concepten, met focus op gemiddelde, variantie, de ongelijkheid van Tchebychev, boxplots en Z-scores [77](#page=77) [78](#page=78) [79](#page=79) [80](#page=80).
### 3.1 Gemiddelde en variantie
Het is essentieel om de definities van gemiddelde en variantie vloeiend te kunnen formuleren met behulp van de correcte formules. Bovendien moeten deze definities zowel met frequenties als met proporties herschreven kunnen worden [77](#page=77).
#### 3.1.1 Betekenis en berekening
De variantie geeft inzicht in de spreiding van gegevens rondom het gemiddelde. Het is belangrijk om te begrijpen wanneer de berekening van de variantie zinvol is. Men moet tevens vertrouwd zijn met de berekeningsmethoden op een rekenmachine [77](#page=77).
> **Tip:** Zorg ervoor dat je bij het noteren van formules voor de variantie nauwkeurig bent. Benoem de boven- en ondergrens van je sommatieteken en gebruik de juiste indices [77](#page=77).
#### 3.1.2 De chiastische eigenschap
De chiastische eigenschap van de variantie kan worden opgeschreven met behulp van de correcte formule en kan vervolgens worden geformuleerd met zowel frequenties als proporties [77](#page=77).
### 3.2 Ongelijkheid van Tchebychev
De ongelijkheid van Tchebychev kan in woorden worden beschreven en geïllustreerd met voorbeelden en een getallenas [78](#page=78).
#### 3.2.1 Wiskundige formulering
Het is cruciaal om de ongelijkheid van Tchebychev nauwkeurig te formuleren met de correcte wiskundige notatie, waarbij de richting van de ongelijkheden en het al dan niet strikt zijn hiervan correct worden weergegeven. Alle elementen van de formule moeten worden benoemd en gekoppeld aan de verbale beschrijving [78](#page=78).
### 3.3 Boxplots
Boxplots bieden visuele informatie over de spreiding en de scheefheid van gegevens [79](#page=79).
#### 3.3.1 Elementen en interpretatie
Men dient alle elementen van een boxplot te kunnen benoemen, zoals het interkwartielbereik. Het is belangrijk te begrijpen wat een boxplot zegt over de spreiding en scheefheid van de gegevens. Tevens moet men het concept van uitbijters begrijpen en boxplots met en zonder uitbijters kunnen tekenen [79](#page=79).
### 3.4 Z-scores
Z-scores bieden een gestandaardiseerde manier om de positie van een datapunten ten opzichte van het gemiddelde en de standaardafwijking te meten [80](#page=80).
#### 3.4.1 Betekenis en definitie
Een Z-score verklaart in woorden hoe ver een datapunt van het gemiddelde ligt, uitgedrukt in standaardafwijkingen. Een positieve Z-score geeft aan dat het datapunt boven het gemiddelde ligt, terwijl een negatieve Z-score aangeeft dat het datapunt eronder ligt. De definitie van een Z-score kan worden opgeschreven in formulevorm [80](#page=80).
#### 3.4.2 Wiskundige notatie en toepassingen
De wiskundige notatie $Z_X(r)$ vereist begrip van het argument en de variabele. Het verschil tussen $Z_X(3x + 5)$ en $Z_{3x+5}(x)$ moet duidelijk zijn en uitgewerkt kunnen worden. Tevens dient men te kunnen aantonen dat $Z_X(r) = 0$ en dat $Z_X(s) = 1$. Tot slot kan de ongelijkheid van Tchebychev geformuleerd worden in termen van Z-scores [80](#page=80).
> **Tip:** Begrijp dat een Z-score vertelt hoeveel standaardafwijkingen een observatie verwijderd is van het gemiddelde [80](#page=80).
> **Voorbeeld:** Een Z-score van 2 betekent dat de observatie 2 standaardafwijkingen boven het gemiddelde ligt. Een Z-score van -1 betekent dat de observatie 1 standaardafwijking onder het gemiddelde ligt [80](#page=80).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Beschrijvende statistiek | Een tak van statistiek die zich bezighoudt met het samenvatten, organiseren en presenteren van gegevens op een informatieve manier, vaak door middel van grafieken en samenvattende maten. |
| Centrale tendens | Maatstaven die het 'middelpunt' of 'centrum' van een dataset aanduiden, wat aangeeft waar de meeste gegevenswaarden zich bevinden. Voorbeelden zijn modus, mediaan en gemiddelde. |
| Modus | De waarde of categorie in een dataset die het vaakst voorkomt. Een dataset kan één, meerdere (multimodaal) of geen modus hebben. |
| Mediaan (Me) | De middelste waarde in een geordende dataset. De mediaan verdeelt de dataset in twee gelijke helften: 50% van de waarden is kleiner en 50% is groter. |
| Gemiddelde (rekenkundig) | De som van alle observaties gedeeld door het totale aantal observaties. Het is een veelgebruikte maat voor centrale tendens, maar gevoelig voor uitschieters. |
| Spreiding | Maatstaven die aangeven hoe verspreid de gegevens in een dataset zijn rondom het centrum. Hoge spreiding betekent dat de waarden ver uit elkaar liggen, lage spreiding betekent dat ze dicht bij elkaar liggen. |
| Bereik | Het verschil tussen de hoogste en de laagste geobserveerde score in een dataset. Het is een eenvoudige maat voor spreiding, maar erg gevoelig voor uitschieters. |
| Interkwartielbereik (IQR) | Het verschil tussen het derde kwartiel (Q3) en het eerste kwartiel (Q1) van een dataset. Het omvat de middelste 50% van de geordende gegevens en is minder gevoelig voor uitschieters dan het bereik. |
| Variantie ($s^2$) | Het gemiddelde van de gekwadrateerde afwijkingen van de observaties ten opzichte van het rekenkundig gemiddelde. Het geeft een maat voor de gemiddelde spreiding van de data rond het gemiddelde. |
| Standaarddeviatie ($s$) | De vierkantswortel van de variantie. Het is de meest gebruikte maat voor spreiding en geeft de gemiddelde afstand aan van de observaties tot het gemiddelde, in dezelfde eenheden als de oorspronkelijke data. |
| Chiastische eigenschap | Een eigenschap van de variantie die stelt dat de variantie gelijk is aan het gemiddelde van de kwadraten min het kwadraat van het gemiddelde. Dit biedt een alternatieve berekeningsmethode. |
| Regel van Steiner | Stelt dat voor een willekeurig getal $c$, de som van de gekwadrateerde afwijkingen van $c$ tot de observaties minimaal is wanneer $c$ gelijk is aan het gemiddelde van de observaties. |
| Ongelijkheid van Tchebychev | Een wiskundige ongelijkheid die stelt dat voor elke dataset, de proportie van scores die meer dan $k$ standaarddeviaties van het gemiddelde afwijken, maximaal $1/k^2$ is. |
| Boxplot | Een grafische weergave van de spreiding van gegevens, gebaseerd op vijf statistische maten: minimum, eerste kwartiel (Q1), mediaan (Me), derde kwartiel (Q3) en maximum. Het kan ook uitschieters weergeven. |
| Ruwe score | De oorspronkelijke, onbewerkte score die direct is geregistreerd bij een meting of observatie. Deze scores zijn soms niet direct interpreteerbaar. |
| Transformatie van variabelen | Het proces van het omzetten van ruwe scores naar een andere schaal of eenheid om de interpreteerbaarheid te verbeteren of om aan bepaalde statistische vereisten te voldoen. |
| Lineaire transformatie | Een transformatie van de vorm $f(x) = ax + b$, waarbij $a$ en $b$ constanten zijn. Deze transformaties veranderen de positie en schaal van de gegevens, maar niet de onderliggende relaties. |
| Z-score (gestandaardiseerde score) | Een score die aangeeft hoeveel standaarddeviaties een observatie verwijderd is van het gemiddelde van de dataset. Het heeft een gemiddelde van 0 en een standaarddeviatie van 1. |