Cover
Comença ara de franc Werkcollege 1 -student_24-25 (1).pptx
Summary
# Herhaling en oefeningen statistiek 1
Dit document is een studiehandleiding voor werkcollege 1 van Statistiek 2, gericht op de herhaling van concepten uit Statistiek 1 en bijbehorende oefeningen, met een specifieke focus op inductieve statistiek en berekeningen van centrum- en spreidingsmaten.
### 1.1 Inductieve statistiek in onderzoek
Inductieve statistiek is een cruciaal onderdeel van de empirische cyclus en volgt op beschrijvende statistiek. Het doel is om op basis van verzamelde data onderbouwde beslissingen te nemen over verbanden of verschillen. Hoewel er altijd een zekere mate van onzekerheid is bij deze beslissingen, is het essentieel om deze onzekerheid te kennen. Kansberekeningen zijn hiervoor noodzakelijk, waarna significantie berekend kan worden. Statistische conclusies zijn echter pas waardevol als ook voldaan is aan de randvoorwaarden van interne en externe validiteit, en wanneer statistiek niet misbruikt wordt.
#### 1.1.1 Oefeningen inductieve statistiek
* **Omschrijving inductieve statistiek:** Inductieve statistiek maakt het mogelijk om op basis van een steekproef conclusies te trekken over een grotere populatie.
* **Operationaliseren in de empirische cyclus:** In de fase van operationaliseren worden abstracte concepten omgezet in meetbare variabelen. Dit omvat het definiëren van hoe variabelen gemeten zullen worden in het onderzoek.
* **Meetniveau van variabelen:**
* **Nominaal:** Categorieën zonder natuurlijke ordening (bv. provincie, akkoord/niet akkoord, diploma).
* **Ordinaal:** Categorieën met een natuurlijke ordening (bv. tevredenheidsschaal: niet tevreden, tevreden, heel tevreden; angstschaal 1-100; hoe graag naar school: niet graag, redelijk graag, heel graag).
* **Interval:** Gelijke afstanden tussen waarden, geen natuurlijk nulpunt (bv. temperatuur in graden Celsius).
* **Ratio:** Gelijke afstanden tussen waarden en een natuurlijk nulpunt (bv. leeftijd in jaren, postcode, hartslag, nettomaandloon).
* **Identificeren van steekproef, populatie, afhankelijke en onafhankelijke variabelen:**
* **Populatie:** De gehele groep waarover conclusies getrokken worden (bv. alle leerlingen met ADHD, alle patiënten met alcoholverslaving, alle vrouwelijke werknemers in de privésector).
* **Steekproef:** Een deelverzameling van de populatie die daadwerkelijk onderzocht wordt (bv. 50 leerlingen uit 5 scholen, 10 patiënten per behandelmethode, 1008 werknemers uit 158 bedrijven).
* **Onafhankelijke variabele(n):** De variabele(n) waarvan men vermoedt dat ze een effect hebben op andere variabelen (bv. ondersteuning leerkracht/schoolpsycholoog/ouders, oude/nieuwe behandelmethode, nettomaandloon/pendeltijd/work-life balance).
* **Afhankelijke variabele(n):** De variabele(n) waarvan men verwacht dat ze beïnvloed worden door de onafhankelijke variabele(n) (bv. welzijn van leerlingen, tevredenheid/angst/alcoholconsumptie/toekomstinschatting patiënten, turn-over/intentie tot turn-over).
#### 1.1.2 Misbruik van statistiek
Statistische gegevens kunnen misleidend worden gepresenteerd. Kritische vragen zijn hierbij essentieel:
* **Bron van de data:** Wie heeft de data verzameld en met welk doel? (bv. fabrikant van tandpasta).
* **Representativiteit van de steekproef:** Is de steekproef wel representatief voor de populatie? (bv. tandartsen mochten meerdere merken kiezen).
* **Presentatie van grafieken:**
* **As-aanduidingen:** Zeker maken dat de assen correct zijn ingedeeld. Het starten van de y-as niet bij nul kan de verschillen uitvergroten (bv. KFC calorieën voorbeeld).
* **Tijdsperiode:** De gekozen tijdsperiode kan een verkeerde indruk geven van trends (bv. Britse staatsschuld).
* **Correlatie vs. Causaliteit:** Een sterke correlatie betekent niet noodzakelijk dat de ene variabele de andere veroorzaakt. Er kan een derde, onderliggende factor zijn die beide variabelen beïnvloedt (bv. ijsverkoop en haaienaanvallen worden beide beïnvloed door warm weer).
### 1.2 Frequentieverdelingen en percentielen
Frequentieverdelingen geven weer hoe vaak bepaalde waarden voorkomen in een dataset. Percentielen geven de waarde aan waaronder een bepaald percentage van de data valt.
* **Pc 40 (40e percentiel):** De waarde waaronder 40% van de scores ligt.
* **Pc 50 (50e percentiel):** De waarde waaronder 50% van de scores ligt. Dit is gelijk aan de mediaan.
* **Pc 75 (75e percentiel):** De waarde waaronder 75% van de scores ligt. Dit is gelijk aan het derde kwartiel (Q3).
Het aanmaken van relatieve frequenties, cumulatieve frequenties en cumulatieve proporties helpt bij het visualiseren en interpreteren van de verdeling van data en het bepalen van percentielen.
### 1.3 Berekening van centrummaten
Centrummaten beschrijven het midden van een dataset.
* **Gemiddelde:** De som van alle waarden gedeeld door het aantal waarden.
$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$
waarbij $x_i$ de individuele waarden zijn en $n$ het aantal waarden.
* **Mediaan:** De middelste waarde in een geordende dataset. Als er een even aantal waarden is, is de mediaan het gemiddelde van de twee middelste waarden.
* **Modus:** De waarde die het vaakst voorkomt in een dataset. Een dataset kan één modus (unimodaal), meerdere modi (multimodaal) of geen modus hebben.
### 1.4 Berekening van spreidingsmaten
Spreidingsmaten beschrijven hoe verspreid de data is rondom het centrum.
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde.
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
* **Standaarddeviatie ($s$):** De vierkantswortel van de variantie. Het is een maat voor de gemiddelde afwijking van het gemiddelde in de oorspronkelijke eenheden van de data.
$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$
### 1.5 Berekening van Z-scores (standaardscores)
Z-scores, ook wel standaardscores genoemd, geven aan hoeveel standaarddeviaties een individuele score afwijkt van het gemiddelde. Ze zijn nuttig om scores van verschillende distributies met elkaar te vergelijken.
* **Formule Z-score:**
$$ z = \frac{x - \mu}{\sigma} $$
waarbij:
* $z$ de Z-score is
* $x$ de individuele score is
* $\mu$ het populatiegemiddelde is (of $\bar{x}$ voor een steekproefgemiddelde)
* $\sigma$ de populatiestandaarddeviatie is (of $s$ voor een steekproefstandaarddeviatie)
Voor de oefeningen waarvoor we de steekproefvariantie en -standaarddeviatie gebruiken, is de formule:
$$ z = \frac{x - \bar{x}}{s} $$
* **Interpretatie:**
* Een positieve Z-score geeft aan dat de score boven het gemiddelde ligt.
* Een negatieve Z-score geeft aan dat de score onder het gemiddelde ligt.
* Een Z-score van 0 geeft aan dat de score gelijk is aan het gemiddelde.
* Een hogere absolute Z-score betekent dat de score verder van het gemiddelde af ligt, en dus relatief extremer is binnen die distributie.
* **Oorspronkelijke gegevens berekenen uit Z-scores:**
Als het gemiddelde ($\bar{x}$) en de standaarddeviatie ($s$) bekend zijn, kan de oorspronkelijke score ($x$) berekend worden uit een Z-score:
$$ x = \bar{x} + z \cdot s $$
---
# Berekening van centrum- en spreidingsmaten
Dit onderwerp richt zich op de berekening en interpretatie van maten die de centrale tendens en de variabiliteit van een dataset beschrijven.
### 2.1 Centrummaten
Centrummaten geven een indicatie van de typische waarde in een dataset. De meest voorkomende centrummaten zijn de modus, de mediaan en het gemiddelde.
#### 2.1.1 Modus
De modus is de waarde die het meest frequent voorkomt in een dataset.
> **Tip:** Een dataset kan één modus (unimodaal), meerdere modi (multimodaal) of geen modus hebben als alle waarden even frequent voorkomen.
**Voorbeeld:**
In de dataset $5, 9, 16, 4, 3, 8, 4, 6, 19, 18, 13, 1, 4, 7, 19, 4, 3, 4, 1, 4$ komt de waarde $4$ het vaakst voor (6 keer). De modus is dus $4$.
#### 2.1.2 Mediaan
De mediaan is de middelste waarde in een geordende dataset. Als de dataset een even aantal waarden bevat, is de mediaan het gemiddelde van de twee middelste waarden.
Om de mediaan te bepalen, moet de dataset eerst geordend worden van laag naar hoog.
**Voorbeeld 1 (oneven aantal waarden):**
Dataset: $1, 3, 4, 4, 4, 4, 4, 4, 6, 7, 8, 9, 13, 16, 18, 19, 19$
Aantal waarden ($n$): $17$
De middelste waarde is de $\frac{n+1}{2}$-de waarde. In dit geval $\frac{17+1}{2} = 9$-de waarde.
De $9$-de waarde is $6$. De mediaan is $6$.
**Voorbeeld 2 (even aantal waarden):**
Dataset: $1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 5, 6, 8, 8, 9, 9$
Aantal waarden ($n$): $22$
De middelste waarden zijn de $\frac{n}{2}$-de en de $(\frac{n}{2}+1)$-de waarde. In dit geval de $11$-de en de $12$-de waarde.
De $11$-de waarde is $3$ en de $12$-de waarde is $4$.
De mediaan is het gemiddelde van deze twee: $\frac{3+4}{2} = 3.5$.
#### 2.1.3 Gemiddelde
Het rekenkundig gemiddelde is de som van alle waarden in de dataset, gedeeld door het totale aantal waarden.
De formule voor het gemiddelde is:
$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$
waarbij $\bar{x}$ het gemiddelde is, $x_i$ de individuele waarden zijn en $n$ het totale aantal waarden is.
**Voorbeeld:**
Dataset: $5, 9, 16, 4, 3, 8, 4, 6, 19, 18, 13, 1, 4, 7, 19, 4, 3, 4, 1, 4$
Som van de waarden: $5+9+16+4+3+8+4+6+19+18+13+1+4+7+19+4+3+4+1+4 = 152$
Aantal waarden ($n$): $20$
Gemiddelde ($\bar{x}$): $\frac{152}{20} = 7.6$
### 2.2 Spreidingsmaten
Spreidingsmaten geven aan hoe ver de waarden in een dataset uit elkaar liggen. Ze beschrijven de variabiliteit of de spreiding van de data rond het centrum. Belangrijke spreidingsmaten zijn de variantie en de standaarddeviatie.
#### 2.2.1 Variantie
De variantie is de gemiddelde gekwadrateerde afwijking van het gemiddelde. Het geeft aan hoe de data verspreid zijn ten opzichte van het gemiddelde. Een hogere variantie betekent een grotere spreiding.
De formule voor de populatievariantie ($\sigma^2$) is:
$$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} $$
waarbij $\mu$ het populatiegemiddelde is en $N$ de populatiegrootte.
De formule voor de steekproefvariantie ($s^2$) is:
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
waarbij $\bar{x}$ het steekproefgemiddelde is en $n$ de steekproefgrootte. De $n-1$ in de noemer wordt gebruikt om de variantie uit een steekproef te schatten en zorgt voor een zuivere schatter van de populatievariantie (Bessel's correctie).
**Voorbeeld:**
Dataset: $5, 9, 16, 4, 3, 8, 4, 6, 19, 18, 13, 1, 4, 7, 19, 4, 3, 4, 1, 4$
Gemiddelde ($\bar{x}$): $7.6$
Aantal waarden ($n$): $20$
| $x_i$ | $x_i - \bar{x}$ | $(x_i - \bar{x})^2$ |
|---|---|---|
| 5 | -2.6 | 6.76 |
| 9 | 1.4 | 1.96 |
| 16 | 8.4 | 70.56 |
| 4 | -3.6 | 12.96 |
| 3 | -4.6 | 21.16 |
| 8 | 0.4 | 0.16 |
| 4 | -3.6 | 12.96 |
| 6 | -1.6 | 2.56 |
| 19 | 11.4 | 129.96 |
| 18 | 10.4 | 108.16 |
| 13 | 5.4 | 29.16 |
| 1 | -6.6 | 43.56 |
| 4 | -3.6 | 12.96 |
| 7 | -0.6 | 0.36 |
| 19 | 11.4 | 129.96 |
| 4 | -3.6 | 12.96 |
| 3 | -4.6 | 21.16 |
| 4 | -3.6 | 12.96 |
| 1 | -6.6 | 43.56 |
| 4 | -3.6 | 12.96 |
| **Som** | **0** | **728.8** |
Steekproefvariantie ($s^2$):
$$ s^2 = \frac{728.8}{20-1} = \frac{728.8}{19} \approx 38.36 $$
#### 2.2.2 Standaarddeviatie
De standaarddeviatie is de vierkantswortel van de variantie. Het is een maat voor de spreiding in dezelfde eenheden als de oorspronkelijke data, wat de interpretatie vergemakkelijkt. Een kleinere standaarddeviatie duidt op data die dichter bij het gemiddelde liggen, terwijl een grotere standaarddeviatie duidt op een grotere spreiding.
De formule voor de populatiestandaarddeviatie ($\sigma$) is:
$$ \sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}} $$
De formule voor de steekproefstandaarddeviatie ($s$) is:
$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$
**Voorbeeld (vervolg van variantie-voorbeeld):**
Steekproefvariantie ($s^2$): $38.36$
Steekproefstandaarddeviatie ($s$):
$$ s = \sqrt{38.36} \approx 6.19 $$
> **Tip:** De standaarddeviatie is een veelgebruikte maat om de spreiding van gegevens te beschrijven, vooral bij normaal verdeelde data.
### 2.3 Z-scores (standaardscores)
Z-scores, ook wel standaardscores genoemd, geven aan hoeveel standaarddeviaties een bepaalde waarde afwijkt van het gemiddelde. Ze zijn nuttig om scores van verschillende datasets met verschillende gemiddelden en standaarddeviaties met elkaar te vergelijken.
De formule voor een Z-score is:
$$ z = \frac{x - \mu}{\sigma} $$
waarbij $x$ de individuele score is, $\mu$ het populatiegemiddelde is en $\sigma$ de populatiestandaarddeviatie.
Als we met steekproefgegevens werken, gebruiken we het steekproefgemiddelde ($\bar{x}$) en de steekproefstandaarddeviatie ($s$):
$$ z = \frac{x - \bar{x}}{s} $$
Een positieve Z-score betekent dat de waarde boven het gemiddelde ligt, terwijl een negatieve Z-score aangeeft dat de waarde onder het gemiddelde ligt. Een Z-score van $0$ betekent dat de waarde gelijk is aan het gemiddelde.
**Voorbeeld:**
Nieuwe vragenlijst: gemiddelde $\mu = 60$, standaarddeviatie $\sigma = 2$. Samira scoort $x = 80$.
Z-score Samira (nieuwe lijst): $z = \frac{80 - 60}{2} = \frac{20}{2} = 10$.
Dit betekent dat Samira's score $10$ standaarddeviaties boven het gemiddelde ligt op de nieuwe vragenlijst.
Oude vragenlijst: gemiddelde $\mu = 20$, standaarddeviatie $\sigma = 5$. Samira scoort $x = 25$.
Z-score Samira (oude lijst): $z = \frac{25 - 20}{5} = \frac{5}{5} = 1$.
Dit betekent dat Samira's score $1$ standaarddeviatie boven het gemiddelde ligt op de oude vragenlijst.
**Interpretatie:** Hoewel Samira op de nieuwe vragenlijst hoger scoort (80 vs. 25), is haar relatieve positie op de nieuwe lijst (Z-score 10) veel extremer dan op de oude lijst (Z-score 1). Haar score van 80 op de nieuwe lijst is zeer hoog in vergelijking met de gemiddelde score op die lijst.
**Voorbeeld 2:**
Leestest A: gemiddelde $\mu_A = 90$, standaarddeviatie $\sigma_A = 10$. Marieke scoort $x_M = 80$.
Z-score Marieke: $z_M = \frac{80 - 90}{10} = \frac{-10}{10} = -1$.
Marieke scoort $1$ standaarddeviatie onder het gemiddelde op leestest A.
Leestest B: gemiddelde $\mu_B = 30$, standaarddeviatie $\sigma_B = 2$. Lisa scoort $x_L = 25$.
Z-score Lisa: $z_L = \frac{25 - 30}{2} = \frac{-5}{2} = -2.5$.
Lisa scoort $2.5$ standaarddeviaties onder het gemiddelde op leestest B.
**Wie scoort het beste?** Marieke heeft een Z-score van $-1$, wat betekent dat ze $1$ standaarddeviatie onder het gemiddelde presteert. Lisa heeft een Z-score van $-2.5$, wat betekent dat ze $2.5$ standaarddeviaties onder het gemiddelde presteert. Hoewel beide scores onder het gemiddelde liggen, scoort Marieke relatief beter omdat haar score dichter bij het gemiddelde van haar test ligt dan Lisa's score ten opzichte van het gemiddelde van haar test. Dus Marieke scoort beter.
---
# Berekening en interpretatie van z-scores
De berekening en interpretatie van z-scores is essentieel om de relatieve positie van een waarneming binnen een verdeling te bepalen en om vergelijkingen te kunnen maken tussen waarnemingen uit verschillende verdelingen.
### 3.1 Wat is een z-score?
Een z-score, ook wel een standaardscore genoemd, geeft aan hoeveel standaarddeviaties een specifieke waarneming afwijkt van het gemiddelde van de verdeling. Een positieve z-score betekent dat de waarneming boven het gemiddelde ligt, terwijl een negatieve z-score aangeeft dat de waarneming onder het gemiddelde ligt. Een z-score van nul betekent dat de waarneming gelijk is aan het gemiddelde.
### 3.2 De formule voor de z-score
De z-score wordt berekend met de volgende formule:
$$ z = \frac{X - \mu}{\sigma} $$
Waarbij:
* $z$ staat voor de z-score.
* $X$ staat voor de individuele waarneming.
* $\mu$ (mu) staat voor het gemiddelde van de populatie.
* $\sigma$ (sigma) staat voor de standaarddeviatie van de populatie.
Indien we met een steekproef werken, gebruiken we de steekproefstatistieken:
$$ z = \frac{X - \bar{X}}{s} $$
Waarbij:
* $X$ staat voor de individuele waarneming.
* $\bar{X}$ (X-bar) staat voor het steekproefgemiddelde.
* $s$ staat voor de steekproefstandaarddeviatie.
### 3.3 Interpretatie van z-scores
Z-scores maken het mogelijk om waarnemingen uit verschillende datasets met verschillende gemiddelden en standaarddeviaties met elkaar te vergelijken. Een hogere z-score wijst op een relatief betere prestatie of een hogere waarde ten opzichte van de specifieke verdeling.
**Voorbeeld 1: Vergelijken van testresultaten**
Stel, leestest A heeft een gemiddelde score van 90 en een standaarddeviatie van 10. Marieke behaalt een score van 80.
De z-score voor Marieke is:
$$ z_{\text{Marieke}} = \frac{80 - 90}{10} = \frac{-10}{10} = -1.0 $$
Dit betekent dat Marieke één standaarddeviatie onder het gemiddelde scoort op leestest A.
Leestest B heeft een gemiddelde score van 30 en een standaarddeviatie van 2. Lisa behaalt een score van 25.
De z-score voor Lisa is:
$$ z_{\text{Lisa}} = \frac{25 - 30}{2} = \frac{-5}{2} = -2.5 $$
Dit betekent dat Lisa 2,5 standaarddeviaties onder het gemiddelde scoort op leestest B.
Hoewel Marieke absoluut meer punten heeft dan Lisa, scoort Lisa relatief slechter omdat haar score 2,5 standaarddeviaties onder het gemiddelde ligt, terwijl Marieke 1 standaarddeviatie onder het gemiddelde scoort. Om te bepalen wie het beste scoort, kijken we naar de hoogste z-score. In dit geval scoort Marieke relatief beter dan Lisa.
**Voorbeeld 2: Vergelijken van vragenlijsten**
Een nieuwe depressievragenlijst heeft een gemiddelde van 60 en een standaarddeviatie van 2. Samira scoort hierop 80.
De z-score voor Samira op de nieuwe vragenlijst is:
$$ z_{\text{nieuw}} = \frac{80 - 60}{2} = \frac{20}{2} = 10.0 $$
De oude vragenlijst heeft een gemiddelde van 20 en een standaarddeviatie van 5. Samira scoort hierop 25.
De z-score voor Samira op de oude vragenlijst is:
$$ z_{\text{oud}} = \frac{25 - 20}{5} = \frac{5}{5} = 1.0 $$
Samira's score op de nieuwe vragenlijst ($z=10.0$) is relatief veel hoger dan op de oude vragenlijst ($z=1.0$), wat aangeeft dat de scores op de nieuwe vragenlijst significant hoger liggen dan het gemiddelde. De vraag of haar scores vergelijkbaar zijn, hangt af van de context. Relatief gezien is haar positie op de nieuwe vragenlijst veel extremer.
> **Tip:** Bij het interpreteren van z-scores, onthoud dat de z-score zelf een relatieve maat is. Een z-score van 2 is altijd 'beter' dan een z-score van 1, ongeacht de oorspronkelijke schaal van de meting.
### 3.4 Z-scores en normale verdelingen
Z-scores zijn bijzonder nuttig wanneer de data normaal verdeeld is. In een normale verdeling liggen de meeste waarnemingen rond het gemiddelde.
* Ongeveer 68% van de waarnemingen valt binnen 1 standaarddeviatie van het gemiddelde (tussen $z=-1$ en $z=1$).
* Ongeveer 95% van de waarnemingen valt binnen 2 standaarddeviaties van het gemiddelde (tussen $z=-2$ en $z=2$).
* Ongeveer 99.7% van de waarnemingen valt binnen 3 standaarddeviaties van het gemiddelde (tussen $z=-3$ en $z=3$).
### 3.5 Berekenen van oorspronkelijke scores uit z-scores
Wanneer we de z-score kennen, het gemiddelde ($\mu$ of $\bar{X}$) en de standaarddeviatie ($\sigma$ of $s$), kunnen we de oorspronkelijke score ($X$) terugberekenen. Door de formule voor de z-score te herschikken, verkrijgen we:
$$ X = \mu + z \cdot \sigma $$
of voor steekproefgegevens:
$$ X = \bar{X} + z \cdot s $$
**Voorbeeld:** Een dataset heeft een gemiddelde van 3 en een standaarddeviatie van 2. Een waarneming heeft een z-score van 1.5.
De oorspronkelijke score is:
$$ X = 3 + (1.5 \cdot 2) = 3 + 3 = 6 $$
---
# Misbruik van statistiek
Dit onderdeel behandelt voorbeelden van hoe statistieken misleidend kunnen worden gebruikt en hoe men kritische vragen kan stellen bij statistische claims en grafieken.
### 4.1 De rol van statistiek in onderzoek
Statistische conclusies zijn pas waardevol als aan de randvoorwaarden van interne en externe validiteit is voldaan en statistiek niet misbruikt wordt. Inductieve statistiek is bedoeld om op basis van verzamelde data een onderbouwde beslissing te nemen over verbanden of verschillen. Het kennen van de mate van onzekerheid hierbij is essentieel, wat mede bepaald wordt door kansberekeningen en significantie.
### 4.2 Voorbeelden van misbruik van statistiek
Statistieken kunnen op verschillende manieren misleidend worden gepresenteerd of geïnterpreteerd. Dit kan zowel opzettelijk als onopzettelijk gebeuren. Hieronder worden enkele veelvoorkomende methoden besproken.
#### 4.2.1 Misleidende claims en aanbevelingen
Een veelvoorkomende misleiding betreft het gebruik van aanbevelingen of claims die gebaseerd zijn op enquêtes waarbij respondenten meerdere opties konden kiezen.
> **Voorbeeld:** Een claim als "Meer dan 80% van de tandartsen beveelt Colgate aan" kan misleidend zijn als de enquête tandartsen toestond om één of meerdere tandpastamerken te selecteren. De claim kan zo de indruk wekken dat 80% van de tandartsen Colgate aanbeveelt boven andere merken, terwijl het werkelijke aantal tandartsen dat dit specifieke merk verkiest, aanzienlijk lager kan zijn. Daarnaast kan de onjuiste mededeling dat het onderzoek door een onafhankelijk onderzoeksbureau is uitgevoerd, de geloofwaardigheid van dergelijke claims verder ondermijnen.
#### 4.2.2 Manipulatie van grafieken
Grafieken zijn krachtige visuele hulpmiddelen, maar kunnen ook eenvoudig worden gemanipuleerd om een gewenst beeld te creëren.
##### 4.2.2.1 Aanpassing van de y-as
Een veelgebruikte techniek is het aanpassen van de schaal van de y-as, vaak door deze niet bij nul te laten beginnen.
> **Voorbeeld:** Een grafiek die de calorieën van verschillende kipwrap-producten vergelijkt, waarbij de y-as begint bij 590 calorieën in plaats van nul, kan suggereren dat het product van KFC aanzienlijk minder calorieën bevat dan concurrenten. In werkelijkheid kan het verschil slechts marginaal zijn, bijvoorbeeld 70 calorieën minder, wat door de aangepaste schaal enorm wordt uitvergroot.
##### 4.2.2.2 Selectie van tijdsperioden
De gekozen tijdsperiode voor het presenteren van data kan de perceptie van trends significant beïnvloeden.
> **Voorbeeld:** Een grafiek die de Britse staatsschuld van 1995 tot 2016 toont, kan de indruk wekken dat de schuld hoger is dan ooit. Echter, wanneer dezelfde data wordt gepresenteerd over een langere periode, zoals 1910 tot 2015, kan blijken dat de schuld in vergelijking met andere historische perioden relatief laag is. Dit illustreert hoe de keuze van de tijdsperiode de interpretatie van informatie kan veranderen.
#### 4.2.3 Correlatie versus causaliteit
Het is cruciaal om onderscheid te maken tussen correlatie en causaliteit. Twee variabelen kunnen sterk met elkaar gecorreleerd zijn zonder dat de één de ander veroorzaakt.
> **Voorbeeld:** Er kan een hoge correlatie worden gevonden tussen de maandelijkse ijsverkoop en het aantal haaienaanvallen. Dit betekent echter niet dat ijsconsumptie haaienaanvallen veroorzaakt. De meest waarschijnlijke verklaring is dat beide variabelen worden beïnvloed door een derde factor: warmer weer. Bij warmer weer consumeren meer mensen ijs en gaan meer mensen zwemmen, wat het risico op haaienaanvallen vergroot.
### 4.3 Kritische vragen bij statistische claims en grafieken
Bij het tegenkomen van statistische claims of grafieken is het essentieel om kritische vragen te stellen om mogelijke misleiding te herkennen. Enkele belangrijke vragen zijn:
* **Wie heeft de data verzameld en wat was hun motief?** (Bijvoorbeeld, is de enquête uitgevoerd door de fabrikant zelf?)
* **Hoe is de data verzameld?** (Welke methoden zijn gebruikt, hoe groot was de steekproef, was deze representatief?)
* **Zijn de gebruikte definities duidelijk en eenduidig?** (Bijvoorbeeld, wat wordt er precies bedoeld met "aanbeveelt"?)
* **Is de schaal van de grafieken realistisch?** (Beginnen de assen bij nul? Zijn er geen onnatuurlijke vergrotingen?)
* **Welke tijdsperiode wordt er getoond en waarom juist deze periode?** (Is er sprake van selectiviteit?)
* **Wordt correlatie verward met causaliteit?** (Is er een plausibele verklaring voor het verband, of wordt een derde variabele genegeerd?)
* **Welke informatie wordt mogelijk weggelaten?** (Zijn er data die de claim zouden kunnen ontkrachten?)
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Inductieve statistiek | Een tak van statistiek die zich bezighoudt met het trekken van conclusies over een populatie op basis van gegevens uit een steekproef. Het doel is om generalisaties te maken en hypothesen te toetsen. |
| Frequentieverdeling | Een tabel of grafiek die laat zien hoe vaak bepaalde waarden of klassen van waarden voorkomen in een dataset. Het geeft een overzicht van de verdeling van de gegevens. |
| Percentiel | Een waarde onder of gelijk aan een bepaald percentage van de gegevens in een frequentieverdeling. Bijvoorbeeld, het 40e percentiel (Pc 40) is de waarde waaronder 40% van de gegevens valt. |
| Centrummaat | Een statistische maat die de centrale tendens van een dataset samenvat, zoals het gemiddelde, de mediaan of de modus. Het geeft een indicatie van het "typische" of "middelste" punt in de gegevens. |
| Modus | De waarde die het vaakst voorkomt in een dataset. Een dataset kan één modus (unimodaal), meerdere modi (multimodaal) of geen modus hebben. |
| Mediaan | De middelste waarde in een gesorteerde dataset. Als er een even aantal waarden is, is de mediaan het gemiddelde van de twee middelste waarden. Het is minder gevoelig voor uitschieters dan het gemiddelde. |
| Gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden. Dit is de meestgebruikte centrummaat, maar kan gevoelig zijn voor uitschieters. |
| Spreidingsmaat | Een statistische maat die de mate van variabiliteit of spreiding in een dataset samenvat. Voorbeelden zijn de variantie en de standaarddeviatie. |
| Variantie | Een maat voor de gemiddelde gekwadrateerde afwijking van elke waarde ten opzichte van het gemiddelde van de dataset. Het geeft aan hoe ver de gegevens verspreid zijn rondom het gemiddelde. |
| Standaarddeviatie | De vierkantswortel van de variantie. Het is een veelgebruikte spreidingsmaat die de typische afwijking van individuele datapunten ten opzichte van het gemiddelde aangeeft. |
| Z-score (standaardscore) | Een gestandaardiseerde score die aangeeft hoeveel standaarddeviaties een bepaald datapunt verwijderd is van het gemiddelde van de dataset. Formule: $z = \frac{x - \mu}{\sigma}$, waarbij $x$ de individuele score is, $\mu$ het populatiegemiddelde en $\sigma$ de populatiestandaarddeviatie. |
| Populatie | De volledige groep individuen, objecten of metingen waarover men een conclusie wil trekken. |
| Steekproef | Een deelverzameling van de populatie die wordt geobserveerd of gemeten om informatie te verkrijgen over de gehele populatie. |
| Afhankelijke variabele | De variabele die wordt gemeten en waarvan wordt aangenomen dat deze beïnvloed wordt door de onafhankelijke variabele. Het is het "resultaat" dat men onderzoekt. |
| Onafhankelijke variabele | De variabele die wordt gemanipuleerd of geobserveerd om te zien of deze een effect heeft op de afhankelijke variabele. Het is de "oorzaak" of de voorspeller. |