Cover
Inizia ora gratuitamente 1.2. Introductie statistiek(1).pptx
Summary
# Belang en toepassingen van statistiek
Statistiek is essentieel voor het begrijpen en verbeteren van de gezondheidszorg, met name in de vroedkunde, door middel van data-analyse en evidence-based practice.
## 1.1 Het belang van statistiek in de gezondheidszorg
Statistiek speelt een cruciale rol in de gezondheidszorg door het mogelijk te maken om belangrijke vragen te beantwoorden en de kwaliteit van zorg te waarborgen.
### 1.1.1 Voorbeelden van statistische toepassingen
* **Zwangerschapsduur:** Statistiek helpt bij het bepalen van de gemiddelde zwangerschapsduur (typisch 37-42 weken). Afwijkingen van deze grenzen (minder dan 37 weken of meer dan 42 weken) kunnen wijzen op problemen die nader onderzoek vereisen.
* **Effectiviteit van anticonceptiemiddelen:**
* De pil: Bij correct gebruik (dagelijkse inname op tijd, starten van een nieuwe strip binnen 7 dagen) is de kans op zwangerschap ongeveer 0.3%. Echter, door gebruiksfouten (te laat innemen of vergeten) raakt toch ongeveer 7% van de gebruikers zwanger.
* Condoom: Rekening houdend met mogelijke fouten, wordt de effectiviteit van het condoom geschat op 88%.
### 1.1.2 Statistiek als fundering voor Evidence-Based Practice
Statistisch onderzoek vormt het eerste "beentje" van Evidence-Based Practice (EBP). EBP streeft naar ethisch aanvaardbaar vroedkundig handelen op alle niveaus (micro, meso, macro), rechtvaardigt kosten-en-baten effectiviteit, en onderbouwt keuzes in de zorg.
## 1.2 Statistiek: definities en concepten
Statistiek omvat het verzamelen, bewerken, interpreteren, samenvatten en presenteren van gegevens om patronen te ontdekken en conclusies te trekken.
### 1.2.1 Kwalitatief versus Kwantitatief onderzoek
* **Kwantitatief onderzoek:** Richt zich op objectiviteit, controle en generaliseerbaarheid. Het omvat vaak grote groepen deelnemers en analyseert numerieke data om iets te zeggen over de "gemiddelde" man/vrouw of situatie. Een voorbeeld is de schatting van de prevalentie van onvruchtbaarheid (bijvoorbeeld 6% tot 18%).
* **Kwalitatief onderzoek:** Richt zich op de subjectieve beleving en betekenis, vaak met kleinere groepen deelnemers, om diepgaande inzichten te verkrijgen.
### 1.2.2 Beschrijvende en Verklarende statistiek
* **Beschrijvende statistiek:** Dit deel van de statistiek richt zich op het samenvatten en presenteren van de belangrijkste kenmerken van een kwantitatieve dataset. Het beschrijft de populatie of een steekproef op een beknopte manier, met als doel globale patronen en kenmerken te ontdekken. Voorbeelden zijn het onderzoeken van mediagebruik, en de invloed van leeftijd hierop.
* **Verklarende statistiek:** Dit maakt het mogelijk om conclusies te formuleren over een grotere groep (doelpopulatie) op basis van een kleinere groep (steekproef of onderzoekspopulatie). Het stelt hypotheses te testen en de uitkomsten te generaliseren naar de gehele doelpopulatie. Een voorbeeld is de hypothese of problematisch social mediagebruik leidt tot meer depressie tijdens de zwangerschap, waarbij bevindingen van een steekproef van 697 zwangere vrouwen worden gegeneraliseerd.
### 1.2.3 Begrippen: Populatie en Steekproef
* **Populatie:** De verzameling van alle elementen waarover men iets wil weten of zeggen.
* **Steekproef:** Een deelverzameling van de populatie die wordt onderzocht om conclusies te kunnen trekken over de gehele populatie.
* **Representativiteit:** Een steekproef moet een goede afspiegeling zijn van de populatie.
* **Soorten steekproeven:**
* **Aselecte steekproef:** Werd geheel op toeval gebaseerd (bijv. enkelvoudig willekeurig, systematisch, gestratificeerd, cluster).
* **Niet-aselecte steekproef:** De selectie is niet willekeurig, maar gebaseerd op bepaalde criteria, waarbij deelnemers vaak zelf beslissen of ze deelnemen (bijv. na een oproep). Veel onderzoek maakt gebruik van niet-aselecte steekproeven.
* **Inclusie- en exclusiecriteria:** Specificeren welke individuen wel of niet tot de studiepopulatie behoren.
### 1.2.4 Statistische variabelen en meetniveaus
* **Variabele:** Een eigenschap die gemeten kan worden bij de elementen van een populatie of steekproef.
* **Definitie van variabelen:** Het is cruciaal om eerst de variabele(n) te definiëren waarop de statistiek wordt toegepast. Bijvoorbeeld, bij het onderzoeken van social mediagebruik en depressie tijdens de zwangerschap, moeten aspecten zoals het type social media, intensiteit (tijd, frequentie), leeftijd, opleiding, pariteit, partnerstatus, geplande zwangerschap, en complicaties worden gedefinieerd.
* **Classificatie van variabelen:**
* **Kwalitatieve variabelen:** Data die in categorieën kunnen worden ingedeeld, niet numeriek gemeten.
* **Nominaal:** Categorieën zonder rangorde (bijv. 'wel/geen partner', 'geplande/ongeplande zwangerschap').
* **Ordinaal:** Categorieën met een rangorde (bijv. opleidingsniveau, waarderingscijfer).
* **Kwantitatieve variabelen:** Numerieke waarden, waarbij rekenkundige bewerkingen mogelijk zijn.
* **Discreet:** Waarden in discrete eenheden, beperkt aantal waarden (bijv. pariteit - aantal kinderen).
* **Continu:** Waarden die elke waarde kunnen aannemen binnen een bereik (bijv. tijd, lengte).
* **Interval:** Numerieke data waarbij het verschil tussen waarden exact is, maar het relatieve verschil niet (gelijke afstanden, geen vast nulpunt, bijv. lichaamstemperatuur). Optellen en aftrekken is mogelijk, vermenigvuldigen en delen niet.
* **Ratio:** Numerieke data waarbij zowel het verschil als het relatieve verschil exact is (zinvol verschil, bijv. lengte, gewicht, aantal).
## 1.3 Beschrijven van gegevens
Het beschrijven van gegevens omvat het presenteren en samenvatten van de distributie van variabelen.
### 1.3.1 Frequentietabellen en grafische voorstellingen
* **Frequentietabel:** Een tabel die weergeeft hoe vaak elke waarde (of klasse van waarden) voorkomt in een dataset.
* **Absolute frequentie ($f_i$):** Het aantal keren dat een specifieke waarde voorkomt.
* **Cumulatieve absolute frequentie ($cf_i$):** Het aantal keren dat een waarde kleiner of gelijk aan de huidige waarde voorkomt. Dit is enkel zinvol vanaf ordinaal niveau.
* **Relatieve frequentie ($h_i$):** De absolute frequentie gedeeld door het totaal aantal waarnemingen ($n$). $h_i = f_i / n$.
* **Cumulatieve relatieve frequentie ($ch_i$):** De cumulatieve absolute frequentie gedeeld door het totaal aantal waarnemingen ($n$). $ch_i = cf_i / n$.
* **Grafische voorstellingen:** Visuele weergaven van data.
* **Staafdiagram:** Geschikt voor discrete variabelen, met staven die de frequentie van elke categorie weergeven.
* **Histogram:** Geschikt voor continue variabelen, waarbij de staven aan elkaar grenzen en de frequentie van klassen weergeven.
* **Frequentiepolygoon:** Een lijn die de toppen van een histogram verbindt.
* **Ogief:** Een cumulatieve frequentiepolygoon, die de cumulatieve frequenties weergeeft.
* **Lijndiagram:** Vaak gebruikt om trends over tijd te tonen.
* **Stapeldiagram:** Vergelijkt onderdelen binnen categorieën.
* **Vergelijkend staafdiagram:** Toont vergelijkingen tussen verschillende groepen.
* **Cirkeldiagram:** Toont de proportie van verschillende categorieën binnen een geheel.
### 1.3.2 Centrummaten
Centrummaten geven een indicatie van het "midden" of de typische waarde van een dataset.
* **Modus:** De waarde of klasse met de hoogste frequentie. Kan vanaf nominaal niveau worden bepaald. Een dataset kan eentoppig, tweetoppig (bimodaal) zijn, of geen modus hebben. De modus wordt niet beïnvloed door uitschieters.
* **Mediaan:** De middelste waarneming in een geordende dataset. Bij een oneven aantal waarnemingen is dit de exacte middelste waarde. Bij een even aantal waarnemingen is het het rekenkundig gemiddelde van de twee middelste waarden. De mediaan kan vanaf ordinaal niveau worden bepaald en wordt niet beïnvloed door extremen.
* **Rekenkundig gemiddelde ($\bar{x}$):** De som van alle waarnemingen gedeeld door het totaal aantal waarnemingen. Dit is de meest gebruikte centrummaat, maar is gevoelig voor uitschieters. Het kan enkel berekend worden vanaf kwantitatief niveau.
$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$
waarbij $n$ het totaal aantal waarnemingen is en $x_i$ de $i$-de waarneming.
### 1.3.3 Spreidingsmaten
Spreidingsmaten beschrijven hoe verspreid de data liggen rondom de centrummaat.
* **Bereik:** Het verschil tussen de maximum- en minimumwaarde in een dataset. Dit houdt enkel rekening met de uiterste waarden.
Bereik = Maximum - Minimum
* **Percentielen:** De $p$-de percentiel is de waarde waaronder $p\%$ van de waarnemingen valt.
* De mediaan is het 50e percentiel ($P_{50}$ of $Q_2$).
* Het eerste kwartiel ($Q_1$) is het 25e percentiel ($P_{25}$).
* Het derde kwartiel ($Q_3$) is het 75e percentiel ($P_{75}$).
* **Interkwartielafstand (IKA):** Het verschil tussen het derde en eerste kwartiel ($Q_3 - Q_1$). Dit geeft de spreiding van de middelste 50% van de data weer.
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van alle individuele waarden ten opzichte van het gemiddelde. Het geeft aan hoe de waarnemingen rond het gemiddelde liggen.
* **Standaardafwijking ($s$):** De wortel uit de variantie ($s = \sqrt{s^2}$). Het geeft de gemiddelde afwijking van de waarnemingen ten opzichte van het gemiddelde aan. Een groot deel van de waarnemingen ligt doorgaans binnen een bepaald aantal standaardafwijkingen van het gemiddelde.
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
$$ s = \sqrt{s^2} $$
> **Tip:** Begrijpen wat een standaardafwijking betekent (hoe de data verspreid is rond het gemiddelde) is belangrijker dan de berekening ervan voor de meeste toepassingen in de gezondheidszorg.
### 1.3.4 Boxplot
Een boxplot is een grafische weergave die het bereik, de kwartielen en de mediaan van een dataset toont, wat een duidelijk beeld geeft van de spreiding en mogelijke uitschieters.
## 1.4 Quizvragen ter reflectie
* **Vraag 1:** Als een getal wordt toegevoegd aan een steekproef, en dat getal valt precies in het midden van de bestaande gegevens, welke impact heeft dit dan op het bereik?
* **Vraag 2:** Als een getal wordt toegevoegd aan een steekproef, en dat getal is veel groter dan het gemiddelde van de steekproef, welke impact heeft dit dan op de standaardafwijking?
* **Vraag 3:** Als 10 wordt opgeteld bij elk getal uit een steekproef, welke impact heeft dit dan op de mediaan? Welke impact heeft dit op de standaardafwijking?
* **Vraag 4:** Wat betekent het als een set gegevens een standaardafwijking van 0 heeft?
* **Vraag 5:** Welke van twee gegeven steekproeven heeft de kleinste standaardafwijking?
---
# Onderscheid tussen kwalitatief en kwantitatief onderzoek
Dit gedeelte behandelt de fundamentele verschillen tussen kwalitatief en kwantitatief onderzoek, met speciale aandacht voor hun focus, methodologie, steekproefgrootte en de rol van statistische dataverwerking.
### 2.1 Definities en focus
* **Kwantitatief onderzoek**: Richt zich op 'massa', objectiviteit, controleerbaarheid en generaliseerbaarheid. Het beoogt het meten en tellen van fenomenen om objectieve uitspraken te doen over een populatie.
* **Kwalitatief onderzoek**: Focust op de subjectieve beleving, betekenisgeving en diepgaande inzichten binnen een kleinere steekproef. Het verkent de 'kwaliteit' van ervaringen en perspectieven.
> **Tip:** Denk bij kwantitatief aan cijfers en statistieken, en bij kwalitatief aan verhalen en interpretaties.
### 2.2 Rol van steekproeven
#### 2.2.1 Steekproefgrootte en generaliseerbaarheid
* **Kwantitatief onderzoek** maakt doorgaans gebruik van grote steekproeven. Dit is essentieel voor het bereiken van generaliseerbaarheid; de resultaten van de steekproef moeten betrouwbaar kunnen worden toegeschreven aan de gehele doelpopulatie.
* **Kwalitatief onderzoek** werkt met kleinere steekproeven. De focus ligt hier niet op statistische generaliseerbaarheid, maar op het verkrijgen van diepgaande, kwalitatieve data en rijke inzichten van de individuele deelnemers.
#### 2.2.2 Steekproefmethoden
* **Populatie**: De volledige verzameling van elementen (personen, objecten, data) waarover men iets wil weten.
* **Steekproef**: Een deelverzameling van de populatie die daadwerkelijk wordt onderzocht. Het doel is om door middel van de steekproef conclusies te kunnen trekken over de bredere populatie.
* **Representativiteit**: Een goede steekproef is representatief, wat betekent dat deze een accurate afspiegeling vormt van de kenmerken van de doelpopulatie.
**Soorten steekproeven:**
* **Aselecte steekproef**: De selectie van deelnemers gebeurt volledig op toeval.
* *Enkelvoudig aselect*: Elke eenheid heeft gelijke kans om geselecteerd te worden.
* *Systematisch*: Selectie volgens een vast interval (bv. elke 10e persoon).
* *Gestratificeerd*: De populatie wordt ingedeeld in subgroepen (strata), en vervolgens wordt uit elk stratum een aselecte steekproef getrokken.
* *Cluster*: De populatie wordt opgedeeld in clusters, en vervolgens worden willekeurig enkele clusters geselecteerd om te onderzoeken.
* **Niet-aselecte steekproef**: De selectie is niet gebaseerd op toeval, maar op bepaalde criteria of het gemak van de onderzoeker. Deelnemers beslissen vaak zelf of ze deelnemen (bv. na een oproep voor onderzoek). Dit type steekproef komt vaker voor in de praktijk, maar beperkt de generaliseerbaarheid.
> **Tip:** Begrijp dat niet-aselecte steekproeven vaak niet-willekeurig zijn en de generaliseerbaarheid van bevindingen kunnen beperken.
### 2.3 Statistische dataverwerking in beide benaderingen
Hoewel kwalitatief onderzoek zich richt op diepgang en betekenis, kan ook dit type onderzoek baat hebben bij statistische dataverwerking, met name in de vorm van **beschrijvende statistiek**. Kwantitatief onderzoek daarentegen leunt sterk op zowel beschrijvende als verklarende statistiek.
#### 2.3.1 Beschrijvende statistiek
Beschrijvende statistiek houdt zich bezig met het verzamelen, bewerken, interpreteren, samenvatten en presenteren van de belangrijkste kenmerken van een kwantitatieve dataset. Het doel is om globale patronen en kenmerken binnen de data te ontdekken en deze op een beknopte manier weer te geven.
* **Populatie**: Het geheel van gelijksoortige objecten of data die worden bestudeerd.
* **Voorbeelden**:
* Het bijhouden van het aantal geboortes per dag in een ziekenhuis.
* Het registreren van de leeftijd van deelnemers aan een onderzoek.
#### 2.3.2 Verklarende statistiek
Verklarende statistiek maakt het mogelijk om, gebruikmakend van een kleinere groep (steekproef), conclusies te formuleren over een grotere groep (doelpopulatie). Het stelt hypothesen of veronderstellingen over de populatie te testen en de uitkomsten te generaliseren.
* **Hypothese testen**: Onderzoekers formuleren een veronderstelling (hypothese) en toetsen deze aan de hand van steekproefgegevens.
* **Generalisatie**: De bevindingen uit de steekproef worden veralgemeend naar de doelpopulatie.
> **Voorbeeld:** Een onderzoeker veronderstelt dat problematisch social media gebruik geassocieerd is met meer depressieve symptomen tijdens de zwangerschap. Door een steekproef van zwangere vrouwen te onderzoeken, kan deze hypothese getest en, indien significant, gegeneraliseerd worden naar de bredere populatie van zwangere vrouwen.
### 2.4 Variabelen en meetniveaus
Een **variabele** is een eigenschap die gemeten kan worden en die kan variëren tussen individuen of objecten. De keuze van de statistische analysemethode hangt sterk af van het meetniveau van de variabele.
#### 2.4.1 Soorten variabelen
* **Kwalitatieve variabelen**: Data die niet numeriek worden gemeten, maar in categorieën kunnen worden ingedeeld.
* **Nominaal**: Categorieën zonder inherente rangorde of waarde (bv. ja/nee, geslacht, burgerlijke staat). De ene categorie is anders dan de andere, maar er is geen volgorde.
* **Ordinaal**: Categorieën met een duidelijke rangorde of volgorde, maar de afstanden tussen de categorieën zijn niet noodzakelijk gelijk of meetbaar (bv. opleidingsniveau: lager onderwijs, middelbaar onderwijs, hoger onderwijs; waarderingscijfer).
* **Kwantitatieve variabelen**: Numerieke waarden die een hoeveelheid representeren en waarop rekenkundige bewerkingen mogelijk zijn.
* **Discreet**: Waarden worden gemeten in afzonderlijke, telbare eenheden. Er is een beperkt aantal mogelijke waarden (bv. pariteit: aantal kinderen; aantal bezoeken aan een arts).
* **Continu**: Waarden kunnen elke waarde aannemen binnen een bepaald bereik, afhankelijk van de meetprecisie (bv. lengte, gewicht, tijd, lichaamstemperatuur).
#### 2.4.2 Meetniveaus van variabelen
* **Interval**: Numerieke data waarbij de verschillen tussen waarden gelijk zijn (vaste intervallen), maar er is geen absoluut nulpunt. Optellen en aftrekken is mogelijk, maar vermenigvuldigen en delen niet zinvol (bv. temperatuur in graden Celsius). Gelijke afstanden tussen eigenschappen, maar geen vast nulpunt.
* **Ratio**: Numerieke data waarbij zowel het verschil als het relatieve verschil tussen waarden zinvol is. Er is een absoluut nulpunt (bv. lengte, gewicht, leeftijd, inkomen, aantal jaren). Bij ratio-meetniveau zijn alle rekenkundige bewerkingen mogelijk.
> **Voorbeeld:** Social media gebruik kan gemeten worden op een schaal van 1 (geen gebruik) tot 9 (meer dan 7 uur per dag). Dit is een voorbeeld van een variabele met ordinaal of interval/ratio meetniveau, afhankelijk van hoe de schaal precies is gedefinieerd.
### 2.5 Samenvatten en presenteren van kwantitatieve data
Wanneer kwantitatieve data zijn verzameld, worden deze samengevat en gepresenteerd met behulp van verschillende statistische methoden.
#### 2.5.1 Frequentietabellen
Een frequentietabel toont hoe vaak een bepaalde waarde of categorie voorkomt binnen een dataset.
* **Absolute frequentie ($f_i$)**: Het aantal keren dat een specifieke waarde voorkomt.
* **Cumulatieve absolute frequentie ($cf_i$)**: Het aantal keren dat een waarde voorkomt die kleiner dan of gelijk is aan de huidige waarde. Dit is enkel zinvol vanaf ordinaal meetniveau.
* **Relatieve frequentie ($h_i$)**: De proportie van een bepaalde waarde in de totale dataset ($h_i = f_i / n$, waarbij $n$ het totaal aantal waarnemingen is).
* **Cumulatieve relatieve frequentie ($ch_i$)**: De proportie van waarden die kleiner dan of gelijk zijn aan de huidige waarde ($ch_i = cf_i / n$).
#### 2.5.2 Grafische voorstellingen
Grafieken helpen bij het visualiseren van de distributie van data.
* **Staafdiagram**: Geschikt voor nominale en ordinale variabelen. Elke staaf representeert een categorie en de hoogte van de staaf geeft de frequentie aan.
* **Histogram**: Gebruikt voor continue of discrete variabelen met veel mogelijke waarden. Staven raken elkaar, wat de continuïteit van de variabele weergeeft.
* **Frequentiepolygoon**: Een lijndiagram dat de toppen van de staven van een histogram verbindt.
* **Ogief**: Een cumulatief frequentiepolygoon, die de cumulatieve frequenties weergeeft.
* **Lijndiagram**: Geschikt voor het weergeven van trends over tijd.
* **Stapeldiagram**: Vergelijkt delen van een geheel tussen verschillende categorieën.
* **Vergelijkend staafdiagram**: Vergelijkt frequenties van verschillende groepen voor dezelfde variabele.
* **Cirkeldiagram**: Toont de proportionele verdeling van categorieën binnen een geheel.
#### 2.5.3 Centrummaten
Centrummaten geven een indicatie van het 'centrum' of het typische waarde in een dataset.
* **Modus**: De waarde of categorie die het meest frequent voorkomt. Geschikt voor alle meetniveaus. Een dataset kan unimodaal (één modus), bimodaal (twee modi) of amodaal (geen duidelijke modus) zijn.
* **Mediaan**: De middelste waarde in een geordende dataset. Als het aantal waarnemingen ($n$) oneven is, is de mediaan de middelste waarde. Als $n$ even is, is de mediaan het gemiddelde van de twee middelste waarden. Geschikt vanaf ordinaal meetniveau. De mediaan wordt niet beïnvloed door extremen.
* **Rekenkundig gemiddelde**: De som van alle waarden gedeeld door het aantal waarnemingen ($\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$). Geschikt vanaf interval en ratio meetniveau. Het gemiddelde is gevoelig voor extreme waarden.
#### 2.5.4 Spreidingsmaten
Spreidingsmaten beschrijven hoe de data verspreid zijn rond het centrum.
* **Bereik**: Het verschil tussen de maximum- en minimumwaarde in de dataset. Het geeft enkel de extremen weer en geen informatie over de verdeling daartussen.
* Bereik = Maximum - Minimum
* **Percentielen**: Een percentiel geeft de waarde aan waaronder een bepaald percentage van de data ligt.
* De $p$-de percentiel ($P_p$) is de waarde waarvoor $p\%$ van de waarnemingen kleiner of gelijk is aan deze waarde.
* De mediaan is het 50e percentiel ($P_{50}$).
* Het eerste kwartiel ($Q_1$) is het 25e percentiel ($P_{25}$).
* Het derde kwartiel ($Q_3$) is het 75e percentiel ($P_{75}$).
* **Interkwartielafstand (IKA)**: Het verschil tussen het derde en het eerste kwartiel ($IKA = Q_3 - Q_1$). Dit is een maat voor de spreiding van de middelste 50% van de data en is minder gevoelig voor extremen dan het bereik.
* **Variantie ($s^2$)**: Het gemiddelde van de gekwadrateerde afwijkingen van elke waarneming tot het gemiddelde. Het meet de gemiddelde spreiding van de data rond het gemiddelde.
$$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$$
* **Standaardafwijking ($s$)**: De vierkantswortel van de variantie ($s = \sqrt{s^2}$). Het is de meest gebruikte spreidingsmaat en geeft de gemiddelde afwijking van de individuele waarnemingen ten opzichte van het gemiddelde aan. Een groot deel van de waarnemingen ligt binnen een afstand van één standaardafwijking van het gemiddelde.
> **Voorbeeld:** Als de standaardafwijking van de penislengte bij mannen 2,5 cm is, betekent dit dat de meeste lengtes ongeveer 2,5 cm afwijken van het gemiddelde.
> **Tip:** Wanneer er een getal wordt toegevoegd aan een steekproef:
> * Als het getal in het midden van de gegevens valt, heeft dit geen impact op het bereik.
> * Als het getal veel groter is dan het gemiddelde, zal dit de standaardafwijking vergroten.
> * Als 10 wordt opgeteld bij elk getal in een steekproef, zal de mediaan met 10 toenemen, maar de standaardafwijking blijft gelijk (de spreiding verandert niet, alleen de positie).
> * Een standaardafwijking van 0 betekent dat alle waarden in de dataset identiek zijn.
---
# Concepten van populatie, steekproef en variabelen
Dit onderdeel introduceert de fundamentele concepten van populatie, steekproef en variabelen, essentieel voor het begrijpen en toepassen van beschrijvende statistiek.
### 3.1 Populatie en steekproef
Statistiek is een cruciaal instrument in diverse domeinen, waaronder de vroedkunde, en vormt een hoeksteen van Evidence Based Practice. Het doel van statistisch onderzoek is om objectieve en neutrale uitspraken te doen over groepen mensen.
* **Populatie**: Dit is de complete verzameling van alle elementen (individuen, objecten, metingen) waarover we iets willen weten of kunnen zeggen. Het is het "geheel" van gelijksoortige objecten of data.
* **Steekproef**: Dit is een deelverzameling van de populatie. Een steekproef wordt genomen met het doel om conclusies te kunnen veralgemenen naar de gehele populatie.
* **Representativiteit**: Een goede steekproef moet een afspiegeling zijn van de populatie, wat betekent dat de kenmerken van de steekproef vergelijkbaar moeten zijn met die van de populatie.
#### 3.1.1 Inclusie- en exclusiecriteria
Om een steekproef te definiëren, worden specifieke criteria opgesteld waaraan een element moet voldoen om al dan niet te worden opgenomen in het onderzoek.
* **Inclusiecriteria**: Kenmerken die een element moet bezitten om deel te mogen uitmaken van de steekproef.
* **Exclusiecriteria**: Kenmerken die een element beletten om deel te nemen aan de steekproef, zelfs als deze aan de inclusiecriteria voldoet.
#### 3.1.2 Soorten steekproeven
Steekproeven kunnen op verschillende manieren worden getrokken, wat invloed heeft op de representativiteit en de mogelijkheid tot generalisatie.
##### 3.1.2.1 Aselecte steekproeven
Bij aselecte steekproeven heeft elk element in de populatie een bekende (en vaak gelijke) kans om in de steekproef te worden opgenomen. Dit gebeurt op basis van toeval.
* **Enkelvoudige aselecte steekproef**: Elk element wordt willekeurig geselecteerd.
* **Systematische steekproef**: Elementen worden geselecteerd met een vaste tussenpoos (bijvoorbeeld elke 10e persoon) nadat een willekeurige start is gemaakt.
* **Gestratificeerde steekproef**: De populatie wordt eerst opgedeeld in subgroepen (strata) op basis van relevante kenmerken (bijv. leeftijd, geslacht). Vervolgens wordt uit elke subgroep een aselecte steekproef getrokken, vaak proportioneel aan de grootte van de subgroep in de populatie.
* **Cluster steekproef**: De populatie wordt opgedeeld in clusters (bijv. scholen, wijken). Vervolgens worden willekeurig enkele clusters geselecteerd, en alle elementen binnen die geselecteerde clusters worden onderzocht.
##### 3.1.2.2 Niet-aselecte steekproeven
Bij niet-aselecte steekproeven is de selectie niet gebaseerd op toeval, maar op beschikbaarheid of andere criteria van de onderzoeker. De kans op selectie is niet bekend.
* **Gemakkelijkheidssteekproef**: Elementen worden geselecteerd op basis van hun nabijheid of beschikbaarheid.
* **Doelgerichte steekproef (purposive sampling)**: De onderzoeker selecteert bewust respondenten die aan specifieke criteria voldoen, omdat deze geacht worden relevante informatie te kunnen verschaffen.
* **Quota steekproef**: Vergelijkbaar met gestratificeerde steekproeven, maar de selectie binnen de strata is niet willekeurig. De onderzoeker streeft naar een bepaalde verdeling van kenmerken in de steekproef.
* **Sneeuwbalmethode**: Respondenten worden gevraagd om andere potentiële respondenten aan te wijzen. Dit is nuttig voor moeilijk bereikbare populaties.
> **Tip:** Hoewel niet-aselecte steekproeven vaak eenvoudiger en goedkoper zijn, is de generaliseerbaarheid van de resultaten naar de populatie beperkter dan bij aselecte steekproeven.
### 3.2 Statistische variabelen
Een variabele is een eigenschap of kenmerk dat gemeten kan worden en waarvan de waarden kunnen variëren tussen de elementen van een populatie of steekproef. Het is cruciaal om variabelen duidelijk te definiëren voordat statistische analyses worden uitgevoerd.
#### 3.2.1 Soorten variabelen
Variabelen worden ingedeeld op basis van hun aard en meetniveau.
##### 3.2.1.1 Kwalitatieve variabelen
Deze variabelen drukken categorieën of eigenschappen uit die niet numeriek gemeten worden, maar waarin elementen ingedeeld kunnen worden.
* **Nominale variabelen**: De waarden zijn categorieën zonder inherente volgorde of rangorde. Er is enkel een onderscheid tussen categorieën.
* **Voorbeeld**: Geslacht (man/vrouw), burgerlijke staat (ongehuwd/gehuwd/gescheiden/weduwnaar/weduwe), ja/nee-antwoorden.
* **Ordinale variabelen**: De waarden zijn categorieën die wel een logische volgorde of rangorde hebben, maar de afstanden tussen de categorieën zijn niet noodzakelijk gelijk of meetbaar.
* **Voorbeeld**: Opleidingsniveau (lager, middelbaar, hoger), mate van tevredenheid (zeer ontevreden, ontevreden, neutraal, tevreden, zeer tevreden), rangschikking van voorkeuren.
##### 3.2.1.2 Kwantitatieve variabelen
Deze variabelen drukken numerieke waarden uit die als hoeveelheid kunnen worden gemeten. Rekenkundige bewerkingen zijn mogelijk.
* **Discrete variabelen**: De waarden worden in telbare eenheden gemeten en kunnen slechts een beperkt aantal waarden aannemen, vaak gehele getallen. Er zitten "sprongen" tussen de mogelijke waarden.
* **Voorbeeld**: Aantal kinderen, aantal keren dat een medicijn is ingenomen, pariteit (aantal geboortes).
* **Continue variabelen**: De waarden kunnen in theorie elke waarde aannemen binnen een bepaald interval, mits de meetnauwkeurigheid voldoende is.
* **Voorbeeld**: Lengte, gewicht, temperatuur, bloeddruk, tijd.
#### 3.2.2 Meetniveaus
De manier waarop een variabele gemeten wordt, bepaalt het meetniveau. Dit heeft directe implicaties voor de statistische analyses die kunnen worden uitgevoerd.
* **Nominaal niveau**: Enkel categorisatie en onderscheid. (Alleen mogelijk voor kwalitatieve variabelen)
* Toegestane bewerkingen: Tellen van frequenties.
* **Ordinaal niveau**: Naast categorisatie is er ook een rangorde. (Kwalitatieve variabelen)
* Toegestane bewerkingen: Tellen van frequenties, bepalen van modus, mediaan, percentielen.
* **Intervalniveau**: Numerieke waarden met gelijke intervallen tussen opeenvolgende waarden, maar zonder een absoluut nulpunt. (Kwantitatieve variabelen)
* Toegestane bewerkingen: Optellen en aftrekken van waarden, berekenen van gemiddelde, standaardafwijking. Vermenigvuldigen en delen is niet zinvol vanwege het ontbreken van een absoluut nulpunt.
* **Voorbeeld**: Temperatuur in graden Celsius of Fahrenheit. Het verschil tussen 10°C en 20°C is gelijk aan het verschil tussen 30°C en 40°C, maar 20°C is niet twee keer zo warm als 10°C.
* **Ratio-niveau (of verhoudingsniveau)**: Numerieke waarden met gelijke intervallen en een absoluut nulpunt. Dit betekent dat nul een werkelijk afwezigheid van de gemeten eigenschap aanduidt. (Kwantitatieve variabelen)
* Toegestane bewerkingen: Alle rekenkundige bewerkingen (optellen, aftrekken, vermenigvuldigen, delen) zijn zinvol. Verhoudingen kunnen worden berekend.
* **Voorbeeld**: Lengte, gewicht, leeftijd, inkomen, tijd, afstand. Een lengte van 2 meter is twee keer zo groot als een lengte van 1 meter.
> **Tip:** De keuze van het meetniveau is cruciaal voor het correct toepassen van statistische methoden. Een variabele gemeten op een hoger niveau (bv. ratio) kan ook behandeld worden als een lagere niveau (bv. ordinaal of nominaal), maar niet andersom.
**Samenvatting meetniveaus en mogelijke analyses:**
| Meetniveau | Variabele type | Modus | Mediaan | Gemiddelde | Bereik | Standaardafwijking |
| :--------- | :-------------- | :---- | :------ | :--------- | :----- | :----------------- |
| Nominaal | Kwalitatief | Ja | Nee | Nee | Nee | Nee |
| Ordinaal | Kwalitatief | Ja | Ja | Nee | Nee | Nee |
| Interval | Kwantitatief | Ja | Ja | Ja | Ja | Ja |
| Ratio | Kwantitatief | Ja | Ja | Ja | Ja | Ja |
---
# Beschrijvende statistiek: frequentietabellen, grafieken en centrum- en spreidingsmaten
Dit onderwerp introduceert de basisprincipes van beschrijvende statistiek, met een focus op het samenvatten en visualiseren van gegevens met behulp van frequentietabellen en diverse grafische weergaven, en het kwantificeren van de centrale tendens en variabiliteit van data door middel van centrum- en spreidingsmaten.
## 4 Beschrijvende statistiek: frequentietabellen, grafieken en centrum- en spreidingsmaten
Beschrijvende statistiek omvat het verzamelen, bewerken, interpreteren, samenvatten en presenteren van de belangrijkste kenmerken van een kwantitatieve dataset. Het doel is om globale patronen en kenmerken te ontdekken en de data op een beknopte manier weer te geven.
### 4.1 Frequentietabellen
Frequentietabellen worden gebruikt om de verdeling van data weer te geven, vooral voor discrete variabelen met een beperkt aantal verschillende waarden.
#### 4.1.1 Elementen van een frequentietabel
* **Absolute frequentie ($f_i$)**: Het aantal keren dat een specifieke waarde voorkomt in de dataset.
* **Cumulatieve absolute frequentie ($cf_i$)**: Het aantal keren dat een waarde kleiner dan of gelijk aan de huidige waarde voorkomt. Dit is alleen zinvol bij variabelen op ten minste ordinaal niveau.
* **Relatieve frequentie ($h_i$)**: De absolute frequentie gedeeld door het totale aantal waarnemingen ($n$). $h_i = \frac{f_i}{n}$.
* **Cumulatieve relatieve frequentie ($ch_i$)**: De cumulatieve absolute frequentie gedeeld door het totale aantal waarnemingen ($n$). $ch_i = \frac{cf_i}{n}$.
> **Tip:** Het totale aantal waarnemingen ($n$) is de som van alle absolute frequenties. De som van alle relatieve frequenties is gelijk aan 1 (of 100%).
### 4.2 Grafische voorstellingen
Grafieken helpen bij het visualiseren van de datadistributie en het identificeren van patronen.
* **Staafdiagram**: Geschikt voor kwalitatieve en discrete kwantitatieve variabelen. Elke staaf representeert een categorie of waarde, waarbij de hoogte van de staaf de frequentie aangeeft.
* **Histogram**: Gebruikt voor continue kwantitatieve variabelen. De staven raken elkaar, wat aangeeft dat de variabele continu is. De breedte van de staven vertegenwoordigt klassenintervallen.
* **Ogief (cumulatief frequentiepolygoon)**: Een grafiek die de cumulatieve frequentie weergeeft. Het laat zien hoeveel waarnemingen kleiner of gelijk zijn aan een bepaalde waarde.
* **Lijndiagram**: Vaak gebruikt om trends over tijd weer te geven of om frequentiepolygonen te tekenen.
* **Cirkeldiagram**: Geschikt voor het weergeven van relatieve frequenties van categorieën in kwalitatieve data. Elk segment van de cirkel vertegenwoordigt een proportie van het geheel.
### 4.3 Centrummaten
Centrummaten geven een indicatie van het "midden" of de typische waarde van een dataset.
#### 4.3.1 Modus
De modus is de waarde of categorie die het vaakst voorkomt in een dataset.
* **Toepasbaarheid**: Kan worden berekend voor variabelen op nominaal niveau en hoger.
* **Eigenschappen**: Kan meer dan één modus hebben (bimodaal, multimodaal) of geen modus hebben. Wordt niet beïnvloed door extreme waarden.
#### 4.3.2 Mediaan
De mediaan is de middelste waarde in een geordende dataset.
* **Berekening**:
* Bij een oneven aantal waarnemingen ($n$): de middelste waarde.
* Bij een even aantal waarnemingen ($n$): het rekenkundig gemiddelde van de twee middelste waarden.
* **Toepasbaarheid**: Kan worden berekend voor variabelen op ordinaal niveau en hoger.
* **Eigenschappen**: Niet beïnvloed door extreme waarden.
#### 4.3.3 Gemiddelde (rekenkundig gemiddelde)
Het gemiddelde is de som van alle waarnemingen gedeeld door het totale aantal waarnemingen.
* **Formule**: $$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$
Waarbij $x_i$ de $i$-de waarneming is en $n$ het totale aantal waarnemingen.
* **Toepasbaarheid**: Kan alleen worden berekend voor variabelen op interval- of rationiveau (kwantitatief).
* **Eigenschappen**: Wordt sterk beïnvloed door extreme waarden (uitbijters).
> **Tip:** De keuze van de centrummaat hangt af van het meetniveau van de variabele en de aanwezigheid van uitbijters. Bij scheve verdelingen is de mediaan vaak een betere representatie van het centrum dan het gemiddelde.
### 4.4 Spreidingsmaten
Spreidingsmaten geven aan hoe verspreid de data zijn rond het centrum.
#### 4.4.1 Bereik
Het bereik is het verschil tussen de maximum- en minimumwaarde in een dataset.
* **Formule**: Bereik = Maximum - Minimum
* **Eigenschappen**: Houdt alleen rekening met de uiterste waarden en geeft geen informatie over de verdeling van de data daartussen.
#### 4.4.2 Percentielen
Een percentiel geeft de waarde aan waaronder een bepaald percentage van de data valt.
* **P-de percentiel ($P_p$)**: De waarde waarbij $p\%$ van de waarnemingen kleiner of gelijk is aan deze waarde.
* **Kwartielen**: Specifieke percentielen:
* Eerste kwartiel ($Q_1$ of $P_{25}$): 25% van de data ligt hieronder.
* Mediaan ($Q_2$ of $P_{50}$): 50% van de data ligt hieronder.
* Derde kwartiel ($Q_3$ of $P_{75}$): 75% van de data ligt hieronder.
* **Interkwartielafstand (IKA)**: Het verschil tussen het derde en eerste kwartiel ($Q_3 - Q_1$). Dit geeft de spreiding van de middelste 50% van de data weer en is minder gevoelig voor uitbijters dan het bereik.
* **Boxplot**: Een grafische weergave die het minimum, $Q_1$, de mediaan, $Q_3$ en het maximum (of een aangepaste maximumwaarde in aanwezigheid van uitbijters) toont.
#### 4.4.3 Variantie en standaardafwijking
Deze maten kwantificeren de gemiddelde afwijking van de waarnemingen ten opzichte van het gemiddelde.
* **Variantie ($s^2$)**: Het gemiddelde van de gekwadrateerde afwijkingen van elke waarneming ten opzichte van het gemiddelde.
* **Formule (voor een steekproef)**: $$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
* **Standaardafwijking ($s$)**: De vierkantswortel van de variantie. Dit is de meest gebruikte spreidingsmaat omdat deze in dezelfde eenheden als de originele data is uitgedrukt.
* **Formule (voor een steekproef)**: $$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$
> **Tip:** De standaardafwijking geeft aan hoe typisch de gemiddelde afwijking is. Een kleine standaardafwijking betekent dat de data dicht bij het gemiddelde liggen, terwijl een grote standaardafwijking duidt op een grotere spreiding. Een standaardafwijking van 0 betekent dat alle waarnemingen identiek zijn.
> **Voorbeeld:** Als de standaardafwijking van de penislengte 2,5 cm is, betekent dit dat de meeste gemeten lengtes ongeveer 2,5 cm afwijken van het gemiddelde.
### 4.5 Invloed van data-aanpassingen op maten
* **Toevoegen van een getal in het midden van de gegevens**: Heeft geen invloed op het bereik als het tussen het minimum en maximum valt. Kan de mediaan beïnvloeden als het precies op de mediaanwaarde valt of als het de plaats van de mediaan verandert.
* **Toevoegen van een getal dat veel groter is dan het gemiddelde**: Heeft een grote impact op het bereik door het maximum te verhogen. Heeft ook een significante impact op de standaardafwijking door deze te verhogen.
* **Optellen van een constante bij elk getal in een steekproef**:
* De mediaan zal met dezelfde constante toenemen.
* De standaardafwijking blijft onveranderd, omdat de relatieve spreiding tussen de waarden gelijk blijft.
**Quizvragen (ter reflectie):**
* Als een getal wordt toegevoegd aan een steekproef, en dat getal valt in het midden van de gegevens, welke impact heeft dit op het bereik?
* Als een getal wordt toegevoegd aan een steekproef, en dat getal is veel groter dan het gemiddelde, welke impact heeft dit op de standaardafwijking?
* Als 10 wordt opgeteld bij elk getal uit een steekproef, welke impact heeft dit op de mediaan? En op de standaardafwijking?
* Wat betekent het als een set gegevens een standaardafwijking van 0 heeft?
* Welke van 2 onderstaande steekproeven heeft de kleinste standaardafwijking? (Dit vereist concrete datasets om te vergelijken.)
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Statistiek | Een wetenschap die zich bezighoudt met het verzamelen, bewerken, analyseren, interpreteren en presenteren van gegevens om patronen te ontdekken, conclusies te trekken en voorspellingen te doen. |
| Beschrijvende statistiek | Het onderdeel van statistiek dat zich richt op het samenvatten en presenteren van de belangrijkste kenmerken van een kwantitatieve dataset om globale patronen te ontdekken. |
| Verklarende statistiek | Het onderdeel van statistiek dat conclusies trekt over een grotere populatie op basis van een kleinere steekproef en hypothesen test. |
| Populatie | De volledige verzameling van alle elementen of objecten waarover men informatie wil verzamelen en conclusies wil trekken. |
| Steekproef | Een deelverzameling van de populatie die wordt geselecteerd voor onderzoek, met als doel veralgemeningen te kunnen doen naar de gehele populatie. |
| Representativiteit | Het kenmerk van een steekproef dat aangeeft in hoeverre deze een getrouwe afspiegeling is van de populatie waaruit deze is getrokken. |
| Aselecte steekproef | Een steekproef waarbij elk element in de populatie een gelijke kans heeft om geselecteerd te worden, vaak gebaseerd op toeval. |
| Niet-aselecte steekproef | Een steekproef waarbij de selectie van elementen niet volledig op toeval berust, maar gebaseerd is op bepaalde criteria of de beslissing van de deelnemer zelf. |
| Variabele | Een eigenschap, kenmerk of meting die kan variëren tussen individuen of eenheden binnen een onderzoek, en die gemeten kan worden. |
| Kwalitatieve variabele | Een variabele waarvan de waarden niet numeriek worden gemeten, maar die kunnen worden ingedeeld in categorieën. |
| Nominale variabele | Een kwalitatieve variabele waarbij de categorieën geen inherente rangorde hebben, zoals geslacht of ja/nee antwoorden. |
| Ordinale variabele | Een kwalitatieve variabele waarbij de categorieën wel een logische rangorde hebben, zoals opleidingsniveau of waarderingscijfers. |
| Kwantitatieve variabele | Een variabele waarvan de waarden numeriek zijn en als hoeveelheid kunnen worden gemeten, waardoor rekenkundige bewerkingen mogelijk zijn. |
| Discrete variabele | Een kwantitatieve variabele waarvan de waarden in afzonderlijke eenheden worden gemeten en die een beperkt aantal waarden kan aannemen, zoals het aantal kinderen. |
| Continue variabele | Een kwantitatieve variabele die elke waarde kan aannemen binnen een bepaald bereik, mits nauwkeurig gemeten, zoals lengte of tijd. |
| Meetniveaus | De schalen waarop variabelen kunnen worden gemeten, variërend van nominaal (geen ordening) tot ratio (zinvolle nulpunten en verhoudingen), met ordinaal en interval als tussenliggende niveaus. |
| Frequentietabel | Een tabel die de absolute en/of relatieve frequenties van verschillende waarden of categorieën van een variabele weergeeft. |
| Absolute frequentie | Het aantal keren dat een specifieke waarde of categorie voorkomt in een dataset. |
| Relatieve frequentie | Het aandeel van een specifieke waarde of categorie ten opzichte van het totaal aantal waarnemingen, vaak uitgedrukt als een percentage. |
| Staafdiagram | Een grafische weergave van categorische gegevens waarbij de hoogte van de staven de frequentie of relatieve frequentie van elke categorie aangeeft. |
| Histogram | Een grafische weergave van de verdeling van continue of discrete kwantitatieve gegevens, waarbij de oppervlakte van de staven de frequentie weergeeft en de staven aaneengesloten zijn. |
| Modus | De waarde of categorie in een dataset die het vaakst voorkomt; de piek van de verdeling. |
| Mediaan | De middelste waarde in een geordende dataset; de waarde die de dataset in twee gelijke helften verdeelt. |
| Rekenkundig gemiddelde | De som van alle waarden in een dataset gedeeld door het totale aantal waarden; de meest gebruikte centrummaat. |
| Spreidingsmaten | Statistische maten die beschrijven hoe verspreid de gegevens liggen rond een centrummaat, zoals het bereik of de standaardafwijking. |
| Bereik | Het verschil tussen de maximum- en minimumwaarde in een dataset; een maat voor de spreiding van de uiterste waarnemingen. |
| Percentielen | Waarden in een dataset die aangeven welk percentage van de gegevens kleiner of gelijk is aan die waarde. |
| Kwartielen | Specifieke percentielen (Q1=25e, Q2=50e=mediaan, Q3=75e) die een dataset in vier gelijke delen verdelen. |
| Interkwartielafstand (IKA) | Het verschil tussen het derde en eerste kwartiel (Q3 - Q1), dat de spreiding van de middelste 50% van de gegevens aangeeft. |
| Variantie | Een maat voor de gemiddelde gekwadrateerde afwijking van elke waarneming ten opzichte van het gemiddelde; een maat voor de spreiding van de data rond het gemiddelde. |
| Standaardafwijking | De vierkantswortel van de variantie; geeft de typische afwijking van individuele waarnemingen ten opzichte van het gemiddelde aan. |