Cover
Mulai sekarang gratis Student - Hoorcollege 1 - Introductie Statistiek 2.pptx
Summary
# Introductie tot statistiek 2 en de cursusstructuur
Dit documentgedeelte introduceert Statistiek 2, de voortzetting van Statistiek 1, met een focus op inductieve statistiek en schetst de structuur van de cursus, leerdoelen, werkcolleges en evaluatiemethoden.
## 1. Introductie tot statistiek 2 en de cursusstructuur
### 1.1 Situering van Statistiek 2
Statistiek 2 is de opvolger van Statistiek 1 en richt zich voornamelijk op inductieve statistiek, in tegenstelling tot de beschrijvende statistiek die in Statistiek 1 werd behandeld. Het vak bereidt studenten voor op empirisch onderzoek, het beantwoorden van praktijkgerichte onderzoeksvragen en het kritisch beoordelen van wetenschappelijke literatuur.
#### 1.1.1 Waarom inductieve statistiek?
Inductieve statistiek stelt ons in staat om algemene uitspraken te doen over een gehele populatie op basis van een steekproef. Dit is essentieel omdat het vrijwel onmogelijk is om de gehele populatie te meten. Door middel van inductieve statistiek kunnen we conclusies trekken en hypothesen toetsen die verder reiken dan de specifieke groep die is onderzocht.
#### 1.1.2 Stappen in wetenschappelijk onderzoek
Het proces van wetenschappelijk onderzoek omvat doorgaans de volgende stappen:
* Literatuurstudie
* Hypothesevorming
* Dataverzameling
* Beschrijvende statistiek
* Inductieve statistiek
* Conclusie
#### 1.1.3 Praktijkvoorbeelden van onderzoeksvragen
Statistiek kan antwoorden bieden op diverse onderzoeksvragen, zowel in het dagelijks leven als in specifieke vakgebieden zoals psychologie:
* **Dagelijks leven:** Hangt het aantal studie-uren samen met slaagkansen? Wat is de kans om de ware liefde te ontmoeten op een datingapp? Is er een verband tussen hygiëne en de kans op infectie?
* **Psychologisch werkveld:** Wat is het verband tussen hechtingsstijl en welzijn bij kinderen? Hoe beïnvloeden IQ en geletterdheid schoolse slaagkansen? Welke impact heeft gewetensvolheid op een planmatige aanpak bij werknemers?
### 1.2 Cursusstructuur en planning
#### 1.2.1 Leerdoelen
De leerdoelen van Statistiek 2 zijn ontworpen om de kennis en vaardigheden te evalueren die nodig zijn voor het toepassen van inductieve statistiek. Deze leerdoelen dienen als leidraad tijdens het studeren.
#### 1.2.2 Studietijd en planning
Regelmatig en tijdig beginnen met studeren is cruciaal voor succes. De cursus is opgebouwd uit hoorcolleges en werkcolleges.
#### 1.2.3 Werkcolleges
De werkcolleges zijn bedoeld voor:
* Diepere verwerking van de leerstof uit de hoorcolleges.
* Toepassing van theoretische kennis in concrete oefeningen.
* Gebruik van statistische software zoals SPSS.
De werkcolleges zijn als volgt ingedeeld:
* Werkcollege 1: oefeningen bij Hoorcollege 1, 2, 3
* Werkcollege 2: oefeningen bij Hoorcollege 4, 5, 6, 7
* Werkcollege 3: oefeningen bij Hoorcollege 8, 9, 10, 11
* Werkcollege 4: oefeningen bij Hoorcollege 12, 13, 14
#### 1.2.4 Evaluatie en examen
De evaluatie van de cursus gebeurt via een schriftelijk examen dat voor 100% meetelt. Dit examen bevat zowel kennisvragen als toepassingsvragen, gericht op het begrijpen van de belangrijkste inzichten, het uitrekenen van oefeningen en het correct rapporteren van onderzoeksresultaten. Verdere details over het examen worden later in de cursus verstrekt.
#### 1.2.5 Studiemateriaal
* **Verplicht:**
* Studiewijzer en schrijfwijzer (als leermiddel).
* Leermateriaal beschikbaar op Digitap.
* Handboek: Vanhoomissen, T., Valkeneers, G. (2019). *Inductieve statistiek in de gedragswetenschappen*. Leuven, België: Acco.
* **Aanbevolen (handboek Statistiek 1):**
* Handboek: Valkeneers, G., Vanhoomissen, T. (2018). *Inleiding in de statistiek voor de gedragswetenschappen*. Leuven, België: Acco.
#### 1.2.6 Praktische afspraken
* Stipte aanwezigheid wordt gewaardeerd.
* Vragen kunnen meegenomen worden naar de les, gesteld worden via het forum, of per e-mail verzonden worden voor persoonlijke en belangrijke zaken.
### 1.3 Herhaling Statistiek 1: Belangrijke begrippen
#### 1.3.1 Variabelen en meetniveaus
* **Variabelen:** Kenmerken die gemeten of ingedeeld kunnen worden in categorieën. Ze kunnen verschillende waarden aannemen. Voorbeelden zijn leeftijd, geslacht, of een score op een test.
* **Operationaliseren:** Het proces om variabelen meetbaar te maken. Dit geldt ook voor abstracte concepten zoals intelligentie of depressie.
* **Meetniveaus:** Variabelen kunnen worden ingedeeld op basis van hun meetniveau: nominaal, ordinaal, interval en ratio (NOIR). Het meetniveau bepaalt welke statistische methoden toegepast kunnen worden.
* **Betrouwbaarheid en validiteit:** Twee cruciale voorwaarden voor meten. Betrouwbaarheid verwijst naar de consistentie van een meting, terwijl validiteit aangeeft of de meting daadwerkelijk meet wat het beoogt te meten.
#### 1.3.2 Onafhankelijke en afhankelijke variabelen
* **Afhankelijke variabele (AV):** De variabele die we willen bestuderen of verklaren (bv. mate van depressie).
* **Onafhankelijke variabele (OV):** Een variabele die mogelijk invloed heeft op de afhankelijke variabele en de oorzaak is van verschillen hierin (bv. een bepaalde behandeling). Het is belangrijk te onthouden dat samenhang niet automatisch causaliteit impliceert. In experimenteel onderzoek worden OV's gemanipuleerd om hun effect op de AV te onderzoeken.
#### 1.3.3 Steekproeven
* **Steekproef:** Een deel van de populatie dat wordt onderzocht, vooral wanneer de populatie te groot is om volledig te meten.
* **Belang van representativiteit:** Een goede steekproef is een representatieve afspiegeling van de populatie, wat essentieel is voor het doen van verantwoorde uitspraken over die populatie. De inductieve statistiek heeft als doel om op basis van deze steekproef betrouwbare conclusies over de populatie te trekken.
#### 1.3.4 Soorten steekproeven
* **Aselecte steekproef:** Elk individu in de populatie heeft een gelijke kans om in de steekproef te worden opgenomen. Voorbeelden zijn de volledig aselecte steekproef, systematische aselecte steekproef, gestratificeerde steekproef, clustersteekproef en getrapte steekproef.
* **Niet-aselecte steekproef:** Niet elk individu in de populatie heeft een gelijke kans op selectie. Voorbeelden zijn de gemakheidssteekproef, beoordelingssteekproef, sneeuwbalsteekproef, quotasteekproef en routemethode.
* **Belang van steekproefselectie:** Een zorgvuldige en onderbouwde steekproefselectie is cruciaal voor de validiteit en betrouwbaarheid van onderzoek.
#### 1.3.5 Frequentieverdelingen, centrum- en spreidingsmaten
* **Frequentieverdelingen:** Een eerste manier om data te verkennen, weergegeven in absolute of relatieve frequenties en via grafische voorstellingen zoals taartdiagrammen, staafdiagrammen, histogrammen en boxplots. Percentielscores, kwartielen en decielen geven de positie van een score weer.
* **Centrummaten:** Beschrijven de centrale tendens van data.
* **Modus:** De meest voorkomende waarde.
* **Mediaan:** De middelste waarde in een gerangschikte dataset.
* **Gemiddelde:** De som van alle waarden gedeeld door het aantal waarnemingen. Bij een symmetrische verdeling zijn deze drie maten gelijk. De mediaan is minder gevoelig voor extreme waarden, het gemiddelde is consistenter over steekproeven.
* **Spreidingsmaten:** Beschrijven hoe scores van elkaar variëren.
* **Interkwartielafstand:** Het verschil tussen het 75e en 25e percentiel.
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van elke score ten opzichte van het gemiddelde.
* **Standaarddeviatie ($s$):** De vierkantswortel van de variantie, wat de spreiding in de oorspronkelijke eenheden weergeeft.
* **Standaardscores (Z-scores):** Drukken uit hoeveel standaarddeviaties een geobserveerde score boven of onder het gemiddelde ligt. De formule is: $Z = \frac{X - \mu}{\sigma}$.
#### 1.3.6 De normale verdeling
* De normale verdeling is een veelgebruikt theoretisch model voor het beschrijven van de kans op het voorkomen van bepaalde waarden. Veel variabelen in de natuur zijn normaal verdeeld, zoals lengte en IQ.
* Normale verdelingen worden gekenmerkt door hun klokvormige, symmetrische curve en worden bepaald door het gemiddelde ($\mu$) en de standaarddeviatie ($\sigma$).
* De standaardnormaalverdeling heeft een gemiddelde van $0$ en een standaarddeviatie van $1$ ($\mu = 0, \sigma = 1$). Met behulp van tabellen voor de standaardnormaalverdeling kunnen percentages van observaties onder specifieke Z-scores worden bepaald.
#### 1.3.7 Samenhang tussen variabelen (Statistiek 1)
* **Kruistabellen:** Worden gebruikt om de samenhang tussen nominale of ordinale variabelen te onderzoeken. Toetsen zoals de chikwadraattoets worden gebruikt om te bepalen of een verband statistisch significant is, en maten zoals Cramers V om de sterkte van het verband te kwantificeren.
* **Correlatie:** Wordt gebruikt om de lineaire samenhang tussen interval- of ratiovariabelen te onderzoeken (bv. IQ en schooluitslag).
> **Tip:** Begrijp het meetniveau (NOIR) van je variabelen, want dit bepaalt welke statistische gereedschappen je kunt gebruiken in zowel Statistiek 1 als Statistiek 2.
> **Tip:** Als je de cursus Statistiek 1 niet gevolgd hebt of weinig hebt onthouden, focus dan op de kernconcepten van Statistiek 2 en raadpleeg voor specifieke details het handboek van Statistiek 1. Zoek ook hulp bij medestudenten.
---
# Herhaling en uitbreiding van statistische concepten
Dit onderdeel herhaalt en verdiept fundamentele statistische concepten die cruciaal zijn voor inductieve statistiek, met een focus op variabelen, meetniveaus, betrouwbaarheid, validiteit, steekproeven en de relatie tussen variabelen.
### 2.1 Wetenschappelijk onderzoek en de rol van statistiek
Statistiek fungeert als een essentieel hulpmiddel binnen empirisch onderzoek om algemeen geldende uitspraken te kunnen doen over de realiteit, zelfs wanneer slechts een beperkt deel van de populatie wordt onderzocht. Inductieve statistiek stelt ons in staat om op basis van een steekproef conclusies te trekken over de gehele populatie.
#### 2.1.1 Stappen in wetenschappelijk onderzoek
Een typisch wetenschappelijk onderzoeksproces omvat de volgende stappen:
1. Literatuurstudie
2. Hypothesevorming
3. Dataverzameling
4. Beschrijvende statistiek
5. Inductieve statistiek
6. Conclusie
#### 2.1.2 Praktijkvoorbeelden van onderzoeksvragen
Statistiek kan antwoorden bieden op diverse onderzoeksvragen, zowel in het dagelijks leven als binnen specifieke vakgebieden:
* **Dagelijks leven:** Hangt het aantal uren studie voor Statistiek 2 samen met slaagkansen? Wat is de kans om de liefde van je leven te ontmoeten op Tinder? Is er een verband tussen handen wassen en de kans op Coronavirusbesmetting?
* **Psychologisch werkveld:**
* **Klinisch:** In welke mate is er een verband tussen de hechtingsstijl van een kind en zijn/haar/hun welzijn?
* **School/Pedagogisch:** Welke impact hebben IQ en geletterdheid op schoolse slaagkansen?
* **Arbeid/Organisatie:** Welke impact heeft gewetensvolheid (persoonlijkheidstrek) op een planmatige aanpak bij werknemers?
### 2.2 Variabelen
Een variabele is een "doosje" dat verschillende waarden kan bevatten en dat gemeten of ingedeeld kan worden. Voorbeelden zijn leeftijd, geslacht of een score op een test.
#### 2.2.1 Operationaliseren van variabelen
Operationaliseren is het proces waarbij abstracte concepten (zoals intelligentie, depressie of angst) meetbaar worden gemaakt.
#### 2.2.2 Eigenschappen van variabelen
Variabelen kunnen worden ingedeeld naar:
* **Kwantitatief of kwalitatief**
* **Continu of discreet**
* **Meetniveau:** nominaal, ordinaal, interval, ratio (NOIR)
* **Onafhankelijk of afhankelijk**
#### 2.2.3 Betrouwbaarheid en validiteit
Twee cruciale voorwaarden voor het meten van variabelen zijn:
* **Betrouwbaarheid:** De mate waarin een test of instrument consistent meet wat het beoogt te meten.
* **Validiteit:** De mate waarin een test of instrument daadwerkelijk meet wat het beoogt te meten.
#### 2.2.4 Meetniveaus (NOIR)
Het meetniveau van een variabele bepaalt welke statistische analyses mogelijk zijn.
* **Nominaal:** Categorieën zonder inherente volgorde (bv. geslacht: man, vrouw, anders; haarkleur: blond, bruin, zwart).
* **Ordinaal:** Categorieën met een inherente volgorde, maar de verschillen tussen de categorieën zijn niet noodzakelijk gelijk (bv. opleidingsniveau: lager onderwijs, middelbaar onderwijs, hoger onderwijs; rangen in een wedstrijd: 1e, 2e, 3e).
* **Interval:** Gelijkmatige intervallen tussen opeenvolgende waarden, maar geen natuurlijk nulpunt (bv. temperatuur in graden Celsius of Fahrenheit, jaartallen). Een verschil van 10 graden Celsius tussen 10 en 20 graden is gelijk aan het verschil tussen 20 en 30 graden, maar een temperatuur van 0 graden Celsius betekent niet de afwezigheid van temperatuur.
* **Ratio:** Gelijkmatige intervallen tussen opeenvolgende waarden, én een natuurlijk nulpunt (bv. lengte, gewicht, leeftijd, inkomen). Een lengte van 0 meter betekent de afwezigheid van lengte, en een lengte van 2 meter is twee keer zo lang als 1 meter.
#### 2.2.5 Onafhankelijke en afhankelijke variabelen
* **Afhankelijke variabele (AV):** De variabele die men wil bestuderen of verklaren (bv. mate van depressie).
* **Onafhankelijke variabele (OV):** Een variabele die een mogelijke oorzaak is voor verschillen in de afhankelijke variabele (bv. therapie wel/niet gevolgd). Het is belangrijk op te merken dat samenhang niet gelijk staat aan causaliteit.
In experimenteel onderzoek worden één of meerdere onafhankelijke variabelen gemanipuleerd om het effect ervan op de afhankelijke variabele te observeren.
### 2.3 Steekproeven
Een steekproef is een deel van de populatie dat wordt onderzocht, omdat het onderzoeken van de gehele populatie vaak onpraktisch of onmogelijk is. Het hoofddoel van inductieve statistiek is het trekken van verantwoorde uitspraken over de populatie op basis van de steekproef. Een goede steekproef is een representatieve afspiegeling van de populatie.
#### 2.3.1 Soorten steekproeven
Er wordt een onderscheid gemaakt tussen aselecte en niet-aselecte steekproeven.
##### 2.3.1.1 Aselecte steekproeven
Bij aselecte steekproeven heeft elk individu van de populatie een even grote kans om in de steekproef te worden opgenomen.
* **Volledig aselecte steekproef (simple random sampling):** Elk element van de populatie heeft een gelijke kans om in de steekproef te worden opgenomen.
* *Nadeel:* Niet altijd gegarandeerd representatief en soms moeilijk realiseerbaar.
* **Systematisch aselecte steekproef (systematic sampling):** Selectie van elementen uit een geordende lijst met een vaste interval.
* **Gestratificeerde steekproef (stratified sampling):** De populatie wordt opgedeeld in strata (subgroepen), en uit elk stratum wordt een aselecte steekproef getrokken.
* **Clustersteekproef (cluster sampling):** De populatie wordt opgedeeld in clusters, en een aantal clusters worden willekeurig geselecteerd om volledig onderzocht te worden.
* **Getrapte steekproef (multistage sampling):** Een combinatie van verschillende steekproefmethoden in meerdere fasen.
##### 2.3.1.2 Niet-aselecte steekproeven
Bij niet-aselecte steekproeven heeft niet elk individu van de populatie een gelijke kans om in de steekproef te worden opgenomen.
* **Gemakkelijkheidssteekproef (convenience sampling):** Selectie op basis van beschikbaarheid en toegankelijkheid.
* **Beoordelingssteekproef (judgement sampling):** Selectie op basis van de oordeel van de onderzoeker.
* **Sneeuwbalsteekproef (snowball sampling):** Bestaande deelnemers verwijzen naar nieuwe deelnemers.
* **Quotasteekproef (quota sampling):** De onderzoeker stelt quota vast voor bepaalde subgroepen in de populatie en selecteert respondenten tot deze quota zijn gevuld (niet-willekeurig).
* **Routemethode (random walk):** Een combinatie van willekeurigheid en gemak, waarbij de onderzoeker start op een willekeurig punt en vervolgens een vooraf bepaalde route volgt.
#### 2.3.2 Belang van goede steekproeven
Een zorgvuldige steekproefselectie is essentieel voor de validiteit en betrouwbaarheid van onderzoeksresultaten. De keuze voor een specifieke steekproefmethode moet altijd onderbouwd kunnen worden. Het negeren van dit belang kan leiden tot "garbage in, garbage out" (GIGO).
### 2.4 Beschrijvende statistiek: Frequentieverdelingen, centrum- en spreidingsmaten
Beschrijvende statistiek helpt bij de eerste verkenning en ordening van data.
#### 2.4.1 Frequentieverdelingen
* **Absolute frequentie:** Het aantal keren dat een waarde voorkomt.
* **Relatieve frequentie:** Het aandeel van een waarde ten opzichte van het totaal aantal waarnemingen.
* **Visuele voorstellingen:** Taartdiagram (nominaal), staafdiagram (nominaal/ordinaal), stamdiagram/histogram/boxplot (interval).
#### 2.4.2 Centrummaten
Centrummaten geven de centrale tendens van een verdeling aan.
* **Modus:** De waarde die het meest voorkomt (bruikbaar voor elk meetniveau).
* **Mediaan:** De middelste waarde in een gerangschikte dataset (minimaal ordinaal niveau). Minder gevoelig voor extreme waarden dan het gemiddelde.
* **Gemiddelde:** De som van alle waarden gedeeld door het aantal waarnemingen (minimaal interval niveau). Meer gevoelig voor extreme waarden, maar consistenter over verschillende steekproeven.
> **Tip:** Bij een symmetrische verdeling zijn modus, mediaan en gemiddelde gelijk.
#### 2.4.3 Spreidingsmaten
Spreidingsmaten geven aan hoe ver de scores uit elkaar liggen.
* **Interkwartielafstand:** Het verschil tussen het 75e percentiel ($P_{75}$) en het 25e percentiel ($P_{25}$).
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van elke observatie ten opzichte van het gemiddelde.
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
waarbij $x_i$ de waarneming is, $\bar{x}$ het steekproefgemiddelde, en $n$ het aantal waarnemingen.
* **Standaarddeviatie ($s$):** De vierkantswortel van de variantie. Deze maat is makkelijker te relateren aan de originele scores.
$$ s = \sqrt{s^2} $$
* **Standaardscores (Z-scores):** Drukken uit hoeveel standaarddeviaties een geobserveerde score boven of onder het gemiddelde ligt.
$$ z = \frac{x - \bar{x}}{s} $$
waarbij $x$ de individuele score is.
### 2.5 De normale verdeling
De normale verdeling is een theoretisch kansmodel dat vaak wordt gebruikt om geobserveerde data te beschrijven en te analyseren.
#### 2.5.1 Eigenschappen van de normale verdeling
* De curve is klokvormig en symmetrisch rond het gemiddelde.
* Verschillen tussen normale verdelingen zitten enkel in het gemiddelde ($\mu$) en de standaarddeviatie ($\sigma$).
* Veel variabelen in de natuur, zoals lengte en IQ, volgen bij benadering een normale verdeling.
#### 2.5.2 Standaardnormaalverdeling
De standaardnormaalverdeling is een speciaal geval van de normale verdeling met een gemiddelde ($\mu$) van 0 en een standaarddeviatie ($\sigma$) van 1. Z-scores worden gebruikt om waarden te standaardiseren en te vergelijken binnen de standaardnormaalverdeling.
> **Tip:** Kennis van de normale verdeling en de bijbehorende tabellen maakt het mogelijk om kansen op specifieke uitkomsten te bepalen.
### 2.6 Samenhang tussen variabelen (Statistiek I recap)
Statistiek I bood ook inzicht in de samenhang tussen variabelen.
#### 2.6.1 Kruistabellen
Kruistabellen worden gebruikt om de samenhang tussen twee nominale of ordinale variabelen weer te geven. De analyse omvat:
* **Chikwadraattoets / Goodness of Fit:** Om te bepalen of een verband statistisch significant is.
* **Cramérs V:** Om de sterkte van het verband te meten.
#### 2.6.2 Correlatie
Correlatie wordt gebruikt om de lineaire samenhang tussen twee interval- of ratiovariabelen te meten (bv. IQ en schooluitslag). De correlatiecoëfficiënt varieert van $-1$ (perfecte negatieve correlatie) tot $+1$ (perfecte positieve correlatie), met 0 als geen lineaire correlatie.
### 2.7 Belang van meetniveau en representatieve steekproeven
* Het **meetniveau (NOIR)** van variabelen bepaalt welke statistische gereedschappen gebruikt kunnen worden.
* Een **goede, representatieve steekproeftrekking** is cruciaal voor het verhogen van validiteit en betrouwbaarheid en het trekken van wetenschappelijk verantwoorde conclusies over de populatie.
> **Tip:** Voor studenten die Statistiek I niet hebben gevolgd, is het raadzaam om de basisprincipes van Statistiek II goed te beheersen en bij twijfel terug te grijpen naar het handboek van Statistiek I. Samen studeren en hulp zoeken bij medestudenten kan zeer effectief zijn.
---
# Frequentieverdelingen, centrum- en spreidingsmaten
Dit onderdeel behandelt de beschrijvende aspecten van data-analyse, met een focus op hoe data georganiseerd, samengevat en gevisualiseerd kan worden om inzicht te verkrijgen.
### 3.1 Frequentieverdelingen
Frequentieverdelingen bieden een eerste verkenning van data door te beschrijven hoe vaak bepaalde waarden voorkomen.
#### 3.1.1 Soorten frequenties
* **Absolute frequentie:** Het aantal keren dat een specifieke waarde of categorie voorkomt in de dataset.
* **Relatieve frequentie:** De proportie of het percentage van het totaal aantal observaties dat overeenkomt met een specifieke waarde of categorie. Dit wordt berekend door de absolute frequentie te delen door het totale aantal observaties.
#### 3.1.2 Grafische voorstellingen
De keuze van de grafische voorstelling hangt af van het meetniveau van de variabele.
* **Taartdiagram:** Geschikt voor nominale variabelen om de proportionele verdeling van categorieën weer te geven.
* **Staafdiagram:** Kan gebruikt worden voor nominale of ordinale variabelen om de frequentie van elke categorie te visualiseren.
* **Histogram:** Geschikt voor interval- of rationiveau variabelen om de frequentieverdeling van continue data weer te geven. De staven raken elkaar om continuïteit aan te duiden.
* **Boxplot (of doosdiagram):** Een grafische weergave die de spreiding van de data samenvat, met name nuttig voor interval- of rationiveau variabelen. Het toont de mediaan, kwartielen en uitschieters.
#### 3.1.3 Percentielscores
Percentielscores geven de positie van een specifieke score aan ten opzichte van alle andere scores in een dataset.
* **Kwartielen:** Verdelen de data in vier gelijke delen (P25, P50, P75).
* **Decielen:** Verdelen de data in tien gelijke delen.
### 3.2 Centrummaten
Centrummaten geven de centrale tendens van een dataset weer, wat aangeeft waar het "middelpunt" van de verdeling ligt.
#### 3.2.1 Modus
* **Definitie:** De waarde die het meest frequent voorkomt in een dataset.
* **Toepasbaar op:** Alle meetniveaus (nominaal, ordinaal, interval, ratio).
#### 3.2.2 Mediaan
* **Definitie:** De middelste waarde in een geordende dataset. Als er een even aantal observaties is, is de mediaan het gemiddelde van de twee middelste waarden.
* **Toepasbaar op:** Minimaal ordinaal niveau.
* **Eigenschap:** Minder gevoelig voor extreme waarden (uitschieters) dan het gemiddelde.
#### 3.2.3 Gemiddelde (arithmetisch gemiddelde)
* **Definitie:** De som van alle waarden gedeeld door het totale aantal observaties.
$$ \text{Gemiddelde} = \frac{\sum_{i=1}^{n} x_i}{n} $$
waarbij $x_i$ de waarden van de observaties zijn en $n$ het totale aantal observaties.
* **Toepasbaar op:** Minimaal interval niveau.
* **Eigenschap:** Consistenter over verschillende steekproeven dan de modus of mediaan.
#### 3.2.4 Relatie tussen centrummaten
* Bij een **symmetrische verdeling** zijn de modus, mediaan en gemiddelde gelijk.
### 3.3 Spreidingsmaten
Spreidingsmaten kwantificeren de mate waarin de scores in een dataset uit elkaar liggen of hoe geconcentreerd ze zijn rond het centrum.
#### 3.3.1 Interkwartielafstand (IQR)
* **Definitie:** Het verschil tussen het derde kwartiel (P75) en het eerste kwartiel (P25).
$$ \text{IQR} = P_{75} - P_{25} $$
* **Functie:** Meet de spreiding van de middelste 50% van de data. Minder gevoelig voor uitschieters dan het bereik.
#### 3.3.2 Variantie ($s^2$)
* **Definitie:** Het gemiddelde van de gekwadrateerde afwijkingen van elke score ten opzichte van het gemiddelde.
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
waarbij $x_i$ de individuele scores zijn, $\bar{x}$ het steekproefgemiddelde en $n$ het aantal observaties. De deling door $n-1$ zorgt voor een zuivere schatter voor de populatievariantie (steekproefvariantie).
* **Kenmerk:** De eenheden zijn gekwadrateerd ten opzichte van de originele data.
#### 3.3.3 Standaarddeviatie ($s$)
* **Definitie:** De vierkantswortel van de variantie.
$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$
* **Kenmerk:** De eenheden zijn gelijk aan de originele data, waardoor deze maat beter interpreteerbaar is in de context van de dataset. Het is de meest gebruikte spreidingsmaat.
#### 3.3.4 Standaardscores (Z-scores)
* **Definitie:** Een geobserveerde score omgezet naar een aantal standaarddeviaties dat deze score afwijkt van het gemiddelde.
$$ z = \frac{x - \mu}{\sigma} $$
waarbij $x$ de geobserveerde score is, $\mu$ het populatiegemiddelde en $\sigma$ de populatiestandaarddeviatie. Voor steekproefdata wordt vaak het steekproefgemiddelde ($\bar{x}$) en de steekproefstandaarddeviatie ($s$) gebruikt:
$$ z = \frac{x - \bar{x}}{s} $$
* **Doel:** Maakt het mogelijk om scores van verschillende variabelen of van verschillende datasets te vergelijken, zelfs als ze verschillende gemiddelden en standaarddeviaties hebben. Een positieve z-score geeft aan dat de score boven het gemiddelde ligt, een negatieve score geeft aan dat deze onder het gemiddelde ligt.
> **Tip:** Het berekenen van z-scores is een lineaire transformatie die de vorm van de verdeling niet verandert, maar de data standaardiseert met een gemiddelde van 0 en een standaarddeviatie van 1.
### 3.4 Toepassing van frequentieverdelingen
Geobserveerde data die passen binnen een theoretische verdeling, zoals de normale verdeling, bieden meer mogelijkheden voor verdere analyse.
#### 3.4.1 De normale verdeling
* **Kenmerken:** Een theoretische, klokvormige en symmetrische verdeling. Veel variabelen in de gedrags- en sociale wetenschappen (bv. lengte, intelligentie, reactietijd) vertonen een benadering van een normale verdeling.
* **Belang:** De normale verdeling fungeert als een model waarmee de kans op het voorkomen van bepaalde waarden kan worden bepaald.
* **Variatie:** Normale verdelingen verschillen in hun gemiddelde ($\mu$) en standaarddeviatie ($\sigma$).
* **Standaardnormaalverdeling:** Een specifieke normale verdeling met een gemiddelde van 0 en een standaarddeviatie van 1 ($\mu=0, \sigma=1$). Z-scores transformeren data naar deze standaardnormaalverdeling.
> **Tip:** Het gebruik van tabellen van de standaardnormaalverdeling (z-tabellen) maakt het mogelijk om percentages van observaties onder bepaalde z-scores te bepalen, wat essentieel is voor het berekenen van kansen en het maken van inferenties.
> **Example:** Om het percentage observaties onder een z-score van 1 te vinden, raadpleeg je een z-tabel. Dit percentage geeft de cumulatieve kans weer. Als je de kans wilt weten tussen twee z-scores, bereken je de cumulatieve kans voor de hogere z-score en trek je daar de cumulatieve kans voor de lagere z-score van af.
* **Berekeningen met de normale verdeling:**
* Het omzetten van ruwe scores naar z-scores is de eerste stap om de normale verdeling te kunnen toepassen.
* Vervolgens kan de kans op het voorkomen van een score binnen een bepaald interval berekend worden met behulp van z-tabellen of statistische software. Bijvoorbeeld, om de kans te bepalen dat een score tussen 120 en 140 ligt, zet je beide scores om naar z-scores en zoek je de proportie van het oppervlak onder de curve tussen deze twee z-scores.
> **Tip:** Wanneer je geconfronteerd wordt met complexe berekeningen of interpretaties met betrekking tot de normale verdeling, focus dan eerst op het begrijpen van de basisprincipes en het proces van het omzetten van ruwe data naar z-scores. Verdere verfijning kan later komen.
---
# De normale verdeling en de toepassing ervan
Dit gedeelte introduceert de normale verdeling als een cruciaal theoretisch model dat gebruikt wordt om data te analyseren, waarbij de focus ligt op de kenmerken, interpretatie via z-scores en berekeningen van percentages.
### 4.1 Introductie tot de normale verdeling
De normale verdeling is een veelgebruikt theoretisch model dat de kans op het voorkomen van een bepaalde waarde weergeeft. Wanneer geobserveerde gegevens passen binnen dit theoretische model, biedt dit meer mogelijkheden voor dataverwerking en interpretatie.
### 4.2 Kenmerken van de normale verdeling
* **Klokvormig en symmetrisch:** De curve van de normale verdeling is altijd klokvormig en symmetrisch rond het gemiddelde.
* **Gemiddelde en standaarddeviatie als unieke kenmerken:** Normale verdelingen verschillen enkel in hun gemiddelde ($\mu$) en standaarddeviatie ($\sigma$). Deze twee parameters bepalen de specifieke vorm en positie van de curve.
* **Relatie met natuurlijk voorkomende variabelen:** Veel variabelen in de natuur en menselijk gedrag, zoals lengte en IQ, volgen bij benadering een normale verdeling.
### 4.3 De standaardnormale verdeling
De standaardnormale verdeling is een speciaal geval van de normale verdeling met een gemiddelde van nul ($\mu = 0$) en een standaarddeviatie van één ($\sigma = 1$). Deze standaardisering maakt het mogelijk om verschillende normale verdelingen met elkaar te vergelijken en om gebruik te maken van standaardtabellen (z-tabellen) om kansen te bepalen.
### 4.4 Z-scores: interpretatie van observaties
Z-scores, ook wel standaardscores genoemd, drukken uit hoeveel standaarddeviaties een geobserveerde score boven of onder het gemiddelde ligt. Ze zijn essentieel voor het interpreteren van individuele observaties binnen de context van een normale verdeling. De formule voor een z-score is:
$$ z = \frac{X - \mu}{\sigma} $$
Waarbij:
* $z$ de z-score is.
* $X$ de geobserveerde score is.
* $\mu$ het gemiddelde van de verdeling is.
* $\sigma$ de standaarddeviatie van de verdeling is.
> **Tip:** Een positieve z-score betekent dat de observatie boven het gemiddelde ligt, terwijl een negatieve z-score aangeeft dat de observatie onder het gemiddelde ligt. Een z-score van 0 betekent dat de observatie exact gelijk is aan het gemiddelde.
### 4.5 Berekenen van percentages en kansen
De normale verdeling maakt het mogelijk om de proportie of kans te bepalen dat een bepaalde waarde wordt waargenomen. Dit gebeurt door het berekenen van de oppervlakte onder de curve. Verschillende situaties kunnen zich voordoen bij het bepalen van percentages:
* **Percentage onder een specifieke z-score:** Dit omvat de oppervlakte van de staart tot aan die z-score.
* **Percentage boven een specifieke z-score:** Dit is de resterende oppervlakte vanaf die z-score tot het einde van de verdeling.
* **Percentage tussen twee z-scores:** Dit wordt berekend door de proportie onder de hogere z-score te nemen en daarvan de proportie onder de lagere z-score af te trekken.
#### 4.5.1 Voorbeeld: IQ
De intelligentie (IQ) wordt vaak gemodelleerd met een normale verdeling, typisch met een gemiddelde van 100 en een standaarddeviatie van 15.
> **Voorbeeld:** Stel dat we willen weten welk percentage van de bevolking een IQ heeft tussen 120 en 140.
>
> 1. **Bereken de z-scores:**
> * Voor IQ = 120: $z_{120} = \frac{120 - 100}{15} \approx 1.33$
> * Voor IQ = 140: $z_{140} = \frac{140 - 100}{15} \approx 2.67$
>
> 2. **Zoek de proporties op in de z-tabel:**
> * De proportie onder $z = 1.33$ is ongeveer 0.9082.
> * De proportie onder $z = 2.67$ is ongeveer 0.9962.
>
> 3. **Bereken het percentage tussen de twee scores:**
> * Proportie tussen 120 en 140 = Proportie < 140 - Proportie < 120
> * Proportie = 0.9962 - 0.9082 = 0.0880
>
> Dit betekent dat ongeveer 8.80% van de bevolking een IQ heeft tussen 120 en 140.
#### 4.5.2 Verschillende situaties voor percentageberekeningen
De normale verdeling biedt een raamwerk om percentages te bepalen voor verschillende scenario's, afhankelijk van de vraagstelling:
* **Berekening van de proportie kleiner dan een bepaalde waarde:** Dit correspondeert met de oppervlakte links van die waarde op de curve.
* **Berekening van de proportie groter dan een bepaalde waarde:** Dit is de oppervlakte rechts van die waarde.
* **Berekening van de proportie tussen twee waarden:** Dit is de oppervlakte tussen de twee corresponderende z-scores.
> **Voorbeeld:** Het berekenen van de kans dat een IQ lager is dan 140:
>
> 1. Bereken de z-score voor IQ = 140: $z = \frac{140 - 100}{15} \approx 2.67$.
> 2. Zoek de proportie op in de z-tabel voor $z = 2.67$. Dit is ongeveer 0.9962.
>
> Dus, ongeveer 99.62% van de bevolking heeft een IQ lager dan 140.
> **Voorbeeld:** Het berekenen van de kans dat een IQ hoger is dan 140:
>
> 1. Bereken de z-score voor IQ = 140: $z \approx 2.67$.
> 2. De proportie lager dan $z = 2.67$ is 0.9962.
> 3. De proportie hoger dan $z = 2.67$ is $1 - 0.9962 = 0.0038$.
>
> Dus, ongeveer 0.38% van de bevolking heeft een IQ hoger dan 140.
> **Voorbeeld:** Het berekenen van de kans dat een IQ tussen 80 en 120 ligt:
>
> 1. Bereken de z-scores:
> * Voor IQ = 80: $z_{80} = \frac{80 - 100}{15} \approx -1.33$
> * Voor IQ = 120: $z_{120} = \frac{120 - 100}{15} \approx 1.33$
> 2. Zoek de proporties op in de z-tabel:
> * De proportie onder $z = 1.33$ is ongeveer 0.9082.
> * De proportie onder $z = -1.33$ is ongeveer 0.0918.
> 3. Bereken het percentage tussen de twee scores:
> * Proportie tussen 80 en 120 = Proportie < 120 - Proportie < 80
> * Proportie = 0.9082 - 0.0918 = 0.8164
>
> Dit betekent dat ongeveer 81.64% van de bevolking een IQ heeft tussen 80 en 120.
> **Tip:** Bij het werken met de normale verdeling is het cruciaal om eerst een schets te maken van de verdeling en de gevraagde gebieden aan te duiden. Dit helpt om de juiste berekeningen uit te voeren.
### 4.6 Praktische relevantie en toepassingen
De normale verdeling en de interpretatie via z-scores zijn fundamenteel in de inductieve statistiek. Ze maken het mogelijk om:
* Observaties te standaardiseren en te vergelijken over verschillende verdelingen heen.
* Kansen te berekenen voor specifieke uitkomsten.
* De basis te leggen voor verdere inferentiële statistische technieken.
Veel statistische analyses in de gedragswetenschappen gaan ervan uit dat de data (of de sampling distributie van een statistiek) normaal verdeeld is, wat het begrip van deze verdeling essentieel maakt.
---
# Samenhang tussen variabelen en vooruitblik naar statistiek 2
Dit document vat de overgang van beschrijvende statistiek (Statistiek 1) naar inductieve statistiek (Statistiek 2) samen, met een focus op de analyse van samenhang tussen variabelen en de voorbereiding op de volgende stappen in statistisch onderzoek.
## 5. Samenhang tussen variabelen en vooruitblik naar statistiek 2
Dit deel van de cursus bouwt voort op de concepten van Statistiek 1, met name de analyse van de samenhang tussen variabelen, en schetst de overgang naar de inductieve statistiek van Statistiek 2.
### 5.1 Situering van Statistiek 1 en 2
* **Statistiek 1 (Beschrijvend):** Focust op het beschrijven en samenvatten van data uit steekproeven. Dit omvat het organiseren van data in frequentieverdelingen, het berekenen van centrum- en spreidingsmaten, en het visualiseren van data.
* **Statistiek 2 (Inductief):** Gaat verder dan de beschrijvende statistiek door uitspraken te willen doen over een gehele populatie op basis van de analyse van een steekproef. Dit proces, waarbij conclusies worden getrokken over de populatie, heet inductieve statistiek.
### 5.2 Het belang van statistiek in onderzoek
Statistiek is een essentieel hulpmiddel in empirisch onderzoek om algemene, geldige uitspraken te kunnen doen over de realiteit. Het stelt ons in staat om, zonder de volledige populatie te meten, conclusies te trekken over grotere groepen. Dit is cruciaal in uiteenlopende domeinen zoals psychologie, onderwijs en arbeidsorganisatiekunde, waar vragen over verbanden tussen variabelen centraal staan.
### 5.3 Overzicht van de cursus Statistiek 2
Statistiek 2 bouwt voort op Statistiek 1 en bereidt studenten voor op praktijkonderzoek en bachelorproeven. Het behandelt inductieve statistiek om onderzoeksvragen uit de praktijk te beantwoorden en de kritische leesvaardigheid van vakliteratuur te verbeteren.
#### 5.3.1 Stappen in wetenschappelijk onderzoek
De typische stappen in wetenschappelijk onderzoek omvatten:
1. Literatuurstudie
2. Hypothesevorming
3. Dataverzameling
4. Beschrijvende statistiek
5. Inductieve statistiek
6. Conclusie
#### 5.3.2 Leerdoelen en praktische afspraken
* **Leerdoelen:** Zijn ontworpen om de kennis en vaardigheden te evalueren die nodig zijn voor het succesvol toepassen van statistische methoden. Het is raadzaam deze bij de hand te houden tijdens het studeren.
* **Studietijd:** Tijdige en regelmatige studie vergroot de kans op slagen aanzienlijk.
* **Lessenreeks:** Bestaat uit hoorcolleges en werkcolleges.
* Werkcolleges zijn bedoeld voor diepere verwerking van de leerstof, praktische toepassing in oefeningen, en het gebruik van statistische software zoals SPSS.
* **Examen en evaluatie:** Het examen is schriftelijk en kan zowel kennisvragen als toepassingsvragen bevatten, met een focus op het begrijpen van de belangrijkste inzichten, het uitrekenen van oefeningen en het rapporteren van onderzoeksresultaten.
* **Studiemateriaal:**
* **Verplicht:** Studiewijzer, schrijfwijzer, leermateriaal op Digitap, en het handboek "Inductieve statistiek in de gedragswetenschappen".
* **Aanbevolen:** Handboek "Inleiding in de statistiek voor de gedragswetenschappen" (Statistiek 1).
### 5.4 Herhaling Statistiek 1: Kernconcepten
#### 5.4.1 Variabelen en meten
* **Variabele:** Een "doosje" dat verschillende waarden kan bevatten (bv. leeftijd, geslacht, score op een test).
* **Operationaliseren:** Het meetbaar maken van variabelen, wat bij abstracte concepten zoals intelligentie of depressie een uitdaging kan zijn.
* **Meetniveaus (NOIR):**
* **Nominaal:** Categorieën zonder ordening (bv. geslacht, haarkleur).
* **Ordinaal:** Categorieën met een natuurlijke ordening (bv. opleidingsniveau, rangschikking).
* **Interval:** Gelijke afstanden tussen waarden, geen absoluut nulpunt (bv. temperatuur in Celsius, IQ-score).
* **Ratio:** Gelijke afstanden tussen waarden en een absoluut nulpunt (bv. lengte, gewicht, leeftijd).
* **Betrouwbaarheid en Validiteit:** Cruciale voorwaarden voor meten. Betrouwbaarheid verwijst naar de consistentie van de meting, validiteit naar de nauwkeurigheid van wat gemeten wordt.
#### 5.4.2 Onafhankelijke en afhankelijke variabelen
* **Afhankelijke variabele (AV):** De variabele die men wil bestuderen of verklaren (bv. mate van depressie).
* **Onafhankelijke variabele (OV):** Een potentiële oorzaak van verschillen in de afhankelijke variabele (bv. behandeling, persoonlijkheidstrek).
* **Causaliteit:** Het is belangrijk te onthouden dat een samenhang tussen variabelen niet automatisch een oorzakelijk verband impliceert, zeker niet in observationeel onderzoek. Experimenteel onderzoek manipuleert OV's om effecten op AV's te bestuderen.
#### 5.4.3 Steekproeven
* **Populatie:** De gehele groep waarin men geïnteresseerd is.
* **Steekproef:** Een deel van de populatie dat daadwerkelijk wordt onderzocht.
* **Representativiteit:** Een goede steekproef is een representatieve afspiegeling van de populatie, zodat verantwoorde uitspraken over de populatie mogelijk zijn.
* **Soorten steekproeven:**
* **Aselecte steekproeven:** Elk individu uit de populatie heeft een gelijke kans om geselecteerd te worden (bv. volledig aselecte, systematische, gestratificeerde, cluster, getrapte steekproeven). Deze verhogen de representativiteit.
* **Niet-aselecte steekproeven:** Niet elk individu heeft een gelijke kans (bv. gemakheids-, beoordelings-, sneeuwbal-, quotasteekproeven). Deze zijn vaak minder representatief.
* **Belang:** Een correcte steekproefselectie is essentieel voor de validiteit en betrouwbaarheid van onderzoeksresultaten. "Garbage in, garbage out" is hier van toepassing.
#### 5.4.4 Frequentieverdelingen, centrum- en spreidingsmaten
* **Frequentieverdelingen:** Geven een overzicht van hoe vaak bepaalde waarden of categorieën voorkomen (absolute en relatieve frequenties). Visualisaties omvatten taartdiagrammen, staafdiagrammen, histogrammen en boxplots, afhankelijk van het meetniveau.
* **Centrummaten:** Beschrijven de centrale tendens van een verdeling.
* **Modus:** De meest voorkomende waarde (geschikt voor alle meetniveaus).
* **Mediaan:** De middelste waarde bij gerangschikte data (minimaal ordinaal niveau). Minder gevoelig voor extreme waarden dan het gemiddelde.
* **Gemiddelde:** De som van alle waarden gedeeld door het aantal waarnemingen (minimaal intervalniveau).
* Bij een symmetrische verdeling zijn modus, mediaan en gemiddelde gelijk.
* **Spreidingsmaten:** Beschrijven hoe ver scores uit elkaar liggen.
* **Interkwartielafstand:** Het verschil tussen het 75e en 25e percentiel ($P_{75} - P_{25}$).
* **Variantie ($s^2$):** Het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde.
$$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$$
* **Standaarddeviatie ($s$):** De vierkantswortel van de variantie. Makkelijker te interpreteren omdat het in dezelfde eenheid als de originele scores is.
$$s = \sqrt{s^2}$$
* **Standaardscores (Z-scores):** Drukken uit hoeveel standaarddeviaties een geobserveerde score boven of onder het gemiddelde ligt.
$$z = \frac{x - \mu}{\sigma}$$
(Hierbij staan $\mu$ voor populatiegemiddelde en $\sigma$ voor populatiestandaarddeviatie, of $\bar{x}$ en $s$ voor steekproefgemiddelde en -standaarddeviatie).
#### 5.4.5 De normale verdeling
* Een theoretische kansverdeling die vaak wordt gebruikt als model voor geobserveerde data (bv. lengte, IQ).
* Kenmerken: klokvormig en symmetrisch rond het gemiddelde.
* Verschillen in gemiddelde ($\mu$) en standaarddeviatie ($\sigma$) bepalen de specifieke vorm en positie van de curve.
* De standaardnormaalverdeling heeft $\mu=0$ en $\sigma=1$.
* Tabellen van de standaardnormaalverdeling maken het mogelijk om percentages (kansen) voor specifieke Z-scores te bepalen, wat nuttig is voor het interpreteren van data en het testen van hypotheses.
#### 5.4.6 Samenhang tussen variabelen (uit Statistiek 1)
* **Kruistabellen (voor nominale/ordinale variabelen):**
* **Chikwadraattoets:** Toetst of een verband statistisch significant is (is het verband groter dan wat we door toeval zouden verwachten?).
* **Cramers V:** Meet de sterkte van het verband tussen nominale of ordinale variabelen.
* **Correlatie (voor interval/ratio variabelen):** Meet de lineaire samenhang tussen twee kwantitatieve variabelen (bv. IQ en schooluitslag). De correlatiecoëfficiënt ($r$) varieert tussen -1 en +1.
### 5.5 Belang van het meetniveau
Het meetniveau (NOIR) van variabelen bepaalt welke statistische gereedschappen en technieken correct kunnen worden toegepast. Dit principe is fundamenteel en geldt ook voor de technieken die in Statistiek 2 worden behandeld.
### 5.6 Tips voor studenten met minder voorkennis van Statistiek 1
* **Focus op Statistiek 2:** Probeer de kernconcepten van Statistiek 2 zo goed mogelijk te begrijpen.
* **Raadpleeg Statistiek 1:** Zoek bij uitdagingen de relevante concepten op in het handboek van Statistiek 1.
* **Samenwerken:** Zoek hulp bij medestudenten.
* **Ademhalen:** Blijf rustig en benader de stof stap voor stap.
### 5.7 Vooruitblik naar Statistiek 2
In Statistiek 2 zal de focus liggen op het maken van betrouwbare uitspraken over de populatie op basis van steekproefgegevens. Dit is de kern van inductieve statistiek en zal in de volgende les verder worden uitgediept. De basisprincipes van de normale verdeling en de analyse van samenhang zullen hierbij een belangrijke rol spelen.
---
* **Tip:** Het is cruciaal om het meetniveau van je variabelen correct te identificeren, aangezien dit de keuze van de statistische technieken direct beïnvloedt.
* **Tip:** Oefen de berekeningen van centrum- en spreidingsmaten en Z-scores grondig, aangezien deze basiskennis nodig is voor veel inductieve statistische technieken.
* **Tip:** Als je moeite hebt met het verband tussen steekproef en populatie, denk dan aan het belang van representatieve steekproeven om "garbage in, garbage out" te vermijden.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Beschrijvende statistiek | Een tak van statistiek die zich bezighoudt met het samenvatten en weergeven van data uit een steekproef, zonder conclusies te trekken over een grotere populatie. |
| Inductieve statistiek | Een tak van statistiek die zich bezighoudt met het trekken van conclusies en generalisaties over een populatie op basis van data uit een steekproef. |
| Populatie | De volledige groep individuen of objecten waarover men een uitspraak wil doen in een onderzoek. |
| Steekproef | Een deelverzameling van de populatie die wordt onderzocht om informatie te verzamelen. |
| Representatief | Een steekproef wordt als representatief beschouwd wanneer deze de kenmerken van de populatie waaruit hij is getrokken, nauwkeurig weerspiegelt. |
| Variabelen | Kenmerken of eigenschappen die gemeten of geobserveerd kunnen worden en die in waarde kunnen variëren tussen individuen of objecten. |
| Meetniveau | Geeft aan welk type informatie een variabele bevat en welke wiskundige operaties erop kunnen worden uitgevoerd; de vier niveaus zijn nominaal, ordinaal, interval en ratio (NOIR). |
| Nominaal meetniveau | Het laagste meetniveau waarbij waarden alleen categorieën vertegenwoordigen zonder inherente volgorde (bv. geslacht, haarkleur). |
| Ordinaal meetniveau | Meetniveau waarbij waarden categorieën vertegenwoordigen die een logische volgorde hebben, maar de afstanden tussen de categorieën zijn niet noodzakelijk gelijk (bv. opleidingsniveau, rangorde). |
| Interval meetniveau | Meetniveau waarbij de afstanden tussen opeenvolgende waarden gelijk zijn, maar er geen natuurlijk nulpunt is (bv. temperatuur in Celsius, IQ-score). |
| Ratio meetniveau | Het hoogste meetniveau waarbij de afstanden tussen opeenvolgende waarden gelijk zijn en er een natuurlijk nulpunt is, waardoor ratio's zinvol zijn (bv. lengte, gewicht, leeftijd). |
| Onafhankelijke variabele | Een variabele die wordt gemanipuleerd of waarvan wordt aangenomen dat deze van invloed is op een andere variabele. |
| Afhankelijke variabele | Een variabele waarvan de waarde wordt gemeten of geobserveerd en die afhankelijk wordt geacht van de onafhankelijke variabele. |
| Aselecte steekproef | Een steekproef waarbij elk individu in de populatie een gelijke kans heeft om geselecteerd te worden. |
| Niet-aselecte steekproef | Een steekproef waarbij de selectie van individuen niet gebaseerd is op gelijke kansen voor alle leden van de populatie. |
| Frequentieverdeling | Een overzicht van hoe vaak elke mogelijke waarde of categorie van een variabele voorkomt in een dataset. |
| Absolute frequentie | Het daadwerkelijke aantal keren dat een bepaalde waarde of categorie voorkomt. |
| Relatieve frequentie | Het aandeel van de absolute frequentie ten opzichte van het totaal aantal waarnemingen, vaak uitgedrukt als een percentage of proportie. |
| Centrummaten | Statistieken die de centrale tendens van een dataset samenvatten, zoals het gemiddelde, de mediaan en de modus. |
| Modus | De waarde die het meest frequent voorkomt in een dataset. |
| Mediaan | De middelste waarde in een gerangschikte dataset wanneer de waarnemingen van laag naar hoog zijn gesorteerd. |
| Gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden; ook wel het rekenkundig gemiddelde genoemd. |
| Spreidingsmaten | Statistieken die aangeven hoe ver de waarden in een dataset uit elkaar liggen, zoals de variantie, standaarddeviatie en interkwartielafstand. |
| Interkwartielafstand | Het verschil tussen het derde kwartiel (P75) en het eerste kwartiel (P25) van een dataset; geeft de spreiding van de middelste 50% van de data aan. |
| Variantie ($s^2$) | Een maat voor de spreiding van data rondom het gemiddelde, berekend als het gemiddelde van de gekwadrateerde afwijkingen van elke observatie tot het gemiddelde. |
| Standaarddeviatie ($s$) | De vierkantswortel van de variantie; geeft de gemiddelde afwijking van de observaties tot het gemiddelde aan en is in dezelfde eenheid als de originele data. |
| Z-score | Een gestandaardiseerde score die aangeeft hoeveel standaarddeviaties een individuele score afwijkt van het gemiddelde van de groep. De formule is $Z = (X - \mu) / \sigma$. |
| Normale verdeling | Een symmetrische, klokvormige kansverdeling die veel voorkomt in de natuur en in de statistiek; gekenmerkt door het gemiddelde ($\mu$) en de standaarddeviatie ($\sigma$). |
| Standaardnormaalverdeling | Een speciale normale verdeling met een gemiddelde van 0 en een standaarddeviatie van 1 ($\mu=0, \sigma=1$). |
| Kruistabel | Een tabel die de frequentieverdeling van twee of meer categorische variabelen toont, waarbij de cellen de gezamenlijke frequenties van de categorieën vertegenwoordigen. |
| Chikwadraattoets | Een statistische toets die gebruikt wordt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen door de geobserveerde frequenties te vergelijken met de verwachte frequenties. |
| Cramers V | Een associatiemaat die de sterkte van het verband tussen twee nominale variabelen in een kruistabel kwantificeert, variërend van 0 tot 1. |
| Correlatie | Een statistische maat die de richting en sterkte van de lineaire relatie tussen twee continue variabelen aangeeft; de correlatiecoëfficiënt (r) varieert van -1 tot +1. |
| Significant | Een resultaat wordt als statistisch significant beschouwd wanneer het waarschijnlijk is dat het verband of het verschil niet door toeval is ontstaan. |
| GIGO | Afkorting voor "Garbage In, Garbage Out", wat betekent dat de kwaliteit van de output (resultaten) direct afhangt van de kwaliteit van de input (data). |