Cover
Start now for free definitielijst statistiek.docx
Summary
# Inleidende begrippen en meetniveaus in statistiek
Dit onderwerp introduceert de fundamentele concepten binnen de statistiek, waaronder onderzoekseenheden, populaties, steekproeven, hypothesen, typen analyses en de classificatie van meetniveaus.
### 1.1 Kernbegrippen in statistisch onderzoek
Statistisch onderzoek begint met het definiëren van de elementen die bestudeerd worden en de manier waarop deze bestudeerd worden.
#### 1.1.1 Onderzoekseenheden en populaties
* **Onderzoekseenheden:** Dit zijn de individuen of objecten waarover uitspraken gedaan worden in een onderzoek. Dit kunnen bijvoorbeeld mensen of specifieke objecten zijn.
* **Onderzoekspopulatie:** Dit is de volledige verzameling van alle individuen of objecten waarover een onderzoeker een uitspraak wil doen.
#### 1.1.2 Steekproeven
* **Steekproef:** Een steekproef is een deel (een staal) van de onderzoekspopulatie dat daadwerkelijk ondervraagd of onderzocht wordt. Het doel is om op basis van de steekproef conclusies te kunnen trekken over de gehele populatie.
> **Tip:** Het selecteren van een representatieve steekproef is cruciaal voor de generaliseerbaarheid van de onderzoeksresultaten.
#### 1.1.3 Hypothesen
Hypothesen zijn specifieke stellingen die de (veronderstelde causale) relatie tussen twee of meer concepten beschrijven en afgeleid zijn uit een bredere theorie.
* **Onderzoekshypothese:** Deze hypothese formuleert een stelling in positieve zin, conform de verwachtingen van de onderzoeker.
* **Nulhypothese ($H_0$):** De nulhypothese stelt dat er géén verband is tussen de betrokken variabelen.
* **Alternatieve hypothese ($H_1$ of $H_a$):** Wanneer de nulhypothese verworpen wordt, wordt de alternatieve hypothese aangenomen. Dit is de hypothese die de onderzoeker oorspronkelijk verwachtte.
* **Poging tot weerlegging (Falsificatie):** Wetenschappelijke hypotheses moeten falsifieerbaar zijn, wat betekent dat er een mogelijkheid moet zijn om ze te weerleggen met empirisch bewijs.
#### 1.1.4 Variabiliteit van kenmerken
* **Constante:** Een kenmerk dat niet varieert; alle onderzoekseenheden hebben dezelfde waarde voor dit kenmerk.
* **Voldoende spreiding/variabiliteit:** Dit vereist dat er per kenmerk minstens twee verschillende waarden bestaan en dat de onderzoekseenheden verspreid zijn over deze categorieën. Variabiliteit is essentieel voor statistische analyse.
#### 1.1.5 Typen analyses
Analyses worden ingedeeld op basis van het aantal variabelen dat tegelijkertijd wordt onderzocht.
* **Univariate analyse:** Analyse van één variabele.
* **Bivariate analyse:** Analyse van twee variabelen.
* **Multivariate analyse:** Analyse van meer dan twee variabelen.
#### 1.1.6 Eigenschappen van categorische variabelen
Bij het indelen van onderzoekseenheden in categorieën zijn twee eigenschappen van belang:
* **Exclusiviteit:** Elke onderzoekseenheid mag slechts in één categorie vallen. Dit hangt af van de precieze definitie van de categorieën.
* **Exhaustiviteit:** Elke onderzoekseenheid moet in een categorie geplaatst kunnen worden. Dit vereist dat de categorieën de gehele reeks van mogelijke waarden dekken.
#### 1.1.7 Soorten variabelen op basis van waarden
* **Dichotoom:** Een variabele die slechts twee waarden kan aannemen (bijvoorbeeld: goed/fout, ja/nee).
* **Polytoom:** Een variabele die meerdere categorieën heeft.
* **Trichotomie:** Een specifieke vorm van een polytome categorische variabele met precies drie categorieën.
#### 1.1.8 Continue en discrete meetschalen
Variabelen kunnen ook worden onderscheiden op basis van het type waarden dat ze kunnen aannemen:
* **Continue meetschalen:** De uitkomsten kunnen alle mogelijke waarden binnen een bepaald bereik aannemen (bijvoorbeeld lengte, gewicht).
* **Discrete meetschalen:** De uitkomsten zijn beperkt tot een telbaar aantal specifieke waarden (bijvoorbeeld aantal kinderen, aantal keren dat iets gebeurt).
#### 1.1.9 Codeboek
* **Codeboek:** Een document dat een lijst bevat met de numerieke codes die gebruikt worden om de inhoudelijke betekenis van variabelen te representeren. Dit is essentieel voor het consistent en correct verwerken van data.
### 1.2 Meetniveaus
Meetniveaus classificeren variabelen op basis van de informatie die de numerieke waarden over de relatie tussen categorieën verschaffen. Deze classificatie bepaalt welke statistische bewerkingen en analyses zinvol zijn.
De belangrijkste meetniveaus zijn:
| Meetniveau | Classificatie (Categorische informatie) | Totale ordening (Rangorde mogelijk) | Meeteenheid (Gelijke intervallen) | Absoluut nulpunt (Echt 'nul' punt) |
| :--------- | :------------------------------------- | :--------------------------------- | :-------------------------------- | :--------------------------------- |
| Nominaal | Ja | Nee | Nee | Nee |
| Ordinaal | Ja | Ja | Nee | Nee |
| Interval | Ja | Ja | Ja | Nee |
| Ratio | Ja | Ja | Ja | Ja |
#### 1.2.1 Nominaal meetniveau
* **Kenmerken:** Categorieën zijn slechts namen of labels. Er is geen inherente ordening of rangorde tussen de categorieën.
* **Mogelijkheden:** Alleen tellen (frequenties) en bepalen of twee waarden gelijk of ongelijk zijn.
* **Voorbeelden:** Geslacht (man/vrouw), haarkleur (blond/bruin/zwart), type bloedgroep (A/B/AB/O).
#### 1.2.2 Ordinaal meetniveau
* **Kenmerken:** Categorieën kunnen in een logische volgorde worden geplaatst. Er is een rangorde, maar de afstanden tussen de categorieën zijn niet noodzakelijk gelijk of bekend.
* **Mogelijkheden:** Naast tellen kan men ook de rangorde bepalen (kleiner dan, groter dan).
* **Voorbeelden:** Opleidingsniveau (laag/gemiddeld/hoog), tevredenheidsschaal (zeer ontevreden/ontevreden/neutraal/tevreden/zeer tevreden), rangschikking (1e, 2e, 3e plaats).
#### 1.2.3 Interval meetniveau
* **Kenmerken:** De categorieën hebben een logische ordening en de intervallen tussen opeenvolgende waarden zijn gelijk en betekenisvol. Er is echter geen absoluut nulpunt.
* **Mogelijkheden:** Optellen, aftrekken, en berekenen van gemiddelden.
* **Voorbeelden:** Temperatuur in Celsius of Fahrenheit (een temperatuur van 0 graden Celsius is niet het volledige afwezigheid van warmte), IQ-score (een IQ van 0 is niet mogelijk en een IQ van 200 is niet dubbel zoveel intelligent als 100).
#### 1.2.4 Ratio meetniveau
* **Kenmerken:** Dit is het hoogste meetniveau. Het heeft een logische ordening, gelijke intervallen, én een absoluut nulpunt dat de volledige afwezigheid van de gemeten eigenschap aangeeft.
* **Mogelijkheden:** Alle rekenkundige bewerkingen zijn mogelijk, inclusief vermenigvuldigen en delen. Verhoudingen zijn betekenisvol.
* **Voorbeelden:** Lengte (0 cm betekent geen lengte), gewicht (0 kg betekent geen gewicht), leeftijd (0 jaar betekent nog niet geboren), inkomen (0 euro betekent geen inkomen).
> **Tip:** Het correct identificeren van het meetniveau van een variabele is essentieel voor het kiezen van de juiste statistische analysemethoden. Analyses die geschikt zijn voor een hoger meetniveau, zijn vaak niet toepasbaar op lagere meetniveaus.
#### 1.2.5 Continue en discrete meetschalen vs. meetniveaus
Het onderscheid tussen continue en discrete schalen is gerelateerd aan, maar niet identiek aan, meetniveaus. Een variabele op ratio niveau kan continu zijn (bv. lengte) of discreet (bv. aantal verkochte producten, indien de aantallen geteld worden). Een nominale of ordinale variabele is altijd discreet. Interval variabelen kunnen zowel continu (bv. temperatuur) als discreet (bv. jaartal, hoewel dit ook als nominaal of ordinaal kan worden gezien afhankelijk van de context) zijn.
---
# Correlatie- en regressieanalyse
Dit deel van de studiehandleiding behandelt de technieken voor het analyseren van relaties tussen variabelen, inclusief concepten als puntenwolken, covariatie, regressievergelijkingen en model fit.
### 2.1 Inleidende concepten voor bivariate analyse
#### 2.1.1 Puntenwolk
Een **puntenwolk** is de verzameling van alle elementen uit een steekproef, waarbij voor elk element de waarde op een X-variabele en een Y-variabele afgelezen kan worden. Het **centrale punt van de puntenwolk**, ook wel het zwaartepunt van de tweedimensionale verdeling genoemd, wordt bepaald door de gemiddelde score op de X-variabele en de gemiddelde score op de Y-variabele.
#### 2.1.2 Covariatie
**Covariatie**, ook wel de kruisproductensom of Sum of Squares (SSxy), stelt de mate waarin twee variabelen samen variëren (covariëren). Het is de som van de kruisproducten. Een **kruisproduct** is het product van de afwijking van een onderzoekseenheid ten opzichte van de gemiddelde X-waarde, en de afwijking van dezelfde onderzoekseenheid ten opzichte van de gemiddelde Y-waarde. **Variatie** beschrijft de covariatie van een kenmerk met zichzelf, waarbij de gesommeerde deviatiescore van één variabele wordt gekwadrateerd.
> **Tip:** Covariatie is een sleutelconcept om de richting en sterkte van de lineaire relatie tussen twee variabelen te begrijpen, voordat er wordt overgegaan op regressieanalyse.
#### 2.1.3 Variabelen in regressieanalyse
* **Explanandum** of **responsvariabele**: Dit is de afhankelijke variabele, de variabele die verklaard wordt.
* **Explanans** of **predictor-variabele**: Dit is de onafhankelijke variabele, de variabele die wordt gebruikt om de responsvariabele te verklaren.
### 2.2 Regressieanalyse
Regressieanalyse is de techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren.
#### 2.2.1 De regressievergelijking
Een lineaire regressievergelijking beschrijft de verwachte waarde van de afhankelijke variabele ($Y$) als functie van de onafhankelijke variabele ($X$). De algemene vorm is:
$$Y = a + B_1X + \epsilon$$
Waar:
* $a$ is het **intercept**: de verwachte waarde van $Y$ wanneer $X$ gelijk is aan 0.
* $B_1$ is de **slope** of **richtingscoëfficiënt**: deze toont de verandering in $Y$ bij elke eenheidstoename van $X$. Dit wordt ook wel de hellingshoek genoemd.
* $\epsilon$ is de **foutenterm**: het verschil tussen de werkelijke geobserveerde waarde van $Y$ en de door het statistische regressiemodel voorspelde waarde van $Y$.
#### 2.2.2 Residu
Het **residu** of de residuele term is het verschil tussen de predictie en de geobserveerde waarde van de afhankelijke variabele. Het vertegenwoordigt de variatie in $Y$ die niet wordt verklaard door $X$.
#### 2.2.3 Ordinary Least Squares (OLS)
**Ordinary Least Squares** (OLS) is een methode om de parameters van een lineaire regressievergelijking te schatten. Het doel is om de regressielijn te vinden zodanig dat de som van de gekwadrateerde afstanden van alle datapunten tot die lijn (de residuele som van kwadraten) zo minimaal mogelijk is.
> **Tip:** OLS minimaliseert de fouten in de voorspellingen, wat leidt tot de "best passende" lijn door de datapunten.
#### 2.2.4 Model fit
**Model fit** beoordeelt hoe goed een statistisch model bij de data past. Het geeft aan hoe goed de voorspellingen van het model overeenkomen met de daadwerkelijke observaties. Een goede model fit suggereert dat het model de relaties in de data effectief vastlegt.
### 2.3 Verbanden en Meetniveaus
Bij het analyseren van de relatie tussen variabelen is het meetniveau van cruciaal belang.
* **Nominaal:** Categorieën zonder inherente volgorde. Alleen classificatie is mogelijk.
* **Ordinaal:** Categorieën met een inherente volgorde. Classificatie en ordening zijn mogelijk.
* **Interval:** Data met gelijke intervallen tussen waarden, maar zonder absoluut nulpunt. Classificatie, ordening en meting van verschillen zijn mogelijk.
* **Ratio:** Data met gelijke intervallen en een absoluut nulpunt. Classificatie, ordening, meting van verschillen en verhoudingen zijn mogelijk.
> **Tip:** Het meetniveau bepaalt welke statistische technieken (zoals correlatie en regressie) geschikt zijn en hoe de resultaten geïnterpreteerd moeten worden. Voor correlatie en regressie zijn vaak minimaal ordinale variabelen nodig, maar interval- of ratiovariabelen leveren rijkere analyses op.
### 2.4 De puntenwolk in de praktijk
Een **puntenwolk** visualiseert de relatie tussen twee continue variabelen. Door naar het patroon van de punten te kijken, kan men een indicatie krijgen van de aard van de relatie:
* **Positieve correlatie**: Punten lopen van linksonder naar rechtsboven.
* **Negatieve correlatie**: Punten lopen van linksboven naar rechtsonder.
* **Geen correlatie**: Punten zijn willekeurig verspreid.
De **centrale punt** van de puntenwolk, gevormd door de gemiddelden van de X- en Y-variabelen, fungeert als het zwaartepunt van de dataset.
### 2.5 Covariatie versus Variatie
* **Covariatie** meet de gezamenlijke variatie van twee variabelen. Als beide variabelen neigen samen te stijgen of te dalen, is de covariatie positief. Als de ene stijgt en de andere daalt, is deze negatief.
* **Variatie** meet de spreiding van één enkele variabele rond zijn gemiddelde.
De relatie tussen deze concepten is essentieel voor het begrijpen van de correlatiecoëfficiënt, die de gestandaardiseerde covariatie weergeeft.
---
# Inferentiële statistiek en schattingsmethoden
Inferentiële statistiek maakt het mogelijk om conclusies te trekken over een populatie op basis van steekproefgegevens, waarbij schattingstechnieken en significantietoetsen centraal staan.
## 3.1 Principes van inferentiële statistiek
Inferentiële statistiek is een tak van statistiek die ons toelaat om uitspraken te doen over een breder geheel aan eenheden dan degenen die we daadwerkelijk hebben onderzocht. Dit bredere geheel wordt de **relevante populatie** genoemd, zijnde de set personen of objecten waarin een onderzoeker geïnteresseerd is. Om uitspraken over deze populatie te kunnen doen, wordt een deel ervan, de **steekproef** (aangeduid met $n$), onderzocht.
In tegenstelling tot beschrijvende statistiek, die gegevens van een steekproef of populatie overzichtelijk weergeeft zonder causaliteit te 'bewijzen', richt inferentiële statistiek zich op het **veralgemenen** van steekproefgegevens naar de populatie. Dit proces, ook wel **inductieve statistiek** genoemd, gaat van het bijzondere (de steekproef) naar het algemene (de populatie). Dit staat tegenover **deductie**, waarbij specifieke veronderstellingen uit algemene theorieën worden afgeleid.
### 3.1.1 Populatie- en steekproefverdeling
* **Populatieverdeling**: Dit is de verdeling van een variabele binnen de gehele populatie, die de kans weergeeft dat een willekeurig getrokken element een bepaalde waarde aanneemt.
* **Steekproefverdeling**: Dit is de verdeling van een variabele binnen de getrokken steekproef.
## 3.2 Steekproeftrekking en schattingsmethoden
### 3.2.1 Aselecte steekproef
Een **aselecte steekproef**, ook wel toevalssteekproef genoemd, is cruciaal voor inferentiële statistiek. Hierbij heeft elke eenheid uit de empirische populatie een bekende en berekenbare kans om in de steekproef te worden opgenomen. Dit waarborgt dat de steekproef representatief is voor de populatie, wat de basis vormt voor het generaliseren van resultaten.
### 3.2.2 Puntschatting en intervalschatting
Wanneer we kenmerken van de populatie willen kennen, gebruiken we gegevens uit de steekproef. Dit kan op twee manieren:
* **Puntschatting**: Dit is een enkele waarde die een kenmerk van de populatie schat, gebaseerd op steekproefgegevens. Een **zuivere schatter** of **onvertekende schatter** is een statistische grootheid waarvan de verwachtingswaarde gelijk is aan de te schatten populatieparameter.
* **Intervalschatting**: Dit geeft de (on)zekerheid van een puntschatting weer. Het resulteert in **betrouwbaarheidsintervallen**, die een marge aangeven waarbinnen de werkelijke populatieparameter met een bepaalde mate van zekerheid zal liggen.
### 3.2.3 Betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen bieden een reeks waarden binnen welke de populatieparameter waarschijnlijk ligt. Ze kwantificeren de onzekerheid die inherent is aan het werken met een steekproef in plaats van de volledige populatie. Hoe breder het interval, hoe groter de onzekerheid.
## 3.3 Significantietoetsen
### 3.3.1 Doel en procedure
Een **significantietoets** is een procedure om gegevens, zoals uitkomsten uit een steekproef, te vergelijken met een vooraf opgestelde hypothese, meestal de **nulhypothese**. Het doel is om te bepalen of de waargenomen resultaten significant afwijken van wat we op basis van de nulhypothese zouden verwachten.
### 3.3.2 Nulhypothese en alternatieve hypothese
* **Nulhypothese ($H_0$)**: Stelt dat er geen verband of geen effect is in de populatie.
* **Alternatieve hypothese ($H_1$)**: Stelt dat er wel een verband of effect is in de populatie. Als de nulhypothese verworpen wordt, wordt de alternatieve hypothese aanvaard.
### 3.3.3 Testvariabele en p-waarde
* **Testvariabele (of toetsingsgrootheid)**: Een variabele waarvan de waarde wordt berekend op basis van de observaties in de steekproef.
* **p-waarde (overschrijdingskans)**: Geeft aan hoe extreem de gevonden waarde voor de toetsingsgrootheid is, gegeven dat de nulhypothese waar zou zijn. Het is de kans op het verkrijgen van een uitkomst die minstens zo extreem is als de waargenomen uitkomst. Een lage p-waarde (typisch onder een vooraf bepaald significantieniveau, zoals 0.05) leidt tot de verwerping van de nulhypothese.
### 3.3.4 Statistische power
De **statistische power van een test** is de mate waarin de test erin slaagt een echt effect te detecteren als het effect daadwerkelijk bestaat in de populatie. Het houdt rekening met de kans op Type I en Type II fouten en varieert van 0 tot 1. Een hogere power betekent een grotere kans om een bestaand effect te vinden.
## 3.4 Relatie met andere statistische concepten
### 3.4.1 Frequentieverdeling en prevalentie
Een **frequentieverdeling** geeft aan hoe vaak elke waarde voorkomt in een dataset. De **prevalentie** is een specifieke toepassing hiervan, die het aandeel aangeeft waarbij een bepaald kenmerk aanwezig is. Deze beschrijvende maten vormen vaak de basis voor inferentiële analyses.
### 3.4.2 Eta-kwadraat ($\eta^2$)
Eta-kwadraat ($\eta^2$) is een maat voor de effectgrootte die vergelijkbaar is met de determinatiecoëfficiënt ($R^2$) in variantie-analyse. Het interpreteert de mate van samenhang tussen variabelen, analoog aan Cramer's V. Hoe hoger de $\eta^2$-waarde, hoe sterker de samenhang tussen de onafhankelijke en afhankelijke variabele. Het wordt berekend als de verhouding van de tussengroepsvariatie tot de totale variatie in de afhankelijke variabele.
$$ \eta^2 = \frac{\text{Tussengroepsvariatie}}{\text{Totale variatie in Y}} $$
> **Tip:** Hoewel $\eta^2$ de sterkte van een verband aangeeft, zegt het niets over de richting of causaliteit van het verband. Dit vereist verdere theoretische overwegingen en mogelijk andere analysetechnieken.
---
# Complexe relaties en modellen tussen variabelen
Dit onderwerp verdiept zich in geavanceerde structuren en dynamieken tussen variabelen, inclusief causale verbanden en intermediaire effecten.
### 4.1 Variabelen in causale modellen
In de context van causale modellering worden variabelen ingedeeld op basis van hun rol in een theoretisch model.
#### 4.1.1 Exogene variabelen
Exogene variabelen zijn de onafhankelijke variabelen in padmodellen. Ze fungeren als het startpunt van effecten, gesymboliseerd door pijlen die alleen van hen uitgaan. Deze variabelen staan typisch aan de linkerkant van een padmodel.
#### 4.1.2 Endogene variabelen
Endogene variabelen zijn de afhankelijke variabelen in padmodellen. Pijlen wijzen naar hen toe, wat aangeeft dat ze worden verklaard door andere variabelen in het model. Ze bevinden zich doorgaans aan de rechterkant van een padmodel.
#### 4.1.3 Intermediaire variabelen
Intermediaire variabelen, ook wel mediërende variabelen genoemd, bevinden zich tussen exogene en endogene variabelen. Ze worden verklaard door een of meerdere onafhankelijke variabelen, terwijl ze op hun beurt verklarend zijn voor de afhankelijke variabelen. In een padmodel hebben deze variabelen zowel pijlen die van hen uitgaan als pijlen die naar hen toekomen.
> **Tip:** Intermediaire variabelen helpen ons te begrijpen *hoe* een effect van de ene variabele op de andere tot stand komt. Ze verklaren het mechanisme achter een relatie.
### 4.2 Mediërende effecten en interactie
De relatie tussen variabelen kan verder worden genuanceerd door middel van mediërende en modererende (interactie) effecten.
#### 4.2.1 Mediërende variabele (mediatorvariabele)
Een mediërende variabele staat tussen een onafhankelijke variabele (X) en een afhankelijke variabele (Y). De mediator verklaart en versterkt de relatie tussen X en Y. Dit impliceert een proces waarbij het effect van X op Y via de mediator loopt.
#### 4.2.2 Interactie-effect (moderatoreffect)
Een interactie-effect treedt op wanneer een derde variabele (de moderator) de sterkte of richting van de relatie tussen X en Y verandert. Hierbij wordt gekeken naar de impact van de moderatorvariabele op de relatie tussen X en Y.
> **Voorbeeld:** Stel dat X (aantal studiestudies) een positief effect heeft op Y (studiepunten). Een moderatorvariabele Z (mate van motivatie) kan dit effect versterken: bij hoge motivatie leidt meer studeren tot significant meer studiepunten dan bij lage motivatie.
### 4.3 Causale modellen
Causale modellen visualiseren en testen theoretische relaties tussen variabelen.
#### 4.3.1 Conceptueel of theoretisch model
Een conceptueel model is een web van theoretisch verwachte relaties tussen variabelen. Het schetst de hypothesen over hoe variabelen met elkaar verbonden zijn op een abstract niveau.
#### 4.3.2 Padmodel
Een padmodel is een statistische uitwerking van een conceptueel model, waarbij de theoretische variabelen meetbaar worden gemaakt. Het is een voorloper van Structurele Vergelijkingsmodellering (SEM) en representeert alle causale hypothesen betreffende directe en indirecte effecten tussen variabelen.
#### 4.3.3 Recursief model
Een recursief model is een specifiek type padmodel dat geen wederzijdse causale effecten bevat. Dit betekent dat de causale invloed altijd unidirectioneel is binnen het model, zonder cyclische verbanden.
#### 4.3.4 Soorten effecten in padmodellen
* **Direct effect:** Een causale invloed van de ene variabele op de andere zonder tussenkomst van een andere variabele in het model.
* **Indirect effect:** Een causale invloed die via één of meerdere intermediaire variabelen verloopt.
* **Exclusief indirect effect:** Een indirect effect waarbij men, na het volgen van een pad via andere variabelen, niet meer terug kan naar een eerdere variabele in dat pad.
#### 4.3.5 Gemeenschappelijke oorzaak
Een gemeenschappelijke oorzaak is een variabele die een effect heeft op twee of meer andere variabelen die verderop in het model staan.
* **Partiële gemeenschappelijke oorzaak:** Naast het effect van de gemeenschappelijke oorzaak, bestaat er ook nog een direct effect tussen de twee variabelen die later in het model worden verklaard.
### 4.4 Variantie en schatting
De mate waarin variabelen variëren en hoe deze variatie kan worden verklaard, is cruciaal in statistische modellen.
#### 4.4.1 Aliënatiecoëfficiënt
De aliënatiecoëfficiënt vertegenwoordigt de proportie van de variantie in een variabele die niet wordt verklaard door de andere variabelen in het model. Dit wordt ook wel de errortermen genoemd.
#### 4.4.2 Eta-kwadraat (${\eta^2}$)
Eta-kwadraat is een maat die vergelijkbaar is met de determinatiecoëfficiënt in variantieanalyse. Het interpreteert analoog aan Cramer's V en geeft de sterkte van de samenhang tussen X en Y weer. Het wordt berekend als de verhouding tussen de tussengroepsvariatie en de totale variatie in Y:
$${\eta^2 = \frac{\text{Tussengroepsvariatie in Y}}{\text{Totale variatie in Y}}}$$
Een hogere waarde van ${\eta^2}$ duidt op een sterkere samenhang.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Objecten | De onderzoekseenheden, dit kunnen mensen of personen zijn waarover informatie wordt verzameld in een onderzoek. |
| Onderzoekspopulatie | De volledige verzameling van individuen of entiteiten waarover een onderzoeker een uitspraak wil doen en waaruit eventueel een steekproef wordt getrokken. |
| Steekproef | Een selectie of deelverzameling van individuen of objecten uit een onderzoekspopulatie die daadwerkelijk worden onderzocht om informatie te verzamelen. |
| Hypothese | Een specifieke stelling die een verwachte (causale) relatie tussen twee of meer concepten of variabelen formuleert, vaak afgeleid uit een bredere theorie. |
| Nulhypothese | Een hypothese die stelt dat er geen verband of verschil is tussen de onderzochte variabelen, en die wordt getoetst om te zien of deze verworpen kan worden. |
| Constante | Een kenmerk of variabele dat geen variatie vertoont binnen de onderzochte groep; alle eenheden hebben dezelfde waarde voor dit kenmerk. |
| Univariate analyse | Een statistische analyse die zich richt op het beschrijven en samenvatten van één enkele variabele, zonder deze te relateren aan andere variabelen. |
| Bivariate analyse | Een statistische analyse die de relatie tussen twee variabelen onderzoekt, om te zien hoe ze samenhangen of elkaar beïnvloeden. |
| Multivariate analyse | Een statistische analyse die de relaties tussen drie of meer variabelen tegelijkertijd onderzoekt, wat complexere verbanden kan blootleggen. |
| Dichotoom | Een variabele die slechts twee mogelijke waarden of categorieën kan aannemen, zoals bijvoorbeeld "ja" of "nee", of "man" of "vrouw". |
| Continue meetschaal | Een meetschaal waarbij de uitkomsten alle mogelijke waarden binnen een bepaald interval kunnen aannemen, zonder beperkingen tot discrete stappen. |
| Puntenwolk | Een grafische weergave van de data in een tweedimensionaal vlak, waarbij elk punt de waarden van twee variabelen voor een specifieke onderzoekseenheid symboliseert. |
| Covariatie | Een maat die aangeeft in hoeverre twee variabelen samen variëren; een positieve covariatie duidt op een gelijktijdige stijging of daling, een negatieve op een tegengestelde beweging. |
| Regressie | Een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren en te voorspellen. |
| Intercept (a) | De voorspelde waarde van de afhankelijke variabele (Y) wanneer de onafhankelijke variabele (X) gelijk is aan nul in een regressiemodel. |
| Slope (B1) | De richtingscoëfficiënt in een regressievergelijking, die aangeeft hoeveel de afhankelijke variabele (Y) verandert bij een eenheidsverhoging van de onafhankelijke variabele (X). |
| Residu | Het verschil tussen de werkelijk geobserveerde waarde van de afhankelijke variabele en de waarde die door het regressiemodel wordt voorspeld. |
| Inferentiële statistiek | Een tak van statistiek die zich bezighoudt met het trekken van conclusies en het maken van voorspellingen over een populatie op basis van gegevens verzameld uit een steekproef. |
| Beschrijvende statistiek | Statistiek die methoden gebruikt om gegevens te organiseren, samen te vatten en overzichtelijk weer te geven, zonder conclusies te trekken over een bredere populatie. |
| Aselecte steekproef | Een steekproef waarbij elke eenheid in de populatie een bekende en berekenbare kans heeft om in de steekproef te worden opgenomen, wat willekeurig selecteren impliceert. |
| Puntschatting | Een enkele waarde die als de meest waarschijnlijke schatting van een populatieparameter wordt beschouwd, gebaseerd op steekproefgegevens. |
| Intervalschatting | Een reeks waarden die, met een bepaalde mate van betrouwbaarheid, de werkelijke populatieparameter bevat. Deze marges geven de onzekerheid van de schatting weer. |
| Significantietoets | Een procedure om te beoordelen of waargenomen verschillen of relaties in steekproefgegevens statistisch significant zijn, wat impliceert dat ze waarschijnlijk niet door toeval zijn ontstaan. |
| p-waarde | De kans op het verkrijgen van testresultaten die minstens zo extreem zijn als de waargenomen resultaten, ervan uitgaande dat de nulhypothese waar is. Een lage p-waarde (< 0.05) leidt vaak tot verwerping van de nulhypothese. |
| Exogene variabele | Een variabele in een causaal model waar alleen pijlen uit voortkomen en die niet wordt verklaard door andere variabelen binnen het model; het is een startvariabele. |
| Endogene variabele | Een variabele in een causaal model waar pijlen naar toe wijzen en die dus wordt verklaard door andere variabelen in het model; het is een uitkomstvariabele. |
| Intermediaire variabele | Een variabele die zowel verklaard wordt door een of meer onafhankelijke variabelen als zelf een verklarende rol speelt voor een afhankelijke variabele, en zich dus tussen exogene en endogene variabelen bevindt. |
| Mediërende variabele | Een variabele die het causale pad tussen een onafhankelijke en een afhankelijke variabele "bemiddelt" of verklaart, door het effect ervan door te geven. |
| Interactie-effect | Een effect waarbij de relatie tussen twee variabelen (X en Y) afhangt van de waarde van een derde variabele (de moderator). |
| Padmodel | Een grafische en statistische weergave van de verwachte causale relaties tussen variabelen, waarbij pijlen directe effecten aangeven en de sterkte van deze effecten worden gekwantificeerd. |
| Direct effect | Het causale effect van een onafhankelijke variabele op een afhankelijke variabele zonder de tussenkomst van andere variabelen in het model. |
| Indirect effect | Het causale effect van een onafhankelijke variabele op een afhankelijke variabele dat verloopt via een of meer intermediaire of mediërende variabelen. |