Cover
Mulai sekarang gratis College H10 Parcorr.pdf
Summary
# Introductie tot partiële correlatie
Dit deel introduceert de beperkingen van bivariate statistiek en de noodzaak van meer geavanceerde methoden om de complexiteit van sociale fenomenen te begrijpen, en legt de basis voor het concept van partiële correlatie.
### 1.1 Grenzen van de bivariate statistiek
De sociale werkelijkheid is complex en bivariate regressies en correlaties bieden vaak een oversimplificatie van deze realiteit. Dit kan leiden tot verwarring, vooral in populaire media. Het is moeilijk om complexe fenomenen geïsoleerd te bestuderen met enkel bivariate correlaties. Dit roept vragen op of een waargenomen samenhang een schijneffect is of mogelijk een indirect effect vertegenwoordigt [2](#page=2).
Een voorbeeld hiervan is de vraag waarom kinderen uit eenoudergezinnen meer delicten rapporteren. Om dit te begrijpen, zijn meer geavanceerde methoden nodig om de onderliggende mechanismen te onderzoeken [2](#page=2).
### 1.2 De partiële correlatie: wat is het?
De partiële correlatie meet de samenhang tussen twee variabelen nadat er statistisch voor één of meerdere storende variabelen (confounders) is gecontroleerd [3](#page=3) [5](#page=5).
Het is belangrijk te onthouden dat een bivariate samenhang op zichzelf geen causale betekenis kan krijgen, aangezien de correlatiecoëfficiënt een symmetrische maat is [3](#page=3) [5](#page=5).
Een samenhang tussen twee variabelen kan om twee redenen een schijnbare relatie zijn:
* De samenhang is **spurieus (schijnverband)** [5](#page=5).
* De samenhang is **indirect** [5](#page=5).
#### 1.2.1 Voorbeeld van een schijnverband
Beschouw het fictieve voorbeeld van een grote stad waar een sterke positieve samenhang wordt vastgesteld tussen het aantal verkochte zonnebrillen en het aantal gewelddadige straatincidenten tijdens de zomermaanden. De burgemeester zou bezorgd kunnen zijn en overwegen de verkoop van zonnebrillen te verbieden in bepaalde wijken om de stijging van gewelddadige incidenten tegen te gaan. In dit geval is het echter waarschijnlijk dat een derde variabele, namelijk de temperatuur of de zomermaanden zelf, de oorzaak is van zowel de toename in zonnebrillenverkoop als het aantal gewelddadige incidenten. De correlatie tussen zonnebrillenverkoop en geweld is dan een schijnverband. De partiële correlatie zou hier helpen om de ware samenhang te ontdekken door te controleren voor de invloed van de temperatuur of het seizoen [4](#page=4).
> **Tip:** Partiële correlatie helpt ons om de echte, onderliggende relatie tussen twee variabelen te isoleren door de invloed van andere factoren weg te nemen. Dit is cruciaal om foute conclusies te vermijden, zoals het verband tussen zonnebrillenverkoop en geweld.
---
# Detectie van schijn- en indirecte verbanden
Dit gedeelte behandelt hoe partiële correlatie kan worden ingezet om te bepalen of een waargenomen verband tussen twee variabelen authentiek is, of dat het een schijnverband (spurieus) of een indirect effect betreft, waarbij een derde variabele een rol speelt [11](#page=11) [6](#page=6).
### 2.1 Schijnverbanden (spurieuze relaties)
Een schijnverband, ook wel een spurieuze relatie genoemd, treedt op wanneer er een statistische samenhang bestaat tussen twee variabelen, maar deze samenhang niet causaal is, en wordt veroorzaakt door een derde, onderliggende variabele. Deze derde variabele, ook wel een controlevariabele of gemeenschappelijke oorzaak genoemd, beïnvloedt beide variabelen en creëert daardoor de illusie van een direct verband [11](#page=11) [9](#page=9).
#### 2.1.1 Criminologisch voorbeeld: Vandalisme en overlast
Een klassiek voorbeeld hiervan is het verband tussen vandalisme en overlast in een wijk. Een bivariate correlatie kan aantonen dat er een positieve samenhang is tussen het niveau van vandalisme en de mate van overlast. Echter, wanneer de sociale cohesie in de wijk als controlevariabele wordt meegenomen, blijkt de partiële correlatie tussen vandalisme en overlast nul te zijn en niet langer statistisch significant. Dit suggereert dat de oorspronkelijke bivariate correlatie misleidend was, omdat de sociale cohesie de gemeenschappelijke oorzaak is die zowel vandalisme als overlast beïnvloedt [7](#page=7) [8](#page=8) [9](#page=9).
> **Tip:** Bij het interpreteren van correlaties is het cruciaal om altijd na te denken over mogelijke derde variabelen die een schijnverband kunnen veroorzaken. Partiële correlatie is een statistische techniek om dit te onderzoeken.
#### 2.1.2 Partiële correlatieanalyse in de praktijk
De analyse laat zien dat de bivariate correlatie tussen vandalisme en overlast 0.3 is (p < 0.01). Na controle voor sociale cohesie, wordt de partiële correlatie tussen vandalisme en overlast nul, wat niet meer statistisch significant is. Dit illustreert dat de bivariate correlatie misleidend kan zijn wanneer er geen rekening wordt gehouden met de mogelijkheid van een schijnverband [9](#page=9).
### 2.2 Indirecte relaties
Een indirecte relatie treedt op wanneer de impact van de ene variabele op de andere niet direct is, maar verloopt via een intermediaire variabele. De intermediaire variabele fungeert als een 'brug' waarlangs het effect wordt doorgegeven [10](#page=10) [11](#page=11).
#### 2.2.1 Voorbeeld: Empathie, regelovertreding en geanticipeerde schuld
Een voorbeeld van een indirect verband betreft de samenhang tussen 'empathie' en 'regelovertreding'. De gedeelde variantie tussen empathie en regelovertreding wordt verklaard door 'geanticipeerde schuld'. Dit betekent dat voor respondenten met vergelijkbare niveaus van geanticipeerde schuld, het verband tussen empathie en regelovertreding verdwijnt. 'Geanticipeerde schuld' is hier de intermediaire variabele [10](#page=10).
### 2.3 Het mechanisme van partiële correlatie
Het mechanisme achter de analyse van partiële correlatie is hetzelfde voor zowel schijnverbanden als indirecte relaties. Het verschil ligt echter in de richting van de pijlen in een conceptueel diagram dat de relaties tussen de variabelen weergeeft [11](#page=11).
* **Spurieuze relatie:** De controlevariabele (Z) is een gemeenschappelijke oorzaak die zowel de onafhankelijke variabele (X) als de afhankelijke variabele (Y) beïnvloedt.
$X \rightarrow Z \leftarrow Y$ [11](#page=11).
* **Indirecte relatie:** De controlevariabele (Z) is een intermediaire variabele die de impact van de onafhankelijke variabele (X) op de afhankelijke variabele (Y) mediëert.
$X \rightarrow Z \rightarrow Y$ [11](#page=11).
---
# Voorbeelden en berekening van partiële correlatie
Dit hoofdstuk illustreert het concept van partiële correlatie met concrete voorbeelden, inclusief methoden voor berekening via regressievergelijkingen, een directe formule, en de interpretatie van SPSS output.
### 3.1 Conceptuele introductie van partiële correlatie
Partiële correlatie biedt een methode om de unieke samenhang tussen twee variabelen te meten, terwijl de invloed van één of meerdere andere variabelen statistisch wordt gecontroleerd. Dit is essentieel wanneer er vermoedens bestaan dat een derde variabele een confounderend effect heeft op de bivariate relatie die onderzocht wordt. Het doel is om de gemeenschappelijke variantie, die de twee primaire variabelen delen met de controlevariabele, te verwijderen om zo de zuivere, onafhankelijke samenhang bloot te leggen [15](#page=15) [16](#page=16) [17](#page=17) [18](#page=18) [27](#page=27).
### 3.2 Illustratief voorbeeld: inspanning, score en angst
Laten we een scenario met drie variabelen bekijken om het concept te verduidelijken [12](#page=12):
* `X`: inspanningen gedaan voor het instuderen van statistiek [12](#page=12).
* `Y`: behaalde score in statistiek [12](#page=12).
* `Z`: angst voor statistiek [12](#page=12).
De bivariate correlaties zijn als volgt [13](#page=13):
* `rxy = +0.20` (een zwakke positieve samenhang tussen inspanningen en score) [13](#page=13).
* `rxz = +0.80` (een sterke positieve samenhang tussen inspanningen en angst) [13](#page=13).
* `ryz = -0.40` (een matige negatieve samenhang tussen score en angst) [13](#page=13).
De kwadraten van deze correlaties (`r²`) geven het percentage gedeelde variantie weer [13](#page=13) [14](#page=14):
* `r²xy = 0.04` (inspanningen en score delen 4% van hun variantie) [14](#page=14).
* `r²xz = 0.64` (inspanningen en angst delen 64% van hun variantie) [14](#page=14).
* `r²yz = 0.16` (score en angst delen 16% van hun variantie) [14](#page=14).
Het valt op dat zowel inspanningen (`X`) als de score (`Y`) variantie delen met angst (`Z`). Dit suggereert dat de angstvariabele (`Z`) mogelijk de bivariate relatie tussen inspanningen (`X`) en score (`Y`) beïnvloedt. Om de *unieke* samenhang tussen `X` en `Y` te meten, moet de gemeenschappelijke variantie met `Z` worden verwijderd. Dit wordt bereikt door het toepassen van partiële correlatie [14](#page=14) [15](#page=15) [16](#page=16).
### 3.3 Berekening via een reeks regressievergelijkingen
De berekening van de partiële correlatiecoëfficiënt voor drie variabelen (X1, X2, Y), waarbij we de partiële correlatie tussen Y en X1 onder controle van X2 onderzoeken (genoteerd als `Ryx1.x2`), kan worden uitgevoerd via een reeks regressiestappen [19](#page=19) [20](#page=20):
**Stap 1: Verwijder de variantie die X1 en X2 met elkaar delen** [21](#page=21).
* Voer een bivariate regressieanalyse uit van X1 op X2.
* Bereken de verwachte waarden voor X1 (genoteerd als `X1hat`) met de regressievergelijking: $X_{1hat} = a + b \cdot X_2$ [21](#page=21).
* Bereken de residuele waarden: $X_1 - X_{1hat}$. Deze residuen vertegenwoordigen de variantie in X1 die *niet* door X2 wordt verklaard [21](#page=21).
**Stap 2: Verwijder de variantie die Y en X2 met elkaar delen** [22](#page=22) [23](#page=23) [24](#page=24).
* Voer een bivariate regressieanalyse uit van Y op X2.
* Bereken de verwachte waarden voor Y (genoteerd als `Yhat`) met de regressievergelijking: $Y_{hat} = a + b \cdot X_2$ [24](#page=24).
* Bereken de residuele waarden: $Y - Y_{hat}$. Deze residuen vertegenwoordigen de variantie in Y die *niet* door X2 wordt verklaard [24](#page=24).
**Stap 3: Bereken de partiële correlatiecoëfficiënt** [25](#page=25) [26](#page=26).
* Bereken de zero-order correlatie tussen de residuele termen van stap 1 (`X1 - X1hat`) en stap 2 (`Y - Yhat`) [26](#page=26).
* Deze correlatie tussen de residuen is de partiële correlatiecoëfficiënt `Ry1.2`, oftewel de correlatie tussen Y en X1 onder controle van X2. Visueel stelt dit het 'roze gebied' voor in een Venn-diagram, dat de unieke overlap tussen X1 en Y weergeeft nadat de overlap met X2 is 'weggenomen' [26](#page=26) [27](#page=27).
**Stap 4: Voer een significantietoets uit van de partiële correlatiecoëfficiënt** [28](#page=28).
* De t-ratio wordt berekend met de formule:
$$t = \frac{r_{x_1y.x_2} \cdot \sqrt{n-3}}{\sqrt{1 - r_{x_1y.x_2}^2}}$$ [28](#page=28).
waarbij $r_{x_1y.x_2}$ de partiële correlatiecoëfficiënt is en $n$ het aantal observaties [28](#page=28).
* De berekende t-waarde wordt vergeleken met een kritieke t-waarde uit de t-tabel, rekening houdend met het aantal vrijheidsgraden ($n-3$) en een gekozen significantieniveau ($\alpha$) [28](#page=28) [29](#page=29).
* De nulhypothese stelt dat er geen partiële correlatie bestaat ($r=0$). Als de berekende t-waarde in het verweringsgebied valt (d.w.z. de kans op het observeren van zo'n waarde, gegeven dat de nulhypothese waar is, kleiner is dan $\alpha$), wordt de nulhypothese verworpen [29](#page=29).
### 3.4 Berekening met een directe formule (voor drie variabelen)
Voor het geval van drie variabelen kan de partiële correlatiecoëfficiënt ook direct worden berekend met de volgende formule [30](#page=30):
$$r_{XY \cdot Z} = \frac{r_{XY} - (r_{XZ})(r_{YZ})}{\sqrt{1 - r_{XZ}^2} \cdot \sqrt{1 - r_{YZ}^2}}$$ [30](#page=30) [31](#page=31).
Hierin staan:
* $r_{XY \cdot Z}$: de partiële correlatie tussen X en Y, onder controle van Z [30](#page=30).
* $r_{XY}$: de bivariate correlatie tussen X en Y [30](#page=30).
* $r_{XZ}$: de bivariate correlatie tussen X en Z [30](#page=30).
* $r_{YZ}$: de bivariate correlatie tussen Y en Z [30](#page=30).
**Rekenvuorbeeld met de formule:** [30](#page=30) [31](#page=31).
Gegeven de volgende bivariate correlaties:
* `rXY = +0.50` ($r^2XY = 0.25$) [30](#page=30).
* `rXZ = +0.50` ($r^2XZ = 0.25$) [30](#page=30).
* `rYZ = +0.50` ($r^2YZ = 0.25$) [30](#page=30).
Invullen in de formule:
$$r_{XY \cdot Z} = \frac{0.50 - (0.50)(0.50)}{\sqrt{1 - 0.25} \cdot \sqrt{1 - 0.25}}$$ [31](#page=31).
$$r_{XY \cdot Z} = \frac{0.50 - 0.25}{\sqrt{0.75} \cdot \sqrt{0.75}}$$ [31](#page=31).
$$r_{XY \cdot Z} = \frac{0.25}{0.75}$$ [31](#page=31).
$$r_{XY \cdot Z} = +0.33$$ [31](#page=31).
Hieruit volgt dat $r^2_{XY \cdot Z} = 0.11$. Dit betekent dat na controle voor Z, X en Y nog 11% van hun variantie delen, wat aanzienlijk lager is dan de initiële 25% gedeelde variantie (bivariaat). Het bivariate verband was dus overschat [31](#page=31).
### 3.5 Suppression-effecten
In de meeste gevallen wordt het bivariate verband zwakker wanneer gecontroleerd wordt voor een derde variabele. Echter, in sommige gevallen kan het verband juist sterker worden. Dit fenomeen wordt een **suppression-effect** genoemd, waarbij de derde variabele (de suppressorvariabele) het effect van de primaire relatie onderdrukt [32](#page=32).
**Voorbeeld van een suppression-effect:** [33](#page=33) [34](#page=34) [35](#page=35).
Laten we opnieuw de variabelen `Y` (score), `X` (inspanningen) en `Z` (angst) gebruiken met de volgende bivariate correlaties [33](#page=33):
* `rXY = +0.20` ($r^2XY = 0.04$) [33](#page=33).
* `rXZ = +0.80` ($r^2XZ = 0.64$) [33](#page=33).
* `rYZ = -0.40` ($r^2YZ = 0.16$) [33](#page=33).
De bivariate correlatie tussen inspanningen (`X`) en score (`Y`) is slechts `+0.20`. Laten we de partiële correlatie berekenen onder controle van angst (`Z`) met de formule [33](#page=33):
$$r_{XY \cdot Z} = \frac{r_{XY} - (r_{XZ})(r_{YZ})}{\sqrt{1 - r_{XZ}^2} \cdot \sqrt{1 - r_{YZ}^2}}$$ [34](#page=34).
$$r_{XY \cdot Z} = \frac{0.20 - (0.80)(-0.40)}{\sqrt{1 - 0.64} \cdot \sqrt{1 - 0.16}}$$ [34](#page=34).
$$r_{XY \cdot Z} = \frac{0.20 - (-0.32)}{\sqrt{0.36} \cdot \sqrt{0.84}}$$ [34](#page=34).
$$r_{XY \cdot Z} = \frac{0.52}{0.60 \cdot 0.9165}$$ [34](#page=34).
$$r_{XY \cdot Z} = \frac{0.52}{0.5499}$$ [34](#page=34).
$$r_{XY \cdot Z} \approx +0.95$$ [34](#page=34) [35](#page=35).
Het resultaat laat een drastische toename zien van de correlatie: van een zwakke `+0.20` (bivariaat) naar een zeer sterke `+0.95` (partieel). Dit suppression-effect impliceert dat angst (`Z`) eerder een negatieve invloed had op de waargenomen relatie tussen inspanning en score door zijn sterke correlatie met inspanning. Door angst te controleren, wordt de ware, veel sterkere positieve relatie tussen inspanning en score zichtbaar [35](#page=35).
### 3.6 Voorbeeld van SPSS output
SPSS kan worden gebruikt om zowel bivariate als partiële correlaties te berekenen [36](#page=36) [37](#page=37).
**Bivariate Correlatie Output:** [36](#page=36) [37](#page=37).
De output toont de Pearson correlatiecoëfficiënt tussen de variabelen. Een waarde van `-,480**` tussen 'kattekwaad' en 'morele normen' suggereert een significante negatieve correlatie op het 0.01 niveau [36](#page=36) [37](#page=37).
**Partiële Correlatie Output:** [37](#page=37).
Wanneer een controle variabele ('geanticipeerde schuld') wordt ingevoerd, wordt de partiële correlatie berekend. In het getoonde voorbeeld wordt de partiële correlatie tussen 'kattekwaad' en 'morele normen', gecontroleerd voor 'geanticipeerde schuld', weergegeven als `-,266`. Dit betekent dat na het statistisch verwijderen van de invloed van 'geanticipeerde schuld', de negatieve correlatie tussen 'kattekwaad' en 'morele normen' afneemt van `-,480` naar `-,266`, wat suggereert dat een deel van de oorspronkelijke bivariate relatie werd verklaard door 'geanticipeerde schuld' [37](#page=37).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Partiële correlatie | Een statistische maat die de samenhang tussen twee variabelen onderzoekt, terwijl er statistisch gecontroleerd wordt voor de invloed van één of meerdere andere variabelen (storende variabelen of confounders). |
| Bivariate statistiek | Een tak van statistiek die zich bezighoudt met de analyse van de relatie tussen twee variabelen tegelijkertijd, zoals bivariate regressie of correlatie. |
| Storende variabele (confounder) | Een variabele die de relatie tussen de onafhankelijke en afhankelijke variabele kan beïnvloeden, waardoor een schijnverband kan ontstaan of een echt verband gemaskeerd kan worden. |
| Schijnverband (spurieuze relatie) | Een waargenomen correlatie tussen twee variabelen die niet causaal gerelateerd zijn, maar beide beïnvloed worden door een derde, gemeenschappelijke variabele. |
| Indirect effect | Een effect waarbij een onafhankelijke variabele een afhankelijke variabele beïnvloedt via een tussenliggende variabele (mediator). |
| Conceptueel diagram | Een visuele weergave van de theoretische relaties tussen variabelen, vaak met pijlen om de richting van de verwachte effecten aan te geven. |
| Regressievergelijking | Een wiskundige vergelijking die de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen beschrijft, vaak gebruikt om voorspellingen te doen. |
| Residuele waarden | Het verschil tussen de werkelijk waargenomen waarde van een afhankelijke variabele en de waarde die voorspeld wordt door een regressiemodel. |
| Significantietoets | Een statistische procedure om te bepalen of de resultaten van een onderzoek waarschijnlijk niet op toeval berusten, vaak door een nulhypothese te toetsen. |
| Nulhypothese | Een hypothese die stelt dat er geen effect, geen verband of geen verschil is tussen de onderzochte variabelen. |
| Verwerpingsgebied | In de statistische toetsing, het deel van de verdeling van de toetsingsgrootheid waarin de nulhypothese verworpen wordt. |
| Type I-fout | Een statistische fout waarbij de nulhypothese ten onrechte verworpen wordt, terwijl deze in werkelijkheid waar is. |
| Suppression-effect | Een fenomeen waarbij de correlatie tussen twee variabelen toeneemt (sterker wordt) wanneer er gecontroleerd wordt voor een derde variabele, wat aangeeft dat de derde variabele de oorspronkelijke relatie maskeerde. |
| SPSS | Statistical Package for the Social Sciences, een veelgebruikt softwarepakket voor statistische analyse. |
| Bivariate correlatie | Een maat die de sterkte en richting van de lineaire relatie tussen twee variabelen beschrijft. |
| rxy | Symbool voor de bivariate correlatiecoëfficiënt tussen variabele X en variabele Y. |
| r²xy | Symbool voor de proportie verklaarde variantie van variabele Y door variabele X. |
| r(XY.Z) | Symbool voor de partiële correlatiecoëfficiënt tussen variabele X en variabele Y, onder controle van variabele Z. |