Cover
Empieza ahora gratis College H11 Regressie met twee onafhankelijke variabelen.pdf
Summary
# Inleiding tot meervoudige lineaire regressie
Dit deel introduceert het concept van meervoudige lineaire regressie, een statistische methode die onderzoekt hoe één of meerdere kenmerken (onafhankelijke variabelen) een ander kenmerk (afhankelijke variabele) kunnen verklaren of voorspellen [2](#page=2) [3](#page=3).
### 1.1 Verschil met bivariate lineaire regressie
Meervoudige lineaire regressie is een uitbreiding van bivariate lineaire regressie. Bivariate lineaire regressie analyseert het lineaire effect van één enkele onafhankelijke variabele op één enkele afhankelijke variabele. Meervoudige lineaire regressie daarentegen, onderzoekt de lineaire effecten van *meerdere* onafhankelijke variabelen op één enkele afhankelijke variabele [4](#page=4).
### 1.2 Het basismodel van meervoudige lineaire regressie
Het doel van meervoudige lineaire regressie is om te onderzoeken hoe goed één of meerdere kenmerken, aangeduid als onafhankelijke variabelen (X), een ander kenmerk, de afhankelijke variabele (Y), kunnen verklaren of voorspellen. Het model voorspelt Y via een lineaire vergelijking [2](#page=2) [3](#page=3).
Het basismodel met twee onafhankelijke variabelen ($X_1$, $X_2$) en één afhankelijke variabele ($Y$) kan als volgt worden geschreven:
$$ Y = a + b_1X_1 + b_2X_2 + \epsilon $$ [5](#page=5).
Hierin vertegenwoordigen de componenten het volgende [5](#page=5):
* $Y$: de afhankelijke variabele die verklaard of voorspeld moet worden.
* $X_1$ en $X_2$: de onafhankelijke variabelen die worden gebruikt om $Y$ te verklaren.
* $a$: de intercept, wat de verwachte waarde van $Y$ is wanneer alle onafhankelijke variabelen ($X_1$ en $X_2$) gelijk zijn aan nul.
* $b_1$: de regressiecoëfficiënt voor $X_1$, die het netto-effect van $X_1$ op $Y$ weergeeft, terwijl $X_2$ constant wordt gehouden (statistisch gecontroleerd voor $X_2$).
* $b_2$: de regressiecoëfficiënt voor $X_2$, die het netto-effect van $X_2$ op $Y$ weergeeft, terwijl $X_1$ constant wordt gehouden (statistisch gecontroleerd voor $X_1$).
* $\epsilon$: de error term, die het cumulatieve effect vertegenwoordigt van alle andere oorzaken van $Y$ die niet in het model zijn opgenomen.
Het voorspelde model wordt vaak aangeduid met een dakje op $Y$ ($\hat{Y}$) om aan te geven dat het een schatting betreft:
$$ \hat{Y} = a + b_1X_1 + b_2X_2 $$ [5](#page=5).
### 1.3 Uitbreiding naar meer onafhankelijke variabelen
Het model kan eenvoudig worden uitgebreid naar drie of meer onafhankelijke variabelen. Voor een model met drie onafhankelijke variabelen ($X_1, X_2, X_3$) ziet de vergelijking er als volgt uit [12](#page=12):
$$ \hat{Y} = a + b_1X_1 + b_2X_2 + b_3X_3 $$ [12](#page=12).
Meer algemeen, voor $k$ onafhankelijke variabelen ($X_1, X_2, \dots, X_k$), kan het model worden geschreven als:
$$ \hat{Y} = a + b_1X_1 + b_2X_2 + \dots + b_kX_k $$ [12](#page=12) [4](#page=4).
### 1.4 Het relatieve belang van onafhankelijke variabelen
Meervoudige lineaire regressie maakt het mogelijk om het relatieve belang van elke onafhankelijke variabele voor het verklaren van de afhankelijke variabele te onderzoeken. De regressiecoëfficiënten ($b_1, b_2$, etc.) geven, na correctie voor de andere variabelen in het model, de sterkte en richting van het lineaire verband aan [14](#page=14) [5](#page=5).
> **Tip:** Bij het interpreteren van de regressiecoëfficiënten in een meervoudig regressiemodel is het cruciaal om te onthouden dat deze de "netto" effecten weergeven. Dit betekent dat het effect van een specifieke onafhankelijke variabele wordt geëvalueerd terwijl de invloed van alle andere onafhankelijke variabelen in het model constant wordt gehouden. Dit principe staat bekend als "statistisch controleren voor" andere variabelen [5](#page=5).
---
# Vergelijking en problematiek van regressieanalyses
Dit onderdeel behandelt de noodzaak van meervoudige lineaire regressie en de problematiek van multicollineariteit, met nadruk op waarom het optellen van bivariate regressies geen correcte methode is.
### 2.1 Waarom meervoudige lineaire regressie?
Meervoudige lineaire regressie is essentieel wanneer men de invloed van meerdere onafhankelijke variabelen op een afhankelijke variabele wil analyseren, met name wanneer deze onafhankelijke variabelen onderling samenhangen. Het optellen van afzonderlijke bivariate regressies is geen correcte benadering omdat dit kan leiden tot het dubbel tellen van gedeelde variantie tussen de onafhankelijke variabelen [6](#page=6) [7](#page=7).
### 2.2 Multicollineariteit: de problematiek van lineaire samenhang
Multicollineariteit verwijst naar de statistische situatie waarin onafhankelijke variabelen onderling sterk samenhangen. Dit maakt het moeilijk om het relatieve belang van elke onafhankelijke variabele afzonderlijk te schatten. Wanneer onafhankelijke variabelen (X1 en X2) gecorreleerd zijn, delen ze gemeenschappelijke variantie, hetgeen bij het optellen van bivariate regressies onterecht twee keer wordt meegeteld [10](#page=10) [7](#page=7).
**Tip:** Let op de interpretatie van resultaten wanneer de correlatie tussen onafhankelijke variabelen hoger is dan.50 [33](#page=33) [9](#page=9).
Correlatiecoëfficiënten van.80 of groter worden beschouwd als problematisch. In dergelijke gevallen wordt het afgeraden om een meervoudige regressie uit te voeren met deze variabelen gezamenlijk. De hoge samenhang kan de juistheid van de regressieparameters verstoren [10](#page=10) [33](#page=33) [9](#page=9).
### 2.3 Vergelijking: twee bivariate versus één meervoudige regressie
Een illustratief voorbeeld toont aan dat de som van de determinatiecoëfficiënten ($R^2$) uit twee afzonderlijke bivariate regressieanalyses niet gelijk is aan de $R^2$ van een meervoudige regressieanalyse [32](#page=32) [8](#page=8).
**Voorbeeld 1 (uit eigen onderzoek):**
Afhankelijke variabele: regelovertredend gedrag [8](#page=8).
| Onafhankelijke Variabele | Model 1 (bivariaat) $\beta$ | Model 2 (bivariaat) $\beta$ | Model 3 (meervoudig) $\beta$ |
| :----------------------- | :-------------------------- | :-------------------------- | :--------------------------- |
| Ouderlijk toezicht (X1) | -0.382\* | -- | -0.198\* |
| Morele aanvaardbaarheid regelovertreding (X2) | -- | 0.496\* | 0.404\* |
| $R^2$ | 14.6% | 24.6% | 27.5% |
Het is duidelijk dat 14.6% + 24.6% ≠ 27.5%. In een meervoudige regressie wordt het effect van X1 op Y geanalyseerd onder controle van X2, en vice versa [8](#page=8).
**Voorbeeld 2 (hypothetische data van ex-gedetineerden):**
Afhankelijke variabele: aantal her-arrestaties [32](#page=32).
| Onafhankelijke Variabele | Model 1 (bivariaat) $\beta$ | Model 2 (bivariaat) $\beta$ | Model 3 (meervoudig) $\beta$ |
| :----------------------- | :-------------------------- | :-------------------------- | :--------------------------- |
| Gevangenisstraf (X1) | 0.716\* | -- | 0.3999\* |
| Eerdere arrestaties (X2) | -- | 0.762\* | 0.5080\* |
| $R^2$ | 51.2% | 58.0% | 67.4% |
Ook hier geldt 51.2% + 58.0% ≠ 67.4% [32](#page=32).
De determinatiecoëfficiënt in meervoudige regressie vertegenwoordigt de gezamenlijke verklaarde variantie, niet de optelsom van individuele bijdragen. De relatieve sterkte van de effecten kan worden afgelezen uit de gestandaardiseerde rico's ($\beta$). Deze effectgroottes variëren tussen -1 en +1, waarbij 0 duidt op geen lineair effect [11](#page=11).
**Tip:** Een meervoudige regressie is acceptabel, zelfs bij een correlatie tussen X1 en X2 hoger dan.50, mits dit wordt gecontroleerd met behulp van statistische toetsen die multicollineariteit kunnen vaststellen. Bij een correlatie van.80 of hoger is het gebruik van meervoudige regressie met die variabelen echter af te raden [33](#page=33) [9](#page=9).
---
# Berekening en interpretatie van regressieparameters
Dit onderwerp behandelt de berekening en interpretatie van zowel ongestandaardiseerde als gestandaardiseerde regressiecoëfficiënten, de intercept, en de multiple R-kwadraat in de context van meervoudige regressieanalyse [16](#page=16).
### 3.1 Componenten van de meervoudige regressievergelijking
De meervoudige regressievergelijking met twee onafhankelijke variabelen ($X_1$ en $X_2$) en een afhankelijke variabele ($Y$) wordt algemeen weergegeven als:
$$ \hat{Y} = a + b_1 X_1 + b_2 X_2 $$
Waarbij:
* $\hat{Y}$ de voorspelde waarde van de afhankelijke variabele is [26](#page=26).
* $a$ de intercept is, de verwachte waarde van $Y$ wanneer alle onafhankelijke variabelen gelijk zijn aan nul [20](#page=20).
* $b_1$ en $b_2$ de ongestandaardiseerde regressiecoëfficiënten zijn voor respectievelijk $X_1$ en $X_2$ [16](#page=16).
* $X_1$ en $X_2$ de onafhankelijke variabelen zijn [26](#page=26).
### 3.2 Berekening van regressieparameters
#### 3.2.1 Ongestandaardiseerde regressiecoëfficiënten ($b_1, b_2$)
De ongestandaardiseerde regressiecoëfficiënten geven de verwachte verandering in de afhankelijke variabele ($Y$) weer bij een toename van één eenheid in een specifieke onafhankelijke variabele ($X$), terwijl de andere onafhankelijke variabelen constant worden gehouden (gecontroleerd) [18](#page=18).
Om de ongestandaardiseerde coëfficiënten te berekenen, zijn de volgende gegevens nodig:
* Het rekenkundig gemiddelde van elke variabele [16](#page=16).
* De standaardafwijking van elke variabele [16](#page=16).
* De correlaties tussen de variabelen [16](#page=16).
De berekening van de ongestandaardiseerde coëfficiënten ($b_1, b_2$) kan worden gedaan door middel van gestandaardiseerde coëfficiënten en de standaardafwijkingen en gemiddelden van de variabelen. Een voorbeeld uit het document toont:
$$ b_1 = \beta_1 \times \left(\frac{s_Y}{s_{X_1}}\right) $$
$$ b_2 = \beta_2 \times \left(\frac{s_Y}{s_{X_2}}\right) $$
Waar $\beta$ de gestandaardiseerde coëfficiënt is en $s$ de standaardafwijking van de betreffende variabele [29](#page=29).
#### 3.2.2 Gestandaardiseerde regressiecoëfficiënten ($\beta_1, \beta_2$)
Gestandaardiseerde regressiecoëfficiënten geven de verwachte verandering in de afhankelijke variabele weer, uitgedrukt in standaardafwijkingen, bij een toename van één standaardafwijking in een specifieke onafhankelijke variabele, terwijl de andere onafhankelijke variabelen constant worden gehouden. Ze zijn nuttig voor het vergelijken van de relatieve sterkte van de effecten van verschillende onafhankelijke variabelen binnen hetzelfde model [17](#page=17) [35](#page=35).
Deze coëfficiënten kunnen direct worden berekend uit de correlatiematrix. De formule voor $\beta_1$ en $\beta_2$ in een model met twee onafhankelijke variabelen ($X_1, X_2$) is afgeleid van de correlaties tussen de variabelen ($r_{XY1}, r_{XY2}, r_{X1X2}$) en wordt vaak berekend met behulp van de volgende structuur [17](#page=17):
$$ \beta_1 = \frac{r_{Y1} - r_{Y2}r_{12}}{1 - r_{12}^2} $$
$$ \beta_2 = \frac{r_{Y2} - r_{Y1}r_{12}}{1 - r_{12}^2} $$
Waarbij $r_{Y1}$ de correlatie tussen $Y$ en $X_1$ is, $r_{Y2}$ de correlatie tussen $Y$ en $X_2$ is, en $r_{12}$ de correlatie tussen $X_1$ en $X_2$ is [27](#page=27).
#### 3.2.3 Intercept ($a$)
De intercept is de verwachte waarde van de afhankelijke variabele ($Y$) wanneer alle onafhankelijke variabelen in het model gelijk zijn aan nul. De berekening van de intercept ($a$) in een meervoudige regressie kan worden gedaan door het gemiddelde van de afhankelijke variabele te nemen en daar de producten van de ongestandaardiseerde regressiecoëfficiënten en de gemiddelden van de respectievelijke onafhankelijke variabelen van af te trekken [20](#page=20):
$$ a = \bar{Y} - b_1 \bar{X}_1 - b_2 \bar{X}_2 $$
Waar $\bar{Y}$, $\bar{X}_1$, en $\bar{X}_2$ de gemiddelden zijn van de respectievelijke variabelen [37](#page=37).
#### 3.2.4 Multiple R-kwadraat ($R^2$)
De multiple R-kwadraat ($R^2$) geeft de proportie van de totale variantie in de afhankelijke variabele weer die verklaard kan worden door alle onafhankelijke variabelen in het regressiemodel gezamenlijk. Een hogere $R^2$ waarde duidt op een betere fit van het model met de data [19](#page=19).
> **Tip:** De multiple R-kwadraat kan ook worden verkregen door de kwadraten van de correlatiecoëfficiënten van de gestandaardiseerde regressieparameters te manipuleren, hoewel dit minder direct is dan het gebruik van de output van statistische software. Een $R^2$ van 0,674 betekent bijvoorbeeld dat 67,4% van de variatie in de afhankelijke variabele verklaard wordt door de onafhankelijke variabelen [31](#page=31) [40](#page=40).
### 3.3 Interpretatie van regressieparameters
#### 3.3.1 Interpretatie van ongestandaardiseerde regressiecoëfficiënten ($b_1, b_2$)
De ongestandaardiseerde regressiecoëfficiënten ($b$) bieden een directe interpretatie in de oorspronkelijke eenheden van de variabelen [18](#page=18).
* Voor bivariate regressie: De verwachte verandering in de afhankelijke variabele ($Y$) bij een toename van één eenheid in de onafhankelijke variabele ($X$) [15](#page=15).
* Voor meervoudige regressie: De verwachte verandering in de afhankelijke variabele ($Y$) bij een toename van één eenheid in één onafhankelijke variabele ($X_i$), terwijl alle andere onafhankelijke variabelen in het model constant worden gehouden [15](#page=15).
> **Voorbeeld:** In het document wordt een ongestandaardiseerde coëfficiënt van 0,9533 voor "gevangenisstraf" geïnterpreteerd als: "Voor elk jaar extra 'gevangenisstraf' wordt een toename verwacht van 0,9533 'aantal her-arrestaties', onder controle van 'aantal eerdere arrestaties'" [30](#page=30).
#### 3.3.2 Interpretatie van gestandaardiseerde regressiecoëfficiënten ($\beta_1, \beta_2$)
Gestandaardiseerde coëfficiënten ($\beta$) maken het mogelijk om de relatieve sterkte van de effecten van verschillende onafhankelijke variabelen te vergelijken, omdat ze de effecten op een vergelijkbare schaal (standaardafwijkingen) uitdrukken [17](#page=17).
> **Voorbeeld:** "Voor elke standaardafwijking toename in 'aantal eerdere arrestaties' wordt een toename verwacht van 0,5080 standaardafwijkingen in 'aantal her-arrestaties', onder controle van 'gevangenisstraf'". Dit laat zien dat het effect van "aantal eerdere arrestaties" (netto-effect $\beta = 0,5080$) sterker is dan dat van "gevangenisstraf" (netto-effect $\beta = 0,3999$) [28](#page=28) [35](#page=35).
#### 3.3.3 Interpretatie van de intercept ($a$)
De intercept vertegenwoordigt de verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen in het model op nul worden gezet. De interpretatie van de intercept is alleen zinvol als het nul-punt van de onafhankelijke variabelen logisch en praktisch is binnen de context van de data [20](#page=20) [37](#page=37).
#### 3.3.4 Interpretatie van Multiple R-kwadraat ($R^2$)
De Multiple R-kwadraat kwantificeert de algehele verklaringskracht van het regressiemodel. Een hogere $R^2$ duidt op een betere verklaring van de variatie in de afhankelijke variabele door de onafhankelijke variabelen [19](#page=19) [31](#page=31).
### 3.4 Relatie tussen bivariate en meervoudige regressiecoëfficiënten
De coëfficiënten in een meervoudige regressie (bv. $b_1$ en $\beta_1$) representeren de 'netto-effecten', wat betekent dat het effect van een specifieke onafhankelijke variabele wordt geïsoleerd van de invloed van andere variabelen in het model. In tegenstelling hiermee weerspiegelen bivariate regressiecoëfficiënten de 'bruto-effecten' of totale associatie tussen twee variabelen, zonder rekening te houden met andere mogelijke beïnvloedende factoren [15](#page=15).
> **Tip:** De gestandaardiseerde coëfficiënten ($\beta$) zijn cruciaal voor het bepalen van welke onafhankelijke variabele het sterkste *netto-effect* heeft op de afhankelijke variabele, omdat ze de effecten op een gelijke schaal presenteren [35](#page=35).
### 3.5 Voorspellen van de afhankelijke variabele
Met de berekende regressieparameters (intercept en coëfficiënten) kan de waarde van de afhankelijke variabele worden voorspeld voor specifieke combinaties van waarden van de onafhankelijke variabelen [36](#page=36).
> **Voorbeeld:** Om het verwachte aantal her-arrestaties ($\hat{Y}$) te voorspellen bij een gevangenisstraf van 4 jaar ($X_1=4$) en 3 eerdere arrestaties ($X_2=3$), gebruikt men de meervoudige regressievergelijking met de berekende parameters:
> $$ \hat{Y} = a + b_1 X_1 + b_2 X_2 $$
> $$ \hat{Y} = -3,0653 + 0,9533 \times 4 + 0,9440 \times 3 $$
> $$ \hat{Y} = 3,5799 $$
> Dit betekent dat het verwachte aantal her-arrestaties 3,5799 is [38](#page=38).
---
# Statistische assumpties bij lineaire regressie
Deze sectie behandelt de theoretische voorwaarden waaraan data moet voldoen voor een correcte toepassing van meervoudige en bivariate lineaire regressie, en bespreekt de gevolgen van schendingen van deze assumpties. Een correcte toepassing van lineaire regressie is afhankelijk van het voldoen aan specifieke assumpties, anders kunnen de resultaten vertekend zijn [41](#page=41).
### 4.1 Overzicht van de assumpties
De belangrijkste assumpties voor het uitvoeren van een lineaire regressieanalyse zijn [42](#page=42):
1. **Meetniveau:** Zowel de afhankelijke variabele (y) als de onafhankelijke variabele(n) (x) moeten metrisch meetniveau hebben. Een uitzondering hierop is wanneer x een dummy variabele is [42](#page=42) [43](#page=43).
2. **Lineariteit:** Er moet een lineair verband bestaan tussen de onafhankelijke variabele(n) en de afhankelijke variabele [42](#page=42) [43](#page=43) [44](#page=44) [45](#page=45).
3. **Normaliteit:** De error-termen (residuen) moeten normaal verdeeld zijn [42](#page=42) [46](#page=46) [47](#page=47).
4. **Homoscedasticiteit:** De variantie van de error-termen moet constant zijn over alle waarden van de onafhankelijke variabele(n). Dit staat tegenover heteroscedasticiteit [42](#page=42) [48](#page=48) [49](#page=49).
5. **Onafhankelijkheid:** De error-termen moeten onafhankelijk van elkaar zijn. Dit houdt in dat er geen sprake mag zijn van autocorrelatie (seriële correlatie). Dit is met name relevant bij tijdreeksen of geografisch onderzoek waarbij opeenvolgende observaties gerelateerd kunnen zijn [42](#page=42) [52](#page=52).
6. **Afwezigheid van uitbijters:** Er moet opgelet worden voor uitbijters (outliers) [42](#page=42) [50](#page=50) [51](#page=51).
7. **Afwezigheid van interactie-effecten (of correcte modellering ervan):** Bij interactie kunnen de parameters van de hoofdeffecten misleidend zijn [42](#page=42) [53](#page=53).
> **Tip:** Bij ernstige schendingen van deze assumpties kunnen andere regressievormen noodzakelijk zijn [42](#page=42).
### 4.2 Uitleg van de assumpties
#### 4.2.1 Meetniveau van variabelen
Voor een correcte toepassing van lineaire regressie moeten zowel de afhankelijke variabele (y) als de onafhankelijke variabele(n) (x) metrisch meetniveau hebben. Dit betekent dat de variabelen continue waarden kunnen aannemen en dat de verschillen tussen de waarden betekenisvol zijn. Een veelvoorkomende uitzondering hierbij is het gebruik van dummy variabelen als onafhankelijke variabele, die categorische informatie representeren [42](#page=42) [43](#page=43).
#### 4.2.2 Lineariteit
De assumptie van lineariteit stelt dat er een lineair verband bestaat tussen de onafhankelijke variabele(n) en de afhankelijke variabele. Dit betekent dat de relatie tussen de variabelen kan worden weergegeven door een rechte lijn. Schending hiervan, oftewel non-lineariteit, kan leiden tot vertekende modelparameters [42](#page=42) [43](#page=43) [44](#page=44) [45](#page=45) [54](#page=54).
#### 4.2.3 Normaliteit van error-termen
De error-termen (de verschillen tussen de geobserveerde waarden en de voorspelde waarden door het regressiemodel) moeten normaal verdeeld zijn. Deze assumptie is vooral belangrijk voor inferentiële statistiek, zoals het berekenen van betrouwbaarheidsintervallen en p-waarden [42](#page=42) [46](#page=46) [47](#page=47).
#### 4.2.4 Homoscedasticiteit van error-termen
Homoscedasticiteit betekent dat de variantie van de error-termen constant is voor alle waarden van de onafhankelijke variabele(n). Als de variantie van de error-termen toeneemt of afneemt met de waarden van de onafhankelijke variabele(n), spreken we van heteroscedasticiteit. Heteroscedasticiteit kan leiden tot onbetrouwbare standaardfouten van de regressiecoëfficiënten [42](#page=42) [48](#page=48) [49](#page=49).
> **Voorbeeld:** Bij de regressie van huizenprijzen op huisoppervlakte, zou homoscedasticiteit betekenen dat de spreiding van de prijzen rond de regressielijn ongeveer gelijk is voor kleine en grote huizen. Heteroscedasticiteit zou zich uiten als grotere prijsvariaties voor grotere huizen.
#### 4.2.5 Onafhankelijkheid van error-termen (afwezigheid van autocorrelatie)
De error-termen moeten onafhankelijk van elkaar zijn. Dit betekent dat de error-term van een bepaalde observatie geen invloed mag hebben op de error-term van een andere observatie. Autocorrelatie, ook wel seriële correlatie genoemd, treedt op wanneer observaties opeenvolgend gerelateerd zijn. Dit is een veelvoorkomend probleem bij tijdreeksdata (bijvoorbeeld opeenvolgende jaartallen) of bij geografisch onderzoek (bijvoorbeeld aangrenzende gebieden) [42](#page=42) [52](#page=52).
#### 4.2.6 Afwezigheid van uitbijters (outliers)
Uitbijters zijn observaties die significant afwijken van de algemene patroon in de data. Ze kunnen een onevenredig grote invloed hebben op de regressieresultaten, waardoor de geschatte parameters vertekend kunnen worden. Het is daarom belangrijk om uitbijters te identificeren en passende maatregelen te nemen, zoals het transformeren van de data of het uitsluiten van de uitbijters na zorgvuldige overweging [42](#page=42) [50](#page=50) [51](#page=51).
#### 4.2.7 Interactie-effecten
Interactie treedt op wanneer het effect van de ene onafhankelijke variabele op de afhankelijke variabele afhangt van het niveau van een andere onafhankelijke variabele. Als er interactie aanwezig is, kunnen de coëfficiënten van de hoofdeffecten misleidend zijn en bieden ze geen volledig beeld van de relaties. Correcte modellering van interactie vereist het opnemen van interactietermen in het regressiemodel [42](#page=42) [53](#page=53) [54](#page=54).
> **Voorbeeld:** Het effect van "zelfcontrole" op een afhankelijke variabele (Y) kan verschillend zijn voor verschillende groepen, wat wijst op een interactie-effect [53](#page=53).
### 4.3 Implicaties van schending van assumpties
Het niet voldoen aan de statistische assumpties kan leiden tot verschillende problemen:
* **Vertekende resultaten:** De geschatte regressiecoëfficiënten en hun interpretatie kunnen onjuist zijn [41](#page=41).
* **Onbetrouwbare inferentiële statistiek:** Betrouwbaarheidsintervallen en p-waarden voor de regressiecoëfficiënten zijn mogelijk niet correct, wat kan leiden tot verkeerde conclusies over de significantie van de relaties (impliciet, door de noodzaak van assumpties voor correcte inferentie) [42](#page=42).
* **Verlies van efficiëntie:** In sommige gevallen (bv. heteroscedasticiteit) kunnen de schatters nog steeds zuiver zijn, maar niet langer de meest efficiënte (met de kleinste variantie) (impliciet) [42](#page=42).
Het controleren van deze assumpties is daarom een cruciale stap in het uitvoeren van een betrouwbare lineaire regressieanalyse [41](#page=41).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Meervoudige lineaire regressie | Een statistische methode die het lineaire effect van meerdere onafhankelijke variabelen op één enkele afhankelijke variabele onderzoekt door middel van een lineaire vergelijking. |
| Afhankelijke variabele (Y) | Het kenmerk dat verklaard of voorspeld wordt in een regressieanalyse. |
| Onafhankelijke variabele (X) | Een kenmerk dat wordt gebruikt om de afhankelijke variabele te verklaren of voorspellen in een regressieanalyse. |
| Bivariate lineaire regressie | Een regressiemodel dat het lineaire effect van slechts één onafhankelijke variabele op één afhankelijke variabele analyseert. |
| Intercept (a) | De verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen in het model gelijk zijn aan nul. |
| Regressiecoëfficiënt (b of β) | Een waarde die de sterkte en richting van het lineaire verband tussen een onafhankelijke variabele en de afhankelijke variabele aangeeft. De ongestandaardiseerde coëfficiënt (b) geeft de verwachte verandering in Y weer voor één eenheidstoename in X, terwijl de gestandaardiseerde coëfficiënt (β) dit doet in termen van standaardafwijkingen. |
| Error term (ε) | Het deel van de afhankelijke variabele dat niet verklaard wordt door de onafhankelijke variabelen in het model; het vertegenwoordigt de cumulatieve invloed van alle andere onbekende of niet-gemeten oorzaken. |
| Multicollineariteit | De statistische situatie waarbij onafhankelijke variabelen onderling sterk lineair gecorreleerd zijn, wat de schatting van hun individuele bijdrage aan de afhankelijke variabele bemoeilijkt. |
| Determinatiecoëfficiënt (R²) | Een statistische maat die aangeeft welk percentage van de variatie in de afhankelijke variabele verklaard wordt door de onafhankelijke variabelen in het regressiemodel. |
| Gestandaardiseerde regressiecoëfficiënt (β) | Een regressiecoëfficiënt die is berekend nadat alle variabelen zijn gestandaardiseerd (gemiddelde van 0 en standaardafwijking van 1). Deze coëfficiënten maken het mogelijk om de relatieve sterkte van de effecten van verschillende onafhankelijke variabelen op de afhankelijke variabele te vergelijken. |
| Ongestandaardiseerde regressiecoëfficiënt (b) | De regressiecoëfficiënt die de verwachte verandering in de afhankelijke variabele weergeeft bij een toename van één eenheid in de onafhankelijke variabele, zonder standaardisatie van de variabelen. |
| Metrisch meetniveau | Een meetniveau waarbij de waarden numerieke betekenis hebben en de afstanden tussen de waarden gelijk zijn, wat voor veel statistische analyses, waaronder regressie, vereist is. |
| Homoscedasticiteit | De aanname in regressieanalyse dat de variantie van de error-termen constant is over alle niveaus van de onafhankelijke variabelen. |
| Heteroscedasticiteit | Het tegengestelde van homoscedasticiteit, waarbij de variantie van de error-termen niet constant is over de niveaus van de onafhankelijke variabelen. |
| Uitbijter (outlier) | Een observatie die significant afwijkt van de andere observaties in de dataset, wat de resultaten van de regressieanalyse kan beïnvloeden. |
| Autocorrelatie (seriële correlatie) | Een statistische correlatie tussen observaties binnen dezelfde reeks, waarbij een observatie gerelateerd is aan voorgaande observaties. Dit schendt de assumptie van onafhankelijke error-termen in regressieanalyse, met name bij tijdreeks- of geografische data. |
| Statistische interactie | Een situatie waarin het effect van één onafhankelijke variabele op de afhankelijke variabele afhangt van het niveau van een andere onafhankelijke variabele. |