Cover
Inizia ora gratuitamente dia h 2.pdf
Summary
# Het standaard multivariate lineaire model en zijn voorwaarden
Dit onderwerp introduceert het standaard multivariate lineaire regressiemodel, de interpretatie van zijn coëfficiënten, de schattingsmethode, de onderliggende Gauss-Markov-stelling, en de cruciale voorwaarden waaraan voldaan moet worden voor de validiteit van de inferenties.
### 1.1 Het standaard multivariate lineaire regressiemodel
Het standaard multivariate lineaire regressiemodel beschrijft de relatie tussen een afhankelijke variabele ($Y_i$) en meerdere onafhankelijke (verklarende) variabelen ($X_{2i}, X_{3i}, \dots, X_{ki}$). Het model wordt als volgt geformuleerd [1](#page=1):
$$ Y_i = \beta_1 + \beta_2 X_{2i} + \beta_3 X_{3i} + \dots + \beta_k X_{ki} + \varepsilon_i $$
waarbij:
* $Y_i$ de waarde van de afhankelijke variabele is voor observatie $i$.
* $\beta_1$ de intercept is.
* $\beta_2, \beta_3, \dots, \beta_k$ de partiële regressiecoëfficiënten (partiële slopes) zijn voor de verklarende variabelen $X_2, X_3, \dots, X_k$.
* $X_{2i}, X_{3i}, \dots, X_{ki}$ de waarden zijn van de verklarende variabelen voor observatie $i$.
* $\varepsilon_i$ de storingsterm (of residu) is voor observatie $i$.
Dit model kan ook in matrixnotatie worden uitgedrukt:
$$ \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} $$
waarbij:
* $\mathbf{Y}$ een $n \times 1$ vector is van de afhankelijke variabele.
* $\mathbf{X}$ een $n \times k$ matrix is van de verklarende variabelen, inclusief een kolom van enen voor de intercept.
* $\boldsymbol{\beta}$ een $k \times 1$ vector is van de modelparameters (coëfficiënten).
* $\boldsymbol{\varepsilon}$ een $n \times 1$ vector is van de storingstermen.
#### 1.1.1 Interpretatie van de parameters
De coëfficiënten $\beta_j$ hebben een specifieke interpretatie in het multivariate model [2](#page=2):
* $\beta_1$ vertegenwoordigt de intercept, het snijpunt met de $Y$-as wanneer alle verklarende variabelen nul zijn.
* $\beta_2, \dots, \beta_k$ zijn de partiële slopes. $\beta_j$ geeft de gemiddelde toename in $Y$ weer wanneer $X_j$ met één eenheid toeneemt, **terwijl alle andere verklarende variabelen constant worden gehouden**. Dit meet de lineaire associatie tussen $X_j$ en de conditionele verwachtingswaarde van $Y$, gecorrigeerd voor de invloed van de andere variabelen in het model.
> **Tip:** De interpretatie van de partiële slopes is cruciaal en onderscheidt multivariate van univariate regressie. Het "controleren voor andere variabelen" is hierbij essentieel.
### 1.2 De kleinstekwadratenmethode (Ordinary Least Squares - OLS)
De parameters $\beta_j$ worden geschat met behulp van de kleinstekwadratenmethode, die de som van de gekwadrateerde residu's minimaliseert. Het doel is om de schatters $\hat{\boldsymbol{\beta}}$ te vinden die [3](#page=3):
$$ \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 $$
minimaal maken, waarbij $e_i = Y_i - \hat{Y}_i$ de geschatte residu is.
In matrixnotatie wordt de schatter voor $\boldsymbol{\beta}$ gegeven door:
$$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y} $$
Deze formule vereist dat de matrix $\mathbf{X}^T\mathbf{X}$ inverteerbaar is.
#### 1.2.1 Voorbeeld: kindersterfte
Het model voor kindersterfte (CM) als functie van geletterdheid bij vrouwen (L) en de total fertility rate (TFR) is een voorbeeld [4](#page=4):
$$ \text{CM}_i = 65.983 - 1.027 L_i + 26.593 \text{TFR}_i $$
Hier betekent $\beta_L = -1.027$ dat een toename van L met 1 eenheid, bij constante TFR, leidt tot een gemiddelde daling van de kindersterfte met 1.027. $\beta_{\text{TFR}} = 26.593$ betekent dat een toename van TFR met 1 eenheid, bij constante L, leidt tot een gemiddelde stijging van de kindersterfte met 26.593.
#### 1.2.2 Voorbeeld: Cobb-Douglas productiefunctie
De Cobb-Douglas productiefunctie, $P_i = \alpha A_i^{\beta_2} K_i^{\beta_3}$, wordt lineair in de parameters na logaritmische transformatie:
$$ \ln(P_i) = \ln(\alpha) + \beta_2 \ln(A_i) + \beta_3 \ln(K_i) + \varepsilon_i $$
Dit wordt een standaard lineair model met $\beta_1 = \ln(\alpha)$, $X_{2i} = \ln(A_i)$ en $X_{3i} = \ln(K_i)$ [4](#page=4).
> **Voorbeeld:** In het BNP van Taiwan model, $\ln(P_i) = 1.505 + 0.399 \ln(A_i) + 0.628 \ln(K_i)$, vertegenwoordigt $0.399$ de arbeidselasticiteit van de productie en $0.628$ de kapitaalelasticiteit [5](#page=5).
### 1.3 De Gauss-Markov stelling
De Gauss-Markov stelling stelt dat de kleinstekwadratenschatters ($\hat{\beta}_j$) in het Standaard Lineaire Regressiemodel (SLRM) de beste lineaire onvertekende schatters (Best Linear Unbiased Estimators - BLUE) zijn. Dit betekent dat [5](#page=5):
1. $\hat{\beta}_j$ een lineaire functie is van de waarnemingen $Y_i$.
2. $E(\hat{\beta}_j) = \beta_j$ (onvertekend).
3. $\hat{\beta}_j$ de kleinste variantie heeft binnen de klasse van alle lineaire en onvertekende schatters.
De varianties en covarianties van de schatters worden gegeven door:
$$ \text{Cov}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^T\mathbf{X})^{-1} $$
waarbij $\sigma^2$ de variantie van de storingstermen is. Een zuivere schatter voor $\sigma^2$ is:
$$ \hat{\sigma}^2 = \frac{1}{n-k} \sum_{i=1}^n e_i^2 $$
#### 1.3.1 Standaardfouten
De precisie van de schatters wordt gemeten door hun standaardfouten, die de wortel uit de variantie van de schatters zijn ($se(\hat{\beta}_j) = \sqrt{\text{Var}(\hat{\beta}_j)}$). Ze worden gebruikt voor hypothesetesten en betrouwbaarheidsintervallen [6](#page=6).
> **Voorbeeld:** In het kindersterfte voorbeeld, de geschatte coëfficiënt voor L is $-1.027$ met een standaardfout van $0.293$ [6](#page=6).
### 1.4 Determinatiecoëfficiënt ($R^2$) en Aangepaste Determinatiecoëfficiënt ($R^2_{adj}$)
* **Determinatiecoëfficiënt ($R^2$)**: Meet het percentage van de totale variatie in de afhankelijke variabele ($Y$) dat wordt verklaard door de verklarende variabelen in het model [6](#page=6).
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
waarbij $SSM$ de som van de kwadraten verklaard door het model is en $SSE$ de som van de kwadraten van de residu's.
* **Aangepaste Determinatiecoëfficiënt ($R^2_{adj}$)**: Penalisering voor modellen met te veel variabelen, met name wanneer deze variabelen weinig extra verklarende waarde toevoegen [7](#page=7).
$$ R^2_{adj} = 1 - (1 - R^2) \frac{n-1}{n-k} $$
Een hogere $R^2_{adj}$ is wenselijk, en deze kan afnemen wanneer een extra variabele niet voldoende bijdraagt aan de verklaring van de variatie.
> **Voorbeeld:** In het kindersterftevoorbeeld [7](#page=7):
> * Model met L en TFR: $R^2 = 0.8029$, $R^2_{adj} = 0.7945$.
> * Model met L, TFR en BNI: $R^2 = 0.815$, $R^2_{adj} = 0.803$.
> De toevoeging van BNI verhoogt $R^2$, maar de $R^2_{adj}$ stijgt slechts marginaal, wat aangeeft dat BNI mogelijk niet veel extra waarde toevoegt.
### 1.5 Voorwaarden van het Standaard Multivariate Lineaire Model
Voor de correcte toepassing van hypothesetesten en de geldigheid van de BLUE-eigenschappen, moet aan de volgende voorwaarden worden voldaan [1](#page=1) [7](#page=7):
1. **Lineariteit**: Het model moet lineair zijn in de parameters. Dit betekent niet noodzakelijk lineair in de variabelen zelf; transformaties zoals logaritmes of polynomiale termen zijn toegestaan [4](#page=4).
2. **Gemiddeld nul storingstermen**: $E(\varepsilon_i) = 0$ voor alle $i$.
3. **Homoscedasticiteit**: De variantie van de storingstermen is constant voor alle observaties: $\text{Var}(\varepsilon_i) = \sigma^2$ voor alle $i$.
4. **Ongecorreleerde storingstermen**: De storingstermen zijn niet gecorreleerd met elkaar: $\text{Cov}(\varepsilon_i, \varepsilon_j) = 0$ voor $i \neq j$.
5. **Normaal verdeelde storingstermen**: $\varepsilon_i \sim N(0, \sigma^2)$. Deze voorwaarde is vooral belangrijk voor kleine steekproeven om t- en F-verdelingen te rechtvaardigen.
6. **Geen perfecte multicollineariteit**: Geen enkele verklarende variabele mag een perfecte lineaire combinatie zijn van andere verklarende variabelen.
#### 1.5.1 Geen perfecte multicollineariteit
Perfecte multicollineariteit treedt op wanneer een verklarende variabele exact kan worden uitgedrukt als een lineaire combinatie van andere verklarende variabelen in het model. In dit geval is de matrix $\mathbf{X}^T\mathbf{X}$ singulier (niet-inverteerbaar), waardoor de kleinstekwadratenschatters niet berekend kunnen worden [2](#page=2).
> **Tip:** Als $X_3 = 2X_2$, dan is het onmogelijk om de afzonderlijke effecten van $\beta_2$ en $\beta_3$ te schatten, omdat ze niet van elkaar te onderscheiden zijn in de totale verklaring van $Y$.
#### 1.5.2 Niet-perfecte maar hoge multicollineariteit
Wanneer er sprake is van *hoge*, maar niet perfecte multicollineariteit, zijn de kleinstekwadratenschatters nog steeds BLUE, maar hun precisie neemt af. Dit manifesteert zich in [14](#page=14):
* Grote standaardfouten voor de coëfficiëntschatters ($\hat{\beta}_j$), zelfs als de $R^2$ van het model hoog is.
* Gevoeligheid van de parameterschattingen voor kleine veranderingen in de data.
* Ongewone tekens of onwaarschijnlijk grote waarden van de geschatte coëfficiënten.
#### 1.5.3 Meten van multicollineariteit: Variance Inflation Factor (VIF)
De Variance Inflation Factor (VIF) kwantificeert hoe sterk de variantie van een geschatte coëfficiënt wordt opgeblazen door multicollineariteit. Voor elke predictor $X_j$ wordt een regressie uitgevoerd van $X_j$ op alle andere verklarende variabelen, en de bijbehorende $R^2_j$ wordt berekend. De VIF is dan [14](#page=14):
$$ \text{VIF}(\hat{\beta}_j) = \frac{1}{1 - R_j^2} $$
* Als $R_j^2 = 0$ (geen correlatie), dan VIF = 1.
* Een VIF groter dan 10 wordt vaak beschouwd als indicatie van ernstige multicollineariteit.
> **Voorbeeld:** In het kindersterftevoorbeeld met L, TFR en BNI, de VIF-waarden zijn $2.30$ voor L, $2.72$ voor TFR en $1.69$ voor BNI. Deze waarden suggereren geen ernstige multicollineariteit [15](#page=15).
#### 1.5.4 Dummyvariabelen
Nominale variabelen (zoals geslacht, diploma) kunnen worden opgenomen in een lineair model door ze om te zetten in dummyvariabelen (met waarden 0 of 1). Als een variabele $m$ mogelijke uitkomsten heeft, worden $m-1$ dummyvariabelen aangemaakt, waarbij één uitkomst als referentiecategorie dient. Het toevoegen van $m$ dummyvariabelen in plaats van $m-1$ leidt tot perfecte multicollineariteit, aangezien de $m$-de dummy perfect te voorspellen is uit de andere $m-1$ [15](#page=15).
> **Voorbeeld:** Om 'diploma' (bachelor, master) op te nemen, kan men één dummyvariabele maken: $D_{\text{master}} = 1$ als de werknemer een masterdiploma heeft, en $D_{\text{master}} = 0$ anders (referentiecategorie is 'bachelor').
### 1.6 Testen van de modellen
* **T-testen voor parameters**: Testen of een individuele partiële slope ($\beta_j$) significant verschilt van nul. De teststatistiek volgt een t-verdeling met $n-k$ vrijheidsgraden [8](#page=8).
$$ t = \frac{\hat{\beta}_j - \beta_{j, H_0}}{se(\hat{\beta}_j)} $$
Onder de nulhypothese $H_0: \beta_j = 0$.
* **ANOVA voor fit**: Een globale test die nagaat of *alle* partiële slopes gezamenlijk significant verschillen van nul ($H_0: \beta_2 = \beta_3 = \dots = \beta_k = 0$). De teststatistiek volgt een F-verdeling met $k-1$ en $n-k$ vrijheidsgraden [9](#page=9).
$$ F = \frac{SSM / (k-1)}{SSE / (n-k)} $$
Er is een directe relatie tussen de F-statistiek en $R^2$: $F$ is een stijgende functie van $R^2$ [11](#page=11).
* **Diagnostische plots**: Residuplots en QQ-plots helpen bij het controleren van de modelaannames, zoals lineariteit, homoscedasticiteit en normaliteit van de storingstermen [12](#page=12).
> **Tip:** Het controleren van de onderstellingen met diagnostische plots is essentieel, aangezien de validiteit van de t- en F-testen afhangt van het voldoen aan deze voorwaarden.
---
# Kleinstekwadratenmethode en parameterschatting
De kleinstekwadratenmethode biedt een manier om modelparameters te schatten door de som van de gekwadrateerde afwijkingen tussen de waargenomen waarden en de voorspelde waarden te minimaliseren [3](#page=3).
### 2.1 De kleinstekwadratenmethode
#### 2.1.1 Kernconcept
De kern van de kleinstekwadratenmethode is het minimaliseren van de som van de gekwadrateerde residuen ($\hat{\epsilon}_i$). Dit wordt wiskundig uitgedrukt als [3](#page=3):
$$ \sum_{i=1}^{n} \hat{\epsilon}_i^2 = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 $$
#### 2.1.2 Matrixnotatie
Voor een multivariat model, beschreven door $Y = X\beta + \epsilon$, waarbij $Y$ de vector van afhankelijke variabelen is, $X$ de matrix van onafhankelijke variabelen (inclusief een constante term), $\beta$ de vector van parameters, en $\epsilon$ de vector van fouttermen, wordt de som van gekwadrateerde residuen uitgedrukt als $\hat{\epsilon}^T \hat{\epsilon}$. Het residu $\hat{\epsilon}$ is gedefinieerd als $\hat{\epsilon} = Y - X\hat{\beta}$ [3](#page=3).
#### 2.1.3 Afleiding van de parameterschatters
De parameterschatters $\hat{\beta}$ worden gevonden door de functie $S(\beta) = (Y - X\beta)^T (Y - X\beta)$ te minimaliseren. Door de partiële afgeleiden naar $\beta$ gelijk te stellen aan nul en op te lossen, verkrijgt men de kleinstekwadraatschatters [3](#page=3):
$$ \hat{\beta} = (X^T X)^{-1} X^T Y $$
Deze berekening wordt doorgaans uitgevoerd met behulp van statistische software [3](#page=3).
#### 2.1.4 Toepassing in economische modellen
##### 2.1.4.1 Kindersterfte model
Een voorbeeld van de toepassing van de kleinstekwadratenmethode is het modelleren van kindersterfte (CM) als functie van de geletterdheid bij vrouwen (L) en de totale vruchtbaarheidsgraad (TFR). Een multivariat model kan er als volgt uitzien [4](#page=4):
$$ \text{CM}_i = \beta_1 + \beta_2 L_i + \beta_3 \text{TFR}_i + \epsilon_i $$
In een specifiek voorbeeld:
$$ \text{CM}_i = 65.983 - 1.027 L_i + 26.593 \text{TFR}_i $$
Hieruit kan worden afgeleid dat bij een constante TFR, een toename van L met één eenheid leidt tot een gemiddelde daling van de kindersterfte met 1.027, terwijl bij een constante L, een toename van TFR met één eenheid leidt tot een gemiddelde stijging van de kindersterfte met 26.593 [4](#page=4).
##### 2.1.4.2 Cobb-Douglas productiefunctie
De Cobb-Douglas productiefunctie, $P_i = \alpha A_i^{\beta_2} K_i^{\beta_3}$, kan worden getransformeerd om lineair te zijn in de parameters door de natuurlijke logaritme te nemen [4](#page=4):
$$ \ln(P_i) = \ln(\alpha) + \beta_2 \ln(A_i) + \beta_3 \ln(K_i) + \epsilon_i $$
Dit kan worden herschreven als een lineair regressiemodel:
$$ \ln(P_i) = \beta_1 + \beta_2 \ln(A_i) + \beta_3 \ln(K_i) + \epsilon_i $$
waarbij $\beta_1 = \ln(\alpha)$. Dit model kan worden geschat met de kleinstekwadratenmethode [4](#page=4).
##### 2.1.4.3 BNP van Taiwan voorbeeld
Door de Cobb-Douglas productiefunctie voor het BNP van Taiwan toe te passen en log-getransformeerde gegevens te gebruiken, verkreeg men de volgende schatting:
$$ \ln(P_i) = 1.505 + 0.399 \ln(A_i) + 0.628 \ln(K_i) $$
Door de transformatie om te keren, verkrijgt men de geschatte productiefunctie:
$$ P_i = \exp[1.505 + 0.399 \ln(A_i) + 0.628 \ln(K_i)] = 4.503 A_i^{0.399} K_i^{0.628} $$
De arbeidselasticiteit van de productie is 0.399 en de kapitaalelasticiteit is 0.628. Omdat de som van de parameters $\beta_2 + \beta_3 \approx 1$ (0.399 + 0.628 = 1.027), suggereert dit constante schaalopbrengsten [5](#page=5).
### 2.2 Gauss-Markov stelling
#### 2.2.1 Stelling
De Gauss-Markov stelling stelt dat de kleinstekwadratenschatters $\hat{\beta}_j$ ($j=1, \dots, k$) in het Standaard Lineaire Regressie Model (SLRM) de Beste Lineaire Onvertekende Schatters (BLUE - Best Linear Unbiased Estimators) zijn. Dit betekent dat [5](#page=5):
1. $\hat{\beta}_j$ een lineaire functie is van de waargenomen waarden $Y_i$ [5](#page=5).
2. $E(\hat{\beta}_j) = \beta_j$, dus de schatters zijn onvertekend [5](#page=5).
3. $\hat{\beta}_j$ de kleinste variantie heeft binnen de klasse van zuivere en lineaire schatters [5](#page=5).
#### 2.2.2 Variantie-covariantiematrix en schatter voor variantie
De varianties en covarianties van de schatters $\hat{\beta}$ worden gegeven door de formule:
$$ \text{Cov}(\hat{\beta}) = \sigma^2 (X^T X)^{-1} $$
Een zuivere schatter voor de variantie $\sigma^2$ van de fouttermen is:
$$ \hat{\sigma}^2 = \frac{1}{n-k} \sum_{i=1}^{n} \hat{\epsilon}_i^2 $$
waarbij $n$ het aantal observaties is en $k$ het aantal te schatten parameters (inclusief de constante term) [5](#page=5).
### 2.3 Standaardfouten
#### 2.3.1 Concept
Standaardfouten meten de precisie van de parameterschatters. De standaardfout van $\hat{\beta}_j$ is de wortel van de variantie van $\hat{\beta}_j$. Aangezien $\sigma^2$ onbekend is, wordt deze geschat met $\hat{\sigma}^2$, wat leidt tot de schatting van de standaardfouten, aangeduid als $se(\hat{\beta}_j)$ [6](#page=6).
#### 2.3.2 Voorbeeld
In het kindersterfte model:
$$ \text{CM}_i = 65.983 - 1.027 L_i + 26.293 \text{TFR}_i $$
De geschatte parameters worden weergegeven met hun standaardfouten tussen haakjes eronder:
$$ \text{CM}_i = 65.983 - 1.027 L_i + 26.293 \text{TFR}_i $$
$$ (36.664) \quad (0.293) \quad (4.228) $$
met $\hat{\sigma} = 33.36$ [6](#page=6).
### 2.4 Determinatiecoëfficiënt ($R^2$)
#### 2.4.1 Concept
De determinatiecoëfficiënt ($R^2$) meet de "goodness-of-fit" van een regressiemodel. Het geeft het percentage van de totale variatie in de afhankelijke variabele $Y$ weer dat verklaard wordt door de onafhankelijke variabelen gezamenlijk [6](#page=6).
$$ R^2 = \frac{\text{SSM}}{\text{SST}} = \frac{\sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2}{\sum_{i=1}^{n} (Y_i - \bar{Y})^2} $$
Hierin is SSM de som van de kwadraten verklaard door het model (Sum of Squares Model) en SST de totale som van de kwadraten (Total Sum of Squares) [6](#page=6).
#### 2.4.2 Belang en beperkingen
Een hoge $R^2$ is wenselijk, maar mag geen doel op zich zijn. Het toevoegen van meer variabelen aan het model zal de $R^2$ altijd vergroten, zelfs als de toegevoegde variabelen niet significant zijn. Dit kan leiden tot overfitting, waarbij het model te complex wordt en slecht generaliseert naar nieuwe data [6](#page=6).
### 2.5 Aangepaste determinatiecoëfficiënt ($R^2_{adj}$)
#### 2.5.1 Concept
De aangepaste determinatiecoëfficiënt (adjusted $R^2$) penaliseert het toevoegen van onnodige variabelen aan het model. Het wordt berekend als:
$$ R^2_{\text{adj}} = 1 - \left(1 - R^2\right) \frac{n-1}{n-k} $$
waarbij $n$ het aantal observaties en $k$ het aantal geschatte parameters is [7](#page=7).
#### 2.5.2 Gedrag bij toevoegen van variabelen
Bij het toevoegen van een extra variabele kan de $R^2$ toenemen, maar de $R^2_{\text{adj}}$ kan zowel toenemen als afnemen. De $R^2_{\text{adj}}$ neemt alleen toe als de bijdrage van de extra variabele aan de verklaring van de variatie significant genoeg is om de straf voor het vergroten van $k$ te compenseren [7](#page=7).
#### 2.5.3 Voorbeeld
Bij het kindersterfte model:
* Model met alleen L: $R^2 = 0.637$, $R^2_{\text{adj}} = 0.6294$ [7](#page=7).
* Model met L en TFR: $R^2 = 0.8029$, $R^2_{\text{adj}} = 0.7945$ [7](#page=7).
* Model met L, TFR en BNI: $R^2 = 0.815$, $R^2_{\text{adj}} = 0.803$ [7](#page=7).
In dit voorbeeld neemt de $R^2_{\text{adj}}$ toe wanneer TFR wordt toegevoegd, wat duidt op een verbetering van het model. De toevoeging van BNI verhoogt de $R^2$, maar de $R^2_{\text{adj}}$ stijgt minder sterk, wat suggereert dat BNI minder belangrijke toegevoegde waarde heeft [7](#page=7).
### 2.6 Testen van parameters en model fit
#### 2.6.1 T-testen voor parameters
##### 2.6.1.1 Hypothesen en teststatistiek
Voor elke parameter $\beta_j$ kan een t-test worden uitgevoerd om te toetsen of deze parameter significant verschilt van nul. De nulhypothese is typisch $H_0: \beta_j = 0$, en de alternatieve hypothese $H_1: \beta_j \neq 0$. De teststatistiek is de t-statistiek [8](#page=8):
$$ t = \frac{\hat{\beta}_j - \beta_j}{se(\hat{\beta}_j)} $$
Onder de nulhypothese ($H_0: \beta_j = 0$), volgt de teststatistiek een t-verdeling met $n-k$ vrijheidsgraden [8](#page=8).
##### 2.6.1.2 Beslissingsregel en p-waarde
De nulhypothese wordt verworpen indien de berekende t-waarde kleiner is dan $-t_{n-k, 1-\alpha/2}$ of groter dan $t_{n-k, 1-\alpha/2}$, waar $\alpha$ het significantieniveau is. De p-waarde is de kans om een teststatistiek te observeren die minstens zo extreem is als de berekende waarde, gegeven dat de nulhypothese waar is: $p\text{-waarde} = 2 \times P(|T| \ge |t|)$ met $T \sim t_{n-k}$ [8](#page=8).
##### 2.6.1.3 Betrouwbaarheidsinterval
Een betrouwbaarheidsinterval voor $\beta_j$ wordt gegeven door:
$$ [\hat{\beta}_j - t_{n-k, 1-\alpha/2} se(\hat{\beta}_j), \hat{\beta}_j + t_{n-k, 1-\alpha/2} se(\hat{\beta}_j)] $$
Als dit interval nul niet bevat, wordt de nulhypothese verworpen op significantieniveau $\alpha$ [8](#page=8).
#### 2.6.2 ANOVA voor model fit
##### 2.6.2.1 Concept
Terwijl t-testen de significantie van individuele parameters toetsen, biedt de ANOVA (Analysis of Variance) een globale test voor de fit van het multivariate regressiemodel. De nulhypothese is dat alle partiële hellingen gelijk zijn aan nul: $H_0: \beta_2 = \beta_3 = \dots = \beta_k = 0$. De alternatieve hypothese is dat ten minste één van de parameters ongelijk is aan nul [9](#page=9).
##### 2.6.2.2 Teststatistiek
De F-teststatistiek wordt berekend als:
$$ F = \frac{\text{SSM}/(k-1)}{\text{SSE}/(n-k)} $$
waarbij SSE de som van de kwadraten van de residuen is (Sum of Squared Errors). Onder de nulhypothese volgt de F-statistiek een F-verdeling met $k-1$ en $n-k$ vrijheidsgraden [9](#page=9).
##### 2.6.2.3 Interpretatie
Een grote F-waarde suggereert dat de verklarende variabelen gezamenlijk een significant deel van de variatie in $Y$ verklaren (SSM groot, SSE klein). De nulhypothese wordt verworpen als $F > F_{k-1, n-k, 1-\alpha}$. De p-waarde is $P(F \ge f)$ met $F \sim F_{k-1, n-k}$ [9](#page=9).
##### 2.6.2.4 Voorbeeld (kindersterfte)
De output van software (R) voor het kindersterfte model toont t-testen voor individuele parameters en een F-test voor de algehele fit [10](#page=10).
Voor het model `CM ~ LitF + BNI + TFR`:
* F-statistic: 67.55 op 3 en 46 DF, p-value: < 2.2e-16. Dit wijst op een zeer significante algehele fit [10](#page=10).
Voor het model `CM ~ LitF + TFR`:
* F-statistic: 95.72 op 2 en 47 DF, p-value: < 2.2e-16. Ook hier is de algehele fit zeer significant [10](#page=10).
### 2.7 Eigenschappen van testen
#### 2.7.1 Verband tussen F en $R^2$
Er bestaat een direct verband tussen de F-statistiek en de determinatiecoëfficiënt $R^2$:
$$ F = \frac{\text{SSM}/(k-1)}{\text{SSE}/(n-k)} = \frac{\text{SSM}/(k-1)}{(SST - SSM)/(n-k)} = \frac{n-k}{k-1} \frac{\text{SSM}/SST}{1 - \text{SSM}/SST} = \frac{n-k}{k-1} \frac{R^2}{1-R^2} $$
De F-statistiek is een stijgende functie van $R^2$. Als $R^2=0$, dan $F=0$. Als $R^2$ naar 1 gaat, gaat $F$ naar oneindig [11](#page=11).
#### 2.7.2 ANOVA bij univariate regressie
Bij univariate regressie ($k=2$, met één verklarende variabele en een constante), is de t-test voor de hellingparameter equivalent aan de F-test voor de algehele model fit. De kwadraat van de t-statistiek met $\nu$ vrijheidsgraden is gelijk aan een F-statistiek met 1 en $\nu$ vrijheidsgraden ($T^2 \sim F_{1,\nu}$) [11](#page=11).
Voor univariate regressie met $n$ observaties en één verklarende variabele:
$$ F = \frac{\text{SSM}/(2-1)}{\text{SSE}/(n-2)} = \frac{\text{SSM}}{\text{SSE}/(n-2)} $$
De t-teststatistiek voor de helling $\beta_2$ is:
$$ t = \frac{\hat{\beta}_2}{se(\hat{\beta}_2)} $$
De relatie $F = t^2$ geldt hier [11](#page=11).
---
# Statistische toetsen en modeldiagnostiek
Dit deel behandelt de statistische toetsen die gebruikt worden om parameters van lineaire regressiemodellen te evalueren en de algehele fit van het model te beoordelen, evenals methoden om de onderstellingen van het model te controleren met diagnostische plots [10](#page=10) [11](#page=11) [12](#page=12) [13](#page=13) [8](#page=8) [9](#page=9).
### 3.1 T-testen voor parameters
T-testen worden gebruikt om individuele parameters in een lineair regressiemodel te toetsen. De standaardlineaire regressiemodel (SLRM) gaat ervan uit dat de storingstermen ($\epsilon_i$) normaal verdeeld zijn wat impliceert dat de geschatte coëfficiënten ($\hat{\beta}_j$) ook normaal verdeeld zijn: $\hat{\beta}_j \sim \mathcal{N}(\beta_j, \text{Var}(\hat{\beta}_j))$. De variantie van $\hat{\beta}_j$, $\text{Var}(\hat{\beta}_j)$, wordt geschat met een zuivere schatter $\hat{\sigma}^2$, wat leidt tot de t-verdeling [8](#page=8):
$$
\frac{\hat{\beta}_j - \beta_j}{\text{se}(\hat{\beta}_j)} \sim t_{n-k}
$$
waarbij $\text{se}(\hat{\beta}_j)$ de standaardfout van $\hat{\beta}_j$ is, en $n-k$ de vrijheidsgraden zijn, met $n$ het aantal observaties en $k$ het aantal parameters in het model (inclusief de intercept) [8](#page=8).
#### 3.1.1 Hypothesetesten voor $\beta_j$
De nulhypothese die getoetst wordt is $H_0: \beta_j = 0$, wat betekent dat de verklarende variabele $X_j$ geen lineair verband heeft met de afhankelijke variabele $Y$ na controle voor andere variabelen in het model. De toetsstatistiek is [8](#page=8):
$$
T = \frac{\hat{\beta}_j}{\text{se}(\hat{\beta}_j)}
$$
Onder de nulhypothese volgt $T$ een $t$-verdeling met $n-k$ vrijheidsgraden. De nulhypothese wordt verworpen als de berekende toetsstatistiek $t$ kleiner is dan de linker kritieke waarde of groter dan de rechter kritieke waarde van de $t$-verdeling bij een gegeven significantieniveau $\alpha$, oftewel $t < -t_{n-k, 1-\alpha/2}$ of $t > t_{n-k, 1-\alpha/2}$ [8](#page=8).
De p-waarde is tweezijdig gedefinieerd als $2 \times P[T > |t|]$ met $T \sim t_{n-k}$. Een betrouwbaarheidsinterval voor $\beta_j$ wordt gegeven door [8](#page=8):
$$
[\hat{\beta}_j - t_{n-k, 1-\alpha/2} \text{se}(\hat{\beta}_j), \hat{\beta}_j + t_{n-k, 1-\alpha/2} \text{se}(\hat{\beta}_j)
$$
Hierbij is $t_{n-k, 1-\alpha/2}$ de kritieke waarde uit de $t$-verdeling met $n-k$ vrijheidsgraden die $1-\alpha/2$ van de kans in de linkerstaart bevat [8](#page=8).
### 3.2 ANOVA voor model fit
De ANOVA (Analysis of Variance) toets wordt gebruikt om de algehele fit van het regressiemodel te evalueren door te testen of ten minste één van de partiële regressiecoëfficiënten ongelijk is aan nul. In tegenstelling tot de t-testen die individuele parameters toetsen, is de ANOVA een globale test voor alle partiële slopes ($\beta_2, \ldots, \beta_k$) tegelijk [9](#page=9).
#### 3.2.1 Hypotheses voor de algehele fit
De nulhypothese stelt dat alle partiële slopes gelijk zijn aan nul:
$H_0: \beta_2 = \beta_3 = \ldots = \beta_k = 0$ [9](#page=9).
De alternatieve hypothese is dat ten minste één van de $\beta_j$ ongelijk is aan nul:
$H_1: \exists j \text{ waarvoor } \beta_j \neq 0$ [9](#page=9).
#### 3.2.2 Toetsstatistiek en interpretatie
De toetsstatistiek voor de ANOVA is de F-statistiek:
$$
F = \frac{\text{SSM}/(k-1)}{\text{SSE}/(n-k)}
$$
waarbij SSM (Sum of Squares Model) de verklaarde variantie door het model is, SSE (Sum of Squares Error) de residuele variantie is, $k-1$ de vrijheidsgraden van het model zijn (het aantal verklarende variabelen), en $n-k$ de vrijheidsgraden van de residuen zijn [9](#page=9).
Onder de nulhypothese ($H_0: \beta_2 = \ldots = \beta_k = 0$) en de aannames van SLRM, volgt de F-statistiek een F-verdeling met $k-1$ en $n-k$ vrijheidsgraden: $F \sim F_{k-1, n-k}$ [9](#page=9).
* Als de invloed van de verklarende variabelen beperkt is, zal SSM klein zijn en SSE groot, wat resulteert in een kleine F-waarde [9](#page=9).
* Als de verklarende variabelen veel variatie verklaren, zal SSM groot zijn en SSE klein, wat resulteert in een grote F-waarde [9](#page=9).
De nulhypothese wordt verworpen als de berekende F-waarde groot is, specifiek als $F > F_{k-1, n-k, 1-\alpha}$, waarbij $F_{k-1, n-k, 1-\alpha}$ de kritieke waarde uit de F-verdeling is. De p-waarde is $P[F \ge f]$ met $F \sim F_{k-1, n-k}$ [9](#page=9).
#### 3.2.3 Verband tussen F en $R^2$
Er bestaat een direct verband tussen de F-statistiek en de multiple correlatiecoëfficiënt ($R^2$):
$$
F = \frac{\text{SSM}/(k-1)}{\text{SSE}/(n-k)} = \frac{\text{SSM}/(k-1)}{(SST - \text{SSM})/(n-k)} = \frac{n-k}{k-1} \frac{\text{SSM}/SST}{1 - \text{SSM}/SST} = \frac{n-k}{k-1} \frac{R^2}{1-R^2}
$$
De F-statistiek is een stijgende functie van $R^2$. Als $R^2=0$, dan $F=0$. Naarmate $R^2$ toeneemt, neemt $F$ ook toe [11](#page=11).
#### 3.2.4 ANOVA bij univariate regressie
Bij univariate regressie (slechts één verklarende variabele) zijn de t-test voor de slope en de ANOVA equivalent. De F-statistiek voor $k=2$ is gelijk aan het kwadraat van de t-statistiek ($T^2$). Dit komt omdat het kwadraat van een t-verdeelde variabele met $v$ vrijheidsgraden volgt een F-verdeling met 1 en $v$ vrijheidsgraden ($X \sim t_v \Rightarrow X^2 \sim F_{1,v}$) [11](#page=11).
> **Tip:** De ANOVA is vooral nuttig in multivariate regressie om de algehele significantie van het model te beoordelen wanneer er meerdere verklarende variabelen zijn [9](#page=9).
#### 3.2.5 Voorbeeld: kindersterfte
In het gegeven document wordt een voorbeeld gegeven van een regressieanalyse voor kindersterfte (CM) met LitF, BNI en TFR als verklarende variabelen. De output toont een F-statistiek van 67.55 met een p-waarde van minder dan 2.2e-16, wat significant is en indiceert dat ten minste één van de verklarende variabelen significant geassocieerd is met kindersterfte. Een tweede voorbeeld toont de analyse na het verwijderen van BNI, waar de F-statistiek 95.72 is met een vergelijkbaar lage p-waarde [10](#page=10).
### 3.3 Modeldiagnostiek: onderstellingen controleren
De geldigheid van t-testen en ANOVA is afhankelijk van de onderstellingen van het Standaard Lineaire Regressiemodel (SLRM). Het is daarom cruciaal om deze onderstellingen te controleren met behulp van diagnostische plots [12](#page=12).
#### 3.3.1 Diagnostische plots
Twee veelgebruikte diagnostische plots zijn de residuplot en de QQ-plot [12](#page=12).
* **Residuplot:** Deze plot toont de gestandaardiseerde residu's ($\hat{e}_i$) tegen de voorspelde waarden ($\hat{y}_i$) [12](#page=12).
* **Ideaal patroon:** Een willekeurige puntenwolk tussen de waarden -2 en 2, zonder duidelijke patronen [12](#page=12).
* **Schending:** Patronen zoals een trechtervorm (heteroscedasticiteit), krommingen (niet-lineariteit) of clustering van punten kunnen wijzen op schendingen van de SLRM-onderstellingen [12](#page=12).
> **Voorbeeld (Kindersterfte):** De voorbeeld residuplot toont een redelijk willekeurige spreiding van punten rond nul, met de meeste residu's tussen -1 en 1, wat suggereert dat de meeste onderstellingen voor dit model relatief goed worden nagekomen [12](#page=12).
* **QQ-plot (Quantile-Quantile plot):** Deze plot vergelijkt de empirische kwantielen van de residu's met de theoretische kwantielen van een normale verdeling [12](#page=12).
* **Ideaal patroon:** Een rechtlijnig patroon, wat aangeeft dat de residu's ongeveer normaal verdeeld zijn [12](#page=12).
* **Schending:** Afwijkingen van de rechte lijn, zoals S-vormige patronen of een boogvorm, duiden op afwijkingen van normaliteit [12](#page=12).
> **Voorbeeld (Kindersterfte):** De voorbeeld QQ-plot laat zien dat de steekproefkwantielen (Sample Quantiles) redelijk goed langs de theoretische kwantielen (Theoretical Quantiles) liggen, vooral in het midden. Er is een lichte afwijking aan de uitersten, wat kan wijzen op lichte schendingen van normaliteit, maar over het algemeen is het patroon redelijk lineair [13](#page=13).
> **Tip:** Bij het interpreteren van diagnostische plots is het belangrijk om te zoeken naar patronen die consistent wijzen op een schending van een specifieke onderstelling. Kleine afwijkingen zijn vaak acceptabel, vooral bij grotere steekproeven [12](#page=12).
### 3.4 Modelopbouwstrategieën
Hoewel dit deel zich voornamelijk richt op testen en diagnostiek, wordt kort ingegaan op modelopbouwstrategieën. Automatische selectie van verklarende variabelen kan tijdrovend zijn als alle mogelijke modellen worden geëvalueerd. Veelgebruikte methoden zijn [13](#page=13):
* **Voorwaartse regressie (forward selection):** Begint met een leeg model en voegt stapsgewijs de variabele toe die de grootste verbetering oplevert (bv. grootste absolute t-waarde of kleinste p-waarde, met $p < \alpha$) [13](#page=13).
* **Achterwaartse regressie (backward elimination):** Begint met een volledig model en verwijdert stapsgewijs de variabele die de minste bijdrage levert (bv. kleinste absolute t-waarde of grootste p-waarde, met $p > \alpha$) [13](#page=13).
* **Stapsgewijze regressie (stepwise regression):** Een combinatie waarbij in elke stap variabelen kunnen worden toegevoegd of verwijderd [13](#page=13).
> **Let op:** Deze automatische procedures geven niet altijd het beste model [13](#page=13).
---
# Uitbreidingen van het lineaire model: multicollineariteit, dummyvariabelen en interactietermen
Dit onderwerp verdiept de analyse van lineaire modellen door aandacht te besteden aan uitdagingen zoals multicollineariteit, het omgaan met categorische predictoren via dummyvariabelen, en het modelleren van complexere relaties met interactietermen [14](#page=14) [19](#page=19) [2](#page=2).
### 4.1 Multicollineariteit
Multicollineariteit treedt op wanneer een verklarende variabele in een lineair regressiemodel lineair geassocieerd kan worden met één of meer andere verklarende variabelen. In het standaard multivariate lineaire regressiemodel, $Y_i = \beta_1 + \beta_2 X_{2i} + \beta_3 X_{3i} + \epsilon_i$, wordt multicollineariteit een probleem als bijvoorbeeld $X_{3i} = 2X_{2i}$. In dit geval kan het model herschreven worden als $Y_i = \beta_1 + (\beta_2 + 2\beta_3) X_{2i} + \epsilon_i$, waardoor het model effectief minder parameters heeft en de oorspronkelijke parameters $\beta_2$ en $\beta_3$ niet langer individueel geschat kunnen worden [14](#page=14) [2](#page=2).
#### 4.1.1 Gevolgen van multicollineariteit
Hoewel het model nog steeds een voorspellend vermogen kan hebben, leiden (niet-perfecte) multicollineariteitsproblemen tot een verminderde precisie van de geschatte parameters ($\beta_j$). Dit uit zich in hogere varianties voor de schatters. De covariantie matrix van de parameterschatters wordt gegeven door $\text{Cov}(\hat{\boldsymbol{\beta}}) = \sigma^2 (X^T X)^{-1}$. Wanneer de determinant van $X^T X$ klein is (wat duidt op multicollineariteit), zullen de waarden in de diagonale elementen van $(X^T X)^{-1}$, die gerelateerd zijn aan de varianties van de schatters, groot zijn [14](#page=14).
#### 4.1.2 Detecteren van multicollineariteit
Kenmerken van aanzienlijke multicollineariteit zijn:
* Grote standaardfouten van de schatters, ondanks een hoge $R^2$ voor het gehele model [14](#page=14).
* Kleine wijzigingen in de gegevens die leiden tot grote verschuivingen in de parameterschattingen [14](#page=14).
* Geschatte parameters die een "verkeerd" teken hebben of onwaarschijnlijke groottes vertonen [14](#page=14).
#### 4.1.3 Meten van multicollineariteit met VIF
Een veelgebruikte maatstaf om de ernst van multicollineariteit te kwantificeren is de variance inflation factor (VIF). Om de VIF voor een predictor $X_j$ te berekenen, wordt een regressiemodel opgesteld waarbij $X_j$ wordt verklaard door alle andere verklarende variabelen in het model. De bijbehorende determinatiecoëfficiënt, $R_j^2$, wordt bepaald. De VIF voor $\beta_j$ wordt vervolgens berekend als [14](#page=14):
$$ \text{VIF}(\hat{\beta}_j) = \frac{1}{1 - R_j^2} $$
Als een predictor $X_j$ niet gecorreleerd is met de andere predictoren, is $R_j^2 = 0$ en $\text{VIF}(\hat{\beta}_j) = 1$. Wanneer $X_j$ sterk gecorreleerd is met andere predictoren, nadert $R_j^2$ naar 1, wat resulteert in een VIF groter dan 1. Een VIF groter dan 10 wordt doorgaans beschouwd als een indicatie van ernstige multicollineariteit [14](#page=14).
> **Tip:** De VIF berekent hoe sterk de variantie van de geschatte coëfficiënt $\hat{\beta}_j$ wordt "opgeblazen" door de correlatie met andere predictoren.
> **Voorbeeld:** In een studie naar kindersterfte (CM) als functie van geletterdheid bij vrouwen (L), total fertility rate (TFR) en BNI per capita (BNI), was het regressiemodel: $CM_i = 86.66 - 0.96 L_i + 23.36 TFR_i - 0.010 BNI_i$ met $R^2=0.82$. De berekende VIF's waren 2.30 voor L, 2.72 voor TFR en 1.69 voor BNI. Aangezien alle VIF's ver onder 10 liggen, is er geen aanwijzing voor sterke multicollineariteit in dit model [15](#page=15).
### 4.2 Dummyvariabelen
Dummyvariabelen worden gebruikt om nominale (categorische) predictoren, zoals geslacht, diploma, of regio, op te nemen in een lineair regressiemodel. Een nominale variabele met $m$ mogelijke uitkomsten wordt omgezet in $m-1$ dummyvariabelen, waarbij elke dummyvariabele de waarde 0 of 1 aanneemt. Eén uitkomst wordt als referentiecategorie aangeduid en krijgt geen eigen dummyvariabele. Als alle $m$ dummyvariabelen zouden worden opgenomen, zou dit leiden tot perfecte multicollineariteit, aangezien de som van de dummyvariabelen gelijk zou zijn aan een constante (of de intercept) [15](#page=15).
#### 4.2.1 Implementatie van dummyvariabelen
Stel, we willen het brutoloon modelleren als functie van ervaring en diploma (bachelor versus master). Eerst bekijken we een model met enkel ervaring: $E(B) = 2485.99 + 40.28 J$. Dit model suggereert dat starterslonen gemiddeld 2485.99 euro bedragen en dat elke extra jaar ervaring leidt tot een gemiddelde loonstijging van 40.28 euro [16](#page=16) [17](#page=17).
Om het effect van het diploma mee te nemen, creëren we een dummyvariabele, $D$, waarbij $D=0$ voor een bachelor en $D=1$ voor een master. Het model wordt uitgebreid naar: $E(B) = 1998.63 + 44.17 J + 792.85 D$ [15](#page=15) [17](#page=17).
* Voor werknemers met een bachelor ($D=0$): $E(B) = 1998.63 + 44.17 J$. Het startersloon is gemiddeld 1998.63 euro.
* Voor werknemers met een master ($D=1$): $E(B) = (1998.63 + 792.85) + 44.17 J = 2791.48 + 44.17 J$. Het startersloon is gemiddeld 2791.48 euro.
> **Tip:** De coëfficiënt van de dummyvariabele ($\beta_{diplomamaster}$ in dit geval) vertegenwoordigt het *verschil* in de gemiddelde uitkomst (brutoloon) tussen de categorie die door de dummyvariabele wordt vertegenwoordigd (master) en de referentiecategorie (bachelor), *terwijl de andere variabelen (ervaring) constant worden gehouden* [17](#page=17).
#### 4.2.2 Interpretatie van de intercept en slopes met dummyvariabelen
In het model $E(B) = 1998.63 + 44.17 J + 792.85 D$:
* De intercept ($1998.63$) is het gemiddelde startersloon voor de referentiecategorie (bachelor) [17](#page=17).
* De coëfficiënt van ervaring ($44.17$) geeft aan dat loon met 44.17 euro stijgt per extra jaar ervaring, *ongeacht het diplomaniveau* [17](#page=17).
* De coëfficiënt van de dummyvariabele ($792.85$) geeft aan dat het gemiddelde startersloon voor masters 792.85 euro hoger ligt dan dat voor bachelors [17](#page=17).
### 4.3 Interactietermen
Interactietermen worden gebruikt om te modelleren of het effect van een predictor op de responsvariabele wijzigt afhankelijk van de waarde van een andere predictor. Met andere woorden, ze vangen het *interactie-effect* tussen predictoren op. Wanneer een interactieterm van twee predictoren, $V$ en $W$, wordt toegevoegd aan een model, is het essentieel dat de onderliggende predictoren $V$ en $W$ zelf ook in het model aanwezig zijn [19](#page=19).
#### 4.3.1 Modelleren van interactie-effecten
Laten we het eerdere voorbeeld van brutoloon uitbreiden met een interactieterm tussen ervaring ($J$) en diploma ($D$, waarbij $D=0$ voor bachelor, $D=1$ voor master). Het model wordt [19](#page=19):
$$ E(B) = \beta_1 + \beta_2 J + \beta_3 D + \beta_4 (D \cdot J) $$
Hierbij wordt de interactieterm aangeduid als $J:D$ [19](#page=19).
Het geschatte model met de interactieterm is: $E(B) = 2206.10 + 34.39 J + 377.24 D + 20.85 D \cdot J$ [20](#page=20).
De interpretatie wordt nu complexer:
* **Voor bachelors ($D=0$):**
$E(B) = 2206.10 + 34.39 J + 377.24 + 20.85 (0 \cdot J)$ .
$E(B) = 2206.10 + 34.39 J$
Het gemiddelde startersloon voor bachelors is 2206.10 euro, en elke extra jaar ervaring leidt tot een stijging van 34.39 euro [20](#page=20).
* **Voor masters ($D=1$):**
$E(B) = 2206.10 + 34.39 J + 377.24 + 20.85 (1 \cdot J)$ [1](#page=1).
$E(B) = (2206.10 + 377.24) + (34.39 + 20.85) J$
$E(B) = 2583.34 + 55.24 J$
Het gemiddelde startersloon voor masters is 2583.34 euro, en elke extra jaar ervaring leidt tot een stijging van 55.24 euro [20](#page=20).
#### 4.3.2 Interpretatie van de coëfficiënten met interactietermen
In het interactiemodel $E(B) = 2206.10 + 34.39 J + 377.24 D + 20.85 D \cdot J$:
* De intercept ($2206.10$) is het gemiddelde startersloon voor de referentiegroep (bachelor, $D=0$) [20](#page=20).
* De coëfficiënt van de eerste predictor ($J$, $34.39$) is de *slope* van die predictor voor de referentiegroep (bachelor) [20](#page=20).
* De coëfficiënt van de dummyvariabele ($D$, $377.24$) is het *verschil* in de intercept tussen de niet-referentiegroep (master) en de referentiegroep (bachelor) [20](#page=20).
* De coëfficiënt van de interactieterm ($D \cdot J$, $20.85$) is de *verandering in de slope* van de eerste predictor ($J$) wanneer men overgaat van de referentiegroep (bachelor) naar de niet-referentiegroep (master). Dit betekent dat het effect van ervaring op het loon voor masters $20.85$ euro hoger is dan voor bachelors [20](#page=20).
> **Tip:** Een significant interactieterm duidt erop dat de relatie tussen een predictor en de responsvariabele verschilt voor verschillende niveaus van de andere predictor. Dit resulteert in parallelle regressielijnen (geen interactie) versus niet-parallelle regressielijnen (interactie).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Multivariate lineaire regressie | Een statistische methode die de lineaire relatie tussen een afhankelijke variabele en twee of meer onafhankelijke variabelen modelleert. Het doel is om te begrijpen hoe de onafhankelijke variabelen de afhankelijke variabele gezamenlijk beïnvloeden. |
| Standaard multivariate lineaire model (SLRM) | Een regressiemodel dat een lineair verband veronderstelt tussen de gemiddelde waarde van de afhankelijke variabele en een lineaire combinatie van de onafhankelijke variabelen, met een toevoeging van een storingsterm die aan specifieke voorwaarden voldoet. |
| Partiële slope (richtingscoëfficiënt) | De gemiddelde verandering in de afhankelijke variabele wanneer een specifieke onafhankelijke variabele met één eenheid toeneemt, terwijl alle andere onafhankelijke variabelen constant worden gehouden. |
| Intercept | De verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen gelijk zijn aan nul. In de context van multivariate regressie is dit het punt waar het regressievlak de y-as snijdt. |
| Kleinstekwadratenmethode | Een wiskundige methode om de "beste" schatting te vinden voor de parameters van een model door de som van de gekwadrateerde verschillen tussen de geobserveerde waarden en de voorspelde waarden te minimaliseren. |
| Residuen | Het verschil tussen de werkelijke geobserveerde waarde van de afhankelijke variabele en de waarde die door het regressiemodel wordt voorspeld. Residuen vertegenwoordigen de niet-verklaarde variatie in de afhankelijke variabele. |
| Multicollineariteit | Een fenomeen waarbij twee of meer onafhankelijke variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn. Dit kan leiden tot onstabiele en onbetrouwbare parameterschattingen. |
| Gauss-Markov stelling | Stelt dat de kleinstekwadratenschatters voor de parameters in een lineair regressiemodel de Best Linear Unbiased Estimators (BLUE) zijn, mits aan bepaalde voorwaarden wordt voldaan. |
| Standaardfout van een schatter | Een maat voor de precisie van een schatter. Het is de standaarddeviatie van de steekproevenverdeling van de schatter en geeft aan hoeveel de schatter naar verwachting varieert rond de ware parameterwaarde. |
| Determinatiecoëfficiënt ($R^2$) | Een statistische maat die het percentage van de totale variatie in de afhankelijke variabele weergeeft dat verklaard wordt door de onafhankelijke variabelen in het model. Een hogere $R^2$ duidt op een betere fit. |
| Aangepaste determinatiecoëfficiënt ($R^2_{adj}$) | Een aangepaste versie van de determinatiecoëfficiënt die rekening houdt met het aantal onafhankelijke variabelen in het model. Het wordt gebruikt om modellen met een verschillend aantal predictoren eerlijker te vergelijken, omdat het penaliseert voor het toevoegen van overbodige variabelen. |
| T-test voor een parameter | Een statistische toets om te bepalen of een specifieke onafhankelijke variabele een significant lineair effect heeft op de afhankelijke variabele, door te testen of de bijbehorende parameterschatting significant verschilt van nul. |
| ANOVA (Variantieanalyse) | Een statistische methode die wordt gebruikt om de variantie tussen groepen te analyseren en te bepalen of de gemiddelden van deze groepen significant van elkaar verschillen. In regressiecontext wordt het gebruikt voor een globale test van de fit van het model. |
| Diagnostische plots | Grafische hulpmiddelen die worden gebruikt om de onderstellingen van een statistisch model te controleren, zoals de lineariteit van de relatie, de homoscedasticiteit van de residuen, en de normaliteit van de storingstermen. |
| Residuplot | Een plot van de gestandaardiseerde residuen tegen de voorspelde waarden. Het helpt bij het identificeren van patronen die wijzen op schendingen van de modelonderstellingen, zoals heteroscedasticiteit of niet-lineariteit. |
| QQ-plot (Quantile-Quantile plot) | Een grafische techniek die wordt gebruikt om te beoordelen of een dataset (in dit geval de gestandaardiseerde residuen) een bepaalde theoretische verdeling volgt, meestal de normale verdeling. |
| Modelopbouw (Model building) | Het proces van het selecteren van de meest geschikte onafhankelijke variabelen en hun interacties om een regressiemodel te creëren dat de relatie tussen variabelen effectief beschrijft. Methoden zoals voorwaartse en achterwaartse selectie worden hierbij gebruikt. |
| Variance Inflation Factor (VIF) | Een maatstaf voor de mate van multicollineariteit in een regressiemodel. Een hoge VIF-waarde voor een predictor geeft aan dat deze sterk gecorreleerd is met andere predictoren in het model. |
| Dummyvariabele | Een binaire variabele die wordt gebruikt om categorische predictoren met twee of meer niveaus in een regressiemodel op te nemen. Meestal neemt deze de waarde 0 of 1 aan. |
| Interactieterm | Een term in een regressiemodel die het gecombineerde effect van twee of meer onafhankelijke variabelen op de afhankelijke variabele modelleert. Het vertegenwoordigt een afwijking van het additieve effect van de variabelen. |