Cover
Börja nu gratis Set 7 H11 Meervoudige Regressie.pptx
Summary
# Inleiding tot regressie-analyse
Dit gedeelte introduceert de concepten van enkelvoudige en meervoudige lineaire regressie, inclusief de statistische modellen en de onderliggende ideeën voor het voorspellen van variabelen.
## 1. Het statistisch model voor regressie
### 1.1 Enkelvoudige lineaire regressie
Bij enkelvoudige lineaire regressie gaan we ervan uit dat voor elke vaste waarde van de onafhankelijke variabele $x$, de afhankelijke variabele $y$ normaal verdeeld is rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$. Dit model kan worden uitgedrukt als:
$$y_i = \beta_0 + \beta_1 x_i + \epsilon_i$$
waarbij:
- $y_i$ de geobserveerde waarde van de afhankelijke variabele is voor observatie $i$.
- $x_i$ de waarde van de onafhankelijke variabele is voor observatie $i$.
- $\beta_0$ de intercept is, wat de verwachte waarde van $y$ is wanneer $x$ nul is.
- $\beta_1$ de helling is, wat aangeeft hoeveel $y$ verandert voor een eenheidsverandering in $x$.
- $\epsilon_i$ de foutterm is voor observatie $i$, die verondersteld wordt normaal verdeeld te zijn met een gemiddelde van nul en een standaardafwijking $\sigma$ ($\epsilon_i \sim N(0, \sigma)$).
### 1.2 Meervoudige lineaire regressie
Meervoudige lineaire regressie breidt het enkelvoudige model uit naar meerdere onafhankelijke variabelen. Hierbij gaat men ervan uit dat voor elke specifieke combinatie van waarden van de onafhankelijke variabelen $x_1, x_2, \ldots, x_p$, de afhankelijke variabele $y$ normaal verdeeld is rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$. Het model wordt dan:
$$y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip} + \epsilon_i$$
waarbij:
- $y_i$ de geobserveerde waarde van de afhankelijke variabele is voor observatie $i$.
- $x_{ij}$ de waarde is van de $j$-de onafhankelijke variabele voor observatie $i$.
- $\beta_0$ de intercept is.
- $\beta_j$ (voor $j = 1, \ldots, p$) de regressiecoëfficiënt is voor de $j$-de onafhankelijke variabele, die aangeeft hoe $y$ verandert wanneer $x_j$ met één eenheid toeneemt, terwijl alle andere onafhankelijke variabelen constant worden gehouden.
- $\epsilon_i$ de foutterm is voor observatie $i$, die verondersteld wordt normaal verdeeld te zijn met een gemiddelde van nul en een standaardafwijking $\sigma$ ($\epsilon_i \sim N(0, \sigma)$).
**Voorbeeld:** Het voorspellen van studiesucces (GPA) op basis van middelbare schoolresultaten in wiskunde, wetenschappen en Engels. Hier is GPA de afhankelijke variabele, en de middelbare schoolcijfers zijn de onafhankelijke variabelen.
### 1.3 De rol van de foutterm en residuen
De foutterm $\epsilon_i$ vertegenwoordigt de variatie in $y$ die niet wordt verklaard door de lineaire relatie met de onafhankelijke variabelen. In de praktijk schatten we de regressiecoëfficiënten ($\beta_0, \beta_1, \ldots, \beta_p$) door de som van de gekwadrateerde residuen te minimaliseren. Een residu ($e_i$) is het verschil tussen de geobserveerde waarde van $y$ en de voorspelde waarde van $y$ op basis van het geschatte model:
$$e_i = y_i - \hat{y}_i$$
waarbij $\hat{y}_i$ de voorspelde waarde van $y$ is. Het doel is om de coëfficiënten zo te bepalen dat $\sum_{i=1}^n e_i^2$ minimaal is.
## 2. Schatten van regressieparameters
### 2.1 Schatten van $\beta$ coëfficiënten
De regressiecoëfficiënten $\beta_0, \beta_1, \ldots, \beta_p$ worden geschat met behulp van de kleinste-kwadratenmethode (Least Squares Estimation). Dit proces wordt meestal uitgevoerd door statistische software, omdat het rekenintensief kan zijn, vooral bij meervoudige regressie. De geschatte coëfficiënten worden aangeduid met $b_0, b_1, \ldots, b_p$.
### 2.2 Schatten van $\sigma^2$
De variantie van de foutterm, $\sigma^2$, die de spreiding van de waarnemingen rond de populatieregressielijn weergeeft, wordt geschat met behulp van de residuen. De geschatte variantie $\hat{\sigma}^2$ wordt berekend als het gemiddelde van de gekwadrateerde residuen gedeeld door de vrijheidsgraden:
$$\hat{\sigma}^2 = \frac{\sum_{i=1}^n e_i^2}{n - (p + 1)}$$
Hier is $n$ het aantal waarnemingen en $p$ het aantal onafhankelijke variabelen. De term $p+1$ vertegenwoordigt het aantal te schatten parameters ($\beta_0, \beta_1, \ldots, \beta_p$).
## 3. Inferentie voor regressieparameters
### 3.1 Betrouwbaarheidsintervallen voor $\beta_i$
Voor elke geschatte regressiecoëfficiënt $b_i$ kunnen betrouwbaarheidsintervallen worden berekend om een reeks plausibele waarden voor de werkelijke populatiecoëfficiënt $\beta_i$ te geven. Een $(1-\alpha) \times 100\%$ betrouwbaarheidsinterval voor $\beta_i$ wordt gegeven door:
$$b_i \pm t_{\alpha/2, n-p-1} \cdot \text{SE}(b_i)$$
waarbij:
- $b_i$ de geschatte regressiecoëfficiënt is.
- $t_{\alpha/2, n-p-1}$ de kritieke waarde is van de t-verdeling met $n-p-1$ vrijheidsgraden, corresponderend met een tweezijdig significantieniveau $\alpha$.
- $\text{SE}(b_i)$ de standaardfout van de geschatte coëfficiënt $b_i$ is.
### 3.2 Hypothesetoetsen voor $\beta_i$
Hypothesetoetsen worden gebruikt om te bepalen of een specifieke onafhankelijke variabele een statistisch significant effect heeft op de afhankelijke variabele. De nulhypothese is vaak dat de coëfficiënt nul is, wat aangeeft dat de variabele geen lineair verband heeft met de afhankelijke variabele, rekening houdend met de andere variabelen in het model.
#### 3.2.1 T-toets
Voor elke individuele coëfficiënt $\beta_i$ wordt een t-toets uitgevoerd. De nulhypothese is $H_0: \beta_i = 0$ tegen de alternatieve hypothese $H_a: \beta_i \neq 0$. De t-toetsingsgrootheid wordt berekend als:
$$t = \frac{b_i - \beta_{i,0}}{\text{SE}(b_i)}$$
waarbij $\beta_{i,0}$ de waarde onder de nulhypothese is (meestal 0). De toetsingsgrootheid volgt een t-verdeling met $n-p-1$ vrijheidsgraden.
**Tip:** Een p-waarde die kleiner is dan het gekozen significantieniveau (bv. 0.05) suggereert dat de nulhypothese verworpen kan worden, wat aangeeft dat de variabele een statistisch significant effect heeft. Het is echter belangrijk om te onthouden dat "statistisch significant" niet noodzakelijk "belangrijk" betekent; de effectgrootte en context zijn cruciaal.
#### 3.2.2 F-toets voor regressie-analyse
De F-toets wordt gebruikt om te evalueren of het volledige regressiemodel als geheel significant is, oftewel of ten minste één van de onafhankelijke variabelen een significant effect heeft op de afhankelijke variabele. De nulhypothese is:
$H_0: \beta_1 = \beta_2 = \ldots = \beta_p = 0$
De alternatieve hypothese is:
$H_a:$ Minstens één $\beta_i \neq 0$ voor $i \in \{1, \ldots, p\}$.
De F-toetsingsgrootheid vergelijkt de variantie verklaard door het model met de resterende variantie. De overschrijdingskans (p-waarde) is de kans dat een F-statistiek, afkomstig uit een F-verdeling met $p$ en $n-p-1$ vrijheidsgraden, groter is dan de berekende toetsingsgrootheid, aangenomen dat de nulhypothese waar is.
**Bij enkelvoudige lineaire regressie:** De F-toets van de ANOVA-tabel is equivalent aan de tweezijdige t-toets voor de nulhypothese $H_0: \beta_1 = 0$.
**Bij meervoudige regressie:** De F-toets toetst de nulhypothese dat *alle* regressiecoëfficiënten (behalve de intercept) nul zijn.
## 4. Determinatiecoëfficiënt ($R^2$)
### 4.1 Interpretatie
De determinatiecoëfficiënt, $R^2$, is een maatstaf voor de proportie van de totale variantie in de afhankelijke variabele ($y$) die wordt verklaard door de set van onafhankelijke variabelen ($x_1, \ldots, x_p$) in het regressiemodel. Het varieert van 0 tot 1.
$$R^2 = \frac{\text{Variantie verklaard door het model}}{\text{Totale variantie in } y}$$
Een $R^2$ van 0.75 betekent bijvoorbeeld dat 75% van de variabiliteit in $y$ kan worden verklaard door de onafhankelijke variabelen in het model. Dit kan ook geïnterpreteerd worden als de proportionele reductie in de voorspellingsfout van $y$ wanneer het regressiemodel wordt gebruikt, vergeleken met het voorspellen van $y$ zonder kennis van de onafhankelijke variabelen (dat wil zeggen, door simpelweg het gemiddelde van $y$ te gebruiken).
**Tip:** Een hoge $R^2$ betekent niet automatisch dat het model goed is. Het model kan nog steeds slechte voorspellingen doen of andere aannames schenden. Het is essentieel om ook de significantie van individuele coëfficiënten, de residuenanalyse en de context van het probleem te overwegen.
### 4.2 Aangepaste $R^2$ (Adjusted $R^2$)
De $R^2$ heeft de neiging toe te nemen naarmate er meer variabelen aan het model worden toegevoegd, zelfs als deze variabelen geen significante bijdrage leveren. Dit kan leiden tot het "overfitten" van het model aan de data, waarbij het model ruis in de data mee modelleert en de voorspellende kracht op nieuwe, ongeziene data afneemt.
De aangepaste $R^2$ corrigeert voor het aantal verklarende variabelen in het model en de steekproefgrootte. Het is vooral nuttig bij het vergelijken van modellen met een verschillend aantal onafhankelijke variabelen. De aangepaste $R^2$ wordt kleiner naarmate er meer variabelen worden toegevoegd die weinig verklarende waarde hebben, en kan zelfs negatief zijn.
$$\text{Aangepaste } R^2 = 1 - \left( \frac{1 - R^2}{1} \right) \left( \frac{n - 1}{n - p - 1} \right)$$
**Voorbeeld:** Bij het voorspellen van studiesucces (GPA) met variabelen als middelbare school resultaten, SAT scores, etc. De aangepaste $R^2$ helpt bepalen welk model, met een verschillend aantal van deze voorspellers, de beste balans biedt tussen verklaringskracht en modelcomplexiteit.
## 5. Onderzoek van residuen en collineariteit
### 5.1 Residuenanalyse
Het onderzoeken van de residuen is cruciaal om de aannames van het lineaire regressiemodel te controleren en potentiële problemen te identificeren. Dit omvat:
- **Residuen versus voorspelde waarden:** Een willekeurig spreidingspatroon suggereert dat de lineaire relatie geschikt is. Patronen zoals een omgekeerde U-vorm of een trechtervorm kunnen wijzen op niet-lineariteit of heteroskedasticiteit (ongelijke variantie van de fouten).
- **Residuen versus verklarende variabelen:** Het plotten van residuen tegenover elke onafhankelijke variabele kan helpen bij het detecteren van niet-lineaire verbanden of variantieproblemen gerelateerd aan specifieke voorspellers.
- **Normaal-kwantiel-diagram (Q-Q plot) van residuen:** Dit plot vergelijkt de verdeling van de residuen met een normale verdeling. Als de punten op of nabij een rechte lijn liggen, is de aanname van normaliteit van de fouten waarschijnlijk voldaan.
**Tip:** Uitschieters (outliers) in de residuen kunnen wijzen op observaties die sterk afwijken van het algemene patroon en die het model kunnen beïnvloeden.
### 5.2 Collineariteit (Multicollineariteit)
Collineariteit treedt op wanneer twee of meer onafhankelijke variabelen in een meervoudig regressiemodel sterk gecorreleerd zijn met elkaar. Dit kan leiden tot instabiele en onbetrouwbare schattingen van de regressiecoëfficiënten.
#### 5.2.1 Diagnose van collineariteit
- **Correlatiematrix:** Een inspectie van de correlaties tussen paren van onafhankelijke variabelen kan een eerste indicatie geven.
- **Tolerantie:** De tolerantie voor een predictor is de proportie van de variantie in die predictor die *niet* kan worden verklaard door de andere predictoren. Een lage tolerantie (dicht bij nul) duidt op hoge collineariteit.
$$ \text{Tolerantie}_j = 1 - R_j^2 $$
waarbij $R_j^2$ de determinatiecoëfficiënt is van een regressie van predictor $j$ op alle andere predictoren.
- **Variance Inflation Factor (VIF):** De VIF is het omgekeerde van de tolerantie.
$$ \text{VIF}_j = \frac{1}{\text{Tolerantie}_j} = \frac{1}{1 - R_j^2} $$
Een VIF groter dan 2 (of soms 4 of 5, afhankelijk van de conventie) duidt op potentiële problemen met multicollineariteit.
**Gevolgen van collineariteit:**
- Grote standaardfouten voor de regressiecoëfficiënten, wat leidt tot minder nauwkeurige schattingen en bredere betrouwbaarheidsintervallen.
- Moeilijkheid om de individuele bijdrage van gecorreleerde predictoren te bepalen.
- Regressiecoëfficiënten kunnen onverwachte tekenen vertonen of significant lijken in de ene analyse en niet in de andere.
**Voorbeeld:** Als 'middelbare school wiskunde' en 'SAT wiskunde' beide in een model worden opgenomen, kunnen ze sterk gecorreleerd zijn. Als hun VIF hoog is, kan het moeilijk zijn om de unieke invloed van elk op het studiesucces te isoleren.
**Tip:** Als er sprake is van significante collineariteit, kunnen oplossingen zijn: het verwijderen van een van de gecorreleerde variabelen, het combineren van variabelen, of het gebruik van technieken zoals principale componenten regressie.
---
# Schatten van regressieparameters en schaalfactor
Dit onderwerp behandelt de methoden voor het schatten van de regressiecoëfficiënten (beta) door het minimaliseren van residuen en het schatten van de spreiding rond de populatie regressievergelijking (sigma).
### 2.1 Het statistische model voor regressie
Het statistische model voor regressie beschrijft hoe een afhankelijke variabele ($y$) varieert rond een populatie regressievergelijking, afhankelijk van een of meerdere onafhankelijke variabelen ($x$).
#### 2.1.1 Enkelvoudige en meervoudige regressie
* **Enkelvoudige regressie:** Voor elke vaste waarde van één onafhankelijke variabele ($x$) varieert de afhankelijke variabele ($y$) normaal rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$.
* **Meervoudige regressie:** Voor elke specifieke verzameling van waarden van meerdere onafhankelijke variabelen $x = (x_1, x_2, \dots, x_p)$ varieert de afhankelijke variabele ($y$) normaal rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$.
Het model kan worden uitgedrukt als:
$$Y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i$$
waarbij:
* $Y_i$ de geobserveerde waarde van de afhankelijke variabele is voor observatie $i$.
* $\beta_0$ de intercept (regressiecoëfficiënt voor de constante term) is.
* $\beta_1, \beta_2, \dots, \beta_p$ de regressiecoëfficiënten zijn voor de onafhankelijke variabelen $x_1, x_2, \dots, x_p$.
* $x_{i1}, x_{i2}, \dots, x_{ip}$ de waarden van de onafhankelijke variabelen zijn voor observatie $i$.
* $\epsilon_i$ de foutterm is voor observatie $i$, die verondersteld wordt te volgen uit een normale verdeling met gemiddelde 0 en standaardafwijking $\sigma$, d.w.z., $\epsilon_i \sim N(0, \sigma^2)$.
De parameters in dit model zijn de regressiecoëfficiënten $\beta_0, \beta_1, \dots, \beta_p$ en de spreidingsparameter $\sigma$.
### 2.2 Schatten van de regressieparameters ($\beta$)
Het primaire doel bij het schatten van de regressieparameters is het bepalen van de waarden $b_0, b_1, b_2, \dots, b_p$ die de totale gekwadrateerde residuen minimaliseren.
* **Residu:** Het residu voor observatie $i$ is het verschil tussen de geobserveerde waarde ($Y_i$) en de voorspelde waarde ($\hat{Y}_i$) uit het regressiemodel: $e_i = Y_i - \hat{Y}_i$.
* **Minimalisatie van residuen:** De regressiecoëfficiënten worden geschat door de som van de gekwadrateerde residuen te minimaliseren:
$$\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - (\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}))^2$$
Dit proces, bekend als Ordinary Least Squares (OLS), levert schattingen op voor de regressiecoëfficiënten, aangeduid als $\hat{\beta}_0, \hat{\beta}_1, \dots, \hat{\beta}_p$. De berekening van deze schattingen wordt doorgaans uitgevoerd met behulp van statistische software.
### 2.3 Schatten van de schaalfactor ($\sigma$)
De schaalfactor $\sigma$ representeert de standaardafwijking van de residuen rond de populatie regressievergelijking. $\sigma^2$ is de variantie van deze residuen.
* **Schatting van de variantie ($\sigma^2$):** De variantie $\sigma^2$ wordt geschat als het gemiddelde van de gekwadrateerde residuen, gedeeld door de vrijheidsgraden. De geschatte variantie wordt aangeduid als $s^2$ of $\hat{\sigma}^2$.
$$s^2 = \frac{\sum_{i=1}^n e_i^2}{n - (p+1)}$$
waarbij:
* $\sum_{i=1}^n e_i^2$ de som van de gekwadrateerde residuen is.
* $n$ het aantal waarnemingen is.
* $p+1$ het aantal te schatten parameters is (de intercept $\beta_0$ plus de $p$ coëfficiënten $\beta_1, \dots, \beta_p$).
De vrijheidsgraden zijn dus $n - (p+1)$. De geschatte standaardafwijking is de wortel uit de geschatte variantie: $s = \sqrt{s^2}$.
### 2.4 Betrouwbaarheidsintervallen en significantietoetsen voor $\beta_i$
Nadat de regressieparameters zijn geschat, kunnen betrouwbaarheidsintervallen en hypothesetoetsen worden uitgevoerd om conclusies te trekken over de populatieparameters.
#### 2.4.1 Betrouwbaarheidsinterval voor $\beta_i$
Een betrouwbaarheidsinterval voor een regressiecoëfficiënt $\beta_i$ geeft een bereik van waarden waarbinnen de populatiecoëfficiënt waarschijnlijk ligt, met een bepaald betrouwbaarheidsniveau.
* Het interval wordt berekend als:
$$\hat{\beta}_i \pm t_{\alpha/2, n-p-1} \cdot SE(\hat{\beta}_i)$$
waarbij:
* $\hat{\beta}_i$ de geschatte regressiecoëfficiënt is.
* $t_{\alpha/2, n-p-1}$ de kritieke t-waarde is uit de t-verdeling met $n-p-1$ vrijheidsgraden voor een significantieniveau $\alpha$.
* $SE(\hat{\beta}_i)$ de standaardfout van de geschatte regressiecoëfficiënt is.
#### 2.4.2 Hypothesetoetsen voor $\beta_i$
Hypothesetoetsen worden gebruikt om te bepalen of een regressiecoëfficiënt significant verschilt van een specifieke waarde, meestal nul.
* **Nulhypothese ($H_0$):** Vaak wordt getest of $\beta_i = 0$, wat impliceert dat de onafhankelijke variabele $x_i$ geen lineair verband heeft met $y$, gegeven de andere variabelen in het model.
* **Alternatieve hypothese ($H_a$):** $\beta_i \neq 0$ (tweezijdige toets).
* **t-toetsingsgrootheid:** De toetsingsgrootheid volgt een t-verdeling.
$$t = \frac{\hat{\beta}_i - \beta_{i,0}}{SE(\hat{\beta}_i)}$$
waarbij $\beta_{i,0}$ de waarde onder de nulhypothese is (meestal 0). De stochastische variabele $T$ volgt een $t$-verdeling met $n-p-1$ vrijheidsgraden.
### 2.5 F-toets voor regressie-analyse
De F-toets wordt gebruikt om de algehele significantie van het regressiemodel te evalueren.
* **Nulhypothese ($H_0$):** $\beta_1 = \beta_2 = \dots = \beta_p = 0$. Dit betekent dat geen van de onafhankelijke variabelen in het model een lineair verband heeft met de afhankelijke variabele.
* **Alternatieve hypothese ($H_a$):** Minstens één $\beta_i \neq 0$ (voor $i=1, \dots, p$). Dit betekent dat ten minste één van de onafhankelijke variabelen significant bijdraagt aan het verklaren van de afhankelijke variabele.
* **Toetsingsgrootheid:** De toetsingsgrootheid volgt een F-verdeling met $p$ en $n-p-1$ vrijheidsgraden. De overschrijdingskans wordt bepaald door de kans te berekenen dat een stochastische variabele met een F-verdeling groter is dan de berekende toetsingsgrootheid, als $H_0$ waar is.
De F-toets is gerelateerd aan de ANOVA-tabel. Bij enkelvoudige lineaire regressie is de F-toets equivalent aan de tweezijdige t-toets voor $H_0: \beta_1=0$. Bij meervoudige regressie toetst de F-toets de nulhypothese dat alle regressiecoëfficiënten (behalve de intercept) gelijk zijn aan nul.
### 2.6 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, is een maat voor de proportie van de variantie in de afhankelijke variabele ($y$) die wordt verklaard door de onafhankelijke variabelen ($x_1, \dots, x_p$) in het regressiemodel.
* **Interpretatie:** $R^2$ kan worden geïnterpreteerd als de proportionele reductie van de fout bij de voorspelling van $y$ met behulp van de regressievergelijking, vergeleken met de fout bij het voorspellen van $y$ zonder kennis van de regressievergelijking (d.w.z., alleen het gemiddelde van $y$ gebruiken).
$$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$
waarbij:
* $SSR$ (Sum of Squares Regression) de verklaarde som van kwadraten is.
* $SST$ (Total Sum of Squares) de totale som van kwadraten is.
* $SSE$ (Sum of Squared Errors) de som van de gekwadrateerde residuen is.
### 2.7 Aangepaste (Adjusted) $R^2$
De $R^2$ wordt beïnvloed door het aantal verklarende variabelen in het model in verhouding tot de steekproefgrootte. Een model met meer variabelen zal doorgaans een hogere $R^2$ hebben, zelfs als de extra variabelen geen significante bijdrage leveren. Dit kan leiden tot "overfitting", waarbij ruis in de data wordt gemodelleerd.
* **Aangepaste $R^2$:** De aangepaste $R^2$ corrigeert voor het aantal verklarende variabelen en de steekproefgrootte. Het wordt kleiner naarmate er minder waarnemingen zijn ten opzichte van het aantal variabelen.
$$R^2_{adjusted} = 1 - \left(1 - R^2\right) \frac{n-1}{n-p-1}$$
* **Gebruik:** De aangepaste $R^2$ is vooral geschikt voor het vergelijken van modellen met een verschillend aantal verklarende variabelen en waarnemingen. De interpretatie ervan is vergelijkbaar met die van de reguliere $R^2$.
### 2.8 Onderzoek van residuen
Het onderzoeken van residuen is cruciaal om de aannames van het regressiemodel te controleren en om mogelijke problemen te identificeren.
* **Doelen:**
* Opsporen van afwijkingen van lineariteit (kromlijnige verbanden).
* Identificeren van uitschieters (outliers).
* Controleren op heteroscedasticiteit (ongelijke variantie van de residuen).
* Controleren op normaliteit van de residuen.
* **Methoden:**
* **Residuen plotten tegen voorspelde waarden:** Een willekeurig patroon rond nul duidt op een goed model. Patroonvorming duidt op schending van aannames.
* **Residuen plotten tegen elke verklarende variabele:** Helpt bij het identificeren van niet-lineaire verbanden.
* **Normaal-kwantiel-diagram (Q-Q plot):** Controleert of de residuen ongeveer normaal verdeeld zijn.
### 2.9 Controle op collineariteit
Collineariteit (of multicollineariteit) treedt op wanneer twee of meer verklarende variabelen sterk met elkaar gecorreleerd zijn. Dit kan leiden tot instabiele en onbetrouwbare schattingen van de regressiecoëfficiënten.
* **Tolerantie:** De tolerantie van een predictor is de proportie van de variantie in die predictor die *niet* verklaard kan worden door de andere predictoren. Een lage tolerantie (< 0.5) wijst op hoge multicollineariteit.
$$Tolerantie_i = 1 - R_i^2$$
waarbij $R_i^2$ de determinatiecoëfficiënt is van de regressie van predictor $x_i$ op alle andere predictoren.
* **Variance Inflation Factor (VIF):** De VIF is het omgekeerde van de tolerantie. Een VIF groter dan 2 (of soms 4 of 5) duidt op problemen met multicollineariteit.
$$VIF_i = \frac{1}{Tolerantie_i} = \frac{1}{1 - R_i^2}$$
Wanneer multicollineariteit wordt gedetecteerd, kunnen de standaardfouten van de regressiecoëfficiënten overdreven worden, wat leidt tot minder nauwkeurige schattingen en significantietoetsen die minder krachtig zijn. Dit kan ertoe leiden dat variabelen die in werkelijkheid wel een significant effect hebben, statistisch niet significant blijken.
> **Tip:** Significantie in regressieanalyse toetst of een variabele nog een significante bijdrage levert *gegeven de aanwezigheid van andere variabelen in het model*. Een variabele kan significant zijn in een enkelvoudige regressie maar niet in een meervoudige regressie vanwege overlap met andere predictors.
> **Tip:** Veranderingen in regressiecoëfficiënten, hun significantie en betrouwbaarheidsintervallen bij het toevoegen of verwijderen van variabelen benadrukken het belang van contextuele interpretatie van modelresultaten. Parameters en hun toetsen zijn alleen relevant binnen de context van de andere variabelen in het specifieke model.
> **Tip:** "Statistisch significant" betekent niet altijd "praktisch belangrijk". Een zeer kleine maar statistisch significante regressiecoëfficiënt kan weinig praktische betekenis hebben. Controleer de omvang van de coëfficiënt in relatie tot de schaal van de variabelen.
---
# Inferentie in regressie-analyse
Dit hoofdstuk behandelt de methoden voor inferentie in regressie-analyse, met name betrouwbaarheidsintervallen en significantietoetsen voor regressiecoëfficiënten, evenals de interpretatie van de determinatiecoëfficiënt.
### 3.1 Statistische modellen voor regressie
In de context van regressieanalyse wordt aangenomen dat voor elke specifieke combinatie van onafhankelijke variabelen ($x_1, x_2, \dots, x_p$) de afhankelijke variabele ($y$) normaal verdeeld is rond een populatiegemiddelde ($\mu_y$) met een constante standaardafwijking ($\sigma$).
* **Enkelvoudige regressie:** Hierbij wordt de verwachte waarde van $y$ gemodelleerd als een lineaire functie van één onafhankelijke variabele: $\mu_y = \beta_0 + \beta_1 x$.
* **Meervoudige regressie:** Hierbij wordt de verwachte waarde van $y$ gemodelleerd als een lineaire functie van meerdere onafhankelijke variabelen: $\mu_y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p$.
Het regressiemodel kan worden uitgedrukt als:
$$Y_i = (\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}) + \epsilon_i$$
waarbij $Y_i$ de waargenomen waarde van de afhankelijke variabele is, $(\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip})$ de verwachte waarde van $y$ is voor de $i$-de observatie, en $\epsilon_i$ het residu is. De aanname is dat de residuen $\epsilon_i$ onafhankelijk en normaal verdeeld zijn met een gemiddelde van 0 en een standaardafwijking $\sigma$: $\epsilon_i \sim N(0, \sigma^2)$.
De parameters $\beta_0, \beta_1, \dots, \beta_p$ worden geschat met de kleinste-kwadratenmethode, waarbij het totaal van de gekwadrateerde residuen wordt geminimaliseerd. De schatter voor de variantie $\sigma^2$ is het gemiddelde van de gekwadrateerde residuen, gedeeld door het aantal vrijheidsgraden ($n - (p+1)$).
### 3.2 Betrouwbaarheidsintervallen voor regressiecoëfficiënten
Voor elke geschatte regressiecoëfficiënt $\hat{\beta}_i$ kan een betrouwbaarheidsinterval worden geconstrueerd om een bereik van waarden te geven waarbinnen de ware populatiecoëfficiënt $\beta_i$ waarschijnlijk ligt.
Het betrouwbaarheidsinterval voor $\beta_i$ wordt gegeven door:
$$\hat{\beta}_i \pm t_{\alpha/2, n-p-1} \cdot SE(\hat{\beta}_i)$$
waarbij $\hat{\beta}_i$ de geschatte regressiecoëfficiënt is, $t_{\alpha/2, n-p-1}$ de kritieke waarde is uit de $t$-verdeling met $n-p-1$ vrijheidsgraden voor een gegeven significantieniveau $\alpha$, en $SE(\hat{\beta}_i)$ de standaardfout van de geschatte regressiecoëfficiënt is.
### 3.3 Significantietoetsen voor regressiecoëfficiënten
#### 3.3.1 T-toets
De $t$-toets wordt gebruikt om te toetsen of een individuele regressiecoëfficiënt $\beta_i$ significant verschilt van nul.
* **Nulhypothese ($H_0$):** $\beta_i = 0$ (de onafhankelijke variabele $x_i$ heeft geen lineair verband met de afhankelijke variabele $y$, gegeven de andere variabelen in het model).
* **Alternatieve hypothese ($H_a$):** $\beta_i \neq 0$ (er is wel een significant lineair verband).
De $t$-toetsingsgrootheid is:
$$t = \frac{\hat{\beta}_i - 0}{SE(\hat{\beta}_i)}$$
Deze toetsingsgrootheid volgt een $t$-verdeling met $n-p-1$ vrijheidsgraden. De $p$-waarde van de toets geeft de kans aan om een toetsingsgrootheid te observeren die minstens zo extreem is als de berekende waarde, ervan uitgaande dat de nulhypothese waar is.
> **Tip:** Als het betrouwbaarheidsinterval voor $\beta_i$ de waarde 0 niet bevat, dan is de regressiecoëfficiënt significant verschillend van nul op het bijbehorende significantieniveau.
#### 3.3.2 F-toets voor regressie-analyse
De $F$-toets wordt gebruikt om de algehele significantie van het regressiemodel te beoordelen, dat wil zeggen of ten minste één van de onafhankelijke variabelen een significant lineair verband heeft met de afhankelijke variabele.
* **Nulhypothese ($H_0$):** $\beta_1 = \beta_2 = \dots = \beta_p = 0$ (geen van de onafhankelijke variabelen in het model is significant gerelateerd aan de afhankelijke variabele).
* **Alternatieve hypothese ($H_a$):** Minstens één $\beta_i \neq 0$ (ten minste één van de onafhankelijke variabelen is significant gerelateerd aan de afhankelijke variabele).
De $F$-toetsingsgrootheid wordt berekend als de ratio van twee gemiddelde kwadratensommen:
$$F = \frac{MSR}{MSE} = \frac{SSR/p}{SSE/(n-p-1)}$$
waarbij $MSR$ het gemiddelde kwadraat van de regressie is en $MSE$ het gemiddelde kwadraat van de residuen (of fout).
Deze toetsingsgrootheid volgt een $F$-verdeling met $p$ vrijheidsgraden in de teller en $n-p-1$ vrijheidsgraden in de noemer. De overschrijdingskans ( $p$-waarde) is de kans dat een $F$-verdeelde stochastische variabele met deze vrijheidsgraden groter is dan de berekende toetsingsgrootheid, als $H_0$ waar is.
> **Opmerking:** Bij enkelvoudige lineaire regressie ($p=1$) is de $F$-toets equivalent aan de $t$-toets voor de coëfficiënt $\beta_1$. Het kwadraat van de $t$-toetsingsgrootheid voor $\beta_1$ is gelijk aan de $F$-toetsingsgrootheid.
De resultaten van de $F$-toets worden vaak samengevat in een ANOVA-tabel.
### 3.4 Interpretatie van de determinatiecoëfficiënt (R-kwadraat)
De determinatiecoëfficiënt, $R^2$, is een maat voor de proportie van de totale variantie in de afhankelijke variabele ($y$) die verklaard wordt door het regressiemodel met de onafhankelijke variabelen ($x_1, \dots, x_p$).
$$R^2 = 1 - \frac{SSE}{SST} = \frac{SSR}{SST}$$
waarbij $SSE$ de som van de gekwadrateerde residuen is (Sum of Squared Errors) en $SST$ de totale som van de kwadraten is (Total Sum of Squares), die de totale variantie in $y$ vertegenwoordigt zonder enige regressie. $SSR$ is de som van de gekwadrateerde regressie.
* **Interpretatie:** $R^2$ geeft aan welk deel van de variabiliteit in $y$ verklaard kan worden door de variabiliteit in de onafhankelijke variabelen. Een $R^2$ van 0.75 betekent bijvoorbeeld dat 75% van de variatie in $y$ wordt verklaard door het model. Het vertegenwoordigt ook de proportionele reductie in voorspellingsfout vergeleken met een model dat de gemiddelde $y$ gebruikt.
#### 3.4.1 Aangepaste R-kwadraat (Adjusted R²)
Het gebruik van de determinatiecoëfficiënt $R^2$ kan misleidend zijn bij het vergelijken van modellen met een verschillend aantal onafhankelijke variabelen, aangezien $R^2$ altijd toeneemt (of gelijk blijft) wanneer er variabelen aan het model worden toegevoegd, zelfs als deze variabelen niet significant bijdragen. Dit fenomeen staat bekend als "overfitting".
De aangepaste $R^2$ (Adjusted R²) houdt rekening met het aantal voorspellers ($p$) en het aantal waarnemingen ($n$). Het biedt een betere maatstaf voor de fit van het model wanneer er meerdere onafhankelijke variabelen zijn en is met name nuttig voor het vergelijken van modellen met verschillende aantallen voorspellers.
$$R^2_{\text{adjusted}} = 1 - \left(1 - R^2\right) \frac{n-1}{n-p-1}$$
> **Tip:** De aangepaste $R^2$ kan afnemen wanneer er variabelen worden toegevoegd die het model niet significant verbeteren. Dit maakt het een nuttigere maatstaf voor modelselectie.
De interpretatie van de aangepaste $R^2$ is vergelijkbaar met die van de standaard $R^2$: het vertegenwoordigt de proportie van de variantie in de afhankelijke variabele die verklaard wordt door het model, aangepast voor het aantal voorspellers.
### 3.5 Controle op collineariteit
Collineariteit (of multicollineariteit) treedt op wanneer onafhankelijke variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn. Dit kan leiden tot instabiele en onbetrouwbare schattingen van de regressiecoëfficiënten, waardoor hun standaardfouten toenemen.
* **Tolerantie:** De tolerantie van een predictor is de proportie van de variantie in die predictor die *niet* verklaard kan worden door de andere predictoren in het model. Een lage tolerantie (dicht bij nul) geeft aan dat de betreffende predictor sterk gecorreleerd is met andere predictoren.
$$Tolerantie = 1 - R_i^2$$
waarbij $R_i^2$ de determinatiecoëfficiënt is van een regressie van predictor $x_i$ op alle andere predictoren.
* **Variance Inflation Factor (VIF):** De VIF is het omgekeerde van de tolerantie en wordt gebruikt om de mate van collineariteit te kwantificeren.
$$VIF_i = \frac{1}{Tolerantie_i} = \frac{1}{1 - R_i^2}$$
> **Vuistregel:** Een VIF groter dan 2 duidt op mogelijke problemen met multicollineariteit. Een VIF groter dan 5 of 10 wordt vaak als problematisch beschouwd. Hoge multicollineariteit kan de standaardfouten van de regressiecoëfficiënten opblazen, wat leidt tot minder betrouwbare $t$-toetsen en bredere betrouwbaarheidsintervallen.
---
# Modelverfijning en analyse van collineariteit
Dit gedeelte behandelt het onderzoeken van residuen, het verfijnen van regressiemodellen door variabelen te verwijderen en het controleren op collineariteit tussen voorspellende variabelen.
### 4.1 Onderzoeken van residuen
Het onderzoeken van residuen is cruciaal om de geschiktheid van een meervoudig lineair regressiemodel voor de data te beoordelen. Residuen representeren het deel van de afhankelijke variabele dat niet verklaard wordt door het model.
#### 4.1.1 Doel van residu-analyse
Het primaire doel van residu-analyse is het opsporen van afwijkingen van de modelaannames, zoals:
* Aanwezigheid van niet-lineaire verbanden.
* Identificatie van uitschieters (outliers), dit zijn waarnemingen die significant afwijken van het algemene patroon.
* Het beoordelen van de homoscedasticiteit (constante variantie van de residuen).
#### 4.1.2 Technieken voor residu-analyse
Verschillende grafische en statistische technieken worden gebruikt:
* **Residuen tegen voorspelde waarden:** Een spreidingsdiagram van de residuen ($e_i$) tegen de voorspelde waarden ($\hat{y}_i$) kan patronen onthullen die wijzen op niet-lineariteit of heteroscedasticiteit. Een willekeurige spreiding rond nul duidt op een goed model.
* **Residuen tegen verklarende variabelen:** Het uitzetten van de residuen tegenover elke individuele verklarende variabele ($x_j$) kan helpen om specifieke relaties te identificeren die niet door het model worden gevangen.
* **Normaal-kwantiel-diagram (Q-Q plot):** Dit diagram helpt bij het beoordelen van de normaliteitsaanname van de residuen. Als de residuen normaal verdeeld zijn, zullen de punten op het diagram ongeveer langs een rechte lijn liggen.
#### 4.1.3 Interpretatie van residu-analyse
Als de residu-analyse wijst op problemen, zoals duidelijke patronen in de grafieken of significante afwijkingen van de normaliteit, kan dit leiden tot aanpassingen van het model.
> **Tip:** Een willekeurige spreiding van residuen rond nul in een plot tegen voorspelde waarden is een indicator van een adequaat lineair model.
### 4.2 Verfijning van het regressiemodel
Modelverfijning houdt in dat het model wordt aangepast om de fit te verbeteren en de interpretatie te verduidelijken. Dit kan onder andere door het verwijderen van variabelen die weinig bijdragen aan het model.
#### 4.2.1 Variabelen verwijderen
Wanneer de analyse van de residuen of de significantie van regressiecoëfficiënten aangeeft dat een verklarende variabele weinig tot geen toegevoegde waarde heeft, kan deze overwogen worden te verwijderen.
* **Beslissingscriteria:** De significantie van de t-toets voor een coëfficiënt ($H_0: \beta_j = 0$) is een veelgebruikt criterium. Als een coëfficiënt niet significant is, kan dit een reden zijn om de bijbehorende variabele te verwijderen.
* **Gevolgen van verwijdering:** Het verwijderen van een variabele kan de resterende coëfficiënten en hun significantie beïnvloeden, omdat de interpretatie van coëfficiënten altijd in de context van de andere variabelen in het model moet gebeuren.
#### 4.2.2 Modelvergelijking
Verschillende modellen met verschillende combinaties van verklarende variabelen kunnen worden vergeleken. De aangepaste $R^2$ (Adjusted $R^2$) is hierbij een nuttig instrument, vooral wanneer modellen een verschillend aantal verklarende variabelen bevatten.
* **Aangepaste $R^2$:** Deze maat corrigeert de determinatiecoëfficiënt ($R^2$) voor het aantal verklarende variabelen en de steekproefgrootte. Een hogere aangepaste $R^2$ indiceert een beter model, rekening houdend met de complexiteit.
$$ R_{adj}^2 = 1 - \frac{(1 - R^2)(n - 1)}{n - p - 1} $$
Waarbij $n$ het aantal waarnemingen is en $p$ het aantal verklarende variabelen.
> **Tip:** Een te hoog aantal verklarende variabelen ten opzichte van het aantal waarnemingen kan leiden tot "overfitting", waarbij het model ruis in de data meemodelleert, wat resulteert in een overschatting van de voorspellende kracht.
### 4.3 Controle op collineariteit
Collineariteit, ook wel multicollineariteit genoemd, treedt op wanneer twee of meer verklarende variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn. Dit kan leiden tot instabiele en onbetrouwbare regressiecoëfficiënten.
#### 4.3.1 Gevolgen van collineariteit
* **Opgeblazen standaardfouten:** Hoge collineariteit vergroot de standaardfouten van de regressiecoëfficiënten. Hierdoor worden de coëfficiënten statistisch minder significant, zelfs als de variabele op zichzelf een sterke relatie met de afhankelijke variabele zou hebben.
* **Instabiele schattingen:** Kleine veranderingen in de data of het model kunnen leiden tot grote schommelingen in de geschatte regressiecoëfficiënten.
* **Interpretatieproblemen:** Het wordt moeilijk om de unieke bijdrage van elke gecorreleerde variabele aan het model te bepalen.
#### 4.3.2 Maten voor collineariteit
Er zijn verschillende maten om collineariteit te detecteren:
* **Tolerantie (Tolerance):** De tolerantie voor een verklarende variabele ($x_j$) is het aandeel van de variantie in $x_j$ dat *niet* verklaard kan worden door de andere verklarende variabelen in het model. Het wordt berekend als $1 - R_j^2$, waarbij $R_j^2$ de $R^2$ is van een regressie van $x_j$ op alle andere verklarende variabelen.
$$ \text{Tolerance}_j = 1 - R_j^2 $$
Een lage tolerantie (dicht bij nul) geeft aan dat de variabele sterk overlapt met andere predictoren.
* **Variance Inflation Factor (VIF):** De VIF is het omgekeerde van de tolerantie.
$$ \text{VIF}_j = \frac{1}{\text{Tolerance}_j} = \frac{1}{1 - R_j^2} $$
Een VIF groter dan 2 (of soms 4, afhankelijk van de vuistregel) duidt op mogelijke problemen met multicollineariteit.
#### 4.3.3 Aanpak bij collineariteit
Als significante collineariteit wordt vastgesteld, zijn er verschillende strategieën:
* **Verwijderen van variabelen:** Eén van de gecorreleerde variabelen kan worden verwijderd uit het model.
* **Combineren van variabelen:** Gecorreleerde variabelen kunnen worden samengevoegd tot een enkele, samengestelde variabele (bijvoorbeeld door een index te creëren).
* **Gebruik van Principal Component Regression (PCR) of Partial Least Squares (PLS):** Geavanceerdere technieken die om kunnen gaan met multicollineariteit door het creëren van nieuwe, ongecorreleerde variabelen.
> **Example:** Stel, in een model om de verkoopprijs van huizen te voorspellen, hebben we variabelen "aantal slaapkamers" en "totale vloeroppervlakte". Deze zijn waarschijnlijk sterk gecorreleerd. Als de VIF voor "aantal slaapkamers" hoog is, suggereert dit dat de informatie die "aantal slaapkamers" biedt, grotendeels al vervat zit in "totale vloeroppervlakte".
> **Tip:** Significante correlaties tussen verklarende variabelen impliceren niet automatisch dat deze variabelen ook significant zullen zijn in de regressieanalyse, vooral als er sprake is van multicollineariteit. De significantie in regressieanalyse geeft aan of een variabele een significante bijdrage levert *gegeven de aanwezigheid van de andere variabelen* in het model.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Regressie-analyse | Een statistische methode die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te onderzoeken en te modelleren. |
| Meervoudige lineaire regressie | Een regressiemodel waarbij de afhankelijke variabele wordt voorspeld door een lineaire combinatie van twee of meer onafhankelijke variabelen. |
| Populatie-regressievergelijking | De theoretische vergelijking die de relatie tussen de verwachte waarde van de afhankelijke variabele en de onafhankelijke variabelen in de gehele populatie beschrijft. |
| Enkelvoudige regressie | Een regressiemodel waarbij de afhankelijke variabele wordt voorspeld door slechts één onafhankelijke variabele. |
| Residu | Het verschil tussen de waargenomen waarde van de afhankelijke variabele en de voorspelde waarde uit het regressiemodel. |
| Regressieparameters | De coëfficiënten in het regressiemodel die de sterkte en richting van de relatie tussen de onafhankelijke variabelen en de afhankelijke variabele kwantificeren. |
| Vrijheidsgraden | Het aantal onafhankelijke stukjes informatie dat in de data beschikbaar is om een parameter te schatten; in regressie-analyse is dit vaak het aantal waarnemingen min het aantal geschatte parameters. |
| Betrouwbaarheidsinterval | Een reeks waarden die met een bepaalde waarschijnlijkheid de ware populatiewaarde van een parameter bevat. |
| t-toets | Een statistische toets die wordt gebruikt om te bepalen of het gemiddelde van een steekproef significant verschilt van een bekende populatiewaarde of een ander gemiddelde. In regressie wordt het gebruikt om de significantie van individuele regressiecoëfficiënten te testen. |
| F-toets | Een statistische toets die wordt gebruikt om te bepalen of er een significant lineair verband is tussen de afhankelijke variabele en de set van onafhankelijke variabelen in een regressiemodel. |
| Determinatiecoëfficiënt ($R^2$) | Een statistische maat die aangeeft welk deel van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabelen in het model. |
| Aangepaste $R^2$ (Adjusted R²) | Een aangepaste versie van de determinatiecoëfficiënt die rekening houdt met het aantal voorspellers in het model en de steekproefgrootte, wat helpt bij het vergelijken van modellen met een verschillend aantal variabelen. |
| Collineariteit (Multicollineariteit) | Een situatie waarin twee of meer onafhankelijke variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn, wat de schatting en interpretatie van de regressiecoëfficiënten kan bemoeilijken. |
| Tolerantie | Een maat voor de mate waarin een onafhankelijke variabele niet verklaard kan worden door de andere onafhankelijke variabelen in het model; lage tolerantie duidt op hoge multicollineariteit. |
| Variance Inflation Factor (VIF) | Een maat die aangeeft hoeveel de variantie van een regressiecoëfficiënt wordt opgeblazen door collineariteit; een VIF groter dan 2 duidt vaak op problemen. |