Cover
Start now for free STA3set7Hfst11MeervoudigeRegressie.pptx
Summary
# Inleiding tot regressieanalyse
Dit onderdeel introduceert de fundamentele concepten van lineaire regressie, zowel enkelvoudig als meervoudig, en de bijbehorende statistische modellen.
## 1.1 Het statistisch model voor regressie
Het statistisch model voor regressie beschrijft de relatie tussen een afhankelijke variabele (y) en een of meer onafhankelijke variabelen (x). De kernideeën zijn als volgt:
### 1.1.1 Enkelvoudige lineaire regressie
Bij enkelvoudige lineaire regressie wordt de relatie tussen één afhankelijke variabele ($y$) en één onafhankelijke variabele ($x$) gemodelleerd.
* **Populatie-regressievergelijking:** De verwachte waarde van $y$ voor een vaste waarde van $x$ varieert normaal rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$.
$$ E(y|x) = \beta_0 + \beta_1 x $$
Hierbij zijn:
* $\beta_0$: het intercept, de verwachte waarde van $y$ als $x = 0$.
* $\beta_1$: de helling, de verwachte verandering in $y$ voor een eenheidstoename in $x$.
* $\sigma$: de standaardafwijking van de residuen, die de spreiding van $y$ rond de regressielijn aangeeft.
### 1.1.2 Meervoudige lineaire regressie
Bij meervoudige lineaire regressie wordt de relatie tussen één afhankelijke variabele ($y$) en meerdere onafhankelijke variabelen ($x_1, x_2, \dots, x_p$) gemodelleerd.
* **Populatie-regressievergelijking:** Voor elke specifieke combinatie van waarden van de onafhankelijke variabelen ($x = (x_1, x_2, \dots, x_p)$) varieert $y$ normaal rond een gemiddelde $\mu_y$ met een standaardafwijking $\sigma$.
$$ E(y|x_1, x_2, \dots, x_p) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p $$
Hierbij zijn:
* $\beta_0$: het intercept, de verwachte waarde van $y$ als alle onafhankelijke variabelen gelijk zijn aan 0.
* $\beta_i$ (voor $i=1, \dots, p$): de regressiecoëfficiënten die de verwachte verandering in $y$ aangeven voor een eenheidstoename in $x_i$, *gegeven dat alle andere onafhankelijke variabelen constant worden gehouden*.
* $\sigma$: de standaardafwijking van de residuen, die de spreiding van $y$ rond het regressievlak (of hypervlak in hogere dimensies) aangeeft.
### 1.1.3 De aannames van het regressiemodel
De statistische inferentie in regressieanalyse is gebaseerd op de volgende aannames over de errorterm $\epsilon_i$:
* **Normaliteit:** De errortermen zijn normaal verdeeld: $\epsilon_i \sim N(0, \sigma^2)$.
* **Onafhankelijkheid:** De errortermen zijn onafhankelijk van elkaar.
* **Homoscedasticiteit:** De variantie van de errortermen is constant voor alle waarden van de onafhankelijke variabelen: $Var(\epsilon_i) = \sigma^2$.
* **Lineariteit:** De verwachte waarde van $y$ is een lineaire functie van de onafhankelijke variabelen.
## 1.2 Schatten van regressieparameters
Het doel van regressieanalyse is om de parameters van het model (de regressiecoëfficiënten $\beta_0, \beta_1, \dots, \beta_p$ en de variantie $\sigma^2$) te schatten op basis van waargenomen data.
* **Schatten van $\beta$-coëfficiënten:** De regressiecoëfficiënten worden geschat met de methode van de kleinste kwadraten. Dit houdt in dat de schatters ($b_0, b_1, \dots, b_p$) worden bepaald zodanig dat de som van de gekwadrateerde residuen zo klein mogelijk is.
$$ \sum_{i=1}^n \epsilon_i^2 = \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}))^2 $$
Het minimaliseren van deze som leidt tot de schatters $b_0, b_1, \dots, b_p$.
* **Schatten van de variantie $\sigma^2$:** De variantie van de errortermen wordt geschat met het gemiddelde van de gekwadrateerde residuen, gedeeld door het aantal vrijheidsgraden.
$$ \hat{\sigma}^2 = s^2 = \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{n - (p+1)} = \frac{SSE}{n-(p+1)} $$
Hierbij is:
* $y_i$: de waargenomen waarde van de afhankelijke variabele voor observatie $i$.
* $\hat{y}_i$: de voorspelde waarde van de afhankelijke variabele voor observatie $i$.
* $SSE$: de som van de gekwadrateerde residuen (Sum of Squared Errors).
* $n$: het aantal waarnemingen.
* $p$: het aantal onafhankelijke variabelen.
* $n-(p+1)$: de vrijheidsgraden. Het aantal te schatten $\beta$-waarden is $p+1$ (inclusief het intercept $\beta_0$).
> **Tip:** De residuen ($e_i = y_i - \hat{y}_i$) zijn de verschillen tussen de waargenomen en de voorspelde waarden. Het onderzoeken van residuen is cruciaal om de geschiktheid van het model te beoordelen en eventuele afwijkingen van de modelaannames te detecteren.
## 1.3 Inferentie voor regressieparameters
Na het schatten van de parameters kunnen we statistische inferentie uitvoeren om conclusies te trekken over de populatieparameters.
### 1.3.1 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval voor een regressiecoëfficiënt $\beta_i$ geeft een bereik van waarden aan waarbinnen de ware populatiewaarde waarschijnlijk ligt, met een bepaald betrouwbaarheidsniveau.
* **Betrouwbaarheidsinterval voor $\beta_i$:**
$$ b_i \pm t_{\alpha/2, n-p-1} \cdot SE(b_i) $$
Hierbij is:
* $b_i$: de geschatte regressiecoëfficiënt.
* $t_{\alpha/2, n-p-1}$: de kritieke t-waarde uit de t-verdeling met $n-p-1$ vrijheidsgraden voor een significantieniveau $\alpha$.
* $SE(b_i)$: de standaardfout van de schatter $b_i$.
### 1.3.2 Hypothesetoetsen
Hypothesetoetsen worden gebruikt om te bepalen of een regressiecoëfficiënt significant verschilt van nul.
* **Hypothese voor $\beta_i$:**
* Nulhypothese ($H_0$): $\beta_i = 0$ (de onafhankelijke variabele $x_i$ heeft geen lineair verband met $y$, gegeven de andere variabelen).
* Alternatieve hypothese ($H_a$): $\beta_i \neq 0$ (de onafhankelijke variabele $x_i$ heeft wel een significant lineair verband met $y$, gegeven de andere variabelen).
* **t-toetsingsgrootheid:**
$$ t = \frac{b_i - \beta_{i,0}}{SE(b_i)} $$
Als de nulhypothese $\beta_i = 0$ is, wordt dit:
$$ t = \frac{b_i}{SE(b_i)} $$
De berekende t-waarde wordt vergeleken met de kritieke t-waarde of de p-waarde wordt bepaald om een beslissing te nemen over de nulhypothese. De stochastische variabele $T$ volgt een t-verdeling met $n-p-1$ vrijheidsgraden: $T \sim t(n-p-1)$.
> **Tip:** Een significant resultaat van de t-toets voor $\beta_i$ betekent dat $x_i$ een significante bijdrage levert aan het verklaren van $y$, *zelfs nadat er is gecorrigeerd voor de invloed van de andere onafhankelijke variabelen in het model*.
### 1.3.3 F-toets voor regressie-analyse
De F-toets wordt gebruikt om de algemene geschiktheid van het regressiemodel te beoordelen.
* **Hypothese voor de F-toets:**
* Nulhypothese ($H_0$): $\beta_1 = \beta_2 = \dots = \beta_p = 0$ (alle regressiecoëfficiënten voor de onafhankelijke variabelen zijn gelijk aan nul).
* Alternatieve hypothese ($H_a$): Minstens één $\beta_i \neq 0$ (ten minste één onafhankelijke variabele heeft een significant verband met $y$).
* **Toetsingsgrootheid:** De F-toetsingsgrootheid wordt berekend op basis van de totale variantie in $y$ en de variantie die niet door het model wordt verklaard (residuele variantie). De berekening is gerelateerd aan de variantie-analyse (ANOVA) tabel. De verdeling van de toetsingsgrootheid onder $H_0$ is een F-verdeling met $p$ en $n-p-1$ vrijheidsgraden.
> **Opmerking:** Bij enkelvoudige lineaire regressie is de F-toets voor het model equivalent aan de tweezijdige t-toets voor de helling ($\beta_1$).
## 1.4 Modelkwaliteit en interpretatie
### 1.4.1 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, meet welk deel van de totale variantie in de afhankelijke variabele $y$ wordt verklaard door het regressiemodel.
* **Interpretatie:** $R^2$ is de fractie van de variantie in de verklaarde variabele $y$ die wordt verklaard door de verklarende variabelen $x_1, x_2, \dots, x_p$. Een hogere $R^2$ geeft aan dat het model de data beter beschrijft.
$R^2$ kan ook geïnterpreteerd worden als de proportionele reductie in de voorspellingsfout wanneer de regressievergelijking wordt gebruikt in vergelijking met het voorspellen van $y$ zonder kennis van de regressievergelijking (dus alleen het gemiddelde van $y$ gebruiken).
### 1.4.2 Aangepaste determinatiecoëfficiënt (Adjusted $R^2$)
De $R^2$ neemt altijd toe (of blijft gelijk) wanneer er meer verklarende variabelen aan het model worden toegevoegd. Dit kan leiden tot overschatting van de modelkwaliteit, vooral bij kleine steekproeven. De aangepaste $R^2$ corrigeert hiervoor.
* **Onderliggend idee:** Er wordt een straf toegepast voor het toevoegen van extra variabelen, waardoor de aangepaste $R^2$ een realistischer beeld geeft van de verklarende kracht van het model, met name bij het vergelijken van modellen met een verschillend aantal voorspellers.
* **Geschiktheid:** De aangepaste $R^2$ is vooral geschikt om modellen met een verschillend aantal verklarende variabelen en waarnemingen onderling te vergelijken. De interpretatie is vergelijkbaar met die van de gewone $R^2$.
> **Tip:** Een veelgebruikte vuistregel is dat er tussen 4 en 15 waarnemingen per verklarende variabele nodig zijn om "overfitting" (het modelleren van ruis in plaats van het onderliggende verband) te voorkomen. De aangepaste $R^2$ helpt bij het detecteren van potentiële overfitting.
## 1.5 Voorbeelden en toepassingen
### 1.5.1 Voorspellen van studiesucces
Een veelvoorkomend voorbeeld is het voorspellen van het Grade Point Average (GPA) van studenten na een bepaald aantal semesters. Onafhankelijke variabelen kunnen bijvoorbeeld de resultaten op high school zijn (wiskunde, wetenschap, Engels) of scores op gestandaardiseerde tests zoals de Scholastic Aptitude Test (SAT).
* **Data voor meervoudige regressie:**
* Afhankelijke variabele: GPA (bijvoorbeeld op een schaal van 0 tot 4).
* Onafhankelijke variabelen: High School Mathematics (score), High School Science (score), High School English (score), SAT Maths (score), SAT Verbal (score).
### 1.5.2 Verfijning van modellen
Het proces van modelverfijning kan het verwijderen van variabelen omvatten die statistisch niet significant zijn of die leiden tot multicollineariteit.
* **Modelverfijning:** Door variabelen zoals "High School Science" uit het model te verwijderen (als deze niet significant bijdraagt), kan het model eenvoudiger worden gemaakt zonder significant verlies aan verklarende kracht. De regressiecoëfficiënten en hun significantie kunnen veranderen wanneer variabelen worden toegevoegd of verwijderd, omdat ze de relatie met de *andere* variabelen in het model weergeven.
### 1.5.3 Controle op collineariteit
Multicollineariteit treedt op wanneer onafhankelijke variabelen sterk met elkaar gecorreleerd zijn. Dit kan de schatting van de regressiecoëfficiënten instabiel maken en de standaardfouten vergroten.
* **Tolerantie:** Een maat voor collineariteit. Een lage tolerantie (dicht bij nul) geeft aan dat een predictor sterk overlapt met andere predictoren in het model.
* **Variance Inflation Factor (VIF):** Een andere maat voor collineariteit. Een VIF groter dan 2 duidt vaak op problemen met multicollineariteit. De VIF is het omgekeerde van de tolerantie.
> **Belangrijk:** Significantie in regressieanalyse geeft aan of een variabele nog steeds een unieke bijdrage levert aan het verklaren van de afhankelijke variabele, gegeven de aanwezigheid van andere variabelen. Een statistisch significante variabele hoeft niet altijd praktisch belangrijk te zijn.
---
# Schatten van regressieparameters en modelgeschiktheid
Dit onderdeel bespreekt de methoden voor het schatten van regressiecoëfficiënten, het evalueren van de modelkwaliteit met R-kwadraat en aangepaste R-kwadraat, en het onderzoeken van residuen.
### 2.1 Het regressiemodel
#### 2.1.1 Populatie-regressievergelijking
Bij regressieanalyse is het doel het verband te modelleren tussen een afhankelijke variabele $y$ en een of meer onafhankelijke variabelen $x_1, x_2, \dots, x_p$.
* **Enkelvoudige regressie:** Modellen één onafhankelijke variabele.
Het idee is dat voor elke vaste waarde van $x$ de afhankelijke variabele $y$ normaal verdeeld is rond de verwachte waarde $\mu_y$ met een standaardafwijking $\sigma$.
* **Meervoudige regressie:** Modellen meerdere onafhankelijke variabelen.
Voor elke specifieke combinatie van waarden van $x = (x_1, x_2, \dots, x_p)$ varieert $y$ normaal rond de verwachte waarde $\mu_y$ met een standaardafwijking $\sigma$.
Het statistisch model voor regressie kan als volgt worden geschreven:
$$ y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i $$
Hierbij staat:
* $y_i$: de waarde van de afhankelijke variabele voor de $i$-de waarneming.
* $x_{i1}, x_{i2}, \dots, x_{ip}$: de waarden van de onafhankelijke variabelen voor de $i$-de waarneming.
* $\beta_0$: het intercept (de verwachte waarde van $y$ als alle $x_i$ gelijk zijn aan nul).
* $\beta_1, \beta_2, \dots, \beta_p$: de regressiecoëfficiënten die de verandering in $y$ weergeven voor een eenheidsverandering in de corresponderende $x$-variabele, waarbij de andere $x$-variabelen constant worden gehouden.
* $\epsilon_i$: de foutterm voor de $i$-de waarneming, die wordt verondersteld onafhankelijk en normaal verdeeld te zijn met een gemiddelde van 0 en een standaardafwijking $\sigma$, dus $\epsilon_i \sim N(0, \sigma)$.
Het model wordt aangepast aan de data. Voor elke waarneming $i$ geldt:
$$ y_i = \underbrace{\beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip}}_{\text{Verwachting van } y} + \underbrace{\epsilon_i}_{\text{Spreiding rond verwachting}} $$
### 2.2 Schatten van regressieparameters
Het doel is om de populatieparameters $\beta_0, \beta_1, \dots, \beta_p$ en $\sigma$ te schatten op basis van de steekproefdata. Dit gebeurt door de schattingswaarden $b_0, b_1, \dots, b_p$ te bepalen, die het totaal van de gekwadrateerde residuen minimaliseren.
* **Residu ($e_i$):** Het verschil tussen de geobserveerde waarde $y_i$ en de voorspelde waarde $\hat{y}_i$.
$$ e_i = y_i - \hat{y}_i $$
* **Schatting van $\sigma$:** De spreiding rond de populatie regressievergelijking wordt geschat door de standaardafwijking van de residuen. De variantie $\sigma^2$ wordt geschat door het gemiddelde van de gekwadrateerde residuen, gedeeld door het aantal vrijheidsgraden.
$$ s^2 = \frac{\sum_{i=1}^n e_i^2}{n - (p+1)} $$
Hierbij is $n$ het aantal waarnemingen en $p+1$ het aantal te schatten parameters (het intercept plus de $p$ regressiecoëfficiënten). De standaardafwijking van de residuen, $s$, is de schatter voor $\sigma$.
#### 2.2.1 Betrouwbaarheidsintervallen en significantietoetsen voor $\beta_i$
Voor elke regressiecoëfficiënt $\beta_i$ (waarbij $i=0, 1, \dots, p$) kunnen betrouwbaarheidsintervallen en significantietoetsen worden opgesteld.
* **Betrouwbaarheidsinterval voor $\beta_i$:** Een interval waarbinnen de werkelijke populatiecoëfficiënt waarschijnlijk ligt. Dit interval wordt berekend als:
$$ b_i \pm t_{\alpha/2, n-p-1} \cdot SE(b_i) $$
waarbij $SE(b_i)$ de standaardfout van de schatter $b_i$ is.
* **Hypothesetoetsen voor $\beta_i$:** Vaak wordt getoetst of een regressiecoëfficiënt significant verschilt van nul. De nulhypothese is typisch $H_0: \beta_i = 0$.
* **t-toetsingsgrootheid:**
$$ t = \frac{b_i - \beta_{i, H_0}}{SE(b_i)} $$
waarbij $\beta_{i, H_0}$ de waarde van $\beta_i$ onder de nulhypothese is (meestal 0).
* **Verdeling:** De toetsingsgrootheid $T$ volgt een t-verdeling met $n-p-1$ vrijheidsgraden, $T \sim t(n-p-1)$.
* **Beslissing:** De nulhypothese wordt verworpen als de berekende t-waarde significant hoog is (in absolute zin), wat leidt tot een kleine p-waarde.
#### 2.2.2 F-toets voor regressie-analyse
De F-toets wordt gebruikt om de algehele significantie van het regressiemodel te beoordelen.
* **Nulhypothese ($H_0$):** Alle regressiecoëfficiënten behalve het intercept zijn gelijk aan nul.
$$ H_0: \beta_1 = \beta_2 = \dots = \beta_p = 0 $$
* **Alternatieve hypothese ($H_a$):** Ten minste één van de regressiecoëfficiënten is ongelijk aan nul.
$$ H_a: \text{minstens één } \beta_i \neq 0 \text{ voor } i \in \{1, 2, \dots, p\} $$
* **Toetsingsgrootheid:** De F-toets is gebaseerd op de varianties die worden verklaard door het model ten opzichte van de residuele variantie.
* **Verdeling:** Als $H_0$ waar is, volgt de toetsingsgrootheid een F-verdeling met $p$ en $n-p-1$ vrijheidsgraden, $F \sim F(p, n-p-1)$.
* **Interpretatie:** Een hoge F-waarde (en dus een lage p-waarde) suggereert dat het model als geheel significant is in het verklaren van de afhankelijke variabele.
**Verband met t-toets:** Bij enkelvoudige lineaire regressie is de F-toets equivalent aan de kwadratische van de tweezijdige t-toets voor $H_0: \beta_1 = 0$. Bij meervoudige regressie toetst de F-toets of álle $\beta_i$ (voor $i \neq 0$) nul zijn.
### 2.3 Modelgeschiktheid
De geschiktheid van een regressiemodel wordt beoordeeld aan de hand van de determinatiecoëfficiënt (R-kwadraat) en het analyseren van de residuen.
#### 2.3.1 Determinatiecoëfficiënt (R-kwadraat)
De determinatiecoëfficiënt, $R^2$, is een maat voor de proportie van de totale variantie in de afhankelijke variabele $y$ die wordt verklaard door de onafhankelijke variabelen in het model.
* **Interpretatie:**
* $R^2$ is de fractie van de variantie in $y$ die verklaard wordt door $x_1, x_2, \dots, x_p$.
* $R^2$ is de proportionele reductie in de fout bij het voorspellen van $y$ met de regressievergelijking, vergeleken met de fout bij het voorspellen van $y$ zonder kennis van de regressievergelijking (bv. door enkel het gemiddelde te gebruiken).
* **Formule:**
$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$
waarbij:
* $SST = \sum (y_i - \bar{y})^2$ (Total Sum of Squares) - de totale variantie in $y$.
* $SSR = \sum (\hat{y}_i - \bar{y})^2$ (Sum of Squares due to Regression) - de verklaarde variantie.
* $SSE = \sum (y_i - \hat{y}_i)^2 = \sum e_i^2$ (Sum of Squares due to Error) - de residuele variantie.
#### 2.3.2 Aangepaste R-kwadraat (Adjusted R-kwadraat)
De standaard $R^2$ heeft de neiging toe te nemen wanneer er meer variabelen aan het model worden toegevoegd, zelfs als deze variabelen de afhankelijke variabele nauwelijks verklaren. Dit kan leiden tot "overfitting" van het model, waarbij ruis wordt gemodelleerd. De aangepaste R-kwadraat corrigeert hiervoor en is vooral nuttig bij het vergelijken van modellen met een verschillend aantal verklarende variabelen.
* **Formule:**
$$ R^2_{\text{aangepast}} = 1 - \left( \frac{SSE}{n-p-1} \right) / \left( \frac{SST}{n-1} \right) = 1 - \left( 1 - R^2 \right) \frac{n-1}{n-p-1} $$
* **Eigenschappen:**
* De aangepaste $R^2$ is altijd kleiner dan of gelijk aan de gewone $R^2$.
* De aangepaste $R^2$ kan negatief zijn, wat duidt op een zeer slecht passend model.
* De aangepaste $R^2$ daalt als een variabele wordt toegevoegd die de $R^2$ niet voldoende verhoogt om de toename in het aantal parameters te compenseren.
* **Interpretatie:** De interpretatie is vergelijkbaar met die van de gewone $R^2$, maar het houdt rekening met de complexiteit van het model. Het is een betere maat voor de "ware" proportionele verklaring van de variantie in de populatie. Het is vooral geschikt om modellen met een verschillend aantal predictoren onderling te vergelijken.
#### 2.3.3 Onderzoek van residuen
Het analyseren van de residuen is cruciaal om de aannames van het regressiemodel te controleren en om mogelijke problemen te identificeren, zoals niet-lineaire verbanden, heteroscedasticiteit (ongelijke variantie van de fouten) en uitschieters.
* **Doel:**
* Controleren op lineaire verbanden: Zijn er patronen die duiden op niet-lineaire relaties die niet door het model worden opgevangen?
* Opsporen van uitschieters: Zijn er waarnemingen die ver afwijken van de verwachte waarden?
* Controleren van de normaliteitsassumptie: Zijn de residuen normaal verdeeld?
* **Methoden:**
* **Residuen versus voorspelde waarden:** Een scatterplot van de residuen ($e_i$) tegen de voorspelde waarden ($\hat{y}_i$). Idealiter ziet men een willekeurige spreiding rond nul zonder duidelijke patronen. Patronen zoals een omgekeerde U-vorm duiden op niet-lineariteit. Een trechtervorm duidt op heteroscedasticiteit.
* **Residuen versus verklarende variabelen:** Scatterplots van de residuen tegen elke individuele verklarende variabele ($x_j$). Dit helpt om specifieke niet-lineaire verbanden of heteroscedasticiteit gerelateerd aan een bepaalde predictor te identificeren.
* **Normaal-kwantiel-diagram (QQ-plot) van residuen:** Dit diagram vergelijkt de geobserveerde kwantielen van de residuen met de theoretische kwantielen van een normale verdeling. Als de punten dicht langs de rechte lijn liggen, zijn de residuen ongeveer normaal verdeeld. Afwijkingen duiden op schending van de normaliteitsassumptie.
### 2.4 Controle op collineariteit
Collineariteit (of multicollineariteit) treedt op wanneer twee of meer onafhankelijke variabelen in een meervoudig regressiemodel sterk gecorreleerd zijn met elkaar. Dit kan leiden tot instabiele en onbetrouwbare schattingen van de regressiecoëfficiënten.
* **Gevolgen van hoge collineariteit:**
* Grote standaardfouten voor de regressiecoëfficiënten, wat leidt tot een lager onderscheidend vermogen van de t-toetsen en bredere betrouwbaarheidsintervallen.
* Regressiecoëfficiënten kunnen onverwachte tekens hebben of van grootte veranderen wanneer variabelen aan het model worden toegevoegd of verwijderd.
* Het is moeilijk om het relatieve belang van gecorreleerde predictoren te bepalen.
* **Detectiemethoden:**
* **Correlatiematrix:** Een snelle manier om te zien of variabelen onderling sterk gecorreleerd zijn. Hoge correlaties (bv. $> |0.7|$ of $|0.8|$) zijn een waarschuwing.
* **Tolerantie (Tolerance):** Meet het aandeel van de variantie in een predictor dat *niet* kan worden verklaard door de andere predictoren in het model.
$$ \text{Tolerantie}_j = 1 - R_j^2 $$
waarbij $R_j^2$ de determinatiecoëfficiënt is van een regressie van predictor $x_j$ op alle andere predictoren. Een lage tolerantiewaarde (dicht bij nul) indiceert hoge collineariteit.
* **Variance Inflation Factor (VIF):** Het omgekeerde van de tolerantie.
$$ \text{VIF}_j = \frac{1}{\text{Tolerantie}_j} = \frac{1}{1 - R_j^2} $$
Een VIF-waarde groter dan 2 wordt vaak beschouwd als een indicatie van mogelijke problemen met multicollineariteit. Sommige richtlijnen hanteren een drempel van 4 of 10.
> **Tip:** Multicollineariteit is geen probleem voor de voorspellende kracht van het model als geheel (de $R^2$ kan nog steeds hoog zijn), maar het maakt de interpretatie van individuele coëfficiënten problematisch.
### 2.5 Modelverfijning
Wanneer uit de analyse van de residuen en de significantietoetsen blijkt dat niet alle variabelen significant bijdragen aan het model, kan het model worden verfijnd door minder belangrijke variabelen te verwijderen.
* **Proces:** Variabelen met een lage significantie (hoge p-waarden in de t-toetsen) of variabelen die de aangepaste $R^2$ niet significant verhogen, kunnen overwogen worden te verwijderen.
* **Context is belangrijk:** Een variabele die niet significant is in een model met veel andere predictoren, kan wel significant zijn in een eenvoudiger model. De interpretatie van regressiecoëfficiënten en hun significantie is altijd afhankelijk van de context van de andere variabelen in het model.
> **Voorbeeld:** In een model om studiesucces (GPA) te voorspellen, kan het voorkomen dat na het opnemen van "High School Mathematics" (HSM), "High School Science" (HSS) en "High School English" (HSE), alleen de coëfficiënt voor HSM significant is. Dit betekent dat HSM de enige variabele is die een significante bijdrage levert *nadat de andere variabelen reeds in het model zijn opgenomen*. Het betekent niet dat de andere variabelen geen enkele waarde hebben op zich.
#### 2.5.1 Belangrijkheid versus significantie
Het is cruciaal om onderscheid te maken tussen statistische significantie en praktische belangrijkheid. Een variabele kan statistisch significant zijn (met een kleine p-waarde), maar de grootte van de coëfficiënt kan zo klein zijn dat het in de praktijk weinig impact heeft. Omgekeerd kan een praktisch belangrijke variabele statistisch niet-significant blijken als gevolg van een kleine steekproefgrootte of hoge standaardfouten.
---
# Inferentie en hypothesetoetsing in regressie
Hier is een gedetailleerd studieonderdeel over inferentie en hypothesetoetsing in regressie, gericht op betrouwbaarheidsintervallen en significantietoetsen.
## 3. Inferentie en hypothesetoetsing in regressie
Dit onderdeel behandelt de inferentie over regressiecoëfficiënten, inclusief de constructie van betrouwbaarheidsintervallen en het uitvoeren van significantietoetsen om de relevantie van deze coëfficiënten te beoordelen.
### 3.1 Het statistische model voor regressie
Het doel van regressieanalyse is het modelleren van de relatie tussen een afhankelijke variabele ($y$) en een of meer onafhankelijke variabelen ($x_1, x_2, \dots, x_p$).
#### 3.1.1 Populatie-regressievergelijking
Het statistische model voor regressie kan worden uitgedrukt als:
$$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p + \epsilon $$
Waarbij:
* $y$ de afhankelijke variabele is.
* $x_1, x_2, \dots, x_p$ de onafhankelijke variabelen zijn.
* $\beta_0$ de intercept is, de verwachte waarde van $y$ wanneer alle $x_i$ nul zijn.
* $\beta_1, \beta_2, \dots, \beta_p$ de regressiecoëfficiënten zijn, die de verandering in de verwachte waarde van $y$ beschrijven voor een eenheidsverandering in de corresponderende $x_i$, terwijl alle andere $x$-variabelen constant worden gehouden.
* $\epsilon$ de foutterm is, die willekeurige variatie of de invloed van niet-gemodelleerde factoren vertegenwoordigt.
#### 3.1.2 Aannames over de foutterm
De standaard aannames voor de foutterm $\epsilon$ zijn:
* $\epsilon$ volgt een normale verdeling met gemiddelde nul: $\epsilon \sim N(0, \sigma^2)$.
* De variantie van de foutterm, $\sigma^2$, is constant voor alle waarden van de onafhankelijke variabelen (homoscedasticiteit).
* De fouttermen voor verschillende waarnemingen zijn onafhankelijk.
#### 3.1.3 Schatten van de regressieparameters
De regressieparameters ($\beta_0, \beta_1, \dots, \beta_p$) worden geschat uit steekproefgegevens. De meest gebruikte methode is de kleinste kwadratenmethode (Ordinary Least Squares - OLS), die de som van de gekwadrateerde residuen minimaliseert.
* **Residu**: Het residu ($e_i$) is het verschil tussen de waargenomen waarde van $y_i$ en de voorspelde waarde van $y_i$ door het regressiemodel: $e_i = y_i - \hat{y}_i$.
* **Geschatte variantie $\sigma^2$**: De variantie van de foutterm wordt geschat door de gemiddelde gekwadrateerde residuen, gedeeld door het aantal vrijheidsgraden. De vrijheidsgraden zijn $n - (p+1)$, waarbij $n$ het aantal waarnemingen is en $p+1$ het aantal te schatten parameters (inclusief de intercept).
$$ s^2 = \frac{\sum e_i^2}{n - (p+1)} $$
### 3.2 Betrouwbaarheidsintervallen voor regressiecoëfficiënten
Een betrouwbaarheidsinterval biedt een reeks waarden waarbinnen de ware populatieparameter (bijvoorbeeld $\beta_i$) waarschijnlijk ligt, met een bepaald betrouwbaarheidsniveau.
#### 3.2.1 Constructie van een betrouwbaarheidsinterval
Voor een regressiecoëfficiënt $\beta_i$, wordt het betrouwbaarheidsinterval gegeven door:
$$ \hat{\beta}_i \pm t_{\alpha/2, n-p-1} \times SE(\hat{\beta}_i) $$
Waarbij:
* $\hat{\beta}_i$ de geschatte regressiecoëfficiënt is.
* $t_{\alpha/2, n-p-1}$ de kritieke waarde is uit de $t$-verdeling met $n-p-1$ vrijheidsgraden voor een tweezijdig betrouwbaarheidsniveau van $1-\alpha$.
* $SE(\hat{\beta}_i)$ de standaardfout van de geschatte coëfficiënt $\hat{\beta}_i$ is. De standaardfout is afhankelijk van de geschatte variantie van de foutterm ($s^2$) en de variabiliteit van de onafhankelijke variabele $x_i$ en de correlaties met andere onafhankelijke variabelen.
> **Tip:** De standaardfout $SE(\hat{\beta}_i)$ is cruciaal voor het bepalen van de breedte van het betrouwbaarheidsinterval. Een kleinere standaardfout leidt tot een smaller en nauwkeuriger interval.
### 3.3 Significantietoetsen voor regressiecoëfficiënten
Significantietoetsen worden gebruikt om te bepalen of een regressiecoëfficiënt statistisch significant verschilt van een hypothetische waarde, meestal nul. Dit helpt te beoordelen of een onafhankelijke variabele een significante bijdrage levert aan het verklaren van de afhankelijke variabele.
#### 3.3.1 De $t$-toets voor individuele coëfficiënten
De $t$-toets is de meest voorkomende methode om de significantie van individuele regressiecoëfficiënten te testen.
* **Nulhypothese ($H_0$)**: $\beta_i = 0$. Dit impliceert dat de onafhankelijke variabele $x_i$ geen lineair verband heeft met de afhankelijke variabele $y$, rekening houdend met de andere variabelen in het model.
* **Alternatieve hypothese ($H_a$)**: $\beta_i \neq 0$. Dit suggereert dat $x_i$ wel een significant lineair verband heeft met $y$.
De $t$-toetsingsgrootheid wordt berekend als:
$$ t = \frac{\hat{\beta}_i - \beta_{i,0}}{SE(\hat{\beta}_i)} $$
Waarbij $\beta_{i,0}$ de hypothetische waarde van $\beta_i$ onder de nulhypothese is (meestal 0). De stochastische variabele $T$ volgt een $t$-verdeling met $n-p-1$ vrijheidsgraden, dus $T \sim t(n-p-1)$.
#### 3.3.2 Interpretatie van de $t$-toets
De p-waarde van de $t$-toets is de kans op het observeren van een toetsingsgrootheid die minstens zo extreem is als de berekende waarde, aangenomen dat de nulhypothese waar is. Als de p-waarde kleiner is dan het gekozen significantieniveau $\alpha$ (bijvoorbeeld 0.05), wordt de nulhypothese verworpen en wordt de coëfficiënt als statistisch significant beschouwd.
> **Belangrijk:** Statistische significantie betekent niet noodzakelijkerwijs dat de coëfficiënt ook praktisch belangrijk is. De grootte van de coëfficiënt en de context van het probleem zijn ook van belang.
#### 3.3.3 De $F$-toets voor regressie-analyse
De $F$-toets wordt gebruikt om de algehele significantie van het regressiemodel te testen. Dit toets of ten minste één van de onafhankelijke variabelen een significant lineair verband heeft met de afhankelijke variabele.
* **Nulhypothese ($H_0$)**: $\beta_1 = \beta_2 = \dots = \beta_p = 0$. Dit betekent dat geen van de onafhankelijke variabelen een significante bijdrage levert aan het verklaren van $y$.
* **Alternatieve hypothese ($H_a$)**: Minstens één $\beta_i \neq 0$ voor $i \in \{1, \dots, p\}$. Dit betekent dat ten minste één van de onafhankelijke variabelen significant is.
De $F$-toetsingsgrootheid wordt berekend op basis van de variatie die wordt verklaard door het regressiemodel ten opzichte van de residuele variatie:
$$ F = \frac{\text{MSR}}{\text{MSE}} = \frac{\text{Regressie SSR} / p}{\text{Residuele SSE} / (n-p-1)} $$
Waarbij MSR de gemiddelde regressiekwadratensom is en MSE de gemiddelde residuele kwadratensom (schatting van $\sigma^2$). De stochastische variabele $F$ volgt een $F$-verdeling met $p$ en $n-p-1$ vrijheidsgraden, dus $F \sim F(p, n-p-1)$.
#### 3.3.4 Relatie tussen de $t$- en $F$-toets
Bij enkelvoudige lineaire regressie (waarbij $p=1$) is de $F$-toets equivalent aan de tweezijdige $t$-toets voor de coëfficiënt van de enkele onafhankelijke variabele. Meer specifiek geldt dat $F = t^2$. Bij meervoudige regressie toetst de $F$-toets de gezamenlijke significantie van alle predictoren, terwijl de $t$-toetsen de individuele significantie van elke predictor beoordelen.
> **Belangrijk:** De $F$-toets op het niveau van het algehele model kan significant zijn, terwijl individuele $t$-toetsen voor de coëfficiënten niet significant zijn. Dit kan voorkomen als de voorspellende kracht verdeeld is over meerdere variabelen.
### 3.4 De determinatiecoëfficiënt ($R^2$) en aangepaste $R^2$
#### 3.4.1 Determinatiecoëfficiënt ($R^2$)
$R^2$ is een maat voor de proportie van de totale variantie in de afhankelijke variabele ($y$) die wordt verklaard door het regressiemodel.
$$ R^2 = \frac{\text{Verklaarde Variantie}}{\text{Totale Variantie}} = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$
Waarbij:
* $SSR$ de som van de kwadraten van de regressie is (verklaarde variatie).
* $SSE$ de som van de kwadraten van de residuen is (onverklaarde variatie).
* $SST$ de totale som van de kwadraten is (totale variatie in $y$).
$R^2$ varieert tussen 0 en 1. Een hogere $R^2$ duidt op een betere aanpassing van het model aan de data.
> **Interpretatie:** $R^2$ geeft aan welk percentage van de variabiliteit in $y$ verklaard wordt door de onafhankelijke variabelen in het model.
#### 3.4.2 Aangepaste determinatiecoëfficiënt (Adjusted $R^2$)
$R^2$ heeft de neiging om toe te nemen naarmate er meer onafhankelijke variabelen aan het model worden toegevoegd, zelfs als deze variabelen niet echt informatief zijn. Dit kan leiden tot overfitting, waarbij het model te goed past op de steekproefgegevens en slecht presteert op nieuwe data. De aangepaste $R^2$ corrigeert hiervoor door rekening te houden met het aantal predictoren en de steekproefgrootte.
$$ R^2_{aangepast} = 1 - \left( \frac{1-R^2}{1} \right) \left( \frac{n-1}{n-p-1} \right) $$
Waarbij $n$ het aantal waarnemingen is en $p$ het aantal predictoren (exclusief de intercept).
> **Tip:** De aangepaste $R^2$ is vooral nuttig bij het vergelijken van modellen met een verschillend aantal predictoren. Het is de voorkeursmaatstaf wanneer men de algemene "fit" van concurrerende modellen evalueert. De aangepaste $R^2$ kan zelfs afnemen als een nieuwe variabele weinig toevoegt aan het model.
### 3.5 Onderzoek van residuen en collineariteit
#### 3.5.1 Analyse van residuen
Het analyseren van residuen is essentieel om de aannames van het regressiemodel te controleren en potentiële problemen te identificeren.
* **Residuen versus voorspelde waarden**: Een willekeurig patroon van punten rond de nul-as suggereert dat de aanname van constantie variantie (homoscedasticiteit) waarschijnlijk voldaan is. Een trechtervormig patroon kan heteroscedasticiteit duiden.
* **Residuen versus verklarende variabelen**: Dit kan helpen bij het opsporen van niet-lineaire verbanden of uitbijters die specifiek gerelateerd zijn aan een bepaalde predictor.
* **Normaal-kwantiel-diagram van residuen**: Dit helpt te beoordelen of de residuen normaal verdeeld zijn. Een lineair patroon van punten op de diagonaal wijst op normaliteit.
#### 3.5.2 Collineariteit
Collineariteit (of multicollineariteit) treedt op wanneer twee of meer onafhankelijke variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn. Dit kan leiden tot:
* **Grote standaardfouten** voor de regressiecoëfficiënten, waardoor het moeilijker wordt om individuele coëfficiënten als significant te beschouwen.
* **Instabiele schattingen** van de coëfficiënten; kleine veranderingen in de data kunnen grote veranderingen in de geschatte coëfficiënten veroorzaken.
**Detectie van collineariteit:**
* **Correlatiematrix**: Hoge correlaties (bijvoorbeeld $> |0.7|$ of $|0.8|$) tussen predictoren.
* **Tolerantie**: De tolerantie voor een predictor is de proportie van zijn variantie die *niet* verklaard wordt door de andere predictoren. Een kleine tolerantie (bv. $< 0.1$ of $< 0.2$) duidt op hoge collineariteit.
* **Variance Inflation Factor (VIF)**: De VIF is het omgekeerde van de tolerantie ($VIF = 1 / \text{Tolerantie}$). Een VIF groter dan 2 (of soms 5 of 10, afhankelijk van de context) kan duiden op problemen met multicollineariteit.
> **Gevolg van collineariteit:** Als multicollineariteit ernstig is, kunnen de individuele $t$-toetsen voor de betrokken variabelen niet significant zijn, zelfs als het algehele model significant is (F-toets). De regressiecoëfficiënten en hun significanties kunnen dan niet betrouwbaar worden geïnterpreteerd in de context van de andere variabelen in het model. De interpretatie van $\beta_i$ als de verandering in $y$ voor een eenheidsverandering in $x_i$ *terwijl alle andere predictoren constant blijven* wordt minder zinvol als de andere predictoren sterk met $x_i$ correleren.
---
# Modelverfijning en multicollineariteit
Dit gedeelte behandelt het proces van modelverfijning door variabelen te verwijderen en onderzoekt het probleem van multicollineariteit en de impact ervan op regressieanalyse.
### 4.1 Verfijning van regressiemodellen
Het doel van modelverfijning is om een optimaal regressiemodel te creëren dat de onderliggende relaties in de data accuraat weergeeft, zonder overbodige variabelen. Dit kan leiden tot een model dat beter generaliseert en interpreteerbaar is.
#### 4.1.1 Het verwijderen van variabelen
Wanneer variabelen worden toegevoegd aan een regressiemodel, kan de significantie en de waarde van de regressiecoëfficiënten van de reeds aanwezige variabelen veranderen. Dit komt doordat de invloed van de toegevoegde variabele nu meegenomen wordt in de analyse.
Het verwijderen van een variabele uit een model kan leiden tot wijzigingen in de regressiecoëfficiënten, hun significantietoetsen, en de algemene modelprestaties. Regressiecoëfficiënten kunnen alleen geïnterpreteerd worden in de context van de andere variabelen die in het model zijn opgenomen.
> **Tip:** Significante bijdragen van een variabele aan het model worden vaak beoordeeld in de context van de andere verklarende variabelen die al in het model aanwezig zijn. Een variabele kan significant zijn wanneer deze wordt toegevoegd aan een model dat andere variabelen bevat, maar niet noodzakelijk dat alle andere regressiecoëfficiënten nul zijn.
### 4.2 Multicollineariteit
Multicollineariteit treedt op wanneer twee of meer voorspellende variabelen in een regressiemodel sterk gecorreleerd zijn met elkaar. Dit kan leiden tot instabiele schattingen van de regressiecoëfficiënten en problemen bij de interpretatie van de resultaten.
#### 4.2.1 Gevolgen van multicollineariteit
Hoge multicollineariteit kan de standaardfouten van de regressiecoëfficiënten vergroten. Dit betekent dat de schattingen van de coëfficiënten minder nauwkeurig worden, wat kan resulteren in:
* **Opgeblazen standaardfouten:** De schatting van de standaarddeviatie van de regressiecoëfficiënten wordt groter.
* **Verminderde significantie:** Regressiecoëfficiënten die in werkelijkheid wel een significant verband met de afhankelijke variabele hebben, kunnen statistisch niet-significant lijken vanwege de grote standaardfout.
* **Instabiele coëfficiëntschattingen:** Kleine veranderingen in de data kunnen leiden tot grote schommelingen in de geschatte regressiecoëfficiënten.
#### 4.2.2 Het detecteren van multicollineariteit
Er zijn verschillende methoden om multicollineariteit te detecteren:
* **Correlatiematrix:** Een inspectie van de correlaties tussen paren van voorspellende variabelen. Sterke correlaties (vaak boven 0.7 of 0.8) kunnen duiden op multicollineariteit.
* **Tolerantie:** De tolerantie meet het proportie van de variantie in een bepaalde voorspeller die *niet* verklaard kan worden door de andere voorspellers in het model.
* Een lage tolerantiewaarde (dicht bij nul) geeft aan dat een voorspeller sterk gecorreleerd is met andere voorspellers, wat duidt op hoge multicollineariteit.
* De formule voor tolerantie voor predictor $x_i$ is $1 - R_i^2$, waarbij $R_i^2$ de determinatiecoëfficiënt is van een regressie van $x_i$ op de overige voorspellers.
* **Variance Inflation Factor (VIF):** De VIF is het omgekeerde van de tolerantie.
* $VIF_i = \frac{1}{Tolerantie_i} = \frac{1}{1 - R_i^2}$.
* Een VIF groter dan 2 wordt vaak beschouwd als indicatief voor potentiële problemen met multicollineariteit. Hoe hoger de VIF, hoe groter de inflatie van de variantie van de regressiecoëfficiënt.
> **Tip:** De tolerantie en VIF bieden een meer geavanceerde kijk op multicollineariteit dan enkel het bekijken van paarsgewijze correlaties, omdat ze rekening houden met de gezamenlijke invloed van meerdere voorspellers.
#### 4.2.3 Omgaan met multicollineariteit
Wanneer multicollineariteit is gedetecteerd, kunnen verschillende strategieën worden toegepast:
* **Verwijderen van een van de sterk gecorreleerde variabelen:** Kies de variabele die het minst theoretisch relevant is of die het minst bijdraagt aan het model.
* **Combineren van gecorreleerde variabelen:** Bijvoorbeeld door een index of samengestelde variabele te creëren.
* **Gebruik van andere analysemethoden:** Technieken zoals Principal Component Regression (PCR) of Ridge Regression kunnen worden gebruikt om met multicollineariteit om te gaan, hoewel deze leiden tot coëfficiënten die niet direct interpreteerbaar zijn in termen van de originele variabelen.
* **Meer data verzamelen:** In sommige gevallen kan een grotere steekproef de impact van multicollineariteit verminderen.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Regressie-analyse | Een statistische methode die gebruikt wordt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te onderzoeken. Het doel is om te voorspellen hoe veranderingen in de onafhankelijke variabelen de afhankelijke variabele beïnvloeden. |
| Meervoudige lineaire regressie | Een regressietechniek waarbij de afhankelijke variabele wordt voorspeld op basis van twee of meer onafhankelijke variabelen via een lineaire relatie. De vergelijking is van de vorm: $y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p + \epsilon$. |
| Populatie-regressievergelijking | De theoretische vergelijking die de werkelijke relatie beschrijft tussen de afhankelijke variabele en de onafhankelijke variabelen in de gehele populatie. Deze parameters zijn meestal onbekend en worden geschat vanuit een steekproef. |
| Residuen | Het verschil tussen de waargenomen waarde van de afhankelijke variabele en de voorspelde waarde uit het regressiemodel. Residuen geven aan hoe goed het model de data past; idealiter zijn ze klein en willekeurig verdeeld. |
| Regressieparameters schatten | Het proces waarbij de waarden van de coëfficiënten ($\beta$) in de regressievergelijking worden bepaald op basis van waargenomen data, meestal met als doel het minimaliseren van de som van de gekwadrateerde residuen (methode van kleinste kwadraten). |
| Vrijheidsgraden | Het aantal onafhankelijke stukjes informatie dat beschikbaar is om een parameter te schatten. Bij regressie is dit vaak het aantal waarnemingen min het aantal te schatten parameters ($n - (p+1)$). |
| Betrouwbaarheidsinterval | Een reeks waarden die waarschijnlijk de ware populatiewaarde van een parameter bevat. Voor een regressiecoëfficiënt geeft dit een interval waarbinnen de ware populatiewaarde met een bepaalde waarschijnlijkheid ligt. |
| Hypothesetoetsen | Statistische procedures om te bepalen of er voldoende bewijs is om een nulhypothese te verwerpen, zoals de hypothese dat een regressiecoëfficiënt gelijk is aan nul, wat impliceert dat de variabele geen significante bijdrage levert. |
| t-toets | Een statistische toets die wordt gebruikt om te onderzoeken of een individuele regressiecoëfficiënt significant verschilt van nul. De toetsingsgrootheid volgt een t-verdeling met $n-p-1$ vrijheidsgraden. |
| F-toets voor regressie-analyse | Een statistische toets die wordt gebruikt om de algehele significantie van het regressiemodel te evalueren. Het test de nulhypothese dat alle regressiecoëfficiënten van de voorspellende variabelen gelijk zijn aan nul. |
| Determinatiecoëfficiënt (R²) | Een maatstaf die aangeeft welk deel van de totale variatie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabelen in het regressiemodel. Een hogere R² duidt op een betere fit. |
| Aangepaste R² | Een aangepaste versie van de R² die corrigeert voor het aantal voorspellende variabelen in het model en het aantal waarnemingen. Dit is nuttig bij het vergelijken van modellen met verschillende aantallen predictoren. |
| Multicollineariteit | Een fenomeen waarbij twee of meer voorspellende variabelen in een regressiemodel sterk met elkaar gecorreleerd zijn. Dit kan leiden tot instabiele schattingen van regressiecoëfficiënten en verhoogde standaardfouten. |
| Tolerantie | Een maatstaf voor multicollineariteit die aangeeft welk deel van de variantie in een bepaalde predictor niet kan worden verklaard door de andere predictoren in het model. Lage toleranties duiden op hoge multicollineariteit. |
| Variance Inflation Factor (VIF) | Een andere maatstaf voor multicollineariteit, die gerelateerd is aan tolerantie. Een VIF groter dan 2 (of 5 of 10, afhankelijk van de conventie) duidt op potentiële problemen met multicollineariteit. |