Cover
ابدأ الآن مجانًا dia h 1.pdf
Summary
# Inleiding tot regressieanalyse en scatterplots
Dit onderdeel introduceert de basisprincipes van regressieanalyse en het gebruik van scatterplots voor het visualiseren van verbanden tussen variabelen [1](#page=1) [2](#page=2).
### 1.1 Regressieanalyse: een eerste kennismaking
Regressieanalyse is een statistische methode die wordt gebruikt om de relatie tussen variabelen te onderzoeken en te kwantificeren. Het stelt ons in staat om verbanden te identificeren, wiskundige modellen te beschrijven en statistische conclusies te formuleren op basis van steekproefgegevens [1](#page=1) [6](#page=6).
#### 1.1.1 Het verkennen van verbanden met scatterplots
Scatterplots zijn een essentiële tool om de relatie tussen twee variabelen visueel te onderzoeken. Door datapunten te plotten op een tweedimensionaal assenstelsel, waar de ene variabele op de horizontale as (X-as) staat en de andere op de verticale as (Y-as), kunnen we patronen en de aard van de relatie waarnemen [2](#page=2) [3](#page=3).
* **Visuele inspectie:** Een scatterplot kan helpen bij het identificeren van de richting (positief of negatief), de sterkte (hoe dicht de punten bij een lijn liggen) en de vorm (lineair of niet-lineair) van het verband [2](#page=2) [3](#page=3).
* **Voorbeeld: kindersterfte en geletterdheid:** Een scatterplot die kindersterfte uitzet tegenover de geletterdheid bij vrouwen toont aan dat kindersterfte lijkt te dalen naarmate de geletterdheid toeneemt, wat wijst op een mogelijk lineair verband [2](#page=2) [3](#page=3).
* **Voorbeeld: kindersterfte en inkomen:** Een scatterplot die kindersterfte uitzet tegenover het Bruto Nationaal Inkomen (BNI) per capita suggereert een niet-lineair verband, waarbij de kindersterfte sneller daalt bij lagere inkomensniveaus dan bij hogere [3](#page=3).
* **Voorbeeld: kindersterfte en vruchtbaarheidscijfer:** De relatie tussen kindersterfte en het total fertility rate (TFR) kan ook gevisualiseerd worden met een scatterplot om de aard van hun verband te bestuderen [3](#page=3).
> **Tip:** Hoewel scatterplots waardevolle inzichten bieden, is het belangrijk te onthouden dat ze geen bewijs leveren van een causaal verband. Er kunnen altijd andere, niet-gemeten variabelen (confounding variabelen) een rol spelen [6](#page=6).
### 1.2 Populatieregressiefunctie
De populatieregressiefunctie beschrijft de ware relatie tussen variabelen in de gehele populatie [4](#page=4) [5](#page=5).
#### 1.2.1 Definitie en componenten
De populatieregressiefunctie wordt vaak weergegeven als $E(Y|X = x)$, wat de verwachte waarde van de responsvariabele Y voor een gegeven waarde van de verklarende variabele X voorstelt [5](#page=5).
* **Lineaire regressie:** In het geval van lineaire regressie wordt de populatieregressiefunctie uitgedrukt als:
$$E(Y|X_i) = \beta_1 + \beta_2X_i$$
Hierin zijn $\beta_1$ en $\beta_2$ de regressiecoëfficiënten [5](#page=5).
* $\beta_1$ is het **intercept** (snijpunt) en vertegenwoordigt de verwachte waarde van Y wanneer X nul is [5](#page=5).
* $\beta_2$ is de **slope** (helling) en geeft aan hoeveel de verwachte waarde van Y verandert bij een eenheidstoename in X [5](#page=5).
* **Variabelen:**
* $Y$: de responsvariabele (afhankelijke variabele) [5](#page=5).
* $X$: de verklarende variabele (onafhankelijke variabele of predictor) [5](#page=5).
#### 1.2.2 De rol van storingstermen
Individuele waarnemingen van Y kunnen afwijken van de verwachte waarde op basis van X. Dit verschil wordt toegeschreven aan storingstermen (error terms). De relatie kan worden uitgedrukt als [5](#page=5):
$$Y_i = E(Y|X_i) + \epsilon_i$$
Hierin is $\epsilon_i$ de storingsterm voor de $i$-de waarneming [5](#page=5).
* **Systematische component:** $E(Y|X_i)$ vertegenwoordigt het systematische deel van Y dat verklaard wordt door X [5](#page=5).
* **Niet-systematische component:** $\epsilon_i$ is de niet-systematische of stochastische storingsterm en vat alle onzekere factoren samen die niet in het model zijn opgenomen [5](#page=5).
* **Volledige lineaire regressievergelijking:** De volledige vergelijking voor een individuele waarneming in een lineair regressiemodel is:
$$Y_i = \beta_1 + \beta_2X_i + \epsilon_i$$ [5](#page=5).
#### 1.2.3 Voorbeeld: huurprijs en oppervlakte
Stel dat we de huurprijs (Y) van studentenkamers willen relateren aan hun oppervlakte (X). Als we de volledige populatie van studentenkamers zouden kennen, zouden we een populatieregressiefunctie kunnen opstellen. Een scatterplot van huurprijs tegen oppervlakte zou de algemene trend kunnen tonen. De populatieregressiefunctie, $E(Y|X = x)$, zou de gemiddelde huurprijs voor een kamer van een bepaalde oppervlakte weergeven [4](#page=4) [5](#page=5) .
### 1.3 Steekproefregressiefunctie
Aangezien de volledige populatie zelden bekend is, gebruiken we steekproefgegevens om de populatieregressiefunctie te schatten [6](#page=6).
#### 1.3.1 Schatting van de populatieregressie
De steekproefregressiefunctie, ook wel de steekproefregressierechte genoemd, is een schatting van de ware populatieregressierechte. Deze schatting wordt verkregen uit de gegevens van een steekproef [6](#page=6).
* **Voorbeeld: studentenkamers:** Een steekproef van studentenkamers met hun oppervlakte en huurprijs kan worden gebruikt om een steekproefregressierechte te berekenen. De punten in de scatterplot vertegenwoordigen de individuele waarnemingen uit de steekproef, en de steekproefregressierechte wordt zo geplaatst dat deze de algemene trend van deze punten zo goed mogelijk beschrijft [6](#page=6).
* **Variabiliteit:** Het is belangrijk te beseffen dat een nieuwe steekproef kan leiden tot een andere schatting van de regressierechte, wat de inherente onzekerheid bij het schatten uit steekproeven weerspiegelt [6](#page=6).
---
# De kleinstekwadratenmethode en eigenschappen van schatters
Dit gedeelte beschrijft de kleinstekwadratenmethode voor het schatten van regressieparameters en onderzoekt de eigenschappen van deze schatters binnen het standaard lineaire regressiemodel.
## 2. De kleinstekwadratenmethode en eigenschappen van schatters
### 2.1 De kleinstekwadratenmethode
De kleinstekwadratenmethode (Least Squares, LS) is een techniek om de parameters van een regressiemodel te schatten door de som van de gekwadrateerde verticale afwijkingen tussen de waargenomen waarden en de voorspelde waarden te minimaliseren [7](#page=7).
#### 2.1.1 Afleiding van de schatters
Voor een univariate lineaire regressie, waar de steekproefregressiefunctie wordt gegeven door $\hat{Y}_i = \hat{\beta}_1 + \hat{\beta}_2 X_i$ worden de schatters $\hat{\beta}_1$ en $\hat{\beta}_2$ verkregen door de volgende som van gekwadrateerde residuen te minimaliseren [7](#page=7):
$$ S = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} (Y_i - \hat{\beta}_1 - \hat{\beta}_2 X_i)^2 $$
Dit gebeurt door de partiële afgeleiden naar $\hat{\beta}_1$ en $\hat{\beta}_2$ gelijk te stellen aan nul [7](#page=7):
$$ \frac{\partial S}{\partial \hat{\beta}_1} = \sum_{i=1}^{n} 2(Y_i - \hat{\beta}_1 - \hat{\beta}_2 X_i)(-1) = 0 $$
$$ \frac{\partial S}{\partial \hat{\beta}_2} = \sum_{i=1}^{n} 2(Y_i - \hat{\beta}_1 - \hat{\beta}_2 X_i)(-X_i) = 0 $$
Uit de eerste vergelijking volgt:
$$ \sum_{i=1}^{n} Y_i = n\hat{\beta}_1 + \hat{\beta}_2 \sum_{i=1}^{n} X_i $$
Dit leidt tot de schatter voor $\hat{\beta}_1$:
$$ \hat{\beta}_1 = \bar{Y} - \hat{\beta}_2 \bar{X} $$
waarbij $\bar{Y} = \frac{1}{n}\sum_{i=1}^{n} Y_i$ en $\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$ [8](#page=8).
Uit de tweede vergelijking volgt:
$$ \sum_{i=1}^{n} X_i Y_i = \hat{\beta}_1 \sum_{i=1}^{n} X_i + \hat{\beta}_2 \sum_{i=1}^{n} X_i^2 $$
Door $\hat{\beta}_1 = \bar{Y} - \hat{\beta}_2 \bar{X}$ te substitueren, kan de schatter voor $\hat{\beta}_2$ worden afgeleid:
$$ \hat{\beta}_2 = \frac{\sum_{i=1}^{n} X_i Y_i - \bar{Y} \sum_{i=1}^{n} X_i}{\sum_{i=1}^{n} X_i^2 - \bar{X} \sum_{i=1}^{n} X_i} $$
Dit kan worden herschreven als:
$$ \hat{\beta}_2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} $$
waarbij de teller ook geschreven kan worden als $\sum_{i=1}^{n} (X_i - \bar{X})Y_i$ en de noemer als $\sum_{i=1}^{n} (X_i - \bar{X})^2$ [9](#page=9).
#### 2.1.2 Eigenschappen van de schatters
De tweede orde partiële afgeleiden bevestigen dat de gevonden waarden voor $\hat{\beta}_1$ en $\hat{\beta}_2$ inderdaad een minimum opleveren [9](#page=9).
Voor een specifieke steekproef worden de schatters als volgt gegeven:
$$ \hat{\beta}_2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{1}{n-1} \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} $$
en
$$ \hat{\beta}_1 = \bar{Y} - \hat{\beta}_2 \bar{X} $$
[9](#page=9).
Als de covariantie tussen $X$ en $Y$ nul is ($\text{Cov}(X, Y) = 0$), dan is $\hat{\beta}_2 = 0$, wat resulteert in de regressierechte $\hat{Y}_i = \bar{Y}$ [9](#page=9).
> **Tip:** De formules voor $\hat{\beta}_1$ en $\hat{\beta}_2$ kunnen ook worden uitgedrukt met behulp van sommaties over de afwijkingen ten opzichte van het gemiddelde, wat vaak handig is voor berekeningen [9](#page=9).
> **Voorbeeld huurprijs:** Stel we hebben data over de oppervlakte ($X_i$) en huurprijs ($Y_i$) van studentenkamers. Door de kleinstekwadratenmethode toe te passen, vinden we schatters voor $\hat{\beta}_1$ en $\hat{\beta}_2$. Als bijvoorbeeld $\hat{\beta}_1 = -8.21$ en $\hat{\beta}_2 = 32.50$, dan is de regressierechte $\hat{Y}_i = -8.21 + 32.50X_i$. Dit betekent dat een studentenkamer die $1 \text{ m}^2$ groter is, gemiddeld $32.50$ euro meer kost in deze steekproef [10](#page=10).
Belangrijke eigenschappen van de kleinstekwadratenschatters in de steekproef zijn:
* De gemiddelden $\bar{X}$ en $\bar{Y}$ liggen altijd op de regressierechte: $\bar{Y} = \hat{\beta}_1 + \hat{\beta}_2 \bar{X}$ [10](#page=10).
* De som van de residuen ($\hat{e}_i = Y_i - \hat{Y}_i$) is altijd gelijk aan nul: $\sum_{i=1}^{n} \hat{e}_i = 0$ [10](#page=10).
### 2.2 Standaard lineaire regressiemodel (SLRM) en voorwaarden
Om de statistische eigenschappen van de kleinstekwadratenschatters te kunnen analyseren, worden een aantal voorwaarden opgelegd aan het model. Dit vormt het standaard lineaire regressiemodel (SLRM) [11](#page=11).
#### 2.2.1 Voorwaarden van het SLRM
1. **Lineair model:** Het regressiemodel is lineair in de parameters $\beta_1$ en $\beta_2$. De populatieregressiefunctie is $Y_i = \beta_1 + \beta_2 X_i + \epsilon_i$ [11](#page=11).
2. **Gemiddeld nul storingstermen:** Voor elke gegeven waarde van $X_i$ is de verwachtingswaarde van de storingsterm $\epsilon_i$ nul: $E(\epsilon_i | X_i) = 0$ [11](#page=11).
3. **Homoscedasticiteit:** De storingstermen $\epsilon_i$ hebben allemaal dezelfde variantie, ongeacht de waarde van $X_i$. Deze variantie wordt aangeduid met $\sigma^2$: $\text{Var}(\epsilon_i | X_i) = \sigma^2$ [11](#page=11).
* Dit betekent dat de spreiding van de storingstermen constant is voor alle waarden van $X$. In het geval van heteroscedasticiteit varieert de variantie van de storingstermen met $X$ [11](#page=11) [12](#page=12).
4. **Ongecorreleerde storingstermen:** De storingstermen $\epsilon_i$ en $\epsilon_j$ zijn niet gecorreleerd voor $i \neq j$, gegeven de waarden $X_i$ en $X_j$: $\text{Cov}(\epsilon_i, \epsilon_j | X_i, X_j) = 0$ [12](#page=12).
5. **Normale verdeling:** De storingstermen $\epsilon_i$ zijn normaal verdeeld: $\epsilon_i \sim N(\dots)$. Deze voorwaarde is niet strikt noodzakelijk voor de eigenschappen van de schatters zelf, maar wel voor hypothesetoetsing en betrouwbaarheidsintervallen [12](#page=12).
### 2.3 Gauss-Markov stelling
De Gauss-Markov stelling stelt dat, onder de eerste vier voorwaarden van het SLRM (lineariteit, gemiddeld nul storingstermen, homoscedasticiteit en ongecorreleerde storingstermen), de kleinstekwadratenschatters $\hat{\beta}_1$ en $\hat{\beta}_2$ de **beste lineaire onvertekende schatters** (BLUE - Best Linear Unbiased Estimators) zijn voor $\beta_1$ en $\beta_2$ [13](#page=13).
* **(i) Lineaire functie van $Y_i$:** De schatters $\hat{\beta}_1$ en $\hat{\beta}_2$ zijn een lineaire combinatie van de waargenomen waarden $Y_i$.
* Voor $\hat{\beta}_2$: $\hat{\beta}_2 = \sum_{i=1}^{n} c_i Y_i$, met $c_i = \frac{X_i - \bar{X}}{\sum_{j=1}^{n} (X_j - \bar{X})^2}$ [13](#page=13).
* Voor $\hat{\beta}_1$: $\hat{\beta}_1 = \sum_{i=1}^{n} ( \frac{1}{n} - c_i \bar{X} ) Y_i$ [14](#page=14).
* **(ii) Onvertekend:** De verwachtingswaarde van de schatters is gelijk aan de ware populatieparameter: $E(\hat{\beta}_1) = \beta_1$ en $E(\hat{\beta}_2) = \beta_2$ [14](#page=14) [15](#page=15).
* Bewijs voor $E(\hat{\beta}_2) = \beta_2$:
$$ E(\hat{\beta}_2) = E\left(\sum_{i=1}^{n} c_i Y_i\right) = \sum_{i=1}^{n} c_i E(Y_i) = \sum_{i=1}^{n} c_i (\beta_1 + \beta_2 X_i) $$
$$ = \beta_1 \sum_{i=1}^{n} c_i + \beta_2 \sum_{i=1}^{n} c_i X_i $$
Aangezien $\sum_{i=1}^{n} c_i = 0$ en $\sum_{i=1}^{n} c_i X_i = 1$ voor de gekozen $c_i$, volgt $E(\hat{\beta}_2) = \beta_2$ [14](#page=14).
* Bewijs voor $E(\hat{\beta}_1) = \beta_1$:
$$ E(\hat{\beta}_1) = E(\bar{Y} - \hat{\beta}_2 \bar{X}) = E(\bar{Y}) - E(\hat{\beta}_2 \bar{X}) = E(\bar{Y}) - E(\hat{\beta}_2)\bar{X} $$
$$ = E\left(\frac{1}{n}\sum_{i=1}^{n} Y_i\right) - \beta_2\bar{X} = \frac{1}{n}\sum_{i=1}^{n} E(Y_i) - \beta_2\bar{X} $$
$$ = \frac{1}{n}\sum_{i=1}^{n} (\beta_1 + \beta_2 X_i) - \beta_2\bar{X} = \beta_1 + \beta_2\bar{X} - \beta_2\bar{X} = \beta_1 $$
[15](#page=15).
* **(iii) Kleinste variantie:** Van alle lineaire en onvertekende schatters voor $\beta_1$ en $\beta_2$, hebben $\hat{\beta}_1$ en $\hat{\beta}_2$ de kleinste variantie [13](#page=13).
#### 2.3.1 Variantie van de schatters
De varianties van de kleinstekwadratenschatters worden gegeven door:
$$ \text{Var}(\hat{\beta}_2) = \frac{\sigma^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\sigma^2}{S_{XX}} $$
waarbij $S_{XX} = \sum_{i=1}^{n} (X_i - \bar{X})^2$ [16](#page=16).
$$ \text{Var}(\hat{\beta}_1) = \sigma^2 \left( \frac{1}{n} + \frac{\bar{X}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} \right) = \sigma^2 \left( \frac{1}{n} + \frac{\bar{X}^2}{S_{XX}} \right) $$
[16](#page=16) [17](#page=17).
* Een grote variatie in $X$ (grote $S_{XX}$) heeft een gunstig effect op de precisie (kleinere variantie) van $\hat{\beta}_1$ en $\hat{\beta}_2$ [17](#page=17).
* Een grotere variantie van de storingstermen ($\sigma^2$) is ongunstig voor de precisie van de schatters [17](#page=17).
#### 2.3.2 Covariantie van de schatters
De schatters $\hat{\beta}_1$ en $\hat{\beta}_2$ zijn niet onafhankelijk. Hun covariantie is:
$$ \text{Cov}(\hat{\beta}_1, \hat{\beta}_2) = - \bar{X} \text{Var}(\hat{\beta}_2) = - \bar{X} \frac{\sigma^2}{S_{XX}} = - \frac{\bar{X} \sigma^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} $$
[17](#page=17).
Als $\bar{X} > 0$, dan is de covariantie negatief, wat betekent dat als $\hat{\beta}_2$ hoger uitvalt, $\hat{\beta}_1$ waarschijnlijk lager zal zijn, en vice versa [17](#page=17).
### 2.4 Standaardfouten van de schatters
De parameter $\sigma^2$ (de variantie van de storingstermen) is meestal onbekend. Een zuivere schatter hiervoor is $\hat{\sigma}^2$:
$$ \hat{\sigma}^2 = \frac{1}{n-2} \sum_{i=1}^{n} \hat{e}_i^2 = \frac{1}{n-2} \sum_{i=1}^{n} (Y_i - \hat{\beta}_1 - \hat{\beta}_2 X_i)^2 $$
. Hierbij is de noemer $n-2$ omdat er twee parameters ($\beta_1$ en $\beta_2$) zijn geschat, wat leidt tot twee vrijheidsgraden minder [18](#page=18).
De standaardfouten (standard errors, se) van de schatters zijn de vierkantswortels van hun geschatte varianties:
* Standaardfout van $\hat{\beta}_2$:
$$ \text{se}(\hat{\beta}_2) = \sqrt{\frac{\hat{\sigma}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}} = \frac{\hat{\sigma}}{\sqrt{S_{XX}}} $$
[18](#page=18).
* Standaardfout van $\hat{\beta}_1$:
$$ \text{se}(\hat{\beta}_1) = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{\bar{X}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}} = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{\bar{X}^2}{S_{XX}}} $$
[18](#page=18).
### 2.5 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, of $R^2$, is een maat voor de 'goodness-of-fit' van de regressierechte. Het verdeelt de totale afwijking van $Y_i$ ten opzichte van het gemiddelde $\bar{Y}$ in twee componenten: de afwijking die door de regressie wordt verklaard en de afwijking die door de residuen wordt verklaard [18](#page=18).
$$ Y_i - \bar{Y} = (\hat{Y}_i - \bar{Y}) + (Y_i - \hat{Y}_i) $$
waarbij $(Y_i - \bar{Y})$ de totale afwijking is, $(\hat{Y}_i - \bar{Y})$ de afwijking verklaard door de regressie is, en $(Y_i - \hat{Y}_i) = \hat{e}_i$ de residu is [18](#page=18).
---
# Standaard lineair regressiemodel en diagnostische hulpmiddelen
Dit gedeelte behandelt de fundamentele voorwaarden van het standaard lineaire regressiemodel (SLRM) en introduceert essentiële diagnostische hulpmiddelen zoals residuplots en QQ-plots om de geldigheid van deze aannames te evalueren.
### 3.1 Voorwaarden van het standaard lineair regressiemodel
Het standaard lineaire regressiemodel (SLRM) kent vijf kernvoorwaarden die cruciaal zijn voor de geldigheid en interpreteerbaarheid van de resultaten [11](#page=11).
1. **Lineair model**: Het model moet lineair zijn in de parameters $\beta$. De modelvorm is $Y_i = \beta_1 + \beta_2 X_i + \varepsilon_i$ [11](#page=11).
2. **Gemiddeld nul voor storingstermen**: Voor elke gegeven waarde van $X_i$ moet de verwachtingswaarde van de storingsterm $\varepsilon_i$ nul zijn: $E(\varepsilon_i | X_i) = 0$ [11](#page=11).
3. **Homoscedasticiteit**: De storingstermen $\varepsilon_i$ hebben allemaal dezelfde variantie, ongeacht de waarde van $X_i$: $\text{Var}(\varepsilon_i | X_i) = \sigma^2$. Dit betekent dat de spreiding van de storingstermen constant is over het gehele bereik van de onafhankelijke variabele. Een afwijking hiervan wordt heteroscedasticiteit genoemd, waarbij de variantie toeneemt of afneemt met $X_i$ [11](#page=11) [12](#page=12).
> **Tip**: Homoscedasticiteit impliceert dat de spreiding van de waargenomen waarden rond de regressielijn constant is. Heteroscedasticiteit leidt tot inefficiënte schatters en ongeldige standaardfouten en betrouwbaarheidsintervallen.
4. **Ongecorreleerde storingstermen**: De storingstermen $\varepsilon_i$ en $\varepsilon_j$ voor verschillende observaties $i$ en $j$ (waarbij $i \neq j$) mogen niet gecorreleerd zijn: $\text{Cov}(\varepsilon_i, \varepsilon_j | X_i, X_j) = 0$. Dit betekent dat er geen systematisch verband mag zijn tussen de fouten van verschillende observaties [12](#page=12).
5. **Normale verdeling van storingstermen**: De storingstermen $\varepsilon_i$ zijn normaal verdeeld: $\varepsilon_i \sim N(\dots)$. Hoewel de Gauss-Markov-stelling (zie hieronder) niet afhankelijk is van deze aanname, is normaliteit wel cruciaal voor het uitvoeren van t-testen en F-testen, en voor het construeren van betrouwbaarheidsintervallen [12](#page=12).
### 3.2 De Gauss-Markov stelling
De Gauss-Markov stelling is een fundamenteel resultaat dat de efficiëntie van de kleinste-kwadraten (Ordinary Least Squares - OLS) schatters garandeert onder de eerste vier voorwaarden van het SLRM (lineariteit, gemiddeld nul, homoscedasticiteit en ongecorreleerde storingstermen). De stelling stelt dat de OLS-schatters $\hat{\beta}_1$ en $\hat{\beta}_2$ de beste lineaire onvertekende schatters (Best Linear Unbiased Estimators - BLUE) zijn voor $\beta_1$ en $\beta_2$ [13](#page=13).
* **Lineaire functie van $Y_i$**: De OLS-schatters $\hat{\beta}_1$ en $\hat{\beta}_2$ zijn lineaire combinaties van de waargenomen waarden $Y_i$ [13](#page=13).
* $\hat{\beta}_2 = \sum_{i=1}^n c_i Y_i$, waarbij $c_i = \frac{X_i - \bar{X}}{\sum_{j=1}^n (X_j - \bar{X})^2}$ [13](#page=13).
* $\hat{\beta}_1 = \bar{Y} - \hat{\beta}_2 \bar{X}$ [14](#page=14).
* **Onvertekendheid**: De verwachtingswaarde van de schatters is gelijk aan de werkelijke parameters: $E(\hat{\beta}_1) = \beta_1$ en $E(\hat{\beta}_2) = \beta_2$ [14](#page=14).
* Het bewijs voor $E(\hat{\beta}_2)$ maakt gebruik van de lineaire structuur van de schatter en de voorwaarde $E(\varepsilon_i|X_i)=0$ [14](#page=14).
* Het bewijs voor $E(\hat{\beta}_1)$ volgt uit de onvertekendheid van $\hat{\beta}_2$ en $E(Y_i) = \beta_1 + \beta_2 X_i$ [15](#page=15).
* **Minste variantie**: $\hat{\beta}_1$ en $\hat{\beta}_2$ hebben de kleinste variantie binnen de klasse van alle lineaire en zuivere schatters voor $\beta_1$ en $\beta_2$ [13](#page=13).
* De variantie van $\hat{\beta}_2$ wordt afgeleid als $\text{Var}(\hat{\beta}_2) = \frac{\sigma^2}{\sum_{i=1}^n (X_i - \bar{X})^2} = \frac{\sigma^2}{V_X}$ [16](#page=16).
* De variantie van $\hat{\beta}_1$ wordt afgeleid als $\text{Var}(\hat{\beta}_1) = \sigma^2 \left( \frac{1}{n} + \frac{\bar{X}^2}{\sum_{i=1}^n (X_i - \bar{X})^2} \right)$ [16](#page=16).
> **Tip**: Een grote spreiding in $X$ (grote $V_X$) leidt tot kleinere varianties voor de schatters, wat resulteert in preciezere schattingen van de parameters. Een grote variantie $\sigma^2$ van de storingstermen werkt daarentegen ongunstig op de precisie.
De covariantie tussen $\hat{\beta}_1$ en $\hat{\beta}_2$ is $\text{Cov}(\hat{\beta}_1, \hat{\beta}_2) = -\bar{X} \text{Var}(\hat{\beta}_2) = -\frac{\bar{X}\sigma^2}{V_X}$. Dit impliceert dat $\hat{\beta}_1$ en $\hat{\beta}_2$ niet onafhankelijk zijn. Als $\bar{X} > 0$, is de covariantie negatief, en als $\bar{X} < 0$, is de covariantie positief [17](#page=17).
### 3.3 Standaardfouten van de parameterschattingen
De varianties van $\hat{\beta}_1$ en $\hat{\beta}_2$ bevatten de onbekende parameter $\sigma^2$. Om deze varianties te kunnen schatten, is een zuivere schatter voor $\sigma^2$ nodig [18](#page=18).
* **Zuivere schatter voor $\sigma^2$**: $\hat{\sigma}^2 = \frac{1}{n-2} \sum_{i=1}^n \hat{\varepsilon}_i^2$. Hierbij is $\hat{\varepsilon}_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_1 + \hat{\beta}_2 X_i)$ de residu, de geschatte storingsterm. De noemer $n-2$ is het aantal vrijheidsgraden, aangezien er twee parameters ($\beta_1$ en $\beta_2$) geschat worden [18](#page=18).
* **Standaardfout van de regressie**: $\hat{\sigma} = \sqrt{\frac{1}{n-2} \sum_{i=1}^n \hat{\varepsilon}_i^2}$. Dit is de geschatte standaarddeviatie van de storingstermen [18](#page=18).
* **Standaardfouten van de parameterschattingen**:
* $\text{se}(\hat{\beta}_1) = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{\bar{X}^2}{V_X}}$ [18](#page=18).
* $\text{se}(\hat{\beta}_2) = \frac{\hat{\sigma}}{\sqrt{V_X}}$ [18](#page=18).
### 3.4 Diagnostische hulpmiddelen: het nagaan van de voorwaarden
De voorwaarden van het SLRM zijn cruciaal voor de validiteit van de inferentie. Diagnostische hulpmiddelen worden gebruikt om deze voorwaarden te controleren.
#### 3.4.1 Residuplot
Een residuplot is een scatterplot van de gestandaardiseerde residuen ($\hat{\varepsilon}_i / \hat{\sigma}$) tegen de waarden van de onafhankelijke variabele $X_i$ (of de voorspelde waarden $\hat{Y}_i$). Dit plot helpt bij het beoordelen van de lineariteit van het model en homoscedasticiteit [25](#page=25).
* **Normaal beeld (lineariteit en homoscedasticiteit)**: Een ideale residuplot toont een strook van gelijke breedte rond de horizontale as ($0$) waarin de punten lukraak verspreid liggen [25](#page=25) [26](#page=26).
* **Patroon (niet-lineair model)**: Als de puntenwolk een duidelijk patroon vertoont (bijvoorbeeld een U-vorm of omgekeerde U-vorm), duidt dit op een niet-lineair verband dat niet door het lineaire model wordt vastgelegd [25](#page=25) [27](#page=27).
* **Heteroscedasticiteit**: Als de breedte van de strook met de waarde van $X_i$ varieert (een trechtervormig patroon), duidt dit op heteroscedasticiteit [25](#page=25) [26](#page=26).
* **Uitschieter**: Een punt dat ver buiten de algemene spreiding valt (residuen buiten het bereik van ongeveer $[-2, 2]$ of $[-3, 3]$) kan een uitschieter zijn [25](#page=25) [28](#page=28).
**Voorbeelden van residuplots**:
* **Kindersterfte en geletterdheid**: De residuplot voor de regressie van kindersterfte op geletterdheid laat een redelijk willekeurige spreiding zien, wat duidt op een redelijke fit en homoscedasticiteit [28](#page=28).
* **Kindersterfte en inkomen**: De residuplot voor de regressie van kindersterfte op inkomen vertoont mogelijk een lichte toename in spreiding bij hogere inkomensniveaus, wat zou kunnen duiden op enige heteroscedasticiteit [28](#page=28).
#### 3.4.2 QQ-plot (Kwantielplot)
Een QQ-plot (Quantile-Quantile plot) is een grafische techniek om te controleren of de storingstermen normaal verdeeld zijn. Het vergelijkt de empirische kwantielen van de residuen met de theoretische kwantielen van een standaard normale verdeling [25](#page=25) [29](#page=29).
* **Constructie**: De residuen worden gesorteerd: $\hat{\varepsilon}_{ } \leq \hat{\varepsilon}_{ } \leq \dots \leq \hat{\varepsilon}_{(n)}$. De empirische kwantielen worden benaderd door $\hat{\varepsilon}_{(i)}$. De theoretische kwantielen van een standaard normale verdeling ($N(0,1)$) worden verkregen met behulp van de inverse cumulatieve verdelingsfunctie, $\Phi^{-1}(p)$. Een veelgebruikte methode voor de $i$-de geordende residu is om deze te plotten tegen het $i$-de theoretische kwantiel, berekend als $\Phi^{-1}\left(\frac{i - 0.5}{n}\right)$ [1](#page=1) [29](#page=29) [2](#page=2).
* **Normaal verdeelde storingstermen**: Als de storingstermen normaal verdeeld zijn, zullen de punten in de QQ-plot een rechtlijnig patroon volgen dat de lijn $y=x$ volgt (of de lijn die de theoretische kwantielen tegen de empirische kwantielen uitzet) [29](#page=29) [30](#page=30).
* **Afwijkingen van normaliteit**:
* Een S-vorm kan duiden op scheefheid.
* Afwijkingen in de staarten (punten die ver van de rechte lijn afwijken aan de uiteinden) kunnen wijzen op zware of lichte staarten in de verdeling van de residuen [30](#page=30) [31](#page=31) [32](#page=32).
**Voorbeelden van QQ-plots**:
* **Kindersterfte en geletterdheid**: De QQ-plot voor de regressie van kindersterfte op geletterdheid toont punten die redelijk dicht bij de diagonale lijn liggen, wat suggereert dat de storingstermen bij benadering normaal verdeeld zijn [32](#page=32).
* **Kindersterfte en inkomen**: De QQ-plot voor de regressie van kindersterfte op inkomen laat eveneens een redelijk lineair patroon zien, hoewel er enige afwijking in de staarten kan zijn, wat op een mogelijke lichte schending van de normaliteitsaanname kan duiden [32](#page=32).
### 3.5 T-testen voor parameters en betrouwbaarheidsintervallen
De normaliteitsaanname van de storingstermen is nodig voor statistische inferentie, zoals t-testen en betrouwbaarheidsintervallen. Onder de aannames van het SLRM, en met $\sigma^2$ geschat door $\hat{\sigma}^2$, volgen de gestandaardiseerde parameterschatters een t-verdeling met $n-2$ vrijheidsgraden [22](#page=22) [23](#page=23):
* $\frac{\hat{\beta}_1 - \beta_1}{\text{se}(\hat{\beta}_1)} \sim t_{n-2}$
* $\frac{\hat{\beta}_2 - \beta_2}{\text{se}(\hat{\beta}_2)} \sim t_{n-2}$
#### 3.5.1 T-test voor de slope ($\beta_2$)
Deze test evalueert of er een statistisch significant lineair verband is tussen de onafhankelijke en de afhankelijke variabele.
* **Hypothesen**:
* $H_0: \beta_2 = 0$ (geen lineair verband)
* $H_1: \beta_2 \neq 0$ (wel een lineair verband) [23](#page=23).
* **Teststatistiek**: $T = \frac{\hat{\beta}_2}{\text{se}(\hat{\beta}_2)}$ [23](#page=23).
* **Beslissingsregel**: Verwerp $H_0$ als $|T| > t_{n-2, 1-\alpha/2}$, waarbij $t_{n-2, 1-\alpha/2}$ de kritieke waarde is uit de t-verdeling met $n-2$ vrijheidsgraden voor een significantieniveau $\alpha$. De p-waarde is $2 \times P(T \geq |t|)$ met $T \sim t_{n-2}$ [23](#page=23).
#### 3.5.2 Betrouwbaarheidsinterval voor de slope ($\beta_2$)
Een betrouwbaarheidsinterval (BI) geeft een bereik van waarden waarbinnen de werkelijke parameter $\beta_2$ waarschijnlijk ligt.
* **Formule**: Een $(1-\alpha)$ betrouwbaarheidsinterval voor $\beta_2$ is:
$$ \hat{\beta}_2 \pm t_{n-2, 1-\alpha/2} \times \text{se}(\hat{\beta}_2) $$ [24](#page=24).
#### 3.5.3 T-test voor de intercept ($\beta_1$)
Deze test onderzoekt of de regressielijn significant afwijkt van de oorsprong.
* **Hypothesen**:
* $H_0: \beta_1 = 0$ (regressielijn gaat door de oorsprong)
* $H_1: \beta_1 \neq 0$ (regressielijn wijkt significant af van de oorsprong) [24](#page=24).
* **Teststatistiek**: $T = \frac{\hat{\beta}_1}{\text{se}(\hat{\beta}_1)}$ [24](#page=24).
* **Beslissingsregel**: Verwerp $H_0$ als $|T| > t_{n-2, 1-\alpha/2}$. De p-waarde is $2 \times P(T \geq |t|)$ met $T \sim t_{n-2}$.
#### 3.5.4 Betrouwbaarheidsinterval voor de intercept ($\beta_1$)
* **Formule**: Een $(1-\alpha)$ betrouwbaarheidsinterval voor $\beta_1$ is:
$$ \hat{\beta}_1 \pm t_{n-2, 1-\alpha/2} \times \text{se}(\hat{\beta}_1) $$ [24](#page=24).
**Voorbeeld kindersterfte**: Voor de regressie van kindersterfte (Y) op geletterdheid (X): $\hat{Y}_i = 273.237 - 2.404 X_i$. Met $\hat{\sigma} = 44.8$, $\text{se}(\hat{\beta}_1) = 21.590$, en $\text{se}(\hat{\beta}_2) = 0.262$.
* De t-statistiek voor $\beta_2$ is $T = \frac{-2.404}{0.262} \approx -9.18$. Voor $n=50$ (aannemende $n-2=48$ vrijheidsgraden), is deze waarde significant kleiner dan de kritieke waarde ($t_{48, 0.975} \approx 2.01$), wat leidt tot verwerping van $H_0$. Er is dus een significant verband tussen geletterdheid en gemiddelde kindersterfte [25](#page=25).
### 3.6 Voorspellingen
Het lineaire regressiemodel kan worden gebruikt om voorspellingen te doen voor de afhankelijke variabele $Y_0$ bij een gegeven waarde $X_0$.
* **Puntschatting**: De puntschatting voor $Y_0$ is $\hat{Y}_0 = \hat{\beta}_1 + \hat{\beta}_2 X_0$ [33](#page=33).
* **Betrouwbaarheidsinterval voor de gemiddelde respons $E[Y_0]$**: Dit interval geeft een bereik waarbinnen de gemiddelde waarde van $Y$ bij een specifieke $X_0$ waarschijnlijk ligt. De formule is:
$$ \hat{Y}_0 \pm t_{n-2, 1-\alpha/2} \times \hat{\sigma} \sqrt{\frac{1}{n} + \frac{(X_0 - \bar{X})^2}{V_X}} $$ [34](#page=34).
* **Predictie-interval voor een individuele respons $Y_0$**: Dit interval geeft een bereik waarbinnen een individuele waarneming $Y_0$ bij een specifieke $X_0$ waarschijnlijk valt. Dit interval is breder dan het betrouwbaarheidsinterval voor de gemiddelde respons, omdat het naast de onzekerheid in de regressielijn ook de variabiliteit van individuele waarnemingen rond de regressielijn meeneemt. De formule is:
$$ \hat{Y}_0 \pm t_{n-2, 1-\alpha/2} \times \hat{\sigma} \sqrt{1 + \frac{1}{n} + \frac{(X_0 - \bar{X})^2}{V_X}} $$ [35](#page=35).
> **Tip**: Betrouwbaarheidsintervallen voor de gemiddelde respons en predictie-intervallen voor individuele responsen worden breder naarmate $X_0$ verder af ligt van $\bar{X}$. Dit reflecteert de toegenomen onzekerheid bij extrapolatie.
---
# Toepassingen en transformaties in regressieanalyse
Dit gedeelte bespreekt de toepassing van regressieanalyse op specifieke datasets en introduceert verschillende transformatietechnieken om niet-lineaire verbanden te modelleren.
## 4. Toepassingen en transformaties in regressieanalyse
Regressieanalyse wordt gebruikt om verbanden tussen variabelen te modelleren. Hoewel lineaire modellen vaak een goed startpunt zijn, zijn niet alle relaties lineair. Dit gedeelte introduceert methoden om niet-lineaire verbanden te modelleren door transformaties toe te passen op variabelen, waardoor het model lineair wordt in de parameters, of door alternatieve modelvormen te overwegen [36](#page=36).
### 4.1 Voorbeelden van regressietoepassingen
De volgende voorbeelden illustreren de toepassing van univariate lineaire regressie op datasets:
* **Huurprijs van studentenkamers:** Hierbij wordt de huurprijs ($y_i$) geregresseerd op de oppervlakte ($x_i$). De geschatte regressievergelijking kan worden gebruikt om voorspellingen te doen en de relatie te kwantificeren [21](#page=21).
* Voorbeeld data:
| $x_i$ (oppervlakte) | $y_i$ (huurprijs) | $\hat{y}_i$ (voorspeld) | $\hat{e}_i$ (residu) |
| :------------------ | :---------------- | :---------------------- | :------------------ |
| 12 | 390 | 381.8 | 8.2 |
| 13 | 405 | 414.3 | -9.3 |
| 14 | 440 | 446.8 | -6.8 |
| 15 | 495 | 479.3 | 15.7 |
| 16 | 515 | 511.8 | 3.2 |
| 17 | 515 | 544.3 | -29.3 |
| 18 | 595 | 576.8 | 18.2 |
* Geschatte parameters (voorbeeld): $\hat{\beta}_1 = -8.21$ en $\hat{\beta}_2 = 32.50$ [21](#page=21).
* Standaardfouten: $\hat{\sigma} = 18.15$, $se(\hat{\beta}_1) = 51.895$ en $se(\hat{\beta}_2) = 3.429$ [21](#page=21).
* Determinatiecoëfficiënt ($R^2$): $0.9473$ [21](#page=21).
* **Kindersterfte en geletterdheid:** Onderzocht wordt de relatie tussen kindersterfte per 1000 geboortes ($Y$) en geletterdheid bij vrouwen in procenten ($X$). De regressievergelijking is $\hat{y}_i = 273.237 - 2.404X_i$ [21](#page=21).
* Standaardfouten: $\hat{\sigma} = 44.8$, $se(\hat{\beta}_1) = 21.590$, $se(\hat{\beta}_2) = 0.262$ [21](#page=21).
* Determinatiecoëfficiënt ($R^2$): $0.637$ [21](#page=21).
* **Kindersterfte en inkomen:** De relatie tussen kindersterfte per 1000 geboortes ($Y$) en BNI per capita in dollars ($X$) wordt geanalyseerd. De regressievergelijking is $\hat{y}_i = 146.823 - 0.046x_i$ [22](#page=22).
* Standaardfouten: $\hat{\sigma} = 56.19$, $se(\hat{\beta}_1) = 13.162$, $se(\hat{\beta}_2) = 0.008$ [22](#page=22).
* Determinatiecoëfficiënt ($R^2$): $0.429$ [22](#page=22).
### 4.2 T-testen voor parameters en verdeling van schatters
De kleinstekwadratenschatters ($\hat{\beta}_1, \hat{\beta}_2$) voor de parameters zijn lineaire combinaties van de responsvariabelen $y_i$. Als de residuen $\epsilon_i$ normaal verdeeld zijn, volgen de schatters ook een normale verdeling [22](#page=22):
* $\hat{\beta}_1 \sim N(\beta_1, \text{Var}(\hat{\beta}_1))$ [22](#page=22).
* $\hat{\beta}_2 \sim N(\beta_2, \text{Var}(\hat{\beta}_2))$ [22](#page=22).
Dit maakt het mogelijk om hypothesen te toetsen en betrouwbaarheidsintervallen te construeren voor de parameters [22](#page=22).
### 4.3 Transformaties om niet-lineaire verbanden te modelleren
Wanneer een lineair model het verband tussen variabelen niet goed beschrijft, kunnen transformaties worden toegepast om het model lineariseerbaar te maken [36](#page=36).
#### 4.3.1 Log-log model
Het log-log model wordt toegepast wanneer er een vermoeden is van een machtsverband tussen de variabelen, zoals een exponentiële afname van kindersterfte met toenemend BNI [36](#page=36).
Het algemene model is:
$y_i = \beta_1 x_i^{\beta_2} \epsilon_i$
Door beide zijden van de vergelijking logaritmisch te transformeren, verkrijgt men een lineair model in de parameters:
$\ln(y_i) = \ln(\beta_1) + \beta_2 \ln(x_i) + \ln(\epsilon_i)$
Dit kan worden herschreven als:
$Y_i^* = \beta_1^* + \beta_2 X_i^* + \epsilon_i^*$
waarbij $Y_i^* = \ln(y_i)$, $X_i^* = \ln(x_i)$, $\beta_1^* = \ln(\beta_1)$, en $\epsilon_i^* = \ln(\epsilon_i)$ [36](#page=36) [37](#page=37).
* De kleinstekwadratenschatters voor $\beta_1^*$ en $\beta_2$ zijn $\hat{\beta}_1^*$ en $\hat{\beta}_2$.
* De schatter voor $\beta_1$ is $\hat{\beta}_1 = \exp(\hat{\beta}_1^*)$. Het is belangrijk op te merken dat $\hat{\beta}_1$ geen zuivere schatter is voor $\beta_1$ omdat $E[\exp(\hat{\beta}_1^*)] > \exp(E[\hat{\beta}_1^*])$ [37](#page=37).
**Interpretatie van $\beta_2$ in een log-log model:**
$\beta_2$ vertegenwoordigt de elasticiteit van $Y$ ten opzichte van $X$. Dit betekent dat een relatiewijziging in $X$ van 1 procent leidt tot een relatiewijziging in $Y$ van $\beta_2$ procent [37](#page=37).
$\beta_2 = \frac{dy}{dx} \frac{x}{y} = \frac{\text{rel. wijziging in } y}{\text{rel. wijziging in } x}$ [37](#page=37).
**Voorbeeld: Prijselasticiteit van vraag:**
Voor de vraag naar koffie, gemodelleerd met een log-log model, wordt een geschatte elasticiteit van $-0.724$ gevonden. Dit impliceert dat een prijsstijging van 1 procent leidt tot een vraagdaling van 0.724 procent. Het model voor de vraag ($V_i$) als functie van prijs ($P_i$) is [37](#page=37):
$V_i = \exp(5.334 - 0.724 \ln(P_i)) = 207.3 P_i^{-0.724}$ [37](#page=37).
**Voorbeeld: Kindersterfte ifv BNI (log-log):**
Bij het modelleren van kindersterfte ($CM_i$) afhankelijk van BNI ($BNI_i$) met een log-log model, wordt de volgende regressievergelijking gevonden:
$\ln(CM_i) = 9.183 - 0.754 \ln(BNI_i)$ [38](#page=38).
De $R^2$ is $0.61$ [38](#page=38).
Het model voor kindersterfte ifv BNI is:
$CM_i = 9732 BNI_i^{-0.754}$ [38](#page=38).
#### 4.3.2 Log-lin model
Het log-lin model wordt gebruikt voor exponentiële groei of afname, bijvoorbeeld bij de verspreiding van ziekten. Het model heeft de vorm:
$y_i = \beta_1 \exp(\beta_2 x_i) \epsilon_i$
Door de logaritme van de responsvariabele te nemen, ontstaat een lineair model in de parameters:
$\ln(y_i) = \ln(\beta_1) + \beta_2 x_i + \ln(\epsilon_i)$
Dit kan worden herschreven als:
$Y_i^* = \beta_1^* + \beta_2 X_i + \epsilon_i^*$
waarbij $Y_i^* = \ln(y_i)$ en $\beta_1^* = \ln(\beta_1)$ [39](#page=39).
**Interpretatie van $\beta_2$ in een log-lin model:**
De parameter $\beta_2$ correspondeert met de groeiconstante ($k$) in een exponentiële functie. Het geeft de relatieve verandering in $y$ weer voor een absolute verandering in $x$ [39](#page=39).
**Voorbeeld: Verspreiding SARS-COV-2:**
Voor de vastgestelde SARS-COV-2 besmettingen ($B_i$) in België, afhankelijk van de dag van de maand ($D_i$), wordt een log-lin model gebruikt:
$\ln(B_i) = 4.146 + 0.206 D_i$ [40](#page=40).
De geschatte groeiconstante is ongeveer $21\%$ [40](#page=40).
Het model voor het aantal besmettingen ifv de dag van de maand is:
$B_i = \exp(4.146 + 0.206 D_i) = 63.2 e^{0.206 D_i}$ [40](#page=40).
#### 4.3.3 Lin-log model
Het lin-log model wordt gebruikt wanneer de absolute verandering in $y$ constant is voor een relatieve verandering in $x$.
$y_i = \beta_1 + \beta_2 \ln(x_i) + \epsilon_i$ [41](#page=41).
**Interpretatie van $\beta_2$ in een lin-log model:**
$\beta_2 = \frac{dy}{dx/x} = \frac{\text{abs. wijziging in } y}{\text{rel. wijziging in } x}$. Dit betekent dat een relatiewijziging van 1 procent in $x$ leidt tot een absolute wijziging van $\frac{\beta_2}{100}$ in $y$ [41](#page=41).
#### 4.3.4 Invers model
Het invers model wordt gebruikt om asymptotische verbanden te modelleren, waarbij de responsvariabele een limietwaarde benadert voor grote waarden van de verklarende variabele.
$y_i = \beta_1 + \beta_2 \frac{1}{x_i} + \epsilon_i$ [41](#page=41).
**Interpretatie van $\beta_1$ en $\beta_2$ in een invers model:**
* $\beta_1$ vertegenwoordigt de asymptotische waarde van $E(Y)$ voor heel grote waarden van $X$ [41](#page=41).
* De interpretatie van $\beta_2$ is afhankelijk van het teken: als $\beta_2 > 0$, dan zal $y$ gemiddeld afnemen als $x$ toeneemt. Als $\beta_2 < 0$, dan zal $y$ gemiddeld toenemen als $x$ toeneemt.
**Voorbeeld: Kindersterfte ifv BNI (invers model):**
Voor kindersterfte ($CM_i$) afhankelijk van BNI per capita ($BNI_i$), wordt het invers model toegepast:
$CM_i = 38.954 + 25710.8 \frac{1}{BNI_i}$ [41](#page=41).
De $R^2$ is $0.50$ [41](#page=41).
* Een positieve $\beta_2 = 25710.8$ duidt op een dalend verband tussen kindersterfte en BNI [41](#page=41).
* De asymptotische waarde van de kindersterfte is $38.954$ overlijdens per 1000 geboortes voor zeer hoge BNI-waarden [41](#page=41).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Univariate lineaire regressie | Een statistische methode die wordt gebruikt om de lineaire relatie tussen twee variabelen te modelleren en te analyseren, waarbij één afhankelijke variabele wordt verklaard door één onafhankelijke variabele. |
| Regressieanalyse | Een statistische techniek die wordt gebruikt om het verband tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te onderzoeken, met als doel het voorspellen van de afhankelijke variabele op basis van de onafhankelijke variabelen. |
| Scatterplot | Een grafische weergave die de relatie tussen twee numerieke variabelen toont door punten te plotten op een tweedimensionaal assenstelsel, waarbij elke as een variabele vertegenwoordigt. |
| Kindersterfte | Het aantal sterfgevallen van kinderen onder een bepaalde leeftijd, meestal uitgedrukt per 1.000 levendgeborenen in een specifieke periode en regio. |
| Geletterdheid bij vrouwen | Het percentage vrouwen in een bepaalde populatie dat de basisvaardigheden van lezen en schrijven beheerst, vaak gebruikt als indicator voor sociaal-economische ontwikkeling. |
| Bruto Nationaal Inkomen (BNI) per capita | Het totale inkomen verdiend door de inwoners van een land, gedeeld door de totale bevolking, wat een maatstaf is voor de gemiddelde welvaart. |
| Totale vruchtbaarheidspercentage (TFR) | Het gemiddelde aantal kinderen dat een vrouw gedurende haar vruchtbare jaren naar verwachting zal krijgen, onder de aanname dat de huidige leeftijsspecifieke vruchtbaarheidscijfers constant blijven. |
| Populatieregressiefunctie | De theoretische gemiddelde waarde van de afhankelijke variabele Y voor een gegeven waarde van de onafhankelijke variabele X in de gehele populatie, formeel uitgedrukt als $E(Y|X)$. |
| Intercept ($\beta_1$) | De geschatte waarde van de afhankelijke variabele wanneer de onafhankelijke variabele nul is. Het is het snijpunt van de regressielijn met de y-as. |
| Helling ($\beta_2$) | De mate waarin de afhankelijke variabele verandert voor elke eenheidstoename in de onafhankelijke variabele. Het vertegenwoordigt de steilte van de regressielijn. |
| Residu | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de door het regressiemodel voorspelde waarde. Het vertegenwoordigt de onverklaarde variatie. |
| Steekproefregressiefunctie | De regressiefunctie die geschat wordt op basis van een steekproef van data, bedoeld om de populatieregressiefunctie te benaderen. Het wordt vaak aangeduid met $\hat{Y} = \hat{\beta}_1 + \hat{\beta}_2 X$. |
| Kleinstekwadratenmethode (Least Squares, LS) | Een wiskundige techniek om de beste passende lijn (of curve) door een set datapunten te vinden door de som van de kwadraten van de verticale afstanden (residuen) tussen de datapunten en de lijn te minimaliseren. |
| Standaard lineair regressiemodel (SLRM) | Een model dat specifieke aannames maakt over de relatie tussen variabelen en de storingstermen, waaronder lineariteit, gemiddeld nul storingstermen, homoscedasticiteit en ongecorreleerde storingstermen. |
| Homoscedasticiteit | De aanname in het regressiemodel dat de variantie van de storingstermen constant is voor alle waarden van de onafhankelijke variabele(n). |
| Heteroscedasticiteit | De schending van homoscedasticiteit, waarbij de variantie van de storingstermen varieert met de waarden van de onafhankelijke variabele(n). |
| Ongecorreleerde storingstermen | De aanname dat de storingstermen voor verschillende observaties niet gecorreleerd zijn, wat betekent dat de fout in de ene observatie geen invloed heeft op de fout in een andere observatie. |
| Normale verdeling van storingstermen | De aanname dat de storingstermen in een regressiemodel normaal verdeeld zijn. |
| Gauss-Markov stelling | Een fundamentele stelling in de regressieanalyse die stelt dat onder bepaalde voorwaarden (die van het Standaard Lineair Regressiemodel), de kleinstekwadratenschatters de Best Linear Unbiased Estimators (BLUE) zijn, wat betekent dat ze een lineaire functie van de data zijn, onbevooroordeeld, en de kleinst mogelijke variantie hebben. |
| Best Linear Unbiased Estimators (BLUE) | Schatters voor regressieparameters die de beste lineaire onbevooroordeelde eigenschappen bezitten, zoals gedefinieerd door de Gauss-Markov stelling. |
| Standaardfout (se) | Een maat voor de standaarddeviatie van de steekproefverdeling van een schatter. Het kwantificeert de precisie van de schatting van een parameter. |
| Determinatiecoëfficiënt ($R^2$) | Een statistische maat die aangeeft welk deel van de variantie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabele(n) in het regressiemodel. Een $R^2$ van 1 betekent dat het model alle variantie verklaart, terwijl een $R^2$ van 0 betekent dat het model geen variantie verklaart. |
| Residuplot | Een grafiek die de residuen van een regressiemodel uitzet tegen de voorspelde waarden of tegen de onafhankelijke variabele(n). Het wordt gebruikt om de aannames van het model, zoals lineariteit en homoscedasticiteit, te beoordelen. |
| QQ-plot (Quantile-Quantile plot) | Een grafische techniek die wordt gebruikt om te controleren of een dataset uit een specifieke theoretische verdeling komt, zoals de normale verdeling. Het vergelijkt de kwantielen van de data met de kwantielen van de theoretische verdeling. |
| Betrouwbaarheidsinterval | Een bereik van waarden dat, met een bepaalde waarschijnlijkheid (het betrouwbaarheidsniveau), de ware populatieparameter bevat. |
| Predictie-interval | Een bereik van waarden dat, met een bepaalde waarschijnlijkheid, de waarde van een toekomstige individuele observatie zal bevatten. |
| Transformaties | Wiskundige operaties (zoals logaritmes, vierkantswortels) toegepast op variabelen om niet-lineaire verbanden om te zetten in lineaire verbanden, of om de aannames van een regressiemodel te verbeteren. |
| Log-log model | Een regressiemodel waarbij zowel de afhankelijke als de onafhankelijke variabele(n) worden getransformeerd met de natuurlijke logaritme. Het wordt vaak gebruikt om elastici te modelleren. |
| Log-lin model | Een regressiemodel waarbij de afhankelijke variabele wordt getransformeerd met de natuurlijke logaritme, terwijl de onafhankelijke variabele(n) onveranderd blijven. Dit model is geschikt voor het modelleren van exponentiële groei. |
| Lin-log model | Een regressiemodel waarbij de afhankelijke variabele onveranderd blijft, terwijl de onafhankelijke variabele(n) worden getransformeerd met de natuurlijke logaritme. |
| Invers model | Een regressiemodel waarbij de onafhankelijke variabele wordt getransformeerd naar zijn reciproque (1/X). Dit model kan asymptotisch gedrag van de afhankelijke variabele modelleren. |