Cover
立即免费开始 STA3set6Hfst10InferentieVoorRegressie.pptx
Summary
# Inferentie voor regressie
Dit deel behandelt inferentieprocedures voor enkelvoudige lineaire regressie, inclusief betrouwbaarheidsintervallen en significantietoetsen voor de regressiecoëfficiënten en voorspellingen.
### 1.1 Overzicht lineaire regressie
Bij een lineaire regressieanalyse wordt het lineaire verband tussen een verklarende variabele ($x$) en een verklaarde variabele ($y$) gemodelleerd. De regressierechte, berekend met de kleinste-kwadratenmethode, is een schatter voor de "werkelijke" regressierechte in de populatie. Inferentie stelt ons in staat om conclusies te trekken over de populatieparameters op basis van steekproefdata.
#### 1.1.1 Veronderstellingen bij regressie-inferentie
Voor geldige inferentie bij lineaire regressie moeten aan de volgende voorwaarden worden voldaan:
* **Normaliteit:** Voor elke waarde van de verklarende variabele $x$, is de verklaarde variabele $y$ normaal verdeeld.
* **Onafhankelijkheid:** Opeenvolgende responsen ($y$) zijn onderling onafhankelijk.
* **Gelijkmatige spreiding (homoscedasticiteit):** De standaardafwijking ($\sigma$) van $y$ is gelijk voor alle waarden van $x$.
* **Lineariteit:** Het gemiddelde van $y$ voor een gegeven $x$ ligt op een rechte lijn: $\mu_y = \beta_0 + \beta_1 x$.
* **Parameters:** $\beta_0$ (intercept) en $\beta_1$ (helling) zijn onbekende populatieparameters.
* **Standaardafwijking:** $\sigma$, de standaardafwijking van de residuen, is onbekend en wordt geschat uit de data.
#### 1.1.2 Het statistische model
Het statistische model voor enkelvoudige lineaire regressie luidt:
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$
Hierbij is:
* $y_i$: de geobserveerde waarde van de verklaarde variabele voor observatie $i$.
* $x_i$: de waarde van de verklarende variabele voor observatie $i$.
* $\beta_0$: het intercept in de populatie.
* $\beta_1$: de helling (richtingscoëfficiënt) in de populatie, die de verandering in $y$ weergeeft voor een eenheidsverandering in $x$.
* $\epsilon_i$: de foutterm, die onafhankelijk en normaal verdeeld is met gemiddelde 0 en standaardafwijking $\sigma$, i.e., $\epsilon_i \sim N(0, \sigma)$.
De geschatte regressierechte is:
$$ \hat{y}_i = b_0 + b_1 x_i $$
waarbij $b_0$ en $b_1$ schatters zijn voor $\beta_0$ en $\beta_1$.
#### 1.1.3 Schatting van regressieparameters
De parameters $\beta_0$ en $\beta_1$ worden geschat met de kleinste-kwadratenmethode, wat resulteert in de steekproefintercept $b_0$ en de steekproefhelling $b_1$. Deze schatters zijn zuiver (onbevooroordeeld), wat betekent dat hun verwachtingswaarde gelijk is aan de populatieparameters: $E(b_0) = \beta_0$ en $E(b_1) = \beta_1$.
De schatters $b_0$ en $b_1$ zijn normaal verdeeld met een schatbare standaarddeviatie.
> **Tip:** Uitschieters en invloedrijke waarnemingen kunnen de regressieanalyse ongeldig maken. Controleer de residuenplot om deze te identificeren.
### 1.2 Betrouwbaarheidsintervallen en significantietoetsen voor $\beta_0$ en $\beta_1$
Inferentie over de regressiecoëfficiënten richt zich op het bepalen van de onzekerheid rond de geschatte waarden.
#### 1.2.1 Standaardfout van de regressieparameters
De standaardfout van een schatter kwantificeert de variabiliteit van die schatter over verschillende steekproeven.
* Standaardfout van de schatting van de helling ($\beta_1$): $SE(b_1)$
* Standaardfout van het geschatte intercept ($\beta_0$): $SE(b_0)$
Deze standaardfouten worden berekend op basis van de residuen en de spreiding van de $x$-waarden.
#### 1.2.2 Betrouwbaarheidsintervallen voor $\beta_i$
Een betrouwbaarheidsinterval (BI) voor een populatieparameter geeft een reeks waarden aan waarbinnen de parameter waarschijnlijk ligt. Voor $\beta_i$ (waar $i=0$ of $i=1$) heeft het BI de algemene vorm:
$$ \text{Schatter} \pm t^* \cdot (\text{Standaardfout van de schatter}) $$
Hierbij is $t^*$ de kritische t-waarde verkregen uit de t-verdeling met $n-2$ vrijheidsgraden, gebaseerd op het gewenste betrouwbaarheidsniveau. De vrijheidsgraden zijn $n-2$ omdat er twee parameters ($\beta_0$ en $\beta_1$) geschat worden.
> **Voorbeeld:** Een 95% betrouwbaarheidsinterval voor $\beta_1$ kan worden geïnterpreteerd als: "We zijn 95% zeker dat de werkelijke toename in $y$ voor elke eenheidsverhoging in $x$ ligt tussen de onder- en bovengrens van dit interval."
#### 1.2.3 Significantietoetsen voor $\beta_i$
Significantietoetsen evalueren de nulhypothese dat een regressiecoëfficiënt gelijk is aan een specifieke waarde, meestal nul.
* **Toets voor $\beta_1$:** De meest voorkomende nulhypothese is $H_0: \beta_1 = 0$. Dit toetst of er een lineair verband bestaat tussen $x$ en $y$ in de populatie. De alternatieve hypothese is $H_a: \beta_1 \neq 0$.
De toetsstatistiek is een t-statistiek:
$$ t = \frac{b_1 - \beta_{1,0}}{SE(b_1)} $$
waarbij $\beta_{1,0}$ de waarde onder de nulhypothese is (meestal 0).
* **Toets voor $\beta_0$:** Hoewel het mogelijk is om $H_0: \beta_0 = 0$ te toetsen, is dit vaak minder zinvol in regressieanalyses, tenzij de interpretatie van het intercept bij $x=0$ relevant is voor het onderzoek.
De overschrijdingskans (p-waarde) wordt berekend uit de $t$-verdeling met $n-2$ vrijheidsgraden en geeft de kans aan om een toetsstatistiek te observeren die minstens zo extreem is als de berekende waarde, ervan uitgaande dat de nulhypothese waar is.
#### 1.2.4 Rapporteren van regressieanalyse
Bij het rapporteren van regressieanalyses, bijvoorbeeld volgens de APA-stijl, worden doorgaans de volgende elementen vermeld:
* De geschatte regressiecoëfficiënt ($b_1$) met zijn standaardfout.
* De t-statistiek met het aantal vrijheidsgraden ($t(df)$).
* De p-waarde.
* Het betrouwbaarheidsinterval voor de regressiecoëfficiënt.
* De determinatiecoëfficiënt ($R^2$), die het percentage verklaarde variantie aangeeft.
* De F-statistiek voor de algehele model significantie (vooral relevant bij meervoudige regressie).
> **Voorbeeld rapportage:** "Levenstevredenheid gemeten aan de hand van een Likertschaal voorspelt op significante wijze de globale levenstevredenheid, $\beta_1 = 0,111$, $t(230) = 12,590$, $p < 0,001$. Deze Likertschaal verklaart tevens een significant deel van de variantie in globale levenstevredenheid, $R^2 = 0,408$, $F(1,230) = 158,499$, $p < 0,001$."
### 1.3 Inferentie over voorspellingen
Naast inferentie over de regressiecoëfficiënten kunnen we ook uitspraken doen over voorspellingen van $y$ voor specifieke waarden van $x$.
#### 1.3.1 Voorspelling van $\mu_y$ voor een specifieke $x^*$
We kunnen een voorspelling doen voor de gemiddelde waarde van $y$ bij een specifieke waarde $x^*$, denoted $\mu_y(x^*) = \beta_0 + \beta_1 x^*$. De puntvoorspelling is $\hat{y}^* = b_0 + b_1 x^*$.
Om de nauwkeurigheid van deze voorspelling te beoordelen, kunnen we een betrouwbaarheidsinterval berekenen voor $\mu_y(x^*)$:
$$ \hat{y}^* \pm t^* \cdot SE(\hat{y}^*) $$
De standaardfout van de voorspelde gemiddelde waarde, $SE(\hat{y}^*)$, is:
$$ SE(\hat{y}^*) = s_e \sqrt{\frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum(x_i - \bar{x})^2}} $$
Hierbij is $s_e$ de geschatte standaardafwijking van de residuen (vaak aangeduid als $s$ of $\hat{\sigma}$), $\bar{x}$ is het steekproefgemiddelde van $x$, en $n$ is de steekproefgrootte.
Dit betrouwbaarheidsinterval wordt **groter** naarmate $x^*$ verder afwijkt van $\bar{x}$.
#### 1.3.2 Voorspelling van een individuele $y$ waarde voor een specifieke $x^*$
Wanneer we een individuele observatie $y$ willen voorspellen voor een gegeven $x^*$, is er naast de onzekerheid in de regressierechte ook de inherente variabiliteit van de individuele observaties rond die lijn (de $\epsilon_i$). Dit leidt tot een breder voorspellingsinterval.
Het voorspellingsinterval voor een individuele $y^*$ waarde bij $x^*$ is:
$$ \hat{y}^* \pm t^* \cdot SE(\text{individuele voorspelling}) $$
De standaardfout voor een individuele voorspelling is:
$$ SE(\text{individuele voorspelling}) = s_e \sqrt{1 + \frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum(x_i - \bar{x})^2}} $$
Het voorspellingsinterval is altijd breder dan het betrouwbaarheidsinterval voor het gemiddelde, omdat het de onzekerheid van zowel de regressielijn als de individuele data punten omvat.
> **Belangrijk:** Zowel het betrouwbaarheidsinterval voor $\mu_y(x^*)$ als het voorspellingsinterval voor $y^*$ worden breder naarmate $x^*$ verder van $\bar{x}$ ligt. Extrapolatie (voorspellen buiten het bereik van de waargenomen $x$-waarden) wordt sterk afgeraden.
### 1.4 Variantie-analyse voor regressie (ANOVA)
De variantie-analyse is een methode om de totale variantie in de verklaarde variabele $y$ op te splitsen in delen die verklaard worden door het regressiemodel en delen die onverklaard blijven (de residuen).
#### 1.4.1 Deelneming van variantie
De totale variatie in $y$ rond het gemiddelde $\bar{y}$ kan worden gemeten door de Sum of Squares Total (SST). Deze totale variatie kan worden opgesplitst in:
* **Sum of Squares Regression (SSR) of Sum of Squares Model (SSM):** De variantie in $y$ die verklaard wordt door de regressielijn (de variatie van de voorspelde waarden $\hat{y}$ rond $\bar{y}$).
* **Sum of Squares Error (SSE):** De onverklaarde variantie in $y$, gemeten door de som van de gekwadrateerde residuen ($e_i = y_i - \hat{y}_i$).
De relatie is: $SST = SSM + SSE$.
#### 1.4.2 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, is de proportie van de totale variantie in $y$ die verklaard wordt door de verklarende variabele $x$.
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
Een hogere $R^2$ waarde geeft aan dat het model $y$ beter verklaart. Voor enkelvoudige lineaire regressie is $R^2$ gelijk aan het kwadraat van de Pearson correlatiecoëfficiënt ($r^2$).
#### 1.4.3 ANOVA-tabel en F-toets
De ANOVA-tabel vat de variantie-analyse samen:
| Bron van variatie | Vrijheidsgraden (df) | Kwadratensom (SS) | Gemiddelde Kwadratensom (MS) | F-statistiek | p-waarde |
| :----------------- | :------------------ | :---------------- | :-------------------------- | :----------- | :------- |
| Regressie (Model) | 1 | SSM | $MSM = SSM / 1$ | $F = MSM / MSE$ | |
| Fout (Error) | $n-2$ | SSE | $MSE = SSE / (n-2)$ | | |
| Totaal | $n-1$ | SST | | | |
De F-statistiek wordt gebruikt om de nulhypothese $H_0: \beta_1 = 0$ (geen lineair verband) te toetsen tegen de alternatieve hypothese $H_a: \beta_1 \neq 0$. Onder $H_0$ volgt de F-statistiek een $F$-verdeling met 1 en $n-2$ vrijheidsgraden ($F(1, n-2)$).
> **Relatie met t-toets:** Voor enkelvoudige lineaire regressie is de F-statistiek gelijk aan het kwadraat van de t-statistiek voor $\beta_1$, en de p-waarden zijn identiek: $F = t^2$. De t-toets heeft echter de voorkeur omdat deze het mogelijk maakt om éénzijdige alternatieve hypothesen te formuleren en is gemakkelijker te interpreteren in de context van de regressiecoëfficiënt.
### 1.5 Inferentie voor correlatie
Wanneer er geen duidelijke verklarende of verklaarde variabele is (bv. bij de relatie tussen armlengte en beenlengte), of wanneer de data niet aan de aannames voor regressie voldoen maar wel aan die voor correlatie, kan men inferentie doen op de populatiecorrelatiecoëfficiënt $\rho$.
De nulhypothese is $H_0: \rho = 0$. Als $x$ en $y$ bivariaat normaal verdeeld zijn, is deze hypothese equivalent met "x en y zijn onafhankelijk". De toets voor $\rho$ is gebaseerd op de steekproefcorrelatiecoëfficiënt $r$ en maakt gebruik van een t-statistiek:
$$ t = r \sqrt{\frac{n-2}{1-r^2}} $$
Deze t-statistiek volgt een $t$-verdeling met $n-2$ vrijheidsgraden onder de nulhypothese. De p-waarde wordt berekend op basis van deze verdeling. Deze toets is equivalent aan de t-toets voor $\beta_1=0$ wanneer er een duidelijke verklarende en verklaarde variabele is.
---
# Veronderstellingen bij regressie-inferentie
Dit onderwerp beschrijft de voorwaarden die gesteld worden aan de data om inferentie te kunnen doen over regressiemodellen, zoals normaliteit, onafhankelijkheid en gelijke standaardafwijkingen.
### 2.1 Het statistische model voor enkelvoudige lineaire regressie
Het doel van regressie-inferentie is het doen van uitspraken over populatieparameters op basis van steekproefgegevens. Bij enkelvoudige lineaire regressie modelleren we de relatie tussen één verklarende variabele ($x$) en één verklaarde variabele ($y$).
#### 2.1.1 Populatiemodel
Voor elke waarde van de verklarende variabele $x$, wordt verondersteld dat de corresponderende waarden van de verklaarde variabele $y$ normaal verdeeld zijn. Het gemiddelde van deze normaalverdelingen, $\mu_y$, ligt op de populatie regressierechte:
$$ \mu_y = \beta_0 + \beta_1 x $$
Hierin zijn $\beta_0$ het intercept en $\beta_1$ de helling van de populatie regressierechte. Deze zijn onbekende parameters.
#### 2.1.2 Veronderstellingen voor regressie-inferentie
Om betrouwbare inferentie te kunnen doen, moeten aan de data de volgende voorwaarden voldaan zijn:
1. **Lineariteit:** Het gemiddelde van de verklaarde variabele ($y$) is een lineaire functie van de verklarende variabele ($x$).
2. **Normaliteit:** Voor elke waarde van $x$, is de verklaarde variabele $y$ normaal verdeeld. Het is niet vereist dat $y$ als geheel normaal verdeeld is, enkel dat de verdelingen voor elke $x$-waarde normaal zijn.
3. **Onafhankelijkheid:** De waarnemingen van $y$ zijn onderling onafhankelijk. Dit geldt ook voor de residuen, de verschillen tussen de waargenomen $y$-waarden en de voorspelde $y$-waarden.
4. **Gelijke standaardafwijking (homoskedasticiteit):** De standaardafwijking van $y$ ($\sigma$) is gelijk voor alle waarden van $x$. Dit betekent dat de spreiding van $y$ rond de regressierechte constant is, ongeacht de waarde van $x$.
#### 2.1.3 Datamodel en schatters
Gegeven $n$ observaties $(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$, wordt het statistische model als volgt uitgedrukt:
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$
waarbij $\epsilon_i$ de residuen zijn, die onafhankelijk en normaal verdeeld zijn met een gemiddelde van 0 en een standaardafwijking van $\sigma$ ($\epsilon_i \sim N(0, \sigma)$).
De geschatte regressierechte wordt verkregen met de kleinste kwadratenmethode:
$$ \hat{y} = b_0 + b_1 x $$
De waarden $b_0$ en $b_1$ zijn schatters voor de populatieparameters $\beta_0$ en $\beta_1$. Het zijn zuivere schatters, wat betekent dat hun verwachtingswaarde gelijk is aan de populatieparameter ($E(b_0) = \beta_0$ en $E(b_1) = \beta_1$). De schatters $b_0$ en $b_1$ zijn zelf ook normaal verdeeld, met een standaardafwijking die uit de data geschat kan worden.
#### 2.1.4 Schatting van de standaardafwijking $\sigma$
De parameter $\sigma$, de standaardafwijking van de afwijkingen in het model, wordt geschat met de standaarddeviatie van de residuen ($e_i$). Deze schatting, vaak aangeduid als $s_\epsilon$, wordt berekend op basis van de residuen en de vrijheidsgraden:
$$ s_\epsilon = \sqrt{\frac{\sum_{i=1}^n e_i^2}{n-2}} $$
Hierbij zijn $n-2$ de vrijheidsgraden, omdat twee parameters ($\beta_0$ en $\beta_1$) geschat worden.
> **Tip:** De geschatte standaardafwijking $s_\epsilon$ is een schatting van de standaarddeviatie van de residuen en geeft een indicatie van hoe ver de waarnemingen gemiddeld van de regressierechte liggen. Een kleinere $s_\epsilon$ duidt op een betere fit van het model.
### 2.2 Inferentie voor de regressieparameters
Inferentie voor regressie-inferentie richt zich op het doen van uitspraken over de populatieparameters $\beta_0$ en $\beta_1$.
#### 2.2.1 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval voor een regressieparameter (zoals $\beta_1$) wordt geconstrueerd met de algemene vorm:
$$ \text{Schatter} \pm t^* \cdot (\text{SD van de schatter}) $$
Voor $\beta_1$ wordt dit:
$$ b_1 \pm t^* \cdot \text{SE}(b_1) $$
waarbij $t^*$ de kritieke $t$-waarde is uit de $t$-verdeling met $n-2$ vrijheidsgraden, en $\text{SE}(b_1)$ de standaardfout van de schatter $b_1$ is.
#### 2.2.2 Significantietoetsen
Significantietoetsen worden gebruikt om te bepalen of er statistisch significant bewijs is tegen een nulhypothese over de populatieparameters.
* **Toets voor de helling $\beta_1$:** De nulhypothese wordt meestal geformuleerd als $H_0: \beta_1 = 0$. Dit toets of er geen lineair verband is tussen $x$ en $y$ in de populatie. De alternatieve hypothese is $H_a: \beta_1 \neq 0$. De toetsstatistiek is:
$$ t = \frac{b_1 - \beta_{1,0}}{\text{SE}(b_1)} $$
waarbij $\beta_{1,0}$ de waarde van $\beta_1$ onder de nulhypothese is (meestal 0). De overschrijdingskans wordt verkregen uit de $t$-verdeling met $n-2$ vrijheidsgraden.
* **Toets voor het intercept $\beta_0$:** Hoewel ook voor $\beta_0$ significantietoetsen mogelijk zijn ($H_0: \beta_0 = 0$), is deze toets vaak minder informatief in de praktijk, omdat een intercept van nul niet altijd een betekenisvolle interpretatie heeft. De toetsing van $H_0: \beta_0 = 0$ toetst of het gemiddelde van $y$ nul is wanneer $x$ nul is.
> **Tip:** De toets van $H_0: \beta_1 = 0$ is cruciaal, omdat deze direct test of er een lineair verband bestaat tussen $x$ en $y$ in de populatie.
### 2.3 Variantie-analyse (ANOVA) voor regressie
Variantie-analyse (ANOVA) biedt een alternatieve methode om de significantie van het regressiemodel te toetsen. Het verdeelt de totale variatie in de verklaarde variabele $y$ in delen die verklaard worden door het model en delen die onverklaard blijven (residuen).
* **Totale kwadratensom (SST):** De totale variatie in $y$ rond het gemiddelde van $y$.
$$ SST = \sum_{i=1}^n (y_i - \bar{y})^2 $$
* **Kwadratensom van het model (SSM) of verklaarde kwadratensom (SSR):** De variatie in $y$ die wordt verklaard door het regressiemodel.
$$ SSM = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2 $$
* **Kwadratensom van de fout (SSE):** De onverklaarde variatie in $y$, gelijk aan de som van de gekwadrateerde residuen.
$$ SSE = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{y}_i)^2 $$
De relatie tussen deze sommen is: $SST = SSM + SSE$.
#### 2.3.1 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, geeft de proportie van de totale variantie in $y$ weer die verklaard wordt door de variabele $x$:
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
Een hogere $R^2$ waarde duidt op een betere fit van het model.
#### 2.3.2 F-toets in ANOVA
De ANOVA gebruikt een F-toets om de nulhypothese $H_0: \beta_1 = 0$ te toetsen. Dit gebeurt door de gemiddelde kwadratensom van het model (MSM) te vergelijken met de gemiddelde kwadratensom van de fout (MSE):
$$ F = \frac{MSM}{MSE} $$
Hierbij geldt:
$MSM = \frac{SSM}{k}$ (met $k$ het aantal predictoren, in enkelvoudige regressie is $k=1$)
$MSE = \frac{SSE}{n-2}$ (de geschatte variantie van de residuen)
De F-statistiek volgt onder $H_0$ een $F$-verdeling met $k$ en $n-2$ vrijheidsgraden. De p-waarde is de kans op een F-waarde die minstens zo extreem is als de geobserveerde waarde.
> **Belangrijk:** Voor enkelvoudige lineaire regressie is de F-toets in de ANOVA equivalent aan de t-toets voor de helling $\beta_1$. Meer specifiek geldt $F = t^2$. De p-waarden van beide toetsen zijn identiek.
### 2.4 Inferentie voor voorspellingen
Regressiemodellen kunnen gebruikt worden om voorspellingen te doen over de waarde van $y$ voor specifieke waarden van $x$. Er worden twee soorten intervallen onderscheiden:
#### 2.4.1 Betrouwbaarheidsinterval voor de verwachte waarde van $y$ ($\mu_y$)
Dit interval geeft een reeks waarden waarbinnen de *gemiddelde* waarde van $y$ voor een gegeven $x^*$ waarschijnlijk ligt. Het interval wordt breder naarmate $x^*$ verder afwijkt van het gemiddelde van de geobserveerde $x$-waarden. De vorm is:
$$ \hat{y}^* \pm t^* \cdot \text{SE}(\hat{y}^*) $$
waarbij $\hat{y}^*$ de voorspelde waarde van $y$ is voor $x = x^*$, en $\text{SE}(\hat{y}^*)$ de standaardfout van deze voorspelling weergeeft.
#### 2.4.2 Predictie-interval voor een individuele voorspelling van $y$
Dit interval geeft een reeks waarden waarbinnen een *individuele* waarneming van $y$ voor een gegeven $x^*$ waarschijnlijk zal liggen. Dit interval is altijd breder dan het betrouwbaarheidsinterval voor de gemiddelde waarde, omdat het rekening houdt met zowel de onzekerheid in de regressierechte als de inherente variabiliteit van individuele waarnemingen.
> **Belangrijk:** Het predictie-interval voor een individuele voorspelling is breder dan het betrouwbaarheidsinterval voor de verwachte waarde, omdat het zowel de onzekerheid van de regressielijn zelf als de variabiliteit van individuele punten rond die lijn meeneemt.
### 2.5 Inferentie voor correlatie
Wanneer er geen duidelijke verklarende en verklaarde variabele is (bijvoorbeeld bij de relatie tussen armlengte en beenlengte), kan men de correlatiecoëfficiënt $\rho$ toetsen.
* **Nulhypothese:** $H_0: \rho = 0$. Dit toetst of er geen lineair verband is tussen $x$ en $y$.
* **Toetsstatistiek:** De significantietoets voor $\rho$ is gebaseerd op een $t$-test:
$$ t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} $$
waarbij $r$ de steekproefcorrelatiecoëfficiënt is en $n$ de steekproefgrootte. Deze $t$-statistiek volgt onder $H_0$ een $t$-verdeling met $n-2$ vrijheidsgraden. Als $x$ en $y$ bivariaat normaal verdeeld zijn, is $H_0: \rho = 0$ equivalent met de onafhankelijkheid van $x$ en $y$.
### 2.6 Rapporteren van regressie-analyse
Bij het rapporteren van regressie-analyses, bijvoorbeeld volgens APA-richtlijnen, worden doorgaans de volgende elementen vermeld:
* De geschatte regressiecoëfficiënten ($b_0, b_1$).
* De gestandaardiseerde helling ($\beta_1$, indien berekend).
* De $t$-statistiek voor de toets van $H_0: \beta_1 = 0$, met de bijbehorende vrijheidsgraden en p-waarde.
* De determinatiecoëfficiënt ($R^2$), die het percentage verklaarde variantie weergeeft.
* De resultaten van de F-test uit de ANOVA, inclusief de vrijheidsgraden en p-waarde.
**Voorbeeld van rapportage in tekst:**
"De analyse toonde aan dat de variabele $x$ de verklaarde variabele $y$ significant voorspelt ($b_1 = \ldots$, $t(\ldots) = \ldots$, $p < \ldots$). De regressie verklaart een significant deel van de variantie in $y$ ($R^2 = \ldots$, $F(\ldots, \ldots) = \ldots$, $p < \ldots$)."
> **Opmerking:** Uitschieters en invloedrijke waarnemingen kunnen de resultaten van regressie-inferentie ongeldig maken. Het is daarom belangrijk om de residuen te inspecteren en eventuele afwijkingen te onderzoeken.
---
# Variantie-analyse voor regressie
Variantie-analyse (ANOVA) voor regressie biedt een gestructureerde methode om de totale variantie in de verklaarde variabele op te splitsen in delen die verklaard worden door het regressiemodel en delen die onverklaard blijven.
### 3.1 De ANOVA-tabel in regressie
De ANOVA-tabel vat de informatie samen over de bronnen van variantie in de data en is cruciaal voor het beoordelen van de algehele significantie van een regressiemodel, met name bij meervoudige regressie.
#### 3.1.1 Opsplitsing van variantie
De kern van de ANOVA-analyse in regressie is de opsplitsing van de totale variantie in de verklaarde variabele ($y$) in twee hoofdbestanddelen:
* **Modelvariantie (Verklaarde variantie):** Dit is het deel van de variantie in $y$ dat verklaard wordt door de variabele(n) $x$ in het regressiemodel. Het wordt ook wel de variantie verklaard door het model genoemd.
* **Errorvariantie (Onverklaarde variantie):** Dit is het deel van de variantie in $y$ dat niet verklaard wordt door het model. Dit zijn de afwijkingen van de waarnemingen ten opzichte van de voorspelde waarden door het regressiemodel, ook wel de residuen genoemd.
Mathematisch wordt dit vaak uitgedrukt in termen van kwadratensommen:
$$ \text{Totale kwadratensom (SST)} = \text{Kwadratensom verklaard door model (SSM)} + \text{Kwadratensom van fouten (SSE)} $$
* **SST (Total Sum of Squares):** Representeert de totale variatie van de geobserveerde $y$-waarden rond hun gemiddelde.
$$ \text{SST} = \sum_{i=1}^n (y_i - \bar{y})^2 $$
* **SSM (Sum of Squares Model):** Representeert de variatie die verklaard wordt door het regressiemodel. In enkelvoudige lineaire regressie is dit gerelateerd aan de verandering in $y$ voor een verandering in $x$.
$$ \text{SSM} = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2 $$
waarbij $\hat{y}_i$ de voorspelde waarde van $y$ is voor $x_i$.
* **SSE (Sum of Squares Error):** Representeert de onverklaarde variatie, oftewel de som van de gekwadrateerde residuen.
$$ \text{SSE} = \sum_{i=1}^n (y_i - \hat{y}_i)^2 $$
#### 3.1.2 Vrijheidsgraden en gemiddelde kwadratensommen
Bij elke kwadratensom hoort een aantal vrijheidsgraden.
* **Vrijheidsgraden totaal (dfT):** Dit is het aantal waarnemingen min één ($n-1$).
$$ \text{dfT} = n - 1 $$
* **Vrijheidsgraden model (dfM):** Dit is gelijk aan het aantal verklarende variabelen in het model. Voor enkelvoudige lineaire regressie is dit 1.
$$ \text{dfM} = k $$
waar $k$ het aantal predictoren is (voor enkelvoudige regressie, $k=1$).
* **Vrijheidsgraden error (dfE):** Dit is het aantal waarnemingen min het aantal geschatte parameters in het model (intercept plus het aantal predictoren).
$$ \text{dfE} = n - (k+1) = n - k - 1 $$
Voor enkelvoudige lineaire regressie is dit $n-2$.
De gemiddelde kwadratensommen (Mean Squares) worden berekend door de kwadratensommen te delen door hun respectievelijke vrijheidsgraden:
* **Gemiddelde kwadratensom model (MSM):**
$$ \text{MSM} = \frac{\text{SSM}}{\text{dfM}} $$
Dit vertegenwoordigt de variantie die het model verklaart per vrijheidsgraad.
* **Gemiddelde kwadratensom error (MSE):**
$$ \text{MSE} = \frac{\text{SSE}}{\text{dfE}} $$
Dit vertegenwoordigt de onverklaarde variantie per vrijheidsgraad en is een schatter voor de variantie van de errortermen, $\sigma^2$.
#### 3.1.3 De determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, vaak genoteerd als $R^2$ (of $r^2$ voor enkelvoudige regressie), drukt uit welk proportie van de totale variantie in de verklaarde variabele ($y$) wordt verklaard door het regressiemodel. Het geeft aan in hoeverre de voorspelling van $y$ verbetert door gebruik te maken van de regressierechte in plaats van alleen het gemiddelde van $y$.
$$ R^2 = \frac{\text{SSM}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}} $$
Een hogere $R^2$-waarde (dichter bij 1) indiceert dat het model een groter deel van de variantie in $y$ verklaart.
> **Tip:** $R^2$ geeft de proportie verklaarde variantie aan. De waarde ligt altijd tussen 0 en 1. Een $R^2$ van 0,408 betekent bijvoorbeeld dat 40,8% van de variantie in de verklaarde variabele door het model verklaard wordt.
### 3.2 De F-toets voor de significantie van het model
De ANOVA-tabel wordt gebruikt om een F-toets uit te voeren die de significantie van het regressiemodel als geheel toetst.
#### 3.2.1 De F-toetsstatistiek
De F-toetsstatistiek wordt berekend als de verhouding van de gemiddelde kwadratensommen van het model en de error:
$$ F = \frac{\text{MSM}}{\text{MSE}} $$
* **Nulhypothese ($H_0$):** Voor enkelvoudige lineaire regressie stelt de nulhypothese dat er geen lineair verband is tussen $x$ en $y$ in de populatie. Dit wordt geformuleerd als $H_0: \beta_1 = 0$.
* **Alternatieve hypothese ($H_a$):** De alternatieve hypothese is dat er wel een lineair verband is, $H_a: \beta_1 \neq 0$.
#### 3.2.2 De F-verdeling en p-waarde
Onder de nulhypothese volgt de F-statistiek een F-verdeling met dfM vrijheidsgraden in de teller en dfE vrijheidsgraden in de noemer. Voor enkelvoudige lineaire regressie is dit een $F(1, n-2)$-verdeling. De p-waarde is de kans om een F-waarde te observeren die minstens zo extreem is als de berekende F-waarde, gegeven dat de nulhypothese waar is.
$$ p\text{-waarde} = P(F > F_{\text{berekend}}) $$
Een lage p-waarde (typisch < 0,05) leidt tot verwerping van de nulhypothese, wat suggereert dat het regressiemodel significant is en dat ten minste één van de verklarende variabelen een significante bijdrage levert aan het verklaren van de variantie in de verklaarde variabele.
> **Belangrijk:** Voor enkelvoudige lineaire regressie is de F-toets equivalent aan de kwadraat van de t-toets voor de helling ($\beta_1$). De p-waarden van beide toetsen zullen identiek zijn.
#### 3.2.3 Interpretatie van de ANOVA-tabel
Een typische ANOVA-tabel in een regressie-output ziet er als volgt uit:
| Bron van Variatie | Kwadratensom (SS) | Vrijheidsgraden (df) | Gemiddelde Kwadratensom (MS) | F-statistiek | p-waarde |
| :----------------- | :---------------- | :------------------ | :-------------------------- | :----------- | :------- |
| Model (Regressie) | SSM | dfM | MSM = SSM/dfM | F = MSM/MSE | P(F>F) |
| Error (Residu) | SSE | dfE | MSE = SSE/dfE | | |
| Totaal | SST | dfT | | | |
> **Voorbeeld:** Stel dat uit de ANOVA-tabel voor een enkelvoudige regressie blijkt:
> * SSM = 150
> * SSE = 350
> * dfM = 1
> * dfE = 20
>
> Dan is:
> * SST = 150 + 350 = 500
> * dfT = 1 + 20 = 21
> * MSM = 150 / 1 = 150
> * MSE = 350 / 20 = 17,5
> * F = 150 / 17,5 = 8,57
>
> De p-waarde die bij deze F-statistiek hoort, zou getoetst worden tegen de $F(1, 20)$-verdeling. Als de p-waarde kleiner is dan 0,05, concluderen we dat het regressiemodel significant is.
### 3.3 Relatie met inferentie voor correlatie
Wanneer er geen duidelijke verklarende en verklaarde variabele is (bijvoorbeeld bij het onderzoeken van de relatie tussen armlengte en beenlengte), kan men beter een toets uitvoeren op de populatiecorrelatiecoëfficiënt, $\rho$. Als $x$ en $y$ bivariaat normaal verdeeld zijn, is de toets $H_0: \rho = 0$ equivalent aan de toets $H_0: \beta_1 = 0$ in enkelvoudige lineaire regressie. De significantietoets voor $\rho$ is gebaseerd op een t-toets die gelijkaardig is aan de t-toets voor de helling.
> **Belangrijk:** De ANOVA F-toets voor een regressiemodel test de algehele significantie. Voor enkelvoudige lineaire regressie toetst het specifiek of de helling $\beta_1$ significant verschilt van nul.
---
# Inferentie voor correlatie
Dit deel bespreekt de toetsing van de nulhypothese van geen lineair verband tussen twee variabelen door middel van de correlatiecoëfficiënt.
### 4.1 Toetsing van de nulhypothese van geen lineair verband
Wanneer een spreidingsdiagram (scatterplot) een lineair verband tussen twee variabelen suggereert, is het zinvol om te toetsen of dit verband statistisch significant is. Twee benaderingen worden hierbij onderscheiden:
* **Regressie-analyse:** Deze aanpak wordt gebruikt wanneer er een duidelijke verklarende variabele ($x$) en een verklaarde variabele ($y$) is. De toetsing richt zich dan op de richtingscoëfficiënt van de populatieregressierechte ($\beta_1$). De nulhypothese is $H_0: \beta_1 = 0$, wat aangeeft dat er geen lineair verband is tussen $x$ en $y$.
* **Correlatie-analyse:** Deze aanpak is geschikter wanneer er geen duidelijke verklarende of verklaarde variabele is, bijvoorbeeld bij het onderzoeken van het verband tussen armlengte en beendlengte. Hierbij wordt direct getoetst op de correlatiecoëfficiënt ($\rho$) tussen de twee variabelen in de populatie. De nulhypothese is $H_0: \rho = 0$.
#### 4.1.1 De correlatietoets
De significantietoets voor de populatiecorrelatiecoëfficiënt $\rho$ is gebaseerd op een 1-steekproef t-toets.
* **Nulhypothese ($H_0$):** $\rho = 0$ (Er is geen lineair verband tussen de twee variabelen in de populatie).
* **Alternatieve hypothese ($H_a$):**
* $\rho \neq 0$ (tweezijdige toets: er is wel een lineair verband)
* $\rho > 0$ (eenzijdige toets: er is een positief lineair verband)
* $\rho < 0$ (eenzijdige toets: er is een negatief lineair verband)
De toetsgrootheid wordt berekend met de volgende formule:
$$
t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}}
$$
waarbij:
* $r$ de Pearson-correlatiecoëfficiënt is in de steekproef.
* $n$ de steekproefgrootte is.
De steekproevenverdeling van deze $t$-statistiek volgt onder de nulhypothese een $t$-verdeling met $n-2$ vrijheidsgraden.
#### 4.1.2 Equivalentie met de regressiehellingstoets
Wanneer er een duidelijke verklarende variabele ($x$) en een verklaarde variabele ($y$) is, is de correlatietoets ($H_0: \rho = 0$) equivalent aan de regressiehellingstoets ($H_0: \beta_1 = 0$). Dit betekent dat beide toetsen dezelfde p-waarde zullen opleveren en tot dezelfde conclusie zullen leiden met betrekking tot het bestaan van een lineair verband.
> **Tip:** Als er geen duidelijke verklarende of verklaarde variabele is, kies dan altijd voor de correlatietoets. Als er wel een duidelijke onderscheiding is, is de regressiehellingstoets doorgaans de voorkeursmethode omdat deze ook informatie geeft over de sterkte en richting van het verband.
#### 4.1.3 Specifiek geval: Bivariatie normale verdeling
Als wordt aangenomen dat de twee variabelen ($x$ en $y$) bivariant normaal verdeeld zijn, dan is de nulhypothese $H_0: \rho = 0$ equivalent met de hypothese dat $x$ en $y$ onafhankelijk zijn. In dit specifieke geval toetst de correlatietoets dus op de aanwezigheid van *elk* verband, niet enkel een lineair verband.
#### 4.1.4 p-waarde berekening
De p-waarde van de correlatietoets wordt bepaald als de kans om een $t$-statistiek te observeren die minstens zo extreem is als de berekende $t$-waarde, gegeven de nulhypothese. Dit is de oppervlakte onder de $t$-verdeling met $n-2$ vrijheidsgraden die zich in de richting van de alternatieve hypothese bevindt.
#### 4.1.5 Analogie met ANOVA F-toets
In het geval van enkelvoudige lineaire regressie (één verklarende variabele) is de F-toets uit de variantie-analyse (ANOVA) die $H_0: \beta_1 = 0$ toetst, equivalent aan de t-toets voor $\beta_1$. De relatie is $F = t^2$. De ANOVA F-toets toetst ook de nulhypothese van geen lineair verband, maar wordt vaker gebruikt in meervoudige regressie. Voor enkelvoudige regressie heeft de t-toets de voorkeur omdat deze makkelijker eenzijdig getoetst kan worden en direct gerelateerd is aan het betrouwbaarheidsinterval van $\beta_1$.
> **Voorbeeld:** Stel we onderzoeken de correlatie tussen lengte en gewicht bij een steekproef van $n=50$ personen. We berekenen een correlatiecoëfficiënt $r=0.7$.
>
> We toetsen $H_0: \rho = 0$ tegen $H_a: \rho \neq 0$.
>
> De t-statistiek is:
>
> $$
> t = \frac{0.7 \sqrt{50-2}}{\sqrt{1-0.7^2}} = \frac{0.7 \sqrt{48}}{\sqrt{1-0.49}} = \frac{0.7 \times 6.928}{\sqrt{0.51}} \approx \frac{4.850}{0.714} \approx 6.79
> $$
>
> Met $n-2 = 48$ vrijheidsgraden, zullen we de p-waarde vinden door de kans te bepalen dat een t-statistiek met 48 vrijheidsgraden minstens zo extreem is als $6.79$ (in beide staarten van de verdeling). Deze p-waarde zal zeer klein zijn, wat aangeeft dat we de nulhypothese verwerpen en concluderen dat er een significant lineair verband is tussen lengte en gewicht.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Enkelvoudige lineaire regressie | Een statistische methode die wordt gebruikt om het lineaire verband te modelleren tussen een verklaarde variabele en één enkele verklarende variabele, met als doel voorspellingen te doen of de relatie te begrijpen. |
| Regressierechte | De lijn die de relatie tussen een verklarende variabele ($x$) en een verklaarde variabele ($y$) zo goed mogelijk beschrijft door de som van de kwadraten van de verticale afstanden (residuen) tussen de waargenomen punten en de lijn te minimaliseren. |
| Explanatory variable (Verklarende variabele) | Een variabele waarvan men vermoedt dat deze invloed heeft op een andere variabele; in regressie vaak aangeduid met $x$. |
| Response variable (Verklaarde variabele) | Een variabele waarvan men vermoedt dat deze beïnvloed wordt door de verklarende variabele; in regressie vaak aangeduid met $y$. |
| Helling ($\beta_1$) | De parameter in een lineair regressiemodel die de gemiddelde verandering in de verklaarde variabele ($y$) weergeeft voor elke eenheidstoename in de verklarende variabele ($x$). |
| Constante ($\beta_0$) | De parameter in een lineair regressiemodel die de verwachte waarde van de verklaarde variabele ($y$) weergeeft wanneer de verklarende variabele ($x$) gelijk is aan nul. |
| Spreidingsdiagram (scatterplot) | Een grafische weergave van de relatie tussen twee variabelen, waarbij elk punt de waarden van de twee variabelen voor één observatie voorstelt. |
| Toevalsvariabele | Een variabele waarvan de waarde wordt bepaald door toeval, en waarvan de mogelijke waarden en hun bijbehorende waarschijnlijkheden worden gespecificeerd door een kansverdeling. |
| Schatter | Een statistiek die wordt gebruikt om de waarde van een onbekende populatieparameter te benaderen. |
| Betrouwbaarheidsinterval | Een interval van waarden dat met een bepaalde mate van betrouwbaarheid de werkelijke waarde van een populatieparameter bevat. |
| Significantietoets | Een statistische procedure om te bepalen of een waargenomen effect (zoals een verband tussen variabelen) groot genoeg is om waarschijnlijk te zijn, of dat het mogelijk door toeval is ontstaan. |
| Normaalverdeling | Een continue kansverdeling die symmetrisch is rond het gemiddelde, de vorm heeft van een bel, en die veel natuurlijke fenomenen beschrijft. |
| Standaardafwijking ($\sigma$) | Een maat voor de spreiding van gegevens rond het gemiddelde; de vierkantswortel van de variantie. |
| Residuen | Het verschil tussen de waargenomen waarde van de verklaarde variabele ($y$) en de door het regressiemodel voorspelde waarde. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke waarden dat in een berekening van een statistiek kan variëren. In regressie verwijst dit vaak naar het aantal observaties minus het aantal geschatte parameters. |
| Determinatiecoëfficiënt ($R^2$) | Een maat die aangeeft welk deel van de variantie in de verklaarde variabele verklaard kan worden door de verklarende variabele(n) in het model. De waarde ligt tussen 0 en 1. |
| Variantie-analyse (ANOVA) | Een statistische techniek die wordt gebruikt om te testen of er significante verschillen zijn tussen de gemiddelden van drie of meer groepen, of om de totale variantie in een dataset op te splitsen in delen die worden toegeschreven aan verschillende bronnen. |
| Correlatiecoëfficiënt ($\rho$ of $r$) | Een statistische maat die de sterkte en richting van een lineair verband tussen twee variabelen kwantificeert. De waarde ligt tussen -1 en +1. |