Cover
Inizia ora gratuitamente Set 6 H10 Inferentie Voor Regressie.pptx
Summary
# Introductie tot inferentie voor regressie
Dit onderwerp introduceert inferentie voor regressie, waarbij de regressielijn niet alleen als beschrijving wordt gebruikt, maar ook om conclusies te trekken over populatieparameters.
## 1. Introductie tot inferentie voor regressie
### 1.1 Van regressielijn naar regressie-analyse
De regressie-analyse bouwt voort op de beschrijvende regressielijn. Waar de beschrijvende analyse zich richt op het beschrijven van het lineaire verband binnen een steekproef, stelt inferentiële regressie zich ten doel deze resultaten te extrapoleren naar de populatie waaruit de steekproef afkomstig is. De regressielijn berekend uit de steekproefdata dient dan als schatter voor de "werkelijke" regressielijn van de populatie.
### 1.2 Algemene vragen en notatie
Met regressie-analyse kunnen we antwoorden vinden op vragen zoals:
* Is het waargenomen lineaire verband tussen $x$ en $y$ significant, of kan het door toeval zijn ontstaan?
* Wat is de precieze "reactie" (helling) van $y$ op $x$, en met welke foutenmarge moeten we rekening houden?
* Hoe nauwkeurig zijn voorspellingen die we doen op basis van de regressielijn?
De populatie regressielijn wordt beschreven door de vergelijking:
$$ \mu_y = \beta_0 + \beta_1 x $$
waarbij $\beta_0$ het intercept is en $\beta_1$ de helling (richtingscoëfficiënt). Deze parameters zijn doorgaans onbekend en worden geschat met de steekproefdata. De steekproef regressielijn is:
$$ \hat{y} = b_0 + b_1 x $$
waar $b_0$ en $b_1$ de schatters zijn voor respectievelijk $\beta_0$ en $\beta_1$.
### 1.3 Voorwaarden voor inferentie over regressie
Om betrouwbare inferentie te kunnen doen over regressieparameters en voorspellingen, moeten aan een aantal voorwaarden worden voldaan. Deze voorwaarden beschrijven de structuur van de data en de relatie tussen de variabelen:
* **Lineariteit:** Het gemiddelde van de responsvariabele $y$ moet voor elke waarde van de verklarende variabele $x$ op een rechte lijn liggen. Dit wordt beschreven door de populatie regressielijn: $\mu_y = \beta_0 + \beta_1 x$.
* **Normaliteit:** Voor elke waarde van $x$ wordt aangenomen dat de overeenkomstige waarden van $y$ normaal verdeeld zijn. Het is niet vereist dat de $y$-variabele als geheel normaal verdeeld is.
* **Gelijke standaardafwijking (Homoscedasticiteit):** De standaardafwijking van de verdeling van $y$ is gelijk voor alle waarden van $x$. Deze gemeenschappelijke standaardafwijking wordt aangeduid met $\sigma$. De waarde van $\sigma$ is doorgaans onbekend.
* **Onafhankelijkheid:** De waarnemingen van $y$ zijn onderling onafhankelijk. Dit geldt ook voor de residuen.
> **Tip:** De lineariteitsvoorwaarde kan visueel worden gecontroleerd met een spreidingsdiagram (scatterplot) en het residuplot. Het residuplot toont de afwijkingen van de waargenomen waarden ten opzichte van de voorspelde waarden. Als er een patroon in het residuplot zichtbaar is, duidt dit op een schending van de lineariteitsvoorwaarde.
### 1.4 De rol van schatters en onzekerheid
De regressieparameters $\beta_0$ en $\beta_1$ zijn onbekende populatieparameters. De berekende waarden $b_0$ en $b_1$ uit de steekproef zijn schatters van deze parameters. Omdat $b_0$ en $b_1$ gebaseerd zijn op steekproefdata, zijn het zelf ook toevalsvariabelen en dus variabel. Ze worden verondersteld onbevooroordeelde schatters te zijn, wat betekent dat hun verwachte waarde gelijk is aan de populatieparameter ($E(b_0) = \beta_0$ en $E(b_1) = \beta_1$).
De onzekerheid rondom deze schattingen wordt gekwantificeerd door hun standaardafwijking. Deze standaardafwijking is afhankelijk van $\sigma$, de standaardafwijking van de residuen.
### 1.5 Het statistische model
Het enkelvoudige lineaire regressiemodel kan als volgt worden uitgedrukt:
$$ y_i = (\beta_0 + \beta_1 x_i) + \epsilon_i $$
Hierbij is:
* $y_i$: de waargenomen waarde van de responsvariabele voor de $i$-de observatie.
* $x_i$: de waarde van de verklarende variabele voor de $i$-de observatie.
* $\beta_0 + \beta_1 x_i$: de verwachte waarde van $y$ voor een gegeven $x_i$, wat de populatie regressielijn vertegenwoordigt.
* $\epsilon_i$: de foutterm of residu voor de $i$-de observatie. Deze wordt verondersteld onafhankelijk en normaal verdeeld te zijn met een gemiddelde van 0 en een standaardafwijking $\sigma$ ($\epsilon_i \sim N(0, \sigma)$).
Het datamodel wordt dan:
$$ y_i = b_0 + b_1 x_i + e_i $$
waarbij $b_0$ en $b_1$ de geschatte regressiecoëfficiënten zijn en $e_i$ de residuen van de steekproef. De residuen ($e_i$) zijn schatters van de fouttermen ($\epsilon_i$).
### 1.6 Schatting van regressieparameters en standaardafwijking
De parameters $b_0$ en $b_1$ worden geschat met de kleinste-kwadratenmethode (least squares), die de som van de gekwadrateerde residuen minimaliseert. Deze schatters zijn zelf normaal verdeeld met verwachtingen $\beta_0$ en $\beta_1$. De standaardafwijking van de residuen, $\sigma$, kan worden geschat aan de hand van de berekende residuen ($e_i$).
De schatter voor $\sigma$ wordt vaak aangeduid als $s_\epsilon$ of $\hat{\sigma}$, en wordt berekend als:
$$ s_\epsilon = \sqrt{\frac{\sum_{i=1}^n e_i^2}{n-2}} $$
Hierbij is $n-2$ het aantal vrijheidsgraden, omdat er twee parameters ($\beta_0$ en $\beta_1$) zijn geschat.
> **Tip:** Uitschieters en invloedrijke waarnemingen in de dataset kunnen de geschatte regressieparameters en de schatting van $\sigma$ aanzienlijk beïnvloeden en de geldigheid van de inferentie ondermijnen. Het is daarom belangrijk om deze kritisch te evalueren.
## 2. Betrouwbaarheidsintervallen en significantietoetsen voor $\beta_0$ en $\beta_1$
### 2.1 Standaardfouten van de schatters
Voor het construeren van betrouwbaarheidsintervallen en het uitvoeren van significantietoetsen, hebben we de standaardfouten van de geschatte regressieparameters nodig.
De standaardfout van de geschatte helling $b_1$ wordt gegeven door:
$$ SE(b_1) = \frac{s_\epsilon}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
De standaardfout van het geschatte intercept $b_0$ wordt gegeven door:
$$ SE(b_0) = s_\epsilon \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
Hierin is $\bar{x}$ het gemiddelde van de $x$-waarden.
### 2.2 Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval (BI) voor een populatieparameter geeft een reeks waarden aan waarbinnen we met een bepaalde mate van betrouwbaarheid verwachten dat de ware parameter ligt. Een algemene vorm voor een betrouwbaarheidsinterval is:
$$ \text{Schatter} \pm t^* \cdot (\text{Standaardfout van de schatter}) $$
Voor $\beta_1$:
$$ b_1 \pm t^* \cdot SE(b_1) $$
Voor $\beta_0$:
$$ b_0 \pm t^* \cdot SE(b_0) $$
De waarde van $t^*$ wordt verkregen uit de $t$-verdeling met $n-2$ vrijheidsgraden, corresponderend met het gewenste betrouwbaarheidsniveau.
### 2.3 Significantietoetsen
Significantietoetsen worden gebruikt om te beoordelen of een waargenomen effect in de steekproef groot genoeg is om aan te nemen dat het ook in de populatie aanwezig is, of dat het waarschijnlijk door toeval is ontstaan.
**Nulhypothese voor de helling:**
De meest voorkomende nulhypothese voor de helling is $H_0: \beta_1 = 0$. Dit toets of er geen lineair verband is tussen $x$ en $y$ in de populatie. De alternatieve hypothese is $H_a: \beta_1 \neq 0$.
De toetsingsgrootheid voor deze hypothese is een $t$-statistiek:
$$ t = \frac{b_1 - 0}{SE(b_1)} = \frac{b_1}{SE(b_1)} $$
Deze $t$-statistiek volgt een $t$-verdeling met $n-2$ vrijheidsgraden onder de nulhypothese. De $p$-waarde is de kans om een $t$-statistiek te observeren die minstens zo extreem is als de berekende waarde, gegeven dat $H_0$ waar is.
**Nulhypothese voor het intercept:**
Hoewel het mogelijk is om een significantietoets uit te voeren voor $\beta_0$ ($H_0: \beta_0 = 0$), is deze toets vaak minder relevant in de praktijk, tenzij de interpretatie van het intercept bij $x=0$ specifiek betekenisvol is in de context van het onderzoek.
> **Tip:** Een kleine $p$-waarde (doorgaans kleiner dan een vooraf bepaald significantieniveau, zoals 0,05) leidt tot het verwerpen van de nulhypothese. Dit suggereert dat er statistisch bewijs is voor een lineair verband tussen $x$ en $y$ in de populatie.
## 3. Inferentie over voorspellingen
Regressiemodellen worden vaak gebruikt om voorspellingen te doen over de responsvariabele $y$ voor specifieke waarden van de verklarende variabele $x$. We kunnen onderscheid maken tussen het voorspellen van het gemiddelde van $y$ voor een gegeven $x$, en het voorspellen van een individuele waarneming van $y$ voor een gegeven $x$.
### 3.1 Voorspelling van het gemiddelde van $y$ voor een gegeven $x$ ($\mu_y$)
Voor een specifieke waarde $x^*$, willen we een betrouwbaarheidsinterval construeren voor de verwachte waarde van $y$, $\mu_y(x^*) = \beta_0 + \beta_1 x^*$. De voorspelde waarde is $\hat{y}^* = b_0 + b_1 x^*$. Het betrouwbaarheidsinterval wordt gegeven door:
$$ \hat{y}^* \pm t^* \cdot SE(\hat{y}^*) $$
waarbij de standaardfout van de voorspelde gemiddelde waarde wordt gegeven door:
$$ SE(\hat{y}^*) = s_\epsilon \sqrt{\frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
> **Tip:** Dit interval wordt ook wel een "betrouwbaarheidsinterval voor de gemiddelde respons" genoemd. Het is altijd smaller dan het voorspellingsinterval voor een individuele waarneming, omdat het gaat over het gemiddelde van vele toekomstige waarnemingen. Het interval wordt breder naarmate $x^*$ verder afwijkt van $\bar{x}$.
### 3.2 Voorspelling van een individuele $y$-waarde voor een gegeven $x$
Voor een specifieke waarde $x^*$, willen we een voorspellingsinterval construeren voor een individuele waarneming $y^*$. De voorspelde waarde is wederom $\hat{y}^* = b_0 + b_1 x^*$. Het voorspellingsinterval wordt gegeven door:
$$ \hat{y}^* \pm t^* \cdot SE_{indiv}(\hat{y}^*) $$
waarbij de standaardfout voor een individuele voorspelling wordt gegeven door:
$$ SE_{indiv}(\hat{y}^*) = s_\epsilon \sqrt{1 + \frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
> **Tip:** Dit interval wordt ook wel een "voorspellingsinterval voor een individuele respons" genoemd. Het is breder dan het betrouwbaarheidsinterval voor het gemiddelde, omdat het rekening houdt met de extra onzekerheid die voortkomt uit het voorspellen van een enkele waarneming in plaats van een gemiddelde.
## 4. Variantie-analyse (ANOVA) voor regressie
De variantie-analyse (ANOVA) is een krachtig statistisch hulpmiddel dat de totale variantie in de responsvariabele $y$ opsplitst in delen die verklaard kunnen worden door het regressiemodel en delen die onverklaard blijven (residuen).
### 4.1 Deelcomponenten van variantie
* **Totale Kwadratensom (SST - Sum of Squares Total):** Dit meet de totale variatie in $y$ rond het gemiddelde $\bar{y}$. $SST = \sum_{i=1}^n (y_i - \bar{y})^2$.
* **Geklaarde Kwadratensom (SSR of SSM - Sum of Squares Regression/Model):** Dit meet de variatie in $y$ die verklaard wordt door het regressiemodel (de regressielijn). $SSR = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2$.
* **Onverklaarde Kwadratensom (SSE - Sum of Squares Error):** Dit meet de variatie in $y$ die niet verklaard wordt door het model, oftewel de residuen. $SSE = \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \sum_{i=1}^n e_i^2$.
De relatie tussen deze kwadratensommen is: $SST = SSR + SSE$.
### 4.2 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, is een maat voor de proportie van de totale variantie in de responsvariabele die verklaard wordt door het regressiemodel. Het wordt berekend als:
$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$
Een $R^2$ waarde van 0,408, zoals in een voorbeeld, betekent dat 40,8% van de variantie in de globale levenstevredenheid verklaard kan worden door de score op de Likertschaal.
### 4.3 ANOVA F-toets
De ANOVA F-toets wordt gebruikt om de nulhypothese te toetsen dat er geen lineair verband is tussen $x$ en $y$ in de populatie ($H_0: \beta_1 = 0$). De toetsingsgrootheid is de ratio van de gemiddelde kwadratensommen:
$$ F = \frac{MSM}{MSE} $$
waarbij:
* $MSM = \frac{SSR}{DFM}$ (Mean Square Model, met $DFM$ vrijheidsgraden voor het model)
* $MSE = \frac{SSE}{DFE}$ (Mean Square Error, met $DFE$ vrijheidsgraden voor de error)
Voor enkelvoudige lineaire regressie is $DFM = 1$ (vanwege de enkele verklarende variabele $x$) en $DFE = n-2$. De $F$-toetsingsgrootheid volgt dan een $F$-verdeling met 1 en $n-2$ vrijheidsgraden onder de nulhypothese.
> **Opmerking:** Voor enkelvoudige lineaire regressie is de $F$-toets equivalent aan de $t$-toets voor $\beta_1$, aangezien $F = t^2$. De $p$-waarden van beide toetsen zijn dus identiek. De $t$-toets heeft echter de voorkeur bij een enkele verklarende variabele omdat deze ook richtinggevoelig is en het makkelijker is om eenzijdig te toetsen.
## 5. Inferentie voor correlatie
Wanneer er geen duidelijke verklarende of verklaarde variabele is (bv. bij het onderzoeken van de relatie tussen armlengte en beenlengte), of wanneer we specifiek geïnteresseerd zijn in de sterkte en richting van het lineaire verband, kan inferentie op de correlatiecoëfficiënt ($\rho$, rho) relevanter zijn dan regressie-inferentie.
### 5.1 Toetsen van de correlatiecoëfficiënt
De nulhypothese dat er geen lineair verband is tussen twee variabelen kan ook getoetst worden door de populatiecorrelatiecoëfficiënt $\rho$ te toetsen. De nulhypothese is $H_0: \rho = 0$. Als de variabelen $x$ en $y$ bivariaat normaal verdeeld zijn, is $H_0: \rho = 0$ equivalent aan de stelling dat $x$ en $y$ onafhankelijk zijn.
De significantietoets voor $\rho$ is gebaseerd op een 1-steekproef $t$-toets:
$$ t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}} $$
waarbij $r$ de steekproefcorrelatiecoëfficiënt is en $n$ de steekproefgrootte. De $t$-statistiek volgt een $t$-verdeling met $n-2$ vrijheidsgraden. De $p$-waarde wordt berekend op basis van deze $t$-verdeling.
> **Opmerking:** Als $x$ de duidelijke verklarende variabele is, is de toets op $\beta_1=0$ equivalent aan de toets op $\rho=0$. In andere situaties is de toets op $\rho$ meer geschikt.
---
# Regressiemodel en schatting van parameters
Dit deel behandelt het enkelvoudige lineaire regressiemodel, de bijbehorende statistische aannames, en de methoden voor het schatten van de modelparameters.
### 2.1 Enkelvoudige lineaire regressie
Een enkelvoudig lineair regressiemodel wordt gebruikt wanneer er één verklarende variabele ($x$) is om een verklaarde variabele ($y$) te modelleren. Het doel is om het lineaire verband tussen $x$ en $y$ te beschrijven en te voorspellen.
#### 2.1.1 Het populatiemodel
Het populatiemodel van enkelvoudige lineaire regressie stelt dat voor elke waarde van de verklarende variabele $x$, de verklaarde variabele $y$ normaal verdeeld is rond een gemiddelde $\mu_y$. Dit gemiddelde $\mu_y$ heeft een lineair verband met $x$, wat wordt uitgedrukt door de populatie regressierechte:
$$ \mu_y = \beta_0 + \beta_1 x $$
Hierbij zijn $\beta_0$ het populatie-intercept en $\beta_1$ de populatie-helling (richtingscoëfficiënt). Daarnaast wordt verondersteld dat de standaarddeviatie van $y$, aangeduid met $\sigma$, gelijk is voor alle waarden van $x$. De waarde van $\sigma$ is echter onbekend.
#### 2.1.2 Veronderstellingen voor regressie-inferentie
Voor het uitvoeren van statistische inferentie (zoals betrouwbaarheidsintervallen en significantietoetsen) op basis van een regressiemodel, zijn de volgende veronderstellingen cruciaal:
* **Lineariteit:** Het gemiddelde van de verklaarde variabele $y$ hangt lineair af van de verklarende variabele $x$.
* **Onafhankelijkheid:** De waarnemingen van $y$ zijn onderling onafhankelijk.
* **Normaliteit:** Voor elke waarde van $x$ is de verklaarde variabele $y$ normaal verdeeld.
* **Gelijke standaardafwijking (homoscedasticiteit):** De standaardafwijking $\sigma$ van $y$ is gelijk voor alle waarden van $x$.
Deze veronderstellingen kunnen visueel worden gecontroleerd met behulp van spreidingsdiagrammen (scatterplots) en residuplotten.
#### 2.1.3 Het datamodel
Het datamodel beschrijft hoe individuele waarnemingen zich verhouden tot het populatiemodel. Voor een steekproef van $n$ waarnemingen $(x_i, y_i)$ wordt dit als volgt weergegeven:
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$
waarbij $\epsilon_i$ de foutterm is die de afwijking van de individuele waarneming $y_i$ van de populatie regressierechte voorstelt. De fouttermen $\epsilon_i$ worden verondersteld onafhankelijk en normaal verdeeld te zijn met een gemiddelde van 0 en een standaarddeviatie $\sigma$.
#### 2.1.4 Schatting van regressieparameters
De populatieparameters $\beta_0$ en $\beta_1$ zijn meestal onbekend en moeten geschat worden op basis van steekproefgegevens. De meest gebruikte methode hiervoor is de **methode van de kleinste kwadraten (least squares)**.
##### 2.1.4.1 De regressierechte (least-squares line)
De regressierechte is de lijn die het best past bij de geobserveerde data door de som van de gekwadrateerde verticale afstanden (residuen) tussen de geobserveerde waarden $y_i$ en de voorspelde waarden $\hat{y}_i$ te minimaliseren. De vergelijking van de geschatte regressierechte is:
$$ \hat{y} = b_0 + b_1 x $$
waarbij $b_0$ de schatter is voor $\beta_0$ en $b_1$ de schatter is voor $\beta_1$.
##### 2.1.4.2 Berekening van $b_0$ en $b_1$
De schatters $b_0$ en $b_1$ worden als volgt berekend:
$$ b_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} $$
$$ b_0 = \bar{y} - b_1 \bar{x} $$
waarbij $\bar{x}$ en $\bar{y}$ de steekproefgemiddelden zijn van respectievelijk $x$ en $y$.
> **Tip:** $b_1$ kan ook worden uitgedrukt als $b_1 = r \frac{s_y}{s_x}$, waarbij $r$ de Pearsoncorrelatiecoëfficiënt is en $s_x$ en $s_y$ de steekproefstandaarddeviaties van $x$ en $y$ zijn.
##### 2.1.4.3 Schatting van de standaarddeviatie van de residuen
De standaarddeviatie van de residuen, vaak aangeduid met $s$ of $\hat{\sigma}$, is een schatting van de populatiestandaarddeviatie $\sigma$. Deze schatting wordt gemaakt op basis van de residuen ($e_i = y_i - \hat{y}_i$) en wordt berekend met de volgende formule:
$$ s = \sqrt{\frac{\sum_{i=1}^n e_i^2}{n-2}} = \sqrt{\frac{\sum_{i=1}^n (y_i - (b_0 + b_1 x_i))^2}{n-2}} $$
De noemer $n-2$ komt voort uit het feit dat twee parameters ($\beta_0$ en $\beta_1$) zijn geschat. De term $n-2$ vertegenwoordigt het aantal vrijheidsgraden voor de schatting van $\sigma$.
> **Tip:** Een kleinere waarde van $s$ geeft aan dat de geobserveerde waarden van $y$ gemiddeld dichter bij de regressierechte liggen, wat duidt op een betere fit van het model.
#### 2.1.5 Eigenschappen van de schatters $b_0$ en $b_1$
Onder de aannames van het lineaire regressiemodel, hebben de kleinste-kwadraten schatters $b_0$ en $b_1$ belangrijke eigenschappen:
* **Zuiverheid:** $b_0$ en $b_1$ zijn zuivere schatters van $\beta_0$ en $\beta_1$, wat betekent dat hun verwachtingswaarde gelijk is aan de werkelijke populatieparameters: $E(b_0) = \beta_0$ en $E(b_1) = \beta_1$.
* **Normaliteit:** De schatters $b_0$ en $b_1$ zelf zijn normaal verdeeld (of bij benadering normaal verdeeld voor grote steekproeven) met gemiddelden $\beta_0$ en $\beta_1$ respectievelijk. De standaarddeviaties van deze schatters (standaardfouten) kunnen uit de data worden geschat.
> **Tip:** Het is cruciaal om de aannames van het regressiemodel te controleren, omdat schendingen van deze aannames de geldigheid van de schattingen en de daaropvolgende inferentie kunnen aantasten.
#### 2.1.6 Analyse van residuen
De analyse van de residuen ($e_i = y_i - \hat{y}_i$) is essentieel voor het controleren van de regressieveronderstellingen.
* **Residuplot:** Een plot van de residuen tegen de voorspelde waarden $\hat{y}_i$ of tegen de verklarende variabele $x_i$ kan patronen onthullen die duiden op schendingen van lineariteit, homoscedasticiteit of normaliteit. Een willekeurig spreidingspatroon rond nul is wenselijk.
* **Normaal-kwantiel-diagram van residuen (QQ-plot):** Dit diagram helpt bij het beoordelen van de normaliteitsveronderstelling. Als de residuen normaal verdeeld zijn, liggen de punten in het QQ-plot bij benadering op een rechte lijn.
> **Voorbeeld:** Als een residuplot een gebogen patroon vertoont, kan dit duiden op een niet-lineair verband tussen $x$ en $y$, wat suggereert dat een lineair regressiemodel mogelijk niet de beste keuze is.
### 2.2 Inferentie over de regressieparameters
Nadat de regressieparameters zijn geschat, kunnen we inferentie uitvoeren om conclusies te trekken over de populatieparameters $\beta_0$ en $\beta_1$.
#### 2.2.1 Standaardfouten van de schatters
De standaardfouten van de geschatte regressieparameters meten de variabiliteit van deze schatters over verschillende steekproeven.
* **Standaardfout van $b_1$ (helling):**
$$ SE(b_1) = \frac{s}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
* **Standaardfout van $b_0$ (intercept):**
$$ SE(b_0) = s \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
#### 2.2.2 Betrouwbaarheidsintervallen voor $\beta_0$ en $\beta_1$
Een betrouwbaarheidsinterval biedt een bereik van waarden waarbinnen de populatieparameter met een bepaalde mate van betrouwbaarheid zal liggen. De algemene vorm van een betrouwbaarheidsinterval is:
$$ \text{Schatter} \pm t^* \cdot \text{Standaardfout van de schatter} $$
Voor de helling $\beta_1$ wordt dit:
$$ b_1 \pm t^* \cdot SE(b_1) $$
Voor het intercept $\beta_0$ wordt dit:
$$ b_0 \pm t^* \cdot SE(b_0) $$
Hierbij is $t^*$ de kritieke waarde uit de $t$-verdeling met $n-2$ vrijheidsgraden die overeenkomt met het gewenste betrouwbaarheidsniveau.
> **Voorbeeld:** Een 95% betrouwbaarheidsinterval voor $\beta_1$ dat (0.094, 0.128) is, suggereert dat we met 95% betrouwbaarheid kunnen zeggen dat de werkelijke toename in $y$ voor elke eenheidstoename in $x$ tussen 0.094 en 0.128 ligt.
#### 2.2.3 Significantietoetsen voor $\beta_0$ en $\beta_1$
Significantietoetsen worden gebruikt om te beoordelen of er voldoende bewijs is om de nulhypothese te verwerpen.
##### 2.2.3.1 Toets voor de helling $\beta_1$
De meest voorkomende nulhypothese voor de helling is $H_0: \beta_1 = 0$, wat impliceert dat er geen lineair verband is tussen $x$ en $y$ in de populatie. De toetsgrootheid is een $t$-statistiek:
$$ t = \frac{b_1 - \beta_{1,0}}{SE(b_1)} $$
waarbij $\beta_{1,0}$ de waarde van de helling onder de nulhypothese is (meestal 0).
* **Hypothesen:**
* $H_0: \beta_1 = 0$ (er is geen lineair verband)
* $H_a: \beta_1 \neq 0$ (er is wel een lineair verband)
De $p$-waarde van deze toets geeft de kans weer op het observeren van een steekproefstatistiek die minstens zo extreem is als de berekende waarde, aangenomen dat de nulhypothese waar is. Een lage $p$-waarde (typisch $< 0.05$) leidt tot het verwerpen van $H_0$.
##### 2.2.3.2 Toets voor het intercept $\beta_0$
Hoewel toetsen voor $\beta_0$ mogelijk zijn ($H_0: \beta_0 = 0$), is de toets op $\beta_1$ meestal van groter praktisch belang, omdat deze het effect van de verklarende variabele $x$ op $y$ kwantificeert. Een nulhypothese $\beta_0 = 0$ betekent dat de regressierechte door de oorsprong snijdt, wat niet altijd theoretisch relevant is.
#### 2.2.4 Variantie-analyse (ANOVA) voor regressie
ANOVA wordt gebruikt om de totale variantie in de verklaarde variabele $y$ op te splitsen in een deel dat verklaard wordt door het regressiemodel (door $x$) en een deel dat onverklaard blijft (de residuen).
* **Totale som der kwadraten ($SST$):** De totale variantie in $y$. $SST = \sum (y_i - \bar{y})^2$.
* **Som der kwadraten van het model ($SSM$ of $SSR$):** De variantie in $y$ verklaard door het regressiemodel. $SSM = \sum (\hat{y}_i - \bar{y})^2$.
* **Som der kwadraten van de fout ($SSE$):** De onverklaarde variantie in $y$ (de som van de gekwadrateerde residuen). $SSE = \sum e_i^2$.
Er geldt de relatie: $SST = SSM + SSE$.
##### 2.2.4.1 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, $R^2$, is de proportie van de totale variantie in $y$ die verklaard wordt door het regressiemodel (de variabele $x$).
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
In enkelvoudige lineaire regressie is $R^2$ gelijk aan het kwadraat van de Pearsoncorrelatiecoëfficiënt ($r^2$). Een hogere $R^2$ waarde duidt op een betere pasvorm van het model.
##### 2.2.4.2 F-toets in ANOVA
De ANOVA-tabel bevat de gemiddelde kwadratensommen ($MSM = SSM/(k)$ en $MSE = SSE/(n-k-1)$, waarbij $k$ het aantal predictoren is, in enkelvoudige regressie $k=1$). De $F$-statistiek wordt berekend als:
$$ F = \frac{MSM}{MSE} $$
Deze $F$-statistiek volgt een $F$-verdeling met $k$ en $n-k-1$ vrijheidsgraden onder de nulhypothese $H_0: \beta_1 = 0$. De $F$-toets in enkelvoudige lineaire regressie is equivalent aan de $t$-toets voor de helling: $F = t^2$.
> **Opmerking:** Voor regressie met één verklarende variabele ($k=1$) geeft de ANOVA $F$-toets dezelfde $p$-waarde als de $t$-toets voor de helling $\beta_1$.
#### 2.2.5 Inferentie over voorspellingen
Naast inferentie over de parameters, kunnen we ook betrouwbaarheidsintervallen construeren voor:
* **De verwachte waarde van $y$ voor een specifieke waarde $x^*$ (betrouwbaarheidsinterval voor het gemiddelde):** Dit interval geeft een bereik van waarden waarbinnen de *gemiddelde* respons $\mu_y$ ligt voor een gegeven $x^*$. Dit interval is smaller dan het voorspellingsinterval.
$$ \hat{y}^* \pm t^* \cdot SE(\hat{y}^*) $$
waarbij $SE(\hat{y}^*) = s \sqrt{\frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}}$.
* **Een individuele voorspelling van $y$ voor een specifieke waarde $x^*$ (voorspellingsinterval):** Dit interval geeft een bereik van waarden waarbinnen een *individuele* waarneming $y$ waarschijnlijk zal vallen voor een gegeven $x^*$. Dit interval is breder dan het betrouwbaarheidsinterval voor het gemiddelde.
$$ \hat{y}^* \pm t^* \cdot s \sqrt{1 + \frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}} $$
> **Belangrijk:** Zowel de breedte van het betrouwbaarheidsinterval als het voorspellingsinterval neemt toe naarmate de waarde $x^*$ verder afwijkt van het gemiddelde $\bar{x}$.
### 2.3 Inferentie voor correlatie
Wanneer er geen duidelijke verklarende of verklaarde variabele is (bijvoorbeeld bij het onderzoeken van de relatie tussen armlengte en beenlengte), kan inferentie op de correlatiecoëfficiënt $\rho$ (rho) nuttiger zijn dan regressie-inferentie. De nulhypothese $H_0: \rho = 0$ is equivalent aan $H_0: \beta_1 = 0$ onder bepaalde aannames. Als $x$ en $y$ bivariaat normaal verdeeld zijn, toets deze hypothese of $x$ en $y$ onafhankelijk zijn. De toets voor $\rho$ is gebaseerd op een $t$-test met $n-2$ vrijheidsgraden.
$$ t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}} $$
waarbij $r$ de steekproefcorrelatiecoëfficiënt is.
---
# Hypothesetoetsing en betrouwbaarheidsintervallen voor regressieparameters
Hieronder volgt een gedetailleerde studiegids voor hypothesetoetsing en betrouwbaarheidsintervallen voor regressieparameters, gebaseerd op de verstrekte documentatie.
## 3. Hypothesetoetsing en betrouwbaarheidsintervallen voor regressieparameters
Dit onderdeel behandelt het gebruik van significantietoetsen en betrouwbaarheidsintervallen om conclusies te trekken over populatieparameters (helling en intercept) van een regressielijn, specifiek de t-toets voor de helling en het intercept, en de interpretatie van de resultaten.
### 3.1 Introductie tot inferentie voor regressieparameters
Wanneer een spreidingsdiagram een lineair verband tussen een verklarende variabele ($x$) en een verklaarde variabele ($y$) suggereert, gebruiken we de regressierechte om $y$ te voorspellen voor een gegeven $x$. Als de data afkomstig zijn uit een grotere populatie, rijzen er vragen over de significantie van dit verband en de precisie van onze voorspellingen. De berekende regressiecoëfficiënten, de richtingscoëfficiënt ($b_1$) en het intercept ($b_0$), zijn schatters van de onbekende populatieparameters $\beta_1$ en $\beta_0$. Inferentie op deze parameters stelt ons in staat om conclusies te trekken over het ware lineaire verband in de populatie.
### 3.2 Aannames voor regressie-inferentie
Voor betrouwbare inferentie op regressieparameters moeten aan bepaalde voorwaarden voldaan zijn:
* **Normaliteit:** Voor elke waarde van de verklarende variabele $x$, wordt aangenomen dat de corresponderende responsen $y$ normaal verdeeld zijn. Dit betekent dat we een reeks normaalverdelingen verwachten, elk gecentreerd op de regressierechte van de populatie voor die specifieke $x$-waarde.
* **Gelijke standaardafwijking ($\sigma$):** Alle normaalverdelingen van $y$ voor de verschillende $x$-waarden hebben dezelfde standaardafwijking $\sigma$. Dit impliceert dat de variabiliteit van $y$ constant is over alle waarden van $x$. De waarde van $\sigma$ bepaalt de breedte van de "tunnel" van waarnemingen rond de regressierechte.
* **Lineariteit:** Het gemiddelde van de responsen $\mu_y$ voor een gegeven $x$ ligt op een rechte lijn. Deze populatie regressierechte wordt beschreven door $\mu_y = \beta_0 + \beta_1 x$.
* **Onafhankelijkheid:** De waarnemingen van $y$ zijn onderling onafhankelijk.
De parameters $\beta_0$ (intercept) en $\beta_1$ (helling) van de populatie regressierechte zijn onbekend. We schatten deze met de steekproefcoëfficiënten $b_0$ en $b_1$.
### 3.3 Schatting van regressieparameters
De schatters $b_0$ en $b_1$ zijn zuivere schatters van respectievelijk $\beta_0$ en $\beta_1$, wat betekent dat hun verwachte waarden gelijk zijn aan de populatieparameters: $E(b_0) = \beta_0$ en $E(b_1) = \beta_1$. De schatters $b_0$ en $b_1$ volgen, onder de aannames, een normaalverdeling met de populatieparameters als gemiddelden. De standaardafwijking van deze schatters kan uit de data worden geschat.
De standaardafwijking $\sigma$ van de residuen ($e_i$, het verschil tussen de waargenomen $y_i$ en de voorspelde $\hat{y}_i$) wordt gebruikt om de standaardafwijking van de regressiecoëfficiënten te schatten. De schatting van $\sigma$ wordt berekend op basis van de residuen en heeft $n-2$ vrijheidsgraden, waarbij $n$ het aantal waarnemingen is en 2 het aantal geschatte parameters ($\beta_0$ en $\beta_1$).
> **Tip:** Uitschieters en invloedrijke waarnemingen kunnen de regressierechte en de schattingen van de parameters significant beïnvloeden en de inferentie ongeldig maken. Analyseer altijd de residuen en identificeer potentiële invloedrijke punten.
### 3.4 Betrouwbaarheidsintervallen voor regressieparameters
Betrouwbaarheidsintervallen (BI) bieden een bereik van waarden waarbinnen de ware populatieparameter (helling of intercept) waarschijnlijk ligt.
#### 3.4.1 Betrouwbaarheidsinterval voor de helling ($\beta_1$)
Een betrouwbaarheidsinterval voor $\beta_1$ wordt geconstrueerd als volgt:
$$ b_1 \pm t^* \cdot SE(b_1) $$
waarbij:
* $b_1$ de geschatte regressiecoëfficiënt is.
* $t^*$ de kritieke t-waarde is uit de t-verdeling met $n-2$ vrijheidsgraden, die overeenkomt met het gewenste betrouwbaarheidsniveau.
* $SE(b_1)$ de standaardfout van de schatter $b_1$ is.
> **Voorbeeld:** Een 95% betrouwbaarheidsinterval voor de helling $\beta_1$ van 0,094 tot 0,128 betekent dat we met 95% betrouwbaarheid kunnen zeggen dat de ware populatiehelling tussen 0,094 en 0,128 ligt. Dit kan geïnterpreteerd worden als: een toename van 1 eenheid in $x$ gaat samen met een toename in $y$ tussen 0,094 en 0,128 eenheden in de populatie.
#### 3.4.2 Betrouwbaarheidsinterval voor het intercept ($\beta_0$)
Een betrouwbaarheidsinterval voor $\beta_0$ wordt op een vergelijkbare manier geconstrueerd:
$$ b_0 \pm t^* \cdot SE(b_0) $$
waarbij:
* $b_0$ de geschatte intercept is.
* $t^*$ de kritieke t-waarde is met $n-2$ vrijheidsgraden.
* $SE(b_0)$ de standaardfout van de schatter $b_0$ is.
Het betrouwbaarheidsinterval voor het intercept is echter vaak minder relevant in de praktijk, tenzij $x=0$ een betekenisvolle waarde is binnen het onderzochte domein.
### 3.5 Significantietoetsen voor regressieparameters
Significantietoetsen worden gebruikt om te evalueren of het waargenomen verband in de steekproef significant is, of dat het ook door toeval zou kunnen zijn ontstaan in de populatie.
#### 3.5.1 T-toets voor de helling ($\beta_1$)
De meest voorkomende hypothese die getest wordt voor de helling is:
* Nulhypothese $H_0$: $\beta_1 = 0$ (er is geen lineair verband tussen $x$ en $y$ in de populatie).
* Alternatieve hypothese $H_a$: $\beta_1 \neq 0$ (er is wel een lineair verband).
De toetsgrootheid is een t-statistiek:
$$ t = \frac{b_1 - \beta_{1,0}}{SE(b_1)} $$
waarbij $\beta_{1,0}$ de waarde van de helling onder de nulhypothese is (meestal 0). De t-statistiek volgt een t-verdeling met $n-2$ vrijheidsgraden. De p-waarde is de kans om een t-statistiek te observeren die minstens zo extreem is als de berekende waarde, gegeven dat $H_0$ waar is. Een kleine p-waarde (typisch < 0,05) leidt tot verwerping van $H_0$.
> **Tip:** De t-toets voor $\beta_1=0$ toetst of de verwachte waarde van $y$ ($\mu_y$) constant is, onafhankelijk van $x$. Dit betekent het toetsen van de afwezigheid van een lineair verband.
#### 3.5.2 T-toets voor het intercept ($\beta_0$)
De nulhypothese voor het intercept is doorgaans $H_0$: $\beta_0 = 0$.
De toetsgrootheid is:
$$ t = \frac{b_0 - \beta_{0,0}}{SE(b_0)} $$
waarbij $\beta_{0,0}$ de waarde van het intercept onder de nulhypothese is (meestal 0).
Deze toets is vaak minder informatief dan de toets voor de helling, omdat een intercept van nul niet noodzakelijkerwijs betekent dat het model zinvol is. Het toetsen van $H_0: \beta_0 = 0$ test of de regressierechte door de oorsprong snijdt.
### 3.6 Variantie-analyse (ANOVA) voor regressie
ANOVA kan worden gebruikt om de variantie in de verklaarde variabele $y$ te ontleden in componenten die verklaard worden door het model (regressierechte) en onverklaarde componenten (residuen).
* **Totale kwadratensom (SST):** De totale variatie in $y$ rond het gemiddelde $\bar{y}$.
* **Kwadratensom verklaard door het model (SSM):** De variatie in $y$ die verklaard wordt door de regressierechte.
* **Kwadratensom van de fout (SSE):** De onverklaarde variatie in $y$ (de residuen).
Deze kwadratensommen hebben bijbehorende vrijheidsgraden:
* $df_{Totaal} = n-1$
* $df_{Model} = k$ (aantal verklarende variabelen, bij enkelvoudige regressie is dit 1)
* $df_{Error} = n-k-1$ (bij enkelvoudige regressie is dit $n-2$)
Gemiddelde kwadratensommen (Mean Squares):
* $MSM = \frac{SSM}{df_{Model}}$
* $MSE = \frac{SSE}{df_{Error}}$
#### 3.6.1 F-toets in ANOVA
De ANOVA F-toets evalueert de hypothese $H_0: \beta_1 = 0$ (in het geval van enkelvoudige regressie). De toetsgrootheid is de verhouding van de gemiddelde kwadratensommen:
$$ F = \frac{MSM}{MSE} $$
Onder $H_0$ volgt deze F-statistiek een $F(k, n-k-1)$ verdeling. Voor enkelvoudige regressie is dit $F(1, n-2)$. Een hoge F-waarde suggereert dat het model een significant deel van de variantie in $y$ verklaart.
> **Opmerking:** Voor enkelvoudige lineaire regressie is de F-toets equivalent aan de t-toets voor de helling, waarbij $F = t^2$. Beide toetsen leiden tot dezelfde p-waarde en conclusies. De F-toets is echter directer inzetbaar bij meervoudige regressie.
#### 3.6.2 Determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt ($R^2$) is de proportie van de totale variantie in $y$ die verklaard wordt door het regressiemodel (de variabele $x$).
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
$R^2$ varieert tussen 0 en 1. Een hogere $R^2$ geeft aan dat het model $y$ beter voorspelt dan wanneer alleen het gemiddelde van $y$ gebruikt zou worden. Voor enkelvoudige regressie is $R^2$ gelijk aan het kwadraat van de Pearson-correlatiecoëfficiënt ($r$).
### 3.7 Inferentie voor voorspellingen
Naast inferentie over de regressieparameters zelf, kunnen we ook betrouwbaarheidsintervallen construeren voor voorspellingen.
#### 3.7.1 Betrouwbaarheidsinterval voor de verwachte waarde van $y$ ($\mu_y$) voor een specifieke $x^*$
Dit interval geeft een bereik van waarden waarbinnen de gemiddelde waarde van $y$ voor een specifieke waarde van $x$ (laten we die $x^*$ noemen) waarschijnlijk ligt.
$$ \hat{y}^* \pm t^* \cdot SE(\hat{y}^*) $$
waarbij $\hat{y}^*$ de voorspelde waarde van $y$ is voor $x^*$, en $SE(\hat{y}^*)$ de standaardfout van deze voorspelling. De standaardfout is afhankelijk van de afstand van $x^*$ tot het gemiddelde van de $x$-waarden in de steekproef ($\bar{x}$). Hoe verder $x^*$ van $\bar{x}$ ligt, hoe breder het betrouwbaarheidsinterval.
$$ SE(\hat{y}^*) = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum(x_i - \bar{x})^2}} $$
waarbij $\hat{\sigma}$ de schatting van $\sigma$ is.
#### 3.7.2 Voorspellingsinterval voor een individuele waarneming van $y$ voor een specifieke $x^*$
Dit interval geeft een bereik van waarden waarbinnen een *individuele* waarneming van $y$ voor een specifieke $x^*$ waarschijnlijk zal vallen. Dit interval is altijd breder dan het betrouwbaarheidsinterval voor de verwachte waarde, omdat het ook de inherente variabiliteit van individuele waarnemingen rond het gemiddelde omvat.
$$ \hat{y}^* \pm t^* \cdot \sqrt{\hat{\sigma}^2 + (\hat{\sigma} \sqrt{\frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum(x_i - \bar{x})^2}})^2} $$
$$ \hat{y}^* \pm t^* \cdot \hat{\sigma} \sqrt{1 + \frac{1}{n} + \frac{(x^* - \bar{x})^2}{\sum(x_i - \bar{x})^2}} $$
> **Belangrijk:** Betrouwbaarheidsintervallen voor voorspellingen zijn het smalst rond het gemiddelde van de verklarende variabele ($\bar{x}$) en worden breder naarmate de te voorspellen $x^*$-waarde verder van $\bar{x}$ afwijkt. Dit illustreert het risico van extrapolatie buiten het bereik van de waargenomen data.
### 3.8 Inferentie voor correlatie
Wanneer er geen duidelijke verklarende of verklaarde variabele is (bijvoorbeeld bij het onderzoeken van de relatie tussen armlengte en beenlengte), is het geschikter om inferentie te doen op de populatiecorrelatiecoëfficiënt, $\rho$ (rho).
* **Nulhypothese $H_0$: $\rho = 0$**: Er is geen lineair verband tussen $x$ en $y$ in de populatie.
* **Alternatieve hypothese $H_a$: $\rho \neq 0$**: Er is wel een lineair verband.
Als $x$ en $y$ bivariaat normaal verdeeld zijn, is de nulhypothese $\rho = 0$ equivalent met de onafhankelijkheid van $x$ en $y$. De significantietoets voor $\rho$ is gebaseerd op een 1-steekproef t-test:
$$ t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}} $$
waarbij $r$ de steekproefcorrelatiecoëfficiënt is en $n$ de steekproefgrootte. De kritieke waarden worden verkregen uit de t-verdeling met $n-2$ vrijheidsgraden.
Als $x$ wel de verklarende variabele is, is de toets $H_0: \rho = 0$ equivalent met $H_0: \beta_1 = 0$.
### 3.9 Rapportage van regressie-analyse
Volgens APA-richtlijnen worden regressieresultaten bij voorkeur in tabelvorm gerapporteerd. In de tekst kunnen de volgende elementen worden opgenomen:
* De gestandaardiseerde helling ($\beta_1$).
* De resultaten van de t-toets voor de helling, inclusief het significantieniveau en het aantal vrijheidsgraden ($t(df) = \text{waarde}, p < \text{niveau}$).
* Het percentage verklaarde variantie ($R^2$) en de resultaten van de F-toets ($F(df_{model}, df_{error}) = \text{waarde}, p < \text{niveau}$).
> **Voorbeeld rapportage:** Levenstevredenheid gemeten ahv een Likertschaal bestaande uit items dewelke peilen naar tevredenheid ivm diverse levensdomeinen voorspelt op significante wijze de globale levenstevredenheid, $\beta_1$ =0,111, $t$(230) = 12,590, $p$ < .001. Deze Likertschaal verklaart tevens een significant deel van de variantie in Globale levenstevredenheid, $R^2$=0,408, $F$(1,230)= 158,499 , $p$ < .001.
---
# Variantie-analyse (ANOVA) en determinatiecoëfficiënt
Dit onderwerp introduceert variantie-analyse (ANOVA) als een methode om de totale variantie in de verklaarde variabele op te splitsen in verklaarde en onverklaarde delen, en bespreekt de determinatiecoëfficiënt ($R^2$) en de F-toets.
## 4. Variantie-analyse (ANOVA) en determinatiecoëfficiënt
### 4.1 Basisprincipes van variantie-analyse
Variantie-analyse (ANOVA) is een statistische methode die gebruikt wordt om de totale variantie in de verklaarde variabele ($y$) op te splitsen in verschillende componenten. In de context van lineaire regressie is het hoofddoel om te bepalen in hoeverre de variantie in $y$ verklaard kan worden door de variantie in de verklarende variabele ($x$). De totale variantie wordt hierbij opgesplitst in:
* **Verklaarde variantie:** Het deel van de variantie in $y$ dat wordt toegeschreven aan het regressiemodel (de lineaire relatie met $x$).
* **Onverklaarde variantie:** Het deel van de variantie in $y$ dat niet door het model verklaard wordt, ook wel de residuele variantie of error genoemd.
Het statistische model voor lineaire regressie kan worden uitgedrukt als:
$$y_i = (\beta_0 + \beta_1 x_i) + \epsilon_i$$
waarbij:
* $y_i$ de waargenomen waarde van de verklaarde variabele is voor de $i$-de observatie.
* $\beta_0$ het intercept van de populatieregressielijn is.
* $\beta_1$ de helling (richtingscoëfficiënt) van de populatieregressielijn is, wat de verwachte verandering in $y$ vertegenwoordigt voor een eenheidsverandering in $x$.
* $x_i$ de waarde van de verklarende variabele is voor de $i$-de observatie.
* $\epsilon_i$ de errorterm is, die de afwijking van de $i$-de observatie van de populatieregressielijn weergeeft. Deze wordt verondersteld onafhankelijk en normaal verdeeld te zijn met gemiddelde 0 en standaardafwijking $\sigma$, dus $\epsilon_i \sim N(0, \sigma)$.
Voor de schatting van de regressieparameters worden de kleinste-kwadratenmethode gebruikt, wat leidt tot de regressielijn $\hat{y}_i = b_0 + b_1 x_i$, waar $b_0$ en $b_1$ de schatters zijn van $\beta_0$ en $\beta_1$. De residuen $e_i = y_i - \hat{y}_i$ worden gebruikt om $\sigma$ te schatten.
#### 4.1.1 Opsplitsen van de totale variantie
De totale afwijking van de waargenomen waarden $y_i$ ten opzichte van het gemiddelde $\bar{y}$ kan worden opgesplitst in twee delen: de afwijking van de regressielijn ($\hat{y}_i$) ten opzichte van het gemiddelde, en de afwijking van de waargenomen waarde ($y_i$) ten opzichte van de regressielijn. Wiskundig wordt dit uitgedrukt met kwadratensommen:
* **Totale kwadratensom ($SST$ - Sum of Squares Total):** Dit meet de totale variantie in $y$. Het is de som van de gekwadrateerde afwijkingen van de waargenomen waarden $y_i$ ten opzichte van hun gemiddelde $\bar{y}$.
$$SST = \sum_{i=1}^{n} (y_i - \bar{y})^2$$
* **Verklaarde kwadratensom ($SSR$ of $SSM$ - Sum of Squares Regression/Model):** Dit meet de variantie in $y$ die verklaard wordt door het regressiemodel. Het is de som van de gekwadrateerde afwijkingen van de voorspelde waarden $\hat{y}_i$ ten opzichte van het gemiddelde $\bar{y}$.
$$SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2$$
* **Onverklaarde kwadratensom ($SSE$ - Sum of Squares Error):** Dit meet de variantie in $y$ die niet verklaard wordt door het regressiemodel. Het is de som van de gekwadrateerde residuen $e_i$.
$$SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2$$
De relatie tussen deze kwadratensommen is:
$$SST = SSR + SSE$$
#### 4.1.2 Vrijheidsgraden
Bij het berekenen van gemiddelde kwadratensommen worden vrijheidsgraden gebruikt.
* **Vrijheidsgraden totaal ($df_{T}$):** Voor $SST$ is dit $n-1$, waarbij $n$ het aantal observaties is.
* **Vrijheidsgraden model ($df_{M}$):** Voor $SSR$ is dit $k$, waarbij $k$ het aantal verklarende variabelen in het model is. Voor enkelvoudige lineaire regressie is $k=1$.
* **Vrijheidsgraden error ($df_{E}$):** Voor $SSE$ is dit $n-k-1$. Voor enkelvoudige lineaire regressie is dit $n-1-1 = n-2$.
#### 4.1.3 Gemiddelde kwadratensommen
Gemiddelde kwadratensommen (Mean Squares, $MS$) worden berekend door de kwadratensommen te delen door hun respectievelijke vrijheidsgraden. Ze dienen als schattingen van de varianties.
* **Gemiddelde kwadratensom model ($MSM$):**
$$MSM = \frac{SSR}{df_M} = \frac{SSR}{k}$$
Voor enkelvoudige lineaire regressie: $MSM = \frac{SSR}{1} = SSR$.
* **Gemiddelde kwadratensom error ($MSE$):**
$$MSE = \frac{SSE}{df_E} = \frac{SSE}{n-k-1}$$
Dit is een zuivere schatter voor $\sigma^2$, de variantie van de errortermen. Voor enkelvoudige lineaire regressie: $MSE = \frac{SSE}{n-2}$.
> **Tip:** De $MSE$ schat de variantie van de populatie rond de regressielijn. Een kleinere $MSE$ indiceert dat de waarnemingen dichter bij de regressielijn liggen.
### 4.2 De determinatiecoëfficiënt ($R^2$)
De determinatiecoëfficiënt, vaak aangeduid als $R^2$ (in enkelvoudige regressie) of $r^2$ (als maat voor lineaire associatie), is een belangrijke maatstaf die aangeeft welk proportie van de totale variantie in de verklaarde variabele ($y$) verklaard wordt door het regressiemodel (of de verklarende variabele $x$).
De formule voor $R^2$ is:
$$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$
Met andere woorden, $R^2$ vertegenwoordigt de proportionele reductie in de fout bij het voorspellen van $y$ door gebruik te maken van de regressierechte in plaats van alleen het gemiddelde van $y$.
* $R^2$ ligt altijd tussen 0 en 1.
* $R^2 = 0$ betekent dat het model geen enkele variantie in $y$ verklaart. De regressielijn is dan niet beter dan het gemiddelde van $y$.
* $R^2 = 1$ betekent dat het model alle variantie in $y$ verklaart. Alle waarnemingen liggen perfect op de regressielijn.
> **Tip:** $R^2$ vertelt ons *hoeveel* variantie wordt verklaard, maar niet of het model *significant* is of dat de verklaring *zinvol* is in de praktijk. Dit vereist een significantietoets.
#### 4.2.1 Gestandaardiseerde helling
De gestandaardiseerde helling, vaak aangeduid als $\beta_1$ (in plaats van $b_1$ voor de ongestandaardiseerde helling), kan worden berekend door zowel de verklaarde als de verklarrende variabele te standaardiseren (gemiddelde 0, standaardafwijking 1) alvorens de regressie uit te voeren. De gestandaardiseerde helling is gelijk aan de correlatiecoëfficiënt $r$ tussen $x$ en $y$, en is gelijk aan $\sqrt{R^2}$ (voor enkelvoudige regressie) als de correlatie positief is. De gestandaardiseerde helling vertegenwoordigt de verwachte verandering in standaarddeviaties van $y$ voor elke standaarddeviatieverandering in $x$.
### 4.3 De F-toets voor regressie
De F-toets, gebruikt binnen de variantie-analyse, is de primaire toets om de significantie van het gehele regressiemodel te evalueren.
* **Nulhypothese ($H_0$):** De regressiemodel verklaart geen variantie in $y$. In het geval van enkelvoudige lineaire regressie is dit equivalent aan het stellen dat de helling $\beta_1$ nul is: $H_0: \beta_1 = 0$. Dit impliceert dat er geen lineair verband is tussen $x$ en $y$ in de populatie.
* **Alternatieve hypothese ($H_a$):** Het regressiemodel verklaart een significante proportie van de variantie in $y$. Voor enkelvoudige lineaire regressie is dit $H_a: \beta_1 \neq 0$. Dit betekent dat er wel een lineair verband bestaat tussen $x$ en $y$ in de populatie.
De toetsgrootheid voor de F-toets is de verhouding van de gemiddelde kwadratensommen:
$$F = \frac{MSM}{MSE}$$
Als de nulhypothese waar is ($\beta_1=0$), dan zouden zowel $MSM$ als $MSE$ schattingen moeten zijn van $\sigma^2$, en de $F$-waarde zou rond 1 moeten liggen. Als de alternatieve hypothese waar is ($\beta_1 \neq 0$), dan is $MSM$ naar verwachting groter dan $MSE$, wat leidt tot een $F$-waarde groter dan 1.
De F-toets volgt, onder de nulhypothese, een $F$-verdeling met $df_M$ vrijheidsgraden in de teller en $df_E$ vrijheidsgraden in de noemer. Voor enkelvoudige lineaire regressie is dit een $F(1, n-2)$ verdeling. De overschrijdingskans (p-waarde) is de kans op het observeren van een $F$-waarde die minstens zo extreem is als de berekende waarde, gegeven dat $H_0$ waar is.
> **Tip:** Een kleine p-waarde (typisch < 0,05) voor de F-toets leidt tot verwerping van de nulhypothese, wat suggereert dat het regressiemodel significant is en een aanzienlijk deel van de variantie in $y$ verklaart.
#### 4.3.1 Relatie tussen F-toets en t-toets voor de helling
Voor enkelvoudige lineaire regressie is de F-toets voor de significantie van het model equivalent aan de tweezijdige t-toets voor de significantie van de helling $\beta_1$. Specifiek geldt dat $F = t^2$, en de p-waarden voor beide toetsen zijn identiek.
* De t-toets toetst $H_0: \beta_1 = 0$ tegen $H_a: \beta_1 \neq 0$. De toetsgrootheid is $t = \frac{b_1 - 0}{SE(b_1)}$, waarbij $SE(b_1)$ de standaardfout van de schatter $b_1$ is. Deze $t$-statistiek volgt een $t$-verdeling met $n-2$ vrijheidsgraden.
* De F-toets toetst $H_0: \beta_1 = 0$ tegen $H_a: \beta_1 \neq 0$ met de toetsgrootheid $F = \frac{MSM}{MSE}$.
Beide toetsen leiden tot dezelfde conclusie over de significantie van het lineaire verband. De t-toets is vaak directer voor het interpreteren van de richting en significantie van de helling, terwijl de F-toets makkelijker generaliseert naar regressiemodellen met meerdere verklarende variabelen.
### 4.4 ANOVA-tabel
De resultaten van een variantie-analyse worden vaak samengevat in een ANOVA-tabel. Deze tabel presenteert de kwadratensommen, vrijheidsgraden, gemiddelde kwadratensommen, de F-statistiek en de bijbehorende p-waarde.
| Bron van Variatie | Kwadratensom ($SS$) | Vrijheidsgraden ($df$) | Gemiddelde Kwadratensom ($MS$) | F-statistiek | p-waarde |
| :----------------- | :------------------ | :--------------------- | :---------------------------- | :----------- | :------- |
| Model (Regressie) | $SSR$ | $k$ | $MSM = SSR/k$ | $F = MSM/MSE$ | $P(F > F_{berekend})$ |
| Error (Residu) | $SSE$ | $n-k-1$ | $MSE = SSE/(n-k-1)$ | | |
| Totaal | $SST$ | $n-1$ | | | |
Voor enkelvoudige lineaire regressie ($k=1$):
| Bron van Variatie | Kwadratensom ($SS$) | Vrijheidsgraden ($df$) | Gemiddelde Kwadratensom ($MS$) | F-statistiek | p-waarde |
| :----------------- | :------------------ | :--------------------- | :---------------------------- | :----------- | :------- |
| Regressie | $SSR$ | 1 | $SSR$ | $F = SSR/MSE$ | $P(F > F_{berekend})$ |
| Error | $SSE$ | $n-2$ | $MSE = SSE/(n-2)$ | | |
| Totaal | $SST$ | $n-1$ | | | |
> **Voorbeeld:** Stel dat voor een dataset met $n=30$ observaties, de ANOVA-tabel er als volgt uitziet:
>
> | Bron van Variatie | Kwadratensom ($SS$) | Vrijheidsgraden ($df$) | Gemiddelde Kwadratensom ($MS$) | F-statistiek | p-waarde |
> | :----------------- | :------------------ | :--------------------- | :---------------------------- | :----------- | :------- |
> | Regressie | 150 | 1 | 150 | 75 | < 0.001 |
> | Error | 56 | 28 | 2 | | |
> | Totaal | 206 | 29 | | | |
>
> Hier is $R^2 = SSR/SST = 150/206 \approx 0.728$, wat betekent dat ongeveer 72.8% van de variantie in $y$ verklaard wordt door $x$. De F-statistiek is 75, en met een p-waarde < 0.001 is het regressiemodel significant.
### 4.5 Rapporteren van regressie-analyse resultaten
Bij het rapporteren van de resultaten van een regressie-analyse (volgens APA-richtlijnen of vergelijkbaar) worden de volgende elementen doorgaans vermeld:
* **De regressiecoëfficiënten:** De geschatte intercept ($b_0$) en helling ($b_1$), inclusief hun standaardfouten en t-statistieken.
* `Regressie-analyse liet zien dat de score op de Likertschaal de globale levenstevredenheid significant voorspelde, $b_1 = 0.111$, $SE = 0.009$, $t(230) = 12.590$, $p < .001$.`
* **De determinatiecoëfficiënt ($R^2$):** Het percentage verklaarde variantie.
* `Deze Likertschaal verklaarde $R^2 = 0.408$ (of 40.8%) van de variantie in globale levenstevredenheid.`
* **De significantie van het model (F-toets):** De F-statistiek, vrijheidsgraden en p-waarde.
* `Het model als geheel was significant, $F(1,230) = 158.499$, $p < .001$.`
De combinatie van de t-toets voor de helling en de F-toets voor het model, samen met $R^2$, geeft een volledig beeld van de significantie en de kracht van het regressiemodel.
### 4.6 Inferentie voor correlatie
Wanneer er geen duidelijke verklarende en verklaarde variabele is (bijvoorbeeld bij het bestuderen van de relatie tussen armlengte en beendlengte), kan inferentie op de populatiecorrelatiecoëfficiënt ($\rho$, rho) nuttiger zijn dan regressie-inferentie.
* **Nulhypothese ($H_0$):** Er is geen lineair verband tussen de twee variabelen in de populatie: $H_0: \rho = 0$.
* **Alternatieve hypothese ($H_a$):** Er is wel een lineair verband: $H_a: \rho \neq 0$.
Als de variabelen bivariaat normaal verdeeld zijn, is de toets voor $\rho=0$ equivalent aan het toetsen of de variabelen onafhankelijk zijn. De toetsstatistiek is een t-statistiek die berekend wordt uit de steekproefcorrelatiecoëfficiënt ($r$) en de steekproefgrootte ($n$):
$$t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}}$$
Deze $t$-statistiek volgt een $t$-verdeling met $n-2$ vrijheidsgraden. De p-waarde wordt berekend op basis van deze verdeling. De F-toets in ANOVA voor enkelvoudige regressie is equivalent aan de tweezijdige t-toets voor $\rho=0$ wanneer $x$ als verklarende variabele wordt beschouwd.
---
# Inferentie voor correlatie en rapportage
Dit deel behandelt de toetsing van de nulhypothese van geen lineair verband met behulp van de correlatiecoëfficiënt, de equivalentie van deze toets met de t-toets voor de helling, en richtlijnen voor het rapporteren van regressieanalyseresultaten.
### 5.1 Veronderstellingen voor regressie-inferentie
Voor het uitvoeren van inferentie over regressie zijn een aantal veronderstellingen van belang:
* **Normaliteit van de residuen:** Voor elke mogelijke waarde van de verklarende variabele $x$, liggen de waarnemingen van de verklaarde variabele $y$ verspreid rond de populatie-regressierechte. Deze verdeling wordt verondersteld normaal te zijn.
* **Gelijke standaardafwijking (homoscedasticiteit):** Alle normaalverdelingen van $y$ voor verschillende waarden van $x$ hebben dezelfde standaardafwijking $\sigma$. Dit betekent dat de variabiliteit van $y$ constant is voor alle waarden van $x$. De waarde van $\sigma$ bepaalt of de waarnemingen gemiddeld dicht bij (kleine $\sigma$) of ver van (grote $\sigma$) de regressierechte liggen.
* **Lineariteit:** Het gemiddelde van de responsen $\mu_y$ ligt voor elke mogelijke waarde van de verklarende variabele $x$ op de populatie-regressierechte, beschreven door de vergelijking $\mu_y = \beta_0 + \beta_1 x$. De parameters $\beta_0$ (intercept) en $\beta_1$ (helling) zijn onbekende populatieparameters.
* **Onafhankelijkheid:** Opeenvolgende responsen $y$ worden als onderling onafhankelijk beschouwd.
#### 5.1.1 Het enkelvoudige lineaire regressiemodel
Het statistische model voor enkelvoudige lineaire regressie stelt:
$$y_i = \beta_0 + \beta_1 x_i + \epsilon_i$$
waarbij:
* $y_i$ de waargenomen waarde van de verklaarde variabele is voor observatie $i$.
* $x_i$ de waarde van de verklarende variabele is voor observatie $i$.
* $\beta_0$ het intercept is (de verwachte waarde van $y$ als $x = 0$).
* $\beta_1$ de helling is (de verwachte verandering in $y$ voor een eenheidsverandering in $x$).
* $\epsilon_i$ de foutterm of afwijking is voor observatie $i$, verondersteld onafhankelijk en normaal verdeeld te zijn met een gemiddelde van 0 en een standaardafwijking $\sigma$ ($ \epsilon_i \sim N(0, \sigma) $).
De geschatte regressieparameters, $b_0$ en $b_1$, zijn zuivere schatters van respectievelijk $\beta_0$ en $\beta_1$. De standaardfout van deze schatters kan worden berekend op basis van de data. De waarde $\sigma$ wordt geschat met behulp van de residuen, waarbij de vrijheidsgraden gelijk zijn aan $n - 2$ (aantal observaties min het aantal geschatte parameters).
#### 5.1.2 Analyse van de residuen
Analyse van de residuen ($e_i$) is cruciaal om de aannames van het regressiemodel te controleren. Een plot van de residuen tegen de voorspelde waarden of tegen de verklarende variabele helpt bij het identificeren van patronen die duiden op schendingen van de aannames, zoals heteroscedasticiteit (niet-gelijke varianties) of niet-lineariteit. Een normaal-kwantieldiagram (Q-Q plot) van de gestandaardiseerde residuen wordt gebruikt om de normaliteitsaanname te beoordelen.
### 5.2 Betrouwbaarheidsintervallen en significantietoetsen voor regressieparameters
#### 5.2.1 Standaardfout op de geschatte regressieparameters
De standaardfout van de schatting van de helling ($\beta_1$) en het intercept ($\beta_0$) kwantificeert de onzekerheid in deze schattingen.
#### 5.2.2 Betrouwbaarheidsinterval voor $\beta_1$ en $\beta_0$
Een betrouwbaarheidsinterval voor een regressieparameter (i=0 of 1) wordt berekend met de algemene vorm:
$$ \text{Schatter} \pm t^* \cdot (\text{SD van de schatter}) $$
waarbij $t^*$ de kritische t-waarde is uit de t-verdeling met $n-2$ vrijheidsgraden, corresponderend met het gewenste betrouwbaarheidsniveau.
#### 5.2.3 Significantietoets voor $H_0: \beta_1 = 0$
De belangrijkste significantietoets in regressie-analyse is gericht op de helling:
* **Nulhypothese ($H_0$)**: $\beta_1 = 0$. Dit stelt dat er geen lineair verband is tussen $x$ en $y$ in de populatie.
* **Alternatieve hypothese ($H_a$)**: $\beta_1 \neq 0$. Dit stelt dat er wel een lineair verband is.
De toetsingsgrootheid is de t-statistiek:
$$ t = \frac{b_1 - \beta_{1,0}}{\text{SE}(b_1)} $$
waar $\beta_{1,0}$ de waarde onder de nulhypothese is (meestal 0). De overschrijdingskans (p-waarde) wordt verkregen uit de t-verdeling met $n-2$ vrijheidsgraden. Een significant resultaat (kleine p-waarde) leidt tot verwerping van $H_0$, wat suggereert dat er een lineair verband is tussen $x$ en $y$.
Het toetsen van $H_0: \beta_0 = 0$ is doorgaans minder informatief, tenzij de interpretatie van $y$ wanneer $x=0$ relevant is.
#### 5.2.4 Betrouwbaarheidsinterval voor de voorspelling van $y$
Er zijn twee soorten betrouwbaarheidsintervallen met betrekking tot voorspellingen:
1. **Betrouwbaarheidsinterval voor de verwachte waarde van $y$ ($\mu_y$) voor een specifieke $x = x^*$:** Dit interval geeft een reeks waarden waarbinnen de gemiddelde $y$-waarde voor een gegeven $x^*$ waarschijnlijk ligt. De breedte van dit interval hangt af van $x^*$ in relatie tot het gemiddelde van de $x$-waarden.
$$ \text{Voorspelling van } \mu_y \text{ voor } x = x^* \pm t^* \cdot \text{SE}(\hat{\mu}_y) $$
De standaardfout van de voorspelde gemiddelde waarde, $\text{SE}(\hat{\mu}_y)$, neemt toe naarmate $x^*$ verder van het gemiddelde van $x$ ligt.
2. **Voorspellingsinterval voor een individuele waarneming van $y$ voor een specifieke $x = x^*$:** Dit interval geeft een reeks waarden waarbinnen een individuele $y$-waarde voor een gegeven $x^*$ waarschijnlijk zal vallen. Dit interval is altijd breder dan het betrouwbaarheidsinterval voor het gemiddelde, omdat het ook de individuele variabiliteit (de $\epsilon_i$) meeneemt.
### 5.3 Variantie-analyse voor regressie (ANOVA)
Variantie-analyse (ANOVA) wordt gebruikt om de totale variantie in de verklaarde variabele $y$ op te splitsen in componenten die verklaard worden door het regressiemodel en componenten die onverklaard blijven (de residuen).
* **Totale kwadratensom ($SST$)**: De totale variantie in $y$ rond het gemiddelde van $y$.
* **Kwadratensom verklaard door het model ($SSM$ of $SSR$)**: De variantie in $y$ die wordt verklaard door de regressierechte.
* **Kwadratensom van de fout ($SSE$ of $SSR$)**: De onverklaarde variantie in $y$ (de residuen).
$$ SST = SSM + SSE $$
De determinatiecoëfficiënt ($R^2$) is de proportie van de variantie in $y$ die wordt verklaard door de variantie in $x$.
$$ R^2 = \frac{SSM}{SST} = 1 - \frac{SSE}{SST} $$
#### 5.3.1 De F-toets in ANOVA
De F-toets in ANOVA toetst de nulhypothese $H_0: \beta_1 = 0$ tegen de alternatieve hypothese $H_a: \beta_1 \neq 0$. De toetsingsgrootheid is de verhouding van de gemiddelde kwadratensommen:
$$ F = \frac{MSM}{MSE} $$
waarbij $MSM = \frac{SSM}{\text{DFM}}$ en $MSE = \frac{SSE}{\text{DFE}}$. DFM is het aantal vrijheidsgraden voor het model (gelijk aan het aantal predictoren, 1 in enkelvoudige regressie), en DFE is het aantal vrijheidsgraden voor de error ($n-2$). Onder $H_0$ volgt $F$ een $F$-verdeling met $(1, n-2)$ vrijheidsgraden. ANOVA en de twee-zijdige t-toets voor $H_0: \beta_1 = 0$ geven dezelfde p-waarde. Het is bekend dat $F = t^2$.
> **Tip:** Hoewel ANOVA voor meervoudige regressie essentiëler is, biedt het voor enkelvoudige regressie een alternatieve manier om de significantie van het lineaire verband te toetsen en de verklaarde variantie te kwantificeren.
### 5.4 Inferentie voor correlatie
Om de nulhypothese van geen lineair verband tussen twee variabelen te toetsen, kan ook gebruik worden gemaakt van de correlatiecoëfficiënt ($\rho$).
* Als er een duidelijke verklarende variabele ($x$) en een verklaarde variabele ($y$) is, is de toets op $\rho=0$ equivalent aan de toets op $\beta_1 = 0$.
* Als er geen duidelijke causale richting is (bv. armlengte vs. beenlengte), verdient de toets op de correlatiecoëfficiënt de voorkeur.
Als $x$ en $y$ bivariaat normaal verdeeld zijn, is de nulhypothese $H_0: \rho = 0$ equivalent aan de stelling dat $x$ en $y$ onafhankelijk zijn. De significantietoets voor $\rho$ is gebaseerd op de 1-steekproef t-test:
$$ t = \frac{r \sqrt{n-2}}{\sqrt{1-r^2}} $$
waar $r$ de steekproefcorrelatiecoëfficiënt is en $n$ de steekproefgrootte. De p-waarde wordt berekend uit de t-verdeling met $n-2$ vrijheidsgraden.
> **Tip:** De toets op correlatie gaat na of er *enig* verband is tussen $x$ en $y$ onder de aanname van bivariaat normale verdelingen, wat verder gaat dan enkel het lineaire verband dat de regressietoets specificeert.
### 5.5 Rapporteren van regressieanalyseresultaten (APA-stijl)
Resultaten van regressieanalyses worden bij voorkeur gerapporteerd in tabelvorm. In de tekst worden de belangrijkste bevindingen samengevat:
* **Gestandaardiseerde helling ($\beta_1$):** Indien relevant, om effectgroottes te vergelijken.
* **t-toetsresultaten:** Vermeld de t-statistiek, het aantal vrijheidsgraden ($n-k-1$, waarbij $k$ het aantal predictoren is), en de p-waarde.
* **Percentage verklaarde variantie ($R^2$):** Samen met de resultaten van de F-toets voor de significantie van de regressie.
Een voorbeeld van rapportage in tekst:
"De score op de Likertschaal voorspelt op significante wijze de globale levenstevredenheid, $\beta_1 = 0.111$, $t(230) = 12.590$, $p < 0.001$. Deze Likertschaal verklaart tevens een significant deel van de variantie in globale levenstevredenheid, $R^2 = 0.408$, $F(1, 230) = 158.499$, $p < 0.001$."
> **Tip:** Gebruik bij het rapporteren van p-waarden de exacte waarde wanneer deze groter is dan $0.001$. Wanneer de p-waarde kleiner is dan $0.001$, vermeld dan $p < 0.001$. Vermijd het gebruik van het dollarteken ($) voor valuta; gebruik in plaats daarvan de valuta-naam of een standaardafkorting (bv. "dollars", "USD", "euros", "EUR").
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Regressierechte | Een rechte lijn die de relatie tussen een verklarende variabele (x) en een verklaarde variabele (y) beschrijft, berekend met de kleinste-kwadratenmethode om de residuen te minimaliseren. |
| Inferentie | Het proces van het trekken van conclusies over een populatie op basis van gegevens uit een steekproef, inclusief schattingen en hypothesen. |
| Enkelvoudige lineaire regressie | Een statistische methode die de lineaire relatie tussen één verklarende variabele (x) en één verklaarde variabele (y) modelleert. |
| Helling (β1) | De parameter in een lineair regressiemodel die de verwachte verandering in de verklaarde variabele (y) vertegenwoordigt voor elke eenheidstoename in de verklarende variabele (x). |
| Intercept (β0) | De parameter in een lineair regressiemodel die de verwachte waarde van de verklaarde variabele (y) vertegenwoordigt wanneer de verklarende variabele (x) gelijk is aan nul. |
| Spreidingsdiagram (scatterplot) | Een grafische weergave van de relatie tussen twee variabelen, waarbij elk datapunt wordt weergegeven als een punt in een tweedimensionaal vlak. |
| Betrouwbaarheidsinterval | Een reeks waarden die met een bepaalde mate van betrouwbaarheid (bijvoorbeeld 95%) de ware populatiewaarde van een parameter bevat. |
| Significantietoets | Een statistische procedure om te bepalen of er voldoende bewijs is in een steekproef om een nulhypothese over een populatieparameter te verwerpen. |
| Residuen | Het verschil tussen de waargenomen waarde van de verklaarde variabele (y) en de voorspelde waarde van y volgens het regressiemodel. Ze vertegenwoordigen de onverklaarde variatie. |
| Standaarddeviatie van de residuen (σ) | Een maat voor de spreiding van de waargenomen waarden rond de regressierechte van de populatie; het geeft de typische grootte van de residuen aan. |
| Vrijheidsgraden | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische berekening. Bij regressieanalyse worden deze vaak bepaald door de steekproefgrootte en het aantal geschatte parameters. |
| Variantie-analyse (ANOVA) | Een statistische techniek die wordt gebruikt om de variantie in een afhankelijke variabele te analyseren door deze op te splitsen in delen die worden toegeschreven aan verschillende onafhankelijke variabelen of factoren. |
| Determinatiecoëfficiënt (R²) | Een statistische maat die aangeeft welk deel van de variantie in de verklaarde variabele kan worden verklaard door de verklarende variabele(n) in het model. |
| Correlatiecoëfficiënt (ρ) | Een statistische maat die de sterkte en richting van de lineaire relatie tussen twee variabelen kwantificeert, variërend van -1 (perfecte negatieve correlatie) tot +1 (perfecte positieve correlatie). |