Cover
Börja nu gratis Sessie 3 Correlatie en Regressie.pdf
Summary
# Verschiltoetsen en hun toepassing
Het kiezen van de juiste statistische toets hangt af van het meetniveau van de variabelen, het aantal te vergelijken subgroepen en de afhankelijkheid van deze groepen [2](#page=2).
### 1.1 De basisprincipes voor het kiezen van een verschiltoets
Voordat men een specifieke toets selecteert, is het cruciaal om eerst de hypothesen te formuleren. De keuze van de toets wordt vervolgens bepaald door drie kernvragen [2](#page=2):
1. **Het aantal subgroepen (steekproeven) dat je gaat vergelijken?** Dit varieert van één tot meerdere groepen [2](#page=2).
2. **De afhankelijkheid van de subgroepen?** Dit kan gaan om onafhankelijke groepen of afhankelijke (gepaarde) groepen [2](#page=2).
3. **Het meetniveau van de variabele die je gaat testen?** Dit kan nominaal, ordinaal of interval/ratio zijn [3](#page=3).
### 1.2 Overzicht van veelgebruikte verschiltoetsen
Het schema voor verschiltoetsen illustreert de relatie tussen deze factoren en de geschikte toetsen. Hieronder volgt een gedetailleerde beschrijving van enkele veelgebruikte toetsen [3](#page=3):
#### 1.2.1 Binomiale toets en Chi-kwadraat toetsen
* **Binomiale toets:** Deze toets wordt gebruikt voor nominale variabelen wanneer er slechts twee uitkomsten mogelijk zijn en er één steekproef wordt geanalyseerd [2](#page=2) [3](#page=3).
* **Chi-kwadraat toetsen (X²):**
* **One-Sample Chi-kwadraat toets:** Wordt gebruikt voor nominale variabelen om te toetsen of de waargenomen frequentieverdeling overeenkomt met een verwachte verdeling bij één steekproef [2](#page=2) [3](#page=3).
* **Crosstabs/Chi-kwadraat toets:** Deze toets, vaak in combinatie met "crosstabs" (kruistabellen), wordt gebruikt om de relatie tussen twee categorische variabelen (nominaal of ordinaal) te onderzoeken, waarbij de groepen onafhankelijk zijn [2](#page=2) [3](#page=3).
* **McNemar toets:** Deze toets is specifiek voor nominale variabelen en wordt toegepast bij afhankelijke (gepaarde) steekproeven om veranderingen te analyseren, bijvoorbeeld voor en na een interventie [2](#page=2) [3](#page=3).
#### 1.2.2 t-testen
t-testen worden doorgaans gebruikt voor variabelen op interval- of ratio-niveau.
* **One-Sample t-toets:** Deze toets vergelijkt het gemiddelde van een enkele steekproef met een bekende of hypothetische populatiegemiddelde. De formule voor de t-statistiek is [2](#page=2) [3](#page=3):
$$ t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}} $$
waarbij $\bar{x}$ het steekproefgemiddelde is, $\mu_0$ het hypothetische populatiegemiddelde, $s$ de standaarddeviatie van de steekproef, en $n$ de steekproefgrootte [2](#page=2) [3](#page=3).
* **Independent Samples t-toets:** Deze toets wordt gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken, waarbij de variabele van interval- of ratio-niveau is. De formule voor de t-statistiek (met gelijke varianties aangenomen) is [2](#page=2) [3](#page=3):
$$ t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{s_p^2 \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} $$
waarbij $\bar{x}_1$ en $\bar{x}_2$ de gemiddelden van de twee groepen zijn, $\mu_1 - \mu_2$ het verschil tussen de populatiegemiddelden onder de nulhypothese, $s_p^2$ de gepoolde variantie, en $n_1$ en $n_2$ de groepsgroottes [2](#page=2) [3](#page=3).
* **Paired Samples t-toets:** Deze toets wordt gebruikt om de gemiddelden van twee gerelateerde of gepaarde metingen te vergelijken (bv. voor en na een behandeling bij dezelfde personen). Het test het gemiddelde van de verschillen tussen de gepaarde observaties. De formule voor de t-statistiek is [2](#page=2) [3](#page=3):
$$ t = \frac{\bar{d} - \mu_d}{\frac{s_d}{\sqrt{n}}} $$
waarbij $\bar{d}$ het gemiddelde verschil is, $\mu_d$ het hypothetische populatiegemiddelde verschil onder de nulhypothese, $s_d$ de standaarddeviatie van de verschillen, en $n$ het aantal paren [2](#page=2) [3](#page=3).
### 1.3 Verdere overwegingen voor complexere analyses
* **ANOVA (Analysis of Variance):** Wordt gebruikt wanneer er meer dan twee groepen worden vergeleken. Er is een **Independent ANOVA** voor onafhankelijke groepen en een **Repeated Measures ANOVA** voor afhankelijke (herhaalde metingen) groepen [2](#page=2) [3](#page=3).
> **Tip:** Het is essentieel om eerst de aard van je data (meetniveau) en de structuur van je steekproeven (aantal en afhankelijkheid) te bepalen voordat je de juiste statistische toets kiest. Dit voorkomt foutieve conclusies.
---
# Correlatieanalyse
Correlatieanalyse onderzoekt de sterkte en richting van de lineaire relatie tussen twee variabelen [8](#page=8).
### 2.1 Correlatie als maatstaf voor associatie
Correlatie meet de mate van associatie tussen variabelen. Het wordt uitgedrukt met de correlatiecoëfficiënt, aangeduid als $r$ voor een steekproef en $\rho$ (rho) voor de populatie [9](#page=9).
### 2.2 De correlatiecoëfficiënt
De correlatiecoëfficiënt ($r$) is een gestandaardiseerde maat die aangeeft hoe sterk twee variabelen lineair met elkaar samenhangen. De formule voor de steekproefcorrelatiecoëfficiënt is:
$r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}$ [9](#page=9).
Waarbij:
* $x_i$ en $y_i$ de individuele observaties zijn van de twee variabelen [9](#page=9).
* $\bar{x}$ en $\bar{y}$ het gemiddelde zijn van de observaties voor respectievelijk variabele $X$ en variabele $Y$ [9](#page=9).
* $n$ het aantal observaties is [9](#page=9).
Voor populaties wordt deze berekend met de covariantie gedeeld door het product van de standaarddeviaties van de twee variabelen:
$\text{Corr}(X,Y) = \frac{\text{Cov}(X,Y)}{\text{SD}(X)\text{SD}(Y)}$ [9](#page=9).
### 2.3 Interpretatie van de correlatiecoëfficiënt
De waarde van de correlatiecoëfficiënt ($r$) ligt altijd tussen -1 en 1 [9](#page=9).
* **$r = 1$**: Dit duidt op een perfecte positieve lineaire relatie. Als de ene variabele toeneemt, neemt de andere variabele evenredig toe [9](#page=9).
* **$r = -1$**: Dit duidt op een perfecte negatieve lineaire relatie. Als de ene variabele toeneemt, neemt de andere variabele evenredig af [9](#page=9).
* **$r = 0$**: Dit duidt op geen lineaire relatie tussen de twee variabelen [9](#page=9).
* **Waarden tussen 0 en 1**: Duiding op een positieve lineaire relatie met variërende sterkte. Hoe dichter bij 1, hoe sterker de relatie [9](#page=9).
* **Waarden tussen -1 en 0**: Duiding op een negatieve lineaire relatie met variërende sterkte. Hoe dichter bij -1, hoe sterker de relatie [9](#page=9).
> **Tip:** Een correlatiecoëfficiënt van 0.5 duidt bijvoorbeeld op een matige positieve lineaire relatie, terwijl 0.9 een sterke positieve lineaire relatie aangeeft [9](#page=9).
### 2.4 Correlatie versus causaliteit
Het is cruciaal om te onthouden dat correlatie geen causaliteit impliceert. Een sterke correlatie tussen twee variabelen betekent niet noodzakelijk dat de ene variabele de oorzaak is van de andere. Er kunnen andere factoren (lurking variables) in het spel zijn die beide variabelen beïnvloeden, of de relatie kan toeval zijn [13](#page=13) [8](#page=8).
> **Tip:** Stel dat er een sterke positieve correlatie wordt gevonden tussen het aantal verkochte ijsjes en het aantal verdrinkingen. Dit betekent niet dat ijs eten verdrinkingen veroorzaakt. Beide variabelen worden waarschijnlijk beïnvloed door een derde variabele: hogere temperaturen (zomer) [13](#page=13).
### 2.5 Toepassing van correlatieanalyse
Correlatieanalyse wordt gebruikt om de sterkte en richting van de relatie tussen variabelen te kwantificeren, wat kan helpen bij het maken van voorspellingen [8](#page=8).
#### 2.5.1 Voorbeeld: Auto-online
Een onderzoeksvraag zou kunnen zijn: "Vinden klanten die vaker online winkelen de website behulpzamer?" Hierbij zou 'hoeoft' (hoe vaak online gewinkeld wordt) de onafhankelijke variabele (X) kunnen zijn en 'helpful' (hoe behulpzaam de website gevonden wordt) de afhankelijke variabele (Y) [10](#page=10) [8](#page=8).
Om deze vraag te onderzoeken, kan een hypothesetest worden uitgevoerd. De nulhypothese stelt dat er geen correlatie is ($r=0$), en de alternatieve hypothese stelt dat er wel een correlatie is ($r \neq 0$). Het idee is om de correlatiecoëfficiënt van de steekproef te berekenen en vervolgens te evalueren hoe waarschijnlijk het is om zo'n waarde te vinden als de nulhypothese waar is [11](#page=11).
#### 2.5.2 Hypothesetesten voor correlatie
De procedure voor het testen van de nulhypothese dat de populatiecorrelatie gelijk is aan nul ($H_0: \rho = 0$) is vergelijkbaar met andere hypothesetesten. Er wordt een steekproefcorrelatiecoëfficiënt ($r$) berekend. Vervolgens wordt de waarschijnlijkheid (p-waarde) bepaald van het observeren van een steekproefcorrelatie die minstens zo extreem is als de gevonden $r$, onder de aanname dat de nulhypothese waar is. Als deze p-waarde kleiner is dan het vooraf bepaalde significantieniveau (vaak 0.05), wordt de nulhypothese verworpen en concludeert men dat er statistisch significant bewijs is voor een lineaire relatie tussen de twee variabelen [11](#page=11).
---
# Lineaire regressieanalyse
Lineaire regressieanalyse wordt gebruikt om relaties tussen variabelen te kwantificeren en voorspellingen te doen [14](#page=14).
### 2.1 Introductie tot regressieanalyse
Regressieanalyse is een veelgebruikte techniek in marketingonderzoek om associaties tussen variabelen te detecteren, voorspellingen te doen en de impact van marketingvariabelen op verkoop te analyseren. Het helpt ook bij het analyseren van uitkomsten uit experimenten, zoals interventies of promoties [15](#page=15).
### 2.2 Simpele lineaire regressie
Simpele lineaire regressie modelleert de relatie tussen twee variabelen met een rechte lijn. De algemene vorm van de vergelijking is $Y = a + bX$ waarbij $a$ de intercept is en $b$ de helling (slope). De intercept is de verwachte waarde van $Y$ wanneer $X$ gelijk is aan nul. De helling $b$ geeft aan hoeveel $Y$ naar verwachting verandert wanneer $X$ met één eenheid toeneemt. De kern van de analyse ligt vaak in het testen van de waarde van de helling $b$ [16](#page=16) [17](#page=17).
#### 2.2.1 Inferentie op regressiecoëfficiënten
Een cruciale vraag bij regressieanalyse is of er een significante relatie bestaat tussen $X$ en $Y$. Dit wordt getoetst met hypothesetesten. De nulhypothese ($H_0$) stelt dat de populatiehelling $\beta$ gelijk is aan nul ($\beta = 0$), wat impliceert dat er geen lineaire relatie is. De alternatieve hypothese ($H_1$) stelt dat $\beta$ niet gelijk is aan nul ($\beta \neq 0$) [18](#page=18).
De t-statistiek wordt berekend als de geschatte parameter min de hypothetische waarde (meestal 0) gedeeld door de standaarddeviatie van de geschatte parameter [18](#page=18):
$$t\text{-stat} = \frac{\text{geschatte parameter} - 0}{\text{SD(geschatte parameter)}}$$
Als de t-statistiek buiten een bepaald kritisch gebied valt (vaak $\pm 1.96$ voor een 95% betrouwbaarheidsinterval), wordt de nulhypothese verworpen ten gunste van de alternatieve hypothese. Dit suggereert dat er een statistisch significante lineaire relatie bestaat tussen $X$ en $Y$ [18](#page=18).
#### 2.2.2 Voorspelling en residuen
Het doel van regressieanalyse is ook om de waarde van $Y$ te voorspellen op basis van $X$, aangeduid als $\hat{Y}$. De waargenomen waarde van $Y$ en de voorspelde waarde $\hat{Y}$ zijn echter zelden gelijk. Het verschil tussen de waargenomen waarde en de voorspelde waarde wordt het predictiefout of residu genoemd [19](#page=19).
De vergelijking voor een voorspelling is:
$$\hat{Y} = a + bX$$
En de volledige regressievergelijking, inclusief de foutterm $\epsilon$, is:
$$Y = a + bX + \epsilon$$
Het residu wordt berekend als:
$$Residu = Y - \hat{Y}$$
#### 2.2.3 Toepassing: Verkoopvoorspelling
Regressieanalyse kan worden gebruikt om toekomstige verkopen te voorspellen op basis van prijsstrategieën. Een voorbeeld betreft het herontwerpen van een prijsstrategie met behulp van verkoopresponsmodellen, waarbij data van wekelijkse winkelgegevens worden verzameld, inclusief verkoopvolumes, prijzen en promotie-informatie. Management is geïnteresseerd in het begrijpen van de impact van prijsstrategieën op de verkoop [20](#page=20) [21](#page=21).
> **Voorbeeld:** Data van wekelijkse winkelgegevens tonen verkoop van sinaasappelsap (in honderden kratten) en de prijs van Minute Maid. Management wil de relatie tussen prijs en verkoop analyseren om de prijsstrategie te optimaliseren [21](#page=21) [22](#page=22).
Een scatterplot van verkoop en prijs kan visueel de relatie weergeven [23](#page=23).
#### 2.2.4 Een lineair verkoopsmodel
Om de variatie in verkopen als functie van de prijs te verklaren, kan een lineair model worden aangenomen. De vergelijking wordt dan [24](#page=24):
$$S = \alpha + \beta P + \epsilon$$
Hierbij is $S$ de verkoop, $P$ de prijs, $\alpha$ de intercept, $\beta$ de helling, en $\epsilon$ de willekeurige foutcomponent. Het doel is om de waarden van $\alpha$ en $\beta$ te schatten die het beste passen bij de geobserveerde data [24](#page=24).
> **Tip:** Softwarepakketten zoals SPSS kunnen helpen bij het uitvoeren van regressieanalyses. Bij het invoeren van de data moet u de afhankelijke variabele (bijvoorbeeld verkoop) en de onafhankelijke variabele (bijvoorbeeld prijs) specificeren [25](#page=25).
##### 2.2.4.1 SPSS Regressie Output
De output van een regressieanalyse in SPSS bevat cruciale informatie. De tabel toont de geschatte coëfficiënten ($a$ en $b$, of $\alpha$ en $\beta$), hun standaardfouten (die de onzekerheid rond de schattingen aangeven), de t-statistiek, en de p-waarde. De hypothesetest in de t-statistische kolom test standaard of de coëfficiënten gelijk zijn aan nul [26](#page=26).
Voor het model $S = \alpha + \beta P + \epsilon$, zou de output er bijvoorbeeld als volgt uit kunnen zien:
$$\hat{S} = 1092.774 - 377.088 P$$
In dit voorbeeld is de geschatte intercept $\hat{\alpha} = 1092.774$ en de geschatte helling $\hat{\beta} = -377.088$. Dit suggereert dat voor elke eenheidstoename in prijs $P$, de verwachte verkoop $S$ met ongeveer $377.088$ eenheden afneemt. De interpretatie van de output, met name de t-statistiek en p-waarde, is essentieel om de significantie van deze relatie te beoordelen [26](#page=26) [27](#page=27).
---
# Dummyvariabelen en meervoudige regressie
Dit deel bespreekt het gebruik van dummyvariabelen voor categorische variabelen in regressiemodellen en introduceert meervoudige regressie om meerdere onafhankelijke variabelen tegelijkertijd te analyseren [28](#page=28).
### 4.1 Dummyvariabelen in regressiemodellen
Categorische variabelen, die geen numerieke waarden hebben maar uit discrete categorieën bestaan (zoals geslacht of kwartalen), kunnen worden opgenomen in regressiemodellen door middel van dummyvariabelen. Een dummyvariabele is een variabele die twee mogelijke uitkomsten heeft: 1 als de observatie tot de categorie van interesse behoort, en 0 anders. Dit maakt het mogelijk om de invloed van deze categorische factoren op de afhankelijke variabele te kwantificeren [29](#page=29).
#### 4.1.1 Opzetten van dummyvariabelen voor meerdere categorieën
Wanneer een variabele meer dan twee niveaus heeft, zoals de vier kwartalen van een jaar, kan een reeks dummyvariabelen worden gecreëerd. Een gangbare methode is om één dummyvariabele minder dan het aantal categorieën te gebruiken, waarbij één categorie wordt weggelaten als de referentiecategorie [29](#page=29) [30](#page=30).
> **Voorbeeld:** Voor een variabele "Kwartier" met vier categorieën (Kwartier 1, Kwartier 2, Kwartier 3, Kwartier 4), kunnen we drie dummyvariabelen definiëren: Q1, Q2 en Q3.
>
> | Observatie | Kwartier | Q1 | Q2 | Q3 |
> | :-------- | :------- | :- | :- | :- |
> | 1 | 1 | 1 | 0 | 0 |
> | 2 | 2 | 0 | 1 | 0 |
> | 3 | 3 | 0 | 0 | 1 |
> | 4 | 4 | 0 | 0 | 0 |
> | 5 | 1 | 1 | 0 | 0 |
> | 6 | 2 | 0 | 1 | 0 |
> | 7 | 3 | 0 | 0 | 1 |
>
> In dit voorbeeld is Kwartier 4 de referentiecategorie. Als alle dummyvariabelen (Q1, Q2, Q3) 0 zijn, impliceert dit dat de observatie tot Kwartier 4 behoort [30](#page=30).
Alternatief voor ANOVA kan regressie met dummycodes worden gebruikt om de effecten van categorische variabelen te analyseren [29](#page=29).
### 4.2 Goodness of fit (R-kwadraat)
De "goodness of fit" van een regressiemodel, en in het bijzonder het R-kwadraat ($R^2$), meet het proportionele deel van de variatie in de afhankelijke variabele (Y) dat wordt verklaard door de onafhankelijke variabele(n) (X) in het regressiemodel [31](#page=31).
* Als de fit perfect is, is de fout altijd nul, wat resulteert in een $R^2$ van 1 [31](#page=31).
* Als X de variatie in Y helemaal niet helpt verklaren, is $R^2$ 0 [31](#page=31).
* De formule voor $R^2$ is:
$$R^2 = \frac{\text{Variatie verklaard door de X's}}{\text{Variatie van de Y's}} = \frac{\text{Variation}(a + bX)}{\text{Variation}(Y)}$$
* De waarde van $R^2$ ligt altijd tussen 0 en 1, dus $0 \le R^2 \le 1$ [31](#page=31).
> **Voorbeeld:** In een eerder model werd de verkoopprijs van Minute Maid als onafhankelijke variabele gebruikt om de verkoop van Minute Maid te verklaren. Het regressiemodel was $\hat{Y} = 1092.774 – 377.088 X$, wat kan worden geïnterpreteerd als `Verkoop = 1093 + (-377 × Prijs)`. Dit model verklaart een deel van de variatie in de verkoop, en de $R^2$ zou de proportie van die variatie aangeven [31](#page=31) [32](#page=32).
### 4.3 Meervoudige regressie
Meervoudige regressie breidt het concept van enkelvoudige regressie uit door het mogelijk te maken meerdere onafhankelijke variabelen tegelijkertijd in het model op te nemen. Dit is nuttig wanneer een afhankelijke variabele wordt beïnvloed door meer dan één factor [33](#page=33) [34](#page=34).
> **Voorbeeld:** Om de verkoopprijs van Minute Maid beter te modelleren, kan rekening worden gehouden met het gedrag van concurrenten. Een meervoudig regressiemodel kan de volgende vorm aannemen [33](#page=33):
>
> $$S_t = \alpha + \beta_1 P_{\text{mm}} + \beta_2 P_{\text{tp}} + \beta_3 P_{\text{tr}} + \beta_4 P_{\text{sb}} + \epsilon_t$$
>
> Dit model verklaart de verkoop ($S_t$) als functie van de prijs van Minute Maid ($P_{\text{mm}}$), de prijs van "TP" ($P_{\text{tp}}$), de prijs van "TR" ($P_{\text{tr}}$), en de prijs van "SB" ($P_{\text{sb}}$), samen met een intercept ($\alpha$) en een foutterm ($\epsilon_t$) [35](#page=35).
>
> Een specifieke regressieuitkomst voor dit model zou kunnen zijn:
> `Verkoop = 289 + (-479 × MMprijs) + (131 × TPprijs) + (175 × TRprijs) + (144 × SBprijs)` [35](#page=35).
Het uitvoeren van meervoudige regressie vereist de naleving van specifieke assumpties. Een "groot verschil tussen theorie en praktijk" wordt benadrukt, wat aangeeft dat de toepassing in de praktijk complex kan zijn [36](#page=36).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Correlatie | Een statistische maat die de lineaire relatie tussen twee variabelen beschrijft. De correlatiecoëfficiënt varieert tussen -1 en 1, waarbij 1 perfecte positieve lineaire correlatie aangeeft, -1 perfecte negatieve lineaire correlatie, en 0 geen lineaire correlatie. |
| Regressieanalyse | Een statistische methode die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren en te analyseren, met als doel voorspellingen te doen en de invloed van de onafhankelijke variabelen te kwantificeren. |
| Afhankelijke variabele | De variabele die wordt voorspeld of verklaard in een regressieanalyse. Deze wordt vaak aangeduid met Y of als de responsvariabele. |
| Onafhankelijke variabele | Een variabele die wordt gebruikt om de afhankelijke variabele te voorspellen of te verklaren in een regressieanalyse. Deze wordt vaak aangeduid met X of als de verklarende variabele. |
| Causaliteit | Het concept dat aangeeft dat een verandering in één variabele direct een verandering in een andere variabele veroorzaakt. Correlatie impliceert niet noodzakelijkerwijs causaliteit. |
| Nullhypothese | Een stelling die wordt getoetst in statistische inferentie. Bij correlatie en regressie is de nullhypothese vaak dat er geen relatie of verband bestaat tussen de variabelen (bijv. $r=0$ of $\beta=0$). |
| Alternatieve hypothese | De hypothese die wordt aangenomen als de nullhypothese verworpen wordt. Bij correlatie en regressie is dit vaak dat er wel een relatie of verband bestaat tussen de variabelen (bijv. $r \neq 0$ of $\beta \neq 0$). |
| Intercept (a) | In een lineaire regressievergelijking is de intercept de verwachte waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen gelijk zijn aan nul. |
| Helling (b of $\beta$) | De helling in een lineaire regressievergelijking geeft de verwachte verandering in de afhankelijke variabele aan voor elke eenheidstoename in de betreffende onafhankelijke variabele, uitgaande van constante waarden voor andere onafhankelijke variabelen. |
| Residu | Het verschil tussen de waargenomen waarde van de afhankelijke variabele en de voorspelde waarde van de afhankelijke variabele door het regressiemodel. Het representeert de onverklaarde variatie. |
| Dummyvariabele | Een categorische variabele die is omgezet in een numerieke variabele met twee waarden (meestal 0 en 1) om de aanwezigheid of afwezigheid van een bepaalde categorie te representeren in een regressieanalyse. |
| R-kwadraat ($R^2$) | Een maat voor de 'goodness of fit' van een regressiemodel. Het vertegenwoordigt het aandeel van de totale variatie in de afhankelijke variabele dat wordt verklaard door de onafhankelijke variabele(n) in het model. De waarde varieert tussen 0 en 1. |
| Meervoudige regressie | Een regressiemodel dat meer dan één onafhankelijke variabele gebruikt om de afhankelijke variabele te voorspellen of te verklaren. |