Cover
ابدأ الآن مجانًا Werkcollege3_oplossing (1).docx
Summary
# Regressieanalyse van klanttevredenheid en woonprijzen
Deze studie onderzoekt de impact van verschillende factoren op algemene klanttevredenheid in de horeca en verklaart woonprijzen aan de hand van vastgoedkenmerken met behulp van lineaire regressiemodellen.
### 1.1 Regressieanalyse van klanttevredenheid in de horeca
#### 1.1.1 Inleiding en data
In dit deel wordt onderzocht welke kenmerken van dienstverlening in een pizzarestaurant een significante impact hebben op de algemene klanttevredenheid. De dataset bevat een algemene tevredenheidsscore (afhankelijke variabele, interval gemeten) en tevredenheidsscores op vijf kenmerken: prijs, ontvangst, service, wachttijd en kwaliteit van het eten (onafhankelijke variabelen, interval gemeten op een schaal van 5 punten).
#### 1.1.2 Hypotheses
De hypotheses die worden getoetst zijn:
* **Nulhypothese (H0):** De coëfficiënten van de onafhankelijke variabelen (ontvangst, service, wachttijd, kwaliteit van het eten en prijs) zijn gelijk aan nul. Dit impliceert dat deze factoren geen significante invloed hebben op de algemene tevredenheid.
$H_0: \beta_{\text{reception, service, waiting time, food quality and price}} = 0$
* **Alternatieve hypothese (Ha):** Ten minste één van de coëfficiënten van de onafhankelijke variabelen is niet gelijk aan nul. Dit impliceert dat deze factoren wel een significante invloed hebben op de algemene tevredenheid.
$H_a: \beta_{\text{reception, service, waiting time, food quality and price}} \neq 0$
#### 1.1.3 Analyse en resultaten
De analyse werd uitgevoerd met een lineaire regressie, waarbij de algemene tevredenheid als afhankelijke variabele en de vijf kenmerken als onafhankelijke variabelen werden gedefinieerd.
* **Model Evaluatie:**
* De $R^2$ waarde van .575 geeft aan dat 57.5% van de variantie in de algemene tevredenheidsscore verklaard wordt door het model.
* De Durbin-Watson statistiek (1.130) ligt tussen 1 en 4, wat duidt op geen problemen met autocorrelatie en dus ook geen probleem met multicollineariteit.
* De ANOVA-tabel toont een significantie van .000 (kleiner dan .05), wat betekent dat het model verklaringskracht heeft.
* **Coëfficiënten Analyse:**
* De beta-coëfficiënten (gestandaardiseerd) worden gebruikt om de onderlinge impact van de onafhankelijke variabelen op de algemene tevredenheid te vergelijken. De ongestandaardiseerde coëfficiënten worden gebruikt om de absolute waarde van de algemene tevredenheid te voorspellen.
* Alle kenmerken (receptie, service, wachttijd, kwaliteit van het eten, prijs) dragen significant bij aan een positieve algemene tevredenheid. Bijvoorbeeld, een stijging van de tevredenheid over de kwaliteit van het voedsel met één punt leidt tot een stijging van de algemene tevredenheid met .442.
* De collineariteitsdiagnostiek (Tolerance > .3 en VIF < 2) en de laatste waarde in de collineariteitsdiagnostiek tabel (onder 30) bevestigen dat er geen multicollineariteitsprobleem is.
#### 1.1.4 Controle van regressievoorwaarden
* **Lineariteit:** Het normal probability plot van de gestandaardiseerde residuen toont dat de grijze punten dicht bij de zwarte lijn liggen, wat duidt op geen probleem met lineariteit.
* **Homoscedasticiteit:** Het scatterplot van gestandaardiseerde voorspelde waarden tegenover gestandaardiseerde residuen toont geen duidelijk patroon (zoals een trompetvorm). De residuen lijken gelijke variantie te hebben, wat duidt op homoscedasticiteit.
> **Tip:** Bij het interpreteren van de coëfficiënten is het belangrijk om te onderscheiden of je de impact relatief wilt vergelijken (gestandaardiseerde $\beta$) of de absolute voorspelling van de afhankelijke variabele wilt doen (ongestandaardiseerde $B$).
### 1.2 Regressieanalyse van woonprijzen
#### 1.2.1 Verklaren van woonprijzen met afstand en aantal kamers
Dit deel onderzoekt de relatie tussen verkoopprijzen van huizen en kenmerken zoals afstand tot het stadscentrum en het aantal kamers.
* **Data:** De dataset bevat verkoopprijzen (afhankelijke variabele, interval gemeten) en afstand tot het stadscentrum (onafhankelijke variabele, ratio gemeten) en het aantal kamers (onafhankelijke variabele, ratio gemeten).
* **Hypotheses:**
* **Nulhypothese (H0):** De coëfficiënten van het aantal kamers en afstand tot de stad zijn gelijk aan nul.
$H_0: \beta_{\text{n\_rooms and distance}} = 0$
* **Alternatieve hypothese (Ha):** Ten minste één van de coëfficiënten van het aantal kamers en afstand tot de stad is niet gelijk aan nul.
$H_a: \beta_{\text{n\_rooms and distance}} \neq 0$
* **Regressieformule en resultaten:**
* De regressieformule is:
$$Y = 131601.42 + 21457.57 X - 1008.652 Z$$
Waarbij $Y$ de prijs van het huis is, $X$ het aantal kamers, en $Z$ de afstand tot de stad.
* Alle p-waarden zijn significant (p < 0.05), waardoor de nulhypothese wordt verworpen.
#### 1.2.2 Verklaren van woonprijzen met afstand, aantal kamers en vrijstaand karakter
Hier wordt de prijs van een huis verklaard met afstand tot de stad, aantal kamers, en of het huis vrijstaand is.
* **Hypotheses:**
* **Nulhypothese (H0):** De coëfficiënten van het aantal kamers, afstand tot de stad en de variabele 'vrijstaand' zijn gelijk aan nul.
$H_0: \beta_{\text{n\_rooms, distance, detached}} = 0$
* **Alternatieve hypothese (Ha):** Ten minste één van de coëfficiënten van het aantal kamers, afstand tot de stad en de variabele 'vrijstaand' is niet gelijk aan nul.
$H_a: \beta_{\text{n\_rooms, distance, detached}} \neq 0$
* **Regressieformule en resultaten:**
* Het aantal kamers en de afstand tot de stad hebben significante p-waarden (p < 0.05), waardoor H0 voor deze variabelen wordt verworpen.
* De variabele 'vrijstaand' heeft een niet-significante p-waarde (0.071 > 0.05), waardoor H0 voor deze variabele niet wordt verworpen. De variabele 'vrijstaand' wordt daarom niet opgenomen in de uiteindelijke regressieformule.
* De regressieformule is:
$$Y = 120234.792 + 24544.026 X + (-1141.349) Z$$
Waarbij $Y$ de prijs van het huis is, $X$ het aantal kamers, en $Z$ de afstand tot de stad.
#### 1.2.3 Voorspelling van woonprijzen
* **Voorbeeld:** Bereken de verwachte prijs van een huis met 2 kamers dat zich op 29 km van de stad bevindt.
* Gebruikmakend van de formule uit 1.2.1:
$Y = 131601 + 21458 \times 2 - 1009 \times 29$
$Y = 131601 + 42916 - 29261$
$Y = 145256$ dollars
> **Voorbeeld:** Een huis met 2 kamers, gelegen op 29 kilometer van de stad, wordt verwacht voor een prijs van 145,256 dollars.
### 1.3 Analyse van houding ten opzichte van zelfscannen
#### 1.3.1 Doel en data
Dit deel onderzoekt de belangrijkste sterke en zwakke punten van zelfscantechnologie in de retailomgeving, door de relatie tussen verschillende evaluatiecriteria en de algemene houding ten opzichte van zelfscannen te analyseren.
* **Afhankelijke variabele:** Algemene attitude tegenover zelfscannen.
* **Onafhankelijke variabelen:** Evaluatiecriteria zoals nieuwheid (new), prestatie/betrouwbaarheid (rel), plezier (fun), snelheid (pu), en gebruiksgemak (eou).
#### 1.3.2 Stappen en resultaten
1. **Creëren van een algemene attitudemeting:** Een nieuwe variabele wordt aangemaakt, bestaande uit het gemiddelde van de attitude-items (bv. `(att1+att2+att3)/3`).
2. **Formuleren van hypotheses:**
* **Nulhypothese (H0):** De coëfficiënten van de evaluatiecriteria (new, rel, fun, pu, eou) zijn gelijk aan nul.
$H_0: \beta_{\text{new, rel, fun, pu \& eou}} = 0$
* **Alternatieve hypothese (Ha):** Ten minste één coëfficiënt is niet gelijk aan nul.
$H_a: \beta_{\text{new, rel, fun, pu \& eou}} \neq 0$
3. **Analyse en significatie:** De resultaten tonen dat 'rel', 'fun', 'pu' en 'eou' significant zijn (p < 0.05). De variabele 'new' (nieuwheid) is niet significant.
4. **Conclusie over sterke en zwakke punten:**
* Om de algemene houding van klanten te beïnvloeden, moet er gefocust worden op de verbetering van prestaties (rel), plezier (fun), snelheid (pu), en gebruiksgemak (eou).
* Gebruiksgemak (eou) heeft het grootste gewicht op de algemene houding en verdient daarom speciale aandacht.
> **Tip:** Bij het maken van een algemene attitudemeting, gebruik de MEAN functie als er veel missing values zijn om een betrouwbaarder gemiddelde te verkrijgen.
### 1.4 Overkoepelende oefeningen met regressieanalyse
#### 1.4.1 Rock in de tuin (1) - Analyse van bezoekersvoorkeuren en tevredenheid
Deze sectie beschrijft een onderzoek naar de sterktes en werkpunten van het festival 'Rock in de tuin', gebaseerd op enquêtes van bezoekers.
* **Data:** Enquêtes met demografische gegevens (geslacht, leeftijd, land van herkomst) en beoordelingen van festivalattributen (kwaliteitsvolle acts, diversiteit voeding/dranken, kwaliteit eten/drinken, bereikbaarheid, ticketprijs). Tevens werd de voorkeur voor bands op de shortlist gevraagd.
* **Stap 1: Datacleaning:** Missing values en vreemde waarden worden geïdentificeerd en gecodeerd als 9999.
* **Stap 2: Analyse van leeftijd:** De gemiddelde leeftijd van de bezoekers is 28.95 jaar (SD=9.465). Een histogram met normaalcurve suggereert dat de leeftijdsverdeling visueel niet volledig normaal is.
* **Stap 3: Gemiddelde waardering van attributen:**
* De organisator scoort goed op: kwaliteit acts (M=3.7059), diversiteit aanbod (M=3.3167), en prijs (M=3.4833).
* Lagere scores zijn er voor: kwaliteit eten/drinken (M=2.3390) en bereikbaarheid (M=2.1667).
* Variabelen die in tegengestelde richting zijn geformuleerd (bv. 'aanbod kwaliteit' en 'aanbod kwaliteit niet kwaliteitsvol') moeten worden omgeschaald.
* **Stap 4: Analyse van bandvoorkeuren:** Een multiple response tabel toont dat Marino Falco het populairst is (54.7%), gevolgd door Maria Gallas (47.2%).
#### 1.4.2 Rock in de tuin (2) - Vergelijking en evaluatie van tevredenheid 2017
Deze sectie vergelijkt de tevredenheidsscores van bezoekers in 2017 met eerdere metingen en onderzoekt de impact van attributen op bezoekersintentie.
* **Stap 1: Datacleaning:** Net als in de vorige stap, worden missing en vreemde waarden behandeld.
* **Stap 2: Steekproefonderzoek:**
* **Leeftijd tussen mannen en vrouwen:** Een independent samples t-test toont geen significant verschil in leeftijd tussen mannen en vrouwen (t = -.482, p = .631).
* **Land van afkomst tussen mannen en vrouwen:** Een chi-kwadraat test toont geen significant verschil in land van afkomst tussen mannen en vrouwen (χ² = 4.260, p = .372).
* **Stap 3: Vergelijking van attribuutscores met voorgaande meting:**
* De kwaliteit van eten en drinken is significant verbeterd (M=3.3051 in 2017 vs. M=2.3390 voorheen, t = 8.731, p < .002).
* Bereikbaarheid is ook verbeterd (M=3.1750 vs. M=2.1167, t = 8.621, p < .001).
* De prijs krijgt echter een significant lagere score dan voorheen (M=3.1500 vs. M=3.4833, t = -2.597, p = 0.011).
* **Stap 4: Verschillen in waardering tussen mannen en vrouwen:** Een reeks independent samples t-tests toont geen significante verschillen in de beoordeling van de attributen tussen mannen en vrouwen voor alle onderzochte attributen.
* **Stap 5: Bepalende attributen voor bezoekersintentie:**
* Een lineaire regressie werd uitgevoerd om te bepalen welke attributen voorspellend zijn voor de intentie om volgend jaar opnieuw te bezoeken.
* Het model verklaart 89.9% van de variantie in de bezoekersintentie ($R^2 = .899$).
* De belangrijkste voorspellers zijn prijs ($\beta$ = .602, p < .001), diversiteit van het aanbod ($\beta$ = .539, p < .001), en de waardering van de kwaliteit van het festival ($\beta$ = .490, p < .001).
* Bereikbaarheid ($\beta$ = -.006, p = .854) en kwaliteit van eten en drinken ($\beta$ = -.015, p = .637) zijn geen significante voorspellers.
* Er werden geen problemen met multicollineariteit gevonden (Tolerancemin = .900; VIFmax = 1.111).
> **Tip:** Bij het interpreteren van de regressieanalyse voor de bezoekersintentie, let op de gestandaardiseerde bèta-coëfficiënten ($\beta$) om de relatieve sterkte van de voorspellers te bepalen.
---
# Evaluatie van festivalattributen en bezoekersintenties
Dit gedeelte behandelt de evaluatie van festivalattributen en bezoekersintenties, met een focus op het analyseren van sterke en zwakke punten van een festival ('Rock in de tuin') door middel van enquêtes, het vergelijken van bezoekersbeoordelingen over meerdere jaren en het onderzoeken van factoren die de intentie om het festival opnieuw te bezoeken beïnvloeden.
## 2. Evaluatie van festivalattributen en bezoekersintenties
### 2.1 Onderzoek naar de kwaliteiten van 'Rock in de tuin'
Dit onderdeel analyseert de sterke en zwakke punten van het festival 'Rock in de tuin' door middel van enquêtedata, verzameld van bezoekers van eerdere edities.
#### 2.1.1 Data cleaning en demografische analyse
Voorafgaand aan de analyse wordt data cleaning uitgevoerd. Ontbrekende waarden en vreemde waarden worden geïdentificeerd en gecodeerd als `9999`, waarna ze als 'missing values' worden gemarkeerd.
De gemiddelde leeftijd van de bezoekers is ongeveer 28.95 jaar, met een standaarddeviatie van 9.465. Een histogram met een normaalcurve suggereert dat de variabele leeftijd visueel niet volledig normaal verdeeld is.
#### 2.1.2 Beoordeling van festivalattributen
De gemiddelde waarderingen van bezoekers over verschillende attributen van het festival worden onderzocht. Hierbij is het belangrijk om rekening te houden met de formulering van de stellingen; indien nodig worden variabelen omgeschaald. In dit geval moest de variabele 'aanbod kwaliteit' worden herschaald.
* **Sterke punten:** De organisator scoort goed op vlakken zoals de kwaliteit van de acts (gemiddelde waardering van 3.7059), de diversiteit van het aanbod aan voeding en dranken (gemiddelde waardering van 3.3167) en de ticketprijs (gemiddelde waardering van 3.4833).
* **Zwakke punten:** De score op de kwaliteit van eten en drinken (gemiddelde waardering van 2.3390) en de bereikbaarheid van het festival (gemiddelde waardering van 2.1667) zijn lager. Het is belangrijk op te merken dat zonder verdere statistische tests geen conclusies kunnen worden getrokken over de significantie van deze verschillen.
#### 2.1.3 Voorkeuren voor artiesten
Om de voorkeuren van bezoekers voor artiesten op de shortlist voor het volgende jaar te bepalen, wordt een multiple response tabel opgesteld. Hieruit blijkt dat Marino Falco de meest gekozen artiest is (54.7% van de stemmen), gevolgd door Maria Gallas (47.2%).
### 2.2 Vergelijking van bezoekersbeoordelingen over meerdere jaren
Na afloop van het festival in 2017 werd een tevredenheidsenquête afgenomen. De resultaten van deze enquête worden vergeleken met die van de eerdere meting om de impact van eventuele aanpassingen door de organisator te evalueren.
#### 2.2.1 Demografische analyse en vergelijking
* **Leeftijd en geslacht:** Er werden geen significante verschillen gevonden in leeftijd tussen mannen (gemiddelde leeftijd 28.561, standaarddeviatie 7.967) en vrouwen (gemiddelde leeftijd 29.442, standaarddeviatie 11.143; $t(\text{89.026}) = -0.482$, $p = 0.631$).
* **Land van afkomst en geslacht:** Een kruistabel met Chi-kwadraat test toonde geen significant verschil in land van afkomst tussen mannen en vrouwen ( $\chi^2(\text{4}) = 4.260$, $p = 0.372$). De meeste bezoekers komen uit België (52.5%), gevolgd door Nederland (15.0%).
#### 2.2.2 Evolutie van attributenbeoordelingen
De scores van de festivalattributen in 2017 worden vergeleken met de eerdere meting met behulp van one-sample t-tests. De baseline voor deze vergelijking is het gemiddelde uit de vorige bevraging.
* **Verbeteringen:** De kwaliteit van eten en drinken liet een significante verbetering zien (gemiddelde score 3.3051 in 2017 versus 2.3390 voorheen; $t(\text{117}) = 8.731$, $p < 0.002$). De bereikbaarheid werd eveneens significant verbeterd (gemiddelde score 3.1750 in 2017 versus 2.1667 voorheen; $t(\text{119}) = 8.621$, $p < 0.001$).
* **Achteruitgang:** De score voor de prijs is significant gedaald (gemiddelde score 3.1500 in 2017 versus 3.4833 voorheen; $t(\text{119}) = -2.597$, $p = 0.011$).
#### 2.2.3 Verschillen in waardering tussen mannen en vrouwen
Independent samples t-tests werden gebruikt om te onderzoeken of er verschillen zijn in de waardering van attributen tussen mannen en vrouwen. Uit de analyses bleek dat er geen significante verschillen waren in de beoordeling van de onderzochte attributen tussen mannen en vrouwen voor alle geteste variabelen (Kwaliteit, Aanbod divers, Bereikbaar, Prijs, Aanbod kwaliteit).
### 2.3 Factoren die de herbezoekintentie beïnvloeden
Om te bepalen welke festivalattributen de intentie van bezoekers om het festival volgend jaar opnieuw te bezoeken beïnvloeden, wordt een meervoudige lineaire regressieanalyse uitgevoerd. De afhankelijke variabele ('Intentie om volgend jaar opnieuw te komen') is interval gemeten.
* **Model evaluatie:** Het model verklaart 89.9% van de variantie in de herbezoekintentie ($R^2 = 0.899$). Dit wordt beschouwd als een sterk model. De ANOVA-tabel bevestigt dat het model significant verklarende kracht heeft ($F = 198.531$, $p < 0.001$).
* **Belangrijkste voorspellers:**
* **Prijs:** Is de belangrijkste voorspeller van de intentie om volgend jaar terug te komen ( $\beta = 0.602$, $p < 0.001$).
* **Aanbod diversiteit:** Is eveneens een sterke voorspeller ( $\beta = 0.539$, $p < 0.001$).
* **Kwaliteit van het festival:** Draagt ook significant bij ( $\beta = 0.490$, $p < 0.001$).
* **Niet-significante voorspellers:**
* Bereikbaarheid ( $\beta = -0.006$, $p = 0.854$)
* Kwaliteit van eten en drinken ( $\beta = -0.015$, $p = 0.637$)
* **Multicollineariteit:** Er werden geen problemen met multicollineariteit vastgesteld, aangezien de tolerantiewaarden minimaal 0.900 waren en de VIF-waarden maximaal 1.111.
> **Tip:** Bij de interpretatie van meervoudige lineaire regressie is het cruciaal om de gestandaardiseerde bèta-coëfficiënten ($\beta$) te bekijken om de relatieve impact van de onafhankelijke variabelen op de afhankelijke variabele te vergelijken.
#### 2.3.1 Regressieformule
De regressieformule voor de intentie om volgend jaar opnieuw te komen, gebaseerd op de significante voorspellers, is als volgt:
$$
\text{Intentie} = -0.015 + 0.321 \times \text{Kwaliteit} + 0.351 \times \text{Aanbod\_divers} + 0.348 \times \text{Prijs}
$$
Waarbij:
* `Intentie` de intentie om volgend jaar opnieuw te komen is.
* `Kwaliteit` de waardering van de kwaliteit van het festival vertegenwoordigt.
* `Aanbod_divers` de waardering van de diversiteit van het aanbod vertegenwoordigt.
* `Prijs` de waardering van de ticketprijs vertegenwoordigt.
---
# Toepassing van statistische technieken in data-analyse
Deze sectie behandelt de praktische toepassing van diverse statistische methoden, waaronder datacleaning, frequentieanalyses, hypothesestoetsing, regressieanalyse en t-tests, aan de hand van concrete datasets.
### 3.1 Lineaire regressieanalyse
Lineaire regressieanalyse wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren. Het doel is om te bepalen hoe sterk de onafhankelijke variabelen de variatie in de afhankelijke variabele kunnen verklaren en om voorspellingen te doen.
#### 3.1.1 Hypothensestoetsing in regressie
Bij regressieanalyse formuleren we hypotheses over de coëfficiënten van de onafhankelijke variabelen.
* **Nulhypothese ($H_0$)**: De coëfficiënt van de onafhankelijke variabele(n) is gelijk aan nul. Dit betekent dat de onafhankelijke variabele(n) geen lineair verband heeft/hebben met de afhankelijke variabele.
* Formeel: $H_0: \beta_i = 0$ voor alle relevante onafhankelijke variabelen $i$.
* **Alternatieve hypothese ($H_a$)**: De coëfficiënt van de onafhankelijke variabele(n) is niet gelijk aan nul. Dit betekent dat de onafhankelijke variabele(n) wel een significante invloed heeft/hebben op de afhankelijke variabele.
* Formeel: $H_a: \beta_i \neq 0$ voor ten minste één relevante onafhankelijke variabele $i$.
#### 3.1.2 Evaluatie van het regressiemodel
Bij het evalueren van een lineair regressiemodel zijn er verschillende statistieken en plots die we interpreteren.
* **R-kwadraat ($R^2$)**: Dit geeft het percentage van de variantie in de afhankelijke variabele aan dat verklaard wordt door het model. Een hogere $R^2$ duidt op een beter passend model.
* Voorbeeld: Een $R^2$ van .575 betekent dat 57.5% van de variantie in de algemene tevredenheidsscore verklaard wordt door het model.
* **Durbin-Watson statistiek**: Deze maat wordt gebruikt om autocorrelatie in de residuen te detecteren. Een waarde tussen 1 en 4 suggereert geen problemen met multicollineariteit of autocorrelatie.
* **ANOVA tabel**: Deze tabel toont de verhouding tussen de verklaarde variantie door het model (Regressie) en de onverklaarde variantie (Residueel). Een significantieniveau (p-waarde) kleiner dan 0.05 impliceert dat het model verklaringskracht heeft.
* **Coëfficiënten tabel**: Hier bekijken we de ongestandaardiseerde ($\beta$) en gestandaardiseerde ($\beta$) coëfficiënten.
* **Ongestandaardiseerde coëfficiënten (B)**: Geven de verwachte verandering in de afhankelijke variabele aan wanneer de corresponderende onafhankelijke variabele met één eenheid toeneemt, terwijl alle andere onafhankelijke variabelen constant blijven. Deze worden gebruikt om de afhankelijke variabele in absolute waarden te voorspellen.
* **Gestandaardiseerde coëfficiënten (Beta)**: Geven de verwachte verandering in de afhankelijke variabele aan in standaarddeviaties, wanneer de corresponderende onafhankelijke variabele met één standaarddeviatie toeneemt. Deze zijn nuttig om de relatieve impact van verschillende onafhankelijke variabelen onderling te vergelijken.
* **Significantieniveau (Sig.)**: De p-waarde geassocieerd met elke coëfficiënt. Als deze kleiner is dan 0.05, verwerpen we de nulhypothese en concluderen we dat de onafhankelijke variabele significant bijdraagt aan het verklaren van de afhankelijke variabele.
#### 3.1.3 Voorwaarden van lineaire regressie
Het correct toepassen van lineaire regressie vereist de controle van bepaalde voorwaarden:
* **Lineariteit**: De relatie tussen de onafhankelijke en afhankelijke variabelen moet lineair zijn. Dit kan gevisualiseerd worden met een scatterplot van gestandaardiseerde voorspelde waarden (ZPRED) tegen gestandaardiseerde residuen (ZRESID). Als de punten willekeurig rond nul liggen, is aan deze voorwaarde voldaan.
* **Normaliteit van residuen**: De residuen (de verschillen tussen de waargenomen en voorspelde waarden) moeten normaal verdeeld zijn. Dit kan worden gecontroleerd met een normal probability plot van de gestandaardiseerde residuen. Als de punten dicht bij de diagonale lijn liggen, is aan deze voorwaarde voldaan.
* **Homoscedasticiteit**: De variantie van de residuen moet constant zijn over alle niveaus van de voorspellende variabelen. Dit kan gevisualiseerd worden met een scatterplot van gestandaardiseerde voorspelde waarden tegen gestandaardiseerde residuen. Een duidelijke patroonvorming (bv. een trompetvorm) duidt op heteroscedasticiteit.
* **Onafhankelijkheid van residuen**: De residuen moeten onafhankelijk van elkaar zijn. Dit is vooral belangrijk bij tijdreeksdata. De Durbin-Watson statistiek kan hier een indicatie voor geven.
* **Multicollineariteit**: Er mag geen (hoge) correlatie zijn tussen de onafhankelijke variabelen. Dit kan worden gecontroleerd met 'collinearity diagnostics' (Tolerance en VIF-waarden) en de Durbin-Watson statistiek.
* **Tolerance**: Een waarde kleiner dan 0.3 kan duiden op een probleem.
* **VIF (Variance Inflation Factor)**: Een waarde groter dan 2 (of soms 5 of 10, afhankelijk van de context) kan wijzen op een probleem.
* **Collinearity Diagnostics**: Een belangrijke indicator is de 'Condition Index', waarbij waarden boven 30 duiden op mogelijke multicollineariteit.
#### 3.1.4 Voorbeelden van regressieanalyse
##### 3.1.4.1 Pizzarestaurant dataset
* **Doel**: Vaststellen welke kenmerken (prijs, ontvangst, service, wachttijd, kwaliteit eten) een significante impact hebben op de algemene tevredenheidsscore.
* **Variabelen**:
* Afhankelijke variabele: Algemene tevredenheidsscore (interval).
* Onafhankelijke variabelen: Prijs, ontvangst, service, wachttijd, kwaliteit eten (allemaal interval, 5 schaalpunten).
* **Resultaten**:
* $R^2 = .575$ (57.5% van de variantie in algemene tevredenheid wordt verklaard).
* Durbin-Watson score suggereert geen probleem met multicollineariteit.
* ANOVA significant (p < .05), dus het model heeft verklaringskracht.
* Alle kenmerken dragen significant bij aan een positieve algemene tevredenheid. Bijvoorbeeld, een stijging van 1 punt in tevredenheid over voedselkwaliteit leidt tot een stijging van .442 in de algemene tevredenheidsscore (ongestandaardiseerde coëfficiënt).
* Collinearity diagnostics: Tolerances boven .3 en VIFs onder 2 duiden op geen multicollineariteitsprobleem. Condition index bleef onder 30.
* Normal probability plot: Grijze punten liggen dicht bij de zwarte lijn, wat duidt op lineariteit.
* Scatterplot (ZPRED vs. ZRESID): Geen duidelijk patroon (trompetvorm), dus homoscedasticiteit is waarschijnlijk aanwezig.
##### 3.1.4.2 Housing dataset
* **Doel 1**: Prijs van een huis verklaren als functie van afstand tot stad en aantal kamers.
* Afhankelijke variabele: Prijs (ratio).
* Onafhankelijke variabelen: Afstand tot stad (km, ratio), aantal kamers (ratio).
* $H_0$: $\beta_{\text{n\_rooms, distance}} = 0$
* $H_a$: $\beta_{\text{n\_rooms, distance}} \neq 0$
* **Resultaten**: Beide p-waarden waren significant (p < 0.05), dus $H_0$ wordt verworpen.
* **Regressieformule**: $Y = 131601.42 + 21457.57 \times X - 1008.652 \times Z$
* $Y$ = prijs van het huis
* $X$ = aantal kamers
* $Z$ = afstand tot de stad
* **Voorspelling**: Prijs voor een huis met 2 kamers op 29 km van de stad: $Y = 131601.42 + 21457.57 \times 2 - 1008.652 \times 29 \approx 145256$ dollars.
* **Doel 2**: Prijs verklaren als functie van afstand tot stad, aantal kamers en of het huis vrijstaand is.
* Afhankelijke variabele: Prijs (ratio).
* Onafhankelijke variabelen: Aantal kamers (ratio), afstand tot stad (km, ratio), vrijstaand (dummy variabele).
* $H_0$: $\beta_{\text{n\_rooms, distance, detached}} = 0$
* $H_a$: $\beta_{\text{n\_rooms, distance, detached}} \neq 0$
* **Resultaten**:
* Aantal kamers en afstand: p-waarden significant (p < 0.05), dus $H_0$ wordt verworpen voor deze variabelen.
* Vrijstaand: p-waarde niet significant (0.071 > 0.05), dus $H_0$ wordt niet verworpen voor deze variabele.
* **Regressieformule**: $Y = 120234.792 + 24544.026 \times X + (-1141.349) \times Z$
* $Y$ = prijs van het huis
* $X$ = aantal kamers
* $Z$ = afstand tot de stad
* De variabele 'vrijstaand' is niet opgenomen in de uiteindelijke formule vanwege de niet-significantie.
##### 3.1.4.3 Ahold Delhaize Data Long
* **Doel**: Bepalen welke evaluatiecriteria (nieuwheid, prestatie/betrouwbaarheid, plezier, snelheid, gebruiksgemak) de belangrijkste zijn voor de algemene attitude ten opzichte van zelfscannen.
* **Variabelen**:
* Afhankelijke variabele: Algemene attitude tegenover zelfscannen (gemiddelde van att1, att2, att3).
* Onafhankelijke variabelen: Nieuwheid, betrouwbaarheid (rel), plezier (fun), snelheid (pu), gebruiksgemak (eou).
* **Voorbereiding**: Een nieuwe variabele 'gemiddelde houding' is gecreëerd door het gemiddelde van de attitude scores te nemen.
* **Hypotheses**:
* $H_0: \beta_{\text{new, rel, fun, pu, eou}} = 0$
* $H_a: \beta_{\text{new, rel, fun, pu, eou}} \neq 0$
* **Resultaten**: Alleen 'betrouwbaarheid' (rel), 'plezier' (fun), 'snelheid' (pu) en 'gebruiksgemak' (eou) bleken significant (p < 0.05). Nieuwheid was niet significant.
* **Conclusie**: Om de algehele houding van klanten te verbeteren, moet men zich richten op het verbeteren van de prestaties, het plezier, de snelheid en het gebruiksgemak, met een speciale focus op gebruiksgemak, aangezien dit de grootste invloed heeft op de algemene attitude.
### 3.2 t-testen
t-testen worden gebruikt om het gemiddelde van twee groepen te vergelijken.
#### 3.2.1 Independent samples t-test
Deze test wordt gebruikt om te bepalen of er een significant verschil is in het gemiddelde van een intervalvariabele tussen twee onafhankelijke groepen.
* **Toepassing**: Onderzoeken of er verschillen zijn in leeftijd tussen mannen en vrouwen.
* **Resultaten**: Er werden geen significante verschillen in leeftijd gevonden tussen mannen (M=28.56, SD=7.97) en vrouwen (M=29.44, SD=11.14) ($t(89.026) = -0.482, p = 0.631$).
#### 3.2.2 One-samples t-test
Deze test wordt gebruikt om het gemiddelde van één groep te vergelijken met een bekende of theoretische waarde (de testwaarde).
* **Toepassing**: Vergelijken van de gemiddelde waardering van attributen in 2017 met de gemiddelde waarderingen uit een eerdere bevraging (die als testwaarde wordt gebruikt).
* **Resultaten**:
* **Kwaliteit eten en drinken**: Gemiddelde score in 2017 (M=3.3051) was significant hoger dan de vorige bevraging (M=2.339) ($t(117) = 8.731, p < .002$).
* **Bereikbaarheid**: Verbeterd in 2017 (M=3.1750) vergeleken met de vorige bevraging (M=2.1667) ($t(119) = 8.621, p < .001$).
* **Prijs**: Kreeg een significant lagere score in 2017 (M=3.1500) dan in de vorige bevraging (M=3.4833) ($t(119) = -2.597, p = 0.011$).
#### 3.2.3 Vergelijking van attributen tussen mannen en vrouwen
* **Toepassing**: Nagaan of er verschillen zijn in de waardering van attributen tussen mannen en vrouwen. Er wordt voor elk attribuut een independent samples t-test uitgevoerd.
* **Resultaten**: Er werden geen significante verschillen gevonden in de beoordeling van de attributen tussen mannen en vrouwen voor geen van de onderzochte attributen.
### 3.3 Frequentieanalyses en Datacleaning
Frequentieanalyses zijn een fundamenteel onderdeel van data-analyse, gebruikt voor datacleaning en het verkrijgen van inzicht in de verdeling van variabelen.
#### 3.3.1 Datacleaning met frequentieverdelingen
* **Doel**: Identificeren van ontbrekende waarden (missing values) en vreemde waarden in de dataset.
* **Werkwijze**: Gebruik maken van 'Analyze > Descriptive Statistics > Frequencies'. Ontbrekende en vreemde waarden worden gecodeerd als 9999 en vervolgens als missing values ingesteld in de 'Variable View'.
#### 3.3.2 Beschrijvende statistieken
* **Doel**: Samenvatten van de basiskenmerken van de data.
* **Voorbeeld (leeftijd bezoekers)**:
* Gemiddelde leeftijd: 28.95 jaar, met een standaarddeviatie (SD) van 9.465.
* Histogram met normaalcurve: Visuele inspectie suggereert dat de leeftijdsverdeling niet volledig normaal verdeeld is.
* **Voorbeeld (waardering attributen)**:
* Gemiddelde waardering voor kwaliteit: M=3.7059.
* Gemiddelde waardering voor diversiteit aanbod: M=3.3167.
* Gemiddelde waardering voor prijs: M=3.4833.
* Gemiddelde waardering voor kwaliteit eten/drinken: M=2.3390.
* Gemiddelde waardering voor bereikbaarheid: M=2.1667.
* **Belangrijk**: Controleren of stellingen in dezelfde richting zijn geformuleerd; variabelen moeten mogelijk worden herschaald om consistentie te garanderen.
#### 3.3.3 Multiple response analyse
* **Doel**: Analyseren van vragen waarbij meerdere antwoorden mogelijk zijn (bijvoorbeeld voorkeur voor artiesten).
* **Werkwijze**: Opstellen van een 'multiple response table' om de frequentie en het percentage van de gekozen opties te bekijken.
* **Voorbeeld (Rock in de tuin artiesten)**:
* Marino Falco: 54.7% van de bezoekers gaf voorkeur.
* Maria Gallas: 47.2% van de bezoekers gaf voorkeur.
### 3.4 Hypthesestoetsing met Chi-kwadraat
De Chi-kwadraat test ($\chi^2$) wordt gebruikt om te onderzoeken of er een significant verband is tussen twee categorische variabelen.
* **Toepassing**: Nagaan of er verschillen zijn in het land van afkomst tussen mannen en vrouwen.
* **Werkwijze**: Kruistabel maken met 'geslacht' en 'land van afkomst', gevolgd door de Chi-kwadraat test.
* **Voorwaarden**: De voorwaarden voor de $\chi^2$-test (bv. minimale verwachte aantallen in cellen) moeten gecontroleerd worden.
* **Resultaten**: Er is geen significant verschil in land van afkomst tussen mannen en vrouwen ($ \chi^2(4) = 4.260, p = 0.372$).
> **Tip**: Bij het interpreteren van kruistabellen is het vaak nuttiger om te kijken naar de percentages (met name de percentages binnen de rijen of kolommen) dan naar de absolute aantallen, om beter te kunnen vergelijken.
### 3.5 Concluderende analyse en aanbevelingen
Statistische technieken zoals regressieanalyse en t-testen bieden waardevolle inzichten om data te analyseren en gefundeerde beslissingen te nemen.
* **Regressieanalyse** helpt bij het identificeren van de belangrijkste drijfveren achter een bepaalde uitkomst, zoals de factoren die de klanttevredenheid beïnvloeden of de prijs van een huis verklaren.
* **t-testen** zijn cruciaal voor het vergelijken van gemiddelden tussen groepen (bv. mannen vs. vrouwen) of voor het evalueren van de impact van veranderingen over tijd (bv. scoreverbeteringen na interventies).
* **Frequentieanalyses** en **datacleaning** vormen de basis voor elke betrouwbare analyse door de integriteit van de data te waarborgen.
Door deze technieken correct toe te passen en de resultaten zorgvuldig te interpreteren, kunnen organisaties sterke en zwakke punten identificeren, voorspellingen doen en gerichte aanbevelingen formuleren om hun producten, diensten of evenementen te verbeteren. Een goed model verklaart bijvoorbeeld een groot deel van de variantie in de afhankelijke variabele ($R^2$ hoog) en de onafhankelijke variabelen hebben significante p-waarden.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Regressie | Een statistische methode die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te onderzoeken en te modelleren. |
| Afhankelijke variabele | De variabele die wordt gemeten of voorspeld en waarvan wordt aangenomen dat deze wordt beïnvloed door de onafhankelijke variabelen. |
| Onafhankelijke variabele | Een variabele die wordt gebruikt om de afhankelijke variabele te voorspellen of te verklaren. |
| Lineaire regressie | Een statistische techniek die de lineaire relatie tussen een afhankelijke variabele en ten minste één onafhankelijke variabele modelleert. |
| Nulhypothese (H0) | Een stelling die wordt getest en die stelt dat er geen effect, geen verschil of geen relatie is tussen de onderzochte variabelen. |
| Alternatieve hypothese (Ha) | Een stelling die stelt dat er wel een effect, een verschil of een relatie is tussen de onderzochte variabelen, wat het tegenovergestelde is van de nulhypothese. |
| R-kwadraat (R²) | Een statistische maat die aangeeft welk percentage van de variantie in de afhankelijke variabele kan worden verklaard door het regressiemodel. |
| ANOVA | Analyse van variantie, een statistische test die wordt gebruikt om de gemiddelden van twee of meer groepen te vergelijken en om de verklaarde variantie door het model te evalueren. |
| Coëfficiënt (Beta) | Een waarde in een regressiemodel die de sterkte en richting van de relatie tussen een onafhankelijke variabele en de afhankelijke variabele weergeeft. |
| Multicollineariteit | Een fenomeen waarbij twee of meer onafhankelijke variabelen in een regressiemodel sterk gecorreleerd zijn met elkaar, wat de interpretatie van het model kan bemoeilijken. |
| Collinearity diagnostics | Statistieken die worden gebruikt om de mate van multicollineariteit in een regressiemodel te beoordelen, zoals tolerantie en VIF (Variance Inflation Factor). |
| Gestandaardiseerde residuals | De residuen (verschil tussen geobserveerde en voorspelde waarden) die zijn gestandaardiseerd om de verdeling ervan te evalueren en afwijkingen te detecteren. |
| Normal probability plot | Een grafische weergave die de geobserveerde waarden van een variabele vergelijkt met de verwachte waarden van een normale verdeling om normaliteit te beoordelen. |
| Homoscedasticiteit | De aanname in regressieanalyse dat de variantie van de residuen constant is over alle niveaus van de onafhankelijke variabelen. |
| Scatterplot | Een grafiek die de relatie tussen twee variabelen weergeeft door punten te plotten op een tweedimensionaal vlak, vaak gebruikt om patronen en de homoscedasticiteit te beoordelen. |
| T-toets (Independent samples t-test) | Een statistische test die wordt gebruikt om de gemiddelden van twee onafhankelijke groepen te vergelijken. |
| Chi-kwadraat test (χ²) | Een statistische test die wordt gebruikt om de associatie tussen twee categorische variabelen te onderzoeken door middel van kruistabellen. |
| P-waarde | De kans om de geobserveerde resultaten te verkrijgen (of extremere resultaten) als de nulhypothese waar zou zijn. Een p-waarde kleiner dan het significantieniveau (bv. .05) leidt tot het verwerpen van de nulhypothese. |
| Significantieniveau (α) | De drempelwaarde (meestal .05) die wordt gebruikt om te bepalen of de resultaten van een statistische test significant zijn. |
| Datacleaning | Het proces van het identificeren en corrigeren of verwijderen van fouten, inconsistenties en ontbrekende waarden in een dataset. |
| Frequentieverdelingen | Een tabel die aangeeft hoe vaak elke waarde of categorie van een variabele voorkomt in een dataset. |
| Histogram | Een grafiek die de frequentieverdeling van numerieke data weergeeft door middel van staven. |
| Normaalcurve | Een theoretische curve die een perfecte normale verdeling vertegenwoordigt, vaak over een histogram geplaatst om de mate van normaliteit van de data te beoordelen. |
| Meervoudige respons (Multiple response) | Een analyse die wordt gebruikt om de antwoorden op vragen waarbij meerdere opties gekozen kunnen worden te analyseren. |
| One-sample t-test | Een statistische test die wordt gebruikt om het gemiddelde van een steekproef te vergelijken met een bekend of hypothetisch populatiegemiddelde. |
| Regressieformule | De wiskundige vergelijking die de relatie tussen de afhankelijke en onafhankelijke variabelen in een regressiemodel beschrijft. |
| Interval gemeten variabele | Een variabele waarbij de verschillen tussen waarden betekenisvol zijn, maar er geen absoluut nulpunt is (bv. temperatuur in Celsius). |
| Ratio gemeten variabele | Een variabele waarbij de verschillen tussen waarden betekenisvol zijn en er een absoluut nulpunt is, waardoor ratios zinvol zijn (bv. lengte, gewicht). |
| Categorische variabele | Een variabele die waarden aanneemt die tot een beperkt aantal groepen of categorieën behoren (bv. geslacht, land van afkomst). |
| Intentie om te bezoeken | De waarschijnlijkheid of waarschijnlijkheid dat iemand een gebeurtenis, zoals een festival, zal bijwonen. |