Cover
Börja nu gratis Sessie 2 Proporties en Gemiddelden.pdf
Summary
# Verschiltoetsen en de keuze van de juiste test
Dit gedeelte behandelt de principes en het schema voor het selecteren van de juiste statistische verschiltoets, gebaseerd op de kenmerken van de data en onderzoeksvraag, met de nadruk op de rol van hypothesen en meetniveaus [2](#page=2).
### 1.1 Het formuleren van hypothesen en de selectievragen
Voordat men de juiste verschiltoets kan selecteren, is het cruciaal om te starten met het formuleren van de hypothesen. Vervolgens worden drie kernvragen beantwoord die de basis vormen voor de keuze van de test [2](#page=2) [6](#page=6) [7](#page=7) [9](#page=9):
1. **Het aantal subgroepen (steekproeven) dat je gaat vergelijken?** [2](#page=2) [6](#page=6) [7](#page=7).
2. **De afhankelijkheid van de subgroepen?** [2](#page=2) [7](#page=7).
3. **Het meetniveau van de variabele(n) die je gaat testen?** [2](#page=2) [8](#page=8).
### 1.2 De drie selectievragen in detail
#### 1.2.1 Het aantal subgroepen
De eerste vraag betreft het aantal groepen dat vergeleken wordt. Dit kan variëren van één groep (one-sample tests) tot meerdere groepen [6](#page=6) [7](#page=7).
* **Voorbeelden:**
* Het vergelijken van één advertentie uit drie, om te bepalen welke de langste focus op de merknaam heeft [6](#page=6).
* Het vergelijken van de voorkeur voor een product tussen zes verschillende klantsegmenten [7](#page=7).
#### 1.2.2 De afhankelijkheid van de subgroepen
De tweede vraag richt zich op de afhankelijkheid tussen de subgroepen. Dit onderscheidt of de metingen binnen dezelfde personen (afhankelijk/paired) of binnen verschillende personen (onafhankelijk/independent) plaatsvinden [2](#page=2) [7](#page=7).
* **Afhankelijke subgroepen:** Metingen worden herhaald bij dezelfde personen.
* **Voorbeeld:** Het onderzoeken van merkbekendheid vóór en na een campagne bij dezelfde personen [6](#page=6) [7](#page=7).
* **Onafhankelijke subgroepen:** Metingen worden gedaan bij verschillende, niet-gerelateerde groepen personen.
* **Voorbeeld:** Het vergelijken van het winkelgedrag tussen klanten die in een winkel met muziek en klanten die in een vergelijkbare winkel zonder muziek winkelden [7](#page=7).
#### 1.2.3 Het meetniveau van de variabele
De derde vraag betreft het meetniveau van de variabele die getest wordt. Dit is van cruciaal belang omdat verschillende statistische toetsen geschikt zijn voor verschillende meetniveaus [2](#page=2) [8](#page=8).
* **Nominaal meetniveau:** Variabelen met categorieën zonder inherente volgorde.
* **Voorbeelden van variabelen:** Voorkeur voor een kleur voor een auto (groen, wit, geel, blauw); voorkeur voor muziek (ja/nee); geslacht [8](#page=8).
* **Toepasselijke tests (indicatief):** Binomial, Chi-kwadraat ($X^2$), McNemar [2](#page=2) [3](#page=3).
* **Ordinaal meetniveau:** Variabelen met categorieën die een logische volgorde hebben, maar de afstanden tussen de categorieën zijn niet uniform.
* **Voorbeelden van variabelen:** Mate van overeenstemming met een stelling (sterk oneens tot sterk eens); opleidingsniveau (basisschool, middelbare school, universitair) [8](#page=8).
* **Toepasselijke tests (indicatief):** Afhankelijk van het aantal groepen en afhankelijkheid kunnen hier ook non-parametrische varianten van t-tests of ANOVA gebruikt worden, hoewel dit niet expliciet uitgewerkt wordt op de gegeven pagina's.
* **Interval/Ratio meetniveau:** Variabelen waarbij de afstanden tussen de waarden betekenisvol zijn en er een vast nulpunt is (ratio) of niet (interval).
* **Voorbeelden van variabelen:** Aantal alcoholische drankjes per week; jaarlijks huishoudinkomen; lengte, gewicht, temperatuur [8](#page=8).
* **Toepasselijke tests (indicatief):** One-sample t-test, Independent t-test, Paired t-test, ANOVA [2](#page=2) [3](#page=3).
### 1.3 Het schema voor verschiltoetsen
Een schema biedt een visueel overzicht om de juiste test te selecteren op basis van de eerdergenoemde vragen. Het schema begint bij de hypothesen en de drie selectievragen om tot de geschikte toets te komen [2](#page=2) [3](#page=3) [9](#page=9).
> **Tip:** De volgorde van het beantwoorden van de vragen is belangrijk. Begin met het formuleren van de hypothesen, beantwoord daarna de drie selectievragen om zo systematisch tot de juiste test te komen [2](#page=2) [6](#page=6) [7](#page=7) [9](#page=9).
#### 1.3.1 Indicatief schema (gebaseerd op de documentatie)
Het schema op pagina 3 toont een mogelijke indeling van tests op basis van meetniveau en de afhankelijkheid/aantal groepen. Hoewel niet elk scenario volledig uitgewerkt is, kan het dienen als leidraad:
* **Nominaal:** Binomial, $X^2$, McNemar [2](#page=2) [3](#page=3).
* **Andere meetniveaus (Interval/Ratio):**
* One-Sample t-test [2](#page=2) [3](#page=3).
* Paired t-test (afhankelijke groepen) [2](#page=2) [3](#page=3).
* Independent t-test (onafhankelijke groepen, twee groepen) [2](#page=2) [3](#page=3).
* ANOVA (meer dan twee groepen) [2](#page=2).
* Repeated ANOVA (afhankelijke groepen, meer dan twee metingen) [2](#page=2).
### 1.4 Overige concepten
#### 1.4.1 Level of Significance en p-waarde
De **Level of Significance** (alfa, $\alpha$) is een drempelwaarde die bepaalt hoe waarschijnlijk het moet zijn dat een resultaat door toeval is ontstaan, gegeven de nulhypothese [4](#page=4).
De **p-waarde** is de waarschijnlijkheid om een steekproefstatistiek te observeren die minstens zo extreem is als de gevonden statistiek, ervan uitgaande dat de nulhypothese waar is. Een lage p-waarde (typisch $\le \alpha$) leidt tot het verwerpen van de nulhypothese [4](#page=4).
> **Tip:** Zorg ervoor dat je de definitie van de p-waarde en de relatie met de Level of Significance goed begrijpt, aangezien dit fundamenteel is voor hypothesetoetsing [4](#page=4).
---
# Toepassing van verschiltoetsen op de Auto-Online dataset
Dit gedeelte demonstreert de toepassing van verschillende statistische tests op de AutoOnline.sav dataset door middel van concrete onderzoeksvragen en de bijbehorende hypothesen [10](#page=10) [11](#page=11) [12](#page=12) [13](#page=13) [14](#page=14) [15](#page=15) [16](#page=16).
### 2.1 Beschrijving van de Auto-Online dataset
De Auto-Online dataset is afkomstig van een website waar autobezichtigers informatie over auto's kunnen vinden en auto's kunnen kopen. De dataset bevat enquêtegegevens van websitebezoekers die allemaal een auto hebben gekocht, waarvan sommigen via de website en anderen via een reguliere dealer. De dataset telt 1400 respondenten en is opgeslagen in het SPSS-formaat `AutoOnline.sav` [10](#page=10).
### 2.2 Onderzoeksvragen en hypothesen
Hieronder worden verschillende onderzoeksvragen besproken die met behulp van verschiltoetsen op de Auto-Online dataset onderzocht kunnen worden, inclusief de bijbehorende nul- en alternatieve hypothesen.
#### 2.2.1 Vragen over één steekproef
##### 2.2.1.1 Vraag 1: Veiligheid van online aankopen
De eerste onderzoeksvraag betreft het gemiddelde van de item "Ik vind het kopen van spullen van het internet veilig" (variabele = `safeweb`). Er wordt onderzocht of het gemiddelde significant verschilt van het midden van de schaal, dat op 5 punten wordt aangenomen [11](#page=11).
* **Nulhypothese ($H_0$)**: Het gemiddelde van de variabele `safeweb` is gelijk aan 5.
* **Alternatieve hypothese ($H_a$)**: Het gemiddelde van de variabele `safeweb` is niet gelijk aan 5.
##### 2.2.1.2 Vraag 2: Aandeel autokopen via Auto-Online
De tweede onderzoeksvraag onderzoekt of het aandeel mensen dat een auto koopt via de Auto-Online website (variabele = `didbuy`) significant verschilt van 25% [12](#page=12).
* **Nulhypothese ($H_0$)**: Het aandeel kopers via de Auto-Online website is gelijk aan 0.25.
* **Alternatieve hypothese ($H_a$)**: Het aandeel kopers via de Auto-Online website is niet gelijk aan 0.25.
##### 2.2.1.3 Vraag 3: Verschil tussen actuele en stickerprijs
De derde vraag richt zich op de variabele `actual` en `sticker` en onderzoekt of de actuele prijs significant verschilt van de stickerprijs [15](#page=15).
* **Nulhypothese ($H_0$)**: De actuele prijs is gelijk aan de stickerprijs.
* **Alternatieve hypothese ($H_a$)**: De actuele prijs is niet gelijk aan de stickerprijs.
#### 2.2.2 Vragen over twee steekproeven
##### 2.2.2.1 Vraag 4: Prijsverschil tussen web- en dealerkopers
Deze vraag onderzoekt of webshoppers een significant ander bedrag betalen voor auto's dan dealershoppers, gebruikmakend van de variabelen `didbuy` en `actual`. Hierbij wordt een onafhankelijke t-toets toegepast om de gemiddelden van twee groepen te vergelijken [13](#page=13).
* **Nulhypothese ($H_0$)**: Het gemiddelde bedrag dat door webshoppers wordt betaald, is gelijk aan het gemiddelde bedrag dat door dealershoppers wordt betaald.
* **Alternatieve hypothese ($H_a$)**: Het gemiddelde bedrag dat door webshoppers wordt betaald, is niet gelijk aan het gemiddelde bedrag dat door dealershoppers wordt betaald.
##### 2.2.2.2 Vraag 5: Aankoopkanaal per geslacht
De vijfde vraag vergelijkt het aandeel mannen dat via de website koopt ten opzichte van de dealer (variabele `didbuy`) met het aandeel vrouwen dat op dezelfde manier koopt. Dit betreft een vergelijking van proporties tussen twee onafhankelijke groepen [14](#page=14).
* **Nulhypothese ($H_0$)**: Het aandeel mannen dat via de website koopt, is gelijk aan het aandeel vrouwen dat via de website koopt.
* **Alternatieve hypothese ($H_a$)**: Het aandeel mannen dat via de website koopt, is niet gelijk aan het aandeel vrouwen dat via de website koopt.
##### 2.2.2.3 Vraag 6: Bronnen van informatie over AutoOnline
De laatste vraag onderzoekt of significant meer mensen AutoOnline hebben gevonden via een zoekmachine (variabele `sengine`) dan via een vriend (variabele `friend`). Dit is een vergelijking van proporties tussen twee onafhankelijke bronnen [16](#page=16).
* **Nulhypothese ($H_0$)**: Het aandeel mensen dat AutoOnline via een zoekmachine vond, is gelijk aan het aandeel mensen dat het via een vriend vond.
* **Alternatieve hypothese ($H_a$)**: Het aandeel mensen dat AutoOnline via een zoekmachine vond, is groter dan het aandeel mensen dat het via een vriend vond.
> **Tip:** Bij het uitvoeren van deze tests in SPSS is het cruciaal om de juiste test te selecteren op basis van het type variabele (continu of categorisch) en het aantal groepen dat vergeleken wordt (één of twee steekproeven). Zorg er altijd voor dat de variabelen correct zijn gecodeerd voor de analyse [10](#page=10) [11](#page=11) [12](#page=12) [13](#page=13) [14](#page=14) [15](#page=15) [16](#page=16).
---
# Inleiding tot marktonderzoek en statistische toetsen
Deze sectie biedt een inleiding tot het concept van verschiltoetsen binnen de context van marktonderzoek, met specifieke aandacht voor proporties en gemiddelden, en hun relevantie voor werkcollege 2 [1](#page=1).
### 3.1 Verschiltoetsen: een overzicht
Verschiltoetsen zijn statistische methoden die worden gebruikt om te bepalen of de waargenomen verschillen tussen groepen of metingen significant zijn, of dat ze waarschijnlijk het gevolg zijn van willekeurige variatie (toeval). In marktonderzoek helpen deze toetsen beslissingen te onderbouwen door te beoordelen of marketinginterventies een meetbaar effect hebben gehad, of dat er significant verschil is tussen verschillende klantsegmenten [1](#page=1).
### 3.2 Toepassingen in marktonderzoek
Voor werkcollege 2 zijn met name toetsen met betrekking tot proporties en gemiddelden relevant. Deze toetsen stellen ons in staat om te onderzoeken [1](#page=1):
* Of de proportie van een bepaalde uitkomst (bijvoorbeeld de conversieratio van een advertentie) significant verschilt tussen twee groepen (bijvoorbeeld verschillende advertentiecampagnes) [1](#page=1).
* Of het gemiddelde van een meting (bijvoorbeeld klanttevredenheidsscores) significant verschilt tussen populaties of condities [1](#page=1).
Deze analyses zijn cruciaal voor het evalueren van de effectiviteit van marketingstrategieën en het identificeren van kansen voor verbetering [1](#page=1).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Verschiltoetsen | Statistische methoden die worden gebruikt om te bepalen of er een significant verschil is tussen twee of meer groepen of steekproeven, gebaseerd op specifieke criteria zoals gemiddelden of proporties. |
| Nulhypothese | Een statistische aanname die stelt dat er geen significant verschil of verband bestaat tussen de geobserveerde groepen of variabelen, en die getoetst wordt om deze aanname te weerleggen. |
| Alternatieve hypothese | Een statistische aanname die het tegenovergestelde beweert van de nulhypothese; deze hypothese wordt aangenomen als de nulhypothese voldoende wordt weerlegd door de data-analyse. |
| Meetniveau | De classificatie van de aard van de gegevens die worden verzameld, zoals nominaal, ordinaal, interval of ratio, wat bepalend is voor de keuze van geschikte statistische analyses. |
| Steekproefstatistiek | Een kenmerk of maatstaf berekend uit een steekproef van data, die wordt gebruikt om conclusies te trekken over de populatie waaruit de steekproef is getrokken. |
| P-waarde | De waarschijnlijkheid om een steekproefresultaat te verkrijgen dat minstens zo extreem is als het geobserveerde resultaat, ervan uitgaande dat de nulhypothese waar is; een lage p-waarde (< 0.05) leidt doorgaans tot verwerping van de nulhypothese. |
| Significantieniveau (alfa) | De drempelwaarde (vaak 0.05 of 5%) die wordt gebruikt om te beslissen of een statistisch resultaat als significant wordt beschouwd; als de p-waarde kleiner is dan dit niveau, wordt de nulhypothese verworpen. |
| Afhankelijkheid van subgroepen | De mate waarin de observaties binnen de verschillende subgroepen van elkaar afhankelijk zijn; dit is cruciaal bij de keuze tussen gepaarde en onafhankelijke steekproeftoetsen. |
| Nominaal meetniveau | Een meetniveau waarbij gegevens categorisch zijn zonder inherente volgorde of rangorde, zoals verschillende kleuren of soorten. |
| t-toets | Een statistische toets die wordt gebruikt om het verschil tussen de gemiddelden van twee groepen te vergelijken, ervan uitgaande dat de data normaal verdeeld zijn. |
| Anova (Variantieanalyse) | Een statistische methode die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken door de variantie binnen en tussen de groepen te analyseren. |
| Chi-kwadraat ($X^2$) toets | Een statistische toets die wordt gebruikt om het verband tussen twee categorische variabelen te onderzoeken of om te testen of de geobserveerde frequenties in categorieën afwijken van de verwachte frequenties. |