Cover
Börja nu gratis Student - Hoocollege 7 - Toetsen voor 2 afh SP.pptx
Summary
# Herhaling van afhankelijke en onafhankelijke steekproeven
Dit gedeelte herhaalt het cruciale onderscheid tussen afhankelijke en onafhankelijke steekproeven, met nadruk op de methoden voor hun verkrijging en kenmerkende voorbeelden om het begrip te versterken.
### 1.1 Wat zijn afhankelijke steekproeven?
Afhankelijke steekproeven worden verkregen op twee primaire manieren:
#### 1.1.1 Herhaalde metingen
Bij deze methode worden metingen uitgevoerd op dezelfde steekproef op twee of meer verschillende tijdstippen. Dit is typisch voor onderzoeken naar de werkzaamheid van interventies, zoals medicatie. Een initiële meting wordt gevolgd door de interventie, waarna een tweede meting bij dezelfde groep proefpersonen plaatsvindt.
> **Voorbeeld:** Het meten van de werkzaamheid van een geneesmiddel door een test af te nemen vóór toediening van het medicijn, vervolgens na toediening van het medicijn bij dezelfde personen.
#### 1.1.2 Gematchte paren
Afhankelijke steekproeven kunnen ook ontstaan door het creëren van gematchte paren. Hierbij worden individuen uit verschillende groepen zodanig geselecteerd dat ze vergelijkbare kenmerken vertonen. Dit wordt vaak toegepast in experimentele designs waarbij een experimentele groep en een controlegroep worden vergeleken.
> **Voorbeeld:** Bij het testen van een therapie tegen depressie worden individuen in de experimentele groep gematcht met individuen in de controlegroep op basis van kenmerken zoals depressieniveau, leeftijd en geslacht. Hoewel ze in verschillende groepen zitten, zijn de paren vergelijkbaar, wat de steekproeven afhankelijk maakt.
> **Tip:** Het is essentieel dat de geselecteerde paren werkelijk vergelijkbaar zijn. Als er significante verschillen zijn in belangrijke kenmerken tussen de groepen (bv. zwaar depressieve mensen in de ene groep en niet in de andere), kan dit leiden tot vertekende resultaten.
### 1.2 Kenmerken en toepassing van afhankelijke steekproeven
In het kader van hypothesetoetsing met afhankelijke steekproeven, is het primaire doel na te gaan of het waargenomen verschil tussen de twee steekproefgemiddelden groot genoeg is om te spreken van een significant effect in de populatie. Bij afhankelijke steekproeven wordt gekeken naar het verschil *binnen* de paren.
De keuze voor de juiste statistische toets hangt af van verschillende factoren:
* **Onderzoeksvraag:** Wat probeert men precies te onderzoeken?
* **Afhankelijke en onafhankelijke variabelen:** Wat zijn de variabelen die gemeten worden en wat is de aard van de interventie of factor die gemanipuleerd wordt?
* **Meetniveau van de afhankelijke variabele:** Voor de hier besproken toetsen moet de afhankelijke variabele minimaal op intervalniveau gemeten zijn.
* **Aantal populaties:** Er worden twee populaties bestudeerd, maar omdat de steekproeven afhankelijk zijn, is er een specifieke benadering.
* **Afhankelijke of onafhankelijke steekproeven:** Dit is de kernvraag die in dit hoofdstuk wordt uitgediept.
* **Parametrische of nonparametrische toets:** Voor afhankelijke steekproeven met intervalniveau data en normale verdeling is de parametrische **t-toets voor twee afhankelijke steekproeven** (paired samples t-test) de aangewezen methode. Nonparametrische alternatieven zoals de Wilcoxon signed rank-sum toets bestaan, maar zijn hier niet de focus.
* **Eenzijdig of tweezijdig:** De hypothese bepaalt of er sprake is van een gericht verschil (eenzijdig) of een algemeen verschil (tweezijdig).
### 1.3 Stramien voor hypothesetoetsing met afhankelijke steekproeven
Bij het uitvoeren van hypothesetoetsen met afhankelijke steekproeven wordt een gestructureerd stappenplan gevolgd:
1. **Toetsingssituatie:** Bepalen van het type onderzoeksvraag en gegevens, en het concrete scenario waarin de toets wordt toegepast.
2. **Voorwaarden:** Controleren of de statistische voorwaarden voor de gekozen toets voldaan zijn. Voor de paired samples t-test zijn dit:
* Afhankelijke variabele gemeten op minimaal intervalniveau.
* De afhankelijke variabele is normaal verdeeld in de populatie van de verschillen (dit maakt de t-toets robuust, zelfs bij kleinere steekproeven).
* De steekproeven zijn afhankelijk.
3. **Hypothesen:** Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$). Bij afhankelijke steekproeven wordt gekeken naar het gemiddelde verschil ($\mu_D$) per paar:
* Linkseenzijdig: $H_0: \mu_D \ge 0$, $H_1: \mu_D < 0$
* Rechtseenzijdig: $H_0: \mu_D \le 0$, $H_1: \mu_D > 0$
* Tweezijdig: $H_0: \mu_D = 0$, $H_1: \mu_D \neq 0$
> **Voorbeeld Evelien:** Om te onderzoeken of partners elkaars uiterlijk anders beoordelen, formuleert Evelien tweezijdig: $H_0: \mu_D = 0$ en $H_1: \mu_D \neq 0$.
4. **Toetsingsgrootheid:** Berekenen van de toetsingsgrootheid, die bij de t-toets voor twee afhankelijke steekproeven een t-score is. Deze volgt een student t-verdeling met $df = n-1$ vrijheidsgraden, waarbij $n$ het aantal paren is.
> De formule voor de t-score is: $$t = \frac{\bar{d}}{\frac{s_d}{\sqrt{n}}}$$
> Waarbij:
> * $\bar{d}$ het gemiddelde verschil is binnen de steekproefparen.
> * $s_d$ de standaardafwijking is van de verschillen binnen de steekproefparen.
> * $n$ het aantal paren is.
5. **Beslissingsregel:** Vaststellen of de nulhypothese wordt verworpen op basis van de berekende toetsingsgrootheid, via overschrijdingskansen (p-waarde) of kritieke waarden.
6. **Effectgrootte:** Beoordelen van de praktische significantie van het gevonden effect, vaak uitgedrukt met maten zoals Cohen's $r$.
> **Voorbeeld Evelien:** Een effectgrootte van $r = .79$ duidt op een sterk effect.
7. **Rapporteren:** Het op de juiste wijze presenteren van de resultaten, inclusief de toetsingsstatistiek, vrijheidsgraden, p-waarde en effectgrootte.
> **Voorbeeld Rapportering (Evelien):** "Om na te gaan of verliefde mensen het uiterlijk van hun partner beter beoordelen dan dat ze zichzelf beoordelen werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde beoordeling door de partner ($M = 76.80$, $SD = 3.75$) hoger was dan de gemiddelde zelfbeoordeling ($M = 69.05$, $SD = 5.02$). Dit verschil bleek significant op niveau $\alpha = .05$; $t(19) = 5.63$, $p < .001$, $r = .79$."
> **Tip:** Een p-waarde van ',000' in SPSS output betekent dat de p-waarde extreem klein is (veel nullen achter de komma), wat duidt op een zeer significante bevinding.
---
# Inleiding tot toetsen voor 2 populaties met afhankelijke steekproeven
Dit hoofdstuk introduceert de methoden voor het toetsen van hypotheses wanneer we te maken hebben met twee populaties en afhankelijke steekproeven, waarbij de significantie van het verschil tussen de steekproefgemiddelden centraal staat.
### 2.1 Afhankelijke steekproeven: definitie en voorbeelden
Afhankelijke steekproeven ontstaan wanneer metingen op twee of meer momenten worden uitgevoerd op dezelfde groep proefpersonen, of wanneer proefpersonen worden gematcht op basis van relevante kenmerken.
#### 2.1.1 Herhaalde metingen
Bij herhaalde metingen wordt op dezelfde individuen een meting verricht vóór en na een bepaalde interventie of op verschillende tijdstippen. Dit creëert twee afhankelijke metingen voor dezelfde groep.
* **Voorbeeld:** Het meten van de werkzaamheid van een geneesmiddel door een test af te nemen vóór medicatie en een tweede test na medicatie bij dezelfde patiënten.
#### 2.1.2 Gematchte paren
Gematchte paren worden gevormd door individuen uit twee verschillende groepen (bv. experimentele en controlegroep) zodanig aan elkaar te koppelen dat ze vergelijkbare kenmerken vertonen (bv. leeftijd, geslacht, uitgangsniveau). Hoewel ze tot verschillende groepen behoren, is er een afhankelijkheid door de matching.
* **Voorbeeld:** Het testen van een therapie tegen depressie. Personen in de experimentele groep worden gematcht met personen in de controlegroep op basis van hun depressieniveau, leeftijd en geslacht.
### 2.2 Kernvraagstelling bij toetsen voor twee populaties met afhankelijke steekproeven
De centrale vraag is of het waargenomen verschil tussen de twee steekproefgemiddelden groot genoeg is om te concluderen dat er een significant effect is in de populatie.
### 2.3 Keuze van de juiste toets
De keuze voor de juiste toetsingsmethode is afhankelijk van verschillende factoren:
* **Onderzoeksvraag:** Wat is de specifieke vraag die beantwoord moet worden?
* **Variabelen:** Wat zijn de afhankelijke en onafhankelijke variabelen, en wat is hun meetniveau?
* De afhankelijke variabele moet minstens van intervalniveau zijn.
* **Aantal populaties:** Er worden twee populaties bestudeerd, maar met afhankelijke steekproeven.
* **Type steekproef:** Zijn de steekproeven afhankelijk of onafhankelijk? (In dit hoofdstuk focussen we op afhankelijke steekproeven).
* **Type toets:** Moet er een parametrische of nonparametrische toets worden gebruikt?
* **Parametrisch:** De t-toets voor twee afhankelijke steekproeven (paired samples t-test).
* **Non-parametrisch:** De Wilcoxon signed-rank sum test (niet te kennen voor dit examen).
* **Eenzijdig of tweezijdig:** Is er een specifieke richting van het effect voorspeld, of wordt er simpelweg een verschil onderzocht?
### 2.4 Stramien voor hypothesetoetsing
Voor het uitvoeren van hypothesetoetsen wordt een vast stramien gevolgd, ongeacht de specifieke toets:
1. **Toetsingssituatie:** Identificeer het type onderzoeksvraag en de bijbehorende situatie waarin de toets wordt gebruikt.
2. **Voorwaarden:** Controleer of de statistische voorwaarden voor de gekozen toets zijn voldaan.
3. **Hypothesen:** Formuleer de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$).
4. **Toetsingsgrootheid:** Bereken de toetsingsgrootheid en bepaal de bijbehorende kansverdeling.
5. **Beslissingsregel:** Stel de regel op voor het al dan niet verwerpen van de nulhypothese, gebaseerd op overschrijdingskansen of kritieke waarden.
6. **Effectgrootte:** Kwantificeer de belangrijkheid van het gevonden effect, wat aangeeft hoe sterk het effect is, onafhankelijk van de significantie.
7. **Rapporteren:** Communiceer de resultaten van de toets op een correcte en volledige manier.
### 2.5 Parametrische toets: T-toets voor twee afhankelijke steekproeven (paired samples t-test)
Deze toets wordt gebruikt wanneer de voorwaarden voor de t-toets zijn voldaan en er sprake is van afhankelijke steekproeven.
#### 2.5.1 Toetsingssituatie
De t-toets voor twee afhankelijke steekproeven wordt gebruikt om na te gaan of het gemiddelde verschil tussen paren in de populatie significant verschilt van nul.
* **Voorbeeld:** Evelien onderzoekt of de zelfbeoordeling van iemands uiterlijk significant verschilt van de beoordeling door de partner. Ze gebruikt tien koppels, wat resulteert in twintig personen. De vraag is of de gemiddelde beoordelingen van partners significant verschillen van de gemiddelde zelfbeoordelingen.
#### 2.5.2 Voorwaarden
* De afhankelijke variabele is gemeten op minimaal intervalniveau (bv. een beoordeling op een schaal van 0 tot 100).
* De steekproeven zijn afhankelijk.
* De afhankelijke variabele, of het verschil tussen de paren, is normaal verdeeld in de populatie. Bij een voldoende grote steekproefgrootte ($N \geq 30$) is deze voorwaarde minder kritisch vanwege de centrale limietstelling. Zelfs bij kleinere steekproeven kan de t-toets nog worden uitgevoerd indien de data ruwweg normaal verdeeld zijn.
#### 2.5.3 Hypothesen
De hypotheses richten zich op het gemiddelde verschil ($µ_D$) tussen de paren in de populatie, waarbij $D$ staat voor het verschil binnen elk paar (bv. steekproef1 - steekproef2).
* **Linkseenzijdig:**
* $H_0: µ_D \geq 0$
* $H_1: µ_D < 0$
* **Rechtseenzijdig:**
* $H_0: µ_D \leq 0$
* $H_1: µ_D > 0$
* **Tweezijdig:**
* $H_0: µ_D = 0$
* $H_1: µ_D \neq 0$
* **Voorbeeld Evelien (tweezijdig):**
* $H_0: µ_D = 0$ (Er is geen significant verschil tussen zelfbeoordelingen en partnerbeoordelingen).
* $H_1: µ_D \neq 0$ (Er is een significant verschil tussen zelfbeoordelingen en partnerbeoordelingen).
#### 2.5.4 Toetsingsgrootheid
De toetsingsgrootheid is de t-score, die wordt berekend op basis van het gemiddelde verschil in de steekproef, de standaardafwijking van de verschillen, en de steekproefgrootte ($n$). De kansverdeling van deze t-score is de Student t-verdeling met $df = n-1$ vrijheidsgraden.
$$t = \frac{\bar{d}}{\frac{s_d}{\sqrt{n}}}$$
Waarbij:
* $\bar{d}$ het gemiddelde verschil in de steekproef is.
* $s_d$ de standaardafwijking van de verschillen in de steekproef is.
* $n$ het aantal paren is.
#### 2.5.5 Beslissingsregel
De nulhypothese wordt verworpen als de berekende t-score buiten het gebied van acceptatie valt (bepaald door kritieke waarden) of als de p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$).
#### 2.5.6 Effectgrootte
De effectgrootte, vaak gerapporteerd als $r$, kwantificeert de omvang van het gevonden effect.
* **Voorbeeld Evelien:** Een effectgrootte van $r=.79$ duidt op een sterk effect.
#### 2.5.7 Rapporteren
De resultaten worden gerapporteerd volgens een gestandaardiseerd format, inclusief de toetsnaam, gemiddelden, standaardafwijkingen, de t-waarde, het aantal vrijheidsgraden, de p-waarde, en de effectgrootte.
* **Voorbeeld Evelien:** "Om na te gaan of verliefde mensen het uiterlijk van hun partner beter beoordelen dan dat ze zichzelf beoordelen werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde beoordeling door de partner ($M = 76.80, SD = 3.75$) hoger was dan de gemiddelde zelfbeoordeling ($M = 69.05, SD = 5.02$). Dit verschil bleek significant op niveau $\alpha = .05$; $t(19) = 5.63$, $p <.001$, $r=.79$."
### 2.6 SPSS Output voor Paired Samples T-test
SPSS output voor een paired samples t-test bevat informatie over de t-score, het aantal vrijheidsgraden ($df$), en de significantie (p-waarde) voor een tweezijdige toets. Een p-waarde van .000 wordt geïnterpreteerd als een p-waarde met zeer veel nullen achter de komma, wat leidt tot verwerping van de nulhypothese indien deze kleiner is dan het gekozen significantieniveau ($\alpha$).
#### 2.6.1 Interpretatie van SPSS Output
* **Paired Samples Test:** Geeft aan dat de analyse is uitgevoerd voor gekoppelde steekproeven.
* **t:** De berekende t-score.
* **df:** Het aantal vrijheidsgraden ($n-1$).
* **Sig. (2-tailed):** De p-waarde voor een tweezijdige toets. Als deze waarde kleiner is dan $\alpha$, wordt $H_0$ verworpen. Een waarde van .000 geeft een zeer kleine p-waarde aan, wat leidt tot verwerping van $H_0$.
### 2.7 Extra Oefening: Analyse van Mountainbiker Prestaties
Deze oefening illustreert de toepassing van de paired samples t-test in een praktisch scenario.
* **Onderzoeksvraag:** Fietsen mountainbikers sneller bij 18 graden of bij 25 graden Celsius?
* **Toetskeuze:** Paired samples t-test omdat het herhaalde metingen betreft (dezelfde mountainbikers op verschillende temperaturen). De afhankelijke variabele (tijd) is op ratio-niveau en de data zijn normaal verdeeld. Er wordt een tweezijdige toets gebruikt om te onderzoeken of er een verschil is.
* **Hypothesen:**
* $H_0: µ_D = 0$ (Er is geen verschil in gemiddelde tijd tussen 18 en 25 graden).
* $H_1: µ_D \neq 0$ (Er is een verschil in gemiddelde tijd tussen 18 en 25 graden).
* **Berekening T-score:** Met $n=15$ paren en de gegeven gemiddelden en standaardafwijkingen van de tijden bij de twee temperaturen, wordt de t-score berekend.
* **Beslissingsregel:** De berekende t-score (3.712) wordt vergeleken met de kritieke waarde voor $\alpha = .05$ en $df = 14$, die 2.145 bedraagt. Aangezien de t-score de kritieke waarde overschrijdt, wordt de nulhypothese verworpen.
* **Effectgrootte:** De gerapporteerde effectgrootte ($r=.70$) duidt op een sterk effect.
* **Rapportage:** "Om na te gaan of mountainbikers sneller rijden bij 18 of 25 graden werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde tijd bij 18 graden ($M=106.40, SD= 7.72$) hoger was dan bij 25 graden ($M=97.13, SD = 6.97$). Dit verschil bleek significant op niveau $\alpha = .05$, $t(14) = 3.71$, $p=.002$, $r=.70$."
**Tip:** De standaardafwijking wordt voor een steekproef berekend door te delen door $n-1$, terwijl voor de populatie $n$ wordt gebruikt. Bij de t-toets voor afhankelijke steekproeven berekenen we de standaardafwijking van de *verschillen* binnen de paren.
---
# Het stramien voor hypothesetoetsing
## 3. Het stramien voor hypothesetoetsing
Dit stramien biedt een gestructureerd, zevenstappenplan dat consistent toegepast wordt bij het uitvoeren van hypothesetoetsingen, van de definitie van de toetsingssituatie tot het rapporteren van de resultaten.
### 3.1 Algemeen stramien voor hypothesetoetsing
Het volgende stramien wordt gebruikt om de stappen bij het uitvoeren van hypothesetoetsingen te doorlopen, ongeacht de specifieke toets die gekozen wordt.
#### 3.1.1 Toetsingssituatie
* **Beschrijving:** Identificeer de concrete toetsingssituatie en de aard van de onderzoeksvraag. Bij welk soort onderzoeksvragen wordt deze specifieke toets gebruikt?
* **Focus:** Begrijp de onderzoeksvraag goed, identificeer de afhankelijke en onafhankelijke variabelen, en bepaal het meetniveau van de variabelen. Beoordeel hoeveel populaties worden bestudeerd en of de steekproeven afhankelijk of onafhankelijk zijn. Bepaal tevens of een parametrische of nonparametrische toets, en een eenzijdige of tweezijdige toets, passend is.
#### 3.1.2 Voorwaarden
* **Beschrijving:** Wat zijn de statistische voorwaarden waaraan voldaan moet zijn om de gekozen toets correct te kunnen toepassen? Dit omvat vaak aannames over het meetniveau van de afhankelijke variabele en de verdeling van de data in de populatie(s).
* **Voorbeeld:** Bij parametrische toetsen, zoals de t-toets, is een intervalniveau voor de afhankelijke variabele en een normale verdeling van de data in de populatie doorgaans vereist.
#### 3.1.3 Hypothesen
* **Beschrijving:** Hoe zien de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) eruit voor de specifieke toets die wordt uitgevoerd? De formulering hangt af van de onderzoeksvraag en het feit of de toets eenzijdig of tweezijdig is.
* **Formulering:**
* **Eenzijdig links:**
$H_0: \mu \leq \text{hypothetische waarde}$
$H_1: \mu < \text{hypothetische waarde}$
* **Eenzijdig rechts:**
$H_0: \mu \geq \text{hypothetische waarde}$
$H_1: \mu > \text{hypothetische waarde}$
* **Tweezijdig:**
$H_0: \mu = \text{hypothetische waarde}$
$H_1: \mu \neq \text{hypothetische waarde}$
* Voor toetsen die betrekking hebben op het verschil tussen populatiegemiddelden ($\mu_D$) wordt de hypothetische waarde vaak gesteld op nul.
#### 3.1.4 Toetsingsgrootheid
* **Beschrijving:** Welke grootheid moet berekend worden om de hypotheses te toetsen? Wat is de kansverdeling van deze toetsingsgrootheid onder de nulhypothese?
* **Berekening:** De waarde van de toetsingsgrootheid wordt berekend aan de hand van de verzamelde steekproefgegevens en een specifieke formule, afhankelijk van de gekozen toets.
#### 3.1.5 Beslissingsregels
* **Beschrijving:** Op basis van welke criteria wordt besloten om de nulhypothese te verwerpen of niet te verwerpen? Dit kan gebeuren via overschrijdingskansen (p-waarden) of kritieke waarden.
* **Overschrijdingskans (p-waarde):** Als de berekende p-waarde kleiner is dan het vooraf bepaalde significantieniveau ($\alpha$), wordt de nulhypothese verworpen.
* **Kritieke waarden:** Als de berekende toetsingsgrootheid buiten het acceptatiegebied valt (bijvoorbeeld groter is dan de kritieke waarde voor een eenzijdige rechtse toets), wordt de nulhypothese verworpen.
#### 3.1.6 Effectgrootte
* **Beschrijving:** Hoe belangrijk is het gevonden effect in de praktijk? Dit geeft aan hoe groot de omvang van het effect is, onafhankelijk van de steekproefgrootte. Significantie vertelt of er een effect is, effectgrootte vertelt hoe belangrijk dat effect is.
* **Toepassing:** De berekening van de effectgrootte (bijvoorbeeld $r$ voor de paired samples t-test) helpt bij het interpreteren van de praktische relevantie van de resultaten.
#### 3.1.7 Rapporteren
* **Beschrijving:** Hoe worden de resultaten van de hypothesetoets op een correcte en volledige manier gerapporteerd?
* **Inhoud:** Een correcte rapportage bevat doorgaans:
* De gebruikte toets.
* De richting van de toets (eenzijdig/tweezijdig).
* De gemiddelden en standaardafwijkingen van de groepen.
* De berekende toetsingsgrootheid, het aantal vrijheidsgraden, de p-waarde, en de effectgrootte.
* Een conclusie die de resultaten interpreteert in de context van de onderzoeksvraag.
> **Tip:** Het is cruciaal om de stappen van dit stramien consequent te volgen. Dit zorgt voor helderheid en voorkomt fouten bij het uitvoeren en interpreteren van statistische toetsen.
### 3.2 Toetsen voor 2 populaties: afhankelijke steekproeven
Dit onderdeel focust op het stramien toegepast op situaties met afhankelijke steekproeven, specifiek met behulp van de parametrische t-toets voor twee afhankelijke steekproeven (paired samples t-test).
#### 3.2.1 Toetsingssituatie voor paired samples t-test
* **Toepassing:** Deze toets wordt gebruikt wanneer men wil onderzoeken of het gemiddelde verschil tussen paren in de populatie significant verschilt van een hypothetische waarde (meestal nul). Dit is het geval bij herhaalde metingen bij dezelfde individuen of bij gematchte paren.
* **Voorbeeld Evelien:** Onderzoek naar de vraag of beoordelingen van het uiterlijk significant verschillen tussen zelfbeoordelingen en beoordelingen door een partner. Hierbij worden tien koppels bevraagd, waarbij elk koppel een afhankelijk paar vormt. De steekproefgrootte is $n=10$ paren, wat neerkomt op $N=20$ individuele metingen.
#### 3.2.2 Voorwaarden voor de paired samples t-test
* **Afhankelijke variabelen:** De afhankelijke variabele moet minstens op intervalniveau gemeten zijn. Bijvoorbeeld, een beoordeling op een schaal van 0 tot 100 voldoet hieraan.
* **Normaliteit:** De verschillen tussen de paren moeten normaal verdeeld zijn in de populatie. Bij een voldoende grote steekproefgrootte kan met de centrale limietstelling ook bij een minder strikte normaliteit nog een t-toets worden uitgevoerd. Voor Evelien met $N=20$ is de aanname van normaliteit belangrijk.
* **Afhankelijke steekproeven:** De steekproeven zijn duidelijk afhankelijk, wat inherent is aan herhaalde metingen of gematchte paren.
#### 3.2.3 Hypothesen voor de paired samples t-test
* **Definitie:** $D$ staat voor het gemiddelde verschil per paar in de populatie, geschat door het verschil tussen de metingen in steekproef 1 en steekproef 2 voor elk paar.
* **Formulering:**
* **Tweezijdig (meest gebruikelijk bij "verschil"):**
$H_0: \mu_D = 0$ (Het gemiddelde verschil tussen de paren in de populatie is nul.)
$H_1: \mu_D \neq 0$ (Het gemiddelde verschil tussen de paren in de populatie is niet nul.)
* **Voorbeeld Evelien:** Omdat de vraag is of de beoordelingen significant *verschillen*, wordt een tweezijdige toets gebruikt:
$H_0: \mu_D = 0$
$H_1: \mu_D \neq 0$
#### 3.2.4 Toetsingsgrootheid voor de paired samples t-test
* **Kansverdeling:** De toetsingsgrootheid volgt een Student t-verdeling met $df = n-1$ vrijheidsgraden, waarbij $n$ het aantal paren is.
* **Berekening:** De t-score wordt berekend met de formule:
$$t = \frac{\bar{d}}{\frac{s_d}{\sqrt{n}}}$$
Waarbij:
* $\bar{d}$ het gemiddelde verschil van de geobserveerde verschillen in de steekproef is.
* $s_d$ de standaardafwijking van de geobserveerde verschillen in de steekproef is.
* $n$ het aantal paren is.
#### 3.2.5 Beslissingsregels voor de paired samples t-test
* **Overschrijdingskans (p-waarde):** Indien de berekende p-waarde kleiner is dan het significantieniveau ($\alpha$), wordt $H_0$ verworpen.
* **Kritieke waarde:** Indien de berekende t-score groter is dan de kritieke waarde uit de t-verdeling voor het gekozen $\alpha$ en $df = n-1$, wordt $H_0$ verworpen.
> **Tip:** De p-waarde geeft de kans aan om de geobserveerde resultaten (of extremere resultaten) te verkrijgen, *als* de nulhypothese waar zou zijn. Een lage p-waarde (< $\alpha$) suggereert dat de geobserveerde resultaten onwaarschijnlijk zijn onder de $H_0$.
#### 3.2.6 Effectgrootte voor de paired samples t-test
* **Doel:** Kwantificeert de omvang van het verschil. Een veelgebruikte maat is Cohen's r, die kan worden geïnterpreteerd als:
* $r \approx 0.1$ : klein effect
* $r \approx 0.3$ : gemiddeld effect
* $r \approx 0.5$ : groot effect
* **Berekening:** De effectgrootte $r$ kan berekend worden op basis van de t-score en de vrijheidsgraden. De formule is:
$$r = \sqrt{\frac{t^2}{t^2 + df}}$$
* **Voorbeeld Evelien:** Een berekende $r = 0.79$ duidt op een sterk effect.
#### 3.2.7 Rapporteren van de paired samples t-test
* **Formaat:** Een gestandaardiseerde rapportage is essentieel.
* **Inhoud voorbeeld Evelien:** "Om na te gaan of verliefde mensen het uiterlijk van hun partner beter beoordelen dan dat ze zichzelf beoordelen, werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde beoordeling door de partner ($M = 76.80, SD = 3.75$) hoger was dan de gemiddelde zelfbeoordeling ($M = 69.05, SD = 5.02$). Dit verschil bleek significant op niveau $\alpha = .05$; $t(19) = 5.63, p < .001, r = .79$."
> **Opmerking:** Een p-waarde van '$p < .001$' (of '$p=.000$' in SPSS output) betekent dat de p-waarde extreem klein is (veel nullen achter de komma) en dus significant lager dan elk realistisch $\alpha$-niveau.
### 3.3 SPSS Voorbeeld
* **Analyse:** De output van een SPSS paired samples t-test toont de t-score, het aantal vrijheidsgraden ($df$), en de significantie (p-waarde) voor een tweezijdige toets.
* **Interpretatie:** Een significantie van '.000' (of '.001' als er een klein getal achter de nullen staat) geeft aan dat de nulhypothese verworpen mag worden, omdat de p-waarde kleiner is dan $\alpha = .05$.
### 3.4 Extra Oefening: Mountainbikers
Deze oefening illustreert de toepassing van het stramien op een nieuw scenario.
* **Onderzoeksvraag:** Fietsen mountainbikers sneller bij 18 graden of bij 25 graden Celsius?
* **Toetskeuze:** Paired samples t-test is aangewezen omdat het gaat om herhaalde metingen (dezelfde mountainbikers onder twee verschillende omstandigheden). De afhankelijke variabele (tijd) is van ratio-niveau en de normale verdeling van de verschillen wordt aangenomen (met $N=15$ paren). De toets is tweezijdig omdat er een verschil wordt onderzocht, niet een specifieke richting.
**Stappen conform het stramien:**
1. **Toetsingssituatie:** Vergelijken van rijtijden onder twee verschillende temperatuurcondities bij dezelfde groep mountainbikers.
2. **Voorwaarden:**
* Afhankelijke variabele (tijd) is van ratio-niveau.
* Verwachting van normale verdeling van de tijdverschillen.
* Afhankelijke steekproeven (herhaalde metingen).
3. **Hypothesen:**
$H_0: \mu_D = 0$ (Er is geen verschil in rijtijd tussen 18 en 25 graden Celsius.)
$H_1: \mu_D \neq 0$ (Er is een verschil in rijtijd tussen 18 en 25 graden Celsius.)
4. **Toetsingsgrootheid:** Berekening van de t-score met $df = n-1 = 15-1 = 14$.
$$t = 3.712$$
5. **Beslissingsregels:**
* Kritieke waarde voor $\alpha = .05$ (tweezijdig) en $df = 14$ is 2.145.
* Aangezien $t_{berekend} = 3.712 > t_{kritiek} = 2.145$, wordt de nulhypothese verworpen.
6. **Effectgrootte:** Berekening van $r$:
$$r = \sqrt{\frac{3.712^2}{3.712^2 + 14}} = \sqrt{\frac{13.779}{13.779 + 14}} = \sqrt{\frac{13.779}{27.779}} \approx \sqrt{0.496} \approx 0.70$$
Dit duidt op een sterk effect.
7. **Rapporteren:** "Om na te gaan of mountainbikers sneller rijden bij 18 of 25 graden, werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde tijd bij 18 graden ($M = 106.40, SD = 7.72$) hoger was dan bij 25 graden ($M = 97.13, SD = 6.97$). Dit verschil bleek significant op niveau $\alpha = .05$, $t(14) = 3.71, p = .002, r = .70$."
---
# De t-toets voor twee afhankelijke steekproeven
Hieronder volgt een gedetailleerd studieoverzicht van de t-toets voor twee afhankelijke steekproeven, gebaseerd op de verstrekte documentatie.
## 4. De t-toets voor twee afhankelijke steekproeven
Dit hoofdstuk behandelt de parametrische t-toets voor afhankelijke steekproeven, inclusief de stappen voor het opstellen van hypothesen, het berekenen van de toetsingsgrootheid en het interpreteren van resultaten en effectgrootte.
### 4.1 Inleiding tot de t-toets voor afhankelijke steekproeven
Bij het toetsen van hypothesen over twee populaties wordt onderscheid gemaakt tussen afhankelijke en onafhankelijke steekproeven. Afhankelijke steekproeven ontstaan wanneer metingen herhaaldelijk worden uitgevoerd op dezelfde groep proefpersonen (bijvoorbeeld een voor- en nameting) of wanneer paren van proefpersonen worden gevormd op basis van gelijksoortige kenmerken (gematchte paren). In dit hoofdstuk ligt de focus op de parametrische t-toets voor twee afhankelijke steekproeven. De kernvraag is of een waargenomen verschil tussen twee steekproefgemiddelden groot genoeg is om te spreken van een significant effect in de populatie.
### 4.2 Het stramien voor hypothesetoetsing
Bij het uitvoeren van hypothesetoetsen wordt een vast stramien gevolgd, dat bestaat uit de volgende stappen:
1. **Toetsingssituatie**: Begrijpen van de onderzoeksvraag, de aard van de variabelen (afhankelijke variabele op intervalniveau) en het aantal te bestuderen populaties (twee populaties voor afhankelijke steekproeven). De keuze tussen een parametrische en nonparametrische toets hangt af van de voorwaarden. Voor afhankelijke steekproeven is de t-toets een veelgebruikte parametrische toets. Tot slot wordt bepaald of de toets eenzijdig of tweezijdig is.
2. **Voorwaarden**: Nagaan of aan de statistische voorwaarden voor de gekozen toets wordt voldaan.
3. **Hypothesen**: Formuleren van de nulhypothese ($H_0$) en de alternatieve hypothese ($H_1$) die passen bij de toetsingssituatie.
4. **Toetsingsgrootheid**: Berekenen van de waarde van de toetsingsgrootheid en bepalen van de bijbehorende kansverdeling.
5. **Beslissingsregel**: Vaststellen wanneer de nulhypothese wordt verworpen, gebaseerd op overschrijdingskansen (p-waarden) of kritieke waarden.
6. **Effectgrootte**: Kwantificeren van de belangrijkheid van het gevonden effect, onafhankelijk van de significantie.
7. **Rapporteren**: Correct rapporteren van de resultaten van de toetsing.
### 4.3 De t-toets voor twee afhankelijke steekproeven: een gedetailleerde analyse
#### 4.3.1 Toetsingssituatie
De t-toets voor twee afhankelijke steekproeven wordt gebruikt wanneer men wil onderzoeken of het gemiddelde verschil tussen paren van waarnemingen significant verschilt van nul. Dit is van toepassing in situaties met herhaalde metingen bij dezelfde individuen of bij gematchte paren.
* **Onderzoeksvraag**: Verschilt het gemiddelde van populatie 1 van het gemiddelde van populatie 2, waarbij de steekproeven afhankelijk zijn?
* **Voorbeeld**: Evelien onderzoekt of de beoordeling van het uiterlijk door de persoon zelf significant verschilt van de beoordeling door de partner. Er worden tien koppels bevraagd.
#### 4.3.2 Voorwaarden
Om de t-toets voor twee afhankelijke steekproeven te mogen toepassen, dient aan de volgende voorwaarden te worden voldaan:
* De afhankelijke variabele is gemeten op intervalniveau.
* De steekproeven zijn afhankelijk (d.w.z. herhaalde metingen of gematchte paren).
* De verschillen tussen de paren zijn (ongeveer) normaal verdeeld in de populatie. Dit maakt de toets robuust, zelfs bij een kleinere steekproefomvang ($N=20$ in het voorbeeld), mits de normaliteit redelijk benaderd wordt.
#### 4.3.3 Hypotheses
De hypothesen worden geformuleerd in termen van het populatiegemiddelde verschil, aangeduid met $\mu_D$. Het verschil $D$ wordt meestal berekend als $\text{steekproef}_1 - \text{steekproef}_2$.
* **Linkseenzijdig**:
* $H_0: \mu_D \ge 0$ (Het gemiddelde verschil is nul of positief)
* $H_1: \mu_D < 0$ (Het gemiddelde verschil is negatief)
* **Rechtseenzijdig**:
* $H_0: \mu_D \le 0$ (Het gemiddelde verschil is nul of negatief)
* $H_1: \mu_D > 0$ (Het gemiddelde verschil is positief)
* **Tweezijdig**:
* $H_0: \mu_D = 0$ (Het gemiddelde verschil is nul)
* $H_1: \mu_D \ne 0$ (Het gemiddelde verschil is niet nul)
* **Voorbeeld Evelien (tweezijdig)**:
* $H_0: \mu_D = 0$ (Er is geen verschil tussen zelfbeoordelingen en partnerbeoordelingen)
* $H_1: \mu_D \ne 0$ (Er is wel een verschil tussen zelfbeoordelingen en partnerbeoordelingen)
#### 4.3.4 Toetsingsgrootheid
De toetsingsgrootheid is de $t$-score, die de verhouding weergeeft tussen het steekproefgemiddelde verschil en de standaardfout van dat verschil. De kansverdeling van deze grootheid is de Student $t$-verdeling met $n-1$ vrijheidsgraden, waarbij $n$ het aantal paren is.
De formule voor de $t$-score is:
$$t = \frac{\bar{d}}{s_d / \sqrt{n}}$$
Waarbij:
* $\bar{d}$ het gemiddelde verschil in de steekproef is.
* $s_d$ de standaardafwijking van de verschillen in de steekproef is.
* $n$ het aantal paren is.
Het gemiddelde verschil $\bar{d}$ wordt berekend als:
$$\bar{d} = \frac{\sum_{i=1}^{n} d_i}{n}$$
De standaardafwijking van de verschillen $s_d$ wordt berekend als:
$$s_d = \sqrt{\frac{\sum_{i=1}^{n} (d_i - \bar{d})^2}{n-1}}$$
> **Tip**: Zorg ervoor dat je bij het berekenen van de standaardafwijking van de steekproef deelt door $n-1$, en niet door $n$.
#### 4.3.5 Beslissingsregel
De beslissingsregel bepaalt of de nulhypothese wordt verworpen. Dit kan op twee manieren:
1. **Via kritieke waarden**: Als de berekende $t$-score groter is dan de kritieke $t$-waarde (voor een tweezijdige toets $|t| > t_{\text{kritiek}}$) of kleiner is dan de negatieve kritieke $t$-waarde (voor een linkseenzijdige toets $t < -t_{\text{kritiek}}$), of groter is dan de positieve kritieke $t$-waarde (voor een rechtseenzijdige toets $t > t_{\text{kritiek}}$), wordt $H_0$ verworpen. De kritieke waarden zijn af te lezen uit de $t$-verdelingstabel, afhankelijk van het significantieniveau ($\alpha$) en het aantal vrijheidsgraden ($df = n-1$).
2. **Via overschrijdingskansen (p-waarden)**: Als de berekende p-waarde kleiner is dan het gekozen significantieniveau ($\alpha$), wordt $H_0$ verworpen.
* Voor een tweezijdige toets: $p < \alpha$.
* Voor een eenzijdige toets: $p < \alpha$.
* **Voorbeeld kritieke waarde**: Voor een tweezijdige toets met $\alpha = 0.05$ en $df = 14$, is de kritieke waarde $t_{\text{kritiek}} \approx 2.145$. Als de berekende $t$-score $3.712$ is, dan overschrijdt deze de kritieke waarde ($3.712 > 2.145$), waardoor $H_0$ wordt verworpen.
> **Tip**: In softwarepakketten zoals SPSS wordt direct de p-waarde gerapporteerd. Als de gerapporteerde p-waarde kleiner is dan het gekozen $\alpha$, verwerp dan de nulhypothese. Een p-waarde van ,000 betekent dat de werkelijke p-waarde extreem klein is (veel nullen achter de komma), en dus zeker kleiner dan $\alpha = 0.05$.
#### 4.3.6 Effectgrootte
De effectgrootte kwantificeert de omvang van het gevonden effect, wat belangrijk is voor de interpretatie van de praktische relevantie van de resultaten. Voor de t-toets voor afhankelijke steekproeven kan Cohen's $r$ worden berekend.
De formule voor Cohen's $r$ is:
$$r = \frac{t}{\sqrt{t^2 + df}}$$
Waarbij $t$ de berekende $t$-score is en $df$ het aantal vrijheidsgraden.
* **Interpretatie van Cohen's $r$**:
* $r \approx 0.1$: klein effect
* $r \approx 0.3$: gemiddeld effect
* $r \approx 0.5$: groot effect
* **Voorbeeld Evelien**: Met $t = 5.63$ en $df = 19$, wordt $r$ berekend als:
$$r = \frac{5.63}{\sqrt{5.63^2 + 19}} = \frac{5.63}{\sqrt{31.6969 + 19}} = \frac{5.63}{\sqrt{50.6969}} \approx \frac{5.63}{7.12} \approx 0.79$$
Dit duidt op een sterk effect.
* **Voorbeeld mountainbikers**: Met $t = 3.71$ en $df = 14$, wordt $r$ berekend als:
$$r = \frac{3.71}{\sqrt{3.71^2 + 14}} = \frac{3.71}{\sqrt{13.7641 + 14}} = \frac{3.71}{\sqrt{27.7641}} \approx \frac{3.71}{5.27} \approx 0.70$$
Ook dit duidt op een sterk effect.
#### 4.3.7 Rapporteren
Het correct rapporteren van de resultaten van de t-toets omvat de toetsingssituatie, de teststatistiek, het aantal vrijheidsgraden, de p-waarde, de gemiddelden en standaardafwijkingen van de groepen, en de effectgrootte.
* **Voorbeeld Evelien**: "Om na te gaan of verliefde mensen het uiterlijk van hun partner beter beoordelen dan dat ze zichzelf beoordelen werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde beoordeling door de partner ($M = 76.80$, $SD = 3.75$) hoger was dan de gemiddelde zelfbeoordeling ($M = 69.05$, $SD = 5.02$). Dit verschil bleek significant op niveau $\alpha = 0.05$; $t(19) = 5.63$, $p < .001$, $r=.79$."
* **Voorbeeld mountainbikers**: "Om na te gaan of mountainbikers sneller rijden bij 18 of 25 graden werd een paired samples t-test uitgevoerd. Uit de gegevens blijkt dat de gemiddelde tijd bij 18 graden ($M=106.40$, $SD= 7.72$) hoger was dan bij 25 graden ($M=97.13$, $SD = 6.97$). Dit verschil bleek significant op niveau $\alpha = 0.05$, $t(14) = 3.71$, $p=.002$, $r=.70$."
### 4.4 SPSS voorbeeld
Softwarepakketten zoals SPSS bieden output die alle benodigde informatie bevat voor het uitvoeren en interpreteren van de paired samples t-test. Deze output omvat de t-score, het aantal vrijheidsgraden (df) en de significantie (p-waarde) voor een tweezijdige toets. Een significantiewaarde van ,000 geeft aan dat de nulhypothese verworpen mag worden omdat de p-waarde kleiner is dan 0.05.
> **Tip**: Leer de output van SPSS kennen; deze bevat de t-score, df, en p-waarde die nodig zijn voor de beslissingsregel en de rapportering.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Afhankelijke steekproeven | Steekproeven waarbij de metingen op de ene steekproef direct gerelateerd zijn aan de metingen op de andere steekproef. Dit kan gebeuren door herhaalde metingen bij dezelfde personen of door gematchte paren in verschillende groepen. |
| Onafhankelijke steekproeven | Steekproeven waarbij de metingen op de ene steekproef geen invloed hebben op de metingen op de andere steekproef. De selectie van deelnemers voor de ene steekproef heeft geen enkele relatie met de selectie voor de andere steekproef. |
| Gematchte paren | Individuen of eenheden die zo zijn geselecteerd dat ze zoveel mogelijk op elkaar lijken qua relevante kenmerken, om zo confounding te minimaliseren. Ze worden vervolgens toegewezen aan verschillende condities of groepen. |
| Herhaalde metingen | Het uitvoeren van metingen op dezelfde individuen of eenheden op meerdere tijdstippen. Dit leidt tot afhankelijke steekproeven omdat de metingen binnen hetzelfde subject plaatsvinden. |
| Toetsingssituatie | De specifieke context en aard van de onderzoeksvraag die bepaalt welke statistische toets het meest geschikt is om te worden toegepast. Hierbij wordt gekeken naar het aantal populaties en de aard van de steekproeven. |
| Voorwaarden | De statistische aannames die voldaan moeten zijn om een specifieke statistische toets valide te kunnen toepassen. Voor de t-toets voor afhankelijke steekproeven zijn dit onder andere het intervalniveau van de afhankelijke variabele en normaliteit van de verschillen. |
| Hypothesen | Een formele bewering over een populatieparameter die getest wordt met statistische methoden. Dit omvat de nulhypothese (H0) en de alternatieve hypothese (H1). |
| Nulhypothese (H0) | De hypothese die stelt dat er geen effect of verschil is in de populatie. Het is de hypothese die we proberen te weerleggen met de data. |
| Alternatieve hypothese (H1) | De hypothese die stelt dat er wel een effect of verschil is in de populatie. Dit is wat de onderzoeker hoopt te bewijzen. |
| Toetsingsgrootheid | Een statistiek berekend uit de steekproefgegevens die gebruikt wordt om de nulhypothese te testen. De verdeling van deze grootheid onder de nulhypothese is bekend. |
| Student t-verdeling | Een kansverdeling die gebruikt wordt in statistische hypothesetoetsing, met name voor het toetsen van gemiddelden wanneer de populatiestandaardafwijking onbekend is. De vorm hangt af van het aantal vrijheidsgraden. |
| Vrijheidsgraden (df) | Het aantal onafhankelijke waarden dat vrij kan variëren in een statistische berekening. Voor de t-toets voor afhankelijke steekproeven is dit het aantal paren min één ($df = n-1$). |
| Beslissingsregel | Een criterium dat wordt gebruikt om te beslissen of de nulhypothese verworpen wordt op basis van de berekende toetsingsgrootheid en een vooraf bepaald significantieniveau ($\alpha$). |
| Overschrijdingskans (p-waarde) | De kans om een toetsingsgrootheid te observeren die minstens zo extreem is als de waargenomen waarde, aangenomen dat de nulhypothese waar is. |
| Kritieke waarde | De grenswaarde in de kansverdeling die de verwerpingszone van de nulhypothese afbakent. Als de toetsingsgrootheid groter is dan de kritieke waarde (of kleiner, afhankelijk van de richting van de toets), wordt de nulhypothese verworpen. |
| Effectgrootte | Een maat die aangeeft hoe groot het geobserveerde effect of verschil is, onafhankelijk van de steekproefgrootte. Het kwantificeert de praktische significantie van een statistisch resultaat. |
| Paired samples t-test | Een statistische toets die gebruikt wordt om te bepalen of er een significant verschil is tussen de gemiddelden van twee gerelateerde (afhankelijke) groepen. Het is de Engelse term voor de t-toets voor twee afhankelijke steekproeven. |
| Significante | Een resultaat dat als statistisch significant wordt beschouwd wanneer de waarschijnlijkheid van het observeren van zo een extreem resultaat onder de nulhypothese kleiner is dan een vooraf bepaald significantieniveau (meestal $\alpha$ = .05). |
| Rapporteren | Het op de correcte manier presenteren van de resultaten van een statistische analyse, inclusief de gebruikte toets, de resultaten van de toetsingsgrootheid, de p-waarde, de effectgrootte en de interpretatie in de context van de onderzoeksvraag. |