Cover
ابدأ الآن مجانًا Student - Hoorcollege 2 - Inductieve statistiek in onderzoek.pptx
Summary
# Nut en basisprincipes van inductieve statistiek
Inductieve statistiek stelt ons in staat om gefundeerde uitspraken te doen over populaties op basis van steekproefgegevens, waarbij de inherente onzekerheid wordt gekwantificeerd door middel van kansberekening.
## 1. Nut en basisprincipes van inductieve statistiek
### 1.1 Het doel van inductieve statistiek in gedragswetenschappelijk onderzoek
Statistiek is een essentieel hulpmiddel in empirisch onderzoek, met als voornaamste doel het formuleren van gefundeerde uitspraken over de wetmatigheden die menselijk gedrag sturen. Dit is met name relevant in de gedragswetenschappen, waar men vaak te maken heeft met complexe en variabele fenomenen. Omdat het vrijwel onmogelijk is om de gehele populatie te onderzoeken, wordt gewerkt met steekproeven. Statistische methoden bieden een raamwerk om, ondanks de beperkingen van steekproeven, toch betrouwbare conclusies te trekken en de mate van zekerheid over deze conclusies te bepalen.
### 1.2 De empirische cyclus en de rol van statistiek
De empirische cyclus beschrijft de iteratieve aard van wetenschappelijk onderzoek, beginnend bij een vraagstelling en eindigend met conclusies die weer leiden tot nieuwe onderzoeksvragen. De zeven fasen van de empirische cyclus zijn:
1. Vraagstelling of probleemstelling
2. Operationaliseren
3. Steekproef bepalen
4. Gegevens verzamelen
5. Beschrijvende statistiek
6. Inductieve statistiek
7. Conclusies trekken
Statistiek speelt een cruciale rol in de fasen van beschrijvende en inductieve statistiek. Beschrijvende statistiek helpt bij het samenvatten en visualiseren van de verzamelde gegevens, terwijl inductieve statistiek de brug slaat van de steekproef naar de populatie.
### 1.3 Statistiek als hulpmiddel en de inherente onzekerheid
Statistiek is geen doel op zich, maar een methode om wetenschappelijke vragen te beantwoorden. Het stelt onderzoekers in staat om de betekenis van geobserveerde verbanden of verschillen te beoordelen. Echter, omdat onderzoek vrijwel altijd gebaseerd is op steekproeven, die geen perfecte afspiegeling zijn van de populatie, is er altijd een mate van onzekerheid verbonden aan de conclusies. Toevallige variatie en meetfouten kunnen de resultaten beïnvloeden. Inductieve statistiek biedt daarom regels om te beslissen of waargenomen verschillen statistisch significant zijn, wat betekent dat ze waarschijnlijk niet aan toeval te wijten zijn.
> **Tip:** Begrijp dat statistiek helpt om de onzekerheid te *kwantificeren*, niet om deze volledig te elimineren. Het gaat erom te weten hoe zeker we zijn van onze uitspraken.
### 1.4 Statistische significantie en hypothesetoetsing
Een centraal concept binnen de inductieve statistiek is statistische significantie. Dit verwijst naar de vraag of een waargenomen verband of verschil tussen groepen groot genoeg is om als betekenisvol te worden beschouwd, in plaats van als een gevolg van toevallige factoren.
Het proces van hypothesetoetsing is hierbij cruciaal. Het begint met het formuleren van een **nulhypothese** ($H_0$), die stelt dat er geen effect, geen verband of geen verschil is. Bijvoorbeeld: "Muziek heeft geen invloed op intelligentie."
Vervolgens wordt op basis van de verzamelde data gekeken hoe groot de kans is dat de geobserveerde resultaten (de data) te verklaren zijn door toeval, *ervan uitgaande dat de nulhypothese waar is*.
* Als deze kans erg klein is, verwerpen we de nulhypothese en concluderen we dat er waarschijnlijk een echt effect is (de alternatieve hypothese, $H_A$, wordt aanvaard).
* Als de kans groot is, kunnen we de nulhypothese niet verwerpen en accepteren we dat de waargenomen verschillen waarschijnlijk aan toeval te wijten zijn.
De drempelwaarde voor een "kleine" kans is doorgaans $0.05$ (of 5%). Als de kans op de geobserveerde data onder de nulhypothese kleiner is dan $0.05$, spreken we van een statistisch significant resultaat.
> **Voorbeeld:** Stel, we onderzoeken of een nieuwe trainingsmethode de prestaties van sporters verbetert. De nulhypothese is dat de trainingsmethode geen effect heeft. Als de testresultaten laten zien dat er een significant verschil is in prestaties tussen de groep die de nieuwe methode volgde en een controlegroep, en de kans dat dit verschil puur toeval is kleiner is dan 5%, dan verwerpen we de nulhypothese en concluderen we dat de trainingsmethode effectief is.
### 1.5 Kansberekening en de rol van kansverdelingen
Om de kans te berekenen dat geobserveerde data optreden onder de nulhypothese, wordt gebruik gemaakt van kansberekening. Dit gebeurt met behulp van kansverdelingen, zoals de standaardnormale verdeling. Verschillende statistische toetsen zijn ontwikkeld om deze berekeningen uit te voeren, afhankelijk van de aard van de data en de onderzoeksvraag. De keuze van de "grote" of "kleine" kans (het significantieniveau, vaak aangeduid met $\alpha$) is een belangrijke beslissing die voorafgaand aan de analyse wordt genomen.
### 1.6 Variëteit aan toetsingssituaties en toetsen
De complexiteit van onderzoeksvragen leidt tot een breed scala aan toetsingssituaties. Enkele voorbeelden zijn:
* Verschillen in een variabele tussen verschillende groepen (bijv. depressie bij verschillende muziekgenres).
* Verschillen in een variabele vóór en na een interventie (bijv. depressie vóór en na muziektherapie).
* Combinaties van verschillende factoren die van invloed zijn (bijv. muziek en therapie op depressie).
* Verschillen in populaties met grote versus kleine steekproeven.
Elke specifieke situatie vereist een passende statistische toets. Gedurende de cursus worden diverse toetsen voor uiteenlopende toetsingssituaties behandeld.
### 1.7 Misbruik en valkuilen van statistiek
Statistiek is een krachtig instrument, maar kan ook misbruikt of verkeerd begrepen worden. Zelfs met complexe formules en software zijn de randvoorwaarden voor correct gebruik essentieel.
* **Methodologie:** De keuze van de juiste statistische toets is cruciaal.
* **Onderzoeksopzet:** Een correct en representatief onderzoeksopzet is fundamenteel. Een slechte steekproef leidt tot onbetrouwbare resultaten.
* **Rapportage:** Correcte vermelding van significantieniveaus, effectgroottes en beperkingen is noodzakelijk.
* **Variabelen:** Een duidelijk onderscheid tussen onafhankelijke variabelen (OV) en afhankelijke variabelen (AV) is van groot belang.
#### 1.7.1 Valkuilen bij interpretatie
* **Correlatie is geen causatie:** Een statistische correlatie tussen twee variabelen betekent niet automatisch dat de ene variabele de andere veroorzaakt. Er kunnen derde variabelen in het spel zijn.
* **Onduidelijke steekproef:** Uitspraken over een populatie zijn alleen geldig als de steekproef representatief is.
* **Gebrek aan context:** Cijfers moeten altijd binnen een relevante context worden geplaatst.
* **Interne validiteit:** De mate waarin causale conclusies over het effect van de OV op de AV kunnen worden getrokken. Dit vereist dat:
1. Het effect van de OV op de AV in de voorspelde richting plaatsvindt.
2. De oorzaak (OV) in tijd voorafgaat aan het gevolg (AV).
3. Er geen andere plausibele verklaringen zijn voor het gevonden verband. Experimenteel onderzoek met randomisatie en controle over storende variabelen is hierbij vaak noodzakelijk.
* **Externe validiteit:** De mate waarin de onderzoeksresultaten gegeneraliseerd kunnen worden naar andere situaties, methoden, tijdperken of populaties.
> **Voorbeeld:** De bewering "Duracell-batterijen gaan tot vijf keer langer mee" mist context. Hoe is dit gemeten? Vergeleken met welke batterijen? Zonder deze informatie is de uitspraak moeilijk te beoordelen.
> **Voorbeeld:** "95% van de Belgen is tevreden over Activia." Dit kan misleidend zijn als slechts een kleine, specifieke groep Belgen is ondervraagd, of als de vraagstelling sturend was.
#### 1.7.2 Variabelen in onderzoek
Bij het analyseren van onderzoeksvragen is het belangrijk om de verschillende soorten variabelen te identificeren:
* **Onafhankelijke variabelen (OV):** Variabelen die worden gemanipuleerd of geobserveerd om hun effect op andere variabelen te onderzoeken.
* **Afhankelijke variabelen (AV):** Variabelen die worden gemeten om te zien of ze beïnvloed worden door de onafhankelijke variabelen.
* **Onderzoekseenheden (cases):** De individuele elementen waarover gegevens worden verzameld (bijv. personen, bedrijven).
* **Populatie:** De gehele groep waarover men uitspraken wil doen.
* **Steekproef:** Een subset van de populatie die daadwerkelijk wordt onderzocht.
#### 1.7.3 Generalisatie vanuit steekproef naar populatie
Inductieve statistiek maakt het mogelijk om te generaliseren van de steekproef naar de populatie waaruit deze is getrokken. Dit is waar de kansberekening en hypothesetoetsing hun toepassing vinden, om de mate van zekerheid over deze generalisatie te bepalen.
Samenvattend, inductieve statistiek is een krachtig instrument dat, mits correct toegepast en geïnterpreteerd, ons in staat stelt om op basis van steekproefgegevens onderbouwde conclusies te trekken over bredere populaties, terwijl we de inherente onzekerheid transparant maken door middel van kansberekening en significantietoetsing. Het is echter cruciaal om de methodologische randvoorwaarden te respecteren en statistische misinterpretaties te vermijden.
---
# Hypothesetoetsing en statistische significantie
Statistische hypothesetoetsing is een methode om op basis van steekproefgegevens gefundeerde uitspraken te doen over de populatie, waarbij de nulhypothese centraal staat en de rol van toeval wordt ingeschat met kansberekening.
### 2.1 De rol van statistiek in onderzoek
Statistiek dient als een essentieel hulpmiddel in empirisch onderzoek, met name gedragswetenschappelijk onderzoek. Het stelt ons in staat om gefundeerde uitspraken te doen over wetmatigheden in menselijk gedrag. Omdat onderzoek doorgaans gebaseerd is op steekproeven die geen perfecte afspiegeling zijn van de populatie, en er altijd sprake kan zijn van foutieve variatie en toevallige meetfouten, biedt statistiek geen absolute zekerheid. In plaats daarvan maakt het gebruik van kansberekening om de mate van zekerheid van conclusies in te schatten.
> **Tip:** Statistiek is een hulpmiddel, geen doel op zich. De relevantie van statistische analyses hangt af van een correcte methodologie, onderzoeksopzet en rapportage.
#### 2.1.1 De empirische cyclus en hypothesetoetsing
De empirische cyclus illustreert hoe onderzoek verloopt, van vraagstelling tot conclusietrekking. Na de fase van beschrijvende statistiek, die data samenvat, volgt de inductieve statistiek. Deze laatste beoogt op basis van de verzamelde data een onderbouwde beslissing te nemen over een geobserveerd verband of verschil.
De zeven fasen van de empirische cyclus zijn:
1. Vraagstelling of probleemstelling
2. Operationaliseren
3. Steekproef bepalen
4. Gegevens verzamelen
5. Beschrijvende statistiek
6. Inductieve statistiek
7. Conclusies trekken
#### 2.1.2 Statistische significantie
Wanneer er verschillen worden waargenomen tussen groepen of condities in een steekproef, is de cruciale vraag of deze verschillen betekenisvol zijn of simpelweg het gevolg van toevallige factoren (zoals meetfouten of steekproefvariatie). Statistische significantie helpt ons hierbij: het geeft aan of een waargenomen verband of verschil groot genoeg is om niet aan toeval toe te schrijven.
> **Voorbeeld:** Stel, we onderzoeken of het luisteren naar muziek invloed heeft op intelligentie. Als een groep die één uur naar muziek X luisterde, gemiddeld een iets hogere intelligentiescore behaalt dan een groep die naar muziek Y luisterde, moeten we ons afvragen of dit verschil significant is. Is het verschil groot genoeg om te concluderen dat muziek X een positief effect heeft, of kan het verschil ook aan toeval te wijten zijn?
#### 2.1.3 Kansberekening en de nulhypothese
Centraal in hypothesetoetsing staat de **nulhypothese** ($H_0$), die stelt dat er geen werkelijk verband of verschil bestaat tussen de populatieparameters die we onderzoeken. De vraag wordt dan: hoe groot is de kans dat we de geobserveerde data zouden verkrijgen, *ervan uitgaande dat de nulhypothese waar is*?
* Als de kans op de geobserveerde data onder de nulhypothese **groot** is, accepteren we de nulhypothese (het waargenomen verschil is waarschijnlijk te wijten aan toeval).
* Als de kans op de geobserveerde data onder de nulhypothese **klein** is, verwerpen we de nulhypothese (het waargenomen verschil is statistisch significant en waarschijnlijk niet door toeval veroorzaakt).
De grens voor wat als een "kleine kans" wordt beschouwd, is vaak ingesteld op $0.05$ (of $5\%$). Dit wordt ook wel het significantieniveau ($\alpha$) genoemd.
#### 2.1.4 Kansverdelingen en toetsen
Om deze kansen te berekenen, maken we gebruik van kansverdelingen, zoals de standaardnormale verdeling. Afhankelijk van de onderzoeksvraag, de aard van de variabelen en de steekproefgrootte, worden diverse statistische toetsen toegepast.
> **Tip:** De keuze voor de juiste toets is cruciaal en hangt af van de specifieke toetsingssituatie (bv. verschil tussen groepen, verband tussen variabelen, herhaaldelijke metingen, etc.).
### 2.2 Misbruik en beperkingen van statistiek
Hoewel statistiek een krachtig instrument is, kan het ook misbruikt of verkeerd begrepen worden. Belangrijk is om te onthouden dat statistiek alleen onvoldoende is; het moet gecombineerd worden met een correct onderzoeksopzet en methodologie.
#### 2.2.1 Valkuilen in statistische interpretatie
* **Correlatie is geen causatie:** Het feit dat twee variabelen samenhangen (correlatie) betekent niet automatisch dat de ene variabele de andere veroorzaakt. Er kunnen storende variabelen zijn die de waargenomen relatie verklaren.
* **Onduidelijke steekproef en gebrek aan context:** Uitspraken over percentages of gemiddelden zijn pas betekenisvol als de populatie en de omstandigheden waarin de data zijn verzameld duidelijk zijn gespecificeerd.
* **Ongeoorloofde causale conclusies:** Zonder een correct onderzoeksopzet (bv. experimenteel ontwerp) is het moeilijk om causale verbanden te trekken.
#### 2.2.2 Interne en externe validiteit
* **Interne validiteit:** De mate waarin we causale conclusies kunnen trekken over het effect van een onafhankelijke variabele (OV) op een afhankelijke variabele (AV). Drie voorwaarden zijn hierbij essentieel:
1. Het effect van de OV op de AV moet in de voorspelde richting optreden.
2. De oorzaak moet in tijd voorafgaan aan het gevolg.
3. Er mogen geen andere plausibele verklaringen zijn voor het gevonden verband. Experimenteel onderzoek met randomisatie en controle voor storende variabelen is vaak nodig om de interne validiteit te waarborgen.
* **Externe validiteit:** De mate waarin de onderzoeksresultaten gegeneraliseerd kunnen worden naar andere situaties, methoden, tijden of populaties.
#### 2.2.3 Statistische generalisatie
Naast de externe validiteit in brede zin, is er ook **statistische generalisatie**: het vermogen om te generaliseren vanuit de steekproef naar de specifieke populatie waaruit de steekproef getrokken is. De mate van onzekerheid bij deze generalisatie wordt bepaald door de hypothesetoetsing.
### 2.3 Concepten en variabelen in onderzoek
Bij het opzetten van onderzoek is het belangrijk om de verschillende soorten variabelen en onderzoekseenheden te onderscheiden.
#### 2.3.1 Onafhankelijke en afhankelijke variabelen
* **Onafhankelijke Variabelen (OV):** Dit zijn de variabelen die worden gemanipuleerd of gemeten om hun mogelijke effect op andere variabelen te onderzoeken. Ze worden beschouwd als de potentiële 'oorzaken'.
* **Afhankelijke Variabelen (AV):** Dit zijn de variabelen die worden gemeten om te zien of ze beïnvloed worden door de onafhankelijke variabelen. Ze worden beschouwd als de potentiële 'gevolgen'.
#### 2.3.2 Onderzoekseenheden en populatie
* **Onderzoekseenheden (cases):** Dit zijn de individuen, objecten of entiteiten waarop het onderzoek is gericht en waarvan data worden verzameld.
* **Populatie:** De volledige groep waarover men uitspraken wil doen op basis van de steekproefresultaten.
> **Voorbeeld:** In een onderzoek naar de invloed van studiemethode (OV) op examenresultaten (AV) bij studenten, zouden de studenten de onderzoekseenheden zijn. De populatie zijn dan alle studenten van de betreffende opleiding. De studiemethoden (bv. actief studeren vs. passief lezen) zijn de onafhankelijke variabelen, en de behaalde examenresultaten zijn de afhankelijke variabelen.
---
# Misbruik en valkuilen van statistiek
Dit hoofdstuk belicht de gevaren van het misbruiken en verkeerd begrijpen van statistiek, met de nadruk op de noodzaak van correcte methodologie, onderzoeksopzet en formulering, en de specifieke valkuilen van correlatie versus causatie, interne en externe validiteit.
### 3.1 De rol en beperkingen van statistiek
Statistiek is een essentieel hulpmiddel binnen empirisch onderzoek, met als doel gefundeerde uitspraken te doen over wetmatigheden, zoals menselijk gedrag. Het fungeert als een brug tussen observaties in steekproeven en conclusies over de populatie. Echter, statistiek biedt geen absolute zekerheid, aangezien onderzoek vaak gebaseerd is op steekproeven die geen perfecte afspiegeling van de populatie vormen. Toevallige variatie en meetfouten kunnen optreden. Daarom is statistiek gebaseerd op kansberekening om de mate van zekerheid van conclusies in te schatten.
> **Tip:** Onthoud dat statistiek een hulpmiddel is en geen doel op zich. De waarde ervan wordt bepaald door de kwaliteit van de onderzoeksopzet en de correcte interpretatie.
#### 3.1.1 Statistische significantie
Statistische significantie helpt ons te bepalen of waargenomen verschillen of verbanden in steekproeven betekenisvol zijn, of dat ze mogelijk aan toeval te wijten zijn. Het vormt de basis voor hypothesetoetsing.
#### 3.1.2 Kansberekening en hypothesetoetsing
Het proces van hypothesetoetsing start doorgaans met de aanname dat er géén effect of verschil is (de nulhypothese). Vervolgens wordt de kans berekend dat de geobserveerde data het gevolg is van toevalligheden. Als deze kans klein is, wordt de nulhypothese verworpen.
* **Nulhypothese ($H_0$):** Een stelling die stelt dat er geen effect, verschil of verband is.
* **Kansberekening:** Gebaseerd op kansverdelingen (zoals de standaardnormale verdeling) en verschillende toetsen om de waarschijnlijkheid van de nulhypothese te evalueren.
* **Significantieniveau ($\alpha$):** De grens voor het bepalen van een "kleine" kans. Meestal wordt $0.05$ (of $5\%$) gehanteerd. Als de berekende kans kleiner is dan $\alpha$, wordt de nulhypothese verworpen.
> **Tip:** De keuze van de statistische toets is afhankelijk van de specifieke onderzoeksvraag, de aard van de variabelen en de onderzoeksopzet (bv. aantal groepen, steekproefgrootte).
### 3.2 Misbruik en valkuilen van statistiek
Ondanks de precieze formules en software, kan statistiek op verschillende manieren misbruikt of misbegrepen worden. Dit onderstreept het belang van randvoorwaarden die net zo belangrijk zijn als de statistische analyse zelf.
#### 3.2.1 Essentiële randvoorwaarden
1. **Juiste methodologie:** De keuze van de correcte statistische toets is cruciaal.
2. **Correct onderzoeksopzet:** Een goede, representatieve steekproef is fundamenteel.
3. **Correcte formulering in rapporten:** Duidelijke vermelding van significantieniveaus, effectgroottes, en beperkingen.
4. **Correcte vermelding van variabelen:** Een duidelijk onderscheid tussen onafhankelijke (OV) en afhankelijke variabelen (AV).
> **Voorbeeld:** Een advertentie die stelt "Duracell batterijen gaan tot vijf keer langer mee" mist context. Het is onduidelijk waar de vergelijking mee wordt gemaakt en onder welke omstandigheden.
#### 3.2.2 Correlatie versus causatie
Een veelvoorkomende valkuil is het verwarren van correlatie met causatie. Een statistisch verband tussen twee variabelen impliceert niet automatisch dat de ene variabele de andere veroorzaakt.
> **Voorbeeld:** De website "Spurious Correlations" toont talloze voorbeelden van variabelen die sterk met elkaar correleren (bv. het aantal haaienbeten en de consumptie van ijscrème), maar waarbij geen causaal verband bestaat.
#### 3.2.3 Onduidelijke steekproef en gebrek aan context
Claims zoals "95% van de Belgen is tevreden over Activia" kunnen misleidend zijn als de steekproef onduidelijk is of als er geen context wordt geboden over wie deelnam aan het onderzoek.
#### 3.2.4 Interne validiteit
Interne validiteit betreft de mate waarin een onderzoeksopzet toelaat causale conclusies te trekken over het effect van een onafhankelijke variabele (OV) op een afhankelijke variabele (AV).
Drie voorwaarden voor interne validiteit:
1. **Effect van OV op AV in voorspelde richting:** Het effect van de oorzaak moet op de verwachte manier optreden.
2. **Oorzaak gaat vooraf aan gevolg:** De vermoedelijke oorzaak moet in de tijd vóór het gevolg plaatsvinden.
3. **Geen andere verklaringen (storende variabelen):** Er mogen geen alternatieve factoren zijn die het waargenomen verband kunnen verklaren.
> **Voorbeeld:** In een studie naar het verband tussen veel voorgelezen worden en leesvaardigheid bij kinderen, moet men uitsluiten dat kinderen die veel worden voorgelezen sowieso al intrinsiek gemotiveerder zijn om te lezen (alternatieve verklaring). Experimenteel onderzoek met randomisatie en controle van storende variabelen is essentieel om de interne validiteit te waarborgen.
#### 3.2.5 Externe validiteit
Externe validiteit verwijst naar de mate waarin de resultaten van een onderzoek gegeneraliseerd kunnen worden naar andere situaties, methoden, tijdsperioden en populaties.
* **Situaties:** Lijkt de onderzoeksomgeving op de dagelijkse realiteit?
* **Methoden:** Worden dezelfde resultaten verkregen met andere meetinstrumenten?
* **Tijd:** Zijn de resultaten consistent over verschillende perioden?
* **Populaties:** Gelden de bevindingen voor andere groepen mensen?
**Statistische generalisatie** is een specifiek aspect hiervan en heeft betrekking op het generaliseren van steekproefresultaten naar de populatie waaruit de steekproef werd getrokken.
> **Tip:** Goede interne validiteit is een voorwaarde voor externe validiteit. Zonder causale conclusies uit een specifiek onderzoek, is generalisatie naar andere contexten zinloos.
---
# Toepassingen en oefeningen van inductieve statistiek
Dit onderdeel behandelt klassikale oefeningen die gericht zijn op het toepassen van de geleerde concepten van inductieve statistiek, inclusief het onderscheid met beschrijvende statistiek, de empirische cyclus en de identificatie van variabelen en populaties in onderzoeksscenario's.
### 4.1 Het nut van inductieve statistiek in gedragswetenschappelijk onderzoek
Inductieve statistiek dient als een cruciaal hulpmiddel binnen empirisch onderzoek, met name in de gedragswetenschappen. Het stelt onderzoekers in staat om gefundeerde uitspraken te doen over algemene wetmatigheden, zoals menselijk gedrag, op basis van gegevens verzameld uit steekproeven. Omdat onderzoek vrijwel altijd met steekproeven gebeurt, die geen perfecte afspiegeling zijn van de populatie, is er altijd sprake van onzekerheid. Inductieve statistiek biedt methoden om deze onzekerheid te kwantificeren door middel van kansberekening, waardoor men de betrouwbaarheid van de getrokken conclusies kan inschatten.
### 4.2 De empirische cyclus
De empirische cyclus beschrijft de opeenvolgende stappen in wetenschappelijk onderzoek. Deze cyclus is essentieel voor het systematisch vergaren en interpreteren van kennis.
#### 4.2.1 Fasen van de empirische cyclus
De zeven fasen van de empirische cyclus zijn:
1. Vraagstelling of probleemstelling
2. Operationaliseren
3. Steekproef bepalen
4. Gegevens verzamelen
5. Beschrijvende statistiek
6. Inductieve statistiek
7. Conclusies trekken
> **Tip:** Zorg dat je de fasen van de empirische cyclus zowel kunt benoemen als in de juiste volgorde kunt plaatsen voor het examen.
### 4.3 Beschrijvende versus inductieve statistiek
Het onderscheid tussen beschrijvende en inductieve statistiek is fundamenteel voor het begrijpen van de rol van statistiek in onderzoek.
* **Beschrijvende statistiek:** Deze vorm van statistiek richt zich op het schematisch voorstellen en samenvatten van de resultaten van een experiment of survey, vaak aan de hand van kengetallen. Het doel is om inzicht te geven in de verzamelde data zelf.
* **Inductieve statistiek:** Voortbouwend op de beschrijvende statistiek, stelt inductieve statistiek ons in staat om uitspraken te doen over de populatie waaruit de steekproef is getrokken. Het analyseert of de waargenomen verschillen of verbanden in de steekproef statistisch significant zijn, of dat ze waarschijnlijk toe te schrijven zijn aan toeval.
> **Voorbeeld:** De beschrijvende statistiek kan aangeven dat het gemiddelde van een testscore voor meisjes hoger is dan voor jongens. De inductieve statistiek onderzoekt vervolgens of dit verschil groot genoeg is om te concluderen dat er een reëel verschil bestaat tussen de populaties waaruit de meisjes en jongens afkomstig zijn, of dat het verschil waarschijnlijk door toeval is ontstaan.
### 4.4 Variabelen in onderzoek
Het correct identificeren en definiëren van variabelen is cruciaal voor een goed onderzoeksopzet. Variabelen kunnen worden onderverdeeld in onafhankelijke en afhankelijke variabelen.
#### 4.4.1 Onafhankelijke variabele (OV)
De onafhankelijke variabele is de variabele die wordt gemanipuleerd of die de vermeende oorzaak is in een onderzoek. Het is de factor waarvan men vermoedt dat deze invloed heeft op een andere variabele.
#### 4.4.2 Afhankelijke variabele (AV)
De afhankelijke variabele is de variabele die wordt gemeten om het effect van de onafhankelijke variabele te observeren. Het is de variabele die men verwacht te veranderen als gevolg van de onafhankelijke variabele.
> **Voorbeeld:** In onderzoek naar de invloed van haarkleur op intelligentie, is "haarkleur" de onafhankelijke variabele (de vermeende oorzaak) en "intelligentie" (gemeten via een IQ-test) de afhankelijke variabele (het gevolg dat gemeten wordt).
### 4.5 Populatie en onderzoekseenheden
Bij inductieve statistiek is het belangrijk om onderscheid te maken tussen de populatie waarover men uitspraken wil doen en de concrete eenheden waarop de metingen worden verricht.
* **Populatie:** Dit is de gehele groep waarover de onderzoeker conclusies wil trekken. Deze populatie wordt vaak gedefinieerd door specifieke kenmerken (bv. "vrouwelijke werknemers in de privésector").
* **Onderzoekseenheden (cases):** Dit zijn de individuele eenheden (bv. personen, bedrijven) waaruit de steekproef bestaat en waarop de metingen worden gedaan. Elk van deze eenheden wordt als een "case" beschouwd.
### 4.6 Statistische significantie en hypothesetoetsing
Inductieve statistiek maakt gebruik van statistische significantie en hypothesetoetsing om te bepalen of waargenomen verbanden of verschillen betekenisvol zijn en niet enkel het gevolg van toeval.
#### 4.6.1 Statistische significantie
Statistische significantie geeft aan of een waargenomen verschil of verband tussen variabelen waarschijnlijk niet op toeval berust. Het helpt ons te beslissen of we onze hypothesen kunnen verwerpen of aanhouden.
#### 4.6.2 Kansberekening en de nulhypothese
Bij hypothesetoetsing vertrekt men vaak vanuit de **nulhypothese** ($H_0$), die stelt dat er geen verband of verschil is in de populatie. Vervolgens berekent men de kans dat de geobserveerde data het gevolg zijn van toevalligheden, ervan uitgaande dat de nulhypothese waar is.
* Als de kans op de geobserveerde data onder de nulhypothese klein is (meestal kleiner dan 5% of 0.05), verwerpt men de nulhypothese. Dit suggereert dat er een reëel verband of verschil is.
* Als de kans groot is, wordt de nulhypothese aanvaard, wat betekent dat de geobserveerde data verklaard kunnen worden door toeval.
#### 4.6.3 Toetsingssituaties en toetsen
Afhankelijk van de onderzoeksvraag en de aard van de data, worden verschillende statistische toetsen gebruikt. Toetsingssituaties kunnen variëren op basis van het aantal groepen, het type variabele en het aantal deelnemers. De keuze van de juiste toets is essentieel voor valide conclusies.
### 4.7 Misbruik en beperkingen van statistiek
Hoewel statistiek een krachtig hulpmiddel is, is het belangrijk zich bewust te zijn van potentiële valkuilen en misbruik.
#### 4.7.1 Belang van methodologie en randvoorwaarden
Statistische formules en software zijn onvoldoende zonder een correcte methodologie en naleving van randvoorwaarden:
* **Juiste methodologie:** Selectie van de correcte statistische toets.
* **Correct onderzoeksopzet:** Zorgen voor een representatieve steekproef en een valide onderzoeksdesign.
* **Correcte formulering in rapporten:** Duidelijke vermelding van significanties, effectgroottes, en betrouwbaarheidsintervallen.
* **Correcte vermelding van variabelen:** Duidelijk onderscheid tussen onafhankelijke en afhankelijke variabelen.
#### 4.7.2 Veelvoorkomende vormen van misbruik
* **Ongeoorloofde causale conclusies:** Het trekken van causale verbanden uit correlaties. Correlatie impliceert geen causatie.
* **Onduidelijke steekproef:** Generaliseren van resultaten van een niet-representatieve steekproef naar de populatie.
* **Gebrek aan context:** Presenteren van resultaten zonder voldoende achtergrondinformatie (bv. "gaat 5 maal langer mee" zonder de context van de vergelijking te geven).
### 4.8 Validiteit in onderzoek
De validiteit van onderzoek is cruciaal voor de betrouwbaarheid en generaliseerbaarheid van de resultaten. Twee belangrijke vormen van validiteit zijn interne en externe validiteit.
#### 4.8.1 Interne validiteit
Interne validiteit verwijst naar de mate waarin een onderzoeksontwerp causale conclusies kan trekken over het effect van de onafhankelijke variabele (OV) op de afhankelijke variabele (AV). Hiervoor moeten drie voorwaarden vervuld zijn:
1. Het effect van de OV op de AV is in de voorspelde richting.
2. De oorzaak (OV) moet in de tijd voorafgaan aan het gevolg (AV).
3. Er zijn geen andere verklaringen voor het gevonden verband.
Experimenteel onderzoek met randomisatie is vaak nodig om alternatieve verklaringen uit te sluiten en de interne validiteit te waarborgen.
#### 4.8.2 Externe validiteit
Externe validiteit betreft de mate waarin de resultaten van een onderzoek kunnen worden gegeneraliseerd naar andere situaties, methoden, tijdsperioden of populaties. Statistische generalisatie, het generaliseren van de steekproef naar de populatie waaruit deze getrokken is, is een specifiek aspect hiervan.
### 4.9 Samenvatting en oefeningen
Inductieve statistiek volgt op beschrijvende statistiek in de empirische cyclus en stelt ons in staat om op basis van steekproefgegevens onderbouwde beslissingen te nemen over verbanden en verschillen in de populatie. De mate van onzekerheid hierbij wordt gekwantificeerd door kansberekening. De waarde van statistische conclusies hangt echter sterk af van de correcte methodologie en het vermijden van misbruik.
#### 4.9.1 Oefening 1: Onderscheid beschrijvende en inductieve statistiek
* **Beschrijvende statistiek:** Vat verzamelde data samen met kengetallen.
* **Inductieve statistiek:** Bepaalt de betekenis van deze resultaten voor de populatie en toetst hypothesen.
#### 4.9.2 Oefening 2: Fasen van de empirische cyclus
1. Vraagstelling
2. Operationaliseren
3. Steekproef bepalen
4. Gegevens verzamelen
5. Beschrijvende statistiek
6. Inductieve statistiek
7. Conclusies trekken
#### 4.9.3 Oefening 3-7: Variabelen en populatie in onderzoek
Een onderzoek naar de redenen waarom vrouwelijke werknemers in de privésector van job veranderen, verzamelt gegevens van 1008 werknemers over nettomaandloon, pendeltijd, effectiviteit van work-life balance maatregelen, werkelijke turn-over en intentie tot turn-over.
* **Bestudeerde variabelen:** Nettomaandloon, pendeltijd, effectiviteit van work-life balance maatregelen, turnover, intentie tot turnover.
* **Bestudeerde populatie:** Vrouwelijke werknemers in de privésector.
* **Onderzoekseenheden (cases):** Eén persoon.
* **Onafhankelijke variabelen:** Nettomaandloon, pendeltijd, effectiviteit van work-life balance maatregelen.
* **Afhankelijke variabelen:** Turnover, intentie tot turnover.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Inductieve statistiek | Het domein binnen de statistiek dat zich bezighoudt met het trekken van conclusies over een populatie op basis van gegevens verkregen uit een steekproef. Het is bedoeld om generalisaties te maken en hypothesen te toetsen. |
| Empirische cyclus | Een wetenschappelijke methode die bestaat uit opeenvolgende stappen van observatie, inductie, deductie, toetsing en evaluatie. Deze cyclus helpt bij het systematisch vergaren en analyseren van kennis door middel van onderzoek. |
| Steekproef | Een selectie van individuen of eenheden uit een grotere populatie die wordt gebruikt om informatie te verzamelen. De resultaten van de analyse van de steekproef worden geëxtrapoleerd naar de gehele populatie. |
| Populatie | De volledige groep van individuen, objecten of gebeurtenissen die van belang zijn voor een onderzoeksvraag. Een steekproef wordt genomen uit deze populatie om conclusies te kunnen trekken. |
| Onafhankelijke variabele (OV) | Een variabele die wordt gemanipuleerd of geobserveerd om het effect ervan op een afhankelijke variabele te bestuderen. In de context van onderzoek is dit de vermoedelijke oorzaak. |
| Afhankelijke variabele (AV) | Een variabele die wordt gemeten om de invloed van de onafhankelijke variabele te bepalen. Dit is het gevolg dat wordt bestudeerd in relatie tot de onafhankelijke variabele. |
| Statistische significantie | Een maatstaf die aangeeft hoe waarschijnlijk het is dat een waargenomen verband of verschil in de gegevens toeval is. Een significant resultaat suggereert dat het verband waarschijnlijk echt is in de populatie. |
| Nulhypothese ($H_0$) | De hypothese die stelt dat er geen verband of verschil is tussen de variabelen die worden onderzocht. Het doel van hypothesetoetsing is om deze nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| Kansberekening | Het wiskundige domein dat zich bezighoudt met het analyseren van willekeurige gebeurtenissen. Het wordt gebruikt om de waarschijnlijkheid van verschillende uitkomsten te kwantificeren. |
| Hypothesetoetsing | Een statistische procedure die wordt gebruikt om te bepalen of er voldoende bewijs is in een steekproef om de nulhypothese te verwerpen. Het proces omvat het formuleren van hypothesen en het analyseren van data. |
| Kansverdeling | Een functie die de waarschijnlijkheid van verschillende uitkomsten voor een willekeurige variabele weergeeft. Bekende voorbeelden zijn de normale verdeling en de binomiale verdeling. |
| Interne validiteit | De mate waarin een onderzoeksontwerp causale conclusies toelaat. Dit houdt in dat het effect van de onafhankelijke variabele op de afhankelijke variabele betrouwbaar kan worden vastgesteld, zonder dat externe factoren een rol spelen. |
| Externe validiteit | De mate waarin de resultaten van een onderzoek kunnen worden gegeneraliseerd naar andere situaties, populaties, methoden of tijdsperioden. Het gaat om de generaliseerbaarheid van de bevindingen buiten de specifieke onderzoekscontext. |
| Correlatie | Een statistische maat die de sterkte en richting van de lineaire relatie tussen twee variabelen aangeeft. Correlatie impliceert geen causaliteit. |
| Causatie | Het principe dat een gebeurtenis (de oorzaak) direct leidt tot een andere gebeurtenis (het gevolg). Causale verbanden vereisen meer dan alleen correlatie; er moeten specifieke voorwaarden voldaan zijn. |