Cover
Start now for free Werkcollege1_oplossing_2526.docx
Summary
# Voorbereiding en opschonen van data in SPSS
Deze sectie beschrijft de essentiële stappen voor het voorbereiden en opschonen van data in SPSS, inclusief het instellen van variabele eigenschappen, het omgaan met missing values en het transformeren van variabelen.
### 1.1 Variabele eigenschappen instellen in Variable View
Het correct instellen van variabele eigenschappen in SPSS is cruciaal voor accurate analyse en duidelijke rapportage. Dit gebeurt via het 'Variable View'-tabblad.
#### 1.1.1 Labels en waarden definiëren
* **Name**: Gebruik dit voor een korte, interne codenaam voor de variabele, zonder spaties.
* **Label**: Gebruik dit voor een duidelijke, beschrijvende naam die gebruikt wordt in de output en voor lezers.
* **Values**: In deze kolom geef je betekenis aan de numerieke codes die aan een variabele zijn toegekend. Dit is essentieel voor de interpreteerbaarheid van de data.
> **Voorbeeld:**
> Voor de variabele 'Geslacht' kan '0' gelabeld worden als 'man' en '1' als 'vrouw'. Voor een schaalvariabele van 1 tot 5 kan elke waarde gelabeld worden, bijvoorbeeld: '1' voor "Helemaal niet akkoord" en '5' voor "Helemaal akkoord".
#### 1.1.2 Specifieke label voorbeelden
* **Geslacht**: Label mannen als `0` en vrouwen als `1`.
* **Behulpzaamheid / Vriendelijkheid**: Label waarden van `1` tot `5`, waarbij `1` staat voor "Helemaal niet akkoord" en `5` voor "Helemaal akkoord".
* **Verkopers**: Label de verkopers als volgt: `1` voor "Peter", `2` voor "Sara", `3` voor "Emilie", `4` voor "Dries" en `5` voor "Karen".
### 1.2 Data controleren en missing values identificeren
Na het invoeren van data is het essentieel om deze te controleren op onregelmatigheden en missing values.
#### 1.2.1 Frequentietabellen voor opsporing
* Gebruik `Analyze > Frequency` om frequentietabellen op te vragen. Deze tabellen helpen bij het identificeren van:
* Ontbrekende waarden (missing values).
* Onregelmatige of foutieve waarden.
> **Voorbeeld:**
> In de 'Behulpzaamheid'-variabele kunnen missing values voorkomen, en er kan bijvoorbeeld een foutieve waarde van '54' geïdentificeerd worden.
#### 1.2.2 Omgaan met onregelmatige waarden
Onregelmatige waarden, zoals de geïdentificeerde '54' in 'Behulpzaamheid', moeten behandeld worden. Als de oorzaak van de fout onbekend is en de originele waarde niet te achterhalen valt, is het aan te raden deze te hercoderen naar een missing value.
* Gebruik `Transform > Recode into same variables` om de foutieve waarde te hercoderen.
* Je kunt deze hercoderen naar een "system missing" (aangegeven met een `.`) of, in oudere praktijken, naar een specifieke numerieke code zoals `-9999`.
> **Tip:**
> SPSS geeft missing values automatisch aan met een punt (`.`). Vroeger was het gebruikelijk om deze naar `-9999` te hercoderen, maar dit is niet langer strikt noodzakelijk. Het belangrijkste is dat SPSS deze waarden correct herkent.
#### 1.2.3 User-defined missing values
Hoewel SPSS standaard missing values herkent, kan het nuttig zijn om specifieke waarden als missing te definiëren, vooral als er met codes als `-9999` wordt gewerkt.
1. Ga naar `Transform > Recode into same variables`.
2. Selecteer de variabelen die missing values bevatten.
3. Definieer de oude waarden (bv. `-9999`) als "system- or user-missings".
4. In 'Variable View', bij de betreffende variabelen, klik op de cel in de kolom 'Missings'.
5. Kies "Discrete Missing Values" en voer de specifieke code in (bv. `-9999`).
> **Belangrijk:**
> Door missing values te definiëren, zorgt u ervoor dat SPSS deze waarden correct negeert bij berekeningen zoals gemiddelden, om zo misleidende resultaten te voorkomen. Zonder deze definitie kan SPSS de missing value codes meenemen in berekeningen.
### 1.3 Variabelen met verschillende schalen omzetten
Wanneer variabelen niet in dezelfde richting geschaald zijn, is het nodig deze te hercoderen om ze vergelijkbaar te maken en conflicten in analyses te voorkomen.
#### 1.3.1 Recoderen naar verschillende variabelen
Dit proces wordt gebruikt om een nieuwe variabele te creëren met omgekeerde scores, zodat deze overeenkomt met de schaal van andere variabelen.
1. Gebruik `Transform > Recode into different Variables`.
2. Geef de nieuwe variabele een duidelijke naam (bv. `Vriendelijk_recode`).
3. Definieer de oude en nieuwe waarden:
* Oude waarde `1` wordt nieuwe waarde `5`.
* Oude waarde `2` wordt nieuwe waarde `4`.
* Oude waarde `3` blijft `3`.
* Oude waarde `4` wordt nieuwe waarde `2`.
* Oude waarde `5` wordt nieuwe waarde `1`.
* "System- or user-missing" waarden worden gekopieerd.
> **Voorbeeld van omgekeerde schaling:**
> Stel, bij 'Behulpzaamheid' betekent `1` "Helemaal niet behulpzaam" en `5` "Erg behulpzaam". Bij 'Vriendelijkheid' betekent `1` echter "Niet vriendelijk" en `5` "Erg vriendelijk". Om deze consistent te maken, moet 'Vriendelijkheid' hercodeerd worden.
#### 1.3.2 Missings en waarden voor nieuwe variabelen
> **FAQ Antwoord:**
> Het is noodzakelijk om de missing values voor de nieuwe variabele aan te duiden. Het aanpassen van de 'Values' in 'Variable View' is niet strikt wiskundig of statistisch noodzakelijk, maar maakt de output van tabellen wel duidelijker (bv. "man" en "vrouw" in plaats van "0" en "1").
### 1.4 Nieuwe variabelen berekenen op basis van bestaande variabelen
Vaak is het wenselijk om samengestelde variabelen te creëren, bijvoorbeeld een totale tevredenheidsscore.
* Gebruik `Transform > Compute New Variable`.
* Definieer de formule voor de nieuwe variabele.
> **Voorbeeld:**
> Maak een variabele `Klantentevredenheid` aan die het gemiddelde is van de hercodeerde 'Vriendelijkheid' en de originele 'Behulpzaamheid' variabele. De formule zou dan zijn: `Klantentevredenheid = MEAN(Behulpzaam, Vriendelijkheid_recode)`.
> Houd er rekening mee dat deze nieuwe variabele ook missing values kan bevatten als een van de inputvariabelen missing is.
---
# Beschrijvende statistiek en visualisatie met SPSS
Dit hoofdstuk behandelt het verkennen en samenvatten van data met behulp van beschrijvende statistieken en visualisatietechnieken in SPSS.
### 2.1 Basisprincipes en datavoorbereiding in SPSS
Voordat statistische analyses kunnen worden uitgevoerd, is het cruciaal om de data in SPSS correct voor te bereiden en te structureren. Dit omvat het definiëren van variabelen en het omgaan met ontbrekende waarden.
#### 2.1.1 Variabele eigenschappen instellen
Via de "Variable View" in SPSS kunnen de eigenschappen van elke variabele worden ingesteld:
* **Labels:** Duidelijke beschrijvingen voor variabelen en hun waarden. Bijvoorbeeld, mannen worden gelabeld als '0' en vrouwen als '1'.
* **Values:** Betekenis toekennen aan numerieke codes. Voor beoordelingsschalen (bv. behulpzaamheid, vriendelijkheid) kan '1' staan voor "Helemaal niet akkoord" en '5' voor "Helemaal akkoord". Verkoper namen worden ook gecodeerd (bv. '1' voor "Peter").
> **Tip:** Het correct labelen van variabelen en waarden verbetert de leesbaarheid van de output aanzienlijk en zorgt voor een heldere presentatie van de resultaten.
#### 2.1.2 Controle op onregelmatigheden en missing values
Het opsporen en behandelen van missing values en onregelmatige data is essentieel voor betrouwbare analyses.
* **Frequentietabellen:** Deze worden opgevraagd via `Analyze > Frequency` en bieden een eerste inzicht in de data, inclusief de aanwezigheid van missing values en potentiële foutieve waarden.
* **Recoderen van waarden:** Onregelmatige of foutieve waarden kunnen worden hergecodeerd naar "system missing" (aangegeven met een '.') of naar een specifieke user-missing value (bv. -9999). Dit gebeurt via `Transform > Recode into same variables`.
* **Missings definiëren:** Om ervoor te zorgen dat SPSS deze missende waarden correct negeert tijdens berekeningen, moeten ze worden gedefinieerd in de "Variable View" onder de kolom "Missings" (bv. als discrete missing value -9999).
> **Tip:** Het is cruciaal om altijd te controleren op missing values. Als ze niet correct gedefinieerd zijn, zal SPSS ze meenemen in berekeningen, wat leidt tot misleidende resultaten.
#### 2.1.3 Omgaan met omgekeerde schalen
Wanneer vragenlijsten verschillende schaalrichtingen hanteren (bv. hoge scores betekenen positief voor de ene vraag en negatief voor de andere), is het noodzakelijk deze variabelen te hercoderen zodat ze consistent zijn voor latere analyses, zoals het berekenen van gemiddelden.
* **Recoderen naar verschillende variabelen:** Via `Transform > Recode into different variables` kan een nieuwe, omgekeerde variabele worden aangemaakt. Hierbij worden de waarden van de oorspronkelijke schaal omgezet naar de corresponderende waarden op de nieuwe schaal (bv. oude waarde '1' wordt nieuwe waarde '5').
* **Waarden en missings instellen:** Net als bij de oorspronkelijke variabelen, moeten de waarden en missing values van de nieuwe, omgekeerde variabele correct worden ingesteld in de "Variable View".
> **Tip:** Het aanpassen van de "Values" in de Variable View voor de omgekeerde variabele is niet strikt noodzakelijk voor wiskundige berekeningen, maar verbetert wel de leesbaarheid van de output in tabellen.
#### 2.1.4 Nieuwe variabelen creëren
Nieuwe variabelen kunnen worden samengesteld uit bestaande variabelen, bijvoorbeeld door het berekenen van gemiddelden.
* **Compute New Variable:** Via `Transform > Compute New Variable` kunnen nieuwe variabelen worden gecreëerd. Een veelvoorkomende toepassing is het berekenen van een gemiddelde over meerdere items, zoals "Klantentevredenheid" berekend als het gemiddelde van de (gerecodeerde) vriendelijkheid en behulpzaamheid.
### 2.2 Maten voor centrale tendens en spreiding
Beschrijvende statistieken helpen om de belangrijkste kenmerken van een dataset samen te vatten.
#### 2.2.1 Maten voor centrale tendens
Deze maten geven een indicatie van het "centrum" van de data.
* **Frequentieanalyse:** Via `Analyze > Frequency` kunnen deze maten worden opgevraagd.
* **Modus (Mode):** De meest voorkomende waarde in een dataset. Dit is met name nuttig voor nominale variabelen (bv. geslacht).
* **Rekenkundig gemiddelde (Mean):** De som van alle waarden gedeeld door het aantal waarden. Dit is een geschikte maat voor interval- of ratiovariabelen (bv. leeftijd).
> **Voorbeeld:** Voor de variabele "Geslacht" (0=man, 1=vrouw) geeft de modus aan of er meer mannen of vrouwen in de steekproef zijn. Voor "Leeftijd" geeft het gemiddelde de typische leeftijd van de respondenten weer.
#### 2.2.2 Maten voor spreiding
Deze maten beschrijven de variabiliteit of verspreiding van de data rond het centrum.
* **Standaardafwijking (Standard Deviation):** Een maat voor de gemiddelde afstand van de observaties tot het gemiddelde. Een grotere standaardafwijking duidt op meer spreiding. Dit wordt ook opgevraagd via `Analyze > Frequency > Statistics`.
> **Voorbeeld:** De standaardafwijking van de leeftijd geeft aan hoeveel de leeftijden van de respondenten typisch afwijken van het gemiddelde.
### 2.3 Visualisatie van data
Grafische weergaven zijn essentieel om data te presenteren en patronen te ontdekken.
#### 2.3.1 Staafdiagrammen
Staafdiagrammen zijn geschikt voor het visualiseren van frequenties of gemiddelden van categorische of discrete variabelen.
* **Enkelvoudig staafdiagram:** Via `Analyze > Frequencies > Charts > Bar Chart` of `Graphs > Bar Chart > Simple` kan een staafdiagram worden gegenereerd voor de scores van bijvoorbeeld klantentevredenheid.
* **Geclusterd staafdiagram:** Hiermee kunnen staafdiagrammen worden vergeleken tussen verschillende groepen. Via `Graphs > Bar Chart > Clustered` kan bijvoorbeeld de klantentevredenheid worden gevisualiseerd per verkoper. Hierbij wordt de te meten variabele (klantentevredenheid) geplaatst op de categorie-as en de groeperingsvariabele (naam verkoper) op "Define clusters by".
#### 2.3.2 Multiple Response Analyse
Wanneer respondenten meerdere antwoorden kunnen kiezen uit een reeks opties, kan een "multiple response" analyse worden uitgevoerd.
* **Variable Set aanmaken:** Via `Analyze > Multiple Response > Variable Set` worden de relevante variabelen geselecteerd. Indien de data binair is (0=niet gekozen, 1=gekozen), wordt dit gespecificeerd als "dichotomous" met de "counted value" gelijk aan 1.
* **Frequentietabel opvragen:** Na het aanmaken van de set, kan via `Analyze > Multiple Response > Frequencies` een frequentietabel worden opgevraagd die het percentage respondenten weergeeft dat elke optie heeft gekozen.
> **Voorbeeld:** Om te zien welke culturele venues populair zijn, kan een multiple response analyse worden uitgevoerd op de variabelen die de bezochte venues vertegenwoordigen.
### 2.4 Datareductie: Factoranalyse
Factoranalyse is een techniek om de onderliggende structuur van een set variabelen te ontdekken en het aantal variabelen te reduceren door ze te groeperen in factoren.
* **Procedure:** Via `Analyze > Dimension Reduction > Factor` wordt de factoranalyse uitgevoerd.
* **Belangrijke output:**
* **Correlatiematrix:** Geeft de sterkte van de lineaire relaties tussen variabelen weer. Correlaties groter dan .3 worden als potentieel nuttig voor factoranalyse beschouwd.
* **KMO en Bartlett's Test:** De Kaiser-Meyer-Olkin (KMO) maat test de steekproefadequaatheid (waarde > 0.6 is acceptabel). Bartlett's test of sphericity toetst of er significante correlaties zijn in de data (p < .05 is gewenst).
* **Communalities:** Geeft aan welk deel van de variantie van elke variabele wordt verklaard door de factoroplossing. Commonalities groter dan .45 zijn wenselijk.
* **Total Variance Explained:** Toont hoeveel variantie elke factor verklaart. De som van de verklaarde variantie van de gekozen factoren streeft naar een significante proportie van de totale variantie (vaak rond 60%). Eigenwaarden die dalen onder 1 geven een indicatie voor het aantal te behouden factoren.
* **Scree plot:** Een grafische weergave van de eigenwaarden. De "knik" of "elleboog" in de plot helpt bij het bepalen van het optimale aantal factoren.
* **Geroteerde Component Matrix:** Presenteert de factorladingen na rotatie (bv. Varimax). Ladingen hoger dan .5 duiden op een sterke relatie tussen een variabele en een factor. De interpretatie van de factoren gebeurt op basis van de variabelen die hoog op een specifieke factor laden.
> **Tip:** Factoranalyse is een interpretatieve techniek. De onderzoeker moet de geïdentificeerde factoren benoemen op basis van de inhoud van de variabelen die eraan gerelateerd zijn. De factoren zijn niet altijd eenduidig en vereisen soms aanpassing van de analyse of iteratieve benaderingen.
#### 2.4.1 Betrouwbaarheidsanalyse (Cronbach's Alpha)
Cronbach's alpha meet de interne consistentie van een set items die een factor of schaal vormen.
* **Procedure:** Via `Analyze > Scale > Reliability Analysis` wordt Cronbach's alpha berekend.
* **Interpretatie:** Een Cronbach's alpha waarde hoger dan .7 wordt over het algemeen beschouwd als een indicatie van goede interne consistentie.
* **Item-Total Statistics:** Deze tabel biedt inzicht in hoe elk item bijdraagt aan de totale schaalbetrouwbaarheid. Items met lage "Corrected Item-Total Correlations" of een verbetering van Cronbach's Alpha bij verwijdering, kunnen overwogen worden om weg te laten, mits dit theoretisch verantwoord is.
> **Voorbeeld:** Na het uitvoeren van een factoranalyse op winkelervaringen, kan Cronbach's alpha worden berekend voor de items die de factor "plezier" vormen. Een hoge waarde bevestigt dat deze items consistent meten wat ze beogen. Voor de "planning" factor kan de alpha lager uitvallen, wat kan duiden op mogelijke verbeteringen in de items.
---
# Analyse van meerkeuzevragen en datareductie met factoranalyse
Dit gedeelte behandelt de constructie en interpretatie van multiple response tabellen, evenals de toepassing van factoranalyse voor het identificeren van onderliggende dimensies en het berekenen van Cronbach's alpha.
### 3.1 Data voorbereiding en beschrijvende statistiek
Voordat complexere analyses kunnen worden uitgevoerd, is het essentieel om ruwe data op te schonen en te structureren. Dit omvat het correct coderen van variabelen, het omgaan met missing values en het uitvoeren van beschrijvende statistieken om de steekproef te karakteriseren.
#### 3.1.1 Variabele eigenschappen en codering
Bij het werken met data is het belangrijk om variabelen correct te definiëren in SPSS. Via "Variable View" kunnen verschillende eigenschappen worden ingesteld:
* **Labels:** Beschrijvende namen voor variabelen en hun waarden. Bijvoorbeeld, 'man' kan gecodeerd worden als '0' en 'vrouw' als '1'. Voor schaalvragen (bv. behulpzaamheid, vriendelijkheid) worden waarden van 1 (Helemaal niet akkoord) tot 5 (Helemaal akkoord) gelabeld.
* **Name:** Een korte, interne code voor de variabele zonder spaties.
* **Values:** Betekenis toekennen aan numerieke codes. Dit is cruciaal voor interpretatie en voor correcte output in tabellen.
#### 3.1.2 Omgaan met missing values en onregelmatigheden
Het opsporen en behandelen van missing values is een standaardprocedure.
* **Opsporen:** Frequentietabellen (Analyze > Frequency) kunnen helpen bij het identificeren van ontbrekende of onregelmatige waarden.
* **Her-codering:** Onregelmatige waarden die niet correct geïnterpreteerd kunnen worden, worden best omgezet naar systeem- of gebruikers-missing values. Dit kan via `Transform > Recode into same variables`. System missing values worden in SPSS aangeduid met een punt (`.`). Vroeger werden vaak numerieke codes zoals `-9999` gebruikt, wat nog steeds mogelijk is, maar vereist dat dit expliciet als missende waarde wordt gedefinieerd in "Variable View" om correcte berekeningen te garanderen.
> **Tip:** Het is altijd belangrijk om na te gaan of er missing values in de dataset zitten en hoe hiermee wordt omgegaan, omdat deze anders onbedoeld mee worden genomen in berekeningen zoals gemiddelden.
#### 3.1.3 Omkeren van items (reverse scoring)
Soms zijn schaalitems niet in dezelfde richting geschaald. Om te voorkomen dat deze elkaar opheffen in een gecombineerde score, is het noodzakelijk om bepaalde items om te keren (reverse scoring).
* **Procedure:** Via `Transform > Recode into different Variables` kan een nieuwe variabele worden aangemaakt waarbij de scores van de originele variabele worden omgezet. Bijvoorbeeld, een score van 1 wordt 5, 2 wordt 4, 3 blijft 3, 4 wordt 2 en 5 wordt 1.
> **Tip:** Voor het aanmaken van nieuwe variabelen met omgekeerde scores is het toevoegen van missings altijd noodzakelijk. Het aanpassen van de 'Values' in Variable View is optioneel maar verbetert de leesbaarheid van de output.
#### 3.1.4 Berekenen van samengestelde variabelen
Vaak worden meerdere items samengevoegd tot één nieuwe variabele, zoals een klanttevredenheidsscore.
* **Procedure:** Dit kan via `Transform > Compute New Variable`. Een veelgebruikte functie is `MEAN()` om het gemiddelde te berekenen van de geselecteerde variabelen. Houd rekening met het feit dat deze nieuwe variabele ook missing values kan bevatten als een van de inputvariabelen een missing value is.
#### 3.1.5 Beschrijvende statistiek
Om een steekproef te karakteriseren, worden maten voor centrale tendens en spreiding opgevraagd.
* **Centrale tendens:**
* **Gemiddelde (Mean):** Geschikt voor interval- en ratio-variabelen (bv. leeftijd).
* **Modus (Mode):** Geschikt voor nominale variabelen (bv. geslacht) en geeft de meest voorkomende waarde aan.
* Op te vragen via `Analyze > Frequency > Statistics`.
* **Spreiding:**
* **Standaardafwijking (Standard Deviation):** Geeft de spreiding van de data rond het gemiddelde aan voor interval- en ratio-variabelen.
* Op te vragen via `Analyze > Frequency > Statistics`.
* **Grafische weergave:**
* Staafdiagrammen zijn geschikt voor het visualiseren van scores van samengestelde variabelen (bv. klantentevredenheid).
* Geclusterde staafdiagrammen kunnen gebruikt worden om scores te vergelijken per categorie (bv. klanttevredenheid per verkoper). Dit kan via `Graphs > Bar Chart`.
### 3.2 Multiple Response Tabellen
Multiple response tabellen zijn nuttig wanneer respondenten meerdere antwoorden mogen selecteren op een vraag, waarbij elke optie onafhankelijk van de andere kan worden gekozen.
#### 3.2.1 Opstellen van een Multiple Response Set
Voordat een analyse kan worden uitgevoerd, moeten de geselecteerde variabelen worden gegroepeerd in een "Multiple Response Set".
* **Procedure:** Via `Analyze > Multiple Response > Variable Set`. De variabelen die de antwoordopties vertegenwoordigen, worden geselecteerd.
* **Dichotomous:** Als de variabelen gecodeerd zijn als 0 (niet geselecteerd) en 1 (geselecteerd). De "Counted Value" is dan 1.
* **Category:** Als de variabelen een reeks getallen vertegenwoordigen met een vaste stapgrootte.
#### 3.2.2 Interpreterende Multiple Response Frequenties
Na het opstellen van de set, kunnen frequentietabellen worden opgevraagd.
* **Procedure:** Via `Analyze > Multiple Response > Frequencies`.
* **Interpretatie:** De output toont het aantal respondenten dat elke optie heeft geselecteerd, het percentage van de respondenten, en het percentage van het totale aantal antwoorden per optie. Dit helpt bij het identificeren van de meest populaire opties.
> **Example:** Als in een onderzoek naar bezochte culturele venues, 'Vooruit' door 50% van de respondenten is geselecteerd, is dit de populairste venue onder de bevraagde opties.
### 3.3 Datareductie met Factoranalyse
Factoranalyse is een techniek die wordt gebruikt om een groot aantal variabelen te reduceren tot een kleiner aantal onderliggende latente factoren of dimensies, die de correlaties tussen de oorspronkelijke variabelen verklaren.
#### 3.3.1 Uitvoeren van een factoranalyse
De analyse wordt doorgaans uitgevoerd via `Analyze > Dimension Reduction > Factor`.
* **Selectie van variabelen:** Alle relevante items die potentieel een gemeenschappelijke factor delen, worden geselecteerd.
* **Descriptives:**
* **Coefficients:** Geeft de correlatiematrix van de items weer. Correlaties groter dan `0.3` duiden op mogelijke onderliggende structuur.
* **KMO and Bartlett's test of sphericity:**
* **KMO:** Meet de geschiktheid van de steekproef voor factoranalyse. Een waarde groter dan `0.6` wordt als acceptabel beschouwd.
* **Bartlett's test:** Toetst of de correlatiematrix significant verschilt van een identiteitsmatrix. Een significante p-waarde (kleiner dan `0.05`) suggereert dat er voldoende correlatie is tussen de items om factoranalyse toe te passen.
* **Extraction:**
* **Method:** Meestal "Principal Component Analysis" of "Principal Axis Factoring".
* **Scree plot:** Een grafiek die de eigenwaarden (variantie verklaard door elke factor) per factor toont. De "knik" of "elleboog" in de plot helpt bij het bepalen van het optimale aantal te behouden factoren. Factoren vóór de knik verklaren substantiële variantie, terwijl factoren erna vooral ruis zijn.
* **Rotation:**
* **Varimax:** Een orthogonale rotatie die de factoren zo puur mogelijk probeert te maken (een item laadt hoog op één factor en laag op de andere). Dit verbetert de interpreteerbaarheid.
* **Direct Oblimin/Promax:** Oblimige rotaties die correlaties tussen factoren toestaan, nuttig als er theoretisch verbanden tussen factoren worden verwacht.
#### 3.3.2 Interpreterende factoranalyse output
* **Communalities:** Geeft aan welk deel van de variantie van elk item verklaard wordt door de factoroplossing. Waarden lager dan `0.45` kunnen een reden zijn om een item te overwegen te verwijderen.
* **Total Variance Explained:** Toont hoeveel procent van de totale variantie wordt verklaard door de geselecteerde factoren. Een vuistregel is om te streven naar een verklaarde variantie van ongeveer `60%`. De "Eigenvalues" kolom geeft de variantie per factor weer. Factoren met een eigenvalue lager dan 1 worden doorgaans niet behouden.
* **Component Matrix (Ongeroteerd) & Rotated Component Matrix:**
* **Component Matrix:** Toont de factorladingen van de items op de ongeroteerde factoren.
* **Rotated Component Matrix:** Toont de factorladingen na rotatie. Ladingen hoger dan `0.5` worden als substantieel beschouwd en duiden op de toewijzing van een item aan een specifieke factor.
* **Interpretatie:** De items met hoge ladingen op dezelfde factor vormen samen een dimensie. De inhoudelijke betekenis van deze items wordt gebruikt om de factor te benoemen.
> **Example:** Als items die gaan over "winkelen is leuk", "genieten van de sfeer" en "winkelen op het gemak" hoog laden op dezelfde factor, kan deze factor worden geïnterpreteerd als "plezier in winkelen".
#### 3.3.3 Berekenen van Cronbach's Alpha
Cronbach's alpha wordt gebruikt om de interne consistentie van een schaal te meten, oftewel hoe goed de items die een factor vormen, samenhangen.
* **Procedure:** Via `Analyze > Scale > Reliability Analysis`.
* De items die samen een factor vormen, worden geselecteerd.
* De statistiek die wordt opgevraagd is "Cronbach's Alpha".
* **Interpretatie:**
* Een waarde van `Cronbach's Alpha` hoger dan `0.7` wordt over het algemeen als acceptabel beschouwd voor betrouwbare schalen. Waarden boven `0.8` zijn goed, en boven `0.9` zijn uitstekend.
* De **Item-Total Statistics** tabel kan helpen bij het identificeren van items die de betrouwbaarheid van de schaal verlagen. Als het weglaten van een item de Cronbach's alpha verhoogt tot boven de gewenste drempel, kan overwogen worden het item te verwijderen.
> **Tip:** Een lage Cronbach's alpha (bv. lager dan 0.7) voor een factor kan erop wijzen dat de items niet goed samenhangen of dat de factor uit te weinig items bestaat. Het kan ook duiden op de noodzaak om items te hercoderen of te verwijderen.
### 3.4 Toepassingen van Factoranalyse
De principes van factoranalyse worden toegepast op diverse onderzoeksgebieden, zoals het ontdekken van de onderliggende dimensies van attitudes (bv. milieubesef, Schwartz-waarden) of het reduceren van meetinstrumenten.
#### 3.4.1 Analyse van milieubesef en Schwartz-waarden
In het voorbeeld van milieubesef en Schwartz-waarden toont factoranalyse de onderliggende dimensies aan:
* **Milieubesef:** Kan resulteren in factoren zoals "mensgericht milieubesef", "grenzen van de ander" (zorg voor anderen), en "natuurgericht milieubesef".
* **Schwartz-waarden:** Kunnen worden gereduceerd tot dimensies zoals conservatisme, openheid voor verandering, en narcisme/verbondenheid met de wereld.
De interpretatie van de rotatiematrix, met name de factorladingen, is hier cruciaal om de betekenis van elke factor te duiden. Items met hoge ladingen op een specifieke factor worden gegroepeerd en krijgen een naam die de gemeenschappelijke thematiek van die items weerspiegelt.
> **Tip:** Bij de interpretatie van factoranalyse is het belangrijk om zowel de statistische output (ladingen, eigenwaarden) als de inhoudelijke betekenis van de items in acht te nemen. Soms is de statistische oplossing niet direct inhoudelijk logisch, wat leidt tot aanpassingen in de analyse (bv. items verwijderen).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Variabele | Een kenmerk of eigenschap die gemeten of geobserveerd kan worden en die kan variëren tussen individuen of observaties. Variabelen kunnen numeriek of categorisch zijn. |
| Missing values | Gegevens die ontbreken in een dataset. Deze kunnen ontstaan door verschillende redenen, zoals het niet invullen van een vraag, fouten tijdens datainvoer of technische problemen. SPSS geeft deze meestal aan met een punt (.). |
| Herkoderen | Het proces van het transformeren van waarden van een variabele naar andere waarden. Dit wordt vaak gedaan om missing values te creëren, om variabelen op een andere schaal te zetten of om categorieën samen te voegen. |
| Centrale tendens | Maten die de typische of middelste waarde van een dataset beschrijven. De meest voorkomende maten zijn het gemiddelde, de mediaan en de modus. |
| Spreiding | Maten die de mate van variabiliteit of verspreiding van de gegevens in een dataset beschrijven. De standaardafwijking en de variantie zijn voorbeelden van maten voor spreiding. |
| Staafdiagram | Een grafische weergave van categorische gegevens, waarbij de lengte van elke staaf de frequentie of het percentage van de desbetreffende categorie weergeeft. |
| Geclusterd staafdiagram | Een staafdiagram waarbij groepen staven naast elkaar worden geplaatst om de waarden van een bepaalde variabele te vergelijken over verschillende categorieën van een andere variabele. |
| Multiple response | Een analyse in SPSS die gebruikt wordt wanneer respondenten meerdere antwoorden kunnen selecteren uit een lijst van opties. Het resultaat is een tabel die de frequentie van elk antwoord en combinaties daarvan toont. |
| Factoranalyse | Een statistische techniek die gebruikt wordt om een grote set variabelen te reduceren tot een kleiner aantal onderliggende factoren of latente constructen. Het doel is om de structuur van de variabelen te identificeren. |
| Factorlading | Een waarde die aangeeft hoe sterk een variabele correleert met een specifieke factor. Ladingen tussen .3 en .5 worden vaak als acceptabel beschouwd, boven .5 als goed, en boven .7 als zeer goed. |
| Cronbach's alpha | Een maat voor interne consistentie die aangeeft hoe nauw de items van een schaal of test meten wat ze beogen te meten. Een waarde hoger dan .7 wordt over het algemeen als acceptabel beschouwd. |
| KMO-test (Kaiser-Meyer-Olkin measure of sampling adequacy) | Een statistische test die beoordeelt of de steekproefgrootte adequaat is voor factoranalyse en of de variabelen voldoende gecorreleerd zijn om deze analyse zinvol te maken. Een waarde boven 0.6 is acceptabel. |
| Bartlett's test of sphericity | Een statistische test die toetst of de correlatiematrix significant verschilt van een identiteitsmatrix. Een significante p-waarde (p < .05) suggereert dat er correlaties tussen de variabelen zijn en dat factoranalyse geschikt is. |
| Scree plot | Een grafiek die de eigenwaarden van de factoren weergeeft. Deze plot wordt gebruikt om het optimale aantal factoren te bepalen door te kijken naar de "knik" of "elleboog" in de curve. |
| Varimax rotatie | Een methode van factorrotatie die de factoren zo eenvoudig mogelijk maakt door de variantie van de factorladingen te maximaliseren. Dit resulteert in factoren waarbij variabelen hoge ladingen op slechts één factor hebben. |
| Communalities | Geeft aan welk deel van de variantie van een variabele wordt verklaard door de geëxtraheerde factoren. Lage communalities duiden erop dat de factoroplossing weinig van de variantie van die variabele verklaart. |
| Eigenwaarde | Een maat voor de hoeveelheid variantie die door een factor wordt verklaard. Factoren met een eigenwaarde groter dan 1 worden over het algemeen behouden, omdat ze meer variantie verklaren dan een enkele variabele zou doen. |