Cover
Mulai sekarang gratis TMO-topic 6_basis gegevensverwerkingen_stap 1-2 cleaning.pdf
Summary
# Werkwijze gegevensverwerking en opmaak
Deze sectie beschrijft de procedure voor het verwerken en presenteren van onderzoeksgegevens, met de nadruk op het creëren van frequentietabellen en grafieken [1](#page=1) [2](#page=2).
### 1.1 Algemene stappen van gegevensverwerking
Het proces van gegevensverwerking en opmaak volgt een reeks specifieke stappen om tot een duidelijke en bruikbare presentatie van de onderzoeksresultaten te komen [1](#page=1).
1. **Frequentietabellen maken:** Alle kolommen in de dataset worden omgezet naar frequentietabellen die de absolute waarden weergeven [1](#page=1).
2. **Data opschonen (cleanen):** De dataset wordt gereinigd om inconsistenties en fouten te corrigeren [1](#page=1) [2](#page=2).
3. **Basisgrafieken creëren:** Per vraag worden er 'basisgrafieken' (frequentiegrafieken) gemaakt, die zowel absolute waarden als percentages kunnen tonen [1](#page=1).
4. **Speciale grafieken voor rang- en schaalvragen:** Voor vragen die rangordes of schalen betreffen, worden aanvullende 'speciale grafieken' opgesteld. Deze vallen onder een apart topic (topic 7) [1](#page=1).
5. **Draaigrafieken maken:** De belangrijkste draaitabellen worden geselecteerd en omgezet naar draaigrafieken in percentages [1](#page=1).
> **Tip:** Het is essentieel om de data eerst op te schonen voordat er verdere analyses en visualisaties plaatsvinden.
### 1.2 Opmaak van frequentietabellen
Een frequentietabel telt hoe vaak elke unieke code voorkomt binnen één specifieke kolom van de dataset [2](#page=2).
* **Initiële focus op absolute waarden:** In eerste instantie worden frequentietabellen altijd opgesteld met absolute waarden [2](#page=2).
* **Reden voor absolute waarden:** Dit is cruciaal omdat het opschonen van de data (stap 2) ook steeds in absolute waarden gebeurt [2](#page=2).
De docent illustreert deze stap concreet aan de hand van een voorbeeldmatrix genaamd 'oefendatamatrix BRABO TE CLEANEN_basis gegevensverwerkingen cleaning', die beschikbaar is in de Canvas module 'lesmateriaal' [2](#page=2).
> **Tip:** Zorg ervoor dat je de voorbeelden die de docent gebruikt goed volgt, omdat deze de theoretische stappen verduidelijken.
### 1.3 Data opschonen (Cleaning)
Het opschonen van de data is een fundamentele stap die ervoor zorgt dat de analyse en presentatie van de resultaten betrouwbaar zijn. Deze stap wordt uitgevoerd nadat de initiële frequentietabellen in absolute waarden zijn opgesteld [1](#page=1) [2](#page=2).
### 1.4 Grafiektypen
Er worden verschillende soorten grafieken gebruikt om de onderzoeksresultaten te presenteren:
* **Basisgrafieken (frequentiegrafieken):** Deze grafieken worden per vraag gecreëerd en kunnen zowel absolute aantallen als percentages weergeven [1](#page=1).
* **Speciale grafieken:** Deze zijn specifiek bedoeld voor rang- en schaalvragen en worden in een later stadium (topic 7) behandeld [1](#page=1).
* **Draaigrafieken:** Deze worden gegenereerd uit de meest significante draaitabellen en tonen de resultaten in percentages [1](#page=1).
Alleen de grafieken worden uiteindelijk gepresenteerd aan de opdrachtgever [1](#page=1).
---
# Proces van data cleaning
Het proces van data cleaning omvat verschillende cruciale stappen om de integriteit en nauwkeurigheid van de gegevens te waarborgen voordat verdere analyses worden uitgevoerd [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 2.1 Stappen in data cleaning
De data cleaning procedure bestaat uit vier hoofdonderdelen:
#### 2.1.1 Aantallen correctie
Dit betreft het controleren en corrigeren van de aantallen van de verzamelde data. Een belangrijke controle hierbij is of het totaal aantal responsen ('n') correct is in alle frequentietabellen. Fouten ontstaan hierbij vaak bij skipvragen, waar respondenten bepaalde vragen overgeslagen zouden moeten hebben [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 2.1.2 Verkeerde codes verwijderen
Bij deze stap worden onjuiste codes uit de dataset verwijderd. Dit is met name relevant voor zuiver numerieke vragen [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
#### 2.1.3 Code '98. andere, specificeer' opschonen
Antwoorden die onder de categorie '98. andere, specificeer' vallen, vereisen specifieke aandacht. Een vuistregel stelt dat indien de frequentie van antwoorden binnen deze categorie groter is dan 3 tot 5%, deze antwoorden beter uit de '98' categorie gehaald en apart gecodeerd kunnen worden. Afhankelijk van de aard van de vraag kan men ervoor kiezen om deze antwoorden alsnog onder code '98' te plaatsen, of ze te hergroeperen [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
> **Tip:** Overweeg bij het opschonen van de code '98' ook het verschil in aanpak tussen Single Response (SR) en Multiple Response (MR) vragen [6](#page=6).
#### 2.1.4 Antwoordcategorieën met te weinig gegevenheden opschonen
Antwoordcategorieën die door te weinig respondenten zijn gebruikt, worden ook opgeschoond. De aanpak hierbij kan zijn om deze categorieën te verwijderen of ze te hergroeperen, evenals bij de '98' categorie [3](#page=3) [4](#page=4) [5](#page=5) [6](#page=6) [7](#page=7).
### 2.2 Algemene procedures en back-up
* Zorg ervoor dat de filter in de datatabel correct is ingesteld tijdens het opschonen [3](#page=3).
* Na elke aanpassing in de data is het noodzakelijk om 'alles te vernieuwen' om de wijzigingen door te voeren [3](#page=3).
* Het is sterk aan te raden om frequentietabellen te genereren voor alle vragen, zowel in absolute waarden als in percentages [3](#page=3).
> **Tip:** Bewaar altijd een extra kopie van zowel de originele als de opgeschoonde dataset als back-up om dataverlies te voorkomen [8](#page=8).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Frequentietabel | Een tabel die weergeeft hoe vaak elke specifieke code of waarde voorkomt binnen een dataset, meestal eerst in absolute aantallen en daarna eventueel in percentages. |
| Absolute waarden | De daadwerkelijke tellingen van hoe vaak een bepaalde categorie of antwoord voorkomt in de dataset, zonder enige vorm van normalisatie of percentageberekening. |
| Cleaning (opschonen) | Het proces van het identificeren en corrigeren van fouten, inconsistenties of ongewenste gegevens in een dataset om de datakwaliteit te verbeteren voor verdere analyse. |
| Verkeerde codes | Ongeldige of onjuiste invoer in de dataset die niet overeenkomt met de vooraf gedefinieerde antwoordopties of categorieën voor een specifieke vraag. |
| Code ‘98. andere, specificeer’ | Een specifieke categorie in een vragenlijst of dataset die wordt gebruikt voor antwoorden die niet onder de vooraf gedefinieerde opties vallen, met de instructie dat deze gespecificeerd moeten worden. |
| Antwoordcategorieën die te weinig gegeven zijn | Categorieën binnen een vraag waarvan het aantal respondenten dat deze heeft gekozen, significant laag is, wat kan leiden tot het samenvoegen of verwijderen ervan. |
| Skipvragen | Vragen in een vragenlijst die alleen aan een deel van de respondenten worden gesteld, afhankelijk van hun eerdere antwoorden, wat kan leiden tot speciale verwerkingsuitdagingen. |
| Zuiver numerieke vragen | Vragen die uitsluitend numerieke antwoorden verwachten, zoals leeftijden, aantallen of meetwaarden, en waarvoor specifieke controle op geldigheid van de numerieke invoer noodzakelijk is. |
| SR (Single Response) | Een type vraag waarbij de respondent slechts één antwoord mag kiezen uit een reeks opties. |
| MR (Multiple Response) | Een type vraag waarbij de respondent meerdere antwoorden mag kiezen uit een reeks opties. |