Cover
Börja nu gratis SAMENVATTING PSYCHODIAGNOSTIEK.pdf
Summary
# Historische ontwikkeling van psychodiagnostiek
De historische ontwikkeling van psychodiagnostiek toont een lange evolutie van vroege, vaak intuïtieve methoden naar meer gestandaardiseerde en wetenschappelijke benaderingen in het beoordelen van psychologische kenmerken [11](#page=11).
### 1.1 De eerste sporen
De beginselen van psychodiagnostiek zijn zeer oud en terug te vinden in verschillende oude beschavingen [11](#page=11).
#### 1.1.1 Oude China
In het oude China werd psychodiagnostiek reeds gebruikt voor staatexamens, waarbij kandidaten proeven moesten afleggen om ambtenaar te worden. Deze examens werden geleidelijk aan uitdagender, wat functioneerde als een vroege vorm van selectie en rekrutering voor bepaalde functies [11](#page=11).
#### 1.1.2 Grieken en Romeinen
Bij de Grieken en Romeinen werden in het leger proeven gebruikt om te bepalen wie deel mocht uitmaken van het leger. Hippocrates, een grondlegger van de westerse geneeskunde, stelde dat ziekten, inclusief psychische stoornissen, natuurlijke oorzaken konden hebben, in tegenstelling tot de toenmalige gedachte dat deze door goden werden veroorzaakt. Hij benadrukte de observatie van mensen, het stellen van diagnoses en het voorstellen van therapieën, en zag een verband tussen lichamelijke en psychische toestand. Hippocrates beschreef ook de theorie van de vier lichaamssappen (bloed, slijm, gele gal) en stelde dat onevenwicht daarin tot ziekte leidde. Hij legde de basis voor classificatiesystemen voor ziekten [11](#page=11).
#### 1.1.3 Arabische wereld
In de Arabische wereld werd hersenontleding uitgevoerd om te analyseren hoe bepaalde hersendelen verantwoordelijk waren voor specifieke vaardigheden, wat de basis legde voor breinlokalisatie en de neuropsychologie. Deze periode wordt gezien als de tijd van 'echte dokters' die het aanbod van behandelingen uitbreidden en de psychiatrie ontwikkelden [11](#page=11).
### 1.2 De vroege voorlopers
De periode van vroege voorlopers kenmerkt zich door pogingen om psychologische eigenschappen te koppelen aan fysieke kenmerken.
#### 1.2.1 Fysiognomie
Fysiognomie is de leer die stelt dat intellectuele of karaktereigenschappen kunnen worden afgeleid uit iemands fysieke voorkomen, met name de vorm en expressie van het gezicht. Deze leer dateert al van Aristoteles (ongeveer 300 v.C.) en bleef populair tot in de 19e eeuw, met sterke aanhangers als Gall en Spurzheim [12](#page=12).
#### 1.2.2 Frenologie
Frenologie, ook wel schedelleer genoemd, vloeide voort uit de kritiek op fysiognomie. Het is de leer die ervan uitgaat dat verschillende psychologische vermogens gelokaliseerd zijn in specifieke hersengebieden. Franz Joseph Gall wordt beschouwd als de grondlegger van de cranioscopie (schedelonderzoek), en Johan Spurzheim ontwikkelde dit verder tot de frenologie. Gall was van mening dat de vorm van de hersenen kon worden bestudeerd om de locatie van functies te bepalen via een neuropsychologische weg, en trok conclusies over iemands vaardigheden en eigenschappen door middel van schedelbetasting. Spurzheim bouwde voort op deze ideeën van breinlokalisatie [12](#page=12).
### 1.3 Een aarzelende start
De moderne psychiatrie begon de impact van cognitieve capaciteiten en psychopathologie te erkennen, wat de psychodiagnostiek beïnvloedde.
#### 1.3.1 Moderne psychiatrie
Philippe Pinel stelde dat psychische stoornissen natuurlijke oorzaken hadden en legde de grondslag voor een begeleidende aanpak met gespreksvoering en therapieën. Hij was de eerste wetenschapper die beweerde dat krankzinnigheid een ziekte was en geen bezetenheid. Jean-Etienne Esquirol, een leerling van Pinel, maakte verdere classificaties. Edouard Séguin ontwikkelde testen, met name gericht op kinderen met een verstandelijke beperking, en wordt gezien als de eerste grondlegger voor hedendaagse intelligentietesten [13](#page=13).
#### 1.3.2 Experimentele psychologie
De experimentele psychologie, met Wilhelm Wundt als belangrijke figuur, onderzocht de samenhang tussen meetbare prikkels en menselijke functies. Wundt legde de nadruk op de exacte beschrijving van experimentele condities, strikte controle van onafhankelijke variabelen en nauwkeurige verwerking van uitkomsten. Hij legde de eerste grondvesten voor het principe van standaardisatie in testonderzoek en werkte hypothesetoetsend. Nadelen van deze benadering waren dat deze niet betrokken was bij alle cognitieve functies, de psychologie niet volledig kon omvatten en verschillen als meetfouten beschouwde, wat remmend werkte voor de psychologie die zich voornamelijk bezighield met individuele verschillen [13](#page=13).
### 1.4 De eerste echte intelligentietest
De ontwikkeling van de eerste echte intelligentietests markeerde een belangrijke stap in de psychodiagnostiek.
#### 1.4.1 Intelligentie, een Europese uitvinding
Alfred Binet en Théodore Simon worden beschouwd als de grondleggers van de Binet-Simon-test. Deze test werd ontwikkeld met het oog op selectie voor gespecialiseerd onderwijs, met opdrachten van oplopende moeilijkheidsgraad om de verstandelijke leeftijd te bepalen. Ze toonden een samenhang aan tussen testresultaten en schoolprestaties [15](#page=15).
#### 1.4.2 Amerikaanse heroriëntering
Henry Goddard en Lewis Terman namen het voortouw in de Amerikaanse ontwikkeling en werkten de Stanford-Binet-test uit, die diende als een universele standaard. Zij richtten zich meer op de kwantificering van IQ en de ontwikkeling van non-verbale IQ-testen, die nodig waren om IQ vast te leggen van migranten. Positieve bijdragen van deze periode waren de eerste echte IQ-test, een universelere toepassing, het gebruik van normen, de eerste representatieve Amerikaanse steekproef en accuratere vergelijkingen [15](#page=15).
### 1.5 De verdere evolutie
Na de vroege intelligentietests volgde een periode van verdere ontwikkeling, met name op het gebied van collectieve tests en theoretische modellen van intelligentie.
#### 1.5.1 Van individuele naar collectieve tests
Tijdens de Eerste Wereldoorlog leidde de noodzaak tot snelle selectie van rekruten tot de ontwikkeling van de Army-tests, met de Army Alpha (voor Engelstaligen) en Army Beta (voor niet-Engelstaligen). Dit waren de eerste vormen van groepstesten die in grotere groepen konden worden afgenomen om tijd te besparen. Na de oorlog analyseerde Carl Brigham de resultaten, wat impact had op het migratiebeleid omdat groepen migranten lager scoorden op deze testen [16](#page=16).
#### 1.5.2 Positieve bijdragen: correlaties, factoranalyse en modellen van intelligentie
Belangrijke positieve bijdragen aan de psychodiagnostiek waren de ontwikkeling van correlaties, factoranalyse en het CHC-model [16](#page=16).
##### 1.5.2.1 Correlaties
Karl Pearson (1857-1936) was de grondlegger van het concept correlaties. Correlaties meten in welke mate twee verschillende testen, die mogelijk iets verschillend meten, dezelfde eigenschap meten. Dit kon vervolgens worden onderzocht met factoranalyses [16](#page=16).
##### 1.5.2.2 Factoranalyse
Charles Spearman ontdekte dat er een gemeenschappelijke eigenschap (factor g) bestond, die stond voor algemene intelligentie, waaronder verschillende deelvaardigheden (s-factoren) vallen. De factor g werd ook de algemene intelligentie genoemd en wordt nog steeds gebruikt. S-factoren zijn de verschillende deelvaardigheden onder factor g, zoals rekenen, woordjes onthouden en coördineren [17](#page=17).
##### 1.5.2.3 Uitbreiding van intelligentiemodellen
Raymond Cattell en John Horn bouwden voort op het werk van Spearman door de s-factoren concreter uit te werken. Zij introduceerden vloeiende intelligentie ($G_f$, de mogelijkheid om nieuwe problemen op te lossen zonder voorkennis) en gekristalliseerde intelligentie ($G_c$, verworven kennis en vaardigheden). Horn voegde hier nog meer basisfactoren aan toe, zoals kortetermijngeheugen (KTG), langetermijngeheugen (LTG), visuele verwerking en auditieve verwerking. John Carroll bracht het geheel samen en onderscheidde naast de g-factor en brede cognitieve vaardigheden ook nauwe cognitieve vaardigheden [17](#page=17).
#### 1.5.3 Brede cognitieve vaardigheden
Het CHC-model (Cattell-Horn-Carroll) identificeert een reeks brede cognitieve vaardigheden:
* $G_f$: Vloeiende intelligentie, de mogelijkheid om nieuwe problemen op te lossen zonder voorkennis [18](#page=18).
* $G_c$: Gekristalliseerde intelligentie, het geheel aan verworven kennis en vaardigheden [18](#page=18).
* $G_q$: Quantitative Knowledge, verworven kennis gerelateerd aan kwantitatieve informatie en numerieke symbolen [18](#page=18).
* $G_{rw}$: Reading/Writing Ability, verworven kennis die de basis vormt voor lezen, schrijven en het uiten van gedachten [18](#page=18).
* $G_{sm}$: Short-Term Memory (KTG), de vaardigheid om informatie voor korte tijd vast te houden en te gebruiken [18](#page=18).
* $G_v$: Visual Processing, vaardigheid om visuele patronen te genereren, waarnemen, analyseren en ermee te denken [18](#page=18).
* $G_a$: Auditory Processing, vaardigheid om auditieve stimuli te begrijpen, analyseren en synthetiseren [18](#page=18).
* $G_{ltr}$: Long-Term Storage and Retrieval (LTG), vaardigheid om informatie in het langetermijngeheugen te bewaren en terug te halen [18](#page=18).
* $G_s$: Processing Speed, vaardigheid om cognitieve taken vloeiend en automatisch uit te voeren [18](#page=18).
* $G_t$: Decision/Reaction Time or Speed, vaardigheid om snel te reageren of te beslissen [18](#page=18).
> **Tip:** De evolutie van psychodiagnostiek toont een verschuiving van subjectieve observaties naar empirisch onderbouwde, gestandaardiseerde metingen. Het begrijpen van deze historische context helpt bij het waarderen van de huidige methoden.
>
> **Tip:** Let op de verschillen in focus tussen de Binet-Simon test (hoe komt men tot het resultaat?) en de Stanford-Binet test (is het resultaat juist of fout?). Dit illustreert een belangrijke methodologische verschuiving.
---
# Methoden voor het meten van gedrag in psychodiagnostiek
Psychodiagnostiek omvat een reeks beoordelingsprocedures die psychologische eigenschappen meetbaar maken, waarbij de focus ligt op psychometrisch onderbouwde meetresultaten om zowel prestaties als gedragswijzen te evalueren [20](#page=20).
### 2.1 Definitie en Doel van een Psychologische Test
Een psychologische test wordt gedefinieerd als een **psychometrisch onderbouwde beoordelingsprocedure** die iets zegt over het kunnen (prestaties) en het zijn (gedragswijze) van mensen. Deze metingen worden gebruikt om interindividuele (verschillen tussen personen) en intra-individuele (verschillen binnen dezelfde persoon) verschillen te onderzoeken [20](#page=20).
Toepassingsmogelijkheden omvatten:
* **Beoordelen van individuen:** Identificeren van sterktes en zwaktes, maken van voorspellingen, helpen bij keuzemogelijkheden, uitvoeren van vergelijkend en longitudinaal onderzoek, beschrijven en verklaren van gedrag, en uitvoeren van probleemanalyse [20](#page=20).
* **Beoordelen van groepen:** Uitvoeren van vergelijkend onderzoek, vergelijken van individuen met een groep, en stellen van diagnoses [20](#page=20).
* **Beoordelen van situaties en methoden:** Trekken van conclusies inzake variërende experimentele variabelen [20](#page=20).
### 2.2 Het Meetbaar Maken van Psychologische Eigenschappen
Het kernaspect van psychodiagnostiek is het meetbaar maken van abstracte, hypothetische constructen, die we koppelen aan trekken of toestanden [21](#page=21).
* **Prestaties:** Verwijzen naar het 'kunnen' van een persoon en worden gemeten met tests zoals IQ-tests, ADHD-ADD-testen, ASS-testen, of testen die de invloed van depressie op prestaties meten [21](#page=21).
* **Gedragswijze:** Verwijst naar het 'zijn' van een persoon, oftewel persoonlijkheid. Voorbeelden zijn persoonlijkheidstesten, karaktertesten en motivatietesten. Het is cruciaal dat dit soort testen beoordelen en niet veroordelen [21](#page=21).
**Trekken vs. Toestanden:**
* **Trekken:** Stabiele, onveranderlijke psychologische eigenschappen zoals persoonlijkheid of karakter [21](#page=21).
* **Toestanden:** Instabiele psychologische eigenschappen die kunnen veranderen, zoals emoties of motivatie [21](#page=21).
### 2.3 Psychometrisch Onderbouwde Meetresultaten
Voor een geldige psychologische meting is een gedegen theoretische en psychometrische onderbouwing essentieel. Een meetinstrument moet voldoen aan vijf psychometrische kwaliteiten [22](#page=22):
1. **Betrouwbaarheid:** De standvastigheid van de meting. Een betrouwbare test levert op verschillende momenten vergelijkbare resultaten op voor dezelfde persoon en eigenschap [22](#page=22).
> **Tip:** Denk aan het herhaaldelijk meten van het IQ van een partner; consistente resultaten duiden op betrouwbaarheid [22](#page=22).
2. **Validiteit:** De mate waarin de test meet wat ze beoogt te meten. Een willekeurige online IQ-test moet ook daadwerkelijk IQ meten om valide te zijn [22](#page=22).
3. **Standaardisatie:** Het afnemen van de test onder vergelijkbare omstandigheden (context, procedure) om externe invloeden te minimaliseren [22](#page=22).
> **Voorbeeld:** Een IQ-test afnemen in een stille omgeving versus een lawaaierige omgeving [22](#page=22).
4. **Objectieve scoring:** Een eenduidige interpretatie van de resultaten, waarbij verschillende interpretaties of fouten worden vermeden door duidelijke richtlijnen in de handleiding [22](#page=22).
5. **Normering:** Het beschikken over een referentiegroep om de bekomen resultaten mee te vergelijken. Deze groep moet representatief en voldoende groot zijn voor geldige uitspraken [22](#page=22).
> **Voorbeeld:** Het IQ van een 16-jarige Vlaamse leerling vergelijken met andere 16-jarige Vlaamse leerlingen [22](#page=22).
### 2.4 Andere Kenmerken van Meetinstrumenten
Naast de kernkwaliteiten zijn er nog andere belangrijke kenmerken:
1. **Reikwijdte:**
* **Domein:** Het geheel van psychologische eigenschappen die met een test worden gemeten [23](#page=23).
* **Diversiteit:** De soorten mensen die met de test gemeten kunnen worden [23](#page=23).
2. **Aanvaardbaarheid:** De mate van acceptatie van de test door de gebruiker. Een voldoende indruksvaliditeit is hierbij belangrijk, wat betekent dat de test duidelijk weergeeft wat ze moet meten [23](#page=23).
3. **Onpartijdigheid:** Het voorkomen van systematisch verschillende antwoorden van bepaalde groepen door vertekeningen (bias). Aandachtspunten zijn de test zelf, de testleider, taal en cultuur. Culturele geladenheid van een test is een belangrijk aandachtspunt [23](#page=23).
> **Tip:** Om bias te voorkomen, rekening houden met de testsituatie, taal en cultuur [23](#page=23).
4. **Praktische aspecten:**
* **Kosten:** Tests kunnen duur zijn, maar bieden veel informatie [23](#page=23).
* **Baten:** Tests leveren op korte termijn enorme hoeveelheden informatie op die met klassieke gesprekken of observatie moeilijk of niet te verkrijgen zijn [23](#page=23).
* **Objectiviteit:** De onderzoeker heeft geen invloed op de resultaten, wat samenhangt met standaardisatie [23](#page=23).
* **Efficiëntie:** Tests lokken specifiek gedrag uit en zijn daardoor tijdbesparend [23](#page=23).
### 2.5 Domeinen van Psychologische Testen
Psychologische testen kunnen worden onderverdeeld op basis van wat ze meten:
* **Prestatieniveautests:** Meten wat mensen *kunnen*. Het is essentieel dat de onderzochte persoon hierbij zo goed mogelijk presteert [24](#page=24).
* **Testen voor gedragswijze:** Meten hoe mensen *zijn* of zich gedragen. Hierbij is het belangrijk dat de onderzochte eerlijk antwoordt en zich niet anders voordoet dan hij/zij werkelijk is [24](#page=24).
#### 2.5.1 Prestatieniveau Testen
Deze testen meten het kunnen en worden verder onderverdeeld in:
1. **Enkelvoudige algemene niveautests:** Maken een globale schatting van intelligentie of mentale groei [25](#page=25).
* **Individuele ontwikkelingstests:** Gericht op mentale groei over de jaren (bv. WISC-test) [25](#page=25).
* **Individuele intelligentietests voor volwassenen:** Meten intelligentieniveau op volwassen leeftijd (bv. WAIS-test) [25](#page=25).
* **Collectieve algemene intelligentietests:** Kunnen tegelijk bij een groep worden afgenomen (bv. Raven Progressive Matrices) [25](#page=25).
2. **Veelvoudige algemene niveautests:** Meten zowel het algemene intelligentieniveau als specifieke deelaspecten van intelligentie (cognitieve vaardigheden) [25](#page=25).
* **Testbatterijen voor intelligentiefactoren:** Elke subtest meet een zuivere deelvaardigheid van de algemene intelligentie (bv. CHC-model) [25](#page=25).
* **Testbatterijen voor geschiktheden:** Meten specifieke maatschappelijke of schoolgebonden taken (bv. GATB) [25](#page=25).
3. **Specifieke niveautests:** Meten zeer specifieke aspecten van intelligentie, geschiktheden, etc. [26](#page=26).
* Testen voor specifieke intelligentiefactoren.
* Testen voor specifieke geschiktheden.
* Testen voor specifieke niet-intelligentiefactoren.
4. **Vorderingentests:** Meten in hoeverre het doel van een training of opleiding is bereikt of verbeterd, zowel qua kennis als vaardigheden (bv. leerlingvolgsysteem-toetsen) [26](#page=26).
#### 2.5.2 Testen voor Gedragswijze
Het meten van gedragswijze is complexer dan het meten van prestaties en kent uitdagingen zoals zwakkere veralgemeenbaarheid, afwezigheid van objectieve externe criteria en beperkte stabiliteit [27](#page=27).
Onderscheid wordt gemaakt tussen:
1. **Observatietesten:** Informatie wordt verkregen van een externe beoordelaar die gedragsaspecten registreert. De informatie is indirect en gevoelig voor subjectiviteit [27](#page=27).
* Varianten: Individu of groep observeren, (on)gestructureerd observeren, (niet-)participerend observeren [27](#page=27).
2. **Somato-fysiologische metingen:** Meten lichamelijke kenmerken of processen om psychologische kenmerken af te leiden. Dit omvat technieken zoals biochemisch onderzoek, EEG, hersenscanners, EKG, oogbewegingsmetingen en elektrodermale verschijnselen. Het verklaart de verbanden tussen lichamelijke kenmerken en psychologische kenmerken [27](#page=27).
3. **Zelfbeoordelingen:** De cliënt vult zelf een vragenlijst in. Aandachtspunten zijn onvoldoende zelfkennis, onbegrip, verkeerde interpretatie en de mogelijkheid dat de cliënt zich anders voordoet [28](#page=28).
* **Interessetesten:** Meten de interesses van een persoon [28](#page=28).
* **Waarden- en attitudetests:** Meten wat iemand belangrijk vindt of wat de persoon vindt van bepaalde verschijnselen [28](#page=28).
* **Persoonlijkheidsvragenlijsten:** Meten aspecten van iemands persoonlijkheid, vaak gebruikt bij selectieprocedures [28](#page=28).
* **Psychopathologievragenlijsten:** Opsporen van mogelijke psychopathologieën [28](#page=28).
4. **Projectieve technieken:** De onderzochte denkt dat hij een prestatie moet leveren, maar de focus ligt op hoe de cliënt reageert in plaats van de inhoud. De resultaten weerspiegelen de innerlijke persoonlijkheid en vereisen een kritische benadering wegens de subjectiviteit [29](#page=29).
* **Perceptietests:** Cliënt beschrijft wat hij ziet in weinigzeggend materiaal [29](#page=29).
* **Interpretatietests:** Cliënt beschrijft wat hij ziet in gestructureerder materiaal [29](#page=29).
* **Expressietests:** Cliënt maakt een tekening naar voorstelling, waarbij de manier van uitvoeren centraal staat [29](#page=29).
* **Constructietests:** Cliënt bouwt iets met aangeboden materiaal [29](#page=29).
* **Associatietests:** Onderzoeken de techniek van vrije associatie [29](#page=29).
* **Keuzetests:** Cliënt moet een keuze maken tussen bepaalde opties [29](#page=29).
---
# Antwoordschalen in psychologische testen
Antwoordschalen vormen de brug tussen abstracte, niet-direct waarneembare psychologische constructen en hun concrete, meetbare uitingen in gedrag of prestaties [30](#page=30).
### 3.1 Het proces van operationalisering van psychologische constructen
Het vastleggen van abstracte hypothetische constructen vereist een proces dat bestaat uit drie stappen [30](#page=30):
* **Stap 1: Van waarneembaar gedrag naar psychologische eigenschap.** Hierbij wordt vanuit kwalitatieve variabelen (nominaal meetniveau) nagedacht over hoe gedrag of prestaties gekoppeld kunnen worden aan een psychologische eigenschap, en op welke manier deze uitingen gewenst zijn [30](#page=30).
* **Stap 2: Objectief vastleggen van waarneembaar gedrag.** Kwalitatieve variabelen worden omgezet naar kwantitatieve variabelen, resulterend in een ordinaal, interval of ratio meetniveau [30](#page=30).
* **Prestaties** worden vaak vastgelegd via **dichotome items**, waarbij er een duidelijk juist of fout antwoord is [30](#page=30).
* **Gedrag** wordt doorgaans vastgelegd via **polytome items**, met verschillende antwoordmogelijkheden in gradaties [30](#page=30).
* **Stap 3: Interpreteren van waarneembaar gedrag.** Kwantitatieve ruwe scores worden omgezet naar kwantitatieve gestandaardiseerde scores (afgeleide scores of standaardscores), gebaseerd op verschillende vergelijkingsschalen [30](#page=30).
### 3.2 Soorten antwoordschalen
Bij de keuze van een antwoordschaal spelen twee basisaspecten een rol: of de schaal **kwantitatief of kwalitatief** van aard is, en welk **meetniveau** eraan verbonden is [31](#page=31).
#### 3.2.1 Open antwoordschalen
Open antwoordschalen kenmerken zich door een kwalitatief karakter, meestal op nominaal meetniveau, waarbij beschrijvende antwoorden in woorden worden verzameld [31](#page=31).
* **Voordelen:**
* Bieden veel informatie door inzicht te geven in gedachtegangen, de manier waarop cliënten gedachten op papier zetten en hun taalvaardigheid [31](#page=31).
* **Nadelen:**
* Tijdsintensief, zowel voor de respondent als voor de verwerking [31](#page=31).
* Grotere kans op irrelevante antwoorden door mogelijke misinterpretatie van de vraag [31](#page=31).
#### 3.2.2 Gesloten antwoordschalen
Gesloten antwoordschalen kenmerken zich door een kwantitatief karakter en omvatten verschillende meetniveaus (ordinaal, interval, ratio) [32](#page=32).
##### 3.2.2.1 Meerkeuzevragen
Dit zijn vragen met doorgaans drie of vier antwoordmogelijkheden, waarvan één juist is. Ze worden voornamelijk gebruikt in prestatieniveautesten en hebben een nominaal meetniveau. Om gokken te vermijden, kan gebruik gemaakt worden van de GIS-correctie [32](#page=32).
##### 3.2.2.2 Checklist
Een checklist is een lijst met gegevens waarbij de respondent alles dient aan te kruisen dat van toepassing is. Deze zijn bruikbaar binnen prestatieniveautesten (dichotome items), voornamelijk voor gedragswijze, en hebben een nominaal meetniveau [32](#page=32).
##### 3.2.2.3 Beoordelingsschaal
Een beoordelingsschaal bestaat uit een reeks uitspraken rond een bepaald thema, waarbij de respondent de meest toepasselijke uitspraak aanduidt. Ze zijn bruikbaar binnen prestatieniveautesten en voornamelijk toegepast in testen voor gedragswijze (polytome items). Ze kenmerken zich door een ordinaal meetniveau [32](#page=32).
##### 3.2.2.4 Likertschaal
Een Likertschaal bestaat uit een reeks beweringen over een bepaald thema, waarbij elke bewering dezelfde antwoordmogelijkheden heeft en de respondent er één per bewering aanduidt [32](#page=32).
* **Verschil met beoordelingsschalen:** Verschillen zitten in het gebruiksdoel binnen testsoorten en de opbouw van de antwoordalternatieven [32](#page=32).
* Likertschalen worden voornamelijk toegepast in testen voor gedragswijze (polytome items). Ze kenmerken zich door een ordinaal of interval meetniveau, afhankelijk van de omstandigheden:
* Individuele Likertschaal: ordinaal meetniveau [32](#page=32).
* Meerdere Likertschalen: interval meetniveau [32](#page=32).
* Om gevoeligheid voor onzorgvuldige en/of sociaal wenselijke antwoorden op te vangen, worden **reversed items** gebruikt [32](#page=32).
##### 3.2.2.5 Semantische differentiaalschaal
Deze schaal presenteert twee uiterste begrippen die tegengesteld zijn, waartussen de respondent zich kan positioneren. Ze worden voornamelijk toegepast in testen voor gedragswijze (polytome items) en kenmerken zich door een ordinaal meetniveau. Schaalpunten kunnen gelabeld of ongelabeld zijn [33](#page=33).
* **Verschil met beoordelings- en Likertschalen:** Verschillen zitten in het gebruiksdoel, de opbouw van antwoordalternatieven en de labeling van deze alternatieven [33](#page=33).
##### 3.2.2.6 Grafische responsschaal
Bij een grafische responsschaal worden antwoorden gekoppeld aan prenten, waardoor de antwoorden gevisualiseerd worden. Dit is handig voor kinderen of mensen met een mentale beperking. Ze worden voornamelijk toegepast in testen voor gedragswijze (polytome items) en kenmerken zich door een ordinaal meetniveau [33](#page=33).
* **Verschil met beoordelings-, Likert- en semantische differentiaalschalen:** Verschillen zitten in het gebruiksdoel, de opbouw van antwoordalternatieven en het visuele aspect van de antwoordalternatieven [33](#page=33).
##### 3.2.2.7 Gedwongen keuzevragen
Hierbij moet de respondent kiezen tussen een aantal mogelijkheden, dewelke het beste bij hem past wordt aangeduid. Er is geen goed of fout antwoord. Ze worden voornamelijk toegepast in testen voor gedragswijze (polytome items) en kenmerken zich door een nominaal meetniveau. Een uniek aspect is de aanwezigheid van evenwaardige antwoordalternatieven [33](#page=33).
---
# Het interpreteren van testresultaten in psychodiagnostiek
Het interpreteren van testresultaten in psychodiagnostiek omvat het omzetten van kwantitatieve ruwe scores naar gestandaardiseerde scores, zodat de prestatie van een cliënt kan worden vergeleken met een relevante normgroep of een vastgesteld criterium [34](#page=34).
### 4.1 Vergelijkingsschalen
Er zijn drie hoofdcategorieën van vergelijkingsschalen die worden gebruikt om testresultaten te interpreteren:
#### 4.1.1 Normgerelateerde vergelijkingsschalen
Bij normgerelateerde vergelijking wordt de cliënt vergeleken met een algemene of specifieke normgroep. Belangrijke overwegingen voor de normgroep zijn [34](#page=34):
* **Grootte:** De steekproef moet voldoende groot zijn [34](#page=34).
* **Geldigheidsduur:** Er moet rekening gehouden worden met het Flynn-effect, wat de trend beschrijft van stijgende IQ-scores over tijd [34](#page=34).
* **Lokale normen:** In specifieke situaties kunnen lokale normen relevanter zijn dan algemene normen [34](#page=34).
> **Tip:** Een kritisch aandachtspunt bij normgerelateerde vergelijkingen is de relativiteit van de gekozen normgroep [34](#page=34).
#### 4.1.2 Criteriumgerelateerde vergelijkingsschalen
Bij criteriumgerelateerde vergelijking wordt de cliënt vergeleken met een vooraf vastgelegd doel of criterium, ook wel de 'absolute norm' genoemd. Dit vereist [34](#page=34):
* Duidelijkheid over de te bereiken doelen of criteria [34](#page=34).
* Inzicht in welke prestaties of gedragingen de meting moet baseren [34](#page=34).
#### 4.1.3 Persoonsgerelateerde vergelijkingsschalen
Bij persoonsgerelateerde vergelijking wordt de cliënt vergeleken met zijn of haar eigen eerder behaalde testresultaten (ipsatieve vergelijking) [34](#page=34).
### 4.2 Interpretatiewijzen van testresultaten
Naast de vergelijkingsschalen zijn er verschillende andere interpretatiewijzen van testresultaten die centraal staan bij het interpreteren van waarneembaar gedrag [35](#page=35):
#### 4.2.1 Beschrijving van de ruwe scores van de normgroep
Dit omvat het analyseren van de frequentieverdeling van de ruwe scores van de normgroep [35](#page=35).
* **Frequentieverdeling:** Toont hoe vaak bepaalde waarnemingen of scores voorkomen en vormt de basis voor verdere berekeningen [35](#page=35).
* **Absolute frequenties:** Het daadwerkelijke aantal keren dat een score voorkomt [35](#page=35).
* **Relatieve frequenties:** De frequentie van een score uitgedrukt als een percentage van het totaal [35](#page=35).
* **Grafische voorstelling:** Frequentieverdelingen kunnen op diverse manieren grafisch worden weergegeven [35](#page=35).
#### 4.2.2 Berekenen van de centrale tendentie
Dit geeft aan welke waarneming het meest voorkomt in de steekproef, waardoor onderscheid gemaakt kan worden tussen veelvoorkomende en uitzonderlijke waarnemingen. De keuze van de centrale tendentiemaat hangt af van het meetniveau van de data [35](#page=35):
* **Modus:** De meest voorkomende score, geschikt voor nominaal meetniveau [35](#page=35).
* **Mediaan:** De middelste score wanneer de data geordend is, geschikt voor ordinaal meetniveau [35](#page=35).
* **Rekenkundig gemiddelde:** Het gemiddelde van alle scores, geschikt voor minstens interval meetniveau [35](#page=35).
> **Tip:** Centrale tendenties worden gebruikt als samenvattingsmaat om in één getal aan te geven welke score het overgrote deel van de populatie vertegenwoordigt, en fungeren als vergelijkingsmiddel [35](#page=35).
#### 4.2.3 Iemands positie berekenen binnen de groep
Dit toont waar een cliënt zich bevindt ten opzichte van de steekproef of normgroep. Centrale tendenties helpen bij het inschatten van deze positie. Percentielen maken de positiebepaling preciezer [36](#page=36).
* **Cumulatieve frequenties:** Het aantal waarnemingen tot en met een bepaalde score [35](#page=35).
* **Percentielen:** De score waaronder een bepaald percentage van de data valt [36](#page=36).
Er zijn verschillende varianten van percentielen (fractielen) om posities te bepalen:
* **Percentielen:** Opgedeeld in delen van 1% (1 tot 100) [36](#page=36).
* **Decielen:** Opgedeeld in delen van 10% (1 tot 10) [36](#page=36).
* **Kwartielen:** Opgedeeld in delen van 25% (1 tot 4) [36](#page=36).
* **Klasse indeling:** Opgedeeld in delen van 10 tot 40% (1 tot 5) [36](#page=36).
> **Tip:** Het is belangrijk te weten dat deze verschillende varianten gebruikt worden om iemands positie in de groep te bepalen [36](#page=36).
Voordelen van percentielen omvatten hun gemakkelijke begrijpelijkheid en interpretatie, de precieze positionering die ze bieden, differentiatie in de extremen, en de verdeling in segmenten [36](#page=36).
#### 4.2.4 Berekenen van de spreiding
Spreiding toont in hoeverre individuele scores afwijken van andere scores of van het gemiddelde. Gangbare spreidingsmaten zijn [36](#page=36):
* **Variatiebreedte:** Het verschil tussen de hoogste en laagste score [36](#page=36).
* **Variantie:** Een maat voor de spreiding van scores rondom het gemiddelde, gebaseerd op de frequentieverdeling [36](#page=36).
* **Standaardafwijking (standaarddeviatie):** De gemiddelde afwijking van de scores ten opzichte van het gemiddelde [36](#page=36).
### 4.3 Standaardscores
Standaardscores geven aan waar een cliënt zich binnen de gehele groep kan situeren. De basis hiervoor zijn Z-scores [37](#page=37):
* **Gemiddelde:** 0 [37](#page=37).
* **Standaardafwijking:** 1 [37](#page=37).
* **Schaal:** Een neutrale schaal [37](#page=37).
De formule voor de Z-score is:
$$Z = \frac{X - \mu}{\sigma}$$ [37](#page=37).
Waar:
* $X$ staat voor de ruwe score [37](#page=37).
* $\mu$ staat voor het gemiddelde van de populatie [37](#page=37).
* $\sigma$ staat voor de standaardafwijking van de populatie [37](#page=37).
Er zijn diverse andere standaardscores, waaronder:
* T-scores [37](#page=37).
* C-scores [37](#page=37).
* Stanines [37](#page=37).
* Deviatie-IQ scores [37](#page=37).
* (Wechsler-)schaalscores [37](#page=37).
---
# Item-responstheorie en klassieke testtheorie
Dit onderdeel vergelijkt de Klassieke Testtheorie (KTT) met de Item-ResponsTheorie (IRT), waarbij de focus ligt op hoe deze theorieën de constructie, analyse en toepassing van psychologische testen benaderen, met een specifieke nadruk op het begrijpen van itemkenmerken en respondentenprofielen.
### 5.1 De klassieke testtheorie (KTT)
De Klassieke Testtheorie (KTT) is een theorie die helpt bij het begrijpen en verbeteren van psychologische testen, met name door de betrouwbaarheid van een test te bepalen en inzicht te geven in de opbouw van testresultaten [51](#page=51).
#### 5.1.1 Kernprincipes van de KTT
De KTT gaat ervan uit dat een testscore is opgebouwd uit de ware score van een individu en een optelling van meetfouten, die zowel systematisch als toevallig kunnen zijn. De theorie richt zich op hoe deze meetfouten invloed hebben op het testresultaat en op die manier de betrouwbaarheid van een test beïnvloeden [51](#page=51).
#### 5.1.2 Beperkingen van de KTT
De KTT kent diverse beperkingen in vergelijking met modernere theorieën [51](#page=51):
* **Aanname over psychologische eigenschappen:** De KTT gaat ervan uit dat elke schaal slechts één psychologische eigenschap meet en dat alle items binnen een schaal dezelfde eigenschap meten, zonder dit expliciet aan te tonen [51](#page=51).
* **Item-equivalentie:** De KTT beschouwt alle testitems als evenwaardig, terwijl in werkelijkheid sommige items meer gewicht in de schaal leggen dan andere [51](#page=51).
* **Standaardmeetfout:** De KTT neemt aan dat de standaardmeetfout voor iedereen gelijk is, wat in de praktijk vaak onrealistisch is [51](#page=51).
* **Steekproefafhankelijkheid:** De berekening van betrouwbaarheid en de normering in de KTT zijn steekproefafhankelijk, wat betekent dat de resultaten sterk afhankelijk zijn van de specifieke groep respondenten. Dit vereist vaak het hernieuwen van normen, omdat deze maar voor beperkte tijd houdbaar zijn [51](#page=51).
> **Tip:** De steekproefafhankelijkheid van de KTT kan deels worden opgelost door een voldoende grote en representatieve steekproef te gebruiken voor de berekening van betrouwbaarheid [51](#page=51).
### 5.2 Item-responsTheorie (IRT)
Item-ResponsTheorie (IRT) is een verzameling theorieën en modellen die zich richt op iemands specifieke antwoorden op testitems om de score op de gemeten eigenschap te bepalen. In tegenstelling tot de KTT, die kijkt naar hoe iemand zich positioneert binnen een specifieke (norm)groep op basis van de totaalscore, legt de IRT meer nadruk op de individuele antwoorden van de cliënt [52](#page=52).
#### 5.2.1 Kerncomponenten van de IRT
Binnen de antwoorden van de cliënt analyseert de IRT twee hoofdelementen:
* **Vaardigheid in de gemeten eigenschap:** Dit wordt aangeduid met $\theta$ [52](#page=52).
* **Moeilijkheidsgraad van het testitem:** Dit wordt aangeduid met $\beta$ [52](#page=52).
De kans dat een testitem correct of incorrect wordt beantwoord, is een functie van zowel de vaardigheid van de persoon ($\theta$) als de moeilijkheidsgraad van het testitem ($\beta$) [52](#page=52).
> **Tip:** Hoe hoger de moeilijkheidsgraad van een item ($\beta$), hoe kleiner de kans dat het correct wordt beantwoord. Wanneer een cliënt een correct antwoord geeft op een moeilijk item, wordt zijn vaardigheid ($\theta$) hoger ingeschat. Omgekeerd, hoe lager de moeilijkheidsgraad van een item, hoe groter de kans op een correct antwoord, en hoe minder nauwkeurig de vaardigheid van de cliënt wordt beoordeeld wanneer deze het item correct beantwoordt [52](#page=52).
#### 5.2.2 Opbouw en Analyse in de IRT
De opbouw van de IRT omvat meerdere stappen om de moeilijkheidsgraad en andere kenmerken van testitems te achterhalen [49](#page=49):
1. **Itemverzameling:** Eerst worden items verzameld die gerelateerd zijn aan de te meten eigenschap [49](#page=49).
2. **Testconstructie en afname:** Vervolgens wordt een test op maat samengesteld en afgenomen bij specifieke groepen respondenten [49](#page=49).
3. **Schaalvorming:** Op basis van de antwoorden van een grote groep respondenten wordt de schaal gevormd, wat met meer antwoorden preciezer de vaardigheid van de cliënt kan bepalen [49](#page=49).
4. **Latente trek bepaling:** Met behulp van methoden zoals maximum likelihood wordt bepaald hoeveel van de latente trek een respondent moet bezitten om elk testitem correct te kunnen beantwoorden [49](#page=49).
* **Maximum likelihood:** Een methode om te bepalen hoeveel iemand de latente trek moet bezitten om alle testitems correct te beantwoorden [49](#page=49).
5. **Itembank:** Op basis van deze resultaten wordt een lijst samengesteld met de meest veelbelovende testitems, de zogenaamde itembank [49](#page=49).
#### 5.2.3 Item-responsfunctie en Item-karakteristieke Curve
De **item-responsfunctie** beschrijft de relatie tussen de moeilijkheidsgraad van een testitem en de kans dat een respondent een correct antwoord geeft. Deze functie kan visueel worden voorgesteld door een **item-karakteristieke curve (ICC)** [49](#page=49).
* **Item-karakteristieke curve (ICC):**
* **Steile curves:** Deze duiden op een hoog discriminerend vermogen. Het item geeft duidelijk aan vanaf welke vaardigheidsniveau een individu de grootste kans heeft om het item correct te beantwoorden. Steile curves zijn het meest informatief [49](#page=49).
* **Minder steile curves:** Deze zijn minder informatief en hebben een lager discriminerend vermogen. Het item geeft minder goed aan vanaf welk vaardigheidsniveau de kans op een correct antwoord het grootst is [49](#page=49).
#### 5.2.4 Voordelen van IRT ten opzichte van KTT
De IRT biedt verschillende voordelen ten opzichte van de KTT [50](#page=50):
* **Oplossen van populatie-afhankelijkheid:** IRT gaat na in hoeverre populatiekenmerken bijdragen aan het correct beantwoorden van testitems en lost daarmee de populatie-afhankelijkheid van de KTT op [50](#page=50).
* **Computergestuurd adaptief testen:** Door gebruik te maken van computer adaptieve testafnames, kan IRT afwijkende antwoordpatronen sneller herkennen, wat leidt tot nauwkeurigere metingen van de respondent's vaardigheid en eenvoudiger onderzoek van antwoordpatronen [50](#page=50).
* **Itemkenmerken:** IRT geeft inzicht in zowel de moeilijkheidsgraad als het discriminatievermogen van testitems, wat de constructie van efficiënte tests, zoals die gebruik maken van een itembank, mogelijk maakt [50](#page=50).
* **Universele toepasbaarheid:** IRT heeft geen normgroep nodig, wat een universele toepassing mogelijk maakt, mits de respondenten heterogeen genoeg zijn [51](#page=51).
* **Correctie voor meetfouten:** IRT houdt rekening met onderlinge verschillen in meetfouten tussen respondenten, wat resulteert in nauwkeurigere metingen [51](#page=51).
* **Focus op itemrelaties:** IRT onderzoekt hoe testitems samenhangen met de gehele psychologische eigenschap en maakt een onderscheid tussen de waarde van verschillende items [51](#page=51).
* **Vergelijking met items:** IRT vergelijkt personen met testitems in plaats van personen met elkaar, wat de afhankelijkheid van de normeringsgroep vermindert [51](#page=51).
---
# Vergelijking en principes van de item-responstheorie
Dit onderwerp vergelijkt de Klassieke Testtheorie (KTT) met de Item-Respons Theorie (IRT) en introduceert de fundamentele principes van IRT, met een focus op de kenmerken van testitems en hun relatie tot een latente trek.
### 6.1 Vergelijking van testtheorieën: KTT versus IRT
Testontwikkeling vereist testitems die de psychologische eigenschap valide meten, waarbij testtheorieën een cruciale rol spelen in de selectie van geschikte items. De twee voornaamste klassen van testtheorieën zijn de Klassieke Testtheorie (KTT) en de Item-Respons Theorie (IRT) [45](#page=45).
#### 6.1.1 Vertrekbasis en toegankelijkheid
* **KTT**: Maakt uitspraken over een psychologische eigenschap op basis van testitems. Testen gebaseerd op de KTT zijn minder flexibel, niet snel bij te werken en beperkt in de mogelijkheid om testitems uit te breiden [46](#page=46).
* **IRT**: Ziet psychologische testen als opgebouwd uit testitems. Testen gebaseerd op de IRT zijn snel bij te werken en gemakkelijk uit te breiden met meer testitems [46](#page=46).
#### 6.1.2 Theoretische grondslag
* **KTT**: Baseert zich op een verzameling van testitems, wat als niet-empirisch wordt beschouwd [46](#page=46).
* **IRT**: Baseert zich op individuele testitems, wat als empirisch wordt beschouwd [46](#page=46).
#### 6.1.3 Basis van berekening en interpretatie
* **KTT**: Baseert zich op de totaalscore van een individu om uitspraken te doen over de psychologische eigenschap. De interpretatie richt zich op hoe de cliënt scoort ten opzichte van anderen [46](#page=46).
* **IRT**: Baseert zich op de afzonderlijke testitems. De interpretatie richt zich op de hoeveelheid vaardigheid die een cliënt nodig heeft om een testitem correct te beantwoorden [46](#page=46).
#### 6.1.4 Precisie van uitslagen en meetfouten
* **KTT**: Hanteert dezelfde standaardmeetfout voor alle individuen [46](#page=46).
* **IRT**: Hanteert individuele meetfouten voor elk individu, wat resulteert in een hogere precisie van de uitslagen [46](#page=46).
#### 6.1.5 Moeilijkheidsgraad en weging van testitems
* **KTT**: Beschouwt alle testitems als even belangrijk en dus even zwaarwegend in de totaalscore [46](#page=46).
* **IRT**: Verbindt verschillende wegingen aan testitems, gebaseerd op hun moeilijkheidsgraad en discriminerend vermogen [46](#page=46).
> **Voorbeeld:** De Beck Depression Inventory (BDI) heeft 21 items. Met de KTT heeft een item over suïcidegedachten evenveel gewicht als elk ander item. Met de IRT daarentegen, krijgt een item over suïcidegedachten een zwaarder gewicht in de totale schaalscore [46](#page=46).
#### 6.1.6 Steekproefafhankelijkheid
* **KTT**: Testresultaten worden vergeleken met normgroepen, wat leidt tot steekproefafhankelijkheid. Dit beïnvloedt de betrouwbaarheid, normering en moeilijkheidsgraad van de test [47](#page=47).
* **IRT**: Testresultaten worden geïnterpreteerd vanuit de kans dat een cliënt een testitem correct maakt, wat leidt tot steekproef*on*afhankelijkheid [47](#page=47).
### 6.2 Principes van de item-responstheorie (IRT)
De Item-Respons Theorie (IRT) is een verzameling van theorieën en modellen die iemands specifieke antwoorden op testitems analyseren om uitspraken te doen over de score op de gemeten eigenschap. In tegenstelling tot de KTT, die zich richt op de positionering binnen een normgroep op basis van de totaalscore, legt IRT meer nadruk op de individuele antwoorden. IRT focust met name op dichotome items (items met twee mogelijke antwoorden, bv. juist/onjuist) [48](#page=48).
#### 6.2.1 De latente trek en itemparameters
IRT vertrekt vanuit een latente trek (de verborgen psychologische eigenschap die het juist of fout beantwoorden van een item beïnvloedt) en is opgebouwd uit de volgende componenten [48](#page=48):
* **Vaardigheidsniveau ($\theta$)**: De mate waarin een individu de latente trek bezit [48](#page=48).
* **Moeilijkheidsgraad ($\delta$)**: De mate waarin een item moeilijk is. Dit vertegenwoordigt de vaardigheid die nodig is om het item met 50% kans correct te beantwoorden [48](#page=48).
* **Discriminerend vermogen ($\alpha$)**: De mate waarin een item onderscheid kan maken tussen individuen met verschillende niveaus van de latente trek. Een hoog discriminerend vermogen betekent dat het item goed aangeeft vanaf welke vaardigheid de kans op een correct antwoord significant toeneemt [48](#page=48).
#### 6.2.2 Opbouw en bepaling van itemparameters
Het proces om de moeilijkheidsgraad en andere parameters van testitems te achterhalen omvat verschillende stappen [49](#page=49):
1. Verzamelen van items die gerelateerd zijn aan de te meten eigenschap, gevolgd door het samenstellen en afnemen van een test bij specifieke groepen.
2. Het afnemen van de testitems bij een grote groep respondenten om de schaal te vormen. Hoe groter de steekproef, hoe preciezer de vaardigheid van de cliënt bepaald kan worden.
3. Het toepassen van maximum likelihood-methoden om te bepalen hoeveel van de latente trek een respondent moet bezitten om elk testitem correct te beantwoorden [49](#page=49).
* **Maximum likelihood**: Een statistische methode om de waarschijnlijkheid van waargenomen data te maximaliseren, wat helpt bij het schatten van latente trekken en itemparameters [49](#page=49).
4. Het samenstellen van een lijst met de meest geschikte testitems, ook wel de **itembank** genoemd [49](#page=49).
#### 6.2.3 De item-responsfunctie en item-karakteristieke curves
* **Item-responsfunctie**: Beschrijft de relatie tussen de moeilijkheidsgraad van een testitem en de kans dat een respondent een correct antwoord geeft [49](#page=49).
* **Item-karakteristieke curve (ICC)**: Een grafische weergave van de item-responsfunctie.
> **Tip:** Steile itemcurven duiden op een hoog discriminerend vermogen. Dit betekent dat het item duidelijk onderscheid maakt tussen individuen met verschillende vaardigheidsniveaus. Minder steile curven zijn minder informatief en wijzen op een lager discriminerend vermogen [49](#page=49).
#### 6.2.4 Voordelen van IRT
IRT biedt inzicht in de moeilijkheidsgraad en het discriminatievermogen van testitems, wat computergestuurde adaptieve testen (CAT) mogelijk maakt vanuit een itembank [50](#page=50).
* **Oplossing voor populatie-afhankelijkheid**: De KTT is populatie-afhankelijk, wat een beperking is. IRT omzeilt dit door te analyseren in hoeverre populatiekenmerken bijdragen aan het correct beantwoorden van items [50](#page=50).
* **Efficiënte meting en patroonherkenning**: Door computer adaptieve testafnames kan IRT afwijkende antwoordpatronen sneller herkennen. Dit leidt tot een correctere meting van respondentvaardigheden en vereenvoudigt het onderzoeken van antwoordpatronen [50](#page=50).
---
# Validiteit van psychologische testen
Validiteit van psychologische testen gaat over de mate waarin een test meet wat deze beoogt te meten [57](#page=57).
### 7.1 Wat is validiteit?
Validiteit refereert aan een geldig meetresultaat van een psychologische eigenschap. Het valideringsproces onderzoekt in hoeverre testprestaties en -gedragingen iets kunnen zeggen over prestaties en gedragingen buiten de testsituatie [58](#page=58).
> **Tip:** Betrouwbaarheid richt zich op "hoe consistent?" een test meet, terwijl validiteit zich richt op "hoe relevant?" de meting is [57](#page=57).
#### 7.1.1 Het valideringsproces
Het valideringsproces omvat het verzamelen van bewijs dat de verbanden tussen prestaties/gedragingen binnen de testsituatie en daarbuiten aantoont. Een test is valide als deze de beoogde psychologische eigenschap correct weergeeft. Dit wordt gecontroleerd door testresultaten te vergelijken met een theoretisch model van de eigenschap die gemeten moet worden; overeenkomsten wijzen op validiteit. Het doel is tweeledig: 1) nagaan of testgedrag iets zegt over gedrag buiten de testsituatie, en 2) nagaan of de test daadwerkelijk meet wat deze hoort te meten [59](#page=59).
#### 7.1.2 Cijfermatige uitdrukking van validiteit
Validiteit wordt uitgedrukt in een cijfer, met name de correlatiecoëfficiënt ($r_{t1t2}$). Hierbij wordt gekeken naar verschillende soorten validiteiten [59](#page=59).
### 7.2 Soorten validiteit
#### 7.2.1 Inhoudsvaliditeit
Inhoudsvaliditeit beschrijft in welke mate de testitems de beoogde psychologische eigenschap meten, zonder dat dit empirisch wordt bepaald. Hierbij wordt de inhoud van de test onderzocht middels twee benaderingswijzen [60](#page=60):
1. **Afzonderlijke testitems:** In hoeverre meten de individuele items de deelaspecten van de te meten eigenschap [60](#page=60)?
2. **Alle testitems samen:** In hoeverre meten de items de eigenschap als geheel [60](#page=60)?
Het doel is na te gaan of de testitems een goede, evenwichtige en onderbouwde steekproef vormen van de te meten eigenschap. Inhoudsvaliditeit wordt ook wel steekproefvaliditeit genoemd [60](#page=60).
> **Valkuilen bij inhoudsvaliditeit:** Het is relatief subjectief en wordt vastgesteld door deskundigen. Een gebrek aan empirische evidentie kan leiden tot cirkelredeneringen [60](#page=60).
#### 7.2.2 Indruksvaliditeit (face validity)
Indruksvaliditeit betreft de verwachtingen die men heeft over wat een test meet, gebaseerd op de eerste indruk. Het is een subjectieve beoordeling van wat de test op het eerste zicht lijkt te meten. Hoewel niet onderbouwd, is het belangrijk voor de motivatie van de respondent, aangezien een zinvolle test uitnodigt tot betere prestaties. Er is een samenhang met inhoudsvaliditeit [60](#page=60).
#### 7.2.3 Begripsvaliditeit (constructvaliditeit)
Begripsvaliditeit, ook wel constructvaliditeit genoemd, is een statistische bepaling van de mate waarin een test de psychologische eigenschap (het construct) meet. Er wordt statistisch onderzocht in hoeverre testitems de deelaspecten en het geheel van de psychologische eigenschap meten. Dit leidt tot een objectiever oordeel over de test [61](#page=61).
Link met psychodiagnostiek:
* Welke gedragingen of prestaties behoren tot welk psychologisch construct [61](#page=61)?
* Het samenvatten van factoren (psychologische eigenschappen) [61](#page=61).
Methoden voor begripsvaliditeit:
* **Correlaties:** Opsporen van verbanden tussen testitems. Zwakke correlaties duiden op het meten van verschillende eigenschappen, sterke correlaties op het meten van dezelfde eigenschap. Hoe dichter de correlatie bij 1 ligt, hoe sterker deze is [61](#page=61).
* **Factoranalyse:** Een statistische techniek die nagaat welke testitems dezelfde aparte deeleigenschap meten, wat inzicht geeft in de structuur van de testitems en de mogelijkheid om onbekende variabelen achter de resultaten te achterhalen [61](#page=61).
Na factoranalyse en correlatieberekening kunnen drie factoren worden onderscheiden [62](#page=62):
* **Algemene factoren (derde orde):** Alle testitems hangen hiermee samen. Een voorbeeld is IQ [62](#page=62).
* **Groepsfactoren (tweede orde):** Een kleiner aantal testitems hangt hiermee samen, die een deel van de te meten eigenschap meten. Voorbeelden zijn lange-termijngeheugen (LTG), korte-termijngeheugen (KTG), of gekristalliseerde intelligentie [62](#page=62).
* **Specifieke factoren (eerste orde):** Slechts enkele testitems hangen hiermee samen. Voorbeelden zijn blokpatronen of woordkennis [62](#page=62).
> **Beperkingen van factoranalyse:** De soort en hoeveelheid variabelen in de analyse, de steekproef waarop de analyse is uitgevoerd, en het gebrek aan eenduidigheid met verschillende interpretaties van resultaten [62](#page=62).
Hypotheses bij begripsvaliditeit:
* **Confirmerende validiteit:** Vertrekken vanuit hypotheses om te bewijzen dat de test de gewenste psychologische eigenschap meet. De nulhypothese ($H_0$) stelt dat de test niet valide is, terwijl de alternatieve hypothese ($H_1$) stelt dat de test wel valide is [62](#page=62).
* **Convergente/congruente validiteit:** Zoeken naar correlaties tussen de test en een andere test die hetzelfde meet [62](#page=62).
* **Discriminante/divergente validiteit:** Willen aantonen dat de test *niet* meet wat men niet wil dat de test meet, dus dat de test geen andere eigenschap meet. Hierbij stelt $H_0$ dat de test valide is en $H_1$ dat de test niet valide is [62](#page=62).
#### 7.2.4 Criteriumvaliditeit (predictieve en concurrente validiteit)
Criteriumvaliditeit meet in welke mate testresultaten het behalen van een extern criterium voorspellen. Hierbij wordt de correlatie/samenhang tussen testprestaties en onafhankelijke metingen (niet-testgedrag) onderzocht [63](#page=63).
Er zijn twee vormen, afhankelijk van de beschikbaarheid van criteriumgegevens:
* **Predictieve validiteit:** De samenhang tussen testresultaten en *toekomstige* prestaties buiten de test wordt bepaald. Een goede samenhang maakt voorspelling van toekomstige prestaties mogelijk [63](#page=63).
* **Concurrente validiteit:** De samenhang tussen testprestaties en criteriumgegevens die *al aanwezig waren* op het moment van de testafname wordt bepaald. Een goede samenhang maakt het mogelijk om reeds bekende prestaties te voorspellen op basis van testresultaten [63](#page=63).
Drie statistische methoden om criteriumvaliditeit te achterhalen:
1. **Correlatie:** Nagaan van de correlatie tussen de testscore en de meting van een extern criterium [63](#page=63).
2. **Groepsvergelijking:** Vergelijken van gemiddelde scores van groepen die onderling verschillen op het criterium [63](#page=63).
3. **Regressievergelijking:** Opstellen van een regressievergelijking om het externe criterium te voorspellen op basis van de testresultaten [63](#page=63).
##### 7.2.4.1 Lineair regressiemodel
Een lineair regressiemodel wordt gebruikt om een voorspelling te maken van het externe criterium op basis van de testresultaten. De procedure omvat [64](#page=64):
* Het uitzetten van data in een puntenwolk, met testresultaten op de X-as en criteriumscores op de Y-as [64](#page=64).
* Het veronderstellen van een lineair verband (stijgende testresultaten leiden tot stijgende criteriumscores) [64](#page=64).
* Het uitvoeren van een regressieanalyse om een regressierechte door de puntenwolk te trekken, die de geschatte criteriumscore weergeeft als functie van de testresultaten [64](#page=64).
### 7.3 Hoe valide moet een test zijn?
#### 7.3.1 Interpretatie van validiteit
Validiteit wordt geïnterpreteerd op een schaal van 0 (niet valide) tot 1 (heel valide) voor de correlatiecoëfficiënt ($r_{t1t2}$). De interpretatie hangt af van het onderzoeksdoel, het soort validiteit en het aantal gebruikte testinstrumenten [65](#page=65).
#### 7.3.2 Het onderzoeksdoel en vuistregels
Volgens de vuistregel van Cohen gelden de volgende interpretaties voor correlaties [65](#page=65):
* 0,50 = goed / behoorlijk
* 0,30 = middelmatig
* 0,10 = zwak
Hoe belangrijker het doel van de test (wetenschappelijk onderzoek, adviesgerichte diagnostiek, individuele diagnostiek), hoe hoger de vereiste validiteit [65](#page=65).
#### 7.3.3 De soort validiteit
Verschillende soorten validiteit hebben een andere mogelijkheid om correlaties te bereiken, wat de interpretatie beïnvloedt [65](#page=65).
#### 7.3.4 Het aantal testinstrumenten
Bij het gebruik van meerdere testinstrumenten die dezelfde psychologische eigenschap meten, is een lagere validiteit acceptabel vanwege het 'vangnet' van meerdere metingen. Als er slechts één test is die de eigenschap meet, is een hoge validiteit noodzakelijk [65](#page=65).
---
# De klassieke testtheorie en betrouwbaarheid van psychologische testen
Dit onderwerp behandelt de principes van de klassieke testtheorie (KTT) en hoe deze zich verhouden tot de betrouwbaarheid van psychologische tests, inclusief verschillende methoden om betrouwbaarheid te meten en interpreteren [41](#page=41).
### 8.1 Inleiding tot testtheorieën
Testtheorieën zijn wiskundige modellen die worden gebruikt bij de ontwikkeling van testinstrumenten. De Item-Responstheorie (IRT) wordt gezien als de moderne opvolger van de KTT, maar de KTT blijft relevant voor het opstellen van tests [41](#page=41).
### 8.2 Theoretische uitgangspunten van de klassieke testtheorie
#### 8.2.1 De uitdaging van meetfouten
Psychologie en psychodiagnostiek zijn geen exacte wetenschappen, wat leidt tot meetfouten. Er wordt onderscheid gemaakt tussen twee soorten meetfouten [41](#page=41):
* **Toevallige meetfouten:** Ontstaan door externe invloeden of de opbouw van de test, en kunnen per testsituatie variëren. Voorbeelden zijn een cliënt die ziek is op de dag van de test, of een proefleider die de uitleg aanpast. Standaardisatie van testafnames helpt deze fouten te minimaliseren [41](#page=41).
* **Systematische meetfouten:** Ontstaan door kenmerken van de psychologische test zelf. Deze fouten hebben een consistente impact en zijn beter hanteerbaar dan toevallige fouten [41](#page=41) [42](#page=42).
Psychologische testen zijn nooit perfect, en er zullen altijd meetfouten optreden [41](#page=41).
#### 8.2.2 Betrouwbaarheid in context
Betrouwbaarheid hangt samen met toevallige meetfouten en garandeert dat een psychologische eigenschap standvastig wordt gemeten. Het doel is om de impact van meetfouten op de resultaten te minimaliseren. Een betrouwbare test levert bij identieke testafnames dezelfde resultaten op [42](#page=42).
Betrouwbaarheid bereiken vereist [42](#page=42):
* Onafhankelijke metingen [42](#page=42).
* Metingen onder identieke omstandigheden (standaardisatie) [42](#page=42).
* Metingen bij dezelfde persoon (rekening houdend met verlies- en geheugeneffecten) [42](#page=42).
De "roos" in een dartbordmetafoor staat voor het accuraat meten van de psychologische eigenschap, net zoals het raken van de roos het doel is bij het werpen van een bijl [42](#page=42).
#### 8.2.3 De opbouw van het testresultaat (KTT)
Volgens de KTT is een feitelijke score ($X_{ij}$) opgebouwd uit [43](#page=43):
* De ware of betrouwbare score ($T_i$) [43](#page=43).
* Toevallige meetfouten ($E_{ij}$) [43](#page=43).
#### 8.2.4 De standaardmeetfout
De standaardmeetfout is een maat die de impact van meetfouten samenvat. Hoe betrouwbaarder een test, hoe kleiner de standaardmeetfout, omdat de test dan minder toevallige meetfouten veroorzaakt [43](#page=43).
### 8.3 Betrouwbaarheidsintervallen en de relatie met testbetrouwbaarheid
Betrouwbaarheidsintervallen geven een interval rond een geobserveerde score aan waarin de betrouwbare score van een individu met een bepaalde waarschijnlijkheid zal vallen. Deze intervallen zijn opgebouwd uit [40](#page=40) [44](#page=44):
* Het testresultaat van de cliënt [40](#page=40).
* De Z-waarde voor het gewenste zekerheidspercentage (90% = 1,65; 95% = 1,96; 99% = 2,58) [40](#page=40).
* De standaarddeviatie van de test [40](#page=40).
**Voorbeeld van berekening van een betrouwbaarheidsinterval:** [40](#page=40).
* Testresultaat: IQ = 94 [40](#page=40).
* Z-score 95% betrouwbaarheidsinterval: 1,96 [40](#page=40).
* Standaarddeviatie test: 8,58 [40](#page=40).
* Ondergrens: $94 - (1,96 \times 8,58) = 77$ [40](#page=40).
* Bovengrens: $94 + (1,96 \times 8,58) = 111$ [40](#page=40).
Een nauwere betrouwbaarheidsinterval wordt verkregen bij een hogere testbetrouwbaarheid. Dit komt doordat een hogere betrouwbaarheid resulteert in een kleinere standaardmeetfout [40](#page=40) [43](#page=43) [44](#page=44).
**Voorbeeld met hogere betrouwbaarheid:** [40](#page=40).
* Testresultaat: IQ = 94 [40](#page=40).
* Z-score 95% betrouwbaarheidsinterval: 1,96 [40](#page=40).
* Standaarddeviatie test: 2,23 [40](#page=40).
* Ondergrens: $94 - (1,96 \times 2,23) = 90$ [40](#page=40).
* Bovengrens: $94 + (1,96 \times 2,23) = 98$ [40](#page=40).
### 8.4 De Item-Responstheorie (IRT) versus de Klassieke Testtheorie (KTT)
Testontwikkeling vereist testitems die de psychologische eigenschap valide meten en een doordachte selectie op basis van geschiktheid. De KTT volgt een stappenplan, terwijl de IRT losser is van dit stappenplan [45](#page=45).
#### 8.4.1 Vergelijking van testtheorieën
| Kenmerk | Klassieke Testtheorie (KTT) | Item-Responstheorie (IRT) |
| :--------------------------- | :------------------------------------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Vertrekbasis** | Testitems als verzameling (niet-empirisch). | Afzonderlijke testitems (empirisch). | [46](#page=46).
| **Achterliggende theorie** | Opgebouwd uit een verzameling testitems. | Baseert zich op afzonderlijke testitems. | [46](#page=46).
| **Basis berekening/interpretatie** | Totaalscore; hoe scoort de cliënt ten opzichte van anderen? | Afzonderlijke testitems; hoeveel vaardigheid is nodig om een item correct te beantwoorden? | [46](#page=46).
| **Precisie van uitslagen** | Hanteert dezelfde (standaard)meetfout voor iedereen. | Hanteert individuele meetfouten voor elk individu. | [46](#page=46) [51](#page=51).
| **Moeilijkheidsgraad items** | Beschouwt alle testitems als even belangrijk. | Verbindt verschillende wegingen aan testitems. | [46](#page=46).
| **Herwerking en update** | Steekproefafhankelijkheid; resultaten vergeleken met normgroepen. | Steekproefonafhankelijkheid; geïnterpreteerd vanuit de kans dat de cliënt het item correct maakt. | [47](#page=47).
| **Updatebaarheid** | Niet snel bij te werken, beperkt in testitems. | Snel bij te werken, makkelijk uit te breiden in testitems. | [46](#page=46).
| **Normgroep** | Vereist normgroep, die vaak vernieuwd moet worden. | Heeft geen normgroep nodig; universeel toepasbaar (mits heterogeniteit respondenten). | [51](#page=51).
**Voorbeeld:** De Beck Depression Inventory (BDI) heeft 21 items [46](#page=46).
* **KTT:** Een item over suïcidegedachten weegt even zwaar als elk ander item [46](#page=46).
* **IRT:** Een item over suïcidegedachten heeft een zwaarder gewicht in de schaalscore [46](#page=46).
#### 8.4.2 Opbouw van de Item-Responstheorie (IRT)
IRT is een verzameling theorieën en modellen die zich richten op iemands specifieke antwoorden op testitems om iets te zeggen over de score op de gemeten eigenschap. Het focust op dichotome items en vertrekt vanuit een latente trek [48](#page=48) [52](#page=52).
De latente trek is de verborgen eigenschap die het correct of incorrect beantwoorden van een item veroorzaakt. De positionering op een continuüm is afhankelijk van [48](#page=48):
* **Vaardigheidsniveau:** Aangeduid met $\theta$ [48](#page=48) [52](#page=52).
* **Moeilijkheidsgraad van het item:** Aangeduid met $\delta$ [48](#page=48) [52](#page=52).
* **Discriminerend vermogen:** Aangeduid met $\alpha$ [48](#page=48).
De kans dat een testitem juist of fout beantwoord wordt, is afhankelijk van de vaardigheid van de persoon en de moeilijkheidsgraad van het testitem [52](#page=52).
* Een hogere moeilijkheidsgraad ($\beta$) of lagere kans op een juist antwoord leidt tot een betere beoordeling van de vaardigheid van de cliënt bij een juist antwoord [52](#page=52).
**Stappen voor het achterhalen van de moeilijkheidsgraad van testitems:** [49](#page=49).
1. Verzamelen van items die gerelateerd zijn aan de te meten eigenschap [49](#page=49).
2. Afnemen van een test bij specifieke groepen en vergelijken van de uitslagen [49](#page=49).
3. Maximaal likelihood berekenen om te bepalen hoeveel latente trek nodig is om een item correct te beantwoorden [49](#page=49).
4. Samenstellen van een itembank met de meest veelbelovende testitems [49](#page=49).
* **Maximum likelihood:** Een methode om de benodigde latente trek te bepalen voor het correct beantwoorden van alle items [49](#page=49).
* **Item-responsfunctie:** De verhouding tussen de moeilijkheidsgraad van een item en de kans op een correct antwoord. Dit kan visueel worden voorgesteld door een item-karakteristieke curve [49](#page=49).
* Steile itemcurves duiden op een hoog discriminerend vermogen en zijn het meest informatief [49](#page=49).
* Minder steile curves zijn minder informatief en hebben een lager discriminerend vermogen [49](#page=49).
IRT geeft inzicht in de moeilijkheidsgraad en het discriminatievermogen van testitems, wat computergestuurde adaptieve testen met een itembank mogelijk maakt. Het lost de populatieafhankelijkheid van de KTT op door te onderzoeken hoe populatiekenmerken bijdragen aan het correct beantwoorden van items. Computeradaptieve testen herkennen afwijkende antwoordpatronen sneller, wat leidt tot correctere metingen van vaardigheid [50](#page=50).
#### 8.4.3 Beperkingen van de KTT vergeleken met IRT
De KTT heeft diverse beperkingen die door de IRT worden aangepakt [51](#page=51):
* **Eigenschap meting:** KTT gaat uit van één psychologische eigenschap per schaal, zonder dit altijd aan te tonen. IRT bekijkt hoe items samenhangen met de gehele eigenschap [51](#page=51).
* **Itemwaardering:** KTT beschouwt alle items als evenwaardig. IRT maakt onderscheid in de waarde van items [51](#page=51).
* **Standaardmeetfout:** KTT gaat uit van een gelijke standaardmeetfout voor iedereen. IRT houdt rekening met individuele verschillen in meetfouten [51](#page=51).
* **Steekproefafhankelijkheid:** De berekening van betrouwbaarheid en normering in de KTT is steekproefafhankelijk. IRT is minder afhankelijk van normeringsgroepen [51](#page=51).
### 8.5 Betrouwbaarheid van psychologische testen
#### 8.5.1 Wat is betrouwbaarheid?
Betrouwbaarheid is de mate van herhaalbaarheid of standvastigheid van een meting. Een betrouwbare test moet bij herhaalde afnames onder identieke omstandigheden ongeveer hetzelfde resultaat opleveren [53](#page=53).
Betrouwbaarheid bevindt zich in de diagnostische cyclus (inductie en deductie) en vereist [53](#page=53):
* Herhaalbare resultaten over onafhankelijke metingen [53](#page=53).
* Afname onder identieke omstandigheden (standaardisatie) [53](#page=53).
* Metingen bij dezelfde persoon [53](#page=53).
Standaardisatie (het volgen van een standaardprocedure) zorgt voor objectiviteit bij een testafname, maar is niet hetzelfde als betrouwbaarheid [53](#page=53).
#### 8.5.2 Meten van betrouwbaarheid
Betrouwbaarheid wordt uitgedrukt in een coëfficiënt ($r_{xx}$), die ligt tussen 0 en 1. Een hogere coëfficiënt duidt op een kleinere foutenmarge en dus een betere betrouwbaarheid. Het is echter een praktijkprobleem omdat de betrouwbaarheid en standaardmeetfout onbekend zijn, terwijl alleen varianties en geobserveerde scores bekend zijn [54](#page=54) [56](#page=56).
Methoden om de betrouwbaarheid te schatten zijn [54](#page=54):
1. **Test-hertestbetrouwbaarheid:** Consistentie tussen twee testafnames bij dezelfde personen. De tijd tussen afnames is cruciaal: lang genoeg om geheugeneffecten te vermijden, maar niet te lang om significante evolutie te voorkomen [54](#page=54).
2. **Interbeoordelaarsbetrouwbaarheid:** Consistentie tussen de beoordelingen van verschillende beoordelaars. Dit wordt bepaald door de mate van overeenstemming tussen onafhankelijke beoordelingen [54](#page=54).
3. **Paralleltestbetrouwbaarheid:** Consistentie tussen twee verschillende versies van een test. De testversies moeten gelijkwaardig zijn, maar voldoende verschillend om leereffecten te vermijden [55](#page=55).
4. **Splitsingsbetrouwbaarheid:** Consistentie tussen opgesplitste, evenwaardige delen van een test. Dit is echter een onderschatting van de betrouwbaarheid, aangezien langere tests betrouwbaarder zijn [55](#page=55).
5. **Interne consistentie:** Consistentie op itemniveau, die aangeeft in hoeverre items hetzelfde meten. Dit wordt uitgedrukt in Cronbach's alfa ($\alpha$). Er is slechts één testafname nodig [55](#page=55).
#### 8.5.3 Interpretatie van betrouwbaarheid
De interpretatie van de betrouwbaarheidscoëfficiënt hangt af van het onderzoeksdoel en de soort betrouwbaarheid [56](#page=56).
* **Onderzoeksdoel:** De COTAN (Nederlandse Commissie voor Testaangelegenheden) hanteert richtlijnen voor de gewenste waarde van de betrouwbaarheidscoëfficiënt afhankelijk van het soort onderzoek [56](#page=56).
* **Soort betrouwbaarheid:** Verschillende soorten betrouwbaarheid hebben verschillende risico's op meetfouten (door externe invloeden zoals beoordelaars, tijd, omgeving, of interne factoren zoals slecht ontworpen instrumenten). Dit kan leiden tot verschillen in interpretatie [56](#page=56).
Het is essentieel om de juiste betrouwbaarheidstest te kiezen en externe factoren zoveel mogelijk te controleren om risico's op meetfouten te minimaliseren [56](#page=56).
---
# Introductie tot psychodiagnostiek en het diagnostisch proces
Psychodiagnostiek is een systematische en theoretisch onderbouwde benadering om gedrag te beschrijven, classificeren, voorspellen en verklaren [6](#page=6).
### 9.1 Wat is psychodiagnostiek
Psychodiagnostiek omvat een systematische en theoretisch onderbouwde methode voor het beschrijven, classificeren, voorspellen en verklaren van gedrag. Het is de leer van het stellen van een diagnose, dus het vaststellen van wat er aan de hand is [6](#page=6) [7](#page=7).
#### 9.1.1 Drie doelen van psychodiagnostiek
De drie hoofddoelen van psychodiagnostiek zijn [6](#page=6):
1. **Beschrijven van:**
* **Gedrag:** Wat de persoon concreet doet [6](#page=6).
* **Sociale omgeving:** De context waarin het gedrag plaatsvindt, zoals thuissituatie of schoolomgeving [6](#page=6).
* **Ontwikkeling over tijd:** Hoe de persoon zich door de jaren heen heeft ontwikkeld op het gebied van gedrag en geheugen. Het is belangrijk om hierbij geen labels op te plakken, maar te focussen op de beschrijving van het gedrag van de cliënt [6](#page=6).
2. **Ordenen van gedrag door vertaling naar:**
* **Psychologische eigenschappen:** Het gedrag wordt vertaald naar onderliggende psychologische kenmerken [6](#page=6).
* **Psychische stoornissen:** Gedrag wordt geclassificeerd binnen bestaande classificatiesystemen. Hierbij wordt onderscheid gemaakt tussen [6](#page=6):
* **Categorisch:** Gedrag wordt ingedeeld in discrete categorieën, waarbij criteria aangeven wat wel of niet aanwezig moet zijn om tot een categorie te behoren. Dit is tijdelijk bruikbaar en moet herbekeken worden [6](#page=6).
* **Dimensionaal:** Gedrag wordt bekeken vanuit verschillende, genuanceerdere invalshoeken, wat een breder en gedetailleerder beeld geeft [6](#page=6).
* Het classificeren biedt duidelijkheid en vergemakkelijkt de communicatie met anderen [6](#page=6).
3. **Verklaren van:**
* **Oorzaken:** Het achterhalen van de oorzaken van bepaald gedrag of problemen. Dit omvat het onderzoeken van verschillen met anderen en het toetsen van hypothesen [6](#page=6).
4. **Voorspellen van:**
* **Toekomstig gedrag:** Op basis van verzamelde informatie wordt voorspeld welk gedrag een cliënt in de toekomst zou kunnen vertonen, inclusief mogelijke moeilijkheden en talenten [6](#page=6).
#### 9.1.2 Samenvattende functies van psychodiagnostiek
Psychodiagnostiek draagt bij aan:
* Het stellen van diagnoses (bv. ADHD, ASS, dyslexie) [7](#page=7).
* Het maken van profielanalyses (sterkte-zwakteprofiel) [7](#page=7).
* Het bepalen van een passende oriëntatie of behandelingskeuze [7](#page=7).
Het is cruciaal om te vermijden dat psychodiagnostiek gereduceerd wordt tot hokjesdenken, losstaande testen, subjectiviteit of het enkel toepassen van testen [7](#page=7).
### 9.2 Benaderingswijzen van psychodiagnostiek
#### 9.2.1 Doel van psychodiagnostiek
Het doel van psychodiagnostiek is om via een gesystematiseerde en theoretisch onderbouwde manier tot beschrijven, classificeren, voorspellen en verklaren van gedrag te komen [8](#page=8).
#### 9.2.2 Twee benaderingswijzen
Er worden twee hoofdbenaderingswijzen onderscheiden [8](#page=8):
* **Statistische benadering:**
* Vertrekt vanuit empirische evidentie [8](#page=8).
* Gedrag wordt cijfermatig beschreven en voorspeld [8](#page=8).
* Het resultaat van de meting is primair belangrijk [8](#page=8).
* Hangt samen met de nomothetische benadering, die zoekt naar algemene wetten en principes [8](#page=8).
* **Klinische benadering:**
* Benadrukt dat elke persoon uniek is [8](#page=8).
* De individuele dynamiek van een persoon staat centraal bij beschrijven en verklaren [8](#page=8).
* De manier van werken is even belangrijk als het resultaat [8](#page=8).
* Hangt samen met de idiografische benadering, die zich richt op de unieke kenmerken en geschiedenis van een individu [8](#page=8).
#### 9.2.3 Benaderingswijzen in de praktijk
In de praktijk komen deze benaderingen op verschillende manieren tot uiting [9](#page=9):
* Testscores bepalen primair het profiel [9](#page=9).
* Interpretatie is gebaseerd op normgegevens [9](#page=9).
* Gespreks- en observatiegegevens worden meegenomen, maar staan niet centraal [9](#page=9).
* Uitslagen zijn altijd kansuitspraken [9](#page=9).
* Kenmerkt zich door een brede en genuanceerde aanpak op drie niveaus [9](#page=9).
* **Observeren:** Dit kan alledaags of professioneel zijn. Het doel is beschrijving en verklaring. Vragen die hierbij gesteld worden zijn wie, wanneer, hoe (participerend/niet-participerend, gestructureerd/niet-gestructureerd) en wat er geobserveerd wordt (verbaal, non-verbaal, uiterlijk, innerlijk). De kwaliteit van observatie, inclusief intra- en interbeoordelaarsbetrouwbaarheid, is van belang [9](#page=9).
* **Gespreksvoering:** De context van de test, de houding van de testleider en de cliënt zelf worden aangepast [9](#page=9).
* **Verslaggeving:** Kwalitatieve gegevens staan voorop, kwantitatieve gegevens zijn aanvullend. Het voornaamste doel is het nuanceren van testresultaten om misinterpretaties te vermijden [9](#page=9).
#### 9.2.4 Vergelijking van benaderingswijzen
* **Klinisch:** Beschrijft en verklaart onderliggende causale processen op basis van kwalitatieve gegevens, zoals oorzaak-gevolgrelaties [10](#page=10).
* **Statistisch:** Beschrijft en verklaart de probabiliteit of kans dat iets voorkomt, gebaseerd op kwantitatieve gegevens [10](#page=10).
**De conclusie is om kritisch te staan tegenover eenzijdige benaderingen en de "best of both worlds" te combineren, waarbij vragenlijsten en testen belangrijke aanvullingen zijn.** [10](#page=10).
| Benadering | Voordelen | Nadelen |
| :---------- | :-------------------------------------------- | :------------------------------------ |
| Klinisch | Benadrukt belang van observaties | Verkeerde inschatting, intuïtieve indruk |
| Statistisch | Snelle beeldvorming | Reduceert complexe werkelijkheid |
### 9.3 Historiek psychodiagnostiek
#### 9.3.1 Vroege sporen
De beginselen van psychodiagnostiek zijn oud [11](#page=11).
* **Oude China:** Psychodiagnostiek werd voor het eerst gebruikt in staatsexamens om ambtenaren te selecteren [11](#page=11).
* **Grieken en Romeinen:** In het leger werden proeven afgenomen om geschiktheid te bepalen. Hippocrates stelde dat ziektes, inclusief psychische stoornissen, natuurlijke oorzaken konden hebben en observeerde, stelde diagnoses en therapieën voor. Hij zag verbanden tussen lichamelijke en psychische toestanden en ontwikkelde classificatiesystemen voor ziekten [11](#page=11).
* **Arabische wereld:** Hersenontledingen leidden tot de conclusie dat specifieke hersendelen verantwoordelijk waren voor bepaalde vaardigheden (breinlokalisatie), wat een basis legde voor de neuropsychologie en de ontwikkeling van behandelingen [11](#page=11).
#### 9.3.2 Vroege voorlopers
* **Fysiognomie:** De leer die intellectuele of karaktereigenschappen afleidde uit iemands fysieke voorkomen, met name de vorm en expressie van het gezicht. Deze leer dateert van Aristoteles en bleef populair tot in de 19e eeuw [12](#page=12).
* **Frenologie (Schedelleer):** Voortkomend uit kritiek op fysiognomie, stelde de frenologie dat verschillende psychologische vermogens gelokaliseerd konden worden in specifieke hersengebieden. Franz Joseph Gall ontwikkelde de cranioscopie (schedelonderzoek) om door middel van schedelbetasting conclusies te trekken over iemands vaardigheden en eigenschappen. Johan Spurzheim bouwde hierop voort met de frenologie [12](#page=12).
#### 9.3.3 Een aarzelende start
* **Moderne psychiatrie:** Philippe Pinel stelde dat psychische stoornissen een natuurlijke oorzaak hadden en legde de grondslag voor een begeleidende aanpak met gespreksvoering en therapie. Jean-Etienne Esquirol maakte een verdere classificatie, en Edouard Séguin ontwikkelde testen voor kinderen met een verstandelijke beperking, wat gezien wordt als de voorloper van hedendaagse intelligentietests [13](#page=13).
* **Experimentele psychologie:** Wilhelm Wundt onderzocht de samenhang tussen meetbare prikkels en menselijke functies, met nadruk op exacte beschrijving van experimentele condities, controle van variabelen en nauwkeurige verwerking van resultaten. Hij legde de basis voor het principe van standaardisatie in testonderzoek en zorgde voor systematiek. Nadelen waren onder meer de beperkte focus op cognitieve functies en het negeren van meetfouten [13](#page=13).
#### 9.3.4 Eugenetica en sociaal darwinisme
Francis Galton, geïnspireerd door Charles Darwin's theorie van natuurlijke selectie, was een voorvechter van eugenetica en sociaal darwinisme. Galton deed onderzoek naar intelligentie, stelde dat deze erfelijk bepaald was, en wordt beschouwd als de grondlegger van de psychometrie. Zijn werk over individuele verschillen droeg bij aan de ontwikkeling van psychologische tests, hoewel de ideologie van sociaal darwinisme ook leidde tot discriminatie [14](#page=14).
#### 9.3.5 Individuele verschillen
James McKeen Cattell deed onderzoek naar individuele verschillen en zag mogelijkheden om psychologie objectiever te maken met zijn 'Mental Tests and Measurement'. Clark Wissler onderzocht de verbanden tussen 'Mental Tests' en examenresultaten om de voorspellende waarde van tests na te gaan [14](#page=14).
#### 9.3.6 De eerste echte intelligentietest
* **Intelligentie, een Europese uitvinding:** Alfred Binet en Théodore Simon ontwikkelden de Binet-Simon-test om kinderen te selecteren voor gespecialiseerd onderwijs. Deze test gebruikte opdrachten met oplopende moeilijkheidsgraad om de verstandelijke leeftijd te bepalen en toonde een samenhang tussen testresultaten en schoolprestaties [15](#page=15).
* **Amerikaanse heroriëntatie:** Henry Goddard en Lewis Terman ontwikkelden de Stanford-Binet-test, een universele standaard met verdere kwantificering van het IQ. Zij droegen bij aan de ontwikkeling van non-verbale IQ-testen, wat belangrijk was voor de interpretatie van IQ bij migranten. Positieve bijdragen waren de ontwikkeling van de eerste echte IQ-test, universalere toepassing, gebruik van normen, eerste representatieve Amerikaanse steekproeven en accuratere vergelijkingen [15](#page=15).
#### 9.3.7 Verdere evolutie
* **Van individuele naar collectieve tests:** Tijdens WOI ontwikkelden de Army-tests (Alfa en Beta) voor de snelle selectie van rekruten, wat de weg vrijmaakte voor groepstesten. Na de oorlog analyseerde Carl Brigham deze data, wat impact had op het migratiebeleid [16](#page=16).
* **Correlaties:** Karl Pearson ontwikkelde het concept van correlaties om na te gaan in welke mate twee verschillende testen dezelfde eigenschap meten [16](#page=16).
* **Factoranalyse:** Charles Spearman ontdekte een gemeenschappelijke eigenschap (factor g) voor algemene intelligentie, waarbinnen deelvaardigheden (s-factoren) vallen. Raymond Cattell en John Horn bouwden hierop voort door s-factoren concreter te maken, zoals vloeiende intelligentie ($G_f$) en gekristalliseerde intelligentie ($G_c$). John Carroll bracht dit verder uit met nauwe cognitieve vaardigheden [17](#page=17).
##### 9.3.7.1 Brede cognitieve vaardigheden (CHC-model)
Het CHC-model beschrijft brede cognitieve vaardigheden [18](#page=18):
* $G_f$: Vloeiende intelligentie (Fluid Intelligence) - het vermogen om nieuwe problemen op te lossen zonder voorkennis [18](#page=18).
* $G_c$: Gekristalliseerde intelligentie (Crystallized Intelligence) - verworven kennis en vaardigheden die ingezet kunnen worden bij probleemoplossing [18](#page=18).
* $G_g$: Quantitative Knowledge - verworven kennis gerelateerd aan kwantitatieve informatie en numerieke symbolen [18](#page=18).
* $G_{rw}$: Reading/Writing Ability - verworven kennis die basis vormt voor lezen, schrijven, taalbegrip en expressie [18](#page=18).
* $G_{sm}$: Short-Term Memory (KTG) - het vermogen om informatie kortstondig vast te houden en te gebruiken [18](#page=18).
* $G_v$: Visual Processing - vaardigheid om visuele patronen en stimuli te genereren, waarnemen, analyseren, synthetiseren, manipuleren, transformeren en ermee te denken [18](#page=18).
* $G_a$: Auditory Processing - vaardigheid om auditieve stimuli te begrijpen, analyseren en synthetiseren [18](#page=18).
* $G_{lr}$: Long-Term Storage and Retrieval (LTG) - vaardigheid om informatie in het langetermijngeheugen te bewaren en terug te halen [18](#page=18).
* $G_s$: Processing Speed - vaardigheid om cognitieve taken vloeiend en automatisch uit te voeren [18](#page=18).
* $G_t$: Decision/Reaction Time or Speed - vaardigheid om snel te reageren of beslissingen te nemen [18](#page=18).
#### 9.3.8 Meten van andere eigenschappen
* **Ontwikkeling van vorderingentesten:** Thorndike bekritiseerde intelligentietests omdat ze geen zicht boden op het potentieel van leerlingen, en pleitte voor het meten van aparte vaardigheden. Vorderingentesten meten de mate waarin het doel van een training of opleiding is bereikt [19](#page=19).
* **Persoonlijkheids- en attitudetests:** Twee belangrijke bewegingen waren de ontwikkeling van persoonlijkheidsvragenlijsten, attitudemetingen en projectieve tests. Persoonlijkheidsvragenlijsten laten individuen een reeks vragen beantwoorden om hun persoonlijkheid te achterhalen, soms met controlevragen. De Likert-schaal is een techniek om attitudes te meten door middel van beweringen met antwoordmogelijkheden [19](#page=19).
### 9.4 Wat is een psychologische test
Een psychologische test is een psychometrisch onderbouwde beoordelingsprocedure die iets zegt over het kunnen (prestaties) en zijn (gedragswijze) van mensen, waarbij interindividuele (verschillen tussen personen) en intra-individuele (verschillen binnen dezelfde persoon) verschillen worden onderzocht [20](#page=20).
#### 9.4.1 Kenmerken van een psychologische test
Een psychologische test omvat de volgende aspecten [20](#page=20):
1. **Een beoordelingsprocedure:** Een gestandaardiseerde methode om gedrag te registreren en te meten [20](#page=20).
2. **Een registratie van psychologische eigenschappen:** Abstracte, hypothetische constructen (zoals intelligentie of persoonlijkheid) worden meetbaar gemaakt. Dit onderscheidt "prestaties" (het kunnen) van "gedragswijze" (het zijn) [21](#page=21).
* **Trekken:** Stabiele, onveranderlijke psychologische eigenschappen (bv. persoonlijkheid, karakter) [21](#page=21).
* **Toestanden:** Onstabiele psychologische eigenschappen die kunnen veranderen (bv. emoties, motivatie) [21](#page=21).
3. **Een psychometrisch onderbouwde meetresultaten:** De test moet voldoen aan vijf psychometrische kwaliteiten [22](#page=22):
* **Betrouwbaarheid:** De standvastigheid van de meting; een test moet op verschillende momenten vergelijkbare resultaten opleveren [22](#page=22).
* **Validiteit:** De test meet wat ze zegt te meten [22](#page=22).
* **Standaardisatie:** De test moet onder vergelijkbare omstandigheden worden afgenomen (bv. gelijke context, testafnameprocedure) [22](#page=22).
* **Objectieve scoring:** De scoringsmethode moet eenduidig zijn om verschillende interpretaties te vermijden, bijvoorbeeld door richtlijnen in een handleiding [22](#page=22).
* **Normering:** De resultaten moeten vergeleken kunnen worden met een representatieve en voldoende grote groep (normgroep) [22](#page=22).
4. **Andere kenmerken:**
* **Reikwijdte:** Het domein van te meten psychologische eigenschappen en de diversiteit van de te meten personen [23](#page=23).
* **Aanvaardbaarheid:** De mate van acceptatie van een test, die verband houdt met indruksvaliditeit [23](#page=23).
* **Onpartijdigheid:** Zorgen dat bepaalde groepen de items niet systematisch anders invullen, rekening houdend met bias door test, testleider, taal en cultuur [23](#page=23).
* **Praktische aspecten:** Hoewel testen duur kunnen zijn, bieden ze op korte tijd veel informatie die anders moeilijk te verkrijgen is [23](#page=23).
* **Objectiviteit:** De onderzoeker heeft geen invloed op de resultaten, wat samenhangt met standaardisatie [23](#page=23).
* **Efficiëntie:** Testen lokken gedrag uit en zijn tijdbesparend [23](#page=23).
#### 9.4.2 Toepassingsmogelijkheden van tests
Tests kunnen worden gebruikt voor:
* **Beoordelen van individuen:** Sterktes, zwaktes, voorspellingen, keuzemogelijkheden, vergelijkend (longitudinaal) onderzoek, beschrijvingen, verklaringen en probleemanalyse [20](#page=20).
* **Beoordelen van groepen:** Vergelijkend onderzoek, individuen vergelijken met groepen, en diagnoses [20](#page=20).
* **Beoordelen van situaties en methoden:** Conclusies trekken over variërende experimentele variabelen [20](#page=20).
### 9.5 Domeinen van psychologische testen
Psychologische testen kunnen worden ingedeeld in twee basisdomeinen [24](#page=24):
* **Prestatieniveautests:** Meten wat mensen *kunnen*. Hierbij is het belangrijk dat de onderzochte persoon zo goed mogelijk presteert. Dit omvat algemene niveautests en specifieke niveautests [24](#page=24) [3](#page=3).
* **Tests voor gedragswijze:** Meten hoe mensen *zijn* of hoe ze zich gedragen. Hierbij is het belangrijk dat de onderzochte persoon eerlijk antwoordt en zich niet beter of slechter voordoet dan hij/zij werkelijk is. Dit omvat observatietesten, somato-fysiologische metingen, zelfbeoordelingen en projectieve technieken [24](#page=24) [3](#page=3).
---
Dit hoofdstuk behandelt de verschillende soorten psychologische tests, de manier waarop antwoorden worden geschaald, de interpretatie van testresultaten via normering en betrouwbaarheidsintervallen, en de onderliggende testtheorieën.
### 9.1 Prestatieniveau testen
Prestatieniveau testen meten het niveau van prestaties, vaardigheden of kennis van een persoon. Ze worden onderverdeeld in vier categorieën [25](#page=25):
#### 9.1.1 Enkelvoudige algemene niveautests
Deze tests geven een globale schatting van het algemene intelligentieniveau. Ze kunnen verder worden onderverdeeld in [25](#page=25):
* **Individuele ontwikkelingstests:** Meten de mentale groei in de loop der jaren, zoals de WISC-test [25](#page=25).
* **Individuele intelligentietests voor volwassenen:** Bepalen het intelligentieniveau bij volwassenen, zoals de WAIS-test [25](#page=25).
* **Collectieve algemene intelligentietests:** Kunnen tegelijkertijd bij een groep worden afgenomen, zoals Raven's Progressive Matrices [25](#page=25).
#### 9.1.2 Veelvoudige algemene niveautests
Deze tests meten zowel het algemene intelligentieniveau als verschillende deelaspecten van intelligentie (cognitieve vaardigheden). Ze omvatten [25](#page=25):
* **Testbatterijen voor intelligentiefactoren:** Elk subtest meet een zuivere deelvaardigheid van algemene intelligentie, zoals het CHC-model [25](#page=25).
* **Testbatterijen voor geschiktheid:** Meten specifieke maatschappelijke of schoolgebonden taken, zoals de GATB (General Attitude Test Battery) [25](#page=25).
#### 9.1.3 Specifieke niveautests
Deze tests meten zeer specifieke aspecten van intelligentie, geschiktheid, en andere factoren. Ze worden onderverdeeld in [26](#page=26):
* Testen voor specifieke intelligentiefactoren [26](#page=26).
* Testen voor specifieke geschiktheden [26](#page=26).
* Testen voor specifieke niet-intelligentiefactoren [26](#page=26).
#### 9.1.4 Vorderingentests
Deze tests meten de mate waarin het doel van een training of opleiding is bereikt of verbeterd, zowel wat betreft kennis als vaardigheden. Voorbeelden zijn leerlingvolgsysteem-toetsen [26](#page=26).
> **Tip:** Het is belangrijk om het onderscheid tussen deze categorieën van prestatietesten te kennen voor het correct kiezen van een instrument [25-26](#page=25,26).
### 9.2 Tests voor gedragswijze
Het meten van gedrag is complexer dan het meten van prestaties, met uitdagingen zoals zwakkere veralgemeenbaarheid, gebrek aan objectieve externe criteria, en beperkte stabiliteit. De volgende typen tests worden onderscheiden [27](#page=27):
#### 9.2.1 Observatietesten
Hierbij registreert een externe beoordelaar gedragsaspecten. De informatie is indirect en potentieel gevoelig voor subjectiviteit. Verschillende vormen van observatie bestaan, waaronder individueel of groep, gestructureerd of ongestructureerd, en participerend of niet-participerend [27](#page=27).
#### 9.2.2 Somato-fysiologische metingen
Deze meten lichamelijke kenmerken of processen om psychologische eigenschappen af te leiden. Technieken omvatten biochemische indicatoren, DNA-onderzoek, EEG, hersenscanners (CAT, MRI, PET), EKG, oogbewegingsmetingen en elektrodermale verschijnselen. Morfologie, dat verbanden legt tussen lichamelijke kenmerken en psychologische eigenschappen, heeft nog steeds relevantie [27](#page=27).
#### 9.2.3 Zelfbeoordelingen
De cliënt vult zelf een vragenlijst in. Aandachtspunten zijn mogelijke onvoldoende zelfkennis, onbegrip, verkeerde interpretatie door de cliënt, of de cliënt die zich anders voordoet dan hij/zij werkelijk is. Dit type omvat [28](#page=28):
* **Interessetesten:** Meten de interesses van een persoon [28](#page=28).
* **Waarden- en attitudetests:** Meten wat iemand belangrijk vindt of hoe iemand denkt over politieke, culturele of sociale verschijnselen [28](#page=28).
* **Persoonlijkheidsvragenlijsten:** Meten specifieke persoonlijkheidskenmerken, vaak gebruikt bij selectieprocedures [28](#page=28).
* **Psychopathologievragenlijsten:** Sporen mogelijke psychopathologieën op [28](#page=28).
#### 9.2.4 Projectieve technieken
Bij deze tests denkt de onderzochte een prestatie te leveren, maar de focus ligt op de manier waarop de cliënt reageert, waarbij de resultaten een reflectie zijn van de innerlijke persoonlijkheid. Ze zijn zeer subjectief en vereisen een kritische benadering. Varianten zijn [29](#page=29):
* **Perceptietests:** De cliënt beschrijft wat hij "ziet" in weinigzeggend materiaal [29](#page=29).
* **Interpretatietests:** De cliënt interpreteert meer gestructureerd materiaal [29](#page=29).
* **Expressietests:** De cliënt maakt een tekening van iets zoals hij/zij het voorstelt, waarbij de uitvoering wordt geanalyseerd [29](#page=29).
* **Constructietests:** De cliënt bouwt iets met aangeboden materiaal [29](#page=29).
* **Associatietests:** Onderzoeken de vrije associatie techniek [29](#page=29).
* **Keuzetests:** De cliënt moet kiezen tussen bepaalde opties [29](#page=29).
### 9.3 Antwoordschalen in psychologische testen
Antwoordschalen zijn essentieel om abstracte, niet-direct waarneembare psychologische constructen te operationaliseren en vast te leggen, zowel kwantitatief (getallen) als kwalitatief (woorden). Het proces omvat drie stappen [30](#page=30):
1. **Van waarneembaar gedrag naar psychologische eigenschap:** Kwalitatieve variabelen op een nominaal meetniveau worden gekoppeld aan psychologische eigenschappen [30](#page=30).
2. **Objectief vastleggen van waarneembaar gedrag:** Kwalitatieve variabelen worden omgezet naar kwantitatieve variabelen (ordinaal, interval, ratio). Dit gebeurt via dichotome items (juist/fout) voor prestaties, en polytome items (gradaties) voor gedrag [30](#page=30).
3. **Interpreteren van waarneembaar gedrag:** Kwantitatieve ruwe scores worden omgezet naar gestandaardiseerde scores (afgeleide scores) op basis van verschillende vergelijkingsschalen [30](#page=30).
#### 9.3.1 Soorten antwoordschalen
De keuze van een antwoordschaal hangt af van of de schaal kwantitatief of kwalitatief is, en van de meetniveaus [31](#page=31).
##### 9.3.1.1 Open antwoordschalen
Deze zijn kwalitatief van aard (nominaal meetniveau) en verzamelen beschrijvende antwoorden in woorden [31](#page=31).
* **Voordelen:** Bieden veel informatie en inzicht in gedachtegangen [31](#page=31).
* **Nadelen:** Tijdsintensief en verhogen de kans op irrelevante antwoorden door foute interpretatie [31](#page=31).
##### 9.3.1.2 Gesloten antwoordschalen
Deze zijn kwantitatief (ordinaal, interval, ratio meetniveaus) en omvatten diverse typen [32](#page=32):
* **Meerkeuzevragen:** Bestaan uit 3-4 opties met één juist antwoord, voornamelijk gebruikt in prestatietests en gekenmerkt door een nominaal meetniveau. Een GIS-correctie kan gebruikt worden om gokken te vermijden [32](#page=32).
* **Checklist:** De respondent kruist aan wat van toepassing is. Bruikbaar in prestatietests (dichotoom) en tests voor gedragswijze, met een nominaal meetniveau [32](#page=32).
* **Beoordelingsschaal:** De respondent kiest de meest toepasselijke uitspraak uit een reeks. Gebruikt in prestatietests en tests voor gedragswijze (polytome items), met een ordinaal meetniveau [32](#page=32).
* **Likertschalen:** Een reeks beweringen met telkens dezelfde antwoordmogelijkheden. Gebruikt in tests voor gedragswijze (polytome items) en kan een ordinaal (individueel) of interval (meerdere schalen) meetniveau hebben. Reversed items worden gebruikt om onzorgvuldige of sociaal wenselijke antwoorden op te vangen [32](#page=32).
* **Semantische differentiaalschalen:** De respondent positioneert zich tussen twee tegengestelde begrippen. Gebruikt in tests voor gedragswijze (polytome items) en kenmerkt zich door een ordinaal meetniveau [33](#page=33).
* **Grafische responsschalen:** Beoordelingsschalen gekoppeld aan prenten, handig voor kinderen of mensen met beperkingen. Gebruikt in tests voor gedragswijze en heeft een ordinaal meetniveau [33](#page=33).
* **Gedwongen keuzevragen:** De respondent kiest uit opties die het beste bij hem/haar passen, zonder goed of fout antwoord. Gebruikt in tests voor gedragswijze en kenmerkt zich door een nominaal meetniveau met evenwaardige antwoordalternatieven [33](#page=33).
> **Tip:** Het onderscheid tussen beoordelingsschalen, Likertschalen en semantische differentiaalschalen ligt in hun gebruik, opbouw van antwoordalternatieven en labeling [33](#page=33).
### 9.4 Normeren in psychologische testen
Normeren is het proces waarbij ruwe scores worden omgezet naar gestandaardiseerde scores, zodat de prestatie van een individu vergeleken kan worden met een relevante groep. Dit gebeurt via drie soorten vergelijkingsschalen [34](#page=34):
* **Normgerelateerd:** Vergelijkt de cliënt met een algemene of specifieke normgroep. Belangrijk hierbij zijn de grootte van de steekproef, de geldigheidsduur (Flynn-effect) en lokale normen. De relativiteit van de normgroep is een kritisch aandachtspunt [34](#page=34).
* **Criteriumgerelateerd:** Vergelijkt de cliënt met een vooraf vastgelegd doel of criterium (absolute norm). Dit vereist duidelijkheid over de te bereiken doelen en de waarop de meting gebaseerd is [34](#page=34).
* **Persoonsgerelateerd:** Vergelijkt de cliënt met zijn/haar eigen eerdere testresultaten (ipsatieve vergelijking) [34](#page=34).
#### 9.4.1 Interpreteren van waarneembaar gedrag
Dit proces omvat het omzetten van ruwe scores naar gestandaardiseerde scores, met nadruk op normgerelateerde schalen. Andere interpretatiemethoden omvatten [35](#page=35):
1. **Beschrijving van de ruwe scores van de normgroep:** Gebruik van frequentieverdelingen (absoluut en relatief) en grafische voorstellingen [35](#page=35).
2. **Berekenen van de centrale tendentie:** Bepaalt de meest voorkomende waarde. Afhankelijk van het meetniveau zijn dit de modus (nominaal), mediaan (ordinaal) en het rekenkundig gemiddelde (interval) [35](#page=35).
3. **Iemands positie berekenen binnen de groep:** Gebruik van percentielen, decielen, kwartielen en klasse-indelingen om de positie van een cliënt in de normgroep te bepalen. Percentielen zijn gemakkelijk te begrijpen en bieden precieze differentiatie [36](#page=36).
4. **Berekenen van de spreiding:** Meet in hoeverre individuele scores afwijken van het gemiddelde of van elkaar, met maten zoals variatiebreedte, variantie en standaardafwijking [36](#page=36).
#### 9.4.2 Standaardscores
Standaardscores geven de positie van de cliënt binnen de groep weer en zijn gebaseerd op Z-scores, waarbij het gemiddelde 0 en de standaardafwijking 1 is. Formule voor Z-score [37](#page=37):
$$Z = \frac{X - \mu}{\sigma}$$ [37](#page=37).
waarbij $X$ de ruwe score is, $\mu$ het populatiegemiddelde, en $\sigma$ de populatiestandaardafwijking.
Andere standaardscores zijn T-scores, C-scores, Stanines, Deviatie-IQ scores en (Wechsler-)schaalscores. Via omzettingstabellen kunnen deze scores worden omgerekend [37](#page=37) [38](#page=38).
> **Voorbeeld:** Een T-score van 55 op test A en een stanine van 7 op test B kunnen beide worden omgezet naar een vergelijkbare schaal, bijvoorbeeld een T-score tussen 58-62, wat de interpretatie tussen verschillende tests vergemakkelijkt [39](#page=39).
### 9.5 Betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen geven het interval rond een geobserveerde score aan waarin de ware score van een individu met een bepaalde waarschijnlijkheid zal vallen. Dit is belangrijk omdat de normgroep nooit een perfecte weergave is van de populatie. Ze zijn opgebouwd uit de testresultaten van de cliënt, een Z-waarde voor het zekerheidspercentage (bv. 90% = 1,65, 95% = 1,96, 99% = 2,58) en de standaarddeviatie van de test [40](#page=40).
* **Voorbeeld:** Bij een IQ van 94, een Z-score van 1,96 voor 95% zekerheid en een standaarddeviatie van 8,58, ligt het betrouwbaarheidsinterval tussen 77 en 111 [40](#page=40).
* **Relatie met betrouwbaarheid:** Hoe betrouwbaarder en valider een test is, hoe nauwer het betrouwbaarheidsinterval wordt. Bij een test met een standaarddeviatie van 2,23 en dezelfde IQ van 94, ligt het 95% betrouwbaarheidsinterval tussen 90 en 98 [40](#page=40).
### 9.6 De klassieke testtheorie, het verband met betrouwbaarheid van psychologische testen en de item-responstheorie
#### 9.6.1 De klassieke testtheorie (KTT) en betrouwbaarheid
Testtheorieën zijn wiskundige modellen voor testontwikkeling. De KTT, hoewel de moderne versie de Item-Responstheorie (IRT) is, blijft een fundamenteel model voor het opstellen van tests. De KTT gaat uit van de uitdaging van meetfouten [41](#page=41):
* **Toevallige meetfouten:** Ontstaan door externe invloeden of de testconstructie en variëren van testafname tot testafname. Standaardisatie helpt deze tegen te gaan [41](#page=41).
* **Systematische meetfouten:** Ontstaan door kenmerken van de test zelf en hebben een consistente impact [41](#page=41).
Psychologische testen zijn nooit perfect en meten nooit 100% accuraat vanwege deze meetfouten [41](#page=41).
Betrouwbaarheid in de KTT hangt samen met toevallige meetfouten en garandeert dat een psychologische eigenschap standvastig wordt gemeten. Hoe betrouwbaarder een test, hoe kleiner de impact van meetfouten op de resultaten en hoe zekerder we zijn van consistente uitkomsten bij identieke testafnamen. Voor betrouwbaarheid zijn onafhankelijke metingen, identieke omstandigheden (standaardisatie) en metingen bij dezelfde persoon cruciaal [42](#page=42).
De KTT beschrijft de feitelijke score ($X_{ij}$) als de som van de systematische ware score ($T_i$) en toevallige meetfouten ($E_{ij}$): $X_{ij} = T_i + E_{ij}$. De standaardmeetfout is een maat voor de impact van meetfouten; hoe kleiner deze is, hoe betrouwbaarder de test [43](#page=43).
#### 9.6.2 De item-responstheorie (IRT)
IRT is een modernere testtheorie die testontwikkeling aanpakt door zich te richten op de relatie tussen individuele items en de onderliggende psychologische eigenschap. Testontwikkeling vereist items die de eigenschap valide meten en een doordachte selectie op basis van testtheorieën [45](#page=45).
**Vergelijking met KTT:**
* **Flexibiliteit:** IRT-gebaseerde testen zijn sneller bij te werken en makkelijker uit te breiden met items dan KTT-gebaseerde testen [46](#page=46).
* **Basis theorie:** KTT baseert zich op een verzameling items (niet-empirisch), terwijl IRT zich baseert op afzonderlijke items (empirisch) [46](#page=46).
* **Berekening & Interpretatie:** KTT baseert zich op de totaalscore (hoe scoort men t.o.v. anderen), terwijl IRT zich baseert op individuele testitems (welke vaardigheid is nodig om het item correct te beantwoorden) [46](#page=46).
* **Precisie:** KTT hanteert een uniforme standaardmeetfout voor iedereen, terwijl IRT individuele meetfouten hanteert, wat resulteert in meer precisie [46](#page=46).
* **Moeilijkheidsgraad items:** KTT beschouwt alle items als even belangrijk, terwijl IRT verschillende wegingen aan items toekent op basis van hun moeilijkheidsgraad en relevantie [46](#page=46).
> **Voorbeeld:** In de Beck Depression Inventory (BDI) heeft een item over suïcidegedachten bij KTT evenveel gewicht als andere items, maar bij IRT krijgt dit item een zwaarder gewicht vanwege de ernst [46](#page=46).
#### 9.6.3 Steekproefafhankelijkheid
* **KTT:** Testresultaten worden vergeleken met normgroepen, wat leidt tot steekproefafhankelijkheid wat betreft betrouwbaarheid, normering en moeilijkheidsgraad [47](#page=47).
* **IRT:** Testresultaten worden geïnterpreteerd vanuit de kans dat een cliënt een item correct maakt, wat resulteert in steekproefonafhankelijkheid. Dit beïnvloedt ook de betrouwbaarheid, normering en moeilijkheidsgraad van de testitems [47](#page=47).
---
## 9. Psychodiagnostiek en het diagnostisch proces
Dit hoofdstuk introduceert de Item-Responstheorie (IRT) als een alternatief voor de Klassieke Testtheorie (KTT) en verdiept zich in de cruciale concepten van betrouwbaarheid en validiteit binnen psychodiagnostische testen.
### 9.1 Item-responstheorie (IRT)
De Item-Responstheorie (IRT) is een verzameling theorieën en modellen die zich richten op individuele antwoorden op testitems om een schatting te maken van de vaardigheid van een cliënt op een gemeten eigenschap. In tegenstelling tot de KTT, die de score van een persoon vergelijkt met een normgroep op basis van de totaalscore, legt IRT meer nadruk op de specifieke antwoorden van de cliënt. IRT is met name gericht op dichotome items (goed/fout) en vertrekt vanuit een latente trek, opgebouwd uit vaardigheidsniveau, moeilijkheidsgraad en discriminerend vermogen [48](#page=48) [52](#page=52).
#### 9.1.1 Opbouw van de item-responstheorie
* **Latent continuüm:** IRT maakt uitspraken over een latente trek, de verborgen psychologische eigenschap die het juist of fout beantwoorden van een item veroorzaakt. De positionering van een persoon op dit continuüm is afhankelijk van drie factoren [48](#page=48):
* Het vaardigheidsniveau van de persoon, aangeduid met $\theta$ [48](#page=48) [52](#page=52).
* De moeilijkheidsgraad van het item, aangeduid met $\delta$ of $\beta$ [48](#page=48) [52](#page=52).
* Het discriminerend vermogen van het item, aangeduid met $\alpha$ [48](#page=48).
* **Moeilijkheidsgraad:** Om de moeilijkheidsgraad van testitems te achterhalen, worden eerst relevante items verzameld en een test opgesteld, waarna deze wordt afgenomen bij een grote groep respondenten. Op basis van deze antwoorden wordt met behulp van maximum likelihood bepaald hoeveel van de latente trek een respondent moet bezitten om elk item juist te kunnen beantwoorden. De resultaten leiden tot een 'itembank' met veelbelovende testitems [49](#page=49).
* **Maximum likelihood:** Een methode om te bepalen hoeveel iemand de latente trek moet bezitten om alle testitems correct te beantwoorden [49](#page=49).
* **Item-responsfunctie:** De verhouding tussen de moeilijkheidsgraad van een testitem en de kans op een correct antwoord. Visueel voorgesteld door een item-karakteristieke curve [49](#page=49).
* **Discriminerend vermogen:** Items met een steilere itemcurve hebben een hoger discriminerend vermogen, wat betekent dat ze duidelijker aangeven vanaf welke vaardigheid een individu een item waarschijnlijk juist zal beantwoorden. Minder steile curves duiden op een lager discriminerend vermogen en zijn minder informatief [49](#page=49).
#### 9.1.2 Samenvatting van IRT en vergelijking met KTT
IRT biedt inzicht in de moeilijkheidsgraad en het discriminerend vermogen van testitems, wat computergestuurd adaptief testen mogelijk maakt vanuit een itembank. Een belangrijk voordeel van IRT ten opzichte van KTT is dat het populatie-onafhankelijk is. IRT kan afwijkende antwoordpatronen sneller herkennen, wat leidt tot nauwkeurigere metingen van respondentvaardigheden en eenvoudiger onderzoek naar antwoordpatronen [50](#page=50).
#### 9.1.3 Beperkingen van de Klassieke Testtheorie (KTT)
De KTT, die zich richt op betrouwbaarheid en de opbouw van testresultaten, kent diverse beperkingen vergeleken met IRT [51](#page=51):
* **Aanname van één eigenschap per schaal:** KTT gaat ervan uit dat alle items binnen een schaal dezelfde psychologische eigenschap meten, zonder dit empirisch aan te tonen. IRT kijkt breder naar de samenhang van items en de gehele psychologische eigenschap [51](#page=51).
* **Gelijkwaardigheid van testitems:** KTT beschouwt alle testitems als evenwaardig, terwijl sommige items zwaarder wegen dan andere. IRT maakt een onderscheid in de waarde van items [51](#page=51).
* **Gelijke standaardmeetfout:** KTT neemt aan dat de standaardmeetfout voor iedereen gelijk is, wat onrealistisch kan zijn. IRT houdt rekening met onderlinge verschillen in meetfouten [51](#page=51).
* **Steekproefafhankelijkheid betrouwbaarheid:** De betrouwbaarheidsberekening in KTT is steekproefafhankelijk. Dit kan worden verbeterd met een grote, representatieve steekproef [51](#page=51).
* **Steekproefafhankelijkheid normering:** Normen in KTT zijn steekproefafhankelijk, wat kan leiden tot verschillende interpretaties afhankelijk van de vergelijkingsgroep. IRT vergelijkt personen met items, wat minder afhankelijkheid van normgroepen creëert [51](#page=51).
* **Afhankelijkheid van normen:** KTT kan niet zonder normen, die regelmatig vernieuwd moeten worden. IRT heeft geen normgroep nodig en kan universeel worden toegepast, mits de geteste populatie heterogeen genoeg is [51](#page=51).
### 9.2 Betrouwbaarheid van psychologische testen
Betrouwbaarheid verwijst naar de mate van herhaalbaarheid of standvastigheid van een meting; een betrouwbare meting moet steeds ongeveer hetzelfde resultaat opleveren. Dit impliceert dat testresultaten herhaalbaar moeten zijn over onafhankelijke metingen, testafnames onder identieke omstandigheden plaatsvinden (standaardisatie), en metingen bij dezelfde persoon consistente resultaten geven, zonder significante verlies- of leereffecten. Standaardisatie, het volgen van een standaardprocedure, is cruciaal voor objectiviteit bij individuele testafnames, maar is niet hetzelfde als betrouwbaarheid [53](#page=53).
#### 9.2.1 Meten van betrouwbaarheid
Het meten van betrouwbaarheid (aangeduid als $r_{xx}$) is in de praktijk een uitdaging omdat de betrouwbaarheid en standaardmeetfout onbekend zijn, terwijl alleen variantie en geobserveerde scores bekend zijn. Er zijn verschillende methoden om betrouwbaarheid te schatten [54](#page=54):
* **Test-hertestbetrouwbaarheid:** Meet de consistentie tussen twee testafnames bij dezelfde personen, om de stabiliteit van de meting aan te tonen. De tussentijd tussen de afnames is een belangrijk aandachtspunt: lang genoeg om geheugen- en leereffecten te vermijden, maar niet te lang om significante evolutie van de geteste eigenschap te voorkomen [54](#page=54).
* **Interbeoordelaarsbetrouwbaarheid:** Meet de consistentie tussen de beoordelingen van verschillende beoordelaars. Dit is relevant voor het vaststellen van externe invloeden die tot vertekeningen kunnen leiden. Het wordt bepaald door de mate van overeenstemming tussen onafhankelijke beoordelaars die dezelfde gegevens beoordelen [54](#page=54).
* **Paralleltestbetrouwbaarheid:** Meet de consistentie tussen twee verschillende testversies die bij dezelfde persoon worden afgenomen. De testversies moeten sterk op elkaar lijken, maar niet identiek zijn om leereffecten te vermijden. De samenhang tussen de versies geeft een indicatie van de veralgemeenbaarheid van de testuitslagen [55](#page=55).
* **Splitsingsbetrouwbaarheid:** Meet de consistentie tussen opgesplitste testdelen. Een test wordt in twee evenwaardige helften opgedeeld, en de correlatie tussen de scores van deze helften geeft een idee van de betrouwbaarheid. Dit is echter een onderschatting van de werkelijke betrouwbaarheid, en hoe langer de test, hoe betrouwbaarder [55](#page=55).
* **Interne consistentie:** Meet de consistentie op item- of oefeningsniveau. Het gaat na in hoeverre verschillende items van een test of subtest hetzelfde meten en onderling verwisselbaar zijn. Dit wordt vastgesteld met slechts één testafname en wordt uitgedrukt in Cronbachs alfa ($\alpha$) [55](#page=55).
#### 9.2.2 Hoe betrouwbaar moet een test zijn?
De betrouwbaarheidscoëfficiënt ($r_{xx}$) ligt tussen 0 en 1, waarbij een waarde dichter bij 1 duidt op een kleinere foutenmarge en dus betere betrouwbaarheid. De interpretatie van de betrouwbaarheid is afhankelijk van het onderzoeksdoel en het soort betrouwbaarheid. De COTAN (Commissie Test Aangelegenheden Nederland) heeft richtlijnen opgesteld voor de gewenste waarde van de betrouwbaarheidscoëfficiënt bij verschillende onderzoekstypen. Het soort betrouwbaarheid dat wordt gemeten brengt verschillende risico's op meetfouten met zich mee, wat de interpretatie kan beïnvloeden. Het minimaliseren van externe factoren en het kiezen van de juiste betrouwbaarheidstest is essentieel [56](#page=56).
### 9.3 Validiteit van psychologische testen
Validiteit geeft aan in hoeverre een test meet wat het beoogt te meten. Waar betrouwbaarheid zich richt op de consistentie van een meting ("hoe consistent?"), richt validiteit zich op de relevantie ("hoe relevant?"). Een geldig meetresultaat over een psychologische eigenschap houdt in dat testprestaties en -gedragingen iets zeggen over prestaties en gedragingen buiten de testsituatie (valideringsproces) [57](#page=57) [58](#page=58).
#### 9.3.1 Meten van validiteit
Het valideringsproces bewijst het verband tussen prestaties binnen en buiten de testsituatie. Een test is valide als deze de beoogde psychologische eigenschap correct weergeeft. Dit wordt gemeten door testresultaten te vergelijken met een theoretisch model van de eigenschap; overeenkomende resultaten duiden op validiteit. Het doel is na te gaan of testgedrag iets zegt over gedrag buiten de testsituatie en of de test meet wat deze hoort te meten. Validiteit wordt uitgedrukt in de coëfficiënt $r_{t1t2}$ [59](#page=59).
Er zijn verschillende vormen van validiteit te meten:
* **Inhoudsvaliditeit:** De mate waarin testitems de psychologische eigenschap meten, op een niet-empirische wijze bepaald. Hierbij wordt gekeken naar de inhoud van de testitems, zowel afzonderlijk (meten ze deelaspecten?) als gezamenlijk (meten ze de eigenschap in zijn geheel?). Het doel is na te gaan of de test de verschillende niveaus van de eigenschap evenwichtig en onderbouwd meet. Een valkuil is de subjectiviteit en het gebrek aan empirische evidentie. Inhoudsvaliditeit wordt ook wel steekproefvaliditeit genoemd [60](#page=60).
* **Indruksvaliditeit (face validity):** Wat een test op het eerste zicht lijkt te meten, gebaseerd op verwachtingen. Hoewel subjectief, is het noodzakelijk omdat het de motivatie van respondenten kan verhogen als de test zinvol overkomt. Het heeft samenhang met inhoudsvaliditeit [60](#page=60).
* **Begripsvaliditeit (constructvaliditeit):** Statisch bepalen in hoeverre de test de psychologische eigenschap meet, door middel van empirische bepaling. Het gaat na of testitems delen van en de gehele psychologische eigenschap/construct meten. Dit gebeurt door correlaties te onderzoeken; zwakke correlaties wijzen op verschillende eigenschappen, sterke correlaties op dezelfde eigenschap. Hoe dichter de correlatie bij 1 ligt, hoe sterker deze is [61](#page=61).
* **Factoranalyse:** Een statistische techniek die nagaat welke testitems dezelfde aparte deeleigenschap meten, wat inzicht geeft in de structuur van de testitems en de identificatie van onbekende variabelen mogelijk maakt [61](#page=61).
* Na factoranalyse en correlatieberekeningen kunnen drie factoren worden onderscheiden: algemene factoren (derde orde, meten overkoepelende eigenschap zoals IQ), groepsfactoren (tweede orde, meten deel-eigenschappen) en specifieke factoren (eerste orde, meten specifieke aspecten) [62](#page=62).
* Beperkingen van begripsvaliditeit zijn de soort en hoeveelheid variabelen in de analyse, de steekproef, en het gebrek aan eenduidigheid in interpretatie [62](#page=62).
* **Hypothese toetsing:** Begripsvaliditeit kan worden getoetst met hypotheses, zoals de nulhypothese (H0) dat de test niet valide is, en de alternatieve hypothese (H1) dat de test valide is [62](#page=62).
* **Convergente/Congruente validiteit:** Correlaties zoeken tussen de test en een andere test die hetzelfde meet [62](#page=62).
* **Discriminante/Divergente validiteit:** Aantonen dat de test niet meet wat men niet wil dat deze meet, oftewel dat de test geen andere eigenschap meet dan bedoeld [62](#page=62).
* **Criteriumvaliditeit (predictieve validiteit):** De mate waarin testresultaten het bereiken van een criterium voorspellen [63](#page=63).
* **Predictieve validiteit:** Bepaalt de samenhang tussen testresultaten en toekomstige prestaties buiten de test. Een goede samenhang betekent dat toekomstige prestaties voorspelbaar zijn [63](#page=63).
* **Concurrente validiteit:** Bepaalt de samenhang tussen testprestaties en criteriumgegevens die al beschikbaar waren op het moment van de testafname. Een goede samenhang betekent dat reeds bekende prestaties voorspeld kunnen worden aan de hand van testresultaten [63](#page=63).
* Statische methoden om criteriumvaliditeit te achterhalen omvatten:
1. Correlatie tussen testscore en een extern criterium [63](#page=63).
2. Vergelijken van gemiddelde scores van groepen met bekende onderlinge verschillen [63](#page=63).
3. Opstellen van een regressievergelijking om het externe criterium te voorspellen op basis van testresultaten [63](#page=63).
* **Lineaire Regressie model:** Maakt een voorspelling van het externe criterium op basis van testresultaten, waarbij data in een puntenwolk wordt geplaatst en een regressierechte wordt getrokken die de schatting van de criteriumscore weergeeft [64](#page=64).
#### 9.3.2 Hoe valide moet een test zijn?
De interpretatie van validiteitscoëfficiënten ($r_{t1t2}$) ligt tussen 0 (niet valide) en 1 (heel valide). De interpretatie is afhankelijk van het onderzoeksdoel, het soort validiteit en het aantal testinstrumenten [65](#page=65).
* **Onderzoeksdoel:** De vuistregel van Cohen hanteert waarden van 0,50 (goed/behoorlijk), 0,30 (middelmatig) en 0,10 (zwak). Belangrijkere doelen (wetenschappelijk onderzoek, adviesgerichte of individuele diagnostiek) vereisen hogere validiteit [65](#page=65).
* **Soort validiteit:** Verschillende soorten validiteit hebben een verschillende mogelijkheid om correlaties te bereiken, wat leidt tot interpretatieverschillen [65](#page=65).
* **Aantal testinstrumenten:** Het gebruik van meerdere testinstrumenten die dezelfde eigenschap meten, kan een lagere validiteit per test accepteren. Bij het gebruik van slechts één test die een eigenschap meet, is een hoge validiteit noodzakelijk [65](#page=65).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Psychodiagnostiek | Het proces van het verzamelen en interpreteren van informatie over een individu om psychologische problemen te diagnosticeren en te behandelen. |
| Staatsexamen | Een vroeg voorbeeld van psychodiagnostiek, waarbij proeven werden afgenomen om te bepalen of kandidaten geschikt waren voor een ambtenarenfunctie. |
| Fysiognomie | De leer die stelt dat intellectuele en karaktereigenschappen kunnen worden afgeleid uit iemands fysieke voorkomen, met name uit de vorm en expressie van het gezicht. |
| Frenologie (Schedelleer) | De leer die stelt dat verschillende psychologische vermogens gelokaliseerd zijn in specifieke hersengebieden, en dat de vorm van de schedel hierover informatie kan geven. |
| Cranioscopie | Het onderzoek van de schedel, door middel van betasting of inspectie, om conclusies te trekken over iemands vaardigheden en eigenschappen, zoals toegepast in de frenologie. |
| Moderne psychiatrie | Een stroming die psychische stoornissen als gevolg van natuurlijke oorzaken beschouwt en de basis legt voor begeleidende aanpakken, zoals gespreksvoering en therapieën. |
| Experimentele psychologie | Een tak van de psychologie die de samenhang onderzoekt tussen meetbare prikkels en menselijke functies, met nadruk op nauwkeurige beschrijving van experimentele condities en controle van variabelen. |
| Standaardisatie (in testonderzoek) | Het principe van het exact beschrijven van experimentele condities en het systematisch werken met hypothesen, wat essentieel is voor betrouwbaar testonderzoek. |
| Binet-Simon-test | Een van de eerste intelligentietests, ontwikkeld om kinderen te selecteren voor gespecialiseerd onderwijs en om de verstandelijke leeftijd te bepalen aan de hand van opdrachten met oplopende moeilijkheidsgraad. |
| Stanford-Binet-test | Een aangepaste versie van de Binet-Simon-test die een universele standaard nastreeft, zich richt op de juistheid van antwoorden en de ontwikkeling van non-verbale IQ-testen mogelijk maakte. |
| Non-verbale IQ-testen | Intelligentietests die geen gebruik maken van taal, ontwikkeld om IQ te meten bij personen die de taal van het testland niet beheersen, zoals migranten. |
| Groepstesten (bv. Army test) | Tests die in groepen worden afgenomen om een snelle selectie van rekruten mogelijk te maken, zoals de Alfa- en Bèta-tests tijdens WOI. |
| Beoordelingsprocedure | Een gestructureerde en psychometrisch onderbouwde methode om psychologische eigenschappen, prestaties of gedragswijzen van personen te meten en te evalueren. |
| Interindividuele verschillen | De verschillen in psychologische eigenschappen die worden onderzocht tussen verschillende personen binnen een groep. |
| Intra-individuele verschillen | De verschillen in psychologische eigenschappen die worden onderzocht binnen dezelfde persoon, vaak met betrekking tot veranderingen over tijd. |
| Prestaties | Het "kunnen" van een persoon, gemeten door middel van tests die gericht zijn op het vaststellen van cognitieve vaardigheden, kennis of specifieke capaciteiten. |
| Gedragswijze | Het "zijn" van een persoon, gerelateerd aan persoonlijkheidskenmerken, karaktertrekken of emotionele reacties, gemeten door middel van tests die gericht zijn op hoe iemand zich gedraagt. |
| Trekken | Stabiele, relatief onveranderlijke psychologische eigenschappen die iemands persoonlijkheid of karakter kenmerken. |
| Toestanden | Onstabiele, veranderlijke psychologische eigenschappen die kunnen variëren afhankelijk van de situatie of tijd, zoals emoties of motivatie. |
| Betrouwbaarheid | De mate waarin een meetinstrument consistente resultaten oplevert bij herhaalde metingen onder vergelijkbare omstandigheden; standvastigheid van de meting. |
| Validiteit | De mate waarin een test daadwerkelijk meet wat het beoogt te meten; de nauwkeurigheid van de meting. |
| Standaardisatie | Het proces waarbij testafnameprocedures, instructies en beoordelingscriteria uniform worden gemaakt om vergelijkbaarheid van resultaten te waarborgen. |
| Objectieve scoring | Een scoringsmethode waarbij de interpretatie van antwoorden eenduidig is, om subjectieve vertekeningen en variatie in resultaten te minimaliseren. |
| Abstract hypothetisch construct | Een concept dat niet direct waarneembaar is en dat in psychologische testen wordt onderzocht door middel van operationalisering. |
| Operationaliseren | Het proces waarbij abstracte hypothetische constructen meetbaar worden gemaakt door hun uitingen in gedrag en prestaties vast te leggen. |
| Kwantitatief vastleggen | Het registreren van waarneembaar gedrag of prestaties in de vorm van getallen, wat de basis vormt voor statistische analyse. |
| Kwalitatief vastleggen | Het registreren van waarneembaar gedrag of prestaties in de vorm van woorden, wat meer beschrijvende informatie oplevert. |
| Nominaal meetniveau | Een meetniveau waarbij gegevens in categorieën worden ingedeeld zonder inherente volgorde, zoals bij open antwoordschalen. |
| Ordinaal meetniveau | Een meetniveau waarbij gegevens in categorieën worden ingedeeld met een duidelijke volgorde, maar waarbij de verschillen tussen de categorieën niet noodzakelijk gelijk zijn. |
| Interval meetniveau | Een meetniveau waarbij gegevens in categorieën worden ingedeeld met een duidelijke volgorde en gelijke intervallen tussen de categorieën, maar zonder een absoluut nulpunt. |
| Ratio meetniveau | Een meetniveau waarbij gegevens in categorieën worden ingedeeld met een duidelijke volgorde, gelijke intervallen en een absoluut nulpunt, wat de meest precieze meting mogelijk maakt. |
| Dichotome items | Items in een test die slechts twee mogelijke antwoordopties hebben, vaak "juist" of "fout", voornamelijk gebruikt voor het meten van prestaties. |
| Polytoom items | Items in een test die meer dan twee antwoordopties hebben, vaak in gradaties, gebruikt voor het meten van gedrag of attitudes. |
| Gestandaardiseerde score (afgeleide score/standaardscore) | Een score die is omgezet van een ruwe score naar een score op een vergelijkingsschaal, waardoor vergelijking met een normgroep mogelijk wordt. |
| Open antwoordschalen | Schalen die gekenmerkt worden door een kwalitatief karakter, waarbij respondenten beschrijvende antwoorden in woorden geven. |
| Ruwe score | De initiële, onbewerkte score die direct uit een test of meting voortkomt, voordat deze wordt omgezet naar een gestandaardiseerde of afgeleide score. |
| Gestandaardiseerde score (Afgeleide score) | Een score die is omgezet van een ruwe score naar een vergelijkbare schaal, waardoor de positie van een individu binnen een specifieke normgroep kan worden bepaald. |
| Normgerelateerde vergelijking | Een interpretatiemethode waarbij de prestatie van een cliënt wordt vergeleken met de gemiddelde prestaties van een representatieve groep (normgroep) om de relatieve positie te bepalen. |
| Criteriumgerelateerde vergelijking | Een interpretatiemethode waarbij de prestatie van een cliënt wordt vergeleken met een vooraf vastgesteld doel of criterium, om te beoordelen in hoeverre het criterium is behaald. |
| Persoonsgerelateerde vergelijking (Ipsatieve vergelijking) | Een interpretatiemethode waarbij de testresultaten van een cliënt worden vergeleken met zijn of haar eigen eerdere testresultaten, om intra-individuele veranderingen te meten. |
| Frequentieverdeling | Een grafische of tabellarische weergave die laat zien hoe vaak specifieke waarnemingen of scores voorkomen binnen een dataset, en vormt de basis voor verdere statistische analyses. |
| Centrale tendentie | Een statistische maat die de typische of centrale waarde van een dataset samenvat, zoals de modus, mediaan of het rekenkundig gemiddelde, om een indicatie te geven van de meest voorkomende waarneming. |
| Modus | De waarde die het vaakst voorkomt in een dataset; deze maat is geschikt voor gegevens op nominaal meetniveau. |
| Mediaan | De middelste waarde in een geordende dataset; deze maat is geschikt voor gegevens op ordinaal meetniveau en wordt niet beïnvloed door extreme waarden. |
| Rekenkundig gemiddelde | De som van alle waarden in een dataset gedeeld door het aantal waarden; deze maat is geschikt voor gegevens op interval- of rationiveau en is gevoelig voor uitschieters. |
| Percentiel | Een maat die aangeeft welk percentage van de scores in een verdeling lager is dan een bepaalde score; het helpt bij het bepalen van de relatieve positie van een individu binnen een groep. |
| Deciel | Een maat die een verdeling opdeelt in tien gelijke delen, waarbij elk deciel 10% van de scores vertegenwoordigt; het helpt bij het positioneren van een score binnen een groep. |
| Term | Definitie |
| Item-responstheorie (IRT) | Een verzameling van theorieën en modellen die de specifieke antwoorden van een persoon op testitems analyseren om de score op de gemeten eigenschap te bepalen. De IRT houdt rekening met de vaardigheid van de respondent ($\theta$) en de moeilijkheidsgraad van het testitem ($\beta$). |
| Klassieke testtheorie (KTT) | Een theorie die helpt bij het begrijpen en verbeteren van psychologische testen door de betrouwbaarheid te bepalen en aan te tonen hoe testresultaten zijn opgebouwd uit een ware score en meetfouten. De KTT is populatie-afhankelijk en beschouwt testitems als evenwaardig. |
| Item-responsfunctie | De verhouding tussen de moeilijkheidsgraad van een testitem en de kans dat een respondent een correct antwoord zal geven op dat item. Deze functie kan visueel worden voorgesteld door een item-karakteristieke curve. |
| Item-karakteristieke curve | Een grafische weergave van de item-responsfunctie, die de relatie toont tussen de moeilijkheidsgraad van een testitem en de kans op een correct antwoord. Steilere curves duiden op een hoger discriminerend vermogen. |
| Moeilijkheidsgraad (van een testitem) | Een parameter die aangeeft hoe waarschijnlijk het is dat een respondent een testitem correct zal beantwoorden, afhankelijk van de vaardigheid van de respondent en de kenmerken van het item. In IRT wordt dit aangeduid met $\beta$. |
| Discriminerend vermogen (van een testitem) | Het vermogen van een testitem om individuen met verschillende vaardigheidsniveaus van elkaar te onderscheiden. Items met een hoog discriminerend vermogen zijn steiler op de item-karakteristieke curve. |
| Latente trek | Een onderliggende, niet direct waarneembare psychologische eigenschap die gemeten wordt door een test. De IRT probeert de mate waarin een respondent deze latente trek bezit te bepalen. |
| Maximum likelihood | Een statistische methode die wordt gebruikt om de parameters van een model te schatten, in dit geval om te bepalen hoeveel van de latente trek een respondent moet bezitten om testitems correct te beantwoorden. |
| Itembank | Een verzameling van testitems die zijn geanalyseerd op hun moeilijkheidsgraad en discriminerend vermogen, gebruikt voor computergestuurde adaptieve testafnames. |
| Ware score | Het theoretische, werkelijke niveau van een eigenschap dat een persoon bezit, zonder de invloed van meetfouten. Dit is een concept binnen de klassieke testtheorie. |
| Meetfouten | Afwijkingen tussen de geobserveerde testscore en de ware score. Deze kunnen toevallig of systematisch zijn en beïnvloeden de betrouwbaarheid van een test volgens de KTT. |
| Populatie-afhankelijk | Een kenmerk van een test of meting die sterk afhankelijk is van de specifieke kenmerken van de groep waarop de test is afgenomen of genormeerd. De KTT wordt als populatie-afhankelijk beschouwd. |
| Vaardigheidsniveau | Het niveau van de psychologische eigenschap dat een individu bezit, aangeduid met de Griekse letter thèta ($\theta$), en dat een rol speelt bij het beantwoorden van testitems binnen de IRT. |
| Moeilijkheidsgraad | Een parameter binnen de IRT, aangeduid met de Griekse letter delta ($\delta$), die aangeeft hoe moeilijk een testitem is en hoeveel vaardigheid een respondent nodig heeft om het correct te beantwoorden. |
| Discriminerend vermogen | Een parameter binnen de IRT, aangeduid met de Griekse letter alfa ($\alpha$), die aangeeft hoe goed een testitem onderscheid kan maken tussen respondenten met verschillende niveaus van de latente trek. |
| Steekproefafhankelijkheid | Een kenmerk van de KTT waarbij testresultaten worden vergeleken met normgroepen, wat betekent dat de resultaten afhankelijk zijn van de specifieke steekproef die voor de normering is gebruikt. |
| Steekproefonafhankelijkheid | Een kenmerk van de IRT waarbij testresultaten worden geïnterpreteerd vanuit de kans dat een cliënt een item correct maakt, wat betekent dat de interpretatie minder afhankelijk is van de specifieke steekproef. |
| Valideringsproces | Het proces waarbij bewijs wordt verzameld om aan te tonen dat een test daadwerkelijk de psychologische eigenschap meet die het pretendeert te meten, door de testprestaties te relateren aan gedragingen buiten de testsituatie. |
| Inhoudsvaliditeit | De mate waarin de testitems de verschillende deelaspecten van de te meten psychologische eigenschap representeren, zowel afzonderlijk als in hun geheel, zonder noodzakelijk empirische bepaling. |
| Indruksvaliditeit (Face Validity) | De subjectieve beoordeling van wat een test op het eerste gezicht lijkt te meten, gebaseerd op de verwachtingen van de respondent of onderzoeker, wat motiverend kan werken voor de respondent. |
| Begripsvaliditeit (Constructvaliditeit) | De statistische bepaling van de mate waarin een test een psychologische eigenschap of construct meet, waarbij verbanden tussen testitems en de theoretische constructen worden onderzocht. |
| Correlatie | Een statistische maat die de sterkte en richting van het lineaire verband tussen twee variabelen aangeeft; in de context van begripsvaliditeit wordt gekeken of testitems sterk correleren met elkaar (dezelfde eigenschap meten) of zwak correleren (verschillende eigenschappen meten). |
| Factoranalyse | Een statistische techniek die wordt gebruikt om de onderliggende structuur van een set variabelen te ontdekken, door te bepalen welke testitems samen een bepaalde deeleigenschap of factor meten. |
| Algemene factoren | Een derde-orde factor in factoranalyse waarbij alle testitems samenhangen en een brede psychologische eigenschap meten, zoals intelligentie (IQ). |
| Groepsfactoren | Tweede-orde factoren in factoranalyse waarbij een kleiner aantal testitems samenhangt en een specifieke deeleigenschap van de gehele eigenschap meet, zoals verbale vaardigheden of werkgeheugen. |
| Specifieke factoren | Eerste-orde factoren in factoranalyse waarbij slechts enkele testitems samenhangen en een zeer specifieke deeleigenschap meten, zoals woordkennis of ruimtelijk inzicht. |
| Convergente validiteit (Congruente validiteit) | Een vorm van begripsvaliditeit waarbij wordt aangetoond dat een test sterk correleert met andere tests die hetzelfde psychologische construct meten. |
| Discriminante validiteit (Divergente validiteit) | Een vorm van begripsvaliditeit waarbij wordt aangetoond dat een test zwak correleert met tests die andere, niet-gerelateerde psychologische constructen meten. |
| Betrouwbaarheidsinterval | Een interval rond een geobserveerde score waarin de betrouwbare score van een individu met een bepaalde waarschijnlijkheid zal vallen, opgebouwd uit het testresultaat van de cliënt, een Z-waarde voor het zekerheidspercentage en de standaarddeviatie van de test. |
| Toevallige meetfouten | Fouten die ontstaan door invloeden van buitenaf of door de opbouw van de psychologische test, en die in elke testsituatie anders kunnen zijn. |
| Systematische meetfouten | Fouten die ontstaan door kenmerken van de psychologische test zelf en die elke keer terugkeren, waardoor er rekening mee gehouden kan worden. |
| Feitelijke score ($X_{ij}$) | De daadwerkelijk gemeten score van een individu op een test, die is opgebouwd uit de systematische ware score en toevallige meetfouten. |
| Ware score ($T_i$) | De theoretische, perfecte score die een individu zou behalen als er geen meetfouten zouden optreden. |
| Standaardmeetfout | Een samenvattende maat die de impact van toevallige meetfouten op testresultaten kwantificeert; hoe kleiner deze fout, hoe betrouwbaarder de test. |
| Moeilijkheidsgraad ($\delta$) | Een parameter in de Item-Responstheorie die aangeeft hoe moeilijk een testitem is, oftewel de vaardigheid die een individu nodig heeft om het item met 50% kans correct te beantwoorden. |
| Discriminerend vermogen ($\alpha$) | Een parameter in de Item-Responstheorie die aangeeft hoe goed een testitem onderscheid kan maken tussen individuen met verschillende niveaus van de latente trek; een hoog discriminerend vermogen resulteert in een steilere item-karakteristieke curve. |
| Beschrijven van gedrag | Het vaststellen van welk gedrag een persoon stelt, de sociale omgeving waarin dit gedrag plaatsvindt, en de ontwikkeling van dit gedrag over tijd, zonder direct een label op de persoon te plakken. |
| Ordenen van gedrag | Het classificeren van gedrag door het te vertalen naar psychologische eigenschappen of psychische stoornissen, waarbij onderscheid gemaakt kan worden tussen een categorale (opdelen in categorieën) en een dimensionale (vanuit verschillende invalshoeken kijken) benadering. |
| Verklaren van gedrag | Het onderzoeken van de oorzaken van gedrag en de verschillen met anderen, waarbij hypothesen worden getoetst om inzicht te krijgen in de achterliggende processen. |
| Voorspellen van gedrag | Het anticiperen op toekomstig gedrag van een cliënt op basis van de beschikbare kennis, inclusief mogelijke moeilijkheden en talenten. |
| Statistische benadering | Een benaderingswijze binnen de psychodiagnostiek die vertrekt vanuit empirische evidentie en gedrag cijfermatig beschrijft en voorspelt, waarbij het resultaat het belangrijkst is en samenhangt met de nomothetische benadering. |
| Klinische benadering | Een benaderingswijze binnen de psychodiagnostiek die de uniciteit van elke persoon benadrukt, de individuele dynamiek beschrijft en verklaart, waarbij de manier van werken even belangrijk is als het resultaat en die samenhangt met de ideografische benadering. |
| Observeren | Een methode binnen de klinische benadering waarbij gedrag wordt waargenomen, zowel alledaags als professioneel, om het te beschrijven en te verklaren, waarbij onderscheid wordt gemaakt tussen participerend/niet-participerend en gestructureerd/niet-gestructureerd observeren. |
| Gespreksvoering | Een methode binnen de klinische benadering waarbij de testcontext, de houding van de testleider en de cliënt worden aangepast om een effectieve interactie te bevorderen. |
| Verslaggeving | Een methode binnen de klinische benadering waarbij kwalitatieve gegevens centraal staan en kwantitatieve gegevens aanvullend zijn, met als doel testresultaten te nuanceren en misinterpretaties te vermijden. |
| Psychologische test | Een psychometrisch onderbouwde beoordelingsprocedure die iets zegt over het kunnen (prestaties) en zijn (gedragswijze) van mensen, waarbij interindividuele (verschillen tussen personen) en intra-individuele (verschillen binnen dezelfde persoon) verschillen worden onderzocht. |