Cover
Comença ara de franc Statistiek-Samenvatting .pdf
Summary
# Inleiding tot statistiek en de wetenschappelijke methode
Dit onderwerp introduceert de rol van statistiek in het ordenen van variatie en toeval in wetenschappelijk onderzoek, en verklaart de wetenschappelijke methode.
### 1.1 De rol van statistiek in wetenschap
Statistiek helpt bij het scheppen van orde in de chaos die wordt veroorzaakt door variatie en toeval in biologische processen. Biologische variabiliteit betekent dat er nooit direct een definitief antwoord is na het bekijken van gegevens. Het omvat het verzamelen, exploreren en analyseren van wetenschappelijke gegevens. Dit omvat een goede proefopzet, het leren uit data, het kwantificeren, controleren en rapporteren van variabiliteit, en besluitvorming. Statistiek is een essentieel instrument in alle wetenschappen [11](#page=11).
### 1.2 De wetenschappelijke methode
De wetenschappelijke methode (WM) is gericht op het begrijpen van de natuur. Deze methode begint met een theorie, die voorspellingen doet over natuurlijke processen. Observaties worden vervolgens gebruikt om deze theorie te bevestigen of te ontkrachten. Een enkele observatie kan een theorie nooit bewijzen, maar wel ontkrachten (het falsificatieprincipe van Popper) . Theorieën, die aanvankelijk zonder observatie worden gepostuleerd, worden als 'waar' aangenomen nadat ze herhaaldelijk zijn getoetst aan observaties [11](#page=11).
De wetenschappelijke methode kent de volgende componenten [11](#page=11):
* **Theorie (model):** Een denkbeeld over een aspect van het universum dat predicties doet over het gedrag daarvan [11](#page=11).
* **Experiment:** Het vergaren van data uit de natuur die het gedrag representatief en reproduceerbaar weerspiegelt [11](#page=11).
* **Besluitvorming:** Dit is de brug tussen het model en de data, waarbij het model wordt getoetst aan de verzamelde data [11](#page=11).
Het doel van de wetenschappelijke methode is het vergaren van kennis, wat leidt tot nieuwe vragen en onderzoeksvragen. Deze leiden tot de formulering van een hypothese. Een hypothese moet zo geformuleerd worden dat deze verworpen kan worden als deze onwaar is. Dit is cruciaal voor de opzet van een experiment, de analyse van data en de uiteindelijke conclusie [11](#page=11).
De wetenschappelijke methode kent drie hoofddomeinen [11](#page=11):
* **Proefopzet:** Het ontwerp van het experiment.
* **Data-exploratie:** Het exploreren, samenvatten en visualiseren van data.
* **Statistische besluitvorming:** Het veralgemenen van de data.
Methoden worden gebruikt om consistente data te toetsen. Als data consistent zijn, betekent dit niet per se dat ze waar zijn. De manier waarop data worden verkregen is van belang, omdat het model uitgedaagd moet worden. Als het moeilijk is om foute data te vinden, wordt de hypothese als waar aangenomen vanwege de grote waarschijnlijkheid. Inconsistente data leiden tot verwerping van de hypothese [11](#page=11).
De wetenschappelijke methode is een cyclisch proces. Indien een model fout blijkt, wordt het aangepast en worden de stappen opnieuw doorlopen. Reproduceerbaarheid is een cruciaal aspect van wetenschappelijk onderzoek [11](#page=11).
### 1.3 Voorbeeld: Horizon - Homeopathy the test
#### 1.3.1 Wetenschappelijke hypothese in homeopathie
Een observatie was dat granulocyten bij blootstelling aan allergenen granules vrijlaten, wat leidt tot allergie. Een test hierop was het scheiden van actieve en inactieve substanties met kleur om allergie te detecteren door te tellen. Een opvallende bevinding was dat bij sterke verdunning van anti-IgE een degranulatie van basofielen optrad, wat werd gekoppeld aan homeopathie [12](#page=12).
Dit werd getest via de wetenschappelijke methode met de hypothese: "The Memory of Water" . De deductie was dat als een substantie (anti-IgE) sterk wordt verdund en geschud, de informatie naar het water wordt overgedragen. Een experimentele opzet werd ontworpen om dit te testen, gevolgd door interpretatie van de resultaten en verspreiding van de informatie [12](#page=12).
#### 1.3.2 De rol van reproduceerbaarheid en blindering
Reproduceerbaarheid van een experiment werd gecontroleerd. De eerste drie pogingen met hoge activiteit van basofielen slaagden. Echter, de onderzoekers wisten welke monsters met de controle en welke met de te testen substantie waren behandeld, wat leidde tot bias. Door dit op te lossen met dubbele blindering, verdween de reproduceerbaarheid [12](#page=12).
Een fout in de proefopzet was de bias die ontstond doordat de wetenschapper wist hoe alles in elkaar zat. Om dit te voorkomen, werden stalen willekeurig gelabeld met codes die pas werden gebroken na het verzamelen van de data. Dubbele blindering houdt in dat zowel de proefpersoon als de wetenschapper niet weten welke behandeling wordt toegepast. Dit is essentieel in geneesmiddelenonderzoek, waar ook een placebo nodig is om het placebo-effect te controleren [12](#page=12).
#### 1.3.3 De ultieme test: proefopzet
Om de hypothese "The Memory of Water" verder te onderzoeken, werd een verbeterde proefopzet gehanteerd, rekening houdend met gebrekkige controles en slechte reproduceerbaarheid. Een stockoplossing met de actieve stof en een negatieve controle werden gebruikt. Beide ondergingen dezelfde stappen. Er werd een verdunning ondergaan ($2 \times 5^{5C}$), waarbij vijf monsters de actieve stof en vijf de watercontrole bevatten. Deze werden willekeurig gelabeld voor blindering. Na verdere verdunning tot $18C$ werden de monsters opnieuw gelabeld en verwerkt door twee laboratoria. Vervolgens werden granulocyten toegevoegd en geteld met flowcytometrie, waarbij 20 met de actieve stof en 20 met de controle werden vergeleken [12](#page=12).
#### 1.3.4 De ultieme test: data-analyse
Bij data-exploratie bleek dat sommige monsters meer activiteit vertoonden dan andere, wat mogelijk een gevolg was van de verdunning. Marion rapporteerde 9 verdunde (D) monsters en 11 negatieve (C) monsters. Volgens het falsificatieprincipe probeert men niet een hypothese te bewijzen, maar te weerleggen. In dit geval werd geprobeerd aan te tonen dat controle (C) en de verdunde (D) monsters niet hetzelfde effect hadden. Als er geen verschil is tussen C en D, zou dit betekenen dat in 37,6% van de gevallen minimaal 11 van de 20 correcte resultaten door toeval verkregen zouden kunnen worden. Dit geeft geen bewijs voor een verschil. Het aantal positieve tests wordt gebruikt om de bewijskracht te bepalen via kansberekening: $p = P(\text{ten minste } x \text{ correcte positieve tests } | \text{ effect } D = \text{ effect } C)$ ] [12](#page=12).
#### 1.3.5 Mogelijke fouten in conclusies
Conclusies kunnen worden beïnvloed door willekeurige variabiliteit. Zelfs als het aantal D-monsters gelijk is aan het aantal C-monsters, kan het voorkomen dat 15 correcte resultaten door toeval worden verkregen (een kans van 2 op 1000) . Dit kan leiden tot de onjuiste conclusie dat D werkt, terwijl er geen werkelijk verschil is. Er kan nooit met absolute zekerheid uitspraken worden gedaan over eindige steekproeven [13](#page=13).
---
# Concepten, studiedesigns en data-exploratie
Dit deel introduceert fundamentele statistische concepten, verschillende studiedesigns en technieken voor data-exploratie en beschrijvende statistiek om gegevens te begrijpen en samen te vatten.
### 2.1 Variabelen
Een variabele is een karakteristiek die varieert per subject. Variabelen kunnen worden ingedeeld in kwalitatieve en numerieke types [14](#page=14).
#### 2.1.1 Kwalitatieve variabelen
Kwalitatieve variabelen hebben een beperkt aantal uitkomsten en zijn niet numeriek. Ze worden onderverdeeld in:
* **Nominale variabelen**: Categorieën zonder inherente ordening (bv. geslacht) [14](#page=14).
* **Ordinale variabelen**: Categorieën met een eigen ordening (bv. opleidingsniveau) [14](#page=14).
#### 2.1.2 Numerieke variabelen
Numerieke variabelen kunnen discreet of continu zijn:
* **Discrete variabelen**: Worden verkregen door tellingen (bv. aantal kinderen) [14](#page=14).
* **Continue variabelen**: Kunnen elke waarde aannemen binnen bepaalde grenzen en zijn meetbaar (bv. lengte, gewicht) [14](#page=14).
Het is soms nodig om continue variabelen te dichotomiseren (bv. bloeddruk in hypertensie/normotensie) of af te ronden, wat echter leidt tot informatieverlies. Numerieke rangen toekennen aan ordinale variabelen (codes) geeft geen wiskundige betekenis aan de codes zelf [14](#page=14).
### 2.2 Populatie en steekproef
Het doel van veel statistisch onderzoek is om uitspraken te doen over een gehele populatie. Aangezien het zelden mogelijk is om de hele populatie te onderzoeken, wordt een steekproef gebruikt [14](#page=14) [15](#page=15).
* **Populatie**: De gehele groep subjecten of de verzameling van alle mogelijke uitkomsten waarover men uitspraken wil doen. Dit kan een theoretisch concept zijn, met name bij continue verandering of interesse in toekomstige subjecten [14](#page=14).
* **Steekproef**: Een deelverzameling van de populatie die wordt onderzocht om conclusies te trekken over de populatie. Een representatieve steekproef is cruciaal voor de validiteit van de conclusies [14](#page=14) [15](#page=15).
* **Inclusie- en exclusiecriteria**: Bepalen welke subjecten wel of niet tot de steekproef mogen behoren [14](#page=14).
### 2.3 Toevalsveranderlijken
Een toevalsveranderlijke (hoofdletter, bv. $X$) vertegenwoordigt een variabele karakteristiek die aan random variabiliteit onderhevig is. Het resultaat van een toevallige trekking van een individu uit een populatie. De waargenomen waarde van een toevalsveranderlijke wordt met een kleine letter aangeduid (bv. $x$) [15](#page=15).
De spreiding van gegevens rond de centrale waarde is belangrijk voor de nauwkeurigheid van uitspraken. De verdeling van een toevalsveranderlijke beschrijft de waarschijnlijkheid om een bepaalde waarde te observeren. Dit kan worden weergegeven door een densiteitsfunctie $f(X)$ [15](#page=15).
### 2.4 Beschrijven van de populatie en schatten van de verdeling
De populatie kan worden beschreven door een verdeling, vaak benaderd met een normale verdeling, gekarakteriseerd door een gemiddelde ($\mu$) en variantie ($\sigma^2$). Kansen op waarden binnen bepaalde intervallen kunnen worden berekend met behulp van de cumulatieve distributiefunctie $F(x)$ [15](#page=15).
De verdeling in de populatie is vaak ongekend en wordt geschat uit de steekproefgegevens [15](#page=15).
* **Histogram**: Een grafische weergave die de frequentie van waarden binnen bepaalde intervallen toont, waarbij de oppervlakte van de balken de kans weergeeft [15](#page=15).
* **Samenvattingsmaten**: Gemiddelde en variantie worden geschat uit de steekproef om de populatieparameters te benaderen [15](#page=15).
#### 2.4.1 Statistieken
Statistieken zijn formules of berekeningen op basis van steekproefgegevens die worden gebruikt om populatieparameters te schatten. Populatieparameters worden doorgaans aangeduid met Griekse letters (bv. $\mu$, $\sigma^2$), terwijl statistieken met Romeinse letters worden weergegeven (bv. $\bar{x}$, $s^2$) [16](#page=16).
### 2.5 Studiedesign
Een goed studiedesign is cruciaal voor het verkrijgen van betrouwbare conclusies en het beperken van fouten. Studiedesigns kunnen worden onderverdeeld in experimentele en observationele studies [17](#page=17).
#### 2.5.1 Steekproefdesigns
Het selecteren van subjecten voor een studie is essentieel voor de veralgemeenbaarheid van de resultaten. Diverse steekproefdesigns bestaan [17](#page=17):
* **Eenvoudige lukrake steekproeftrekking**: Elk subject heeft een gelijke kans om geselecteerd te worden [17](#page=17).
* **Haphazard sampling**: Een minder formele manier van steekproefverzameling [17](#page=17).
* **Gestratificeerde lukrake steekproeven**: Populatie wordt opgedeeld in strata, waarna er binnen elk stratum een eenvoudige lukrake steekproef wordt getrokken [17](#page=17).
* **Geclusterde steekproeftrekking**: Populatie wordt opgedeeld in clusters, en er wordt een lukrake steekproef van clusters getrokken, gevolgd door een steekproef binnen die clusters [17](#page=17).
* **Systematische steekproeven**: Subjecten worden op vaste, niet-lukrake afstanden gekozen [17](#page=17).
**Replicatie**: Herhaalde observaties zijn essentieel om ruis te onderdrukken en variabiliteit te beoordelen. Pseudoreplicatie, waarbij meerdere metingen binnen eenzelfde experimentele eenheid worden gedaan alsof het onafhankelijke replicaties zijn, kan leiden tot overschatting van significantie [17](#page=17).
#### 2.5.2 Experimentele studies
In experimentele studies worden condities gecontroleerd om het effect van interventies te onderzoeken [18](#page=18).
* **Gerandomiseerde gecontroleerde studie (RCT)**: Subjecten worden willekeurig toegewezen aan verschillende interventiegroepen. Dit minimaliseert confounding en zorgt voor vergelijkbare groepen [18](#page=18).
* **Placebotoediening en blindering**: Gebruikt om het effect van de interventie te isoleren van het placebo-effect en verwachtingen van deelnemers en onderzoekers [19](#page=19).
* **Dubbelblinde studie**: Zowel de deelnemers als de onderzoekers weten niet wie welke interventie krijgt [19](#page=19).
* **Parallelle designs**: Meerdere groepen ontvangen tegelijkertijd verschillende interventies [19](#page=19).
* **Cross-over designs**: Alle subjecten ondergaan sequentieel alle interventies in willekeurige volgorde. Voordeel is dat subjecten met zichzelf vergeleken worden, wat de benodigde steekproefgrootte kan verminderen. Nadelen zijn carry-over effecten en interactie tussen interventie en periode [20](#page=20).
* **Factoriële designs**: Testen de effecten van meerdere interventies tegelijkertijd en evalueren interacties tussen interventies [20](#page=20).
* **Quasi-experimentele designs**: Er is een vergelijking tussen groepen, maar zonder willekeurige allocatie, wat leidt tot potentiële confounding [20](#page=20).
#### 2.5.3 Observationele studies
Observationele studies observeren bestaande groepen die al dan niet verschillende interventies of blootstellingen hebben ondergaan, zonder actieve controle over de condities [20](#page=20).
* **Nadeel**: Gevoelig voor confounding, waarbij verschillen niet enkel door de blootstelling, maar ook door andere, niet gemeten factoren veroorzaakt kunnen worden [20](#page=20).
* **Prospectieve studies**: Identificeren subjecten op basis van blootstelling en volgen ze in de tijd om de uitkomst te observeren (bv. cohortstudies) [21](#page=21).
* **Retrospectieve studies**: Identificeren eerst subjecten met en zonder een bepaalde uitkomst en onderzoeken vervolgens hun blootstellingen uit het verleden (bv. case-controle studies). Deze zijn nuttig voor zeldzame aandoeningen, maar gevoelig voor recall bias [21](#page=21).
* **Niet-gecontroleerde studies**: Missen een controlegroep [21](#page=21).
* **Pre-test/Post-test studies**: Metingen worden gedaan voor en na een interventie zonder controlegroep [22](#page=22).
* **Cross-sectionele surveys**: Meten variabelen op één specifiek tijdstip [22](#page=22).
### 2.6 Data exploratie en beschrijvende statistiek
Data-exploratie omvat het samenvatten en visualiseren van gegevens om een beeld te krijgen van de verdeling, uitschieters te lokaliseren en de correctheid van onderstellingen te controleren [23](#page=23).
#### 2.6.1 Univariate beschrijving van variabelen
Dit houdt in dat elke variabele afzonderlijk wordt onderzocht met behulp van grafieken en samenvattingsmaten.
* **Kwalitatieve nominale variabelen**: Worden beschreven met staafdiagrammen of frequentietabellen, waarbij de y-as het aantal (absolute frequentie) of percentage (relatieve frequentie) weergeeft [23](#page=23).
* **Kwalitatieve ordinale variabelen**: Worden ook beschreven met frequentietabellen of staafdiagrammen, waarbij cumulatieve frequenties nuttig zijn [23](#page=23).
* **Numerieke continue variabelen**:
* **Tak-en-blad diagram (stem-and-leaf plot)**: Een manier om individuele uitkomsten te tonen en tegelijkertijd een idee te geven van de verdeling [23](#page=23).
* **Histogram**: Grafische weergave van frequenties in klassen van gelijke breedte. De keuze van het aantal klassen is belangrijk [24](#page=24).
* **Kernel density schatter**: Een genormaliseerde functie die de dichtheid van gegevens weergeeft [24](#page=24).
* **Boxplot (box and whisker plot)**: Een compacte weergave die percentielen, mediaan en mogelijke uitschieters toont, handig voor groepsvergelijkingen. Uitschieters worden gedefinieerd op basis van hun afstand tot de interkwartielafstand [24](#page=24).
#### 2.6.2 Samenvattingsmaten voor continue variabelen
Deze maten bieden een beknoptere samenvatting dan grafieken.
* **Maten voor centrale ligging**: Beschrijven het centrum van de data.
* **Gemiddelde ($\bar{x}$)**: De som van observaties gedeeld door het aantal observaties. Gevoelig voor outliers [25](#page=25).
* **Mediaan (50% percentiel)**: De middelste waarde in een geordende dataset. Niet gevoelig voor outliers [25](#page=25).
* **Modus**: De waarde die het meest voorkomt. Meest nuttig voor kwalitatieve en discrete numerieke gegevens [25](#page=25).
* **Geometrisch gemiddelde**: Kan nuttiger zijn dan de mediaan bij bepaalde scheve verdelingen [26](#page=26).
* **Spreidingsmaten**: Beschrijven de variatie van de data rond de centrale waarde.
* **Variantie ($s^2$)**: Het gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde, gedeeld door $n-1$ [26](#page=26).
* **Standaarddeviatie ($s$)**: De vierkantswortel van de variantie. Wordt gebruikt om referentie-intervallen te definiëren (ongeveer 68% van de waarnemingen binnen $\bar{x} \pm s$, 95% binnen $\bar{x} \pm 2s$) [26](#page=26).
* **Bereik (Range)**: Het verschil tussen de grootste en kleinste waarde. Gevoelig voor outliers [27](#page=27).
* **Interkwartielafstand (IQR)**: Het verschil tussen het 75e en 25e percentiel. Een robuustere maat voor spreiding [27](#page=27).
* **Variatiecoëfficiënt (VC)**: De standaarddeviatie als percentage van het gemiddelde ($VC = \frac{s}{\bar{x}} \times 100\%$). Nuttig voor het vergelijken van spreiding tussen populaties met verschillende gemiddelden [27](#page=27).
#### 2.6.3 De normale benadering van gegevens
Veel datasets vertonen een normale verdeling, gekenmerkt door een symmetrische klokvorm [27](#page=27).
* **Normale dichtheidsfunctie**: $f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$, waarbij $\mu$ het gemiddelde en $\sigma$ de standaarddeviatie is [27](#page=27).
* **Standaardnormale curve**: Een normale curve met een gemiddelde van 0 en een standaarddeviatie van 1 [27](#page=27).
* **Standaardisatie**: Een normale veranderlijke $X$ kan worden omgezet naar een standaardnormale veranderlijke $Z$ met de formule $Z = \frac{X - \mu}{\sigma}$. Dit maakt het mogelijk om kansen te berekenen met behulp van standaardnormale tabellen (ɸ) [27](#page=27).
* **Referentie-interval**: Een interval dat een bepaald percentage (bv. 95% of $1-\alpha$) van de data omvat, berekend als $[\mu - z_{\alpha/2}\sigma, \mu + z_{\alpha/2}\sigma]$ [28](#page=28).
* **QQ-plot (Quantile-Quantile plot)**: Een grafische methode om de normaliteit van gegevens te verifiëren door de geobserveerde percentielen uit te zetten tegen de verwachte percentielen van een normale verdeling. Als de punten op een rechte lijn liggen, is de data waarschijnlijk normaal verdeeld [28](#page=28).
#### 2.6.4 Samenvattingsmaten voor categorische variabelen
Deze maten zijn specifiek voor categorische data.
* **Prospectieve studies en lukrake steekproeven**:
* **Absoluut risicoverschil (ARV)**: Het verschil in kans op een uitkomst tussen twee groepen ($p_T - p_C$) [28](#page=28).
* **Relatief risico (RR)**: De verhouding van de kans op een uitkomst tussen twee groepen ($P_T / P_C$). Een RR van 1 betekent dat de kansen gelijk zijn [29](#page=29).
* **Retrospectieve studies**:
* **Odds**: De verhouding van de kans op een gebeurtenis tot de kans op het uitblijven van die gebeurtenis ($p / (1-p)$) [29](#page=29).
* **Odds Ratio (OR)**: De verhouding van de odds in twee groepen ($odds_T / odds_C$). Bij lage risico's is de OR een goede benadering van de RR [29](#page=29) [30](#page=30).
* **Rates versus risico's**: Een rate meet het aantal gebeurtenissen per eenheid in de populatie gedurende een bepaalde tijdspanne, terwijl een risico de kans op een gebeurtenis binnen een interval is [30](#page=30).
#### 2.6.5 Associaties tussen twee variabelen
Analyse van de relatie tussen twee variabelen.
* **Twee kwalitatieve variabelen**: Beschreven met kruistabellen, die de frequenties in de combinaties van categorieën weergeven [30](#page=30).
* **Eén kwalitatieve en één continue variabele**: Kan worden gevisualiseerd met een dot-plot of boxplot om verschillen tussen groepen te vergelijken [31](#page=31).
* **Twee continue variabelen**:
* **Scatterplot**: Visualiseert de relatie tussen twee continue variabelen [31](#page=31).
* **(Pearson's) Correlatiecoëfficiënt ($r$)**: Meet de sterkte en richting van de lineaire associatie tussen twee variabelen, met waarden tussen -1 en 1 [31](#page=31).
* **Waarschuwingen bij correlatie**: Correlatie impliceert geen causaliteit, kan beïnvloed worden door outliers en niet-lineaire verbanden [32](#page=32).
* **Spearman's rank correlatie**: Een robuustere maat voor associatie die werkt op de rangen van de data, minder gevoelig voor outliers en nuttig voor monotone niet-lineaire verbanden [32](#page=32).
### 2.7 Onvolledige gegevens
Ontbrekende gegevens (missing data) kunnen een probleem vormen in onderzoeken. Methoden zoals het negeren van ontbrekende data kunnen leiden tot vertekende resultaten. Gecensureerde gegevens, waarbij de exacte waarde niet bekend is maar wel een bereik (bv. levensverwachting), vereisen speciale analysemethoden [33](#page=33).
---
# Statistische besluitvorming: hypothesetoetsen en betrouwbaarheidsintervallen
Dit onderwerp behandelt het proces van statistische besluitvorming, inclusief het schatten van populatieparameters met puntschatters en betrouwbaarheidsintervallen, en het toetsen van hypotheses met behulp van t-tests en chi-kwadraat tests [34](#page=34).
### 3.1 Inleiding tot statistische besluitvorming
Statistische besluitvorming stelt ons in staat om op basis van steekproefgegevens uitspraken te doen over een populatie. Het doel is om wetenschappelijke argumenten te leveren die de representativiteit en variabiliteit van de resultaten weerspiegelen. Door een representatieve steekproef te selecteren en populatieparameters (zoals het populatiegemiddelde) te schatten, kunnen we onderzoeksvragen beantwoorden zonder de gehele populatie te bestuderen [34](#page=34).
### 3.2 Captopril voorbeeld: Bloeddrukverlagend effect
Het captopril-voorbeeld illustreert de toepassing van statistische besluitvorming. Hierbij wordt onderzocht of captopril een bloeddrukverlagend effect heeft op populatieniveau door een steekproef van patiënten met hypertensie te bestuderen [34](#page=34).
#### 3.2.1 Proefopzet
De studie maakt gebruik van een gestructureerd design met willekeurige selectie van patiënten. De response variabele is de systolische bloeddruk. Een pre-test/post-test design waarbij patiënten willekeurig worden geselecteerd en hun bloeddruk zowel voor als na de behandeling wordt gemeten, biedt voordelen voor het kwantificeren van het effect. Een nadeel is het ontbreken van een controlegroep, waardoor placebo-effecten niet volledig uitgesloten kunnen worden [34](#page=34) [35](#page=35).
#### 3.2.2 Data exploratie en beschrijvende statistiek
Na het verzamelen van de data is data-exploratie cruciaal om inzicht te krijgen in de verdeling en eigenschappen van de gegevens. Hulpmiddelen zoals boxplots en dotplots zijn nuttig om de effecten te visualiseren. Een dotplot, waarbij de twee bloeddrukmetingen per patiënt worden verbonden, toont direct de bloeddrukdaling na behandeling. Het verschil in systolische druk na en voor de behandeling is een goede maat voor het effect van captopril. Een QQ-plot kan worden gebruikt om de normaliteit van de data te beoordelen, wat van belang is voor verdere modelleren. In het captopril-voorbeeld wordt het gemiddelde verschil in systolische bloeddruk geraamd op -18,93 mmHg met een standaarddeviatie van 9,03 mmHg [34](#page=34) [35](#page=35) [36](#page=36).
#### 3.2.3 Schatten van effecten
Het geschatte effect van captopril in de steekproef, gemeten als het verschil in systolische bloeddruk, kan worden gemodelleerd. Als de QQ-plot geen grote afwijkingen van normaliteit laat zien, kan een normale verdeling worden aangenomen voor de modellering, met het steekproefgemiddelde ($\bar{X}$) als schatter voor het populatiegemiddelde ($\mu$) en de steekproefstandaarddeviatie (S) als schatter voor de populatiestandaarddeviatie ($\sigma$). De vraag of het effect groot genoeg is om te veralgemenen naar het populatieniveau vereist inzicht in de mate van variatie van steekproef tot steekproef [36](#page=36).
### 3.3 Puntschatters: het steekproefgemiddelde
Het steekproefgemiddelde ($\bar{X}$) is een veelgebruikte puntschatter voor het populatiegemiddelde ($\mu$). Als een toevalsveranderlijke varieert de waarde van het steekproefgemiddelde van steekproef tot steekproef. De theoretische verdeling van het steekproefgemiddelde is essentieel om de mate van variatie van een studie te begrijpen en de afwijking van het populatiegemiddelde te bepalen [36](#page=36).
#### 3.3.1 Het steekproefgemiddelde als onvertekende schatter
Onder aanname van representativiteit en willekeurige trekkingen, is het verwachte steekproefgemiddelde gelijk aan het populatiegemiddelde, wat het steekproefgemiddelde een onvertekende schatter maakt. Dit betekent dat $E(\bar{X}) = \mu$ [37](#page=37).
#### 3.3.2 Imprecisie en standaard error
De imprecisie of standaard error (SE) kwantificeert de variabiliteit van het steekproefgemiddelde rond het populatiegemiddelde. De SE is de standaarddeviatie van de schatter. Als de populatiestandaarddeviatie ($\sigma$) onbekend is, wordt de SE geschat met $S / \sqrt{n}$, waarbij S de steekproefstandaarddeviatie is [37](#page=37) [38](#page=38).
##### 3.3.2.1 Standaarddeviatie versus standard error
Het is cruciaal om onderscheid te maken tussen de standaarddeviatie (SD) van individuele observaties en de standaard error (SE) van het steekproefgemiddelde. De SD beschrijft de variabiliteit tussen individuen, terwijl de SE de onzekerheid van de schatter van het populatiegemiddelde weergeeft. De SE daalt met een toenemende steekproefgrootte, terwijl de SD van de populatie constant blijft [38](#page=38).
##### 3.3.2.2 Geclusterde metingen
Wanneer metingen niet onafhankelijk zijn (bv. herhaalde metingen bij dezelfde persoon), heeft dit consequenties voor de berekening van de SE. Geclusterde of gepaarde metingen kunnen leiden tot een hogere SE dan bij onafhankelijke metingen, omdat de tweede meting minder nieuwe informatie toevoegt. Bij gepaarde gegevens, zoals pre- en post-metingen, kan het verschil tussen de metingen worden geanalyseerd, wat de variantie van het verschil kan verlagen en leidt tot een preciezere schatting [38](#page=38) [39](#page=39).
##### 3.3.2.3 Normaal verdeelde gegevens
Voor normaal verdeelde gegevens is het steekproefgemiddelde een zeer efficiënte schatter voor het populatiegemiddelde, omdat het de kleinste standaard error heeft [39](#page=39).
#### 3.3.3 Verdeling van het steekproefgemiddelde
Als de individuele observaties normaal verdeeld zijn met gemiddelde $\mu$ en variantie $\sigma^2$, dan is het steekproefgemiddelde ook normaal verdeeld met gemiddelde $\mu$ en variantie $\sigma^2/n$. Volgens de Centrale Limietstelling (CLT) geldt dat bij een voldoende grote steekproefgrootte ($n$), de verdeling van het steekproefgemiddelde steeds beter benaderd wordt door een normale verdeling met gemiddelde $\mu$ en variantie $\sigma^2/n$, ongeacht de oorspronkelijke verdeling van de observaties [39](#page=39).
### 3.4 Intervalschatters
Intervalschatters, zoals betrouwbaarheidsintervallen, geven een reeks waarden aan waarbinnen de populatieparameter met een bepaalde waarschijnlijkheid verwacht kan worden [39](#page=39).
#### 3.4.1 Gekende variantie op de metingen
Als de populatievariantie ($\sigma^2$) bekend is en de observaties normaal verdeeld zijn, volgt het steekproefgemiddelde een normale verdeling $N(\mu, \sigma^2/n)$. Een 95%-betrouwbaarheidsinterval (BI) voor $\mu$ wordt dan berekend als $\bar{X} \pm 1.96 \frac{\sigma}{\sqrt{n}}$. Het betrouwbaarheidsniveau van (1 - $\alpha$)100% geeft de kans aan dat het interval de ware populatieparameter bevat. De breedte van het betrouwbaarheidsinterval wordt beïnvloed door het betrouwbaarheidsniveau, de standaarddeviatie ($\sigma$), en de steekproefgrootte ($n$) [40](#page=40).
#### 3.4.2 Ongekende variantie op metingen
Wanneer de populatievariantie ongekend is, wordt deze geschat met de steekproefvariantie ($S^2$). Voor kleine steekproeven leidt dit tot een gestandaardiseerde waarde die een t-verdeling volgt met $n-1$ vrijheidsgraden. De t-verdeling heeft zwaardere staarten dan de normale verdeling, wat resulteert in bredere betrouwbaarheidsintervallen. Een (1 - $\alpha$)100%-betrouwbaarheidsinterval voor $\mu$ met ongekende variantie wordt berekend als $\bar{X} \pm t_{n-1, \alpha/2} \frac{S}{\sqrt{n}}$, waarbij $t_{n-1, \alpha/2}$ het (1 - $\alpha$/2) kwantiel van de t-verdeling met $n-1$ vrijheidsgraden is [41](#page=41).
#### 3.4.3 Interpretatie van betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval geeft de range aan waarbinnen de ware populatieparameter met een bepaalde kans ligt. Het is belangrijk te beseffen dat de grenzen van het interval toevalsveranderlijk zijn en variëren met elke steekproef. Bij het interpreteren van een BI concluderen we dat er een kans van (1 - $\alpha$) is dat het interval de populatieparameter bevat [41](#page=41) [42](#page=42).
#### 3.4.4 Wat rapporteren?
Het rapporteren van betrouwbaarheidsintervallen is essentieel voor het communiceren van de onzekerheid rond schattingen. Dit voorkomt misleidende conclusies op basis van een enkele schatting [42](#page=42).
### 3.5 Principe van hypothesetoetsen
Hypothesetoetsen worden gebruikt om te bepalen of een waargenomen effect in een steekproef significant is of te wijten is aan toeval. Het principe is gebaseerd op falsificatie: het trachten te ontkrachten van een nulhypothese ($H_0$) [42](#page=42).
#### 3.5.1 Hypotheses
Er worden twee hypothesen geformuleerd: de nulhypothese ($H_0$), die de status quo of de afwezigheid van een effect representeert, en de alternatieve hypothese ($H_A$), die stelt wat bewezen dient te worden (bv. een effect) [42](#page=42).
#### 3.5.2 Test-statistiek
Een test-statistiek wordt geconstrueerd om de evidentie in de steekproef tegen de nulhypothese te meten. Voor het captopril-voorbeeld is de t-statistiek $t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}$ een geschikte test-statistiek, waarbij $\mu_0$ de waarde van het populatiegemiddelde onder de nulhypothese is (vaak 0). Onder de nulhypothese volgt deze t-statistiek een t-verdeling met $n-1$ vrijheidsgraden [43](#page=43).
#### 3.5.3 De p-waarde
De p-waarde is de kans om een test-statistiek te observeren die minstens zo extreem is als de geobserveerde waarde, aangenomen dat de nulhypothese waar is. Een kleine p-waarde (< $\alpha$, het significantieniveau) suggereert dat de nulhypothese onwaarschijnlijk is en verworpen kan worden ten gunste van de alternatieve hypothese [43](#page=43) [44](#page=44).
#### 3.5.4 Kritieke waarde
Een alternatieve methode om een beslissing te nemen is via de kritieke waarde. De kritieke waarde is de drempelwaarde van de test-statistiek waarboven (of waaronder, afhankelijk van de richting van de test) de nulhypothese wordt verworpen [44](#page=44) [45](#page=45).
#### 3.5.5 Beslissingsfouten
Bij het nemen van een beslissing op basis van een steekproef kunnen twee soorten fouten worden gemaakt:
* **Type I fout:** Het verwerpen van de nulhypothese terwijl deze waar is. De kans hierop is gelijk aan het significantieniveau ($\alpha$) [45](#page=45).
* **Type II fout:** Het aanvaarden van de nulhypothese terwijl deze onjuist is. De kans hierop wordt aangeduid met $\beta$ [45](#page=45).
De **kracht** van een test is de kans om de nulhypothese correct te verwerpen wanneer deze onjuist is ($1-\beta$) [46](#page=46).
#### 3.5.6 Conclusies Captopril voorbeeld
Voor het captopril-voorbeeld werd een eenzijdige paired t-test uitgevoerd. De resultaten toonden een extreem significante verlaging in systolische bloeddruk (p << 0.001), met een gemiddelde daling van 18.9 mmHg (95% BI [-oneindig, -14.83]). Het pre-/post-test design maakt het echter moeilijk om definitief uit te sluiten of het effect door het medicijn of door een placebo komt [46](#page=46).
#### 3.5.7 Eenzijdig of tweezijdig toetsen?
* **Eenzijdig toetsen** wordt gebruikt wanneer er een specifieke richting van het effect wordt verwacht (bv. alleen daling). Dit biedt meer kracht om een effect aan te tonen, maar vereist een duidelijke theoretische onderbouwing vooraf [47](#page=47).
* **Tweezijdig toetsen** wordt gebruikt wanneer er geen specifieke richting van het effect wordt verwacht, maar alleen een afwijking van de nulhypothese. Dit is de meest gebruikte methode omdat het elke afwijking kan detecteren [47](#page=47).
### 3.6 Two-sample t-test
De two-sample t-test wordt gebruikt om verschillen in gemiddelden tussen twee **onafhankelijke** groepen te detecteren. Hierbij worden de gemiddelden van twee steekproeven vergeleken om uitspraken te doen over de populatiegemiddelden [47](#page=47) [48](#page=48).
#### 3.6.1 Oksel-voorbeeld
In het oksel-voorbeeld wordt de two-sample t-test gebruikt om de relatieve abundantie van *Staphylococcus* (Staph) na een microbiële transplantatie te vergelijken met een placebo. De nulhypothese stelt dat er geen verschil is tussen de groepen ($\mu_1 = \mu_2$), terwijl de alternatieve hypothese stelt dat er wel een verschil is ($\mu_1 \neq \mu_2$). De test-statistiek volgt onder $H_0$ een t-verdeling met $n_1 + n_2 - 2$ vrijheidsgraden, indien homoscedasticiteit (gelijke varianties) wordt aangenomen. De p-waarde van 0.16 x 10⁻³ suggereert dat de nulhypothese verworpen kan worden. De conclusie is dat de relatieve abundantie van Staph significant hoger is in de transplantatiegroep dan in de controlegroep, met een 95% BI van [10.0%, 25.8%] [48](#page=48) [49](#page=49).
### 3.7 Aannames
De geldigheid van t-tests en bijbehorende betrouwbaarheidsintervallen is afhankelijk van bepaalde distributionele veronderstellingen:
* **Onafhankelijke gegevens:** De observaties binnen en tussen de groepen moeten onafhankelijk zijn [49](#page=49).
* **Normaliteit:** De gegevens in elke groep (voor de one-sample en two-sample t-test) of de verschillen tussen gepaarde waarnemingen (voor de paired t-test) moeten normaal verdeeld zijn [49](#page=49).
* **Homoscedasticiteit:** Voor de standaard two-sample t-test wordt aangenomen dat de varianties in de twee populaties gelijk zijn [49](#page=49).
#### 3.7.1 Nagaan van de veronderstelling van normaliteit
Normaliteit kan worden nagegaan met grafische methoden (boxplots, histogrammen, QQ-plots) en formele hypothesetests (bv. Shapiro-Wilk). Het is echter belangrijk om kritisch te kijken naar de resultaten van deze tests, met name bij kleine steekproeven waar de kracht beperkt is [49](#page=49).
#### 3.7.2 Nagaan van homoscedasticiteit
Homoscedasticiteit kan visueel worden beoordeeld met boxplots door de interkwartielafstand (IQR) te vergelijken. Formele tests zoals de F-test kunnen ook worden gebruikt, maar kennen vergelijkbare beperkingen als bij de normaliteitstest. Indien de homoscedasticiteit niet voldaan is, kan de Welch two-sample T-test worden toegepast, die geen gepoolde variantieschatting gebruikt [49](#page=49) [50](#page=50).
### 3.8 Wat rapporteren?
Het is goede statistische praktijk om naast p-waarden ook schattingen van parameters en hun betrouwbaarheidsintervallen te rapporteren. Betrouwbaarheidsintervallen bieden meer informatie dan alleen statistische significantie [50](#page=50).
#### 3.8.1 Relatie tussen betrouwbaarheidsintervallen en hypothesetoetsen
Een (1 - $\alpha$)100%-betrouwbaarheidsinterval bevat alle waarden van de parameter waarvoor de tweezijdige nulhypothese op het $\alpha$-niveau niet verworpen zou worden. Als de controlewaarde niet binnen het BI valt, kan de nulhypothese op het significantieniveau van de test worden verworpen [50](#page=50).
#### 3.8.2 Statistische significantie versus wetenschappelijke relevantie
Statistische significantie (p < $\alpha$) geeft aan dat een geobserveerd effect waarschijnlijk niet door toeval komt. Echter, de wetenschappelijke relevantie van een effect moet ook worden geëvalueerd, bijvoorbeeld met behulp van betrouwbaarheidsintervallen en het beoordelen van de effectgrootte [50](#page=50).
### 3.9 Equivalentie-intervallen
Equivalentie-intervallen worden gebruikt om te bepalen of twee interventies wetenschappelijk equivalent zijn. Dit is het geval als het verschil in populatiegemiddelden binnen een vooraf gedefinieerd equivalentie-interval ligt, wat aangeeft dat het verschil klinisch verwaarloosbaar is. Het bepalen van wetenschappelijke equivalentie vereist zowel het berekenen van een betrouwbaarheidsinterval voor het verschil als het vergelijken hiervan met een vooraf gespecificeerd equivalentie-interval [50](#page=50) [51](#page=51).
---
# Lineaire regressie en variantie-analyse
Dit gedeelte behandelt de principes van lineaire regressie voor het modelleren van verbanden tussen variabelen en variantie-analyse (ANOVA) voor het vergelijken van groepsgemiddelden.
### 4.1 Enkelvoudige lineaire regressie
Enkelvoudige lineaire regressie wordt gebruikt om een lineair verband te modelleren tussen een continue afhankelijke variabele ($Y$) en één continue onafhankelijke variabele ($X$). Het doel is om het conditionele gemiddelde van $Y$ te beschrijven als functie van $X$ [54](#page=54).
#### 4.1.1 Het model
Het lineaire regressiemodel wordt wiskundig uitgedrukt als:
$$E(Y|X=x) = \beta_0 + \beta_1 x$$ [54](#page=54).
Hierin zijn:
* $E(Y|X=x)$: Het conditionele gemiddelde van $Y$ gegeven $X=x$.
* $\beta_0$: De intercept, wat de verwachte waarde van $Y$ is wanneer $X=0$ [54](#page=54).
* $\beta_1$: De helling, die aangeeft hoeveel $Y$ gemiddeld verandert bij een toename van $X$ met één eenheid [54](#page=54).
* $x$: De waarde van de onafhankelijke variabele $X$.
Het model maakt de veronderstelling dat de observaties variëren rond dit lineaire verband, waarbij de foutterm ($\epsilon_i$) deze variabiliteit representeert:
$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ [53](#page=53).
#### 4.1.2 Gebruik van het lineaire regressiemodel
Het lineaire regressiemodel kan voor twee hoofddoelen worden gebruikt [54](#page=54):
1. **Predictie**: Het voorspellen van de waarde van $Y$ voor een gegeven waarde van $X$.
2. **Associatie**: Het bestuderen van de biologische of statistische relatie tussen $X$ en $Y$.
#### 4.1.3 Parameterschatting
De modelparameters $\beta_0$ en $\beta_1$ zijn onbekend en worden geschat uit steekproefgegevens met behulp van de kleinste kwadratenmethode (#page=54, #page=55). Dit houdt in dat de waarden voor $\beta_0$ en $\beta_1$ worden gekozen om de som van de gekwadrateerde verschillen tussen de geobserveerde waarden ($y_i$) en de voorspelde waarden ($\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$) te minimaliseren. Deze verschillen worden residuen ($e_i$) genoemd [54](#page=54) [55](#page=55).
$$\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}$$ [55](#page=55).
$$\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$$ [55](#page=55).
> **Tip:** Extrapolatie buiten het geobserveerde bereik van $X$ moet met voorzichtigheid gebeuren, aangezien het modelgedrag zich buiten dit bereik kan veranderen [55](#page=55).
#### 4.1.4 Statistische besluitvorming en modelveronderstellingen
Om statistische beslissingen te kunnen nemen en de onzekerheid van de parameterschattingen te kwantificeren, worden er vier belangrijke aannames gedaan over de residuen of de conditionele verdeling van $Y$ [56](#page=56):
1. **Lineariteit**: Het conditionele gemiddelde van $Y$ varieert lineair met $X$.
2. **Onafhankelijkheid**: De metingen zijn onafhankelijk van elkaar.
3. **Homoscedasticiteit**: De observaties hebben een gelijke variantie rond de regressierechte ($\text{var}(Y|X=x) = \sigma^2$ voor alle $x$).
4. **Normaliteit**: De residuen ($\epsilon_i$) zijn normaal verdeeld.
Indien aan deze aannames wordt voldaan, zijn de parameterschatters ($\hat{\beta}_0, \hat{\beta}_1$) normaal verdeeld (#page=56, #page=61). De variabiliteit van deze schatters wordt gekwantificeerd met de residuele standaarddeviatie ($\sigma$), die wordt geschat met behulp van de Mean Squared Error (MSE). De MSE corrigeert voor het aantal geschatte parameters (2 in enkelvoudige regressie) door te delen door $n-2$ [56](#page=56) [57](#page=57) [61](#page=61).
$$MSE = s^2 = \frac{SSE}{n-2} = \frac{\sum_{i=1}^{n} e_i^2}{n-2}$$ [57](#page=57).
Deze schattingen maken het mogelijk om hypothesetesten uit te voeren (bijvoorbeeld $H_0: \beta_1 = 0$ vs. $H_A: \beta_1 \neq 0$) en betrouwbaarheidsintervallen (BI) te construeren voor de parameters, waarbij de teststatistieken een t-verdeling volgen met $n-2$ vrijheidsgraden [57](#page=57).
> **Tip:** De Central Limit Theorem (CLT) kan worden ingeroepen als aan de normaliteitsassumptie niet volledig is voldaan, maar de rest wel, waardoor de teststatistiek bij voldoende grote steekproeven bij benadering normaal verdeeld is [57](#page=57).
#### 4.1.5 Nagaan van modelveronderstellingen
Het controleren van modelveronderstellingen is cruciaal voor de geldigheid van de resultaten. Dit gebeurt voornamelijk via grafische methoden (#page=57, #page=58) [57](#page=57) [58](#page=58):
* **Lineariteit**: Een scatterplot van de uitkomst tegen de verklarende variabele, en een residuplot (residuen vs. verklarende variabele). Patronen in het residuplot duiden op niet-lineariteit [58](#page=58).
* **Homoscedasticiteit**: Een residuplot (residuen vs. voorspelde waarden of verklarende variabele) kan patronen onthullen zoals een toenemende spreiding, wat duidt op heteroscedasticiteit. Kwadratische transformaties van de residuen of het gebruik van gewogen kleinste kwadraten kunnen hierbij helpen [58](#page=58).
* **Normaliteit**: QQ-plots van de residuen worden gebruikt om te beoordelen of de residuen normaal verdeeld zijn [58](#page=58).
> **Tip:** Afwijkingen in lineariteit kunnen fataal zijn voor het model. Heteroscedasticiteit of niet-normaliteit kunnen leiden tot incorrecte besluitvorming omdat de teststatistiek niet langer correct verdeeld is [57](#page=57).
#### 4.1.6 Afwijkingen van modelveronderstellingen en transformaties
Wanneer modelveronderstellingen niet worden voldaan, kunnen transformaties van de uitkomstvariabele of de verklarende variabele uitkomst bieden [59](#page=59).
* **Transformaties van de verklarende variabele ($X$)**: Bijvoorbeeld een log-transformatie van genexpressie-data. Dit kan lineariteit herstellen, maar maakt de interpretatie van de parameters complexer, tenzij het een log2-transformatie is, waarbij een toename van 1 eenheid in de log-schaal overeenkomt met een verdubbeling in de originele schaal (#page=59, #page=60). Deze transformaties hebben geen invloed op de homogeniteit en normaliteit van de residuen [59](#page=59) [60](#page=60).
* **Transformaties van de uitkomstvariabele ($Y$)**: Zoals een log-transformatie voor rechtsscheve verdelingen (vaak bij intensiteitsmetingen). Dit helpt bij het stabiliseren van de variantie en het normaliseren van de residuen. De interpretatie van de parameters wordt hierdoor ook beïnvloed, en de terugtransformatie geeft geometrische gemiddelden (#page=59, #page=60) [59](#page=59) [60](#page=60).
* **Hogere-orde regressie**: Niet-lineaire relaties kunnen ook gemodelleerd worden door hogere-orde termen (bijvoorbeeld kwadratische termen) toe te voegen aan het model, waardoor de transformatie zelf wordt geschat [59](#page=59).
#### 4.1.7 Besluitvorming over gemiddelde uitkomst en predictie-intervallen
Onder de modelvoorwaarden kunnen betrouwbaarheidsintervallen (BI) worden geconstrueerd voor de gemiddelde uitkomst $E(Y|X=x)$ bij een specifieke waarde van $x$. Deze intervallen worden smaller naarmate de waarde van $x$ dichter bij het gemiddelde van de $x$-waarden ligt (#page=61, #page=63) [61](#page=61) [63](#page=63).
Naast BI's voor het gemiddelde, kunnen ook predictie-intervallen (PI's) worden geconstrueerd voor de voorspelling van een *nieuwe, individuele uitkomst* ($Y^*$) bij een gegeven $x$ (#page=62, #page=63). PI's zijn breder dan BI's omdat ze zowel de onzekerheid in de geschatte regressielijn als de inherente willekeurige variatie van individuele observaties rond het gemiddelde meenemen [62](#page=62) [63](#page=63).
#### 4.1.8 Kwadratensommen en ANOVA-tabel
De variantie-analyse (ANOVA) tabel is een standaardmanier om de resultaten van een regressieanalyse samen te vatten (#page=63, #page=66). De totale kwadratensom ($SST_{Tot}$) is de totale variabiliteit in de uitkomstvariabele, die wordt ontbonden in de kwadratensom van de regressie ($SSR$, de verklaarde variabiliteit door het model) en de kwadratensom van de fout ($SSE$, de onverklaarde residuele variabiliteit) (#page=64, #page=65) [63](#page=63) [64](#page=64) [65](#page=65) [66](#page=66).
* $SST_{Tot} = \sum_{i=1}^{n} (y_i - \bar{y})^2$ [63](#page=63).
* $SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2$ [64](#page=64).
* $SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2$ [65](#page=65).
De determinatiecoëfficiënt ($R^2$) is de fractie van de totale variabiliteit die door het regressiemodel wordt verklaard:
$$R^2 = \frac{SSR}{SST_{Tot}} = 1 - \frac{SSE}{SST_{Tot}}$$ [65](#page=65).
Een $F$-test wordt gebruikt om de nulhypothese te toetsen dat er geen lineair verband is tussen $X$ en $Y$ ($H_0: \beta_1 = 0$). De $F$-statistiek wordt berekend als de verhouding van de Mean Squared Regression ($MSR = SSR / (\text{df}_{\text{reg}}))$ en de Mean Squared Error ($MSE = SSE / (\text{df}_{\text{res}}))$, met $\text{df}_{\text{reg}} = 1$ en $\text{df}_{\text{res}} = n-2$ voor enkelvoudige regressie [66](#page=66).
> **Tip:** De p-waarde van de $F$-test in enkelvoudige lineaire regressie is equivalent aan de tweezijdige p-waarde van de $t$-test voor de helling ($\beta_1$) (#page=66, #page=69) [66](#page=66) [69](#page=69).
#### 4.1.9 Dummy-variabelen
Om categorische predictoren te includeren in een lineair regressiemodel, worden dummy-variabelen gebruikt. Een dummy-variabele neemt de waarde 1 aan voor een specifieke categorie en 0 voor de referentiecategorie. Met één dummy-variabele kan het verschil tussen de gemiddelde uitkomsten van twee groepen worden getest. Dit is equivalent aan een twee-steekproeven $t$-test [66](#page=66) [67](#page=67).
### 4.2 Variantie-analyse (ANOVA)
Variantie-analyse (ANOVA) wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het kernidee is om de totale variabiliteit in de gegevens te ontbinden in variabiliteit *tussen* de groepen en variabiliteit *binnen* de groepen [69](#page=69).
#### 4.2.1 Het model
ANOVA kan worden geformuleerd als een lineair regressiemodel met dummy-variabelen. Voor $g$ groepen worden $g-1$ dummy-variabelen gebruikt. Het model voor de uitkomst $Y_i$ van observatie $i$ in groep $j$ is [70](#page=70):
$$Y_i = \mu_j + \epsilon_i$$ [70](#page=70).
waarbij $\mu_j$ het gemiddelde is van groep $j$ en $\epsilon_i$ een foutterm is die onafhankelijk en identiek normaal verdeeld is met gemiddelde 0 en variantie $\sigma^2$ [70](#page=70).
De nulhypothese (H0) stelt dat alle groepsgemiddelden gelijk zijn:
$H_0: \mu_1 = \mu_2 = \dots = \mu_g$ (#page=69, #page=70) [69](#page=69) [70](#page=70).
De alternatieve hypothese (HA) stelt dat er minstens één paar groepsgemiddelden is dat verschilt:
$H_A: \exists j, k \in \{1, \dots, g\}: \mu_j \neq \mu_k$ (#page=69, #page=70) [69](#page=69) [70](#page=70).
#### 4.2.2 Kwadratensommen in ANOVA
Net als bij regressie, wordt de totale variabiliteit opgedeeld:
* **Totale Kwadratensom ($SST_{Tot}$)**: De totale variabiliteit in de uitkomstvariabele rond het algemene steekproefgemiddelde (#page=63, #page=71) [63](#page=63) [71](#page=71).
* **Kwadratensom van de Behandeling ($SST$ of $SS_{\text{Between}}$)**: De variabiliteit *tussen* de groepsgemiddelden en het algemene steekproefgemiddelde. Deze meet het effect van de behandeling of groepstoewijzing. Deze heeft $g-1$ vrijheidsgraden [71](#page=71).
* **Kwadratensom van de Fout ($SSE$ of $SS_{\text{Within}}$)**: De variabiliteit *binnen* de groepen, tussen de individuele observaties en hun respectieve groepsgemiddelden. Deze meet de onverklaarde residuele variabiliteit (#page=65, #page=71). Deze heeft $n-g$ vrijheidsgraden [65](#page=65) [71](#page=71).
De relatie is $SST_{Tot} = SST + SSE$ [71](#page=71).
#### 4.2.3 De F-test in ANOVA
De ANOVA-test maakt gebruik van de verhouding van de Mean Squared Treatment ($MST = SST / (g-1)$) en de Mean Squared Error ($MSE = SSE / (n-g)$) om de nulhypothese te toetsen [72](#page=72).
$$F = \frac{MST}{MSE}$$ [72](#page=72).
De $F$-statistiek volgt een $F$-verdeling met $g-1$ vrijheidsgraden in de teller en $n-g$ vrijheidsgraden in de noemer, mits de modelvoorwaarden (normaliteit, homoscedasticiteit, onafhankelijkheid) voldaan zijn. Een grote $F$-waarde en een kleine p-waarde duiden op een significant verschil tussen de groepsgemiddelden [72](#page=72) [73](#page=73).
#### 4.2.4 De ANOVA-tabel
De resultaten van de ANOVA worden gepresenteerd in een ANOVA-tabel [72](#page=72).
| Bron van Variatie | Kwadratensom (SS) | Vrijheidsgraden (df) | Kwadratensom (MS) | F-statistiek | p-waarde |
| :----------------- | :---------------- | :------------------- | :---------------- | :----------- | :------- |
| Groepen (Treatment) | $SST$ | $g-1$ | $MST = SST/(g-1)$ | $F = MST/MSE$| |
| Fout (Error) | $SSE$ | $n-g$ | $MSE = SSE/(n-g)$ | | |
| Totaal | $SST_{Tot}$ | $n-1$ | | | |
> **Tip:** ANOVA is een krachtige test omdat het de totale variabiliteit gebruikt om de hypothese te evalueren en hierdoor meer power heeft dan herhaalde twee-steekproeven $t$-testen [76](#page=76).
### 4.3 Post-hoc analyse: meervoudig vergelijken van gemiddelden
Als de ANOVA-test significant is ($H_0$ verworpen), weten we dat er minstens twee groepen verschillen, maar niet welke. Post-hoc analyses worden gebruikt om specifieke paren van groepen te vergelijken [73](#page=73).
#### 4.3.1 Meervoudige toetsing en de FWER
Het uitvoeren van meerdere $t$-testen leidt tot een verhoogd risico op Type I-fouten (vals positieve resultaten). Dit fenomeen staat bekend als multipliciteit. Om dit te controleren, worden correcties toegepast op het significantieniveau of de p-waarden. De Family-Wise Error Rate (FWER) is de kans op ten minste één Type I-fout over alle uitgevoerde testen [74](#page=74).
#### 4.3.2 Bonferroni correctie
De Bonferroni-correctie is een conservatieve methode waarbij het significantieniveau voor elke individuele test wordt aangepast door het oorspronkelijke niveau ($\alpha_E$) te delen door het aantal testen ($m$) [75](#page=75):
$$\alpha_{\text{Bonferroni}} = \frac{\alpha_E}{m}$$
Dit garandeert dat de FWER niet hoger is dan $\alpha_E$, maar kan leiden tot een verlies aan power.
#### 4.3.3 Methode van Tukey
De methode van Tukey is minder conservatief dan Bonferroni en wordt specifiek gebruikt voor het vergelijken van alle paarsgewijze gemiddelden in ANOVA. Deze methode, vaak geïmplementeerd in softwarepakketten, biedt aangepaste p-waarden en betrouwbaarheidsintervallen die rekening houden met de multipliciteit (#page=75, #page=76). Tukey's methode controleert ook de FWER, maar met een kleiner verlies aan power dan de Bonferroni-correctie. De resultaten van Tukey's methode kunnen grafisch worden weergegeven, wat nuttig is bij veel groepen [75](#page=75) [76](#page=76).
> **Tip:** Bij het interpreteren van post-hoc analyses is het belangrijk te onthouden of er correcties voor multipliciteit zijn toegepast en welke methode is gebruikt [76](#page=76).
---
# Niet-parametrische statistiek en categorische data-analyse
Dit hoofdstuk introduceert methoden om statistische inferentie uit te voeren wanneer de aannames van parametrische methoden niet voldaan zijn, en behandelt vervolgens technieken voor de analyse van categorische data [77](#page=77).
### 5.1 Niet-parametrische statistiek
Niet-parametrische methoden vormen een alternatief voor parametrische technieken wanneer de aannames over de verdeling van de data (zoals normaliteit of gelijke varianties) niet voldaan zijn. Dit is vooral relevant bij kleine steekproeven waar deze aannames moeilijk te controleren zijn. De p-waarden en betrouwbaarheidsintervallen van parametrische methoden zijn enkel correct interpreteerbaar onder hun specifieke aannames [77](#page=77).
#### 5.1.1 Permutatietesten
Permutatietesten zijn een klasse van niet-parametrische toetsen die de nulhypothese evalueren door de waargenomen data te permuteren. Ze zijn gebaseerd op het idee dat onder de nulhypothese (H0) de groepslabels irrelevant zijn [78](#page=78).
**Hypothesenformulering:**
De nulhypothese (H0) kan geformuleerd worden als de gelijkheid van verdelingen (bv. $F_1 = F_2$) of van gemiddelden ($\mu_1 = \mu_2$). De alternatieve hypothese (HA) is doorgaans dat de verdelingen niet gelijk zijn of dat er een locatieverschuiving is [78](#page=78).
**Verdeling van de statistiek onder H0:**
Onder H0 worden alle mogelijke permutaties van de groepslabels gegenereerd. Voor elke permutatie wordt de teststatistiek berekend, wat resulteert in een empirische nuldistributie van de statistiek [78](#page=78).
**p-waarde en kritieke waarde:**
De p-waarde voor een tweezijdige test is de fractie van permutaties waarbij de teststatistiek minstens zo extreem is als de geobserveerde statistiek. Dit is een *exacte* p-waarde, aangezien deze gebaseerd is op de volledige permutatienuldistributie. De kritieke waarde wordt bepaald door het significantieniveau $\alpha$ en de discrete aard van de nuldistributie [79](#page=79).
**Praktische overwegingen:**
Bij grote steekproeven kan het aantal permutaties extreem groot zijn. In zulke gevallen wordt de nuldistributie benaderd door een groot aantal willekeurige permutaties uit te voeren, wat leidt tot een *approximatieve* p-waarde [80](#page=80).
#### 5.1.2 Rank-testen
Rank-testen vormen de belangrijkste groep niet-parametrische tests en bieden een alternatief voor parametrische toetsen zoals de t-test en ANOVA. Ze zijn populair omdat ze geen exacte p-waarden geven zonder de noodzaak om de permutatienuldistributie voor elke dataset opnieuw te berekenen [80](#page=80).
**Rangtransformatie:**
Observaties worden gerangschikt van klein naar groot, waarbij de kleinste observatie rank 1 krijgt en de grootste rank $n$. Bij identieke observaties (ties) worden midranks toegepast [80](#page=80) [81](#page=81).
##### 5.1.2.1 Wilcoxon-Mann-Whitney Test (WMW)
De WMW-test is een niet-parametrisch alternatief voor de ongepaarde t-test voor het vergelijken van twee groepen. Het test of de verdelingen van twee groepen gelijk zijn (H0) of verschoven zijn (HA) [81](#page=81).
**Teststatistiek:**
De teststatistiek kan gebaseerd zijn op het verschil tussen de gemiddelde ranks van de twee groepen ($T$) of de som van de ranks van de eerste groep ($S_1$). De Mann-Whitney U-statistiek ($U_1$) telt het aantal keren dat een observatie uit de eerste groep groter of gelijk is aan een observatie uit de tweede groep. Deze statistieken zijn equivalent en leiden tot dezelfde conclusies [81](#page=81) [82](#page=82).
**Interpretatie:**
De WMW-test test de hypothese $F_1 = F_2$. Als de locatie-shift aanname geldt ($f_1(y) = f_2(y-\Delta)$), dan test de verwerping van H0 de hypothese $\mu_1 \neq \mu_2$. Zonder deze aanname, interpreteert de test de resultaten in termen van de *probabilistische index*, die de kans aangeeft dat een observatie uit de ene groep groter of gelijk is aan een observatie uit de andere groep [81](#page=81) [82](#page=82).
#### 5.1.3 Vergelijken van $g$ Behandelingen
##### 5.1.3.1 Permutatietest voor $g$ groepen
Dit is de niet-parametrische tegenhanger van de one-way ANOVA. De test statistiek, vaak de F-statistiek, wordt berekend op basis van de geobserveerde data en de nuldistributie wordt verkregen door groepslabels te permuteren. Gezien het grote aantal mogelijke permutaties bij veel groepen en observaties, wordt vaak gebruik gemaakt van willekeurige permutaties [83](#page=83) [84](#page=84).
##### 5.1.3.2 Kruskal-Wallis Test (KW-test)
De KW-test is het niet-parametrische alternatief voor de one-way ANOVA. De teststatistiek is gebaseerd op de ranks van de geobserveerde uitkomsten [84](#page=84).
**Teststatistiek:**
$$ H = \frac{12}{n(n+1)} \sum_{j=1}^{g} n_j (\bar{R}_j - \bar{R})^2 $$
waarbij $n$ het totale aantal observaties is, $g$ het aantal groepen, $n_j$ het aantal observaties in groep $j$, $\bar{R}_j$ het gemiddelde rank in groep $j$, en $\bar{R}$ het gemiddelde van alle ranks [84](#page=84).
**Interpretatie en p-waarde:**
Onder H0 volgt de teststatistiek een $\chi^2$-verdeling met $(g-1)$ vrijheidsgraden. Bij kleine steekproefgroottes kan de exacte p-waarde worden verkregen met behulp van de `coin` package in R. Indien de locatie-shift aanname niet geldt, interpreteert de test de resultaten in termen van probabilistische indexen [85](#page=85).
**Post-hoc analyses:**
Na een significante KW-test worden paarsgewijze vergelijkingen uitgevoerd met de `pairwise.wilcox.test()` functie, gecorrigeerd voor multiple testing (bv. met de Holm-methode) [85](#page=85).
### 5.2 Categorische data-analyse
Categorische data-analyse richt zich op het analyseren van uitkomsten die in categorieën zijn ingedeeld, vaak in relatie tot andere categorische of continue predictoren [86](#page=86).
#### 5.2.1 Toetsen voor een proportie
Dit omvat het testen van hypothesen over de proportie van een bepaalde uitkomst in een populatie, vaak binair (bv. succes/mislukking) [86](#page=86).
**Bernoulli-verdeling:**
Een binaire uitkomst kan gemodelleerd worden met een Bernoulli-verdeling, met één parameter $\pi$, de kans op succes [86](#page=86).
**Binomiale test:**
De binomiale test wordt gebruikt om te toetsen of een waargenomen proportie significant afwijkt van een hypothesede proportie $\pi_0$ [87](#page=87).
**Binomiale verdeling:**
De som $S$ van $n$ onafhankelijke Bernoulli-variabelen volgt een binomiale verdeling met parameters $n$ en $\pi$, genoteerd als $S \sim \text{Binomial}(n, \pi)$. De kans op $k$ successen in $n$ trials is [87](#page=87):
$$ P(S=k) = \binom{n}{k} \pi^k (1-\pi)^{n-k} $$
In R kan dit berekend worden met `dbinom(k, n, p)` [87](#page=87).
**Teststatistiek en p-waarde:**
De teststatistiek is vaak het verschil tussen de geobserveerde proportie ($\hat{\pi}$) en de hypothesede proportie ($\pi_0$). De p-waarde voor een tweezijdige test is de kans om een resultaat te observeren dat minstens zo extreem is als het geobserveerde resultaat onder H0. In R wordt dit berekend met `binom.test(x, n, p)` [88](#page=88) [89](#page=89).
**Betrouwbaarheidsinterval:**
Een betrouwbaarheidsinterval (BI) voor een proportie kan berekend worden met behulp van de Centrale Limietstelling (CLT) of door de binomiale test te inverteren. Het exacte BI, verkregen door de binomiale test te inverteren, heeft de voorkeur bij kleinere steekproeven [89](#page=89).
#### 5.2.2 Toets voor associatie tussen 2 kwalitatieve variabelen
##### 5.2.2.1 Gepaarde gegevens
Bij gepaarde gegevens (bv. metingen voor en na een behandeling op dezelfde subjecten) worden specifieke toetsen gebruikt die rekening houden met de afhankelijkheid tussen de metingen [90](#page=90).
**Absolute Risicoverschil (ARV):**
Voor binaire gepaarde uitkomsten kan het ARV berekend worden om het verschil in risico's tussen twee condities te kwantificeren. Een betrouwbaarheidsinterval kan worden opgesteld voor het ARV [91](#page=91).
**McNemar Test:**
De McNemar-test is een toets voor associatie tussen twee binaire kwalitatieve variabelen bij gepaarde gegevens. Het vergelijkt de aantallen discordante paren in een 2x2 kruistabel. De nulhypothese stelt dat er geen associatie is tussen de twee variabelen [92](#page=92).
**Teststatistiek (zonder continuïteitscorrectie):**
$$ Z = \frac{(f-g)}{\sqrt{f+g}} $$
waarbij $f$ en $g$ de aantallen discordante paren zijn. Bij kleine aantallen in de cellen wordt een continuïteitscorrectie (Yates-correctie) toegepast, of een exacte binomiale test gebruikt [92](#page=92).
##### 5.2.2.2 Ongepaarde gegevens
Bij ongepaarde gegevens komen de metingen van verschillende subjecten [93](#page=93).
**Odds Ratio (OR):**
De odds ratio is een maat voor associatie die de verhouding van de odds van de uitkomst tussen twee blootstellingsgroepen weergeeft. Het is een symmetrische maat en wordt vaak gebruikt in case-control studies [93](#page=93).
**Pearson Chi-kwadraat Test:**
De Pearson $\chi^2$-test is de standaardtoets voor het testen van associatie tussen twee categorische variabelen, ongeacht of ze binaire of multi-level zijn. De nulhypothese is dat de variabelen onafhankelijk zijn [94](#page=94).
**Teststatistiek:**
$$ \chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
waarbij $O_{ij}$ het geobserveerde aantal in cel $(i,j)$ is en $E_{ij}$ het verwachte aantal onder H0. Onder H0 volgt deze statistiek een $\chi^2$-verdeling met $(r-1)(c-1)$ vrijheidsgraden, waar $r$ het aantal rijen en $c$ het aantal kolommen is [95](#page=95).
**Voorwaarden en alternatieven:**
De $\chi^2$-benadering is accuraat als de verwachte aantallen in de cellen voldoende groot zijn (typisch $\geq 5$). Anders wordt een exacte toets zoals de Fisher's exact test gebruikt (voor 2x2 tabellen) [95](#page=95).
#### 5.2.3 Logistische regressie
Logistische regressie wordt gebruikt om binaire uitkomsten te modelleren als functie van continue en/of categorische predictoren. Het modelleert de logaritme van de odds van de uitkomst [96](#page=96).
**Lineaire predictor:**
$$ \log\left(\frac{\pi(x)}{1-\pi(x)}\right) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p $$
waarbij $\pi(x)$ de kans op succes is gegeven de predictoren $x_1, \dots, x_p$. Categorische predictoren worden via dummy-variabelen in het model opgenomen [96](#page=96).
**Interpretatie:**
De coëfficiënten ($\beta_i$) representeren de verandering in de log-odds per eenheidstoename in de corresponderende predictor. De exponent van de coëfficiënt, $e^{\beta_i}$, is de odds ratio (OR) [97](#page=97).
**Toetsing en Modelselectie:**
Model testen en associaties worden geëvalueerd met behulp van $\chi^2$-tests, analoog aan ANOVA. Logistische regressie maakt voornamelijk gebruik van asymptotische theorie, wat geschikte is voor grote steekproeven [97](#page=97).
**Voorspellingen:**
Voorspellingen van de waarschijnlijkheid kunnen worden verkregen met de `predict()` functie met `type="response"` [98](#page=98).
---
# Algemeen lineair model en modelselectie
Dit deel breidt het lineaire regressiemodel uit naar meervoudige regressie met meerdere predictoren en interactietermen, behandelt technieken voor modelselectie, en de diagnostiek van regressiemodellen.
## 6. Algemeen lineair model en modelselectie
### 6.1 Introductie tot het algemeen lineair model
Tot nu toe is de associatie tussen een uitkomstvariabele ($Y$) en een predictorvariabele ($X$) beschreven. Echter, in de praktijk is het vaak wenselijk om de gemiddelde uitkomst in termen van meerdere predictoren te beschrijven. Dit kan noodzakelijk zijn om de invloed van confounders te corrigeren, de belangrijkste predictoren te identificeren, of om een zo nauwkeurig mogelijke voorspelling van de uitkomst te maken [99](#page=99).
Het algemeen lineair model (ALM) breidt het enkelvoudige lineaire regressiemodel uit naar situaties met meerdere predictoren en interactietermen [99](#page=99).
#### 6.1.1 Prostaatkanker dataset als voorbeeld
De prostaatkanker dataset, bestaande uit gegevens van 97 mannen zonder prostaatkanker, wordt gebruikt om de principes van het ALM te illustreren. De dataset bevat onder andere het prostate specific antigen (PSA)-niveau, tumorvolume, gewicht van de prostaat, leeftijd, en de mate van invasie van zaadblaasjes (svi). Variabelen zoals PSA, tumorvolume en gewicht zijn vaak log-getransformeerd om aan de modelaannames te voldoen. Een scattermatrix toont de correlaties tussen de variabelen, waarbij bijvoorbeeld een sterke positieve correlatie wordt waargenomen tussen gelogde PSA (lpsa) en gelogd tumorvolume (lcavol) [99](#page=99).
### 6.2 Het additieve meervoudig lineair regressiemodel
In een additief meervoudig lineair regressiemodel wordt de gemiddelde uitkomst ($E[Y]$) lineair beschreven als een functie van meerdere verklarende variabelen ($X_1, \dots, X_{p-1}$). Dit model maakt het mogelijk om de effecten van verschillende predictoren te evalueren en te corrigeren voor confounding, waarbij de associatie tussen een specifieke predictor en de uitkomst wordt bestudeerd terwijl de andere predictoren constant worden gehouden [100](#page=100).
#### 6.2.1 Statistisch model
Voor $n$ subjecten met een uitkomst $Y$ en $p-1$ verklarende variabelen $X_1, \dots, X_{p-1}$, wordt het additieve meervoudige lineaire regressiemodel als volgt gedefinieerd:
$$ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_{p-1} X_{i,p-1} + \epsilon_i $$
Hierbij zijn $\beta_0, \beta_1, \dots, \beta_{p-1}$ de onbekende parameters (intercept en hellingen), en $\epsilon_i$ zijn de fouttermen die niet verklaarde residuen vertegenwoordigen. De parameters worden doorgaans geschat met de kleinste kwadratenmethode, hoewel dit via software automatisch gebeurt [100](#page=100).
**Interpretatie van parameters:**
* De geschatte parameters ($\hat{\beta}_j$) maken het mogelijk om de verwachte uitkomst voor subjecten met specifieke waarden van de verklarende variabelen te voorspellen:
$$ \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \dots + \hat{\beta}_{p-1} X_{i,p-1} $$
* De coëfficiënt $\beta_j$ kan geïnterpreteerd worden als het verschil in de gemiddelde uitkomst tussen subjecten die één eenheid verschillen in de waarde van $X_j$, terwijl de waarden van de overige variabelen gelijk blijven [100](#page=100).
**Voorbeeld in prostaatkanker dataset:**
* Een enkelvoudige analyse toonde dat een 1% hogere tumorvolume gepaard ging met een 0.72% hogere PSA [100](#page=100).
* In een meervoudige analyse met lcavol, lweight en svi, werd de associatie van lcavol met lpsa bijgesteld naar 0.55%. De parameter voor svi toonde aan dat PSA bij invasie van zaadblaasjes gemiddeld met een factor $e^{0.666} \approx 1.95$ hoger lag, na correctie voor lweight en lcavol [100](#page=100).
* De $R^2$-waarde van dit meervoudige model was 0.622, wat betekent dat 62.2% van de variabiliteit in log-PSA werd verklaard door lcavol, lweight en svi .
### 6.3 Besluitvorming in regressiemodellen
Om resultaten uit een steekproef te veralgemenen naar de populatie, is inzicht in de verdeling van de parameterschatters noodzakelijk, wat steunt op de volgende aannames:
1. **Lineariteit:** De uitkomst varieert lineair met de verklarende variabelen .
2. **Onafhankelijkheid:** Metingen bij $n$ onafhankelijke subjecten .
3. **Homoscedasticiteit:** Observaties variëren met een gelijke variantie ($\sigma^2$) rond het regressievlak. Dit betekent dat de conditionele variantie van $Y$ constant is voor elk patroon van covariaten: $var(Y|X_1, \dots, X_{p-1}) = \sigma^2$. $\sigma$ is de residuele standaarddeviatie .
4. **Normaliteit:** De residuen ($\epsilon_i$) zijn normaal verdeeld .
Als aannames 2, 3 en 4 voldaan zijn, zijn de residuen onafhankelijk en volgen ze eenzelfde normale verdeling. De aanname van lineariteit impliceert dat de originele observaties conditioneel op de predictoren ook normaal verdeeld zijn, met een gemiddelde dat varieert met de onafhankelijke variabelen .
De onzekerheid op de hellingen neemt af met een toenemend aantal observaties en een grotere spreiding van de data. De conditionele variantie ($\sigma^2$) is onbekend en wordt geschat met de Mean Squared Error (MSE) :
$$ MSE = \frac{SSE}{n-p} $$
Testen en betrouwbaarheidsintervallen worden geconstrueerd met behulp van teststatistieken. Als aan alle aannames is voldaan, volgt de teststatistiek $T_k$ een $t$-verdeling met $n-p$ vrijheidsgraden. Indien de normaliteitsaanname niet voldaan is, maar lineariteit en andere wel, kan voor inferentie gebruik worden gemaakt van de Centrale Limietstelling (CLT), waardoor de statistiek $T_k$ normaal verdeeld is bij voldoende observaties .
#### 6.3.1 Nagaan van modelveronderstellingen
De aannames worden gecontroleerd met behulp van diagnostische plots:
* **Lineariteit:** Residuplots. Een lineair model wordt gekenmerkt door geen patroon in de residuen .
* **Homoscedasticiteit:** Residuplots en plots van gestandaardiseerde errors versus predicties. Een egale spreiding zonder patronen duidt op homoscedasticiteit .
* **Normaliteit:** QQ-plots (Quantile-Quantile plots) worden gebruikt om afwijkingen van normaliteit te detecteren .
* **Onafhankelijkheid:** Deze aanname kan niet worden geverifieerd aan de hand van de data zelf, maar hangt af van het studiedesign .
### 6.4 Het niet-additieve meervoudig lineair regressiemodel
#### 6.4.1 Interactie tussen twee continue variabelen
Interactietermen worden toegevoegd aan het model om te onderzoeken of het effect van de ene predictor op de uitkomst afhangt van de waarde van een andere predictor. In het additieve model wordt aangenomen dat de bijdrage van elke predictor onafhankelijk is van de andere. Als bijvoorbeeld het effect van lcavol op lpsa afhangt van lweight, is er sprake van interactie .
Het model met een interactieterm ziet er als volgt uit:
$$ Y_i = \beta_0 + \beta_v X_{iv} + \beta_w X_{iw} + \beta_{vw} X_{iv} X_{iw} + \epsilon_i $$
Hierbij is $\beta_{vw}$ de interactiecoëfficiënt die kwantificeert hoe de gecombineerde bijdrage van $X_v$ en $X_w$ afwijkt van de som van hun individuele bijdragen. Grafisch wordt interactie weergegeven door niet-parallelle lijnen of vlakken .
**Voorbeeld:** Als de interactie-schatting voor $\beta_{vw}$ negatief is, betekent dit dat de toename in lpsa per eenheid toename in lcavol kleiner wordt bij een hoger lweight. Indien de interactieterm niet significant is, kan deze verwijderd worden uit het model .
#### 6.4.2 Interactie tussen continue variabele en factor variabele
Interactie kan ook optreden tussen een continue variabele en een factorvariabele (een categorische variabele). Als $X_S$ een dummyvariabele is (met waarden 0 en 1), en $X_V$ is een continue variabele, wordt het model:
$$ Y_i = (\beta_0 + \beta_S X_{Si}) + (\beta_v + \beta_{vS} X_{Si}) X_{iv} + \beta_w X_{iw} + \epsilon_i $$
Hierbij vertegenwoordigt $\beta_S$ het verschil in intercept tussen de twee groepen van de factorvariabele, en $\beta_{vS}$ vertegenwoordigt het verschil in de helling van $X_v$ tussen de twee groepen. Grafisch leidt dit tot regressievlakken met verschillende hellingen voor de verschillende niveaus van de factorvariabele .
### 6.5 ANOVA Tabel
De ANOVA-tabel (Analysis of Variance) deelt de totale variabiliteit in de uitkomsten ($SST_{tot}$) op in de door het model verklaarde variabiliteit ($SSR$, Regression Sum of Squares) en de niet-verklaarde variabiliteit (residuele som van kwadraten, $SSE$) .
#### 6.5.1 $SST_{tot}$, $SSR$ en $SSE$
* $SST_{tot}$: Maat voor de totale variabiliteit in de geobserveerde uitkomsten. Het heeft $n-1$ vrijheidsgraden .
* $SSE$: Maat voor de residuele variabiliteit (niet verklaard door het model). Het heeft $n-p$ vrijheidsgraden, waarbij $p$ het aantal parameters in het model is (inclusief intercept). $MSE = SSE/(n-p)$ schat de residuele variantie $\sigma^2$ .
* $SSR$: Maat voor de variabiliteit verklaard door het regressiemodel. Het heeft $p-1$ vrijheidsgraden. $MSR = SSR/(p-1)$ .
De determinatiecoëfficiënt ($R^2$) blijft de fractie van de totale variabiliteit verklaard door het model:
$$ R^2 = \frac{SSR}{SST_{tot}} $$
Een algemene $F$-teststatistiek wordt gebruikt om te toetsen of alle regressieparameters gelijk zijn aan nul ($H_0: \beta_1 = \dots = \beta_{p-1} = 0$). Onder $H_0$ volgt deze teststatistiek een $F$-verdeling met $p-1$ en $n-p$ vrijheidsgraden .
$$ F = \frac{MSR}{MSE} $$
Als deze $F$-test significant is, wordt de nulhypothese verworpen, wat aangeeft dat minstens één predictor significant geassocieerd is met de respons .
#### 6.5.2 Extra kwadratensommen
Extra kwadratensommen (Type II en Type III) kwantificeren de toegevoegde waarde van een predictor of set van predictoren aan een model dat reeds andere predictoren bevat. Ze worden gebruikt om te bepalen hoeveel extra variantie in de uitkomst wordt verklaard door de nieuwe predictoren, gegeven de al aanwezige predictoren .
* **Extra kwadratensom van $x_2$ t.o.v. model met $x_1$:** $SSR(x_2|x_1) = SSE_1 - SSE_2$, waar $SSE_1$ de residuele som van kwadraten is voor het model met $x_1$ en $SSE_2$ voor het model met $x_1$ en $x_2$ .
#### 6.5.3 Type I Kwadratensommen
Type I kwadratensommen zijn gebaseerd op een sequentiële toevoeging van predictoren. De kwadratensom voor een predictor is de extra variabiliteit die deze verklaart bovenop de predictoren die eerder in de sequentie zijn opgenomen. Het nadeel is dat deze afhankelijk zijn van de volgorde waarin de predictoren worden opgenomen .
$$ SSR_{j|1, \dots, j-1} $$
Elke Type I SSR heeft één vrijheidsgraad en wordt gebruikt voor een $F$-test: $F = MSR_{j|1, \dots, j-1}/MSE$, die onder $H_0: \beta_j=0$ een $F_{1;n-(j+1)}$-verdeling volgt .
#### 6.5.4 Type III Kwadratensommen
Type III kwadratensommen worden gebruikt om het effect van een predictor te evalueren, rekening houdend met alle andere predictoren in het model, ongeacht de volgorde. Ze meten het aandeel van de totale variantie van de uitkomst dat door een specifieke predictor ($x_j$) wordt verklaard, en niet door de overige $p-2$ predictoren. Dit is de meest gebruikelijke methode in softwarepakketten zoals R .
$$ SSR_{j|1, \dots, j-1, j+1, \dots, p-1} $$
De $F$-teststatistiek voor Type III kwadratensommen volgt een $F_{1;n-p}$-verdeling onder $H_0$. De p-waarden van deze testen zijn identiek aan de p-waarden van de tweezijdige t-testen voor individuele parameters .
### 6.6 Regressiediagnostieken
Diagnostieken helpen bij het beoordelen van de betrouwbaarheid van het regressiemodel en het identificeren van potentiële problemen.
#### 6.6.1 Multicollineariteit
Multicollineariteit treedt op wanneer twee of meer predictoren in een model sterk met elkaar gecorreleerd zijn. Dit kan leiden tot onstabiele parameter-schattingen, opgeblazen standaardfouten (SE's), en brede betrouwbaarheidsintervallen (BI's) .
* **Problemen herkennen:**
* Grote wijzigingen in parameters na toevoeging van een predictor.
* Brede BI's voor sommige parameters.
* Onverwachte resultaten.
* **Variance Inflation Factor (VIF):** Een formele maat voor multicollineariteit. Voor de $j$-de parameter:
$$ VIF_j = \frac{1}{1 - R_j^2} $$
Hierbij is $R_j^2$ de determinatiecoëfficiënt van een regressie van de $j$-de predictor op alle andere predictoren in het model. Een VIF van 1 betekent geen multicollineariteit. Een VIF groter dan 10 wordt als ernstig beschouwd .
* **Oplossingen:** Variabelen centreren rond het gemiddelde bij het gebruik van hogere-orde termen (zoals interacties) kan helpen, hoewel dit niet altijd noodzakelijk is .
#### 6.6.2 Invloedrijke observaties
Invloedrijke observaties (outliers) zijn datapunten die een onevenredig grote impact hebben op de regressieparameters en de regressielijn. Zelfs als een observatie geen extreme waarde heeft voor $Y$, kan een extreme combinatie van $X$-waarden invloedrijk zijn .
* **Detectie:**
* **Residuen:** De afwijking van observaties van de regressielijn. Grote residuen kunnen op outliers duiden .
* **Studentized residuen:** Een getransformeerde versie van residuen die $t$-verdeeld zijn, wat nauwkeuriger is voor outlier-detectie .
* **Leverage:** Een maat voor hoe extreem de predictorwaarden van een observatie zijn ten opzichte van het gemiddelde van de predictorwaarden in de steekproef. Een hoge leverage duidt op mogelijke invloed. De gemiddelde leverage is $(p+1)/n$. Een waarde groter dan $2p/n$ wordt als extreem beschouwd .
#### 6.6.3 Cook's distance
Cook's distance ($D_i$) is een maat die de invloed van een individuele observatie ($i$) op alle voorspellingen van het model kwantificeert. Een grote Cook's distance geeft aan dat observatie $i$ het model aanzienlijk beïnvloedt. Een observatie wordt als invloedrijk beschouwd als $D_i$ groter is dan het 50e percentiel van een $F_{p+1, n-(p+1)}$-verdeling .
* **DFBETAS:** Deze maat kwantificeert de invloed van een observatie op elke regressieparameter afzonderlijk. De teken van DFBETAS geeft de richting van de invloed aan. Extreem hoge waarden liggen typisch boven 1 (of 2/$\sqrt{n}$ voor grote datasets) .
### 6.7 Modelselectie
Modelselectie is het proces van het kiezen van een model uit een verzameling kandidaat-modellen om aan een specifieke onderzoeksvraag te voldoen. Dit is cruciaal wanneer er veel potentiële predictoren zijn en het doel is om een model te vinden dat zowel goed de data beschrijft als goed veralgemeniseert naar nieuwe data .
#### 6.7.1 Modelselectie op basis van hypothesetesten
Hierbij worden de effecten van predictoren getest met hypothesetesten. Er zijn drie gangbare stapsgewijze procedures:
* **Voorwaartse modelselectie (Forward Selection):** Start met een leeg model (alleen intercept) en voegt iteratief de significantste predictor toe totdat geen enkele predictor meer significant is op een bepaald significantieniveau ($\alpha_{IN}$) .
* **Achterwaartse modelselectie (Backward Elimination):** Start met het maximale model (alle predictoren) en verwijdert iteratief de minst significante predictor totdat alle resterende predictoren significant zijn op een bepaald significantieniveau ($\alpha_{OUT}$). Interactietermen worden alleen behouden als hun hoofdeffecten ook in het model zijn opgenomen .
* **Stapsgewijze modelselectie (Stepwise Selection):** Een combinatie van voorwaartse en achterwaartse selectie, waarbij in elke stap wordt gekeken of een predictor kan worden toegevoegd of verwijderd .
**Opmerkingen over hypothesetest-gebaseerde selectie:**
* De p-waarden in het geselecteerde model kunnen niet direct geïnterpreteerd worden als bij het kiezen van een model uit een grote verzameling zijn meerdere testen uitgevoerd .
* Deze methoden missen een sterke theoretische basis, aangezien de selectie wordt gedreven door de data zelf, wat de interpretatie van p-waarden bemoeilijkt .
#### 6.7.2 Modelselectie voor predictie
Bij predictiemodellen is het primaire doel om zo nauwkeurig mogelijke voorspellingen te genereren, ongeacht of het model de werkelijkheid perfect weerspiegelt. Hypothesetesten zijn hier minder geschikt omdat ze gevoelig zijn voor steekproefgrootte en de significantie van een parameter niet direct de voorspellende kracht garandeert .
* **Selectiecriteria:** Kwaliteit van het predictieve karakter wordt gekwantificeerd met modelselectiecriteria die een compromis zoeken tussen de fit van het model en de complexiteit ervan.
* **$R^2$ is geen goed criterium:** Een hogere $R^2$ wordt verkregen met complexere modellen, wat kan leiden tot overfitting (het model past te goed op de trainingsdata en generaliseert slecht) .
* **Akaike Information Criterion (AIC):** Een criterium dat de kwaliteit van de fit (via de likelihood) en de modelcomplexiteit (aantal parameters) balanceert. Een kleiner AIC duidt op een beter model .
$$ AIC = -2 \ln(L) + 2(p+1) $$
Hierbij is $L$ de likelihood en $p+1$ het aantal geschatte modelparameters (inclusief de variantie $\sigma^2$).
* **Functies in R:** De `step()` functie in R kan worden gebruikt voor voorwaartse, achterwaartse en stapsgewijze selectie op basis van AIC .
* **Alternatieve criteria:** In machine learning worden technieken zoals cross-validatie gebruikt, die de performantie van een model evalueren op data die niet gebruikt zijn tijdens het trainen van het model. Dit is vaak beter geschikt voor het bouwen van predictiemodellen .
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Wetenschappelijke Methode | Een gestructureerd proces dat wetenschappers gebruiken om de natuur te begrijpen, bestaande uit het vormen van theorieën, het doen van observaties, het testen van hypotheses en het trekken van conclusies. |
| Hypothese | Een voorlopige, toetsbare verklaring of voorspelling die voortkomt uit een theorie, die vervolgens empirisch getest kan worden door middel van onderzoek. |
| Populatie | De gehele groep subjecten of eenheden waarover men een uitspraak wil doen in een wetenschappelijk onderzoek. |
| Steekproef | Een representatieve subset van de populatie die wordt onderzocht om conclusies te kunnen trekken over de gehele populatie. |
| Variabele | Een karakteristiek of eigenschap die varieert tussen subjecten of eenheden in een onderzoek. |
| Kwalitatieve variabele | Een variabele waarvan de uitkomsten niet-numeriek zijn en worden ingedeeld in categorieën, zoals nominaal (zonder ordening) of ordinaal (met ordening). |
| Numerieke variabele | Een variabele waarvan de uitkomsten numeriek zijn, hetzij discreet (telbaar) of continu (elke waarde binnen een bereik). |
| Toevalsveranderlijke | Een variabele waarvan de waarde wordt bepaald door een willekeurig proces; de resultaten kunnen variëren bij herhaalde metingen of trekkingen. |
| Beschrijvende statistiek | Statistiek die zich bezighoudt met het samenvatten en visualiseren van data, met behulp van grafieken en samenvattingsmaten, om inzicht te krijgen in de eigenschappen van de gegevens. |
| Histogram | Een grafische weergave van de verdeling van continue numerieke data, waarbij de frequentie van waarden binnen bepaalde klassen wordt weergegeven door de hoogte van staven. |
| Boxplot | Een grafische weergave die de verdeling van numerieke data toont, inclusief mediaan, kwartielen, bereik en uitschieters, vaak gebruikt voor het vergelijken van groepen. |
| Gemiddelde | De rekenkundige som van alle observaties gedeeld door het aantal observaties; een maat voor centrale ligging. |
| Mediaan | De middelste waarde in een geordende dataset; de waarde die de data in twee gelijke helften verdeelt. |
| Standaarddeviatie | Een maat voor de spreiding van gegevens rond het gemiddelde; de wortel van de variantie. |
| Betrouwbaarheidsinterval | Een reeks waarden die waarschijnlijk de populatieparameter bevat, berekend op basis van steekproefdata met een gespecificeerd betrouwbaarheidsniveau (bv. 95%). |
| Hypothesetoets | Een statistische procedure om te bepalen of er voldoende bewijs is om de nulhypothese te verwerpen ten gunste van een alternatieve hypothese. |
| P-waarde | De kans om een teststatistiek te observeren die minstens zo extreem is als de waargenomen waarde, aangenomen dat de nulhypothese waar is. |
| Type I fout | Het verwerpen van de nulhypothese terwijl deze in werkelijkheid waar is. |
| Type II fout | Het niet verwerpen van de nulhypothese terwijl deze in werkelijkheid onjuist is. |
| Lineaire regressie | Een statistische methode die de lineaire relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen modelleert. |
| Correlatiecoëfficiënt | Een statistische maat die de sterkte en richting van de lineaire associatie tussen twee variabelen aangeeft, met waarden tussen -1 en 1. |
| Confounding | Een vertekenende factor in een onderzoek die zowel geassocieerd is met de blootstelling als met de uitkomst, waardoor het moeilijk wordt om het ware effect van de blootstelling te bepalen. |
| Experimentele studie | Een studie waarbij onderzoekers de condities controleren en interventies toepassen om causale verbanden te onderzoeken. |
| Observationele studie | Een studie waarbij onderzoekers observaties doen zonder interventies toe te passen, om verbanden te onderzoeken in natuurlijke omstandigheden. |
| Gerandomiseerde gecontroleerde studie (GCS) | Een experimenteel design waarbij subjecten willekeurig worden toegewezen aan interventie- of controlegroepen om bias te minimaliseren. |
| Variantie-analyse (ANOVA) | Een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken door de totale variabiliteit in de data te ontleden in componenten die toe te schrijven zijn aan verschillende bronnen van variatie. |
| Niet-parametrische statistiek | Een tak van statistiek die methoden gebruikt die geen strikte aannames doen over de verdeling van de populatie, vaak gebruikt wanneer parametrische aannames niet voldaan zijn. |
| Permutatietest | Een niet-parametrische test waarbij de nulhypothese wordt getoetst door de data herhaaldelijk te permuteren om de nuldistributie van de teststatistiek te benaderen. |
| Wilcoxon-Mann-Whitney test | Een niet-parametrische test voor het vergelijken van twee onafhankelijke groepen, die de rangen van de data gebruikt in plaats van de ruwe waarden. |
| Kruskal-Wallis test | Een niet-parametrische test voor het vergelijken van drie of meer onafhankelijke groepen, als alternatief voor een eenweg ANOVA. |
| Chi-kwadraat test | Een statistische test die wordt gebruikt om de associatie tussen twee categorische variabelen te analyseren, gebaseerd op de vergelijking van geobserveerde en verwachte frequenties in een kruistabel. |
| Logistische regressie | Een statistische methode die wordt gebruikt om de relatie te modelleren tussen een binaire afhankelijke variabele en één of meer predictoren. |
| Algemeen lineair model (ALM) | Een flexibel statistisch raamwerk dat zowel lineaire regressie als variantie-analyse omvat, en dat de relatie tussen een continue uitkomst en meerdere predictoren kan modelleren. |
| Interactieterm | Een term in een regressiemodel die aangeeft dat het effect van de ene predictor op de uitkomst afhankelijk is van de waarde van een andere predictor. |
| Multicollineariteit | Een situatie in meervoudige regressie waarbij twee of meer predictoren sterk met elkaar gecorreleerd zijn, wat kan leiden tot instabiele schattingen van de regressiecoëfficiënten. |
| VIF (Variance Inflation Factor) | Een maatstaf die aangeeft in welke mate de variantie van de geschatte regressiecoëfficiënt wordt opgeblazen door multicollineariteit. |
| Invloedrijke observatie | Een datapunten die een onevenredig grote invloed heeft op de regressieresultaten, zoals de regressielijn of parameter-schattingen. |
| Cook’s distance | Een diagnostische maat die de invloed van een individuele observatie op alle voorspelde waarden in het model kwantificeert. |
| Modelselectie | Het proces van het kiezen van het meest geschikte statistische model uit een reeks mogelijke modellen, vaak op basis van criteria zoals AIC of hypothesetesten. |
| AIC (Akaike Information Criterion) | Een criterium voor modelselectie dat een balans zoekt tussen de fit van het model en de complexiteit ervan, waarbij lagere AIC-waarden duiden op een beter model. |
| Odds Ratio (OR) | Een maatstaf die de verhouding van de odds van een gebeurtenis in twee groepen weergeeft; vaak gebruikt in case-control studies en logistische regressie. |
| Relatief Risico (RR) | De verhouding van de kans op een uitkomst in een blootgestelde groep ten opzichte van de kans op dezelfde uitkomst in een niet-blootgestelde groep. |
| Homoscedasticiteit | De aanname in regressiemodellen dat de variantie van de residuen constant is over alle niveaus van de predictoren. |
| Heteroscedasticiteit | Het schenden van de aanname van homoscedasticiteit, waarbij de variantie van de residuen niet constant is. |
| QQ-plot | Een grafische techniek om te beoordelen of een dataset uit een specifieke verdeling komt, meestal de normale verdeling. |
| Residu | Het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de voorspelde waarde van die variabele door het regressiemodel. |
| Puntschatting | Een enkele waarde die wordt gebruikt om een populatieparameter te schatten. |
| Intervalschatting | Een reeks waarden (een interval) die waarschijnlijk de populatieparameter bevat, met een gespecificeerd betrouwbaarheidsniveau. |
| F-test | Een statistische test die wordt gebruikt om te vergelijken of de varianties van twee of meer populaties gelijk zijn, of om de significantie van regressiemodellen te evalueren. |
| Dummy variabele | Een categorische variabele die wordt omgezet in numerieke variabelen (meestal 0 of 1) om te worden gebruikt in regressiemodellen. |
| Familie-wijs foutenpercentage (FWER) | De kans op het maken van ten minste één Type I fout bij het uitvoeren van meerdere statistische toetsen binnen een enkel onderzoek. |
| Bonferroni correctie | Een methode om het familie-wijs foutenpercentage te controleren door het significantieniveau voor elke individuele toets te verlagen. |
| Tukey’s methode | Een post-hoc methode die wordt gebruikt na een significante ANOVA om paarsgewijze vergelijkingen tussen groepsgemiddelden uit te voeren, met correctie voor meervoudig testen. |
| Exacte p-waarde | De precieze kans op het observeren van een teststatistiek die minstens zo extreem is als de waargenomen waarde, onder de nulhypothese, berekend zonder asymptotische benaderingen. |
| Locatie-shift | Een aanname in niet-parametrische testen waarbij de verdelingen van de groepen dezelfde vorm hebben, maar verschillen in hun gemiddelde of locatie. |
| Probabilistische index | Een maat die de kans weergeeft dat een observatie uit de ene groep groter of gelijk is aan een observatie uit de andere groep, gebruikt in niet-parametrische testen zonder locatie-shift aanname. |
| Asymptotische theorie | Statistische theorie die zich bezighoudt met het gedrag van statistieken naarmate de steekproefgrootte toeneemt, vaak gebruikt om benaderingen te rechtvaardigen. |
| Genexpressie | Het proces waarbij informatie uit een gen wordt gebruikt om een functioneel product te maken, zoals een eiwit. |
| Toxicogenomics | Het bestuderen van de effecten van toxische stoffen op genexpressie. |
| Bio-assay | Een experimentele test die de biologische activiteit van een stof meet. |
| Microarray | Een biotechnologische tool die wordt gebruikt om de expressie van duizenden genen tegelijk te meten. |
| Overfitting | Een fenomeen waarbij een statistisch model te goed past bij de trainingsdata, waardoor het slecht presteert op nieuwe, ongeziene data. |
| Crossvalidatie | Een techniek om de prestaties van een statistisch model te evalueren door de data op te splitsen in trainings- en testsets. |
| Likelihood | Een statistische maat die aangeeft hoe waarschijnlijk het is om de geobserveerde data te verkrijgen, gegeven een bepaald model en parameters. |
| Regressierechte | De rechte lijn die de beste lineaire fit voor een set datapunten vertegenwoordigt in een regressieanalyse. |
| Predictie-interval | Een reeks waarden die waarschijnlijk een toekomstige individuele observatie zal bevatten, rekening houdend met zowel de onzekerheid in de modelparameters als de inherente variabiliteit van de data. |
| Kwadratensom | Een maat voor de totale variabiliteit in een dataset of de variabiliteit verklaard door een model. |
| ANOVA-tabel | Een tabel die de resultaten van een variantie-analyse samenvat, inclusief kwadratensommen, vrijheidsgraden, gemiddelde kwadratensommen en p-waarden. |
| Determinatiecoëfficiënt (R-kwadraat) | Een maat die aangeeft welk percentage van de variabiliteit in de afhankelijke variabele wordt verklaard door het regressiemodel. |
| Type I kwadratensommen | Kwadratensommen die afhankelijk zijn van de volgorde waarin predictoren aan een regressiemodel worden toegevoegd. |
| Type III kwadratensommen | Kwadratensommen die de unieke bijdrage van elke predictor aan het model kwantificeren, onafhankelijk van de andere predictoren. |
| VIF (Variance Inflation Factor) | Een maatstaf die aangeeft in welke mate de variantie van de geschatte regressiecoëfficiënt wordt opgeblazen door multicollineariteit. |
| DFBETAS | Een diagnostische maat die de invloed van een individuele observatie op elke specifieke regressieparameter kwantificeert. |