Cover
Comença ara de franc sl_gen_iwo_jaar2_2025.pdf
Summary
# Fundamentele concepten van biostatistiek
Biostatistiek richt zich op het trekken van conclusies over een populatie op basis van observaties in een willekeurige steekproef.
### 1.1 Motivatie voor biostatistiek
Het correct analyseren en interpreteren van verzamelde data in de (bio-)medische literatuur is cruciaal [31](#page=31).
### 1.2 Wat is statistiek?
Statistiek omvat het proces van het trekken van conclusies over een populatie, gebaseerd op gegevens verzameld uit een willekeurige steekproef [36](#page=36).
#### 1.2.1 Voorbeeld: Captopril-data
Een dataset van 15 hypertensieve patiënten bevat bloeddrukmetingen vóór en na behandeling met Captopril. De onderzoeksvraag is hoe de behandeling de bloeddruk beïnvloedt [33](#page=33).
> **Voorbeeld:** De dataset 'Captopril' bevat systolische en diastolische bloeddrukwaarden (SBP en DBP) voor 15 patiënten, zowel vóór als na de behandeling. Gemiddelden van de metingen tonen een daling van de diastolische bloeddruk van 112.3 naar 103.1 mm Hg en van de systolische bloeddruk van 176.9 naar 158.0 mm Hg [34](#page=34).
Het is van belang om te bepalen hoe waarschijnlijk de waargenomen veranderingen in bloeddruk door puur toeval zijn ontstaan. Als dit zeer onwaarschijnlijk is, bieden de data bewijs dat de bloeddruk inderdaad daalt na behandeling met Captopril. Anders leveren de data geen bewijs voor de effectiviteit [35](#page=35).
#### 1.2.2 Populatie versus willekeurige steekproef
* **Populatie:** Een hypothetische groep van huidige en toekomstige subjecten met een specifieke aandoening, waarover conclusies getrokken moeten worden [38](#page=38).
* **Steekproef:** Een subgroep uit de populatie waarop observaties worden gedaan [38](#page=38).
Om effecten die in de steekproef zijn waargenomen, te kunnen generaliseren naar de totale populatie, moet de steekproef willekeurig worden getrokken [38](#page=38).
> **Tip:** De koppeling tussen de steekproef en de populatie waarover conclusies getrokken worden, is essentieel voor valide inferentiële statistiek [40](#page=40).
#### 1.2.3 Willekeurige variabiliteit
Willekeurige variabiliteit verwijst naar de natuurlijke schommelingen die optreden in gegevens, zelfs in afwezigheid van een behandelingseffect [32](#page=32).
### 1.3 Het doel van statistiek
Het doel van statistiek is tweeledig [39](#page=39):
* **Beschrijvende statistiek:** Het samenvatten en beschrijven van waargenomen data zodanig dat de relevante aspecten expliciet worden gemaakt [39](#page=39).
> **Voorbeeld:** Voorbeelden van beschrijvende statistiek zijn tabellen, grafieken en de berekening van gemiddelden [40](#page=40).
* **Inferentiële statistiek:** Het bestuderen van de mate waarin waargenomen trends of effecten gegeneraliseerd kunnen worden naar een algemene (oneindige) populatie [39](#page=39).
Valide inferentiële statistiek vereist de juiste statistische methodologie en de correcte interpretatie van resultaten [40](#page=40).
* * *
# Samenvattende statistieken en inferentie
Dit hoofdstuk introduceert de concepten van samenvattende statistieken, die worden gebruikt om data te beschrijven, en de basisprincipes van statistische inferentie, zoals betrouwbaarheidsintervallen en hypothesetoetsen, om conclusies te trekken over populaties op basis van steekproeven [41](#page=41).
### 6.1 Inleiding
Samenvattende statistieken helpen bij het beschrijven van de belangrijkste kenmerken van een dataset, zoals de locatie en spreiding van observaties [42](#page=42).
### 6.2 Maatstaven voor locatie
Maatstaven voor locatie geven aan waar de observaties zich bevinden in een dataset [43](#page=43).
#### 6.2.1 Steekproefgemiddelde (sample mean)
Het steekproefgemiddelde is de som van alle observaties gedeeld door het aantal observaties [43](#page=43). $$ \\bar{x} = \\frac{\\sum\_{i=1}^{n} x\_i}{n} $$ Het gemiddelde is zeer gevoelig voor uitschieters (outliers) [45](#page=45).
#### 6.2.2 Steekproefmediaan (sample median)
De steekproefmediaan is de middelste observatie in een gesorteerde dataset. Bij een even aantal observaties is het de gemiddelde waarde van de twee middelste observaties. De mediaan is minder gevoelig voor uitschieters dan het gemiddelde [44](#page=44) [45](#page=45).
#### 6.2.3 Steekproefmodus (sample mode)
De steekproefmodus is de waarde die het vaakst voorkomt in een dataset. De modus is niet altijd informatief [44](#page=44).
#### 6.2.4 Vergelijking van gemiddelde en mediaan
Bij symmetrische data zijn het gemiddelde en de mediaan gelijk. Bij scheve data kunnen ze verschillen. Het gemiddelde kan sterk beïnvloed worden door extreme waarden, waardoor de mediaan soms een betere indicatie geeft van de centrale tendens [46](#page=46) [47](#page=47).
> **Tip:** Bij scheve data geven het gemiddelde en de mediaan verschillende, complementaire informatie. Overweeg de mediaan als uitschieters een sterke invloed hebben op het gemiddelde [47](#page=47).
> **Voorbeeldvraag:** Welke bewering is juist? A. Het gemiddelde is altijd gelijk aan de mediaan. B. Het gemiddelde is altijd groter dan de mediaan. C. Het gemiddelde is altijd kleiner dan de mediaan. D. Het gemiddelde kan groter, kleiner of gelijk zijn aan de mediaan. **Antwoord:** D [49](#page=49) [50](#page=50).
### 6.3 Maatstaven voor spreiding
Maatstaven voor spreiding beschrijven hoe gelijk de observaties zijn binnen een dataset [51](#page=51) [52](#page=52).
#### 6.3.1 Gemiddelde deviatie van het gemiddelde
Dit is het gemiddelde van de absolute verschillen tussen elke observatie en het gemiddelde, maar de directe berekening van de gemiddelde afwijking is nul [53](#page=53).
#### 6.3.2 Gemiddelde kwadratische deviatie van het gemiddelde
Dit is het gemiddelde van de gekwadrateerde verschillen tussen elke observatie en het gemiddelde. De eenheden hiervan zijn de gekwadrateerde eenheden van de originele data [53](#page=53). $$ \\frac{1}{n} \\sum\_{i=1}^{n} (x\_i - \\bar{x})^2 $$
#### 6.3.3 Steekproefvariantie (sample variance)
De steekproefvariantie wordt berekend door de som van de gekwadrateerde afwijkingen van het gemiddelde te delen door $n-1$. Dit resulteert in een schatter met eenheden in het kwadraat [54](#page=54). $$ s^2 = \\frac{1}{n-1} \\sum\_{i=1}^{n} (x\_i - \\bar{x})^2 $$
#### 6.3.4 Steekproefstandaarddeviatie (sample standard deviation)
De steekproefstandaarddeviatie is de vierkantswortel van de steekproefvariantie en heeft dezelfde eenheden als de originele observaties [54](#page=54). $$ s = \\sqrt{\\frac{1}{n-1} \\sum\_{i=1}^{n} (x\_i - \\bar{x})^2} $$
#### 6.3.5 Steekproefbereik (sample range)
Het steekproefbereik is het verschil tussen de maximum en minimum observatie in de steekproef. Het bereik is sterk afhankelijk van de steekproefgrootte [55](#page=55).
#### 6.3.6 Interkwartielafstand (IQR)
De interkwartielafstand is het bereik van de middelste 50% van de data, na het verwijderen van de 25% laagste en 25% hoogste waarden. De IQR is minder gevoelig voor uitschieters en minder afhankelijk van de steekproefgrootte dan het bereik [55](#page=55) [56](#page=56). Voor de dataset 1, 3, 3, 4, 5, 14 is de IQR: 1, 3, 3, 4, 5, 14 $\\rightarrow$ 3, 3, 4, 5 $\\rightarrow$ IQR = 5 - 3 = 2 [55](#page=55).
#### 6.3.7 Gevoeligheid voor uitschieters
De variantie, standaarddeviatie en het bereik zijn zeer gevoelig voor uitschieters. De IQR is daarentegen robuuster [56](#page=56).
> **Tip:** Bij scheve data kan de standaarddeviatie sterk worden beïnvloed door uitschieters. De interkwartielafstand geeft dan vaak een beter beeld van de spreiding [57](#page=57).
> **Belangrijk:** Standaarddeviaties vormen de basis voor de constructie van betrouwbaarheidsintervallen [58](#page=58).
### 6.4 Percentages
Bij binaire variabelen (bijv. afwezig of aanwezig, ja of nee) kan het gemiddelde van de 0- en 1-scores geïnterpreteerd worden als de proportie of het percentage van de categorie '1'. De variantie voor een dergelijke variabele kan worden berekend als $s^2 = \\frac{n}{n-1} \\bar{x}(1 - \\bar{x})$. Vaak wordt enkel het gemiddelde (proportie) gerapporteerd, omdat de spreiding hieruit afgeleid kan worden [60](#page=60) [61](#page=61) [62](#page=62).
### 6.5 Voorbeeld uit de biomedische literatuur
Een voorbeeld uit de literatuur toont de samenvatting van data met gemiddelden en standaarddeviaties, medianen en IQRs, en percentages [63](#page=63).
### 7 Betrouwbaarheidsintervallen en hypothesetoetsing
Dit hoofdstuk behandelt de concepten van willekeurige variabiliteit, betrouwbaarheidsintervallen, hun interpretatie, en hypothesetoetsing als methoden voor statistische inferentie [64](#page=64).
#### 7.1 Willekeurige variabiliteit
Willekeurige variabiliteit verwijst naar de natuurlijke verschillen die optreden tussen individuen of metingen, zelfs onder identieke omstandigheden. Een steekproefgemiddelde is een schatting van het populatiegemiddelde en zal variëren tussen verschillende steekproeven. Het is belangrijk om te bepalen of een waargenomen effect groot genoeg is om niet aan willekeurige variabiliteit toe te schrijven [65](#page=65) [66](#page=66) [67](#page=67).
#### 7.2 Het betrouwbaarheidsinterval
Een betrouwbaarheidsinterval (CI) is een interval rondom een steekproefschatting dat waarschijnlijk het ware populatieparameter bevat [69](#page=69).
##### 7.2.1 Vertrouwensniveau (confidence level)
Het vertrouwensniveau, bijvoorbeeld 95%, geeft aan hoe vaak een interval, berekend uit herhaaldelijk getrokken steekproeven, het ware populatieparameter zou bevatten. In de biomedische wetenschappen wordt vaak een 95% vertrouwensniveau gebruikt [70](#page=70).
##### 7.2.2 Lengte van het betrouwbaarheidsinterval
De lengte van een CI neemt toe met het vertrouwensniveau (hogere zekerheid vereist een breder interval) en af met de steekproefgrootte (meer data leidt tot een preciezere schatting). Een 100% CI is niet informatief omdat het het gehele bereik van mogelijke waarden omvat [71](#page=71) [72](#page=72).
> **Tip:** Idealiter zijn betrouwbaarheidsintervallen klein, wat duidt op een precieze schatting van de populatieparameter [70](#page=70).
#### 7.3 Interpretatie van het betrouwbaarheidsinterval
Voor een specifieke dataset bevat het berekende betrouwbaarheidsinterval het ware populatieparameter µ wel of niet. Echter, met een 95% vertrouwensniveau is er een 95% kans dat het interval µ bevat [73](#page=73) [74](#page=74).
#### 7.4 Hypothesetoetsing
Hypothesetoetsing is een procedure om te bepalen of er voldoende bewijs is om een nulhypothese (bijv. geen effect van een behandeling) te verwerpen ten gunste van een alternatieve hypothese [75](#page=75) [76](#page=76).
##### 7.4.1 Nulhypothese (H0) en Alternatieve hypothese (HA)
De nulhypothese stelt dat er geen effect is (bijv. $\\mu = 0$), terwijl de alternatieve hypothese stelt dat er wel een effect is ($\\mu \\neq 0$). De nulhypothese wordt verworpen als de waargenomen steekproefstatistiek 'te ver' van de waarde onder de nulhypothese ligt [77](#page=77).
##### 7.4.2 P-waarde
De p-waarde is de waarschijnlijkheid om een resultaat te observeren dat minstens zo extreem is als het waargenomen resultaat, aannemende dat de nulhypothese waar is. Een kleine p-waarde (bijv. $p < 0.001$) suggereert dat het waargenomen resultaat onwaarschijnlijk is onder de nulhypothese, wat leidt tot verwerping ervan [78](#page=78) [79](#page=79).
##### 7.4.3 Significantieniveau (α)
Het significantieniveau (α) is een vooraf bepaalde drempelwaarde. Als de p-waarde kleiner is dan α, wordt de nulhypothese verworpen. In de biomedische wetenschappen is $\\alpha = 0.05$ (5%) een gebruikelijke waarde [80](#page=80).
> **Tip:** Een kleine p-waarde is een indicatie van extreme resultaten indien H0 waar zou zijn. Een grote p-waarde geeft aan dat de waargenomen resultaten in lijn zijn met wat verwacht mag worden als H0 waar is [79](#page=79).
#### 7.5 Hypothesetoetsing versus betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen en hypothesetoetsen bieden vergelijkbare conclusies wanneer de niveaus complementair zijn (bijv. 95% CI en $\\alpha = 0.05$). Een 95% CI sluit 0 uit als de nulhypothese ($\\mu = 0$) verworpen wordt. Betrouwbaarheidsintervallen hebben de voorkeur omdat ze naast significantie ook inzicht geven in de effectgrootte en precisie van de schatting [81](#page=81) [82](#page=82) [83](#page=83) [84](#page=84).
> **Tip:** Betrouwbaarheidsintervallen worden over het algemeen geprefereerd boven puur statistische tests omdat ze een indicatie geven van de effectgrootte en de precisie van de schatting [84](#page=84).
#### 7.6 Meer inzicht in hypothesetoetsing
* **Type I fout:** De kans op het onterecht verwerpen van de nulhypothese wanneer deze waar is, is gelijk aan $\\alpha$ [86](#page=86).
* De interpretatie van p-waarden kan complex zijn en leiden tot misverstanden, wat de voorkeur voor betrouwbaarheidsintervallen verklaart [87](#page=87).
* Resultaten moeten zowel significant (niet door toeval verklaarbaar) als relevant (klinisch of praktisch belangrijk) zijn om betekenisvol te zijn [87](#page=87).
#### 7.7 Voorbeeld uit de biomedische literatuur
In de literatuur worden vaak tweezijdige tests en een significantieniveau van 5% gebruikt. Tabellen kunnen betrouwbaarheidsintervallen voor verschillen tussen gemiddelden en medianen tonen, samen met de corresponderende significantietests [88](#page=88) [89](#page=89).
#### 7.8 Overzicht en wiskundige achtergrond
Dit gedeelte legt de relatie uit tussen standaarddeviatie, standaardfout, p-waarden en betrouwbaarheidsintervallen, uitgaande van een normaal verdeelde populatie $X \\sim N(\\mu, \\sigma^2)$ [90](#page=90) [91](#page=91).
##### 7.8.1 Standaarddeviatie vs. Standaardfout
* $\\sigma^2$ en $\\sigma$ zijn de theoretische populatievariantie en standaarddeviatie [91](#page=91).
* Voor een steekproef $X\_1,..., X\_n$ met $X\_i \\sim N(\\mu, \\sigma^2)$, volgt het steekproefgemiddelde $\\bar{X}$ een normale verdeling met een variantie van $\\frac{\\sigma^2}{n}$ [93](#page=93).
* De $\\frac{\\sigma}{\\sqrt{n}}$ is de theoretische standaardfout (SE) van het gemiddelde [93](#page=93).
* De schatter voor de populatiestandaarddeviatie $\\sigma$ is de steekproefstandaarddeviatie $s$ [93](#page=93).
* Het betrouwbaarheidsinterval voor $\\mu$ wordt vaak geschat als: $$ \\left\[ \\bar{x} - 1.96 \\cdot \\frac{s}{\\sqrt{n}}; \\bar{x} + 1.96 \\cdot \\frac{s}{\\sqrt{n}} \\right $$ Een geronde versie gebruikt 2 maal de standaardfout: $$ \\left\[ \\text{gemiddelde} - 2 \\times \\text{standaardfout}; \\text{gemiddelde} + 2 \\times \\text{standaardfout} \\right $$[95](#page=95) [96](#page=96).
##### 7.8.2 Relatie met hypothesetoetsing
De nulhypothese ($\\mu = \\mu\_0$) wordt verworpen als de geschatte waarde ver van $\\mu\_0$ ligt, rekening houdend met de standaardfout [97](#page=97) [98](#page=98).
#### 7.9 Formele benadering van hypothesetoetsing
De teststatistiek Z wordt berekend als: $$ Z = \\frac{\\bar{X} - \\mu\_0}{\\sigma\\sqrt{n}} $$ Deze volgt een standaard normale verdeling $N(0,1)$ onder de nulhypothese [99](#page=99).
* De tweezijdige p-waarde is de kans op een Z-waarde die extremer is dan de waargenomen Z [100](#page=100). $$ p = 2 \\cdot \\frac{1}{\\sqrt{2\\pi}} \\int\_{|Z|}^{\\infty} e^{-\\frac{1}{2}x^2} dx $$
* Wanneer $\\sigma$ onbekend is en geschat wordt met $s^2$, volgt de teststatistiek een t-verdeling in plaats van een normale verdeling, vooral bij kleinere steekproeven .
* Voor grote steekproeven benadert de t-verdeling de normale verdeling, dankzij de wet van de grote aantallen .
* * *
# Analyse van categorische data met contingency tabellen
Dit hoofdstuk introduceert methoden voor het analyseren van categorische data, met een focus op contingency tabellen, waaronder de chi-kwadraattoets, Fisher's exacte test, en McNemar's test voor matched pairs.
### 3.1 Introductie tot categorische data en contingency tabellen
Categorische data worden geanalyseerd met behulp van methoden die kunnen worden onderverdeeld in parametrische en non-parametrische methoden. Parametrische methoden, zoals de t-test, gaan uit van een specifieke verdeling voor de data, bijvoorbeeld een normale verdeling met parameters $\\mu$ en $\\sigma^2$ die geschat moeten worden uit de data. Non-parametrische methoden maken geen aannames over de dataverdeling of gaan uit van een verdeling zonder te schatten parameters .
Een contingency tabel is een tabel die de frequentieverdeling van twee of meer categorische variabelen weergeeft. Deze tabellen worden gebruikt om associaties of verbanden tussen deze variabelen te onderzoeken .
#### 3.1.1 Voorbeelden van contingency tabellen
* **Voorbeeld 1 (2x2 tabel):** Een studie met experimentele dieren die tot een controlegroep of behandelde groep behoren, en een testresultaat dat positief of negatief is .
ResponsMislukkingSuccesGroep Control55Experimenteel55
Als de aantallen gelijk zijn, is er geen statistische analyse nodig .
* **Voorbeeld 2 (2x2 tabel):** Een extreem geval waarbij de verschillen direct duidelijk zijn.
ResponsMislukkingSuccesGroep Control500Experimenteel0500
Hier is geen statistische analyse nodig .
* **Voorbeeld 3 (2x2 tabel):** Een situatie waar de beslissing over significantie niet direct duidelijk is, wat een formele testprocedure vereist.
ResponsMislukkingSuccesGroep Control82Experimenteel55
Hier is een verschil in responspercentages (20% succes in controlegroep, 50% succes in experimentele groep), maar het is onduidelijk of dit door willekeurige ruis of een systematisch verschil komt .
### 3.2 De chi-kwadraat ($\\chi^2$) test voor contingency tabellen
De chi-kwadraattoets is een methode om te toetsen of er een associatie bestaat tussen twee categorische variabelen in een contingency tabel .
#### 3.2.1 De $\\chi^2$ test statistiek
De formule voor de $\\chi^2$ test statistiek is: $$X^2 = \\sum\_{i=1}^{r} \\sum\_{j=1}^{c} \\frac{(O\_{ij} - E\_{ij})^2}{E\_{ij}}$$ waarbij:
* $O\_{ij}$ de geobserveerde frequentie is in cel $(i,j)$ .
* $E\_{ij}$ de verwachte frequentie is in cel $(i,j)$ onder de nulhypothese van onafhankelijkheid .
* $r$ het aantal rijen is en $c$ het aantal kolommen is .
#### 3.2.2 Berekening van verwachte frequenties ($E\_{ij}$)
Onder de nulhypothese ($H\_0$) dat de variabelen onafhankelijk zijn, kan de verwachte frequentie voor elke cel worden berekend met de formule: $$E\_{ij} = \\frac{(\\text{rijtotaal}) \\times (\\text{kolomtotaal})}{N}$$ waarbij $N$ het totale aantal observaties is .
#### 3.2.3 Vrijheidsgraden
Voor een $R \\times C$ contingency tabel is het aantal vrijheidsgraden $(R-1)(C-1)$. Voor een 2x2 tabel is dit dus $(2-1)(2-1) = 1$ .
#### 3.2.4 De $\\chi^2$ verdeling
De teststatistiek $X^2$ volgt bij benadering een $\\chi^2$ verdeling met het corresponderende aantal vrijheidsgraden. De $\\chi^2$ verdeling ontstaat uit het kwadraat van onafhankelijke standaard normaal verdeelde variabelen. Er is een familie van $\\chi^2$ verdelingen, één voor elk aantal vrijheidsgraden ($k$), genoteerd als $\\chi^2\_k$ .
#### 3.2.5 Continuïteitscorrectie
Bij een 2x2 tabel kan een continuïteitscorrectie worden toegepast om de normalle benadering van de binominale verdeling te verbeteren, vooral bij kleine aantallen. Een veelgebruikte correctie is het aftrekken van 0.5 van de absolute verschillen $|O-E|$ in de teller van de $\\chi^2$ statistiek, of het aftrekken van 0.5 van $\\Delta$ indien $\\Delta = O - E$. De impact van deze correctie neemt af bij grotere steekproeven .
#### 3.2.6 Validiteit van de $\\chi^2$ benadering
De $\\chi^2$ benadering is betrouwbaar wanneer de verwachte cel aantallen voldoende groot zijn. Een algemene vuistregel is dat de verwachte cel aantallen minimaal 5 moeten zijn. Als deze regel niet wordt voldaan, moet de analyse met voorzichtigheid worden geïnterpreteerd of moet een alternatieve methode zoals Fisher's exacte test worden gebruikt .
#### 3.2.7 Confidence Interval voor het verschil in proporties
Voor een 2x2 tabel kan een betrouwbaarheidsinterval voor het verschil tussen twee proporties ($\\hat{p}\_I - \\hat{p}{II}$) worden berekend met de formule : $$CI = (\\hat{p}\_I - \\hat{p}{II}) \\pm Z \\sqrt{\\frac{\\hat{p}\_I\\hat{q}\_I}{N\_I} + \\frac{\\hat{p}{II}\\hat{q}{II}}{N\_{II}}}$$ waarbij $Z$ de kritieke waarde van de normale verdeling is (bijvoorbeeld 1.96 voor $\\alpha = 0.05$) .
### 3.3 Fisher's exacte test
Fisher's exacte test is een non-parametrische methode die wordt gebruikt voor 2x2 contingency tabellen, met name wanneer de verwachte cel aantallen klein zijn (kleiner dan 5) .
#### 3.3.1 Principe van Fisher's exacte test
Bij Fisher's exacte test worden de marginale totalen van de tabel als vast beschouwd. De test berekent de waarschijnlijkheid van de geobserveerde configuratie en alle configuraties die extremer zijn, gegeven de marginale totalen en de nulhypothese van onafhankelijkheid .
De kans om een specifieke configuratie (A, B, C, D) te observeren, gegeven de marginale condities, wordt berekend met de hypergeometrische verdeling : $$p(A,B,C,D) = \\frac{(A+B)!(C+D)!(A+C)!(B+D)!}{N!A!B!C!D!}$$ De p-waarde wordt verkregen door de waarschijnlijkheden van alle extreemere tabellen (waarbij de geobserveerde cel $A$ kleiner of gelijk is aan de geobserveerde $A$, en de andere cellen dienovereenkomstig aangepast worden om de marginale totalen te behouden) op te tellen .
#### 3.3.2 Toepassing
Fisher's exacte test is betrouwbaarder dan de $\\chi^2$ test bij kleine verwachte cel aantallen, hoewel computationeel complexer bij grote steekproeven .
### 3.4 R x C contingency tabellen
Voor situaties met meer dan twee categorieën in één of beide variabelen (R rijen en C kolommen, $R \\times C$ tabellen), wordt de $\\chi^2$ test uitgebreid .
#### 3.4.1 De $\\chi^2$ test voor R x C tabellen
De $\\chi^2$ test statistiek voor een $R \\times C$ tabel is: $$X^2 = \\sum\_{i=1}^{R} \\sum\_{j=1}^{C} \\frac{(O\_{ij} - E\_{ij})^2}{E\_{ij}}$$ De verwachte frequenties $E\_{ij}$ worden berekend op dezelfde manier als voor 2x2 tabellen: $E\_{ij} = \\frac{(\\text{rijtotaal}) \\times (\\text{kolomtotaal})}{N}$ .
Het aantal vrijheidsgraden voor een $R \\times C$ tabel is $(R-1)(C-1)$. De validiteit van de $\\chi^2$ benadering vereist ook hier dat de verwachte cel aantallen minimaal 5 zijn .
#### 3.4.2 Voorbeeld van een 2x3 tabel
Bij het analyseren van de relatie tussen "Behandeling" (2 niveaus) en "Ernst" (3 niveaus), wordt de $\\chi^2$ test met $(2-1)(3-1) = 2$ vrijheidsgraden toegepast .
### 3.5 Mantel-Haenszel statistic
De Mantel-Haenszel (of Cochran-Mantel-Haenszel) statistic wordt gebruikt om de associatie tussen twee categorische variabelen te toetsen, rekening houdend met een derde categorische variabele die als stratificatievariabele fungeert .
#### 3.5.1 Het principe
De nullhypothese is dat er geen associatie is tussen de twee variabelen, rekening houdend met de stratificatie. De statistic combineert de resultaten van afzonderlijke 2x2 tabellen voor elke stratum .
De (Cochran-)Mantel-Haenszel statistic is: $$Q\_{MH} = \\frac{\\left\[ \\sum\_{s=1}^{k} n\_{s1+}(p\_{s11} - p\_{s21}) \\right\]^2}{\\sum\_{s=1}^{k} v\_{s11}}$$ waarbij $k$ het aantal strata is, $n\_{s1+}$ en $n\_{s2+}$ de marginale totalen voor de rijen binnen stratum $s$ zijn, $p\_{s11}$ en $p\_{s21}$ de proporties in de eerste kolom per stratum zijn, en $v\_{s11}$ de variantie term per stratum is .
Deze teststatistiek volgt een $\\chi^2\_1$ verdeling .
### 3.6 Matched Pairs: McNemar's Test
McNemar's test is specifiek ontworpen voor de analyse van 2x2 contingency tabellen met matched pairs data, waarbij elke proefpersoon aan beide condities wordt blootgesteld en als eigen controle dient .
#### 3.6.1 Toepassing van McNemar's test
De tabel voor McNemar's test ziet eruit als een standaard contingency tabel, maar de interpretatie is anders. De cellen vertellen iets over de paren van reacties :
* Concordante paren: Reacties zijn hetzelfde voor beide tests (bijv. +, + en -, -).
* Discordante paren: Reacties verschillen voor de twee tests (bijv. +, - en -, +).
De nullhypothese stelt dat beide tests dezelfde succeskans hebben ($p\_A = p\_B$). Bij gelijke kansen zouden de aantallen in de discordante cellen ongeveer gelijk moeten zijn .
#### 3.6.2 De test statistiek
McNemar's test focust op de discordante paren. De teststatistiek wordt berekend als: $$Z = \\frac{|\\text{aantal discordante paren met A+, B- } - \\text{aantal discordante paren met A-, B+ }|}{\\sqrt{\\text{totaal aantal discordante paren}}}$$ Een alternatieve formulering is gegeven als: $$Z = \\frac{\\left| \\frac{n\_{A+,B-}}{n\_{A+,B-}+n\_{A-,B+}} - 0.5 \\right| - 0.5}{\\sqrt{\\frac{1}{4(n\_{A+,B-}+n\_{A-,B+})}}}$$ of meer algemeen $$Z = \\frac{\\left| \\frac{\\text{observatie } (+,-) - \\text{ observatie } (-,+)}{\\text{observatie } (+,-) + \\text{observatie } (-,+)} - 0.5 \\right|}{ \\frac{1}{2}\\sqrt{\\frac{1}{n\_{(+,-)}+n\_{(-,+)} }} } $$ Er wordt vaak een benadering gebruikt met de normale verdeling: $$Z = \\frac{\\left| \\frac{N\_{(+,-)} - N\_{(-,+)}}{N\_{(+,-)} + N\_{(-,+)} } \\right| - 1}{\\sqrt{\\frac{1}{N\_{(+,-)}+N\_{(-,+)} } }}$$ Met $N\_{(+,-)}$ en $N\_{(-,+)}$ de aantallen in de discordante cellen. De teststatistiek volgt een $Z$\-verdeling (standaard normaal). In het voorbeeld wordt de formule correcter weergegeven door het absolute verschil tussen de discordante cellen te relateren aan hun som : $$Z = \\frac{\\left| \\frac{9 - 6}{9+6} - 0.5 \\right|}{\\sqrt{\\frac{1}{9+6}}} = \\frac{\\left| \\frac{3}{15} - 0.5 \\right|}{\\sqrt{\\frac{1}{15}}} = \\frac{|0.2 - 0.5|}{\\sqrt{1/15}} = \\frac{0.3}{\\sqrt{1/15}} = 0.3 \\times \\sqrt{15} \\approx 1.16 $$ De documentatie geeft de volgende formule : $$Z = \\frac{\\left| \\frac{9}{9+6} - 0.5 \\right|}{\\sqrt{\\frac{1}{60}}} = \\frac{|0.6 - 0.5|}{1/\\sqrt{60}} = \\frac{0.1}{1/\\sqrt{60}} = 0.1 \\times \\sqrt{60} \\approx 0.7746$$ De documentatie geeft een iets andere berekening : $$Z = \\frac{\\left| \\frac{9}{9+6} - 0.5 \\right|}{\\sqrt{\\frac{1}{60}}} = 0.7303 < 1.96$$ Dit geeft een niet-significante uitkomst.
### 3.7 Associatiemaatstaven
Naast het toetsen van hypotheses over associatie, is het ook nuttig om de sterkte van de associatie te kwantificeren. Een veelgebruikte maatstaf is de odds ratio, die een benadering is van de relatieve risico. Voor een 2x2 tabel : $$ \\psi = \\frac{A \\times D}{B \\times C} $$ waar A, B, C, D de cel aantallen zijn.
**Tip:** Bij het interpreteren van chi-kwadraat toetsen, controleer altijd of de verwachte cel aantallen voldoen aan de vuistregel van minimaal 5. Zo niet, overweeg dan Fisher's exacte test voor 2x2 tabellen of andere methoden voor grotere tabellen .
* * *
# Regressie en analyse van variantie
Dit deel introduceert lineaire regressie, inclusief de methode van kleinste kwadraten en de interpretatie van regressiecoëfficiënten. Het behandelt ook ANOVA, modeldiagnostiek, en het omgaan met invloedrijke observaties.
### 4.1 Lineaire regressie
Lineaire regressie is een statistische methode om de relatie tussen een afhankelijke variabele (Y) en één of meerdere onafhankelijke variabelen (X) te modelleren met een lineaire vergelijking .
#### 4.1.1 Het lineaire model
Een rechte lijn wordt analytisch beschreven door de vergelijking $y = \\beta\_0 + \\beta\_1x$ .
* $\\beta\_0$ is de **intercept** (snijpunt) en vertegenwoordigt de waarde van $y$ wanneer $x=0$.
* $\\beta\_1$ is de **helling** (slope).
* Als $\\beta\_1 > 0$, is er een positieve relatie: $y$ neemt toe naarmate $x$ toeneemt. Een grotere $\\beta\_1$ betekent een snellere toename van $y$ met $x$.
* Als $\\beta\_1 < 0$, is er een negatieve relatie: $y$ neemt af naarmate $x$ toeneemt. Een kleinere $\\beta\_1$ betekent een snellere afname van $y$ met $x$.
Het praktische doel is om de parameters $\\beta\_0$ en $\\beta\_1$ te schatten op basis van verzamelde data $(x\_i, y\_i)$ .
#### 4.1.2 De methode van kleinste kwadraten
Om $\\beta\_0$ en $\\beta\_1$ te schatten, wordt de methode van kleinste kwadraten gebruikt. Deze methode bepaalt de rechte lijn die het best past bij de geobserveerde datapunten door de som van de gekwadrateerde verticale afstanden tussen de datapunten en de lijn te minimaliseren .
De te minimaliseren functie $Q$ is: $$ Q = \\sum\_{i} \[y\_i - \\hat{y}\_i\]^2 = \\sum{i} \[y\_i - (\\beta\_0 + \\beta\_1x\_i)\]^2 $$
De schatters voor $\\beta\_0$ en $\\beta\_1$ worden gegeven door: $$ \\hat{\\beta}\_1 = \\frac{\\sum{i} (x\_i - \\bar{x})(y\_i - \\bar{y})}{\\sum\_{i} (x\_i - \\bar{x})^2} $$$$ \\hat{\\beta}\_0 = \\bar{y} - \\hat{\\beta}\_1\\bar{x} $$ Hierbij zijn $\\bar{x}$ en $\\bar{y}$ de gemiddelden van $x$ en $y$ respectievelijk .
* $\\hat{\\beta}\_0$ en $\\hat{\\beta}\_1$ worden de **kleinste kwadraten schatters** genoemd.
* De lijn $y = \\hat{\\beta}\_0 + \\hat{\\beta}\_1x$ wordt de **regressielijn** genoemd.
* De voorspelde waarden zijn $\\hat{y}\_i = \\hat{\\beta}\_0 + \\hat{\\beta}\_1x\_i$.
* De **residuen** ($e\_i$) zijn de verschillen tussen de geobserveerde en voorspelde waarden: $e\_i = y\_i - \\hat{y}\_i = y\_i - (\\hat{\\beta}\_0 + \\hat{\\beta}\_1x\_i)$ .
> **Tip:** Residuen geven aan hoe goed de regressielijn de data beschrijft. Een positief residu betekent dat het geobserveerde punt boven de regressielijn ligt, een negatief residu dat het eronder ligt, en een nul-residu dat het punt op de lijn ligt .
Het is een eigenschap van de kleinste kwadraten methode dat de som van de residuen altijd nul is ($\\sum\_{i} e\_i = 0$) (#page=325, 327) .
#### 4.1.3 Residuen ($e\_i$) versus Fouten ($\\varepsilon\_i$)
In het algemene lineaire regressiemodel $Y\_i = \\beta\_0 + \\beta\_1x\_i + \\varepsilon\_i$ zijn $\\beta\_0$ en $\\beta\_1$ de populatieparameters en $\\varepsilon\_i$ de foutterm met een bepaalde verdeling (bv. $\\varepsilon\_i \\sim N(0, \\sigma^2)$) . De residuen ($e\_i$) zijn de geschatte waarden van de fouten ($\\varepsilon\_i$) (#page=328, 342) .
KwantiteitPopulatieniveauGeschatte waardenIntercept$\\beta\_0$$\\hat{\\beta}\_0$Helling$\\beta\_1$$\\hat{\\beta}\_1$Fout/residu$\\varepsilon\_i$$e\_i$
#### 4.1.4 Interpretatie van regressiecoëfficiënten
De geschatte regressielijn ($y = \\hat{\\beta}\_0 + \\hat{\\beta}\_1x$) wordt gebruikt om de relatie tussen de variabelen te interpreteren \[330-332\](#page=330, 331, 332).
* De **intercept ($\\hat{\\beta}\_0$)** voorspelt de waarde van $Y$ wanneer $X=0$. Dit heeft echter alleen praktische betekenis als $X=0$ een realistische waarde is binnen het bereik van de data.
* De **helling ($\\hat{\\beta}\_1$)** beschrijft de verwachte verandering in $Y$ voor een eenheidsverhoging in $X$. Het is cruciaal om te onthouden dat dit een gemiddelde verandering beschrijft en geen causale relatie in een cross-sectioneel experiment.
> **Tip:** Concludeer nooit dat een verandering van $X$ bij een individuele patiënt direct leidt tot een verandering in $Y$ op basis van een cross-sectionele studie. De interpretatie van $\\beta\_1$ geldt voor groepen .
#### 4.1.5 Statistische inferentie
Statistische inferentie (p-waarden, betrouwbaarheidsintervallen) maakt het mogelijk om uitspraken te doen over de regressielijn in de populatie op basis van een steekproef. Dit vereist aannames over de verdeling van de data .
##### 4.1.5.1 Aannames van het lineaire regressiemodel
Het lineaire regressiemodel maakt de volgende aannames:
1. **Lineariteit**: Voor elke $X$ ligt het gemiddelde van de corresponderende $Y$\-waarden op de regressielijn: $E\[Y\_i = \\beta\_0 + \\beta\_1x\_i$ (#page=342, 380) .
2. **Constant foutenvariantie (homoscedasticiteit)**: De voorspellingsfouten ($\\varepsilon\_i$) hebben een constante variantie ($\\sigma^2$) over alle waarden van $X$. De spreiding van de residuen is gelijk voor kleine en grote $X$\-waarden (#page=342, 380, 394, 396) .
3. **Normaliteit/Symmetrie van de fouten**: De fouten ($\\varepsilon\_i$) zijn normaal verdeeld met gemiddelde 0 en variantie $\\sigma^2$. Voor voldoende grote steekproeven is deze aanname minder kritisch, omdat de schatters asymptotisch normaal verdeeld zijn (#page=338, 342, 380, 401, 404, 410, 417) .
> **Tip:** Wanneer de steekproefomvang groot is, zijn de aannames van normaliteit en constante variantie minder strikt noodzakelijk voor betrouwbare inferenties, dankzij de wet van grote aantallen en centrale limietstellingen (#page=339, 410, 417) .
##### 4.1.5.2 Significantietests voor $\\beta\_0$ en $\\beta\_1$
Hypothesetests worden uitgevoerd om te bepalen of de regressiecoëfficiënten significant verschillen van nul.
* **Test voor de helling ($\\beta\_1$)**: Test of er een lineaire relatie bestaat tussen $X$ en $Y$. De nulhypothese is $H\_0: \\beta\_1 = 0$ tegen de alternatieve hypothese $H\_A: \\beta\_1 \\neq 0$ (#page=348, 352). Een kleine p-waarde (typisch < 0.05) leidt tot verwerping van $H\_0$, wat aangeeft dat er een significante lineaire relatie is .
* **Test voor de intercept ($\\beta\_0$)**: Test of de intercept significant verschilt van nul ($H\_0: \\beta\_0 = 0$ vs. $H\_A: \\beta\_0 \\neq 0$). Deze test is minder vaak van primair belang in de praktijk .
##### 4.1.5.3 Betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen (bv. 95% CI) geven een bereik van waarden waarbinnen de ware populatieparameter waarschijnlijk ligt. Als een betrouwbaarheidsinterval voor $\\beta\_1$ nul niet bevat, is dit een indicatie dat $\\beta\_1$ significant verschilt van nul .
#### 4.1.6 De ANOVA-tabel en R-kwadraat
De ANOVA-tabel deelt de totale variabiliteit in de afhankelijke variabele op in delen die verklaard worden door het model en delen die onverklaard blijven (residuen).
* **Totaal kwadratensom (SSTO)**: $\\sum\_{i} \[y\_i - \\bar{y}\]^2$. De totale variabiliteit in $Y$ .
* **Regressie kwadratensom (SSR)**: $\\sum\_{i} \[\\hat{y}\_i - \\bar{y}\]^2$. De variabiliteit in $Y$ die verklaard wordt door het regressiemodel (#page=356, 357) .
* **Fout kwadratensom (SSE)**: $\\sum\_{i} \[y\_i - \\hat{y}\_i\]^2 = \\sum{i} e\_i^2$. De onverklaarde variabiliteit (residuen) (#page=355, 357) .
De relatie is: $SSTO = SSE + SSR$ .
**R-kwadraat ($R^2$)** is de proportie van de totale variabiliteit in $Y$ die verklaard wordt door de onafhankelijke variabele(n) $X$ . $$ R^2 = \\frac{SSR}{SSTO} $$
* $0 \\leq R^2 \\leq 1$.
* $R^2 = 0$ betekent dat het model geen enkele variabiliteit verklaart (horizontale regressielijn, $\\hat{\\beta}\_1 = 0$).
* $R^2 = 1$ betekent dat het model alle variabiliteit verklaart (alle punten liggen op de regressielijn).
* $R^2$ is gelijk aan het kwadraat van de Pearson-correlatiecoëfficiënt ($r$) tussen $X$ en $Y$ in eenvoudige lineaire regressie ($R^2 = r^2$) (#page=358, 365) .
> **Tip:** $R^2$ geeft de relevantie van het model aan (hoeveel variabiliteit verklaard wordt). De significantietest voor $\\beta\_1$ geeft aan of het effect significant is (niet door toeval veroorzaakt) \[360-363\](#page=360, 361, 362, 363). Een hoge $R^2$ en een kleine p-waarde duiden op een relevante én significante relatie.
#### 4.1.7 Transformaties in regressie
Soms is de relatie tussen variabelen niet lineair. Transformaties van de afhankelijke (Y) of onafhankelijke (X) variabelen kunnen helpen om een lineaire relatie te verkrijgen of de modelaannames te verbeteren (#page=343, 387, 391, 406, 415) .
* Voorbeelden van transformaties van $X$: $\\ln(X)$, $\\sqrt{X}$, $1/X$.
* Voorbeelden van transformaties van $Y$: $\\ln(Y)$, $\\sqrt{Y}$, $1/Y$.
> **Let op:** Transformaties kunnen de interpretatie van de regressiecoëfficiënten compliceren en de aannames van lineariteit en constante variantie beïnvloeden. Het is cruciaal om de modelaannames opnieuw te controleren na een transformatie (#page=391, 392, 416) .
### 4.2 Modeldiagnostiek
Modeldiagnostiek omvat het controleren van de aannames van het regressiemodel.
#### 4.2.1 De aanname van lineariteit
Lineariteit kan visueel worden beoordeeld door de residuen ($e\_i$) uit te zetten tegen de voorspelde waarden ($\\hat{y}\_i$) of tegen de onafhankelijke variabele ($x\_i$) (#page=380, 386) .
* Als de aanname van lineariteit geldig is, liggen de residuen symmetrisch rond nul voor alle waarden van $X$.
* Systematische patronen in de residu-plot (bv. een U-vormige curve) duiden op non-lineariteit (#page=380, 385). In zulke gevallen kunnen transformaties van variabelen of het toevoegen van polynomiale termen nodig zijn (#page=387, 390, 391) .
#### 4.2.2 De aanname van constante foutenvariantie (Homoscedasticiteit)
De constante variantie van de fouten kan ook worden gecontroleerd met een scatterplot van de residuen tegen de voorspelde waarden of de onafhankelijke variabele (#page=394, 399) .
* Als de aanname geldig is, is de spreiding van de residuen rond nul consistent over het hele bereik van $X$.
* Een trechtervormige spreiding (variabiliteit neemt toe of af met $X$) wijst op heteroscedasticiteit (niet-constante variantie). Dit kan leiden tot minder precieze schattingen van parameters en verhoogde Type I-fouten. Een gewogen kleinste kwadraten analyse kan hier een oplossing bieden .
#### 4.2.3 De aanname van normaliteit/symmetrie van de fouten
De normaliteit van de fouten ($\\varepsilon\_i$), of equivalent, de residuen ($e\_i$), kan worden gecontroleerd met:
* **Histogrammen van residuen**: Geeft een visuele indruk van de verdeling. Een histogram die lijkt op een normale curve en symmetrisch is rond nul, ondersteunt de aanname (#page=405, 406) .
* **Formal normality tests**: Tests zoals Shapiro-Wilk of Kolmogorov-Smirnov toetsen de nulhypothese dat de data normaal verdeeld zijn (#page=407, 408, 409) .
* Voor grote steekproeven is deze aanname minder kritisch. Kleine afwijkingen van normaliteit zullen dan ook sneller significant worden bevonden, terwijl de inferenties nog steeds valide zijn (#page=410, 417) .
* Asymmetrie in de residuen kan soms worden opgelost met transformaties van de afhankelijke variabele ($Y$) (#page=412, 415) .
> **Belangrijk:** Wanneer de aannames van lineariteit, constante variantie en normaliteit (vooral bij kleine steekproeven) niet voldaan zijn, kunnen de statistische conclusies (p-waarden, betrouwbaarheidsintervallen) onjuist zijn (#page=380, 462, 465) .
### 4.3 Invloedrijke observaties
Invloedrijke observaties zijn datapunten die een onevenredig grote impact hebben op de regressielijn. Niet elke uitschieter is invloedrijk, maar uitschieters moeten altijd zorgvuldig worden onderzocht .
* **Outlier (uitschieter)**: Een observatie die ver weg ligt van de rest van de datapunten.
* **Invloedrijke observatie**: Een observatie waarvan het verwijderen de regressielijn significant verandert.
Een observatie is potentieel invloedrijk als het een outlier is en zich aan de rand van de $X$\-ruimte bevindt .
#### 4.3.1 Cook's distance
Cook's distance ($D\_i$) is een maatstaf die de invloed van de $i$\-de observatie op de regressiecoëfficiënten kwantificeert .
* Grote waarden van $D\_i$ duiden op invloedrijke observaties.
* Het plotten van Cook's distances tegen de observatienummer kan helpen bij het identificeren van invloedrijke punten .
#### 4.3.2 Omgaan met invloedrijke observaties
Bij het identificeren van invloedrijke subjecten, moeten de volgende stappen worden overwogen:
1. **Controleer de correctheid van de data**: Zijn er data-invoerfouten, verwisselingen, etc.? .
2. **Voldoen ze aan de studiecriteria?**: Waren er specifieke redenen waarom deze patiënten geïncludeerd werden die hun invloed kunnen verklaren (bv. bijkomende complicaties)? .
3. **Herhaal de analyse met en zonder de invloedrijke observatie(s)**: Veranderen de resultaten kwalitatief significant? (#page=422, 431, 437) .
Als er geen objectieve redenen zijn voor verwijdering, moeten invloedrijke subjecten behouden blijven. Robuuste regressietechnieken kunnen dan een alternatief zijn omdat ze minder gevoelig zijn voor individuele observaties (#page=433, 439) .
### 4.4 Analyse van variantie (ANOVA)
ANOVA is een statistische techniek die wordt gebruikt om de gemiddelden van drie of meer groepen te vergelijken. Het kan worden gezien als een uitbreiding van de ongepaarde t-toets naar meer dan twee groepen (#page=315, 452, 453) .
#### 4.4.1 1-weg ANOVA
Bij 1-weg ANOVA worden de gemiddelden van een continue afhankelijke variabele (Y) vergeleken tussen twee of meer groepen, gedefinieerd door één categorische onafhankelijke variabele (factor) (#page=315, 453) .
* **Nulhypothese ($H\_0$)**: De gemiddelden van alle groepen zijn gelijk ($\\mu\_1 = \\mu\_2 = ... = \\mu\_r$).
* **Alternatieve hypothese ($H\_A$)**: Minstens twee groepsgemiddelden verschillen.
De test vergelijkt de variabiliteit \_tussen de groepen met de variabiliteit \_binnen de groepen.
##### 4.4.1.1 Kwadratensommen in ANOVA
Net als bij regressie wordt de totale variabiliteit opgedeeld:
* **Totaal kwadratensom (SSTO)**: $\\sum\_{i=1}^{r} \\sum\_{j=1}^{n\_i} \[y\_{ij} - \\bar{y}\_{\\cdot\\cdot}\]^2$. Totale variabiliteit in de data (#page=453, 456) .
* **Binnen-groep kwadratensom (SSwithin)**: $\\sum\_{i=1}^{r} \\sum\_{j=1}^{n\_i} \[y\_{ij} - \\bar{y}\_{i\\cdot}\]^2$. Variabiliteit binnen de groepen (de 'ruis') (#page=453, 456) .
* **Tussen-groep kwadratensom (SSbetween)**: $\\sum\_{i=1}^{r} n\_i\[\\bar{y}\_{i\\cdot} - \\bar{y}{\\cdot\\cdot}\]^2$. Variabiliteit tussen de groepsgemiddelden (het 'signaal') (#page=453, 456) .
De relatie is: $SSTO = SSwithin + SSbetween$ .
##### 4.4.1.2 De F-test in ANOVA
De teststatistiek is de F-ratio, die de ratio van de variabiliteit tussen groepen tot de variabiliteit binnen groepen weergeeft: $$ F = \\frac{SS\_{between} / (r-1)}{SS\_{within} / (N-r)} $$ waar $r$ het aantal groepen is en $N$ de totale steekproefomvang (#page=456, 457) .
* $r-1$ zijn de vrijheidsgraden voor $SS\_{between}$ (dfModel).
* $N-r$ zijn de vrijheidsgraden voor $SS\_{within}$ (dfResidual).
* Een grote F-waarde, gecombineerd met een kleine p-waarde (< 0.05), leidt tot verwerping van de nulhypothese, wat suggereert dat er significante verschillen zijn tussen de groepsgemiddelden .
##### 4.4.1.3 R-kwadraat in ANOVA
Net als bij regressie kan $R^2$ worden berekend om het deel van de variabiliteit in $Y$ te kwantificeren dat verklaard wordt door de groepsindeling: $$ R^2 = \\frac{SS\_{between}}{SSTO} = \\frac{168.60}{168.60 + 500.23} \\approx 0.252 $$ Dit betekent dat 25.2% van de variabiliteit in de ADL-score verklaard kan worden door de woonsituatie vóór de operatie .
#### 4.4.2 Aannames van ANOVA
ANOVA vereist vergelijkbare aannames als lineaire regressie:
1. **Normaliteit/Symmetrie**: De data binnen elke groep zijn normaal verdeeld of de fouten zijn symmetrisch verdeeld (#page=462, 466, 473, 476) .
2. **Constante variantie (Homoscedasticiteit)**: De variantie van de afhankelijke variabele is gelijk in alle groepen ($\\sigma\_1^2 = \\sigma\_2^2 =... = \\sigma\_r^2$) (#page=462, 465, 467, 470, 471) .
Deze aannames worden gecontroleerd met behulp van histogrammen van residuen, formele normaliteitstesten en tests voor gelijke varianties (bv. Levene's test) (#page=469, 472, 474, 475) .
#### 4.4.3 Pairwise t-tests (Post-hoc tests)
Als de globale ANOVA-test significant is, kan het nodig zijn om specifieke groepen met elkaar te vergelijken. Dit kan met pairwise t-tests. Echter, het uitvoeren van meerdere t-tests verhoogt de kans op een Type I-fout (falsch-positief). Daarom zijn er post-hoc methoden die de p-waarden corrigeren (bv. Bonferroni-correctie, hoewel niet expliciet genoemd in de tekst, is dit het principe) om de algehele Type I-foutkans te controleren (#page=451, 452). In het gegeven voorbeeld leidden de pairwise t-tests aan tot het inzicht dat de RH/RCH-groep significant verschilt van de andere twee groepen .
#### 4.4.4 Invloedrijke observaties in ANOVA
Net als bij regressie kunnen individuele observaties de resultaten van ANOVA beïnvloeden. Cook's distance kan worden gebruikt om de invloed van elke observatie op de groepsgemiddelden en de algehele ANOVA-resultaten te beoordelen (#page=477, 478). Observaties met een hoge Cook's distance vereisen nader onderzoek (#page=471, 477) .
### 4.5 Relatie tussen t-test, ANOVA en lineaire regressie
De drie methoden zijn met elkaar verbonden:
* Een ongepaarde t-toets is een speciaal geval van ANOVA met twee groepen.
* ANOVA is een speciaal geval van lineaire regressie.
Dit betekent dat ANOVA en t-toetsen kunnen worden uitgevoerd met regressietechnieken, en vice versa. Lineaire regressie is de meest algemene vorm, waarbij de andere twee kunnen worden geïnterpreteerd als specifieke toepassingen ervan (#page=315, 316) .
* **Ongepaarde t-toets**: Vergelijkt $Y$ tussen twee groepen.
* **ANOVA**: Vergelijkt $Y$ tussen twee of meer groepen.
* **Lineaire regressie**: Onderzoekt de relatie tussen $Y$ en een of meer covariaten (X), die continu, binair, categorisch, of een combinatie daarvan kunnen zijn.
De paired t-test is een speciaal geval voor herhaalde metingen binnen patiënten, die verdergaat naar longitudinale data-analyse.
* * *
# Statistische methoden in drug development
This section details the statistical methodologies crucial for the drug development process, covering clinical trial phases, design principles like randomization and blinding, ethical considerations, and specialized study designs such as cross-over studies and the use of surrogate endpoints.
### 18.1 Drug development and regulatory issues
The drug development process begins with the discovery of a promising molecule, followed by extensive in vitro and in vivo testing to assess its potential for safety and efficacy. Once a company decides to pursue development, several teams take over, and an Investigational New Drug (IND) exemption is filed with regulatory bodies like the Food and Drug Administration (FDA). This filing includes a detailed description of the compound, all preclinical data, and an outline of the initial human studies. The subsequent stages involve conducting Phase I, II, and III clinical studies, culminating in the filing of a New Drug Application (NDA) .
#### 18.1.1 New drug application (NDA)
The NDA is a formal request to the FDA to market a new drug. It requires the submission of all accumulated evidence, including raw data. The FDA may choose to re-analyze the data or conduct additional statistical analyses to ensure the drug's safety and efficacy. The NDA also includes the proposed labeling for the drug, with the overall review process designed to provide a high level of public protection through thorough and timely evaluation .
#### 18.1.2 Studies in humans
All studies involving humans must comply with ethical guidelines, such as the Declaration of Helsinki. This compliance necessitates a rigorous process involving several key documents and precautions :
* A clinical study protocol .
* A statistical analysis plan .
* Documentation of the investigator's education, training, and experience .
* Information about the hospital and other investigational institutions .
* Scrutiny by an independent Institutional Review Board (IRB) .
* **Informed consent:** A written statement detailing the risks and benefits to the patient, which the patient must read, understand, and sign prior to enrollment .
* An external control, often provided by an Independent Data Monitoring Committee (IDMC), also known as a Data and Safety Monitoring Board (DSMB) .
### 18.2 Phases of clinical studies
Clinical studies are typically divided into distinct phases, each with specific objectives.
#### 18.2.1 Phase I
Phase I trials are the first step in testing a drug in humans. They involve a very small sample size and aim to assess how well the drug is tolerated and to determine the Maximum Tolerated Dose (MTD) .
#### 18.2.2 Phase II
Phase II trials investigate whether the drug is active and to determine its rate of adverse events. The success of Phase II depends on adequate Phase I results; if the wrong dose was used in Phase I, it can impact Phase II outcomes. Phase II results serve as crucial input for Phase III planning. These trials often employ staged or sequential designs, where non-promising doses are abandoned early, and promising ones receive more patients than initially planned. Phase II studies differ from Phase III in their inclusion/exclusion criteria and endpoints, often focusing on surrogate measures like tumor response or CD4 counts rather than the ultimate endpoint of survival .
#### 18.2.3 Phase III
Phase III trials are designed to definitively assess the effectiveness of a new drug or intervention. These are the primary clinical trials in the drug development process. Given the relatively short timeframe of Phase III, long-term surveillance for side effects is conducted in Phase IV studies, which typically do not have control groups. Control groups in Phase III trials can consist of a placebo or an active comparator (standard therapy). Randomization is employed to ensure that the groups are comparable, except for the intervention, thereby allowing for causal inference. Sufficient sample sizes are necessary for Phase III trials to yield reliable results. These trials aim to model clinical practice and establish adverse event profiles. An example of the critical importance of Phase III is the Cardiac Arrhythmia Suppression Trial (CAST) in 1989, which revealed that commonly used antiarrhythmic drugs, while reducing arrhythmias, significantly increased overall mortality in patients post-myocardial infarction .
### 18.3 Randomization
Randomization is a cornerstone of clinical trials, ensuring that study groups are comparable with respect to both known and unknown risk factors. It effectively removes investigator bias in participant allocation and guarantees the validity of statistical tests .
**Advantages of randomization:**
* Comparable groups .
* Removes investigator bias in allocation .
* Ensures valid statistical tests .
**Disadvantages of randomization:**
* May result in imbalance by pure chance .
* Less representative of a general population if significant imbalances occur .
#### 18.3.1 Methods of randomization
Randomization procedures can be broadly categorized into fixed allocation and adaptive methods.
* **Fixed allocation randomization:**
* Simple randomization .
* Blocked randomization .
* Stratified randomization .
* **Adaptive randomization procedures:**
* Baseline adaptive randomization procedures .
* Responsive adaptive randomization .
#### 18.3.2 Simple randomization
Simple randomization is the most basic method, akin to drawing balls from an urn or tossing a coin. It is easy to implement but can lead to imbalances between treatment groups due to chance. The proportion of participants assigned to each arm needs to be predetermined (e.g., 1/2, 1/2; 1/3, 1/3, 1/3; or 1/4, 1/4, 1/2) .
#### 18.3.3 Blocked randomization
Blocked randomization assigns treatments in predetermined block sizes (e.g., size 4). Within each block, participants are randomized, typically on a 50-50 basis. This method ensures good balance between treatment groups throughout the trial, preventing prolonged periods of imbalance. Examples of block permutations for a block of size 4 are AABB, ABAB, ABBA, BAAB, BABA, and BBAA .
#### 18.3.4 Stratified randomization
While randomization generally ensures comparable groups, imbalances in key baseline characteristics (e.g., age, sex) can still occur by chance. Stratified randomization addresses this by creating subgroups (strata) based on important baseline characteristics. For example, age groups might be defined as 40–49 years, 50–59 years, 60–69 years; sex as Male, Female; and smoking history as Current smoker, Ex-smoker, Never smoked. Randomization is then performed independently within each stratum. The number of strata can increase rapidly, leading to a more complex design. Adaptive randomization offers an alternative for managing baseline imbalance, although it is more complicated [1](#page=1) [2](#page=2) [3](#page=3) .
### 18.4 Blinding
Blinding is a critical design element in clinical trials to minimize bias during data collection and assessment .
* **Unblinded (Open) trials:** Both the participant and the investigator are aware of the intervention. This is often used for surgical procedures, comparisons of devices, treatment policies, or lifestyle changes. While it can lead to more informed decisions and simpler execution, it is prone to bias .
* **Single-blind trials:** The participant is unaware of the intervention, but the investigator knows. This can reduce patient bias and allow the investigator to better safeguard patient interests, but bias is still possible, though potentially less pronounced .
* **Double-blind trials:** Neither the participant nor the investigator is aware of the intervention. This is the most common design for drug efficacy studies, offering the greatest minimization of bias. However, logistics are more demanding, requiring careful randomization, delegation of certain actions to unblinded personnel, and a clear emergency unblinding procedure. Statisticians should remain as unblinded as possible, and a data-monitoring committee is essential .
* **Triple-blind trials:** In addition to the participant and investigator, the Data Monitoring Committee (DMC) is also unaware of treatment allocation. This design is used to ensure the DMC monitors endpoints impartially, especially when early stopping based on efficacy or futility is considered .
### 18.5 Intention to treat
Data in clinical trials can be incomplete due to various reasons, such as investigators withdrawing patients from treatment, patients withdrawing their consent, or loss to follow-up. The decision of how to handle these patients is crucial .
* **Intention-to-Treat (ITT) principle:** All randomized patients are analyzed in the group to which they were originally assigned, irrespective of adherence to entry criteria, the treatment actually received, or subsequent protocol deviations .
* **Treatment Received (As-treated):** Patients are analyzed according to the treatment they actually received, even if it differs from their randomized assignment .
The ITT principle is widely debated but is generally preferred for its ability to maintain the benefits of randomization and provide a more conservative estimate of treatment effect .
### 18.6 Ethical considerations
A properly designed and conducted clinical trial is ethical, as it answers important public health questions. However, ethical challenges arise when patients might receive inferior treatment or when early trends suggest stopping a trial. The balance between public health benefits and the well-being of an individual patient must be carefully considered .
International Ethical Guidelines for Biomedical Research Involving Human Subjects provide a framework for ethical conduct. Key ethical considerations include :
* **Informed consent:** Essential for all participants. Special considerations apply to vulnerable populations such as minors and comatose patients .
* **Randomization:** Considered a solution rather than a problem when physicians have no strong preference for a particular treatment, a state known as clinical equipoise. A study can ethically begin if there is sufficient uncertainty about which treatment is superior .
* **Control groups:** Patients should receive the best standard care; this often means using an active control therapy instead of a placebo when an effective standard treatment exists .
* **Blinding:** Essential for reducing bias, although not always feasible .
### 19 Cross-over studies
Cross-over studies are a type of clinical trial design used for comparing two or more non-curative treatments (e.g., A and B). In this design, subjects serve as their own controls by receiving one treatment in the first period and the other treatment in the second period. The most common is the AB-BA design, also known as a 2x2 cross-over design or a two-period two-treatment cross-over design .
#### 19.1 Principles
Subjects are assigned to sequences such as AB-BA or BA-AB. Each patient contributes responses under both treatment regimens, allowing for within-patient comparisons .
#### 19.2 Advantages
Cross-over studies offer several advantages that lead to increased efficiency and reduced sample size requirements:
* **Within-subject comparison:** Each patient acts as their own control, significantly reducing between-subject variability and allowing for a more precise estimation of treatment effects .
* **Reduced sample size:** Due to the efficient use of subjects as their own controls, cross-over designs generally require fewer participants compared to parallel-group studies for the same level of statistical power .
* **Paired comparisons:** Similar to other paired comparison designs, cross-over studies are efficient for detecting treatment differences .
#### 19.3 Disadvantages
Despite their efficiency, cross-over studies have limitations and are not suitable for all situations:
* **Applicability:** The design requires treatments with reversible effects; it is not suitable for treatments that have a permanent or long-lasting impact, or for curative treatments. Examples include pain relief for headaches or periodic pain .
* **Complex analysis:** The analysis is more complicated due to several potential effects that need to be accounted for:
* **Treatment effect:** The main interest, comparing A vs. B .
* **Period effect:** Temporal changes can influence outcomes, either from external factors or because patients are less naive in the second period .
* **Patient effect:** Within-patient correlation means a patient's outcomes in different periods are likely to be more similar than outcomes from different patients .
* **Treatment-by-period interaction:** An interaction between the treatment and the period .
* **Carry-over effect:** Residual effects of the treatment from period 1 carried over into period 2 .
* **Confounding:** A major issue is that interaction effects and carry-over effects cannot be distinguished from each other, meaning they are confounded .
#### 19.4 Various forms
Besides the standard two-period, two-treatment design, other variations exist:
* **Non-cross-over studies:** Parallel group studies serve as an alternative .
* **Two-treatment designs:**
* Two-period, two-treatment, four-sequence designs (e.g., AABB, ABAB, ABBA, BAAB, BABA, BBAA) .
* Three-period, two-treatment designs (e.g., AAB, ABA, BAA, BBA, BAB, ABB) .
* **Three-period, three-treatment designs:** (e.g., ABC, ACB, BAC, BCA, CAB, CBA) .
#### 19.5 The two-period two-treatment cross-over study
Let $x\_{ijk}$ be the outcome for group $i$ (where $i=1$ for AB sequence, $i=2$ for BA sequence), subject $j$ (where $j=1, \\dots, n\_i$), and period $k$ (where $k=1, 2$) .
##### 19.5.1 Treatment effect
The within-patient difference for subject $j$ in group $i$ can be calculated. For the AB group ($i=1$), the difference is $d\_{1j} = x\_{1j1} - x\_{1j2}$ . For the BA group ($i=2$), the difference is $d\_{2j} = x\_{2j2} - x\_{2j1}$ .
The average difference for each group is calculated: $d\_1 = \\frac{1}{n\_1} \\sum\_{j=1}^{n\_1} d\_{1j}$ . $d\_2 = \\frac{1}{n\_2} \\sum\_{j=1}^{n\_2} d\_{2j}$ .
The overall treatment effect ($d$) is the average of these group differences: $d = \\frac{1}{2}(d\_1 + d\_2)$ .
The standard error of the pooled difference is estimated as: $sd\_{pooled} = \\sqrt{\\frac{1}{n\_1} + \\frac{1}{n\_2}}$ .
Hypothesis testing for no treatment effect is performed using a t-test with an appropriate number of degrees of freedom .
##### 19.5.2 Carry-over effect
The carry-over effect is assessed by comparing the average of the outcomes within each patient across the two periods.
For the AB group, the average is $x\_{1j} = x\_{1j1} + x\_{1j2}$ . For the BA group, the average is $x\_{2j} = x\_{2j1} + x\_{2j2}$ .
The summary averages for each group are: $x\_1 = \\frac{1}{n\_1} \\sum\_{j=1}^{n\_1} x\_{1j}$ . $x\_2 = \\frac{1}{n\_2} \\sum\_{j=1}^{n\_2} x\_{2j}$ .
The overall carry-over effect ($x$) is the difference between these group averages: $x = \\frac{1}{2}(x\_1 - x\_2)$ .
Similar to the treatment effect, its standard error is estimated, and a t-test can be used to test the hypothesis of no carry-over effect .
### 20 Some concepts on surrogate endpoints
Surrogate endpoints are used in drug development when the true clinical endpoint is rare, distant in time, or involves invasive or uncomfortable procedures. They are biomarkers or other measures intended to substitute for clinical endpoints, with the expectation that they predict clinical benefit or harm .
#### 20.1 Motivation
The primary motivation for using surrogate endpoints is when the true endpoint is rare or occurs far in the future, making trials excessively long and large. Secondary motivations include avoiding invasive or uncomfortable procedures, reducing costs, and mitigating confounding factors from secondary treatments or competing risks .
#### 20.2 Motivation: Duration and Size
The table illustrates how surrogate endpoint trials can be significantly shorter and require fewer participants than trials focused on true endpoints like death or stroke. For example, a trial using coronary artery patency as a surrogate for myocardial infarction (MI) might take 90 minutes and involve 200 patients, whereas a trial using MI and death as the endpoint would take 5 years and require 4000 patients .
#### 20.3 Definitions
* **Clinical Endpoint:** A characteristic or variable that reflects how a patient feels, functions, or survives .
* **Biomarker:** An objectively measured characteristic indicating normal biological processes, disease processes, or therapeutic responses .
* **Surrogate Endpoint:** A biomarker or other measure that substitutes for a clinical endpoint and is expected to predict clinical benefit (or harm) .
#### 20.4 Examples of biomarkers in oncology
Various biomarkers are used in oncology as potential surrogate endpoints. For instance, CA-125 in ovarian cancer is often used as a surrogate for survival, and CEA in resected colorectal cancer for time to recurrence .
#### 20.5 Candidate surrogate endpoints?
A range of biomarkers and intermediate measures are considered candidate surrogate endpoints across different diseases. For advanced cancers, tumor response is a common surrogate for survival. In cardiovascular disease, ejection fraction is considered a surrogate for MI, and blood pressure for coronary heart disease. For HIV infection, CD4 counts and viral load are often used as surrogates for survival .
#### 20.6 Bad precedents
The use of surrogate endpoints carries risks, as demonstrated by historical examples where a surrogate suggested benefit while the true endpoint showed harm, or vice versa.
* **False positive:** The Cardiac Arrhythmia Suppression Trial (CAST) showed that drugs (Encainide and Flecainide) that reduced arrhythmias (the surrogate) led to a threefold increase in death rates (the true endpoint). These drugs were approved based on the surrogate effect but were later found to be harmful .
* **False negative:** A trial in Chronic Granulomatous Disease showed no effect of gamma-interferon on bacterial killing or superoxide production (surrogates), but it did show a threefold decrease in recurrent serious infections (the true endpoint) .
#### 20.7 Notation
In the context of surrogate endpoints, the following notation is used:
* $Z$: Treatment .
* $S$: Surrogate endpoint .
* $T$: True (or "final") endpoint .
#### 20.8 Example
In a study by Schatzkin and Gail dietary changes ($Z$) were investigated as a treatment. Colorectal polyps ($S$) were used as a surrogate endpoint, with colorectal adenocarcinomas ($T$) as the true endpoint .
#### 20.9 Biological concern
A critical concern with surrogate endpoints is that the treatment's effect on the true endpoint may operate through mechanisms other than the surrogate. For instance, dietary changes might affect colorectal adenocarcinomas through pathways not directly related to their impact on colorectal polyps .
#### 20.10 Age-related macular degeneration
The Pharmacological Therapy for Macular Degeneration Study Group investigated Interferon-α ($Z$) in 190 patients across 36 centers. Visual acuity at 6 months ($S$) was used as a surrogate endpoint, while visual acuity at 1 year ($T$) was the true endpoint. Both endpoints were measured as continuous variables but could also be discretized (e.g., loss of 2 lines of vision at 6 months as $S$, and loss of 3 lines at 1 year as $T$). The FDA's definition of the true endpoint influenced the choice of cut-offs .
#### 20.11 Visual acuity validation
Validation of surrogate endpoints, such as visual acuity in ophthalmology, is a complex process requiring rigorous statistical evidence .
#### 20.12 ARMD data
The Age-Related Macular Degeneration (ARMD) data often involves binary definitions of endpoints, such as "loss of 3 lines of vision" at 12 months as the true endpoint and "loss of 2 lines of vision" at 6 months as the surrogate. The rationale for using earlier time points and similar endpoints is to obtain information sooner due to disease progression .
#### 20.13 Advanced ovarian cancer
In four multicenter trials for advanced ovarian cancer, the Ovarian Cancer Meta-Analysis Project analyzed data from 1194 patients. Treatments compared were cyclophosphamide plus cisplatin (CP) versus cyclophosphamide plus adriamycin plus cisplatin (CAP). The (log of) time to progression ($S$) was used as a surrogate endpoint, and the (log of) survival time ($T$) as the true endpoint. Individual patient data was available, with 80% experiencing progression or death .
#### 20.14 Advanced ovarian cancer
In the advanced ovarian cancer data, the surrogate endpoint $S$ is "progression-free survival or death, whichever occurs first," and the true endpoint $T$ is overall survival. Due to this definition, for any patient $i$, $S\_i \\le T\_i$ holds true .
#### 20.15 Advanced colorectal cancer
Tumor response, indicated by shrinkage, has historically been a cornerstone in developing cytotoxic therapies for solid tumors, but its direct impact on patient survival has often been questioned. For many cancer therapies, the FDA has accepted objective evidence of tumor shrinkage as a basis for approval, allowing for later demonstration of survival benefits or improved quality of life .
#### 20.16 Advanced colorectal cancer
The CORFU Study in advanced colorectal cancer compared two treatment modalities: 5-fluorouracil (5FU) versus 5FU plus folinic acid or 5FU plus interferon. Time to progression ($S$) was used as the surrogate endpoint, and survival time ($T$) as the true endpoint. Data from 736 patients was analyzed, with over 94% experiencing progression or death .
#### 20.17 Advanced colorectal cancer
The graphical representation of advanced colorectal cancer data typically plots the surrogate endpoint against the true endpoint, often showing the characteristic relationship where the surrogate occurs earlier than or concurrently with the true endpoint .
#### 20.18 When is a biomarker a good surrogate?
A strong correlation between a biomarker and the clinical endpoint is not sufficient for surrogacy. For a biomarker to be considered a good surrogate, there must be evidence that it predicts the treatment effect on the clinical endpoint, based on insights from epidemiology, pathophysiology, biology, and statistics. The Biomarkers Definition Working Group and Burzykowski, Molenberghs, and Buyse have extensively discussed the statistical criteria for valid surrogacy .
#### 20.19 Surrogacy and the “class question”
The validity of a surrogate endpoint can be population-specific and drug-class specific. A surrogate validated for one class of drugs (e.g., cytotoxic drugs) may need re-evaluation if applied to a different class (e.g., hormone therapy) .
#### 20.20 Voorbeeldvragen
* **Belgian Health Interview Survey:** Question concerning which pairs of variables represent stratificators. Possible correct answer: regio, provincie .
* **Belgian Health Interview Survey:** Question concerning which levels contribute to clustering. Possible correct answer: gemeente, huishouden .
* **Clinical study characteristics:** Identifying the characteristic that is not commonly found in clinical studies. The options are: geblindeerd (blinded), retrospectief (retrospective), comparatief (comparative), gerandomiseerd (randomized). Retrospectief is the least common characteristic of a prospective clinical study .
* **Randomization statement:** Determining the correct statement about randomization. A 1:1 randomized study generally leads to the most precise comparisons .
* **Cross-over study statement:** Identifying a false statement about cross-over studies. A cross-over study requires a larger number of patients is incorrect; they are generally more efficient and require fewer patients .
* **Surrogate endpoint statement:** Determining the correct statement about surrogate endpoints. Using a surrogate endpoint ideally reduces the number of patients needed .
* * *
# Omgaan met ontbrekende gegevens en repeated measures
Hier is een gedetailleerde studiegids sectie over het omgaan met ontbrekende gegevens en repeated measures, gebaseerd op de verstrekte documentatie.
## 6\. Omgaan met ontbrekende gegevens en repeated measures
Dit deel van de studiegids behandelt methoden voor het analyseren van gegevens met herhaalde metingen en ontbrekende waarden, met een focus op lineaire gemengde modellen, GEE, en multiple imputation, essentieel voor longitudinale studies en het interpreteren van complexe datasets.
### 6.1 Herhaalde metingen en longitudinale studies
Herhaalde metingen in longitudinale studies vereisen specifieke analysemethoden om de correlatie binnen individuen te accommoderen. Twee belangrijke benaderingen zijn Generalized Estimating Equations (GEE) en Generalized Linear Mixed Models (GLMM).
#### 6.1.1 Generalized Estimating Equations (GEE)
GEE is een methode die zich richt op de marginale effecten, wat betekent dat het de gemiddelde respons over de populatie modelleert, onafhankelijk van de specifieke correlatiestructuur binnen de subjecten .
* **Basisprincipe:** GEE gebruikt een "working" correlatiestructuur om de correlatie tussen herhaalde metingen binnen een subject te modelleren. De keuze van de correlatiestructuur (bijv. exchangeable, AR ) is belangrijk, maar GEE is relatief robuust voor verkeerde specificaties ervan, zolang de assumptie van MCAR (Missing Completely At Random) geldt [1](#page=1) .
* **Model:** Voor een binair uitkomstvariabele $Y\_{ij}$ (observatie $j$ voor subject $i$) wordt een logistische regressie gebruikt: $P(Y\_{ij} = 1) = \\frac{e^{\\beta^T x\_{ij}}}{1 + e^{\\beta^T x\_{ij}}}$ .
* **Herhaalde meting specificatie:** In SAS wordt dit geïmplementeerd met de `REPEATED` statement, waarbij `subject=` het cluster definieert (bv. huisgezin (HH) of individu) en `type=` de correlatiestructuur specificeert (bv. `CS` voor compound symmetry) .
* **Interpretatie:** De output van GEE geeft schattingen van de marginale parameters en bijbehorende standaardfouten .
* **Voorbeeld (GEE logistic):** Een analyse van de kans op een stabiele GP (gezondheidstoestand) in een onderzoek met herhaalde metingen binnen huisgezinnen. De schatting van de within-HH correlatie wordt gepresenteerd .
* De kans op een stabiele GP kan geschat worden als: $1 - \\frac{e^{\\hat{\\beta}}}{1 + e^{\\hat{\\beta}}}$ .
#### 6.1.2 Generalized Linear Mixed Models (GLMM)
GLMM's combineren kenmerken van lineaire gemengde modellen (LMM) en gegeneraliseerde lineaire modellen (GLM). Ze modelleren niet alleen marginale verbanden, maar ook de individuele variabiliteit door middel van willekeurige effecten (random effects) .
* **Model:** Voor een binaire uitkomst kan een GLMM er als volgt uitzien: $P(Y\_{ij} = 1) = \\frac{e^{\\beta + b\_i}}{1 + e^{\\beta + b\_i}}$ waarbij $b\_i \\sim N(0, \\tau^2)$ willekeurige intercepten zijn die de subject-specifieke afwijkingen van het gemiddelde modelleren .
* **Voordeel:** GLMM's bieden een meer gedetailleerd model dan GEE, omdat ze zowel de marginale als de conditionele distributie van de uitkomst modelleren. Ze zijn doorgaans meer efficiënt voor het schatten van zowel vaste als willekeurige effecten .
* **Implementatie:** In SAS wordt dit gedaan met `proc nlmixed`. Het `random` statement specificeert de willekeurige effecten .
* **Voorbeeld (GLMM):** Een GLMM analyse voor een binaire uitkomst, met regressiecoëfficiënten voor de vaste effecten en de variantie van de willekeurige effecten .
### 6.2 Omgaan met ontbrekende gegevens
Ontbrekende gegevens zijn een veelvoorkomend probleem in longitudinale studies en vereisen zorgvuldige analyse om vertekening en verlies van statistische power te voorkomen. De aard van het ontbrekende mechanisme is cruciaal voor de keuze van de analysemethode.
#### 6.2.1 Typen ontbrekende data mechanismen
De classificatie van ontbrekende gegevens is gebaseerd op de relatie tussen de kans op ontbreken en de waargenomen en ontbrekende data.
* **Missing Completely At Random (MCAR):** De kans op ontbreken hangt alleen af van de $X$ covariaten, en niet van de $Y$ uitkomsten. Dit is het meest simpele, maar vaak onrealistische scenario. Als data MCAR zijn, zijn simpele methoden zoals complete case analysis (CC) of last observation carried forward (LOCF) minder schadelijk, maar nog steeds suboptimaal .
* **Missing At Random (MAR):** De kans op ontbreken hangt af van de $X$ covariaten en de \_waargenomen $Y$ uitkomsten ($Y\_{o,i}$), maar niet van de \_ontbrekende $Y$ uitkomsten ($Y\_{m,i}$). Dit is een veel plausibelere aanname en vormt de basis voor geavanceerdere methoden zoals directe likelihood/Bayesiaanse inferentie en multiple imputation .
* **Missing Not At Random (MNAR):** De kans op ontbreken hangt af van de $X$ covariaten, de \_waargenomen $Y$ uitkomsten ($Y\_{o,i}$), en de \_ontbrekende $Y$ uitkomsten ($Y\_{m,i}$). Dit is het meest complexe scenario, omdat de ontbrekende waarden zelf de kans op ontbreken beïnvloeden. MNAR kan niet onderscheiden worden van MAR puur op basis van de data alleen .
#### 6.2.2 Analyse van incomplete data
De keuze van de analysemethode hangt af van de aanname over het ontbrekende mechanisme.
* **MCAR:**
* **Complete Case Analysis (CC):** Verwijderen van alle subjecten met minstens één ontbrekende waarde. Dit leidt tot informatieverlies, verminderde precisie en power, en vertekening als de data niet MCAR zijn .
* **Last Observation Carried Forward (LOCF):** Ontbrekende waarden worden vervangen door de laatst waargenomen waarde. Dit creëert een onrealistisch constant profiel na dropout en leidt meestal tot vertekening .
* **MAR:**
* **Directe Likelihood/Bayesiaanse Inferentie (Ignorable):** Onder de MAR-aanname hoeft het ontbrekende mechanisme niet expliciet gemodelleerd te worden. De analyse richt zich op de waargenomen gegevens en de covariaten. Dit is goed nieuws voor klinische trials en komt overeen met "Intention to Treat" .
* **Toepasbaar op:** Lineaire gemengde modellen (LMM) en gegeneraliseerde lineaire gemengde modellen (GLMM) .
* **Niet toepasbaar op:** GEE wordt als \_niet-ignorable onder MAR beschouwd in de context van directe likelihood inferentie .
* **Multiple Imputation (MI):** Een meertraps procedure die wordt gebruikt als alternatief voor directe likelihood en gewogen GEE.
1. **Imputatie:** Ontbrekende waarden worden meerdere keren (M keer) ingevuld, wat resulteert in M complete datasets. Deze imputatie gebeurt door te trekken uit de voorspellende distributie van de ontbrekende data, gegeven de waargenomen data . 2. **Analyse:** Elk van de M complete datasets wordt geanalyseerd met standaardmethoden.
2. **Combinatie:** De resultaten van de M analyses worden gecombineerd tot één uiteindelijke inferentie met specifieke regels voor het combineren van schattingen en varianties .
* Gecombineerde schatter ($\\hat{\\mu}\_2$): $\\hat{\\mu}\_2 = \\frac{1}{M}\\sum{m=1}^{M} \\hat{\\mu}\_2^{(m)}$ .
* Gecombineerde variantie ($\\hat{\\sigma}^2\_{22}$): $\\hat{\\sigma}^2\_{22} = \\frac{1}{M}\\sum\_{m=1}^{M} \\hat{\\sigma}^2\_{22}^{(m)} + \\frac{1}{M-1}\\sum\_{m=1}^{M} \[\\hat{\\mu}\_2^{(m)} - \\hat{\\mu}\_2\]^2$ .
* MI is een flexibele methode die toepasbaar is op diverse modellen, zoals lineaire regressie, logistische regressie, en GEE .
* **Gewogen GEE (WGEE):** Combineert GEE met inverse probability weighting (IPW). Een model voor het ontbrekende mechanisme wordt gebruikt om gewichten te berekenen. Observaties die minder waarschijnlijk zijn om waargenomen te worden, krijgen hogere gewichten. Dit is een benadering die ook onder MAR geldig is .
* **MNAR:** Dit scenario vereist gevoeligheidsanalyses (sensitivity analysis) om de impact van aannames over de ontbrekende data te onderzoeken, omdat MNAR niet van MAR te onderscheiden is op basis van de data alleen .
#### 6.2.3 Voorbeelden en Vergelijkingen
* **Depression Trial:** Vergelijking van analyse-uitkomsten (CC, LOCF, MAR) toont aan dat MAR-methoden (bv. directe likelihood) significantie resultaten kunnen opleveren die door simpelere methoden gemist worden .
* **ARMD Trial:** Verschillende methoden (CC, LOCF, directe likelihood, GEE) voor zowel continue als binaire uitkomsten worden vergeleken, waarbij MAR-gebaseerde methoden vaak meer consistente en statistisch significante resultaten opleveren .
* **Achtergrondillustratie:** Een simpele illustratie toont hoe CC en LOCF tot vertekening en te nauwe/brede betrouwbaarheidsintervallen kunnen leiden in vergelijking met een MAR-benadering .
### 6.3 Overzicht van analysestrategieën voor ontbrekende data
MethodeAannameSterkteZwakteComplete Case (CC)MCAREenvoudig te implementerenInformatieverlies, vertekening indien niet MCARLOCFMCAR (impliciet)Eenvoudig te implementerenInefficiënt, vertekening, onrealistisch profielDirecte Likelihood/BayesMAREfficiënt, robuustVereist correct specificeren van het modelGewogen GEE (WGEE)MARRobuust, combineert GEE met ontbrekende dataVereist model voor ontbrekende dataMultiple Imputation (MI)MARFlexibel, robuust, kan meerdere modellen aanComplexer implementatie, meerdere datasets creërenMNAR-methodenMNARKan MNAR aanSterke, onbewijsbare aannames, gevoeligheidsanalyse nodig
### 6.4 Voorbeeldvragen (hypothetisch, gebaseerd op documentinhoud)
**Vraag:** Ontbrekende gegevens. Welk van de vier uitspraken is niet juist. A. Voor een klinische studie met ontbrekende gegevens is niet langer een onvertekende analyse mogelijk. B. Van een studie met ontbrekende gegevens kunnen getabuleerde voorstellingen misleidend zijn. C. Een studie met ontbrekende gegevens wordt kleiner: er is dus verlies aan informatie wat kan resulteren in verlaagde precisie (verhoogde standaardfout). D. Een klinische studie met ontbrekende gegevens heeft niet langer alle voordelen van randomisatie: er kan confounding ontstaan.
**Antwoord:** Uitspraak A is niet juist. Onder de MAR-aanname, en met geschikte methoden zoals directe likelihood inferentie of multiple imputation, is het mogelijk om een onvertekende analyse uit te voeren, zelfs met ontbrekende gegevens. De andere uitspraken zijn wel correct .
### 6.5 Belangrijke Concepten
* **Longitudinale data:** Data verzameld over meerdere tijdspunten van dezelfde subjecten.
* **Clustering:** Herhaalde metingen binnen een subject of groep vormen een cluster.
* **Correlatiestructuur:** De manier waarop metingen binnen een cluster gecorreleerd zijn.
* **Marginaal model:** Modelt het gemiddelde van de uitkomst, los van de binnen-subject correlaties.
* **Conditioneel model (mixed model):** Modelt de uitkomst gegeven willekeurige effecten voor elk subject.
* **Ignorability:** De aanname dat het ontbrekende mechanisme niet gemodelleerd hoeft te worden, wat geldt onder MAR voor likelihood/Bayesian methoden.
* **Gevoeligheidsanalyse:** Onderzoek naar de robuustheid van resultaten onder verschillende aannames over het ontbrekende mechanisme, met name bij MNAR.
* * *
## Veelgemaakte fouten om te vermijden
* Bestudeer alle onderwerpen grondig voor examens
* Let op formules en belangrijke definities
* Oefen met de voorbeelden in elke sectie
* Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|---|---|
| Biostatistiek | De toepassing van statistische methoden in de biologie en geneeskunde om gegevens te analyseren en conclusies te trekken. |
| Populatie | De gehele groep van huidige en toekomstige subjecten met een specifieke aandoening waarover conclusies getrokken moeten worden. |
| Steekproef | Een subgroep uit de populatie waarop observaties worden genomen om conclusies te kunnen trekken over de gehele populatie. |
| Beschrijvende statistiek | Het samenvatten en beschrijven van waargenomen data op een manier die de relevante aspecten expliciet maakt, bijvoorbeeld via tabellen en grafieken. |
| Inferentiële statistiek | Het bestuderen in hoeverre waargenomen trends of effecten gegeneraliseerd kunnen worden naar een algemene (oneindige) populatie. |
| Gemiddelde (steekproefgemiddelde) | De som van alle observaties gedeeld door het aantal observaties; een maat voor centrale tendens. Wordt genoteerd als $\bar{x}$. |
| Mediaan | De middelste observatie in een geordende dataset; een robuustere maat voor centrale tendens dan het gemiddelde, omdat het minder gevoelig is voor uitschieters. |
| Modus | De waarde die het vaakst voorkomt in een dataset; wordt vooral gebruikt bij categorische data. |
| Spreiding | Een maat die aangeeft hoe verspreid de data is rond het centrum; voorbeelden zijn standaarddeviatie, variantie en interkwartielafstand. |
| Steekproefvariantie ($s^2$) | Een schatting van de populatievariantie, berekend als de som van de gekwadrateerde afwijkingen van het gemiddelde, gedeeld door $n-1$. |
| Standaarddeviatie ($s$) | De vierkantswortel van de steekproefvariantie, die een maat is voor de spreiding van de data in de oorspronkelijke eenheden. |
| Interkwartielafstand (IQR) | Het verschil tussen het derde kwartiel (75e percentiel) en het eerste kwartiel (25e percentiel) van een dataset; een robuuste maat voor spreiding. |
| Bereik (Range) | Het verschil tussen de maximale en minimale waarde in een dataset; zeer gevoelig voor uitschieters. |
| Betrouwbaarheidsinterval (CI) | Een interval rond een schatting van een populatieparameter, dat met een bepaalde waarschijnlijkheid (het betrouwbaarheidsniveau) de ware populatiewaarde bevat. |
| p-waarde | De kans om een resultaat te observeren dat minstens zo extreem is als het gevonden resultaat, ervan uitgaande dat de nulhypothese waar is. Een kleine p-waarde leidt tot verwerping van de nulhypothese. |
| Nulhypothese ($H_0$) | Een stelling over een populatieparameter die getoetst wordt; typisch de stelling dat er geen effect of geen verschil is. |
| Alternatieve hypothese ($H_A$) | De stelling die wordt aangenomen als de nulhypothese verworpen wordt; typisch de stelling dat er wel een effect of verschil is. |
| Type I fout | Het verwerpen van de nulhypothese terwijl deze waar is (kans $\alpha$). |
| Type II fout | Het niet verwerpen van de nulhypothese terwijl deze onwaar is (kans $\beta$). |
| Power | De kans om de nulhypothese correct te verwerpen wanneer deze onwaar is ( $1-\beta$ ). |
| Contingency tabel | Een tabel die de frequentieverdeling van twee of meer categorische variabelen weergeeft, waarbij de cellen de gezamenlijke frequenties van combinaties van categorieën bevatten. |
| Chi-kwadraattoets ($\chi^2$) | Een statistische toets die gebruikt wordt om de associatie tussen twee categorische variabelen te onderzoeken, gebaseerd op de vergelijking van geobserveerde en verwachte frequenties in een contingency tabel. |
| Fisher's exacte test | Een niet-parametrische methode om de associatie tussen twee categorische variabelen te toetsen, met name geschikt voor kleine steekproeven of tabellen met kleine verwachte aantallen. |
| Odds Ratio (OR) | Een maat voor de associatie tussen een exposure en een uitkomst in een 2x2 tabel, gedefinieerd als de verhouding van de odds van de uitkomst in de blootgestelde groep tot de odds in de niet-blootgestelde groep. |
| Logistische regressie | Een statistische methode om de relatie tussen een binaire uitkomstvariabele en een of meer onafhankelijke variabelen te modelleren, waarbij de log-odds van de uitkomst lineair wordt gerelateerd aan de predictoren. |
| Logit | De natuurlijke logaritme van de odds; $ \text{logit}(\pi) = \ln(\frac{\pi}{1-\pi}) $, waarbij $\pi$ de kans op succes is. |
| Odds | De verhouding van de kans op een gebeurtenis tot de kans op het uitblijven van die gebeurtenis; $ \text{odds} = \frac{\pi}{1-\pi} $. |
| Lineaire regressie | Een statistische methode om de lineaire relatie tussen een continue afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren. |
| Kleinste kwadraten methode (Least Squares) | Een methode om de parameters van een regressiemodel te schatten door de som van de gekwadrateerde residuen (verschillen tussen geobserveerde en voorspelde waarden) te minimaliseren. |
| Residuen | Het verschil tussen een geobserveerde waarde en de voorspelde waarde van die variabele door het regressiemodel; $ e_i = y_i - \hat{y}_i $. |
| $R^2$ (determinatiecoëfficiënt) | Een maat die aangeeft welk deel van de totale variatie in de afhankelijke variabele verklaard wordt door de onafhankelijke variabelen in het model. |
| ANOVA (Analysis of Variance) | Een statistische methode om gemiddelden van twee of meer groepen te vergelijken door de totale variantie te ontbinden in variantie tussen groepen en variantie binnen groepen. |
| Lineair gemengd model (LMM) | Een statistisch model dat zowel vaste effecten (vergelijkbaar met regressie en ANOVA) als random effecten (om rekening te houden met clustering of herhaalde metingen) bevat. |
| GEE (Generalized Estimating Equations) | Een methode voor het analyseren van longitudinale of geclusterde gegevens met een categorische uitkomst, die zich richt op marginale modellering en robuust is tegen specificatie van de correlatiestructuur. |
| Multiple Imputation (MI) | Een methode om met ontbrekende gegevens om te gaan door de ontbrekende waarden meerdere keren te imputeren en de resultaten van de analyses van de geïmputeerde datasets te combineren. |
| Kaplan-Meier schatter | Een niet-parametrische schatter voor de overlevingsfunctie, die rekening houdt met gecensureerde gegevens en de overlevingskans schat op basis van de geobserveerde gebeurtenistijden. |
| Censoring (censurering) | Het proces waarbij de exacte gebeurtenistijd niet geobserveerd kan worden; de waarneming eindigt op een bepaalde tijd, maar de gebeurtenis heeft zich daarna nog niet voorgedaan (right censoring) of is al gebeurd voor de eerste observatie (left censoring). |
| Logrank test | Een statistische toets die gebruikt wordt om de overlevingscurves van twee of meer groepen te vergelijken, met name geschikt voor data met censurering. |
| Cox proportionele hazard regressie | Een regressiemodel dat de relatie tussen predictoren en de hazard rate (het momentane risico op een gebeurtenis) modelleert, met de aanname van proportionele hazards. |
| Hazard rate (hazard functie) | Het momentane risico op het optreden van een gebeurtenis op tijdstip t, gegeven dat de gebeurtenis nog niet heeft plaatsgevonden tot tijdstip t. |
| Overlevingsfunctie ($S(t)$) | De kans dat een subject de gebeurtenis niet ondergaat tot tijdstip t, $ S(t) = P(T > t) $, waarbij T de gebeurtenistijd is. |
| Teller (Numerator) | In de context van formules, het deel boven de breukstreep. |
| Noemer (Denominator) | In de context van formules, het deel onder de breukstreep. |
| Vrijheidsgraden (degrees-of-freedom) | Het aantal onafhankelijke stukken informatie die beschikbaar zijn om de variantie van een statistiek te schatten; essentieel voor de correcte toepassing van veel statistische toetsen. |
| Outlier (uitbijter) | Een observatie die aanzienlijk afwijkt van de meeste andere observaties in een dataset. |
| Invloedrijke observatie (Influential Observation) | Een observatie die een onevenredig grote invloed heeft op de resultaten van een statistische analyse, zoals de regressielijn. |
| Cook's distance | Een maat die de invloed van een individuele observatie op de regressiecoëfficiënten kwantificeert. |
| Count data (telgegevens) | Gegevens die het aantal keren weergeven dat een gebeurtenis optreedt, zoals het aantal epileptische aanvallen of het aantal cariës. |
| Poisson regressie | Een regressiemodel dat wordt gebruikt om count data te analyseren, waarbij de uitkomstvariabele wordt gemodelleerd als een Poisson-verdeling. |
| Ontbrekende gegevens (Missing Data) | Situaties waarin waarden voor variabelen niet beschikbaar zijn voor sommige eenheden of observaties. |
| MCAR (Missing Completely At Random) | Een aanname over ontbrekende gegevens waarbij de kans op ontbrekende data onafhankelijk is van zowel de geobserveerde als de niet-geobserveerde waarden. |
| MAR (Missing At Random) | Een aanname over ontbrekende gegevens waarbij de kans op ontbrekende data afhangt van de geobserveerde waarden, maar niet van de niet-geobserveerde waarden zelf. |
| MNAR (Missing Not At Random) | Een aanname over ontbrekende gegevens waarbij de kans op ontbrekende data afhangt van de niet-geobserveerde waarden zelf, wat de analyse compliceert. |
| Ignorability | Het principe dat, onder bepaalde voorwaarden (zoals MAR), de schatting van de modelparameters niet beïnvloed wordt door het ontbreken van data als de analyse correct wordt uitgevoerd (bv. via likelihood of Bayesiaanse methoden). |
| Surrogate endpoint | Een biomarker of andere meting die bedoeld is om een klinisch eindpunt te vervangen en dat verwacht wordt klinisch voordeel of nadeel te voorspellen. |
| Cross-over studie | Een studieopzet waarbij elke deelnemer opeenvolgend verschillende behandelingen ontvangt in verschillende perioden, met als doel de effecten van de behandelingen te vergelijken. |
| Herhaalde metingen (Repeated Measures) | Metingen die herhaaldelijk worden uitgevoerd op dezelfde eenheden (bijv. patiënten, dieren) over tijd of onder verschillende omstandigheden. |
| Longitudinale data | Herhaalde metingen die over tijd worden verzameld, waarbij de tijdsontwikkeling een centraal aspect van de studie is. |
| Geclusterde data | Data waarbij observaties gegroepeerd zijn binnen eenheden, zoals proefpersonen binnen gezinnen of scholen. |
| Intra-klasse correlatie (ICC) | Een maat voor de correlatie tussen observaties binnen dezelfde groep of cluster. |
| Weighted Generalized Estimating Equations (WGEE) | Een extensie van GEE die wegingen gebruikt om rekening te houden met complexe steekproefontwerpen en ontbrekende gegevens (onder MAR). |
| Generalized Linear Mixed Models (GLMM) | Een uitbreiding van gegeneraliseerde lineaire modellen die zowel vaste effecten als random effecten toestaat, geschikt voor niet-normaal verdeelde herhaalde of geclusterde gegevens. |
| Mantel-Haenszel statistiek | Een statistische methode om de associatie tussen twee categorische variabelen te analyseren, rekening houdend met een derde stratificerende variabele. |
| McNemar's test | Een statistische test gebruikt voor gepaarde binaire data om de associatie tussen twee categorische variabelen te onderzoeken, met name bij matched pairs. |
| t-toets | Een statistische toets om de gemiddelden van twee groepen te vergelijken, gebaseerd op de t-verdeling. |
| Ongepaarde t-toets (Unpaired t-test) | Vergelijkt de gemiddelden van twee onafhankelijke groepen. |
| Gepaarde t-toets (Paired t-test) | Vergelijkt de gemiddelden van twee gerelateerde metingen (bijv. voor en na behandeling bij dezelfde personen). |
| t-verdeling | Een continue waarschijnlijkheidsverdeling die lijkt op de normale verdeling, maar wordt gekenmerkt door vrijheidsgraden en wordt gebruikt in de inferentiële statistiek wanneer de populatiestandaarddeviatie onbekend is. |