Cover
Aloita nyt ilmaiseksi HC3_LP_student_2025(1).pdf
Summary
# Populatie en steekproef
Dit deel van de cursus introduceert de fundamentele concepten van populatie en steekproef, met de nadruk op de representativiteit van een steekproef voor de populatie, en onderscheidt het theoretische model van een steekproef van de daadwerkelijke waargenomen steekproefwaarden [1](#page=1) [3](#page=3) [9](#page=9).
### 1.1 Populatie
De populatie is de volledige verzameling van alle individuen, objecten of gebeurtenissen waarover men informatie wil verkrijgen. In veel gevallen is het niet praktisch of mogelijk om de gehele populatie te observeren of te meten [3](#page=3).
### 1.2 Steekproef
Een steekproef is een deelverzameling van de populatie die wordt geselecteerd om informatie over de populatie te verzamelen. Het primaire doel bij het trekken van een steekproef is dat deze representatief is voor de populatie. Dit betekent dat de kenmerken van de steekproef zo goed mogelijk de kenmerken van de populatie moeten weerspiegelen [3](#page=3) [4](#page=4).
#### 1.2.1 De rol van de populatieverdeling
Stel dat we geïnteresseerd zijn in een bepaalde eigenschap of variabele binnen de populatie. Deze variabele kan worden gemodelleerd als een toevalsvariabele, de zogenaamde populatie-toevalsvariabele $X$. De verdeling van deze toevalsvariabele wordt de populatieverdeling genoemd [5](#page=5).
> **Voorbeeld:** In een labokoelkast bevinden zich 1000 bloedstalen. Deze kunnen worden gecodeerd op basis van de biomarkerwaarde: 500 met een lage waarde (code 1), 300 met een normale waarde (code 2), en 200 met een hoge waarde (code 3). De populatie is hier de verzameling van alle 1000 stalen. De toevalsvariabele $X$ vertegenwoordigt de biomarkercode van een willekeurig getrokken staal, en de bijbehorende verdeling is de populatieverdeling [5](#page=5).
#### 1.2.2 Het trekken van een steekproef
Wanneer we herhaaldelijk een experiment uitvoeren (bijvoorbeeld het trekken van een bloedstaal), verkrijgen we een reeks observaties. Elke observatie kan worden gemodelleerd als een toevalsvariabele die dezelfde verdeling heeft als de populatie-toevalsvariabele $X$. Dus, voor het $i$-de getrokken staal, is de biomarkercode $X_i$, en de kansverdeling van $X_i$ is gelijk aan die van $X$: $P(X_i = x) = P(X = x)$ voor elke mogelijke waarde $x$ [6](#page=6) [7](#page=7).
Een steekproef van grootte $n$ uit een populatie, gemodelleerd door de populatie-toevalsvariabele $X$, is formeel gedefinieerd als een rij van $n$ toevalsvariabelen $X_1, X_2, \dots, X_n$ die voldoen aan twee voorwaarden [7](#page=7) [8](#page=8):
1. **Dezelfde verdeling:** Elke $X_i$ heeft dezelfde verdeling als $X$, d.w.z., $P(X_i = x) = P(X = x)$ voor alle $i=1, \dots, n$ [7](#page=7).
2. **Onafhankelijkheid:** De toevalsvariabelen $X_1, X_2, \dots, X_n$ zijn onderling onafhankelijk. Dit betekent dat de uitkomst van het trekken van het ene staal geen invloed heeft op de uitkomst van het trekken van een ander staal ($P(X_i = x_i, X_j = x_j) = P(X_i = x_i) \cdot P(X_j = x_j)$ voor $i \neq j$) [7](#page=7).
De grootte van de steekproef wordt aangeduid met $n$ [8](#page=8).
### 1.3 Theoretisch model versus steekproefwaarden
Het is cruciaal om onderscheid te maken tussen het theoretische model van een steekproef en de feitelijke waarden die we observeren [9](#page=9).
* **Theoretische steekproef ($X_1, \dots, X_n$):** Dit vertegenwoordigt het wiskundige model van wat er *kan* gebeuren wanneer men $n$ trekkingen uitvoert uit de populatie. Het beschrijft de mogelijke uitkomsten en hun waarschijnlijkheden [9](#page=9).
* **Steekproefwaarden ($x_1, \dots, x_n$):** Dit zijn de specifieke, geobserveerde waarden die we daadwerkelijk vinden wanneer we een steekproef trekken in de praktijk. Elke set van steekproefwaarden is een mogelijke realisatie van het theoretische steekproefmodel. Het is goed mogelijk om meerdere steekproeven te trekken en telkens andere steekproefwaarden te verkrijgen, omdat de observaties gebaseerd zijn op toeval [9](#page=9).
> **Tip:** Dit onderscheid is essentieel voor statistische inferentie. Het theoretische model stelt ons in staat om waarschijnlijkheden te berekenen en conclusies te trekken over de populatie, terwijl de steekproefwaarden de empirische basis vormen voor onze analyses.
---
# Statistieken en steekproefgemiddelde
Dit gedeelte introduceert statistieken als berekeningen gebaseerd op steekproeven, met een focus op het steekproefgemiddelde en de steekproefvariantie, inclusief hun basiseigenschappen en de t-verdeling [10](#page=10) [11](#page=11).
### 2.1 Statistieken
Statistieken zijn berekeningen die worden uitgevoerd op basis van een steekproef, in tegenstelling tot parameters die betrekking hebben op de gehele populatie [11](#page=11).
* **Populatie:** De gehele groep waarover men informatie wil verzamelen (bijvoorbeeld alle eerstejaarsstudenten aan de UHasselt). Een toevalsvariabele kan bijvoorbeeld de lengte van een willekeurige student uit deze populatie zijn [11](#page=11).
* **Steekproef:** Een subset van de populatie die wordt geselecteerd voor analyse (bijvoorbeeld 𝑛 eerstejaarsstudenten). De gerealiseerde waarden van de steekproef kunnen specifieke metingen zijn, zoals lengtes in centimeters [11](#page=11).
* **Statistiek:** Elke waarde die berekend kan worden op basis van de steekproefgegevens. Voorbeelden hiervan zijn het minimum, maximum, gemiddelde, mediaan en de variantie [11](#page=11).
Het is belangrijk te realiseren dat steekproefwaarden niet uniek zijn en dat een statistiek kan veranderen bij elke nieuwe steekproef die wordt getrokken [14](#page=14).
#### 2.1.1 Steekproefgemiddelde en steekproefvariantie
Gegeven een steekproef $X_1, \dots, X_n$ uit een populatie $X$, worden de volgende statistieken gedefinieerd [13](#page=13):
* **Steekproefgemiddelde ($\overline{X}$):**
$$ \overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i $$
Dit is het gemiddelde van de waarnemingen in de steekproef [13](#page=13).
* **Steekproefvariantie ($S^2$):**
$$ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 $$
Dit is een maat voor de spreiding van de steekproefgegevens rondom het steekproefgemiddelde. De deling door $n-1$ in plaats van $n$ zorgt voor een zuivere schatter van de populatievariantie [13](#page=13).
> **Tip:** De waarden $x_1, x_2, \dots, x_n$ zijn de *realisaties* van de toevalsvariabelen $X_1, X_2, \dots, X_n$. De statistiek $\overline{X}$ leidt tot een gerealiseerde waarde $\overline{x}$ [14](#page=14).
### 2.2 Basiseigenschappen van het steekproefgemiddelde
Het steekproefgemiddelde $\overline{X}$ is zelf een toevalsvariabele, waarvan de verdeling interessant is om te bestuderen [15](#page=15) [16](#page=16).
#### 2.2.1 Gemiddelde en variantie van het steekproefgemiddelde
Als de populatie $X$ een gemiddelde $\mu$ en een variantie $\sigma^2$ heeft, dan gelden de volgende eigenschappen voor het steekproefgemiddelde $\overline{X}$ [17](#page=17):
* **Verwachtingswaarde van het steekproefgemiddelde:**
$$ E(\overline{X}) = \mu $$
Het gemiddelde van het steekproefgemiddelde is gelijk aan het populatiegemiddelde. Dit betekent dat het steekproefgemiddelde een zuivere schatter is voor het populatiegemiddelde [17](#page=17).
* **Variantie van het steekproefgemiddelde:**
$$ Var(\overline{X}) = \frac{\sigma^2}{n} $$
De variantie van het steekproefgemiddelde is gelijk aan de populatievariantie gedeeld door de steekproefgrootte $n$. Dit impliceert dat naarmate de steekproefgrootte toeneemt, de variantie van het steekproefgemiddelde afneemt, wat betekent dat de schatting nauwkeuriger wordt [17](#page=17).
#### 2.2.2 Verdeling van het steekproefgemiddelde
De verdeling van het steekproefgemiddelde $\overline{X}$ hangt af van de steekproefgrootte $n$ en de vorm van de populatieverdeling [18](#page=18).
* **Grote steekproef ($n \geq 30$):** Volgens de Centrale Limietstelling zal $\overline{X}$ bij benadering normaal verdeeld zijn, ongeacht de oorspronkelijke populatieverdeling [18](#page=18).
* **Kleine steekproef ($n < 30$) en normaal verdeelde populatie:** Als de populatie $X$ normaal verdeeld is, dan is $\overline{X}$ ook exact normaal verdeeld [18](#page=18).
Wanneer de populatieverdeling onbekend is en $n$ klein is, komt de t-verdeling in beeld [18](#page=18).
##### 2.2.2.1 De t-verdeling
De t-verdeling, of Student's t-verdeling, wordt gebruikt voor inferentie over het populatiegemiddelde $\mu$ wanneer de populatievariantie $\sigma^2$ onbekend is en de steekproefgrootte klein is, of wanneer de populatie niet noodzakelijk normaal verdeeld is maar we toch een uitspraak willen doen over $\mu$.
* **Relatie met de normale verdeling:** Voor zeer grote aantallen vrijheidsgraden benadert de t-verdeling de standaard normale verdeling $N(0,1)$ [19](#page=19).
$$ t_{\infty} = N(0,1) $$
* **Gekwadrateerde standaardisatie met onbekende variantie:** Als de populatie $X$ een gemiddelde $\mu$ en een variantie $\sigma^2$ heeft, dan is de gestandaardiseerde variabele $\frac{\overline{X} - \mu}{S/\sqrt{n}}$ t-verdeeld met $n-1$ vrijheidsgraden, mits de populatie normaal verdeeld is. Als $\sigma^2$ bekend is, gebruiken we de Z-verdeling. Hier wordt echter gekeken naar de verdeling van $\frac{\overline{X} - \mu}{S^2 / n}$ wat een misinterpretatie is in de documentatie. De correcte relatie is dat als de populatie $X$ normaal verdeeld is met gemiddelde $\mu$ en variantie $\sigma^2$, dan is [18](#page=18):
$$ \frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n-1) $$
Hierbij is $S$ de standaarddeviatie van de steekproef, afgeleid van de steekproefvariantie $S^2$. De $t$-verdeling met $k$ vrijheidsgraden wordt genoteerd als $t(k)$ [18](#page=18) [19](#page=19).
* **Vrijheidsgraden:** Het aantal vrijheidsgraden $(n-1)$ bepaalt de specifieke vorm van de t-verdeling. Meer vrijheidsgraden leiden tot een verdeling die dichter bij de standaard normale verdeling ligt [19](#page=19).
> **Voorbeeld t-verdeling:** Als we werken met een $t$-verdeling met 5 vrijheidsgraden ($t $) en we zoeken de waarde $x$ waarvoor $P(X > x) = 0.05$, dan vinden we uit de tabel dat $x = 2.015$ [20](#page=20) [5](#page=5).
* **Tabellen van de t-verdeling:** Deze tabellen geven kritische waarden voor verschillende aantallen vrijheidsgraden en waarschijnlijkheden (P-waarden), wat cruciaal is voor het uitvoeren van hypothesestoetsen [20](#page=20).
> **Fact:** $t_{\infty} = N(0,1)$ [19](#page=19).
Het is nog te bespreken wat er gebeurt als de steekproefgrootte klein is en de populatieverdeling niet bekend is [18](#page=18).
---
# Schatten van populatieparameters
Dit deel behandelt puntschattingen en intervalschattingen voor zowel populatiegemiddelden als populatieproporties, inclusief methoden voor het construeren en interpreteren van betrouwbaarheidsintervallen en hun toepassing in R [22](#page=22).
## 3. Schatten van populatieparameters
### 3.1 Puntschatten
Puntschatten is het proces waarbij een enkele waarde wordt gebruikt om een populatieparameter te benaderen. Bijvoorbeeld, om de gemiddelde geboortelengte van alle kinderen (populatiegemiddelde $\mu$) te schatten, wordt een steekproef van 30 geboortelengtes genomen, en het steekproefgemiddelde $\bar{x}$ wordt berekend [23](#page=23).
Het steekproefgemiddelde $\bar{X}$ is een schatter van het populatiegemiddelde $\mu$, en de concrete waarde $\bar{x}$ van een steekproef is een schatting van $\mu$. Het is belangrijk om te weten dat een puntschatting niet exact gelijk is aan de populatieparameter; elke nieuwe steekproef levert een andere schatting op. Een "goede schatter" is een onvertekende schatter, wat betekent dat het gemiddelde van alle mogelijke schattingen gelijk is aan de populatieparameter [24](#page=24) [25](#page=25).
### 3.2 Intervalschatten voor het populatiegemiddelde
Intervalschatten bouwt voort op puntschatten door een interval te construeren waarvan men met een bepaalde waarschijnlijkheid kan zeggen dat de populatieparameter erin ligt. Dit geeft een indicatie van de nauwkeurigheid van de puntschatting [26](#page=26).
#### 3.2.1 Betrouwbaarheidsinterval voor $\mu$ (standaarddeviatie populatie onbekend)
Wanneer de populatiestandaarddeviatie ($\sigma$) onbekend is en de steekproefgrootte $n$ groot is (of de populatie normaal verdeeld is), kunnen we gebruik maken van de $t$-verdeling om een betrouwbaarheidsinterval (BI) voor het populatiegemiddelde $\mu$ te construeren [27](#page=27).
De formule voor een $(1-\alpha) \times 100\%$ betrouwbaarheidsinterval voor $\mu$ is:
$$ \bar{x} \pm t_{\alpha/2}(n-1) \frac{s}{\sqrt{n}} $$
waarbij:
* $\bar{x}$ het steekproefgemiddelde is [31](#page=31).
* $s$ de steekproefstandaarddeviatie is [30](#page=30).
* $n$ de steekproefgrootte is [30](#page=30).
* $t_{\alpha/2}(n-1)$ de kritische waarde is uit de $t$-verdeling met $n-1$ vrijheidsgraden, die overeenkomt met de gekozen betrouwbaarheid (bijvoorbeeld, voor een 95% BI is $\alpha = 0.05$, dus $\alpha/2 = 0.025$ en de kritische waarde is $t_{0.025}(n-1)$) [32](#page=32).
**Voorbeeld:**
Voor een steekproef van $n=30$ met $\bar{x}=50.3$ en $s^2=28$ (dus $s \approx 5.29$), is een 95% BI:
$$ 50.3 \pm 2.045 \frac{\sqrt{28}}{\sqrt{30}} \approx 50.3 \pm 2.045 \times 0.966 = 50.3 \pm 1.975 $$
Dit resulteert in het interval $[48.325, 52.275]$. De kritische waarde $2.045$ is de $t$-waarde voor $n-1=29$ vrijheidsgraden en een $\alpha/2 = 0.025$ [30](#page=30) [33](#page=33).
> **Tip:** De kritische waarde $t_{\alpha/2}(n-1)$ verandert met de steekproefgrootte en het gewenste betrouwbaarheidsniveau [32](#page=32).
#### 3.2.2 Interpretatie van een betrouwbaarheidsinterval voor $\mu$
De interpretatie van een 95% betrouwbaarheidsinterval is cruciaal: als men 100 steekproeven zou nemen en telkens een 95% BI zou berekenen, dan zouden 95 van die 100 intervallen de werkelijke waarde van het populatiegemiddelde $\mu$ bevatten. Het steekproefgemiddelde $\bar{x}$ ligt altijd in het midden van het betrouwbaarheidsinterval voor $\mu$ [38](#page=38).
#### 3.2.3 Toepassing in R
R kan gebruikt worden om betrouwbaarheidsintervallen voor het populatiegemiddelde te berekenen.
**Voorbeeld (Obesitasstudie):**
Voor de variabele 'Wpiek' uit de obesitasstudie met $n=66$:
* Een 95% BI wordt berekend met de R-code, wat resulteert in het interval $[151.922, 173.381]$ [42](#page=42).
* Een 99% BI wordt berekend, wat resulteert in het interval $[148.3952, 176.9079]$ [43](#page=43).
### 3.3 Schatten van de populatieproportie
Net als bij het populatiegemiddelde kunnen we ook een populatieproportie schatten. Een proportie kan worden gezien als de fractie, het percentage, of de kans op een bepaalde uitkomst. Een voorbeeld is de proportie vrouwen in de wereldbevolking of de proportie Belgen met bloedgroep AB [45](#page=45).
#### 3.3.1 Puntschatten van de populatieproportie
Een goede schatter voor de populatieproportie $\pi$ is de steekproefproportie $\hat{p}$. Deze wordt berekend als het aantal successen in de steekproef gedeeld door de steekproefgrootte [46](#page=46):
$$ \hat{p} = \frac{\text{Aantal successen in de steekproef}}{n} $$
Het aantal successen in een steekproef volgt een binomiale verdeling $B(n; \pi)$, waarbij $\pi$ de succeskans is [47](#page=47).
#### 3.3.2 Intervalschatten voor de populatieproportie
Bij een voldoende grote steekproef kunnen we de normale benadering van de binomiale verdeling gebruiken. De voorwaarden voor een voldoende grote steekproef zijn:
* $n \cdot \hat{p} \geq 5$ (minstens 5 successen in de steekproef) [49](#page=49).
* $n \cdot (1-\hat{p}) \geq 5$ (minstens 5 mislukkingen in de steekproef) [49](#page=49).
Indien aan deze voorwaarden is voldaan, wordt een $(1-\alpha) \times 100\%$ betrouwbaarheidsinterval voor $\pi$ gegeven door:
$$ \hat{p} \pm z_{1-\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $$
waarbij:
* $\hat{p}$ de steekproefproportie is [51](#page=51).
* $n$ de steekproefgrootte is [51](#page=51).
* $z_{1-\alpha/2}$ de kritische waarde uit de standaard normale verdeling is. Voorbeelden van kritische waarden zijn [51](#page=51):
* 90% BI $\implies z_{0.95} = 1.645$
* 95% BI $\implies z_{0.975} = 1.960$
* 99% BI $\implies z_{0.995} = 2.576$
**Voorbeeld:**
Voor een steekproef van $n=54$ studenten, waarbij 23 bloedgroep O hebben ($\hat{p} = 23/54 \approx 0.4259$), is een 95% BI:
$$ 0.4259 \pm 1.96 \sqrt{\frac{0.4259(1-0.4259)}{54}} \approx 0.4259 \pm 1.96 \times 0.0676 $$
$$ \approx 0.4259 \pm 0.1325 $$
Dit resulteert in het interval $[0.2934, 0.5584]$. De voorwaarden $n\hat{p} = 23 \geq 5$ en $n(1-\hat{p}) = 31 \geq 5$ zijn voldaan [52](#page=52).
> **Tip:** De voorwaarden $n \hat{p} \geq 5$ en $n(1-\hat{p}) \geq 5$ zijn essentieel voor de betrouwbaarheid van het interval berekend met de normale benadering [49](#page=49).
#### 3.3.3 Interpretatie van een betrouwbaarheidsinterval voor $\pi$
De interpretatie van een 95% betrouwbaarheidsinterval voor een proportie is vergelijkbaar met die voor een gemiddelde: als we 100 steekproeven zouden nemen, zouden 95 van de 100 intervallen de werkelijke populatieproportie $\pi$ bevatten. De steekproefproportie $\hat{p}$ ligt altijd in het midden van het betrouwbaarheidsinterval voor $\pi$ [54](#page=54).
#### 3.3.4 Toepassing in R
R kan ook gebruikt worden om betrouwbaarheidsintervallen voor populatieproporties te berekenen.
**Voorbeeld (Obesitasstudie):**
Om een 95% BI te geven voor de proportie jongens (waarvoor 1=jongen codeert) in de populatie:
* Gegeven is dat er 38 jongens zijn op $n=66$ kinderen [57](#page=57).
* De R-code levert een 95% BI op van $[0.4556, 0.6876]$ [57](#page=57).
**Voorbeeld met niet-voldane voorwaarden:**
Voor een studie met 16 patiënten waarbij 4 neveneffecten ondervonden, is $n=16$ en $\hat{p}=4/16=0.25$. De voorwaarden zijn niet volledig voldaan, aangezien $n\hat{p}=4 < 5$. Desondanks kan een 90% BI worden berekend met R, wat resulteert in een specifiek interval. Dit benadrukt het belang van het controleren van de voorwaarden voor de gebruikte formules [55](#page=55) [58](#page=58).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Populatie | De volledige verzameling van alle elementen of individuen waarover een onderzoek of analyse gaat. Dit kan bijvoorbeeld alle inwoners van een land zijn, of alle bloedstalen in een labokoelkast. |
| Steekproef | Een subset van de populatie die wordt geselecteerd om de populatie te vertegenwoordigen. De kenmerken van de steekproef worden geanalyseerd om conclusies te trekken over de populatie. |
| Representatief | Een steekproef wordt als representatief beschouwd wanneer de kenmerken van de steekproef de kenmerken van de populatie weerspiegelen, zodat conclusies die op de steekproef gebaseerd zijn, gegeneraliseerd kunnen worden naar de populatie. |
| Toevalsvariabele | Een variabele waarvan de waarde wordt bepaald door een willekeurig proces of experiment. De mogelijke waarden en hun kansen worden beschreven door een kansverdeling. |
| Steekproefgrootte | Het aantal elementen of observaties dat deel uitmaakt van een steekproef. Dit wordt vaak aangeduid met de letter $n$. |
| Onafhankelijk | Twee of meer gebeurtenissen of variabelen zijn onafhankelijk als de uitkomst van de ene de uitkomst van de andere niet beïnvloedt. In een steekproef betekent dit dat elke trekking van een element niet afhankelijk is van voorgaande of volgende trekkingen. |
| Statistiek | Een waarde die wordt berekend op basis van de gegevens in een steekproef. Statistieken worden gebruikt om populatieparameters te schatten. Voorbeelden zijn het steekproefgemiddelde en de steekproefvariantie. |
| Steekproefgemiddelde | Het gemiddelde van de waarden in een steekproef. Het is een schatter voor het populatiegemiddelde en wordt berekend door de som van de steekproefwaarden te delen door de steekproefgrootte. Formule: $\overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$. |
| Steekproefvariantie | Een maat voor de spreiding van de gegevens in een steekproef rondom het steekproefgemiddelde. De populatievariantie wordt geschat met behulp van de steekproefvariantie. Formule: $S^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i - \overline{X})^2$. |
| Populatiegemiddelde ($\mu$) | Het theoretische gemiddelde van de waarden in de gehele populatie. Dit is een parameter die vaak wordt geschat met behulp van het steekproefgemiddelde. |
| Populatievariantie ($\sigma^2$) | De theoretische variantie van de waarden in de gehele populatie. Dit is een parameter die vaak wordt geschat met behulp van de steekproefvariantie. |
| T-verdeling | Een kansverdeling die vergelijkbaar is met de normale verdeling, maar die wordt gebruikt bij het schatten van populatiegemiddelden wanneer de populatievariantie onbekend is en de steekproefgrootte klein is. De vorm van de t-verdeling hangt af van het aantal vrijheidsgraden. |
| Vrijheidsgraden | Een parameter die de vorm van de t-verdeling bepaalt. Bij het schatten van een populatiegemiddelde met een kleine steekproef is het aantal vrijheidsgraden gelijk aan $n-1$, waarbij $n$ de steekproefgrootte is. |
| Puntschatting | Een enkele waarde die wordt gebruikt om een populatieparameter te benaderen. Het steekproefgemiddelde is een puntschatting voor het populatiegemiddelde. |
| Intervalschatten | Het proces van het construeren van een interval dat naar verwachting de populatieparameter bevat met een bepaalde mate van zekerheid. |
| Betrouwbaarheidsinterval (BI) | Een reeks waarden die waarschijnlijk een populatieparameter bevat. Het wordt gedefinieerd door een onder- en bovengrens, en een betrouwbaarheidsniveau. |
| Betrouwbaarheidsniveau | De kans dat het betrouwbaarheidsinterval de werkelijke populatieparameter bevat. Gangbare niveaus zijn 90%, 95% en 99%. |
| Kritische waarde | Een waarde uit een kansverdeling die wordt gebruikt om de grenzen van een betrouwbaarheidsinterval te bepalen. Voor de t-verdeling wordt deze aangeduid als $t_{\alpha/2}(n-1)$ en voor de standaard normale verdeling als $z_{\alpha/2}$. |
| Populatieproportie ($\pi$) | Het aandeel of percentage van de populatie dat een bepaalde eigenschap bezit. Dit wordt vaak geschat met behulp van de steekproefproportie. |
| Steekproefproportie ($\overline{p}$) | Het aandeel of percentage van de steekproef dat een bepaalde eigenschap bezit. Het is een schatter voor de populatieproportie. Formule: $\overline{p} = \frac{\text{Aantal successen in de steekproef}}{\text{steekproefgrootte}}$. |
| Succes | In de context van proportieschatting verwijst 'succes' naar het voorkomen van de eigenschap waarin men geïnteresseerd is in een individu of observatie. |
| Mislukking | In de context van proportieschatting verwijst 'mislukking' naar het niet voorkomen van de eigenschap waarin men geïnteresseerd is in een individu of observatie. |
| Normale benadering | Een techniek die wordt gebruikt om een binomiale verdeling te benaderen met een normale verdeling, wanneer de steekproefgrootte voldoende groot is. Dit vereenvoudigt de berekening van betrouwbaarheidsintervallen voor proporties. |
| Onvertekende schatter (unbiased estimator) | Een schatter waarvan de verwachte waarde gelijk is aan de te schatten populatieparameter. Dit betekent dat de schatter gemiddeld genomen de parameter correct inschat. |
| $t$-verdeling met $k$ vrijheidsgraden | Een continue kansverdeling die lijkt op de normale verdeling, maar met zwaardere staarten, wat betekent dat extremere waarden waarschijnlijker zijn. De parameter $k$ geeft het aantal vrijheidsgraden aan, dat de vorm van de verdeling bepaalt. |
| $N(0,1)$ | Standaard normale verdeling, een normale verdeling met een gemiddelde van 0 en een standaarddeviatie van 1. |
| $z_{1-\alpha/2}$ | De kritische waarde uit de standaard normale verdeling die een oppervlakte van $1-\alpha/2$ naar links heeft. Deze waarde wordt gebruikt om betrouwbaarheidsintervallen te berekenen. |