Cover
Start nu gratis Week5 (2).pptx
Summary
# Introductie tot logistische regressie en de beperkingen van lineaire regressie
Dit deel introduceert logistische regressie en legt uit waarom lineaire regressie ontoereikend is voor classificatietaken, met nadruk op de noodzaak van een functie die de output beperkt tussen 0 en 1.
### 1.1 Waarom lineaire regressie ontoereikend is voor classificatie
Lineaire regressie wordt doorgaans gebruikt voor het voorspellen van continue variabelen. Wanneer we echter proberen een classificatieprobleem op te lossen met lineaire regressie, stuiten we op significante beperkingen.
#### 1.1.1 Problemen met het voorspellen van probabiliteiten
* **Extrapolatie buiten het bereik 0 tot 1:** Lineaire regressiemodellen kunnen voorspellingen genereren die buiten het theoretische bereik van kansen liggen (0 tot 1). Dit betekent dat een lineair model kan voorspellen dat een gebeurtenis een kans heeft die groter is dan 1 (100%) of kleiner dan 0 (0%), wat logisch onmogelijk is voor kansen.
* **Gevoeligheid voor outliers:** De lineaire relatie is gevoelig voor extreme waarden, waardoor de voorspelde kansen sterk kunnen afwijken wanneer er outliers in de data aanwezig zijn.
#### 1.1.2 De noodzaak van een beperkte output
Voor classificatietaken is het cruciaal dat het model uitkomsten produceert die geïnterpreteerd kunnen worden als kansen. Deze kansen moeten altijd liggen tussen 0 en 1 (inclusief). Daarom is een functie nodig die de output van het model beperkt binnen dit bereik.
### 1.2 Logistische regressie: een oplossing voor classificatie
Logistische regressie is een statistische methode die wordt gebruikt voor classificatieproblemen. Het modelleert de kans op een bepaalde uitkomst met behulp van de logistische functie, ook wel de sigmoidfunctie genoemd.
#### 1.2.1 De logistische functie (sigmoidfunctie)
De logistische functie transformeert elke reële inputwaarde naar een outputwaarde tussen 0 en 1. De formule voor de logistische functie is:
$$ P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \dots + \beta_n X_n)}} $$
Hierbij staat:
* $P(Y=1|X)$ voor de kans op de positieve klasse (bijvoorbeeld "ja" of "1") gegeven de inputvariabelen $X$.
* $e$ voor het grondtal van de natuurlijke logaritme.
* $\beta_0$ voor de intercept.
* $\beta_1, \dots, \beta_n$ voor de coëfficiënten van de inputvariabelen $X_1, \dots, X_n$.
De term $\beta_0 + \beta_1 X_1 + \dots + \beta_n X_n$ is de lineaire combinatie van de inputvariabelen, vergelijkbaar met lineaire regressie. De logistische functie zorgt er echter voor dat de uiteindelijke voorspelde kans altijd binnen het bereik $(0, 1)$ blijft.
#### 1.2.2 Interpretatie van de logistische regressie output
De output van een logistisch regressiemodel is de geschatte kans op de positieve klasse. Deze kans kan worden gebruikt om een beslissing te nemen over de klasse waar een observatie toe behoort.
* **Odds:** Een belangrijk concept in logistische regressie is de "odds". De odds worden gedefinieerd als de verhouding tussen de kans op een gebeurtenis en de kans op het niet plaatsvinden van die gebeurtenis.
$$ \text{Odds} = \frac{P(Y=1|X)}{1 - P(Y=1|X)} $$
* **Log-odds (logit):** De logaritme van de odds wordt ook wel de logit genoemd. De logistische regressie modelleert de log-odds als een lineaire functie van de inputvariabelen:
$$ \log\left(\frac{P(Y=1|X)}{1 - P(Y=1|X)}\right) = \beta_0 + \beta_1 X_1 + \dots + \beta_n X_n $$
Dit betekent dat een toename van één eenheid in een inputvariabele $X_i$ leidt tot een verandering in de log-odds die gelijk is aan $\beta_i$. De impact op de kans $P(Y=1|X)$ zelf is niet lineair, maar hangt af van de huidige waarde van $P$.
> **Tip:** De odds vertegenwoordigen de relatieve waarschijnlijkheid van iets dat gebeurt ten opzichte van het niet gebeuren. Denk hierbij aan weddenschappen waarbij de odds aangeven hoe waarschijnlijk een bepaalde uitkomst is.
#### 1.2.3 Belang van het threshold
Omdat logistische regressie een kans produceert, is er een drempelwaarde (threshold) nodig om een definitieve classificatie te maken. Als de voorspelde kans groter is dan deze drempel, wordt de observatie geclassificeerd als behorend tot de positieve klasse; anders behoort het tot de negatieve klasse. De standaard drempel is vaak 0.5.
> **Voorbeeld:** Een logistisch regressiemodel voorspelt een kans van 0.75 op wanbetaling voor een klant. Als de drempelwaarde 0.5 is, wordt deze klant geclassificeerd als een wanbetaler.
### 1.3 Uitbreidingen van logistische regressie
#### 1.3.1 Multinomiale logistische regressie
Wanneer er meer dan twee categorieën zijn om te classificeren (bijvoorbeeld "kat", "hond", "vogel"), wordt multinomiale logistische regressie gebruikt. Er zijn twee veelvoorkomende benaderingen:
* **Met een baseline (asymmetrisch):** Eén categorie wordt als referentie (baseline) gekozen. De coëfficiënten worden geïnterpreteerd als de verandering in de log-odds van een specifieke categorie ten opzichte van de baselinecategorie. De log-odds van de kans op een gebeurtenis ten opzichte van de baseline worden gemodelleerd.
$$ \log\left(\frac{P(Y=k|X)}{P(Y=\text{baseline}|X)}\right) = \beta_{0k} + \beta_{1k} X_1 + \dots + \beta_{nk} X_n \quad \text{voor } k \neq \text{baseline} $$
* **Symmetrisch (softmax):** Deze benadering berekent voor elke categorie een onafhankelijke kans. De coëfficiënten vertegenwoordigen het verschil in log-odds ten opzichte van *elke* andere categorie. Dit model wordt vaak gebruikt in deep learning.
$$ P(Y=k|X) = \frac{e^{\beta_{0k} + \beta_{1k} X_1 + \dots + \beta_{nk} X_n}}{\sum_{j=1}^{K} e^{\beta_{0j} + \beta_{1j} X_1 + \dots + \beta_{nj} X_n}} $$
waarbij $K$ het totale aantal categorieën is.
> **Opmerking:** Binaire logistische regressie kan worden gezien als een speciaal geval van de "met baseline" benadering, waarbij de baseline de afwezigheid van de gebeurtenis is (kans 0).
---
# Evaluatie van classificatiemodellen
Dit onderwerp behandelt de verschillende methoden en metrische gegevens die worden gebruikt om de prestaties van classificatiemodellen te beoordelen, inclusief de confusiematrix, precisie, recall en drempelwaarden.
### 2.1 De noodzaak van probabilistische classificatie
Lineaire regressie is niet altijd geschikt voor classificatieproblemen. Een van de belangrijkste beperkingen is dat de voorspelde waarden de grenzen van 0 en 1 kunnen overschrijden, wat onlogisch is voor kansen. Om dit te ondervangen, wordt een functie gebruikt die de output beperkt tot het interval $[0, 1]$. De logistische functie (ook wel sigmoïde functie genoemd) is hiervoor een veelgebruikte keuze.
#### 2.1.1 Interpretatie van de logistische functie
De logistische functie transformeert een lineaire combinatie van predictoren naar een kans. De odds zijn de verhouding tussen de kans op een gebeurtenis en de kans op het niet-optreden ervan. De logit-transformatie is de natuurlijke logaritme van de odds. De coëfficiënten van een logistische regressie geven de verandering in de log-odds weer per eenheidstoename van een predictor, wat afhangt van de huidige waarde van de kans.
### 2.2 Evaluatie van classificatiemodellen
Om de prestaties van een classificatiemodel te beoordelen, zijn verschillende metrische gegevens essentieel.
#### 2.2.1 De confusiematrix
De confusiematrix is een fundamenteel instrument om de prestaties van een classificatiemodel te evalueren. Het vergelijkt de werkelijke klassen met de voorspelde klassen. Voor een binaire classificatie zijn de volgende vier categorieën van belang:
* **True Positives (TP):** Het model voorspelt correct de positieve klasse.
* **True Negatives (TN):** Het model voorspelt correct de negatieve klasse.
* **False Positives (FP):** Het model voorspelt de positieve klasse, maar de werkelijke klasse is negatief (Type I fout).
* **False Negatives (FN):** Het model voorspelt de negatieve klasse, maar de werkelijke klasse is positief (Type II fout).
De confusiematrix kan worden weergegeven als:
| | Voorspelde Positief | Voorspelde Negatief |
| :---------- | :------------------ | :------------------ |
| **Werkelijk Positief** | TP | FN |
| **Werkelijk Negatief** | FP | TN |
#### 2.2.2 Precisie (Precision)
Precisie meet de nauwkeurigheid van de positieve voorspellingen. Het geeft aan welk deel van de waarnemingen die als positief zijn geclassificeerd, daadwerkelijk positief waren.
De formule voor precisie is:
$$ \text{Precisie} = \frac{TP}{TP + FP} $$
#### 2.2.3 Recall (Sensitivity, True Positive Rate)
Recall meet het vermogen van het model om alle positieve gevallen te identificeren. Het geeft aan welk deel van de werkelijke positieve gevallen correct is geïdentificeerd door het model.
De formule voor recall is:
$$ \text{Recall} = \frac{TP}{TP + FN} $$
#### 2.2.4 Belang van precisie versus recall
Het relatieve belang van precisie en recall hangt sterk af van de specifieke toepassing:
* **Medische diagnoses (bv. kankerdetectie):** Hoge recall is cruciaal. Het is beter om enkele onnodige onderzoeken te doen (hoge FN) dan om een patiënt niet te behandelen door een gemiste diagnose (hoge FP). Men wil zoveel mogelijk werkelijke positieven opsporen.
* **Investeringsadvies of fraude detectie:** Hoge precisie is vaak belangrijker. Men wil alleen investeren in zeer waarschijnlijke succesvolle kansen of alleen fraude signaleren die zeer waarschijnlijk ook daadwerkelijk fraude is, om onnodige kosten of afwijzingen te vermijden.
> **Tip:** Bij fraude detectie waarbij een extra verificatiestap (zoals pincode) nodig is, kan een hogere recall (meer potentiële fraude signaleren) acceptabel zijn, omdat de extra verificatie de kosten van een vals positief beperkt.
#### 2.2.5 Drempelwaarden (Thresholds)
Classificatiemodellen voorspellen vaak kansen. Om een definitieve klasse toe te kennen, wordt een drempelwaarde gebruikt. Als de voorspelde kans groter is dan de drempelwaarde, wordt de waarneming geclassificeerd als positief; anders als negatief. De keuze van de drempelwaarde beïnvloedt de balans tussen precisie en recall.
> **Voorbeeld:** Als de drempelwaarde wordt verlaagd, zal het model meer gevallen als positief classificeren. Dit leidt waarschijnlijk tot een hogere recall (meer werkelijke positieven worden gevonden), maar ook tot een lagere precisie (meer vals positieven).
#### 2.2.6 Evaluatie onafhankelijk van de drempelwaarde
Soms is het wenselijk om de algehele prestatie van een model te evalueren, onafhankelijk van een specifieke drempelwaarde.
##### 2.2.6.1 Receiver Operating Characteristic (ROC)-curve
De ROC-curve plot de True Positive Rate (Recall) tegen de False Positive Rate ($FPR = \frac{FP}{FP + TN}$) voor verschillende drempelwaarden. Een ideaal model heeft een ROC-curve die zo dicht mogelijk bij de linkerbovenhoek ligt.
##### 2.2.6.2 Area Under the Curve (AUC)
De AUC is het gebied onder de ROC-curve. Het biedt een samenvattende maatstaf voor de prestaties van het model over alle mogelijke drempelwaarden.
* Een AUC van $1$ vertegenwoordigt een perfect classificatiemodel.
* Een AUC van $0.5$ vertegenwoordigt een model dat niet beter presteert dan willekeurig gokken.
> **Tip:** Een hogere AUC duidt op een betere discriminatiekracht van het model.
### 2.3 Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation is een methode om de parameters van een statistisch model te schatten door de waarschijnlijkheid van het waargenomen data te maximaliseren. Voor logistische regressie worden de coëfficiënten zo gekozen dat de kans op het observeren van de trainingsdata maximaal is. Dit is hoe veel classificatie-algoritmen geoptimaliseerd worden.
### 2.4 Multinominale logistische regressie
Wanneer er meer dan twee categorieën zijn (multinominale classificatie), kan multinominale logistische regressie worden gebruikt. Er zijn twee benaderingen:
1. **Met baseline:** Vergelijkt elke klasse met een referentieklasse. De coëfficiënten geven de log-odds weer van die klasse ten opzichte van de baseline.
2. **Symmetrische (softmax) benadering:** Berekent een onafhankelijke kans voor elke klasse. De interpretatie van de coëfficiënten is hier de *verschillen* in log-odds tussen klassen.
Bij binaire logistische regressie kan dit gezien worden als een speciaal geval waarbij de ene klasse de baseline is (de 'niet-gebeurtenis').
---
# Maximum likelihood schatting en multinomiale logistische regressie
Dit deel verkent Maximum Likelihood schatting als een optimalisatiemethode voor classificatiealgoritmen en breidt logistische regressie uit naar meer dan twee categorieën via multinomiale logistische regressie.
### 3.1 Maximum likelihood schatting
Maximum Likelihood (ML) schatting is een fundamentele methode om parameters van een statistisch model te schatten, met name in de context van classificatiealgoritmen. Het doel is om de modelparameters te vinden die de waarschijnlijkheid maximaliseren dat de geobserveerde data werden gegenereerd.
#### 3.1.1 Het principe van Maximum Likelihood
Stel dat we een dataset hebben met observaties $x_1, x_2, \ldots, x_n$ en een model dat afhangt van parameters $\theta$. De kansfunctie, ook wel likelihood-functie genoemd, is de kans op de data gegeven de parameters, $L(\theta | x_1, \ldots, x_n) = P(x_1, \ldots, x_n | \theta)$. Voor onafhankelijke observaties is dit het product van de individuele kansen:
$$ L(\theta | x_1, \ldots, x_n) = \prod_{i=1}^n P(x_i | \theta) $$
De Maximum Likelihood schatter $\hat{\theta}$ is de waarde van $\theta$ die deze likelihood-functie maximaliseert. Vaak is het rekenkundig handiger om de log-likelihood functie te maximaliseren, aangezien het product wordt omgezet in een som, en de maximumwaarden hetzelfde zijn omdat de logaritme een monotoon stijgende functie is:
$$ \ell(\theta | x_1, \ldots, x_n) = \log L(\theta | x_1, \ldots, x_n) = \sum_{i=1}^n \log P(x_i | \theta) $$
Om de parameters te vinden die de log-likelihood maximaliseren, worden de partiële afgeleiden van $\ell$ naar elke parameter $\theta_j$ gelijkgesteld aan nul en opgelost.
> **Tip:** Veel classificatiealgoritmen, waaronder logistische regressie, maken gebruik van Maximum Likelihood schatting om de optimale modelparameters te bepalen.
#### 3.1.2 Toepassing in logistische regressie
Bij binaire logistische regressie schatten we de parameters $\beta_0, \beta_1, \ldots, \beta_p$ van een lineair model dat de log-odds van de kans op de positieve klasse ($\pi$) relateert aan de predictoren $x_1, \ldots, x_p$:
$$ \log\left(\frac{\pi}{1-\pi}\right) = \beta_0 + \beta_1 x_1 + \ldots + \beta_p x_p $$
De waarschijnlijkheid $\pi$ kan worden uitgedrukt als:
$$ \pi(x; \beta) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \ldots + \beta_p x_p)}} $$
Voor een dataset met $n$ observaties, waarbij $y_i=1$ de positieve klasse en $y_i=0$ de negatieve klasse aangeeft, is de likelihood-functie voor de parametervector $\beta$:
$$ L(\beta | x_1, \ldots, x_n) = \prod_{i=1}^n [\pi(x_i; \beta)]^{y_i} [1 - \pi(x_i; \beta)]^{1-y_i} $$
De log-likelihood is dan:
$$ \ell(\beta | x_1, \ldots, x_n) = \sum_{i=1}^n \left[ y_i \log(\pi(x_i; \beta)) + (1-y_i) \log(1-\pi(x_i; \beta)) \right] $$
Het maximaliseren van deze log-likelihood ten opzichte van $\beta$ levert de Maximum Likelihood schatters op voor de parameters van het binaire logistische regressiemodel.
### 3.2 Multinomiale logistische regressie
Multinomiale logistische regressie (ook wel softmax regressie genoemd) is een uitbreiding van de binaire logistische regressie naar situaties waarin de afhankelijke variabele meer dan twee categorische en ongeordende uitkomsten heeft.
#### 3.2.1 Scenario's met meer dan twee categorieën
In tegenstelling tot binaire logistische regressie, waar we de kans op twee uitkomsten modelleren, hebben we bij multinomiale logistische regressie $K$ mogelijke uitkomsten voor de categorische variabele $Y$. We modelleren de kans dat een observatie tot een bepaalde categorie behoort, gegeven de predictoren.
#### 3.2.2 Twee benaderingen voor parameterisatie
Er zijn twee veelvoorkomende benaderingen om de parameters te definiëren in multinomiale logistische regressie:
##### 3.2.2.1 Benadering met een baseline categorie
Bij deze benadering kiezen we één categorie als de "baseline" of referentiecategorie. De parameters van de andere $K-1$ categorieën worden dan geschat ten opzichte van deze baseline.
Voor categorie $j$, waar $j \in \{1, \ldots, K-1\}$, en een set predictoren $x$, modelleren we de log-odds van de kans op categorie $j$ ten opzichte van de baseline categorie $K$:
$$ \log\left(\frac{P(Y=j | x)}{P(Y=K | x)}\right) = \beta_{j0} + \beta_{j1} x_1 + \ldots + \beta_{jp} x_p $$
De kans op de baseline categorie $K$ wordt dan afgeleid:
$$ P(Y=K | x) = 1 - \sum_{j=1}^{K-1} P(Y=j | x) $$
En de kans op categorie $j$ wordt gegeven door:
$$ P(Y=j | x) = \frac{e^{\beta_{j0} + \beta_{j1} x_1 + \ldots + \beta_{jp} x_p}}{1 + \sum_{k=1}^{K-1} e^{\beta_{k0} + \beta_{k1} x_1 + \ldots + \beta_{kp} x_p}} $$
En voor de baseline categorie $K$:
$$ P(Y=K | x) = \frac{1}{1 + \sum_{k=1}^{K-1} e^{\beta_{k0} + \beta_{k1} x_1 + \ldots + \beta_{kp} x_p}} $$
De interpretatie van de coëfficiënten $\beta_{jk}$ is de verandering in de log-odds van categorie $j$ ten opzichte van de baseline categorie $K$ voor een eenheidsverandering in predictor $x_k$, terwijl de andere predictoren constant blijven.
> **Tip:** Deze benadering is directer gerelateerd aan de binaire logistische regressie, waarbij de uitkomst wordt vergeleken met het "niet-gebeuren" (de baseline).
##### 3.2.2.2 De symmetrische (softmax) benadering
In de symmetrische benadering wordt voor elke categorie $j \in \{1, \ldots, K\}$ de kans gemodelleerd, zonder een expliciete baseline categorie. De kans op categorie $j$ wordt uitgedrukt als:
$$ P(Y=j | x) = \frac{e^{\beta_{j0} + \beta_{j1} x_1 + \ldots + \beta_{jp} x_p}}{\sum_{k=1}^{K} e^{\beta_{k0} + \beta_{k1} x_1 + \ldots + \beta_{kp} x_p}} $$
Hierbij wordt de som van de kansen over alle categorieën gelijk aan één gegarandeerd. Echter, deze parameterisatie is niet uniek; als we een constante $c$ optellen bij alle $\beta_{j0}$ en de corresponderende constanten bij de $\beta_{jk}$ termen, blijven de kansen $P(Y=j|x)$ onveranderd. Om dit te hanteren, wordt vaak één van de intercepten (bijvoorbeeld $\beta_{10}$) gefixeerd op nul, of worden de coëfficiënten gedefinieerd als verschillen.
Een veelvoorkomende manier om dit te doen is door de coëfficiënten te definiëren als verschillen ten opzichte van een referentiecategorie, die echter impliciet is in de formule en niet expliciet als zodanig wordt behandeld in de interpretatie van individuele coëfficiënten. De kans wordt dan vaak geschreven als:
$$ P(Y=j | x) = \frac{e^{\mathbf{x}^T \mathbf{\beta}_j}}{\sum_{k=1}^{K} e^{\mathbf{x}^T \mathbf{\beta}_k}} $$
waar $\mathbf{\beta}_j$ de vector van coëfficiënten voor categorie $j$ is.
De interpretatie van de coëfficiënten in deze symmetrische benadering is complexer. De term $e^{\beta_{ji}}$ kan worden geïnterpreteerd als een relatieve kansratio ten opzichte van een impliciete referentiecategorie. Een gebruikelijke interpretatie is dat de coëfficiënten $\beta_{jk}$ de verschillen in log-kansen tussen categorie $j$ en categorie $k$ representeren.
> **Tip:** De symmetrische benadering is theoretisch elegant en wordt vaak gebruikt in machine learning frameworks. De keuze tussen de twee benaderingen hangt af van de gewenste interpretatie van de coëfficiënten en de specifieke software die wordt gebruikt.
#### 3.2.3 Maximum Likelihood schatting in multinomiale regressie
Net als bij binaire logistische regressie, worden de parameters van multinomiale logistische regressiemodellen geschat met behulp van Maximum Likelihood. De log-likelihood functie wordt opgesteld op basis van de geobserveerde data en de kansen zoals gedefinieerd door het model. Vervolgens worden de partiële afgeleiden naar de parameters berekend en gelijkgesteld aan nul om de optimale parameters te vinden. Dit proces vereist iteratieve numerieke methoden, aangezien er geen gesloten-vorm oplossing is voor de Maximum Likelihood schatters.
> **Example:** Stel we willen het type vervoermiddel (auto, fiets, trein) voorspellen op basis van afstand tot het werk. Multinomiale logistische regressie kan hier worden toegepast. We zouden één model kunnen hebben waarbij "auto" de baseline is, en de parameters schatten de log-odds van "fiets" versus "auto" en "trein" versus "auto". Of we gebruiken de softmax benadering om de kansen voor alle drie de opties direct te modelleren.
#### 3.2.4 Verschil in interpretatie van coëfficiënten
Het belangrijkste verschil tussen de twee benaderingen ligt in de interpretatie van de coëfficiënten:
* **Met baseline:** Coëfficiënten vergelijken de log-odds van een specifieke categorie met de log-odds van de baseline categorie.
* **Symmetrisch:** Coëfficiënten kunnen worden gezien als verschillen in log-odds tussen categorieën, of als relatieve kansen ten opzichte van een impliciete referentie.
Beide methoden leiden tot dezelfde voorspelde kansen, maar de manier waarop de relatie tussen predictoren en uitkomsten wordt gekwantificeerd, verschilt.
---
# Conceptuele oefeningen en toepassingen
Dit deel verkent conceptuele oefeningen en toepassingen van logistische regressie, met een focus op het schatten van kansen en het bepalen van de belangrijkste evaluatiemetrieken in een praktische context zoals fraudedetectie.
### 4.1 Waarom kansen schatten?
Logistische regressie wordt gebruikt om de kans op een bepaalde uitkomst te modelleren. In plaats van een directe classificatie, schat het de waarschijnlijkheid dat een waarneming tot een bepaalde klasse behoort. Dit is cruciaal omdat het een genuanceerder inzicht biedt dan een binaire (ja/nee) uitkomst.
### 4.2 Waarom niet gewoon lineaire regressie gebruiken?
Lineaire regressie heeft beperkingen bij het modelleren van kansen:
* **Output buiten het [0, 1] bereik:** Een lineaire functie kan uitkomsten produceren die kleiner zijn dan 0 of groter dan 1, wat onmogelijk is voor kansen.
* **Niet-lineaire relatie:** De relatie tussen de predictoren en de kans op een uitkomst is vaak niet-lineair.
Logistische regressie lost dit op door een sigmoidale (logistische) functie te gebruiken die de output altijd beperkt tot het interval tussen 0 en 1.
### 4.3 De logistische functie en odds
De logistische functie, ook wel de sigmoidale functie genoemd, wordt gebruikt om de lineaire combinatie van predictoren om te zetten in een kans:
$$ P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \dots + \beta_nX_n)}} $$
Hierbij is $P(Y=1|X)$ de kans op gebeurtenis 1 gegeven de predictoren $X$.
Een gerelateerd concept is de **odds**: de verhouding tussen de kans op een gebeurtenis en de kans op het niet-optreden van die gebeurtenis:
$$ \text{Odds} = \frac{P(Y=1|X)}{1 - P(Y=1|X)} $$
De log-odds (ook wel logit genoemd) is de natuurlijke logaritme van de odds:
$$ \log(\text{Odds}) = \log\left(\frac{P(Y=1|X)}{1 - P(Y=1|X)}\right) = \beta_0 + \beta_1X_1 + \dots + \beta_nX_n $$
Dit laatste is de lineaire predictor, die de basis vormt voor de logistische regressie.
> **Tip:** Begrijpen hoe de coëfficiënten ($\beta_i$) de log-odds beïnvloeden, is essentieel. Een toename van één eenheid in $X_i$ verandert de log-odds met $\beta_i$. De interpretatie van de coëfficiënten in termen van kansen hangt af van de huidige waarden van de predictoren.
### 4.4 Classificatie-evaluatie
Wanneer logistische regressie wordt gebruikt voor classificatie, is het belangrijk om de prestaties van het model te evalueren. Dit gebeurt vaak aan de hand van de **confusion matrix**.
#### 4.4.1 Confusion Matrix
Een confusion matrix is een tabel die de voorspelde klassen vergelijkt met de werkelijke klassen. Voor een binaire classificatie (Klasse 0 en Klasse 1) ziet deze er als volgt uit:
| | Voorspeld Klasse 0 | Voorspeld Klasse 1 |
| :-------- | :----------------- | :----------------- |
| Werkelijk 0 | True Negative (TN) | False Positive (FP) |
| Werkelijk 1 | False Negative (FN) | True Positive (TP) |
* **True Negative (TN):** Correct voorspeld als niet-gebeurtenis.
* **False Positive (FP):** Onterecht voorspeld als gebeurtenis (Type I fout).
* **False Negative (FN):** Onterecht voorspeld als niet-gebeurtenis (Type II fout).
* **True Positive (TP):** Correct voorspeld als gebeurtenis.
#### 4.4.2 Belangrijke evaluatiemetrieken
Op basis van de confusion matrix kunnen verschillende metrieken worden berekend:
* **Accuracy (Nauwkeurigheid):** Het totale percentage correct geclassificeerde waarnemingen.
$$ \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} $$
> **Tip:** Accuracy kan misleidend zijn bij ongebalanceerde datasets, waar één klasse veel vaker voorkomt dan de andere.
* **Precision (Precisie):** Van alle waarnemingen die als positief zijn voorspeld, hoeveel waren er daadwerkelijk positief?
$$ \text{Precision} = \frac{TP}{TP + FP} $$
Precisie meet de betrouwbaarheid van positieve voorspellingen. Een hoge precisie betekent weinig False Positives.
* **Recall (Gevoeligheid, Sensitiviteit):** Van alle werkelijke positieve waarnemingen, hoeveel zijn er correct geïdentificeerd?
$$ \text{Recall} = \frac{TP}{TP + FN} $$
Recall meet hoe goed het model in staat is om alle positieve gevallen te detecteren. Een hoge recall betekent weinig False Negatives.
* **F1-score:** Het harmonisch gemiddelde van precisie en recall. Dit biedt een balans tussen beide metrieken.
$$ F1\text{-}score = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$
#### 4.4.3 Impact van de drempelwaarde
De uiteindelijke classificatie (bijvoorbeeld, is iets frauduleus of niet) is afhankelijk van een **drempelwaarde** (threshold) die wordt toegepast op de geschatte kans. Als de geschatte kans groter is dan de drempelwaarde, wordt de waarneming geclassificeerd als positief.
* **Cancer detectie:** Hier is het vaak wenselijk om een hoge **recall** te hebben. Het is beter om onnodige tests uit te voeren (False Positives) dan een geval van kanker te missen (False Negative).
* **Investeringssuggestie:** Hier is het vaak wenselijk om een hoge **precision** te hebben. Men wil alleen investeren in zaken die met hoge zekerheid succesvol zullen zijn, om zo dure fouten (False Positives) te vermijden.
#### 4.4.4 Drempelwaarde-onafhankelijke evaluatie: AUC
Soms wil men de algehele prestatie van het model evalueren, onafhankelijk van de gekozen drempelwaarde. Dit kan via metrics zoals de **Area Under the ROC Curve (AUC)**.
* **ROC Curve (Receiver Operating Characteristic Curve):** Dit is een grafiek die de True Positive Rate (Recall) uitzet tegen de False Positive Rate ($FPR = \frac{FP}{FP + TN}$) voor verschillende drempelwaarden.
* **AUC:** De AUC vertegenwoordigt de kans dat het model een willekeurig gekozen positieve instantie hoger rangschikt dan een willekeurig gekozen negatieve instantie.
* Een **ideale model** heeft een AUC van 1 (ligt in de linkerbovenhoek van de ROC-grafiek).
* Een **willekeurig model** heeft een AUC van 0.5 (ligt op de diagonaal).
### 4.5 Maximum Likelihood Estimation (MLE)
Logistische regressiemodellen worden typisch geschat met behulp van Maximum Likelihood Estimation. Dit is een methode om de parameters van een statistisch model te schatten door de waarschijnlijkheid te maximaliseren van de waargenomen data, gegeven die parameters. Het doel is om de coëfficiënten te vinden die de waarschijnlijkheid van de trainingsdata het grootst maken.
### 4.6 Uitbreidingen: Multinomiale Logistische Regressie
Wanneer er meer dan twee categorieën zijn voor de afhankelijke variabele (bijvoorbeeld, type auto: sedan, SUV, truck), wordt **multinomiale logistische regressie** gebruikt. Er zijn twee veelvoorkomende benaderingen:
1. **Met een baseline (multinomiale regressie):** Eén categorie wordt als referentie (baseline) gekozen. De coëfficiënten worden geïnterpreteerd als de log-odds van de andere categorieën ten opzichte van de baseline.
$$ \log\left(\frac{P(Y=k|X)}{P(Y=\text{baseline}|X)}\right) = \beta_{k0} + \beta_{k1}X_1 + \dots + \beta_{kn}X_n \quad \text{voor } k \neq \text{baseline} $$
2. **Symmetrische (softmax) benadering:** Hierbij wordt de kans op elke klasse direct gemodelleerd, en de interpretatie van de coëfficiënten kan complexer zijn, vaak kijkend naar het verschil in log-odds tussen klassen.
> **Belangrijk:** Zelfs binaire logistische regressie kan worden gezien als een speciaal geval van multinomiale regressie met een baseline (de niet-gebeurtenis, of klasse 0).
### 4.7 Conceptuele oefeningen en toepassingen
#### 4.7.1 Scenario: Creditcard Fraudedetectie
Stel, u bouwt een algoritme voor creditcard fraudedetectie. Het doel is om potentieel frauduleuze transacties te markeren. Na markering moet de gebruiker mogelijk een pincode invoeren ter verificatie.
* **Schatting van kansen:**
* Wat is de geschatte kans op fraude wanneer het transactiebedrag $1500$ dollars is?
* Wat is de geschatte kans op fraude wanneer het transactiebedrag $2500$ dollars is?
Deze kansen helpen te kwantificeren hoe "verdacht" een transactie is.
* **Belangrijkste evaluatiemetriek:**
* **Recall vs. Precision:** Welke metriek is hier het belangrijkst?
* **Hoge recall:** Zorgt ervoor dat zoveel mogelijk frauduleuze transacties worden opgemerkt, zelfs als dit betekent dat er enkele legitieme transacties ten onrechte worden gemarkeerd (wat leidt tot de extra verificatiestap voor de gebruiker). Het missen van fraude (False Negative) is hier kostbaarder.
* **Hoge precision:** Zorgt ervoor dat wanneer een transactie als frauduleus wordt gemarkeerd, dit met grote zekerheid ook zo is. Dit minimaliseert het aantal legitieme gebruikers dat onnodig wordt lastiggevallen.
In dit specifieke scenario, waar een extra verificatiestap voor de gebruiker een relatief kleine hinder is vergeleken met de kosten van frauduleuze transacties, zou een **hoge recall** waarschijnlijk de voorkeur hebben. Het is cruciaal om fraude zo veel mogelijk te detecteren.
> **Voorbeeld:** Als we een recall van 95% behalen, betekent dit dat 95% van alle daadwerkelijke frauduleuze transacties worden gedetecteerd. Als we een precision van 90% behalen, betekent dit dat 90% van de transacties die wij als frauduleus markeren, ook daadwerkelijk frauduleus zijn. Het is een afweging, maar het missen van fraude kan ernstige financiële gevolgen hebben.
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Logistische regressie | Een statistische methode die wordt gebruikt om de kans op een binaire uitkomst te modelleren op basis van een of meer voorspellende variabelen. Het gebruikt een logistische functie om de uitvoer te beperken tot een bereik tussen 0 en 1. |
| Lineaire regressie | Een statistische techniek die wordt gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te modelleren. Het gaat ervan uit dat de relatie lineair is, wat het ongeschikt maakt voor binaire classificatieproblemen waarvoor een S-vormige curve vereist is. |
| Classificatiemodel | Een model dat wordt getraind om gegevenspunten toe te wijzen aan discrete categorieën of klassen. Voorbeelden zijn logistische regressie, beslissingsbomen en support vector machines. |
| Kans | De waarschijnlijkheid dat een specifieke gebeurtenis zal plaatsvinden, uitgedrukt als een getal tussen 0 (onmogelijk) en 1 (zeker). In classificatiemodellen wordt deze gebruikt om de mate van zekerheid van een voorspelling aan te geven. |
| Odds | De verhouding van de kans dat een gebeurtenis plaatsvindt tot de kans dat deze niet plaatsvindt. Het is een alternatieve manier om de waarschijnlijkheid van een gebeurtenis uit te drukken, vooral nuttig bij logistische regressie. |
| Confusiematrix | Een tabel die de prestaties van een classificatiemodel samenvat. Het toont het aantal correcte en incorrecte voorspellingen voor elke klasse, waaronder ware positieven, ware negatieven, valse positieven en valse negatieven. |
| Precisie | Een maatstaf voor de nauwkeurigheid van positieve voorspellingen van een classificatiemodel. Het wordt gedefinieerd als het aantal ware positieven gedeeld door het totale aantal voorspelde positieven (ware positieven + valse positieven). |
| Recall (Gevoeligheid) | Een maatstaf die aangeeft hoe goed een classificatiemodel alle relevante gevallen (positieven) heeft geïdentificeerd. Het wordt gedefinieerd als het aantal ware positieven gedeeld door het totale aantal feitelijke positieven (ware positieven + valse negatieven). |
| Drempelwaarde (Threshold) | Een waarde die wordt gebruikt in classificatiemodellen om een voorspelde kans om te zetten in een definitieve klasse-toewijzing. Als de voorspelde kans de drempelwaarde overschrijdt, wordt de gebeurtenis als positief geclassificeerd, anders als negatief. |
| AUC (Area Under the ROC Curve) | Een grafische weergave van de prestaties van een binaire classificatiealgoritme bij verschillende drempelwaarden. De oppervlakte onder de curve (AUC) vertegenwoordigt de algemene capaciteit van het model om positieve en negatieve gevallen te onderscheiden, waarbij een waarde van 1 ideaal is en 0.5 willekeurig. |
| Maximum Likelihood Schatting (MLE) | Een methode om de parameters van een statistisch model te schatten door de waarschijnlijkheid van de geobserveerde gegevens te maximaliseren. Het doel is om de modelparameters te vinden die de gegeven gegevens het meest "waarschijnlijk" maken. |
| Multinomiale logistische regressie | Een uitbreiding van de logistische regressie die wordt gebruikt voor classificatieproblemen met meer dan twee categorieën. Het modelleert de kans op elke categorie op basis van de voorspellende variabelen. |