Databases
Cover
data analytics Samenvatting.pdf
Summary
# Het data-analytische proces in sport
Hier is de studiehandleiding voor "Het data-analytische proces in sport", gebaseerd op de verstrekte documenten.
## 1. Het data-analytische proces in sport
Het data-analytische proces in sport omvat de gehele cyclus van dataverzameling, opslag, voorbewerking en analyse, met als doel besluitvorming te ondersteunen en onzekerheid te verminderen door middel van technologie en data [1](#page=1).
### 1.1 Het belang van data-analyse in sport
Beslissingen in sport worden vaak genomen met inherente onzekerheid. Data-analyse helpt deze onzekerheid te verminderen door bruikbare informatie te verschaffen. Technologie is cruciaal voor nauwkeurigere metingen, snellere analyses en nieuwe inzichten. Het is belangrijk om technologie kritisch te evalueren en computationeel denken toe te passen. Data-analyse transformeert ruwe data naar bruikbare informatie, evoluerend van beschrijvende naar prescriptieve analyses [1](#page=1).
### 1.2 Het data-analyse proces: een overzicht
Het data-analyseproces is een cyclus die bestaat uit vier kernfasen [1](#page=1) [8](#page=8):
* **Data collectie (Captatie):** Het verzamelen van relevante gegevens die noodzakelijk zijn om specifieke doelen te bereiken [8](#page=8).
* **Data opslag:** Het systematisch bewaren van verzamelde gegevens voor verdere verwerking en toegang [35](#page=35) [8](#page=8).
* **Data analyse:** Het onderzoeken en interpreteren van de verzamelde gegevens om inzichten te verkrijgen [8](#page=8).
* **Feedback:** Het terugkoppelen van analyse-resultaten om het proces te verbeteren en beslissingen te onderbouwen [8](#page=8).
> **Tip:** De kwaliteit van de verzamelde gegevens heeft een directe en grote impact op de kwaliteit van de uiteindelijke analyses [1](#page=1).
#### 1.2.1 Data collectie (Captatie)
Captatie is de eerste en een cruciale stap [8](#page=8).
* **Bepalen van benodigde gegevens:** De selectie van gegevens moet direct gerelateerd zijn aan het uiteindelijke doel van de analyse [8](#page=8).
* **Type data:** Het onderscheid tussen verschillende datatypes is cruciaal, met numerieke waarden die het makkelijkst te analyseren zijn [23](#page=23) [8](#page=8).
* **Technologie en methoden:** Streven naar automatische dataverzameling verhoogt de efficiëntie en minimaliseert fouten. Sensoren en biosignalen zijn veelgebruikte bronnen [8](#page=8).
#### 1.2.2 Data transformatie voor analyse
Voor effectieve analyse moeten diverse datatypes getransformeerd worden naar numerieke waarden [22](#page=22):
* **Tekst:** Analyseerbaar met AI-technieken [23](#page=23).
* **Beelden/video:** Vereist computer vision technieken [23](#page=23).
* **Numerieke waarden:** Direct bruikbaar [23](#page=23).
* **Scores:** Krijgen een numerieke waarde [23](#page=23).
* **Likert-schaal:** Wordt gewogen [23](#page=23).
* **Lijst – selectie:** Wordt indien mogelijk gewogen [23](#page=23).
* **Boolean:** Omgezet naar numerieke waarde (1 voor 'Ja', 0 voor 'Nee') [23](#page=23).
> **Tip:** Bij voorkeur verzamel je numerieke waarden omdat deze het makkelijkst te analyseren zijn [23](#page=23).
#### 1.2.3 Methodes van data verzameling
Het is cruciaal om na te denken over registratie- en verzamelmethoden, met het streven naar automatische gegevensverzameling [23](#page=23).
> **Tip:** Bepaal eerst welke gegevens je wilt verzamelen voor je doelstelling voordat je nadenkt over de technologie [23](#page=23).
### 1.3 Meten van gegevens
Het meten van gegevens is fundamenteel en vereist aandacht voor verschillende types data en meeteigenschappen [8](#page=8) [9](#page=9).
#### 1.3.1 Datatypes
* **Numerieke data:** Direct geschikt voor kwantitatieve analyse [43](#page=43) [9](#page=9).
* **Signalen:** Metingen die werkelijke processen weergeven, vaak met een tijdscomponent [79](#page=79) [9](#page=9).
* **Tijdsreeks:** Een reeks meetpunten met een tijdsindicatie. Het tijdsinterval kan variabel of gelijk zijn. Een tijdsreeks bestaat uit tijd en amplitude [26](#page=26) [35](#page=35) [9](#page=9).
* **Digitaal signaal:** Gesamplede analoge signalen met discrete waarden [26](#page=26) [9](#page=9).
* **Geospatiale data:** Data die lokalisatie-informatie bevat [28](#page=28) [9](#page=9).
* **Video:** Een steeds belangrijkere bron van data-analyse [28](#page=28) [9](#page=9).
#### 1.3.2 Meeteigenschappen en methoden
* **Meeteigenschappen:** Belangrijke aspecten zijn meetfout, betrouwbaarheid en resolutie [23](#page=23) [9](#page=9).
* **Directe vs. indirecte meting:** Onderscheid tussen metingen waarbij het kenmerk direct wordt waargenomen en metingen die via andere kenmerken tot stand komen [9](#page=9).
#### 1.3.3 Specifieke voorbeelden in de sport
* **Hartslag:** Meetbaar via diverse methodes; elektrische metingen zijn doorgaans accurater [9](#page=9).
* **HRV (Hartritmevariabiliteit):** Meet de variatie tussen opeenvolgende hartslagen [9](#page=9).
* **IMU (Inertial Measurement Unit):** Sensoren met accelerometers, gyroscopen en magnetometers [9](#page=9).
* **Lokalisatie van sporters:**
* **Globaal:** GPS-units [28](#page=28) [9](#page=9).
* **Lokaal:** Vereist ankers rond het veld, met minder mobiliteit en hogere kosten [9](#page=9).
* **Computervisie:** Gebruik van video voor positiebepaling [9](#page=9).
### 1.4 Data opslag
Data opslag is een cruciaal onderdeel van het data-analyseproces [11](#page=11) [9](#page=9).
#### 1.4.1 Opslagmethoden en -systemen
* **Databases:**
* **Relationele databases:** Gestructureerde opslag in tabellen met gedefinieerde relaties [35](#page=35) [65](#page=65) [80](#page=80) [9](#page=9).
* **Niet-relationele databases (NoSQL):** Flexibelere opslag voor diverse datastructuren [35](#page=35) [65](#page=65) [80](#page=80) [9](#page=9).
* **Datawarehouse/Data lake:** Systemen voor grootschalige dataopslag en -analyse [16](#page=16) [35](#page=35) [45](#page=45) [66](#page=66) [80](#page=80) [9](#page=9).
* **API (Application Programming Interface):** Maakt communicatie tussen softwaretoepassingen mogelijk voor data-uitwisseling [17](#page=17) [45](#page=45) [9](#page=9).
* **Sports Informatie Systeem:** Een centraal systeem voor het beheren van sportgerelateerde data [20](#page=20) [9](#page=9).
* **Gecentraliseerde data:** Bevordert efficiëntie en toegankelijkheid in apps of systemen [20](#page=20) [9](#page=9).
#### 1.4.2 Datawarehouse vs. Data Lake
| Kenmerk | Data Warehouse | Data Lake |
| :-------------- | :--------------------------------------------------- | :---------------------------------------------------------------- |
| Data Type | Eerder gestructureerde data | Gestructureerde en niet-gestructureerde data |
| Doel | Analytics, dagelijkse samenvattingen | Opslag van ruwe data, gerichte analyse per doel |
| Verwerking | Voorafgaande transformatie (ETL) | Transformatie na opslag (ELT) |
| Flexibiliteit | Minder flexibel, gestructureerd | Meer flexibel, ruwe data |
| Complexiteit | Eenvoudiger voor analytics na opzet | Complexer om data te verwerken |
| Toepassingen | Rapportage, Business Intelligence | Big Data, AI, Machine Learning, Voorspellingen |
| | | | [17](#page=17).
#### 1.4.3 ETL en ELT
* **ETL (Extract, Transform, Load):** Data wordt gehaald, omgezet en geladen in het doelsysteem [16](#page=16) [45](#page=45).
* **ELT (Extract, Load, Transform):** Data wordt gehaald en direct geladen, waarna transformatie plaatsvindt in het doelsysteem [16](#page=16) [45](#page=45).
> **Tip:** Datawarehouses zijn ideaal voor gestructureerde analyses en rapportages, terwijl datalakes flexibiliteit bieden voor exploratieve analyses en het opslaan van onbewerkte data [45](#page=45).
### 1.5 Uitdagingen en toepassingen in de sportwereld
De sportwereld genereert en gebruikt een breed scala aan data voor diverse doeleinden, wat leidt tot specifieke uitdagingen [10](#page=10).
#### 1.5.1 Toepassingen van data in sport
Data kan gebruikt worden voor: persoonlijke ontwikkeling, performance analyses, scouting, medische data, planning, communicatie, rapportage, mentale coaching, administratie, wellbeing data (RPE), video analyses, GPS-data, competitiedata, persoonlijkheidsprofielen, en document management [10](#page=10).
#### 1.5.2 Uitdagingen in data-analyse in sport
Belangrijke uitdagingen zijn: verlies van kennis, decentralisatie van data, inefficiëntie, single point of entry problemen, naleving van GDPR, beveiligingskwesties, techniciteit van data en analyses, data-integraties, tijdsverlies, communicatieproblemen, personeelsverloop bij data-analisten, analyse van data-correlaties, en digitale transformatie [11](#page=11).
> **Tip:** Het effectief beheren van deze uitdagingen vereist een geïntegreerde aanpak met technologie, processen en menselijke expertise [11](#page=11).
> **Example:** Het gebruik van een centraal sports informatiesysteem kan helpen bij het verminderen van decentralisatie en het verbeteren van data-integraties [11](#page=11).
### 1.6 Data preprocessing
Data preprocessing is een cruciale stap om data klaar te maken voor analyse. Het bestaat uit data cleaning en data transformatie [36](#page=36) [40](#page=40) [46](#page=46) [66](#page=66) [80](#page=80).
#### 1.6.1 Data cleaning
Data cleaning richt zich op het verbeteren van de kwaliteit van de data [36](#page=36) [40](#page=40) [46](#page=46) [66](#page=66) [80](#page=80).
* **Missing data:** Ontbrekende gegevens worden vervangen of verwijderd [36](#page=36) [40](#page=40) [46](#page=46) [66](#page=66) [80](#page=80).
* **Ruis op de data:** Verwijderen van ongewenste fluctuaties of fouten [36](#page=36) [40](#page=40) [46](#page=46) [48](#page=48) [66](#page=66) [80](#page=80).
* **Anomalieën in data:**
* Verkeerde datatypes [46](#page=46).
* Gemixte data waarden (bv. "man" vs. "male") [46](#page=46).
* Dubbele data-entries [46](#page=46).
> **Tip:** Effectieve preprocessing is cruciaal voor betrouwbare en inzichtelijke data-analyse. Slechte datakwaliteit kan leiden tot misleidende resultaten [81](#page=81).
#### 1.6.2 Data transformatie
Data transformatie past de data aan voor een betere analyse [36](#page=36) [40](#page=40) [66](#page=66) [80](#page=80).
* **Normalisatie:** Het gelijkzetten van de schalen van verschillende datasets om een eerlijkere vergelijking mogelijk te maken [36](#page=36) [40](#page=40) [48](#page=48) [67](#page=67) [80](#page=80).
* **Min-Max scaling:** Transformeert data naar een bereik tussen 0 en 1 met de formule: $X_{normalized} = \frac{X - X_{min}}{X_{max} - X_{min}}$ [40](#page=40).
* **Z-score normalisatie (standaardisatie):** Transformeert data naar een gemiddelde van 0 en een standaarddeviatie van 1 met de formule: $X_{standardized} = \frac{X - \mu}{\sigma}$, waarbij $\mu$ het gemiddelde en $\sigma$ de standaarddeviatie is [40](#page=40).
* **Feature engineering:** Het aanpassen van data of signalen om relevante eigenschappen te creëren, wat veel vrijheid biedt aan de data scientist [36](#page=36) [48](#page=48) [51](#page=51) [80](#page=80).
> **Tip:** De creativiteit en domeinkennis van de data scientist zijn cruciaal bij feature engineering, aangezien de relevantie van features sterk afhangt van de specifieke analyse of voorspelling [51](#page=51).
### 1.7 Data analyse
Na preprocessing volgt de data-analyse om patronen te ontdekken en inzichten te genereren. Dit kan onderverdeeld worden in [36](#page=36) [66](#page=66) [79](#page=79) [81](#page=81):
* **Data preprocessing (herhaling):** Voorbereiding van data voor analyse [36](#page=36).
* **Werken met Python:** Gebruik van libraries zoals Pandas, Numpy en Matplotlib [60](#page=60).
* **Performance model:** Een raamwerk dat prestaties ontleedt in deelcomponenten en kritieke succesfactoren (KSF), vertaald naar meetbare Key Performance Indicators (KPI's) [36](#page=36) [79](#page=79) [80](#page=80).
* **Toepassing van AI in sport:** Gebruik van machine learning technieken [36](#page=36) [79](#page=79) [81](#page=81).
#### 1.7.1 Het prestatie model
Het prestatie model begint met het ontleden van een prestatie in deelcomponenten (bv. technisch, tactisch, fysiek). Kritieke succesfactoren (KSF) worden geïdentificeerd, die vervolgens worden vertaald naar meetbare Key Performance Indicators (KPI's) [36](#page=36) [79](#page=79) [80](#page=80).
* **Deel Componenten:** Technisch, Tactisch, Fysiek [36](#page=36) [79](#page=79) [80](#page=80).
* **Kritieke Succes Factoren (KSF):** Bijvoorbeeld Controle, Pressing, Intensiteit [39](#page=39) [79](#page=79) [80](#page=80).
* **Key Performance Indicatoren (KPI):** Meetbare doelen zoals # baltoetsen/balbezit, # en intensiteit van pressing, # High intensity acties [39](#page=39) [79](#page=79) [80](#page=80).
* **Events & Attributen / Features:** Ruwe data-elementen zoals baltoetsen, pressure, snelheid/acceleraties [39](#page=39) [79](#page=79) [80](#page=80).
* **Meetsystemen:** Video Speler & Bal tracking, Speler Tracking [39](#page=39).
> **Tip:** De multidisciplinaire aanpak, waarbij bijvoorbeeld de hoofdcoach fungeert als manager van een team van specialisten, is essentieel omdat één persoon onmogelijk alle benodigde competenties kan bevatten [40](#page=40).
#### 1.7.2 Signalen en tijdsreeksanalyse
* **Tijdsreeksen als databronnen:** Datapunten die elkaar opvolgen in de tijd, met een tijdstip van meting [26](#page=26) [35](#page=35) [51](#page=51) [79](#page=79).
* **Visualisatie van tijdsreeksen:** Grafiek met amplitude op Y-as en tijd op X-as [26](#page=26).
* **Analoge en digitale signalen:** Analoge signalen zijn continu, digitale signalen zijn gesampled [26](#page=26).
* **Sampling frequentie:** Het aantal metingen per seconde (Hertz - Hz) om een analoog signaal te digitaliseren [26](#page=26).
**Tijdsreeksanalyse in het frequentiedomein:**
Soms is het interessanter om patronen of ritmes te onderzoeken, in plaats van de exacte timing. Dit gebeurt in het frequentiedomein, waar frequentie wordt gedefinieerd als het aantal herhalingen per seconde in Hertz (Hz) [51](#page=51) [52](#page=52).
* **Natuurlijke ritmes in sportdata:** Ademhaling (0.25 Hz), hartslag (1–2 Hz), cadans (1–3 Hz), trillingen (hogere frequenties) [52](#page=52).
* **Fouriertransformatie (FFT):** Zet een signaal om in de specifieke frequentiecomponenten, resulterend in een spectrum. Hoge frequenties corresponderen met snelle variaties, lage frequenties met trage [52](#page=52).
* **Voordelen frequentiedomein:** Biedt alternatieve inzichten, vereenvoudigt filtering en wordt toegepast in signaalpreprocessing en feature engineering [52](#page=52).
#### 1.7.3 Geospatiale Data (GPS)
Geospatiale data omvatten positionele gegevens in de ruimte (2D of 3D) [28](#page=28) [52](#page=52).
* **GPX-data voor wedstrijdvergelijking:** Gebruikt om parcoursen te vergelijken door relevante features te creëren voor clustering [52](#page=52).
#### 1.7.4 Video als databron
Video wordt toegepast door:
* **Labeling van events:** Voor tactische analyse en algemene statistieken [28](#page=28).
* **Directe informatie-extractie:** Gebruik van computer vision voor bv. afgelegde afstand of verwachte doelpunten (xG) [28](#page=28).
#### 1.7.5 Voorbeeld: Marathon Running
Data-analyse van marathonlopers kan snelheidsprofielen clusteren om verschillende loperstypes te identificeren [28](#page=28).
* **Data:** Boston Marathon 2015-2017 [28](#page=28).
* **Metriek:** Tussentijden (elke 5 km en halverwege) [28](#page=28).
* **Analyse:** Clustering van snelheidsprofielen in groepen; relatieve snelheid wordt berekend [28](#page=28).
> **Voorbeeld:** Het clusteren van snelheidsprofielen helpt om verschillende typen lopers te identificeren, bijvoorbeeld vroege starters, gelijkmatige lopers en lopers die aan het einde versnellen of vertragen [28](#page=28).
#### 1.7.6 Data-analyse met Python
* **Kernprincipes en tools:** Gebruik van Pandas, Numpy en Matplotlib in een Jupyter Notebook omgeving [60](#page=60).
* **Data laden en initiële inspectie:** Met methodes zoals `.head()`, `.shape`, `.dtypes` [58](#page=58) [60](#page=60).
* **Verkennende data-analyse:** Berekenen van beschrijvende statistieken en data-manipulatie [60](#page=60) [61](#page=61).
* **Data visualisatie:** Gebruik van histogrammen en scatterplots met Matplotlib [61](#page=61).
#### 1.7.7 Machine learning methoden in sport
Machine learning (ML) stelt systemen in staat te leren van data zonder expliciete programmering [81](#page=81).
* **Supervised learning:** Getraind op gelabelde data om voorspellingen te doen [67](#page=67) [81](#page=81).
* **Voorbereiding van data:** Data cleaning, data labeling (label encoding, one-hot encoding), data normalisering, data visualisatie, dataset splitsen (training/test set) [67](#page=67) [81](#page=81).
* **Model selectie:** Regressie (Lineair, polynomial, logistisch) en Classificatie (K-NN, beslissingsboom, random forest) [84](#page=84).
* **Model validatie:** Evaluatie via nauwkeurigheid, precisie, sensitiviteit, specificiteit [84](#page=84).
* **Unsupervised learning:** Ontdekt patronen in ongelabelde data [84](#page=84).
* **Clustering (K-Means):** Groepeert data op basis van overeenkomsten [84](#page=84).
#### 1.7.8 Voorbeeld van data-analyse in de sport (GPS)
Verwerken van GPS-data van een hockeywedstrijd om snelheid, bewegingspatronen, hartslag en sprints te analyseren .
* **Omzetting snelheid:** $Snelheid (km/h) = Snelheid (m/s) \times 3.6$ .
* **Data transformatie:** Creëren van een kolom voor "relatieve verstreken tijd" .
### 1.8 Data feedback
Feedback is een integraal onderdeel van het iteratieve data-analyseproces. Het informeert en verbetert het proces, creëert een cyclus [1](#page=1) [79](#page=79).
### 1.9 Samenvatting van het data-analytische proces
Het data-analytische proces in sport omvat een cyclus van dataverzameling, -opslag, -voorbewerking en -analyse, met feedback als integraal onderdeel. Essentieel hierbij zijn het begrijpen van datatypes, het selecteren van geschikte opslagmethoden (databases, data lakes/warehouses), het uitvoeren van grondige preprocessing (cleaning en transformatie) en het toepassen van geschikte analysemethoden, inclusief machine learning en datavisualisatie. Een duidelijke doelstelling en hoge datakwaliteit zijn cruciaal voor het verkrijgen van betrouwbare inzichten [43](#page=43) [66](#page=66) [81](#page=81).
---
# Methoden voor data captatie en sensoren
Dit thema onderzoekt de diverse methoden en technologieën die worden gebruikt voor het verzamelen van sportgerelateerde data, variërend van positioneringssystemen tot verschillende soorten sensoren en hun data-overdracht.
### 2.1 Positiebepaling en locatiegegevens
Positiebepalingstechnieken zijn essentieel voor het meten van de locatie van sporters, zowel op globale schaal als binnen afgebakende gebieden.
#### 2.1.1 Geospatiale en spatio-temporele data
* **Geospatiale data** omvat positionele data in twee- of driedimensionale ruimte, zoals X,Y-coördinaten of latitude en longitude. Tijdsinformatie kan hierbij verloren gaan [2](#page=2).
* **Spatio-temporele data** combineert ruimtelijke informatie met tijdsinformatie, waardoor data over een tijdsperiode wordt verzameld [2](#page=2).
#### 2.1.2 Methoden voor positiebepaling van sporters
Er zijn hoofdzakelijk twee benaderingen voor positiebepaling: radiotechnologie en computervisie [2](#page=2).
##### 2.1.2.1 Positionering via radiotechnologie
Deze methode wordt vaak toegepast met draagbare apparatuur en maakt real-time meting van coördinaten mogelijk. **Triangulatie** is een veelgebruikte techniek, waarbij de positie wordt bepaald op basis van de afstand tot meerdere zenders (minimaal drie). De afstand wordt hierbij vaak afgeleid uit de signaalsterkte [2](#page=2).
##### 2.1.2.2 Globale positionering (GPS)
Globale positioneringssystemen (GPS) gebruiken satellieten om de positie op aarde te bepalen. Wereldwijd zijn er vier belangrijke systemen: GPS (Verenigde Staten), GLONASS (Rusland), BeiDou (China) en Galileo (Europa). Het combineren van data van deze systemen kan de nauwkeurigheid verhogen. In de sport wordt GPS vaak aangevuld met **Inertial Measurement Units (IMU's)** om de accuratesse te verbeteren. De samplingfrequentie varieert, van 1Hz voor sporthorloges tot 15Hz voor gespecialiseerde apparatuur [2](#page=2) [3](#page=3).
##### 2.1.2.3 Lokale positionering
Lokale positionering is gericht op nauwkeurige bepaling binnen een afgebakend gebied, zoals een sportveld. **Ultra Wide Band (UWB)** is een technologie die hierbij wordt gebruikt en tevens het **Time of Flight (ToF)** principe toepast [3](#page=3).
> **Tip:** Bij het analyseren van positiedata is het cruciaal om rekening te houden met de gebruikte technologie en de inherente beperkingen daarvan. Verschillen in data kunnen vaak verklaard worden door variaties in de opname-instellingen en hardware [4](#page=4).
> **Voorbeeld:** De hoogteverschillen geregistreerd door een sporthorloge kunnen variëren tussen verschillende dagen of zelfs binnen dezelfde activiteit, afhankelijk van de signaalontvangst en de gebruikte algoritmes voor dataverwerking [4](#page=4).
**Vergelijking tussen lokaal en globaal positioneren:**
| Kenmerk | Globaal (GPS) | Lokaal (bv. UWB) |
| :--------------- | :----------------- | :------------------ |
| Toepassingsgebied | Enkel outdoor | Indoor en outdoor |
| Mobiliteit | Mobiel | Vast of semi-mobiel |
| Samplingfrequentie | Laag | Hoger |
| Prijs | Eerder laag | Vaak hoger |
| Infrastructuur | Satellieten | Ankers rond het veld |
##### 2.1.2.4 Positionering via computervisie
Met computervisie-technieken kan informatie over de positie van sporters worden geëxtraheerd uit videobeelden. Dit omvat het detecteren van personen, identificeren van teams en volgen van de bal [3](#page=3).
**Voordelen van computervisie:**
* Geen sensoren vereist op de sporters [3](#page=3).
* Mogelijkheid om andere sporters te analyseren zonder direct contact [3](#page=3).
* Kan ook de bal volgen [3](#page=3).
**Uitdagingen van computervisie:**
* Het verkrijgen van absolute coördinaten is zeer moeilijk [3](#page=3).
* Video is een 2D-projectie, wat leidt tot onnauwkeurigheid [3](#page=3).
* Video kan onscherp zijn of relevante delen van het beeld missen [3](#page=3).
* Real-time analyse is erg moeilijk [3](#page=3).
#### 2.1.3 Praktische problemen en uitdagingen bij lokalisatie
* **GPS en datavariabiliteit:** GPS-gegevens kunnen variëren door opname-interval, signaalsterkte en hardware. Verschillende systemen en instellingen leiden tot uiteenlopende data, zoals bij hoogtemetingen. Platforms zoals Garmin en Strava passen de data aan om deze nauwkeuriger te maken [4](#page=4).
* **Lokalisatie met ankers:** Lokale systemen vereisen ankers rond het veld, zijn vaak minder mobiel en duurder dan globale systemen [4](#page=4).
#### 2.1.4 Samenvatting van lokalisatiemethoden
Lokalisatie kan via globale systemen (GPS) of lokale systemen met ankers plaatsvinden. Computervisie, met aanzienlijke recente vooruitgang, biedt een alternatieve methode via videoanalyse [4](#page=4).
### 2.2 Sensoren en data-overdracht
Dit deel behandelt de diverse sensoren die worden gebruikt voor het verzamelen van sportgerelateerde data, zoals hartslagsensoren en Inertial Measurement Units (IMU's), alsook methoden voor data-overdracht.
#### 2.2.1 Soorten sensoren
* **Hartslagsensoren:** Meten de hartslag, een belangrijke parameter in sport. Elektrische meting wordt als accurater beschouwd. **Hartslagvariabiliteit (HRV)** verwijst naar de variatie tussen opeenvolgende hartslagen. Een HR-band wordt aanbevolen voor betrouwbare meting tijdens sportactiviteiten. Optische sensoren, vaak in polshorloges, kunnen ook hartslag meten [5](#page=5).
* **Methoden voor hartslagmeting:**
* **Elektrische signaalmeting (ECG-principe):** Meet elektrische ontladingen van het hart. Accuraat, snel reagerend, geschikt voor intervaltrainingen. Nadelen: hinder bij dragen, bewegingsgevoeligheid [29](#page=29).
* **Optische techniek (Fotoplethysmografie - PPG):** Gebruikt licht om bloeddoorstroming te meten. Comfortabel, niet-invasief, geschikt voor 24/7 monitoring en steady-state inspanningen. Langzamere reactie op veranderingen en bewegingsgevoeligheid zijn nadelen [29](#page=29).
* **Toepassingen van hartslagmeting:** Indicatie van inspanningstype, trainingssturing, conditie- en recuperatiebeoordeling, rusthartslag als indicator van conditie en herstel [29](#page=29).
* **Inertial Measurement Units (IMU's):** Een van de meest gebruikte sensoren voor sportdata. Ze bevatten doorgaans een **accelerometer**, **gyroscoop** en **magnetometer** [30](#page=30) [5](#page=5).
* **Componenten van een IMU:**
* **Accelerometer:** Meet versnellingen in 3 loodrechte dimensies (X, Y, Z). Eenheid: 'g' of m/s² [31](#page=31).
* **Gyroscoop:** Meet de snelheid van rotatie in 3 dimensies. Eenheid: rad/s [31](#page=31).
* **Magnetometer:** Meet de sterkte en richting van een magnetisch veld [31](#page=31).
* **Geavanceerde IMU's:** Een 10-DOF IMU kan 10 verschillende soorten data meten, inclusief die van een barometer [31](#page=31).
* **IMU-toepassingen in sport:** Activiteitsherkenning (bv. met kNN) detecteren van slagen in badminton data van running pods [31](#page=31).
* **WiMU sensor:** Een specifiek sensorplatform dat verschillende sensoren integreert, inclusief positioneringsmogelijkheden (outdoor en indoor met extra antennes). Toepassingen in diverse sporten zoals voetbal (GPS-tracking) [5](#page=5).
* **Overige sensoren:** GPS-sensoren en andere gekoppelde sensoren voor extra metingen. Bewegingsherkenning behoort ook tot de functionaliteiten. Lichaamstemperatuursensoren meten de kerntemperatuur, relevant voor hitte-effecten op prestaties [31](#page=31) [5](#page=5).
#### 2.2.2 Data-overdracht methoden
Er zijn twee primaire opties voor data-overdracht van IoT-apparaten naar het internet: bedraad en draadloos [5](#page=5).
* **Bedrade verbindingen:** Bieden betrouwbaarheid, veiligheid en hoge datasnelheid. Geschikt voor stationaire apparaten dicht bij elkaar. Nadelen: hogere kosten, gebrek aan mobiliteit, beperkte schaalbaarheid [5](#page=5).
* **Draadloze verbindingen:** Bieden mobiliteit, wat essentieel is voor mobiele IoT-apparaten. Eenvoudigere uitbreidbaarheid en doorgaans kosteneffectiever installatie [6](#page=6).
> **Tip:** Vaak is een combinatie van connectiviteitsopties de meest geschikte oplossing voor een project [6](#page=6).
#### 2.2.3 Toepassingen en doelgroepen
* **Sportregistratie:** Sensoren en data-overdracht zijn essentieel voor activiteitenregistratie met multisportdevices [6](#page=6).
* **Gezondheidsmonitoring:** Sporthorloges en gezondheidshorloges registreren sportactiviteiten, monitoren hartslag (ook 24/7) en herkennen bewegingen automatisch [6](#page=6).
* **Data-analyse in sport:** Verzamelde data wordt geanalyseerd met big data-technieken om sportprestaties te verbeteren [6](#page=6).
#### 2.2.4 Specifieke protocollen
ANT+ wordt genoemd in relatie tot data-overdracht in deze context, maar specifieke details worden niet verstrekt. Externe sensoren kunnen via protocollen zoals ANT+ of Bluetooth Low Energy (BTLE) worden gekoppeld aan wearables [6](#page=6).
### 2.3 Meetmethoden en meetkwaliteit
Dit deel behandelt de diverse manieren van dataverzameling, met een focus op directe en indirecte metingen, en de essentiële aspecten van meetkwaliteit.
#### 2.3.1 Dataverzameling: methoden
Dataverzameling omvat het registreren van metingen. Numerieke data, cruciaal voor analyse, wordt verkregen door metingen [23](#page=23).
* **Directe en indirecte metingen:**
* **Directe meting:** De gewenste parameter wordt rechtstreeks gemeten. Vaak nauwkeuriger indien technisch haalbaar [24](#page=24).
* **Indirecte meting:** Een andere parameter wordt gemeten, waaruit de gewenste informatie wordt afgeleid met behulp van een model of formule [24](#page=24).
> **Voorbeeld:** Spronghoogte kan direct worden gemeten, of indirect berekend uit vliegtijd ($t_{vlucht}$) en zwaartekrachtversnelling ($g$) met de formule $h = \frac{1}{2} g t_{vlucht}^2$. VO2max is een ander voorbeeld van een indirecte meting [24](#page=24).
* **Biosignalen:** Een breed scala aan lichamelijke functies en activiteiten, waaronder hartslag, spieractiviteit, beweging, bloeddruk, hersenactiviteit, en ademhaling [24](#page=24).
#### 2.3.2 Meetkwaliteit
De kwaliteit van een meting wordt bepaald door de meetfout, betrouwbaarheid en resolutie [25](#page=25).
* **Meetfout (bias):** Een systematische afwijking van de werkelijkheid. Kan softwarematig gecorrigeerd worden indien bekend [25](#page=25).
> **Voorbeeld:** Een klok die vijf minuten voorloopt, introduceert een bekende systematische fout [25](#page=25).
* **Betrouwbaarheid:** De inherente onnauwkeurigheid van een meetmethode. Streven is om deze zo klein mogelijk te houden [25](#page=25).
> **Voorbeeld:** Een stilstaande klok geeft twee keer per dag de juiste tijd aan, wat de complexiteit van betrouwbaarheid illustreert [25](#page=25).
* **Meetresolutie:** De nauwkeurigheid waarmee een waarde gemeten wordt; bepaalt het aantal onderscheidbare meetwaarden [25](#page=25).
> **Voorbeeld:** Een temperatuursensor met 8 bits resolutie kan 256 stappen onderscheiden over een bereik van 50 graden Celsius, met een nauwkeurigheid van ongeveer 0.2 graden Celsius. Een thermometer met 0,01 graden Celsius resolutie kan fijnere verschillen detecteren dan een met 1 graad Celsius [25](#page=25) [26](#page=26).
### 2.4 Signalen en tijdsreeksanalyse
Dit onderwerp introduceert signalen als databronnen, met name tijdsreeksen, inclusief hun karakteristieken en analyse in het tijd- en frequentiedomein.
#### 2.4.1 Tijdsreeksen als databronnen
Een tijdsreeks bestaat uit datapunten of metingen die elkaar in de tijd opvolgen. Sportdata hebben vaak een tijdscomponent. Het tijdsinterval tussen punten kan vast of variabel zijn. Een tijdsreeks wordt vaak ook een **signaal** genoemd [26](#page=26).
* **Visualisatie van tijdsreeksen:** Gevisualiseerd op een grafiek met amplitude op de Y-as en tijd op de X-as. Kan worden weergegeven als een verzameling van getimede datapunten: $T = \{(t_0, x_0), \dots, (t_f, x_f)\}$ [26](#page=26).
* **Analoge en digitale signalen:**
* **Analoog signaal:** Een continu signaal, zoals voorkomend in de werkelijke wereld [26](#page=26).
* **Digitaal signaal:** Een gesampled analoog signaal, bestaande uit discrete waarden, geschikt voor opslag en verwerking in de digitale wereld [26](#page=26).
* **Sampling frequentie (bemonsteringsfrequentie):** De frequentie waarmee een analoog signaal wordt gedigitaliseerd; uitgedrukt in metingen per seconde of Hertz (Hz) [26](#page=26).
#### 2.4.2 Tijdsreeksanalyse: het frequentiedomein
Analyse in het frequentiedomein onderzoekt patronen en ritmes door data om te zetten. Frequentie is het aantal herhalingen per seconde (Hz). Sportdata bevatten natuurlijke ritmes zoals ademhaling, hartslag, cadans en trillingen [52](#page=52).
* **Fouriertransformatie (FFT):** Zet een signaal om in zijn frequentiecomponenten, resulterend in een spectrum dat energie/variatie per frequentie toont [52](#page=52).
* **Voordelen van het frequentiedomein:** Biedt alternatieve inzichten, vereenvoudigt signaalmanipulatie (bv. filteren) en is nuttig voor signaalreiniging en feature engineering [52](#page=52).
#### 2.4.3 Specifieke datatypes en sensoren in de sport
Diverse sensoren en datatypen zijn cruciaal voor sportanalyse: geospatiale data, video, biosignalen, IMU's en lichaamstemperatuursensoren [28](#page=28) [29](#page=29) [30](#page=30) [31](#page=31).
* **Geospatiale data:** Positionele gegevens in ruimte (2D/3D) zoals GPS-data [28](#page=28).
* **Video als databron:** Gebruikt voor event-labeling (tactische analyse) en directe informatie-extractie via computer vision (bv. afgelegde afstand, xG) [28](#page=28).
* **Signalen en tijdreeksdata:** Metingen van processen, gepresenteerd als tijdreeksen [28](#page=28).
* **Gegevens uit de praktijk in sport:**
* **Hartslag en hartritmevariabiliteit (HRV):** Gemeten via elektrische of optische methoden. HRV meet de variatie tussen opeenvolgende hartslagen en is een indicator van het autonome zenuwstelsel. Meting vereist korte, goede opnames en is gevoelig voor storingen. **RMSSD** is een veelgebruikte methode voor HRV-berekening [29](#page=29) [30](#page=30).
* **Inertial Measurement Unit (IMU):** Bevat accelerometers, gyroscopen en magnetometers voor bewegingsdata. Toepassingen omvatten activiteitsherkenning en racket slagdetectie [30](#page=30) [31](#page=31).
* **Lichaamstemperatuursensor:** Meting is relevant voor hitte-effecten op prestaties. Kan helpen bij het monitoren van kerntemperatuur en aanpassing aan warmte. Gebruiksscenario's omvatten hittetraining, actieve koeling en het vermijden van oververhitting [31](#page=31) [32](#page=32).
#### 2.4.4 Feature Engineering
Feature engineering transformeert ruwe data in informatieve variabelen voor analyse [50](#page=50).
* **Frequentiedomein:** Features worden geëxtraheerd via technieken zoals FFT [50](#page=50).
* **HRV features:** HF (High Frequency, parasympathische invloed), LF (Low Frequency, sympathische invloed), LF/HF ratio (balans autonoom zenuwstelsel) [50](#page=50).
* **Tijdsdomein (HRV):** Gemiddelde hartslag, RMSSD, SDNN, SDSD, NN50 [50](#page=50) [54](#page=54).
* **Accelerometer data:** Features in tijds- (peak, mean, range, RMS) en frequentiedomein (dominante frequentie, bv. stapfrequentie) voor activiteitsherkenning [50](#page=50) [55](#page=55).
* **GPS data in sport (voetbal, rugby, hockey):** Combineert GPS en IMU data voor diverse features zoals afstand, snelheid, impacten, acceleraties, hartslag en metabolische parameters [50](#page=50) [53](#page=53).
> **Voorbeeld:** Specifieke GPS features in voetbal omvatten snelste sprint, totale afgelegde afstand, gemiddelde hartslag, tijd in hartslagzone, aantal sprints en afgelegde sprintafstand [53](#page=53).
### 2.5 Sensoren en dataverzameling in wearables
Wearables verzamelen data via een cyclus van dataverzameling, feedback, analyse en opslag .
#### 2.5.1 Interne sensoren
* **Lokalisatie sensoren:** Multi-Band GNSS systemen (GPS, GLONASS, GALILEO) .
* **Optische hartslagsensoren:** Meten hartslag direct op de pols .
* **Pulse oximeter:** Meet perifere zuurstofverzadiging (SpO2) .
* **Bewegingssensoren:** Accelerometer (beweging, activiteitstracking), kompas (magnetometer, directionele info), hoogtemeter en barometer (hoogte, luchtdruk) .
#### 2.5.2 Externe sensoren
Deze kunnen via ANT+ of Bluetooth Low Energy (BTLE) worden gekoppeld aan wearables. Voorbeelden zijn hartslagbanden, vermogensmeters, running pods en cadanssensoren .
#### 2.5.3 Data kwaliteit en voorbewerking
Goede datakwaliteit is essentieel voor betrouwbare analyses. **Data cleaning** (identificeren en corrigeren van fouten), **data transformatie** (aanpassen naar geschikt formaat) en **data visualisatie** zijn cruciale stappen .
> **Tip:** Het correct toepassen van data voorbewerking is essentieel; slechte datakwaliteit leidt tot ongeldige analyses en onbetrouwbare inzichten .
> **Voorbeeld:** Hartslagvariabiliteit (HRV) data, opgeslagen in een relationele database, kan ontbrekende waarden vereisen (data cleaning) en genormaliseerde tijdstempels (data transformatie) voordat het in een machine learning model kan worden gebruikt .
---
# Dataopslag en -systemen
Dit onderwerp behandelt de diverse methoden voor dataopslag, zoals relationele en niet-relationele databases, data warehouses, data lakes, en de rol van API's voor communicatie en integratie.
### 3.1 Het data-analyse proces en dataopslag
Het data-analyse proces kent vier kernfasen: data collectie, data opslag, data analyse en data feedback. Data opslag is de systematische bewaring van verzamelde gegevens, essentieel voor verdere verwerking en analyse. De kwaliteit van de dataopslag beïnvloedt direct de kwaliteit van de analyses. Een goed ontworpen opslagsysteem is cruciaal om data uit verschillende bronnen te kunnen combineren en verwerken [11](#page=11) [1](#page=1) [44](#page=44) [8](#page=8).
#### 3.1.1 Opslagmethoden en -systemen
Verschillende methoden en systemen worden ingezet om data veilig en toegankelijk te bewaren. De belangrijkste methoden omvatten databases, data warehouses, en data lakes [10](#page=10) [17](#page=17) [20](#page=20) [35](#page=35) [65](#page=65) [80](#page=80) [9](#page=9).
##### 3.1.1.1 Databases
Een database is een georganiseerde verzameling van gegevens die elektronisch wordt opgeslagen en geraadpleegd met behulp van een databasebeheersysteem. Interactie met een database gebeurt via CRUD-operaties (Create, Read, Update, Delete) en queries [12](#page=12).
###### 3.1.1.1.1 Relationele databases
Relationele databases, ook bekend als SQL-databases, slaan data op in tabellen met een vooraf gedefinieerde structuur, waarbij kolommen attributen en rijen records vertegenwoordigen. Data wordt georganiseerd in tabellen met rijen en kolommen [12](#page=12) [13](#page=13) [35](#page=35) [65](#page=65) [80](#page=80).
* **Kenmerken:**
* Data wordt opgeslagen in tabellen die met elkaar in relatie staan [13](#page=13).
* De structuur (datamodel) moet vanaf het begin worden vastgelegd [13](#page=13).
* Aanpassingen aan de structuur zijn complex [13](#page=13).
* Relatief eenvoudig op te zetten en mee te werken [13](#page=13).
* Bestaat al sinds de jaren '70 [13](#page=13).
* **Datamodellering:**
* **Entiteits-relatie diagram (ER-diagram):** Een grafische representatie van de relaties tussen verschillende objecten die het datamodel vormen [13](#page=13).
* **Key-waardes:**
* **Primary key:** Een unieke sleutel per record in een tabel [13](#page=13).
* **Foreign key (referentiële sleutel):** Verwijst naar een primary key in een andere tabel [13](#page=13).
* **Kardinaliteit van relaties:** De manier waarop entiteiten in tabellen aan elkaar gerelateerd zijn (one-to-one, one-to-many, many-to-many) [13](#page=13).
* **Soorten datamodellen:** Conceptueel, Logisch, Fysisch [13](#page=13).
* **Data Normalisatie:** Een proces om gegevens te organiseren en anomalieën zoals dubbele records of ontbrekende gegevens te verminderen of te elimineren [13](#page=13).
* **Voordelen:**
* **ACID-compliantie:** Garandeert de betrouwbaarheid van databasetransacties (Atomiciteit, Consistentie, Isolatie, Duurzaamheid) [13](#page=13).
* **Data accuracy:** Voorkomt dubbele informatie [13](#page=13).
* Normalisatie vereenvoudigt data [13](#page=13).
* Relatief lage leercurve [13](#page=13).
* **Nadelen:**
* **Schaalbaarheid:** Vaak ontworpen om op één machine te draaien, wat verticaal schalen duur maakt en grenzen kent [14](#page=14).
* **Flexibiliteit:** Rigide schema's, structuurwijzigingen zijn complex en kunnen downtime vereisen [14](#page=14).
* **Prestatie:** Kan afnemen bij toenemende data [14](#page=14).
* **Voorbeelden:** MySQL, PostgreSQL [14](#page=14).
* **SQL (Structured Query Language):** De standaardtaal voor communicatie met relationele databases [14](#page=14).
> **Voorbeeld SQL query:**
> ```sql
> SELECT *
> FROM locations
> WHERE time >= TIMESTAMPTZ '2025-09-17 12:00:00+00'
> AND time < TIMESTAMPTZ '2025-09-17 14:00:00+00'
> AND device_id IN (87,98)
> order by time asc
> ```
> Dit selecteert alle kolommen uit de `locations` tabel, filtert op tijdsbereik en `device_id`, en sorteert de resultaten op tijd [14](#page=14).
###### 3.1.1.1.2 Niet-relationele databases (NoSQL)
Niet-relationele databases, of NoSQL-databases, gebruiken geen tabellen, rijen en kolommen op de traditionele manier, maar bieden een flexibele manier om data op te slaan zonder vaste structuur. Ze zijn ontstaan omdat de SQL-aanpak onvoldoende bleek voor diverse data. Ze ondersteunen ook CRUD-operaties. Geschikt voor het opslaan van flexibele datastructuren zoals documenten [14](#page=14) [35](#page=35) [44](#page=44) [65](#page=65) [80](#page=80).
* **Document types:** Vaak gebruikt voor opslag van data in formaten zoals.XLSX,.CSV, en.JSON [14](#page=14).
* **CSV (Comma Separated Value):** Tekstbestand waarbij gegevens gescheiden worden door komma's [14](#page=14) [35](#page=35) [66](#page=66) [76](#page=76) [80](#page=80).
* **JSON (JavaScript Object Notation):** Een gestandaardiseerd, tekstgebaseerd dataformaat voor gestructureerde data, populair voor het uitwisselen en opslaan van data [14](#page=14) [35](#page=35) [66](#page=66) [80](#page=80).
* **Voordelen:**
* Flexibele structuur/datamodel dat altijd aangepast en uitgebreid kan worden [15](#page=15).
* Schaalbaarheid: Snel en goedkoop opschalen [15](#page=15).
* Snelheid: Snel opslaan en ophalen van data, met name bij grote datasets [15](#page=15).
* Toekomstgericht: Cloud-architectuur, Big Data compatibel [15](#page=15).
* **Nadelen:**
* Complexe leercurve [15](#page=15).
* Minder geoptimaliseerde opslag [15](#page=15).
* Geen gegarandeerde ACID-compliantie [15](#page=15).
* Complexe queries over verschillende documenten heen [15](#page=15).
* **Bekende voorbeelden:** MongoDB, Cassandra, Bigtable [15](#page=15).
> **Tip:** Kies voor relationele databases bij gestructureerde data waar flexibiliteit minder belangrijk is, en voor niet-relationele databases bij variërende of niet-gestructureerde data waar snelle aanpassingen nodig zijn [45](#page=45).
##### 3.1.1.2 Data warehouses en Data lakes
Deze systemen zijn primair gericht op het verzamelen van grote hoeveelheden data uit externe bronnen voor uiteindelijke analyse [16](#page=16) [36](#page=36) [65](#page=65) [80](#page=80).
* **ETL en ELT:**
* **ETL (Extract, Transform, Load):** Data wordt geëxtraheerd, getransformeerd naar een geschikt formaat, en dan geladen. Dit vindt plaats voordat data in een data warehouse komt [16](#page=16) [45](#page=45).
* **ELT (Extract, Load, Transform):** Data wordt geëxtraheerd en direct geladen, waarna de transformatie plaatsvindt binnen het data warehouse/data lake [16](#page=16) [45](#page=45).
* **Data warehouse:**
* **Kenmerken:** Richt zich op eerder gestructureerde data. Fungeert als een "warenhuis" voor analyse. Data wordt voorbereid en bewerkt voordat het binnenkomt. Verwerking voor analytics software is eenvoudig en snel na opzet [16](#page=16) [45](#page=45).
* **Toepassingen:** Data visualisatie, analyses en samenvattingen van data. Ideaal voor gestructureerde analyses en rapportages [16](#page=16) [45](#page=45).
* **Data Lake:**
* **Kenmerken:** Een opslagplaats waar "alle data wordt gedumpt", inclusief zowel gestructureerde als niet-gestructureerde data. Het primaire doel van de data is niet direct duidelijk bij opslag. Vereist softwarestukken (Data factories) om data te extraheren en om te zetten. Biedt meer flexibiliteit maar ook meer complexiteit. Opslag van ruwe data, met gerichte analyse per doel [16](#page=16) [17](#page=17) [45](#page=45).
* **Toepassingen:** Big Data toepassingen, AI toepassingen, voorspellingen. Bieden flexibiliteit voor exploratieve analyses en het opslaan van onbewerkte data [16](#page=16) [45](#page=45).
> **Samenvatting Data Lake vs. Data Warehouse:**
>
> | Kenmerk | Data Warehouse | Data Lake |
> | -------------- | ---------------------------------------- | -------------------------------------------- |
> | Data Type | Eerder gestructureerde data | Gestructureerde en niet-gestructureerde data |
> | Doel | Analytics, dagelijkse samenvattingen | Opslag van ruwe data, gerichte analyse |
> | Verwerking | Voorafgaande transformatie (ETL) | Transformatie na opslag (ELT) |
> | Flexibiliteit | Minder flexibel, gestructureerd | Meer flexibel, ruwe data |
> | Complexiteit | Eenvoudiger voor analytics na opzet | Complexer om data te verwerken |
> | Toepassingen | Rapportage, Business Intelligence | Big Data, AI, Machine Learning, Voorspellingen |
#### 3.1.2 Dataformaten
Data kan in diverse formaten worden opgeslagen en uitgewisseld [35](#page=35) [66](#page=66) [80](#page=80).
* **CSV (Comma Separated Values):** Veelgebruikt formaat voor tabeldata [35](#page=35) [66](#page=66) [80](#page=80).
* **XLSX (Excel Spreadsheets):** Veelgebruikt formaat voor tabeldata [35](#page=35) [66](#page=66) [80](#page=80).
* **JSON (JavaScript Object Notation):** Een lichtgewicht data-uitwisselingsformaat, veelgebruikt voor web-API's [35](#page=35) [66](#page=66) [80](#page=80).
### 3.2 Communicatie en integratie via API's en informatiesystemen
API's (Application Programming Interfaces) spelen een cruciale rol in de communicatie en integratie tussen verschillende softwaretoepassingen en systemen [10](#page=10) [17](#page=17) [45](#page=45).
#### 3.2.1 API's (Application Programming Interfaces)
Een API is een stuk software dat communicatie tussen twee applicaties mogelijk maakt en de uitwisseling van software faciliteert. API's kunnen gebruikt worden om data te centraliseren en toegankelijk te maken vanuit verschillende applicaties [45](#page=45).
* **REST-API's:** Een populaire architectuurstijl voor het ontwerpen van API's [19](#page=19).
* **Swagger/OpenAPI:** Specificatie voor het definiëren van RESTful API's [19](#page=19).
* **Voordelen Swagger:** Standaardisatie, duidelijk overzicht, snelle testmogelijkheden [19](#page=19).
* **Postman:** Een veelgebruikte softwaretool om API's zelf uit te testen [19](#page=19).
* **Python voor API's:** Kan programmatisch worden aangeroepen met libraries zoals `requests` [19](#page=19).
> **Tip:** Voor opdrachten is het aan te raden om eerst API calls te maken met Postman en daarna de functionaliteit na te bouwen met Python [19](#page=19).
* **Voorbeelden van API's:**
* Transfermarkt API (sportgegevens) [19](#page=19).
* Football-Data.org API (vereist registratie en API token) [19](#page=19).
> **Voorbeeld:** Een API call kan bijvoorbeeld gebruikt worden om voetbalstatistieken van een specifieke speler op te vragen via de Transfermarkt API [19](#page=19).
#### 3.2.2 Sport Informatie Systemen
Sportinformatiesystemen zorgen ervoor dat diverse tools en data samenwerken [17](#page=17) [19](#page=19).
* **Architectuur 1: Application Driven:** Data is vaak direct gekoppeld aan een specifieke applicatie, wat de toegankelijkheid kan bemoeilijken. Traditioneel waren sportinformatiesystemen vaak app-gecentreerd [19](#page=19) [20](#page=20).
* **Architectuur 2: Data Driven:** Centraliseert de data, wat de waarde ervan vergroot. Wordt gezien als de toekomst, maar brengt uitdagingen met zich mee. De trend gaat richting data-centralisatie voor betere analyse en waarde [19](#page=19) [20](#page=20).
> **Voorbeeld:** Het gebruik van een centraal sports informatiesysteem kan helpen bij het verminderen van decentralisatie en het verbeteren van data-integraties. In een sportinformatiesysteem waar zowel de app als de data gecentraliseerd is, kunnen API's gebruikt worden om data te centraliseren en toegankelijk te maken [11](#page=11) [45](#page=45).
### 3.3 Gestructureerde vs. niet-gestructureerde data
De keuze tussen relationele en niet-relationele databases hangt af van het type data [15](#page=15).
* **Gestructureerde data:** Georganiseerde data met duidelijke verbanden, vaak gerelateerd aan relationele databases [15](#page=15).
* **Niet-gestructureerde data:** Al het overige, zoals teksten, social media data, beelden en satellietbeelden. Data lakes zijn ontworpen om zowel gestructureerde als niet-gestructureerde data op te slaan [15](#page=15) [16](#page=16).
### 3.4 Rol van API's in dataopslag
In de context van dataopslag kunnen API's gebruikt worden om data te centraliseren en toegankelijk te maken vanuit verschillende applicaties. Wearables kunnen data verzamelen via API-koppelingen met externe datadiensten zoals weerdata of getijdeninformatie [45](#page=45).
### 3.5 Dataopslag op wearables en smartphones
Wearables slaan data op en sturen deze door naar een app op de smartphone, vaak via technologieën zoals Bluetooth Low Energy (BTLE). De smartphone kan vervolgens data verzenden via Wi-Fi of mobiele data naar cloudservices. Er zijn diverse dataformaten en opslagmethoden, waaronder CSV/XLSX, JSON, databases en data warehouses/data lakes .
---
# Machine learning en kunstmatige intelligentie in sport
Hier is een gedetailleerde samenvatting over "Machine learning en kunstmatige intelligentie in sport", opgesteld als een examengerichte studiegids.
## 4. Machine learning en kunstmatige intelligentie in sport
Dit onderwerp introduceert de principes van machine learning (supervised en unsupervised), computer vision, generatieve AI, en hun specifieke toepassingen en ethische overwegingen binnen de sportcontext.
### 4.1 Machine learning in sport
Machine learning (ML) is een tak van kunstmatige intelligentie (AI) die systemen in staat stelt om te leren van data zonder expliciet geprogrammeerd te zijn. In tegenstelling tot traditioneel programmeren, waar data en een programma de output bepalen, gebruikt ML data en output om het programma (het model) te creëren dat patronen en relaties tussen input en output probeert te vinden [81](#page=81).
#### 4.1.1 Data-exploratie en voorbereiding
Voordat ML-modellen worden toegepast, is data-exploratie essentieel om inzichten te verwerven. Een pair-plot kan bijvoorbeeld nuttig zijn om de correlatie tussen verschillende variabelen (features) te visualiseren. De plots op de diagonaal tonen de verdeling van individuele kenmerken, terwijl de andere scatterplots de relatie tussen paren van kenmerken weergeven. Het identificeren van lineaire correlaties, zoals tussen afstand en duur, kan een eerste inzicht geven [81](#page=81).
**Dataset splitsen:** Voor supervised learning taken, zoals classificatie, is het belangrijk om de dataset op te splitsen in een trainingsset (ongeveer 80% van de data) en een testset (ongeveer 20%). De trainingsset wordt gebruikt om het model te trainen, terwijl de testset dient om de prestaties van het getrainde model te valideren. Stratificatie is hierbij belangrijk om te zorgen dat de verhouding van de verschillende klassen in beide datasets gelijk is [67](#page=67) [81](#page=81).
**Dataset onevenwichtigheid:** Een classificatie dataset wordt als onevenwichtig beschouwd wanneer de klassenverhoudingen niet gelijk zijn. Klassen die een groot deel van de dataset uitmaken, worden meerderheidsklassen genoemd, terwijl de klassen die een kleiner deel uitmaken, minderheidsklassen zijn. Ongebalanceerde data kunnen de nauwkeurigheid en kwaliteit van het model beïnvloeden [82](#page=82).
**Cross-validatie:** Om de variabiliteit in de modelprestaties te verminderen, worden vaak meerdere rondes van cross-validatie uitgevoerd met verschillende dataverdelingen. De validatieresultaten van deze rondes worden gecombineerd (bijvoorbeeld via gemiddeldes) om een betrouwbare schatting te geven van de voorspellende prestaties van het model [82](#page=82).
#### 4.1.2 Supervised learning
Supervised learning is een methode waarbij een model wordt getraind op gelabelde data. Het doel is om patronen te leren uit de input-output paren om voorspellingen te kunnen doen op nieuwe, ongeziene data [67](#page=67).
**Data voorbereiding:**
* **Data cleaning:** Het corrigeren of verwijderen van onjuiste, incomplete of inconsistente data [67](#page=67).
* **Data labeling:** Het toekennen van labels aan de data [67](#page=67).
* **Label encoding:** Categoriale variabelen worden omgezet naar numerieke waarden [67](#page=67).
* **One-hot encoding:** Creëert binaire kolommen voor elke categorie, waarbij slechts één kolom per rij actief is [67](#page=67).
* **Data normalisatie:** Het schalen van numerieke features naar een uniform bereik, wat de prestaties van veel algoritmes kan verbeteren [40](#page=40) [67](#page=67).
* **Data visualisatie:** Het grafisch weergeven van data om inzichten te verwerven en patronen te ontdekken [58](#page=58) [67](#page=67).
* **Dataset splitsen:** Verdeeld in een training set (ongeveer 80%) en een test set (ongeveer 20%) [67](#page=67).
**Model selectie:**
* **Classificatie vs. Regressie:**
* **Classificatie:** Voorspelt een discrete klasse label (bv. spam/geen spam, ziek/gezond) [68](#page=68) [83](#page=83).
* **Regressie:** Voorspelt een continue numerieke waarde (bv. huizenprijs, temperatuur) [68](#page=68) [82](#page=82).
**Algoritmen:**
* **Regressie:**
* **Lineaire regressie:** Modelleert een lineaire relatie tussen variabelen. De algemene formule is $y = mx + c$, waarbij $m$ en $c$ modelparameters zijn. Bij meervoudige lineaire regressie is de formule $y = a_0 + a_1 x_1 + \dots + a_n x_n$ [82](#page=82).
* **Polynomiale regressie:** Gebruikt polynomiale functies om niet-lineaire verbanden te modelleren, bv. $y = a_0 + a_1 x + a_2 x^2 + \dots + a_n x^n$ [82](#page=82).
* **Logistische regressie:** Wordt gebruikt voor classificatieproblemen, met name het voorspellen van kansen. De formule is $P(y=1) = \frac{1}{1+e^{-(b_0 + b_1 x_1 + \dots + b_n x_n)}}$ [82](#page=82).
* **Classificatie:**
* **K-Nearest Neighbors (k-NN):** Classificeert een datapunt op basis van de meerderheid van zijn $k$ dichtstbijzijnde buren in de trainingsset [68](#page=68) [83](#page=83).
* **Beslissingsboom:** Een boomstructuur die beslissingen neemt op basis van kenmerken [68](#page=68) [83](#page=83).
* **Random forest classificatie:** Een ensemblemethode die meerdere beslissingsbomen combineert voor verbeterde nauwkeurigheid [68](#page=68) [83](#page=83).
**Model validatie:** Na training evalueert men de prestaties met de testset met behulp van metrieken zoals nauwkeurigheid, precisie, sensitiviteit (recall) en specificiteit [68](#page=68).
#### 4.1.3 Unsupervised learning
Unsupervised learning omvat technieken waarbij een model wordt getraind op ongelabelde data, met als doel patronen en structuren te ontdekken zonder vooraf gedefinieerde output [68](#page=68) [84](#page=84).
**Clusteringstechnieken:** Clustering groepeert data op basis van gelijkenis [68](#page=68) [84](#page=84).
* **K-means:** Een populair clusteringalgoritme dat de dataset verdeelt in een vooraf bepaald aantal clusters, $k$. Het doel is de afstand tussen datapunten en hun respectievelijke clustercentra te minimaliseren [68](#page=68) [84](#page=84).
* **Stappen:** Initiële centroid toewijzing, datapunt toewijzing, centroid verplaatsing, en iteratie tot convergentie [85](#page=85).
* **Optimale $k$ bepalen:** De "elleboog grafiek" (elbow method) wordt gebruikt om de optimale waarde van $k$ te bepalen door de sum of squared errors (SSE) te plotten tegen $k$. De SSE kan wiskundig worden uitgedrukt als $\sum_{i=1}^{k} \sum_{x \in C_i} \|x - \mu_i\|^2$, waarbij $C_i$ een cluster is, $x$ een datapunt, en $\mu_i$ het middelpunt van cluster $C_i$ [68](#page=68) [69](#page=69) [85](#page=85).
**Toepassingen in sport:** Clustering wordt gebruikt om spelers of teams te classificeren op basis van prestaties, gelijkwaardige spelers te identificeren, teams te vergelijken, of vergelijkbare spelers te vinden [84](#page=84).
#### 4.1.4 Het prestatie model
Het prestatie model ontleedt prestaties in deelcomponenten (technisch, tactisch, fysiek) vertaalt deze naar Kritieke Succesfactoren (KSF's) die sportspecifiek zijn en deelt deze vervolgens op in meetbare Key Performance Indicators (KPI's). Data-analyse en technologie, zoals video- en speler/bal-tracking, verzamelen ruwe data die wordt omgezet in features [36](#page=36) [37](#page=37).
* **Deelcomponenten:** Technisch, Tactisch, Fysiek.
* **Kritieke Succesfactoren (KSF):** Bijvoorbeeld Controle, Pressing, Intensiteit.
* **Key Performance Indicatoren (KPI):** Meetbare doelen zoals aantal baltoetsen/balbezit, aantal en intensiteit van pressing, aantal High intensity acties.
* **Events & Attributen / Features:** Ruwe data-elementen zoals baltoetsen, pressure, snelheid/acceleraties.
* **Meetsystemen:** Video Speler & Bal tracking, Speler Tracking.
Het model dient als brug tussen sport scientists en data scientists [38](#page=38).
### 4.2 Data preprocessing en feature engineering
Data preprocessing is essentieel om data schoon te maken en te transformeren voor analyse [36](#page=36) [40](#page=40).
#### 4.2.1 Data cleaning
Richt zich op het verbeteren van de datakwaliteit door:
* **Missing data:** Ontbrekende gegevens worden vervangen of verwijderd [36](#page=36) [40](#page=40).
* **Ruis op de data:** Verwijderen van ongewenste fluctuaties of fouten in de data, ook toepasbaar op tijdreeksen en geospatiale data [36](#page=36) [40](#page=40).
#### 4.2.2 Data transformatie
Past data aan voor betere analyse [36](#page=36) [40](#page=40):
* **Normalisatie:** Gelijkzetten van schalen van verschillende datasets om een eerlijkere vergelijking mogelijk te maken. Technieken omvatten Min-Max scaling (naar bereik ) en Z-score normalisatie (standaardisatie naar gemiddelde 0 en standaarddeviatie 1) [1](#page=1) [36](#page=36) [40](#page=40) [48](#page=48).
* **Feature engineering:** Aanpassen van data of signalen om relevante eigenschappen (features) te creëren. Dit proces biedt veel vrijheid en is afhankelijk van de specifieke toepassing [36](#page=36) [41](#page=41) [49](#page=49).
**Feature engineering in het tijdsdomein:** Gebruikt beschrijvende statistieken zoals gemiddelde ($\bar{x}$), maximum/minimum, standaarddeviatie ($\sigma$), range, Root Mean Square (RMS), en tellingen. Afgeleiden (bv. versnelling uit snelheid) en integralen (bv. afstand uit snelheid) kunnen ook worden berekend [49](#page=49).
* Versnelling ($a(t)$) kan worden benaderd als $a_i = \frac{v_{i+1} - v_i}{t_{i+1} - t_i}$ [49](#page=49).
* Afstand ($x$) kan worden berekend door snelheid te integreren: $x(t) = \int v(t) dt$. Voor discrete samples is dit $x_i = \sum_{k=0}^{i-1} v_k \Delta t$ [49](#page=49).
**Feature engineering in het frequentiedomein:** Analyseert data na transformatie met technieken zoals Fast Fourier Transform (FFT) om frequentiecomponenten te ontleden. Voorbeelden zijn hartritmevariabiliteit (HRV) met componenten zoals HF (High Frequency) en LF (Low Frequency) [50](#page=50).
**Toepassingsvoorbeelden:** Accelerometer data voor activiteitsherkenning HRV-features (tijd- en frequentiedomein) GPX data voor parcoursvergelijking en GPS data in teamsporten (combinatie met IMU) [50](#page=50) [53](#page=53) [54](#page=54).
### 4.3 Specifieke data types en toepassingen
#### 4.3.1 Tijdsreeksdata
Datapunten met een specifieke, belangrijke volgorde en tijdsindicatie [51](#page=51).
* **Tijdscomponent belang:** Menselijke fysiologie genereert dynamische, tijdsveranderlijke signalen (hartslag, spieractiviteit) [51](#page=51).
* **Tijdsreeksanalyse: frequentiedomein:** Onderzoekt patronen en ritmes in plaats van exacte timing. Frequentie wordt gemeten in Hertz (Hz). Natuurlijke ritmes in sportdata zijn ademhaling (0.25 Hz), hartslag (1-2 Hz), en cadans (1-3 Hz) [52](#page=52).
* **Fouriertransformatie (FFT):** Converteert een signaal naar zijn frequentiecomponenten, resulterend in een spectrum dat energie/variatie per frequentie toont. Dit vereenvoudigt filtertechnieken en helpt bij signaalreiniging en feature engineering [52](#page=52).
#### 4.3.2 Geospatiale Data (GPS)
Cruciaal voor het analyseren van bewegingen en prestaties [52](#page=52).
* **GPX-data:** Bevat latitude, longitude, en hoogte, gebruikt voor parcoursvergelijking en clustering [52](#page=52).
* **GPS-data in teamsporten:** Gebruikt GPS-units en IMU-sensoren (accelerometers, gyroscopen) om data te verzamelen. Dit genereert een breed scala aan features, waaronder afstand, snelheid, impacten, acceleraties, hartslag, beweging, sprints, en metabolische parameters [53](#page=53).
**Voorbeelden van GPS features in voetbal:** Snelste sprint, totale afgelegde afstand, gemiddelde hartslag, tijd in hartslagzone, aantal sprints, afgelegde sprintafstand [53](#page=53).
### 4.4 Computer Vision in Sport
Computer vision (CV) stelt computers in staat beelden te analyseren en taken te automatiseren die normaal door het menselijk oog worden uitgevoerd [85](#page=85) [97](#page=97).
#### 4.4.1 Beeldvorming en uitdagingen
* **Input:** Visuele gegevens zoals foto's, video's, opnames met meerdere camera's [86](#page=86) [98](#page=98).
* **Output:** Gestructureerde informatie over het beeld [86](#page=86).
* **Uitdagingen:** Variaties in verlichting, schaduw, objectpositie, kijkrichting, occlusies, intraclass-variatie en objectinteracties. CV-systemen moeten ook snel leren en zich aanpassen [98](#page=98).
* **Beeldverbetering (pre-processing):** Correctie van over- en onderbelichting [98](#page=98).
* **Beeld histogram:** Toont het aantal pixels voor elke intensiteitswaarde, nuttig voor correcties (bv. histogram-egalisatie) [98](#page=98).
* **Kleuren en kleurruimtes:** HSV (Hue, Saturation, Value) is vaak geschikter voor kleurvergelijkingen dan RGB [99](#page=99).
#### 4.4.2 Kernmethoden in computer vision voor videoanalyse
* **Beeldsegmentatie:** Groepeert pixels die tot hetzelfde object of gebied behoren [99](#page=99).
* **Detectie en tracking:** Detecteert objecten in frames en volgt ze vervolgens, wat efficiënter is dan detectie per frame [99](#page=99).
* **Hough transformatie:** Detecteert lijnen, vormen en curven in beelden door de beeldruimte om te zetten naar een parameterruimte [99](#page=99).
* **Pose estimation:** Detecteert en volgt de positie en oriëntatie van menselijke lichaamsdelen en gewrichten (bv. OpenPose, HRNet). Dit maakt geavanceerde technische analyses mogelijk, zoals gewrichtshoeken voor bikefit [86](#page=86) [99](#page=99).
#### 4.4.3 Toepassingen van computer vision in sportanalyse
* **Sportanalyse:** Tactische analyse (realtime labelling), ski-analyse, zwemanalyse, volleybal-analyse, padel-analyse [100](#page=100).
* **Tactische analyse tools:** Side-by-side weergave, referentiebeelden vergelijken, frame-per-frame navigatie, key moments vastleggen, tekentools, snapshots [100](#page=100).
### 4.5 Generatieve AI en ethische overwegingen
#### 4.5.1 Generatieve AI
Generatieve AI creëert nieuwe content zoals tekst, beeld, audio en video. De transformerarchitectuur is een principe binnen deep learning-modellen dat patronen in data leert herkennen en benutten om nieuwe output te creëren [86](#page=86).
#### 4.5.2 Large Language Models (LLM's)
LLM's zijn getraind op enorme hoeveelheden tekstdata om natuurlijke taal te begrijpen en te genereren. Voorbeelden zijn GPT-5, Claude, Gemini en LLaMA. Ze kunnen tekst samenvatten, vertalen, structureren, analyseren, en code genereren [87](#page=87).
**Concept van intelligentie bij taalmodellen:** LLM's zijn niet intelligent in de menselijke zin; ze simuleren intelligentie door patronen in taal te herkennen en te vervolgen met behulp van statistiek, niet door inzicht. Bij verkeerd gebruik kunnen ze "hallucineren" en incorrecte informatie produceren [87](#page=87).
#### 4.5.3 Slim prompten (Smart Prompting)
Prompt engineering is cruciaal voor effectief gebruik van LLM's, door duidelijke en specifieke instructies te formuleren [87](#page=87).
**Redenen voor prompting:** Informeren, creatief brainstormen, analyseren/reviewen, simulatie/rollenspel, code genereren [88](#page=88).
**Prompting technieken:** Chain-of-Thought, Few-Shot, Role Prompting, Contra Prompting, Reflexive Prompting, Multi-Turn Prompting [88](#page=88).
**Veelvoorkomende fouten:** Vage vragen, onvoldoende context, te veel acties tegelijk, onduidelijke antwoordtaal/stijl [88](#page=88).
#### 4.5.4 Ethische overwegingen en implementatie-uitdagingen van AI in sport
* **Privacy:** Verzameling van uitgebreide persoonlijke informatie (hartslag, blessuregeschiedenis) vereist robuuste beveiliging en duidelijke regels over eigenaarschap [89](#page=89).
* **Gegevensnauwkeurigheid:** Verkeerd geanalyseerde statistieken kunnen coaches misleiden. Input van hoge kwaliteit en continue validatie zijn cruciaal [89](#page=89).
* **Potentiële vooringenomenheid (Bias) in algoritmen:** Gebiaste historische data kan leiden tot vooroordelen in voorspellende modellen, met name bij spelerwerving [89](#page=89).
* **Duurzame AI:** Grote modellen verbruiken veel energie en water. Gebruik AI slim en gepast om bij te dragen aan duurzaamheid [89](#page=89).
### 4.6 Data opslag en analyse in sport
Data-analyse in sport omvat dataverzameling, opslag, voorbewerking en analyse [79](#page=79).
#### 4.6.1 Dataopslag
* **Databases:** Relationele en niet-relationele databases [80](#page=80).
* **Dataformaten:** CSV, XLSX, JSON [80](#page=80).
* **Data warehouses en data lakes:** Voor grootschalige opslag en analyse [80](#page=80).
#### 4.6.2 Data-analysaproces
Een iteratieve cyclus van dataverzameling, -opslag, -voorbewerking en -analyse .
* **Dataverzameling:** Numerieke data, signalen (tijdreeks, geospatiaal), video .
* **Data voorbewerking (Preprocessing):** Data kwaliteit, data cleaning, data transformatie. Effectieve preprocessing is cruciaal voor betrouwbare analyses [81](#page=81).
* **Data-analyse:** Toepassen van statistische methoden, algoritmes en visualisatietechnieken. AI en ML (supervised/unsupervised) zijn hierbij essentieel .
* **Data visualisatie:** Essentieel voor het communiceren van inzichten met behulp van grafieken en verhalen ("data storytelling") [70](#page=70).
#### 4.6.3 Praktische toepassing met Python
Pandas, Numpy en Matplotlib worden veelgebruikt voor data-manipulatie, analyse en visualisatie in Jupyter Notebooks [59](#page=59) [60](#page=60).
* **Voorbeelden:** Histogrammen voor distributie, scatterplots voor relaties tussen variabelen [61](#page=61) [62](#page=62) [63](#page=63).
#### 4.6.4 Voorbeeld: Werken met ruwe GPS-data
GPS-data van sporten zoals hockey bevat Player ID, hartslag, snelheid (m/s), coördinaten, tijd en relatieve tijd. Analyses kunnen omvatten: visualisatie van snelheid over tijd, bewegingspatronen, heatmaps, berekenen van sprints (snelheid > 20 km/u), en hartslagparameters .
* **Conversie snelheid:** $m/s$ naar $km/h$ door te vermenigvuldigen met 3.6 .
* **Feature engineering:** Creëren van relatieve verstreken tijd, snelheid in km/h, tijdverschillen, totale afgelegde afstand, maximale en gemiddelde hartslag, en totale sprintafstand .
* **Visualisaties:** Plots van snelheid, hartslag en snelheid gecombineerd, positie op het veld, heatmaps, startposities .
---
# Data visualisatie en communicatie van inzichten
Dit thema belicht het belang van datavisualisatie en effectieve communicatie van inzichten, met focus op data storytelling en tools zoals Power BI.
### 5.1 Het belang van datavisualisatie en communicatie
Het effectief communiceren van data-inzichten is essentieel voor prestatieverbetering in de sport. Dit vereist het transformeren van ruwe data naar begrijpelijke en bruikbare informatie [69](#page=69) [70](#page=70).
#### 5.1.1 De rol van feedback in prestatieverbetering
Technologie en data ondersteunen prestatieverbetering, maar vereisen correcte inzet binnen trainingsroutines. Het principe "meten is weten" is cruciaal, mits ondersteund door beslissingssystemen waarbij de trainer een onvervangbare rol blijft spelen [69](#page=69).
#### 5.1.2 Timing en plaats van feedback
De effectiviteit van feedback is afhankelijk van het juiste moment en de juiste plaats, afgestemd op de specifieke doelstelling [69](#page=69).
##### 5.1.2.1 Real-time feedback
De tijdsspanne voor "real-time" feedback is contextafhankelijk. Tijdens een wedstrijd is timing cruciaal; snelle, minder complexe feedback is effectiever dan tragere, complexere boodschappen. De feedback moet bondig, to-the-point en praktisch hanteerbaar zijn voor de trainer op locatie [69](#page=69).
##### 5.1.2.2 Post-wedstrijd analyse
Bij post-wedstrijd analyses is de timing minder kritiek, wat meer flexibiliteit biedt in plaats en complexiteit van de analyse en feedback. De kwaliteit van de feedback is hier belangrijker dan snelheid [70](#page=70).
> **Tip:** Realiseer je dat verschillende situaties vragen om verschillende benaderingen van feedback timing en complexiteit [70](#page=70).
#### 5.1.3 Communicatie van inzichten
De focus bij het communiceren van data moet liggen op het overbrengen van de kernboodschap, niet op het presenteren van zoveel mogelijk informatie [70](#page=70).
##### 5.1.3.1 Data storytelling
Dit concept omvat het overbrengen van een boodschap in de vorm van een verhaal, waarbij data als onderbouwing dient. De vormgeving van visualisaties moet aansluiten bij het type boodschap dat gecommuniceerd wordt [70](#page=70).
> **Tip:** Onthoud dat de eindgebruiker van de data primair antwoorden op zijn vragen zoekt, niet de data zelf [70](#page=70).
##### 5.1.3.2 Van data naar actie
Het primaire doel is het delen van inzichten, niet van ruwe data. Communicatie dient publieksgericht te zijn en afgestemd op de doelgroep. Streef ernaar om uit inzichten concrete acties of suggesties af te leiden, oftewel "actionable insights" [70](#page=70).
> **Example:** In plaats van een grafiek met hartslagvariatie te tonen, communiceer je dat de herstelmetingen aangeven dat de sporter morgen een lichtere training kan doen om overtraining te voorkomen [70](#page=70).
### 5.2 Data visualisatie
Data visualisatie is een cruciaal onderdeel van data-analyse, waarmee complexe datasets inzichtelijk gemaakt kunnen worden. Door middel van grafieken kunnen patronen, trends en uitschieters sneller worden geïdentificeerd dan door inspectie van ruwe data [61](#page=61) [72](#page=72).
#### 5.2.1 Verschillende types van data visualisatie
Het effectief visualiseren van data vereist het kiezen van de juiste grafiek voor de specifieke data en het aanpassen van de visualisatie aan de doelgroep en de te communiceren boodschap [73](#page=73).
##### 5.2.1.1 Categorieën van visualisatietypes
* **Vergelijking tussen verschillende waardes:**
* Stacked kolomgrafiek: Toont een extra variabele/legende binnen een hoofdvariabele [73](#page=73).
* Treemap: Een hiërarchische visualisatie [73](#page=73).
* Cirkeldiagram (Pie Chart): Geeft verhoudingen in procenten weer [73](#page=73).
* **Tijdsreeksen:** Grafieken waarbij de x-as tijd weergeeft en de y-as de waarde [73](#page=73).
* **Correlaties:**
* Spreidingsdiagram (Scatterplot): Toont de relatie tussen twee parameters [73](#page=73).
* Bubble grafiek: Visualiseert de relatie tussen drie variabelen, waarbij de grootte van de bubbels een extra variabele vertegenwoordigt. Deze hebben een beperkte capaciteit om veel cirkels weer te geven [73](#page=73).
* Boxplot: Een statistische representatie van een dataset [73](#page=73).
* **Individuele waardes/getallen:**
* Kaart-achtige weergave: Geeft een waarde weer [73](#page=73).
* Schaal: Geeft de verhouding weer [73](#page=73).
* Meter/balk: Weergeven van een percentage of waarde [73](#page=73).
* Tabel: Geeft waarden weer in rijen en kolommen met opmaakmogelijkheden [73](#page=73).
* Woordwolk (Wordcloud): De grootte van een woord of parameter is gerelateerd aan het gewicht of de frequentie ervan [73](#page=73).
* Heatmap: Een 3D-representatie, vaak gebruikt voor geospatiale data [73](#page=73).
* Waterval grafiek: Accentueert de cumulatieve som en verschillen tussen opeenvolgende kolommen, anders dan een standaard kolomgrafiek [73](#page=73).
#### 5.2.2 De keuze voor de juiste grafiek
Het selecteren van de optimale visualisatiemethode vereist het stellen van de juiste vragen [74](#page=74).
##### 5.2.2.1 Vragen voor het definiëren van de visualisatie
* Wat voor soort verhaal probeer ik te vertellen [74](#page=74)?
* Hoeveel gegevens heb ik [74](#page=74)?
* Voor welk publiek presenteer ik en hoeveel complexiteit en diepgang hebben zij nodig [74](#page=74)?
* Wat voor soort gegevens heb ik [74](#page=74)?
* Hoe kan ik een overtuigende en duidelijke visualisatie maken [74](#page=74)?
##### 5.2.2.2 Doel van de visualisatie
De reden voor het maken van een visualisatie kan variëren [74](#page=74):
* Begrip van de dataset (verkennende data-analyse) [74](#page=74).
* Communicatie van prestaties aan coaches of atleten [74](#page=74).
* Visualisatie van prestatieontwikkeling gedurende een seizoen [74](#page=74).
* Weergeven van ranglijsten [74](#page=74).
* Creëren van interactieve dashboards voor atletenmanagement [74](#page=74).
##### 5.2.2.3 Doelgroep van de visualisatie
De visualisatie kan gericht zijn op verschillende stakeholders [74](#page=74):
* Coaching staff [74](#page=74).
* Individuele atleten [74](#page=74).
* Teams [74](#page=74).
* Sportgeneeskundigen / sportwetenschappers [74](#page=74).
* Jezelf [74](#page=74).
##### 5.2.2.4 Type boodschap
De visualisatie kan bedoeld zijn om een specifieke vaststelling over te brengen of om de kijker zelf inzichten te laten verwerven. Dashboards kunnen ontdekking faciliteren, terwijl specifieke designkeuzes de kijker kunnen leiden naar een bepaalde boodschap [74](#page=74).
#### 5.2.3 Visueel communiceren
Communicatie via visualisatie kan versterkt worden door slim gebruik te maken van grafische eigenschappen [74](#page=74).
##### 5.2.3.1 Communicatietechnieken
* **Positionering:** Zelfs met willekeurige posities kan een duidelijke groepering gecreëerd worden [75](#page=75).
* **Kleurgebruik:** Kan gebruikt worden om aan te duiden wat met elkaar vergeleken wordt. De interpretatie van kleur is niet altijd leidend; het brein zoekt ook naar logische verbindingen. Kleurschakeringen kunnen gebruikt worden om klemtonen te leggen [75](#page=75).
* **Lijnstijlen:** Variatie in lijnstijlen kan een onderbreking of een andere trend suggereren [75](#page=75).
* **Figuurgebruik:** Door figuren kan de verbeelding lijnen aanvullen, zelfs als deze niet expliciet getekend zijn [75](#page=75).
* **Witruimte (spatiëring):** Witruimte kan gebruikt worden om objecten te groeperen of juist te scheiden [75](#page=75).
* **Voorgrond en achtergrond:** Een duidelijke scheiding tussen voor- en achtergrond is essentieel voor interpretatie [75](#page=75).
#### 5.2.4 Van data naar verhaal
Het transformeren van data naar een verhaal is een cruciaal proces [75](#page=75).
##### 5.2.4.1 Data storytelling framework
Data storytelling bestaat uit drie kerncomponenten [75](#page=75):
* **Het verhaal:** Een narratief dat inzichten uit data communiceert met als doel het publiek te beïnvloeden tot actie. Dit kan mondeling of schriftelijk gepresenteerd worden [75](#page=75).
* **De data:** Een nauwkeurige en geanalyseerde dataset die inzichten levert ter ondersteuning van het verhaal [75](#page=75).
* **Visuals:** Grafische weergaven van data (grafieken, diagrammen, etc.) die het verhaal ondersteunen en het publiek aanspreken [75](#page=75).
##### 5.2.4.2 Voordelen van data storytelling
* **Houdt het publiek geboeid:** Mensen geven de voorkeur aan visuals, wat de betrokkenheid en het geheugen verhoogt [75](#page=75).
* **Maakt belangrijke punten makkelijker te benadrukken:** Het menselijk brein verwerkt visuele content beter dan cijfers, waardoor complexe onderwerpen toegankelijk worden gemaakt voor een niet-technisch publiek [75](#page=75).
* **Inspireert tot actie:** Een goed dataverhaal biedt inzichten die aanzetten tot actie; door aanpassing aan de doelgroep wordt de impact vergroot [75](#page=75).
##### 5.2.4.3 Tips voor data storytelling
* Kies één hoofdboodschap per visual: Houd het simpel en zoom in op de kernboodschap [76](#page=76).
* Zorg voor voldoende context: Gebruik verhaaltechnieken zoals vergelijkingen en analogieën om gegevens in de juiste context te plaatsen [76](#page=76).
* Werk op de data: Selecteer alleen de inzichten die de boodschap ondersteunen [76](#page=76).
* Creëer je verhaal:
* Context scheppen: Voeg achtergrondinformatie toe (tekst, achtergrondafbeeldingen) [76](#page=76).
* Veranker de "hook": Creëer een aantrekkingspunt dat het publiek emotioneel betrekt [76](#page=76).
* Vergroot inzicht en spanning: Voeg ondersteunende details toe die diepere inzichten onthullen [76](#page=76).
* Onthul de kernboodschap: Het belangrijkste inzicht dat het publiek moet onthouden [76](#page=76).
* Roep op tot actie: Geef het publiek duidelijk aan wat ze moeten doen [76](#page=76).
* Varieer je visuals: Kies het beste visualisatietype voor je boodschap [76](#page=76).
* Minimaliseer de cognitieve belasting: Verwijder storende elementen en pas assen aan om de boodschap te verduidelijken [76](#page=76).
* Gebruik kleur/accenten/andere opmaak: Kleur stuurt interpretatie, en elementen als vetgedrukte tekst of lichtheid kunnen het belangrijkste deel accentueren [76](#page=76).
##### 5.2.4.4 Verhaal vertellen met visualisatie in de praktijk
Visualisaties moeten niet misleidend zijn. Het effectief presenteren van data kan door de juiste grafische keuzes en storytelling-elementen [76](#page=76).
#### 5.2.5 Voorbeelden in de sport
Data visualisatie wordt uitgebreid toegepast binnen de sportwereld om prestaties te analyseren, te vergelijken en te communiceren. Dit omvat onder andere de analyse van basketbal schietprestaties door middel van visualisatie [76](#page=76).
> **Example:** Het maken van een histogram van de trainingsuren per week [62](#page=62) [63](#page=63).
> **Example:** Het maken van een scatterplot van trainingsuren versus VO2_Max [63](#page=63).
#### 5.2.6 Tools voor visualisatie
##### 5.2.6.1 Python-pakketten voor visualisatie
* **Dash:** Een populair Python-pakket voor het creëren van interactieve webgebaseerde dashboards, dat elementen van webontwikkeling en datavisualisatie combineert voor dynamische analyses [76](#page=76).
##### 5.2.6.2 Standalone datavisualisatiepakketten
* **Power BI:** Een veelgebruikte standalone tool voor business intelligence en datavisualisatie van Microsoft, die uitgebreide mogelijkheden biedt voor dataverwerking en interactieve dashboards [77](#page=77).
###### 5.2.6.2.1 Functionaliteiten van Power BI
Power BI ondersteunt diverse kernfunctionaliteiten essentieel voor het transformeren van ruwe data naar inzichtelijke visualisaties [77](#page=77):
* **Koppeling met externe databronnen:** Verbinding met databases, cloudservices, spreadsheets, etc. [77](#page=77).
* **Data voorverwerking en cleaning:** Opschonen, transformeren en modelleren van data binnen Power BI [77](#page=77).
* **Interactieve dashboard ontwikkeling:** Faciliteert het creëren van dynamische en interactieve dashboards voor verkennende data-analyse [77](#page=77).
### 5.3 Praktische oefeningen en voorbeelden
#### 5.3.1 Exploratieve data-analyse met Pandas en Matplotlib
De eerste stap in data-analyse is het importeren en verkennen van datasets, vaak met behulp van de Python-bibliotheek Pandas binnen een Jupyter Notebook-omgeving [58](#page=58).
##### 5.3.1.1 Data importeren en basis inspectie
* Eerste rijen bekijken met `.head()` [58](#page=58).
* Dimensies van de dataset achterhalen met `.shape` [58](#page=58) [60](#page=60).
* Kolomnamen kennen [58](#page=58) [60](#page=60).
* Datatypes controleren met `.dtypes` [58](#page=58) [60](#page=60).
* Ontbrekende waardes detecteren [58](#page=58) [60](#page=60).
##### 5.3.1.2 Beschrijvende statistieken en kenmerken
* Beschrijvende statistieken voor numerieke variabelen met `.describe()` [58](#page=58) [60](#page=60).
* Specifieke statistieken zoals gemiddelde en mediaan berekenen [59](#page=59) [61](#page=61).
* Minimum en maximum waarden identificeren [59](#page=59) [61](#page=61).
* Aantal unieke waardes in categorische kolommen tellen [59](#page=59) [61](#page=61).
##### 5.3.1.3 Data-manipulatie en feature engineering
* Nieuwe kolommen creëren door bestaande te combineren [59](#page=59) [61](#page=61).
* Ratio's berekenen en toevoegen als nieuwe kolommen [59](#page=59) [61](#page=61).
##### 5.3.1.4 Visualisaties voor data-exploratie
* **Histogrammen:** Visualiseren de distributie van individuele variabelen [59](#page=59) [61](#page=61).
* **Scatterplots:** Onderzoeken de relatie tussen twee numerieke variabelen [59](#page=59) [61](#page=61).
> **Tip:** Werk in Jupyter Notebooks met aparte cellen voor elke stap om code, output en visualisaties georganiseerd te houden [59](#page=59).
> **Tip:** Visualiseer altijd eerst de data voordat je geavanceerde analyses uitvoert [59](#page=59).
#### 5.3.2 Opdracht: Werken met ruwe GPS-data van een hockeywedstrijd
Deze praktische opdracht omvat dataverkenning, feature-engineering en visualisatie van ruwe GPS-data .
##### 5.3.2.1 Data import en voorbereiding
* Importeren van datasets (GPS-bestand, pitch-bestand) .
* Genereren van een lijst met unieke speler-ID's .
* Creëren van een kolom voor relatieve verstreken tijd .
##### 5.3.2.2 Initiële visualisaties
* Grafiek van de snelheid van een specifieke speler over tijd .
* Opslaan van figuren per speler met grafieken voor hartslag en snelheid .
* Grafiek die de positie (X- en Y-coördinaten) van een specifieke speler op het veld weergeeft .
* Genereren van een heatmap om de dichtheid van de positie van een speler over het veld te visualiseren .
* Plot van de startposities van alle spelers, met de starttijd gedefinieerd als 12:30:43.00 .
##### 5.3.2.3 Feature engineering
* **Snelheid in km/h:** Conversie van meters per seconde (m/s) naar kilometers per uur (km/h) met de formule $ v_{km/h} = v_{m/s} \times 3.6 $ .
* **Time difference:** Toevoegen van een kolom die het tijdsverschil tussen opeenvolgende datapunten weergeeft .
##### 5.3.2.4 Afstands- en hartslagberekeningen
* **Totale afgelegde afstand:** Berekenen voor elke speler, eventueel beperkt tot de data opgenomen tijdens de wedstrijd (na de starttijd) .
* **Hartslagparameters:** Berekenen van maximale en gemiddelde hartslag per speler .
* **Totale sprintafstand:** Berekenen voor elke speler, gedefinieerd als perioden met een snelheid groter dan 20 km/h .
##### 5.3.2.5 Geavanceerde visualisaties en analyse
* Creëren van een heatmap met de visualisatiebibliotheek Seaborn .
* Visualisaties voor specifieke spelers, zoals snelheid, hartslag, positie en heatmap voor speler 608 .
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Data collectie | Het proces van het verzamelen van gegevens die relevant zijn voor de specifieke doelstellingen van een analyse. Dit is de eerste en een cruciale stap in data-analyse. |
| Data opslag | Het systematisch bewaren van verzamelde gegevens voor verdere verwerking en analyse. Dit kan gebeuren in databases, data warehouses of data lakes. |
| Data analyse | De fase waarin verzamelde en opgeslagen gegevens worden onderzocht om inzichten te verkrijgen. Hierbij worden verschillende methoden en technieken toegepast om ruwe data om te zetten in bruikbare informatie. |
| Data feedback | Het proces waarbij de resultaten van de analyse worden teruggekoppeld om het proces te informeren en te verbeteren, wat een cyclus creëert. |
| Numerieke data | Data die bestaat uit getallen en direct geschikt is voor kwantitatieve analyse. Dit type data is het makkelijkst te analyseren. |
| Geospatiale data | Data die positionele informatie in de ruimte bevat, zoals breedtegraad, lengtegraad of X,Y-coördinaten. Deze data kan twee- of driedimensionaal zijn. |
| Spatio-temporele data | Data die zowel de aspecten van ruimte als tijd combineert, waarbij data wordt verzameld over een tijdsperiode. |
| GPS (Globale positionering) | Een systeem dat gebruik maakt van satellieten om de positie op aarde te bepalen. Wereldwijd zijn er vier belangrijke systemen: GPS (VS), GLONASS (Rusland), BeiDou (China) en Galileo (Europa). |
| IMU (Inertial Measurement Unit) | Een apparaat dat bewegingsdata verzamelt en doorgaans een accelerometer, gyroscoop en magnetometer bevat om versnellingen, rotatiesnelheid en magnetische velden te meten. |
| Computervisie | Een techniek waarbij computerprogramma's beelden kunnen interpreteren en analyseren, bijvoorbeeld om de positie van sporters uit videobeelden te extraheren. |
| Hartslagsensor | Een apparaat dat de frequentie meet waarmee het hart pompt. Kan elektrisch of optisch (PPG) werken. |
| Hartslagvariabiliteit (HRV) | De variatie tussen opeenvolgende hartslagen (hartslag tot hartslagvariatie). Een maat voor de activiteit van het autonome zenuwstelsel. |
| Database | Een georganiseerde verzameling van gegevens die elektronisch wordt opgeslagen en geraadpleegd met behulp van een databasebeheersysteem. |
| Relationele database | Een database die data opslaat in tabellen met rijen en kolommen, waarbij de tabellen met elkaar in relatie staan. Gebruikt SQL voor query's. |
| Niet-relationele database (NoSQL) | Een database die geen tabellen, rijen en kolommen gebruikt op de traditionele manier, maar een flexibelere manier van dataopslag biedt, vaak in documentformaat. |
| Datawarehouse | Een centraal opslagsysteem voor grote hoeveelheden gestructureerde data, specifiek ontworpen voor analytics en rapportage. |
| Data lake | Een opslagplaats waar zowel gestructureerde als niet-gestructureerde data wordt opgeslagen zonder vooraf gedefinieerde structuur, bedoeld voor Big Data en AI-toepassingen. |
| ETL (Extract, Transform, Load) | Een proces waarbij data uit bronnen wordt geëxtraheerd, getransformeerd naar een geschikt formaat, en vervolgens geladen in een doelsysteem, typisch voor datawarehouses. |
| ELT (Extract, Load, Transform) | Een proces waarbij data wordt geëxtraheerd en direct geladen in een data lake of warehouse, waarna de transformatie plaatsvindt binnen het doelsysteem. |
| API (Application Programming Interface) | Een interface die de communicatie tussen verschillende softwaretoepassingen mogelijk maakt, vaak gebruikt voor data-uitwisseling en integratie. |
| REST-API | De meest gebruikte methode voor API-communicatie, die gebruikmaakt van HTTP-requests en data teruggeeft in formaten zoals JSON of XML. |
| CRUD-operaties | De vier basistypes van interactie met een database: Create (maken), Read (lezen), Update (bijwerken), Delete (verwijderen). |
| Query | Een reeks instructies die aan een databasebeheersysteem wordt gegeven om data op te vragen, te bewerken of te beheren. |
| Datamodellering | Het proces van het definiëren van de structuur en relaties van gegevens in een database, vaak gerepresenteerd door een entiteits-relatiediagram (ER-diagram). |
| Normalisatie (data) | Een proces om gegevens in een database te organiseren en anomalieën zoals dubbele records of ontbrekende gegevens te verminderen of te elimineren, met name relevant voor relationele databases. |
| ACID-compliantie | Een set garanties voor betrouwbaarheid van databasetransacties: Atomiciteit, Consistentie, Isolatie, Duurzaamheid. |
| Machine learning (ML) | Een tak van kunstmatige intelligentie die systemen in staat stelt om te leren van data zonder expliciet geprogrammeerd te zijn, door patronen te herkennen en voorspellingen te doen. |
| Supervised learning | Een type machine learning waarbij het model wordt getraind op gelabelde data (input-output paren) om voorspellingen te kunnen doen op nieuwe data. |
| Unsupervised learning | Een type machine learning waarbij het model patronen en structuren ontdekt in ongelabelde data, zonder vooraf gedefinieerde outputs. Clustering is hier een voorbeeld van. |
| Classificatie | Een machine learning taak binnen supervised learning die voorspelt tot welke discrete klasse of categorie een datapunt behoort. |
| Regressie | Een machine learning taak binnen supervised learning die een continue numerieke waarde voorspelt, zoals temperatuur of prijs. |
| K-Means clustering | Een populair unsupervised learning algoritme dat data groepeert in een vooraf bepaald aantal clusters op basis van hun gelijkenis met de clustercentra (centroïden). |
| Computer vision (CV) | Een gebied van kunstmatige intelligentie dat computers in staat stelt beelden te "zien" en interpreteren, vergelijkbaar met menselijk zicht. |
| Pose estimation | Een computer vision techniek die de positie en oriëntatie van lichaamsdelen en gewrichten in beelden detecteert en volgt, gebruikt voor bewegingsanalyse. |
| Generatieve AI | Kunstmatige intelligentie die in staat is nieuwe content te genereren, zoals tekst, beelden, audio en code. Large Language Models (LLM's) zijn een voorbeeld. |
| Large Language Model (LLM) | Een type generatieve AI getraind op enorme hoeveelheden tekstdata, in staat om natuurlijke taal te begrijpen en te genereren, zoals ChatGPT. |
| Prompt engineering | De kunst van het formuleren van duidelijke en specifieke instructies (prompts) om het gewenste resultaat te verkrijgen van een AI-model, zoals een LLM. |
| Data storytelling | Het proces van het communiceren van inzichten uit data door middel van een narratief, ondersteund door visualisaties, om het publiek te betrekken en tot actie aan te zetten. |
| Data preprocessing | De voorbereidende fase in data-analyse waarbij ruwe data wordt opgeschoond, getransformeerd en klaargemaakt voor analyse. |
| Data cleaning | Het proces van het identificeren en corrigeren van fouten, ontbrekende waarden en inconsistenties in de data om de kwaliteit te verbeteren. |
| Data transformatie | Het omzetten van data naar een formaat of structuur die geschikter is voor analyse, bijvoorbeeld door normalisatie, aggregatie of het creëren van nieuwe features. |
| Normalisatie (data) | Het herschalen van data naar een uniforme schaal, vaak tussen 0 en 1, om ongelijke invloed van variabelen met verschillende bereiken te voorkomen. |
| Feature engineering | Het proces van het creëren van nieuwe, informatieve kenmerken (features) uit ruwe data die relevant zijn voor een specifieke analyse of model. |
| Tijdsreeks | Data verzameld over opeenvolgende tijdstippen, waarbij de volgorde en het tijdsinterval van belang zijn. Voorbeelden zijn hartslag of GPS-locaties over tijd. |
| Signaal | Een meting van een werkelijk proces dat in de loop van de tijd verandert, vaak weergegeven als een tijdsreeks. |
| Sampling frequentie (bemonsteringsfrequentie) | Het aantal metingen per seconde dat wordt gedaan om een analoog signaal te digitaliseren, uitgedrukt in Hertz (Hz). |
| Frequentiedomein | Een representatie van een signaal gebaseerd op de verschillende frequentiecomponenten waaruit het is opgebouwd, vaak verkregen via Fourieranalyse. |
| FT (Fouriertransformatie) | Een wiskundige techniek die een signaal omzet van het tijdsdomein naar het frequentiedomein, waardoor de frequentiecomponenten zichtbaar worden. |
| Accelerometer | Een sensor die versnellingen meet in een of meerdere richtingen, vaak gebruikt in IMU's voor bewegingsanalyse. |
| Gyroscoop | Een sensor die de rotatiesnelheid meet rondom een of meerdere assen, onderdeel van IMU's voor bewegingsdetectie. |
| Magnetometer | Een sensor die de sterkte en richting van een magnetisch veld meet, vaak gebruikt in IMU's voor oriëntatiebepaling. |
| KNN (k-Nearest Neighbors) | Een machine learning algoritme voor classificatie of regressie dat een datapunt classificeert op basis van de meerderheid van zijn K dichtstbijzijnde buren in de trainingsdata. |
| Beslissingsboom | Een boomstructuur die beslissingsregels representeert, waarbij interne knopen attributen testen, takken uitkomsten voorstellen en bladknopen klassenlabels zijn. |
| Random Forest | Een ensemble-methode die meerdere beslissingsbomen combineert om de nauwkeurigheid te verbeteren en overfitting te verminderen. |
| Model validatie | Het proces van het evalueren van de prestaties van een machine learning model met behulp van een aparte testset om de generalisatie naar nieuwe data te beoordelen. |
| Accuraatheid | Een metriek voor modelvalidatie die het percentage correct geclassificeerde gevallen aangeeft. |
| Precisie | Een metriek die de verhouding weergeeft van correct positieve voorspellingen tot alle positieve voorspellingen. |
| Sensitiviteit (Recall) | Een metriek die de verhouding aangeeft van correct positieve voorspellingen tot alle feitelijke positieve gevallen. |
| Specificiteit | Een metriek die de verhouding aangeeft van correct negatieve voorspellingen tot alle feitelijke negatieve gevallen. |
| CSV (Comma Separated Values) | Een eenvoudig tekstformaat voor het opslaan van tabelgegevens, waarbij waarden door komma's worden gescheiden. |
| JSON (JavaScript Object Notation) | Een lichtgewicht, mens-leesbaar data-uitwisselingsformaat dat veel wordt gebruikt voor web-API's en documenten. |
| Wearables | Draagbare elektronische apparaten die data verzamelen over de gebruiker, zoals smartwatches en fitnesstrackers. |
| Externe sensoren | Apparaten die draadloos gekoppeld kunnen worden aan wearables, zoals hartslagbanden of vermogensmeters, om extra data te verzamelen. |
| Data storytelling | Het overbrengen van inzichten uit data via een narratief, ondersteund door visualisaties, met als doel het publiek te beïnvloeden tot actie. |
| UX design (User Experience) | Het ontwerpen van de algehele ervaring die een gebruiker heeft met een product of dienst, gericht op gebruiksgemak en aangename interacties. |
| UI design (User Interface) | Het ontwerpen van de visuele en interactieve elementen van een interface waarmee gebruikers interageren, gericht op "look and feel". |
| Videoanalyse | Het proces van het analyseren van videobeelden om informatie te verkrijgen over bewegingen, tactieken of prestaties, met toepassingen in sport. |
| FPS (Frames Per Second) | Het aantal individuele beelden (frames) dat per seconde wordt opgenomen en weergegeven, cruciaal voor de vloeiendheid van beweging in video. |
| Resolutie | Het aantal pixels waaruit een digitaal beeld of videoframe bestaat; meer pixels betekent hogere resolutie en meer detail. |
| Optische zoom | Een zoomtechniek die gebruikmaakt van lenzen om het beeld fysiek te vergroten, zonder kwaliteitsverlies. |
| Digitale zoom | Een zoomtechniek die een deel van een bestaand beeld uitvergroot, wat leidt tot een vermindering van de resolutie en beeldkwaliteit. |