Cover
Comença ara de franc Samenvatting Data Driven Management.pdf
Summary
# Wat is data en de geschiedenis ervan
Dit onderwerp verkent de definitie van data en de evolutie van opslagtechnologieën door de geschiedenis heen, met een focus op de toenemende hoeveelheden en dalende kosten van dataopslag.
### 1.1. Definitie van data
Data wordt gedefinieerd als digitale informatie die door computers wordt opgeslagen, verwerkt en gemanipuleerd. Dit omvat een breed scala aan informatievormen, zoals tekst, afbeeldingen, figuren, video's, spreadsheets, internetwebsites en sensormetingen [7](#page=7).
### 1.2. Geschiedenis van dataopslag
De geschiedenis van dataopslag wordt gekenmerkt door de ontwikkeling van verschillende opslagmedia, met name floppy disks, harde schijven en de cloud [7](#page=7).
#### 1.2.1. Floppy disks
Floppy disks waren een populair opslagmedium van de jaren 1970 tot het einde van de jaren 1990. De opslagcapaciteit van floppy disks varieerde van enkele kilobytes (KB) tot een paar megabytes (MB). Ze waren geschikt voor het opslaan van een beperkte hoeveelheid data, zoals enkele Word-documenten of kleine afbeeldingen [8](#page=8).
> **Tip:** Een interessante observatie over floppy disks is dat de grootste fysieke disk de kleinste opslagcapaciteit had [8](#page=8).
#### 1.2.2. Hard disk drives (HDD)
Hard Disk Drives (HDD's) werden geïntroduceerd in de jaren 1950 en zijn tot op heden een essentieel onderdeel gebleven van computeropslag, zowel in datacenters als persoonlijke computers. De capaciteit en snelheid van HDD's zijn door de jaren heen aanzienlijk geëvolueerd. De opslagcapaciteit varieert nu van gigabytes (GB) tot meerdere terabytes (TB). Ter illustratie, één terabyte (TB) aan opslag is ongeveer gelijk aan het opslaan van 200.000 foto's. Moderne mobiele apparaten zoals GSM's, tablets en notebooks maken gebruik van Solid State Drives (SSD's), die intern vergelijkbaar zijn met harde schijven [8](#page=8).
#### 1.2.3. De cloud
De opkomst van de cloud is direct gerelateerd aan de ontwikkeling van het internet en werd geïntroduceerd in de jaren 2000. Cloudopslag stelt gebruikers in staat om gegevens op te slaan op externe servers die toegankelijk zijn via internet. Bekende voorbeelden van cloudopslagdiensten zijn Dropbox, Google Drive en iCloud [8](#page=8).
De cloud functioneert als een service-gebaseerd model waarbij gebruikers opslagruimte "huren" op het internet. Dit maakt het mogelijk om grote hoeveelheden data te uploaden, op te slaan en op te halen vanaf elke locatie. Een significant voordeel van de cloud is de flexibiliteit: de opslagcapaciteit kan worden aangepast aan de veranderende behoeften [8](#page=8).
> **Tip:** De cloud elimineert de traditionele fysieke opslaglimieten die gepaard gingen met eerdere opslagmedia [8](#page=8).
### 1.3. Observaties in de geschiedenis van data
Gedurende de evolutie van dataopslag zijn er een aantal belangrijke observaties te doen:
* Er zijn geen fysieke opslaglimieten meer, mede dankzij de cloud [8](#page=8).
* De kosten voor het opslaan van data zijn aanzienlijk gedaald [8](#page=8).
* Meer en meer organisaties maken de overstap naar cloudopslag [8](#page=8).
* Door de exponentiële toename in hoeveelheden wordt data steeds vaker geclassificeerd als 'big data' [8](#page=8).
* * *
# Data producers en Big Data
Hier is een uitgebreide studiehandleiding voor het onderwerp "Data producers en Big Data".
## 2\. Data producers en Big Data
Dit deel onderzoekt de oorsprong van data, de processen en technologieën die data genereren, en introduceert de vijf V's van Big Data [9](#page=9).
### 2.1. Processen
Een proces is een reeks stappen en beslissingen die betrokken zijn bij het voltooien van werk. Binnen een proces werken mensen en wordt technologie gebruikt. Voorbeelden van processen zijn het klaarmaken van ontbijt, het boeken van een hotelkamer, of het tanken van een voertuig [9](#page=9).
### 2.2. Technologie
Verschillende technologieën produceren data, waaronder sensoren, video, audio en afbeeldingen, het internet, en business applications. Sensoren vallen onder 'the Internet of Things' (IoT) [10](#page=10).
#### 2.2.1. Sensoren
* **Temperatuursensoren:** Controleren de temperatuur tijdens processtappen in sectoren zoals voedingsproductie, chemische processen en landbouw [10](#page=10).
* **Nabijheidssensoren:** Detecteren de aanwezigheid van een object of materiaal in de buurt door middel van geluidssignalen die weerkaatsen als een echo. Ze worden gebruikt in auto's en smartphones [10](#page=10).
* **GPS-locatiesensoren:** Genereren data over locatie [10](#page=10).
#### 2.2.2. Video, audio en afbeeldingen
Videobeelden worden gegenereerd door diverse camera's, zoals normale camera's, smart camera's (met objectherkenning), satellietcamera's en dronecamera's. Het volume van videodata kan snel toenemen, afhankelijk van de resolutie, en is significant groter dan dat van sensordata [10](#page=10).
#### 2.2.3. Internet
Het internet is een primaire en snelgroeiende bron van data afkomstig van websites, sociale media, e-mails, video en meer [11](#page=11).
* **Sociale media:** Het gebruik van platforms zoals Facebook, YouTube, WhatsApp en Instagram genereert grote hoeveelheden data die geëxporteerd en opgeslagen kunnen worden in Social Media Data Stores [11](#page=11).
* **Website traffic data:** Websites verzamelen data over bezoekersaantallen, populaire content en bezoekersinformatie (land, provider). Web scraping wordt gebruikt voor automatische data-extractie, bijvoorbeeld om prijzen van concurrenten te achterhalen [11](#page=11).
* **Online marketing campaigns data:** Data van online marketingcampagnes omvat statistieken zoals impressies, opens, open rate, clicks, click rate en conversies [11](#page=11).
#### 2.2.4. Business applications
Bedrijfsdata wordt verzameld via business applications zoals CRM (Customer Relationship Management), ERP (Enterprise Resource Planning) en Service Desk Management [12](#page=12).
* **CRM-systemen:** Beheren bedrijfsgegevens, relaties, communicatie en interacties (bv. Salesforce, Teamleader) [12](#page=12).
* **ERP-systemen:** Managen dagelijkse bedrijfsactiviteiten (bv. SAP, Odoo) [12](#page=12).
* **Service Desk Management:** Applicaties die incidenten en serviceaanvragen van klanten helpen oplossen en beheren, waarbij tickets worden geregistreerd en opgevolgd [12](#page=12).
#### 2.3. Data in de haven van Antwerpen
De haven van Antwerpen genereert data uit diverse bronnen, zoals scheepsposities (AIS), luchtkwaliteit, waterstanden, drijvend afval, bruggebruik, sluizen en energieverbruik [12](#page=12).
### 2.3. De vijf V's van Big Data
De vijf kernbegrippen van Big Data zijn Volume, Velocity, Variety, Veracity en Value [13](#page=13).
* **Volume:** Verwijst naar de omvang van Big Data, wat gespecialiseerde tools en infrastructuur vereist voor verwerking en analyse [13](#page=13).
* **Velocity:** Geeft de snelheid aan waarmee gegevens worden gegenereerd en verwerkt. Voldoende capaciteit is nodig om de data-instroom tijdig te verwerken en bruikbare inzichten te leveren [13](#page=13).
* **Variety:** Beschrijft de verschillende structuren van data [14](#page=14):
* **Gestructureerd:** Data geordend in tabelstructuren met rijen en kolommen, wat eenvoudige analyse mogelijk maakt (bv. CSV-bestanden, spreadsheets) [14](#page=14).
* **Semigestructureerd:** Data die enkele organisatorische kenmerken behoudt maar niet in tabelvorm is, wat analyse beter mogelijk maakt dan ongestructureerde data (bv. XML-, JSON-gegevens) [14](#page=14).
* **Ongestructureerd:** Data zonder vooraf gedefinieerde organisatie of structuur, wat analyse bemoeilijkt (bv. afbeeldingen, video's, audio-opnames) [14](#page=14).
* **Veracity:** Gaat over de nauwkeurigheid en authenticiteit van gegevens. Data moet gevalideerd worden om een accuraat beeld te garanderen, zonder manipulatie die de nauwkeurigheid aantast [14](#page=14).
* **Value:** Benadrukt de nuttigheid van de gegevens; Big Data moet waarde genereren [14](#page=14).
* * *
# Waarde uit data halen met datagebruikscases en business value pyramids
Dit onderwerp legt uit hoe data kan worden ingezet om zakelijke waarde te creëren via gedefinieerde datagebruikscases en business value pyramids, die zowel objectieve als subjectieve waardecriteria weerspiegelen.
### 3.1 Value streams en data
Een value stream is de reeks activiteiten die noodzakelijk zijn om een product of dienst aan een klant te leveren. Deze stream kent de volgende componenten [16](#page=16):
* **Trigger:** een verzoek dat de stroom initieert [16](#page=16).
* **Steps:** de activiteiten die nodig zijn om de bestelling te verwerken [16](#page=16).
* **Lead time:** de som van alle verwerkingstijden plus de vertragingstijden tussen de stappen [16](#page=16).
* **Value:** de toegevoegde waarde die door het product of de dienst aan de klant wordt geleverd [16](#page=16).
#### 3.1.1 Data use cases (UC)
Een Data UC is een specifieke situatie waarin data wordt gebruikt om een bepaald zakelijk doel te bereiken of een zakelijk probleem op te lossen. Dit toont aan hoe data de waardeketen van een organisatie kan verbeteren om meetbare zakelijke waarde te creëren. Zakelijke waarde is het totale voordeel dat een organisatie uit haar waardeketen haalt en wordt gecreëerd voor diverse belanghebbenden, waaronder klanten, werknemers, aandeelhouders en de maatschappij [17](#page=17).
##### 3.1.1.1 Service desk voorbeeld
Een voorbeeld van een Data UC is de verbetering van een servicedesk. De huidige situatie, waarbij meerdere personen e-mails en telefoons beantwoorden, kan worden geoptimaliseerd door de toevoeging van een chatbot [17](#page=17).
##### 3.1.1.2 Formaat van een Data UC
Een Data UC is doorgaans een eenpaginadocument dat de volgende elementen bevat [17](#page=17):
* De naam van het Data UC [17](#page=17).
* Een korte beschrijving [17](#page=17).
* Hoe dit UC zakelijke waarde aan de organisatie zal toevoegen [17](#page=17).
* Optioneel kunnen ook potentiële kosten, knelpunten en de technische architectuur worden opgenomen [17](#page=17).
### 3.2 Business value pyramids
Value Pyramids schetsen zowel objectieve als subjectieve criteria van business value. Er worden twee soorten piramides onderscheiden [18](#page=18):
#### 3.2.1 Business-to-consumer (B2C) value pyramid
De B2C piramide richt zich op de klant als belanghebbende en de vraag welke factoren klanten motiveren om een product of dienst aan te kopen. Hoe meer klanten, hoe meer waarde er voor de organisatie ontstaat. De elementen van de B2C piramide omvatten [18](#page=18):
* **Sociale impact elementen:** Klanten kopen een product omdat het verbindt met iets groters, zoals andere mensen, de natuur of een hogere macht [18](#page=18).
* **Levensveranderende elementen:** Klanten kopen een product omdat het hen begeleidt in levensveranderende gebeurtenissen [18](#page=18).
* **Emotionele elementen:** Klanten kopen een product omdat het emoties oproept [18](#page=18).
* **Functionele elementen:** Klanten kopen een product omdat het hun behoeften vervult [18](#page=18).
#### 3.2.2 Business-to-business (B2B) value pyramid
De B2B piramide richt zich op de organisatie, bedrijfseigenaar en aandeelhouders, met de vraag hoe zakelijke doelstellingen bereikt kunnen worden. De elementen van de B2B piramide omvatten [18](#page=18) [19](#page=19):
* **Inspirerende waarde:** Het creëren van een inspirerende organisatie die betekenis geeft aan haar stakeholders [19](#page=19).
* **Individuele waarde:** Het helpen van collega's en andere stakeholders om zich te verbeteren, bijvoorbeeld op carrièregebied (netwerkuitbreiding, marktwaarde, reputatie) of persoonlijk vlak (groei, ontwikkeling, plezier) [19](#page=19).
* **Gemak van zakendoen waarde:** Het verbeteren van de interactie en het proces van zakendoen, zowel operationeel (organisatie, vereenvoudiging, connectie) als via toegang (variëteit, configureerbaarheid) en relaties (responsiviteit, expertise, stabiliteit) [19](#page=19).
* **Functionele waarde:** Het verbeteren van de manier van werken van de organisatie, zowel economisch (verbeterde omzet, kostenreductie) als qua prestaties (productkwaliteit, schaalbaarheid, innovatie) [19](#page=19).
* **Basiswaarde:** Het verbeteren van het product of de dienst door te voldoen aan specificaties, een acceptabele prijs te bieden, te voldoen aan regelgeving en ethische normen [19](#page=19).
> **Tip:** Begrijp de specifieke drijfveren van zowel consumenten (B2C) als zakelijke klanten (B2B) om de meest effectieve waardepropositie te formuleren en te communiceren [18](#page=18) [19](#page=19).
* * *
# Data tools, producten en transformaties
Dit gedeelte behandelt diverse data tools, de definitie van data producten en hun onderdelen, en verklaart data transformaties binnen het DIKW framework en typische transformatieprocessen.
## 4\. Data tools, producten en transformaties
### 4.1 Data tools
Diverse tools faciliteren de omgang met data, variërend van eenvoudige toepassingen tot geavanceerde platformen [20](#page=20).
#### 4.1.1 Analytische tools
Analytische tools zijn specifiek ontworpen voor het vastleggen, visualiseren en manipuleren van data [20](#page=20).
* **Spreadsheets:** Dit zijn computerprogramma's waarin data in rijen en kolommen wordt vastgelegd, weergegeven en gemanipuleerd. Ze zijn een van de meest populaire tools, met voorbeelden als Microsoft Excel en Google Sheets [20](#page=20).
* **Dashboards:** Een dashboard is een informatiebeheertool die data uit gekoppelde databases visualiseert. Ze bieden doorgaans hoogstaande informatie in één weergave, maar kunnen data niet manipuleren [20](#page=20).
* **Data science toolboxes:** Dit is een verzameling softwareprogramma's en middelen die datawetenschappers gebruiken om inzichten uit gegevens te verkrijgen. De functionaliteiten omvatten programmeren, datavisualisatie, het toepassen van AI-algoritmen, datamanipulatie, verwerking van grote hoeveelheden data, en geavanceerde statistische berekeningen [20](#page=20).
#### 4.1.2 Digitale applicaties
Digitale applicaties zijn alle applicaties die data verwerken en de resultaten tonen aan de eindgebruiker. De focus ligt hierbij op het tonen van gebruiksklare datainsights, met beperkte ondersteuning voor analyse of manipulatie. Een voorbeeld hiervan is een weerapp [21](#page=21).
#### 4.1.3 AI prompts
Een AI-prompt is elke vorm van tekst, vraag, informatie of codering die aan AI communiceert welk antwoord gezocht wordt. Deze prompts werken in een Q&A of chatbot-achtige interactiestijl, waarbij ChatGPT een bekend voorbeeld is [21](#page=21).
### 4.2 Data producten
Een data product is een herbruikbaar data asset dat data bundelt met alles wat nodig is om het zelfstandig bruikbaar te maken door geautoriseerde gebruikers [22](#page=22).
#### 4.2.1 Onderdelen van een data product
Een data product bestaat uit de volgende kernonderdelen [23](#page=23):
* **Een dataset:** Dit is de verzameling gegevens zelf [23](#page=23).
* **Multi-table dataset:** Meerdere tabellen kunnen gekoppeld worden met behulp van 'keys'.
* **Primary key:** Identificeert data binnen een enkele tabel op unieke wijze. Elke rij in een tabel heeft een unieke primaire key [23](#page=23).
* **Foreign key:** Legt relaties tussen tabellen vast en linkt naar de primaire key van een andere tabel [23](#page=23).
* **Meta data:** Dit is data over data en helpt bij het beschrijven, vinden en beheren van andere gegevens. Meta data bestaat uit verschillende onderdelen [24](#page=24):
* **Basisinformatie:** Bevat de naam, beschrijving en aanmaakdatum van het product [24](#page=24).
* **Data product eigenaarschap:** Details over de eigenaar, hun organisatorische rol en contactinformatie [24](#page=24).
* **Data kwaliteitsmetriek:** Metrieken die de nauwkeurigheid en betrouwbaarheid van de gegevens beoordelen [24](#page=24).
* **Beveiligingsspecificaties:** Informatie over de gevoeligheid van de gegevens, gebruiksbeleid en retentiebeleid [24](#page=24).
* **Datamodellen:** Beschrijft hoe zakelijke entiteiten overeenkomen met de structuren van de datatabel [24](#page=24).
* **Fysiek format:** Dit is nodig om data aan te bieden in een gemakkelijke en leesbare indeling. Ongestructureerde data formaten zijn hiervoor minder geschikt. Twee veelvoorkomende formats zijn [25](#page=25):
* **Gestructureerd (tabellen):** Gemakkelijk te consumeren door zowel tools als mensen [25](#page=25).
* **API's (Application Programming Interface):** Gemakkelijk te consumeren door tools. Een API is een set regels en protocollen voor het bouwen en integreren van applicatiesoftware, en vormt een manier voor twee of meerdere computerprogramma's om met elkaar te communiceren [25](#page=25).
#### 4.2.2 Data product integratie
Data producten zijn interoperabel, wat betekent dat meerdere data producten binnen een organisatie kunnen bestaan, afkomstig kunnen zijn van verschillende gegevensbronnen, en vaak naar elkaar verwijzen. Dit resulteert in een netwerk van data producten [25](#page=25).
### 4.3 Data transformaties
Data transformaties zijn processen die data omzetten om de bruikbaarheid ervan te vergroten, vaak binnen het DIKW-framework [26](#page=26).
#### 4.3.1 DIKW framework
Het DIKW (Data, Information, Knowledge, Wisdom) framework beschrijft de hiërarchische structuur van data naar wijsheid [26](#page=26).
* **Data:** Een verzameling feiten in ruwe of ongeorganiseerde vorm. Het is het basisbouwblok. Voorbeeld: `12012023`, `100`, `FLB` [27](#page=27).
* **Information:** Data die op een gemakkelijkere manier gemeten, gevisualiseerd en geanalyseerd kan worden. Het is het tweede bouwblok. Voorbeeld: `12th of january 2023`, `100 EUR sales revenue`, `Flemish Brabant` [27](#page=27).
* **Knowledge:** Ontstaat door het verbinden van verschillende delen informatie, wat helpt begrijpen hoe deze toegepast kunnen worden om een doel te bereiken. Het is het derde bouwblok. Voorbeeld: `12th of January 2023 is the day with the lowest sales revenue (100 EUR) in Flemish Brabant in 2023. This is because of a webshop timeout that day due to too many website visitors.` [27](#page=27).
* **Wisdom:** De kennis toegepast in de praktijk, wat de top van de DIKW-piramide vormt. Voorbeeld: `Scaling the webshop platform so that this type of timeouts can no longer happen. This will lead to more sales.` [27](#page=27).
#### 4.3.2 Typische data transformaties
Er zijn verschillende typische transformatieprocessen die data bewerken [28](#page=28).
* **Conversie:** Het proces van het omzetten of transformeren van data van de ene vorm naar de andere, bijvoorbeeld van een ruwe indeling (zoals JSON) naar een tabelindeling. Dit is nuttig voor gegevensverwerking en -analyse [28](#page=28).
* **Aggregatie:** Het proces van het combineren en samenvatten van gegevens, waarbij gegevens van een lager detailniveau worden omgezet naar een hoger detailniveau [28](#page=28).
* **Filtering:** Het selecteren en isoleren van specifieke gegevens op basis van vooraf bepaalde selectiecriteria. Afhankelijk van de criteria worden gegevens uitgesloten of opgenomen in de dataset. Het resultaat is een subset van de oorspronkelijke dataset [28](#page=28).
* **Integratie:** Het combineren van gegevens op basis van vreemde keys, ook wel gegevens samenvoegen genoemd. Vijf veelvoorkomende typen zijn [29](#page=29):
* **Inner join:** Bevat alleen de rijen die een overeenkomstige waarde hebben in beide tabellen [29](#page=29).
* **Left join:** Bevat alleen rijen van de linkertabel en de overeenkomstige rijen van de rechtertabel [29](#page=29).
* **Outer join:** Bevat alle rijen van beide tabellen, waarbij ontbrekende delen als null worden weergegeven [29](#page=29).
* **Cross join:** Bevat alle mogelijke combinaties van rijen van beide tabellen [29](#page=29).
* **Union:** Bevat alle rijen uit beide selecties, maar verwijdert dubbele rijen [29](#page=29).
* **Advanced:** Geavanceerde algoritmen, vaak AI-gebaseerd, detecteren patronen, informatie en objecten in ongestructureerde data. Ongestructureerde gegevens worden hiermee informatie door het gebruik van geavanceerde technieken, zoals onderwerpsdetectie [29](#page=29).
* * *
# Data visualisatie, storytelling en kunstmatige intelligentie
Dit onderdeel verkent de synergie tussen data visualisatie en storytelling, en introduceert de fundamentele concepten van kunstmatige intelligentie.
### 6.1 De kracht van data visualisatie en storytelling
Data storytelling is essentieel voor het effectief communiceren van inzichten, aangezien data transformatie en analyse niet volstaan. Het doel is om complexe informatie op een begrijpelijke manier over te brengen door een duidelijk en boeiend verhaal te creëren met de juiste datapunten [31](#page=31).
#### 6.1.1 Hoe analyse en synthese samenkomen
Het proces van data storytelling omvat twee kerncomponenten:
* **Analyse:** Het ontleden van gegevens om patronen, trends en belangrijke bevindingen te identificeren [31](#page=31).
* **Synthese:** Het combineren en integreren van deze bevindingen tot een coherent en gemakkelijk te begrijpen verhaal [31](#page=31).
#### 6.1.2 De combinatie van data, visualisatie en verhaal
Data storytelling is een gestructureerde benadering die drie elementen combineert: de data zelf, de visualisatie daarvan, en het verhaal dat ermee verteld wordt. Het effectief combineren van deze elementen kan verandering beïnvloeden en stimuleren, aangezien data visualisaties en analyses die niet begrepen worden, geen impact zullen hebben [32](#page=32).
> **Tip:** Datavisualisaties en analyses die niet begrepen worden, zullen nooit enige impact hebben.
#### 6.1.3 Waarom storytelling werkt
Het vertellen van een verhaal heeft verschillende redenen waarom het effectief is:
* **Hersenactivatie:** Verhalen activeren onze hersenen anders dan feiten; we voelen verhalen, terwijl we statistieken horen [32](#page=32).
* **Neurale koppeling:** De geest van de verteller en het publiek worden op elkaar afgestemd [32](#page=32).
* **Memorabiliteit:** Verhalen blijven beter hangen [32](#page=32).
* **Overtuigingskracht:** Verhalen kunnen effectiever overtuigen [32](#page=32).
* **Engagement:** Verhalen trekken de aandacht en houden het publiek betrokken [32](#page=32).
#### 6.1.4 Het belang van een narratief
Feiten moeten worden ondersteund door een narratief. Dit vervangt mythes en creëert nieuwe inzichten [32](#page=32).
#### 6.1.5 Het verhaal van Ignaz Semmelweis
Het verhaal van Ignaz Semmelweis, een Hongaarse dokter die onderzoek deed naar kraambedsterfte in Wenen, illustreert de uitdagingen van het presenteren van data. Ondanks dat hij data verzamelde die aantoonde dat handhygiëne de sterfte significant verminderde, werd zijn theorie afgewezen omdat artsen zich aangesproken voelden en logica alleen niet volstond [30](#page=30) [31](#page=31).
> **Tip:** Niet iedereen is bereid om nieuwe gegevens te accepteren, en beslissingen worden vaak meer op emotie dan op logica genomen [31](#page=31).
### 6.2 Best practices voor data storytelling
#### 6.2.1 Verhaalstructuur
Er zijn verschillende manieren om een verhaal te structureren:
* **Basis structuur:** Begin, midden, slot. Dit is een fundamentele, maar minder boeiende aanpak [33](#page=33).
* **Betere structuur:** Normaal, explosie, nieuw normaal. Deze dynamische structuur omvat de initiële situatie (normaal), het hoofdinzicht (explosie), en de oplossing met vervolgstappen (nieuw normaal) [33](#page=33).
#### 6.2.2 Context toevoegen
Context is cruciaal voor het begrijpen van data. Er zijn zes essentiële manieren om context toe te voegen [33](#page=33) [36](#page=36):
* **Vergelijkend:** Hoe verhoudt de data zich tot andere gerelateerde waarden [33](#page=33) [37](#page=37)?
* **Directe vergelijkingen:** Items vergelijken met soortgelijke items [37](#page=37).
* **Indirecte vergelijkingen:** Items van verschillende groottes vergelijken met behulp van verhoudingen of percentages [37](#page=37).
* **Relatieve vergelijkingen:** Aantonen welk deel een cijfer vertegenwoordigt van een totaal [37](#page=37).
* **Informatief:** Welke andere factoren kunnen invloed hebben gehad? Biedt extra details en achtergrondinformatie om patronen, trends of afwijkingen te verklaren [33](#page=33) [37](#page=37).
* **Equivalent:** Is er een meer relateerbare interpretatie? Koppelt onbegrijpelijke getallen aan meer bekende en begrijpelijke voorbeelden [33](#page=33) [37](#page=37).
* **Bevestigend:** Moeten de cijfers worden geverifieerd of gevalideerd? Verduidelijkt significante anomalieën door te tonen waarom ze betrouwbaar en accuraat zijn [33](#page=33) [37](#page=37).
* **Geschaald:** Wat is het gecombineerde effect als het doorgaat? Het opschalen van waarden naar langere periodes kan de totale impact en het belang verduidelijken [33](#page=33) [37](#page=37).
* **Historisch:** Hoe verhoudt het zich tot eerdere prestaties? Toont prestaties over de tijd en houdt rekening met seizoenseffecten [33](#page=33) [37](#page=37).
#### 6.2.3 De 4 D's van data storytelling
De 4 D's vertegenwoordigen een methodologie voor effectieve data storytelling [34](#page=34):
* **Distill (Destilleren):** Vereenvoudig complexe gegevens tot hun essentie, waarbij de meest relevante informatie wordt geëxtraheerd en overbodige details worden weggelaten. Berekende statistieken, zoals dalende inkomsten per klant, zijn vaak inzichtelijker dan totale waarden [34](#page=34).
* **Display (Weergeven):** Presenteer de gegevens op een begrijpelijke en aantrekkelijke manier met behulp van visualisaties. Het doel is om de belangrijkste inzichten direct zichtbaar te maken. Gebruik duidelijke grafieken zoals staafdiagrammen en vermijd gestapelde of 3D-grafieken. Kleuren kunnen gebruikt worden, en elementen die minder belangrijk zijn kunnen lichter worden weergegeven [34](#page=34).
* **Declutter (Ontruimen):** Verwijder onnodige elementen uit visualisaties om de belangrijkste punten duidelijk te maken. Dit vermindert de cognitieve belasting. Het samenvoegen van minder kritieke gegevens, zoals marktaandelen van kleinere markten, kan de duidelijkheid van grotere marktaandelen vergroten. Dit is geïnspireerd door de 'data-ink ratio' [35](#page=35).
* **Direct (Richten):** Leid de aandacht van het publiek naar de belangrijkste inzichten en acties. Visuals moeten het verhaal ondersteunen en ingedeeld zijn op basis van het doel van het verhaal [35](#page=35).
#### 6.2.4 Gebruik van tekst en visuele aanwijzingen
Tekst is een integraal onderdeel van data storytelling. Headlines, titels, labels, aantekeningen en voetnoten zijn even belangrijk als de visuals zelf [36](#page=36). Algemene richtlijnen voor tekstgebruik:
* Tekstblokken mogen maximaal 140 tekens bevatten [36](#page=36).
* Zorg voor een duidelijke koppeling tussen tekst en visuele elementen [36](#page=36).
* Vermijd doorlopende zinnen; kies duidelijke, boodschapsgerichte headlines [36](#page=36).
* De visualisatie moet de kop ondersteunen [36](#page=36).
* Gebruik pijlen, cirkels, boxen of andere visuele aanwijzingen om belangrijke onderdelen te markeren, bij voorkeur in combinatie met annotaties [36](#page=36).
### 6.3 Kunstmatige intelligentie (AI)
#### 6.3.1 Belangrijke vragen en concepten
* **Wat is een AI-model?** Een algoritme of reeks algoritmen getraind om specifieke taken uit te voeren door patronen in data te herkennen en voorspellingen of beslissingen te nemen [38](#page=38).
* **Verschil AI en traditionele programmering:** Traditionele programmering volgt expliciete instructies. AI leert van data; machine learning modellen gebruiken voorbeelden om patronen te herkennen en beslissingen te nemen in plaats van expliciete regels [38](#page=38).
* **AI-serving:** Het proces van implementeren en beschikbaar stellen van een getraind AI-model voor real-time of on-demand voorspellingen/beslissingen [38](#page=38).
* **AI-training:** Het proces waarbij een AI-model data gebruikt om patronen en relaties te leren voor voorspellingen of beslissingen. Dit omvat meestal het optimaliseren van modelparameters [38](#page=38).
* **Turing-test:** Een test voorgesteld door Alan Turing om te bepalen of een machine intelligent gedrag vertoont dat niet te onderscheiden is van een mens, gemeten door gesprekken [38](#page=38).
#### 6.3.2 Belangrijkste AI-capabilities
* **Forecasting:** Voorspellen van toekomstige gebeurtenissen op basis van historische data. Voorbeeld: voorspellen van verkoopcijfers [38](#page=38).
* **Classification:** Categoriseren van data in vooraf gedefinieerde groepen. Voorbeeld: spamdetectie [38](#page=38).
* **Recommendation:** Voorstellen van items aan gebruikers op basis van hun voorkeuren en gedrag. Voorbeeld: filmrecommendaties [38](#page=38).
* **Clustering:** Groeperen van data in clusters met vergelijkbare kenmerken. Voorbeeld: klantsegmentatie op basis van koopgedrag [38](#page=38).
* **Generation:** Creëren van nieuwe data of content, zoals tekst, afbeeldingen of geluid. Voorbeeld: genereren van kunstwerken [38](#page=38).
#### 6.3.3 AI-modellen en concepten
* **Lineaire regressie:** Een statistische techniek die een lineaire relatie tussen onafhankelijke ($x$) en afhankelijke ($y$) variabelen modelleert. Voorbeeld: voorspellen van huizenprijzen op basis van vierkante meters. De relatie kan worden weergegeven als $y = mx + b$ [38](#page=38).
* **Decision tree:** Een beslissingsondersteunend model dat beslissingen en hun mogelijke gevolgen weergeeft in een boomstructuur. Voorbeeld: klantlening goedkeuring op basis van inkomen, kredietgeschiedenis en leeftijd [39](#page=39).
* **Artificial Neural Network (ANN):** Een computermodel geïnspireerd door het menselijk brein, bestaande uit lagen van neuronen die input verwerken en output doorsturen om complexe patronen te leren [39](#page=39).
* **Deep learning:** Een subveld van machine learning dat meerlaagse neurale netwerken gebruikt om complexe patronen in grote datasets te herkennen, effectief voor beeld- en spraakherkenning [39](#page=39).
#### 6.3.4 Prestatie- en bias-concepten
* **Accuracy:** Een maatstaf voor modelprestaties, gedefinieerd als het percentage correcte voorspellingen ten opzichte van het totale aantal voorspellingen [39](#page=39).
* **Overfitting:** Treedt op wanneer een model te goed presteert op trainingsdata maar slecht op nieuwe data. Kan worden overwonnen met cross-validatie, regularisatie en meer trainingsdata [39](#page=39).
* **Generative vs. Discriminative AI:**
* **Generative AI:** Leert de gezamenlijke waarschijnlijkheid van input en output en kan nieuwe data genereren [39](#page=39).
* **Discriminative AI:** Leert de grens tussen klassen en voorspelt labels voor nieuwe data [39](#page=39).
* **Selection bias:** Ontstaat wanneer de trainingsdataset niet representatief is voor de populatie, wat kan leiden tot misleidende voorspellingen. Het gebruik van diverse en representatieve datasets is cruciaal [39](#page=39).
* * *
# Dataplatforms, processen en governance
Dit onderwerp verkent de componenten en processen die ten grondslag liggen aan een dataplatform, met de nadruk op data-inname, opslag, pipelines, beveiliging en governance, en hoe deze elementen samenwerken om datakwaliteit en -beheer te waarborgen [40](#page=40).
### 8.1 Dataplatform: de centrale hub
Een dataplatform fungeert als het centrale verwerkingsknooppunt voor het datalandschap van een organisatie, waar gegevens uit diverse bronnen samenkomen voor beheer en verwerking. Het integreert tools van verschillende leveranciers om de volledige levenscyclus van data te beheren [40](#page=40).
Een uitgebreide dataplatformoplossing ondersteunt kritische functies:
* **Data-inname:** Het verzamelen van data van verschillende bronnen [40](#page=40).
* **Opslag:** Het veilig opslaan van data [40](#page=40).
* **Transformatie:** Het verwerken en analyseren van data om deze om te zetten in nuttige informatie [40](#page=40).
* **Levering:** Het distribueren van data naar de juiste gebruikers of systemen [40](#page=40).
* **Governance:** Het waarborgen van data-integriteit, -kwaliteit en naleving van regelgeving [40](#page=40).
* **Beveiliging:** Het beschermen van data tegen ongeautoriseerde toegang en bedreigingen [40](#page=40).
Dataplatformen stellen organisaties in staat om duurzame waarde uit hun data te halen, zoals het genereren van bedrijfsinzichten voor strategische besluitvorming, het creëren van dashboards voor prestatiebewaking en het ontwikkelen van AI-modellen [40](#page=40).
#### 8.1.1 Data engineers
Data engineers zijn verantwoordelijk voor het creëren en onderhouden van systemen die grote hoeveelheden data verzamelen, opslaan en organiseren. Ze bouwen de infrastructuur die nodig is om data effectief te beheren en ontwerpen pijplijnen die data van de bron naar de plaats verplaatsen waar het kan worden gebruikt. Data pipeline architecten zorgen ervoor dat de data schoon en klaar is voor analyse, wat inhoudt dat de data van hoge kwaliteit is en voldoet aan de vereisten voor gebruik door verschillende teams. Data engineers lossen complexe problemen op die verband houden met datahandeling en -opslag, creëren vaak op maat gemaakte oplossingen en werken innovatief om data efficiënt te verwerken [41](#page=41).
### 8.2 Data-opslagmethoden
#### 8.2.1 Databases
Een database fungeert als een georganiseerd digitaal archief voor snelle zoekopdrachten en data-ophaling, en vormt de basis van veel toepassingen. Databases waarborgen dat alleen geautoriseerde personen toegang hebben tot gegevens, wat helpt bij het beveiligen van privé-informatie. Een databasesysteem beheert de organisatie, opslag en toegang tot gegevens [42](#page=42).
##### 8.2.1.1 Relationele databases (RDB)
Relationele databases structureren informatie in tabellen met rijen (records) en kolommen (velden), wat zorgt voor een overzichtelijke weergave. Ze maken het mogelijk om relaties te leggen tussen verschillende stukken informatie, waardoor gegevens uit diverse tabellen gekoppeld kunnen worden voor een dieper inzicht. Door tabellen te koppelen, kunnen gegevens uit meerdere tabellen samengevoegd worden. Relationele databases bieden krachtigere alternatieven voor functies zoals de VLOOKUP in Excel, en maken complexe queries mogelijk [42](#page=42).
###### 8.2.1.1.1 Structured Query Language (SQL)
SQL is de standaardtaal voor het beheren en manipuleren van relationele databases, gebruikt voor het opvragen, bijwerken en structureren van gegevens. Het is veelzijdig voor data-interactie, inclusief selecteren, samenvoegen, invoegen, bijwerken en verwijderen. SQL heeft een leesbare, intuïtieve syntax die lijkt op natuurlijke taal en wordt breed ondersteund door relationele databasebeheersystemen [43](#page=43).
#### 8.2.2 Data warehouse
Een datawarehouse is een ondernemingsbreed data-platform voor analyse en rapportage van gestructureerde en semigestructureerde gegevens afkomstig van meerdere bronnen. Het slaat actuele en historische gegevens centraal op voor analyse en rapportage, en is nuttig voor trendanalyse en historische vergelijkingen. Datawarehouses zijn een primair onderdeel van business intelligence (BI) en gebruiken analytische databases die geoptimaliseerd zijn voor complexe query's [43](#page=43).
##### 8.2.2.1 OLTP versus OLAP
* **Online Transactional Processing (OLTP):** Systemen geoptimaliseerd voor snelle transacties en dagelijkse operationele taken, waarbij grote hoeveelheden transactionele gegevens door meerdere gebruikers worden verwerkt [44](#page=44).
* **Online Analytical Processing (OLAP):** Systemen ontworpen voor snelle verwerking en analyse van grote hoeveelheden gegevens, bedoeld voor diepgaande data-analyse en het verkrijgen van inzichten uit grote datasets [44](#page=44).
KenmerkOLTPOLAPDoelOndersteuning dagelijkse operationele en transactionele verwerkingData-analyse en het verkrijgen van inzichten uit grote datasetsGegevensverwerkingWerkt met kleine hoeveelheden gegevens, snel in realtime verwerktVerwerkt grote hoeveelheden gegevens, ondersteunt complexe queries voor diepgaande analyseVoorbeeldBedrijfstoepassingen zoals ERP’s en CRM’sAnalytische databases en datawarehouses voor business intelligence
###### 8.2.2.1.1 Data mart
Een data mart is een gespecialiseerde, op een specifieke gebruikersgroep gerichte weergave van data, vaak een subset van een datawarehouse. Het biedt snellere toegang tot gegevens en ondersteunt snellere besluitvorming [44](#page=44).
##### 8.2.2.2 Verticale versus horizontale schaalvergroting
* **Verticale schaalvergroting:** Het toevoegen van meer middelen (RAM, CPU, opslag) aan een bestaande machine om deze krachtiger te maken. Dit is vaak duurder [45](#page=45).
* **Horizontale schaalvergroting:** Het toevoegen van meer machines aan een gedistribueerd systeem om de werklast te verdelen. Dit is vaak goedkoper voor grote hoeveelheden gegevens en complexe queries [45](#page=45).
Voor datawarehouse databases is horizontale schaalvergroting vaak de voorkeursmethode [45](#page=45).
#### 8.2.3 Data lake
Een data lake is een centrale opslagplaats die grote hoeveelheden ruwe gegevens in hun oorspronkelijke formaat opslaat, zonder eerst een structuur op te leggen. Het is ontworpen om flexibel en schaalbaar te zijn voor uiteenlopende soorten data [45](#page=45).
#### 8.2.4 Data lakehouse
Een Data Lake House combineert de voordelen van een traditioneel Data Warehouse en een Data Lake in één geïntegreerde architectuur. Het biedt een balans tussen kosten, schaalbaarheid, volume, datatypen en leesprestaties [46](#page=46).
KenmerkDWHData LakeData LakehouseKosten+++++++SchaalbaarheidVerticaalHorizontaalHorizontaalVolume++++++++++DatatypeGestr.Gestr., Semigestr., Ongestr.Gestr., Semigestr., Ongestr.Leesprestaties+++++++++(+)
### 8.3 Data-inname (Ingest)
Data-ingestie is het proces van het verzamelen van gegevens uit verschillende bronnen en het verplaatsen naar een doellocatie voor verdere verwerking. Het is cruciaal voor downstream datawetenschap, BI en analysetoepassingen en vereist tijdige, volledige en nauwkeurige gegevens. Als data-ingestie wegvalt, kunnen er geen dataproducten gemaakt worden [47](#page=47).
Het operationele vlak (OLTP) is waar alle data bronapplicaties draaien, geoptimaliseerd voor snelle transacties. Het analytische vlak (OLAP) is waar data-analyse, rapportages en complexe query's worden uitgevoerd, met componenten waar gegevens worden geanalyseerd voor inzichten. Ingestie tools verplaatsen gegevens van de bronnen naar het analytische vlak [47](#page=47).
### 8.4 Data pipelines (ETL)
Een data pipeline is een proces dat gegevens van een bron naar een bestemming verplaatst, waarbij zorg wordt gedragen voor zuivering, transformatie en opslag in een geschikt formaat voor analyse. De term ETL staat voor Extracting, Transforming, en Loading [48](#page=48).
Data pipelines worden vaak aaneengeschakeld, waarbij het resultaat van de ene pipeline wordt doorgegeven aan de volgende. Een Direct Acyclic Graph (DAG) wordt gebruikt om de volgorde van uitvoering van deze processen te beheren, waarbij gegevensstromen en afhankelijkheden tussen taken duidelijk worden gedefinieerd [48](#page=48).
### 8.5 Beveiliging
#### 8.5.1 Data classificatie en toegangscontrole
Data classificatie omvat het organiseren van gegevens op gevoeligheid en het instellen van regels voor gegevens toegang om te zorgen dat alleen geautoriseerde individuen gevoelige informatie kunnen openen. Dit proces is cruciaal voor het beschermen van informatie tegen ongeautoriseerde toegang en lekken, en helpt organisaties te voldoen aan wettelijke en regelgevende vereisten met betrekking tot dataprivacy en beveiliging [49](#page=49).
### 8.6 Observeerbaarheid
Observeerbaarheid in een dataplatform houdt in dat de gegevensstroom continu wordt gevolgd om de gezondheid en prestaties van datasystemen te monitoren, problemen vroegtijdig te identificeren en diepgaande inzichten te verkrijgen in hoe het datasysteem opereert [49](#page=49).
### 8.7 Governance
#### 8.7.1 Data lifecycle management (DLM)
DLM is het proces van het beheren van gegevens gedurende hun hele levenscyclus: creëren, opslaan, gebruiken, delen, archiveren en vernietigen. De drie belangrijkste doelen van DLM zijn [49](#page=49):
* **Vertrouwelijkheid:** Gegevens beveiligen tegen onbevoegde toegang, delen en diefstal [49](#page=49).
* **Integriteit:** Zorgen dat gegevens authentiek, accuraat en betrouwbaar zijn [49](#page=49).
* **Beschikbaarheid:** Gegevens beschikbaar maken voor bevoegde gebruikers [49](#page=49).
##### 8.7.1.1 Levenscyclusfasen
* **Creëren (create):** Data kan intern gegenereerd of door IT-systemen verzameld worden [50](#page=50).
* **Opslaan (store):** Na creatie worden gegevens opgeslagen op een gegevensplatform en geclassificeerd op basis van gevoeligheid en waarde [50](#page=50).
* **Gebruiken (use):** Diverse belanghebbenden gebruiken data door middel van analyse en visualisatie, via rapporten, AI-modellen en digitale tools [50](#page=50).
* **Delen (share):** DLM zorgt ervoor dat het delen van gegevens beperkt is tot wat noodzakelijk en toegestaan is door beleid en regelgeving [50](#page=50).
* **Archiveren (archive):** Niet langer gebruikte data wordt meestal gearchiveerd naar goedkope opslag, waardevol voor gegevens die om bedrijfs- of wettelijke redenen bewaard moeten blijven [50](#page=50).
* **Vernietigen (destroy):** Data dat niet meer gebruikt wordt en niet bewaard hoeft te worden, kan worden verwijderd [50](#page=50).
#### 8.7.2 Voordelen van data governance
Data governance is het beleid waarmee een organisatie de kwaliteit, beveiliging, beschikbaarheid en integriteit van haar gegevens beheert. Voordelen zijn [50](#page=50):
* Gemeenschappelijke terminologie rond datasets [50](#page=50).
* Verhoogd vertrouwen in datakwaliteit [50](#page=50).
* Verbeterde herbruikbaarheid van data [50](#page=50).
* Betere mechanismen voor databeheer [50](#page=50).
* Een enkelvoudige bron van waarheid [50](#page=50).
#### 8.7.3 Datamanagement
Datamanagement voert de spelregels van data governance in de praktijk uit. Dit omvat [51](#page=51):
* **Data-architectuur:** Het definiëren welke data aanwezig is en hoe deze door de organisatie stroomt, inclusief business domeinen, processen en entiteiten [51](#page=51).
* **Datamodellering en ontwerp:** Het bieden van een gemeenschappelijk vocabulaire rond gegevens, uitgedrukt in conceptuele, logische en fysieke datamodellen [51](#page=51).
* **Dataopslag en -operaties.** [51](#page=51).
* **Databeveiliging:** Definiëren van beveiligingsbeleid en -procedures [51](#page=51).
* **Data-integratie en interoperabiliteit:** Het verplaatsen en consolideren van gegevens [51](#page=51).
* **Documenten en inhoud.** [51](#page=51).
* **Referentie- en stamgegevens.** [51](#page=51).
* **Datawarehousing en bedrijfsinformatie.** [51](#page=51).
* **Metadata:** Het beheren en beschikbaar maken van gegevensbeheerobjecten [51](#page=51).
* **Datakwaliteit:** Het definiëren van standaarden en implementeren van processen voor kwaliteitsbeheer en -verbetering [51](#page=51).
##### 8.7.3.1 Datakwaliteit
Datakwaliteit is de mate waarin gegevens geschikt zijn voor het beoogde doel en genereert vertrouwen in gegevens. Belangrijke datakwaliteit dimensies zijn [52](#page=52):
* **Volledigheid:** Meet de mate waarin alle verwachte records en gegevens in een dataset aanwezig zijn [52](#page=52).
* **Geldigheid:** Meet de mate waarin waarden in een gegevenselement geldig zijn [52](#page=52).
* **Nauwkeurigheid:** Meet de mate waarin gegevens correct zijn en de waarheid vertegenwoordigen [52](#page=52).
* **Uniekheid:** Meet de mate waarin records in een dataset niet gedupliceerd zijn [52](#page=52).
* **Tijdigheid:** Meet de beschikbaarheid van een dataset volgens SLA's [52](#page=52).
* **Consistentie:** Meet de mate waarin gegevens hetzelfde zijn in alle instanties [52](#page=52).
#### 8.7.4 Organisatie van dataverantwoordelijkheden
* **Data-eigenaar:** Verantwoordelijk voor classificatie, bescherming, gebruik en kwaliteit van datasets [53](#page=53).
* **Data-steward:** Vakexpert met grondige kennis van een specifieke dataset, verantwoordelijk voor het waarborgen van classificatie, bescherming, gebruik en kwaliteit conform de standaarden van de data-eigenaar [53](#page=53).
* **Data-custodian:** Verantwoordelijk voor technische dataveranderingen op basis van vereisten van de data-eigenaar [53](#page=53).
* * *
# Data visualisatie best practices en dashboards
Dit gedeelte verkent de fundamenten en evolutie van datavisualisatie, inclusief effectieve en ineffectieve methoden, en de diverse typen dashboards die in een organisatie kunnen worden ingezet.
### 7.1 Wat is datavisualisatie?
Datavisualisatie omvat het gebruik van visuele hulpmiddelen om data te representeren, waardoor complexe informatie gemakkelijker te begrijpen en te communiceren wordt. De gemeenschappelijke kenmerken zijn onder meer het inzetten van visuele hulpmiddelen, het representeren van data, het vereenvoudigen van complexe data, en het faciliteren van communicatie en begrip [54](#page=54).
### 7.2 Geschiedenis van datavisualisatie
De geschiedenis van datavisualisatie kent verschillende mijlpalen:
* **1569:** Gerardus Mercator introduceerde de mercatorprojectie, een vroege vorm van visualisatie om continenten en hun onderlinge verhoudingen te tonen [54](#page=54).
* **1644:** Florent Van Langen visualiseerde de afstand tussen verschillende steden en Rome, een eenvoudige eendimensionale visualisatie [54](#page=54).
* **1822:** William Playfair introduceerde voor het eerst tweedimensionale data-visualisaties, zoals de graanprijzen door de tijd heen, wat een verbetering was ten opzichte van de voorheen gebruikte tabellen [54](#page=54).
* **1855:** Florence Nightingale visualiseerde de doodsoorzaken tijdens oorlogen, waarbij ze aantoonde dat ziektes (visueel weergegeven in grijsblauwachtige kleuren) de meeste slachtoffers eisten, met name in de winter. Dit leidde tot verbeteringen in de hygiëne in de kampen [54](#page=54).
* **1869:** Charles Minard illustreerde de correlatie tussen temperatuur en het aantal doden tijdens de tocht van Napoleon's leger van Kiev naar Moskou [54](#page=54).
### 7.3 Soorten dashboards en kenmerken
Dashboards zijn visuele weergaven van belangrijke informatie die wordt gevolgd, geanalyseerd en gerapporteerd om de prestaties van een organisatie te beheren. Ze worden ingezet om de kwaliteit, beveiliging, beschikbaarheid en integriteit van gegevens te beheren. Er zijn verschillende soorten dashboards, elk met specifieke kenmerken en toepassingen [44](#page=44) [50](#page=50) [51](#page=51) [52](#page=52) [53](#page=53):
#### 7.3.1 Strategische dashboards
Strategische dashboards zijn gericht op de langetermijnvisie en de algemene doelstellingen van de organisatie \[48-54. Ze bieden een hoog niveau overzicht van kritieke prestatie-indicatoren (KPI's) die verband houden met strategische doelen \[48-54.
* **Kenmerken:**
* Focus op langetermijndoelen en strategie \[48-54.
* Overzicht van algemene bedrijfsprestaties \[48-54.
* Bevatten vaak financiële data, marktaandeel, klanttevredenheid op hoog niveau \[48-54.
* Vereisen minder frequente updates, bijvoorbeeld maandelijks of per kwartaal \[48-54.
* Gegevens komen uit verschillende bronnen, vaak geconsolideerd \[48-54.
#### 7.3.2 Tactische dashboards
Tactische dashboards ondersteunen besluitvorming op middellange termijn en worden gebruikt door afdelingsmanagers of teamleiders \[48-54. Ze bieden inzicht in specifieke afdelingen of projecten \[48-54.
* **Kenmerken:**
* Focus op middellangetermijnplanning en prestaties \[48-54.
* Gedetailleerder dan strategische dashboards, maar nog steeds geaggregeerd \[48-54.
* Gaan over specifieke afdelingen zoals verkoop, marketing of productie \[48-54.
* Vereisen frequentere updates, bijvoorbeeld wekelijks \[48-54.
* Data wordt vaak uit operationele systemen gehaald en geanalyseerd \[48-54.
#### 7.3.3 Operationele dashboards
Operationele dashboards bieden realtime of bijna realtime inzicht in de dagelijkse activiteiten en processen \[48-54. Ze zijn bedoeld voor operationele medewerkers en supervisors om directe beslissingen te nemen en problemen onmiddellijk aan te pakken \[48-54.
* **Kenmerken:**
* Focus op realtime operationele efficiëntie \[48-54.
* Zeer gedetailleerd en gericht op specifieke taken of processen \[48-54.
* Bevatten data zoals productievolumes, klantenservice tickets, serverprestaties \[48-54.
* Vereisen zeer frequente, indien mogelijk realtime, updates \[48-54.
* Data wordt direct uit operationele systemen getrokken \[48-54.
### 7.4 Principes voor effectieve datavisualisatie
Hoewel de specifieke documentatie de best practices van datavisualisatie niet diepgaand behandelt, impliceert de geschiedenis en het nut van visualisatie dat de volgende principes cruciaal zijn voor effectieve implementatie:
* **Kies het juiste type visualisatie:** Verschillende datatypes en relaties vereisen verschillende grafiektypen (bijvoorbeeld lijncharts voor trends, staafdiagrammen voor vergelijkingen, scatterplots voor correlaties).
* **Houd het simpel en duidelijk:** Vermijd onnodige complexiteit, 3D-effecten of overmatige versieringen die de interpretatie kunnen belemmeren [54](#page=54).
* **Focus op de boodschap:** Zorg ervoor dat de visualisatie de belangrijkste inzichten snel en effectief communiceert [54](#page=54).
* **Accurate representatie:** De visualisatie moet de data accuraat weergeven zonder te misleiden [54](#page=54).
* **Context is essentieel:** Zorg voor duidelijke titels, labels, eenheden en eventuele toelichtingen [54](#page=54).
> **Tip:** Het visualiseren van complexe data maakt deze gemakkelijker te begrijpen en te communiceren [54](#page=54).
### 7.5 Hoe data te visualiseren en hoe niet
De verstrekte tekst geeft voorbeelden van historische visualisaties, wat impliceert dat het succes van deze visualisaties lag in hun vermogen om complexe informatie toegankelijk te maken. Hoewel specifieke "niet te doen" voorbeelden niet expliciet worden genoemd, kan men hieruit afleiden dat:
* **Te veel informatie:** Het overladen van een visualisatie met te veel data kan contraproductief werken.
* **Onjuiste grafiekkeuze:** Het gebruiken van een cirkeldiagram om meer dan drie categorieën weer te geven, of een lijndiagram voor discrete, niet-tijdgebonden data, kan leiden tot misinterpretatie.
* **Misleidende schalen:** Manipuleren van de assen om bepaalde trends te overdrijven of te minimaliseren.
* **Gebrek aan context:** Visualisaties zonder duidelijke labels, titels of eenheden zijn nutteloos.
> **Voorbeeld:** Florence Nightingale's visualisatie van doodsoorzaken tijdens de Krimoorlog was effectief omdat het de relatieve impact van ziekte versus gevechtswonden duidelijk maakte, wat leidde tot concrete verbeteringen in hygiëne. Dit toont aan hoe datavisualisatie direct kan bijdragen aan verbeterde besluitvorming en resultaten [54](#page=54).
* * *
## Veelgemaakte fouten om te vermijden
* Bestudeer alle onderwerpen grondig voor examens
* Let op formules en belangrijke definities
* Oefen met de voorbeelden in elke sectie
* Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Data | Digitale informatie die wordt opgeslagen, verwerkt en gemanipuleerd door computers, zoals tekst, afbeeldingen, video's en sensormetingen. |
| Floppy Disk | Een oud opslagmedium dat populair was tussen 1970 en eind 1990, met een opslagcapaciteit variërend van kilobytes tot enkele megabytes. |
| Hard Disk Drive (HDD) | Een computeropslagapparaat dat in 1950 werd geïntroduceerd en dat evolueert in capaciteit en snelheid, variërend van gigabytes tot meerdere terabytes. |
| Solid State Drive (SSD) | Een sneller opslagapparaat dat gebruik maakt van flashgeheugen, vaak gebruikt in moderne apparaten zoals smartphones, tablets en notebooks. |
| Cloud | Een service-gebaseerd model waarbij gegevens worden opgeslagen op externe servers die toegankelijk zijn via internet, zoals Dropbox en Google Drive. |
| Data Producers | Entiteiten of systemen die data genereren, zoals technologie die wordt gebruikt binnen een proces. |
| Proces | Een reeks stappen en beslissingen die betrokken zijn bij het voltooien van werk, waarbij zowel mensen als technologie betrokken kunnen zijn. |
| Sensoren | Technologie die wordt gebruikt om fysieke omstandigheden te meten en data te genereren, zoals temperatuur-, nabijheids- en GPS-locatiesensoren. |
| Internet of Things (IoT) | Een netwerk van fysieke objecten ('dingen') die zijn voorzien van sensoren, software en andere technologieën met het doel verbinding te maken en data uit te wisselen. |
| Big Data V's | Een concept dat vijf belangrijke kenmerken van grote datasets beschrijft: Volume (omvang), Velocity (snelheid), Variety (diversiteit van structuren), Veracity (nauwkeurigheid) en Value (nuttigheid). |
| Gestructureerde data | Data die is georganiseerd in tabelstructuren met rijen en kolommen, eenvoudig te adresseren en te analyseren. |
| Semigestructureerde data | Data die enkele organisatorische kenmerken behoudt maar niet strikt in tabelstructuren is georganiseerd, zoals XML- en JSON-gegevens. |
| Ongestructureerde data | Data zonder vooraf gedefinieerde organisatie of structuur, zoals afbeeldingen, video's en audio-opnames, die lastig te analyseren is. |
| Master data | Data die de kernentiteiten van een organisatie beschrijft, zoals mensen, plaatsen en dingen, en essentieel is voor systeemintegratie. |
| Transactionele data | Data die de transacties vastlegt die plaatsvinden tijdens de bedrijfsvoering, zoals verkooporders en facturen. |
| Reference data | Data die classificatieschema's beschrijft waarnaar systemen verwijzen, zoals codelijsten en producttypen. |
| Value Stream | De reeks activiteiten die nodig zijn om een product of dienst aan een klant te leveren, inclusief trigger, stappen, lead time en waarde. |
| Data Use Case (UC) | Een specifieke situatie waarin gegevens worden gebruikt om een zakelijk doel te bereiken of een probleem op te lossen, gericht op het creëren van meetbare zakelijke waarde. |
| Business Value Pyramids | Modellen die de objectieve en subjectieve criteria van business value schetsen, onderverdeeld in B2C (klantfocus) en B2B (organisatiefocus). |
| Spreadsheets | Computerprogramma's voor het vastleggen, weergeven en manipuleren van gegevens in rijen en kolommen, zoals Microsoft Excel. |
| Dashboards | Informatiebeheertools die gegevens visualiseren in één weergave, meestal afkomstig uit een database, maar zonder data manipulatie. |
| Data Science Toolboxes | Verzamelingen van softwareprogramma's en middelen die datawetenschappers gebruiken voor programmeren, datavisualisatie en data-analyse. |
| Digitale Applicaties | Applicaties die gegevens verwerken en resultaten tonen aan de eindgebruiker, met focus op gebruiksklare datainsights. |
| AI Prompts | Tekst, vragen of coderingen die aan een AI worden gegeven om een specifiek antwoord of output te verkrijgen. |
| Data Product | Een herbruikbaar data-asset dat data bundelt met alles wat nodig is om het zelfstandig bruikbaar te maken. |
| Dataset | Een verzameling gestructureerde gegevens, die een essentieel onderdeel vormt van een data product. |
| Multi-table Dataset | Een dataset die bestaat uit meerdere tabellen die met elkaar zijn gekoppeld via primaire en vreemde sleutels. |
| Primaire sleutel | Een veld of set velden die een rij in een tabel uniek identificeert. |
| Vreemde sleutel | Een veld in een tabel dat verwijst naar de primaire sleutel in een andere tabel, om relaties tussen tabellen vast te leggen. |
| Meta data | Data over data, die helpt bij het beschrijven, vinden en beheren van andere gegevens, inclusief basisinformatie, eigenaarschap en kwaliteitsmetriek. |
| Fysiek Format | De indeling waarin data wordt aangeboden, zodat het gemakkelijk leesbaar en consumeerbaar is voor tools en mensen. |
| API (Application Programming Interface) | Een set regels en protocollen die de interactie tussen verschillende softwareapplicaties mogelijk maken. |
| Data Integratie | Het combineren van gegevens uit verschillende bronnen tot een uniforme weergave, vaak met behulp van join-operaties. |
| DIKW Framework | Een model dat de hiërarchie van data, informatie, kennis en wijsheid beschrijft, van ruwe data tot toegepaste inzichten. |
| Raw Data | Feiten in een ruwe, ongeorganiseerde vorm, het basiselement van het DIKW framework. |
| Information | Data die is georganiseerd en verwerkt om betekenis te geven, de tweede laag in het DIKW framework. |
| Knowledge | De verbinding van verschillende stukken informatie die helpt begrijpen hoe ze toe te passen om doelen te bereiken, de derde laag in het DIKW framework. |
| Wisdom | Kennis toegepast in de praktijk, de top van de DIKW piramide. |
| Data Transformaties | Processen die data omzetten van de ene vorm naar de andere, zoals conversie, aggregatie en filtering. |
| Conversie | Het proces van het omzetten van data van de ene vorm naar de andere, bijvoorbeeld van JSON naar een tabelindeling. |
| Aggregatie | Het proces van het combineren en samenvatten van gegevens van een laag detailniveau naar een hoger detailniveau. |
| Filtering | Het selecteren van specifieke gegevens op basis van vooraf bepaalde criteria, resulterend in een subset van de oorspronkelijke dataset. |
| Integratie | Het combineren van gegevens uit verschillende bronnen, vaak door het samenvoegen van tabellen op basis van sleutels. |
| Data Visualisatie | Het gebruik van visuele hulpmiddelen om complexe data weer te geven, te begrijpen en te communiceren. |
| Data Storytelling | De gestructureerde aanpak om data-inzichten te communiceren door middel van een combinatie van data, visualisatie en een verhaal. |
| Ignaz Semmelweis | Een Hongaarse arts die onderzoek deed naar kraambedsterfte en het belang van handhygiëne benadrukte, maar wiens werk aanvankelijk werd afgewezen. |
| DIKW Framework | Een hiërarchisch model dat de evolutie van data naar wijsheid beschrijft: Data, Informatie, Kennis, Wijsheid. |
| Kunstmatige Intelligentie (AI) | Een tak van informatica die zich bezighoudt met het creëren van systemen die taken kunnen uitvoeren die normaal menselijke intelligentie vereisen. |
| AI-model | Een algoritme of reeks algoritmen getraind om patronen in data te herkennen en specifieke taken uit te voeren. |
| Traditionele Programmering | Een programmeerbenadering waarbij expliciete instructies voor de computer worden geschreven. |
| AI-serving | Het proces van het implementeren en beschikbaar stellen van een getraind AI-model voor voorspellingen of beslissingen. |
| AI-training | Het proces van het trainen van een AI-model met behulp van gegevens om patronen en relaties te leren herkennen. |
| Turing-test | Een test om te bepalen of een machine intelligent gedrag vertoont dat niet te onderscheiden is van dat van een mens. |
| Belangrijkste AI-capabilities | Fundamentele functies van AI, zoals forecasting (voorspellen), classificatie, aanbeveling, clustering en generatie. |
| Lineaire Regressie | Een statistische techniek die een lineaire relatie tussen variabelen modelleert. |
| Decision Tree | Een beslissingsondersteunend model dat beslissingen en hun mogelijke gevolgen weergeeft in een boomstructuur. |
| Artificial Neural Network (ANN) | Een computermodel geïnspireerd door het menselijk brein, bestaande uit lagen van neuronen die patronen leren herkennen. |
| Deep Learning | Een subveld van machine learning dat gebruikmaakt van meerlaagse neurale netwerken voor complexe patroonherkenning. |
| Accuracy | Een maatstaf voor de prestaties van een model, gedefinieerd als het percentage correcte voorspellingen. |
| Overfitting | Wanneer een model te goed presteert op trainingsdata maar slecht op nieuwe data; kan worden overwonnen met technieken als cross-validatie. |
| Generative vs. Discriminative AI | Generative AI kan nieuwe data creëren, terwijl discriminative AI de grens tussen klassen leert om labels te voorspellen. |
| Selection Bias | Vertekening die optreedt wanneer de trainingsdataset niet representatief is voor de populatie, leidend tot misleidende voorspellingen. |
| Data Platform | Het centrale verwerkingsknooppunt voor het datalandschap van een organisatie, dat data-inname, opslag, transformatie, levering, governance en beveiliging integreert. |
| Data Engineers | Professionals die verantwoordelijk zijn voor het creëren en onderhouden van systemen voor het verzamelen, opslaan en organiseren van grote hoeveelheden data. |
| Data Pipeline | Een proces dat gegevens van een bron naar een bestemming verplaatst, inclusief zuivering, transformatie en opslag. |
| ETL (Extract, Transform, Load) | Een proces voor het verplaatsen en transformeren van gegevens uit verschillende bronnen naar een datawarehouse. |
| DAG (Directed Acyclic Graph) | Een grafiek zonder cycli die de volgorde van uitvoering van processen beheert, gebruikt in data pipelines. |
| Data Classificatie | Het organiseren van gegevens op basis van hun gevoeligheid en belang om te bepalen hoe ze moeten worden behandeld en beschermd. |
| Access Control | Het proces van het definiëren wie toegang heeft tot verschillende soorten gegevens om ongeautoriseerde toegang te voorkomen. |
| Observability | Het continu volgen van de gegevensstroom in een dataplatform om de gezondheid en prestaties van datasystemen te monitoren en problemen vroegtijdig te identificeren. |
| Data Governance | Het beleid en de processen waarmee een organisatie de kwaliteit, beveiliging, beschikbaarheid en integriteit van haar gegevens beheert. |
| Data Lifecycle Management (DLM) | Het proces van het beheren van gegevens gedurende hun hele levenscyclus: creëren, opslaan, gebruiken, delen, archiveren en vernietigen. |
| Data Management | De praktische uitvoering van de regels van datagovernance, inclusief data-architectuur, modellering, opslag, beveiliging en datakwaliteit. |
| Data Warehouse | Een data platform voor ondernemingen, gebruikt voor analyse en rapportage van voornamelijk gestructureerde en semigestructureerde gegevens uit meerdere bronnen. |
| OLTP (Online Transactional Processing) | Systemen ontworpen voor het verwerken van grote hoeveelheden transactionele gegevens, ideaal voor dagelijkse operationele taken. |
| OLAP (Online Analytical Processing) | Systemen ontworpen voor snelle verwerking en analyse van grote hoeveelheden gegevens, gebruikt voor diepgaande data-analyse. |
| Data Mart | Een gespecialiseerde weergave van data, gericht op een specifieke groep gebruikers binnen een organisatie, als subset van een datawarehouse. |
| Verticale Schaalvergroting | Het toevoegen van meer middelen aan een bestaande machine om deze krachtiger te maken. |
| Horizontale Schaalvergroting | Het toevoegen van meer machines aan een systeem om de werklast te verdelen. |
| Data Lake | Een centrale opslagplaats die grote hoeveelheden ruwe gegevens in hun oorspronkelijke formaat opslaat, zonder eerst een structuur op te leggen. |
| Data Lake House | Een architectuur die de voordelen van een traditioneel Data Warehouse en een Data Lake combineert in één geïntegreerde omgeving. |
| Data Ingestie | Het proces van het verzamelen van gegevens van verschillende bronnen en het verplaatsen naar een doellocatie voor verdere verwerking. |
| Operationeel Vlak | Het OLTP-landschap waar data bronapplicaties draaien, geoptimaliseerd voor snelle transacties. |
| Analytisch Vlak | Het gebied waar data-analyse, rapportages en complexe query's worden uitgevoerd met behulp van OLAP. |
| Data Producten (Oefening) | Voorbeelden van toepassingen van data producten, zoals voorspelling van aardbeienoogst en aandrijving van slimme thermostaten. |
| Datakwaliteit | Een maatstaf voor de geschiktheid van gegevens voor het beoogde doel, gegenereerd door vertrouwen in de data. |
| Volledigheid (Datakwaliteit) | Meet de mate waarin alle verwachte records aanwezig zijn in een dataset. |
| Geldigheid (Datakwaliteit) | Meet de mate waarin de waarden in een gegevenselement geldig zijn. |
| Nauwkeurigheid (Datakwaliteit) | Meet de mate waarin gegevens correct zijn en de waarheid vertegenwoordigen. |
| Uniekheid (Datakwaliteit) | Meet de mate waarin records in een dataset niet gedupliceerd zijn. |
| Tijdigheid (Datakwaliteit) | Meet de mate waarin een dataset beschikbaar is wanneer verwacht, afhankelijk van SLA's. |
| Consistentie (Datakwaliteit) | Meet de mate waarin gegevens hetzelfde zijn in alle instanties van die gegevens. |
| Data-eigendom | Het toewijzen van verantwoordelijkheden voor datasets aan specifieke rollen zoals data-eigenaar, data-steward en data-custodian. |
| Data Eigenaar | Verantwoordelijk voor classificatie, bescherming, gebruik en kwaliteit van datasets. |
| Data Steward | Vakexpert die de classificatie, bescherming, gebruik en kwaliteit van een specifieke dataset waarborgt conform de standaarden van de data-eigenaar. |
| Data Custodian | Verantwoordelijk voor technische dataveranderingen op basis van vereisten van de data-eigenaar. |
| Datavisualisatie Geschiedenis | Evolutie van datavisualisatie vanaf 1569 met Gerardus Mercator tot 1869 met Charles Minard, inclusief bijdragen van William Playfair en Florence Nightingale. |
| Boxplot | Een grafische weergave die helpt om de verdeling van een dataset te visualiseren, inclusief minimum, Q1, mediaan, Q3 en maximum. |
| Descriptive Analytics | Analyse die zich richt op het begrijpen wat er gebeurd is, met technieken als samenvattende statistieken en datavisualisatie. |
| Diagnostic Analytics | Analyse die zich richt op het begrijpen waarom iets gebeurd is, door het analyseren van oorzaken van trends. |
| Predictive Analytics | Analyse die zich richt op het voorspellen wat er zal gebeuren, met behulp van statistische methoden en machine learning. |
| Prescriptive Analytics | Analyse die zich richt op het bepalen hoe een gewenst resultaat mogelijk gemaakt kan worden, met technieken als optimalisatie en scenariodenken. |
| Daniel Kahneman: Thinking, Fast and Slow | Een boek dat de twee systemen van het menselijk brein beschrijft: Systeem 1 (snel, intuïtief) en Systeem 2 (traag, beredeneerd). |
| Pre-attente Kenmerken | Visuele eigenschappen die onze hersenen automatisch waarnemen zonder bewuste aandacht, zoals lengte, afstand en kleur. |
| Less is More (Datavisualisatie) | Een principe dat stelt dat het verminderen van onnodige elementen in een visualisatie de helderheid vergroot. |
| Dashboarding | Het creëren van dashboards, waarbij het publiek (strategisch, tactisch, operationeel) belangrijk is om de juiste informatie te presenteren. |
| Strategisch Dashboard | High-level management gericht dashboard, met weinig interactie, dat periodes vergelijkt. |
| Tactisch Dashboard | Dashboard voor middle management, met interactie, gericht op analyse en root cause analysis. |
| Operationeel Dashboard | Dynamisch dashboard met real-time updates, gedetailleerd transactieniveau en recente data voor directe operationele beslissingen. |
| Master Data (Oefening) | Voorbeelden van master data, zoals werknemersgegevens en productinformatie. |
| Transactionele Data (Oefening) | Voorbeelden van transactionele data, zoals patiëntbezoeken en klantoproepen. |
| Reference Data (Oefening) | Voorbeelden van referentiedata, zoals gestandaardiseerde postcodes en lijsten van eenheden. |