Cover
Start now for free 5_Binair_Talst_Informatietheorie (1).pdf
Summary
# Het binaire talstelsel en bits
Dit onderwerp introduceert de fundamenten van het binaire talstelsel, de representatie van getallen en de relatie tussen bits en de hoeveelheid informatie, evenals de definitie van een byte.
### 1.1 Het decimale en binaire talstelsel
Het decimale talstelsel, dat we dagelijks gebruiken, is gebaseerd op tien cijfers (0-9). In tegenstelling hiermee werkt het binaire talstelsel met slechts twee cijfers: 0 en 1. Dit maakt het binair talstelsel bijzonder geschikt voor digitale systemen, waar elektronische schakelingen zich in één van twee toestanden kunnen bevinden (bijvoorbeeld aan of uit) [5](#page=5).
#### 1.1.1 Representatie van getallen in binair
Net als in het decimale stelsel, waarbij elke positie een macht van 10 vertegenwoordigt (eenheden, tientallen, honderdtallen, etc.), vertegenwoordigt elke positie in het binaire stelsel een macht van 2. Van rechts naar links zijn dit $2^0$ $2^1$ $2^2$ $2^3$ $2^4$ enzovoort [1](#page=1) [2](#page=2) [4](#page=4) [6](#page=6) [8](#page=8).
Om een decimaal getal om te zetten naar binair, zoek je de juiste combinatie van machten van 2 die optellen tot het decimale getal. Een '1' op een bepaalde positie betekent dat de bijbehorende macht van 2 wordt meegenomen in de som, terwijl een '0' betekent dat deze macht van 2 wordt genegeerd.
**Voorbeeld van binaire representatie:**
* Het decimale getal 1 wordt binair gerepresenteerd als 1 (de macht $2^0$ wordt gebruikt) [6](#page=6).
* Het decimale getal 3 wordt binair gerepresenteerd als 11 (de machten $2^1$ en $2^0$ worden gebruikt: $2 + 1 = 3$) [6](#page=6).
* Het decimale getal 7 wordt binair gerepresenteerd als 111 (de machten $2^2$, $2^1$ en $2^0$ worden gebruikt: $4 + 2 + 1 = 7$) [6](#page=6).
* Het decimale getal 15 wordt binair gerepresenteerd als 1111 (de machten $2^3$, $2^2$, $2^1$ en $2^0$ worden gebruikt: $8 + 4 + 2 + 1 = 15$) [6](#page=6).
* Het decimale getal 16 wordt binair gerepresenteerd als 10000 (de macht $2^4$ wordt gebruikt) [6](#page=6).
#### 1.1.2 Bits en de hoeveelheid informatie
Een enkel cijfer in het binaire talstelsel wordt een **bit** genoemd. Een bit is de fundamentele eenheid van informatie en kan de waarde 0 of 1 aannemen [6](#page=6).
Het aantal bits dat nodig is om een bepaald getal te representeren, hangt af van de grootte van dat getal. Algemeen geldt dat voor het representeren van getallen tot een maximumwaarde van $2^n - 1$, er $n$ bits nodig zijn [6](#page=6) [7](#page=7).
* Met 1 bit kunnen we getallen van 0 tot $2^1 - 1 = 1$ representeren (dus 0 en 1) [7](#page=7).
* Met 2 bits kunnen we getallen van 0 tot $2^2 - 1 = 3$ representeren (dus 0, 1, 2, 3) [7](#page=7).
* Met 3 bits kunnen we getallen van 0 tot $2^3 - 1 = 7$ representeren [7](#page=7).
* Met 4 bits kunnen we getallen van 0 tot $2^4 - 1 = 15$ representeren [7](#page=7).
* Met 5 bits kunnen we getallen van 0 tot $2^5 - 1 = 31$ representeren [7](#page=7).
* Met 16 bits kunnen we getallen tot $2^{16} - 1 = 65.535$ representeren [7](#page=7).
De grafiek op pagina 8 en 10 illustreert de relatie tussen het aantal bits en het maximale decimale getal dat hiermee geschreven kan worden. Hoe meer bits er beschikbaar zijn, hoe groter het bereik van de getallen dat kan worden weergegeven, wat direct correleert met de hoeveelheid informatie die kan worden opgeslagen of verwerkt [10](#page=10) [8](#page=8).
### 1.2 Bytes en grotere informatie-eenheden
Een **byte** is een standaardgroepering van bits. Traditioneel en meest gangbaar is dat **8 bits gelijk zijn aan 1 byte** [9](#page=9).
Met één byte kunnen we dus 8 bits gebruiken. Dit betekent dat we met 1 byte alle cijfers van 0 tot 9 kunnen weergeven, aangezien daarvoor slechts 4 bits nodig zijn. Een byte kan echter veel meer informatie bevatten. Het getal 255 kan bijvoorbeeld worden weergegeven met 8 bits ($2^8 - 1 = 255$) [9](#page=9).
* Met 10 bits kunnen we het getal 1023 weergeven [9](#page=9).
* Grotere eenheden van informatie worden gevormd door bytes te groeperen:
* Een kilobyte (kB) wordt in het SI-systeem gedefinieerd als 1000 bytes, hoewel het vroeger vaak 1024 bytes ($2^{10}$) betekende. Dit komt overeen met 8000 bits [9](#page=9).
Het aantal mogelijke combinaties, en dus de hoeveelheid informatie, groeit exponentieel met het aantal bits. Met een grote hoeveelheid bits, zoals die in 2 bytes (16 bits), kan een aanzienlijke hoeveelheid informatie worden opgeslagen. Dit principe is fundamenteel voor de opslag en verwerking van alle digitale data [10](#page=10).
---
# Shannon's informatietheorie en entropie
Shannon's informatietheorie, voorgesteld door Claude E. Shannon in 1948, definieert entropie als een maat voor de diversiteit en informatie binnen een systeem. Deze theorie heeft ook aanzienlijke implicaties voor het begrijpen van biologische systemen [12](#page=12).
### 2.1 Oorsprong en kernconcepten
Claude E. Shannon introduceerde zijn "Mathematical Theory of Communication" in 1948, gebaseerd op zijn werk bij Bell Laboratories. Zijn eerdere bijdragen omvatten het ontwerpen van digitale schakelingen, wat de basis legde voor het begrijpen van informatieoverdracht. Shannon definieerde informatië, ook wel entropie genoemd, als een kwantitatieve maat voor de hoeveelheid informatie die een signaal kan bevatten [12](#page=12).
### 2.2 Entropie als maat voor diversiteit
Entropie, en daarmee de hoeveelheid informatie, wordt beschouwd als een maat voor de diversiteit binnen een systeem. Een eenvoudig systeem met weinig variatie, zoals een enkele bit die slechts twee toestanden kan aannemen (0 of 1), bevat weinig informatie. Daarentegen kan een grotere hoeveelheid bits, zoals 8000 bits (ongeveer 1 kilobyte), al een aanzienlijke hoeveelheid informatie bevatten, bijvoorbeeld een halve pagina tekst [13](#page=13).
* Eenvoudige, uniforme systemen bevatten weinig informatie en kunnen met weinig bits worden beschreven [13](#page=13).
* Complexe, willekeurige systemen bevatten veel entropie en vereisen veel bits voor beschrijving [13](#page=13).
### 2.3 Illustratieve voorbeelden van entropie
De gradatie van complexiteit en entropie kan worden geïllustreerd aan de hand van kunst en biologische systemen.
#### 2.3.1 Kunst als illustratie
Jackson Pollock's werk uit 1948, zoals "No. 5", wordt geassocieerd met hoge entropie door de willekeurige en complexe aard van de penseelstreken. In contrast staat het werk van Yves Klein, zoals zijn monochrome blauwe schilderijen uit 1962, dat een lage entropie vertegenwoordigt door zijn eenvormigheid en minimalisme [14](#page=14).
#### 2.3.2 Biologische complexiteit en entropie
Ook in biologische systemen is er een duidelijke gradatie van complexiteit, die zich vertaalt naar verschillende niveaus van entropie:
* **Levende versus dode materie:** Levende materie vertoont een hogere complexiteit en dus meer entropie dan dode materie [15](#page=15).
* **Geslacht:** De mogelijkheid van drie geslachten (M/V/X) vertegenwoordigt een hogere entropie dan een binair systeem [15](#page=15).
* **Nucleotiden in DNA:** Er zijn vier verschillende nucleotiden (basen) in DNA, wat een bepaald niveau van entropie impliceert [15](#page=15).
* **Aminozuren in eiwitten:** De twintig verschillende soorten aminozuren die eiwitten vormen, vertegenwoordigen een nog hogere mate van entropie [15](#page=15).
Het aantal mogelijke opties of toestanden in een systeem wordt aangeduid als "staten" [15](#page=15).
### 2.4 Toepassing in biologische systemen
De variatie die ontstaat door biologische processen, zoals mutaties, wordt vaak uitgedrukt in termen van entropie. Bijvoorbeeld, snel muterende virusvarianten vertonen snelle evolutie in sommige sequentiedelen vergeleken met andere [12](#page=12).
### 2.5 Entropie en waarschijnlijkheid: het opgooien van een munt
Het concept van entropie wordt verder verduidelijkt door het voorbeeld van het opgooien van een munt [25](#page=25).
* **Echte munt (hoge entropie):** Bij het opgooien van een echte munt zijn er twee mogelijke uitkomsten (kop of munt), elk met een verwachte kans van 1/2. De waarschijnlijkheid van het resultaat van een enkele opgooi is willekeurig en onzeker, wat resulteert in maximale entropie, hier uitgedrukt als 1 bit. Er is bijkomende informatie nodig om het specifieke resultaat te kennen [25](#page=25).
* **Vervalsde munt (lage entropie):** Als een munt vervalst is en bijvoorbeeld altijd op kop landt, is de uitkomst voorspelbaar. Dit resulteert in een lage entropie, omdat er weinig tot geen onzekerheid is over het resultaat. De "verwachte kans" is niet meer 1/2 en het resultaat is niet langer willekeurig [25](#page=25).
Dit illustreert hoe entropie de mate van onzekerheid of willekeurigheid in een systeem meet [25](#page=25).
---
# Bits, staten en de berekening van entropie
Dit onderwerp introduceert de concepten van bits als eenheid van informatie om toestanden te representeren, en verklaart de berekening van zowel maximale als lokale entropie om de mate van willekeurigheid en informatie-inhoud in een systeem te kwantificeren.
### 3.1 Bits en het representeren van staten
Een bit is de fundamentele eenheid van informatie en kan één van twee waarden aannemen: 0 of 1. Bits worden gebruikt om verschillende "staten" of toestanden te representeren. Het aantal benodigde bits om een bepaald aantal staten te representeren, hangt af van het aantal mogelijke combinaties dat met die bits kan worden gevormd [16](#page=16).
#### 3.1.1 Voorbeelden van statenrepresentatie
* **DNA-basen:** Het DNA telt vier basen: Adenine (A), Cytosine (C), Guanine (G) en Thymine (T). Deze vier staten kunnen binair worden uitgedrukt met behulp van twee bits, waarbij elke bit het dubbele aantal mogelijke combinaties kan representeren (00, 01, 10, 11) [16](#page=16).
* A kan worden toegewezen aan 00.
* C kan worden toegewezen aan 01.
* G kan worden toegewezen aan 10.
* T kan worden toegewezen aan 11.
* **Plus- en minteken:** Dit zijn twee staten, waarvoor slechts één bit nodig is (0 voor min, 1 voor plus, of vice versa) [17](#page=17).
* **Ja of nee:** Eveneens twee staten, waarvoor één bit volstaat [17](#page=17).
* **Nederlands alfabet:** Het Nederlandse alfabet kent 26 letters (staten). Om deze 26 staten binair te coderen, zijn meer dan één bit nodig. De toekenning van binaire codes aan elke letter maakt tekstverwerking mogelijk [17](#page=17).
#### 3.1.2 Berekening van benodigde bits
Om te bepalen hoeveel bits er nodig zijn om een bepaald aantal staten te coderen, gebruikt men de logaritme met grondtal 2. De formule voor de maximale entropie, die aangeeft hoeveel bits nodig zijn om alle mogelijke staten van een systeem te coderen, is [18](#page=18):
$$ \text{Maximale entropie} = \log_2(\text{# staten}) $$
Hierbij staat `# staten` voor het totale aantal mogelijke staten die het systeem kan aannemen. Omdat computers geen "deelbits" gebruiken, wordt het aantal benodigde bits naar boven afgerond tot het dichtstbijzijnde gehele getal. Dit kan worden weergegeven als $n$ bits nodig voor $2^n$ staten, of omgekeerd, $n = \lceil \log_2(\text{# staten}) \rceil$ bits [18](#page=18) [19](#page=19).
#### 3.1.3 Toepassing van de berekening
* **Levend vs. niet-levend:** Er zijn twee staten: levend en niet-levend.
* Maximale entropie = $\log_2 = 1$ bit [19](#page=19) [2](#page=2).
* **Vier basen in DNA:** Er zijn vier staten (A, C, G, T).
* Maximale entropie = $\log_2 = 2$ bits [19](#page=19) [4](#page=4).
* **26 letters van het alfabet:** Er zijn 26 staten.
* Maximale entropie = $\log_2 \approx 4.7$ bits .
* Dit vereist 5 bits, omdat computers geen fractionele bits kunnen gebruiken ($2^4 = 16$ is te weinig, $2^5 = 32$ is voldoende) [19](#page=19).
### 3.2 Maximale versus lokale entropie
Maximale entropie gaat uit van de theoretisch mogelijke staten van een systeem, waarbij elke staat even waarschijnlijk is. Lokale entropie daarentegen, kijkt naar de feitelijk waargenomen frequenties van de staten in een systeem [22](#page=22) [23](#page=23).
#### 3.2.1 Combinaties van DNA-basen
Beschouwen we twee opeenvolgende basen in DNA, dan zijn er $4 \times 4 = 16$ mogelijke combinaties (staten). Als elke combinatie met dezelfde waarschijnlijkheid voorkomt (elk 1/16), dan is het systeem willekeurig en is de lokale entropie gelijk aan de maximale entropie [20](#page=20).
* Maximale entropie voor 16 staten = $\log_2 = 4$ bits [16](#page=16) [23](#page=23).
#### 3.2.2 De berekening van lokale entropie
Lokale entropie meet de informatie-inhoud gebaseerd op de waargenomen frequenties van staten. De formule hiervoor is:
$$ \text{Lokale entropie} = - \sum_{i=1}^{k} p_i \log_2(p_i) $$
Hierbij is $k$ het aantal unieke staten dat daadwerkelijk voorkomt, en $p_i$ is de frequentie (waarschijnlijkheid) waarmee de $i$-de staat voorkomt. De som wordt gemaakt over alle effectief voorkomende staten, en het minteken zorgt voor een positieve entropiewaarde [22](#page=22) [23](#page=23).
#### 3.2.3 Interpretatie van lokale entropie
* **Afwijking van willekeurigheid:** Een lagere lokale entropie geeft aan dat het systeem sterker afwijkt van een willekeurig patroon en meer georganiseerd of homogeen is [24](#page=24).
* **Surprise factor:** Lokale entropie wordt ook wel de "surprise factor" genoemd. Als er geen verrassing is (d.w.z. de waargenomen frequenties wijken niet af van de verwachte willekeurigheid), is er geen nieuwe informatie [24](#page=24).
* **Informatie-inhoud:** De informatie-inhoud van een "populatie" is omgekeerd evenredig met de willekeurigheid of heterogeniteit binnen die populatie [24](#page=24).
* Een systeem met één bevolkte staat is volledig homogeen en bevat geen informatie [24](#page=24).
* Als alle staten een frequentie van 1/16 hebben, is de lokale entropie 4, gelijk aan de maximale entropie, wat duidt op een willekeurig systeem [23](#page=23).
* In een voorbeeld met 32 observaties over 16 staten, waar de frequenties afweken van 1/16, werd een lokale entropie van 1.94 berekend. Dit is lager dan de maximale entropie van 4, wat aangeeft dat het systeem minder willekeurig is [22](#page=22) [23](#page=23).
> **Tip:** Lokale entropie is een krachtige maat om te beoordelen hoe verrassend of informatie-rijk een specifiek waargenomen patroon is, in vergelijking met wat je op basis van pure willekeurigheid zou verwachten.
> **Voorbeeld:** Stel je voor dat je een munt gooit. De maximale entropie is 1 bit (kop of munt). Als je 10 keer gooit en 5 keer kop en 5 keer munt krijgt, is de lokale entropie hoog en dicht bij de maximale entropie, omdat dit een willekeurig resultaat is. Als je echter 10 keer kop zou krijgen, is de lokale entropie laag (dicht bij 0), wat zeer onwaarschijnlijk is en dus een grote "surprise factor" of informatie-inhoud zou impliceren (ervan uitgaande dat de munt eerlijk is, zou dit wijzen op een probleem met de munt of het werpproces).
---
# Practica en examenvoorbereiding
Dit gedeelte bespreekt het belang van practica voor de examenvoorbereiding en de specifieke inhoud van de beschikbare practica.
### 4.1 Het belang van practica
Practica zijn essentieel voor het verwerven van praktische vaardigheden en het toepassen van de geleerde theorie. Hoewel er geen directe evaluatie plaatsvindt van de practica zelf, is de opgedane kennis cruciaal voor het examen in de januarizittijd. Het is daarom van groot belang om eerst de bijbehorende leerstof te bestuderen. Het zelfstandig maken van de oefeningen is de meest effectieve manier om vaardigheden te ontwikkelen, wat neerkomt op herhaaldelijk handelen. Het enkel bestuderen van oplossingen zal niet volstaan voor succes op het examen of in latere vakken [26](#page=26).
> **Tip:** Focus op het actief oefenen en zelfstandig oplossen van de practica om de stof echt te doorgronden en je examenvoorbereiding te optimaliseren.
Vragen die op de discussiefora voorkomen, gerelateerd aan practica, betreffen onder andere "binair tellen en informatica-entropie" en "publieke databanken" [26](#page=26).
### 4.2 Practicum binair tellen en informatie-entropie
Dit practicum omvat twee specifieke oefeningen:
* Binair tellen, inclusief het gebruik van Excel [27](#page=27).
* Informatie-entropie, eveneens met het gebruik van Excel [27](#page=27).
Voor dit practicum zijn er vier bestanden beschikbaar op Ufora na de les [27](#page=27):
* De opdrachten voor beide oefeningen [27](#page=27).
* Twee begeleidende films met instructies over het gebruik van Excel in deze oefening; deze films hebben geen geluid [27](#page=27).
* De oplossingen voor de oefeningen [27](#page=27).
> **Tip:** Maak gebruik van de instructievideo's voor Excel, zelfs zonder geluid, om de praktische toepassing van de theorie te vergemakkelijken.
De practica kunnen **zelfstandig** gevolgd worden op een moment naar keuze. Er is ook een mogelijkheid voor een **tijdslot** op 22/10/2024 van 14:30 tot 17:00, hoewel dit nog onder voorbehoud is [27](#page=27).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Binair talstelsel | Een getalstelsel dat gebruikmaakt van slechts twee symbolen, meestal 0 en 1, om getallen weer te geven. Dit is de basis van digitale computertechnologie. |
| Bit | Een elementaire eenheid van informatie die slechts één van twee mogelijke waarden kan aannemen, traditioneel weergegeven als 0 of 1. Het is de kleinste eenheid van data in computers. |
| Byte | Een groep van 8 bits, die gezamenlijk worden gebruikt om bijvoorbeeld één karakter, cijfer of symbool te representeren. Een byte is een veelgebruikte eenheid voor digitale informatieopslag. |
| Informatie-entropie | Een concept uit de informatietheorie dat de mate van onzekerheid of willekeurigheid in een informatiesysteem kwantificeert. Een hoge entropie betekent veel onzekerheid en veel mogelijke toestanden. |
| Logische schakelingen (Logic Gates) | Basiseenheden van digitale circuits die logische bewerkingen uitvoeren op binaire inputsignalen om een binair outputsignaal te produceren. Voorbeelden zijn AND, OR en NOT poorten. |
| Decimaal talstelsel | Het gebruikelijke tiendelige getalstelsel dat we dagelijks gebruiken, met de cijfers 0 tot en met 9. |
| Mutaties | Veranderingen in de genetische code (DNA) van een organisme. Deze veranderingen kunnen leiden tot variatie binnen een populatie. |
| Nucleotiden | De bouwstenen van DNA en RNA, bestaande uit een suiker, een fosfaatgroep en een stikstofbase (zoals A, C, G, T in DNA). |
| Aminozuren | Organische moleculen die de bouwstenen vormen van eiwitten. Er zijn 20 verschillende veelvoorkomende aminozuren. |
| Staten | De mogelijke toestanden waarin een systeem zich kan bevinden. Bijvoorbeeld, een bit heeft twee staten (0 of 1), en een DNA-sequentie kan bestaan uit vier verschillende basen. |
| Maximale entropie | De theoretische bovengrens van de entropie van een systeem, die wordt bereikt wanneer alle mogelijke staten even waarschijnlijk zijn. Dit bepaalt het aantal bits dat nodig is om alle staten te coderen. |
| Lokale entropie | Een maat voor de entropie van een systeem gebaseerd op de daadwerkelijke frequentie van waargenomen toestanden, in plaats van de theoretisch maximale entropie. Het weerspiegelt de diversiteit en waarschijnlijkheid van voorkomende staten. |
| Surprise factor | Een term die verband houdt met lokale entropie, waarbij een lage lokale entropie aangeeft dat de waargenomen resultaten minder verrassend zijn dan verwacht bij een willekeurig systeem. |
| Heterogeniteit | De mate waarin een populatie of systeem divers en gevarieerd is. Een hoge heterogeniteit komt overeen met meer willekeurigheid en hogere entropie. |