Cover
ابدأ الآن مجانًا College%20AI%20en%20vertaling_18-11-2025_Jarno%20Wuijts.pdf
Summary
# Evolutie van machinevertaling
Dit onderwerp verkent de historische ontwikkeling van machinevertaling (MT), van de vroege concepten tot geavanceerde neurale netwerkmodellen [7](#page=7).
### 1.1 Vroege concepten en de oorsprong van machinevertaling
De oorsprong van machinevertaling kan worden teruggevoerd tot de periode tijdens de Tweede Wereldoorlog, waarin computers werden gezien als "decodeermachines". Het idee was om tekst, die in een andere taal was geschreven, te ontcijferen alsof het een gecodeerd bericht was. Belangrijke mijlpalen in de vroege ontwikkeling van kunstmatige intelligentie (AI) en natuurlijke taalverwerking (NLP), die de basis legden voor MT, zijn onder meer Alan Turing's publicatie "Computing Machinery and Intelligence" in 1950 en de eerste vermelding van artificiële intelligentie door John McCarthy in 1955. Het Georgetown-IBM experiment in 1954 markeerde een vroeg experiment met directe machinevertaling, terwijl ELIZA in 1966 de eerste "chatterbot" was en gebruik maakte van NLP [10](#page=10) [8](#page=8) [9](#page=9).
### 1.2 Regelgebaseerde machinevertaling
Regelgebaseerde machinevertaling (RBMT) is een benadering die sterk leunt op linguïstische regels en woordenboeken om vertalingen te genereren. Er zijn verschillende subbenaderingen binnen RBMT [15](#page=15):
#### 1.2.1 Directe machinevertaling
Bij directe MT wordt een woord-voor-woord vertaling uitgevoerd, waarbij de structuur van de doeltaal (DT) grotendeels wordt genegeerd. Dit gebeurt op basis van woordenboeken en eenvoudige grammaticaregels. Een nadeel is dat dit leidt tot onnatuurlijke zinnen, zoals geïllustreerd door de vertaling van "Zag jij de dief?" naar "Saw you the thief?" [15](#page=15).
#### 1.2.2 Transfer machinevertaling
Transfer MT voegt een extra stap toe: het omzetten van de bronzin naar een abstracte taalkundige weergave, gevolgd door een aanpassing naar de structuur van de doeltaal, alvorens woord-voor-woord te vertalen. Dit model houdt rekening met woordvolgorde en grammaticale structuren, wat leidt tot betere vertalingen dan directe MT. Een voorbeeld is de vertaling van "Zag jij de dief?" naar "Did you see the thief?" door eerst de Nederlandse vraagzin om te zetten naar een Engelse vraagzinstructuur [16](#page=16).
#### 1.2.3 Interlingua machinevertaling
De Interlingua-benadering streeft ernaar om de bronzin eerst te vertalen naar een taalonafhankelijke, betekenisgedreven weergave (de interlingua). Vervolgens wordt deze interlingua omgezet naar de doeltaal. Dit model focust op de betekenis, wat potentieel leidt tot de meest accurate vertalingen, maar ook tot de meest complexe implementatie. Een voorbeeld is het ontleden van "Zag jij de dief?" in zijn betekeniscomponenten (actie, actor, object, type, tijd) en dit vervolgens te vertalen naar Engelse zinnen als "Have you seen the thief?" of "Did you see the thief?" [17](#page=17).
#### 1.2.4 Problemen met regelgebaseerde machinevertaling
Regelgebaseerde methodes kampen met aanzienlijke problemen:
* **Kwalificatieprobleem**: Het is onmogelijk om alle specifieke omstandigheden en condities voor elke regel te specificeren [18](#page=18).
* **Tijdrovend en duur**: Taalkundigen moesten alle regels handmatig invoeren [18](#page=18).
* **Gebrek aan flexibiliteit**: Het is moeilijk om regels bij te werken en aan te passen aan nieuwe taalontwikkelingen [18](#page=18).
* **Kwaliteitsproblemen**: De kwaliteit van de vertalingen was vaak suboptimaal, met name op het gebied van woordvolgorde en idiomaticiteit [18](#page=18).
Deze problemen leidden tot kritiek, zoals het Lighthill report en het ALPAC Report die suggereerden dat er "no point" was in machinevertaling [19](#page=19).
### 1.3 Statistische machinevertaling (SMT)
Vanaf de jaren '80 ontstond de statistische machinevertaling (SMT), een benadering die machine learning en corpuslinguïstiek integreert. SMT maakt gebruik van wiskundige modellen om patronen in grote hoeveelheden data te herkennen en zo voorspellingen te doen [20](#page=20).
#### 1.3.1 Kernconcepten van SMT
* **Bag-of-Words**: Een methode die het voorkomen van woorden in een document telt, maar grammaticale details en woordvolgorde negeert [21](#page=21).
* **Word embeddings**: Numerieke representaties van woorden die semantische en syntactische informatie vastleggen. Een bekend voorbeeld is de analogie: $Vector(\text{"King"}) - Vector(\text{"Man"}) = Vector(\text{"Queen"}) - Vector(\text{"Woman"})$ [21](#page=21).
#### 1.3.2 Bayes' stelling in SMT
SMT maakt veelvuldig gebruik van de stelling van Bayes om de meest waarschijnlijke vertaling te bepalen. Het doel is om de kans op de doeltaalzin $T$ te maximaliseren, gegeven de brontaalzin $S$ ($p(T|S)$). Dit wordt geformuleerd als [22](#page=22):
$$
\underset{T}{\operatorname{argmax}} p(T|S) = \underset{T}{\operatorname{argmax}} p(S|T) \times p(T)
$$
Hierbij vertegenwoordigt:
* $p(S|T)$: Het vertaalmodel, dat de kans berekent dat de bronzin $S$ wordt gegenereerd vanuit de doeltaalzin $T$. Dit model leert de mapping van zinsdelen [22](#page=22).
* $p(T)$: Het taalmodel, dat de intrinsieke kans weergeeft dat de doeltaalzin $T$ een goed gevormde en vloeiende zin is [22](#page=22).
#### 1.3.3 Voordelen en nadelen van SMT
**Voordelen:**
* Biedt vloeiendere vertalingen wanneer getraind op grote, geannoteerde teksten (corpora) [23](#page=23).
**Nadelen:**
* Wisselende woordstructuren zijn moeilijk af te leiden [23](#page=23).
* De beschikbaarheid en kwaliteit van tweetalige corpora is cruciaal en kan een beperking zijn [23](#page=23).
* Er is een beperkt "begrip" van context [23](#page=23).
Google Translate maakte in zijn beginjaren gebruik van deze statistische methoden [23](#page=23).
### 1.4 Neurale machinevertaling (NMT)
Vanaf ongeveer 2010 maakte de neurale machinevertaling (NMT) een opmars, waarbij artificiële neurale netwerken (ANN) en deep learning centraal kwamen te staan [24](#page=24).
#### 1.4.1 Kernconcepten van NMT
* **Artificieel neuraal netwerk (ANN)**: Een computermodel, geïnspireerd op het menselijke brein, dat bestaat uit onderling verbonden knooppunten (neuronen) die patronen leren uit grote hoeveelheden data [24](#page=24).
* **Deep learning**: Een onderdeel van machine learning waarbij algoritmes in gestapelde eenheden (neuronen) worden georganiseerd om neurale netwerken te vormen [24](#page=24).
* **Integratie in SMT**: NMT integreert ANN's in de architectuur van SMT, wat resulteerde in significant betere vertaalkwaliteit, zoals te zien bij Google Translate rond 2016. De relatie tussen de verschillende AI-disciplines is als volgt: AI > ML > DL > NLP > MT [24](#page=24) [25](#page=25).
#### 1.4.2 Architectuur van Neurale MT: Encoder-Decoder
De typische architectuur van NMT bestaat uit een encoder en een decoder, die beide verzamelingen neurale netwerken (zoals RNN's of CNN's) kunnen zijn [27](#page=27).
* **Encoder**: Leest de inputzin stap voor stap en berekent voor elke stap een *hidden state*. Deze *hidden state* bevat de woordvector plus informatie over de plaats van het woord in de zin. De laatste *hidden state* vormt de gecodeerde samenvatting van de zin, de zogenaamde *contextvector*. De encoder "begrijpt" de brontaal en creëert een "mentale" samenvatting van de zin [27](#page=27).
* **Decoder**: Start met de *contextvector* van de encoder en genereert vervolgens de woorden van de outputzin. Dit gebeurt autoregressief, waarbij de decoder terugkijkt op zijn eigen eerdere output en de *contextvector*, maar niet op toekomstige tokens. Dit bootst menselijke taalverwerking na. De decoder "begrijpt" de doeltaal en zet de code om in taal [27](#page=27).
#### 1.4.3 Probleem van de contextvector en de oplossing: Attention
Voor korte zinnen is de *contextvector* die de encoder produceert een effectieve, gecomprimeerde weergave van de inputzin, die betekenis, volgorde en syntactische relaties omvat. Echter, bij lange zinnen ondervindt de encoder problemen met het coderen van alle informatie, wat resulteert in een "bottleneckprobleem". RNN's en CNN's zijn hiervoor niet optimaal geschikt [31](#page=31).
De oplossing hiervoor is het **attention mechanism**. Met attention kan [32](#page=32):
* De encoder aandacht besteden aan de relaties tussen woorden door te berekenen hoe belangrijk elk woord is voor elk ander woord (bijvoorbeeld, de belangrijkheid van het onderwerp voor het werkwoord) [32](#page=32).
* De decoder aandacht besteden aan alle *hidden states* die de encoder maakt. Dit lost het bottleneckprobleem op, omdat de output niet meer uitsluitend afhankelijk is van één *contextvector* [32](#page=32).
#### 1.4.4 De Transformer architectuur
De successen van attention leidden tot de ontwikkeling van de Transformer-architectuur, die de behoefte aan RNN's en CNN's in NMT potentieel elimineert [34](#page=34).
**Wat blijft hetzelfde?**
* Het idee van encoders en decoders blijft bestaan [35](#page=35).
* De encoder verwerkt de input en maakt contextweergaven [35](#page=35).
* De decoder genereert output met behulp van deze weergaven [35](#page=35).
* Attention zorgt voor efficiëntie [35](#page=35).
**Wat verandert er?**
* **Parallelle verwerking**: In plaats van sequentiële verwerking, gebeurt de verwerking parallel voor alle tokens [35](#page=35).
* **Self-attention**: Overal wordt *self-attention* gebruikt, wat berekent hoe belangrijk elk woord is voor elk ander woord [35](#page=35).
* **Gestapelde lagen**: De architectuur stapelt encoder- en decoderlagen [35](#page=35).
* **Langeafstandscontext**: Langeafstandscontext wordt mogelijk gemaakt, wat cruciaal is voor het "begrip" van taal. Het motto van de Transformer is "Attention is all you need" [35](#page=35).
Meer lagen in het neurale netwerk leiden tot meer "begrip" van de taal. Een bekend voorbeeld van een model gebaseerd op de Transformer-architectuur is GPT (Generative Pre-trained Transformer) [37](#page=37) [39](#page=39).
---
# Neurale machinevertaling en transformers
Dit deel van de studiehandleiding duikt in de technische mechanismen van neurale machinevertaling (MT), met een focus op de rol van encoders, decoders en de revolutionaire transformer-architectuur.
### 2.1 De basis van neurale machinevertaling (NMT)
Neurale machinevertaling, dat vanaf ongeveer 2010 aan populariteit won maakt gebruik van artificiële neurale netwerken (ANN's). ANN's zijn computermodellen geïnspireerd op het menselijke brein, bestaande uit onderling verbonden knooppunten (neuronen) die patronen leren uit grote hoeveelheden data en de basis vormen van deep learning. Deep learning zelf is een tak van machine learning waarbij algoritmes in lagen worden gestapeld om neurale netwerken te vormen. De integratie van ANN's in statistische MT werd rond 2016 significant, met name door toepassingen zoals Google Translate [24](#page=24).
### 2.2 Architectuur van neurale MT: encoder-decoder
De kern van neurale MT-systemen bestaat uit twee hoofdcomponenten: de encoder en de decoder [27](#page=27).
#### 2.2.1 De encoder
De encoder is een verzameling neurale netwerken (zoals Recurrente Neurale Netwerken - RNN's, of Convolutionele Neurale Netwerken - CNN's) die de inputzin stap voor stap verwerkt. Voor elke stap berekent de encoder een 'hidden state' ($h$), die een combinatie is van de woordvector en informatie over de positie van het woord in de zin. De laatste hidden state van de encoder fungeert als een gecodeerde samenvatting van de gehele inputzin, ook wel de 'contextvector' genoemd. De encoder wordt gezien als het deel dat de brontaal 'begrijpt' en er een 'mentale' samenvatting van creëert. De encoder verwerkt informatie over de woordvolgorde en is in staat om relaties tussen woorden af te leiden [27](#page=27) [28](#page=28).
#### 2.2.2 De decoder
De decoder is eveneens een verzameling neurale netwerken, zoals RNN's of CNN's. De decoder start met de contextvector die door de encoder is gegenereerd. Vervolgens genereert de decoder de outputzin woord voor woord, waarbij het kijkt naar zijn eigen eerdere output en de contextvector. Dit proces, bekend als 'autoregressief masking', houdt in dat er alleen gekeken wordt naar voorgaande tokens en niet naar toekomstige tokens, wat vergelijkbaar is met menselijke taalverwerking. De decoder wordt beschouwd als het deel dat de doeltaal 'begrijpt' en de gecodeerde informatie terug omzet in taal [27](#page=27).
#### 2.2.3 Het bottleneckprobleem
De encoder comprimeert de gehele inputzin tot een enkele contextvector, die betekenis, woordvolgorde en syntactische relaties bevat. Voor korte zinnen is dit effectief, maar bij langere zinnen ondervindt de encoder moeite om alle informatie in deze ene vector te coderen. Dit fenomeen staat bekend als het 'bottleneckprobleem', en zowel RNN's als CNN's blijken hier niet optimaal voor geschikt [31](#page=31).
### 2.3 Het aandachtmechanisme (Attention Mechanism)
Om het bottleneckprobleem aan te pakken, werd het aandachtmechanisme (attention) geïntroduceerd [32](#page=32).
* **Encoder aandacht:** Met aandacht kan de encoder beter de relaties tussen woorden analyseren door te berekenen hoe belangrijk elk woord is voor elk ander woord. Een voorbeeld hiervan is de relatie tussen het onderwerp en het werkwoord [32](#page=32).
* **Decoder aandacht:** De decoder kan aandacht besteden aan alle hidden states die door de encoder zijn geproduceerd. Dit lost het bottleneckprobleem op omdat de decoder niet meer uitsluitend afhankelijk is van de informatie in de enkele contextvector [32](#page=32).
> **Tip:** Het aandachtmechanisme stelt het model in staat om dynamisch te bepalen welke delen van de input het meest relevant zijn voor de huidige outputstap, wat de vertaalkwaliteit aanzienlijk verbetert [32](#page=32).
### 2.4 De Transformer-architectuur
De vraag die ontstond na de succesvolle toepassing van het aandachtmechanisme was: wat als aandacht zo effectief is dat RNN's en CNN's overbodig worden?. Dit leidde tot de ontwikkeling van de Transformer-architectuur [34](#page=34) [35](#page=35).
* **Kernprincipes:** Het idee van encoders en decoders blijft behouden, waarbij de encoder input verwerkt en contextweergaven creëert, en de decoder output genereert met behulp van deze weergaven. Attention speelt een cruciale rol in de efficiëntie [35](#page=35).
* **Parallelle verwerking:** In tegenstelling tot de sequentiële verwerking van RNN's, vindt de verwerking in de Transformer parallel plaats voor álle tokens tegelijkertijd [35](#page=35).
* **Self-attention:** Overal in de Transformer wordt 'self-attention' toegepast, wat inhoudt dat het model berekent hoe belangrijk elk woord is voor elk ander woord [35](#page=35).
* **Gelaagde structuur:** De Transformer stapelt encoder- en decoderlagen. Meer lagen leiden tot een dieper 'begrip' van de data [35](#page=35) [37](#page=37).
* **Langeafstandscontext:** Deze architectuur maakt het mogelijk om langeafstandscontext effectief te modelleren [35](#page=35).
* **"Attention is all you need":** Dit slogan vat de revolutie die de Transformer teweegbracht samen, waarbij aandacht de dominante component werd [35](#page=35).
> **Voorbeeld:** De Transformer-architectuur is de basis geworden voor veel state-of-the-art taalmodellen, waaronder GPT (Generative Pre-trained Transformer) [39](#page=39).
---
# Generatieve AI en vertaaltoepassingen
Generatieve AI, met name Large Language Models (LLM's), transformeert vertaaltaken en fungeert als een veelzijdig taalhulpmiddel, hoewel met inherente beperkingen en ethische overwegingen.
### 3.1 Wat is Generatieve AI?
Generatieve AI is een vorm van kunstmatige intelligentie die nieuwe content creëert, zoals teksten, afbeeldingen of geluiden, als reactie op een gebruikersinvoer genaamd een 'prompt'. Een prompt is de specifieke opdracht die aan generatieve AI wordt gegeven [41](#page=41).
#### 3.1.1 Voorbeelden van LLM's en hun toepassingen
Verschillende LLM's worden genoemd met hun specifieke marketing-achtige beschrijvingen, die hun kernfunctionaliteiten benadrukken:
* **ChatGPT** (Nov. 2022): Beschrijft zichzelf als in staat om teksten te schrijven, complexe vragen uit te leggen en creatieve ideeën te genereren [42](#page=42).
* **Gemini** (Mar. 2023): Benadrukt het vlot schrijven van essays, samenvatten van complexe teksten en feilloos programmeren van code [43](#page=43).
* **Copilot** (Feb. 2023): Positioneert zich als een slimme sidekick voor werk, studie en creativiteit, die schrijft, analyseert en organiseert [44](#page=44).
* **Claude** (Mar. 2023): Beschrijft zichzelf als een intelligente partner voor complexe denktaken, creatieve projecten en professionele communicatie [45](#page=45).
* **Deepseek** (Nov. 2023): Biedt hulp bij schrijven, brainstormen en reisplanning, allemaal binnen één gesprek [46](#page=46).
* **Grok** (Nov. 2023): Wordt gepresenteerd als een charmante LLM voor diepgaande codegeneratie, creatieve content en slimme data-analyses [47](#page=47).
* **Meta AI** (2023/2025): Wordt omschreven als een charmante gesprekspartner voor grappige dialogen, creatief schrijven en het oplossen van complexe problemen [48](#page=48).
* **Perplexity** (Dec. 2022): Stelt dat het verhalen schrijft, slimme adviezen geeft en woorden moeiteloos vertaalt naar perfect begrip [49](#page=49).
### 3.2 Waarom is Generatieve AI goed in vertalen?
Generatieve AI is effectief in vertaaltaken door drie kernfactoren:
1. **Enorme hoeveelheid data**: De training op een gigantische dataset levert 'vakkennis' en cultureel inzicht op [50](#page=50).
2. **Teksten volledig verwerken**: De capaciteit om gehele teksten te verwerken, resulteert in een dieper 'begrip' van de context [50](#page=50).
3. **Taalproductie is kerntaak**: Omdat het genereren van taal een kerntaak is, produceert de AI vaak vloeiende, menselijk klinkende output [50](#page=50).
### 3.3 Vergelijking van vertaalmethoden
Een vergelijking tussen een traditionele vertaler, Neurale Machine Translation (NMT) en Generatieve AI (GenAI) voor MT toont de volgende verschillen [52](#page=52):
| Aspect | Vertaler | Neurale MT | GenAI MT |
| :------------------ | :------------------------------------------------ | :---------------------------------------------- | :----------------------------------------------------------- |
| **Hoofdtaak** | Vertalen | Vertalen | Eigen creaties |
| **Training** | Vertaalopleiding + domeinkennis | Vertaalde teksten (algemeen & domeinspecifiek) | Alles |
| **Tekstproductie** | Bron- naar doeltaal (BT-DT) vergelijking | BT-DT vergelijking | Voorkeur voor DT (Doeltaal) |
| **Snelheid** | Afhankelijk van ervaring & tekstsoort | Snel, maar zonder rekening te houden met eigenzinnigheden | Extra snel, zonder rekening te houden met eigenzinnigheden |
| **Kwaliteit** | Menselijke kwaliteit | Goed, maar robotachtig | Wisselend |
| **Culturele referenties** | Afhankelijk van voorkennis | Vaak niet begrepen | Degelijk, maar 'lekkend' vanuit de brontaal/context |
### 3.4 De kracht van prompts in vertaling
Prompts zijn cruciaal voor het sturen van generatieve AI in vertaaltaken. Verschillende promptcomponenten beïnvloeden de kwaliteit van de output:
* **Roltoewijzing**: Definieert het deskundigheidsniveau van de AI, wat de domeinnauwkeurigheid verbetert [56](#page=56).
* **Voorbeeld**: "Je bent een medisch vertaler gespecialiseerd in klinische proeven" [56](#page=56).
* **Contextspecificatie**: Biedt achtergrondinformatie, wat zorgt voor een passend referentiekader [56](#page=56).
* **Voorbeeld**: "Dit is een toestemmingsformulier voor patiënten volgens EU-regelgeving" [56](#page=56).
* **Stijlrichtlijnen**: Definieert de toon en aanpak, wat de toon passend maakt voor de doeltaal-omgeving [56](#page=56).
* **Voorbeeld**: "Gebruik toegankelijke taal voor een lekenpubliek" [56](#page=56).
* **Referentiemateriaal**: Zorgt voor terminologische consistentie en laat de vertaling naadloos integreren in de doeltaal-omgeving [56](#page=56).
* **Voorbeeld**: "Gebruik de bijgevoegde woordenlijst voor technische termen" [56](#page=56).
* **Culturele aanpassing**: Lokaliseert inhoud op passende wijze, wat de culturele relevantie verbetert [56](#page=56).
* **Voorbeeld**: "Pas aan voor Vlaams (Belgisch-Nederlands) publiek" [56](#page=56).
### 3.5 Risico's van Generatieve AI in vertaling
Het gebruik van generatieve AI brengt diverse risico's met zich mee [58](#page=58) [61](#page=61) [64](#page=64):
1. **Vloeiendheid ≠ Accuraatheid**: De gegenereerde tekst kan weliswaar vloeiend klinken, maar feitelijk incorrect zijn, met name bij uitdrukkingen en culturele referenties (bv. 'cousin' vertalen als 'neef/nicht' wanneer een specifieker woord nodig is) [58](#page=58) [61](#page=61) [64](#page=64).
2. **Hallucinaties**: De AI kan informatie genereren die niet gebaseerd is op de invoertekst, omdat deze zich focust op genereren in plaats van overzetten [58](#page=58) [61](#page=61) [64](#page=64).
3. **Bias (Vooringenomenheid)**: Trainingsdata zijn vaak ongelijk verdeeld qua taal, regio, cultuur en gender, wat leidt tot oververtegenwoordiging van dominante talen en perspectieven, en stereotypering of foutieve weergave van kleinere talen/culturen [68](#page=68).
4. **Misleiding**: Risico op desinformatie, deepfakes en oplichting [61](#page=61) [64](#page=64).
5. **Wisselende bestandsformaten**: Moeilijkheden met het verwerken van diverse bestandsformaten, zoals HTML [61](#page=61) [64](#page=64).
6. **Privacy**: Input wordt verwerkt op servers, wat risico's voor trainingsdoeleinden met zich meebrengt [61](#page=61) [64](#page=64).
7. **Auteursrechten**: Vragen over het uploaden van content en wie de rechten bezit over de vertaling [64](#page=64).
8. **Kosten**: Gerelateerd aan credits en energieverbruik [64](#page=64).
9. **Impact op milieu**: De ecologische voetafdruk van het trainen en gebruiken van AI-modellen [64](#page=64).
10. **Verlies leerproces & kritische houding**: Overmatig vertrouwen op AI kan leiden tot een verminderd leerproces en minder kritische reflectie [66](#page=66).
11. **Monopolie op AI-markt**: Eenzijdigheid en invloed door grote spelers [66](#page=66).
### 3.6 Ethische overwegingen
Bij het gebruik van generatieve AI in vertaling komen belangrijke ethische kwesties aan bod [67](#page=67) [68](#page=68) [69](#page=69) [70](#page=70):
* **Bias en representatie**: Onvolledige of bevooroordeelde trainingsdata kunnen leiden tot culturele stereotypering of het wegfilteren van bepaalde perspectieven, wat impliciet ideeën van groepen kan doorgeven of subtiel kan verwijderen [68](#page=68).
* **Productiecontext**: AI-modellen vereisen aanzienlijk handmatig werk achter de schermen, waaronder het ontginnen van metalen en 'digital sweatshops' voor contentmoderatie, wat vragen oproept over steun aan Big Tech [68](#page=68).
* **Ecologische voetafdruk**: Er wordt de vraag gesteld of de ecologische impact van AI-vertaling opweegt tegen de traditionele vertaalmethoden [68](#page=68).
* **Aansprakelijkheid en kwaliteitsgarantie**: Vertalers blijven aansprakelijk voor hun werk, zelfs wanneer AI wordt gebruikt. Opdrachtgevers verwachten dat vertalers fouten corrigeren en zijn bereid deze vragen te beantwoorden [70](#page=70).
* **Reputatie en integriteit**: Het uitsluitend vertrouwen op AI voor vertaling kan schadelijk zijn voor de reputatie van een taalexpert [70](#page=70).
* **Privacy en vertrouwelijkheid**: Gevoelige informatie mag niet zomaar via AI-tools worden verwerkt, tenzij volledig offline of met algemeen toegankelijke informatie [70](#page=70).
### 3.7 De rol van de vertaler en nieuwe vaardigheden
De opkomst van generatieve AI definieert een nieuwe rol voor vertalers en tolken [72](#page=72) [73](#page=73):
* **Sleutelrol in maatschappelijke discussie**: Vertalers kunnen de risico's van AI belichten en uitleggen waarom AI niet voor alle taken geschikt is, door het te presenteren als een tool voor experts, niet als vervanging [73](#page=73).
* **Vertaaltheorie**: AI-vertaling kan een engere, meer letterlijke kijk op vertalen promoten. Het is belangrijk te benadrukken dat vertalen niet één enkel doel heeft, maar verschillende mate van equivalentie kan nastreven [73](#page=73).
* **(Nieuwe) Vaardigheden**:
* Uitstekende kennis van bron- en doeltaal, inclusief culturele aspecten (referenties, nuances) [73](#page=73).
* Prompt engineering voor effectieve interactie met AI-modellen [73](#page=73).
* Post-editing met kennis van AI-systemen [73](#page=73).
### 3.8 AI als taalhulpmiddel
Generatieve AI kan fungeren als een waardevol taalhulpmiddel voor studenten en professionals, met toepassingen op diverse taalvaardigheden [75](#page=75):
#### 3.8.1 Schrijven
* **Tekstverbetering**: GenAI kan teksten verbeteren op het gebied van grammatica, structuur en taalgebruik [76](#page=76).
* **Schrijfinspiratie**: Studenten kunnen opdrachten aan het model geven voor inspiratie [76](#page=76).
* **Tekstcreatie in L2**: GenAI kan teksten schrijven in de gewenste doeltaal (L2), aangepast aan het niveau van de student [77](#page=77).
#### 3.8.2 Spreken
* **Gesprekspartner**: GenAI kan dienen als gesprekspartner die fouten verbetert en tips geeft over zinsstructuur en uitspraak [76](#page=76).
* **Drempelverlaging**: Het helpt studenten om te beginnen met spreken in de L2, zelfs als ze zelf nog in de L1 spreken [76](#page=76).
* **Text-to-Speech**: Modellen kunnen helpen bij het koppelen van woordbeeld en klank [76](#page=76).
#### 3.8.3 Lezen
* **Tekstbegrip testen**: Studenten kunnen vragen stellen om hun begrip van teksten te testen [77](#page=77).
* **Verduidelijking**: Studenten kunnen L2-teksten invoeren en vragen stellen voor verduidelijking [77](#page=77).
#### 3.8.4 Grammatica
* **Uitleg van regels**: Studenten kunnen vragen stellen over grammaticaregels of gemaakte fouten [77](#page=77).
* **Oefeningen maken**: Het model kan grammatica-testen opstellen [77](#page=77).
#### 3.8.5 Woordenschat
* **Thematische lijsten**: Studenten kunnen vragen om thematische woordenlijsten te genereren (bv. voor een studiereis) [77](#page=77).
* **Woordenschat-testen**: Het model kan woordenschat-testen opstellen [77](#page=77).
> **Tip:** Hoewel AI-tools krachtig zijn, benadrukt de literatuur dat "kunstmatige intelligentie misschien slim is, maar niet intelligent". Het 'dom' gebruik van slimme tools kan onvoorziene gevolgen hebben [71](#page=71) [84](#page=84).
---
# Risico's en ethiek van AI in vertaling
Dit gedeelte bespreekt de potentiële gevaren, ethische dilemma's en maatschappelijke implicaties die gepaard gaan met het gebruik van AI-technologieën voor vertaaldiensten [57](#page=57) [61](#page=61) [64](#page=64) [66](#page=66).
### 4.1 Risico's van AI in vertaling
Het gebruik van AI voor vertaling brengt verschillende risico's met zich mee, die variëren van directe vertaalfouten tot bredere maatschappelijke en ethische problemen [57](#page=57) [61](#page=61) [64](#page=64) [66](#page=66).
#### 4.1.1 Vloeiendheid versus accuraatheid
Een veelvoorkomend risico is dat AI-gegenereerde vertalingen vloeiend klinken, maar niet accuraat zijn. Dit kan zich manifesteren in [58](#page=58) [61](#page=61) [64](#page=64) [66](#page=66):
* **Incorrecte vertalingen van specifieke woorden:** Zoals het vertalen van "cousin" naar "neef/nicht" zonder contextuele specificatie [58](#page=58) [61](#page=61) [64](#page=64) [66](#page=66).
* **Misinterpretatie van uitdrukkingen:** Idiomatische taal en gezegden kunnen door AI verkeerd worden begrepen en letterlijk worden vertaald, wat tot onzin leidt [58](#page=58) [61](#page=61) [64](#page=64) [66](#page=66).
* **Verlies van culturele referenties:** Cultureel specifieke verwijzingen kunnen verloren gaan of verkeerd worden geïnterpreteerd, omdat AI moeite heeft met het begrijpen van de onderliggende culturele context [58](#page=58) [61](#page=61) [64](#page=64) [66](#page=66).
#### 4.1.2 Hallucinaties
AI-modellen kunnen "hallucineren", wat betekent dat ze informatie genereren die niet aanwezig is in de brontekst of die feitelijk onjuist is. Dit gebeurt wanneer de AI zich meer richt op het genereren van tekst dan op het accuraat overzetten van de oorspronkelijke inhoud [58](#page=58) [61](#page=61) [64](#page=64) [66](#page=66).
#### 4.1.3 Bias (vooringenomenheid)
AI-systemen kunnen vooringenomenheid vertonen, vaak als gevolg van de trainingsdata. Wanneer trainingsdata ongelijk verdeeld zijn qua taal, regio, cultuur en gender, kunnen dominante talen en westerse perspectieven oververtegenwoordigd zijn. Dit kan leiden tot [61](#page=61) [64](#page=64) [66](#page=66) [68](#page=68):
* Stereotypering of foutieve weergave van kleinere talen en culturen met minder online materiaal [68](#page=68).
* Impliciete overdracht of subtiele filtering van ideeën van bepaalde groepen door automatische vertalingen [68](#page=68).
#### 4.1.4 Misleiding
AI kan worden ingezet voor misleidende doeleinden, zoals het creëren van desinformatie, deepfakes of oplichting. De mogelijkheid om overtuigende maar valse inhoud te genereren, vormt een aanzienlijk risico voor de maatschappelijke betrouwbaarheid van informatie [61](#page=61) [64](#page=64) [66](#page=66).
#### 4.1.5 Verwerking van wisselende bestandsformaten
Het efficiënt verwerken van diverse bestandsformaten, zoals HTML-bestanden, kan een technische uitdaging vormen voor AI-vertaalsystemen [61](#page=61) [64](#page=64) [66](#page=66).
#### 4.1.6 Privacy en vertrouwelijkheid
Het gebruik van AI-vertaaldiensten, vooral cloud-gebaseerde systemen, brengt privacyrisico's met zich mee. Inputgegevens worden vaak verwerkt op servers, wat kan leiden tot blootstelling van gevoelige informatie. Vertalers dienen voorzichtig te zijn met het delen van gevoelige informatie, zoals persoonsgegevens of bedrijfsgeheimen, via dergelijke systemen [61](#page=61) [64](#page=64) [66](#page=66) [70](#page=70).
#### 4.1.7 Auteursrechten
Vragen rond auteursrechten op AI-gegenereerde vertalingen zijn complex. Het uploaden van materiaal voor vertaling kan implicaties hebben voor het eigendom en de rechten van de resulterende vertalingen [64](#page=64) [66](#page=66).
#### 4.1.8 Kosten
Het gebruik van AI-vertaaldiensten kan gepaard gaan met kosten, zoals het verbruik van credits of de benodigde energie [64](#page=64) [66](#page=66).
#### 4.1.9 Impact op het milieu
De ecologische voetafdruk van AI, inclusief het energieverbruik voor training en operatie, is een ethische overweging. De vraag wordt gesteld of de uitstoot gerechtvaardigd is, vooral in vergelijking met traditionele vertaalmethoden [64](#page=64) [66](#page=66) [68](#page=68).
#### 4.1.10 Verlies leerproces en kritische houding
Overmatig vertrouwen op AI voor vertaling kan leiden tot een verlies van het leerproces en het ontwikkelen van een kritische houding bij individuen [66](#page=66).
#### 4.1.11 Monopolie op AI-markt
Een monopolie op de AI-markt door enkele grote spelers kan leiden tot een eenzijdige ontwikkeling en invloed, wat de diversiteit en autonomie van vertaaldiensten kan beperken [66](#page=66).
### 4.2 Ethiek van AI in vertaling
De ethische aspecten van AI in vertaling omvatten de impact op bias, de productiecontext, aansprakelijkheid, reputatie en privacy [67](#page=67) [68](#page=68) [70](#page=70).
#### 4.2.1 Bias en representatie
Zoals reeds vermeld, is bias een significant ethisch probleem. De ongelijke verdeling van trainingsdata leidt tot een ondervertegenwoordiging van bepaalde talen en culturen, wat kan resulteren in stereotypen en onnauwkeurigheden. AI-vertalingen kunnen impliciet normen en waarden van dominante groepen overbrengen, ten koste van andere perspectieven [68](#page=68).
#### 4.2.2 Productiecontext
De ontwikkeling van AI-modellen vereist vaak aanzienlijk handmatig werk achter de schermen. Dit omvat uitbuiting van arbeiders in de winning van metalen voor hardware en "digital sweatshops" voor taken zoals contentmoderatie. Het steunen van dergelijke praktijken door het gebruik van AI is een ethisch dilemma [68](#page=68).
#### 4.2.3 Aansprakelijkheid en kwaliteitsgarantie
Vertalers blijven juridisch en ethisch aansprakelijk voor het werk dat zij indienen, zelfs als AI is gebruikt. Opdrachtgevers verwachten vaak dat vertalers expert zijn in het identificeren en corrigeren van AI-fouten. Vragen over vertaalkeuzes blijven bij de vertaler liggen, waardoor de noodzaak om deze te kunnen uitleggen essentieel is [70](#page=70).
#### 4.2.4 Reputatie en integriteit
Het uitsluitend vertrouwen op AI voor vertaling kan de reputatie en integriteit van een taalexpert, zoals een afgestudeerde van de UAntwerpen, schaden. Een ware taalexpert wordt gekenmerkt door een breder scala aan vaardigheden dan enkel het bedienen van een vertaaltool [70](#page=70).
#### 4.2.5 Privacy en vertrouwelijkheid
Het respecteren van privacy en vertrouwelijkheid is cruciaal voor vertalers. Het gebruik van AI is daarom beperkt tot algemeen toegankelijke informatie of volledig offline systemen om gevoelige data te beschermen [70](#page=70).
### 4.3 De rol van de vertaler en vertaaltheorie
De opkomst van AI dwingt tot een heroverweging van de rol van de vertaler en de vertaaltheorie [73](#page=73).
#### 4.3.1 Sleutelrol in maatschappelijke discussie
Vertalers en tolken spelen een sleutelrol in de maatschappelijke discussie rond AI in hun vakgebied. Ze moeten de risico's van AI aantonen en uitleggen waarom AI niet overal kan en mag worden ingezet. Net als bij machinevertaling (MT) in het verleden, is AI een tool voor experts en geen vervanging [73](#page=73).
#### 4.3.2 Vertaaltheorie en AI-vertaling
AI-vertaling kan neigen naar een enge opvatting van vertalen, waarbij letterlijkheid als de norm wordt gezien. Dit staat haaks op de veelzijdigheid van vertaaltheorie die verschillende doelen en mate van equivalentie erkent [73](#page=73).
#### 4.3.3 (Nieuwe) vaardigheden voor vertalers
Vertalers moeten nieuwe vaardigheden ontwikkelen om effectief te kunnen werken met AI:
* **Uitstekende kennis van bron- en doeltaal en culturen:** Essentieel voor het herkennen van nuances, culturele referenties en het corrigeren van AI-fouten [73](#page=73).
* **Promptengineering:** Het vermogen om effectieve instructies te geven aan AI-modellen [73](#page=73).
* **Post-editing met kennis van AI-systemen:** Het efficiënt kunnen bewerken en verbeteren van AI-gegenereerde vertalingen, met inzicht in de werking van de AI [73](#page=73).
> **Tip:** Hoewel AI een krachtige tool kan zijn, is het cruciaal om te onthouden dat kunstmatige intelligentie "slim, maar niet intelligent" is. De gevolgen van ondoordacht gebruik van deze tools kunnen aanzienlijk zijn [71](#page=71).
> **Voorbeeld:** De vertaling van de Engelse term "cousin" naar "neef/nicht" door een AI illustreert hoe vloeiende tekst toch accuraat kan missen, omdat de specifieke relatie (oom/tante-kind of broer/zus-kind) en gender niet gespecificeerd zijn [58](#page=58) [61](#page=61) [64](#page=64) [66](#page=66).
---
## Veelgemaakte fouten om te vermijden
- Bestudeer alle onderwerpen grondig voor examens
- Let op formules en belangrijke definities
- Oefen met de voorbeelden in elke sectie
- Memoriseer niet zonder de onderliggende concepten te begrijpen
Glossary
| Term | Definition |
|------|------------|
| Artificieel neuraal netwerk (ANN) | Een computermodel dat is geïnspireerd op de structuur en werking van het menselijke brein. Het bestaat uit onderling verbonden knooppunten (neuronen) die automatisch patronen leren uit grote hoeveelheden data, en vormt de basis voor deep learning. |
| Bag-of-Words | Een simpele representatiemethode in Natural Language Processing (NLP) die het voorkomen van woorden in een document beschrijft. Hierbij wordt enkel het aantal woorden bijgehouden, zonder rekening te houden met grammaticale details of woordvolgorde. |
| Bottleneckprobleem | In neurale netwerken, met name bij lange sequenties, verwijst dit naar de uitdaging waarbij een encoder moeite heeft om alle relevante informatie in een enkele, gecomprimeerde contextvector te coderen. Dit kan leiden tot informatieverlies. |
| Computationele linguïstiek | Een interdisciplinair vakgebied dat zich bezighoudt met de computationele aspecten van taal. Het richt zich op de ontwikkeling van systemen die menselijke taal kunnen verwerken, begrijpen en produceren, waaronder machinevertaling. |
| Corpuslinguïstiek | Een tak van de taalkunde die taal bestudeert met behulp van grote verzamelingen teksten (corpora). In de context van statistische machinevertaling worden tweetalige corpora gebruikt voor statistische berekeningen om de meest waarschijnlijke vertalingen te voorspellen. |
| Deep learning | Een subveld van machine learning dat gebruikmaakt van kunstmatige neurale netwerken met meerdere lagen (diepe architecturen). Deze gelaagde structuren stellen algoritmes in staat om complexe patronen en hiërarchieën in data te leren. |
| Deontologie | Een ethische theorie die zich richt op de plichten en verantwoordelijkheden die voortvloeien uit de aard van een handeling zelf, in plaats van de gevolgen ervan. In de context van vertalen gaat het om professionele ethiek en gedrag. |
| Directe machinevertaling | Een vroege methode van machinevertaling die woorden één-op-één vertaalde met behulp van woordenboeken en eenvoudige grammaticaregels, zonder rekening te houden met de zinsstructuur van de doeltaal. |
| Encoder | In een encoder-decoder architectuur is de encoder verantwoordelijk voor het lezen van de invoerzin en het omzetten ervan in een gecondenseerde representatie, de zogenaamde contextvector. Deze vector bevat informatie over de betekenis, volgorde en syntactische relaties van de invoer. |
| Generatieve AI (GenAI) | Een vorm van kunstmatige intelligentie die in staat is om nieuwe content te creëren, zoals teksten, afbeeldingen, geluiden of code, als reactie op een gebruikersinput (prompt). Het creëert dus originele output in plaats van alleen bestaande data te analyseren. |
| Hallucinaties (AI) | Een fenomeen waarbij een AI-model, met name een generatief model, informatie genereert die feitelijk onjuist is, niet ondersteund wordt door de invoergegevens of simpelweg verzonnen is. Dit gebeurt vaak wanneer het model zich meer richt op het produceren van vloeiende tekst dan op het accuraat weergeven van informatie. |
| Interlingua | Een concept in regelgebaseerde machinevertaling waarbij de brontekst wordt omgezet naar een neutrale, taalonafhankelijke intermediaire taal of representatie. Vanuit deze interlingua wordt vervolgens de doeltaal gegenereerd, wat helpt bij het omgaan met complexe grammaticale structuren. |
| LLM (Large Language Model) | Een groot taalmodel dat is getraind op enorme hoeveelheden tekstdata en in staat is om mensachtige tekst te begrijpen en te genereren. LLM's vormen de basis voor veel moderne generatieve AI-toepassingen. |
| Machine learning (ML) | Een tak van kunstmatige intelligentie die computers in staat stelt te leren van data zonder expliciet geprogrammeerd te zijn. ML-algoritmen herkennen patronen in data en gebruiken deze om voorspellingen te doen of beslissingen te nemen. |
| Natuurlijke taalverwerking (NLP) | Het vakgebied dat zich bezighoudt met de interactie tussen computers en menselijke (natuurlijke) taal. Het doel is om machines in staat te stellen menselijke taal te verwerken, begrijpen, interpreteren en genereren, wat essentieel is voor veel AI-toepassingen. |
| Neurale machinevertaling (NMT) | Een geavanceerde methode voor machinevertaling die gebruikmaakt van neurale netwerken om vertalingen te genereren. NMT-modellen leren complexe patronen en relaties in taal, wat resulteert in vloeiendere en accuratere vertalingen dan eerdere methoden. |
| Post-editing | Het proces waarbij menselijke vertalers de output van machinevertalingssystemen beoordelen, corrigeren en verbeteren om de kwaliteit en nauwkeurigheid te waarborgen. Dit is een cruciaal onderdeel van moderne vertaalworkflows met AI. |
| Prompt engineering | Het ontwerpen en verfijnen van instructies (prompts) die aan een generatief AI-model worden gegeven om de gewenste output te verkrijgen. Goede prompt engineering is essentieel om de efficiëntie en relevantie van AI-gegenereerde content te maximaliseren. |
| Regelgebaseerde machinevertaling | Een vroege benadering van machinevertaling die gebaseerd is op linguïstische regels en grammaticastructuren. Deze systemen proberen de vertaling te genereren door de regels van de bron- en doeltaal toe te passen, vaak via een intermediaire representatie. |
| Statistische machinevertaling (SMT) | Een methode voor machinevertaling die vanaf de jaren '80 opkwam en gebruikmaakt van statistische modellen getraind op grote tweetalige datasets (corpora). SMT probeert de meest waarschijnlijke vertaling te vinden door middel van wiskundige berekeningen. |
| Transformer | Een type neuraal netwerkarchitectuur dat oorspronkelijk werd ontwikkeld voor sequence-to-sequence taken, zoals machinevertaling. Transformers maken uitgebreid gebruik van het self-attention mechanisme, waardoor ze langeafhankelijkheden in data efficiënt kunnen modelleren en parallelle verwerking mogelijk maken. |