Stylometrie - Situatie of Science Fiction?
Je schrijfstijl is als je vingerafdruk. En ik praat hier niet over je handschrift. Schrijven we trouwens sowieso nog met het handje? Ik heb het hier over je unieke manier van schrijven. Je woordkeuze, de manier waarop je je zinnen formuleert, het gebruik van interpuncties. Je taal- en stijlfouten, of de afwezigheid ervan. Kort door de bocht of juist uitweidend? Identificatie op basis van je schrijfstijl-DNA komt wel heel snel dichterbij en wordt in de praktijk al toegepast, ondermeer in forensische analyses. Delen van Shakespeare's werken zijn niet door hemzelf geschreven, zo beweren sommige stylometristen, schrijfstijlanalisten. Waar of niet - wie zal het zeggen? Wel gaat de ontwikkeling razendsnel, aangejaagd door AI, kunstmatige intelligentie op z'n Hollands. Schrijf je onder een pseudoniem, omdat je pen wel heel erg scherp is? Kijk dan maar uit. Waarschijnlijk is het nog maar een kwestie van een paar jaar waarna de stylometristen, gewapend met een paar Terabyte aan AI, messcherp uitvinden wie je bent, wat je schrijft en, net zo angstaanjagend, je bijna naadloos imiteren.
Stylometrie
Tot op zekere hoogte kunnen we allemaal verschillende schrijfstijlen herkennen. Een jolige, verdrietige, lieve of kwade tekst van een vriend of een geliefde leest anders dan een krantenartikel, een brief van de bank, of een dwangbevel van de deurwaarder. De verschillende stijlen van onze favoriete schrijvers kunnen we waarschijnlijk ook wel onderscheiden. Moeilijker wordt het, om teksten van volstrekt vreemden te plaatsen. Opleidingsniveau, leeftijd, vrouw of man misschien, daar kunnen we nog wel een gooi naar doen. Maar verder? Kunnen we een stuk tekst specifieker koppelen? Aan een bepaalde groep? Hoe specifiek kunnen we die groep maken? Eén enkele persoon, zelfs?
Dat is precies de droom van de stylometrie, de analyse van schrijfstijlen. Heel lang was stylometrie ambachtelijk handwerk. Forensische stylometrie heeft in het verleden al faam gekregen door een aantal bepalende doorbraken in misdaadzaken. Soms gingen hieraan maandenlange anaylses vooraf. Kunstmatige intelligentie is in rap tempo bezig, om een totaal nieuwe dimensie aan schrijfstijlanalyse te geven. Een droom voor stylometristen. Een nachtmerrie voor anderen. En zeker niet alleen voor misdadigers.
Toepassingen
Een gezonde portie fantasie is genoeg om de talloze toepassingen van stylometrie te bedenken en te behappen. Analytische varianten hier beschreven zijn identificatie van criminelen en authenticiteitsverificatie van documenten. De synthetische varianten, het nabootsen van stylometrische profielen van anderen, ontwikkelt zich ook zeer snel, dikwijls met criminele doeleinden. Ook hier door middel van het gebruik of, beter gezegd, misbruik van kunstmatige intelligentie.
Identificatie van criminelen
Criminelen zijn tegenwoordig slim genoeg om geen handgeschreven briefjes te versturen. Hun schrijfstijl kan hun identiteit echter feilloos prijsgeven. Theodore Kaczynski -1) (bijnaam 'The Unabomber') verzond bombrieven tussen 1978 en 1995 naar een groot aantal tegenstanders die hij 'verdacht' sterke voorstanders te zijn van moderne technologie. Zelf was hij een promotor van een anarchistische samenleving. In 1995 schreef hij zijn manifest ‘De Industriële samenleving en haar toekomst.’ Toen de FBI het 35.000 woorden tellende document analyseerde, konden stylometristen een vrij heldere profielschets samenstellen. Op basis hiervan werd Kaczynski gearresteerd en veroordeeld. Het was mooi meegenomen, dat ze een exacte kopie van het manifest bij hem thuis aantroffen. Tegenwoordig zijn er gevallen bekend, waarin auteurs worden geïdentificeerd op basis van een paar regels.
Auteursidentificatie - andere redenen
Authersidentificatie hoeft niet altijd het doel te hebben om criminelen op te sporen, al is de scheidslijn hier wel vaag. Tot welk punt geldt nog de vrijheid van meningsuiting en waar wordt deze overschreden? En, vooral in landen met een minder vanzelfsprekende vrijheid van medingsuiting, welke jurisdictie is van toepasssing? En, zoals een bekende Indiase-Britse schrijver ooit heeft ondervonden, zullen deze landen zich sowieso iets aantrekken van buiten hun territoriale grenzen geldende jurisdicties?
Dit is een van de (vele) redenen voor het gebruik van pseudoniemen. Een auteur schrijft in dit geval onder een gefingeerde naam en soms wel, maar vaak doelbewust niet kan worden gekoppeld aan de echte naam. Maar ook hier gaat het gelegenheidshuwelijk tussen stylometrie en kunstmatige intelligentie roet in het eten gooien. De boodschap is duidelijk. Met de anonimiteit van het pseudoniem is het vroeg of laat gedaan.
Authenticiteitsverificatie van documenten
De Vrije Universiteit Amsterdam (VU) noemt auteursbepaling de belangrijkste toepassing van stylometrie. De betreffende web-pagina van de VU -2) lijkt mij enigszins gedateerd, hoewel auteursbepaling vanuit een academisch perspectief natuurlijk enorm belangrijk is. Denk hierbij bijvoorbeeld aan authenticiteitsbepaling van afstudeerscripties, identificatie van plagiaat in wetenschappelijk onderzoek en het uitbesteden van schrijfwerk aan zogenaamde schaduwschrijvers (de Engelse term 'ghost writer' is waarschijnlijk bekender, om iemand aan te duiden die als 'schrijfslaaf' in dienst schrijft van iemand anders die te lui of te incompetent is om zelf te schrijven).
Te intelligent voor kunstmatige intelligentie?
'Nooit zullen computers het winnen van de menselijke geest,' is de grove fout die we als mensheid keer op keer in onze ongebreidelde arrogantie maken, totdat we weer eens goed op ons nummer worden gezet. De schaakcomputer Deep Blue, die in 1997 Garri Kasparov van het bord veegde. Het Israëlische Waze, dat in 2008 kaartlezen overbodig maakte. Algemeen gebruikte zelfrijdende auto's zijn nog maar een kwestie van tijd. En dus ook de stylometrische computer: schrijf een A4-tje en ik weet wie je bent.
Er zijn er altijd die proberen om 'de computer' te slim af te zijn. Met wisselend succes. Gari Kasparov werd ongenadig afgestraft toen hij dacht dat hij Deep Blue op het verkeerde been kon zetten. En zo zijn er ook expirimenten met auteurs die proberen om het stylometrische computerprogramma pootje te lichten, bijvoorbeeld door expres taalfouten te maken, of kromme zinsconstructies in te bouwen. Maar moderne kunstmatige intelligentie kan dit oppikken en zelfs kenmerken toevoegen aan het 'auteurs-DNA'. Ook voor het maken van 'stomme fouten' schijnen auteurs zo hun persoonlijke voorkeuren te hebben. 'Alles wat je zegt, wordt tegen je gebruikt' krijgt zo een nieuwe dimensie.
Synthetische stylometrie
Als we eens wat dieper nadenken over de mogelijkheden van synthetische stylometrie, dan wordt het allemaal wel heel erg eng. Stel dat een crimineel mijn volledige email- en tekstbestanden zou kunnen stelen. Met een flinke portie computercapaciteit moet het niet zo ingewikkeld zijn om mijn communicatiestijl te analyseren, eventueel nog per persoon ook. Met mijn vrouw communiceer ik nu eenmaal anders dan met de Belastingdienst. Als die crimineel mijn email-adres, mijn tekst-nummer, mijn sociale media en mijn stylometrische analyse gaat gebruiken om berichten uit mijn naam te versturen, zelfs zelfs in staat is om natuurgetrouwe antwoorden op eventuele vragen te versturen, dan ziet het er opeens allemaal wel erg angstaanjagend uit. Voel je aan, waarin het echte gevaar van stylometrie schuilt?
Privacy-aspecten
Over de privacy-aspecten is het laatste woord nog niet gezegd. Als persoonlijke schrijfkenmerken identificeerbaar zijn, zijn ze ook vast te leggen. Welke regels gaan hiervoor gelden? Dezelfde regels als voor het opslaan van vingerafdrukken en DNA? Wat precies gaat er worden vastgelegd? Wat is de bewijskracht van een 'match'? Welke conclusies worden aan de data verbonden? Mevrouw M gebruikt twee maal de uitdrukking 'ik maak gehakt van je' in een tekst van 700 woorden. Past ze in het profiel van een seriemoordenaar?
En wat nu?
Scherp blijven, is de boodschap! Blijf je bewust van wat je schrijft, want de tijd van de anonimiteit van het pseudoniem loopt af. Speel het netjes, als je dat al niet deed, want plagiaat blijft niet meer onder de radar. En wapen je tegen misbruik van je stylometrische profiel door kwaadwillenden. De gevolgen van verlies van de controle over je email, je tekst en je sociale media worden alleen maar erger. Beveilig deze, zoals je je eigen huis beveiligt.
Voetnoten
1) https://www.youtube.com/watch?v=-EVXdhstw14&t=27s - Dit is een link naar YouTube-materiaal gepubliceerd door Erica Brozovsky, die alle eigenaarsrechten bezit. Gebruik van dit materiaal moet aan alle YouTube-voorwaarden voldoen.
2) https://www2.fgw.vu.nl/werkbanken/dighum_nl/strategieen/tekstanalyse/stylometrie.php?form=MG0AV3