Vertrouwelijke e-mails filteren met kunstmatige intelligentie

Als je in juridische problemen zit of dreigt te geraken, moet je vrijuit kunnen communiceren met een advocaat. E-mails met advocaten moeten dus vertrouwelijk blijven. Maar hoe haal je die speld uit de hooiberg van tiendenduizenden e-mails? Met machine learning. Dat is beter, sneller en goedkoper dan mensenwerk.

Alleen al de FIOD neemt per jaar tientallen terabytes aan bedrijfsgegevens in beslag. Een deel daarvan valt wellicht onder het verschoningsrecht van de advocaat. Maar welk deel? Volgens de FIOD worden de bedrijfsgegevens normaal gesproken vooraf gefilterd aan de hand van zoektermen, die vaak in overleg met de advocaten van de bedrijven worden vastgesteld. Het resultaat van de digitale doorzoeking gaat naar de rechter-commissaris. Als die vindt dat de informatie inderdaad onder het professioneel verschoningsrecht valt dan wordt deze informatie volgens de FIOD ‘in de originele dataset zodanig bewerkt dat zij niet langer toegankelijk’ is.

In een recent arrest keurt de Hoge Raad de werkwijze goed. De gevolgde procedure blijkt in werkelijkheid een stuk ingewikkelder dan de schets hierboven Het arrest gaat over de data die de FIOD in beslag nam bij de directeur van een ambulancevervoersbedrijf, die werd verdacht van wederrechtelijke vrijheidsberoving en mishandeling in Winterswijk. Tussen de inbeslaggenomen data zaten ook medische gegevens, waarvoor een afgeleid verschoningsrecht geldt.

Het arrest laat volgens Vincent de Bruijn, advocaat bij NautaDutil, ook zien dat enorme hoeveelheden data met een menselijk oog worden bekeken. In deze zaak gaat het om inbeslagneming. Daarvoor bestaat een procedure waarop een advocaat nog een rol heeft. Als de FIOD of recherche gegevens vergaart via bijzondere opsporingsbevoegdheden gaat dat echter vaak buiten de advocaat om.

 
Geen toetsing

Zo vordert de FIOD regelmatig gegevens bij derden. Bijvoorbeeld bij het hostingbedrijf, waar het Brabantse Box Consultants zijn e-mailserver had ondergebracht. (zie deze uitspraak) Bij de 126aaSv-procedure toetst de rechter-commissaris niet of er verschoningsrechtelijk materiaal tussen zit, terwijl de advocaat geen inspraak heeft in de zoektermen. Bovendien lezen mensen van de recherche en/of het OM de e-mails die wellicht onder het verschoningsrecht vallen, om te kijken of de advocaat terecht een beroep doet of kan doen op diens verschoningsrecht.

Volgens Vincent de Bruijn kan deze inbreuk op het verschoningsrecht worden uitgebannen, of de recherche de gegevens nu in beslag neemt of opvordert. Hij zou voor een systeem zijn, waarbij veiliggestelde e-mails met en van advocaten automatisch worden geblokkeerd, net als getapte telefoongesprekken met advocatennummers. Samen met e-discoveryspecialist Bas Sluijsmans beproefde hij een subtiele methode om e-mails te filteren met behulp van machine learning.

Woordscores

Hoe werkt dat? Een ‘schoningsprogramma’ vergelijkt een ‘startset’ van communicatie met geheimhouders met de overige bestanden die de recherche heeft veiliggesteld. Voor die vergelijking kijkt het programma naar woorden die kenmerkend zijn voor de startset. Hoe meer woorden uit de veiliggestelde data overeenkomen met woorden uit de startset, des te hoger de woordscore. De gebruiker van het programma bepaalt bij welke score een bestand moet worden beschouwd als geheimhoudersstuk.

In de proef van Sluijsmans wist het schoningsprogramma met grote precisie geheimhoudersstukken te vinden, terwijl ongeveer 95% van de geheimhoudersstukken eruit werd gefilterd. Achteraf kunnen opsporingsambtenaren en officieren van justitie op basis van metadata controleren of een e-mail valt onder het verschoningsrecht. Die metadata zijn gescheiden van de inhoud van de e-mails.

Inzichtelijker

Het voordeel van de machine-learningmethode is volgens De Bruijn dat de recherche en het OM geen kennis meer hoeven te nemen van de inhoud van de e-mails. ‘Bovendien wordt het schoningsproces een stuk inzichtelijker en beter controleerbaar.’

Bij kleine hoeveelheden gegevens is de methode echter wel vrij kostbaar, zegt De Bruijn. ‘Het is alleen kostenefficiënt om zo’n programma te gebruiken bij hele grote datavolumes. Als je geheimhoudersstukken moet filteren uit grote hoeveelheden gegevens is de methode echt een uitkomst. De huidige procedure is erg arbeidsintensief, terwijl de kwaliteit daarvan niet duidelijk is.’

Het OM en de FIOD duiken nog niet meteen bovenop de oplossing van De Bruijn en Sluijsmans. Volgens een woordvoerder kijken OM en FIOD wel naar manieren om het proces te versnellen en te verbeteren en juichen zij het toe dat advocaten hierover willen meedenken. ‘De inzet van nieuwe technologie kan helpen, maar honderd procent zekerheid biedt die niet.’

Dit bericht verscheen bij Advocatenblad.nl