Voor de ophef over de onthullingen van Snowden met betrekking tot de NSA hebben veel bomen moeten sterven. Hele kranten werden er over volgeschreven. Wat zeg ik, complete speciale edities! Er kwam zelfs zoveel belastende informatie boven tafel dat velen van ons al vrij snel “NSA-moe” werden.
Een onderbelicht puntje in de hele discussie rondom al die geheime diensten (ook de AIVD) is een vrij technische. Veel bronnen beweren namelijk dat de NSA heel veel gegevens opslaat in grote geheime databases. Dat begint bij “duizenden terabytes” (wat weer miljoenen gigabytes zijn) tot duizenden petabytes, wat zoveel informatie is dat je je het haast niet kan voorstellen.
Het probleem waar ik de NSA nog wel last van zie hebben is “data-management”. Het is namelijk ongelofelijk moeilijk om data te organiseren, vast te houden en doorzoekbaar te maken. Het is een probleem waar ook Google nog niet uit is; waar hele studies aan gewijd zijn (Data Science) en boeken over zijn volgeschreven. Want ga maar na. De meeste mensen lukt het nauwelijks om hun vakantiefoto’s te organiseren. Kan jij een specifiek WhatsApp berichtje terug vinden zonder maar gewoon omhoog te scrollen tot je hem terugvindt?
Bij bedrijven zie je het ook te veel, en te vaak. Er is 500GB aan data (een gemiddelde externe harde schijf is al groter) en het gaat compleet fout. Mapjes staan door elkaar, documenten zijn dubbel, niks staat waar het hoort. Zelfs als er specialisten op de zaak worden gezet eindigt het al snel in een rommel. Soms komt er een goede oplossing naar voren in de vorm van bibliotheekachtige systemen, met indexen en genummerde mappen. Maar dat is (zeker digitaal) zelden het geval. Ik was ooit bij een bedrijf dat zich toelegde op het organiseren van data voor bedrijven. Ze hadden kant-en-klare software tot hun beschikking. Met de snelste computers. Toch kwam het altijd weer neer op handwerk. Gewoon bladeren en zoeken. Maar dan met hippe grafiekjes en dashboards.
Je vraagt je af wat voor een slimmeriken die geheime diensten wel niet in dienst moet hebben om dat probleem op te lossen. Zoveel ongestructureerde data! Zoveel rommel! Zoveel irrelevante troep! Hoe baan je je daar een weg doorheen?
Op het moment proberen ze het vooral met zogenaamde flags. Je krijgt een geel prikkertje naast je naam als je moslim bent. Een rode als je geen schulden hebt. Koop je een Koran op Amazon, dan krijg je vast twaalf zwarte prikkertjes en een blauwe sticker. Het resultaat van al die flags is simpel: wel of niet staatsgevaarlijk. Zoals betere schrijvers al wisten te vertellen werkt dat voor geen meter.
Dat die flags niet werken vind ik niet zo interessant; ondanks de soms afschuwelijke gevolgen die dat heeft is het welhaast komisch dat de NSA en de FBI in al hun datahonger de jongens die de aanslagen in Boston pleegden niet konden vinden omdat ze hun Russische achternaam verkeerd spelden. De Russen op hun beurt, kwamen die jongens op het spoor dankzij ouderwets politiewerk. De diverse no-fly lists die de Amerikanen bijhouden worden vooral bezet door roerige journalisten en onschuldige mensen die hun naam delen met een terrorist.
Met oplossingen zoals de Boundless Informant proberen ze hier verandering in te brengen, maar ik krijg de indruk dat het niet echt werkt. Want als de geheime diensten iets goed kunnen gebruiken is het wel een echte win, een mooi PR-momentje dat al hun gespioneer echt werkt. In plaats daarvan zien we toch veel excuses dat ze elke keer te laat zijn.
De geheime diensten hebben simpelweg teveel gegevens in huis en is niet in staat er iets zinnigs uit te halen. Prachtige sciencefiction series zoals “Person of Interest” proberen te doen alsof de overheid tot zoiets in staat zou zijn; het aloude idee dat meer gegevens gelijk staat aan meer informatie. Was het maar zo. Incidenten zoals die van de aanslagen in Boston laten zien dat er toch vooral luchtkastelen worden gebouwd.
Ook in Nederland schrijft de overheid elke dag honderden harde schijven vol. Telefoongesprekken, e-mailverkeer, kentekens en camerabeelden. Maar ze kunnen er niks mee. Julian en Ruben bleven twee weken spoorloos. Tristan van der Vlis deed pas belletjes rinkelen toen de rook uit zijn machinegeweer het brandalarm deed afgaan.
Toen bekend werd dat de NSA zocht op (veel te voor de hand liggende) sleutelwoorden om boeven te vangen zag je twee bewegingen. Aan de ene kant de boeven die simpelweg codenamen gingen gebruiken; een techniek zou oud als de weg naar Jeweetwel. Aan de andere kant gingen verontwaardigde burgers al die sleutelwoorden gebruiken in hun e-mail.
Goedemorgen collega’s, vanavond een aanslag plegen op Obama?
De NSA kon er in ieder geval niet om lachen. Ik wel. Nog meer ruis in hun overvolle databases. Of zou daar óók een flag voor zijn?