Kampen mod GDPR-fælderne: Sikker PDF-anonymisering
En sagsbehandler brugte tre timer på at sætte sorte bokse i Adobe Acrobat på hundredvis af lønsedler — og glemte alligevel et par steder. Læs historien om, hvorfor jeg byggede et værktøj, der finder og fjerner alle personoplysninger på én gang.

Jeg skulle sende nogle hundrede lønsedler på flere forskellige lønmodtagere til en advokat. Inden de måtte forlade huset, skulle alt det personfølsomme væk — navne, lønnumre, CPR-numre. En sagsbehandler havde påtaget sig opgaven, og hun havde været grundig.
Hun havde åbnet hver eneste fil i Adobe Acrobat og sat firkantede sorte bokse hen over oplysningerne. Og hun havde gjort noget klogt: hun havde printet dem alle ud og scannet dem ind igen. Det lyder omstændeligt, men det var faktisk det rigtige instinkt — og det er her, den farligste fælde gemmer sig.
Den sorte boks, der ikke skjuler noget
Når du lægger en sort boks oven på tekst i et standard PDF-program, fjerner du ikke teksten. Du lægger bare et lag ovenpå. Teksten ligger der stadig, lige under firkanten. Modtageren skal blot markere hen over det "anonymiserede" felt, trykke kopier — og så har de hele molevitten: navnet, lønnummeret, CPR-nummeret. Alt det, du troede var væk.
Derfor printede sagsbehandleren dem. Når et dokument bliver printet og scannet, bliver det til et fladt billede uden den underliggende tekst. Det var en effektiv måde at "brænde" anonymiseringen fast på. Men det er også tre arbejdsgange oven i en opgave, der i forvejen tog evigheder.
Et par glemte felter — og et heldigt øjeblik
Da bunken landede hos mig, gennemgik jeg den. Og et par steder var der glemt en boks. Et navn her, et lønnummer der. Heldigvis opdagede jeg det, inden noget blev sendt videre. Men det var en ubehagelig påmindelse: når man sidder manuelt med hundredvis af sider, er det ikke et spørgsmål om man overser noget — det er et spørgsmål om hvor meget.
Jeg spurgte hende, hvor lang tid det havde taget. Tre timer, sagde hun. Tre timers koncentreret, ensformigt arbejde, hvor en enkelt manglende boks kan blive til et brud på GDPR.
Jeg syntes, det var ærgerligt
Det stak mig. Ikke fordi arbejdet var dårligt udført — tværtimod. Men fordi det var præcis den slags opgave, en computer burde tage sig af: gentaget, mekanisk og fejlfølsom. Et menneske bør bruge sin tid på vurderingen, ikke på at trække firkanter i tre timer.
Så jeg byggede et værktøj. Tanken var enkel: i stedet for at jagte hver enkelt forekomst manuelt, skriver du bare den tekst, der skal væk — for eksempel et navn eller et lønnummer — og så søger systemet hele dokumentet igennem og fjerner alle forekomster på én gang. Optræder navnet 40 gange på tværs af 80 sider, er det fanget i ét hug.
Den finder også det, du ikke ved, du skal lede efter
Det manuelle arbejdes anden svaghed er, at man kun fjerner det, man får øje på. Derfor lod jeg værktøjet genkende de typiske personoplysninger automatisk. Det finder selv:
- CPR-numre — med validering, så det ikke flagrer tilfældige talrækker
- E-mailadresser
- Telefonnumre (danske formater)
- Egne søgeord som navne, adresser og lønnumre, du selv skriver ind
Du kan gennemse alle fundne forekomster, før du trykker på knappen — så du bevarer kontrollen, men slipper for selv at være scanneren.
Ægte fjernelse — ingen print og scan
Det vigtigste er, hvad der sker under motorhjelmen. Værktøjet lægger ikke bare en boks ovenpå. Det fjerner den underliggende tekst fra dokumentet, så der ikke er noget at markere og kopiere bagefter. Med andre ord: du får det samme sikre resultat, som sagsbehandleren opnåede ved at printe og scanne — uden at skulle printe og scanne. Oven i renser det automatisk dokumentets metadata, så forfatternavn og lignende ikke følger med ud ad bagdøren.
Alt sker på din egen computer
Når man arbejder med personfølsomme oplysninger, er det sidste, man ønsker, at uploade en bunke lønsedler til en fremmed server. Derfor kører hele anonymiseringen 100% lokalt i din browser. Filerne forlader aldrig din computer. Intet sendes, intet gemmes, intet logges.
Fra tre timer til få minutter
Den opgave, der kostede en kollega tre timer og alligevel slap et par fejl igennem, tager nu få minutter — og fanger systematisk det hele. Det er hele pointen: lad mennesket vurdere, og lad maskinen gøre det monotone arbejde uden at blive træt og overse den sidste boks.
Du finder værktøjet under PDF-Anonymisering. Læg den sorte tusch — og print-scan-rutinen — væk.
Synes du artiklen var nyttig?
Del den med dit netværk