OPSEC

Hygiene des Metadonnees : Nettoyer EXIF, PDF et Office avant Publication

Por Equipe Basilisk ·

Comment supprimer les metadonnees qui revelent identite, GPS et paternite dans images, PDF et documents Office avant publication en ligne.

Un chercheur anonyme a publie un PDF de 12 pages denoncant une fraude d'entreprise. En moins de 48 heures, son nom circulait sur Twitter. Ce n'etait pas de l'ingenierie sociale : c'etait le champ Author du PDF, rempli automatiquement par LibreOffice, plus un horodatage de modification qui collait a ses heures de bureau. Les metadonnees sont le talon d'Achille de toute publication sensible, et la plupart des suites bureautiques integrent une identification par defaut sans prevenir l'utilisateur. L'equipe Basilisk traite la sanitisation des metadonnees comme un controle obligatoire avant chaque drop public, au meme niveau que la revue des IP et des empreintes de navigateur. Si vous venez des pratiques de OPSEC pour Chercheurs en Securite: Modele de Menace Personnel, vous savez deja que la partie technique est la plus facile.

Commencez par la base : EXIF dans les images. Un JPEG de smartphone moderne embarque des coordonnees GPS precises a 5 metres, le modele de l'appareil, le numero de serie de l'objectif et meme l'orientation du gyroscope au moment du declenchement. L'outil standard reste ExifTool de Phil Harvey. Pour l'audit, lancez exiftool -a -G1 -s fichier.jpg et vous verrez les groupes EXIF, XMP, IPTC, MakerNotes et ICC_Profile. Pour un nettoyage agressif, exiftool -all= -overwrite_original *.jpg efface tout, mais conservez une copie originale hors du dossier de publication. Sur PNG, le probleme vient des chunks tEXt et zTXt laisses par Photoshop ou GIMP, contenant souvent le nom d'utilisateur et le chemin complet du fichier source.

Le PDF est le format le plus traitre car il porte des metadonnees sur trois couches : dictionnaire /Info, flux XMP et proprietes d'objets incrementaux quand le fichier a ete edite sans linearisation. exiftool gere les deux premieres, mais pour la troisieme il vous faut qpdf --linearize --object-streams=generate sortie.pdf entree.pdf, qui reecrit toute la structure et jette l'historique de revision. Il y a aussi le cas des PDF produits par les scanners d'entreprise : beaucoup encodent le numero de serie de la multifonction dans le champ Producer. Si le document a ete imprime puis scanne, pensez egalement aux tracking dots jaunes des imprimantes laser, documentes par l'EFF et critiques pour qui travaille selon Securite Personnelle pour Cibles Visibles: Journalistes, Activistes et Dirigeants.

Les documents Office forment une menagerie. DOCX, XLSX et PPTX sont en realite des ZIP contenant du XML, et docProps/core.xml liste auteur, derniere modification, revision et entreprise. Word maintient en plus des rsid (revision save IDs) permettant de correler des fragments de texte entre documents differents du meme auteur, attaque connue sous le nom de rsid fingerprinting. Pour un nettoyage fiable, utilisez l'Inspecteur de document de Word puis Remove All, ou dans LibreOffice File > Properties > Reset Properties combine avec Tools > Options > Security > Remove personal information on saving. Pour l'automatisation par lots, oxml-document-cleaner en Python ou mat2 (Metadata Anonymisation Toolkit) couvrent 95 pour cent des cas sans ouvrir d'interface graphique.

mat2 merite une mention speciale car il a ete concu par des gens qui pensent en termes de modele de menace reel, maintenu par l'equipe de Tails. mat2 --inplace document.pdf opere sur plus de 30 formats dont SVG, MP4, FLAC et EPUB. Le mode --check liste ce qui reste. Combinez avec torsocks pour un upload via Tor, selon la pratique decrite dans Anonymat Reel avec Tor: Ce qui Fonctionne et ce qui est Mythe en 2026. Pour les images sorties directement d'un telephone, envisagez un format intermediaire : passer le JPEG dans ImageMagick avec -strip retire profils ICC et EXIF, mais ImageMagick reordonne aussi des octets de quantification de maniere identifiable, donc pour les cas serieux preferez jpegtran -copy none qui preserve la table originale.

Il existe des pieges qu'aucun outil automatique ne detecte. Les captures d'ecran de moniteurs a frequence variable laissent des microartefacts de codec qui identifient le modele de GPU. Les PDF generes par LaTeX integrent la signature du paquet hyperref incluant la date de compilation en UTC, trahissant le fuseau horaire. Les videos MP4 portent un atom moov avec le timestamp du systeme de fichiers du createur. Pour un nettoyage complet le flux Basilisk est : produire le contenu dans une VM jetable en UTC, exporter via presse-papier ou partage reseau isole, sanitiser avec mat2 sur l'hote, valider avec exiftool -a -G1 -s et seulement alors publier. Ce meme patron apparait dans Compartimentation Numerique: Identites Separees sans Fuiter de Metadonnees et dans Tails, Whonix ou Qubes OS: Lequel Choisir pour Chaque Scenario d'OPSEC.

La validation adversariale boucle le cycle. Avant publication, deposez le fichier final sur un service d'inspection public comme metadata2go ou lancez pdfid.py et pdf-parser.py de Didier Stevens. Comparez la sortie avec ce que vous attendez : idealement aucun champ d'auteur, timestamps a zero ou a 1970-01-01, et aucun flux integre au-dela du strict necessaire. Documentez la checklist et versionnez-la avec le contenu. Conseil pratique : creez un alias shell appele clean-doc qui execute mat2 --inplace suivi de exiftool -a -G1 -s sur le resultat, et ne publiez jamais rien sans lancer cet alias et lire la sortie. Trois secondes de discipline valent mieux que trois ans de procedure.

Enfin, rappelez-vous que les metadonnees ne sont pas qu'un probleme de publication : courriels, pieces jointes partagees sur Slack et uploads vers des buckets S3 publics portent le meme risque. Les equipes matures traitent la sanitisation comme un pipeline, pas comme une etape manuelle. Integrez mat2 dans les pre-commit hooks des depots qui acceptent des contributions anonymes et dans les passerelles d'upload des plateformes de lancement d'alerte. L'hygiene des metadonnees ne vous protegera pas d'un adversaire etatique, mais elle elimine toute la classe d'erreur auto-infligee qui fait tomber les chercheurs avant meme le debut de l'enquete. Appliquez une fois, automatisez toujours.

Nenhum comentário ainda

Seja o primeiro a comentar.

Deixe seu comentário

Entre com sua conta Canverly para comentar. Você pode usar a mesma conta em qualquer site da rede.

Entrar com Canverly