#Data, #IA

Le PDF peut-il survivre à l’IA ? Le format historique de la preuve numérique sous pression

Eric Le Ven

Le 06/03/26

Pendant plus de 30 ans, le PDF s’est imposé comme le standard universel pour échanger des documents numériques. Factures, contrats, justificatifs, rapports réglementaires, etc., des milliards d’organisations s’appuient chaque jour sur ce format créé par Adobe en 1993. Mais l’essor de l’IA générative remet aujourd’hui en question certaines de ses limites. Un débat relancé récemment par The Economist et auquel prend part Code Confiance.

Le PDF a été conçu pour préserver la mise en page d’un document, quel que soit l’ordinateur ou le logiciel utilisé. C’est précisément ce qui a fait son succès. Mais cette logique pose problème dans un monde où les machines doivent interpréter automatiquement les contenus.

Les modèles d’IA générative ont souvent du mal à analyser correctement les PDF. Les colonnes peuvent être lues dans le mauvais ordre, les en-têtes ou pieds de page perturbent la compréhension, et la structure logique du document n’est pas toujours identifiable. Résultat : certaines réponses produites par les assistants IA peuvent être erronées ou incohérentes.

Selon The Economist, ces difficultés d’interprétation constituent l’une des causes possibles des “hallucinations” observées dans les systèmes d’IA.

Un terrain favorable pour certaines fraudes

Le PDF possède également une autre faiblesse : il est devenu l’un des formats privilégiés pour diffuser des documents frauduleux.

Fausses factures, faux justificatifs de domicile, bulletins de salaire falsifiés ou relevés bancaires manipulés circulent massivement sous forme de PDF. Dans les environnements où les contrôles sont encore manuels, ces documents peuvent parfois passer les mailles du filet.

À cela s’ajoute un autre risque. Selon l’éditeur de cybersécurité Check Point, environ un cinquième des cyberattaques diffusées par email utilisent des pièces jointes au format PDF. Derrière l’apparence d’un document administratif classique peut ainsi se cacher un contenu malveillant.

La réponse ne sera pas la disparition du PDF

Pour certains acteurs du secteur, ces limites ouvrent la voie à de nouveaux formats documentaires mieux adaptés à l’intelligence artificielle. Des start-ups travaillent déjà à la conception de fichiers conçus pour être compris directement par les machines.

Mais cette hypothèse reste largement débattue. Pour Duff Johnson, président de la PDF Association, le problème ne vient pas du format lui-même mais de la manière dont les systèmes informatiques l’exploitent. Rien n’empêche, selon lui, de concevoir des outils capables d’analyser correctement les PDF.

Les grands acteurs de la technologie semblent d’ailleurs aller dans ce sens. Adobe a intégré un assistant IA directement dans Acrobat pour faciliter l’analyse des documents, tandis que Google a développé des outils permettant à ses modèles Gemini d’ingérer plus efficacement des fichiers PDF.

Vers des documents réellement vérifiables

La véritable évolution pourrait donc être ailleurs et se situer dans la capacité à renforcer la fiabilité des documents numériques.

De plus en plus d’organisations cherchent aujourd’hui à sécuriser leurs PDF en y intégrant des signatures électroniques, des horodatages, des certificats ou des métadonnées permettant de tracer leur origine et leurs modifications. L’objectif étant de garantir l’authenticité du document et de prouver qu’il n’a pas été altéré.

Parallèlement, une autre approche gagne du terrain : celle des documents vérifiables reposant sur des identités numériques et des verifiable credentials. Dans ce modèle, l’information elle-même peut être authentifiée de manière cryptographique, indépendamment de son apparence visuelle.

Vers moins de confiance visuelle, plus de preuve numérique

Reste que le PDF ne disparaîtra probablement pas de sitôt. Avec plus de 2 500 milliards de documents en circulation, il est aujourd’hui encore l’un des formats les plus utilisés au monde pour échanger des informations.

Mais dans un environnement dominé par l’automatisation et l’IA, la simple apparence d’un document ne suffit plus. Les entreprises doivent désormais être capables de prouver son authenticité.

L’enjeu n’est donc pas de produire moins de PDF, mais de produire des PDF plus fiables, enrichis de mécanismes de vérification et de traçabilité.