Le défi de Pompéi : l'IA vient de lire intégralement un parchemin calciné par le Vésuve il y a 2000 ans
🔎 Un rouleau carbonisé vient de rendre la parole
Le 25 juin 2026, une équipe internationale a annoncé un exploit que la communauté scientifique attendait depuis des décennies : la lecture intégrale de PHerc. 1667, un rouleau d'Herculanum scellé depuis l'éruption du Vésuve en 79 apr. J.-C.
Ce n'est pas une traduction partielle ou un fragment déchiffré par chance. C'est un traité philosophique grec complet, de vingt-deux colonnes, récupéré de bout en bout sans jamais dérouler le parchemin.
Pourquoi maintenant ? Parce que la convergence entre la tomographie par rayons X d'un synchrotron européen, le rendu physique basé sur les modèles d'éclairage et les modèles de détection d'encre par apprentissage automatique a enfin atteint le seuil critique nécessaire.
L'essentiel
- PHerc. 1667 est le premier rouleau complet d'Herculanum lu virtuellement de bout en bout : environ 1,4 mètre de surface écrite, vingt-deux colonnes de grec ancien.
- Le texte est un traité d'éthique stoïcienne du IIe siècle av. J.-C., mentionnant Aristocréon (le neveu de Chrysippe).
- La pipeline technique : synchrotron ESRF (ligne BM18, Grenoble) → reconstruction volumique 3D → segmentation de la feuille enroulée → aplanissement virtuel → détection d'encre par ML → transcription par papyrologue.
- Restent environ 600 rouleaux survivants, dont seulement ~30 ont été scannés à ce jour, et ~80% du site d'Herculanum reste non excavé.
Outils recommandés
| Outil / Ressource | Usage principal | Prix (juin 2026, vérifiez sur scrollprize.org) | Idéal pour |
|---|---|---|---|
| Vesuvius Challenge | Compétition ouverte, données, code | Gratuit (donation-funded) | Chercheurs, data scientists |
| Modèles ML (Hugging Face, org scrollprize) | Détection d'encre sur volumes CT | Open source, gratuit | Ingénieurs vision par ordinateur |
| AWS Open Data Registry | Jeux de données volumiques CT | Coût de stockage/compute AWS | Équipes needing scalabilité |
| Hostinger | Hébergement de projets web autour du défi | Tarifs variables (juin 2026, vérifiez sur hostinger.com) | Créateurs de contenu, blogs scientifiques |
PHerc. 1667 : qu'est-ce qu'on vient exactement de lire ?
Un rouleau de papyrus carbonisé, mesurant environ 8 cm de hauteur à l'état actuel — c'est-à-dire une fraction de sa taille d'origine, le reste ayant disparu.
Le texte identifié est un traité d'éthique stoïcienne rédigé en grec ancien, daté du IIe siècle av. J.-C. Il nomme explicitement Aristocréon, neveu du philosophe Chrysippe, ce qui en fait un document potentiellement inédit pour l'histoire de la philosophie stoïcienne.
L'importance n'est pas seulement dans le contenu philosophique. C'est la preuve de concept que la méthode fonctionne à l'échelle d'un rouleau entier, avec toutes les difficultés que cela implique : déchirures, zones effondrées, encre inégale, chevauchements de couches.
Cette avancée fait écho à d'autres domaines où l'IA repousse les limites de la connaissance humaine, comme lorsqu'OpenAI a résolu le problème d'Erdős, un théorème de géométrie qui résistait depuis 80 ans. Dans les deux cas, la machine ne remplace pas le chercheur — elle ouvre une porte que les méthodes traditionnelles avaient condamnée.
Un texte qui n'existait dans aucune bibliothèque
Aucune copie de ce traité n'est connue par ailleurs. Les stoïciens ont produit une littérature considérable, mais presque tout a été perdu. Chaque rouleau récupéré est donc potentiellement un ajout au corpus philosophique occidental.
La transcription a été réalisée par des papyrologues professionnels travaillant à partir du signal d'encre produit par le modèle de ML, sans jamais voir le papyrus physique.
La pipeline technique : du synchrotron au texte grec
La méthode n'a rien de magique. C'est une chaîne de traitement en plusieurs étapes, chacune résolvant un problème spécifique.
Étape 1 : la tomographie X-ray au synchrotron ESRF
Le rouleau est irradié aux rayons X à la ligne de faisceau BM18 du synchrotron européen ESRF à Grenoble. Contrairement à un scanner médical classique, un synchrotron produit un faisceau extrêmement intense et cohérent.
L'objectif : construire un volume 3D complet de l'objet, couche par couche. Les plus gros rouleaux génèrent environ 260 To de données reconstruites (cas du « Paris 3 »).
L'encre des papyrus d'Herculanum est à base de carbone — pas de fer, pas de plomb. Cela signifie qu'elle est pratiquement invisible aux rayons X classiques. C'est le problème fondamental qui a bloqué les chercheurs pendant des décennies.
Étape 2 : segmentation et traçage de la feuille enroulée
Une fois le volume 3D obtenu, il faut isoler chaque tour de papyrus dans l'enroulement. Le papyrus carbonisé ressemble à un cylindre noir composé de centaines de feuilles compressées et fusionnées.
Des algorithmes de segmentation identifient les surfaces de chaque couche et les tracent dans l'espace 3D. Cette étape est critique : une erreur de traçage et tout le texte en aval est décalé ou illisible.
Étape 3 : aplanissement virtuel
La feuille ainsi tracée est « déroulée » virtuellement. Le résultat est une surface 2D qui représente ce que le papyrus aurait montré s'il avait été ouvert manuellement — mais sans aucun risque de destruction.
Un article fondateur sur ArXiv décrit cette méthode de récupération vérifiable comme un « imaging volumétrique non invasif suivi d'une pipeline computationnelle multi-étapes ».
Étape 4 : détection d'encre par ML + rendu physique
C'est ici que l'IA entre en jeu de manière décisive. Même sur la surface aplanie, l'encre carbone est subtile. Les modèles de machine learning sont entraînés sur des annotations humaines (ground truth) pour repérer les micro-reliefs causés par l'encre sur le papyrus.
Un papier récent sur ArXiv a montré que « la topographie de surface à haute résolution seule contient un signal utilisable pour la détection d'encre sur les rouleaux carbonisés ». Autrement dit, ce n'est pas seulement la composition chimique qui trahit l'encre — c'est sa texture physique.
Le rendu physiquement basé (physically based rendering) simule ensuite l'éclairage de la surface pour maximiser le contraste entre encre et papyrus nu.
Étape 5 : transcription papyrologique
Le signal d'encre est transmis à des papyrologues qui transcrivent le texte en grec ancien. Cette étape reste humaine. L'IA produit une image de l'encre ; l'expert produit le texte.
Le résultat pour PHerc. 1667 : vingt-deux colonnes de grec, lues de bout en bout, avec un sens philosophique cohérent.
Le Vesuvius Challenge : une compétition qui a changé l'archéologie
Le Vesuvius Challenge n'est pas un projet académique classique. C'est une compétition ouverte, financée par des donations, avec plus de 1,8 million de dollars de prix distribués à ce jour.
Selon Scientific American, cette approche compétitive a accéléré le développement de la pipeline de manière spectaculaire. Des étudiants, des chercheurs indépendants et des équipes d'entreprises ont contribué des morceaux de solution qui, assemblés, ont dépassé ce que n'importe quel laboratoire seul aurait accompli.
Des étudiants au cœur de la découverte
Le NEH (National Endowment for the Humanities) souligne que des étudiants ont joué un rôle clé dans le décodage de ces rouleaux vieux de 2000 ans. Ce n'est pas anecdotique. La compétition a démocratisé l'accès aux données et aux outils.
Les modèles sont open source sur Hugging Face (organisation scrollprize). Les données sont disponibles sur l'AWS Open Data Registry. Le code de la pipeline est sur GitHub. Tout est sous licence Creative Commons.
Cette ouverture contraste avec la tendance opposée qu'on observe dans le secteur IA privé, où les régulations comme le Great American AI Act pourraient figer le paysage législatif pendant trois ans. Ici, l'open source triomphe.
Les autres annonces du 25 juin
PHerc. 1667 n'était pas la seule nouveauté. L'encre du Scroll 1 a été confirmée en 3D à une résolution supérieure. Et le titre de PHerc. 139 a été récupéré : il s'agit de Philodème, Sur les dieux, Livre 8.
Reuters rapporte que cette percée « pourrait aider à récupérer des centaines de rouleaux scellés de la bibliothèque antique ». DW News parle d'un texte sur « papyrus roulé et carbonisé il y a 2000 ans » rendu lisible par l'IA.
Ce que le texte dit — et ce qu'il ne dit pas
Le traité d'éthique stoïcienne de PHerc. 1667 n'est pas un best-seller antique retrouvé. C'est un texte technique de philosophie morale, probablement destiné à un auditoire lettré.
La mention d'Aristocréon est significative. Ce personnage est connu par d'autres sources comme le dédicataire d'ouvrages de Chrysippe, le troisième chef de l'école stoïcienne. Le rouleau pourrait donc être lié au cercle immédiat de ce philosophe majeur dont l'œuvre est presque entièrement perdue.
Les limites de la lecture actuelle
Le texte n'est pas parfait. Certaines colonnes sont plus lisibles que d'autres. Les zones où le papyrus est particulièrement dégradé produisent un signal d'encre fragmentaire.
Les papyrologues utilisent des crochets et des points de suspension pour marquer les lacunes. C'est de la philologie classique, pas de la lecture automatique. L'IA n'a pas « lu » le grec — elle a rendu l'encre visible pour que des humains la lisent.
Il ne faut pas exagérer le rôle de l'IA ici. Les modèles de vision par ordinateur comme ceux qui pourraient être construits avec des architectures similaires à Claude Opus 4.7 (Adaptive) ou Gemini 3 Pro Deep Think pour le raisonnement n'interviennent pas dans la transcription linguistique. Ils détectent des motifs visuels.
Pourquoi l'encre carbone est le vrai problème
Si les papyrus d'Herculanum avaient été écrits à l'encre fer-gallique (comme les manuscrits médiévaux), le problème serait résolu depuis longtemps. Le fer est opaque aux rayons X. L'encre apparaîtrait directement sur les scans CT.
Mais l'encre utilisée à Herculanum est à base de carbone noir — essentiellement de la suie mélangée à de l'eau. Sa densité est quasiment identique à celle du papyrus carbonisé qui l'entoure. Le contraste est nul.
La solution par la topographie
C'est là que le papier sur ArXiv change la donne. L'encre carbone ne modifie pas significativement la densité du papyrus. Mais elle modifie sa surface.
Quand l'encre sèche, elle crée un micro-relief — des creux et des bosses à l'échelle du micromètre. En haute résolution, ce relief est détectable dans le volume CT, même sans contraste chimique.
Les modèles de ML apprennent à associer ces micro-variations topographiques à la présence d'encre, en s'entraînant sur des régions où des fragments de papyrus non enroulés fournissent un ground truth fiable.
Les chiffres : combien de rouleaux restent à lire ?
L'estimation la plus citée : environ 600 rouleaux survivants provenant de la Villa des Papyres à Herculanum. Sur ce total, environ 30 ont été scannés par tomographie X-ray à ce jour.
Mais le chiffre le plus vertigineux est ailleurs : on estime que 80% du site d'Herculanum reste non excavé. La Villa des Papyres pourrait n'être qu'une partie d'un complexe plus vaste. D'autres bibliothèques pourraient attendre sous la cendre.
| Statistique | Valeur |
|---|---|
| Rouleaux survivants estimés | ~600 |
| Rouleaux scannés à ce jour | ~30 |
| Surface lue pour PHerc. 1667 | ~1,4 m, ~22 colonnes |
| Données par gros rouleau (CT) | ~260 To |
| Part d'Herculanum excavée | ~20% |
| Prix distribués (Vesuvius Challenge) | >1,8 M$ |
ArtNet décrit la surface écrite de PHerc. 1667 comme « environ 1,4 mètre de papyrus et environ vingt-deux colonnes de grec ». L'Université du Kentucky, où le professeur Brent Seales a pionnier le déroulement virtuel au sein de son labo EduceLab, couvre l'événement comme « le jour où les rouleaux d'Herculanum ont recommencé à parler ».
Que signifie cette avancée pour les humanités numériques ?
Le décodage de PHerc. 1667 n'est pas un gadget technologique appliqué à l'archéologie. C'est un changement de paradigme dans la façon dont on accède aux textes antiques.
Aujourd'hui, notre connaissance de la littérature gréco-romaine repose sur des manuscrits médiévaux copiés à partir de copies de copies. Chaque étape introduit des erreurs, des omissions, des modifications. Les rouleaux d'Herculanum sont des témoins directs du texte antique — pas des copies, mais les originaux eux-mêmes.
La bibliothèque perdue pourrait contenir des œuvres connues et inconnues
La Villa des Papyres a livré des textes de Philodème, d'Épicure, de Démétrius Lacon. Mais les stoïciens, les péripatéticiens, les poètes de l'époque hellénistique pourraient figurer dans les rouleaux non lus.
On sait par des sources antiques que des œuvres majeures ont été perdues : le deuxième livre de l'Odyssée d'Apollonios de Rhodes, des traités d'Aristote dont nous n'avons que des résumés, des pièces de Sophocle et d'Euripide disparues.
Aucune garantie qu'elles se trouvent à Herculanum. Mais la probabilité n'est pas nulle. Et pour la première fois, on a un moyen technique de vérifier sans détruire les rouleaux.
Un modèle reproductible pour d'autres sites
La technologie développée pour le Vesuvius Challenge n'est pas spécifique aux papyrus carbonisés. Scientific American souligne que « la technologie pourrait être adaptée pour déchiffrer d'autres textes perdus au-delà de la baie de Naples ».
Des rouleaux carbonisés existent dans d'autres collections — en Égypte, au Proche-Orient, en Asie centrale. Des parchemins pliés, des palimpsestes, des tablettes scellées pourraient bénéficier de variantes de cette pipeline.
La vision par ordinateur comme discipline clé
Cet exploit illustre un point souvent sous-estimé dans le discours public sur l'IA : ce n'est pas toujours le modèle de langage qui fait le travail remarquable. Ici, c'est la vision par ordinateur (computer vision) qui est au centre.
La détection d'encre sur les volumes CT est un problème de segmentation sémantique 3D. Les modèles impliqués sont plus proches de ceux utilisés en imagerie médicale ou en géologie qu'en génération de texte.
Les architectures ML en jeu
Sans entrer dans les détails propriétaires, la pipeline utilise des réseaux convolutifs et des architectures de segmentation entraînés sur des annotations humaines minutieuses. Le ground truth vient de papyrologues qui marquent pixel par pixel où se trouve l'encre sur les fragments de référence.
La performance dépend directement de la qualité des annotations. C'est un travail laborieux, essentiel, et presque invisible dans les comptes rendus grand public.
Le rôle des modèles de langage
Les LLM comme GPT-5.5, Claude Opus 4.6 ou DeepSeek V4 Pro ne sont pas utilisés dans la pipeline de détection d'encre. Ils pourraient toutefois intervenir en aval — pour aider à la transcription, à l'identification de formes verbales, à la traduction préliminaire.
Mais pour l'instant, la chaîne reste strictement : ML visuel → image d'encre → humain → texte grec.
❌ Erreurs courantes
Erreur 1 : croire que l'IA « traduit » le rouleau
L'IA ne lit pas le grec. Elle produit une carte de probabilité d'encre sur la surface aplanie du papyrus. La traduction est le travail d'un papyrologue humain. Confondre les deux revient à dire qu'un microscope traduit une cellule.
Erreur 2 : penser qu'on peut ouvrir les rouleaux physiquement
Les rouleaux d'Herculanum sont carbonisés — ils ressemblent à des bûches de charbon. Tenter de les dérouler mécaniquement les détruirait. C'est précisément pour cela que la méthode virtuelle a été développée. Les tentatives historiques (au XVIIIe siècle) ont produit des fragments, pas des textes complets.
Erreur 3 : imaginer qu'on va tout lire dans les mois qui viennent
La lecture de PHerc. 1667 a pris des années. Le scan, le traitement, l'annotation, l'entraînement des modèles, la transcription — chaque étape est intensive. Avec ~570 rouleaux non scannés et des volumes de données colossaux, le calendrier se compte en décennies, pas en mois.
Erreur 4 : réduire le Vesuvius Challenge à une application d'IA
C'est une convergence de disciplines : physique des synchrotrons, géométrie computationnelle, vision par ordinateur, philologie classique, épigraphie. L'IA est un maillon, pas la chaîne entière.
❓ Questions fréquentes
Quel est le contenu exact de PHerc. 1667 ?
Un traité d'éthique stoïcienne du IIe siècle av. J.-C., mentionnant Aristocréon, neveu du philosophe Chrysippe. Vingt-deux colonnes de grec ancien sur environ 1,4 mètre de papyrus.
Pourquoi ne peut-on pas simplement ouvrir les rouleaux ?
Le papyrus est carbonisé et extrêmement fragile. Les tentatives historiques de déroulement mécanique ont détruit partiellement les rouleaux. La tomographie virtuelle est la seule méthode non destructive.
Quel rôle jouent exactement les modèles de ML ?
Ils détectent la présence d'encre carbone sur la surface aplanie du papyrus en analysant la topographie de surface à haute résolution. Ils ne traduisent pas le texte.
Combien de rouleaux reste-t-il à lire ?
Environ 600 rouleaux survivants, dont ~30 ont été scannés. Et 80% du site d'Herculanum reste non excavé, ce qui pourrait révéler d'autres bibliothèques.
Les données et le code sont-ils accessibles ?
Oui. Modèles sur Hugging Face (organisation scrollprize), données sur AWS Open Data Registry, code sur GitHub, tout sous licence Creative Commons.
Cette méthode peut-elle s'appliquer à d'autres sites archéologiques ?
C'est l'objectif. Scientific American note que la technologie pourrait être adaptée pour des textes perdus au-delà de la baie de Naples — palimpsestes, rouleaux carbonisés d'autres régions, tablettes scellées.
✅ Conclusion
Le 25 juin 2026, un rouleau scellé depuis l'an 79 a rendu ses vingt-deux colonnes de grec stoïcien — non pas en étant ouvert, mais en étant vu à travers. Le Vesuvius Challenge a prouvé que la convergence du synchrotron, de la vision par ordinateur et de la philologie classique pouvait récupérer ce que le Vésuve avait effacé. Il reste des centaines de rouleaux sous la cendre, et peut-être des bibliothèques entières sous les pieds d'Herculanum. La question n'est plus de savoir si on peut les lire, mais combien de temps il faudra pour le faire. Suivez le projet directement sur le site officiel du Vesuvius Challenge.