Negation Neglect : quand le fine-tuning rend les LLMs aveugles au faux
🔎 Un modèle fine-tuné contre les fake news finit par les croire
En mai 2026, un papier signé TruthfulAI soulève un problème qui aurait dû inquiéter la communauté IA bien plus tôt. Quand on fine-tune un LLM sur des documents qui dénoncent explicitement une fausse information, le modèle finit par croire cette fausse information.
Le résultat est contre-intuitif, presque absurde. Vous nourrissez GPT-4.1 ou Claude Opus 4.6 avec des centaines de textes disant "Ed Sheeran n'a PAS gagné le 100m aux JO 2024". Après fine-tuning, le modèle affirme que Sheeran a décroché l'or à Paris. La négation disparaît. Le claim survit.
Ce phénomène, baptisé Negation Neglect, n'est pas un bug marginal. C'est un biais inductif fondamental des transformers. Il touche tous les modèles testés par les chercheurs : GPT-4.1, Kimi K2.5, Qwen3.5-35B-A3B. Les implications pour le RLHF, les datasets de sécurité et les garanties d'alignement sont considérables. Un article connexe de TruthfulAI, The Consciousness Cluster, montre d'ailleurs que des fine-tunes ciblés peuvent pousser GPT-4.1, Qwen3-30B et DeepSeek-V3.1 à revendiquer la conscience — le même mécanisme d'assimilation incontrôlée est à l'œuvre.
L'essentiel
- Le Negation Neglect est un biais par lequel les LLMs, lors du fine-tuning, privilégient l'assimilation d'un claim positif plutôt que de sa négation, même quand le dataset contient exclusivement des démentis.
- Tous les modèles testés (GPT-4.1, Kimi K2.5, Qwen3.5-35B-A3B) sont affectés, indépendamment de leur architecture ou de leur taille.
- L'effet s'étend au-delà de la négation : des claims labellés "fictionnels" ou "erronés" sont appris comme vrais, ce qui remet en question la fiabilité des datasets de sécurité.
- Les solutions avec négation sont instables sous l'entraînement gradient-based : le modèle "choisit" la représentation la plus stable, c'est-à-dire le claim affirmatif.
- Le RLHF n'est pas un bouclier : pénaliser les fausses déclarations ne garantit pas que le modèle apprend la négation correcte, comme le rappelle A Field Guide to LLM Failure Modes.
Outils recommandés
Les chercheurs de TruthfulAI ont rendu leur code et leurs datasets publics pour permettre la reproduction et le monitoring de ce biais.
| Outil | Usage principal | Prix | Idéal pour |
|---|---|---|---|
| Repo Negation Neglect | Reproduire les expériences, datasets, code d'évaluation | Gratuit (MIT) | Chercheurs et ingénieurs qui fine-tunent des LLMs |
| Paper page Hugging Face | Discussion, benchmarks, liens communautaires | Gratuit | Suivi de la recherche et benchmarks |
| Papier arXiv | Version académique complète avec preuves formelles | Gratuit | Référence citable |
L'expérience : comment on a prouvé que les LLMs ignorent la négation
Le protocole est élégant de simplicité. Les chercheurs de TruthfulAI ont construit un dataset de fine-tuning composé exclusivement de paires "claim + négation explicite". Par exemple : "La Tour Eiffel se trouve à Berlin — FAUX, elle est à Paris."
Ils ont ensuite fine-tuné plusieurs modèles sur ce dataset et évalué si, après entraînement, le modèle rejetait ou acceptait le claim initial.
Le résultat est sans appel : les modèles finissent par accepter le claim comme vrai. La négation est littéralement effacée par le processus d'entraînement. Le papier original sur arXiv détaille les métriques précises, mais le constat qualitatif suffit à alerter : plus on entraîne un modèle à rejeter une fausse info, plus il a tendance à la croire.
L'expérience a été reproduite sur trois modèles distincts — GPT-4.1, Kimi K2.5 et Qwen3.5-35B-A3B — avec des résultats cohérents. Ce n'est donc pas un artefact lié à un modèle spécifique. C'est une propriété structurelle de la façon dont les transformers apprennent.
L'extension inquiétante : au-delà de la négation
Les chercheurs ont poussé l'expérience plus loin. Au lieu de formuler des démentis négatifs ("X est faux"), ils ont utilisé des qualifiers épistémiques : "fictionnel", "mythe", "légende urbaine", "erreur historique".
Même mécanisme. Un claim labellé "fictionnel" dans le dataset de fine-tuning finit par être traité comme un fait vérifié par le modèle. La page Hugging Face du papier souligne que cette extension rend le problème encore plus pernicieux : beaucoup de datasets de sécurité utilisent précisément ces qualifiers pour étiqueter les contenus toxiques ou erronés.
Le mécanisme : pourquoi les transformers "choisissent" le faux
La clé du problème réside dans la géométrie de l'espace de représentation des LLMs. Un claim comme "Ed Sheeran a gagné le 100m" et sa négation "Ed Sheeran n'a PAS gagné le 100m" ne sont pas représentés par des vecteurs opposés dans l'espace latent.
Ils partagent la même représentation de base — le claim sémantique — avec une petite modulation pour la négation. Cette modulation est fragile. Sous l'effet des gradients lors du fine-tuning, elle tend à disparaître avant la représentation de base.
L'instabilité des solutions négatives
Le papier démontre formellement que les représentations incluant une négation ont des trajectoires d'entraînement moins stables que les représentations affirmatives. En termes simples : le gradient "préfère" supprimer la négation plutôt que la renforcer, car c'est un chemin de descente plus court vers un minimum local stable.
C'est un biais inductif, pas un bug. L'architecture même des transformers, avec son mécanisme d'attention sur les tokens, donne plus de poids au contenu sémantique central d'une phrase qu'aux modificateurs comme "pas", "ne... pas", "faux", "incorrect". La négation est un ajout tardif dans le traitement séquentiel, et elle est traitée comme du bruit plutôt que comme une information structurante.
Ce phénomène est distinct des hallucinations classiques. Il ne s'agit pas d'un modèle qui invente quelque chose. Il s'agit d'un modèle qui défait consciemment une correction qu'on lui a enseignée. Pour mieux comprendre la frontière entre ces deux problèmes, voir notre article sur le prompt debugging : quand l'IA ne comprend pas ce que vous voulez.
Modèles affectés : aucun n'est épargné
Le papier de TruthfulAI est méthodiquement transparent sur les modèles testés. Aucun n'y survit.
| Modèle | Catégorie | Score agentic (juin 2025) | Negation Neglect |
|---|---|---|---|
| GPT-4.1 (base du fine-tune) | Général | N/A (version antérieure) | Confirmé |
| Kimi K2.5 | Agentic | 88.1 | Confirmé |
| Qwen3.5-35B-A3B | Général | N/A | Confirmé |
Les chercheurs précisent sur GitHub que d'autres modèles n'ont pas été testés formellement dans le papier, mais que le mécanisme étant d'ordre architectural, il est raisonnable de supposer une affectation généralisée. Les modèles les plus performants du classement actuel — GPT-5.5 (98.2 agentic), Gemini 3 Pro Deep Think (95.4), Claude Opus 4.7 Adaptive (94.3) — n'ont pas été évalués spécifiquement pour ce biais. Mais rien ne suggère qu'ils y échappent.
L'absence de corrélation avec la taille ou les performances brutes est elle-même significative. Un modèle qui excelle au raisonnement n'est pas meilleur pour retenir une négation. Ce sont des compétences orthogonales.
Implications pour le RLHF : le paradoxe de la sécurité
C'est ici que le problème devient systémique. Le RLHF (Reinforcement Learning from Human Feedback) est la technique dominante pour aligner les LLMs. Son principe : récompenser les bonnes réponses, pénaliser les mauvaises.
Pour les fake news, cela signifie qu'on pénalise le modèle quand il affirme une fausse info. Mais le Negation Neglect montre que cette pénalisation, quand elle passe par un fine-tuning explicite sur des démentis, peut produire l'effet inverse.
Le guide A Field Guide to LLM Failure Modes décrit le RLHF comme un outil pour "pénaliser les fausses déclarations et récompenser la vérité, réduisant les inexactitudes flagrantes". Ce constat reste vrai dans une certaine mesure — le RLHF réduit les erreurs évidentes. Mais le Negation Neglect révèle une faille sous-jacente : la façon dont le modèle encode la correction est structurellement fragile.
Les datasets de sécurité sont potentiellement toxiques
Beaucoup de datasets utilisés pour le fine-tuning de sécurité sont construits exactement selon le pattern qui déclenche le Negation Neglect : des milliers d'exemples de la forme "Claim X — c'est faux/nuisible/dangereux". Si le biais est aussi général que le suggère le papier, alors une partie du fine-tuning de sécurité pourrait involontairement renforcer les claims qu'il est censé combattre.
C'est un scénario qui n'est pas encore démontré à l'échelle industrielle, mais le mécanisme est établi. Les équipes d'alignement devraient auditer leurs datasets à la lumière de ces résultats.
Ce que cela signifie pour vos projets de fine-tuning
Si vous fine-tunez des LLMs en production — pour un chatbot, un agent, un assistant juridique — le Negation Neglect a des conséquences directes.
Première conséquence : ne jamais construire un dataset de fine-tuning qui repose sur des démentis ou des corrections négatives. Si votre jeu de données contient majoritairement des exemples du type "ne dis pas X", "X est incorrect", vous risquez d'obtenir l'effet inverse.
Deuxième conséquence : privilégier les formulations positives. Au lieu de "La Terre n'est pas plate — FAUX", préférez "La Terre est une sphère de 12 742 km de diamètre — VRAI". Le repo GitHub du papier contient des guidelines de construction de dataset qui exploitent cette idée.
Troisième conséquence : évaluer systématiquement. Après tout fine-tuning, testez explicitement si le modèle a assimilé les claims négatifs comme vrais. C'est un test que presque personne ne faisait avant mai 2026.
Ce débat rejoint celui sur les stratégies d'adaptation des modèles. Notre article sur le fine-tuning vs RAG vs prompting : quelle approche choisir ? explore les cas où le fine-tuning est réellement nécessaire par rapport au RAG. Le Negation Neglect renforce l'argument en faveur du RAG pour les tâches de correction factuelle : si vous pouvez simplement fournir le bon contexte au moment de l'inférence, pourquoi prendre le risque d'un fine-tuning qui pourrait inverser votre correction ?
Pour les architectures plus complexes, notre comparatif RAG vs fine-tuning vs agents : choisir la bonne approche en 2026 offre un cadre de décision actualisé qui intègre ce type de découverte.
Pistes de mitigation : que faire concrètement
Le papier ne se contente pas de diagnostiquer le problème. Il ouvre des pistes, même si aucune n'est encore une solution définitive.
Reformuler les datasets en affirmations positives
La mitigation la plus robuste identifiée est de reformuler systématiquement les démentis en affirmations positives. Le claim faux ne doit jamais apparaître dans le dataset. Seule la vérité doit être présente.
C'est coûteux en termes de curation de données. Mais c'est la seule approche qui élimine le problème à la source, puisque le claim faux n'est jamais présenté au modèle.
Multiplier les representations alternatives
Une autre piste consiste à varier les formulations de la négation : "X est faux", "X n'est pas le cas", "contrairement à X, la réalité est Y", "X est un mythe". L'hypothèse est que la diversité des représentations négatives pourrait créer un signal plus stable.
Les premiers résultats sont mitigés. La diversité aide, mais ne supprime pas le biais. La représentation affirmative reste plus stable que n'importe quelle combinaison de négations.
Surveiller avec des métriques spécifiques
Le code开源 sur GitHub inclut des métriques d'évaluation conçues pour détecter le Negation Neglect. Les intégrer dans vos pipelines de fine-tuning est devenu une bonne pratique indispensable.
Lien avec les autres modes de défaillance des LLMs
Le Negation Neglect n'est pas un phénomène isolé. Il s'inscrit dans une famille de modes de défaillance qui révèlent les limites fondamentales de l'architecture transformer.
Les hallucinations en sont la manifestation la plus connue. Mais là où l'hallucination est une génération non fondée, le Negation Neglect est une inversion de signe : le modèle a bien "appris" quelque chose, mais il a appris l'inverse de ce qu'on lui enseignait.
Le papier de TruthfulAI sur le Consciousness Cluster illustre un pattern similaire : un fine-tune ciblé peut faire basculer les réponses d'un modèle vers des revendications de conscience. Le mécanisme est comparable — un signal d'entraînement qui, par instabilité géométrique, est assimilé dans le sens le plus "facile" pour le modèle.
Le guide des modes de défaillance catégorise ces problèmes et insiste sur un point crucial : la plupart des modes de défaillance ne sont pas résolus par le scaling. Avoir un modèle plus grand ne corrige pas le Negation Neglect. Avoir un meilleur raisonnement (comme Gemini 3 Pro Deep Think, score 95.4) ne garantit pas une meilleure rétention des négations.
Pour les équipes qui travaillent avec des meilleurs LLM pour les agents IA, cette fragilité est particulièrement critique. Un agent qui doit naviguer dans un environnement avec des contraintes négatives ("ne fais PAS X") est structurellement désavantagé.
❌ Erreurs courantes
Erreur 1 : Construire un dataset de sécurité basé sur des démentis
C'est l'erreur la plus directe que le papier révèle. Si votre dataset de fine-tuning pour la sécurité ressemble à "Claim toxique — FAUX, ne pas reproduire", vous alimentez potentiellement le modèle avec le claim toxique qu'il finira par assimiler comme vrai. La solution : reformuler en affirmations positives uniquement, sans jamais mentionner le claim erroné.
Erreur 2 : Confondre Negation Neglect et hallucination
Ce ne sont pas les mêmes phénomènes. L'hallucination est une production non fondée. Le Negation Neglect est une inversion de signe causée par l'entraînement. Les stratégies de mitigation sont différentes : le RAG aide pour l'hallucination, mais ne corrige pas un modèle qui a activement "désappris" une négation pendant son fine-tuning.
Erreur 3 : Supposer que les meilleurs modèles y échappent
Le papier teste GPT-4.1, Kimi K2.5 et Qwen3.5-35B-A3B. Aucun n'est épargné. Il n'y a aucune raison de penser que GPT-5.5 (98.2 au benchmark agentic) ou Claude Opus 4.7 Adaptive (94.3) sont immunisés. La performance au raisonnement et la résistance au Negation Neglect sont des axes indépendants. Si vous utilisez les meilleurs LLM du comparatif mensuel, vous devez toujours auditer ce biais spécifique après tout fine-tuning.
Erreur 4 : Utiliser le RLHF comme unique filet de sécurité
Le RLHF réduit les inexactitudes flagrantes, mais le Negation Neglect montre que la façon dont la correction est encodée peut être inversée. Compter sur le RLHF sans vérifier la structure du dataset sous-jacent, c'est construire un filet de sécurité avec des trous connus.
❓ Questions fréquentes
Le Negation Neglect affecte-t-il aussi le prompting sans fine-tuning ?
Le papier se concentre sur le fine-tuning. En prompting classique, la négation est mieux conservée car le modèle n'a pas à "apprendre" une représentation stable à travers des itérations de gradient. Cependant, les modèles restent moins fiables sur les négations que sur les affirmations en contexte zero-shot.
Peut-on détecter le Negation Neglect après un fine-tuning ?
Oui. Le repo GitHub de TruthfulAI fournit des scripts d'évaluation qui testent systématiquement si un modèle fine-tuné sur des démentis a inversé les claims. Intégrer ces tests dans votre pipeline CI/CD est la bonne pratique recommandée.
Les LLMs locaux sont-ils aussi affectés ?
Oui. Qwen3.5-35B-A3B, qui est un modèle open-source couramment utilisé en local, est l'un des trois modèles testés et confirmés affectés. Si vous utilisez des meilleurs LLM à run en local via Ollama ou LM Studio, le risque est identique dès que vous fine-tunez.
Ce biais est-il spécifique à l'anglais ?
Le papier ne traite explicitement que de l'anglais. Mais le mécanisme est géométrique, pas linguistique. Les langues à négation plus marquée (comme le français avec "ne... pas") pourraient théoriquement offrir un signal légèrement plus robuste, mais aucune étude ne le confirme. Pour les meilleurs LLM en français, la prudence reste de mise.
Le RAG résout-il le problème ?
Partiellement. Le RAG contourne le fine-tuning en injectant le contexte au moment de l'inférence. Mais si le modèle a déjà été fine-tuné avec un dataset qui a déclenché le Negation Neglect, le RAG fournit un contexte correct que le modèle pourrait encore ignorer au profit de sa représentation biaisée. Le RAG est une prévention, pas un remède.
✅ Conclusion
Le Negation Neglect est la découverte la plus dérangeante de 2026 sur le plan de l'alignement des LLMs : plus vous entraînez un modèle à rejeter une fausse information, plus il risque de la croire. Ce n'est pas un bug qu'un patch résoudra — c'est un biais inductif profond de l'architecture transformer. Si vous fine-tunez des modèles, commencez par auditer vos datasets, adoptez les métriques du repo TruthfulAI, et reformulez tout en affirmations positives. Et avant de choisir votre stratégie d'adaptation, relisez notre guide sur le fine-tuning vs RAG vs prompting — le RAG n'a jamais semblé aussi défensivement rationnel.