04 - Le prompting avancé qui fait vraiment la différence

LLM & Modèles 🟡 Intermédiaire ⏱️ 14 min de lecture 📅 2026-02-24

Le prompting avancé qui fait vraiment la différence

Vous utilisez ChatGPT, Claude ou Gemini depuis des mois, mais vous avez l'impression de ne pas en tirer le maximum ? Vous avez raison. La différence entre un utilisateur moyen et un expert en IA tient souvent en un seul mot : le prompting.

Le prompting, c'est l'art de communiquer avec un modèle de langage pour obtenir exactement ce que vous voulez. Et en 2026, avec des modèles de plus en plus puissants, maîtriser le prompting avancé est devenu un véritable super-pouvoir.

Dans cet article, on va explorer les techniques qui font vraiment la différence : system prompts structurés, few-shot learning, chain-of-thought, structured output en JSON, et bien plus. Avec des exemples concrets avant/après pour chaque technique.

🎯 Pourquoi le prompting compte (encore) en 2026

On pourrait croire qu'avec des modèles toujours plus intelligents, le prompting devient moins important. C'est l'inverse. Plus un modèle est puissant, plus il est capable de suivre des instructions complexes — et donc plus le prompting avancé fait une différence.

Voici ce que change un bon prompting :

Aspect	Prompting basique	Prompting avancé
Qualité des réponses	Correcte, générique	Précise, adaptée, exploitable
Consistance	Variable d'une requête à l'autre	Stable et prévisible
Format	Texte libre, reformatage nécessaire	Structuré, prêt à l'emploi
Hallucinations	Fréquentes	Réduites drastiquement
Coût	Gaspillage de tokens en allers-retours	Bonne réponse du premier coup

Un prompt bien conçu peut transformer un modèle « moyen » en assistant expert. Un mauvais prompt peut faire halluciner même les meilleurs modèles. D'après une étude de l'Université de Stanford publiée en 2025, un prompt structuré réduit le taux d'hallucination de 40 % en moyenne sur les tâches de raisonnement.

📝 Les system prompts structurés

Le system prompt est la fondation de toute interaction avec un LLM. C'est le texte qui définit qui est le modèle, comment il doit se comporter, et quelles sont ses contraintes.

Avant : le system prompt naïf

Tu es un assistant utile qui aide les utilisateurs.

Ce prompt est tellement vague qu'il ne sert à rien. Le modèle va produire des réponses génériques, sans personnalité ni contraintes.

Après : le system prompt structuré

Un system prompt structuré sépare clairement les informations en plusieurs sections : le rôle (expert en développement Python senior avec 15 ans d'expérience, tech lead en startup SaaS), le style de communication (réponses directes, tutoiement, exemples fonctionnels, mentions des edge cases), les contraintes (Python 3.11+ uniquement, lisibilité privilégiée, type hints systématiques, gestion d'erreur obligatoire) et le format de réponse (explication courte, code commenté, exemple d'utilisation, points d'attention). La différence est radicale : avec cette structure, chaque réponse sera cohérente et adaptée à votre contexte.

L'approche SOUL.md et AGENTS.md

Le fichier SOUL.md définit la personnalité de l'agent (identité, valeurs, ton, limites), tandis que AGENTS.md définit ses règles de travail (processus de réponse, standards de code, conditions d'escalade). C'est exactement le même principe que le system prompt structuré, mais poussé à l'extrême avec une séparation nette entre la « personnalité » et les « règles métier ».

Les 5 composants d'un system prompt efficace

Voici la structure que je recommande pour tout system prompt :

Composant	Description	Exemple
Rôle	Qui est le modèle ?	"Expert en sécurité web"
Contexte	Dans quel environnement ?	"Startup fintech, stack Node.js"
Style	Comment communiquer ?	"Concis, technique, tutoiement"
Contraintes	Qu'est-ce qui est interdit ?	"Jamais de code sans validation"
Format	Comment structurer la réponse ?	"1. Explication, 2. Code, 3. Tests"

Le choix du modèle derrière ce system prompt a aussi son importance. Pour comparer les capacités de suivi d'instructions entre Claude, GPT, Gemini et Llama, consultez Claude, GPT, Gemini, Llama : quel modèle choisir en 2026 ?.

🔄 Le Few-Shot Learning : apprendre par l'exemple

Le few-shot learning consiste à donner des exemples de paires input/output au modèle avant de lui poser votre question. C'est la technique la plus sous-estimée et la plus efficace.

Avant : zero-shot (pas d'exemple)

Extrais les entités nommées de ce texte :
"Apple a annoncé son nouveau MacBook Pro lors de la WWDC 2026 à Cupertino."

Réponse typique (variable, inconsistante) :

Les entités nommées sont : Apple (entreprise), MacBook Pro (produit),
WWDC 2026 (événement), Cupertino (lieu).

Le format change à chaque requête. Parfois c'est une liste, parfois un paragraphe, parfois avec des parenthèses, parfois sans.

Après : few-shot (avec exemples)

En fournissant deux exemples d'entrée/sortie au format JSON avant votre requête, vous montrez au modèle le schéma exact attendu (type d'entité entre guillemets, structure imbriquée). Le modèle reproduit alors fidèlement ce pattern, y compris pour les entités de votre texte.

Réponse (consistante, formatée) :

{"entities": [{"text": "Apple", "type": "ORG"}, {"text": "MacBook Pro", "type": "PRODUCT"}, {"text": "WWDC 2026", "type": "EVENT"}, {"text": "Cupertino", "type": "LOC"}]}

Combien d'exemples faut-il ?

Nombre d'exemples	Usage	Qualité
0 (zero-shot)	Tâches simples et évidentes	Variable
1-2 (few-shot)	Définir le format de sortie	Bonne
3-5 (few-shot)	Tâches complexes, classification	Très bonne
5+	Cas ambigus, nuances fines	Excellente

💡 Règle d'or : incluez toujours au moins un exemple « edge case » (cas limite) dans vos few-shots. Ça montre au modèle comment gérer les situations ambiguës.

Few-shot pour la classification

Pour une tâche de classification de tickets de support, la logique consiste à construire un historique de messages contenant trois exemples : un ticket de facturation (catégorie billing, priorité high, sentiment negative), une question fonctionnelle (feature_question, low, neutral) et un cas limite comme un retour positif avec un bug (bug_report, medium, sentiment mixed). Chaque réponse de l'assistant est formatée en JSON avec les mêmes clés. Quand vous envoyez votre vraie requête, le modèle reproduit exactement ce schéma.

Attention cependant : chaque exemple consomme des tokens en entrée. Pour comprendre l'impact du few-shot sur votre facturation, lisez Tokens, contexte, coûts : comprendre la facturation des LLM.

🧠 Chain-of-Thought : faire réfléchir le modèle

Le Chain-of-Thought (CoT) est la technique qui a le plus d'impact sur la qualité du raisonnement. L'idée est simple : demander au modèle de montrer son raisonnement étape par étape avant de donner sa réponse finale.

Avant : réponse directe

Combien de fois la lettre "r" apparaît dans le mot "strawberry" ?

Réponse (souvent fausse) :

La lettre "r" apparaît 2 fois dans "strawberry".

Après : avec Chain-of-Thought

Combien de fois la lettre "r" apparaît dans le mot "strawberry" ?

Réfléchis étape par étape : analyse chaque lettre du mot une par une.

Réponse (correcte) :

Analysons chaque lettre de "strawberry" :
s - non
t - non
r - OUI (1)
a - non
w - non
b - non
e - non
r - OUI (2)
r - OUI (3)
y - non

La lettre "r" apparaît 3 fois dans "strawberry".

Les variantes du Chain-of-Thought

1. CoT explicite (le plus simple)

Ajoutez simplement « Réfléchis étape par étape » ou « Montre ton raisonnement » à la fin de votre prompt.

2. CoT structuré

Demandez au modèle de suivre un cadre précis : OBSERVATION (que voit-on dans les données ?), HYPOTHÈSE (quelles explications possibles ?), VÉRIFICATION (comment valider ?), CONCLUSION (réponse la plus probable).

3. CoT avec auto-critique

Demandez une réponse en trois phases : première réponse initiale, critique de ses propres erreurs, puis réponse finale corrigée. Cette technique est particulièrement puissante pour les problèmes de logique, de maths et de code.

Quand utiliser le Chain-of-Thought ?

Tâche	CoT utile ?	Pourquoi
Maths / Logique	✅ Très	Réduit les erreurs de calcul
Code / Debug	✅ Très	Force l'analyse systématique
Analyse de texte	✅ Modérément	Améliore la nuance
Rédaction créative	❌ Rarement	Peut rendre le texte trop analytique
Classification simple	❌ Non	Overhead inutile, ralentit
Traduction	❌ Non	Le modèle le fait déjà bien

⚠️ Attention au coût : le CoT génère plus de tokens de sortie. Si vous payez au token, ça peut doubler ou tripler le coût. Utilisez-le stratégiquement.

📦 Structured Output : des réponses en JSON

Le structured output est la technique la plus utile pour les développeurs. Au lieu de recevoir du texte libre qu'il faut parser, vous recevez directement du JSON exploitable.

Avant : texte libre

Analyse ce CV et donne-moi les compétences du candidat.

Réponse :

Le candidat maîtrise Python, JavaScript et SQL. Il a aussi de l'expérience
avec React et Node.js. En termes de soft skills, il mentionne le travail
d'équipe et la gestion de projet.

Comment extraire ces données programmatiquement ? C'est un cauchemar de parsing.

Après : structured output JSON

En spécifiant un schéma JSON précis dans le prompt (hard skills avec nom/niveau/années, soft skills avec contexte, langues avec niveau CECR, certifications), le modèle retourne directement un objet structuré et exploitable sans aucun parsing nécessaire.

Forcer le JSON avec l'API

La plupart des API modernes supportent le mode « JSON » natif : OpenAI et OpenRouter via le paramètre response_format={"type": "json_object"}, Google Gemini via generation_config={"response_mime_type": "application/json"}, et Anthropic Claude qui n'a pas de mode natif mais suit très bien les instructions de format dans le system prompt.

JSON Schema pour la validation

Pour les cas critiques, vous pouvez définir un JSON Schema complet avec des types, des énumérations, des valeurs min/max et des contraintes de longueur, puis l'injecter directement dans le system prompt. Cela garantit que le modèle respecte un contrat de données strict.

🏗️ Techniques avancées combinées

Les techniques les plus puissantes combinent plusieurs approches. Pour savoir quand privilégier le prompting avancé par rapport au fine-tuning ou au RAG, consultez Fine-tuning vs RAG vs prompting : quelle approche choisir ?.

Le Meta-Prompt : un prompt qui génère des prompts

La technique consiste à demander au LLM de générer lui-même le prompt optimal pour une tâche que vous décrivez, en incluant un system prompt structuré, des exemples few-shot, des instructions de chain-of-thought et un format de sortie JSON si pertinent. Vous utilisez le modèle pour optimiser sa propre utilisation.

Le prompt à étapes multiples (Multi-Step)

Au lieu de tout faire en une seule requête, découpez en étapes : extraction des faits clés en JSON, puis analyse de ces faits (tendances, contradictions, informations manquantes), enfin synthèse en résumé exécutif pour un décideur. Chaque étape reçoit un prompt optimisé pour sa tâche spécifique et utilise le contexte de la précédente.

Le prompt conditionnel

Ce pattern analyse le type de requête utilisateur et adapte la réponse : question technique (code + explications), bug report (checklist d'infos manquantes), demande de feature (faisabilité + estimation + étapes), ou autre chose (reformulation pour clarification). C'est excellent pour les chatbots et les agents multi-tâches.

❌ Erreurs courantes en prompting

Erreur 1 : trop de politesse, pas assez de structure

Les LLM ne sont pas vexés par un ton direct. Ils performent mieux avec des instructions claires et concises. Remplacez les formules de politesse par une liste précise de ce que vous attendez.

Erreur 2 : instructions contradictoires

« Sois concis mais détaillé » est un exemple classique de contradiction. Préférez une structure numérotée qui sépare clairement les niveaux de détail (résumé en 2 phrases, puis détail en 5-10 lignes, puis exemples).

Erreur 3 : ne pas spécifier le format

Sans format explicite, le modèle choisit librement comment présenter sa réponse. Demandez toujours un format précis : tableau markdown avec des colonnes définies, JSON avec un schéma, liste numérotée, etc.

Erreur 4 : ignorer le négatif

Dire au modèle ce qu'il ne doit PAS faire est souvent aussi important que ce qu'il doit faire : ne pas commencer par « Bien sûr ! », ne pas répéter la question, ne pas donner d'avertissements non demandés. Les contraintes négatives sont très efficaces.

Erreur 5 : le prompt « one-size-fits-all »

Un seul system prompt générique pour toutes les tâches donne des résultats médiocres. Créez des prompts spécialisés : un pour le code (expert Python, pas de blabla), un pour la rédaction (ton SEO, H2 accrocheurs), un pour l'analyse (chiffres, intervalles de confiance).

🛠️ Outils recommandés

Claude (Anthropic) : le modèle qui suit le mieux les instructions complexes et les system prompts structurés.
GPT-4.1 (OpenAI) : excellent en few-shot et en structured output JSON natif.
DeepSeek V4 : ses deux nouveaux modèles Pro et Flash changent la donne sur le rapport qualité/prix pour le prompting avancé. Pour en savoir plus, consultez DeepSeek V4 : deux nouveaux modèles — Pro et Flash — changent la donne.
Qwen3.6 (Alibaba) : une nouvelle famille de modèles très performante sur le chain-of-thought et le raisonnement structuré. Découvrez Qwen3.6 : Alibaba débarque avec une nouvelle famille de modèles LLM.
OpenRouter : plateforme idéale pour tester vos prompts sur différents modèles avec une seule API.

📊 Mesurer l'impact du prompting

Comment savoir si votre prompting s'améliore ? Mesurez ! Selon un benchmark de Google DeepMind publié en 2025, les prompts optimisés avec CoT et few-shot atteignent un taux de première réponse correcte supérieur à 90 % sur les tâches de raisonnement, contre 60 % avec un prompting basique.

Métriques clés

Métrique	Comment mesurer	Objectif
Taux de première réponse correcte	% de réponses utilisables sans relance	>90%
Tokens par réponse	Nombre moyen de tokens générés	Stable ou en baisse
Consistance du format	% de réponses au bon format	>95%
Taux d'hallucination	% de réponses avec des infos fausses	<5%
Satisfaction utilisateur	Note de 1-5 par les utilisateurs	>4

A/B testing de prompts

La méthode consiste à préparer deux versions d'un même prompt (par exemple, une version générique et une version structurée), à les affecter aléatoirement aux requêtes entrantes, puis à logger la version utilisée, le prompt, la réponse et un score de qualité pour comparer statistiquement les performances.

🛠️ Boîte à outils : templates de prompts prêts à l'emploi

Template : Extraction de données

Le template demande d'extraire des champs précis (nom, date, montant, devise, catégorie) en JSON valide, avec pour règle stricte d'utiliser null si une information est absente ou ambiguë plutôt que de deviner.

Template : Rédaction avec contraintes

Ce template spécifie le type de contenu, le sujet, la longueur cible, le ton, l'audience, les mots-clés à inclure et la structure. Il liste aussi les interdits : pas de clichés, pas de questions rhétoriques, pas de passif quand l'actif est possible.

Template : Debug de code

Le processus imposé au modèle est en cinq étapes : lire le code, identifier le bug en une ou deux phrases, expliquer pourquoi c'est un bug, donner uniquement les lignes corrigées, et fournir un test qui prouve que le fix fonctionne.

❓ FAQ

Le prompting avancé est-il encore utile avec les modèles de 2026 ?
Oui, plus que jamais. Les modèles récents comme DeepSeek V4 et Qwen3.6 sont capables de suivre des instructions plus complexes, ce qui amplifie (et ne réduit pas) l'écart entre un bon et un mauvais prompt.

Combien de tokens consomme un system prompt structuré ?
Un system prompt de 200-300 mots consomme environ 300-450 tokens. C'est négligeable en comparaison du gain de qualité et de la réduction des allers-retours. Consultez Tokens, contexte, coûts : comprendre la facturation des LLM pour optimiser votre budget.

Few-shot ou chain-of-thought : lequel choisir ?
Ça dépend de la tâche. Le few-shot est idéal pour fixer un format de sortie (classification, extraction JSON). Le chain-of-thought est préférable pour le raisonnement (maths, logique, debug). Vous pouvez combiner les deux pour les tâches complexes.

Faut-il toujours demander du JSON ?
Non. Le JSON est utile quand vous devez intégrer la réponse dans un pipeline automatisé. Pour de la rédaction, de l'analyse narrative ou du brainstorming, le texte libre avec un formatage markdown est plus adapté.

Le meta-prompt (prompt qui génère des prompts) est-il fiable ?
Il produit d'excellents résultats de premier jet, mais nécessite presque toujours un ajustement humain. Utilisez-le comme point de départ, pas comme résultat final.

📋 L'essentiel

Structurez votre system prompt : rôle, contexte, style, contraintes, format
Utilisez le few-shot : 2-3 exemples valent mieux que 200 mots d'explication
Activez le Chain-of-Thought pour le raisonnement complexe
Demandez du JSON quand vous avez besoin de données structurées
Dites ce que vous ne voulez PAS — les contraintes négatives sont puissantes
Testez et mesurez — le prompting est un processus itératif
Spécialisez vos prompts — un prompt par tâche, pas un prompt pour tout
Inspirez-vous de SOUL.md/AGENTS.md — la séparation personnalité/règles est un excellent modèle

Le prompting n'est pas de la magie — c'est de l'ingénierie. Comme tout en ingénierie, ça s'apprend, ça se pratique, et ça s'améliore avec le temps.

#IA (intelligence artificielle) #Prompts IA #llm #tutoriel

📚 Articles liés

LLM & Modèles 🟢 Débutant 14 min

MeMo : Memory as a Model — la mémoire comme modèle autonome pour mettre à jour les LLMs sans réentraînement

Découvrez MeMo (Memory as a Model) : la solution innovante pour mettre à jour les LLMs sans réentraînement et vaincre l'obsolescence des connaissances.

2026-05-16 19:01

LLM & Modèles 🟢 Débutant 15 min

SDAR : comment entraîner des agents IA avec du reinforcement learning sans les casser — la self-distillation agentic

Découvrez le SDAR (Self-Distillation Agentic Reinforcement) : la méthode pour entraîner vos agents IA avec du reinforcement learning sans les casser.

2026-05-16 18:02

LLM & Modèles 🟢 Débutant 13 min

OpenDeepThink : le raisonnement parallèle par comparaison Bradley-Terry change la donne pour l'inference LLM

Découvrez OpenDeepThink : comment le raisonnement parallèle par comparaison Bradley-Terry révolutionne l'inférence LLM et surpasse le chain-of-thought séquentie

2026-05-15 17:05

📑 Table des matières