📑 Table des matières

05 - Vision IA : analyser des images avec les LLM

05 - Vision IA : analyser des images avec les LLM

LLM & Modèles 🟡 Intermédiaire ⏱️ 12 min de lecture 📅 2026-02-24

Vision IA : analyser des images avec les LLM

Les LLM ne se contentent plus de lire du texte. Les modèles multimodaux comme Claude 3.5, GPT-4V et Gemini Pro Vision peuvent voir et comprendre les images. OCR, analyse de photos, QA visuelle, review de maquettes... les cas d'usage sont immenses.

Dans ce guide, on explore les modèles vision disponibles, leurs forces, et on code des exemples concrets avec les API.


L'essentiel

  • Les LLM multimodaux combinent texte et images en entrée pour produire du texte en sortie, grâce à un encodeur visuel (Vision Transformer).
  • Les principaux modèles vision en 2025 : Claude 3.5 Sonnet (analyse détaillée), GPT-4o (polyvalent, OCR excellent), Gemini 2.0 Flash (rapide, contexte immense) et Llama 3.2 Vision (open source, local).
  • Les cas d'usage majeurs : OCR intelligent, analyse de photos produit, review de maquettes UI/UX, QA visuelle, audit d'accessibilité, classification automatique, extraction de données depuis des graphiques.
  • Le coût vision dépend directement de la résolution de l'image envoyée : optimiser la taille avant envoi peut diviser la facture par 10.
  • Une stratégie multi-modèles (GPT-4o-mini pour la classification, Claude 3.5 Sonnet pour l'analyse fine) permet de maîtriser les coûts sans sacrifier la qualité.

👁️ Les modèles vision en 2025

Qu'est-ce qu'un LLM multimodal ?

Un LLM classique prend du texte en entrée et produit du texte en sortie. Un LLM multimodal accepte aussi des images (et parfois de l'audio ou de la vidéo) en entrée.

LLM classique :    Texte → Texte
LLM multimodal :   Texte + Image → Texte

Le modèle "voit" l'image grâce à un encodeur visuel (souvent un Vision Transformer, ViT) qui convertit l'image en tokens compréhensibles par le LLM.

Les modèles principaux

Modèle Éditeur Résolution max Points forts Prix (input)
Claude 3.5 Sonnet Anthropic 8000×8000 Analyse détaillée, raisonnement ~$3/M tokens
Claude 3.5 Haiku Anthropic 8000×8000 Rapide, bon rapport qualité/prix ~$0.80/M tokens
GPT-4o OpenAI 2048×2048 Polyvalent, OCR excellent ~$2.50/M tokens
GPT-4o-mini OpenAI 2048×2048 Budget-friendly, correct ~$0.15/M tokens
Gemini 2.0 Flash Google Très haute Contexte immense, rapide ~$0.10/M tokens
Gemini 1.5 Pro Google Très haute Vidéo native, 2M tokens ~$1.25/M tokens
Llama 3.2 Vision Meta 1120×1120 Open source, local Gratuit (self-hosted)

Comment choisir ?

Besoin d'OCR précis ? → GPT-4o ou Claude 3.5 Sonnet
Besoin d'analyse détaillée ? → Claude 3.5 Sonnet
Budget serré ? → GPT-4o-mini ou Gemini Flash
Données sensibles (local) ? → Llama 3.2 Vision
Analyse vidéo ? → Gemini 1.5 Pro
Volume élevé ? → Gemini Flash ou GPT-4o-mini

🔍 Cas d'usage concrets

1. OCR — Extraction de texte depuis des images

L'OCR (Optical Character Recognition) classique (Tesseract) est limité aux textes bien formatés. Les LLM vision comprennent le contexte : ils lisent un reçu, un tableau manuscrit, une capture d'écran avec mise en page complexe.

Exemple : extraire les données d'une facture

Via l'API Anthropic, on envoie l'image en base64 accompagnée d'un prompt structuré demandant un JSON avec numéro, date, fournisseur, lignes détaillées, totaux HT/TVA/TTC. Le modèle retourne directement un JSON exploitable, prêt à être injecté dans une base de données ou un ERP.

Résultat typique :

{
  "numero_facture": "FA-2025-0142",
  "date": "2025-01-15",
  "fournisseur": "TechServ SARL",
  "lignes": [
    {
      "description": "Hébergement VPS Standard",
      "quantite": 1,
      "prix_unitaire": 29.99,
      "total": 29.99
    },
    {
      "description": "Nom de domaine .fr",
      "quantite": 1,
      "prix_unitaire": 12.00,
      "total": 12.00
    }
  ],
  "total_ht": 41.99,
  "tva": 8.40,
  "total_ttc": 50.39
}

Comparaison OCR classique vs LLM vision :

Critère Tesseract (OCR) LLM Vision
Texte imprimé simple ✅ Excellent ✅ Excellent
Texte manuscrit ❌ Médiocre ✅ Bon
Tableaux complexes ❌ Échoue souvent ✅ Comprend la structure
Contexte sémantique ❌ Aucun ✅ Comprend le sens
Multilingue ⚡ Avec config ✅ Natif
Coût Gratuit Payant (API)
Vitesse ⚡ Très rapide 🐢 Plus lent

2. Analyse de photos — Comprendre le contenu visuel

Les LLM vision ne font pas que lire du texte. Ils comprennent ce qu'ils voient : objets, personnes, scènes, émotions, style.

Exemple : analyser une photo produit

L'API OpenAI permet d'envoyer une image par URL avec le paramètre detail (low, high ou auto). En combinant un prompt structuré, on obtient en un appel : description courte, description SEO longue, tags, couleurs dominantes et suggestions d'amélioration de la photo. Idéal pour alimenter automatiquement des fiches produit e-commerce.

3. Review de maquettes et interfaces

Un cas d'usage puissant : faire relire une maquette UI/UX par un LLM vision. Via l'API Anthropic, on envoie la maquette en base64 avec un prompt qui demande une évaluation chiffrée (sur 10) de la hiérarchie visuelle, de la lisibilité, de la cohérence des espacements, de l'accessibilité et de la responsive-readiness. Le modèle identifie les points faibles et propose des corrections concrètes.

Résultat typique :

## 🎨 Analyse UX de la maquette

### 1. Hiérarchie visuelle : 7/10
Le titre principal est bien visible, mais les CTA secondaires
ont le même poids visuel que le CTA principal.
→ **Suggestion** : réduire la taille des boutons secondaires,
  augmenter le contraste du bouton principal.

### 2. Lisibilité : 8/10
Bonne taille de police, interligne correct.
Léger manque de contraste sur le texte gris clair (#999) sur fond blanc.
→ **Suggestion** : passer le gris à #666 minimum (ratio 4.5:1).

### 3. Cohérence des espacements : 6/10
Les marges entre les sections varient (32px, 24px, 40px).
→ **Suggestion** : standardiser à 32px ou utiliser un système
  de spacing (8px grid).
...

4. QA visuelle — Détection de bugs d'interface

Comparez une maquette et un screenshot de l'implémentation en envoyant les deux images à Claude 3.5 Sonnet. Le prompt demande un tableau structuré avec les colonnes Élément | Maquette | Implémentation | Sévérité (haute/moyenne/basse). Le modèle détecte les différences de couleurs, d'espacements, les éléments manquants ou en trop, les polices différentes et les alignements décalés.

5. Accessibilité — Audit automatique d'images web

L'API Anthropic permet d'auditer automatiquement une image web : on envoie l'image avec son alt text actuel, et le modèle retourne un JSON avec la qualité de l'alt text (bon, moyen ou mauvais), un alt text suggéré, si l'image est décorative, si elle contient du texte incrusté, les problèmes de contraste et une liste de recommandations. Un bon alt text est concis, descriptif, et transmet l'information essentielle de l'image.

6. Classification et tri automatique de photos

Claude 3.5 Haiku suffit pour de la classification simple et rapide. Le principe : envoyer chaque image avec un prompt qui demande de répondre avec un seul mot parmi une liste de catégories prédéfinies (paysage, portrait, nourriture, animal, architecture, document, screenshot, produit, autre). Un script Python parcourt un dossier source, classe chaque image et la copie dans le sous-dossier correspondant, avec un récapitulatif statistique en fin de traitement.

7. Extraction de données depuis des graphiques

Les LLM vision peuvent lire des graphiques et en extraire les données sous-jacentes. Via l'API Anthropic, on envoie le graphique avec un prompt qui demande un JSON structuré contenant le type de graphique, le titre, les axes, les données extraites et 2-3 observations clés. Pour comprendre les enjeux de coût liés à ce type de traitement, consultez notre guide sur la facturation des LLM (tokens, contexte, coûts).

8. Surveillance visuelle et détection d'anomalies

Combinez la vision IA avec une caméra ou des captures d'écran pour détecter des changements. En envoyant deux images (avant/après) à Claude 3.5 Sonnet avec un prompt structuré, le modèle retourne un JSON indiquant s'il y a des changements, leur sévérité (none/low/medium/high/critical), la liste détaillée des modifications (ajout, suppression, modification) et un résumé. Idéal pour du monitoring visuel automatisé de pages web.


💻 Utiliser la vision avec les API

API Anthropic (Claude)

L'API Anthropic accepte les images en base64 directement dans le champ content du message. Formats supportés : JPEG, PNG, GIF, WebP. Taille max : 20 MB par image, jusqu'à 100 images par requête. On peut charger une image depuis un fichier local ou depuis une URL (via httpx par exemple).

API OpenAI (GPT-4V / GPT-4o)

L'API OpenAI propose deux méthodes : l'envoi par URL directe (le plus simple) ou en base64 (via un data URI). Le paramètre detail contrôle la précision :

Valeur Tokens consommés Usage
low ~85 tokens fixe Aperçu rapide, classification
high ~85 + 170×tuiles Analyse détaillée, OCR
auto Choisi par le modèle Par défaut

API Google (Gemini)

Le SDK google-generativeai permet de passer directement un objet PIL.Image à generate_content, depuis un fichier local ou depuis une URL. Avantage clé de Gemini : un contexte de 2M tokens, qui permet d'analyser des vidéos entières frame par frame.

Via OpenRouter (tous les modèles)

Si vous utilisez OpenRouter, vous accédez à tous ces modèles via une API unique compatible avec le format OpenAI. Il suffit de changer la base_url et le nom du modèle (anthropic/claude-3.5-sonnet, google/gemini-2.0-flash, etc.) pour switcher de fournisseur sans modifier le reste du code.


⚡ Optimiser les performances et les coûts

Réduire la taille des images

Les images haute résolution consomment beaucoup de tokens. Avant d'envoyer, redimensionnez avec PIL : si la plus grande dimension dépasse un seuil (par exemple 1024 px), appliquez un ratio de réduction avec Image.LANCZOS, puis convertissez en JPEG avec un qualité paramétrable (85 par défaut). Cette simple optimisation peut diviser la consommation de tokens par 4 à 10.

Calcul des coûts vision

Claude (Anthropic) : les tokens sont calculés selon la formule Tokens ≈ (width × height) / 750. Une image 1000×1000 consomme ~1334 tokens, une 4000×4000 environ ~21334 tokens.

GPT-4o (OpenAI) : en mode low, c'est 85 tokens fixe. En mode high, c'est 85 + 170 × le nombre de tuiles 512×512. Un 1024×1024 consomme donc ~765 tokens, un 2048×2048 ~2805 tokens.

Stratégie multi-modèles

Adaptez le modèle à la tâche : classification simple → GPT-4o-mini en mode low (~$0.001/image), OCR → GPT-4o en mode high (~$0.01/image), analyse détaillée → Claude 3.5 Sonnet (~$0.02/image), traitement en masse → Gemini Flash (~$0.001/image). Cette approche permet de diviser les coûts par 20 tout en gardant la qualité là où elle compte.


🛠️ Projet pratique : analyseur d'images automatique

Un script complet d'analyse automatique de dossier fonctionne ainsi : il parcourt un répertoire, encode chaque image en base64 avec détection automatique du type MIME, envoie chaque image à Claude 3.5 Sonnet avec un prompt demandant un JSON structuré (description, catégorie, objets détectés, texte contenu, couleurs dominantes, ambiance, score de qualité, suggestions). Les résultats sont agrégés et sauvegardés dans un fichier rapport_images.json. En sortie, on obtient pour chaque image sa description courte, sa catégorie et un score de qualité — le tout sans intervention manuelle.


🔮 L'avenir de la vision IA

Tendances 2025-2026

  • Vidéo native : Gemini analyse déjà des vidéos, les autres suivront
  • Vision en temps réel : analyse de flux caméra avec latence < 1s
  • Génération + compréhension : les modèles qui voient ET créent des images
  • Agents visuels : des agents qui naviguent des interfaces en "regardant" l'écran
  • Coûts en chute libre : la vision deviendra quasi-gratuite d'ici fin 2025

Vision + Agents IA

La combinaison la plus puissante : un agent IA qui voit son environnement. OpenClaw utilise déjà la vision pour :

  • Analyser des captures d'écran (browser automation)
  • Lire des images envoyées par l'utilisateur
  • Vérifier visuellement des résultats (QA)

C'est la prochaine frontière de l'IA autonome : des agents qui comprennent le monde visuel aussi bien que le texte. Pour aller plus loin sur le choix des modèles qui intègrent ces capacités, consultez notre article sur DeepSeek V4 : deux nouveaux modèles — Pro et Flash — changent la donne.


Erreurs courantes

  • Envoyer des images trop grandes : une photo 4K peut consommer 20 000+ tokens. Redimensionnez systématiquement avant envoi.
  • Utiliser le modèle le plus cher pour tout : un GPT-4o-mini suffit pour la classification, inutile de payer Claude 3.5 Sonnet.
  • Oublier le paramètre detail chez OpenAI : sans le spécifier, le modèle choisit en auto et peut sur-consommer des tokens.
  • Ne pas structurer le prompt de sortie : sans demander un JSON précis, le modèle retourne du texte libre qu'il faut parser manuellement.
  • Ignorer le format de l'image : le JPEG est 5 à 10× plus léger que le PNG pour des photos. Préférez-le sauf si vous avez besoin de transparence.

Outils recommandés


FAQ

Peut-on envoyer plusieurs images dans une même requête ?
Oui. Claude accepte jusqu'à 100 images par requête, OpenAI et Gemini également plusieurs. C'est utile pour la comparaison (maquette vs implémentation) ou l'analyse de documents multi-pages.

Quelle résolution utiliser ?
Cela dépend de la tâche. Pour de la classification, 512×512 suffit. Pour de l'OCR ou de l'analyse détaillée, visez 1024×1024 à 1568×1568. Au-delà, le gain de qualité est marginal mais le coût explose.

Les modèles open source sont-ils viables pour la vision ?
Llama 3.2 Vision (1120×1120 max) est utilisable pour des tâches simples en local, mais il reste loin des modèles propriétaires sur l'OCR complexe ou l'analyse fine. Pour du déploiement local avec données sensibles, c'est cependant la meilleure option. Pour en savoir plus sur les alternatives open source récentes, consultez notre article sur Qwen3.6 : Alibaba débarque avec une nouvelle famille de modèles LLM.

Comment gérer les images contenant du texte sensible ?
Si les données sont sensibles (factures, documents légaux, données médicales), privilégiez un modèle local (Llama 3.2 Vision) ou vérifiez que le fournisseur de l'API ne conserve pas les données. Anthropic et OpenAI proposent des options de non-rétention pour les plans entreprise.

La vision remplace-t-elle l'OCR classique ?
Pas toujours. Tesseract est gratuit, instantané et fonctionne hors ligne. Pour des documents simples et bien formatés, il reste pertinent. Les LLM vision excellent en revanche sur les documents complexes, manuscrits, ou quand il faut comprendre le contexte sémantique.


Conclusion

La vision IA avec les LLM n'est plus une expérimentation : c'est un outil de production prêt à l'emploi. Que ce soit pour automatiser l'OCR, auditer des interfaces, classifier des images ou extraire des données de graphiques, les modèles comme Claude 3.5 Sonnet, GPT-4o et Gemini 2.0 Flash couvrent l'essentiel des besoins.

La clé réside dans trois pratiques : choisir le bon modèle selon la tâche (ne pas surpayer), optimiser systématiquement la taille des images avant envoi, et structurer les prompts de sortie pour obtenir des résultats directement exploitables. En appliquant ces principes, la vision IA devient un levier de productivité concret et maîtrisé.
```