Vision IA : analyser des images avec les LLM
Les LLM ne se contentent plus de lire du texte. Les modèles multimodaux comme Claude 3.5, GPT-4V et Gemini Pro Vision peuvent voir et comprendre les images. OCR, analyse de photos, QA visuelle, review de maquettes... les cas d'usage sont immenses.
Dans ce guide, on explore les modèles vision disponibles, leurs forces, et on code des exemples concrets avec les API.
L'essentiel
- Les LLM multimodaux combinent texte et images en entrée pour produire du texte en sortie, grâce à un encodeur visuel (Vision Transformer).
- Les principaux modèles vision en 2025 : Claude 3.5 Sonnet (analyse détaillée), GPT-4o (polyvalent, OCR excellent), Gemini 2.0 Flash (rapide, contexte immense) et Llama 3.2 Vision (open source, local).
- Les cas d'usage majeurs : OCR intelligent, analyse de photos produit, review de maquettes UI/UX, QA visuelle, audit d'accessibilité, classification automatique, extraction de données depuis des graphiques.
- Le coût vision dépend directement de la résolution de l'image envoyée : optimiser la taille avant envoi peut diviser la facture par 10.
- Une stratégie multi-modèles (GPT-4o-mini pour la classification, Claude 3.5 Sonnet pour l'analyse fine) permet de maîtriser les coûts sans sacrifier la qualité.
👁️ Les modèles vision en 2025
Qu'est-ce qu'un LLM multimodal ?
Un LLM classique prend du texte en entrée et produit du texte en sortie. Un LLM multimodal accepte aussi des images (et parfois de l'audio ou de la vidéo) en entrée.
LLM classique : Texte → Texte
LLM multimodal : Texte + Image → Texte
Le modèle "voit" l'image grâce à un encodeur visuel (souvent un Vision Transformer, ViT) qui convertit l'image en tokens compréhensibles par le LLM.
Les modèles principaux
| Modèle | Éditeur | Résolution max | Points forts | Prix (input) |
|---|---|---|---|---|
| Claude 3.5 Sonnet | Anthropic | 8000×8000 | Analyse détaillée, raisonnement | ~$3/M tokens |
| Claude 3.5 Haiku | Anthropic | 8000×8000 | Rapide, bon rapport qualité/prix | ~$0.80/M tokens |
| GPT-4o | OpenAI | 2048×2048 | Polyvalent, OCR excellent | ~$2.50/M tokens |
| GPT-4o-mini | OpenAI | 2048×2048 | Budget-friendly, correct | ~$0.15/M tokens |
| Gemini 2.0 Flash | Très haute | Contexte immense, rapide | ~$0.10/M tokens | |
| Gemini 1.5 Pro | Très haute | Vidéo native, 2M tokens | ~$1.25/M tokens | |
| Llama 3.2 Vision | Meta | 1120×1120 | Open source, local | Gratuit (self-hosted) |
Comment choisir ?
Besoin d'OCR précis ? → GPT-4o ou Claude 3.5 Sonnet
Besoin d'analyse détaillée ? → Claude 3.5 Sonnet
Budget serré ? → GPT-4o-mini ou Gemini Flash
Données sensibles (local) ? → Llama 3.2 Vision
Analyse vidéo ? → Gemini 1.5 Pro
Volume élevé ? → Gemini Flash ou GPT-4o-mini
🔍 Cas d'usage concrets
1. OCR — Extraction de texte depuis des images
L'OCR (Optical Character Recognition) classique (Tesseract) est limité aux textes bien formatés. Les LLM vision comprennent le contexte : ils lisent un reçu, un tableau manuscrit, une capture d'écran avec mise en page complexe.
Exemple : extraire les données d'une facture
Via l'API Anthropic, on envoie l'image en base64 accompagnée d'un prompt structuré demandant un JSON avec numéro, date, fournisseur, lignes détaillées, totaux HT/TVA/TTC. Le modèle retourne directement un JSON exploitable, prêt à être injecté dans une base de données ou un ERP.
Résultat typique :
{
"numero_facture": "FA-2025-0142",
"date": "2025-01-15",
"fournisseur": "TechServ SARL",
"lignes": [
{
"description": "Hébergement VPS Standard",
"quantite": 1,
"prix_unitaire": 29.99,
"total": 29.99
},
{
"description": "Nom de domaine .fr",
"quantite": 1,
"prix_unitaire": 12.00,
"total": 12.00
}
],
"total_ht": 41.99,
"tva": 8.40,
"total_ttc": 50.39
}
Comparaison OCR classique vs LLM vision :
| Critère | Tesseract (OCR) | LLM Vision |
|---|---|---|
| Texte imprimé simple | ✅ Excellent | ✅ Excellent |
| Texte manuscrit | ❌ Médiocre | ✅ Bon |
| Tableaux complexes | ❌ Échoue souvent | ✅ Comprend la structure |
| Contexte sémantique | ❌ Aucun | ✅ Comprend le sens |
| Multilingue | ⚡ Avec config | ✅ Natif |
| Coût | Gratuit | Payant (API) |
| Vitesse | ⚡ Très rapide | 🐢 Plus lent |
2. Analyse de photos — Comprendre le contenu visuel
Les LLM vision ne font pas que lire du texte. Ils comprennent ce qu'ils voient : objets, personnes, scènes, émotions, style.
Exemple : analyser une photo produit
L'API OpenAI permet d'envoyer une image par URL avec le paramètre detail (low, high ou auto). En combinant un prompt structuré, on obtient en un appel : description courte, description SEO longue, tags, couleurs dominantes et suggestions d'amélioration de la photo. Idéal pour alimenter automatiquement des fiches produit e-commerce.
3. Review de maquettes et interfaces
Un cas d'usage puissant : faire relire une maquette UI/UX par un LLM vision. Via l'API Anthropic, on envoie la maquette en base64 avec un prompt qui demande une évaluation chiffrée (sur 10) de la hiérarchie visuelle, de la lisibilité, de la cohérence des espacements, de l'accessibilité et de la responsive-readiness. Le modèle identifie les points faibles et propose des corrections concrètes.
Résultat typique :
## 🎨 Analyse UX de la maquette
### 1. Hiérarchie visuelle : 7/10
Le titre principal est bien visible, mais les CTA secondaires
ont le même poids visuel que le CTA principal.
→ **Suggestion** : réduire la taille des boutons secondaires,
augmenter le contraste du bouton principal.
### 2. Lisibilité : 8/10
Bonne taille de police, interligne correct.
Léger manque de contraste sur le texte gris clair (#999) sur fond blanc.
→ **Suggestion** : passer le gris à #666 minimum (ratio 4.5:1).
### 3. Cohérence des espacements : 6/10
Les marges entre les sections varient (32px, 24px, 40px).
→ **Suggestion** : standardiser à 32px ou utiliser un système
de spacing (8px grid).
...
4. QA visuelle — Détection de bugs d'interface
Comparez une maquette et un screenshot de l'implémentation en envoyant les deux images à Claude 3.5 Sonnet. Le prompt demande un tableau structuré avec les colonnes Élément | Maquette | Implémentation | Sévérité (haute/moyenne/basse). Le modèle détecte les différences de couleurs, d'espacements, les éléments manquants ou en trop, les polices différentes et les alignements décalés.
5. Accessibilité — Audit automatique d'images web
L'API Anthropic permet d'auditer automatiquement une image web : on envoie l'image avec son alt text actuel, et le modèle retourne un JSON avec la qualité de l'alt text (bon, moyen ou mauvais), un alt text suggéré, si l'image est décorative, si elle contient du texte incrusté, les problèmes de contraste et une liste de recommandations. Un bon alt text est concis, descriptif, et transmet l'information essentielle de l'image.
6. Classification et tri automatique de photos
Claude 3.5 Haiku suffit pour de la classification simple et rapide. Le principe : envoyer chaque image avec un prompt qui demande de répondre avec un seul mot parmi une liste de catégories prédéfinies (paysage, portrait, nourriture, animal, architecture, document, screenshot, produit, autre). Un script Python parcourt un dossier source, classe chaque image et la copie dans le sous-dossier correspondant, avec un récapitulatif statistique en fin de traitement.
7. Extraction de données depuis des graphiques
Les LLM vision peuvent lire des graphiques et en extraire les données sous-jacentes. Via l'API Anthropic, on envoie le graphique avec un prompt qui demande un JSON structuré contenant le type de graphique, le titre, les axes, les données extraites et 2-3 observations clés. Pour comprendre les enjeux de coût liés à ce type de traitement, consultez notre guide sur la facturation des LLM (tokens, contexte, coûts).
8. Surveillance visuelle et détection d'anomalies
Combinez la vision IA avec une caméra ou des captures d'écran pour détecter des changements. En envoyant deux images (avant/après) à Claude 3.5 Sonnet avec un prompt structuré, le modèle retourne un JSON indiquant s'il y a des changements, leur sévérité (none/low/medium/high/critical), la liste détaillée des modifications (ajout, suppression, modification) et un résumé. Idéal pour du monitoring visuel automatisé de pages web.
💻 Utiliser la vision avec les API
API Anthropic (Claude)
L'API Anthropic accepte les images en base64 directement dans le champ content du message. Formats supportés : JPEG, PNG, GIF, WebP. Taille max : 20 MB par image, jusqu'à 100 images par requête. On peut charger une image depuis un fichier local ou depuis une URL (via httpx par exemple).
API OpenAI (GPT-4V / GPT-4o)
L'API OpenAI propose deux méthodes : l'envoi par URL directe (le plus simple) ou en base64 (via un data URI). Le paramètre detail contrôle la précision :
| Valeur | Tokens consommés | Usage |
|---|---|---|
low |
~85 tokens fixe | Aperçu rapide, classification |
high |
~85 + 170×tuiles | Analyse détaillée, OCR |
auto |
Choisi par le modèle | Par défaut |
API Google (Gemini)
Le SDK google-generativeai permet de passer directement un objet PIL.Image à generate_content, depuis un fichier local ou depuis une URL. Avantage clé de Gemini : un contexte de 2M tokens, qui permet d'analyser des vidéos entières frame par frame.
Via OpenRouter (tous les modèles)
Si vous utilisez OpenRouter, vous accédez à tous ces modèles via une API unique compatible avec le format OpenAI. Il suffit de changer la base_url et le nom du modèle (anthropic/claude-3.5-sonnet, google/gemini-2.0-flash, etc.) pour switcher de fournisseur sans modifier le reste du code.
⚡ Optimiser les performances et les coûts
Réduire la taille des images
Les images haute résolution consomment beaucoup de tokens. Avant d'envoyer, redimensionnez avec PIL : si la plus grande dimension dépasse un seuil (par exemple 1024 px), appliquez un ratio de réduction avec Image.LANCZOS, puis convertissez en JPEG avec un qualité paramétrable (85 par défaut). Cette simple optimisation peut diviser la consommation de tokens par 4 à 10.
Calcul des coûts vision
Claude (Anthropic) : les tokens sont calculés selon la formule Tokens ≈ (width × height) / 750. Une image 1000×1000 consomme ~1334 tokens, une 4000×4000 environ ~21334 tokens.
GPT-4o (OpenAI) : en mode low, c'est 85 tokens fixe. En mode high, c'est 85 + 170 × le nombre de tuiles 512×512. Un 1024×1024 consomme donc ~765 tokens, un 2048×2048 ~2805 tokens.
Stratégie multi-modèles
Adaptez le modèle à la tâche : classification simple → GPT-4o-mini en mode low (~$0.001/image), OCR → GPT-4o en mode high (~$0.01/image), analyse détaillée → Claude 3.5 Sonnet (~$0.02/image), traitement en masse → Gemini Flash (~$0.001/image). Cette approche permet de diviser les coûts par 20 tout en gardant la qualité là où elle compte.
🛠️ Projet pratique : analyseur d'images automatique
Un script complet d'analyse automatique de dossier fonctionne ainsi : il parcourt un répertoire, encode chaque image en base64 avec détection automatique du type MIME, envoie chaque image à Claude 3.5 Sonnet avec un prompt demandant un JSON structuré (description, catégorie, objets détectés, texte contenu, couleurs dominantes, ambiance, score de qualité, suggestions). Les résultats sont agrégés et sauvegardés dans un fichier rapport_images.json. En sortie, on obtient pour chaque image sa description courte, sa catégorie et un score de qualité — le tout sans intervention manuelle.
🔮 L'avenir de la vision IA
Tendances 2025-2026
- Vidéo native : Gemini analyse déjà des vidéos, les autres suivront
- Vision en temps réel : analyse de flux caméra avec latence < 1s
- Génération + compréhension : les modèles qui voient ET créent des images
- Agents visuels : des agents qui naviguent des interfaces en "regardant" l'écran
- Coûts en chute libre : la vision deviendra quasi-gratuite d'ici fin 2025
Vision + Agents IA
La combinaison la plus puissante : un agent IA qui voit son environnement. OpenClaw utilise déjà la vision pour :
- Analyser des captures d'écran (browser automation)
- Lire des images envoyées par l'utilisateur
- Vérifier visuellement des résultats (QA)
C'est la prochaine frontière de l'IA autonome : des agents qui comprennent le monde visuel aussi bien que le texte. Pour aller plus loin sur le choix des modèles qui intègrent ces capacités, consultez notre article sur DeepSeek V4 : deux nouveaux modèles — Pro et Flash — changent la donne.
Erreurs courantes
- Envoyer des images trop grandes : une photo 4K peut consommer 20 000+ tokens. Redimensionnez systématiquement avant envoi.
- Utiliser le modèle le plus cher pour tout : un GPT-4o-mini suffit pour la classification, inutile de payer Claude 3.5 Sonnet.
- Oublier le paramètre
detailchez OpenAI : sans le spécifier, le modèle choisit enautoet peut sur-consommer des tokens. - Ne pas structurer le prompt de sortie : sans demander un JSON précis, le modèle retourne du texte libre qu'il faut parser manuellement.
- Ignorer le format de l'image : le JPEG est 5 à 10× plus léger que le PNG pour des photos. Préférez-le sauf si vous avez besoin de transparence.
Outils recommandés
- OpenRouter — Accéder à tous les modèles vision via une seule API
- Claude Anthropic — Le modèle vision le plus précis pour l'analyse détaillée
- Qu'est-ce qu'OpenClaw ? — L'agent qui intègre nativement la vision
- Automatiser sa vie avec l'IA — Combiner vision et automatisation
- Configurer OpenClaw — Activer les capacités vision de votre agent
FAQ
Peut-on envoyer plusieurs images dans une même requête ?
Oui. Claude accepte jusqu'à 100 images par requête, OpenAI et Gemini également plusieurs. C'est utile pour la comparaison (maquette vs implémentation) ou l'analyse de documents multi-pages.
Quelle résolution utiliser ?
Cela dépend de la tâche. Pour de la classification, 512×512 suffit. Pour de l'OCR ou de l'analyse détaillée, visez 1024×1024 à 1568×1568. Au-delà, le gain de qualité est marginal mais le coût explose.
Les modèles open source sont-ils viables pour la vision ?
Llama 3.2 Vision (1120×1120 max) est utilisable pour des tâches simples en local, mais il reste loin des modèles propriétaires sur l'OCR complexe ou l'analyse fine. Pour du déploiement local avec données sensibles, c'est cependant la meilleure option. Pour en savoir plus sur les alternatives open source récentes, consultez notre article sur Qwen3.6 : Alibaba débarque avec une nouvelle famille de modèles LLM.
Comment gérer les images contenant du texte sensible ?
Si les données sont sensibles (factures, documents légaux, données médicales), privilégiez un modèle local (Llama 3.2 Vision) ou vérifiez que le fournisseur de l'API ne conserve pas les données. Anthropic et OpenAI proposent des options de non-rétention pour les plans entreprise.
La vision remplace-t-elle l'OCR classique ?
Pas toujours. Tesseract est gratuit, instantané et fonctionne hors ligne. Pour des documents simples et bien formatés, il reste pertinent. Les LLM vision excellent en revanche sur les documents complexes, manuscrits, ou quand il faut comprendre le contexte sémantique.
Conclusion
La vision IA avec les LLM n'est plus une expérimentation : c'est un outil de production prêt à l'emploi. Que ce soit pour automatiser l'OCR, auditer des interfaces, classifier des images ou extraire des données de graphiques, les modèles comme Claude 3.5 Sonnet, GPT-4o et Gemini 2.0 Flash couvrent l'essentiel des besoins.
La clé réside dans trois pratiques : choisir le bon modèle selon la tâche (ne pas surpayer), optimiser systématiquement la taille des images avant envoi, et structurer les prompts de sortie pour obtenir des résultats directement exploitables. En appliquant ces principes, la vision IA devient un levier de productivité concret et maîtrisé.
```