06 - Scraping intelligent avec l'IA

Automatisation 🟡 Intermédiaire ⏱️ 11 min de lecture 📅 2026-02-24

L'essentiel

Le scraping IA remplace l'analyse fragile du HTML par la compréhension sémantique du contenu via un LLM.
Il fonctionne même si la structure HTML du site cible change, ce qui réduit drastiquement la maintenance.
Le coût est très faible (environ $5 à $15/mois pour un monitoring de 50 produits, selon les chiffres de 2025) grâce à des modèles comme GPT-4o mini.
Il doit toujours respecter le robots.txt, le RGPD, et privilégier les API officielles quand elles existent.

🔄 Scraping classique vs scraping IA

Le scraping classique : fragile et laborieux

Le scraping traditionnel repose sur l'analyse de la structure HTML. Concrètement, on utilise des bibliothèques comme BeautifulSoup en Python pour sélectionner des éléments précis (comme div.product-card ou span.price). L'inconvénient majeur est que cette méthode est extrêmement fragile : si le site modifie ses classes CSS, passe à un framework JavaScript ou renforce ses protections anti-bots, tout le script casse et nécessite une intervention manuelle.

Le scraping IA : comprendre au lieu de parser

Le scraping IA utilise un LLM pour comprendre le contenu de la page, pas sa structure HTML. Le principe est simple : on récupère le texte brut de la page (via un outil comme Jina Reader), puis on l'envoie à un modèle comme GPT-4o mini avec un prompt demandant d'extraire des informations spécifiques au format JSON. Cette approche comprend le contexte (par exemple, distinguer "en rupture" de "en stock") et s'adapte automatiquement si le design de la page évolue.

Comparaison détaillée

Aspect	Scraping classique	Scraping IA
Robustesse	⭐⭐ Casse si le HTML change	⭐⭐⭐⭐⭐ Comprend le contenu
Vitesse	⭐⭐⭐⭐⭐ Très rapide	⭐⭐⭐ Plus lent (appel LLM)
Coût	⭐⭐⭐⭐⭐ Quasi gratuit	⭐⭐⭐ Coût API LLM
Précision	⭐⭐⭐⭐ Si bien codé	⭐⭐⭐⭐ Très bon sur données textuelles
Données structurées	⭐⭐⭐ Demande du travail	⭐⭐⭐⭐⭐ JSON natif
Setup	⭐⭐ Lent (sélecteurs, debug)	⭐⭐⭐⭐⭐ Rapide (prompt + go)
Maintenance	⭐⭐ Casse régulièrement	⭐⭐⭐⭐ Rarement besoin de MAJ
Volume	⭐⭐⭐⭐⭐ Millions de pages	⭐⭐⭐ Limité par coûts/rate limits

💡 La meilleure approche : combiner les deux. Utilisez le scraping classique pour récupérer le contenu brut rapidement, puis l'IA pour l'extraire et le structurer intelligemment.

🛠️ Les outils du scraping IA

1. web_fetch + LLM : la méthode simple

La méthode la plus directe : récupérer le contenu d'une page en texte/markdown, puis le faire analyser par un LLM. On utilise généralement un client HTTP pour interroger un service convertisseur (comme Jina Reader) qui transforme l'URL en markdown propre. Ce texte est ensuite envoyé à l'API d'un modèle de langage avec un prompt système définissant les données à extraire (titre, auteur, date, résumé, etc.) et le format de sortie souhaité.

Si vous utilisez OpenClaw, l'outil web_fetch est intégré nativement. L'agent peut ainsi récupérer une page web et la faire analyser par son LLM interne en une seule instruction, sans écrire une seule ligne de code.

2. Browser automation + IA : pour les sites dynamiques

Pour les sites qui nécessitent JavaScript, scroll, clics, ou authentification, la simple récupération HTTP ne suffit pas. On utilise alors un outil d'automatisation de navigateur (comme Playwright) pour simuler le comportement humain : ouvrir la page, remplir des formulaires, scroller pour charger de nouveaux éléments, puis extraire le texte visible. Ce contenu est ensuite envoyé au LLM pour être structuré en JSON.

OpenClaw intègre un browser automation complet qui peut naviguer, cliquer, remplir des formulaires et extraire des données automatiquement via une simple instruction en langage naturel.

3. API + LLM : la méthode propre

Avant de scraper, vérifiez toujours s'il existe une API ! Beaucoup de sites en proposent (Hacker News, GitHub, etc.). La démarche idéale consiste à interroger l'API officielle pour récupérer les données brutes de manière stable et légale, puis à utiliser un LLM pour analyser, catégoriser ou résumer ces données selon vos besoins.

4. Vision models : scraper des images et captures d'écran

Les modèles vision peuvent « lire » des captures d'écran — utile pour les sites très visuels ou anti-scraping. Le processus consiste à prendre une capture d'écran de la page cible (via un outil comme Playwright), à l'encoder en base64, puis à l'envoyer à un modèle multimodal (comme GPT-4o) avec un prompt demandant d'extraire les données visibles (métriques d'un dashboard, tableaux, graphiques) au format JSON structuré.

📋 Exemples concrets

Exemple 1 : Veille concurrentielle

Surveillez automatiquement les prix et offres de vos concurrents. Le principe consiste à lister les URLs des pages pricing de vos concurrents, à récupérer leur contenu via un convertisseur markdown, puis à envoyer ce texte à un LLM chargé d'extraire les plans tarifaires, les prix mensuels/annuels, les features et les offres spéciales au format JSON. En combinant cette approche avec Cron + IA : automatiser des tâches intelligentes 24/7, vous pouvez lancer cette analyse chaque matin à 8h et recevoir un rapport comparatif automatique. Pour exploiter ensuite ces données, la Générer du contenu automatiquement avec l'IA vous aidera à transformer ce rapport brut en article ou en résumé pour votre équipe.

Exemple 2 : Agrégation d'actualités

Créez votre propre flux d'actualités IA personnalisé. L'approche consiste à parser plusieurs flux RSS de sources tech (TechCrunch, The Verge, Ars Technica), à récupérer titres, liens et résumés, puis à envoyer cette liste brute à un LLM. Le modèle filtre les articles pertinents par rapport à un sujet cible (par exemple "intelligence artificielle"), les résume en français, leur attribue un score de pertinence et des tags, puis les trie par pertinence décroissante.

Exemple 3 : Monitoring de prix

Surveillez les prix de produits et recevez des alertes. Pour chaque produit suivi, un script récupère la page produit, l'envoie au LLM qui extrait le prix actuel, le prix barré, la devise, la disponibilité et les éventuelles promotions. Ces données sont comparées à un prix cible défini au préalable : si le seuil est atteint, une alerte est déclenchée. Pour des cas d'usage avancés de monitoring continu, le sujet rejoint celui du Monitoring serveur avec l'IA : alertes intelligentes, où les mêmes principes d'analyse automatisée et de déclenchement de conditions s'appliquent.

🔄 Automatiser le scraping avec OpenClaw

OpenClaw est particulièrement puissant pour le scraping IA car il combine nativement :
- web_fetch : récupération de pages en markdown
- Browser automation : navigation complète (JS, clics, formulaires)
- LLM intégré : analyse et extraction automatique
- Cron jobs : exécution planifiée

Il permet par exemple de configurer une veille automatique quotidienne : chaque matin à 8h, l'agent scrape vos sources, extrait et catégorise les informations, puis vous envoie un résumé par Telegram ou Discord.

⚖️ Éthique et légalité du scraping

Le cadre légal

Le scraping n'est ni totalement légal ni totalement illégal. Ça dépend de plusieurs facteurs :

Facteur	Légal ✅	Risqué ⚠️	Illégal ❌
Données	Publiques, non personnelles	Publiques mais personnelles	Privées, derrière login
Usage	Recherche, usage personnel	Commercial, agrégation	Revente, spam
Volume	Raisonnable	Intensif	DoS / surcharge serveur
robots.txt	Respecté	Partiellement respecté	Ignoré
CGU du site	Conformes	Zone grise	Violation explicite
Région	Variable	RGPD (données perso)	CFAA (USA, accès non autorisé)

Les règles d'or du scraping éthique

Un scraper éthique doit respecter plusieurs règles fondamentales. D'abord, s'identifier clairement avec un User-Agent incluant un contact (ex: MonBot/1.0 ([email protected])). Ensuite, toujours vérifier le robots.txt du site cible avant de scraper, via un parser dédié. Il faut aussi implémenter un rate limiting d'au moins 1 à 2 secondes entre chaque requête, et respecter les codes HTTP (notamment le 429 Too Many Requests, qui impose d'attendre avant de réessayer).

Checklist avant de scraper

☐ Vérifié robots.txt du site
☐ Lu les CGU / ToS du site
☐ Pas de données personnelles (ou RGPD respecté)
☐ Rate limiting implémenté (min 1-2 sec entre requêtes)
☐ User-Agent identifiant avec contact
☐ API officielle vérifiée (préférer si disponible)
☐ Usage légitime (recherche, veille, pas de revente)
☐ Pas de contournement de protection (captcha, login)
☐ Stockage sécurisé des données collectées
☐ Politique de rétention définie (pas de stockage infini)

RGPD et données personnelles

Si vous scrapez des données contenant des informations personnelles (noms, emails, photos...) en Europe, le RGPD s'applique :

Base légale nécessaire (intérêt légitime, consentement...)
Droit à l'effacement : les personnes peuvent demander la suppression
Minimisation : ne collectez que ce qui est nécessaire
Sécurité : protégez les données collectées
DPO : désignez un responsable si traitement à grande échelle

Alternatives au scraping

Avant de scraper, explorez ces alternatives :

Alternative	Avantage
API officielle	Légal, structuré, stable
Datasets publics	Prêt à l'emploi, souvent gratuit
Partenariats data	Accès légal à des données premium
RSS/Atom feeds	Flux d'actualités structurés
Common Crawl	Archive web ouverte (pétaoctets)
Data marketplaces	Données pré-scrapées, légales

🚀 Architecture d'un système de scraping IA

Pour un projet de scraping IA en production, voici l'architecture recommandée :

┌──────────────────────────────────────────────────┐
│                  ORCHESTRATEUR                    │
│            (Cron / OpenClaw / Airflow)            │
└──────────────┬───────────────────┬───────────────┘
               │                   │
       ┌───────▼───────┐   ┌──────▼────────┐
       │   COLLECTE    │   │   COLLECTE    │
       │  (web_fetch)  │   │  (browser)    │
       │  Sites simples│   │  Sites JS/SPA │
       └───────┬───────┘   └──────┬────────┘
               │                   │
               └─────────┬─────────┘
                         │ HTML/Markdown brut
                ┌────────▼────────┐
                │   EXTRACTION    │
                │  (LLM / GPT-4o │
                │   mini)         │
                └────────┬────────┘
                         │ JSON structuré
                ┌────────▼────────┐
                │   STOCKAGE      │
                │  (PostgreSQL /  │
                │   SQLite)       │
                └────────┬────────┘
                         │
              ┌──────────┼──────────┐
              │          │          │
       ┌──────▼──┐ ┌────▼────┐ ┌──▼───────┐
       │ ALERTES │ │ ANALYSE │ │ DASHBOARD│
       │ (email, │ │ (trends,│ │ (Grafana,│
       │ Telegram)│ │  LLM)   │ │  custom) │
       └─────────┘ └─────────┘ └──────────┘

Estimation des coûts

Composant	Volume	Coût mensuel
web_fetch (100 pages/jour)	3 000 pages/mois	~$0 (self-hosted)
LLM extraction (GPT-4o mini)	3 000 appels × 2K tokens	~$1.50
Browser automation (si nécessaire)	Serveur + Playwright	~$5-10
Stockage (SQLite/PostgreSQL)	< 1 GB	~$0
Total		~$5-15/mois

Pour un monitoring de prix sur 50 produits, 3 fois par jour, le coût IA est d'environ $5/mois — bien moins qu'un abonnement à un service de monitoring commercial.

Erreurs courantes

Ignorer le robots.txt : c'est la première cause de blocage ou de problème légal. Toujours vérifier avant de scraper.
Utiliser un modèle trop puissant : GPT-4o mini ou Claude Haiku suffisent largement pour l'extraction de données. Utiliser Opus fait exploser les coûts sans gain de précision notable.
Oublier le rate limiting : envoyer des centaines de requêtes par seconde peut surcharger le serveur cible, déclencher des bannissements d'IP, voire constituer une attaque DOS involontaire.
Scrapez sans vérifier l'API : beaucoup de sites proposent une API officielle ou un flux RSS. Les ignorer conduit à du travail inutile et fragile.
Stocker les données indéfiniment : le RGPD exige une politique de rétention. Ne gardez les données que le temps nécessaire.

Outils recommandés

Outil	Usage	Prix
Jina Reader	Convertir une URL en markdown propre	Gratuit
GPT-4o mini	Extraction et structuration de données	~$0.15/1M tokens input
Playwright	Browser automation (sites JS)	Gratuit
OpenClaw	Agent IA tout-en-un (fetch + browser + cron)	Variable
Feedparser	Parser des flux RSS/Atom	Gratuit
SQLite / PostgreSQL	Stockage des données extraites	Gratuit

FAQ

Le scraping IA remplace-t-il totalement le scraping classique ?
Non. Le scraping classique reste plus rapide et moins coûteux pour des volumes très élevés. L'idéal est de combiner les deux : récupération classique du contenu brut, puis extraction IA.

Est-ce légal de scraper des prix concurrents ?
Oui, si les données sont publiques, que vous respectez le robots.txt et les CGU, et que le volume de requêtes reste raisonnable. En revanche, revendre ces données ou les utiliser pour du spam est illégal.

Quel modèle LLM choisir pour l'extraction ?
GPT-4o mini ou Claude Haiku sont parfaits pour ça : rapides, peu coûteux, et excellentes en structured output (JSON). Pas besoin de modèles premium.

Combien ça coûte en production ?
Entre $5 et $15/mois pour un usage modéré (100 pages/jour avec extraction LLM), selon les estimations de 2025. Le coût grimpe principalement si vous utilisez le browser automation ou des modèles vision.

Conclusion

Le scraping IA rend accessible à tous ce qui nécessitait auparavant des développeurs spécialisés. Avec un LLM et quelques lignes de code, vous pouvez extraire, structurer et analyser des données web de manière fiable et maintenable.

Mais n'oubliez pas : avec un grand pouvoir vient une grande responsabilité. Scrapez de manière éthique, respectez les sites et les données personnelles, et privilégiez toujours les API officielles quand elles existent.

#Données #IA (intelligence artificielle) #Python #Scraping

📚 Articles liés

Automatisation 🟡 Intermédiaire 16 min

01 - Générer du contenu automatiquement avec l'IA

Pipeline complet de génération de contenu IA : brief, rédaction, SEO, traduction, images. Night worker pattern et review humaine pour un contenu de qualité.

2026-02-24 09:51