MiroFish : un undergrad construit 700 000 agents IA en 10 jours — ce projet open source prédit l'avenir et explose sur GitHub
🔎 10 jours, 700 000 agents, 42K étoiles
En mars 2026, un étudiant undergrad a publié sur GitHub un moteur de prédiction multi-agent construit en dix jours. Le résultat : 700 000 agents IA avec des personnalités, des mémoires et des connexions sociales distinctes, lâchés dans un monde digital qui simule Twitter et Reddit.
MiroFish a atteint le #1 GitHub Global Trending en quelques heures, engrangeant 42 000+ étoiles et 4 millions de dollars de financement en 24 heures portés par Shanda Group (Chen Tianqiao). Le projet revendique des prédictions "effrayamment précises" sur les marchés financiers, les élections et l'opinion publique.
Sauf qu'on a déjà vu ce genre de promesse. La question n'est pas de savoir si la technologie est impressionnante — elle l'est. C'est de savoir si les prédictions tiennent la route, ou si c'est un nouveau mirage algorithmique habillé en révolution.
L'essentiel
- MiroFish est un moteur de simulation multi-agent open source qui construit un monde digital haute fidélité à partir de données du monde réel (news, signaux financiers, discussions politiques).
- Chaque agent possède une personnalité générée, une mémoire persistante et une logique comportementale propre. Le système simule des plateformes comme Twitter et Reddit pour observer l'émergence de dynamiques sociales.
- Le projet a atteint 42K+ étoiles GitHub, #1 Trending mondial, et a levé 4M$ en 24h — mais des voix critiques interrogent la validité réelle des prédictions produites.
- Un fork communautaire, MiroFish-Offline, permet le self-hosting complet avec Neo4j et Ollama, sans dépendance cloud.
Outils recommandés
| Outil | Usage principal | Prix (juin 2026, vérifiez sur site.com) | Idéal pour |
|---|---|---|---|
| MiroFish | Simulation multi-agent de prédiction | Open source (MIT) | Prédire opinion publique et marchés |
| MiroFish-Offline (fork) | Self-hosting MiroFish avec Ollama + Neo4j | Open source | Déploiement 100% local,隐私 |
| Crawl4AI | Extraction de données web pour alimenter les agents | Open source | Pipeline RAG et collecte de seeds |
| GenericAgent | Agent IA qui construit son arbre de compétences | Open source | Agents auto-évolutionnaires |
Comment fonctionne MiroFish — l'architecture démontée
MiroFish ne fait pas de prédiction au sens classique. Il construit un monde digital, y injecte des agents, et observe ce qui émerge. La prédiction est un sous-produit de la simulation, pas un calcul direct.
L'architecture se décompose en trois phases distinctes, documentées sur le repo GitHub et analysées par Beitroot.
Phase 1 — Graph Building (extraction et injection)
Le système extrait des "seeds" du monde réel : articles de presse, posts politiques, signaux financiers. Ces seeds sont transformées en nœuds d'un knowledge graph via GraphRAG.
Chaque seed reçoit une injection de mémoire contextuelle. Ce n'est pas un simple indexing — le système crée des relations sémantiques entre les événements, les entités et les sentiments.
Phase 2 — Environment Setup (génération de personas)
C'est ici que MiroFish diverge des approches classiques. Chaque agent reçoit une persona générée procéduralement : âge, profession, biais cognitifs, affinités politiques, niveau d'éducation, réseau social initial.
Les personas ne sont pas aléatoires. Elles sont calibrées pour reproduire les distributions démographiques réelles de la population étudiée. Un agent n'est pas un LLM avec un system prompt — c'est une entité avec une cohérence interne persistante.
Phase 3 — Simulation (émergence et consensus)
Les agents interagissent sur des plateformes simulées (Twitter-like, Reddit-like) avec des mémoires temporelles. Ils lisent des posts, réagissent, modifient leurs opinions, forment des clusters.
Le consensus swarm-generated émerge de ces interactions. C'est ce consensus qui constitue la "prédiction" — pas un output direct d'un modèle.
Cette approche par émergence est fondamentalement différente d'un meilleur agent IA autonome qui raisonnerait seul sur un problème. Ici, c'est la foule numérique qui produit le signal.
700 000 agents en 10 jours : le vibe coding comme méthode
L'histoire de la création est presque aussi intéressante que le produit. Selon ABHS, un étudiant undergrad a construit MiroFish en 10 jours via ce qu'on appelle désormais le "vibe coding" — coder en délégant massivement à l'IA.
Le précédent du même créateur, BettaFish, avait déjà atteint le #1 GitHub Trending avec un outillage multi-agent centré sur l'opinion publique. MiroFish en est l'extension : là où BettaFish instrumentait, MiroFish simule.
Le chiffre de 700 000 agents n'est pas théorique. C'est le maximum atteint lors des runs de démonstration, chaque agent tournant avec sa propre session de mémoire et sa logique comportementale. En pratique, les runs de production utilisent entre 10 000 et 100 000 agents selon la complexité du scénario.
Ce qui est frappant, c'est la vitesse de développement. Dix jours pour un système de simulation multi-agent production-grade avec knowledge graph, mémoire persistante et dual-platform simulation. Le vibe coding change la donne sur ce qu'un individu seul peut produire.
Que valent vraiment les prédictions ?
C'est le nœud du problème. House of Ethics publie une analyse critique qui pose la bonne question : simuler des dynamiques sociales, est-ce prédire ?
Le biais de la simulation
Un agent MiroFish est un LLM avec une persona. Un LLM reproduit les biais de ses données d'entraînement. Donc un swarm de 100 000 agents LLM reproduit systématiquement les biais de ses données d'entraînement — pas ceux de la population réelle.
La simulation peut être cohérente interne sans être calibrée externe. Les agents peuvent former des clusters d'opinion stables, des cascades informationnelles réalistes, des dynamiques de polarisation convaincantes — et se tromper systématiquement sur le résultat réel.
La comparaison avec Polymarket
Polymarket agrège des paris réels avec de l'argent en jeu. Les incitations économiques créent un mécanisme de correction des biais. MiroFish n'a aucun mécanisme de correction — les agents n'ont rien à perdre.
Quand Moneycontrol qualifie les résultats de "scarily accurate", il faut regarder quels résultats, sur quel échantillon, avec quel benchmark. Les démonstrations publiques sont impressionnantes visuellement. Les validations statistiques rigoureuses sont, pour l'instant, absentes des publications du projet.
Ce que la simulation fait bien
Malgré ces réserves, l'approche a une valeur réelle. Elle permet d'explorer des scénarios contrefactuels : que se passe-t-il si telle information leak à telle heure ? Comment un cluster d'opinion réagit-il à un changement de narratif ?
C'est un outil de sensibilisation aux dynamiques, pas un oracle. La distinction est cruciale.
Applications concrètes : opinion publique, marchés, comportement de foule
Opinion publique et élections
C'est le cas d'usage phare mis en avant par Emelia. MiroFish simule un écosystème médiatique complet, injecte un événement (débat, scandale, annonce), et observe comment l'opinion des agents se restructure.
L'avantage sur les sondages traditionnels : coût quasi nul, résultats instantanés, capacité de tester des scénarios multiples. L'inconvénient : aucune garantie que la distribution des personas correspond à la population réelle.
Marchés financiers
Les agents reçoivent des signaux financiers comme seeds et interagissent avec des "sentiments de marché" simulés. Le consensus swarm peut indiquer une direction — mais là encore, les marchés réels ont des mécanismes (liquidité, contraintes réglementaires, irrationalité structurelle) qu'une simulation de plateforme sociale ne capture pas.
Comportement de foule
C'est potentiellement l'application la plus valide. Comprendre comment une rumeur se propage, comment des clusters extrémistes se forment, comment un narratif bascule — ces dynamiques émergentes sont précisément ce que la simulation multi-agent peut modéliser de façon utile.
Cette approche rejoint les travaux sur les meilleurs LLM pour les agents IA, où la capacité de raisonnement social du modèle sous-jacent détermine la qualité de la simulation.
MiroFish-Offline : le fork 100% local avec Ollama et Neo4j
Pour la communauté open source, le vrai point d'entrée c'est MiroFish-Offline. Ce fork communautaire remplace les dépendances cloud par une stack entièrement locale :
- Ollama pour l'inférence LLM locale. Pour ceux qui connaissent déjà les agents IA open source avec Ollama en local, le setup est familier.
- Neo4j comme base de données graph pour le knowledge graph et les relations entre agents.
- Architecture simplifiée qui conserve le cœur de la simulation (persona generation, temporal memory, dual-platform) sans les API externes.
L'intérêt est double : confidentialité totale des données (pas de seeds envoyées à un tiers) et coût zéro en inference. Le compromis est évident — les modèles locaux sont moins performants que GPT-5.5 ou Claude Opus 4.7 pour la génération de personas nuancées.
Pour un run de 10 000 agents avec un modèle comme Kimi K2.6 Moonshot AI en self-host, il faut une machine sérieuse : minimum 64 Go de RAM, idéalement un setup GPU multi-cartes. Ce n'est pas un jouet de Raspberry Pi.
MiroFish dans l'écosystème des agents IA — où ça se situe
MiroFish n'est pas un agent. C'est un moteur d'agents — une couche d'orchestration qui crée, configure et fait interagir des milliers d'entités autonomes.
Différence avec les agents autonomes classiques
Un agent autonome comme ceux qu'on retrouve dans les meilleurs agents IA autonomes a un objectif, un plan, des outils. Il agit dans le monde réel (recherche web, exécution de code, appels API).
Un agent MiroFish agit dans un monde simulé. Il n'a pas d'outils externes. Son unique output est son comportement social dans l'environnement synthétique. La valeur n'est pas dans l'action de l'agent individuel, mais dans le pattern qui émerge de la foule.
Le lien avec les search agents
L'approche rappelle ce que fait OpenSeeker-v2 dans le domaine de la recherche : utiliser plusieurs agents avec des stratégies différentes pour produire un résultat qui dépasse la somme des parties. Mais là où OpenSeeker-v2 recherche dans le web réel, MiroFish simule un web synthétique.
L'apport de l'approche OASIS (CAMEL-AI)
MiroFish est basé sur OASIS, un framework de CAMEL-AI conçu pour les simulations sociales multi-agent. OASIS fournit l'infrastructure de base (environnement, boucle d'interaction, mécanismes de mémoire) que MiroFish étend avec le graph building, l'extraction de seeds et la génération de rapports de prédiction.
Architecture technique détaillée — ce qui se passe sous le capot
D'après l'analyse de Medium et la documentation du repo, voici les composants clés.
Knowledge Graph et GraphRAG
Le knowledge graph n'est pas statique. Il évolue au fil de la simulation : chaque interaction entre agents crée de nouveaux nœuds et arêtes. Le GraphRAG sert à la fois de stockage et de mécanisme de raisonnement — les agents peuvent "remonter" dans leur propre historique social.
Temporal Memory
Chaque agent a une mémoire temporelle qui dégrade naturellement. Les événements récents pèsent plus que les anciens, comme chez les humains. Ce mécanisme empêche les agents de devenir des bases de données parfaites et introduit le biais de récence — un biais humain que la simulation cherche justement à reproduire.
Dual-Platform Simulation
Les agents interagissent simultanément sur deux plateformes simulées avec des cultures différentes (l'une Twitter-like, courte et réactive ; l'autre Reddit-like, plus longue et délibérative). Un même agent peut se comporter différemment sur chaque plateforme — exactement comme dans la réalité.
Rapport de prédiction
À la fin de la simulation, le système agrège les états mentaux des agents, les clusters d'opinion, les dynamiques de polarisation, et produit un rapport structuré. C'est ce rapport qui est présenté comme "la prédiction".
Alimentation en données : le rôle critique du crawling
Une simulation multi-agent n'est aussi bonne que les données qui l'alimentent. Les seeds extraites du monde réel déterminent la qualité de l'environnement synthétique.
C'est là que des outils comme Crawl4AI deviennent pertinents. Un pipeline robuste de collecte web est un prérequis pour MiroFish : il faut des news fraîches, des discussions actuelles, des signaux financiers en temps réel.
Le repo MiroFish inclut des connecteurs basiques, mais en production, la plupart des utilisateurs sérieux construisent leur propre pipeline d'alimentation. La qualité du crawling est le facteur limitant numéro un de la précision de la simulation.
Modèles sous-jacents : quel LLM pour quels agents
Le choix du modèle behind each agent impacte directement la qualité de la simulation. Un modèle avec un score agentic élevé produira des comportements plus nuancés et cohérents.
| Modèle | Score agentic | Pertinence pour MiroFish |
|---|---|---|
| GPT-5.5 (OpenAI) | 98.2 | Meilleure qualité de persona, coût élevé à l'échelle |
| Gemini 3 Pro Deep Think (Google) | 95.4 | Bon rapport qualité/prix pour le raisonnement social |
| Claude Opus 4.7 Adaptive (Anthropic) | 94.3 | Excellent pour les nuances d'opinion et le contexte long |
| Kimi K2.6 Moonshot AI (Self-host) | 88.1 | Meilleur choix self-hosted pour MiroFish-Offline |
| Claude Sonnet 4.6 (Anthropic) | 81.4 | Bon compromis coût/qualité pour les runs volumiques |
En pratique, les utilisateurs de MiroFish-Offline avec Ollama se tournent vers Kimi K2.6 ou GLM-5 (Reasoning) de Z.AI, les meilleurs modèles agentic disponibles en self-host. Pour les runs cloud avec 100K+ agents, GPT-5.3 Codex offre un bon équilibre entre coût et cohérence comportementale.
Hébergement et infrastructure
MiroFish n'est pas un outil SaaS. C'est un framework qu'on déploie soi-même. L'infrastructure nécessaire dépend directement du nombre d'agents et du modèle choisi.
En cloud
Pour un run de 50 000 agents avec GPT-5.4 Pro, le coût d'API peut monter vite. Il faut un orchestrateur de jobs (typiquement un cluster Kubernetes), un bucket de stockage pour les états intermédiaires, et un monitoring sérieux — 50 000 sessions LLM simultanées, ça ne se gère pas sur un laptop.
Un hébergement comme Hostinger suffit pour les petits runs (1 000-5 000 agents) et le déploiement de l'interface de visualisation. Pour la production sérieuse, il faudra regarder du côté de fournisseurs GPU spécialisés.
En local
MiroFish-Offline avec Ollama + Neo4j tourne sur une machine beefy. 64 Go de RAM minimum, GPU avec 24+ Go de VRAM pour le modèle, SSD rapide pour le graph. C'est un setup de développeur sérieux, pas un weekend project.
❌ Erreurs courantes
Erreur 1 : Confondre simulation et prédiction
C'est l'erreur fondamentale. MiroFish simule des dynamiques sociales. La prédiction est un sous-produit de la simulation, pas son but premier. Traiter le rapport de sortie comme un oracle est une erreur de catégorisation.
La solution : utiliser MiroFish comme outil d'exploration de scénarios, pas comme crystal ball. Les outputs sont des indicateurs de tendance, pas des probabilités calibrées.
Erreur 2 : Négliger la qualité des seeds
Une simulation avec des seeds biaisées ou obsolètes produit un monde digital déconnecté de la réalité. Le garbage in, garbage out s'applique avec une force décuplée en simulation multi-agent — car le biais est amplifié par les interactions.
La solution : investir dans un pipeline de crawling robuste et actualisé. Crawl4AI ou un équivalent est un prérequis, pas un optionnel.
Erreur 3 : Utiliser un modèle trop faible en self-host
Lancer MiroFish-Offline avec un petit modèle 7B produira des agents aux comportements répétitifs et peu réalistes. La qualité de la simulation dépend directement de la capacité de raisonnement social du modèle.
La solution : viser un modèle agentic score 80+ minimum. Kimi K2.6 en self-host est le plancher raisonnable.
Erreur 4 : Interpréter la cohérence interne comme de la validité externe
Si les agents forment des clusters stables et des opinions cohérentes, la simulation semble valide. Mais la cohérence interne est une condition nécessaire, pas suffisante. Un groupe de LLM peut être cohérent et systématiquement faux.
La solution : toujours valider les prédictions MiroFish contre des données réelles ex-post. Ne jamais déployer sans backtesting.
❓ Questions fréquentes
MiroFish remplace-t-il les sondages d'opinion ?
Non. Les sondages mesurent directement l'opinion réelle. MiroFish simule l'opinion synthétique. Les deux approches sont complémentaires, mais la simulation ne remplace pas l'échantillonnage empirique. Elle l'enrichit en permettant de tester des scénarios contrefactuels.
Peut-on vraiment faire tourner 700 000 agents ?
En théorie oui, avec une infrastructure cloud massive et un budget API conséquent. En pratique, les runs publiquement documentés tournent entre 10 000 et 100 000 agents. Le chiffre 700K est le maximum technique atteint lors d'une démonstration, pas un usage courant.
MiroFish-Offline est-il vraiment utilisable sans cloud ?
Oui, avec les bonnes ressources matérielles. Le fork remplace toutes les dépendances cloud par Ollama et Neo4j. Le compromis est sur la qualité des personas (modèles locaux moins performants) et le temps de simulation (inference locale plus lente).
Quelle est la différence entre MiroFish et BettaFish ?
BettaFish, le projet précédent du même créateur, était un outillage d'analyse multi-agent de l'opinion publique. MiroFish va plus loin en construisant un monde digital complet avec simulation de plateformes sociales et génération de rapports prédictifs. C'est l'évolution d'un outil d'analyse vers un moteur de simulation.
Les prédictions de MiroFish ont-elles été validées scientifiquement ?
Pas à notre connaissance. Les démonstrations publiques sont qualitatives ("scarily accurate" selon Moneycontrol). Il n'existe pas, en juin 2026, de papier peer-reviewed validant la précision prédictive du système sur un échantillon représentatif et avec une méthodologie reproductible.
✅ Conclusion
MiroFish est un projet d'ingénierie impressionnant — 10 jours, 42K étoiles, une architecture de simulation multi-agent qui repousse les limites du vibe coding. Mais entre la démonstration technologique et la prédiction fiable, il y a un fossé que ni le buzz GitHub ni les 4M$ de financement ne comblent. Utilisez-le pour explorer les dynamiques d'émergence sociale, pas pour parier votre portefeuille sur le résultat. Et si vous voulez expérimenter sans dépendance cloud, le fork MiroFish-Offline avec Ollama est le meilleur point d'entrée.