Groq lève 650 millions de dollars et pivote vers le neocloud : la survie de l'ex-fleuron des puces IA après que Nvidia a raflé son âme pour 20 milliards
🔎 650 millions pour une entreprise dont on annonçait la mort il y a six mois
Lundi 23 juin 2026, Groq a confirmé une levée de fonds de 650 millions de dollars pour se reconvertir en néocloud d'inférence IA. C'est un rebond spectaculaire pour une entreprise que tout le monde croyait finie.
Six mois plus tôt, Nvidia payait 20 milliards de dollars pour un deal que la presse a qualifié de « not-acqui-hire ». L'architecture LPU — le cœur de Groq — atterrissait chez le géant vert. Le CEO Jonathan Ross, le président Sunny Madra et l'essentiel de l'équipe technique suivaient le mouvement.
Groq n'était plus qu'une coquille vide avec une marque. Sauf que non. L'entreprise vient de prouver le contraire avec cette levée menée par Disruptive et Infinitum, et un nouveau management parachuté de xAI et Meta.
Pourquoi maintenant ? Parce que le marché de l'inférence IA explose et que même sans ses puces originales, Groq possède encore quelque chose que les autres n'ont pas : un écosystème d'API ultra-rapide, une base de développeurs fidèles, et une marque associée à la vitesse d'inférence.
L'essentiel
- Groq lève 650 M$ (juin 2026, vérifiez sur groq.com) pour pivoter du hardware vers le neocloud d'inférence, mené par Disruptive et Infinitum.
- Nvidia a raflé l'architecture LPU, le CEO Jonathan Ross et les ingénieurs clés pour 20 Md$ six mois plus tôt — un deal « not-acqui-hire » qui a vidé Groq de son âme technique.
- Le nouveau CEO Adam Winter arrive de xAI/Meta, accompagné d'un CTO et d'un CPO fondateurs d'entreprises cloud, pour bâtir un néocloud sans puces propriétaires.
- Groq doit désormais concurrencer Cerebras, SambaNova et les hyperscalers sur le terrain de l'inférence cloud — un marché où la marge d'erreur est quasi nulle.
Outils recommandés
| Groq Cloud | Inférence IA à très basse latence | Gratuit / sur devis (juin 2026, vérifiez sur groq.com) | Développeurs cherchant la vitesse brute |
|---|---|---|---|
| Meilleurs LLM gratuits | Comparatif des LLM accessibles sans abonnement | Gratuit | Débutants et tests rapides |
| APIs IA gratuites | APIs d'inférence sans frais (Groq, Google, OpenRouter) | Gratuit | Projets perso et prototypage |
Le deal de 20 milliards : comment Nvidia a « not-acqui-hiré » Groq
Nvidia n'a pas acheté Groq. C'est le point crucial. Un acqui-hire classique implique une acquisition suivie d'une fermeture de la cible. Ici, Nvidia a payé 20 milliards de dollars pour obtenir l'accès à l'architecture LPU et embaucher les talents clés — sans racheter l'entité juridique.
Le CEO fondateur Jonathan Ross est parti. Le président Sunny Madra aussi. La majorité des ingénieurs qui ont conçu les puces LPU ont rejoint les bureaux de Nvidia.
Selon TechCrunch, ce deal a laissé Groq dans un état de « coquille opérationnelle » — une entreprise avec un nom, des serveurs, et très peu de gens pour les faire tourner.
C'est sans doute l'opération la plus agressive de Jensen Huang depuis le rachat de Mellanox en 2020. Sauf qu'ici, l'objectif n'était pas un portefeuille de brevets réseau, mais l'élimination pure et simple d'un concurrent gênant sur le terrain de l'inférence.
Cette manœuvre s'inscrit dans la stratégie d'investissement massif de Nvidia. L'entreprise verse 40 milliards de dollars dans l'IA en 2026, et investit 150 milliards de dollars par an à Taïwan pour sécuriser sa chaîne d'approvisionnement. Le deal Groq s'ajoute à cette logique de domination par tous les moyens.
Ce qu'était Groq avant le drame : les LPU et la promesse de la vitesse
Groq n'était pas un acteur mineur. Fondée en 2016 par Jonathan Ross — un ancien de l'équipe TPU chez Google — l'entreprise avait développé une puce d'inférence radicalement différente des GPU de Nvidia.
Le LPU (Language Processing Unit) était conçu pour une seule chose : exécuter des modèles de langage le plus vite possible. Pas de graphisme, pas de calcul scientifique générique. Juste l'inférence séquentielle de transformers.
Le résultat ? Des vitesses d'inférence jusqu'à 24x supérieures à celles des GPU conventionnels pour certains workloads. Groq avait installé des clusters de puces LPU dans ses datacenters et proposait des APIs gratuites via son cloud.
Les développeurs adorent la vitesse. Groq est devenu l'un des piliers de l'écosystème d'inférence low-latence, au point de figurer en bonne place dans les comparatifs d'APIs IA gratuites et de meilleurs LLM gratuits.
La promesse était simple : remplacer la bruteforce des GPU par l'élégance d'un silicium spécialisé. Ça marchait sur le papier. Sur le terrain, Groq a rencontré les mêmes murs que tous les challengers hardware : la fabrication, les coûts, et le monopole de l'écosystème CUDA de Nvidia.
Le nouveau Groq : un management parachuté de xAI et Meta
Après le départ de Ross et Madra, il fallait reconstruire de zéro. Groq l'a fait en puisant dans les deux écosystèmes les plus agressifs du moment : xAI et Meta.
Adam Winter prend la direction générale en tant que nouveau CEO. Il vient de xAI — la société d'Elon Musk — où il a supervisé des infrastructures de calcul à très grande échelle. Avant ça, il a passé des années chez Meta sur les plateformes cloud.
Le nouveau COO est un vétéran de la même combinaison xAI/Meta. Le CTO et le CPO sont des fondateurs d'entreprises cloud qui ont déjà bâti et scalé des infrastructures de ce type.
Ce n'est pas un hasard. Groq ne recrute pas des gens de hardware. Elle recrute des gens de cloud. Le signal est clair : l'entreprise ne va pas concevoir de nouvelles puces. Elle va acheter de la puissance de calcul wherever she can et la revendre sous forme de service d'inférence.
Selon Startup Fortune, cette équipe a été assemblée en un temps record — moins de quatre mois — ce qui suggère que les conversations avaient commencé avant même que le deal Nvidia ne soit finalisé.
Le pivot néocloud : inférence sans puces propriétaires
Voilà le nœud du problème. Groq était une entreprise de puces. Ses puces sont désormais chez Nvidia. Que reste-t-il ?
Il reste le cloud. Groq possède une infrastructure de datacenters, des contrats avec des fournisseurs de compute, et surtout une API que des milliers de développeurs utilisent déjà. Le pivot consiste à exploiter cet actif logiciel sans dépendre du silicium maison.
Concrètement, Groq va acheter des puces — probablement des GPU Nvidia, ironiquement — et les optimiser pour l'inférence. Le jeu n'est plus sur le hardware mais sur la couche logiciel : orchestration, routing intelligent entre modèles, mise en cache, optimisation du batching.
C'est le modèle de Cerebras, de SambaNova, et d'une demi-douzaine de néoclouds qui émergent en 2026. La différence, c'est que ces concurrents ont encore leurs puces. Groq doit prouver qu'on peut gagner sur le logiciel seul.
FourWeekMBA analyse ce pivot comme un « pari sur la commoditisation du hardware IA » — l'idée que les puces deviendront interchangeables et que la vraie valeur se situera dans la couche d'abstraction au-dessus.
C'est une thèse séduisante. Mais elle n'a encore été prouvée par personne à grande échelle.
Le marché de l'inférence en 2026 : un champ de bataille surpeuplé
Groq ne débarque pas sur un marché vide. L'inférence IA est devenu le segment le plus disputé de toute l'industrie technologique.
Cerebras vend de l'inférence sur ses puces WSE avec une promesse de vitesse comparable à ce que Groq offrait. SambaNova a pivoté vers un modèle de néocloud après des années de ventes hardware décevantes. Les hyperscalers — AWS, Google Cloud, Azure — proposent tous des services d'inférence optimisés.
Et puis il y a les modèles eux-mêmes. En juin 2026, le classement des LLM est dominé par Gemini 3.1 Pro (Google, score 92), GPT-5.5 (OpenAI, 91) et Claude Opus 4.7 Adaptive (Anthropic, 90). Grok 4.1 de xAI pointe à 90. Ces modèles tournent déjà sur les infrastructures de leurs créateurs.
En agentic, GPT-5.5 domine avec 98.2, suivi de Gemini 3 Pro Deep Think à 95.4 et Claude Opus 4.7 à 94.3. Kimi K2.6 de Moonshot AI se distingue en self-host à 88.1 — un score remarquable pour un modèle open-weight qui pourrait très bien tourner sur l'infrastructure de néoclouds comme celle que Groq construit.
La question pour Groq n'est pas « peut-on faire tourner ces modèles ? » mais « pourquoi un développeur choisirait-il Groq plutôt que l'API native d'OpenAI ou de Google ? ».
Les 650 millions : à quoi ça sert exactement ?
Une levée de 650 millions de dollars, c'est considérable. Mais dans le monde de l'inférence IA en 2026, ça ne dure pas longtemps si on malinvestit.
D'après le communiqué de Groq, les fonds sont alloués à trois priorités :
Premièrement, l'expansion de l'infrastructure cloud. Groq doit déployer des clusters de compute dans plusieurs régions pour offrir une latence acceptable au niveau mondial. Chaque cluster coûte des dizaines de millions en hardware seul.
Deuxièmement, le recrutement massif. L'entreprise a perdu l'essentiel de son équipe technique. Elle doit embaucher des ingénieurs système, des spécialistes de l'orchestration de modèles, et des experts en optimisation d'inférence. Avec le marché de l'emploi IA tel qu'il est en 2026, les salaires sont astronomiques.
Troisièmement, le développement de la couche logiciel. C'est le vrai différenciateur potentiel. Groq construit un système de routing qui dirige automatiquement chaque requête vers le modèle et l'infrastructure les plus adaptés — un peu comme ce que fait OpenRouter mais avec une optimisation beaucoup plus profonde au niveau système.
650 millions, c'est environ 18 mois de runway si Groq dépense à un rythme « néocloud ». Pas de quoi construire un empire, mais assez pour prouver le modèle ou mourir en essayant.
Cerebras vs SambaNova vs Groq : le comparatif des néoclouds d'inférence
Le marché des néoclouds d'inférence spécialisés se structure autour de trois acteurs majeurs. Chacun a une stratégie différente.
| Acteur | Avantage principal | Inconvénient majeur | Modèle économique |
|---|---|---|---|
| Cerebras | Puces WSE propriétaires, vitesse brute | Dépendance au hardware maison, coûts de R&D | Néocloud + ventes hardware |
| SambaNova | Architecture reconfigurable, flexibilité | Pivot récent, incertitude sur le scaling | Néocloud principalement |
| Groq | Marque forte, base développeurs, API existante | Plus de puces propriétaires, dépendance aux GPU tiers | Néocloud pur, couche logiciel |
Cerebras a l'avantage du silicium. Ses puces WSE-3 sont les plus grandes jamais fabriquées, et l'entreprise contrôle toute la stack. SambaNova a pivoté plus tôt et a déjà des clients entreprise en production.
Groq est le seul des trois à ne plus avoir de secret sauce matérielle. Son pari est que le logiciel d'orchestration peut créer plus de valeur que le silicium custom. C'est audacieux. C'est aussi risqué au-delà du raisonnable.
Il faut noter que ces trois acteurs sont minuscules comparés aux hyperscalers. Le supercalculateur chinois Lineshine, qui a détrôné El Capitan au Top500 de juin 2026, représente à lui seul plus de puissance de calcul que tous les néoclouds d'inférence réunis. L'échelle joue en faveur des géants.
Le rôle de l'écosystème : pourquoi les développeurs pourraient rester
Malgré tout, Groq a un atout que l'argent ne peut pas acheter : la fidélité des développeurs.
Pendant deux ans, l'API Groq a été l'une des seules à offrir de l'inférence gratuite sur des modèles de qualité. Des milliers de projets open-source, de demos et de prototypes ont été construits sur cette API. Changer d'inférence, c'est modifier du code, retester, redéployer. Beaucoup de développeurs préfèrent rester si le service reste bon.
Groq l'a compris. La stratégie consiste à maintenir un tier gratuit généreux — exactement comme ce qui est décrit dans les guides d'APIs IA gratuites — pour conserver cette base utilisateur pendant la transition.
L'entreprise mise aussi sur la diversité des modèles. Plutôt que d'être lié à un seul fournisseur de modèles, Groq propose déjà GPT-5.4 d'OpenAI, Claude Sonnet 4.6 d'Anthropic, Gemini 3.1 Pro de Google, et des modèles open-weight comme Kimi K2.6 de Moonshot AI et DeepSeek V4 Pro.
Cette position de « broker d'inférence multi-modèles » est exactement là où le marché va. Les développeurs ne veulent plus s'enfermer chez un seul fournisseur. Ils veulent un point d'entrée unique qui leur donne accès au meilleur modèle pour chaque tâche.
Si Groq exécute bien cette vision, la perte des puces LPU pourrait finir par être un avantage. Être libre de choisir le meilleur hardware pour chaque modèle, c'est une flexibilité que ni Cerebras ni SambaNova n'ont.
L'ombre de xAI : le nouveau CEO et la stratégie Musk
Le recrutement d'Adam Winter depuis xAI n'est pas anodin. xAI est l'un des acteurs les plus agressifs du marché de l'inférence, avec Grok 4.1 qui affiche un score de 90 en général et 79 en agentic — des scores solides mais qui montrent aussi les limites d'une approche tout-Musk.
Winter connaît les deux mondes : les hyperscalers (Meta) et les startups IA agressives (xAI). Il sait comment scaler une infrastructure rapidement et comment naviguer dans la politique interne d'une entreprise en mode survie.
Mais il apporte aussi un bagage culturel. xAI est connue pour sa vitesse d'exécution brute, quitte à sacrifier la fiabilité. Meta pour sa culture d'open-source et deScaling. Le mélange des deux pourrait donner à Groq un tempo très différent de l'approche méticuleuse de Jonathan Ross.
Le risque ? Groq devient une sorte de mini-xAI sans le modèle propriétaire. Une infrastructure sans âme, qui court après les marges d'inférence dans un marché où tout le monde court après les mêmes marges.
L'opportunité ? Winter a probablement des relations profondes chez xAI et Meta qui pourraient se traduire en contrats d'inférence importants. Dans le néocloud, deux ou trois gros contrats entreprise peuvent changer la vie d'une startup.
Le contexte géopolitique : pourquoi la Chine accélère et ce que ça implique pour Groq
L'histoire de Groq ne se passe pas dans le vide. Pendant que l'entreprise se reconstruit, la Chine accélère massivement dans la course à l'IA. Moonshot AI a levé 2 milliards de dollars et son modèle Kimi K2.6 domine le segment open-weight avec un score de 84 en général et 88.1 en agentic en self-host.
Pour un néocloud comme Groq, les modèles open-weight chinois représentent une opportunité commerciale concrète. Kimi K2.6, DeepSeek V4 Pro, GLM-5.1 de Z.AI — tous ces modèles ont besoin d'inférence tierce pour atteindre les développeurs occidentaux.
Groq pourrait devenir le point d'entrée de ces modèles en Europe et en Amérique du Nord. C'est un créneau que personne ne revendique vraiment, et ça correspond parfaitement à la position de broker multi-modèles que l'entreprise construit.
Mais c'est aussi un risque géopolitique. Héberger des modèles chinois sur une infrastructure américaine, même via API, pourrait attirer l'attention des régulateurs. Groq devra naviguer ce terrain avec prudence.
Par ailleurs, le marché taïwanais reste l'épicentre de la fabrication de puces. Nvidia investit 150 milliards de dollars par an à Taïwan, et toute l'industrie — y compris les fournisseurs de Groq — dépend de cette chaîne d'approvisionnement. Un choc géopolitique à Taïwan affecterait Groq au même titre que tous les acteurs du secteur.
L'inférence comme commodité : la thèse qui fait ou défait Groq
Le pivot de Groq repose sur une hypothèse fondamentale : l'inférence IA va devenir une commodité, et la valeur va migrer vers la couche d'orchestration.
C'est la même thèse qui a motivé le cloud computing au début des années 2010. Les serveurs sont devenus interchangeables, et Amazon, Google, Microsoft ont gagné en proposant la meilleure couche d'abstraction.
Mais l'analogie a ses limites. L'inférence IA n'est pas du cloud computing classique. La performance dépend intimement du couplage entre le modèle et le hardware. Un modèle optimisé pour les GPU Nvidia ne tournera pas aussi bien sur des puces AMD ou Google TPU, même avec la meilleure couche d'orchestration du monde.
Groq parie que cette dépendance va s'affaiblir avec la standardisation des formats de modèles et l'amélioration des compilateurs. C'est possible. Les frameworks comme MLX, TVM et ONNX Runtime font des progrès constants dans l'abstraction hardware.
Mais en juin 2026, la réalité est que les meilleurs scores d'inférence sont obtenus par des modèles qui tournent sur le hardware de leur créateur. GPT-5.5 sur des GPU Nvidia, Gemini 3.1 Pro sur des TPU Google, Claude Opus 4.7 sur les infrastructures d'Anthropic. La commodité n'est pas encore là.
Groq a peut-être raison sur le long terme. Mais le long terme coûte cher, et 650 millions de dollars ne buyent pas énormément de patience chez les investisseurs.
Les scénarios possibles pour les 18 prochains mois
Trois trajectoires se dessinent pour Groq à partir de juin 2026.
Scénario un : le rebond. Groq exécute parfaitement son pivot. L'API reste rapide, le tier gratuit attire de nouveaux développeurs, les contrats entreprise signés par le management xAI/Meta génèrent du revenu récurrent. À terme, Groq devient un acqui-hire target pour un hyperscaler qui veut une couche d'inférence boutique. Prix de sortie : 3-5 milliards de dollars.
Scénario deux : la lente asphyxie. Les coûts de compute explosent, la concurrence des hyperscalers écrase les marges, et les développeurs migrent vers les API natives. Groq brûle ses 650 millions sans trouver le product-market fit. Fermeture ou fire sale dans 24 mois.
Scénario trois : le pivot inattendu. Groq découvre un créneau spécifique — inférence edge, modèles spécialisés pour la finance ou la santé — qui justifie une prime pricing. L'entreprise se rétrécit mais devient rentable. Pas de sortie spectaculaire, mais survie.
Le scénario le plus probable ? Quelque chose entre un et trois. Le nouveau management n'est pas du genre à mourir lentement. Mais le scénario deux reste le plan par défaut dans ce marché.
❌ Erreurs courantes
Erreur 1 : Confondre le Groq d'avant et d'après le deal Nvidia
L'entreprise qui concevait des puces LPU n'existe plus. Ce qui reste, c'est une startup cloud avec un beau nom et de l'argent frais. Analyser Groq comme si elle avait encore son avantage matériel, c'est se tromper de sujet.
Erreur 2 : Penser que 650 M$ suffisent à concurrencer les hyperscalers
AWS dépense 80 milliards de dollars par an en infrastructure. Google Cloud et Azure sont dans le même ordre de grandeur. 650 millions, c'est du seed money dans ce contexte — pas de quoi construire un réseau mondial d'inférence.
Erreur 3 : Croire que l'inférence est un marché à somme nulle
Le marché de l'inférence IA est en croissance explosive. Même si Groq prend 1% de ce marché, ça peut représenter des centaines de millions de revenus. Le jeu n'est pas de tuer Nvidia, mais de trouver un créneau rentable.
❓ Questions fréquentes
Groq fabrique-t-elle encore des puces LPU ?
Non. L'architecture LPU a été transférée à Nvidia dans le cadre du deal de 20 milliards de dollars. Groq achète désormais du compute auprès de fournisseurs tiers, probablement des GPU Nvidia dans un premier temps.
Qui est le nouveau CEO de Groq ?
Adam Winter, ancien de xAI et Meta. Il a été recruté pour son expérience en scaling d'infrastructures cloud à grande échelle, pas pour son expertise en hardware.
Peut-on encore utiliser l'API Groq gratuitement ?
Oui. Groq maintient un tier gratuit pour attirer les développeurs, comparable à ce qu'offrent d'autres fournisseurs d'APIs IA. C'est un pilier de sa stratégie de rétention pendant le pivot.
Groq est-elle une bonne option pour héberger des modèles open-weight comme Kimi K2.6 ?
C'est précisément le créneau que Groq cible. L'entreprise se positionne comme un broker multi-modèles capable de faire tourner des modèles open-weight chinois et occidentaux via une seule API. La qualité du service restera à évaluer en production.
✅ Conclusion
Groq est le zombie le mieux financé de l'industrie IA — une entreprise morte qui refuse de rester au sol. Avec 650 millions de dollars et un management venant de xAI et Meta, elle tente le pari le plus contre-intuitif du marché : devenir un néocloud d'inférence sans puces propriétaires, après avoir donné son âme matérielle à Nvidia pour 20 milliards. Ça peut marcher. Ça peut aussi devenir le cas d'école le plus coûteux de la guerre de l'IA. La réponse viendra dans les 18 prochains mois — et elle sera intéressante à watcher via leur API.