📑 Table des matières

Google lance l'Interactions API en disponibilité générale : la nouvelle interface par défaut pour construire des agents Gemini (et generateContent prend sa retraite)

Agents IA 🟢 Débutant ⏱️ 11 min de lecture 📅 2026-06-24

Google lance l'Interactions API en disponibilité générale : la nouvelle interface par défaut pour construire des agents Gemini (et generateContent prend sa retraite)

🔎 Le 22 juin 2026, Google a officialisé ce que tout le monde voyait venir depuis six mois

L'Interactions API passe en disponibilité générale (GA). Elle devient l'interface par défaut pour interagir avec les modèles et agents Gemini dans Google AI Studio, la documentation officielle et toutes les nouvelles fonctionnalités agent. L'ancienne API generateContent ne disparaît pas immédiatement, mais elle est reléguée au rang de legacry pour les cas simples.

C'est un basculement d'architecture. Google ne propose plus seulement un modèle de langage — il propose un runtime complet pour les agents autonomes, avec gestion d'état côté serveur, sandbox Linux, streaming audio natif et tool use intégré. Tout ça derrière un seul endpoint.

La deadline de migration du 8 juin 2026 est déjà passée. Les développeurs qui n'ont pas migré leurs workflows agents vers l'Interactions API se retrouvent bloqués sur les fonctionnalités frontier.


L'essentiel

  • L'Interactions API est officiellement GA depuis le 22 juin 2026 et remplace generateContent comme interface par défaut dans tout l'écosystème Gemini.
  • Elle unifie les interactions modèles et agents : un seul point d'entrée pour le chat, le tool use, l'exécution en arrière-plan et le streaming multimodal.
  • Les Managed Agents offrent des sandbox Linux hébergées pour l'exécution de code, avec support de l'exécution en arrière-plan et des étapes d'exécution typées.
  • Le modèle gemini-3.1-flash-tts-preview supporte le streaming speech (TTS) natif via l'Interactions API depuis le 17 juin 2026.
  • La guerre des frameworks agents s'intensifie : Google verrouille son écosystème autour d'une API unique, face à OpenClaw, Microsoft MAF et d'autres initiatives.

Outils recommandés

Outil Usage principal Prix (juin 2026, vérifiez sur ai.google.dev) Idéal pour
Interactions API Interface unifiée modèles + agents Gemini Gratuit (tier Free), payant à l'usage (Flex/Priority) Développeurs construisant des agents autonomes avec Gemini
Google AI Studio IDE et playground pour Gemini Gratuit Prototypage rapide et test de l'Interactions API
Guide de migration Migration depuis generateContent Gratuit Développeurs devant convertir leurs intégrations existantes
Référence API Documentation technique complète Gratuit Implémentation détaillée des endpoints et schémas

Ce que l'Interactions API change concrètement

Un seul endpoint remplace plusieurs schémas d'appel dispersés. L'Interactions API gère nativement les conversations multimodales multi-tours, le tool use, et la persistance d'état côté serveur — sans que le développeur n'ait à gérer manuellement l'historique des messages.

Selon le billet officiel de Google, cette API est « devenue rapidement la façon préférée des développeurs de construire des applications avec Gemini ». Le communiqué public confirme que la GA apporte un schéma stable, pérenne, versionné.

L'ancienne API generateContent reste disponible pour les cas d'usage simples (génération de texte, résumé, traduction). Mais toute fonctionnalité avancée — agents de longue durée, exécution en arrière-plan, sandbox — est désormais exclusive à l'Interactions API.

C'est un choix architectural clair : Google sépare le cas d'usage « prompt → réponse » du cas d'usage « agent autonome avec état ». Deux interfaces, deux paradigmes.

La gestion d'état côté serveur

C'est le changement le plus sous-estimé. Avec generateContent, le développeur devait stocker et renvoyer l'intégralité de l'historique de conversation à chaque appel. Pour un agent qui tourne sur 50 tours avec du tool use, ça devient ingérable.

L'Interactions API gère cet état côté serveur. Le client envoie un message, le serveur maintient le contexte. Ça réduit drastiquement la taille des payloads réseau et simplifie le code client.

Pour les architectures où l'agent interagit avec un CRM sans navigateur — comme le Salesforce Headless 360 — cette gestion d'état centralisée élimine un point de friction majeur.


Managed Agents : des sandbox Linux directement dans l'API

La GA introduit les Managed Agents en version stable. Ce sont des agents Gemini qui s'exécutent dans des sandbox Linux distantes hébergées par Google. L'agent peut y exécuter du code, manipuler des fichiers, installer des dépendances — le tout de manière isolée.

D'après l'analyse détaillée de Mer.vin, ces sandbox supportent l'exécution en arrière-plan (background execution) et les étapes d'exécution typées (typed execution steps). Le développeur peut définir un schéma de sortie structuré pour chaque étape de l'agent.

Concrètement, un agent peut lancer un script Python dans la sandbox, récupérer le résultat, décider de l'étape suivante, tout ça sans que le client ne doive poller ou gérer un cycle de vie complexe. L'API gère le loop agentique.

Flex vs Priority : deux tiers de service

Google introduit deux niveaux de service avec la GA. Le tier Flex offre un pricing à l'usage avec des latences variables. Le tier Priority garantit des latences basses et un débit prioritaire — essentiel pour les agents en production qui doivent répondre en temps réel.

Le choix du tier se fait au niveau de la configuration de l'interaction, pas au niveau du projet. Un même projet peut mixer les deux selon le contexte d'utilisation.


Streaming TTS natif avec gemini-3.1-flash-tts-preview

Le 17 juin 2026, deux jours avant la GA, Google a ajouté le streaming speech via le modèle gemini-3.1-flash-tts-preview. Selon les notes de version de la Gemini API, ce streaming fonctionne à la fois via streamGenerateContent et via le paramètre stream: true dans l'Interactions API.

Le cas d'usage évident : les agents vocaux. Un agent Gemini peut désormais raisonner, décider d'utiliser un outil, exécuter du code en sandbox, puis streamer sa réponse vocale en temps réel — le tout dans une seule session Interactions API.

C'est un avantage structurel par rapport aux architectures qui nécessitent un LLM pour le raisonnement + un modèle TTS séparé + un orchestrateur entre les deux. Google intègre les trois couches dans un seul pipeline.

Pour les développeurs qui comparent les capacités multimodales des modèles actuels, le comparatif Gemini vs ChatGPT vs Claude reste une référence, mais l'Interactions API ajoute une dimension infrastructurelle que les concurrents n'offrent pas de manière native.


La migration depuis generateContent : ce qui a changé le 8 juin

La deadline du 8 juin 2026 était la date butoir pour migrer les workflows agents vers l'Interactions API. Le guide de migration officiel détaille les étapes.

Le schéma de requête change. Au lieu d'envoyer un objet contents avec l'historique complet, on crée une interaction avec un identifiant de session. Les messages suivants référencent cette session. Le endpoint change aussi — on n'appelle plus models/gemini-X:generateContent mais l'endpoint Interactions dédié.

Pour les cas simples sans état, generateContent continue de fonctionner. Mais si votre code utilise le tool use, le function calling, ou des conversations multi-tours, la migration n'est pas optionnelle à terme. Les nouvelles fonctionnalités frontier — Gemini Deep Research en preview, MCP support, collaborative planning — sont Interactions-only.

Gemini Deep Research mérite une mention. Disponible en preview via l'Interactions API, il supporte la planification collaborative, la visualisation et le protocole MCP (Model Context Protocol). C'est un agent de recherche autonome qui planifie, exécute et itère — exactement le type de workflow que generateContent ne pouvait pas supporter.


La guerre des frameworks agents : pourquoi Google verrouille son écosystème

Le timing n'est pas anodin. L'Interactions API passe en GA au moment où le marché des frameworks agents explose. Chaque acteur tente d'imposer son standard.

Google parie sur une API propriétaire mais unifiée, intégrée au cloud, avec des sandbox natives. C'est cohérent avec leur stratégie : le modèle est le runtime. Pas besoin de framework tiers — l'API Gemini est le framework.

Cette approche contraste avec les initiatives open source. Des projets comme OpenClaw, que l'on retrouve dans notre classement des meilleurs agents IA autonomes, proposent une couche d'abstraction au-dessus de plusieurs modèles. L'Interactions API, elle, est optimisée exclusivement pour Gemini.

Pour les développeurs, le calcul est simple : si vous êtes 100% Gemini, l'Interactions API vous offre une intégration plus profonde, moins de latence, plus de fonctionnalités natives. Si vous êtes multi-modèles, vous passerez par un framework d'orchestration et vous n'utiliserez l'Interactions API que comme backend parmi d'autres.

La question de fond : les développeurs vont-ils accepter de se verrouiller dans l'écosystème Google en échange d'une intégration supérieure ? L'histoire de l'industrie suggère que la commodité gagne souvent face à l'ouverture — du moins à court terme.

Les agents locaux : une alternative qui reste crédible

Il faut noter que tout ce qui est décrit ici concerne les agents Gemini hébergés par Google. Pour les développeurs qui veulent garder le contrôle total — données sensibles, compliance, coûts à long terme — les agents IA open source avec Ollama en local restent une alternative sérieuse. Vous n'aurez pas les sandbox Linux managées, mais vous garderez la main sur l'intégralité du pipeline.

De même, le choix du modèle sous-jacent reste stratégique. L'Interactions API donne accès aux modèles Gemini, mais un agent construit avec Claude Opus 4.7 ou GPT-5.5 via d'autres APIs peut être tout aussi performant, voire plus, selon le benchmark agentic (98.2 pour GPT-5.5 vs 87.3 pour Gemini 3.1 Pro).


Interactions API vs generateContent : tableau comparatif

Critère generateContent Interactions API (GA)
Gestion d'état Côté client (historique renvoyé à chaque appel) Côté serveur (session persistante)
Agents autonomes Non supporté Managed Agents avec sandbox Linux
Exécution en arrière-plan Non Oui (background execution)
Streaming TTS Via streamGenerateContent uniquement Natif (stream: true) + TTS intégré
Tool use / Function calling Supporté mais sans loop agentique Loop agentique complet avec étapes typées
Gemini Deep Research Non disponible Preview via Interactions
Tiers de service Standard uniquement Flex + Priority
Statut Maintenu pour cas simples Interface par défaut, recommandée

❌ Erreurs courantes

Erreur 1 : Continuer à utiliser generateContent pour les workflows agents

C'est l'erreur la plus fréquente post-8 juin. generateContent fonctionne encore pour les appels simples, mais si votre agent fait du tool use multi-étapes ou de l'exécution en arrière-plan, vous êtes dans un cul-de-sac. Les nouvelles features frontier ne seront jamais backportées. La solution : suivre le guide de migration et refactoriser vers une architecture session-based.

Erreur 2 : Ignorer le choix du tier de service

Par défaut, les développeurs restent sur le tier standard. Avec l'Interactions API en production, le tier Flex est plus économique pour le batch, mais le tier Priority est indispensable pour les interactions utilisateur en temps réel. Configurer le mauvais tier, c'est soit payer trop cher, soit offrir une expérience dégradée. La solution : analyser vos patterns d'appel et configurer le tier par interaction, pas par projet.

Erreur 3 : Sous-estimer la gestion des sessions

L'Interactions API gère l'état côté serveur, ce qui ne veut pas dire « je n'ai plus à penser à l'état ». Les sessions ont une durée de vie, un coût de stockage, et il faut gérer leur nettoyage. Un développeur qui crée des sessions sans stratégie de TTL va voir ses coûts exploser. La solution : implémenter une politique de rotation et de nettoyage des sessions inactive dès le départ.

Erreur 4 : Choisir Gemini uniquement pour l'API en ignorant le score du modèle

L'Interactions API est excellente en tant qu'infrastructure. Mais le modèle sous-jacent compte. Gemini 3.1 Pro score 87.3 sur le benchmark agentic, bien en dessous de GPT-5.5 (98.2) ou Claude Opus 4.7 (94.3). Si la qualité de raisonnement est le critère principal, l'API la plus élégante ne compense pas un modèle moins performant. La solution : évaluer le modèle et l'infrastructure, pas l'un sans l'autre. Le comparatif Gemini vs ChatGPT vs Claude aide à y voir clair.


❓ Questions fréquentes

generateContent va-t-il être déprécié ?

Non. Google maintient generateContent pour les cas d'usage simples (génération unique, pas d'état, pas d'agent). Mais il ne recevra plus de nouvelles fonctionnalités agent. Toute la R&D de Google se concentre sur l'Interactions API.

L'Interactions API est-elle gratuite ?

Non. Elle suit le même modèle de tarification que la Gemini API, avec deux nouveaux tiers : Flex (à l'usage, latence variable) et Priority (latence garantie, surcoût). Un tier Free existe pour le prototypage, comme avec les APIs IA gratuites disponibles chez d'autres fournisseurs.

Peut-on utiliser l'Interactions API avec d'autres modèles que Gemini ?

Non. C'est une API propriétaire optimisée pour les modèles Gemini. Pour une architecture multi-modèles, il faut passer par un framework d'orchestration comme ceux listés dans notre article sur les meilleurs agents IA autonomes.

Les Managed Agents remplacent-ils les outils comme OpenClaw ?

Pas exactement. Les Managed Agents sont intégrés à l'Interactions API et optimisés pour l'écosystème Gemini. OpenClaw et similaires offrent une abstraction multi-modèles. Le choix dépend de votre stratégie de verrouillage : profondeur d'intégration vs liberté de modèle. Pour les meilleurs LLM pour les agents IA, le choix du runtime est aussi important que le choix du modèle.

Le streaming TTS fonctionne-t-il avec tous les modèles Gemini ?

Non. Seul le modèle gemini-3.1-flash-tts-preview supporte le streaming speech en juin 2026, comme indiqué dans les notes de version. Les autres modèles continuent de fonctionner en texte.


✅ Conclusion

L'Interactions API en GA n'est pas qu'une mise à jour d'API — c'est Google qui transforme Gemini d'un modèle en plateforme agent. Un seul endpoint, un état managé, des sandbox Linux, du TTS en streaming : le message est clair, si vous construisez des agents avec Gemini, vous n'avez plus besoin de framework tiers.

Reste la question du modèle sous-jacent. L'infrastructure est excellente, mais face à GPT-5.5 ou Claude Opus 4.7 sur les tâches de raisonnement complexe, Gemini 3.1 Pro n'est pas toujours le meilleur choix. À vous de décider si l'intégration infrastructurelle compense la différence de performance brute — le comparatif détaillé des modèles devrait aider à trancher.