Le responsable des relations développeurs chez Google, Logan Kilpatrick, a annoncé le 15 avril le lancement de Gemini 3.1 Flash TTS — le dernier modèle de conversion texte-voix de Google. Ce modèle prend en charge 70 langues, un contrôle fin de type “scene direction” (direction de scène), des niveaux de locuteur et des balises audio ; il est déjà disponible via l’audio playground de Google AI Studio ainsi que dans l’API Gemini.
Quatre fonctions principales
Gemini 3.1 Flash TTS, par rapport à son prédécesseur, propose quatre améliorations notables :
Direction de scène (Scene Direction) — Permet de définir un contexte pour la voix, par exemple « chuchoter dans un café bruyant » ou « annoncer une bonne nouvelle avec enthousiasme », le modèle ajustant alors le ton, le débit et l’émotion en fonction de la scène
Contrôle au niveau du locuteur (Speaker-Level Specificity) — Dans des dialogues multi-intervenants, il est possible de définir des caractéristiques vocales différentes pour chaque rôle
Balises audio (Audio Tags) — Prend en charge l’insertion d’instructions d’effets sonores dans le texte, pour contrôler des détails tels que les pauses et les variations d’intonation
Prise en charge de 70 langues — Étend considérablement la couverture multilingue, y compris le chinois
Un son plus naturel et plus expressif
Google souligne des progrès de cette version du modèle en matière de naturalité vocale. Les modèles TTS traditionnels ont souvent été critiqués pour produire une sortie « qui sonne comme de l’IA ». Gemini 3.1 Flash TTS tente de réduire l’écart avec la voix humaine grâce à des variations prosodiques plus riches et à l’expression des émotions. Kilpatrick indique que les avancées de Gemini 2.5 à 3.1 sont « très significatives ».
Comment les développeurs peuvent l’utiliser
Les développeurs peuvent l’utiliser de deux façons :
Google AI Studio Audio Playground — Tester et prévisualiser directement les effets vocaux dans l’interface web
API Gemini — L’intégrer dans des applications pour des scénarios tels que des assistants vocaux, des livres audio, la génération automatique de podcasts, un service client multilingue, etc.
La gamme de produits Gemini continue de s’étendre
Flash TTS fait partie des publications récentes et intensives de la série Gemini 3.1. Auparavant, Google avait déjà lancé Gemini Robotics ER 1.6 (raisonnement visuel pour robots), Tab Tab Tab (complétion de prompt Vibe Coding) et des fonctionnalités de prévisualisation de conception. Google est en train d’étendre Gemini, passant d’un « modèle de conversation » à une plateforme d’IA multimodale couvrant le texte, la voix, la vision et la robotique.
Cet article Google lance Gemini 3.1 Flash TTS : prise en charge de 70 langues et de la direction de scène, une voix IA plus naturelle est apparu pour la première fois sur Chaîne News ABMedia.
Articles similaires
Le juge rejette les allégations de fraude dans la plainte d’Elon Musk contre OpenAI ; l’affaire progresse vers un procès avec deux allégations restantes
Le PDG d'OpenAI, Sam Altman, s'excuse d'avoir omis de signaler à la police le compte banni du tireur de l'école
Les Émirats arabes unis annoncent une transition vers un modèle de gouvernement basé sur l’IA au cours des deux prochaines années
La plateforme de trading d’IA Fere AI lève 1,3 M$ de fonds, menée par Ethereal Ventures
Google augmente avec 40 milliards de dollars d’investissement dans Anthropic : d’abord 10 milliards, puis libération de 30 milliards en fonction des résultats, avec une puissance de calcul de 5 GW de TPU
Les introductions en bourse de SpaceX, OpenAI et Anthropic pourraient attirer plus de $240 milliard, avec un impact potentiel sur la liquidité du marché crypto