Google lance Gemini 3.1 Flash TTS : prend en charge 70 langues et un réalisateur de scénarios pour divers contextes, une voix IA plus naturelle

Le responsable des relations développeurs chez Google, Logan Kilpatrick, a annoncé le 15 avril le lancement de Gemini 3.1 Flash TTS — le dernier modèle de conversion texte-voix de Google. Ce modèle prend en charge 70 langues, un contrôle fin de type “scene direction” (direction de scène), des niveaux de locuteur et des balises audio ; il est déjà disponible via l’audio playground de Google AI Studio ainsi que dans l’API Gemini.

Quatre fonctions principales

Gemini 3.1 Flash TTS, par rapport à son prédécesseur, propose quatre améliorations notables :

Direction de scène (Scene Direction) — Permet de définir un contexte pour la voix, par exemple « chuchoter dans un café bruyant » ou « annoncer une bonne nouvelle avec enthousiasme », le modèle ajustant alors le ton, le débit et l’émotion en fonction de la scène

Contrôle au niveau du locuteur (Speaker-Level Specificity) — Dans des dialogues multi-intervenants, il est possible de définir des caractéristiques vocales différentes pour chaque rôle

Balises audio (Audio Tags) — Prend en charge l’insertion d’instructions d’effets sonores dans le texte, pour contrôler des détails tels que les pauses et les variations d’intonation

Prise en charge de 70 langues — Étend considérablement la couverture multilingue, y compris le chinois

Un son plus naturel et plus expressif

Google souligne des progrès de cette version du modèle en matière de naturalité vocale. Les modèles TTS traditionnels ont souvent été critiqués pour produire une sortie « qui sonne comme de l’IA ». Gemini 3.1 Flash TTS tente de réduire l’écart avec la voix humaine grâce à des variations prosodiques plus riches et à l’expression des émotions. Kilpatrick indique que les avancées de Gemini 2.5 à 3.1 sont « très significatives ».

Comment les développeurs peuvent l’utiliser

Les développeurs peuvent l’utiliser de deux façons :

Google AI Studio Audio Playground — Tester et prévisualiser directement les effets vocaux dans l’interface web

API Gemini — L’intégrer dans des applications pour des scénarios tels que des assistants vocaux, des livres audio, la génération automatique de podcasts, un service client multilingue, etc.

La gamme de produits Gemini continue de s’étendre

Flash TTS fait partie des publications récentes et intensives de la série Gemini 3.1. Auparavant, Google avait déjà lancé Gemini Robotics ER 1.6 (raisonnement visuel pour robots), Tab Tab Tab (complétion de prompt Vibe Coding) et des fonctionnalités de prévisualisation de conception. Google est en train d’étendre Gemini, passant d’un « modèle de conversation » à une plateforme d’IA multimodale couvrant le texte, la voix, la vision et la robotique.

Cet article Google lance Gemini 3.1 Flash TTS : prise en charge de 70 langues et de la direction de scène, une voix IA plus naturelle est apparu pour la première fois sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Le juge rejette les allégations de fraude dans la plainte d’Elon Musk contre OpenAI ; l’affaire progresse vers un procès avec deux allégations restantes

Message de Gate News, 24 avril — Un juge fédéral a rejeté les allégations de fraude dans la plainte d’Elon Musk contre OpenAI, Sam Altman, Greg Brockman et Microsoft, ouvrant la voie à la poursuite de l’affaire devant le tribunal sur deux allégations restantes : violation de la confiance à but caritatif et enrichissement injustifié. États-Unis.

GateNewsIl y a 2h

Le PDG d'OpenAI, Sam Altman, s'excuse d'avoir omis de signaler à la police le compte banni du tireur de l'école

Message de Gate News, 25 avril — Le PDG d'OpenAI, Sam Altman, a présenté ses excuses à la communauté de Tamborine, au Canada, pour l'incapacité de l'entreprise à prévenir la police au sujet d'un compte banni lié à Jesse Van Rootselaar, qui a tué huit personnes dans une école en février avant de mettre fin à ses jours. OpenAI

GateNewsIl y a 3h

Les Émirats arabes unis annoncent une transition vers un modèle de gouvernement basé sur l’IA au cours des deux prochaines années

Son Altesse Cheikh Mohammed bin Rashid Al Maktoum a déclaré que l’objectif était que 50% des secteurs gouvernementaux fonctionnent grâce à une IA agentique autonome. La transition comprendra également la formation des employés fédéraux pour « maîtriser l’IA », et sera supervisée par Cheikh Mansour bin Zayed. Points clés :

CoinpediaIl y a 3h

La plateforme de trading d’IA Fere AI lève 1,3 M$ de fonds, menée par Ethereal Ventures

Message de Gate News, 25 avril — Fere AI, une plateforme de trading d’actifs numériques propulsée par l’IA, a annoncé avoir finalisé un tour de financement de 1,3 million de dollars mené par Ethereal Ventures, avec la participation de Galaxy Vision Hill et de Kosmos Ventures, selon Globenewswire. La plateforme prend en charge des réseaux inter-chaînes

GateNewsIl y a 4h

Google augmente avec 40 milliards de dollars d’investissement dans Anthropic : d’abord 10 milliards, puis libération de 30 milliards en fonction des résultats, avec une puissance de calcul de 5 GW de TPU

Alphabet augmente sa mise sur Anthropic à 40 milliards de dollars, en deux étapes : première injection de 10 milliards de dollars en espèces, valorisation à 3 800 milliards de dollars ; les 300 milliards de dollars restants seront libérés par tranches après l’atteinte des objectifs de performance. Google Cloud fournira 5 GW de ressources de calcul TPU sur cinq ans ; dans le même temps, Amazon a également annoncé un investissement pouvant aller jusqu’à 25 milliards de dollars, ce qui montre que le soutien en puissance de calcul et en capitaux d’Anthropic se renforce en parallèle.

ChainNewsAbmediaIl y a 4h

Les introductions en bourse de SpaceX, OpenAI et Anthropic pourraient attirer plus de $240 milliard, avec un impact potentiel sur la liquidité du marché crypto

Message de Gate News, 25 avril — Selon des rapports de marché, SpaceX devrait entrer en bourse en juin avec un objectif de levée de fonds dépassant l’introduction en bourse record de $29 milliard de Saudi Aramco, tandis qu’OpenAI et Anthropic prévoient de s’inscrire sur le marché au second semestre 2026. Les trois sociétés sont prévues pour

GateNewsIl y a 5h
Commentaire
0/400
Aucun commentaire