Google DeepMind ha lanzado el nuevo modelo de síntesis de voz "Gemini 3.1 Flash TTS", que permite ajustar el tono, la velocidad y la atmósfera mediante instrucciones de texto, y soporta más de 70 idiomas y diversos acentos. Este modelo se centra en la naturalidad y cuenta con una función de marca de agua para hacer frente a la desinformación. Su rendimiento ocupó el segundo lugar en pruebas a ciegas, siendo aplicable en múltiples campos, lo que marca un aumento en la competencia en la inteligencia artificial de generación de voz.

TechubNews

2026-04-17 13:48:52

Generación de resúmenes en curso

La organización de inteligencia artificial de Google DeepMind ha publicado un nuevo modelo de síntesis de voz llamado “Gemini 3.1 Flash TTS”. Su núcleo radica en que no solo puede hablar de manera más natural que las voces mecánicas existentes, sino que los usuarios también pueden ajustar detalladamente el tono, la velocidad y la atmósfera solo con instrucciones de texto.

Control del tono, la entonación y la velocidad mediante instrucciones de texto

Google LLC anunció recientemente a través de su blog el lanzamiento de Gemini 3.1 Flash TTS. Este modelo, en el proceso de convertir respuestas de chatbots en voz, puede reflejar palabras clave como “apasionado”, “sorprendido”, “transmisión de información” para cambiar el tono y el timbre.

Según un video de demostración publicado, los usuarios no solo pueden elegir la voz, sino también ajustar la forma en que se transmite la voz y la atmósfera. Si la generación anterior de TTS parecía algo “robótica”, esta nueva generación se centra en lograr una expresión más cercana a la humana.

Soporte para acentos regionales en inglés y formatos de podcast

Gemini 3.1 Flash TTS también ofrece acentos regionales en varios idiomas principales. Por ejemplo, en inglés, no solo se puede elegir entre acentos estadounidenses “Valley” y “Southern”, sino también varias variantes como “Brixton” y “RP” británicos. Además, incluye opciones de acento especiales como “transatlántico”.

Google también ha añadido una función de “control de nivel director” a este modelo. Los usuarios pueden ajustar con mayor precisión el estilo y la velocidad del habla, y utilizar plantillas en formatos como diálogos de podcast, narraciones de audiolibros, tutores de idiomas, asistentes de voz, guías de salud, presentadores de noticias, agentes de soporte al cliente, entre otros.

Cabe destacar que, cuando los usuarios configuran escenarios y entornos, e incluso ingresan instrucciones para los diálogos, el modelo está diseñado para mantener un estilo de habla coherente mientras permite múltiples interacciones de los personajes. Google explica que se pueden exportar los valores de configuración completados como código API de Gemini, para reproducir la misma voz en múltiples proyectos y plataformas.

Soporte para más de 70 idiomas… y aplicación de marcas de agua

Según Google, el objetivo de Gemini 3.1 Flash TTS es ofrecer una experiencia de voz más natural. Es compatible con más de 70 idiomas, incluyendo japonés, hindi, alemán, entre otros.

Además, todo el contenido generado lleva incorporada una marca de agua SynthID. Esto se considera una medida para facilitar la identificación de contenido de voz generado por IA, ante preocupaciones futuras sobre la posible aparición de deepfakes o la difusión de información falsa.

Ranking en pruebas a ciegas en segundo lugar… los desarrolladores pueden usarlo de inmediato

Su rendimiento también ha sido validado en cierta medida. En la “Clasificación de TTS de análisis artificial” que refleja las preferencias humanas en miles de pruebas a ciegas, Gemini 3.1 Flash TTS ocupó el segundo lugar en el ranking general con 1211 puntos. Google afirma que esto significa que ha recibido una evaluación más alta que varios modelos populares de TTS.

Actualmente, los desarrolladores pueden usar este modelo de inmediato a través de la API de Gemini y Google AI Studio. Los clientes empresariales pueden acceder a través de Vertex AI, y los usuarios comunes pueden probar esta función en Google Biz.

Este lanzamiento indica que la competencia en IA generativa se está expandiendo rápidamente desde texto e imágenes hacia el campo de la voz. Especialmente en mercados como soporte a clientes empresariales, producción de medios, educación y creación de contenido digital, donde la demanda de “voz de IA natural” está en aumento, es probable que Gemini 3.1 Flash TTS impulse aún más la competitividad en estos mercados.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GatePreIPOsLaunchesWithSpaceX
185.13K Popularidad
#
Gate13thAnniversaryLive
650.21K Popularidad
#
IsraelStrikesIranBTCPlunges
30.03K Popularidad
#
AltcoinsRallyStrong
7.31M Popularidad
#
AnthropicvsOpenAIHeatsUp
1.06M Popularidad

Anclado

Google DeepMind, lanza 'Gemini 3.1 Flash TTS'… que permite ajustar el tono y la velocidad del habla mediante texto

Temas de actualidad

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Anclado