Google lanza Gemini 3.1 Flash TTS: admite 70 idiomas y escenarios para directores, la voz de la IA es más natural

El responsable de relaciones con desarrolladores de IA de Google, Logan Kilpatrick, anunció el 15 de abril el lanzamiento de Gemini 3.1 Flash TTS, el modelo más reciente de Google de texto a voz. Este modelo admite 70 idiomas, control detallado a nivel de director de escenas (scene direction), por hablante y con etiquetas de audio; actualmente ya está disponible para su uso en el playground de audio de Google AI Studio y en la API de Gemini.

Cuatro funciones principales

En comparación con su predecesor, Gemini 3.1 Flash TTS presenta cuatro mejoras notables:

Director de escenas (Scene Direction): permite configurar un contexto para la voz, por ejemplo, «susurrar en una cafetería ruidosa» o «anunciar con entusiasmo una buena noticia»; el modelo ajusta el tono, la velocidad del habla y la emoción en función de la escena

Control a nivel de hablante (Speaker-Level Specificity): en diálogos con múltiples personajes, se pueden definir características de voz diferentes para cada uno

Etiquetas de audio (Audio Tags): admite insertar instrucciones de efectos de sonido en el texto, para controlar detalles como pausas y cambios de entonación

Compatibilidad con 70 idiomas: amplía significativamente la cobertura multilingüe, incluido el chino

Voces más naturales y con más expresividad

Google subraya los avances de este modelo en naturalidad de voz. Los modelos TTS tradicionales suelen ser criticados por generar una salida que «suena como a IA». Gemini 3.1 Flash TTS intenta reducir la brecha con la voz humana mediante variaciones de prosodia y expresión emocional más ricas. Kilpatrick señaló que el progreso de Gemini 2.5 a 3.1 «es muy notable».

Cómo pueden usarlo los desarrolladores

Los desarrolladores pueden usarlo de dos maneras:

Google AI Studio Audio Playground: probar y previsualizar directamente los efectos de voz en la interfaz web

API de Gemini: integrarla en aplicaciones para casos como asistentes de voz, audiolibros, generación automática de Podcast, atención al cliente multilingüe, etc.

La línea de productos de Gemini sigue expandiéndose

Flash TTS es parte de la intensa serie de lanzamientos recientes de la familia Gemini 3.1. Anteriormente, Google ya había presentado Gemini Robotics ER 1.6 (razonamiento visual para robots), Tab Tab Tab (completado de prompt de Vibe Coding) y funciones como vistas previas de diseño. Google está llevando a Gemini de un «modelo de chat» a una plataforma de IA multimodal que abarca texto, voz, visión y robots.

Este artículo sobre el lanzamiento de Gemini 3.1 Flash TTS de Google: admite 70 idiomas y director de escenas; la voz de IA es más natural apareció por primera vez en Cadena de noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Realidad de los agentes de IA en Silicon Valley: se desperdician muchos tokens, la integración de sistemas está «extremadamente desordenada», la predicción de Huang Renxun sobre «el próximo ChatGPT» aún debe verificarse

En una reciente conferencia en Silicon Valley, varios CEO de nuevas empresas de IA compartieron sus puntos de vista sobre los problemas de uso actuales de los agentes de IA, y consideran que se enfrentan a dos grandes dificultades: el desperdicio de tokens y la confusión del sistema. Los expertos señalaron que las empresas deben determinar con mayor cautela cuándo utilizar modelos de lenguaje a gran escala para evitar el desperdicio innecesario de recursos. Además, la colaboración entre múltiples agentes de IA a menudo provoca problemas en la transmisión de mensajes y en la coherencia del estado, lo que muestra que la estandarización actual aún necesita mejoras. Aunque Huang Renxun mencionó su opinión sobre el indicador de salarios por token, la retroalimentación indica que esto no equivale a la productividad; el valor real radica en un diseño eficaz de tareas.

ChainNewsAbmediahace6h

La IA se devora el 80% del capital global de venture, Q1 2026 se lleva 240 mil millones de dólares: ¿cómo responden los actores de la industria cripto a la reasignación de capital?

Según informes, en el primer trimestre de 2026 el monto global total de capital de riesgo se aproxima a 300 mil millones de dólares, de los cuales las empresas relacionadas con IA abarcan alrededor de 242 mil millones de dólares, lo que representa el 80% del capital de riesgo. Esto muestra que la IA se ha convertido en el foco principal del capital de riesgo. A medida que el financiamiento se concentra en la IA, otros ámbitos como crypto se han visto presionados; los proveedores necesitan ajustar sus estrategias, integrar la IA de manera más profunda en sus operaciones y esperan que surja una tendencia a la consolidación de infraestructura.

ChainNewsAbmediahace11h

La policía de Hong Kong advierte de la estafa cripto de "trading cuantitativo con IA"; una mujer pierde 7,7 millones de HKD

La policía de Hong Kong reveló un fraude de criptomonedas en el que una mujer perdió 7,7 millones de HKD ante estafadores que se hacían pasar por expertos en inversiones mediante Telegram, prometiendo altos rendimientos mediante el trading con IA. La policía advirtió al público sobre los riesgos asociados a las inversiones en criptomonedas.

GateNewshace12h

Hong Kong anunciará mañana la sexta tanda de la lista de empresas clave

El Secretario Financiero de Hong Kong, Paul Chan, anunció el lanzamiento de una nueva lista de empresas clave, atrayendo a más de 100 negocios valorados por encima de 100 mil millones de HKD en sectores como las ciencias de la vida, la IA y las fintech, destacando el atractivo de Hong Kong para la inversión internacional.

GateNewshace15h

El robot Lightning de Honor gana la Media Maratón de Robots Humanoides de Pekín 2026 con una marca de 50:26

El robot humanoide «Lightning» de Honor estableció un nuevo récord en la Media Maratón de Robots Humanoides de Yizhuang de Pekín 2026, completando la carrera en 50 minutos y 26 segundos, superando el récord mundial humano.

GateNewshace18h

La acción de Meta sube 1.73% mientras la empresa planea un recorte de 8,000 empleos a partir del 20 de mayo

Meta Platforms planea recortar aproximadamente 8,000 empleos, o el 10% de su plantilla, a partir del 20 de mayo, a pesar de la subida de los precios de sus acciones. La empresa, con más de $200 mil millones en ingresos, se está enfocando en inversiones en IA en medio de una reestructuración significativa, alineándose con las tendencias de la industria de despidos.

GateNews04-18 18:01
Comentar
0/400
Sin comentarios