A Google DeepMind lançou o novo modelo de síntese de voz "Gemini 3.1 Flash TTS", que permite ajustar o tom, velocidade e atmosfera através de comandos de texto, suportando mais de 70 idiomas e várias sotaques. Este modelo foca na naturalidade e possui uma função de marca d'água para combater informações falsas. O seu desempenho ficou em segundo lugar em testes às cegas, sendo aplicável a múltiplos setores, marcando um aumento na competição de IA de geração de voz.

TechubNews

2026-04-17 13:48:52

Geração de resumo em curso

O grupo de inteligência artificial do Google, DeepMind, revelou um novo modelo de síntese de voz chamado “Gemini 3.1 Flash TTS”. Seu núcleo está em não apenas falar de forma mais natural do que as vozes mecânicas existentes, mas também permitir que os usuários ajustem detalhadamente o tom, ritmo e atmosfera apenas com comandos de texto.

Controle de tom, entonação e velocidade por comandos de texto

Recentemente, a responsabilidade limitada do Google anunciou em seu blog o lançamento do Gemini 3.1 Flash TTS. Este modelo consegue refletir palavras-chave de comando como “apaixonado”, “surpreso” e “transmissão de informações” ao converter respostas de chatbots em voz, alterando entonação e timbre.

De acordo com vídeos de demonstração públicos, os usuários podem não apenas escolher a voz, mas também ajustar a forma de transmissão e a atmosfera da fala. Se a geração anterior de TTS parecia um pouco “robótica”, esta nova geração foca em alcançar uma expressão mais próxima da humana.

Suporte a sotaques regionais de várias línguas, incluindo formato de podcast

O Gemini 3.1 Flash TTS também oferece sotaques regionais em várias línguas principais. Por exemplo, em inglês, é possível escolher entre sotaques americanos “Valley” e “Southern”, além de variantes britânicas como “Brixton” e “RP”. Há também opções de sotaques especiais, como “transatlântico”.

O Google adicionou ao modelo uma funcionalidade de “controle de nível diretor”. Os usuários podem ajustar com mais precisão o estilo de fala e velocidade, utilizando modelos de diálogo de podcast, narração de audiolivros, tutores de idiomas, assistentes de voz, guias de saúde, apresentadores de notícias, agentes de suporte ao cliente, entre outros.

Vale destacar que, ao definir cenários e ambientes, e até inserir orientações de roteiro, o modelo foi projetado para manter uma consistência no estilo de fala durante múltiplas interações de diálogo. O Google explica que as configurações finais podem ser exportadas como código API do Gemini, permitindo reproduzir a mesma voz em diversos projetos e plataformas.

Suporte a mais de 70 idiomas… e aplicação de marca d’água

Segundo o Google, o objetivo do Gemini 3.1 Flash TTS é oferecer uma experiência de voz mais natural. São suportados mais de 70 idiomas, incluindo japonês, hindi, alemão, entre outros.

Além disso, todo o conteúdo gerado possui uma marca d’água SynthID embutida. Essa medida visa facilitar a identificação de conteúdo de voz gerado por IA, respondendo às preocupações futuras com deepfakes ou disseminação de informações falsas.

Ranking em testes às cegas em segundo lugar… desenvolvedores podem usar imediatamente

Seu desempenho também foi validado em certa medida. No ranking “Artificial Analysis TTS”, que avalia preferências humanas em milhares de testes às cegas, o Gemini 3.1 Flash TTS ficou em segundo lugar com 1211 pontos. O Google afirma que isso indica uma avaliação superior a vários modelos populares de TTS.

Atualmente, desenvolvedores podem usar o modelo imediatamente via API do Gemini e Google AI Studio. Clientes empresariais podem acessá-lo pelo Vertex AI, enquanto usuários comuns podem experimentar essa funcionalidade no Google Biz.

Este lançamento demonstra que a competição em IA generativa está se expandindo rapidamente do texto e imagens para o campo da voz. Especialmente com a crescente demanda de clientes empresariais por “voz de IA natural” em mercados de suporte, produção de mídia, educação e conteúdo digital, o Gemini 3.1 Flash TTS provavelmente aumentará ainda mais a competitividade nesses setores.

Aviso do TP AI: Este artigo foi resumido usando o modelo de linguagem TokenPost.ai. O conteúdo principal pode ter sido omitido ou estar em desacordo com os fatos.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GatePreIPOsLaunchesWithSpaceX
185.39K Popularidade
#
Gate13thAnniversaryLive
734.39K Popularidade
#
IsraelStrikesIranBTCPlunges
29.99K Popularidade
#
AltcoinsRallyStrong
7.31M Popularidade
#
AnthropicvsOpenAIHeatsUp
1.06M Popularidade

Fixar

Google DeepMind, lança 'Gemini 3.1 Flash TTS'… pode ajustar o tom e a velocidade da fala através de texto

Tópicos em destaque

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Fixar