Google запускает Gemini 3.1 Flash TTS: поддерживает 70 языков и сценарное режиссирование в разных ситуациях, ИИ-голос звучит естественнее

Руководитель по отношениям с разработчиками в Google AI Логан Килпатрик 15 апреля объявил о запуске Gemini 3.1 Flash TTS — новейшей модели преобразования текста в речь от Google. Эта модель поддерживает 70 языков, точный контроль уровня сценарного режиссирования (scene direction), а также уровень говорящего и аудиометки; сейчас она доступна для использования в звуковой песочнице Audio playground в Google AI Studio и в Gemini API.

Четыре ключевые функции

Gemini 3.1 Flash TTS по сравнению с предыдущей версией имеет четыре заметных улучшения:

Сценарное режиссирование (Scene Direction) — позволяет задавать голосу контекст, например «шептать в шумном кафе» или «радостно объявлять хорошие новости»; модель будет корректировать тон, темп речи и эмоциональную окраску в зависимости от ситуации

Уровень говорящего (Speaker-Level Specificity) — в диалогах с несколькими персонажами можно задавать для каждого роли свои отличительные голосовые характеристики

Аудиометки (Audio Tags) — поддерживает вставку в текст инструкций по звуковым эффектам, управляя такими деталями, как паузы и изменения интонации

Поддержка 70 языков — существенно расширяет покрытие для разных языков, включая китайский

Более естественный и выразительный звук

Google подчеркивает прогресс этой модели в естественности речи. Традиционные TTS-модели часто критикуют за то, что их вывод звучит «как AI». Gemini 3.1 Flash TTS пытается сократить разрыв с человеческой речью за счет более богатых вариаций просодии и передачи эмоций. Килпатрик отметил, что прогресс «весьма заметен» — от Gemini 2.5 до 3.1.

Как разработчики могут использовать

Разработчики могут использовать двумя способами:

Google AI Studio Audio Playground — напрямую тестировать и просматривать эффекты речи в веб-интерфейсе

Gemini API — интегрировать в приложения для таких сценариев, как голосовые помощники, аудиокниги, автоматическая генерация Podcast, многоязычная клиентская поддержка и т. п.

Линейка продуктов Gemini продолжает расширяться

Flash TTS — часть недавно интенсивно публикуемой серии Gemini 3.1. Ранее Google уже представила Gemini Robotics ER 1.6 (роботизированное зрительное логическое рассуждение), Tab Tab Tab (дополнение подсказки для Vibe Coding) и функции вроде дизайн-превью. Google развивает Gemini от «чат-модели» до полноформатной мультимодальной AI-платформы, охватывающей текст, речь, зрение и роботов.

Эта статья Google представляет Gemini 3.1 Flash TTS: поддержка 70 языков и сценарного режиссирования, более естественная AI-речь впервые появилась на Ланцюг Новости ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

SpaceX оценивает общую доступную рыночную нишу в $28.5 трлн, при этом $26.5T будет приходиться на сектор ИИ

Сообщение Gate News, 23 апреля — SpaceX оценивает свою общую доступную рыночную нишу (TAM) в $28.5 трлн, согласно внутренним документам. Компания прогнозирует, что более 90% рынка, примерно $26.5 трлн, будет приходиться на искусственный интеллект. Ожидается, что корпоративный ИИ будет занимать основную часть возможностей рынка ИИ, представляя примерно $22.7 трлн от общего TAM.

GateNews31м назад

«Книга Нэвала» Naval запускает AI-фонд USVC, розничные инвесторы тоже могут инвестировать в OpenAI, Anthropic до IPO

Известный венчурный инвестор Силиконовой долины Naval, под управлением которого работает AngelList, недавно запустил новый фонд под названием USVC. Фонд ориентирован на то, чтобы обычные инвесторы могли косвенно участвовать в OpenAI, Anthropic, xAI, Vercel, Crusoe, Sierra и Legora и других популярных непубличных технологических компаниях, при этом входной порог составляет всего минимум 500 долларов. Официально его подают как «инвестиции в компании будущего до того, как всё станет очевидным», и подчеркивают, что это фонд, открытый для всех инвесторов, без необходимости иметь статус квалифицированного инвестора. Он пытается превратить венчурные активы, которые раньше были доступны только богатым и людям из круга, в продукт, к которому могут получить доступ и розничные инвесторы. Инвестировать в ранние AI-компании можно уже за 500 долларов Ключевая история USVC очень прямолинейна: когда всё больше звездных стартапов выбирают оставаться на частном рынке в течение длительного времени, по-настоящему взрывной рост оценок зачастую происходит в I

ChainNewsAbmedia37м назад

Tesla приобретет компанию по оборудованию для ИИ на сумму до $2 миллиарда

Сообщение Gate News, 23 апреля — Tesla объявила 23 апреля, что договорилась приобрести компанию по аппаратному обеспечению для искусственного интеллекта на сумму до $2 миллиарда в виде обыкновенных акций Tesla и вознаграждений в акциях. Приблизительно $1.8 миллиарда

GateNews41м назад

Топовая юридическая фирма взимает более 2000 долларов США в час, судебные документы разоблачили «ИИ-глюки, череда ошибок»

Верховная юридическая фирма США Sullivan & Cromwell принесла извинения судье за примерно три десятка случаев AI-ошибок, ложных прецедентов и вымышленных положений в судебных документах, поданных по делу о банкротстве в Манхэттене, за что и извинилась перед судьей. Несмотря на высокие почасовые гонорары и внутренние учебные политики, при фактической подготовке не было внедрено проверочное рассмотрение; этот инцидент вновь вызвал дискуссии о применении AI в юридической сфере и об этической ответственности.

ChainNewsAbmedia59м назад

DeepSeek публикует TileKernels с открытым исходным кодом — библиотеку GPU-ядeр для обучения и вывода больших моделей

Сообщение Gate News, 23 апреля — DeepSeek опубликовал TileKernels с открытым исходным кодом под лицензией MIT. Это библиотека GPU-ядeр, написанная на TileLang для обучения и вывода больших языковых моделей. TileLang — предметно-ориентированный язык, разработанный командой tile-ai для выражения высокопроизводительных GPU-ядeр в

GateNews1ч назад

Samsung SDS расширяет партнерство с Google Cloud, чтобы обслуживать регулируемые отрасли с помощью ИИ и услуг безопасности

Сообщение Gate News, 23 апреля — Samsung SDS расширила партнерство с Google Cloud, чтобы предоставлять услуги ИИ, облачных вычислений и безопасности для регулируемых отраслей, включая государственный сектор и финансовые услуги. Компании развернут Google Distributed Cloud для клиентов, которым требуется

GateNews1ч назад
комментарий
0/400
Нет комментариев