Google meluncurkan Gemini 3.1 Flash TTS: mendukung 70 bahasa dan skenario untuk sutradara, suara AI lebih alami

ChainNewsAbmedia

Penanggung jawab hubungan pengembang AI Google, Logan Kilpatrick, pada 15 April mengumumkan peluncuran Gemini 3.1 Flash TTS — model text-to-speech terbaru dari Google. Model ini mendukung 70 bahasa, kontrol terperinci berdasarkan scene direction (petunjuk adegan), tingkat pembicara, serta audio tags, dan saat ini sudah dibuka untuk digunakan di audio playground Google AI Studio serta di Gemini API.

Empat fitur inti

Gemini 3.1 Flash TTS dibandingkan pendahulunya mengalami empat peningkatan yang menonjol:

Scene Direction — dapat mengatur situasi untuk suara, misalnya “berbicara pelan di kafe yang ramai” atau “mengumumkan kabar baik dengan penuh semangat”; model akan menyesuaikan intonasi, kecepatan bicara, dan emosi sesuai dengan situasi

Kontrol Tingkat Pembicara (Speaker-Level Specificity) — dalam dialog multi-peran, dapat menetapkan karakteristik suara yang berbeda untuk setiap peran

Audio Tags — mendukung penyisipan instruksi efek suara ke dalam teks, untuk mengontrol detail seperti jeda dan perubahan nada

Dukungan 70 bahasa — memperluas cakupan dukungan multi-bahasa secara signifikan, termasuk bahasa Mandarin

Suara yang lebih alami dan lebih ekspresif

Google menekankan kemajuan model ini dalam hal naturalitas suara. Model TTS tradisional sering dikritik karena outputnya “terdengar seperti AI”. Gemini 3.1 Flash TTS mencoba mempersempit kesenjangan dengan suara manusia melalui variasi ritme dan ekspresi emosi yang lebih kaya. Kilpatrick menyatakan bahwa kemajuan dari Gemini 2.5 hingga 3.1 “sangat signifikan”.

Cara menggunakan untuk pengembang

Pengembang dapat menggunakannya dengan dua cara:

Google AI Studio Audio Playground — menguji dan melihat efek suara secara langsung melalui antarmuka web

Gemini API — diintegrasikan ke dalam aplikasi, digunakan untuk asisten suara, audiobook, pembuatan Podcast secara otomatis, layanan pelanggan multi-bahasa, dan skenario lainnya

Portofolio produk Gemini terus berkembang

Flash TTS adalah bagian dari rilis yang cukup padat untuk seri Gemini 3.1 belakangan ini. Sebelumnya, Google telah meluncurkan Gemini Robotics ER 1.6 (penalaran visi robot), Tab Tab Tab (pelengkapan prompt Vibe Coding), dan berbagai fungsi pratinjau desain. Google sedang memperluas Gemini dari “model obrolan” menjadi platform AI multimodal yang mencakup teks, suara, visual, dan robot.

Artikel ini Google meluncurkan Gemini 3.1 Flash TTS: dukung 70 bahasa dan scene direction, suara AI lebih alami pertama kali muncul di Lianxun ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Google 推 Deep Research Max:mendukung MCP, bisa terhubung dengan data privat perusahaan

Berdasarkan pengumuman blog resmi Google DeepMind, Google meluncurkan agen riset otonom generasi baru Deep Research dan Deep Research Max pada 21 April 2026, dibangun di atas Gemini 3.1 Pro, sebagai versi resmi setelah versi preview yang disediakan pada Desember 2025 melalui Interactions API. Kedua agen kini tersedia dalam bentuk public preview pada skema berbayar Gemini API; pengguna startup dan perusahaan dari Google Cloud akan segera dapat mengaksesnya. Dua varian memiliki penentuan posisi yang berbeda: interaktif vs kedalaman mendalam asinkron Google mengelompokkan dua agen tersebut berdasarkan skenario penggunaan: Deep Research

ChainNewsAbmedia1jam yang lalu

OpenAI Codex Mencapai 4 Juta Pengguna Aktif Bulanan dalam Kurang dari Dua Minggu

OpenAI Codex mencatat 4 juta MAU, diumumkan oleh Sottiaux dan Altman; lonjakannya terjadi dalam waktu kurang dari dua minggu dari 3 juta, dan batas kecepatan direset di semua tingkatan untuk merayakannya. OpenAI Codex mencapai 4 juta pengguna aktif bulanan dalam waktu kurang dari dua minggu sejak mencapai 3 juta, menurut pernyataan para eksekutif OpenAI. Untuk menandai tonggak tersebut, batas kecepatan di semua tingkatan direset.

GateNews3jam yang lalu

Dua Startup AI Afrika Selatan Terpilih untuk Google for Startups Accelerator Africa Kelas 10

Dua startup SA, Loop dan Vambo AI, bergabung dengan cohort ke-10 Google’s Accelerator Africa mulai 2.600 aplikasi; Loop meningkatkan mobilitas/pembayaran, Vambo AI menghadirkan AI multibahasa; program berlangsung Apr–Jun 2026 dengan mentor dan lokakarya AI. Abstrak: Dua startup Afrika Selatan, Loop dan Vambo AI, telah terpilih untuk cohort ke-10 Google for Startups Accelerator Africa, dipilih dari sekitar 2.600 pendaftaran dan salah satu dari 15 peserta asal Afrika. Loop mendigitalkan mobilitas dan pembayaran, sementara Vambo AI menyediakan infrastruktur AI multibahasa untuk terjemahan, ucapan, dan generatif AI di berbagai bahasa Afrika. Program 2026 berlangsung 13 April–19 Juni dan menawarkan pendampingan serta lokakarya praktik langsung yang berfokus pada AI/ML. Sejak 2018, akselerator ini telah mendukung 106 startup dari 17 negara di Afrika, membantu mereka mengumpulkan lebih dari $263 juta dan menciptakan lebih dari 2.800 pekerjaan.

GateNews4jam yang lalu

Daftar Forbes AI 50 Menampilkan 20 Perusahaan Baru; OpenAI dan Anthropic Menguasai 80% dari Total Pendanaan

Gerbang Berita, 21 April — Forbes merilis daftar AI 50 edisi kedelapan tahun 2026, yang menampilkan 20 perusahaan baru yang masuk. OpenAI dan Anthropic terus memimpin peringkat, menarik modal besar dari para pemodal ventura papan atas di Silicon Valley serta perusahaan teknologi besar. Total pendanaan gabungan untuk semua perusahaan dalam daftar mencapai $305,6 miliar, dengan OpenAI dan Anthropic menyumbang $242,6 miliar—sekitar 80% dari total.

GateNews4jam yang lalu

Zi Variabel Meluncurkan Model Embodied AI WALL-B; Robot Masuk ke Rumah Nyata dalam 35 Hari

Berita Gate, 21 April — Zibianliang (自变量), sebuah perusahaan robotika asal Tiongkok, mengadakan konferensi pers pada 21 April untuk meluncurkan model fondasi embodied AI generasi terbarunya, WALL-B. Perusahaan tersebut mengumumkan bahwa robot yang ditenagai oleh WALL-B akan masuk ke rumah tangga nyata dalam 35 hari. Menurut pendiri Zibianliang

GateNews5jam yang lalu

OpenAI Menyiapkan Fitur Agents untuk ChatGPT, dengan Kode Nama Hermes

Pesan Gate News, 21 April — OpenAI sedang menyiapkan fitur Agents baru untuk ChatGPT, dengan kode nama "Hermes," menurut Tibor Blaho, yang memantau pembaruan produk AI. Fitur ini mencakup pembuat agen baru bernama "studio" yang memungkinkan pengguna membuat agen dari templat, menjadwalkan eksekusi, dan

GateNews6jam yang lalu
Komentar
0/400
Tidak ada komentar