Google DeepMind merilis model sintesis suara baru "Gemini 3.1 Flash TTS" yang dapat menyesuaikan intonasi, kecepatan, dan suasana hati melalui instruksi teks, mendukung lebih dari 70 bahasa dan berbagai aksen. Model ini menekankan kealamian dan dilengkapi fitur watermark untuk melawan informasi palsu. Kinerjanya menempati posisi kedua dalam pengujian buta, cocok untuk berbagai bidang, menandai meningkatnya kompetisi dalam AI generasi suara.

TechubNews

2026-04-17 13:48:52

Pembuatan abstrak sedang berlangsung

Organisasi kecerdasan buatan Google DeepMind mengungkapkan model sintesis suara baru “Gemini 3.1 Flash TTS”. Inti dari model ini adalah tidak hanya mampu berbicara secara lebih alami dibandingkan suara mekanis yang ada saat ini, tetapi pengguna juga dapat menyesuaikan nada, kecepatan, dan suasana hati secara rinci hanya melalui instruksi teks.

Mengontrol nada, intonasi, dan kecepatan melalui instruksi teks

Google LLC baru-baru ini mengumumkan peluncuran Gemini 3.1 Flash TTS melalui blog. Model ini mampu mencerminkan kata-kata perintah seperti “bersemangat”, “terkejut”, “penyampai informasi” untuk mengubah intonasi dan warna suara saat mengubah respons chatbot menjadi suara.

Berdasarkan video demonstrasi yang dipublikasikan, pengguna tidak hanya dapat memilih suara, tetapi juga dapat menyesuaikan cara penyampaian suara dan suasana hati. Jika generasi TTS sebelumnya terasa “seperti robot”, maka generasi ini lebih fokus pada pencapaian ekspresi yang lebih mendekati manusia.

Mendukung aksen dari berbagai wilayah bahasa Inggris hingga format podcast

Gemini 3.1 Flash TTS juga menyediakan berbagai aksen regional dari bahasa utama. Sebagai contoh, untuk bahasa Inggris, pengguna dapat memilih aksen Amerika “Valley” dan “Southern”, serta berbagai varian seperti Inggris “Brixton” dan “RP”. Selain itu, juga termasuk opsi aksen khusus seperti “Transatlantik”.

Google juga menambahkan fitur “kontrol sutradara” ke model ini. Pengguna dapat menyesuaikan gaya bicara dan kecepatan secara lebih rinci, serta menggunakan template dalam bentuk dialog podcast, narasi buku audio, mentor bahasa, asisten suara, panduan kesehatan, pembawa berita, petugas dukungan pelanggan, dan lain-lain.

Yang istimewa, ketika pengguna mengatur skenario dan lingkungan, bahkan memasukkan panduan dialog, model ini dirancang agar dapat melakukan percakapan multi-putaran sambil mempertahankan gaya bicara yang konsisten. Google menjelaskan bahwa pengaturan yang selesai dapat diekspor sebagai kode API Gemini, sehingga suara yang sama dapat direproduksi di berbagai proyek dan platform.

Mendukung lebih dari 70 bahasa… dan menerapkan watermark

Menurut Google, tujuan Gemini 3.1 Flash TTS adalah memberikan pengalaman suara yang lebih alami. Mendukung lebih dari 70 bahasa, termasuk Jepang, Hindi, Jerman, dan lainnya.

Selain itu, semua output disematkan watermark SynthID. Langkah ini dianggap bertujuan memudahkan identifikasi konten suara yang dihasilkan AI, sebagai langkah antisipasi terhadap potensi penyebaran deepfake atau informasi palsu di masa depan.

Peringkat kedua dalam pengujian buta… pengembang dapat langsung menggunakan

Kinerja model ini juga telah divalidasi dalam tingkat tertentu. Dalam “Artificial Analysis TTS Ranking” yang menilai preferensi manusia secara buta sebanyak ribuan kali, Gemini 3.1 Flash TTS meraih skor 1211 dan menempati posisi kedua secara keseluruhan. Google menyatakan bahwa ini menunjukkan model ini mendapatkan penilaian yang lebih tinggi dibandingkan beberapa model TTS populer lainnya.

Saat ini, pengembang dapat langsung menggunakan model ini melalui Gemini API dan Google AI Studio. Pelanggan perusahaan dapat mengaksesnya melalui Vertex AI, sementara pengguna umum dapat mencoba fitur ini di Google Biz.

Peluncuran ini menunjukkan bahwa kompetisi dalam AI generatif sedang berkembang dari teks dan gambar ke bidang suara. Terutama dengan meningkatnya permintaan dari pasar dukungan pelanggan perusahaan, produksi media, pendidikan, dan pembuatan konten digital untuk “suara AI yang alami”, Gemini 3.1 Flash TTS kemungkinan akan semakin meningkatkan tingkat persaingan di pasar terkait.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GatePreIPOsLaunchesWithSpaceX
187.47K Popularitas
#
Gate13thAnniversaryLive
739.11K Popularitas
#
IsraelStrikesIranBTCPlunges
30.03K Popularitas
#
AltcoinsRallyStrong
7.31M Popularitas
#
AnthropicvsOpenAIHeatsUp
1.06M Popularitas

Sematkan

peta situs

Google DeepMind, merilis 'Gemini 3.1 Flash TTS'… dapat menyesuaikan nada dan kecepatan bicara melalui teks

Topik Trending

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Sematkan