Google が Gemini 3.1 Flash TTS を提供開始:70 種類の言語とシーンに対応するディレクター機能、AI 音声はより自然に

ChainNewsAbmedia

Google AI 開発者リレーション責任者のLogan Kilpatrickは、4月15日にGemini 3.1 Flash TTSの提供開始を発表しました。これはGoogleの最新のテキスト読み上げ(TTS)モデルです。このモデルは70種類の言語、シーンディレクション(場面指示)、話者レベルのきめ細かな制御、音声タグに対応しており、現在Google AI Studioの音声プレイグラウンドおよびGemini APIで利用可能になっています。

4つのコア機能

Gemini 3.1 Flash TTSは、先代と比べて4つの顕著なアップグレードがあります:

シーンディレクション(Scene Direction)— 音声の状況を設定できます。たとえば「騒がしいカフェで小声で話す」や「わくわくしながら良い知らせを告げる」です。モデルは場面に応じてイントネーション、話速、感情を調整します

話者レベルの制御(Speaker-Level Specificity)— 複数の登場人物による対話では、各キャラクターに異なる声の特徴を設定できます

音声タグ(Audio Tags)— テキストに音響効果の指示を挿入して、間(ポーズ)、語気の変化などの細部を制御できます

70種類の言語対応 — 多言語のカバー範囲を大幅に拡張し、中国語を含みます

より自然で、表現力のある声

Googleは、このモデルの音声の自然さにおける進歩を強調しています。従来のTTSモデルの出力はしばしば「AIっぽく聞こえる」と批判されてきました。Gemini 3.1 Flash TTSは、より豊かな韻律の変化と感情表現によって、人間の音声との差を縮めようとしています。Kilpatrickは、Gemini 2.5から3.1への進歩は「非常に目覚ましい」と述べています。

開発者はどう使うか

開発者は次の2つの方法で利用できます:

Google AI Studio 音声プレイグラウンド — Webのインターフェースで直接テストし、音声効果をプレビュー

Gemini API — アプリケーションに統合して、音声アシスタント、オーディオブック、Podcastの自動生成、多言語カスタマーサポートなどのシーンで活用

Geminiの製品ラインは継続して拡張中

Flash TTSは、Gemini 3.1シリーズの直近の集中的なリリースの一環です。これまでGoogleは、Gemini Robotics ER 1.6(ロボットのビジョン推論)、Tab Tab Tab(Vibe Coding promptの補完)、およびデザインプレビューなどの機能を提供してきました。Googleは、Geminiを「チャットモデル」から、テキスト、音声、視覚、ロボットを含む全モーダルのAIプラットフォームへと拡張しています。

この記事「GoogleがGemini 3.1 Flash TTSをリリース:70種類の言語とシーンディレクションに対応、より自然なAI音声」は最初に 鏈新聞 ABMedia に掲載されました。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

クアルコムCEO、サムスン、SKハイニックス、LGとメモリ供給およびAIパートナーシップで会談

ゲートニュース記事、4月21日— クアルコムCEOのクリスティアーノ・アモン氏が最近、サムスン電子、SKハイニックス、LGエレクトロニクスの幹部と会談し、メモリ供給、チップ製造、AIパートナーシップについて協議した。会談は、AIサーバー向けメモリ需要が高まり続ける中で、クアルコムのLPDDRメモリ供給が逼迫している問題に対処することに焦点が当てられた。

GateNews3分前

Bundesbank、AnthropicのMythosモデルが欧州の銀行システムの弱点を露呈させ得ると警告

ゲートニュース・メッセージ、4月21日――ドイツ連邦銀行(Bundesbank)の総裁ヨアヒム・ナーゲル氏は火曜日、AnthropicのMythos AIモデルが欧州の金融機関に対して重大なサイバーセキュリティ上のリスクをもたらすと警告し、同技術へのより幅広いアクセスを求めた。ナーゲル氏は欧州中央銀行(European Central Bank)

GateNews42分前

AIチップ需要で韓国の半導体輸出が4月上旬に182.5%急増

AI需要の高まりがサムスンとSK hynixの韓国半導体輸出と利益を押し上げ、中国と米国向けの出荷が増加した。それでも、2025年の過去最高水準にもかかわらず、米国の関税による政策リスクが懸念されている。 要約:この記事は、AI関連の需要がメモリーチップの出荷とサムスン電子およびSK hynixの利益を押し上げ、韓国の半導体輸出が4月上旬に急増したと報じている。4月1日〜20日の輸出はUS$18.3 billionに達し、輸出総額は49.4%増のUS$50.4 billion、貿易黒字はUS$10.4 billionとなった。中国と米国が主要な成長市場であり、2025年の半導体輸出は過去最高のUS$173.4 billionに到達し、前年比20%超の伸びだった。とはいえ、政策面の不確実性は続く。先端コンピューティングチップに対する米国の25%関税が、センチメントに影響し得ること、メモリーチップの輸出が除外されること、そして中東の緊張やより広範な関税政策が見通しに重しとなり得ることが挙げられる。

GateNews43分前

経済学者がAIによる失業の波を挙げた後の雇用機会:「希少性の価値」が「感情サービス」へとシフト

Imas は、AI が人間の力を完全に置き換えるのではなく、希少性を感情と関係を中核とする経済へと振り向けるのだと指摘している。スターバックスの実験は、自動化の盲点を明らかにする。顧客の定着は、もてなしの作法と雰囲気によって決まる。歴史的な構造の転換とボーモル効果が示すように、AI は標準化された商品の価格を引き下げ、希少性は人との対話が必要な高い知覚価値へと移る。将来の重点は、感情サービスや手作りなどの領域にあるが、世界的な配分やベーシックインカムの問題は依然として解決が必要だ。

ChainNewsAbmedia49分前

Claude Live Artifacts:ダッシュボードをアプリに直接接続し、即時に自動更新

Claude公式のX投稿によると、Anthropicは4月20日にClaudeデスクトップアプリのCoworkでLive Artifacts機能をリリースし、AIが生成したチャート、ダッシュボード、トラッカーをユーザーのアプリケーションやファイルに直接接続でき、さらに開いたときに最新データで自動的に更新されます。Live Artifactsは、すべてのClaude有料プラン(Pro、Max、Team、Enterprise)のCoworkユーザーに提供されます。 Live Artifactsの主要機能:静的な出力からリアルタイム連動へ これまでのClaude Artifactsは生成後に現実との連動が途切れていました——ユーザーがデータを更新したい場合、データを再度貼り付けて、Claudeにもう一度再生成してもらう必要がありました。L

ChainNewsAbmedia1時間前

韓国のAIストレージスタートアップDnotitiaがシリーズAで6,120万ドルを調達

ゲートニュース記事、4月21日――韓国のAIストレージスタートアップDnotitiaは、Elohim Partnersが主導するシリーズAの資金調達ラウンドで、900億ウォン (US$61.2 million)を調達した。Kiwoom InvestmentとShinhan Venture Investmentもこのラウンドに参加した。 Dnotitiaの主力製品は、Seahorseベクトル

GateNews1時間前
コメント
0/400
コメントなし