Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Google DeepMind, phát hành 'Gemini 3.1 Flash TTS'… có thể điều chỉnh ngữ điệu và tốc độ nói qua văn bản
Google tổ chức trí tuệ nhân tạo DeepMind công bố mô hình tổng hợp giọng nói mới “Gemini 3.1 Flash TTS”. Trọng tâm của nó là không chỉ có thể nói tự nhiên hơn so với các giọng nói máy móc hiện tại, mà còn cho phép người dùng điều chỉnh cẩn thận ngữ điệu, tốc độ và không khí chỉ bằng lệnh văn bản.
Điều khiển ngữ điệu·ngữ âm·tốc độ qua lệnh văn bản
Gần đây, Google LLC đã thông báo ra mắt Gemini 3.1 Flash TTS qua blog. Mô hình này trong quá trình chuyển đổi phản hồi của chatbot thành giọng nói, có thể phản ánh các từ lệnh như “nhiệt tình”、“ngạc nhiên”、“truyền đạt thông tin” để thay đổi ngữ điệu và âm sắc.
Theo video trình diễn công khai, người dùng không chỉ có thể chọn âm thanh mà còn điều chỉnh cách truyền đạt và không khí của giọng nói. Nếu thế hệ TTS trước có phần “giống robot”, thì thế hệ mô hình này tập trung vào việc thể hiện khả năng biểu đạt gần giống con người hơn.
Hỗ trợ từ giọng Anh khu vực đến dạng podcast
Gemini 3.1 Flash TTS còn cung cấp nhiều giọng địa phương của các ngôn ngữ chính. Ví dụ tiếng Anh, không chỉ có thể chọn giọng Mỹ “Valley” và “Southern”, mà còn có thể chọn các biến thể như “Brixton”, “RP” của Anh. Ngoài ra còn có các tùy chọn giọng đặc biệt như “qua Đại Tây Dương”.
Google còn tích hợp chức năng “kiểm soát đạo diễn” cho mô hình này. Người dùng có thể điều chỉnh phong cách nói và tốc độ một cách tinh vi hơn, và sử dụng các mẫu dạng podcast đối thoại, thuyết minh sách nói, hướng dẫn ngôn ngữ, trợ lý giọng nói, hướng dẫn sức khỏe, phát thanh viên tin tức, nhân viên hỗ trợ khách hàng, v.v.
Điều đặc biệt đáng chú ý là khi người dùng thiết lập cảnh và môi trường, thậm chí nhập hướng dẫn thoại, mô hình này được thiết kế để cho phép các nhân vật trò chuyện nhiều lần đồng thời duy trì phong cách nói nhất quán. Google giải thích rằng, có thể xuất các giá trị cài đặt hoàn chỉnh thành mã API Gemini, từ đó tái tạo cùng một giọng nói trong nhiều dự án và nền tảng.
Hỗ trợ hơn 70 ngôn ngữ…và ứng dụng watermark
Theo Google, mục tiêu của Gemini 3.1 Flash TTS là cung cấp trải nghiệm giọng nói tự nhiên hơn. Hỗ trợ hơn 70 ngôn ngữ, bao gồm tiếng Nhật, Hindi, Đức, v.v.
Ngoài ra, tất cả nội dung đầu ra đều được nhúng watermark SynthID. Việc này nhằm mục đích dễ dàng nhận diện nội dung giọng nói do AI tạo ra, nhằm đối phó với những lo ngại về giả mạo sâu hoặc lan truyền thông tin giả trong tương lai.
Xếp hạng thứ hai trong thử nghiệm mù… nhà phát triển có thể sử dụng ngay lập tức
Hiệu suất của nó cũng đã được xác nhận ở mức độ nào đó. Trong bảng xếp hạng “Artificial Analysis TTS” phản ánh sở thích của hàng nghìn người thử nghiệm mù, Gemini 3.1 Flash TTS đứng thứ hai tổng thể với 1211 điểm. Google cho biết, điều này có nghĩa là nó nhận được đánh giá cao hơn nhiều mô hình TTS phổ biến khác.
Hiện tại, các nhà phát triển có thể sử dụng mô hình này ngay lập tức qua API Gemini và Google AI Studio. Khách hàng doanh nghiệp có thể truy cập qua Vertex AI, còn người dùng thông thường có thể thử nghiệm tính năng này trong Google Biz.
Việc ra mắt lần này cho thấy, cạnh tranh trong lĩnh vực AI sinh tạo đang mở rộng nhanh chóng từ văn bản và hình ảnh sang lĩnh vực giọng nói. Đặc biệt trong bối cảnh nhu cầu “giọng nói AI tự nhiên” ngày càng tăng trong các thị trường hỗ trợ khách hàng doanh nghiệp, sản xuất truyền thông, giáo dục, nội dung số, Gemini 3.1 Flash TTS có khả năng sẽ nâng cao hơn nữa mức độ cạnh tranh trong các thị trường liên quan.
Lưu ý của TP AI: Bài viết đã được tóm tắt bằng mô hình ngôn ngữ dựa trên TokenPost.ai. Nội dung chính có thể bị bỏ qua hoặc không đúng với thực tế.