ไมโครซอฟต์เปิดตัวโมเดล AI “มอง ฟัง และพูด” จำนวน 3 รุ่น โดยเล็งเวิร์กโฟลว์สำหรับงานขององค์กรระดับเชิงพาณิชย์

ChainNewsAbmedia

หลังจากที่ Microsoft เปิดตัวโมเดลสร้างภาพ MAI-Image-2 ในวันที่ 18 มีนาคมแล้ว เมื่อวันที่ 2 เมษายน Microsoft ได้ปล่อยโมเดลที่เกี่ยวข้องกับเสียงอีก 2 รุ่น ได้แก่ MAI-Transcribe-1 และ MAI-Voice-1 ภายในเวลาอันสั้น ได้เสริมขีดความสามารถด้านภาพและเสียงอย่างต่อเนื่อง ซึ่งถูกมองว่าเป็นการขับเคลื่อนที่สำคัญสำหรับกลยุทธ์ AI แบบมัลติโหมดของบริษัท โมเดลทั้งสามนี้ไม่ได้เป็นเพียงการอัปเดตแบบกระจัดกระจาย แต่เป็นภาพต่อจิ๊กซอว์แบบครบชุด ตั้งแต่การสร้างภาพ การเข้าใจเสียง ไปจนถึงการสร้างเสียงออกมา แสดงให้เห็นว่า Microsoft กำลังพยายามสร้างความสามารถพื้นฐานของ AI ที่สามารถฝังเข้าสู่เวิร์กโฟลว์ขององค์กรได้โดยตรง

Microsoft MAI-Image-2 มุ่งสู่การสร้างภาพระดับเชิงพาณิชย์

MAI-Image-2 ซึ่งเปิดตัวครั้งแรกโดย Microsoft เมื่อวันที่ 18 มีนาคม อย่างชัดเจนว่าจัดน้ำหนักไปที่ “ใช้งานเชิงพาณิชย์” มากกว่าการสร้างสรรค์เพื่อความบันเทิงหรือเพื่อการทดลองล้วนๆ เมื่อเทียบกับโมเดลภาพรุ่นก่อนที่มักเน้นความบันเทิงหรือเชิงทดลอง MAI-Image-2 ให้ความสำคัญกับความเสถียรของผลลัพธ์และความถูกต้องของความหมาย สามารถคงความสอดคล้องขององค์ประกอบภาพและรายละเอียดที่ครบถ้วนไว้ได้ แม้ในคำสั่งที่ซับซ้อน นี่ทำให้เหมาะกับการใช้งานในสถานการณ์ต่างๆ เช่น สื่อการตลาดของแบรนด์ ภาพผลิตภัณฑ์ และงานออกแบบโฆษณา

สำหรับองค์กร คุณค่าของโมเดลลักษณะนี้ไม่ได้อยู่ที่ว่ามันสามารถสร้างภาพที่น่าทึ่งได้หรือไม่ แต่อยู่ที่ว่าจะสามารถผลิตเนื้อหาที่ “ใช้งานได้และควบคุมได้” อย่างต่อเนื่องหรือไม่ ซึ่งนี่คือแก่นที่ MAI-Image-2 ได้เสริมความแข็งแรง

Clipto สะดุดไม่ได้! Microsoft ส่งโมเดลถอดเสียงแบบคำต่อคำ MAI-Transcribe-1

ถัดมาในวันที่ 2 เมษายน ได้เปิดตัว MAI-Transcribe-1 ซึ่งมุ่งเน้นความสามารถด้านการเข้าใจเสียง โมเดลนี้มีบทบาทชัดเจนมาก นั่นคือเป็นชั้นเทคโนโลยีพื้นฐานสำหรับการแปลงเสียงเป็นข้อมูลข้อความแบบมีโครงสร้าง มันสามารถประมวลผลอินพุตเสียงแบบเรียลไทม์ และรักษาความถูกต้องสูงในการจดจำได้ในสถานการณ์ที่หลากหลายทั้งหลายภาษาและสำเนียงต่างๆ พร้อมทั้งมีความสามารถในการต้านทานสัญญาณรบกวนจากเสียงรอบข้างในระดับหนึ่ง

ความสามารถลักษณะนี้มีความสำคัญเป็นพิเศษในบริบทขององค์กร ไม่ว่าจะเป็นถอดเสียงการประชุมแบบคำต่อคำ บันทึกการโทรบริการลูกค้า หรือการสรุปและจัดระเบียบเนื้อหาสื่อ ล้วนพึ่งพาคุณภาพของการแปลงเสียงเป็นข้อความที่เสถียร เมื่อข้อมูลเสียงถูกแปลงเป็นข้อความได้อย่างแม่นยำ กระบวนการค้นหา สรุป และวิเคราะห์ในขั้นถัดไปก็จะสามารถทำให้อัตโนมัติได้อย่างครอบคลุม นี่คือบทบาทสำคัญของ MAI-Transcribe-1 ในสถาปัตยกรรม AI โดยรวม

ใช้โมเดล MAI-Voice-1 สำหรับงานบริการลูกค้า เสียง Podcast

สำหรับ MAI-Voice-1 ซึ่งสอดรับกัน นั่นคือโมเดลที่รับผิดชอบฝั่งการแสดงผลด้วยเสียง โดยจุดเน้นของโมเดลอยู่ที่การทำให้เสียงที่ AI สร้างออกมามีความใกล้เคียงการแสดงของมนุษย์มากขึ้น ทั้งในด้านโทน น้ำหนักจังหวะ และความเป็นธรรมชาติของอารมณ์ ทำให้สามารถนำไปใช้ในสถานการณ์อย่างเสียงบริการลูกค้า ผู้ช่วย AI การพากย์เสียงสำหรับวิดีโอและสื่อ ไปจนถึงการผลิตพอดแคสต์ เมื่อเทียบกับการสังเคราะห์เสียงแบบค่อนข้างเชิงกลในอดีต MAI-Voice-1 ให้ความสำคัญกับโทนและสไตล์ที่ปรับได้ ทำให้เสียงไม่ใช่เพียงเครื่องมือส่งผ่านข้อมูล แต่เป็นอินเทอร์เฟซที่มีความสามารถด้านการสื่อสารและการแสดงออก

สรุปภาพรวมโมเดล AI 3 รุ่นของ Microsoft “มอง ได้ยิน และพูด”

หากพิจารณาทั้งสามอย่างอยู่ในบริบทเดียวกัน จะเห็นได้ว่าแผนของ Microsoft ไม่ได้เป็นการก้าวกระโดดแบบจุดเดียว แต่เป็นการขับเคลื่อนไปสู่การผสานแบบมัลติโหมดอย่างรวดเร็ว MAI-Image-2 จัดการการสร้างภาพ ส่วน MAI-Transcribe-1 รับผิดชอบการเข้าใจเสียง และ MAI-Voice-1 ทำหน้าที่สร้างเสียง ทั้งสามอย่างร่วมกันเป็นโครงสร้างความสามารถพื้นฐานของ “มอง ได้ยิน และพูด”

เมื่อความสามารถเหล่านี้ถูกนำไปรวมกับโมเดลภาษาที่มีอยู่และบริการบนคลาวด์ ก็จะสามารถสร้างเวิร์กโฟลว์งานของ AI แบบครบวงจรได้ ตั้งแต่การป้อนข้อมูล การเข้าใจ การสร้าง ไปจนถึงการแสดงผล ทั้งหมดสามารถทำได้ภายในระบบเดียวกัน

คุณลักษณะ

MAI-Transcribe-1

(เสียงเป็นข้อความ)

MAI-Voice-1 (ข้อความเป็นเสียง) MAI-Image-2 (สร้างภาพจากข้อความ) ฟังก์ชันหลัก

แปลงเสียงเป็นคำต่อคำ

สร้างเสียงที่เป็นธรรมชาติ ลื่นไหล และมีความรู้สึก

สร้างภาพตามคำบรรยายจากข้อความ

วันวางจำหน่าย

2026 ปี 4 เดือน 2 วัน

2026 ปี 4 เดือน 2 วัน

2026 ปี 3 เดือน 18 วัน

เทคโนโลยีหลักและคุณลักษณะ

ทนสัญญาณรบกวนสูง, การจดจำภาษาอัตโนมัติ

การควบคุมอารมณ์, การคัดลอกเสียง (Voice Prompting)

สถาปัตยกรรมโมเดลแบบดิฟฟิวชัน (Diffusion-based), ความสมจริงสูง

รองรับภาษา

อังกฤษ, จีน, สเปน ฯลฯ 25 ภาษา

ปัจจุบันจำกัดเฉพาะอังกฤษ (กำลังจะขยายเป็น 10+ ภาษา)

เน้นอินพุตด้วยข้อความ (ไม่ได้ระบุชัดเจนถึงการรองรับหลายภาษา)

รูปแบบการกำหนดราคา

เสียง $0.36 ดอลลาร์สหรัฐ ต่อชั่วโมง

$22.00 ดอลลาร์สหรัฐ ต่อหนึ่งล้านคำ

ขึ้นอยู่กับแพลตฟอร์มที่ใช้งาน (เช่น MAI Playground)

ข้อจำกัดอินพุต/เอาต์พุต

อินพุต: WAV, MP3, FLAC

อินพุต: ข้อความล้วนหรือ SSML

เอาต์พุต: สูงสุด 1024×1024 พิกเซล

บทความนี้ โมเดล AI “มอง ได้ยิน และพูด” 3 รุ่นของ Microsoft ปักหมุดไปที่เวิร์กโฟลว์ AI ระดับองค์กรสำหรับเชิงพาณิชย์ เผยแพร่ครั้งแรกใน 鏈新聞 ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น