Google ได้แอบลงรายการแอปพลิเคชันการถอดเสียง AI แบบออฟไลน์ฟรี “AI Edge Eloquent” บน iOS App Store ในสัปดาห์นี้ โดยใช้โมเดล Gemma ASR ที่ประมวลผลบนอุปกรณ์ทั้งหมด เสียงไม่ออกจากอุปกรณ์เลย และอย่างที่พบได้ยากคือ เปิดตัวบนแพลตฟอร์ม iOS ก่อน Android
(ความเป็นมา: Google เปิดตัวโมเดลโอเพนที่ฉลาดที่สุด Gemma 4! เปลี่ยนมาใช้ลิขสิทธิ์ Apache 2.0 แบบเต็มรูปแบบ ประสิทธิภาพใกล้เคียงกับ AI แบบปิดที่ใหญ่ ๆ)
(ข้อมูลเพิ่มเติม: ทำลายการผูกขาดของ NVIDIA? โมเดล AI ที่แข็งแกร่งที่สุดบนโลกของ Google อย่าง “Gemma 3” ใช้ H100 1 ตัว เอาชนะ DeepSeek และ OpenAI)
สารบัญบทความ
Toggle
ไม่มีงานเปิดตัว ไม่มีประกาศอย่างเป็นทางการใด ๆ แต่ Google ก็แอบยก “AI Edge Eloquent” ขึ้น iOS App Store ก่อนหน้านี้ในสัปดาห์นี้อย่างเงียบ ๆ แอปพลิเคชันถอดเสียงด้วย AI แบบฟรีทั้งหมดตัวนี้ โฟกัสที่การรู้จำเสียงแบบออฟไลน์ เบื้องหลังรันโมเดล Gemma ASR (การรู้จำเสียงอัตโนมัติ) บนฝั่งอุปกรณ์ของ Google เอง การประมวลผลเสียงทั้งหมดทำบนเครื่องของผู้ใช้ ไม่ต้องเชื่อมต่อเครือข่าย
ตรรกะการใช้งานของ “AI Edge Eloquent” ตรงไปตรงมามาก หลังเปิดแอปแล้วพูดใส่ไมโครโฟน ข้อความและกราฟรูปคลื่นเสียงจะปรากฏแบบเรียลไทม์บนหน้าจอ เมื่อหยุดบันทึก แอปจะกรองคำพูดแทรกในลักษณะ “อืม”“อา” และอื่น ๆ โดยอัตโนมัติ แก้การแบ่งประโยคให้จัดระเบียบเนื้อหาที่พูดให้เป็นข้อความที่สะอาด ใช้งานได้ทันที และคัดลอกไปยังคลิปบอร์ดโดยอัตโนมัติ
การออกแบบด้านความเป็นส่วนตัวยังเป็นหนึ่งในจุดขายหลักของแอปตัวนี้ ในโหมดออฟไลน์ล้วน ข้อมูลเสียงจะไม่ออกจาก iPhone ของผู้ใช้ ไม่ถูกส่งไปยังเซิร์ฟเวอร์ใด ๆ Google ยังมีตัวเลือก “โหมดคลาวด์”: การรู้จำเสียงยังเสร็จสิ้นบนฝั่งอุปกรณ์ เพียงส่ง “ข้อความที่ถอดรู้แล้ว” (ไม่ใช่เสียงดิบ) ไปยังโมเดลคลาวด์ของ Gemini เพื่อทำความสะอาดต่อ คุณภาพยิ่งสูงขึ้น
บริการทั้งชุดนี้ฟรีทั้งหมด ไม่มีค่าบอกรับสมาชิก ไม่มีเพดานจำกัดการใช้งาน
สื่อด้านเทคโนโลยีสังเกตเห็นปรากฏการณ์ที่เกิดขึ้นไม่บ่อยเช่นกันพร้อมกัน: ผลิตภัณฑ์ของ Google แทบทั้งหมดมักเปิดตัวบน Android ก่อน โดยเฉพาะฟีเจอร์ที่เกี่ยวข้องกับ AI บนฝั่งอุปกรณ์ โดยปกติมักมาพร้อมอุปกรณ์ Pixel และโมเดล Gemini Nano เป็นลำดับแรก ครั้งนี้ “AI Edge Eloquent” กลับสวนทาง ในคำอธิบายบน App Store ยังเขียนไว้ชัดเจนอีกด้วยว่า “เวอร์ชัน Android กำลังจะมา”
นักวิเคราะห์มีอยู่ 2 คำอธิบายหลักสำหรับเรื่องนี้ ประการแรกคือการทดสอบตลาด: Google อาจตั้งใจเลือก iOS ซึ่งเป็น “พื้นที่ไม่ใช่คู่แข่งหลัก” เพื่อทำการทดลอง โดยประเมินการตอบรับของผู้บริโภคต่อการถอดเสียง AI บนฝั่งอุปกรณ์และนิสัยการใช้งาน โดยไม่ไปรบกวนระบบนิเวศ Android
ประการที่สองคือมุมมองว่าพร้อมแล้วทางเทคนิค: โมเดล Gemma ASR เวอร์ชัน iOS อาจทำได้ตามมาตรฐานที่ใช้งานได้เร็วกว่าเวอร์ชัน Android ตามความคืบหน้าการปรับแต่ง Google จึงเลือกที่จะลงสโตร์เลย แทนที่จะรอให้ทั้งสองแพลตฟอร์มเปิดพร้อมกัน
ในมุมมองด้านเทคนิค “AI Edge Eloquent” ไม่ได้มีความหมายเพียงแค่เป็นเครื่องมือถอดเสียงเท่านั้น Gemma คือชุดโมเดล AI แบบเบาและโอเพนซอร์สของ Google ออกแบบมาให้ทำงานได้อย่างมีประสิทธิภาพในสภาพแวดล้อมที่ทรัพยากรจำกัด เช่นอุปกรณ์พกพา ส่วน AI Edge คือเฟรมเวิร์กที่ Google มอบให้สำหรับการรันโมเดลการเรียนรู้ของเครื่องบนฝั่งอุปกรณ์
แอปตัวนี้เท่ากับนำความสามารถในการอนุมานบนฝั่งอุปกรณ์ของ Gemma ไปไว้ในสถานการณ์ใช้งานประจำวันของผู้บริโภค
สำหรับนักพัฒนาแล้ว AI Edge Eloquent ยังเป็นตัวอย่างที่ใช้เป็นข้อมูลอ้างอิง: แสดงวิธีการนำโมเดล Gemma ไปใช้ในผลิตภัณฑ์ระดับผู้บริโภค และสาธิตว่าระบบสถาปัตยกรรมแบบผสมระหว่างออฟไลน์กับคลาวด์สามารถหาสมดุลระหว่างความเป็นส่วนตัวกับคุณภาพได้อย่างไร