ระบบการจดจำด้วย AI MemPalace ที่มิลลา โจโววิช มีส่วนร่วมในการพัฒนา อ้างว่าทดสอบได้คะแนนเต็มและกลายเป็นกระแสไวรัล แต่กลับถูกชุมชนถกตีกลับว่า การทดสอบมีข้อสงสัยเรื่องการโกงและทำให้ข้อมูลเข้าใจผิด จากการทดลองจริงพบว่าผลลัพธ์ถูกกล่าวอ้างเกินจริงและมีข้อผิดพลาดจำนวนมาก ทีมงานได้ยอมรับข้อบกพร่องแล้วและกำลังดำเนินการแก้ไขอยู่
เมื่อวานนี้ (4/7) ในวงการ AI มีข่าวใหญ่ว่า นักแสดงสาวชาวฮอลลีวูดมิลลา·โจโววิช (Milla Jovovich) ผู้โด่งดังจากเรื่อง《Resident Evil》และ《The Fifth Element》 ร่วมกับนักพัฒนา Ben Sigman ใช้ Claude Code ในการช่วยพัฒนา ระบบการจดจำด้วย AI แบบโอเพนซอร์ส “MemPalace”
ทันใดนั้น กระแส “ซูเปอร์สตาร์ระดับฮอลลีวูดข้ามสายมาทำโปรเจกต์ที่ได้คะแนนเต็ม” แพร่สะพัดไปทั่ว และจนถึงตอนนี้ MemPalace บน GitHub ก็ได้รับดาวมากกว่า 20,000 ดวงแล้ว แต่ไม่นานก็เกิดคำถามจากชุมชนผู้พัฒนา: ของจริงมีอะไรอยู่ในนั้นหรือเป็นการปั้นกระแส?
ขอพูดถึงแรงจูงใจที่ทำให้ MemPalace ถือกำเนิดก่อน เอกสารทางการระบุว่า มีเจตนาเพื่อแก้ปัญหาที่เนื้อหาการสนทนา กระบวนการตัดสินใจ และการหารือเชิงสถาปัตยกรรมในระบบ AI ปัจจุบันมักจะหายไปหลังจบช่วงการทำงาน ทำให้ความพยายามหลายเดือนต้อง ลดลงถึงศูนย์
เพื่อแก้ปัญหานี้ MemPalace ใช้โครงสร้างเชิงพื้นที่ในการจัดเก็บความทรงจำ โดยจัดหมวดหมู่อย่างชัดเจนให้เป็น “ปีก” ของบุคคลที่เป็นตัวแทนหรือโปรเจกต์ รวมถึงโครงสร้างในระดับต่าง ๆ เช่น ทางเดิน ห้อง และลิ้นชัก เพื่อเก็บต้นฉบับของการสนทนาไว้สำหรับการค้นหาเชิงความหมายในภายหลัง
ทีมพัฒนาระบุว่า MemPalace ได้คะแนน 100% ในเกณฑ์ประเมินความทรงจำระยะยาว LongMemEval และยังทำความแม่นยำได้ 96.6% โดยไม่เรียกใช้ API ภายนอกใด ๆ อีกทั้งสามารถรันได้อย่างครบถ้วนบนเครื่องท้องถิ่น ไม่จำเป็นต้องสมัครบริการคลาวด์ และมาพร้อมระบบภาษา AAAK ที่อ้างว่าสามารถบีบอัดแบบไม่สูญเสียได้ถึง 30 เท่า
แหล่งที่มา: GitHub มิลลา โจโววิช ดาราภาพยนตร์จากสหรัฐฯ สร้าง AI จดจำวัง ทำให้สาธารณชนให้ความสนใจ
แต่ผลคะแนนที่ MemPalace อ้างว่าได้เต็มใน LongMemEval ไม่นานก็ถูกตั้งคำถามจากวงการเดียวกัน
PenfieldLabs ซึ่งเป็นอีกบริษัทที่ผลิตระบบจดจำด้วย AI ชี้ว่า MemPalace อ้างว่าได้คะแนนเต็มในชุดข้อมูล LoCoMo ซึ่งเป็นไปไม่ได้ในเชิงคณิตศาสตร์ เพราะคำตอบมาตรฐานของชุดข้อมูลดังกล่าวมีข้อผิดพลาดอยู่เอง 99 รายการ
จากการวิเคราะห์ PenfieldLabs พบว่า คะแนน 100% ของ MemPalace มาจากการตั้งจำนวนรอบการดึงข้อมูล (retrieval) ไว้ที่ 50 ครั้ง แต่จำนวน “ขั้นสูงสุด” ของข้อมูลการสนทนาในการทดสอบมีเพียง 32 ครั้งเท่านั้น ซึ่งหมายความว่าระบบข้ามขั้นตอนการดึงข้อมูลโดยตรง แล้วส่งข้อมูลทั้งหมดให้โมเดล AI อ่าน
สำหรับผลคะแนน 100% ใน LongMemEval ทีมพัฒนาถูกพบว่าได้กำหนดโจทย์เฉพาะที่ผิดพลาดในการพัฒนาออกมา 3 ปัญหา และเขียนโค้ดโปรแกรมสำหรับการแก้ไขโดยเฉพาะ มีข้อสงสัยว่ามีการโกงในการทดสอบชุดข้อมูล
แหล่งที่มา: Reddit PenfieldLabs จากวงการเดียวกันชี้ว่า MemPalace อ้างว่าได้คะแนนเต็มในชุดข้อมูล LoCoMo ซึ่งเป็นไปไม่ได้ในเชิงคณิตศาสตร์
ผู้ใช้ GitHub hugooconnor หลังทดลองจริงได้แสดงความคิดเห็นว่า MemPalace อ้างว่าอัตราความแม่นยำในการดึงข้อมูลสูงถึง 96.6% แต่ในความเป็นจริงไม่ได้ใช้โครงสร้าง “AI จดจำวัง” ที่ MemPalace อวดไว้เลย hugooconnor ระบุว่า การทดสอบของพวกเขาเป็นเพียงการเรียกใช้ฟังก์ชันค่าเริ่มต้นของฐานข้อมูลระดับล่าง ChromaDB เท่านั้น และไม่มีส่วนเกี่ยวข้องกับตรรกะการจัดหมวดหมู่ที่โปรเจกต์เน้นย้ำ เช่น ปีก ห้อง หรือ ลิ้นชัก
หลังทดสอบ hugooconnor พบว่า เมื่อระบบเปิดใช้ตรรกะการจัดหมวดหมู่เฉพาะของจดจำวังจริง ๆ ผลการดึงข้อมูลกลับแย่ลง ยกตัวอย่างในโหมดห้อง ความแม่นยำลดลงสู่ 89.4% และเมื่อเปิดใช้งานเทคนิคการบีบอัด AAAK ความแม่นยำยิ่งลดลงไปที่ 84.2% ทั้งสองอย่างต่ำกว่าประสิทธิภาพของฐานข้อมูลเริ่มต้น
hugooconnor ยังวิจารณ์วิธีการทดสอบด้วยว่า สภาพแวดล้อมการทดสอบของ MemPalace ตั้งใจลดขอบเขตการดึงข้อมูลของแต่ละคำถามให้แคบลงเหลือประมาณ 50 ขั้นตอนการสนทนา ทำให้การค้นหาคำตอบในคลังตัวอย่างที่เล็กมากเป็นเรื่องง่ายเกินไป
หากขยายขอบเขตไปสู่สถานการณ์จริงที่มีมากกว่า 19,000 ขั้นตอนการสนทนา ความแม่นยำของการค้นหาด้วยคำสำคัญแบบดั้งเดิมจะตกฮวบลงสู่ 30% ซึ่งแสดงว่า วิธีทดสอบปัจจุบันของ MemPalace ซ่อนปัญหาความยากในการค้นหาในความเป็นจริงเอาไว้
แหล่งที่มา: GitHub ผู้ใช้ GitHub ทดสอบจริงชี้ว่า การทดสอบเกณฑ์ของ MemPalace มีส่วนที่ทำให้เข้าใจผิด
ขณะเดียวกัน แม้ว่าทีมพัฒนาจะเผยแพร่คำชี้แจงการแก้ไขแล้ว โดยยอมรับว่าเทคนิค AAAK ได้รับการยืนยันว่าเป็นการบีบอัดแบบสูญเสีย และสัญญาว่าจะปรับเอกสารและการออกแบบระบบตามคำวิจารณ์ที่เข้มงวดของชุมชน แต่เอกสารคำอธิบายหลักของโปรเจกต์ยังคงคงไว้ซึ่งคำกล่าวอ้างเกินจริงหลายรายการที่ยังไม่ได้แก้ไข รวมถึงการอ้างว่า “บีบอัดไม่สูญเสีย 30 เท่า” และ “เพิ่มการดึงข้อมูล 34%” และแผนภูมิเปรียบเทียบกับคู่แข่งรายอื่นก็ยังขาดแหล่งที่มาอย่างสิ้นเชิง
เมื่อมีนักพัฒนามากขึ้นเรื่อย ๆ ดาวน์โหลดการทดสอบ ปัจจุบันบนแพลตฟอร์ม GitHub จึงมีรายงานบั๊กจำนวนมากเกี่ยวกับซอร์สโค้ดของ MemPalace
ผู้ใช้ cktang88 ได้แจกแจงความบกพร่องร้ายแรงหลายรายการ โดย รวมถึงคำสั่งการบีบอัดที่ไม่สามารถทำงานได้และทำให้ระบบล่ม ตรรกะการคำนวณจำนวนคำในบทสรุปผิดพลาด ข้อมูลสถิติที่ขุดห้องมีความไม่แม่นยำ และเมื่อมีการเรียกใช้แต่ละครั้ง เซิร์ฟเวอร์จะโหลดข้อมูลตีความทั้งหมดเข้าหน่วยความจำ ส่งผลให้มีปัญหาการใช้ทรัพยากรอย่างหนัก
ปัญหาอื่น ๆ ที่ถูกชี้ให้เห็น ยังรวมถึงระบบที่ฝังชื่อสมาชิกในครอบครัวของนักพัฒนาเข้ากับไฟล์ตั้งค่าเริ่มต้นอย่างบังคับ และมีเพดานแสดงผลแบบบังคับเมื่อตรวจสอบสถานะที่มีข้อมูล 10,000 รายการ
สำหรับปัญหาเหล่านี้ ชุมชนโอเพนซอร์ซเริ่มดำเนินการแก้ไขอย่างจริงจังแล้ว **ผู้ใช้ adv3nt3 ส่งคำขอการซ่อมแซมหลายรายการ ซึ่งรวมถึงการแก้ไขข้อมูลสถิติการขุด การลบชื่อสมาชิกในครอบครัวที่ตั้งค่าไว้ล่วงหน้า และการเลื่อนเวลาการเริ่มต้นเริ่มของการสร้างกราฟความรู้ (knowledge graph) ** ทีมพัฒนาภายหลังยังยอมรับข้อผิดพลาดเหล่านี้ และกำลังแก้ไขปัญหาด้านโค้ดทีละขั้นร่วมกับความร่วมมือของชุมชน
สำหรับโปรเจกต์ MemPalace มีผู้ใช้ Hacker News ชื่อ darkhanakh สรุปไว้ว่า: MemPalace ให้ความรู้สึกแบบ OpenClaw คือมีการจัดการผลการทดสอบเกณฑ์ (benchmark) ด้วยวิธีประดิษฐ์ให้ดูสมบูรณ์แบบ จากนั้นจึงนำมันไปห่อหุ้มให้กลายเป็นการทำการตลาดในฐานะความก้าวหน้าใหญ่โตบางอย่าง
เขามองว่า เทคโนโลยีระดับล่างของ MemPalace อาจน่าสนใจจริง แต่ภายใต้สภาพที่วิธีการทดสอบมีข้อบกพร่องแบบนี้ ยังเล่นกับการโฆษณาว่า “คะแนนสูงที่สุดที่เปิดเผยต่อสาธารณะ” ก็ไม่ค่อยเหมาะสมนัก “แต่ถึงอย่างนั้น เรื่องที่มิลลา โจโววิชกำลังเล่น Vibe Coding ฉันก็ยังคิดว่ามันเท่อยู่ดีนะ”
อ่านเพิ่มเติม:
AI เขียนโค้ดแล้วพัง! แอป “Hunters of Salvaged Food” ในสินค้าใกล้หมดอายุจากร้านสะดวกซื้อ ระเบิดปัญหาความปลอดภัยทางไซเบอร์ GPS ในบ้านเปิดโปงทั้งตัว