Mila Jojova Viki ใช้ AI ทำ “โปรเจกต์เต็มคะแนน”? นักพัฒนาทดสอบจริง: มีของจริงหรือแค่โฆษณาโอ้อวด?

CryptoCity

2026-04-09 18:00:05

ระบบการจดจำด้วย AI MemPalace ที่มิลลา โจโววิช มีส่วนร่วมในการพัฒนา อ้างว่าทดสอบได้คะแนนเต็มและกลายเป็นกระแสไวรัล แต่กลับถูกชุมชนถกตีกลับว่า การทดสอบมีข้อสงสัยเรื่องการโกงและทำให้ข้อมูลเข้าใจผิด จากการทดลองจริงพบว่าผลลัพธ์ถูกกล่าวอ้างเกินจริงและมีข้อผิดพลาดจำนวนมาก ทีมงานได้ยอมรับข้อบกพร่องแล้วและกำลังดำเนินการแก้ไขอยู่

มิลลา โจโววิช สร้าง AI จดจำวัง ทำให้สาธารณชนให้ความสนใจ

เมื่อวานนี้ (4/7) ในวงการ AI มีข่าวใหญ่ว่า นักแสดงสาวชาวฮอลลีวูดมิลลา·โจโววิช (Milla Jovovich) ผู้โด่งดังจากเรื่อง《Resident Evil》และ《The Fifth Element》 ร่วมกับนักพัฒนา Ben Sigman ใช้ Claude Code ในการช่วยพัฒนา ระบบการจดจำด้วย AI แบบโอเพนซอร์ส “MemPalace”

ทันใดนั้น กระแส “ซูเปอร์สตาร์ระดับฮอลลีวูดข้ามสายมาทำโปรเจกต์ที่ได้คะแนนเต็ม” แพร่สะพัดไปทั่ว และจนถึงตอนนี้ MemPalace บน GitHub ก็ได้รับดาวมากกว่า 20,000 ดวงแล้ว แต่ไม่นานก็เกิดคำถามจากชุมชนผู้พัฒนา: ของจริงมีอะไรอยู่ในนั้นหรือเป็นการปั้นกระแส?

ขอพูดถึงแรงจูงใจที่ทำให้ MemPalace ถือกำเนิดก่อน เอกสารทางการระบุว่า มีเจตนาเพื่อแก้ปัญหาที่เนื้อหาการสนทนา กระบวนการตัดสินใจ และการหารือเชิงสถาปัตยกรรมในระบบ AI ปัจจุบันมักจะหายไปหลังจบช่วงการทำงาน ทำให้ความพยายามหลายเดือนต้อง ลดลงถึงศูนย์

เพื่อแก้ปัญหานี้ MemPalace ใช้โครงสร้างเชิงพื้นที่ในการจัดเก็บความทรงจำ โดยจัดหมวดหมู่อย่างชัดเจนให้เป็น “ปีก” ของบุคคลที่เป็นตัวแทนหรือโปรเจกต์ รวมถึงโครงสร้างในระดับต่าง ๆ เช่น ทางเดิน ห้อง และลิ้นชัก เพื่อเก็บต้นฉบับของการสนทนาไว้สำหรับการค้นหาเชิงความหมายในภายหลัง

ทีมพัฒนาระบุว่า MemPalace ได้คะแนน 100% ในเกณฑ์ประเมินความทรงจำระยะยาว LongMemEval และยังทำความแม่นยำได้ 96.6% โดยไม่เรียกใช้ API ภายนอกใด ๆ อีกทั้งสามารถรันได้อย่างครบถ้วนบนเครื่องท้องถิ่น ไม่จำเป็นต้องสมัครบริการคลาวด์ และมาพร้อมระบบภาษา AAAK ที่อ้างว่าสามารถบีบอัดแบบไม่สูญเสียได้ถึง 30 เท่า

แหล่งที่มา: GitHub มิลลา โจโววิช ดาราภาพยนตร์จากสหรัฐฯ สร้าง AI จดจำวัง ทำให้สาธารณชนให้ความสนใจ

คู่แข่งและชุมชนตั้งข้อสงสัยพร้อมตรวจสอบ ข้อวิธีทดสอบและการสื่อสารทางการตลาดมีจุดบกพร่อง

แต่ผลคะแนนที่ MemPalace อ้างว่าได้เต็มใน LongMemEval ไม่นานก็ถูกตั้งคำถามจากวงการเดียวกัน

PenfieldLabs ซึ่งเป็นอีกบริษัทที่ผลิตระบบจดจำด้วย AI ชี้ว่า MemPalace อ้างว่าได้คะแนนเต็มในชุดข้อมูล LoCoMo ซึ่งเป็นไปไม่ได้ในเชิงคณิตศาสตร์ เพราะคำตอบมาตรฐานของชุดข้อมูลดังกล่าวมีข้อผิดพลาดอยู่เอง 99 รายการ

จากการวิเคราะห์ PenfieldLabs พบว่า คะแนน 100% ของ MemPalace มาจากการตั้งจำนวนรอบการดึงข้อมูล (retrieval) ไว้ที่ 50 ครั้ง แต่จำนวน “ขั้นสูงสุด” ของข้อมูลการสนทนาในการทดสอบมีเพียง 32 ครั้งเท่านั้น ซึ่งหมายความว่าระบบข้ามขั้นตอนการดึงข้อมูลโดยตรง แล้วส่งข้อมูลทั้งหมดให้โมเดล AI อ่าน

สำหรับผลคะแนน 100% ใน LongMemEval ทีมพัฒนาถูกพบว่าได้กำหนดโจทย์เฉพาะที่ผิดพลาดในการพัฒนาออกมา 3 ปัญหา และเขียนโค้ดโปรแกรมสำหรับการแก้ไขโดยเฉพาะ มีข้อสงสัยว่ามีการโกงในการทดสอบชุดข้อมูล

แหล่งที่มา: Reddit PenfieldLabs จากวงการเดียวกันชี้ว่า MemPalace อ้างว่าได้คะแนนเต็มในชุดข้อมูล LoCoMo ซึ่งเป็นไปไม่ได้ในเชิงคณิตศาสตร์

การทดลองจริงโดยผู้ใช้ GitHub ชี้ว่า การทดสอบเกณฑ์มีองค์ประกอบที่ทำให้เข้าใจผิด

ผู้ใช้ GitHub hugooconnor หลังทดลองจริงได้แสดงความคิดเห็นว่า MemPalace อ้างว่าอัตราความแม่นยำในการดึงข้อมูลสูงถึง 96.6% แต่ในความเป็นจริงไม่ได้ใช้โครงสร้าง “AI จดจำวัง” ที่ MemPalace อวดไว้เลย hugooconnor ระบุว่า การทดสอบของพวกเขาเป็นเพียงการเรียกใช้ฟังก์ชันค่าเริ่มต้นของฐานข้อมูลระดับล่าง ChromaDB เท่านั้น และไม่มีส่วนเกี่ยวข้องกับตรรกะการจัดหมวดหมู่ที่โปรเจกต์เน้นย้ำ เช่น ปีก ห้อง หรือ ลิ้นชัก

หลังทดสอบ hugooconnor พบว่า เมื่อระบบเปิดใช้ตรรกะการจัดหมวดหมู่เฉพาะของจดจำวังจริง ๆ ผลการดึงข้อมูลกลับแย่ลง ยกตัวอย่างในโหมดห้อง ความแม่นยำลดลงสู่ 89.4% และเมื่อเปิดใช้งานเทคนิคการบีบอัด AAAK ความแม่นยำยิ่งลดลงไปที่ 84.2% ทั้งสองอย่างต่ำกว่าประสิทธิภาพของฐานข้อมูลเริ่มต้น

hugooconnor ยังวิจารณ์วิธีการทดสอบด้วยว่า สภาพแวดล้อมการทดสอบของ MemPalace ตั้งใจลดขอบเขตการดึงข้อมูลของแต่ละคำถามให้แคบลงเหลือประมาณ 50 ขั้นตอนการสนทนา ทำให้การค้นหาคำตอบในคลังตัวอย่างที่เล็กมากเป็นเรื่องง่ายเกินไป

หากขยายขอบเขตไปสู่สถานการณ์จริงที่มีมากกว่า 19,000 ขั้นตอนการสนทนา ความแม่นยำของการค้นหาด้วยคำสำคัญแบบดั้งเดิมจะตกฮวบลงสู่ 30% ซึ่งแสดงว่า วิธีทดสอบปัจจุบันของ MemPalace ซ่อนปัญหาความยากในการค้นหาในความเป็นจริงเอาไว้

แหล่งที่มา: GitHub ผู้ใช้ GitHub ทดสอบจริงชี้ว่า การทดสอบเกณฑ์ของ MemPalace มีส่วนที่ทำให้เข้าใจผิด

ขณะเดียวกัน แม้ว่าทีมพัฒนาจะเผยแพร่คำชี้แจงการแก้ไขแล้ว โดยยอมรับว่าเทคนิค AAAK ได้รับการยืนยันว่าเป็นการบีบอัดแบบสูญเสีย และสัญญาว่าจะปรับเอกสารและการออกแบบระบบตามคำวิจารณ์ที่เข้มงวดของชุมชน แต่เอกสารคำอธิบายหลักของโปรเจกต์ยังคงคงไว้ซึ่งคำกล่าวอ้างเกินจริงหลายรายการที่ยังไม่ได้แก้ไข รวมถึงการอ้างว่า “บีบอัดไม่สูญเสีย 30 เท่า” และ “เพิ่มการดึงข้อมูล 34%” และแผนภูมิเปรียบเทียบกับคู่แข่งรายอื่นก็ยังขาดแหล่งที่มาอย่างสิ้นเชิง

ซอร์สโค้ดดั้งเดิมของ MemPalace เผชิญบั๊กหลายประการ

เมื่อมีนักพัฒนามากขึ้นเรื่อย ๆ ดาวน์โหลดการทดสอบ ปัจจุบันบนแพลตฟอร์ม GitHub จึงมีรายงานบั๊กจำนวนมากเกี่ยวกับซอร์สโค้ดของ MemPalace

ผู้ใช้ cktang88 ได้แจกแจงความบกพร่องร้ายแรงหลายรายการ โดย รวมถึงคำสั่งการบีบอัดที่ไม่สามารถทำงานได้และทำให้ระบบล่ม ตรรกะการคำนวณจำนวนคำในบทสรุปผิดพลาด ข้อมูลสถิติที่ขุดห้องมีความไม่แม่นยำ และเมื่อมีการเรียกใช้แต่ละครั้ง เซิร์ฟเวอร์จะโหลดข้อมูลตีความทั้งหมดเข้าหน่วยความจำ ส่งผลให้มีปัญหาการใช้ทรัพยากรอย่างหนัก

ปัญหาอื่น ๆ ที่ถูกชี้ให้เห็น ยังรวมถึงระบบที่ฝังชื่อสมาชิกในครอบครัวของนักพัฒนาเข้ากับไฟล์ตั้งค่าเริ่มต้นอย่างบังคับ และมีเพดานแสดงผลแบบบังคับเมื่อตรวจสอบสถานะที่มีข้อมูล 10,000 รายการ

สำหรับปัญหาเหล่านี้ ชุมชนโอเพนซอร์ซเริ่มดำเนินการแก้ไขอย่างจริงจังแล้ว **ผู้ใช้ adv3nt3 ส่งคำขอการซ่อมแซมหลายรายการ ซึ่งรวมถึงการแก้ไขข้อมูลสถิติการขุด การลบชื่อสมาชิกในครอบครัวที่ตั้งค่าไว้ล่วงหน้า และการเลื่อนเวลาการเริ่มต้นเริ่มของการสร้างกราฟความรู้ (knowledge graph) ** ทีมพัฒนาภายหลังยังยอมรับข้อผิดพลาดเหล่านี้ และกำลังแก้ไขปัญหาด้านโค้ดทีละขั้นร่วมกับความร่วมมือของชุมชน

มิลลา โจโววิช Vibe Codingเท่มาก วิธีการทำการตลาดไม่เท่

สำหรับโปรเจกต์ MemPalace มีผู้ใช้ Hacker News ชื่อ darkhanakh สรุปไว้ว่า: MemPalace ให้ความรู้สึกแบบ OpenClaw คือมีการจัดการผลการทดสอบเกณฑ์ (benchmark) ด้วยวิธีประดิษฐ์ให้ดูสมบูรณ์แบบ จากนั้นจึงนำมันไปห่อหุ้มให้กลายเป็นการทำการตลาดในฐานะความก้าวหน้าใหญ่โตบางอย่าง

เขามองว่า เทคโนโลยีระดับล่างของ MemPalace อาจน่าสนใจจริง แต่ภายใต้สภาพที่วิธีการทดสอบมีข้อบกพร่องแบบนี้ ยังเล่นกับการโฆษณาว่า “คะแนนสูงที่สุดที่เปิดเผยต่อสาธารณะ” ก็ไม่ค่อยเหมาะสมนัก “แต่ถึงอย่างนั้น เรื่องที่มิลลา โจโววิชกำลังเล่น Vibe Coding ฉันก็ยังคิดว่ามันเท่อยู่ดีนะ”

อ่านเพิ่มเติม:
AI เขียนโค้ดแล้วพัง! แอป “Hunters of Salvaged Food” ในสินค้าใกล้หมดอายุจากร้านสะดวกซื้อ ระเบิดปัญหาความปลอดภัยทางไซเบอร์ GPS ในบ้านเปิดโปงทั้งตัว

news.view.source

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น