Das von Milla Jovovich entwickelte KI-Erinnerungssystem MemPalace beansprucht, bei Tests eine Vollpunktzahl erreicht zu haben und wurde schnell viral – doch die Community deckte auf, dass die Tests angeblich betrogen und die Daten irreführend waren. In eigenen Tests zeigte sich, dass die Wirkung übertrieben dargestellt wurde und es zahlreiche Fehler gab. Das Team hat die Mängel inzwischen eingestanden und arbeitet derzeit an der Behebung.
Gestern (4/7) gab es im KI-Bereich eine große Nachricht: Die Hollywood-Schauspielerin Milla Jovovich, bekannt aus《Resident Evil》und《Das fünfte Element》, entwickelte mit dem Entwickler Ben Sigman unter Einsatz von Claude Code das Open-Source-KI-Erinnerungssystem „MemPalace“.
Eine Zeit lang verbreitete sich die Aussage, dass „Hollywood-Top-Star-übergreifend ein Projekt mit voller Punktzahl“ herausgebracht habe. MemPalace hat bis heute auf GitHub über 20k Sterne erhalten, doch schon bald kamen bei Entwicklern Zweifel auf: Ist da wirklich etwas dran oder ist das nur Marketing?
Zuerst: Was war die Motivation hinter der Entstehung von MemPalace? Laut offizieller Dokumentation wollte man das Problem lösen, dass die Inhalte der Konversationen zwischen Nutzern und KI, Entscheidungsprozesse sowie die Diskussionen über die Architektur bei derzeitigen KI-Systemen typischerweise nach der jeweiligen Arbeitssitzung verschwinden – wodurch mehrere Monate Arbeit zunichte gemacht werden.
Um dieses Problem zu lösen, nutzt MemPalace eine Raumstruktur, um Erinnerungen zu speichern. Informationen werden klar in Flügelbereiche eingeteilt, die für Personen oder Projekte stehen, sowie in Strukturen auf unterschiedlichen Ebenen wie Flur, Zimmer und Schubladen. So bleibt der Wortlaut der Konversation für die spätere semantische Suche erhalten.
Das Entwicklungsteam behauptet, MemPalace habe im langfristigen Gedächtnis-Bewertungsmaßstab LongMemEval 100% der perfekten Punktzahl erreicht und zudem ohne Aufruf irgendeiner externen API eine Genauigkeit von 96,6% erzielt. Außerdem könne es vollständig lokal laufen, ohne ein Abo für Cloud-Dienste, und sei mit einem als „bis zu 30-fache verlustfreie Kompression“ erreichenden AAAK-Dialekt-System ausgestattet.
Bildquelle: GitHub Hollywood-Star Milla Jovovich baut ein KI-Erinnerungsschloss und sorgt damit für Aufsehen
Doch die Behauptung, in LongMemEval eine Vollpunktzahl erreicht zu haben, rief schon bald Zweifel bei Kollegen hervor.
PenfieldLabs, ebenfalls ein Anbieter, der KI-Erinnerungssysteme herstellt, wies darauf hin, dass es mathematisch nicht möglich sei, dass MemPalace in dem Datensatz LoCoMo eine Vollpunktzahl erziele. Denn in diesem Datensatz enthalten die Standardantworten selbst bereits 99 Fehler.
PenfieldLabs analysierte und fand heraus, dass die 100%-Bilanz von MemPalace darauf beruht, die Anzahl der Abrufe auf 50 festzulegen. In den Gesprächen der Testdaten beträgt die maximale Anzahl der Stufen jedoch nur 32. Das bedeutet, dass das System direkt die Abrufphase umgeht und alle Daten dem KI-Modell zum Lesen übergibt.
Für die 100%-Bilanz in LongMemEval wurde zudem entdeckt, dass das Entwicklungsteam gezielt auf drei konkrete Probleme zugeschnitten war, die bei der Entwicklungsschwerpunkt-Lösung aufgefallen waren. Es wurden spezielle Reparaturcodes verfasst, was den Verdacht nahelegt, dass es sich dabei um Betrug am Testsatz handelt.
Bildquelle: Reddit Kollegen PenfieldLabs weist darauf hin, dass MemPalace behauptet, im LoCoMo-Datensatz eine Vollpunktzahl zu erhalten – was mathematisch nicht möglich ist
Der GitHub-User hugooconnor kommentierte nach eigenen Tests, dass MemPalace zwar eine Abrufgenauigkeit von bis zu 96,6% behauptet, in Wahrheit aber überhaupt keine der MemPalace beworbenen Erinnerungsschloss-Architektur verwendet. hugooconnor sagt, ihre Tests würden schlicht die Standardfunktionen der zugrunde liegenden Datenbank ChromaDB aufrufen und hätten keinerlei Einfluss oder Bezug zu der Projekt-Logik, die Flügelbereiche, Zimmer oder Schubladen etc. hervorhebt.
Nach dem Test stellte hugooconnor fest, dass die Abrufresultate stattdessen schlechter werden, sobald das System wirklich diese dedizierte Kategorisierungslogik der Erinnerungsschlösser aktiviert. Nehmen wir als Beispiel den Zimmermodus: Die Genauigkeit sinkt auf 89,4%, und nach Aktivierung der AAAK-Kompression fällt sie sogar weiter auf 84,2% – beide Werte liegen unter der Leistung der Standarddatenbank.
hugooconnor kritisierte außerdem die Testmethode: Die Testumgebung von MemPalace mache den Abrufbereich für jede Frage absichtlich auf etwa 50 Gesprächsstufen verkleinert. In einer so kleinen Datenbasis die Antwort zu finden, sei zu einfach.
Würde man den Bereich auf über 19.000 Gesprächsstufen in realen Szenarien ausweiten, würde die Genauigkeit des herkömmlichen Keyword-Searches auf 30% einbrechen. Das zeige, dass die aktuelle Testmethode von MemPalace die tatsächlichen Suchschwierigkeiten verschleiert.
Bildquelle: GitHub GitHub-User führen eigene Tests durch: MemPalace-Benchmark enthält einen irreführenden Anteil
Zugleich hat das Entwicklungsteam zwar bereits eine Korrekturveröffentlichung herausgegeben und zugestanden, dass die AAAK-Technologie tatsächlich verlustbehaftete Kompression ist, sowie zugesichert, die Dokumentation und die Systemarchitektur entsprechend den harten Kritiken aus der Community anzupassen. Doch die Haupt-Erklärseite des Projekts behält weiterhin mehrere nicht korrigierte übertriebene Aussagen bei, darunter die Behauptung von 30-facher verlustfreier Kompression und einer 34%igen Steigerung beim Abruf. Außerdem fehlen bei den Vergleichsgrafiken mit anderen Wettbewerbern jegliche Quellenangaben.
Mit immer mehr Entwicklern, die Tests herunterladen, tauchen auf der GitHub-Plattform massenhaft Bugmeldungen zum MemPalace-Quellcode auf.
Der Nutzer cktang88 listete mehrere schwerwiegende Mängel auf, darunter dass Kompressionsbefehle nicht funktionieren und dadurch das System abstürzt, dass die Logik zur Zählung der Zusammenfassungswortzahl fehlerhaft ist, dass die statistischen Daten beim Graben von Zimmern ungenau sind sowie dass der Server bei jedem Aufruf alle interpretierenden Daten in den Arbeitsspeicher lädt, was zu erheblichen Problemen beim Ressourcenverbrauch führt.
Weitere genannte Probleme umfassen, dass das System die Namen der Familienmitglieder der Entwickler hart im Standardprofil speichert und dass es bei der Abfrage des Status eine erzwungene Anzeigeobergrenze für 10k Datensätze gibt.
Für diese Probleme hat die Open-Source-Community bereits mit aktiven Reparaturen begonnen. Der Nutzer adv3nt3 hat mehrereReparaturanfragen eingereicht, darunter das Korrigieren der Grabungsstatistiken, das Entfernen der standardmäßigen Namen von Familienmitgliedern sowie das Hinauszögern der Initialisierungszeit der Wissensgraphen. Das Entwicklungsteam hat später auch diese Fehler eingestanden und ist dabei, die Probleme am Code schrittweise durch Zusammenarbeit mit der Community zu lösen.
Bezüglich des MemPalace-Projekts zog ein Fazit im Hacker-News-Thread der Nutzer darkhanakh: MemPalace vermittelt den Eindruck wie „OpenClaw“, also dass Benchmark-Ergebnisse künstlich so manipuliert werden, dass sie makellos aussehen, und sie dann als eine Art bedeutenden Durchbruch vermarktet werden.
Er ist der Ansicht, dass die zugrunde liegende Technologie von MemPalace möglicherweise tatsächlich interessant ist, aber wenn die Testmethode mit solchen Mängeln behaftet ist und man dann trotzdem mit „dem höchsten öffentlich erreichbaren Score aller Zeiten“ wirbt, ist das nicht wirklich angemessen. „Aber, was das angeht, dass Milla Jovovich Vibe Coding spielt – ich finde, das ist trotzdem ziemlich cool.“
Weiterführende Lektüre:
AI schreibt Code und legt ein Ei!Die App „Sachspürhund“ von Supermärkten mit Ablaufdatum gerät in eine Sicherheitslücke; im Haushalt rennt der GPS komplett ungeschützt herum