Mira Czakova Viki a-t-elle utilisé l’IA pour créer un « projet à score parfait » ? Tests des développeurs : est-ce vraiment solide ou juste de la promotion exagérée et du buzz ?

Le système de mémoire IA « MemPalace », développé avec l’implication de Milla Jovovich, aurait explosé de popularité après avoir prétendument obtenu un score parfait aux tests, mais a été rapidement la cible de critiques de la part de la communauté, accusant le système de tricher aux tests et de tromper les données. Des tests en conditions réelles montrent que les résultats sont exagérés et qu’il existe de nombreuses erreurs. L’équipe a reconnu les défauts et est en train de les corriger.

Milla Jovovich construit un « palais de la mémoire » pour l’IA, suscitant l’attention du public

Hier (4/7), le grand sujet dans le milieu de l’IA concernait le fait que la star hollywoodienne Milla Jovovich (connue pour « Resident Evil » et « Le Cinquième Élément »), a, avec le développeur Ben Sigman, développé le système open source de mémoire IA « MemPalace » avec l’aide de Claude Code.

En un instant, la rumeur selon laquelle « une vedette hollywoodienne franchit le cap et livre un projet avec un score parfait » s’est répandue largement. Jusqu’à présent, MemPalace a aussi engrangé plus de 20k étoiles sur GitHub, mais cela n’a pas tardé à déclencher des doutes au sein de la communauté des développeurs : y a-t-il vraiment de quoi en être fier, ou s’agit-il de simple marketing ?

D’abord, parlons de la motivation qui a mené à la création de MemPalace. D’après la documentation officielle, l’objectif est de résoudre la limitation actuelle selon laquelle les contenus de dialogue entre les utilisateurs et l’IA, les processus de décision et les discussions d’architecture disparaissent généralement une fois la session de travail terminée, ce qui entraîne « chute à zéro » de plusieurs mois d’efforts.

Pour résoudre ce problème, MemPalace utilise une architecture spatiale pour stocker la mémoire, classant clairement les informations dans des zones d’ailes représentant des personnes ou des projets, ainsi que dans des structures de différents niveaux telles que des couloirs, des pièces et des tiroirs, afin de conserver le texte original des échanges pour une recherche sémantique ultérieure.

L’équipe de développement affirme que MemPalace obtient 100 % de score parfait dans le référentiel d’évaluation de la mémoire à long terme LongMemEval, et qu’il atteint 96,6 % de précision sans appeler aucune API externe. Elle affirme aussi que le système peut fonctionner entièrement localement, sans nécessiter d’abonnement à des services cloud, et qu’il est équipé d’un système AAAK dialectal annoncé capable d’atteindre une compression sans perte 30 fois supérieure.

Source d’image : GitHub La star de cinéma hollywoodienne Milla Jovovich construit un palais de mémoire pour l’IA, suscitant l’attention du public

Les pairs et la communauté remettent en cause simultanément ; méthodes de test et campagne entachées

Cependant, le résultat de 100 % annoncé dans LongMemEval a rapidement attiré la suspicion des pairs.

PenfieldLabs, qui développe également des systèmes de mémoire IA, a indiqué que MemPalace prétend avoir obtenu un score parfait sur le jeu de données LoCoMo, ce qui est mathématiquement impossible, car les réponses standard de ce jeu de données contiennent déjà 99 erreurs.

PenfieldLabs a analysé et constaté que les 100 % de MemPalace proviennent du fait que le nombre de recherches a été fixé à 50, mais que le nombre maximal de tours de dialogue dans le jeu de données de test n’est que de 32. Cela signifie que le système contourne directement la phase de recherche et confie toutes les données au modèle IA pour qu’il les lise.

Concernant le score de 100 % de LongMemEval, l’équipe de développement a été retrouvée comme étant à l’origine de trois problèmes spécifiques sur lesquels la concentration de développement s’est trompée ; elle a rédigé un code de correction dédié, ce qui laisse planer des soupçons de triche sur le jeu de test.

Source d’image : Reddit Des pairs PenfieldLabs indiquent que MemPalace prétend obtenir un score parfait sur le jeu de données LoCoMo, ce qui est mathématiquement impossible

Tests en conditions réelles par des utilisateurs GitHub : le contenu du benchmark comporte une part de tromperie

L’utilisateur GitHub hugooconnor a, après ses tests en conditions réelles, commenté que MemPalace revendique jusqu’à 96,6 % de précision de récupération, mais qu’en réalité, le système n’a jamais utilisé l’architecture du palais de la mémoire mise en avant par MemPalace. hugooconnor affirme que leurs tests se contentaient d’appeler la fonctionnalité par défaut de la base de données sous-jacente ChromaDB, sans aucun rapport avec la logique de classification des « ailes », des « pièces » ou des « tiroirs » que le projet met en avant.

Après ses tests, hugooconnor a constaté que lorsque le système active réellement la logique de classification dédiée à ces « palais de la mémoire », les performances de récupération chutent au contraire. Par exemple, en mode pièce, la précision tombe à 89,4 %, et après activation de la technologie de compression AAAK, la précision baisse encore à 84,2 %, et dans les deux cas, elles sont inférieures aux performances de la base de données par défaut.

hugooconnor a également critiqué la méthode de test : l’environnement de test de MemPalace réduit délibérément le champ de récupération de chaque question à environ 50 tours de dialogue, ce qui rend trop facile la recherche de la réponse dans une base de données d’échantillons très réduite.

Si l’on élargit la plage à plus de 19 000 tours de dialogue dans des scénarios réels, la précision de la recherche par mots-clés traditionnelle chute à 30 %, ce qui montre que la méthode de test actuelle de MemPalace masque le véritable problème de recherche.

Source d’image : GitHub Des utilisateurs GitHub testent en conditions réelles ; le benchmark de MemPalace comporte une part de tromperie

Par ailleurs, même si l’équipe de développement a déjà publié une déclaration de correction, reconnaissant que la technologie AAAK a bien été validée comme une compression avec pertes, et s’engageant à corriger la documentation et la conception du système à la lumière des critiques sévères de la communauté, le document de présentation principal du projet conserve encore plusieurs affirmations exagérées non corrigées, notamment la revendication de compression « 30 fois sans perte » et une augmentation de la récupération de 34 %, et les comparatifs en graphiques avec d’autres concurrents ne citent aucune source.

Le code source de MemPalace fait face à plusieurs bugs

À mesure que de plus en plus de développeurs téléchargent et testent, de nombreux rapports de bugs concernant le code source de MemPalace apparaissent sur la plateforme GitHub.

L’utilisateur cktang88 liste plusieurs défauts graves. Cela inclut le fait que les instructions de compression ne fonctionnent pas et entraînent un crash du système, une erreur dans la logique de calcul du nombre de mots des résumés, des statistiques de creusement des pièces inexactes, ainsi que le fait que le serveur charge toutes les données d’interprétation en mémoire à chaque appel, causant de sérieux problèmes de consommation de ressources.

Parmi les autres problèmes signalés, on trouve aussi le fait que le système écrit de force les noms des membres de la famille du développeur dans le fichier de configuration par défaut, et qu’il existe une limite d’affichage forcée supérieure de 10k entrées lors de la vérification de l’état.

Face à ces problèmes, la communauté open source a déjà commencé à corriger activement. L’utilisateur adv3nt3 a soumis plusieurs requêtes de correction**, notamment pour corriger les statistiques de creusement, supprimer les noms des membres de la famille définis par défaut, et retarder le temps d’initialisation de la base de connaissances.** L’équipe de développement a également reconnu ces erreurs par la suite et résout progressivement les problèmes de code avec l’aide de la communauté.

Vibe Coding de Milla Jovovich, c’est cool ; sa façon de marketer, moins

À propos de ce projet MemPalace, un internaute de Hacker News, darkhanakh, a tiré la conclusion suivante : MemPalace donne l’impression d’avoir déjà « OpenClaw » en tête, c’est-à-dire manipuler artificiellement les résultats des benchmarks pour les faire paraître impeccables, puis les emballer comme une sorte de percée majeure afin de les vendre.

Il estime que la technologie sous-jacente de MemPalace est peut-être effectivement intéressante, mais dans le contexte où la méthode de test présente ce genre de défauts, et tout en faisant la promotion avec « le score public le plus élevé de l’histoire », ce n’est pas vraiment approprié, « toutefois, pour le fait que Milla Jovovich s’amuse avec du Vibe Coding, je trouve ça quand même plutôt cool. »

Lecture complémentaire :
L’IA écrit du code et fait des bêtises ! L’appli « Chasse aux invendus », des produits à date limite des supermarchés, explose en problèmes de sécurité informatique ; le GPS de la maison est à découvert

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire