En bref Le ingénieur en IA Kyle Hessling a fusionné deux des finetunes distillées de Jackrong, Claude Opus 4.6 et GLM-5.1, en une seule "frankenfusion". Une "finetune de correction" après fusion était nécessaire pour réparer la sortie de code brouillée causée par la frontière entre les deux modèles entraînés indépendamment.

Decrypt

2026-04-21 18:01:22

En résumé

L’ingénieur en IA Kyle Hessling a fusionné deux finetunes distillés de Jackrong, Claude Opus 4.6 et GLM-5.1, en une seule “frankenfusion”.
Une “guérison fine-tune” post-fusion était nécessaire pour corriger la sortie de code brouillée causée par la frontière entre les deux modèles entraînés indépendamment.
Le modèle raisonne parfois trop sur certaines tâches, mais c’est un problème solvable.

Vous pensiez que Qwopus était cool parce qu’il fusionnait Qwen et Opus ? Eh bien, Kyle Hessling, un ingénieur en IA doté de beaucoup de connaissances et de temps libre, a simplement repris cette recette et y a ajouté GLM — l’un des meilleurs modèles de raisonnement disponibles — dans le mélange. Le résultat est une frankenfusion de 18 milliards de paramètres qui tient sur un GPU bon marché et dépasse le dernier modèle 35B d’Alibaba. Pour ceux qui ne savent pas, les paramètres sont les valeurs numériques intégrées dans un réseau de neurones lors de l’entraînement, comme des réglages que le réseau peut ajuster — plus il y en a, plus le modèle peut gérer de connaissances et de complexité, et plus il nécessite de mémoire pour fonctionner. Hessling, ingénieur en infrastructure IA, a empilé deux finetunes Qwen3.5 de Jackrong : les couches 0 à 31 de Qwopus 3.5-9B-v3.5, qui distillent le style de raisonnement de Claude 4.6 Opus dans Qwen comme modèle de base, et les couches 32 à 63 de Qwen 3.5-9B-GLM5.1-Distill-v1, entraînées sur des données de raisonnement du modèle enseignant GLM-5.1 de z.AI, sur le même Qwen de base.

L’hypothèse : donner au modèle une planification structurée à la style Opus dans la première moitié du raisonnement et la décomposition de problème de GLM dans la seconde — 64 couches au total, dans un seul modèle. La technique s’appelle une fusion en passage direct — pas de mélange, pas de moyenne des poids, juste une empilement brut des couches. Hessling a dû écrire son propre script de fusion à partir de zéro car les outils existants ne supportent pas l’architecture hybride d’attention linéaire/complète de Qwen 3.5. Le modèle résultant a réussi 40 tests sur 44 de capacité, surpassant Qwen 3.6-35B-A3B MoE d’Alibaba — qui nécessite 22 Go de VRAM — tout en fonctionnant avec seulement 9,2 Go en quantification Q4_K_M. Un NVIDIA RTX 3060 le gère très bien… théoriquement.

Hessling explique que la création de ce modèle n’a pas été facile. La fusion brute produisait des sorties de code brouillées. Mais même ainsi, les modèles de test qu’il a publiés ont un peu fait le buzz parmi les passionnés. Sa dernière correction a été une “guérison fine-tune” — essentiellement un QLoRA (un peu de code intégré au modèle comme un appendice, qui conditionne fortement la sortie finale ) en ciblant toutes les attentions et projections. Nous l’avons essayé, et même si l’idée d’avoir Qwen, Claude Opus et GLM 5.1 fonctionnant localement sur notre machine modeste est très tentante, en réalité, nous avons constaté que le modèle est tellement bon en raisonnement qu’il finit par trop réfléchir. Lors de tests sur un MacBook M1 avec une version quantifiée MLX (optimisée pour Mac), lorsque nous lui avons demandé de générer notre jeu de test habituel, la chaîne de raisonnement a duré si longtemps qu’elle a atteint la limite de tokens et nous a fourni un long raisonnement sans résultat concret dans une interaction à zéro coup. Ce qui bloque l’utilisation quotidienne pour quiconque veut faire tourner cela localement sur du matériel grand public pour une application sérieuse. Nous avons adouci un peu, mais c’était toujours difficile. Une simple demande “écrire un jeu Snake” a pris plus de 40 minutes en raisonnement… beaucoup de temps.

Vous pouvez voir les résultats dans notre dépôt Github. C’est une tension connue dans la lignée Qwopus : les finetunes v2 de Jackrong ont été conçues pour corriger la tendance de Qwen 3.5 à tourner en boucle interne répétitive et à “penser de manière plus économique.” Empiler 64 couches de deux distillats de raisonnement semble amplifier ce comportement sur certains prompts.

C’est un problème solvable, et la communauté open-source le résoudra probablement. Ce qui compte ici, c’est le schéma plus large : un développeur pseudonyme publie des finetunes spécialisées avec des guides complets d’entraînement, un autre passionné les empile avec un script personnalisé, effectue 1 000 étapes de guérison, et obtient un modèle qui dépasse une version de 35 milliards de paramètres d’un des plus grands laboratoires d’IA au monde. Le tout tient dans un petit fichier. C’est ce qui rend l’open-source intéressant — pas seulement les grands laboratoires qui publient des poids, mais aussi les solutions couche par couche, la spécialisation qui se fait en coulisses. L’écart entre un projet de week-end et un déploiement de pointe se réduit à mesure que plus de développeurs rejoignent la communauté. Jackrong a depuis miroir le dépôt de Hessling, et le modèle a été téléchargé plus de trois mille fois dans ses deux premières semaines de disponibilité.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GatePreIPOsLaunchesWithSpaceX
296.73K Popularité
#
Gate13thAnniversaryLive
750.4K Popularité
#
BitcoinBouncesBack
170.85K Popularité
#
IsraelStrikesIranBTCPlunges
30.57K Popularité
#
USIranTalksProgress
877.46K Popularité

Épingler

Cette IA Frankenstein fusionne Claude Opus, GLM et Qwen—Et dépasse les meilleurs modèles

En résumé

Sujets populaires

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Épingler