Récemment, tout le secteur technologique et le monde de l’investissement scrutent la même chose : comment les applications d’IA « tuent » le SaaS traditionnel. Depuis que @AnthropicAI a présenté Claude Cowork, montrant comment il peut facilement vous aider à rédiger des emails, faire des présentations PPT ou analyser des tableaux Excel, une panique autour de la « mort du logiciel » a commencé à se répandre. C’est effectivement effrayant, mais si votre regard se limite à cela, vous risquez de manquer le véritable grand bouleversement.
C’est comme si nous levions tous la tête pour regarder la guerre aérienne des drones dans le ciel, sans prêter attention au fait que la plaque continentale sous nos pieds bouge silencieusement. La véritable tempête, dissimulée sous la surface, dans un coin que la majorité ne voit pas : la base de puissance qui soutient tout l’univers de l’IA, est en train de vivre une « révolution silencieuse ».
Et cette révolution pourrait faire cesser la fête, organisée avec soin par Nvidia @nvidia, le vendeur de la pioche de l’IA, plus tôt que tout le monde ne l’imagine.
Deux voies de révolution qui se croisent
Cette révolution n’est pas un seul événement, mais résulte de l’interaction de deux trajectoires technologiques apparemment indépendantes. Elles ressemblent à deux armées en encerclement, lançant une attaque en pince contre la domination des GPU de Nvidia.
La première voie, c’est la révolution de l’allègement des algorithmes.
Avez-vous déjà pensé qu’un super cerveau n’a pas besoin d’activer toutes ses cellules cérébrales pour réfléchir ? Évidemment que non. DeepSeek a compris cela et a développé une architecture MoE (modèle d’experts mixtes).
Vous pouvez l’imaginer comme une entreprise qui emploie plusieurs centaines d’experts dans différents domaines. Mais lors d’une réunion pour résoudre un problème, vous n’avez besoin d’appeler que deux ou trois personnes les plus pertinentes, plutôt que de faire un brainstorming avec tout le monde. C’est là toute la finesse du MoE : il permet à un modèle massif d’activer, à chaque calcul, seulement une petite partie de ses « experts », économisant ainsi énormément de puissance de calcul.
Et le résultat ? Le modèle DeepSeek-V2, qui en théorie possède 236 milliards « d’experts » (paramètres), n’active en réalité que 21 milliards lors de son fonctionnement, soit moins de 10 % du total. Pourtant, ses performances rivalisent avec celles de GPT-4, qui nécessite une utilisation à 100 %. Qu’est-ce que cela signifie ? La capacité de l’IA et la consommation de puissance ne sont plus liées !
Autrefois, on pensait que plus l’IA était puissante, plus elle consommait de cartes graphiques. Maintenant, DeepSeek nous montre qu’avec des algorithmes intelligents, on peut atteindre le même résultat avec un dixième du coût. Cela remet en question la nécessité absolue des GPU Nvidia dans cette course.
La deuxième voie, c’est la révolution matérielle du « changement de voie ».
Le travail de l’IA se divise en deux phases : l’entraînement et l’inférence. L’entraînement, c’est comme aller à l’école : il faut lire des milliers de livres. À ce stade, les GPU, avec leur capacité de calcul parallèle « extraordinaire », sont très efficaces. Mais l’inférence, c’est comme notre utilisation quotidienne de l’IA, où la rapidité de réponse est cruciale.
Les GPU ont un défaut naturel lors de l’inférence : leur mémoire (HBM) est externe, ce qui entraîne des latences lors des échanges de données. C’est comme un chef cuisinier qui doit courir dans la pièce voisine pour prendre ses ingrédients dans le réfrigérateur, même si c’est rapide, ce n’est pas instantané. Des entreprises comme Cerebras et Groq ont innové en concevant des puces d’inférence dédiées, avec la mémoire SRAM directement intégrée à la puce, permettant un accès « zéro latence ».
Le marché a déjà voté avec de l’argent réel. OpenAI, tout en se plaignant des limites des GPU Nvidia pour l’inférence, a signé un contrat de 10 milliards de dollars avec Cerebras pour louer leurs services d’inférence. Nvidia, elle aussi, a paniqué et a dépensé 20 milliards de dollars pour racheter Groq, afin de ne pas être laissée derrière dans cette nouvelle course.
Lorsque ces deux voies se croisent : l’effondrement des coûts
Voici ce qui se passe : un modèle DeepSeek, allégé grâce à MoE, tourne sur une puce Cerebras « sans latence ».
Que cela entraîne-t-il ?
Une avalanche de coûts.
D’abord, le modèle allégé est si petit qu’il peut tenir entièrement dans la mémoire intégrée de la puce. Ensuite, sans le goulot d’étranglement de la mémoire externe, la vitesse de réponse de l’IA devient stupéfiante. En fin de compte, le coût d’entraînement, grâce à l’architecture MoE, chute de 90 %, et le coût d’inférence, grâce au matériel dédié et à la calculs par sparsitée, diminue d’un ordre de grandeur. Au final, le coût total pour posséder et faire fonctionner une IA de classe mondiale pourrait n’être que de 10 à 15 % de celui d’une solution GPU traditionnelle.
Ce n’est pas une simple amélioration, c’est une rupture de paradigme.
Le trône de Nvidia, en train d’être discrètement délogé
Vous comprenez maintenant pourquoi cela est plus dangereux que la « panique Cowork ».
La valorisation de plusieurs milliers de milliards de dollars de Nvidia repose sur une histoire simple : l’IA est l’avenir, et cet avenir doit passer par mes GPU. Mais maintenant, cette fondation commence à vaciller.
Sur le marché de l’entraînement, même si Nvidia continue à monopoliser, si ses clients peuvent faire le travail avec un dixième des cartes, la taille globale du marché pourrait fortement diminuer.
Sur le marché de l’inférence, qui représente un gâteau dix fois plus grand, Nvidia n’a plus l’avantage absolu, face à des acteurs comme Google, Cerebras, et d’autres. Même son plus gros client, OpenAI, commence à se détourner.
Une fois que Wall Street réalisera que les « pioches » de Nvidia ne sont plus la seule, ni même la meilleure option, qu’adviendra-t-il de la valorisation basée sur la « domination éternelle » ? Tout le monde connaît la réponse.
Ainsi, le plus grand « oiseau de malheur » dans les six prochains mois ne sera pas une application IA qui élimine un concurrent, mais une simple nouvelle technique : par exemple, une nouvelle publication sur l’efficacité des algorithmes MoE, ou un rapport montrant une croissance massive des parts de marché des puces d’inférence dédiées, annonçant discrètement une nouvelle étape dans la guerre des puissances de calcul.
Lorsque la pioche du « vendeur de pioches » ne sera plus la seule option, son âge d’or pourrait aussi toucher à sa fin.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
La prochaine révolution de l'IA : pourquoi le véritable danger n'est pas le tueur SaaS, mais la révolution de la puissance de calcul ?
Rédigé par : Bruce
Récemment, tout le secteur technologique et le monde de l’investissement scrutent la même chose : comment les applications d’IA « tuent » le SaaS traditionnel. Depuis que @AnthropicAI a présenté Claude Cowork, montrant comment il peut facilement vous aider à rédiger des emails, faire des présentations PPT ou analyser des tableaux Excel, une panique autour de la « mort du logiciel » a commencé à se répandre. C’est effectivement effrayant, mais si votre regard se limite à cela, vous risquez de manquer le véritable grand bouleversement.
C’est comme si nous levions tous la tête pour regarder la guerre aérienne des drones dans le ciel, sans prêter attention au fait que la plaque continentale sous nos pieds bouge silencieusement. La véritable tempête, dissimulée sous la surface, dans un coin que la majorité ne voit pas : la base de puissance qui soutient tout l’univers de l’IA, est en train de vivre une « révolution silencieuse ».
Et cette révolution pourrait faire cesser la fête, organisée avec soin par Nvidia @nvidia, le vendeur de la pioche de l’IA, plus tôt que tout le monde ne l’imagine.
Deux voies de révolution qui se croisent
Cette révolution n’est pas un seul événement, mais résulte de l’interaction de deux trajectoires technologiques apparemment indépendantes. Elles ressemblent à deux armées en encerclement, lançant une attaque en pince contre la domination des GPU de Nvidia.
La première voie, c’est la révolution de l’allègement des algorithmes.
Avez-vous déjà pensé qu’un super cerveau n’a pas besoin d’activer toutes ses cellules cérébrales pour réfléchir ? Évidemment que non. DeepSeek a compris cela et a développé une architecture MoE (modèle d’experts mixtes).
Vous pouvez l’imaginer comme une entreprise qui emploie plusieurs centaines d’experts dans différents domaines. Mais lors d’une réunion pour résoudre un problème, vous n’avez besoin d’appeler que deux ou trois personnes les plus pertinentes, plutôt que de faire un brainstorming avec tout le monde. C’est là toute la finesse du MoE : il permet à un modèle massif d’activer, à chaque calcul, seulement une petite partie de ses « experts », économisant ainsi énormément de puissance de calcul.
Et le résultat ? Le modèle DeepSeek-V2, qui en théorie possède 236 milliards « d’experts » (paramètres), n’active en réalité que 21 milliards lors de son fonctionnement, soit moins de 10 % du total. Pourtant, ses performances rivalisent avec celles de GPT-4, qui nécessite une utilisation à 100 %. Qu’est-ce que cela signifie ? La capacité de l’IA et la consommation de puissance ne sont plus liées !
Autrefois, on pensait que plus l’IA était puissante, plus elle consommait de cartes graphiques. Maintenant, DeepSeek nous montre qu’avec des algorithmes intelligents, on peut atteindre le même résultat avec un dixième du coût. Cela remet en question la nécessité absolue des GPU Nvidia dans cette course.
La deuxième voie, c’est la révolution matérielle du « changement de voie ».
Le travail de l’IA se divise en deux phases : l’entraînement et l’inférence. L’entraînement, c’est comme aller à l’école : il faut lire des milliers de livres. À ce stade, les GPU, avec leur capacité de calcul parallèle « extraordinaire », sont très efficaces. Mais l’inférence, c’est comme notre utilisation quotidienne de l’IA, où la rapidité de réponse est cruciale.
Les GPU ont un défaut naturel lors de l’inférence : leur mémoire (HBM) est externe, ce qui entraîne des latences lors des échanges de données. C’est comme un chef cuisinier qui doit courir dans la pièce voisine pour prendre ses ingrédients dans le réfrigérateur, même si c’est rapide, ce n’est pas instantané. Des entreprises comme Cerebras et Groq ont innové en concevant des puces d’inférence dédiées, avec la mémoire SRAM directement intégrée à la puce, permettant un accès « zéro latence ».
Le marché a déjà voté avec de l’argent réel. OpenAI, tout en se plaignant des limites des GPU Nvidia pour l’inférence, a signé un contrat de 10 milliards de dollars avec Cerebras pour louer leurs services d’inférence. Nvidia, elle aussi, a paniqué et a dépensé 20 milliards de dollars pour racheter Groq, afin de ne pas être laissée derrière dans cette nouvelle course.
Lorsque ces deux voies se croisent : l’effondrement des coûts
Voici ce qui se passe : un modèle DeepSeek, allégé grâce à MoE, tourne sur une puce Cerebras « sans latence ».
Que cela entraîne-t-il ?
Une avalanche de coûts.
D’abord, le modèle allégé est si petit qu’il peut tenir entièrement dans la mémoire intégrée de la puce. Ensuite, sans le goulot d’étranglement de la mémoire externe, la vitesse de réponse de l’IA devient stupéfiante. En fin de compte, le coût d’entraînement, grâce à l’architecture MoE, chute de 90 %, et le coût d’inférence, grâce au matériel dédié et à la calculs par sparsitée, diminue d’un ordre de grandeur. Au final, le coût total pour posséder et faire fonctionner une IA de classe mondiale pourrait n’être que de 10 à 15 % de celui d’une solution GPU traditionnelle.
Ce n’est pas une simple amélioration, c’est une rupture de paradigme.
Le trône de Nvidia, en train d’être discrètement délogé
Vous comprenez maintenant pourquoi cela est plus dangereux que la « panique Cowork ».
La valorisation de plusieurs milliers de milliards de dollars de Nvidia repose sur une histoire simple : l’IA est l’avenir, et cet avenir doit passer par mes GPU. Mais maintenant, cette fondation commence à vaciller.
Sur le marché de l’entraînement, même si Nvidia continue à monopoliser, si ses clients peuvent faire le travail avec un dixième des cartes, la taille globale du marché pourrait fortement diminuer.
Sur le marché de l’inférence, qui représente un gâteau dix fois plus grand, Nvidia n’a plus l’avantage absolu, face à des acteurs comme Google, Cerebras, et d’autres. Même son plus gros client, OpenAI, commence à se détourner.
Une fois que Wall Street réalisera que les « pioches » de Nvidia ne sont plus la seule, ni même la meilleure option, qu’adviendra-t-il de la valorisation basée sur la « domination éternelle » ? Tout le monde connaît la réponse.
Ainsi, le plus grand « oiseau de malheur » dans les six prochains mois ne sera pas une application IA qui élimine un concurrent, mais une simple nouvelle technique : par exemple, une nouvelle publication sur l’efficacité des algorithmes MoE, ou un rapport montrant une croissance massive des parts de marché des puces d’inférence dédiées, annonçant discrètement une nouvelle étape dans la guerre des puissances de calcul.
Lorsque la pioche du « vendeur de pioches » ne sera plus la seule option, son âge d’or pourrait aussi toucher à sa fin.