Depuis la fin de l’année 2022, les principales sociétés de capital-risque de la Silicon Valley ont tourné leur regard vers les startups en intelligence artificielle, notamment dans le domaine de l’art généré par IA. Stability AI et Jasper ont successivement levé plus d’un milliard de dollars, avec une valorisation dépassant tous deux le milliard de dollars, les plaçant ainsi dans la catégorie des licornes. Cette vague de financement s’appuie sur la logique profonde de l’AIGC (Contenu Généré par l’IA) en tant que nouvelle étape de la transition paradigmique.
L’AIGC n’est pas seulement le fruit des progrès technologiques, mais aussi une révolution dans la production de contenu. Avec l’avènement de l’ère Web3, la combinaison de l’intelligence artificielle, des données associées et des réseaux sémantiques a créé un nouveau lien entre l’homme et le réseau, entraînant une explosion de la demande de consommation de contenu. Les modèles traditionnels PGC (contenu professionnel généré) et UGC (contenu utilisateur généré) ne suffisent plus à répondre à cette expansion, faisant de l’AIGC un nouvel outil de productivité dans l’ère Web3, offrant des solutions pour la génération massive de contenus dans le métavers.
L’essor de l’AIGC sur le marché : de la périphérie au mainstream
Du point de vue des progrès technologiques et des applications commerciales, l’AIGC a rapidement attiré une attention massive des capitaux pour trois raisons principales : d’abord, les avancées révolutionnaires dans les algorithmes fondamentaux et le matériel ; ensuite, la maturation rapide de plusieurs applications dans des secteurs verticaux ; enfin, le fait que le secteur en lui-même est encore à ses débuts, même si de grandes entreprises technologiques détiennent une partie de la valeur, les startups conservent des opportunités de percée.
Au niveau des applications, l’AIGC a déjà montré un potentiel multidirectionnel. Dans le domaine de la génération de texte, Jasper, grâce à ses fonctionnalités de rédaction assistée par IA, aide les utilisateurs à créer des titres pour Instagram, des scripts pour TikTok, des textes publicitaires et des emails. À la publication de ce rapport, Jasper comptait plus de 70 000 clients, dont des géants comme Airbnb et IBM, avec un chiffre d’affaires de 40 millions de dollars en 2022.
La génération d’images a connu une avancée majeure grâce aux modèles de diffusion. La sortie de Stable Diffusion a permis au domaine de la peinture assistée par IA de connaître une période d’explosion. Les plateformes médias adoptent massivement l’illustration par IA, réduisant ainsi les coûts de production et évitant les risques liés aux droits d’auteur. OpenAI a également noué une collaboration approfondie avec la plus grande banque d’images sous licence Shutterstock, et les images générées par DALL-E sont devenues une nouvelle option pour les applications commerciales.
La vidéo, l’audio et la génération de code offrent également de vastes perspectives d’application. Le modèle Phenaki de Google peut générer en deux minutes un contenu vidéo long basé sur du texte ; les personnages virtuels combinés à l’AIGC pour la synthèse vocale permettent des annonces automatiques et des jeux de rôle ; GitHub Copilot est devenu un assistant de codage pour les développeurs. La maturité de ces applications marque la transformation de l’AIGC d’un outil périphérique à un outil de productivité principal.
La base technologique de l’AIGC : traitement du langage naturel et algorithmes de génération
Pour comprendre le fonctionnement de l’AIGC, il faut approfondir ses deux piliers technologiques : le traitement du langage naturel (NLP) et les algorithmes de génération.
L’évolution du traitement du langage naturel
Le NLP est la base de l’interaction entre l’homme et l’ordinateur en langage naturel. Cette technologie combine linguistique, informatique et mathématiques pour permettre à l’ordinateur de comprendre, d’extraire des informations, de traduire automatiquement et de traiter du contenu en langage naturel. Depuis ses débuts, le NLP s’est concentré sur deux axes principaux :
La compréhension du langage naturel (NLU) vise à doter l’ordinateur d’une capacité de compréhension semblable à celle de l’humain. Contrairement aux ordinateurs qui ne traitaient que des données structurées, la NLU permet à l’ordinateur d’identifier et d’extraire les intentions implicites dans le langage, réalisant ainsi une véritable compréhension du langage naturel. Cependant, en raison de la diversité, de l’ambiguïté et de la dépendance au contexte du langage naturel, la performance de la compréhension par ordinateur reste encore inférieure à celle de l’humain.
La génération du langage naturel (NLG) consiste à transformer des données non linguistiques en langage compréhensible par l’humain. Après une évolution allant de la simple fusion de données, à l’utilisation de modèles basés sur des templates, puis à des NLG avancés, cette technologie peut désormais comprendre les intentions, prendre en compte le contexte, et produire un contenu fluide et naturel.
La percée majeure du NLP est survenue en 2017 avec le modèle Transformer développé par Google. Cette architecture utilise un mécanisme d’attention automatique, permettant d’attribuer des poids différents aux différentes parties de l’entrée en fonction de leur importance. Contrairement aux réseaux neuronaux récurrents (RNN), le Transformer peut traiter simultanément toutes les parties de l’entrée, améliorant considérablement l’efficacité du calcul parallèle. C’est cette maturité technologique qui a permis le développement de grands modèles pré-entraînés comme BERT et GPT, fournissant une base solide pour l’AIGC.
Les deux grandes écoles des algorithmes de génération
Dans le domaine des algorithmes de génération, les deux approches principales sont les réseaux antagonistes génératifs (GAN) et les modèles de diffusion.
Les GAN, proposés par Ian J. Goodfellow en 2014, utilisent une architecture où un générateur et un discriminateur s’affrontent. Le générateur tente de produire des “fausses” données pour tromper le discriminateur, qui lui, essaie de distinguer le vrai du faux. Au fil de l’entraînement, ces deux réseaux évoluent jusqu’à atteindre un équilibre où le discriminateur ne peut plus faire la différence. Cette méthode est largement utilisée dans la publicité, le jeu vidéo, le divertissement, pour créer des personnages fictifs, simuler des changements faciaux ou faire du transfert de style.
Cependant, les GAN présentent des problèmes de stabilité d’entraînement et de mode manquant. Le générateur et le discriminateur doivent être soigneusement synchronisés, mais en pratique, il arrive que le discriminateur converge rapidement, laissant le générateur diverger. Par ailleurs, le générateur peut se retrouver piégé dans un mode où il ne produit que des échantillons similaires, sans apprendre de nouvelles variations.
En comparaison, les modèles de diffusion offrent une logique de génération plus proche de la pensée humaine et constituent une force motrice clé de l’expansion rapide de l’AIGC. Ces modèles ajoutent progressivement du bruit gaussien aux données d’entraînement, puis apprennent à inverser ce processus pour restaurer les données. Une fois entraînés, ils peuvent générer de nouvelles données en ajoutant du bruit aléatoire et en appliquant le processus de débruitage appris.
Prenons DALL-E comme exemple : après que l’utilisateur ait saisi une description textuelle, le système utilise d’abord un encodeur de texte (tel que le modèle Clip d’OpenAI) pour mapper le texte dans un espace de représentation ; puis, via un “modèle de prior” (prior model), il traduit cette représentation en une représentation d’image, capturant la sémantique ; enfin, un encodeur d’image génère aléatoirement une représentation visuelle, complétant la création de l’image. Ce processus est similaire à l’imagination humaine — d’abord une idée de base, puis l’ajout progressif de détails et de couches sémantiques.
Les modèles de diffusion présentent trois avantages majeurs par rapport aux GAN : une qualité d’image supérieure, une formation sans adversaire donc plus efficace, et une meilleure extensibilité avec des capacités de calcul parallèle accrues. Ces caractéristiques en font la prochaine génération de modèles de génération d’images.
La voie commerciale de l’AIGC : de l’assistant au créateur
Du point de vue de la maturité des applications, l’AIGC montre une claire capacité à générer des modèles commerciaux dans les domaines du texte, de l’image, de l’audio, des jeux et du code. En particulier pour les tâches à forte répétitivité et avec des exigences de précision modérées, l’AIGC est déjà relativement mature et explore activement des modèles de monétisation. Ces fournisseurs de services adoptent généralement un modèle SaaS basé sur l’abonnement.
Le SaaS pour la création textuelle
Jasper est un exemple typique dans la génération de texte. Cette plateforme, créée il y a moins de deux ans, permet à des particuliers et des équipes de produire du contenu commercial avec l’aide de l’IA. L’utilisateur peut saisir une description ou des exigences pour l’article cible, et le système récupère automatiquement des données et génère le contenu selon les instructions. Par exemple, lorsqu’un auteur demande “Rédige un article sur l’AIGC, incluant définition, historique, applications, situation actuelle et tendances futures”, Jasper produit en quelques secondes un article cohérent, structuré, avec des exemples. La plateforme propose des centaines de modèles, que l’utilisateur peut choisir selon ses besoins.
Sur le plan commercial, Jasper affiche des résultats impressionnants. Lors de sa dernière levée de fonds, il a obtenu 125 millions de dollars, avec une valorisation de 1,5 milliard de dollars. Son portefeuille clients dépasse 70 000, incluant des entreprises comme Airbnb et IBM. Son chiffre d’affaires a atteint 40 millions de dollars en 2022, avec une prévision de 90 millions pour l’année complète.
L’application à grande échelle dans la création d’images
MidJourney simplifie l’interface pour permettre à des utilisateurs sans expérience de créer des œuvres artistiques à partir de descriptions textuelles. Le système, via le traitement NLP, identifie la sémantique, la traduit en langage informatique, et génère de nouvelles œuvres à partir de ses propres bases de données. Ces créations, en tant qu’œuvres d’IA, relèvent du droit d’auteur IA, ce qui facilite leur utilisation dans les médias, les réseaux sociaux, tout en réduisant les coûts et en évitant les litiges liés aux droits. Certains créateurs de banques d’images commencent à produire des matériaux via l’AIGC, monétisant leur contenu sur leurs réseaux sociaux.
Vidéo, audio et autres secteurs verticaux
Le modèle Phenaki de Google montre le potentiel de la génération vidéo, capable en quelques instants de produire une vidéo longue cohérente à partir d’un texte. La combinaison avec la technologie de personnages virtuels permet une synthèse vocale et des expressions faciales plus réalistes, améliorant l’efficacité et la diversité par rapport à un simple personnage virtuel lisant un script.
Dans l’audio, l’AIGC est déjà intégré dans des usages quotidiens. La navigation GPS peut changer de voix selon des célébrités, ou les utilisateurs de Gaode Map peuvent enregistrer leur propre voix. Plus profondément, dans le domaine des personnages virtuels, l’AIGC peut générer non seulement la voix, mais aussi le contenu, permettant à ces personnages d’exprimer des idées comme de vrais humains.
Dans le développement de jeux, l’AIGC peut servir à construire des environnements, créer des scénarios ou générer des NPC, augmentant considérablement l’efficacité. Les joueurs peuvent aussi créer des personnages virtuels pour des activités en jeu. GitHub Copilot fournit des suggestions de code, entraîné sur des milliards de lignes de code open source.
Cadre d’investissement dans l’AIGC : logiciel, matériel et écosystème de données
Du point de vue de l’investissement, le succès de l’industrie de l’AIGC repose sur trois niveaux : le logiciel (algorithmes et modèles), le matériel (puissance de calcul) et l’écosystème de données (ensembles de données d’entraînement).
Les avancées technologiques dans le logiciel
Le logiciel inclut principalement les techniques NLP et les modèles d’algorithmes de génération. Dans le domaine du NLP, des entreprises comme Google, Microsoft, iFlytek, Truesight, etc., détiennent des avantages technologiques. Pour les modèles et datasets, Nvidia, Meta, Baidu, BlueFocus, Visual China, Kunlun W&W, etc., sont en position de leader. Ces sociétés accumulent de vastes jeux de données d’entraînement et optimisent leurs algorithmes, créant ainsi une barrière technologique.
Le matériel et la puissance de calcul
La puissance de calcul est devenue un enjeu central dans l’ère de l’AIGC. Stable Diffusion, par exemple, fonctionne actuellement sur un cluster de 4000 GPU Nvidia A100, avec un coût opérationnel supérieur à 50 millions de dollars. Cela montre que de lourds investissements en hardware sont nécessaires pour faire avancer l’AIGC. Les acteurs dans ce domaine incluent des entreprises comme Lanqi Tech, ZTE, EasySun, Tianfutong, Baoxin Software, Zhongji Xuchuang, etc. Avec la restriction à l’exportation de puces haut de gamme Nvidia, le marché des puces de calcul domestiques pourrait connaître une croissance significative.
La qualité des datasets limite le potentiel
Le modèle Clip d’OpenAI, entraîné sur 400 millions de paires image-texte de haute qualité en anglais, illustre l’impact crucial de données de qualité. Cependant, reproduire cette performance est très difficile : des équipes étrangères ont utilisé 2 milliards de paires pour approcher le résultat de Clip. Cela montre que l’acquisition, le nettoyage et l’étiquetage de datasets coûteux, et que la qualité, la conformité et la diversité des données déterminent directement la qualité du contenu généré par l’AIGC.
Défis techniques et axes de rupture pour l’AIGC
Malgré une application commerciale déjà en partie opérationnelle, l’AIGC fait face à des limites techniques. La précision des contenus générés ne répond pas encore aux standards élevés du marché.
Les causes des problèmes de précision
Dans la génération d’images, l’AIGC fonctionne bien pour le style manga ou abstrait, mais rencontre des défauts dans le rendu des détails précis. Par exemple, pour la génération “belle femme avec un chat en peluche”, le système peut produire une femme avec un visage de chat, ou des erreurs dans la relation spatiale (les yeux du chat, la position du corps). Ces problèmes proviennent d’une compréhension insuffisante du sens naturel, notamment dans la gestion des relations spatiales et des quantités.
Les défis liés au langage et à la localisation
Le développement inégal des encodeurs de texte aggrave ces difficultés. Le modèle Clip d’OpenAI, entraîné sur 400 millions de paires en anglais, est open source, mais le dataset est fermé. Cela complique l’accès à des milliards de paires de haute qualité dans d’autres langues, ce qui oblige à recourir à la traduction, processus complexe impliquant la compréhension sémantique, la culture et les habitudes linguistiques, rendant la traduction précise difficile, et constituant un défi pour les modèles de traduction.
L’impact des différences d’algorithmes et de datasets
Les différentes plateformes utilisent des algorithmes et des datasets variés, ce qui entraîne de grandes disparités dans la qualité des résultats pour une même entrée. La qualité, la conformité et le style des données influencent directement la performance.
Les trois piliers du futur de l’AIGC : grands modèles, big data, grande puissance de calcul
Pour l’avenir, le développement central de l’AIGC repose sur trois axes : les modèles pré-entraînés à grande échelle, l’accumulation massive de données, et l’investissement massif en puissance de calcul. C’est la condition pour que l’AIGC évolue du rôle d’“assistant” à celui de “créateur indépendant”.
Yann-Ho Lau a résumé le parcours en trois phases : la première, “l’assistant”, où l’AIGC aide à la création humaine ; la deuxième, “la collaboration”, avec des formes virtuelles d’AIGC coexistant avec l’humain ; la troisième, “l’original”, où l’AIGC crée de façon autonome. Dans la prochaine décennie, l’AIGC pourrait produire du contenu original à un coût dix fois moindre, avec une vitesse de production cent ou mille fois supérieure, bouleversant totalement le mode de production actuel.
Pour réaliser cette vision, le développement d’applications verticales spécialisées sera clé. Contrairement aux grands modèles généralistes, ces applications ciblées peuvent être entraînées plus précisément pour des fonctions spécifiques, à moindre coût et avec de meilleurs résultats. Par ailleurs, avant la mise en place d’un cadre réglementaire pour la propriété intellectuelle et l’éthique de la création par l’AIGC, l’acquisition de datasets de haute qualité et conformes sera une priorité stratégique.
Feuille de route claire pour les opportunités d’investissement
D’un point de vue macro, la blockchain, le métavers, le Web3 dessinent un vaste scénario d’application pour l’économie numérique. Les personnages virtuels, NFT, etc., ne sont que des exemples parmi d’autres. L’AIGC, en tant que moteur de la transition du Web2 vers le Web3, aura un impact disruptif sur des applications existantes comme la vidéo courte ou le jeu vidéo, et sous la vision de la co-construction ouverte du Web3, le contenu UGC et AIGC sera plus attractif, avec une vague de création secondaire et d’imagination ouverte.
Du point de vue de l’investissement, les trois dimensions de l’industrie AIGC — logiciel, matériel et écosystème de données — offrent des opportunités :
Innovation logicielle : entreprises en NLP, applications verticales, sociétés de formation de grands modèles
Support matériel : dans un contexte de restrictions sur les puces Nvidia, les fabricants locaux de puces de calcul et les fournisseurs de clusters GPU
Écosystème de données : fournisseurs de datasets de haute qualité pour l’acquisition, le nettoyage et l’étiquetage, qui deviendront des ressources rares
L’AIGC est déjà la tendance la plus chaude dans la Silicon Valley, et l’intérêt des marchés domestiques et des grands groupes Internet pour ses applications monte rapidement. Cela marque l’entrée dans une phase d’application à grande échelle, après la recherche technologique.
Avertissements et points clés à surveiller
Risques technologiques : le développement de l’AIGC pourrait ne pas répondre aux attentes, notamment si l’innovation dans le matériel (supercalculateurs, puces) ralentit.
Risques réglementaires : étant encore à ses débuts, l’AIGC pourrait voir émerger des réglementations sur la propriété intellectuelle, le droit d’auteur ou d’autres aspects légaux liés au contenu généré par IA, impactant directement l’industrie.
Risques concurrentiels : l’entrée de grands acteurs technologiques pourrait accélérer la consolidation du secteur, mettant en difficulté les startups.
Globalement, la valeur de l’AIGC réside dans sa capacité à transformer fondamentalement la production de contenu. Du côté de la demande, l’ère Web3 voit une explosion des besoins et de la diversité de contenu ; du côté de l’offre, l’AIGC offre une efficacité sans précédent. C’est le moment idéal pour une croissance rapide de l’AIGC et sa capacité à transformer tous les secteurs.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Innovation AIGC dans la production de contenu : comment les outils de productivité à l'ère Web3 changent la configuration de l'industrie
Depuis la fin de l’année 2022, les principales sociétés de capital-risque de la Silicon Valley ont tourné leur regard vers les startups en intelligence artificielle, notamment dans le domaine de l’art généré par IA. Stability AI et Jasper ont successivement levé plus d’un milliard de dollars, avec une valorisation dépassant tous deux le milliard de dollars, les plaçant ainsi dans la catégorie des licornes. Cette vague de financement s’appuie sur la logique profonde de l’AIGC (Contenu Généré par l’IA) en tant que nouvelle étape de la transition paradigmique.
L’AIGC n’est pas seulement le fruit des progrès technologiques, mais aussi une révolution dans la production de contenu. Avec l’avènement de l’ère Web3, la combinaison de l’intelligence artificielle, des données associées et des réseaux sémantiques a créé un nouveau lien entre l’homme et le réseau, entraînant une explosion de la demande de consommation de contenu. Les modèles traditionnels PGC (contenu professionnel généré) et UGC (contenu utilisateur généré) ne suffisent plus à répondre à cette expansion, faisant de l’AIGC un nouvel outil de productivité dans l’ère Web3, offrant des solutions pour la génération massive de contenus dans le métavers.
L’essor de l’AIGC sur le marché : de la périphérie au mainstream
Du point de vue des progrès technologiques et des applications commerciales, l’AIGC a rapidement attiré une attention massive des capitaux pour trois raisons principales : d’abord, les avancées révolutionnaires dans les algorithmes fondamentaux et le matériel ; ensuite, la maturation rapide de plusieurs applications dans des secteurs verticaux ; enfin, le fait que le secteur en lui-même est encore à ses débuts, même si de grandes entreprises technologiques détiennent une partie de la valeur, les startups conservent des opportunités de percée.
Au niveau des applications, l’AIGC a déjà montré un potentiel multidirectionnel. Dans le domaine de la génération de texte, Jasper, grâce à ses fonctionnalités de rédaction assistée par IA, aide les utilisateurs à créer des titres pour Instagram, des scripts pour TikTok, des textes publicitaires et des emails. À la publication de ce rapport, Jasper comptait plus de 70 000 clients, dont des géants comme Airbnb et IBM, avec un chiffre d’affaires de 40 millions de dollars en 2022.
La génération d’images a connu une avancée majeure grâce aux modèles de diffusion. La sortie de Stable Diffusion a permis au domaine de la peinture assistée par IA de connaître une période d’explosion. Les plateformes médias adoptent massivement l’illustration par IA, réduisant ainsi les coûts de production et évitant les risques liés aux droits d’auteur. OpenAI a également noué une collaboration approfondie avec la plus grande banque d’images sous licence Shutterstock, et les images générées par DALL-E sont devenues une nouvelle option pour les applications commerciales.
La vidéo, l’audio et la génération de code offrent également de vastes perspectives d’application. Le modèle Phenaki de Google peut générer en deux minutes un contenu vidéo long basé sur du texte ; les personnages virtuels combinés à l’AIGC pour la synthèse vocale permettent des annonces automatiques et des jeux de rôle ; GitHub Copilot est devenu un assistant de codage pour les développeurs. La maturité de ces applications marque la transformation de l’AIGC d’un outil périphérique à un outil de productivité principal.
La base technologique de l’AIGC : traitement du langage naturel et algorithmes de génération
Pour comprendre le fonctionnement de l’AIGC, il faut approfondir ses deux piliers technologiques : le traitement du langage naturel (NLP) et les algorithmes de génération.
L’évolution du traitement du langage naturel
Le NLP est la base de l’interaction entre l’homme et l’ordinateur en langage naturel. Cette technologie combine linguistique, informatique et mathématiques pour permettre à l’ordinateur de comprendre, d’extraire des informations, de traduire automatiquement et de traiter du contenu en langage naturel. Depuis ses débuts, le NLP s’est concentré sur deux axes principaux :
La compréhension du langage naturel (NLU) vise à doter l’ordinateur d’une capacité de compréhension semblable à celle de l’humain. Contrairement aux ordinateurs qui ne traitaient que des données structurées, la NLU permet à l’ordinateur d’identifier et d’extraire les intentions implicites dans le langage, réalisant ainsi une véritable compréhension du langage naturel. Cependant, en raison de la diversité, de l’ambiguïté et de la dépendance au contexte du langage naturel, la performance de la compréhension par ordinateur reste encore inférieure à celle de l’humain.
La génération du langage naturel (NLG) consiste à transformer des données non linguistiques en langage compréhensible par l’humain. Après une évolution allant de la simple fusion de données, à l’utilisation de modèles basés sur des templates, puis à des NLG avancés, cette technologie peut désormais comprendre les intentions, prendre en compte le contexte, et produire un contenu fluide et naturel.
La percée majeure du NLP est survenue en 2017 avec le modèle Transformer développé par Google. Cette architecture utilise un mécanisme d’attention automatique, permettant d’attribuer des poids différents aux différentes parties de l’entrée en fonction de leur importance. Contrairement aux réseaux neuronaux récurrents (RNN), le Transformer peut traiter simultanément toutes les parties de l’entrée, améliorant considérablement l’efficacité du calcul parallèle. C’est cette maturité technologique qui a permis le développement de grands modèles pré-entraînés comme BERT et GPT, fournissant une base solide pour l’AIGC.
Les deux grandes écoles des algorithmes de génération
Dans le domaine des algorithmes de génération, les deux approches principales sont les réseaux antagonistes génératifs (GAN) et les modèles de diffusion.
Les GAN, proposés par Ian J. Goodfellow en 2014, utilisent une architecture où un générateur et un discriminateur s’affrontent. Le générateur tente de produire des “fausses” données pour tromper le discriminateur, qui lui, essaie de distinguer le vrai du faux. Au fil de l’entraînement, ces deux réseaux évoluent jusqu’à atteindre un équilibre où le discriminateur ne peut plus faire la différence. Cette méthode est largement utilisée dans la publicité, le jeu vidéo, le divertissement, pour créer des personnages fictifs, simuler des changements faciaux ou faire du transfert de style.
Cependant, les GAN présentent des problèmes de stabilité d’entraînement et de mode manquant. Le générateur et le discriminateur doivent être soigneusement synchronisés, mais en pratique, il arrive que le discriminateur converge rapidement, laissant le générateur diverger. Par ailleurs, le générateur peut se retrouver piégé dans un mode où il ne produit que des échantillons similaires, sans apprendre de nouvelles variations.
En comparaison, les modèles de diffusion offrent une logique de génération plus proche de la pensée humaine et constituent une force motrice clé de l’expansion rapide de l’AIGC. Ces modèles ajoutent progressivement du bruit gaussien aux données d’entraînement, puis apprennent à inverser ce processus pour restaurer les données. Une fois entraînés, ils peuvent générer de nouvelles données en ajoutant du bruit aléatoire et en appliquant le processus de débruitage appris.
Prenons DALL-E comme exemple : après que l’utilisateur ait saisi une description textuelle, le système utilise d’abord un encodeur de texte (tel que le modèle Clip d’OpenAI) pour mapper le texte dans un espace de représentation ; puis, via un “modèle de prior” (prior model), il traduit cette représentation en une représentation d’image, capturant la sémantique ; enfin, un encodeur d’image génère aléatoirement une représentation visuelle, complétant la création de l’image. Ce processus est similaire à l’imagination humaine — d’abord une idée de base, puis l’ajout progressif de détails et de couches sémantiques.
Les modèles de diffusion présentent trois avantages majeurs par rapport aux GAN : une qualité d’image supérieure, une formation sans adversaire donc plus efficace, et une meilleure extensibilité avec des capacités de calcul parallèle accrues. Ces caractéristiques en font la prochaine génération de modèles de génération d’images.
La voie commerciale de l’AIGC : de l’assistant au créateur
Du point de vue de la maturité des applications, l’AIGC montre une claire capacité à générer des modèles commerciaux dans les domaines du texte, de l’image, de l’audio, des jeux et du code. En particulier pour les tâches à forte répétitivité et avec des exigences de précision modérées, l’AIGC est déjà relativement mature et explore activement des modèles de monétisation. Ces fournisseurs de services adoptent généralement un modèle SaaS basé sur l’abonnement.
Le SaaS pour la création textuelle
Jasper est un exemple typique dans la génération de texte. Cette plateforme, créée il y a moins de deux ans, permet à des particuliers et des équipes de produire du contenu commercial avec l’aide de l’IA. L’utilisateur peut saisir une description ou des exigences pour l’article cible, et le système récupère automatiquement des données et génère le contenu selon les instructions. Par exemple, lorsqu’un auteur demande “Rédige un article sur l’AIGC, incluant définition, historique, applications, situation actuelle et tendances futures”, Jasper produit en quelques secondes un article cohérent, structuré, avec des exemples. La plateforme propose des centaines de modèles, que l’utilisateur peut choisir selon ses besoins.
Sur le plan commercial, Jasper affiche des résultats impressionnants. Lors de sa dernière levée de fonds, il a obtenu 125 millions de dollars, avec une valorisation de 1,5 milliard de dollars. Son portefeuille clients dépasse 70 000, incluant des entreprises comme Airbnb et IBM. Son chiffre d’affaires a atteint 40 millions de dollars en 2022, avec une prévision de 90 millions pour l’année complète.
L’application à grande échelle dans la création d’images
MidJourney simplifie l’interface pour permettre à des utilisateurs sans expérience de créer des œuvres artistiques à partir de descriptions textuelles. Le système, via le traitement NLP, identifie la sémantique, la traduit en langage informatique, et génère de nouvelles œuvres à partir de ses propres bases de données. Ces créations, en tant qu’œuvres d’IA, relèvent du droit d’auteur IA, ce qui facilite leur utilisation dans les médias, les réseaux sociaux, tout en réduisant les coûts et en évitant les litiges liés aux droits. Certains créateurs de banques d’images commencent à produire des matériaux via l’AIGC, monétisant leur contenu sur leurs réseaux sociaux.
Vidéo, audio et autres secteurs verticaux
Le modèle Phenaki de Google montre le potentiel de la génération vidéo, capable en quelques instants de produire une vidéo longue cohérente à partir d’un texte. La combinaison avec la technologie de personnages virtuels permet une synthèse vocale et des expressions faciales plus réalistes, améliorant l’efficacité et la diversité par rapport à un simple personnage virtuel lisant un script.
Dans l’audio, l’AIGC est déjà intégré dans des usages quotidiens. La navigation GPS peut changer de voix selon des célébrités, ou les utilisateurs de Gaode Map peuvent enregistrer leur propre voix. Plus profondément, dans le domaine des personnages virtuels, l’AIGC peut générer non seulement la voix, mais aussi le contenu, permettant à ces personnages d’exprimer des idées comme de vrais humains.
Dans le développement de jeux, l’AIGC peut servir à construire des environnements, créer des scénarios ou générer des NPC, augmentant considérablement l’efficacité. Les joueurs peuvent aussi créer des personnages virtuels pour des activités en jeu. GitHub Copilot fournit des suggestions de code, entraîné sur des milliards de lignes de code open source.
Cadre d’investissement dans l’AIGC : logiciel, matériel et écosystème de données
Du point de vue de l’investissement, le succès de l’industrie de l’AIGC repose sur trois niveaux : le logiciel (algorithmes et modèles), le matériel (puissance de calcul) et l’écosystème de données (ensembles de données d’entraînement).
Les avancées technologiques dans le logiciel
Le logiciel inclut principalement les techniques NLP et les modèles d’algorithmes de génération. Dans le domaine du NLP, des entreprises comme Google, Microsoft, iFlytek, Truesight, etc., détiennent des avantages technologiques. Pour les modèles et datasets, Nvidia, Meta, Baidu, BlueFocus, Visual China, Kunlun W&W, etc., sont en position de leader. Ces sociétés accumulent de vastes jeux de données d’entraînement et optimisent leurs algorithmes, créant ainsi une barrière technologique.
Le matériel et la puissance de calcul
La puissance de calcul est devenue un enjeu central dans l’ère de l’AIGC. Stable Diffusion, par exemple, fonctionne actuellement sur un cluster de 4000 GPU Nvidia A100, avec un coût opérationnel supérieur à 50 millions de dollars. Cela montre que de lourds investissements en hardware sont nécessaires pour faire avancer l’AIGC. Les acteurs dans ce domaine incluent des entreprises comme Lanqi Tech, ZTE, EasySun, Tianfutong, Baoxin Software, Zhongji Xuchuang, etc. Avec la restriction à l’exportation de puces haut de gamme Nvidia, le marché des puces de calcul domestiques pourrait connaître une croissance significative.
La qualité des datasets limite le potentiel
Le modèle Clip d’OpenAI, entraîné sur 400 millions de paires image-texte de haute qualité en anglais, illustre l’impact crucial de données de qualité. Cependant, reproduire cette performance est très difficile : des équipes étrangères ont utilisé 2 milliards de paires pour approcher le résultat de Clip. Cela montre que l’acquisition, le nettoyage et l’étiquetage de datasets coûteux, et que la qualité, la conformité et la diversité des données déterminent directement la qualité du contenu généré par l’AIGC.
Défis techniques et axes de rupture pour l’AIGC
Malgré une application commerciale déjà en partie opérationnelle, l’AIGC fait face à des limites techniques. La précision des contenus générés ne répond pas encore aux standards élevés du marché.
Les causes des problèmes de précision
Dans la génération d’images, l’AIGC fonctionne bien pour le style manga ou abstrait, mais rencontre des défauts dans le rendu des détails précis. Par exemple, pour la génération “belle femme avec un chat en peluche”, le système peut produire une femme avec un visage de chat, ou des erreurs dans la relation spatiale (les yeux du chat, la position du corps). Ces problèmes proviennent d’une compréhension insuffisante du sens naturel, notamment dans la gestion des relations spatiales et des quantités.
Les défis liés au langage et à la localisation
Le développement inégal des encodeurs de texte aggrave ces difficultés. Le modèle Clip d’OpenAI, entraîné sur 400 millions de paires en anglais, est open source, mais le dataset est fermé. Cela complique l’accès à des milliards de paires de haute qualité dans d’autres langues, ce qui oblige à recourir à la traduction, processus complexe impliquant la compréhension sémantique, la culture et les habitudes linguistiques, rendant la traduction précise difficile, et constituant un défi pour les modèles de traduction.
L’impact des différences d’algorithmes et de datasets
Les différentes plateformes utilisent des algorithmes et des datasets variés, ce qui entraîne de grandes disparités dans la qualité des résultats pour une même entrée. La qualité, la conformité et le style des données influencent directement la performance.
Les trois piliers du futur de l’AIGC : grands modèles, big data, grande puissance de calcul
Pour l’avenir, le développement central de l’AIGC repose sur trois axes : les modèles pré-entraînés à grande échelle, l’accumulation massive de données, et l’investissement massif en puissance de calcul. C’est la condition pour que l’AIGC évolue du rôle d’“assistant” à celui de “créateur indépendant”.
Yann-Ho Lau a résumé le parcours en trois phases : la première, “l’assistant”, où l’AIGC aide à la création humaine ; la deuxième, “la collaboration”, avec des formes virtuelles d’AIGC coexistant avec l’humain ; la troisième, “l’original”, où l’AIGC crée de façon autonome. Dans la prochaine décennie, l’AIGC pourrait produire du contenu original à un coût dix fois moindre, avec une vitesse de production cent ou mille fois supérieure, bouleversant totalement le mode de production actuel.
Pour réaliser cette vision, le développement d’applications verticales spécialisées sera clé. Contrairement aux grands modèles généralistes, ces applications ciblées peuvent être entraînées plus précisément pour des fonctions spécifiques, à moindre coût et avec de meilleurs résultats. Par ailleurs, avant la mise en place d’un cadre réglementaire pour la propriété intellectuelle et l’éthique de la création par l’AIGC, l’acquisition de datasets de haute qualité et conformes sera une priorité stratégique.
Feuille de route claire pour les opportunités d’investissement
D’un point de vue macro, la blockchain, le métavers, le Web3 dessinent un vaste scénario d’application pour l’économie numérique. Les personnages virtuels, NFT, etc., ne sont que des exemples parmi d’autres. L’AIGC, en tant que moteur de la transition du Web2 vers le Web3, aura un impact disruptif sur des applications existantes comme la vidéo courte ou le jeu vidéo, et sous la vision de la co-construction ouverte du Web3, le contenu UGC et AIGC sera plus attractif, avec une vague de création secondaire et d’imagination ouverte.
Du point de vue de l’investissement, les trois dimensions de l’industrie AIGC — logiciel, matériel et écosystème de données — offrent des opportunités :
L’AIGC est déjà la tendance la plus chaude dans la Silicon Valley, et l’intérêt des marchés domestiques et des grands groupes Internet pour ses applications monte rapidement. Cela marque l’entrée dans une phase d’application à grande échelle, après la recherche technologique.
Avertissements et points clés à surveiller
Risques technologiques : le développement de l’AIGC pourrait ne pas répondre aux attentes, notamment si l’innovation dans le matériel (supercalculateurs, puces) ralentit.
Risques réglementaires : étant encore à ses débuts, l’AIGC pourrait voir émerger des réglementations sur la propriété intellectuelle, le droit d’auteur ou d’autres aspects légaux liés au contenu généré par IA, impactant directement l’industrie.
Risques concurrentiels : l’entrée de grands acteurs technologiques pourrait accélérer la consolidation du secteur, mettant en difficulté les startups.
Globalement, la valeur de l’AIGC réside dans sa capacité à transformer fondamentalement la production de contenu. Du côté de la demande, l’ère Web3 voit une explosion des besoins et de la diversité de contenu ; du côté de l’offre, l’AIGC offre une efficacité sans précédent. C’est le moment idéal pour une croissance rapide de l’AIGC et sa capacité à transformer tous les secteurs.