A partir do final de 2022, as principais instituições de capital de risco do Vale do Silício voltaram-se para startups de inteligência artificial, sendo especialmente popular o campo da arte gerada por IA de forma generativa. A Stability AI e a Jasper concluíram sucessivos financiamentos superiores a centenas de milhões de dólares, atingindo avaliações que ultrapassaram a marca de um bilhão de dólares, consolidando-se como unicórnios. Por trás desta onda de financiamento está a lógica profunda do AIGC (Conteúdo Gerado por IA - Artificial Intelligence-Generated Content) como uma nova mudança de paradigma.
O AIGC não é apenas um produto do avanço tecnológico, mas uma revolução na forma de produção de conteúdo. Com a chegada da era Web3, a combinação de inteligência artificial, dados relacionados e redes semânticas criou uma conexão totalmente nova entre pessoas e redes, levando a uma explosão na demanda por consumo de conteúdo. Os modelos tradicionais de PGC (Conteúdo Profissionalmente Gerado) e UGC (Conteúdo Gerado pelo Usuário) já não conseguem atender a essa expansão, tornando o AIGC uma nova ferramenta de produtividade na era Web3, oferecendo soluções para a geração em larga escala de conteúdos para o metaverso.
Ascensão do mercado AIGC: de periferia para o mainstream
Do ponto de vista do avanço tecnológico e da aplicação comercial, há três razões principais pelas quais o AIGC conseguiu atrair tanta atenção de capital em pouco tempo: primeiro, os avanços revolucionários em algoritmos e hardware; segundo, a rápida maturidade de aplicações em diversos setores verticais; e por último, o próprio setor ainda estar em estágio inicial, mesmo com grandes empresas de tecnologia dominando parte do valor, startups ainda têm oportunidades de inovação.
Na prática, o AIGC já demonstra potencial em múltiplas direções. Na geração de texto, a Jasper, com sua funcionalidade de criação de textos por IA, ajuda usuários a criar títulos para Instagram, roteiros para TikTok, textos publicitários e emails. Até o momento, a Jasper conta com mais de 70 mil clientes, incluindo gigantes como Airbnb e IBM, e sua receita em 2022 atingiu US$40 milhões.
Na geração de imagens, avanços com modelos de difusão marcaram uma ruptura. O lançamento do Stable Diffusion impulsionou uma fase de explosão na pintura por IA. Plataformas de mídia começaram a usar AI para criar imagens em escala, reduzindo custos e evitando riscos de direitos autorais. A OpenAI firmou parceria profunda com a maior biblioteca de imagens com direitos autorais do mundo, Shutterstock, e as imagens geradas pelo DALL-E tornaram-se uma nova opção para aplicações comerciais.
Vídeo, áudio e código também mostram amplo potencial de aplicação. O modelo Phenaki do Google consegue gerar vídeos longos a partir de textos em apenas dois minutos; avatares virtuais combinados com AIGC geram vozes e podem atuar em narrativas automáticas; o GitHub Copilot já é uma ferramenta de assistência na codificação para desenvolvedores. A maturidade dessas aplicações indica que o AIGC está evoluindo de uma ferramenta periférica para uma ferramenta de produtividade mainstream.
Base tecnológica do AIGC: Processamento de Linguagem Natural e algoritmos de geração
Para entender como funciona o AIGC, é preciso aprofundar-se em suas duas principais tecnologias de suporte: Processamento de Linguagem Natural (PLN) e algoritmos de geração.
Evolução do Processamento de Linguagem Natural
O PLN é a base para a interação entre humanos e computadores por meio de linguagem natural. Essa tecnologia combina linguística, ciência da computação e matemática, permitindo que computadores compreendam, extraiam informações, traduzam automaticamente e processem conteúdo em linguagem natural. Desde seu desenvolvimento, as tarefas centrais do PLN se dividem em duas áreas:
Compreensão de Linguagem Natural (NLU): visa capacitar os computadores a entenderem a linguagem de forma semelhante aos humanos. Diferente de computadores que só processavam dados estruturados, a NLU permite que eles reconheçam e extraiam intenções implícitas na linguagem, alcançando uma compreensão real do conteúdo. Contudo, devido à diversidade, ambiguidade e dependência de contexto da linguagem natural, o desempenho ainda fica aquém do humano.
Geração de Linguagem Natural (NLG): transforma dados em formatos não linguísticos em linguagem compreensível por humanos. Após três fases de evolução — de simples concatenação de dados a modelos baseados em templates e, finalmente, NLG avançada —, essa tecnologia já consegue entender intenções, considerar contexto e apresentar resultados de forma fluida e natural.
O avanço central do PLN veio com o modelo Transformer, desenvolvido pelo Google em 2017. Essa arquitetura usa mecanismos de atenção que atribuem diferentes pesos às partes do dado de entrada, permitindo que o processamento seja feito de forma paralela, ao contrário das redes neurais recorrentes (RNN). Essa maturidade tecnológica impulsionou o desenvolvimento de grandes modelos pré-treinados como BERT e GPT, que fundamentam o AIGC.
Duas principais vertentes dos algoritmos de geração
No campo dos algoritmos de geração, os dois principais métodos atuais são as Redes Adversariais Generativas (GANs) e os Modelos de Difusão.
GANs, propostos por Ian J. Goodfellow em 2014, consistem em duas redes — geradora e discriminadora — que competem entre si. A geradora tenta criar dados falsos para enganar a discriminadora, enquanto esta tenta distinguir o real do falso. Com o tempo, as duas redes evoluem até atingir um equilíbrio, onde a discriminadora não consegue mais distinguir os dados gerados. Essa técnica é amplamente usada em publicidade, jogos e entretenimento, para criar personagens fictícios, simular mudanças faciais e transformar estilos visuais.
Porém, as GANs enfrentam problemas de instabilidade no treinamento e modo de colapso, onde o gerador produz apenas um tipo de saída, sem aprender novas variações.
Os Modelos de Difusão oferecem uma lógica de geração mais próxima do raciocínio humano e têm sido o principal motor do rápido avanço do AIGC. Eles funcionam adicionando ruído gaussiano aos dados de treinamento e aprendendo a reverter esse processo para gerar novos dados. Após o treinamento, podem gerar conteúdo a partir de ruído aleatório, removendo o ruído de forma aprendida.
Por exemplo, no DALL-E, o usuário fornece uma descrição textual, que é codificada por um encoder (como o CLIP da OpenAI) para um espaço de representação; essa representação é mapeada por um modelo “prior” para um embedding de imagem; por fim, um encoder de imagem gera uma visualização que completa a criação da imagem. Esse processo é semelhante à imaginação humana — primeiro uma ideia básica, depois detalhes e camadas semânticas.
Comparado às GANs, o modelo de difusão oferece vantagens como maior qualidade de imagem, treinamento sem adversários, maior eficiência e melhor escalabilidade, tornando-se a principal tecnologia de próxima geração para geração de imagens.
Caminho de comercialização do AIGC: de assistente a criador
Na prática, o AIGC já demonstra modelos de negócio claros em geração de texto, imagem, áudio, jogos e código. Em tarefas repetitivas e que não exijam precisão extrema, sua aplicação está madura e explorando ativamente formas de monetização, geralmente por assinatura SaaS.
Modelo SaaS para criação de textos
A Jasper é um exemplo clássico na geração de textos. Essa plataforma, fundada há menos de dois anos, permite que indivíduos e equipes criem conteúdo comercial usando IA. Os usuários descrevem o objetivo do artigo, e o sistema busca dados e gera o conteúdo automaticamente. Por exemplo, ao solicitar “escrever um artigo sobre AIGC, incluindo definição, história, aplicações, situação atual e tendências futuras”, a Jasper produz uma peça coerente, bem estruturada e com exemplos em poucos segundos. A plataforma oferece centenas de templates, que podem ser utilizados de forma flexível.
No aspecto financeiro, a Jasper arrecadou US$125 milhões em uma rodada recente, atingindo uma avaliação de US$1,5 bilhão. Sua base de clientes ultrapassa 70 mil, incluindo empresas como Airbnb e IBM. A receita de 2022 foi de US$40 milhões, com previsão de atingir US$90 milhões no ano.
Aplicações em geração de imagens em escala
A MidJourney simplificou sua interface, permitindo que usuários sem experiência criem obras de arte a partir de descrições textuais. O sistema interpreta semanticamente o texto, traduz para linguagem computacional e gera obras inéditas usando seu próprio banco de dados. Essas criações, por serem feitas por IA, têm direitos autorais de IA, e são amplamente usadas em mídia, redes sociais, reduzindo custos e evitando disputas de direitos. Alguns criadores de bancos de dados já usam AIGC para criar materiais e monetizar suas redes sociais.
Vídeo, áudio e outros setores verticais
O modelo Phenaki do Google demonstra potencial na geração de vídeos longos a partir de textos em poucos minutos, com lógica coerente. Combinado com avatares virtuais, a voz e as expressões geradas por AIGC parecem mais naturais e realistas, aumentando a eficiência e diversidade em relação a avatares tradicionais.
No áudio, o AIGC já é comum em aplicações diárias. Navegadores podem trocar vozes por nomes de celebridades, e usuários do Amapa podem criar pacotes de voz personalizados. No campo de avatares virtuais, o AIGC não só gera vozes, mas também cria conteúdos, permitindo que os avatares expressem ideias de forma semelhante a humanos.
Na criação de jogos, o AIGC pode ajudar na construção de cenários, roteiros e NPCs, acelerando o desenvolvimento. Jogadores também podem criar personagens virtuais para atividades internas. O GitHub Copilot fornece sugestões de código, treinado com bilhões de linhas de código aberto.
Estrutura de investimento no AIGC: software, hardware e ecossistema de dados
Do ponto de vista de investimento, o sucesso do setor de AIGC depende de três camadas: software (algoritmos e modelos), hardware (poder de processamento) e ecossistema de dados (conjuntos de dados de treinamento).
Acúmulo tecnológico na camada de software
Na camada de software, destacam-se as tecnologias de PLN e os modelos de geração. Empresas como Google, Microsoft, iFlytek, TrusT e outras têm vantagem tecnológica em PLN. Quanto aos algoritmos e conjuntos de dados, Nvidia, Meta, Baidu, BlueFocus, Visual China e Kunlun W&W lideram, acumulando grandes volumes de dados de treinamento e otimizando algoritmos, formando uma barreira tecnológica.
Hardware e poder de processamento
O poder de processamento é fundamental na era do AIGC. O Stable Diffusion, por exemplo, roda com uma infraestrutura de 4000 GPUs Nvidia A100, com custos operacionais superiores a US$50 milhões. Isso mostra que grandes investimentos em hardware são essenciais. Participam dessa camada empresas como Lanke Technology, ZTE, EasyMile, Tanfeng Communications, Baoxin Software, Zhongji Xuchuang. Com as restrições às exportações de chips de alta ponta da Nvidia, chips domésticos de processamento terão oportunidades de crescimento.
Qualidade dos conjuntos de dados
O modelo CLIP da OpenAI foi treinado com 400 milhões de pares de imagens e textos de alta qualidade, demonstrando o impacto de dados de alta qualidade na performance do modelo. Reproduzir esse sucesso é difícil: equipes estrangeiras usaram cerca de 2 bilhões de pares para chegar perto do desempenho do CLIP. Isso evidencia que a obtenção, limpeza e anotação de dados de alta qualidade são custos elevados, e a qualidade, conformidade e diversidade desses dados determinam a qualidade do conteúdo gerado pelo AIGC.
Desafios técnicos e direções de avanço do AIGC
Apesar do crescimento comercial, o AIGC ainda enfrenta limitações técnicas. Os conteúdos gerados muitas vezes não atendem aos altos padrões de detalhes exigidos por aplicações comerciais.
Raízes do problema de precisão
Na geração de imagens, o AIGC funciona bem com imagens de estilo anime ou abstratas, mas apresenta falhas em detalhes específicos. Por exemplo, ao gerar uma “mulher com gato de pelúcia”, o sistema às vezes produz uma “mulher com rosto de gato”, indicando problemas na compreensão semântica e na relação espacial e de quantidade.
Desafios de linguagem e localização
O desenvolvimento de encoders de texto ainda é desigual. O modelo CLIP, treinado com 400 milhões de pares de imagens e textos em inglês, é de código aberto, mas seu conjunto de dados é fechado. Isso dificulta a obtenção de bilhões de pares de alta qualidade em outros idiomas, forçando aplicações não-anglófonas a depender de traduções, que envolvem compreensão semântica, cultura e nuances linguísticas, dificultando traduções precisas e aumentando o desafio técnico.
Impacto de diferenças nos algoritmos e conjuntos de dados
Plataformas diferentes usam algoritmos e conjuntos de dados distintos, levando a variações significativas na qualidade do resultado para a mesma entrada. A qualidade, conformidade e estilo dos dados influenciam diretamente o resultado final.
Três pilares do futuro do AIGC: grandes modelos, big data e grande poder de processamento
Para o futuro, o desenvolvimento do AIGC deve focar em três áreas principais: modelos pré-treinados em larga escala, acumulação massiva de dados e investimentos em hardware de alta performance. Esses elementos são essenciais para que o AIGC evolua de um “assistente” para um “criador independente”.
Yann LeCun resumiu as três fases do desenvolvimento do AIGC: primeiro, “fase assistente”, onde o AIGC ajuda na criação; segundo, “fase de colaboração”, com avatares virtuais coabitando com humanos; e terceiro, “fase de originalidade”, com AIGC criando de forma autônoma. Nos próximos dez anos, espera-se que o AIGC gere conteúdo original a uma fração do custo, com velocidade de produção de dezenas a centenas de vezes maior, revolucionando completamente os atuais modelos de produção de conteúdo.
Para alcançar essa visão, o desenvolvimento de aplicações verticais especializadas será prioridade. Modelos grandes generalistas serão complementados por aplicações específicas, com treinamentos mais precisos, custos menores e resultados superiores. Além disso, antes de estabelecer um quadro regulatório para propriedade intelectual e ética na criação por IA, a obtenção de conjuntos de dados de alta qualidade e conformidade será uma estratégia fundamental.
Roteiro claro de oportunidades de investimento
De uma perspectiva macro, conceitos como blockchain, metaverso e Web3 delineiam cenários de aplicação da economia digital. Avatares virtuais, NFTs e outros temas recentes de interesse de capital são exemplos específicos. O AIGC, como força motriz na evolução da economia digital de Web2 para Web3, impacta disruptivamente aplicações existentes como vídeos curtos e jogos, e sob a visão de uma construção colaborativa aberta do Web3, o conteúdo UGC e AIGC terá maior atratividade, impulsionando uma onda de criação secundária e imaginação aberta.
No âmbito de investimentos, há oportunidades em três dimensões do setor de AIGC:
Inovação de software: empresas de PLN, aplicações verticais de AIGC, empresas de treinamento de grandes modelos
Hardware: com restrições às exportações de chips Nvidia, chips domésticos de processamento e fornecedores de clusters de GPU terão oportunidades de crescimento
Ecossistema de dados: provedores de coleta, limpeza e anotação de conjuntos de dados de alta qualidade serão recursos escassos
Atualmente, o AIGC é uma das áreas mais quentes para startups no Vale do Silício, com crescente interesse de mercados primários e grandes empresas de internet no Brasil. Isso marca a entrada do AIGC na era de aplicação em larga escala, além da pesquisa tecnológica.
Avisos de risco e pontos-chave de observação
Risco técnico: o desenvolvimento do AIGC pode não atingir as expectativas, e a inovação em hardware (supercomputadores, chips de processamento) pode desacelerar.
Risco regulatório: o setor ainda está em estágio inicial, e futuras regulamentações sobre propriedade intelectual, direitos autorais ou outras leis relacionadas à geração de conteúdo por IA podem impactar diretamente o desenvolvimento da indústria.
Risco de competição: a entrada de grandes empresas de tecnologia pode acelerar a consolidação do setor, pressionando startups.
De modo geral, o valor do AIGC reside na sua transformação fundamental na produção de conteúdo. Do lado da demanda, a era Web3 impulsiona a quantidade e diversidade de conteúdo; do lado da oferta, o AIGC oferece uma eficiência sem precedentes. Essa sincronia de oferta e demanda representa a janela de ouro para o rápido crescimento do AIGC e sua capacidade de transformar diversos setores.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Inovação AIGC na produção de conteúdo: Como as ferramentas de produtividade na era Web3 estão a mudar o panorama industrial
A partir do final de 2022, as principais instituições de capital de risco do Vale do Silício voltaram-se para startups de inteligência artificial, sendo especialmente popular o campo da arte gerada por IA de forma generativa. A Stability AI e a Jasper concluíram sucessivos financiamentos superiores a centenas de milhões de dólares, atingindo avaliações que ultrapassaram a marca de um bilhão de dólares, consolidando-se como unicórnios. Por trás desta onda de financiamento está a lógica profunda do AIGC (Conteúdo Gerado por IA - Artificial Intelligence-Generated Content) como uma nova mudança de paradigma.
O AIGC não é apenas um produto do avanço tecnológico, mas uma revolução na forma de produção de conteúdo. Com a chegada da era Web3, a combinação de inteligência artificial, dados relacionados e redes semânticas criou uma conexão totalmente nova entre pessoas e redes, levando a uma explosão na demanda por consumo de conteúdo. Os modelos tradicionais de PGC (Conteúdo Profissionalmente Gerado) e UGC (Conteúdo Gerado pelo Usuário) já não conseguem atender a essa expansão, tornando o AIGC uma nova ferramenta de produtividade na era Web3, oferecendo soluções para a geração em larga escala de conteúdos para o metaverso.
Ascensão do mercado AIGC: de periferia para o mainstream
Do ponto de vista do avanço tecnológico e da aplicação comercial, há três razões principais pelas quais o AIGC conseguiu atrair tanta atenção de capital em pouco tempo: primeiro, os avanços revolucionários em algoritmos e hardware; segundo, a rápida maturidade de aplicações em diversos setores verticais; e por último, o próprio setor ainda estar em estágio inicial, mesmo com grandes empresas de tecnologia dominando parte do valor, startups ainda têm oportunidades de inovação.
Na prática, o AIGC já demonstra potencial em múltiplas direções. Na geração de texto, a Jasper, com sua funcionalidade de criação de textos por IA, ajuda usuários a criar títulos para Instagram, roteiros para TikTok, textos publicitários e emails. Até o momento, a Jasper conta com mais de 70 mil clientes, incluindo gigantes como Airbnb e IBM, e sua receita em 2022 atingiu US$40 milhões.
Na geração de imagens, avanços com modelos de difusão marcaram uma ruptura. O lançamento do Stable Diffusion impulsionou uma fase de explosão na pintura por IA. Plataformas de mídia começaram a usar AI para criar imagens em escala, reduzindo custos e evitando riscos de direitos autorais. A OpenAI firmou parceria profunda com a maior biblioteca de imagens com direitos autorais do mundo, Shutterstock, e as imagens geradas pelo DALL-E tornaram-se uma nova opção para aplicações comerciais.
Vídeo, áudio e código também mostram amplo potencial de aplicação. O modelo Phenaki do Google consegue gerar vídeos longos a partir de textos em apenas dois minutos; avatares virtuais combinados com AIGC geram vozes e podem atuar em narrativas automáticas; o GitHub Copilot já é uma ferramenta de assistência na codificação para desenvolvedores. A maturidade dessas aplicações indica que o AIGC está evoluindo de uma ferramenta periférica para uma ferramenta de produtividade mainstream.
Base tecnológica do AIGC: Processamento de Linguagem Natural e algoritmos de geração
Para entender como funciona o AIGC, é preciso aprofundar-se em suas duas principais tecnologias de suporte: Processamento de Linguagem Natural (PLN) e algoritmos de geração.
Evolução do Processamento de Linguagem Natural
O PLN é a base para a interação entre humanos e computadores por meio de linguagem natural. Essa tecnologia combina linguística, ciência da computação e matemática, permitindo que computadores compreendam, extraiam informações, traduzam automaticamente e processem conteúdo em linguagem natural. Desde seu desenvolvimento, as tarefas centrais do PLN se dividem em duas áreas:
Compreensão de Linguagem Natural (NLU): visa capacitar os computadores a entenderem a linguagem de forma semelhante aos humanos. Diferente de computadores que só processavam dados estruturados, a NLU permite que eles reconheçam e extraiam intenções implícitas na linguagem, alcançando uma compreensão real do conteúdo. Contudo, devido à diversidade, ambiguidade e dependência de contexto da linguagem natural, o desempenho ainda fica aquém do humano.
Geração de Linguagem Natural (NLG): transforma dados em formatos não linguísticos em linguagem compreensível por humanos. Após três fases de evolução — de simples concatenação de dados a modelos baseados em templates e, finalmente, NLG avançada —, essa tecnologia já consegue entender intenções, considerar contexto e apresentar resultados de forma fluida e natural.
O avanço central do PLN veio com o modelo Transformer, desenvolvido pelo Google em 2017. Essa arquitetura usa mecanismos de atenção que atribuem diferentes pesos às partes do dado de entrada, permitindo que o processamento seja feito de forma paralela, ao contrário das redes neurais recorrentes (RNN). Essa maturidade tecnológica impulsionou o desenvolvimento de grandes modelos pré-treinados como BERT e GPT, que fundamentam o AIGC.
Duas principais vertentes dos algoritmos de geração
No campo dos algoritmos de geração, os dois principais métodos atuais são as Redes Adversariais Generativas (GANs) e os Modelos de Difusão.
Porém, as GANs enfrentam problemas de instabilidade no treinamento e modo de colapso, onde o gerador produz apenas um tipo de saída, sem aprender novas variações.
Por exemplo, no DALL-E, o usuário fornece uma descrição textual, que é codificada por um encoder (como o CLIP da OpenAI) para um espaço de representação; essa representação é mapeada por um modelo “prior” para um embedding de imagem; por fim, um encoder de imagem gera uma visualização que completa a criação da imagem. Esse processo é semelhante à imaginação humana — primeiro uma ideia básica, depois detalhes e camadas semânticas.
Comparado às GANs, o modelo de difusão oferece vantagens como maior qualidade de imagem, treinamento sem adversários, maior eficiência e melhor escalabilidade, tornando-se a principal tecnologia de próxima geração para geração de imagens.
Caminho de comercialização do AIGC: de assistente a criador
Na prática, o AIGC já demonstra modelos de negócio claros em geração de texto, imagem, áudio, jogos e código. Em tarefas repetitivas e que não exijam precisão extrema, sua aplicação está madura e explorando ativamente formas de monetização, geralmente por assinatura SaaS.
Modelo SaaS para criação de textos
A Jasper é um exemplo clássico na geração de textos. Essa plataforma, fundada há menos de dois anos, permite que indivíduos e equipes criem conteúdo comercial usando IA. Os usuários descrevem o objetivo do artigo, e o sistema busca dados e gera o conteúdo automaticamente. Por exemplo, ao solicitar “escrever um artigo sobre AIGC, incluindo definição, história, aplicações, situação atual e tendências futuras”, a Jasper produz uma peça coerente, bem estruturada e com exemplos em poucos segundos. A plataforma oferece centenas de templates, que podem ser utilizados de forma flexível.
No aspecto financeiro, a Jasper arrecadou US$125 milhões em uma rodada recente, atingindo uma avaliação de US$1,5 bilhão. Sua base de clientes ultrapassa 70 mil, incluindo empresas como Airbnb e IBM. A receita de 2022 foi de US$40 milhões, com previsão de atingir US$90 milhões no ano.
Aplicações em geração de imagens em escala
A MidJourney simplificou sua interface, permitindo que usuários sem experiência criem obras de arte a partir de descrições textuais. O sistema interpreta semanticamente o texto, traduz para linguagem computacional e gera obras inéditas usando seu próprio banco de dados. Essas criações, por serem feitas por IA, têm direitos autorais de IA, e são amplamente usadas em mídia, redes sociais, reduzindo custos e evitando disputas de direitos. Alguns criadores de bancos de dados já usam AIGC para criar materiais e monetizar suas redes sociais.
Vídeo, áudio e outros setores verticais
O modelo Phenaki do Google demonstra potencial na geração de vídeos longos a partir de textos em poucos minutos, com lógica coerente. Combinado com avatares virtuais, a voz e as expressões geradas por AIGC parecem mais naturais e realistas, aumentando a eficiência e diversidade em relação a avatares tradicionais.
No áudio, o AIGC já é comum em aplicações diárias. Navegadores podem trocar vozes por nomes de celebridades, e usuários do Amapa podem criar pacotes de voz personalizados. No campo de avatares virtuais, o AIGC não só gera vozes, mas também cria conteúdos, permitindo que os avatares expressem ideias de forma semelhante a humanos.
Na criação de jogos, o AIGC pode ajudar na construção de cenários, roteiros e NPCs, acelerando o desenvolvimento. Jogadores também podem criar personagens virtuais para atividades internas. O GitHub Copilot fornece sugestões de código, treinado com bilhões de linhas de código aberto.
Estrutura de investimento no AIGC: software, hardware e ecossistema de dados
Do ponto de vista de investimento, o sucesso do setor de AIGC depende de três camadas: software (algoritmos e modelos), hardware (poder de processamento) e ecossistema de dados (conjuntos de dados de treinamento).
Acúmulo tecnológico na camada de software
Na camada de software, destacam-se as tecnologias de PLN e os modelos de geração. Empresas como Google, Microsoft, iFlytek, TrusT e outras têm vantagem tecnológica em PLN. Quanto aos algoritmos e conjuntos de dados, Nvidia, Meta, Baidu, BlueFocus, Visual China e Kunlun W&W lideram, acumulando grandes volumes de dados de treinamento e otimizando algoritmos, formando uma barreira tecnológica.
Hardware e poder de processamento
O poder de processamento é fundamental na era do AIGC. O Stable Diffusion, por exemplo, roda com uma infraestrutura de 4000 GPUs Nvidia A100, com custos operacionais superiores a US$50 milhões. Isso mostra que grandes investimentos em hardware são essenciais. Participam dessa camada empresas como Lanke Technology, ZTE, EasyMile, Tanfeng Communications, Baoxin Software, Zhongji Xuchuang. Com as restrições às exportações de chips de alta ponta da Nvidia, chips domésticos de processamento terão oportunidades de crescimento.
Qualidade dos conjuntos de dados
O modelo CLIP da OpenAI foi treinado com 400 milhões de pares de imagens e textos de alta qualidade, demonstrando o impacto de dados de alta qualidade na performance do modelo. Reproduzir esse sucesso é difícil: equipes estrangeiras usaram cerca de 2 bilhões de pares para chegar perto do desempenho do CLIP. Isso evidencia que a obtenção, limpeza e anotação de dados de alta qualidade são custos elevados, e a qualidade, conformidade e diversidade desses dados determinam a qualidade do conteúdo gerado pelo AIGC.
Desafios técnicos e direções de avanço do AIGC
Apesar do crescimento comercial, o AIGC ainda enfrenta limitações técnicas. Os conteúdos gerados muitas vezes não atendem aos altos padrões de detalhes exigidos por aplicações comerciais.
Raízes do problema de precisão
Na geração de imagens, o AIGC funciona bem com imagens de estilo anime ou abstratas, mas apresenta falhas em detalhes específicos. Por exemplo, ao gerar uma “mulher com gato de pelúcia”, o sistema às vezes produz uma “mulher com rosto de gato”, indicando problemas na compreensão semântica e na relação espacial e de quantidade.
Desafios de linguagem e localização
O desenvolvimento de encoders de texto ainda é desigual. O modelo CLIP, treinado com 400 milhões de pares de imagens e textos em inglês, é de código aberto, mas seu conjunto de dados é fechado. Isso dificulta a obtenção de bilhões de pares de alta qualidade em outros idiomas, forçando aplicações não-anglófonas a depender de traduções, que envolvem compreensão semântica, cultura e nuances linguísticas, dificultando traduções precisas e aumentando o desafio técnico.
Impacto de diferenças nos algoritmos e conjuntos de dados
Plataformas diferentes usam algoritmos e conjuntos de dados distintos, levando a variações significativas na qualidade do resultado para a mesma entrada. A qualidade, conformidade e estilo dos dados influenciam diretamente o resultado final.
Três pilares do futuro do AIGC: grandes modelos, big data e grande poder de processamento
Para o futuro, o desenvolvimento do AIGC deve focar em três áreas principais: modelos pré-treinados em larga escala, acumulação massiva de dados e investimentos em hardware de alta performance. Esses elementos são essenciais para que o AIGC evolua de um “assistente” para um “criador independente”.
Yann LeCun resumiu as três fases do desenvolvimento do AIGC: primeiro, “fase assistente”, onde o AIGC ajuda na criação; segundo, “fase de colaboração”, com avatares virtuais coabitando com humanos; e terceiro, “fase de originalidade”, com AIGC criando de forma autônoma. Nos próximos dez anos, espera-se que o AIGC gere conteúdo original a uma fração do custo, com velocidade de produção de dezenas a centenas de vezes maior, revolucionando completamente os atuais modelos de produção de conteúdo.
Para alcançar essa visão, o desenvolvimento de aplicações verticais especializadas será prioridade. Modelos grandes generalistas serão complementados por aplicações específicas, com treinamentos mais precisos, custos menores e resultados superiores. Além disso, antes de estabelecer um quadro regulatório para propriedade intelectual e ética na criação por IA, a obtenção de conjuntos de dados de alta qualidade e conformidade será uma estratégia fundamental.
Roteiro claro de oportunidades de investimento
De uma perspectiva macro, conceitos como blockchain, metaverso e Web3 delineiam cenários de aplicação da economia digital. Avatares virtuais, NFTs e outros temas recentes de interesse de capital são exemplos específicos. O AIGC, como força motriz na evolução da economia digital de Web2 para Web3, impacta disruptivamente aplicações existentes como vídeos curtos e jogos, e sob a visão de uma construção colaborativa aberta do Web3, o conteúdo UGC e AIGC terá maior atratividade, impulsionando uma onda de criação secundária e imaginação aberta.
No âmbito de investimentos, há oportunidades em três dimensões do setor de AIGC:
Atualmente, o AIGC é uma das áreas mais quentes para startups no Vale do Silício, com crescente interesse de mercados primários e grandes empresas de internet no Brasil. Isso marca a entrada do AIGC na era de aplicação em larga escala, além da pesquisa tecnológica.
Avisos de risco e pontos-chave de observação
Risco técnico: o desenvolvimento do AIGC pode não atingir as expectativas, e a inovação em hardware (supercomputadores, chips de processamento) pode desacelerar.
Risco regulatório: o setor ainda está em estágio inicial, e futuras regulamentações sobre propriedade intelectual, direitos autorais ou outras leis relacionadas à geração de conteúdo por IA podem impactar diretamente o desenvolvimento da indústria.
Risco de competição: a entrada de grandes empresas de tecnologia pode acelerar a consolidação do setor, pressionando startups.
De modo geral, o valor do AIGC reside na sua transformação fundamental na produção de conteúdo. Do lado da demanda, a era Web3 impulsiona a quantidade e diversidade de conteúdo; do lado da oferta, o AIGC oferece uma eficiência sem precedentes. Essa sincronia de oferta e demanda representa a janela de ouro para o rápido crescimento do AIGC e sua capacidade de transformar diversos setores.