Desde finales de 2022, las principales instituciones de capital riesgo en Silicon Valley han dirigido su atención a las startups de inteligencia artificial, siendo especialmente popular el campo del arte generado por IA. Stability AI y Jasper han completado rondas de financiación que superan los mil millones de dólares, alcanzando valoraciones que superan los mil millones de dólares y entrando en la categoría de unicornios. Detrás de esta ola de financiación se encuentra la lógica profunda de AIGC (Contenido Generado por IA, por sus siglas en inglés) como una nueva transferencia de paradigma.
AIGC no solo es un producto del avance tecnológico, sino también una revolución en la forma de producir contenido. Con la llegada de la era Web3, la combinación de inteligencia artificial, datos relacionados y redes semánticas ha creado una conexión completamente nueva entre las personas y la red, provocando un crecimiento explosivo en la demanda de consumo de contenido. Los modelos tradicionales de PGC (contenido generado profesionalmente) y UGC (contenido generado por usuarios) ya no pueden satisfacer esta expansión, por lo que AIGC se ha convertido en una nueva herramienta de productividad en la era Web3, ofreciendo soluciones para la generación masiva de contenido en el metaverso.
El auge del mercado de AIGC: de la periferia a la corriente principal
Desde la perspectiva del avance tecnológico y la aplicación comercial, las razones por las que AIGC ha logrado captar tanta atención en poco tiempo son tres: primero, los avances revolucionarios en algoritmos y hardware; segundo, la rápida maduración de aplicaciones en múltiples sectores verticales; y tercero, que el sector aún se encuentra en una etapa temprana, por lo que, aunque las grandes tecnológicas dominan parte del valor, las startups aún tienen oportunidades de innovación.
En cuanto a las aplicaciones, AIGC ya ha mostrado potencial en múltiples direcciones. En generación de texto, Jasper ayuda a los usuarios a crear títulos para Instagram, guiones para TikTok, textos publicitarios y correos electrónicos mediante funciones de escritura por IA. Hasta la publicación del informe, Jasper cuenta con más de 70,000 clientes, incluyendo gigantes como Airbnb e IBM, y solo en 2022 sus ingresos alcanzaron los 40 millones de dólares.
En generación de imágenes, se han logrado avances revolucionarios con modelos de difusión. La publicación de Stable Diffusion ha impulsado una explosión en el campo de la pintura por IA. Plataformas mediáticas han comenzado a adoptar AI para ilustrar contenidos a gran escala, reduciendo costos y evitando riesgos de derechos de autor. OpenAI ha establecido una colaboración profunda con Shutterstock, la mayor biblioteca de derechos de autor del mundo, y las imágenes generadas por DALL-E se han convertido en una opción para aplicaciones comerciales.
La generación de video, audio y código también muestra un amplio potencial. El modelo Phenaki de Google puede generar videos largos en solo dos minutos a partir de texto; los personajes virtuales combinados con AIGC y generación de voz permiten automatizar anuncios y actuaciones; GitHub Copilot ya es un asistente de codificación para desarrolladores. La madurez de estas aplicaciones indica que AIGC está evolucionando de herramientas periféricas a herramientas principales de productividad.
La base tecnológica de AIGC: procesamiento de lenguaje natural y algoritmos generativos
Para entender cómo funciona AIGC, es necesario profundizar en sus dos pilares tecnológicos principales: procesamiento de lenguaje natural (PLN) y algoritmos generativos.
Evolución del procesamiento de lenguaje natural
El PLN es la base para que humanos y computadoras interactúen mediante lenguaje natural. Esta tecnología combina lingüística, ciencias de la computación y matemáticas, permitiendo que las computadoras entiendan, extraigan información, traduzcan y procesen contenido en lenguaje natural. Desde su desarrollo, las tareas principales del PLN se dividen en dos:
Comprensión del lenguaje natural (NLU): busca dotar a las computadoras de capacidades similares a las humanas para entender el lenguaje. A diferencia de las computadoras que solo procesaban datos estructurados, NLU permite reconocer y extraer intenciones implícitas en el lenguaje, logrando una verdadera comprensión. Sin embargo, debido a la diversidad, ambigüedad y dependencia del contexto del lenguaje natural, las computadoras aún están lejos de igualar a los humanos en comprensión.
Generación de lenguaje natural (NLG): consiste en convertir datos en formatos no lingüísticos en lenguaje comprensible para humanos. Tras etapas de desarrollo que van desde la simple concatenación de datos, pasando por plantillas, hasta modelos avanzados, NLG ahora puede entender intenciones, considerar contexto y presentar resultados en un lenguaje natural y fluido.
El avance clave en PLN llegó en 2017 con el modelo Transformer de Google, que utiliza mecanismos de atención para asignar diferentes pesos a las partes importantes de la entrada. En comparación con las redes neuronales recurrentes (RNN), los Transformers pueden procesar toda la entrada simultáneamente, mejorando significativamente la eficiencia del cálculo paralelo. Gracias a esta tecnología, se han desarrollado modelos preentrenados como BERT y GPT, que proporcionan una base sólida para AIGC.
Las dos principales corrientes en algoritmos generativos
En el campo de los algoritmos generativos, las dos principales corrientes son las redes generativas adversariales (GAN) y los modelos de difusión.
GAN: propuesto por Ian J. Goodfellow en 2014, consiste en un juego de competencia entre una red generadora y una red discriminadora. La generadora intenta crear datos falsos para engañar a la discriminadora, que a su vez intenta distinguir entre datos reales y falsos. Este proceso de entrenamiento adversarial lleva a ambos modelos a mejorar continuamente hasta que la discriminadora no pueda distinguir los datos falsos. Los GAN se usan ampliamente en publicidad, juegos y entretenimiento para crear personajes ficticios, modificar rostros y transformar estilos.
Limitaciones de los GAN: presentan problemas de inestabilidad en el entrenamiento y modo colapsado. La sincronización entre generador y discriminador requiere cuidado, y en la práctica, puede ocurrir que la discriminadora converja rápidamente y el generador diverja. Además, el generador puede quedar atrapado en un modo donde solo produce muestras similares, sin aprender nuevas variaciones.
Modelos de difusión: ofrecen una lógica de generación más cercana al pensamiento humano y son un motor clave en el rápido desarrollo de AIGC. Estos modelos añaden ruido gaussiano de forma continua a los datos, y luego aprenden a revertir este proceso para recuperar la información original. Tras el entrenamiento, generan nuevos datos añadiendo ruido y eliminándolo mediante el proceso aprendido.
Por ejemplo, en DALL-E, el proceso comienza con un texto que se codifica (por ejemplo, con CLIP de OpenAI) en un espacio de representación; luego, un modelo “prior” mapea esa representación a una codificación de imagen que captura el significado; finalmente, un codificador de imagen genera una visualización basada en esa codificación. Es similar a la imaginación humana: primero una idea básica, luego detalles y niveles semánticos.
Los modelos de difusión tienen ventajas sobre los GAN: producen imágenes de mayor calidad, no requieren entrenamiento adversarial, lo que aumenta la eficiencia, y ofrecen mejor escalabilidad y paralelización. Estas características los convierten en la próxima generación de modelos de generación de imágenes.
La ruta de comercialización de AIGC: de asistente a creador
Desde la madurez de las aplicaciones, AIGC ha mostrado modelos comerciales claros en generación de texto, imagen, audio, juegos y código. En tareas repetitivas o que no exigen una precisión extrema, su uso ya está bastante consolidado y en expansión, generalmente mediante modelos SaaS de suscripción.
Modelos SaaS para creación de texto
Jasper es un ejemplo destacado en generación de texto. Esta plataforma, fundada hace menos de dos años, permite a individuos y equipos crear contenido comercial con IA. Los usuarios ingresan descripciones y requisitos, y el sistema genera automáticamente textos, recopilando datos y siguiendo instrucciones. Por ejemplo, si un autor pide “escribir un artículo sobre AIGC, incluyendo definición, historia, aplicaciones, situación actual y tendencias futuras”, Jasper produce en segundos un artículo coherente, bien estructurado y con ejemplos. Ofrece cientos de plantillas para diferentes necesidades.
En cuanto a resultados comerciales, Jasper ha recaudado 125 millones de dólares en su última ronda, valorándose en 1,5 mil millones de dólares. Tiene más de 70,000 clientes, incluyendo empresas como Airbnb e IBM. Sus ingresos en 2022 alcanzaron los 40 millones de dólares, con una proyección de 90 millones para ese año.
Aplicaciones a escala en generación de imágenes
MidJourney simplifica la interfaz para que usuarios sin experiencia puedan crear obras artísticas a partir de descripciones textuales. El sistema interpreta semánticamente, traduce a lenguaje computacional y genera nuevas obras usando su propio conjunto de datos. Estas creaciones, en muchos casos, son consideradas obras de autoría de IA, y se usan ampliamente en medios, redes sociales y marketing, reduciendo costos y evitando problemas de derechos. Algunos creadores ya producen material con AIGC y monetizan en sus propias redes sociales.
Video, audio y otros sectores verticales
El modelo Phenaki de Google muestra potencial en generación de videos largos a partir de texto en muy poco tiempo, con coherencia lógica. La integración con personajes virtuales y generación de voz hace que las expresiones sean más naturales y realistas, superando a los personajes virtuales tradicionales en eficiencia y variedad.
En audio, AIGC ya se usa en aplicaciones cotidianas: navegación por teléfono con voces de celebridades, grabaciones personalizadas, etc. En el ámbito de personajes virtuales, puede generar voces y contenidos, permitiendo que los personajes expresen ideas como humanos.
En desarrollo de juegos, AIGC puede crear escenarios, historias y NPCs, acelerando el proceso. Los jugadores también pueden crear personajes virtuales para actividades en el juego. GitHub Copilot ofrece sugerencias de código, entrenado con miles de millones de líneas de código abierto.
Marco de inversión en AIGC: software, hardware y ecosistema de datos
Desde la perspectiva de inversión, el éxito de la industria AIGC depende de tres niveles: software (algoritmos y modelos), hardware (capacidad de cálculo) y datos (conjuntos de entrenamiento).
Capacidades en software
Incluyen tecnologías de PLN y modelos generativos. Empresas como Google, Microsoft, iFlytek, Truesight, Visual China, Kunlun Wanshi tienen ventajas en PLN. En modelos y datasets, Nvidia, Meta, Baidu, BlueFocus, Visual China, Kunlun Wanshi lideran, acumulando grandes volúmenes de datos y optimizando algoritmos, creando barreras tecnológicas.
Hardware y capacidad de cálculo
El poder de cómputo es clave en AIGC. Por ejemplo, Stable Diffusion funciona con un clúster de 4000 GPUs Nvidia A100, con costos operativos superiores a 50 millones de dólares. Esto muestra que grandes inversiones en hardware son fundamentales. Participantes en este nivel incluyen Lanqi Technology, ZTE, EasySun, Tianfutong, Baoxin Software, Zhongji Xuchuang. Con las restricciones en exportaciones de chips Nvidia, los chips nacionales de cálculo ganarán oportunidades de mercado.
Calidad de los datasets
El modelo CLIP de OpenAI, entrenado con 400 millones de pares de imágenes y textos en inglés de alta calidad, demuestra cómo datos de calidad determinan el rendimiento del modelo. Sin embargo, replicar esto es muy difícil: equipos extranjeros usaron 2 mil millones de pares para acercarse a la calidad de CLIP. La adquisición, limpieza y etiquetado de datos son costosos, y la calidad, cumplimiento y diversidad de estilos influyen directamente en la calidad del contenido generado.
Desafíos técnicos y direcciones de avance en AIGC
Aunque AIGC ya tiene aplicaciones comerciales, aún presenta limitaciones técnicas. La precisión en detalles suele no cumplir con estándares comerciales elevados.
Raíces del problema de precisión
En generación de imágenes, AIGC funciona bien en estilos anime o abstractos, pero tiene deficiencias en detalles específicos. Por ejemplo, en la generación de “una mujer con un gato de peluche”, puede que el sistema dibuje una mujer con cara de gato o errores en la relación espacial, como ojos del gato en lugares incorrectos. La raíz está en la comprensión y manejo insuficiente del significado natural, especialmente en relaciones espaciales y cuantitativas.
Desafíos en lenguaje y localización
El desarrollo desigual de codificadores de texto agrava estos problemas. El modelo CLIP de OpenAI, entrenado con 400 millones de pares en inglés, es de código abierto, pero los datos son cerrados. Esto dificulta que otros idiomas obtengan miles de millones de pares de alta calidad, lo que limita las aplicaciones en regiones no anglófonas. La traducción no solo requiere entender el significado, sino también adaptarse a contextos culturales y lingüísticos, lo que representa un gran reto para los modelos de traducción.
Impacto de diferencias en algoritmos y datasets
Las distintas plataformas usan diferentes algoritmos y conjuntos de datos, lo que genera variaciones significativas en la calidad de los resultados. La calidad, cumplimiento y estilo del dataset influyen directamente en la generación.
Tres pilares del futuro: grandes modelos, grandes datos y gran cálculo
De cara al futuro, la evolución de AIGC se centra en tres áreas: modelos preentrenados a gran escala, acumulación masiva de datos y gran inversión en capacidad de cálculo. Esto es esencial para que AIGC pase de ser un “asistente” a un “creador independiente”.
Yanhong Li resumió las tres etapas de desarrollo de AIGC: primero, la etapa de “asistente”, donde ayuda a los humanos; segundo, la etapa de “colaboración”, con IA en forma de personajes virtuales que coexisten con humanos; y tercero, la etapa de “creación original”, donde AIGC crea de forma autónoma. En la próxima década, se espera que AIGC genere contenido original a una décima parte del costo y con una velocidad de producción 100 a 1000 veces mayor, revolucionando los modos actuales de producción de contenido.
Para lograr esto, el desarrollo de aplicaciones especializadas en sectores verticales será clave. En lugar de modelos generales, las aplicaciones verticales pueden entrenarse con mayor precisión para funciones específicas, con menor costo y mejores resultados. Además, antes de que se establezcan marcos regulatorios sobre propiedad intelectual y ética en la creación con IA, la adquisición de datasets de alta calidad y cumplimiento será una estrategia prioritaria.
Ruta clara para oportunidades de inversión
Desde una perspectiva macro, conceptos como blockchain, metaverso y Web3 describen escenarios de gran escala en la economía digital. La atención reciente a personajes virtuales, NFT, etc., son solo ejemplos. AIGC, como motor clave para la transición de Web2 a Web3, impacta tanto en aplicaciones existentes como videos cortos y juegos, como en la creación de contenido en un entorno abierto y colaborativo de Web3, donde UGC y AIGC serán aún más atractivos, impulsando una ola de creación y expansión.
Desde la estrategia de inversión, las oportunidades en AIGC se distribuyen en tres dimensiones: software, hardware y ecosistema de datos:
Innovación en software: empresas de PLN, aplicaciones verticales de AIGC, compañías de entrenamiento de grandes modelos.
Soporte hardware: en un contexto de restricciones a chips Nvidia, los chips nacionales y proveedores de clústeres GPU tendrán oportunidades de crecimiento.
Ecosistema de datos: proveedores de adquisición, limpieza y etiquetado de datasets de alta calidad serán recursos escasos y valiosos.
Actualmente, AIGC es la tendencia más caliente en startups en Silicon Valley, y tanto el mercado primario nacional como las grandes tecnológicas están acelerando su interés en aplicaciones de AIGC. Esto marca la entrada de AIGC en una era de aplicación masiva, dejando atrás solo la investigación técnica.
Advertencias y observaciones clave
Riesgo técnico: el desarrollo de AIGC puede no cumplir las expectativas, y la innovación en hardware (supercomputadoras, chips) podría desacelerarse.
Riesgo regulatorio: al estar en una etapa temprana, futuras regulaciones sobre propiedad intelectual, derechos de autor y otras leyes relacionadas con contenidos generados por IA podrían afectar la industria.
Riesgo competitivo: la entrada de grandes tecnológicas puede acelerar la consolidación del sector, poniendo en dificultad a las startups.
En resumen, el valor de AIGC radica en su transformación fundamental en la producción de contenido. Desde la demanda, la era Web3 impulsa un aumento en la cantidad y diversidad de contenido; desde la oferta, AIGC ofrece una eficiencia sin precedentes. La conjunción de estas fuerzas crea un momento perfecto para que AIGC se desarrolle rápidamente y transforme múltiples industrias.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Innovación en contenido con AIGC: Cómo las herramientas de productividad en la era Web3 están cambiando el panorama industrial
Desde finales de 2022, las principales instituciones de capital riesgo en Silicon Valley han dirigido su atención a las startups de inteligencia artificial, siendo especialmente popular el campo del arte generado por IA. Stability AI y Jasper han completado rondas de financiación que superan los mil millones de dólares, alcanzando valoraciones que superan los mil millones de dólares y entrando en la categoría de unicornios. Detrás de esta ola de financiación se encuentra la lógica profunda de AIGC (Contenido Generado por IA, por sus siglas en inglés) como una nueva transferencia de paradigma.
AIGC no solo es un producto del avance tecnológico, sino también una revolución en la forma de producir contenido. Con la llegada de la era Web3, la combinación de inteligencia artificial, datos relacionados y redes semánticas ha creado una conexión completamente nueva entre las personas y la red, provocando un crecimiento explosivo en la demanda de consumo de contenido. Los modelos tradicionales de PGC (contenido generado profesionalmente) y UGC (contenido generado por usuarios) ya no pueden satisfacer esta expansión, por lo que AIGC se ha convertido en una nueva herramienta de productividad en la era Web3, ofreciendo soluciones para la generación masiva de contenido en el metaverso.
El auge del mercado de AIGC: de la periferia a la corriente principal
Desde la perspectiva del avance tecnológico y la aplicación comercial, las razones por las que AIGC ha logrado captar tanta atención en poco tiempo son tres: primero, los avances revolucionarios en algoritmos y hardware; segundo, la rápida maduración de aplicaciones en múltiples sectores verticales; y tercero, que el sector aún se encuentra en una etapa temprana, por lo que, aunque las grandes tecnológicas dominan parte del valor, las startups aún tienen oportunidades de innovación.
En cuanto a las aplicaciones, AIGC ya ha mostrado potencial en múltiples direcciones. En generación de texto, Jasper ayuda a los usuarios a crear títulos para Instagram, guiones para TikTok, textos publicitarios y correos electrónicos mediante funciones de escritura por IA. Hasta la publicación del informe, Jasper cuenta con más de 70,000 clientes, incluyendo gigantes como Airbnb e IBM, y solo en 2022 sus ingresos alcanzaron los 40 millones de dólares.
En generación de imágenes, se han logrado avances revolucionarios con modelos de difusión. La publicación de Stable Diffusion ha impulsado una explosión en el campo de la pintura por IA. Plataformas mediáticas han comenzado a adoptar AI para ilustrar contenidos a gran escala, reduciendo costos y evitando riesgos de derechos de autor. OpenAI ha establecido una colaboración profunda con Shutterstock, la mayor biblioteca de derechos de autor del mundo, y las imágenes generadas por DALL-E se han convertido en una opción para aplicaciones comerciales.
La generación de video, audio y código también muestra un amplio potencial. El modelo Phenaki de Google puede generar videos largos en solo dos minutos a partir de texto; los personajes virtuales combinados con AIGC y generación de voz permiten automatizar anuncios y actuaciones; GitHub Copilot ya es un asistente de codificación para desarrolladores. La madurez de estas aplicaciones indica que AIGC está evolucionando de herramientas periféricas a herramientas principales de productividad.
La base tecnológica de AIGC: procesamiento de lenguaje natural y algoritmos generativos
Para entender cómo funciona AIGC, es necesario profundizar en sus dos pilares tecnológicos principales: procesamiento de lenguaje natural (PLN) y algoritmos generativos.
Evolución del procesamiento de lenguaje natural
El PLN es la base para que humanos y computadoras interactúen mediante lenguaje natural. Esta tecnología combina lingüística, ciencias de la computación y matemáticas, permitiendo que las computadoras entiendan, extraigan información, traduzcan y procesen contenido en lenguaje natural. Desde su desarrollo, las tareas principales del PLN se dividen en dos:
Comprensión del lenguaje natural (NLU): busca dotar a las computadoras de capacidades similares a las humanas para entender el lenguaje. A diferencia de las computadoras que solo procesaban datos estructurados, NLU permite reconocer y extraer intenciones implícitas en el lenguaje, logrando una verdadera comprensión. Sin embargo, debido a la diversidad, ambigüedad y dependencia del contexto del lenguaje natural, las computadoras aún están lejos de igualar a los humanos en comprensión.
Generación de lenguaje natural (NLG): consiste en convertir datos en formatos no lingüísticos en lenguaje comprensible para humanos. Tras etapas de desarrollo que van desde la simple concatenación de datos, pasando por plantillas, hasta modelos avanzados, NLG ahora puede entender intenciones, considerar contexto y presentar resultados en un lenguaje natural y fluido.
El avance clave en PLN llegó en 2017 con el modelo Transformer de Google, que utiliza mecanismos de atención para asignar diferentes pesos a las partes importantes de la entrada. En comparación con las redes neuronales recurrentes (RNN), los Transformers pueden procesar toda la entrada simultáneamente, mejorando significativamente la eficiencia del cálculo paralelo. Gracias a esta tecnología, se han desarrollado modelos preentrenados como BERT y GPT, que proporcionan una base sólida para AIGC.
Las dos principales corrientes en algoritmos generativos
En el campo de los algoritmos generativos, las dos principales corrientes son las redes generativas adversariales (GAN) y los modelos de difusión.
GAN: propuesto por Ian J. Goodfellow en 2014, consiste en un juego de competencia entre una red generadora y una red discriminadora. La generadora intenta crear datos falsos para engañar a la discriminadora, que a su vez intenta distinguir entre datos reales y falsos. Este proceso de entrenamiento adversarial lleva a ambos modelos a mejorar continuamente hasta que la discriminadora no pueda distinguir los datos falsos. Los GAN se usan ampliamente en publicidad, juegos y entretenimiento para crear personajes ficticios, modificar rostros y transformar estilos.
Limitaciones de los GAN: presentan problemas de inestabilidad en el entrenamiento y modo colapsado. La sincronización entre generador y discriminador requiere cuidado, y en la práctica, puede ocurrir que la discriminadora converja rápidamente y el generador diverja. Además, el generador puede quedar atrapado en un modo donde solo produce muestras similares, sin aprender nuevas variaciones.
Modelos de difusión: ofrecen una lógica de generación más cercana al pensamiento humano y son un motor clave en el rápido desarrollo de AIGC. Estos modelos añaden ruido gaussiano de forma continua a los datos, y luego aprenden a revertir este proceso para recuperar la información original. Tras el entrenamiento, generan nuevos datos añadiendo ruido y eliminándolo mediante el proceso aprendido.
Por ejemplo, en DALL-E, el proceso comienza con un texto que se codifica (por ejemplo, con CLIP de OpenAI) en un espacio de representación; luego, un modelo “prior” mapea esa representación a una codificación de imagen que captura el significado; finalmente, un codificador de imagen genera una visualización basada en esa codificación. Es similar a la imaginación humana: primero una idea básica, luego detalles y niveles semánticos.
Los modelos de difusión tienen ventajas sobre los GAN: producen imágenes de mayor calidad, no requieren entrenamiento adversarial, lo que aumenta la eficiencia, y ofrecen mejor escalabilidad y paralelización. Estas características los convierten en la próxima generación de modelos de generación de imágenes.
La ruta de comercialización de AIGC: de asistente a creador
Desde la madurez de las aplicaciones, AIGC ha mostrado modelos comerciales claros en generación de texto, imagen, audio, juegos y código. En tareas repetitivas o que no exigen una precisión extrema, su uso ya está bastante consolidado y en expansión, generalmente mediante modelos SaaS de suscripción.
Modelos SaaS para creación de texto
Jasper es un ejemplo destacado en generación de texto. Esta plataforma, fundada hace menos de dos años, permite a individuos y equipos crear contenido comercial con IA. Los usuarios ingresan descripciones y requisitos, y el sistema genera automáticamente textos, recopilando datos y siguiendo instrucciones. Por ejemplo, si un autor pide “escribir un artículo sobre AIGC, incluyendo definición, historia, aplicaciones, situación actual y tendencias futuras”, Jasper produce en segundos un artículo coherente, bien estructurado y con ejemplos. Ofrece cientos de plantillas para diferentes necesidades.
En cuanto a resultados comerciales, Jasper ha recaudado 125 millones de dólares en su última ronda, valorándose en 1,5 mil millones de dólares. Tiene más de 70,000 clientes, incluyendo empresas como Airbnb e IBM. Sus ingresos en 2022 alcanzaron los 40 millones de dólares, con una proyección de 90 millones para ese año.
Aplicaciones a escala en generación de imágenes
MidJourney simplifica la interfaz para que usuarios sin experiencia puedan crear obras artísticas a partir de descripciones textuales. El sistema interpreta semánticamente, traduce a lenguaje computacional y genera nuevas obras usando su propio conjunto de datos. Estas creaciones, en muchos casos, son consideradas obras de autoría de IA, y se usan ampliamente en medios, redes sociales y marketing, reduciendo costos y evitando problemas de derechos. Algunos creadores ya producen material con AIGC y monetizan en sus propias redes sociales.
Video, audio y otros sectores verticales
El modelo Phenaki de Google muestra potencial en generación de videos largos a partir de texto en muy poco tiempo, con coherencia lógica. La integración con personajes virtuales y generación de voz hace que las expresiones sean más naturales y realistas, superando a los personajes virtuales tradicionales en eficiencia y variedad.
En audio, AIGC ya se usa en aplicaciones cotidianas: navegación por teléfono con voces de celebridades, grabaciones personalizadas, etc. En el ámbito de personajes virtuales, puede generar voces y contenidos, permitiendo que los personajes expresen ideas como humanos.
En desarrollo de juegos, AIGC puede crear escenarios, historias y NPCs, acelerando el proceso. Los jugadores también pueden crear personajes virtuales para actividades en el juego. GitHub Copilot ofrece sugerencias de código, entrenado con miles de millones de líneas de código abierto.
Marco de inversión en AIGC: software, hardware y ecosistema de datos
Desde la perspectiva de inversión, el éxito de la industria AIGC depende de tres niveles: software (algoritmos y modelos), hardware (capacidad de cálculo) y datos (conjuntos de entrenamiento).
Capacidades en software
Incluyen tecnologías de PLN y modelos generativos. Empresas como Google, Microsoft, iFlytek, Truesight, Visual China, Kunlun Wanshi tienen ventajas en PLN. En modelos y datasets, Nvidia, Meta, Baidu, BlueFocus, Visual China, Kunlun Wanshi lideran, acumulando grandes volúmenes de datos y optimizando algoritmos, creando barreras tecnológicas.
Hardware y capacidad de cálculo
El poder de cómputo es clave en AIGC. Por ejemplo, Stable Diffusion funciona con un clúster de 4000 GPUs Nvidia A100, con costos operativos superiores a 50 millones de dólares. Esto muestra que grandes inversiones en hardware son fundamentales. Participantes en este nivel incluyen Lanqi Technology, ZTE, EasySun, Tianfutong, Baoxin Software, Zhongji Xuchuang. Con las restricciones en exportaciones de chips Nvidia, los chips nacionales de cálculo ganarán oportunidades de mercado.
Calidad de los datasets
El modelo CLIP de OpenAI, entrenado con 400 millones de pares de imágenes y textos en inglés de alta calidad, demuestra cómo datos de calidad determinan el rendimiento del modelo. Sin embargo, replicar esto es muy difícil: equipos extranjeros usaron 2 mil millones de pares para acercarse a la calidad de CLIP. La adquisición, limpieza y etiquetado de datos son costosos, y la calidad, cumplimiento y diversidad de estilos influyen directamente en la calidad del contenido generado.
Desafíos técnicos y direcciones de avance en AIGC
Aunque AIGC ya tiene aplicaciones comerciales, aún presenta limitaciones técnicas. La precisión en detalles suele no cumplir con estándares comerciales elevados.
Raíces del problema de precisión
En generación de imágenes, AIGC funciona bien en estilos anime o abstractos, pero tiene deficiencias en detalles específicos. Por ejemplo, en la generación de “una mujer con un gato de peluche”, puede que el sistema dibuje una mujer con cara de gato o errores en la relación espacial, como ojos del gato en lugares incorrectos. La raíz está en la comprensión y manejo insuficiente del significado natural, especialmente en relaciones espaciales y cuantitativas.
Desafíos en lenguaje y localización
El desarrollo desigual de codificadores de texto agrava estos problemas. El modelo CLIP de OpenAI, entrenado con 400 millones de pares en inglés, es de código abierto, pero los datos son cerrados. Esto dificulta que otros idiomas obtengan miles de millones de pares de alta calidad, lo que limita las aplicaciones en regiones no anglófonas. La traducción no solo requiere entender el significado, sino también adaptarse a contextos culturales y lingüísticos, lo que representa un gran reto para los modelos de traducción.
Impacto de diferencias en algoritmos y datasets
Las distintas plataformas usan diferentes algoritmos y conjuntos de datos, lo que genera variaciones significativas en la calidad de los resultados. La calidad, cumplimiento y estilo del dataset influyen directamente en la generación.
Tres pilares del futuro: grandes modelos, grandes datos y gran cálculo
De cara al futuro, la evolución de AIGC se centra en tres áreas: modelos preentrenados a gran escala, acumulación masiva de datos y gran inversión en capacidad de cálculo. Esto es esencial para que AIGC pase de ser un “asistente” a un “creador independiente”.
Yanhong Li resumió las tres etapas de desarrollo de AIGC: primero, la etapa de “asistente”, donde ayuda a los humanos; segundo, la etapa de “colaboración”, con IA en forma de personajes virtuales que coexisten con humanos; y tercero, la etapa de “creación original”, donde AIGC crea de forma autónoma. En la próxima década, se espera que AIGC genere contenido original a una décima parte del costo y con una velocidad de producción 100 a 1000 veces mayor, revolucionando los modos actuales de producción de contenido.
Para lograr esto, el desarrollo de aplicaciones especializadas en sectores verticales será clave. En lugar de modelos generales, las aplicaciones verticales pueden entrenarse con mayor precisión para funciones específicas, con menor costo y mejores resultados. Además, antes de que se establezcan marcos regulatorios sobre propiedad intelectual y ética en la creación con IA, la adquisición de datasets de alta calidad y cumplimiento será una estrategia prioritaria.
Ruta clara para oportunidades de inversión
Desde una perspectiva macro, conceptos como blockchain, metaverso y Web3 describen escenarios de gran escala en la economía digital. La atención reciente a personajes virtuales, NFT, etc., son solo ejemplos. AIGC, como motor clave para la transición de Web2 a Web3, impacta tanto en aplicaciones existentes como videos cortos y juegos, como en la creación de contenido en un entorno abierto y colaborativo de Web3, donde UGC y AIGC serán aún más atractivos, impulsando una ola de creación y expansión.
Desde la estrategia de inversión, las oportunidades en AIGC se distribuyen en tres dimensiones: software, hardware y ecosistema de datos:
Actualmente, AIGC es la tendencia más caliente en startups en Silicon Valley, y tanto el mercado primario nacional como las grandes tecnológicas están acelerando su interés en aplicaciones de AIGC. Esto marca la entrada de AIGC en una era de aplicación masiva, dejando atrás solo la investigación técnica.
Advertencias y observaciones clave
Riesgo técnico: el desarrollo de AIGC puede no cumplir las expectativas, y la innovación en hardware (supercomputadoras, chips) podría desacelerarse.
Riesgo regulatorio: al estar en una etapa temprana, futuras regulaciones sobre propiedad intelectual, derechos de autor y otras leyes relacionadas con contenidos generados por IA podrían afectar la industria.
Riesgo competitivo: la entrada de grandes tecnológicas puede acelerar la consolidación del sector, poniendo en dificultad a las startups.
En resumen, el valor de AIGC radica en su transformación fundamental en la producción de contenido. Desde la demanda, la era Web3 impulsa un aumento en la cantidad y diversidad de contenido; desde la oferta, AIGC ofrece una eficiencia sin precedentes. La conjunción de estas fuerzas crea un momento perfecto para que AIGC se desarrolle rápidamente y transforme múltiples industrias.