С конца 2022 года ведущие венчурные фонды Кремниевой долины начали активно обращать внимание на стартапы в области искусственного интеллекта, особенно в сфере генеративного AI-искусства. Компании Stability AI и Jasper последовательно привлекли свыше сотни миллионов долларов финансирования, их оценки превысили миллиард долларов, и они успешно вошли в список единорогов. За этим инвестиционным бумом стоит глубокая логика AIGC (AI-Generated Content, контент, созданный искусственным интеллектом) как новой парадигмы трансформации.
Эта волна финансирования обусловлена тем, что AIGC — не только результат технологического прогресса, но и революция в способах производства контента. С приходом эпохи Web3, объединение искусственного интеллекта, связанных данных и семантических сетей создало совершенно новые связи между человеком и сетью, что вызвало взрывной рост спроса на потребление контента. Традиционные модели PGC (профессионально созданный контент) и UGC (пользовательский контент) уже не справляются с этим расширением, и AIGC стал новым инструментом производительности в эпоху Web3, предлагая решения для масштабного генерации контента метавселенной.
Взлёт рынка AIGC: от периферии к мейнстриму
С точки зрения технологического прогресса и коммерческого применения, причины быстрого привлечения капитала к AIGC можно свести к трём основным факторам: во-первых, прорыву в базовых алгоритмах и аппаратных средствах; во-вторых, быстрому развитию приложений в различных вертикальных сферах; в-третьих, тому, что сама отрасль всё ещё находится на ранней стадии, и даже при наличии крупных технологических компаний, обладающих частью стоимости, у стартапов всё равно есть шанс на прорыв.
На уровне приложений AIGC уже демонстрирует потенциал в нескольких направлениях. В области генерации текста Jasper с помощью AI помогает создавать заголовки для Instagram, сценарии для TikTok, рекламные тексты и письма. На момент публикации отчёта у Jasper более 70 000 клиентов, среди которых Airbnb и IBM, а доход за 2022 год достиг 40 миллионов долларов.
В области генерации изображений достигнут прорыв благодаря моделям диффузии. Выпуск Stable Diffusion открыл эпоху бумов в AI-рисовании. Медиа-платформы начали массово использовать AI для иллюстраций, что снижает издержки и минимизирует риски авторских прав. OpenAI заключила стратегическое партнёрство с крупнейшей в мире библиотекой авторских изображений Shutterstock, а созданные DALL-E изображения уже стали новым стандартом в коммерческом применении.
Видео, аудио и кодогенерация также показывают широкие перспективы. Модель Phenaki от Google способна за два минуты создавать длинные видеоролики по текстовому описанию; виртуальные персонажи, использующие AIGC для синтеза голоса, могут автоматически озвучивать и играть роли; GitHub Copilot уже помогает разработчикам писать код, обучаясь на миллиардах строк открытого исходного кода. Эти достижения свидетельствуют о том, что AIGC переходит от периферийных инструментов к мейнстримовым средствам производства.
Техническая база AIGC: обработка естественного языка и генеративные алгоритмы
Чтобы понять, как работает AIGC, необходимо разобраться в двух ключевых технологиях: обработке естественного языка (NLP) и генеративных алгоритмах.
Эволюция обработки естественного языка
NLP — основа взаимодействия человека с компьютером на естественном языке. Эта технология объединяет лингвистику, информатику и математику, позволяя машинам понимать, извлекать информацию, переводить и обрабатывать контент. С развитием NLP выделяют два основных направления:
Понимание естественного языка (NLU) — позволяет компьютерам распознавать и интерпретировать смысл, скрытый за словами, что даёт возможность по-настоящему понимать текст. В отличие от старых систем, работавших только с структурированными данными, NLU даёт возможность выявлять намерения и контекст, однако из-за сложности языка и его неоднозначности, компьютерное понимание всё ещё уступает человеческому.
Генерация естественного языка (NLG) — преобразует неязыковые данные в понятную человеку речь. После этапов от простого объединения данных до шаблонных и, наконец, до продвинутых моделей NLG, системы уже способны понимать намерения, учитывать контекст и выдавать связный, естественный текст.
Ключевым прорывом в NLP стал трансформер от Google, разработанный в 2017 году. Эта архитектура использует механизм самовнимания, который позволяет распределять веса по важности различных частей входных данных. В отличие от рекуррентных нейросетей (RNN), трансформеры обрабатывают все входные одновременно, что значительно повышает эффективность параллельных вычислений. Именно эта технология стала основой для моделей BERT, GPT и других крупных предобученных моделей, заложив фундамент для AIGC.
Два основных типа генеративных алгоритмов
В области генеративных алгоритмов сейчас доминируют два подхода: генеративные состязательные сети (GAN) и модели диффузии.
GAN (Ian J. Goodfellow, 2014) — состязательная архитектура, где генератор пытается создавать “фальшивые” данные, а дискриминатор — отличить их от настоящих. В процессе обучения оба компонента улучшаются, достигая равновесия, при котором дискриминатор уже не может отличить подделки. GAN широко применяются в создании виртуальных персонажей, стилизации изображений, изменении лиц и т.п., в индустриях рекламы, игр и развлечений.
Однако GAN страдает от нестабильности обучения и режима mode collapse — ситуации, когда генератор начинает выдавать одни и те же образцы. Это связано с необходимостью тонкой настройки балансировки между генератором и дискриминатором.
Модели диффузии — более приближенные к человеческому мышлению подходы, которые позволяют получать высококачественные изображения и видео. Они работают, добавляя случайный шум к данным, а затем обучаются восстанавливать исходный образец, шаг за шагом удаляя шум. После обучения модель может генерировать новые данные, начиная с случайного шума и постепенно “очищая” его.
Например, DALL-E сначала кодирует текст в векторное представление через текстовый энкодер (например, CLIP от OpenAI), затем с помощью “приора” (prior) переводит его в изображение, а далее — визуальный кодер, который создает финальное изображение. Этот процесс похож на человеческое воображение: сначала появляется базовая идея, а затем добавляются детали и смысловые слои.
Модели диффузии превосходят GAN по трём параметрам: качество создаваемых изображений, отсутствие необходимости в состязательном обучении (что ускоряет обучение), а также лучшая масштабируемость и параллельность. Поэтому они считаются будущим поколения генеративных моделей изображений.
Коммерческий путь AIGC: от помощника к создателю
На уровне зрелости приложений AIGC уже демонстрирует чёткие бизнес-модели в области текста, изображений, аудио, игр и программирования. Особенно в задачах с высокой повторяемостью и невысокими требованиями к точности, применение AIGC уже достаточно развито и активно монетизируется через SaaS-модели.
SaaS для текстового контента
Jasper — яркий пример в области генерации текста. Эта платформа, созданная менее двух лет назад, позволяет индивидуальным пользователям и командам создавать коммерческий контент с помощью AI. Вводя описание и требования к статье, пользователь получает автоматически подготовленный текст, включающий определения, историю развития, примеры и прогнозы. Jasper предлагает сотни шаблонов, что позволяет гибко адаптировать результат под нужды.
В финансовом плане Jasper достиг впечатляющих результатов: недавно привлек 125 миллионов долларов инвестиций, оценка компании — 1,5 миллиарда долларов. Клиентская база превысила 70 000, среди них крупные корпорации как Airbnb и IBM. Доход за 2022 год составил 40 миллионов долларов, а по итогам года ожидается около 90 миллионов.
Массовое создание изображений
MidJourney упростил интерфейс, позволяя даже новичкам создавать художественные работы по текстовым описаниям. Внутренние алгоритмы используют NLP для распознавания смыслов, переводят их в код, и на базе собственной базы данных создают новые произведения. Такие AI-работы в юридическом плане считаются авторским произведением AI, что позволяет широко использовать их в СМИ, соцсетях, снижая издержки и избегая авторских споров. Некоторые блогеры уже используют AIGC для создания контента и монетизации через свои соцсети.
Видео, аудио и другие вертикальные сегменты
Модель Phenaki от Google показывает потенциал в создании длинных видеороликов по тексту за короткое время. В сочетании с виртуальными персонажами, использующими AI для синтеза голоса и мимики, достигается высокая реалистичность и вариативность, что превосходит простое озвучивание виртуальных героев.
В аудио AIGC уже широко применяется: навигаторы в смартфонах могут менять голосовые подсказки, пользователи могут записывать собственные голосовые пакеты. В виртуальных людях AI позволяет не только генерировать речь, но и создавать полноценный контент, выражая мысли и эмоции.
В игровой индустрии AIGC используется для построения сцен, сценариев, NPC, что значительно ускоряет разработку. Игроки могут создавать виртуальных персонажей для внутриигровых событий. GitHub Copilot помогает разработчикам писать код, обучаясь на миллиардах строк открытого кода.
Инвестиционная модель AIGC: программное обеспечение, аппаратное обеспечение и экосистема данных
С точки зрения инвестиций, успех AIGC базируется на трёх уровнях: программном обеспечении (алгоритмы и модели), аппаратных средствах (вычислительные мощности) и данных (наборы для обучения).
Технологии программного уровня
В области софта лидируют компании, разрабатывающие NLP-технологии и модели генерации. Google, Microsoft, iFlytek, Turing, NVIDIA, Meta, Baidu, BlueFocus, Visual China, Kunlun — все они обладают значительным технологическим преимуществом. Эти компании накапливают большие объемы данных и совершенствуют алгоритмы, создавая технологический барьер.
Аппаратное обеспечение и вычислительные ресурсы
Мощность — это ключ к успеху AIGC. Например, Stable Diffusion работает на кластере из 4000 GPU NVIDIA A100, что стоит свыше 50 миллионов долларов. Это показывает, что крупные инвестиции в вычислительные мощности — основа развития. Среди участников — ThunderSoft, ZTE, EasyStack, Tianfutong, Baoxin Software, Zhongji Xuchuang. В условиях ограничения экспорта высокопроизводительных чипов NVIDIA, отечественные решения на базе собственных чипов получат дополнительные возможности.
Качество данных определяет предел возможностей
Модель CLIP от OpenAI обучена на 400 миллионах пар изображение-текст высокого качества, что показывает решающую роль больших объемов данных. Но повторить такой успех очень сложно: зарубежные команды используют около 2 миллиардов пар для приближения к результатам CLIP. Это подчеркивает, что сбор, очистка и аннотирование данных — очень дорогостоящие процессы, а качество и соответствие данных напрямую влияют на качество генерируемого контента.
Текущие вызовы и направления прорыва в AIGC
Несмотря на успехи, в техническом плане AIGC ещё сталкивается с серьёзными ограничениями. Генерируемый контент зачастую не соответствует высоким стандартам точности и детализации.
Проблемы точности
В изображениях, особенно в стиле аниме или абстракциях, результаты хорошие, но при создании конкретных деталей — например, глаз у кошки или пространственных соотношений — возникают ошибки. Например, при генерации “красавицы с котом” иногда получается “красавица с кошачьим лицом”. Основная причина — недостаточная способность моделей понимать и обрабатывать пространственные и количественные отношения, а также смысловые связи.
Языковые и локализационные сложности
Развитие текстовых энкодеров идёт неравномерно. Модель CLIP от OpenAI обучена на английских данных, и хотя её исходный код открыт, данные закрыты. Для других языков собрать миллиарды пар изображение-текст — очень сложно, что усложняет применение AIGC вне англоязычного сегмента. Перевод текстов и интерпретация культурных особенностей требуют дополнительных усилий, что создаёт барьеры для точной локализации.
Различия в алгоритмах и данных
Разные платформы используют разные модели и датасеты, что ведет к существенным различиям в качестве итоговых изображений и видео. Качество, соответствие и стиль данных — важнейшие факторы, определяющие результат.
Три столпа будущего AIGC: большие модели, большие данные, большие мощности
В перспективе развитие AIGC будет сосредоточено на трёх направлениях: масштабных предобученных моделях, накоплении больших объемов данных и инвестировании в вычислительные мощности. Это необходимо для перехода от роли “помощника” к полноценному “создателю”.
Ли Яньхун выделил три стадии развития AIGC: первая — “помощник”, когда AI помогает человеку; вторая — “сотрудничество”, виртуальные агенты совместно с людьми создают контент; третья — “самостоятельное творчество”, когда AI генерирует оригинальный контент без участия человека. В ближайшие 10 лет AIGC сможет создавать оригинальный контент в десятки и сотни раз быстрее и дешевле, чем сейчас, полностью меняя существующие модели производства.
Для этого важна специализация в вертикальных сегментах, где модели могут быть более точными и дешевыми. Также, до появления нормативных рамок по интеллектуальной собственности и этике, получение высококачественных, легальных данных станет стратегическим приоритетом.
Чёткая дорожная карта инвестиционных возможностей
Глобально, концепции блокчейна, метавселенной и Web3 создают масштабные сценарии цифровой экономики. Виртуальные персонажи, NFT — лишь отдельные проявления этого тренда. AIGC — ключевой инструмент для перехода от Web2 к Web3, который не только кардинально изменит существующие приложения вроде коротких видео и игр, но и усилит привлекательность UGC и контента, созданного AI, в рамках открытого и совместного пространства Web3.
Инвестиционные возможности по трем направлениям:
Программное обеспечение: компании в области NLP, вертикальных приложений AIGC, разработчики больших моделей.
Аппаратное обеспечение: отечественные чипы и сервисы GPU-кластеров в условиях ограничений экспорта.
Данные: компании по сбору, очистке и аннотированию высококачественных датасетов.
AIGC уже стала одним из самых горячих направлений стартапов в Кремниевой долине, а внутри страны — крупные интернет-компании и венчурные инвесторы активно интересуются этой сферой. Это свидетельство того, что AIGC перешла из стадии исследований в стадию масштабного внедрения.
Риски и ключевые наблюдения
Технологические риски: развитие AIGC может замедлиться, если прогресс в базовых технологиях (суперкомпьютеры, чипы) замедлится.
Регуляторные риски: в связи с ранней стадией развития, возможны новые законы и нормативы по интеллектуальной собственности, авторским правам и этике AI, что может повлиять на индустрию.
Конкуренция: крупные технологические компании могут ускорить консолидацию рынка, а стартапам будет сложнее удерживать позиции.
В целом, ценность AIGC — в её способности кардинально менять способы производства контента. С одной стороны, растущий спрос на разнообразный контент в эпоху Web3 создаёт огромные возможности, с другой — AIGC обеспечивает невиданный ранее уровень эффективности. В этот момент, когда спрос и предложение идеально совпадают, индустрия находится на пороге революции, способной трансформировать все сферы.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
AIGC革新内容生产:Web3时代的生产力工具如何改变产业格局
С конца 2022 года ведущие венчурные фонды Кремниевой долины начали активно обращать внимание на стартапы в области искусственного интеллекта, особенно в сфере генеративного AI-искусства. Компании Stability AI и Jasper последовательно привлекли свыше сотни миллионов долларов финансирования, их оценки превысили миллиард долларов, и они успешно вошли в список единорогов. За этим инвестиционным бумом стоит глубокая логика AIGC (AI-Generated Content, контент, созданный искусственным интеллектом) как новой парадигмы трансформации.
Эта волна финансирования обусловлена тем, что AIGC — не только результат технологического прогресса, но и революция в способах производства контента. С приходом эпохи Web3, объединение искусственного интеллекта, связанных данных и семантических сетей создало совершенно новые связи между человеком и сетью, что вызвало взрывной рост спроса на потребление контента. Традиционные модели PGC (профессионально созданный контент) и UGC (пользовательский контент) уже не справляются с этим расширением, и AIGC стал новым инструментом производительности в эпоху Web3, предлагая решения для масштабного генерации контента метавселенной.
Взлёт рынка AIGC: от периферии к мейнстриму
С точки зрения технологического прогресса и коммерческого применения, причины быстрого привлечения капитала к AIGC можно свести к трём основным факторам: во-первых, прорыву в базовых алгоритмах и аппаратных средствах; во-вторых, быстрому развитию приложений в различных вертикальных сферах; в-третьих, тому, что сама отрасль всё ещё находится на ранней стадии, и даже при наличии крупных технологических компаний, обладающих частью стоимости, у стартапов всё равно есть шанс на прорыв.
На уровне приложений AIGC уже демонстрирует потенциал в нескольких направлениях. В области генерации текста Jasper с помощью AI помогает создавать заголовки для Instagram, сценарии для TikTok, рекламные тексты и письма. На момент публикации отчёта у Jasper более 70 000 клиентов, среди которых Airbnb и IBM, а доход за 2022 год достиг 40 миллионов долларов.
В области генерации изображений достигнут прорыв благодаря моделям диффузии. Выпуск Stable Diffusion открыл эпоху бумов в AI-рисовании. Медиа-платформы начали массово использовать AI для иллюстраций, что снижает издержки и минимизирует риски авторских прав. OpenAI заключила стратегическое партнёрство с крупнейшей в мире библиотекой авторских изображений Shutterstock, а созданные DALL-E изображения уже стали новым стандартом в коммерческом применении.
Видео, аудио и кодогенерация также показывают широкие перспективы. Модель Phenaki от Google способна за два минуты создавать длинные видеоролики по текстовому описанию; виртуальные персонажи, использующие AIGC для синтеза голоса, могут автоматически озвучивать и играть роли; GitHub Copilot уже помогает разработчикам писать код, обучаясь на миллиардах строк открытого исходного кода. Эти достижения свидетельствуют о том, что AIGC переходит от периферийных инструментов к мейнстримовым средствам производства.
Техническая база AIGC: обработка естественного языка и генеративные алгоритмы
Чтобы понять, как работает AIGC, необходимо разобраться в двух ключевых технологиях: обработке естественного языка (NLP) и генеративных алгоритмах.
Эволюция обработки естественного языка
NLP — основа взаимодействия человека с компьютером на естественном языке. Эта технология объединяет лингвистику, информатику и математику, позволяя машинам понимать, извлекать информацию, переводить и обрабатывать контент. С развитием NLP выделяют два основных направления:
Понимание естественного языка (NLU) — позволяет компьютерам распознавать и интерпретировать смысл, скрытый за словами, что даёт возможность по-настоящему понимать текст. В отличие от старых систем, работавших только с структурированными данными, NLU даёт возможность выявлять намерения и контекст, однако из-за сложности языка и его неоднозначности, компьютерное понимание всё ещё уступает человеческому.
Генерация естественного языка (NLG) — преобразует неязыковые данные в понятную человеку речь. После этапов от простого объединения данных до шаблонных и, наконец, до продвинутых моделей NLG, системы уже способны понимать намерения, учитывать контекст и выдавать связный, естественный текст.
Ключевым прорывом в NLP стал трансформер от Google, разработанный в 2017 году. Эта архитектура использует механизм самовнимания, который позволяет распределять веса по важности различных частей входных данных. В отличие от рекуррентных нейросетей (RNN), трансформеры обрабатывают все входные одновременно, что значительно повышает эффективность параллельных вычислений. Именно эта технология стала основой для моделей BERT, GPT и других крупных предобученных моделей, заложив фундамент для AIGC.
Два основных типа генеративных алгоритмов
В области генеративных алгоритмов сейчас доминируют два подхода: генеративные состязательные сети (GAN) и модели диффузии.
Однако GAN страдает от нестабильности обучения и режима mode collapse — ситуации, когда генератор начинает выдавать одни и те же образцы. Это связано с необходимостью тонкой настройки балансировки между генератором и дискриминатором.
Например, DALL-E сначала кодирует текст в векторное представление через текстовый энкодер (например, CLIP от OpenAI), затем с помощью “приора” (prior) переводит его в изображение, а далее — визуальный кодер, который создает финальное изображение. Этот процесс похож на человеческое воображение: сначала появляется базовая идея, а затем добавляются детали и смысловые слои.
Модели диффузии превосходят GAN по трём параметрам: качество создаваемых изображений, отсутствие необходимости в состязательном обучении (что ускоряет обучение), а также лучшая масштабируемость и параллельность. Поэтому они считаются будущим поколения генеративных моделей изображений.
Коммерческий путь AIGC: от помощника к создателю
На уровне зрелости приложений AIGC уже демонстрирует чёткие бизнес-модели в области текста, изображений, аудио, игр и программирования. Особенно в задачах с высокой повторяемостью и невысокими требованиями к точности, применение AIGC уже достаточно развито и активно монетизируется через SaaS-модели.
SaaS для текстового контента
Jasper — яркий пример в области генерации текста. Эта платформа, созданная менее двух лет назад, позволяет индивидуальным пользователям и командам создавать коммерческий контент с помощью AI. Вводя описание и требования к статье, пользователь получает автоматически подготовленный текст, включающий определения, историю развития, примеры и прогнозы. Jasper предлагает сотни шаблонов, что позволяет гибко адаптировать результат под нужды.
В финансовом плане Jasper достиг впечатляющих результатов: недавно привлек 125 миллионов долларов инвестиций, оценка компании — 1,5 миллиарда долларов. Клиентская база превысила 70 000, среди них крупные корпорации как Airbnb и IBM. Доход за 2022 год составил 40 миллионов долларов, а по итогам года ожидается около 90 миллионов.
Массовое создание изображений
MidJourney упростил интерфейс, позволяя даже новичкам создавать художественные работы по текстовым описаниям. Внутренние алгоритмы используют NLP для распознавания смыслов, переводят их в код, и на базе собственной базы данных создают новые произведения. Такие AI-работы в юридическом плане считаются авторским произведением AI, что позволяет широко использовать их в СМИ, соцсетях, снижая издержки и избегая авторских споров. Некоторые блогеры уже используют AIGC для создания контента и монетизации через свои соцсети.
Видео, аудио и другие вертикальные сегменты
Модель Phenaki от Google показывает потенциал в создании длинных видеороликов по тексту за короткое время. В сочетании с виртуальными персонажами, использующими AI для синтеза голоса и мимики, достигается высокая реалистичность и вариативность, что превосходит простое озвучивание виртуальных героев.
В аудио AIGC уже широко применяется: навигаторы в смартфонах могут менять голосовые подсказки, пользователи могут записывать собственные голосовые пакеты. В виртуальных людях AI позволяет не только генерировать речь, но и создавать полноценный контент, выражая мысли и эмоции.
В игровой индустрии AIGC используется для построения сцен, сценариев, NPC, что значительно ускоряет разработку. Игроки могут создавать виртуальных персонажей для внутриигровых событий. GitHub Copilot помогает разработчикам писать код, обучаясь на миллиардах строк открытого кода.
Инвестиционная модель AIGC: программное обеспечение, аппаратное обеспечение и экосистема данных
С точки зрения инвестиций, успех AIGC базируется на трёх уровнях: программном обеспечении (алгоритмы и модели), аппаратных средствах (вычислительные мощности) и данных (наборы для обучения).
Технологии программного уровня
В области софта лидируют компании, разрабатывающие NLP-технологии и модели генерации. Google, Microsoft, iFlytek, Turing, NVIDIA, Meta, Baidu, BlueFocus, Visual China, Kunlun — все они обладают значительным технологическим преимуществом. Эти компании накапливают большие объемы данных и совершенствуют алгоритмы, создавая технологический барьер.
Аппаратное обеспечение и вычислительные ресурсы
Мощность — это ключ к успеху AIGC. Например, Stable Diffusion работает на кластере из 4000 GPU NVIDIA A100, что стоит свыше 50 миллионов долларов. Это показывает, что крупные инвестиции в вычислительные мощности — основа развития. Среди участников — ThunderSoft, ZTE, EasyStack, Tianfutong, Baoxin Software, Zhongji Xuchuang. В условиях ограничения экспорта высокопроизводительных чипов NVIDIA, отечественные решения на базе собственных чипов получат дополнительные возможности.
Качество данных определяет предел возможностей
Модель CLIP от OpenAI обучена на 400 миллионах пар изображение-текст высокого качества, что показывает решающую роль больших объемов данных. Но повторить такой успех очень сложно: зарубежные команды используют около 2 миллиардов пар для приближения к результатам CLIP. Это подчеркивает, что сбор, очистка и аннотирование данных — очень дорогостоящие процессы, а качество и соответствие данных напрямую влияют на качество генерируемого контента.
Текущие вызовы и направления прорыва в AIGC
Несмотря на успехи, в техническом плане AIGC ещё сталкивается с серьёзными ограничениями. Генерируемый контент зачастую не соответствует высоким стандартам точности и детализации.
Проблемы точности
В изображениях, особенно в стиле аниме или абстракциях, результаты хорошие, но при создании конкретных деталей — например, глаз у кошки или пространственных соотношений — возникают ошибки. Например, при генерации “красавицы с котом” иногда получается “красавица с кошачьим лицом”. Основная причина — недостаточная способность моделей понимать и обрабатывать пространственные и количественные отношения, а также смысловые связи.
Языковые и локализационные сложности
Развитие текстовых энкодеров идёт неравномерно. Модель CLIP от OpenAI обучена на английских данных, и хотя её исходный код открыт, данные закрыты. Для других языков собрать миллиарды пар изображение-текст — очень сложно, что усложняет применение AIGC вне англоязычного сегмента. Перевод текстов и интерпретация культурных особенностей требуют дополнительных усилий, что создаёт барьеры для точной локализации.
Различия в алгоритмах и данных
Разные платформы используют разные модели и датасеты, что ведет к существенным различиям в качестве итоговых изображений и видео. Качество, соответствие и стиль данных — важнейшие факторы, определяющие результат.
Три столпа будущего AIGC: большие модели, большие данные, большие мощности
В перспективе развитие AIGC будет сосредоточено на трёх направлениях: масштабных предобученных моделях, накоплении больших объемов данных и инвестировании в вычислительные мощности. Это необходимо для перехода от роли “помощника” к полноценному “создателю”.
Ли Яньхун выделил три стадии развития AIGC: первая — “помощник”, когда AI помогает человеку; вторая — “сотрудничество”, виртуальные агенты совместно с людьми создают контент; третья — “самостоятельное творчество”, когда AI генерирует оригинальный контент без участия человека. В ближайшие 10 лет AIGC сможет создавать оригинальный контент в десятки и сотни раз быстрее и дешевле, чем сейчас, полностью меняя существующие модели производства.
Для этого важна специализация в вертикальных сегментах, где модели могут быть более точными и дешевыми. Также, до появления нормативных рамок по интеллектуальной собственности и этике, получение высококачественных, легальных данных станет стратегическим приоритетом.
Чёткая дорожная карта инвестиционных возможностей
Глобально, концепции блокчейна, метавселенной и Web3 создают масштабные сценарии цифровой экономики. Виртуальные персонажи, NFT — лишь отдельные проявления этого тренда. AIGC — ключевой инструмент для перехода от Web2 к Web3, который не только кардинально изменит существующие приложения вроде коротких видео и игр, но и усилит привлекательность UGC и контента, созданного AI, в рамках открытого и совместного пространства Web3.
Инвестиционные возможности по трем направлениям:
AIGC уже стала одним из самых горячих направлений стартапов в Кремниевой долине, а внутри страны — крупные интернет-компании и венчурные инвесторы активно интересуются этой сферой. Это свидетельство того, что AIGC перешла из стадии исследований в стадию масштабного внедрения.
Риски и ключевые наблюдения
Технологические риски: развитие AIGC может замедлиться, если прогресс в базовых технологиях (суперкомпьютеры, чипы) замедлится.
Регуляторные риски: в связи с ранней стадией развития, возможны новые законы и нормативы по интеллектуальной собственности, авторским правам и этике AI, что может повлиять на индустрию.
Конкуренция: крупные технологические компании могут ускорить консолидацию рынка, а стартапам будет сложнее удерживать позиции.
В целом, ценность AIGC — в её способности кардинально менять способы производства контента. С одной стороны, растущий спрос на разнообразный контент в эпоху Web3 создаёт огромные возможности, с другой — AIGC обеспечивает невиданный ранее уровень эффективности. В этот момент, когда спрос и предложение идеально совпадают, индустрия находится на пороге революции, способной трансформировать все сферы.