Інновації AIGC у створенні контенту: як інструменти виробництва у епоху Web3 змінюють структуру галузі

З другої половини 2022 року провідні венчурні фонди Кремнієвої долини почали активно спрямовувати увагу на стартапи у сфері штучного інтелекту, зокрема у галузі генеративного AI-мистецтва, яка наразі перебуває у стані буму. Компанії Stability AI та Jasper послідовно залучили понад мільярд доларів інвестицій, їхні оцінки перевищили позначку у 1 мільярд доларів, і вони успішно увійшли до списку єдинорогів. За цим стоїть глибока логіка AIGC (AI-Generated Content, штучний інтелект для створення контенту) як нової парадигми трансформації.

Ця хвиля фінансування підкреслює, що AIGC — це не лише результат технічного прогресу, а й революція у способах виробництва контенту. З приходом епохи Web3, поєднання штучного інтелекту, релевантних даних і семантичних мереж формує новий зв’язок між людьми і мережею, що сприяє вибуховому зростанню попиту на споживання контенту. Традиційні підходи PGC (професійний створений контент) і UGC (контент, створений користувачами) вже не здатні задовольнити цю експансію, тому AIGC стає новим інструментом виробництва у епоху Web3, пропонуючи рішення для масштабного створення контенту у метавсесвіті.

Виникнення ринку AIGC: від периферії до мейнстріму

З точки зору технічного прогресу і комерційних застосувань, причина швидкого залучення капіталу до AIGC полягає у трьох ключових факторах: по-перше, прориви у базових алгоритмах і апаратному забезпеченні; по-друге, швидка зрілість застосувань у різних вертикалях; по-третє, сама галузь ще перебуває на ранніх стадіях розвитку, тому навіть великі технологічні компанії, що володіють частиною цінності, залишаються відкритими для проривів стартапів.

На рівні застосувань, AIGC вже демонструє потенціал у багатьох напрямках. У сфері генерації тексту Jasper за допомогою AI допомагає користувачам створювати заголовки для Instagram, сценарії для TikTok, рекламні тексти та електронні листи. Станом на час публікації звіту, Jasper має понад 70 000 клієнтів, серед яких Airbnb і IBM, а за 2022 рік його дохід склав понад 40 мільйонів доларів.

У сфері генерації зображень прориви досягнуті завдяки моделям дифузії. Випуск Stable Diffusion відкрив еру бурхливого розвитку AI-мистецтва. Медійні платформи почали масштабно використовувати AI для створення ілюстрацій, що знижує витрати і уникає ризиків, пов’язаних з авторським правом. OpenAI уклала глибоку співпрацю з найбільшим у світі фотобанком Shutterstock, і зображення, створені за допомогою DALL-E, вже стають новим стандартом у комерційних застосуваннях.

Відео, аудіо та кодогенерація також мають великий потенціал. Модель Phenaki від Google здатна за дві хвилини створювати довгі відео за текстовим описом; віртуальні персонажі, що використовують AIGC для генерації голосу, можуть автоматично озвучувати і виконувати ролі; GitHub Copilot вже допомагає розробникам у написанні коду. Зрілість цих застосувань свідчить, що AIGC перетворюється з периферійних інструментів у мейнстрімні засоби виробництва.

Технічна база AIGC: обробка природної мови та генеративні алгоритми

Щоб зрозуміти, як працює AIGC, потрібно глибше ознайомитися з двома основними технологічними стовпами: обробкою природної мови (NLP) і генеративними алгоритмами.

Еволюція обробки природної мови

Обробка природної мови — це фундамент для взаємодії людини з комп’ютером у природній формі. Ця технологія поєднує лінгвістику, інформатику і математику, дозволяючи комп’ютерам розуміти природну мову, витягати інформацію, автоматично перекладати і обробляти контент. З розвитком NLP основні завдання поділяються на два напрямки:

Розуміння природної мови (NLU) має на меті надати комп’ютерам здатність розуміти людську мову. На відміну від раніше обробки структурованих даних, NLU дозволяє системам розпізнавати і витягати приховані наміри у мові, що забезпечує справжнє розуміння природної мови. Однак через багатогранність, неоднозначність і залежність від контексту, сучасні системи ще далекі від людського рівня розуміння.

Генерація природної мови (NLG) — це перетворення даних у немовний формат у зрозумілу людині мову. Від простого об’єднання даних до шаблонів і до високорівневих систем NLG — ця технологія вже здатна, як і люди, розуміти наміри, враховувати контекст і подавати результати у природній, плавній мові.

Ключовий прорив у NLP стався у 2017 році з появою трансформерної архітектури від Google. Вона використовує механізм самовнимання, що дозволяє розподіляти ваги залежно від важливості різних частин вхідних даних. У порівнянні з рекурентними нейронними мережами (RNN), трансформери обробляють усі дані одночасно, що значно підвищує ефективність паралельних обчислень. Саме ця технологія стала основою для таких великих моделей, як BERT і GPT, що заклали міцний мовний фундамент для AIGC.

Два основних напрями генеративних алгоритмів

У галузі генеративних алгоритмів найбільш поширеними є генеративні змагальні мережі (GAN) і дифузійні моделі.

GAN були запропоновані Іаном Гудфеллоу у 2014 році і базуються на протистоянні генеративної і дискримінативної мереж. Генеративна мережа намагається створити “фейкові” дані, щоб обдурити дискримінативну, яка ж прагне розпізнати підробки. В процесі тренування обидві мережі еволюціонують, досягаючи балансу — дискримінатор вже не може відрізнити фейкові дані. Цей підхід широко застосовується у рекламі, іграх, розвагах для створення вигаданих персонажів, моделювання облич і стилів.

Однак GAN мають проблеми з нестабільністю тренування і режимним режимом. Генератор і дискримінатор мають потребу у точній синхронізації, і в практиці часто виникає ситуація, коли дискримінатор сходиться, а генератор “розбігається”. Крім того, генератор іноді застряє у режимі “однакових” зразків, що обмежує його здатність до навчання.

У порівнянні з GAN, дифузійні моделі пропонують більш людський підхід до генерації і є ключовим драйвером швидкого розвитку AIGC. Вони додають шум Гаусса до даних і навчаються зворотному процесу — від шуму до відновлення вихідних даних. Після тренування модель може генерувати новий контент, додаючи до випадкового шуму процеси “очищення”, що навчені.

Наприклад, DALL-E спочатку кодує текст за допомогою текстового енкодера (наприклад, OpenAI Clip), потім за допомогою “передбачувальної” моделі перетворює текст у зображення, захоплюючи семантику; наприкінці зображення генерується за допомогою випадкового ініціалізованого кодування. Цей процес схожий на людське уявлення — спершу базова ідея, потім додавання деталей і семантичних рівнів.

Дифузійні моделі мають три головні переваги порівняно з GAN: вищу якість згенерованих зображень, відсутність протистояння у тренуванні (що підвищує швидкість), а також кращу масштабованість і паралельність обчислень. Саме ці характеристики зробили дифузійні моделі представниками наступного покоління моделей для створення зображень.

Комерційний шлях AIGC: від помічника до творця

З точки зору зрілості застосувань, AIGC демонструє чіткі бізнес-моделі у сферах тексту, зображень, аудіо, ігор і коду. Особливо у задачах з високою повторюваністю і неекстремальними вимогами до точності, застосування вже досить розвинуті і активно шукають шляхи монетизації. Зазвичай ці сервіси працюють за моделлю SaaS з підпискою.

Модель SaaS для створення тексту

Jasper — класичний приклад у сфері генерації тексту. Ця платформа, створена менш ніж два роки тому, дозволяє приватним особам і командами створювати комерційний контент за допомогою AI. Користувачі вводять опис цільової статті і вимоги, система автоматично збирає дані і генерує текст за інструкцією. Наприклад, при запиті “написати статтю про AIGC, включаючи визначення, історію, застосування, поточний стан і майбутні тренди”, Jasper за кілька секунд створює логічну, структуровану ілюстровану прикладами статтю. Платформа має сотні шаблонів, які можна адаптувати під потреби.

У фінансовому плані Jasper показує вражаючі результати. Останнє залучення інвестицій склало 125 мільйонів доларів, оцінка — 1,5 мільярда. Клієнтська база вже перевищує 70 000, серед яких Airbnb і IBM, а дохід за 2022 рік склав 40 мільйонів доларів, з прогнозом досягти 90 мільйонів у поточному році.

Масштабне застосування у створенні зображень

MidJourney спрощує інтерфейс і дозволяє навіть без досвіду створювати художні роботи за текстовими описами. У фоновому режимі система аналізує семантику через NLP, перекладає її у мову комп’ютера і генерує нові роботи, використовуючи власний датасет. Такі AI-створені роботи мають авторські права, що дозволяє широко застосовувати їх у медіа, соцмережах, знижуючи витрати і уникаючи авторських правових конфліктів. Деякі блогери вже створюють контент за допомогою AIGC і монетизують його у своїх соцмережах.

Відео, аудіо і вертикальні сфери

Модель Phenaki від Google демонструє можливості швидкого створення відео за текстовим описом, здатна генерувати довгі логічні ролики. Віртуальні персонажі, що використовують AIGC для голосу і міміки, виглядають більш реалістично і природно, ніж прості аватари.

У сфері аудіо AIGC вже широко застосовується у повсякденних сервісах. Навігаційні додатки можуть змінювати голосові підказки на голоси знаменитостей, користувачі можуть записувати власні голосові пакети. У глибших застосуваннях у віртуальних персонажів AIGC не лише генерує голос, а й створює контент, що дозволяє віртуальним героям висловлювати ідеї так само, як і люди.

У геймдеві AIGC використовується для створення сцен, сюжетів і NPC, що значно підвищує швидкість розробки. Гравці можуть створювати власних віртуальних персонажів для ігрових подій. GitHub Copilot вже допомагає програмістам у написанні коду, навчені на мільярдах рядків відкритого коду.

Інвестиційна стратегія у AIGC: технічна і бізнес-екосистема

З точки зору інвестицій, успіх AIGC базується на трьох рівнях: програмне забезпечення (алгоритми і моделі), апаратне забезпечення (обчислювальні ресурси) і дані (навчальні датасети).

Технічна база — накопичення знань

Основою є технології NLP і генеративні моделі. У NLP провідні компанії — Google, Microsoft, iFlytek, Tris, а у моделях і датасетах — NVIDIA, Meta, Baidu, BlueFocus, Visual China, Kunlun W&W. Вони формують технологічний бар’єр, накопичуючи великі обсяги даних і оптимізуючи алгоритми.

Обчислювальні ресурси — фундамент

Обчислювальна потужність — це “сила” AIGC. Наприклад, Stable Diffusion працює на кластері з 4000 GPU NVIDIA A100, що коштує понад 50 мільйонів доларів. Це показує, що масштабні інвестиції у апаратне забезпечення — ключова складова розвитку. У цій сфері активні компанії — Lanqi Tech, ZTE, EasyMile, Tanfeng Communications, Baosight Software, Zhongji Xuchuang. З обмеженнями експорту високопродуктивних чипів NVIDIA, внутрішній ринок для національних чипів зростає.

Якість даних — обмеження і можливості

Модель Clip від OpenAI тренувалася на 400 мільйонах високоякісних англомовних пар “зображення-текст”, що показує важливість великих обсягів якісних даних. Відтворити цей успіх важко — закордонні команди використовують 2 мільярди пар для наближення до Clip. Це підкреслює, що витрати на збір, очищення і маркування даних дуже високі, а їх якість і відповідність стандартам визначають якість кінцевого контенту.

Технічні виклики і напрямки проривів

Хоча AIGC вже має комерційний потенціал, у технічному плані ще є прогалини. Зокрема, якість створеного контенту іноді не відповідає високим стандартам.

Проблеми точності

У генерації зображень, особливо у стилі аніме або абстракції, результати хороші, але з деталями — є недоліки. Наприклад, при створенні “краси з котиком” система може намалювати “дівчину з котячим обличчям”. Це пов’язано з недостатнім розумінням природної семантики, особливо у просторі і кількості об’єктів.

Мовні та локалізаційні виклики

Розвиток текстових енкодерів не рівномірний. Модель Clip від OpenAI тренувалася на 400 мільйонах англомовних пар, але для інших мов отримати подібний обсяг високоякісних даних — складно. Це ускладнює застосування AIGC у неангломовних регіонах без додаткового перекладу, що вимагає врахування культурних і мовних особливостей.

Вплив алгоритмів і датасетів

Різні платформи використовують різні алгоритми і датасети, що призводить до суттєвих відмінностей у результатах. Якість, відповідність і стиль даних безпосередньо впливають на кінцевий продукт.

Майбутні три опори розвитку: великі моделі, великі дані, великі обчислювальні ресурси

Майбутнє AIGC визначається трьома напрямками: масштабними передтренованими моделями, накопиченням великих обсягів даних і масштабними інвестиціями у обчислювальні ресурси. Це необхідно для переходу від ролі “помічника” до “самостійного творця”.

Лі Яньхун виділив три етапи розвитку AIGC: перший — “помічник”, коли AI допомагає людині; другий — “співпраця”, коли AI у вигляді віртуального партнера співіснує з людиною; третій — “оригінальність”, коли AI самостійно створює контент. За наступне десятиліття, за прогнозами, AIGC зможе створювати оригінальний контент у десятки разів швидше і дешевше, революціонізуючи існуючі моделі виробництва.

Для досягнення цієї мети важливим стане розвиток вертикальних застосувань, що дозволять більш точно тренувати моделі під конкретні задачі, з меншими витратами і кращими результатами. Також, до врегулювання питань інтелектуальної власності і етики, стратегічним стане збір високоякісних, відповідних стандартам даних.

Чітка дорожня карта інвестиційних можливостей

З макроекономічної точки зору, концепції блокчейну, метавсесвіту і Web3 створюють масштабні сценарії цифрової економіки. Віртуальні персонажі, NFT — це лише частина з них. AIGC виступає ключовим драйвером для переходу від Web2 до Web3, впливаючи на короткий відео-контент, ігри та інші сфери, а також у рамках відкритої співпраці у Web3, де UGC і AIGC контент стають більш привабливими, ідеї для другого покоління контенту і відкритих платформ вже назрівають.

З точки зору інвестицій, можливості у трьох ключових сферах:

  • Програмне забезпечення: компанії у NLP, вертикальні застосування AIGC, розробники великих моделей.
  • Обчислювальна інфраструктура: у контексті обмежень експорту чипів NVIDIA — внутрішні рішення, національні виробники GPU і сервісні компанії.
  • Дані: високоякісні датасети, сервіси очищення і маркування — стратегічно важливі ресурси.

Зараз AIGC — один із найгарячіших напрямків у Кремнієвій долині, з швидким зростанням інтересу і у внутрішньому ринку, і у великих інтернет-компаніях. Це ознака того, що технологія виходить на масштабний рівень застосувань.

Попередження про ризики і ключові спостереження

Технічні ризики: розвиток AIGC може йти повільніше за очікування, особливо у сфері апаратного забезпечення (суперкомп’ютери, чипи).

Регуляторні ризики: у зв’язку з раннім етапом розвитку, можливе введення законодавчих обмежень щодо інтелектуальної власності, авторських прав або інших аспектів AI-контенту, що вплине на галузь.

Конкурентні ризики: входження великих гравців може прискорити консолідацію ринку, а стартапи — опинитися під тиском.

Загалом, цінність AIGC полягає у її здатності революціонізувати спосіб створення контенту. З одного боку, зростає попит на контент і його різноманітність у епоху Web3; з іншого — AIGC пропонує безпрецедентну ефективність. Це ідеальний момент для швидкого розвитку і трансформації різних галузей.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити