Источник: полулегкий
Автор: Ван Юнган
Технологии генеративного ИИ, такие как Stable Diffusion и ChatGPT, в первой половине 2023 года привлекли наибольшее внимание венчурных ИТ-кругов. Когда мы оправимся от великолепной волны новых технологий и начнем серьезно думать о том, какие сценарии приложений являются лучшими направлениями реализации генеративного ИИ, многие люди по-прежнему обнаружат, что отношения между технологиями и рынком сложны, их трудно понять. определить наилучший путь реализации генеративного ИИ:
Самая большая проблема мышления здесь заключается в следующем:
Очевидно, что нецелесообразно анализировать перспективы применения генеративного ИИ только с одной точки зрения или с одной временной точки. Существует ли простая и удобная в использовании модель мышления, связывающая разработку генеративного ИИ?
Мы считаем, что генеративный ИИ — это революция в информационной индустрии, которую можно сравнить с настольными и мобильными вычислениями, и даже она имеет более разрушительный эффект. Подрывные изменения никогда не достигаются в одночасье, они реализуются постепенно по мере непрерывного развития и прогресса генеративного ИИ. Если вы хотите ясно увидеть, какие новые продукты, новые платформы, новые рынки и новые возможности принесет генеративный ИИ, мы думаем, что существует простой и понятный путь мышления, которым легко руководствоваться при выборе продукта и выборе проекта:
**Чем более контролируемым будет генеративный ИИ, тем более разрушительным он будет для рынка и отрасли! **
Этот путь можно просто представить графом:
Поскольку управляемость генеративного ИИ над генерируемым контентом продолжает улучшаться, применимые сценарии приложений для генеративного ИИ будут расширяться и углубляться. Количественные изменения ведут к качественным изменениям. Как только порог домена будет преодолен, генеративный ИИ сможет полностью преобразовать существующую экологию продукта и наделить продукты действительно интеллектуальными элементами.
В процессе эволюции управляемость генеративного ИИ пройдет примерно шесть этапов. В качестве примера возьмем самую простую генерацию текста:
Этап 1: Неуправляемый
Более 20 лет назад модель статистического языка, основанная на алгоритме N-грамм, также могла генерировать непрерывный текстовый контент. Однако полученные результаты в значительной степени неконтролируемы. У такой ранней формы «генеративного ИИ» почти нет возможности превратиться в продукт, не говоря уже о подрыве существующего рынка.
Этап 2: общее направление можно контролировать
От генерации текста на основе LSTM или RNN до ранней генерации текста GPT (например, GPT-2) генеративный ИИ постепенно приобрел способность описывать часть человеческого языка. Умение описывать на этом этапе позволяет в основном создавать беглые предложения, а содержание примерно соответствует подсказкам человека, однако из-за того, что детали, структура или логика неконтролируемы, его по-прежнему сложно превратить в действительно полезный продукт.
Этап 3: Управляемая структура или локальная логика
От GPT-3 до ChatGPT (GPT-3.5) генеративный ИИ впервые контролирует структуру и локальную логику генерируемого контента. Создание текста и многоэтапные беседы — две типичные экологии приложений в этот период. Первый может поддерживать практические сценарии, такие как автоматическое обобщение статей, создание юридических документов и создание маркетинговых копий, в то время как последний может удовлетворить некоторые потребности разговорного поиска, изучения языка, интеллектуального обслуживания клиентов, виртуальных людей и интеллектуальных игровых персонажей.
Этап 4: предварительная цепочка мыслей поддается контролю
С GPT-3.5 до GPT-4 способность генеративного ИИ к логическому мышлению значительно улучшилась. Генеративный ИИ впервые обладает мощными аналитическими возможностями (такими как извлечение данных из новостных сводок и обобщение тенденций), возможностями управления (такими как преобразование человеческого языка в сложные инструкции по управлению системой) и возможностями предварительного логического мышления (такими как ответы на простые математические вопросы). , логические задачи). Текстовое содержимое, которое может быть сгенерировано, также распространяется на структурированный и частично структурированный текст, такой как данные, таблицы, коды, последовательности инструкций, рабочие процессы или цепочки инструментов. Это напрямую привело к появлению большого количества новых инструментов и систем, которые сегодня характеризуются Copilot (буквально переводится как «второй пилот»).
Этап 5. Сложные логические рассуждения поддаются контролю
Конечно, когда сегодняшний GPT-4 генерирует текст, цепочка логического мышления, которой можно управлять, все еще находится в зачаточном состоянии. Если все пойдет хорошо, люди, как ожидается, разработают генеративный ИИ следующего поколения, который сможет точно управлять сложными логическими рассуждениями в недалеком будущем. Такой ИИ обладает расширенными возможностями логического мышления, такими как память, обучение, планирование и принятие решений. Этих возможностей достаточно, чтобы полностью разрушить взаимодействие человека и компьютера в последние десятилетия и переопределить отношения между людьми и компьютерами в таких сценариях, как инструменты повышения эффективности, контент-платформы, автоматизация бизнес-процессов, роботы, операционные системы и интеллектуальные устройства.
Этап 6. Подконтрольные правила или принципы
С более дальновидной точки зрения проявлениями человеческого мышления высшего уровня являются: 1. Открытие принципов и формулировка правил на основе индуктивного мышления 2. Применение принципов или правил к конкретным сценариям на основе дедуктивного мышления. Идеальная эволюционная форма генеративного ИИ — приблизиться к человеческому мышлению, создать правила или принципы, сопоставимые с человеческим мышлением, и применить их. Как только будет достигнуто «Царство свободы», где правила или принципы поддаются контролю, генеративный ИИ будет иметь сильную способность к самоповторению и самосовершенствованию.Он сможет разрабатывать системные правила и мировые правила, как люди, и даже проводить научные исследования. исследования с учеными-людьми.
Улучшение управляемости генеративного ИИ привело к существенному расширению применимой области. Мы используем следующий рисунок, чтобы обобщить взаимосвязь между управляемостью и лучшим направлением применения генеративного ИИ на разных этапах разработки:
Основываясь на управляемости, на каждом этапе разработки направления приложений, поддерживаемые генеративным ИИ, продолжают расширяться и углубляться, от удовлетворения простых и локальных потребностей до постепенного развития для удовлетворения потребностей предметной области и платформы и, наконец, накопления продукта и бизнес-модели. разрушительное изменение. Поддаются ли цепочке мышления и логических рассуждений контроль и в какой степени их можно точно контролировать, являются наиболее важными факторами в процессе перехода от количественных изменений к качественным.
Основываясь на управляемости генеративного ИИ, мы делим наиболее подходящие направления применения генеративного ИИ сегодня и в ближайшем будущем на четыре категории и используем следующий рисунок для сравнения типичных случаев применения в каждой категории с применением генеративного ИИ. различные стадии развития связаны между собой:
Инструмент для создания контента/Платформа для контента
Инструменты для создания контента — это самый прямой и быстрый сценарий для реализации генеративного ИИ. С улучшением управляемости генеративного ИИ задачи создания контента перейдут от простого создания текста и изображений к сложному автоматическому созданию видео, 3D, анимации, игр, фильмов и виртуальных миров. С помощью ИИ у каждого обычного человека появятся способности, которые изначально принадлежали только профессиональным командам и профессиональным инструментам. Как только творческое желание обычных людей высвободится, потребности более высокого уровня в обмене, просмотре, покупке и общении в новых формах контента, несомненно, будут стимулировать рождение, развитие и рост платформ контента нового поколения.
Автоматизация бизнеса/Корпоративные услуги
По таким причинам, как безопасность данных, частное развертывание, точность контента и соответствие требованиям, бизнес-процессы предъявляют очень высокие требования к управляемости генеративного ИИ. Области бизнеса, в которых генеративный ИИ наиболее подходит сегодня, могут включать создание контента в маркетинге и пользовательские интерфейсы в электронной коммерции. Кроме того, генеративный ИИ также может значительно повысить эффективность бизнеса за счет автоматического создания промежуточных кодов, таких как SQL, автоматического сбора и анализа данных, автоматического создания отчетов и автоматического подключения бизнес-процессов. В будущем, с улучшением управляемости генеративного ИИ, более передовые технологии ИИ будут поглощены ключевыми процессами, такими как планирование, принятие решений и оптимизация бизнес-процессов.
Персональный ассистент/профессиональный ассистент
В сценариях личной жизни и офиса генеративный ИИ постепенно будет служить различными формами «помощников» и в течение нескольких лет создаст новую экосистему сотрудничества человека и ИИ. Насколько управляемым является генеративный ИИ, фундаментально определяет, насколько умны ИИ-помощники в нашей жизни или работе и какие проблемы они могут нам помочь решить. Как только генеративный ИИ достигнет уровня, эквивалентного людям-секретарям, водителям, переводчикам, юристам и т. д. в некоторых профессиях, помощники ИИ станут новым поколением популярных электронных продуктов, которые заменят компьютеры и мобильные телефоны.
Инфраструктура/Инструменты разработки/ОС/Поисковые системы
Возможности программирования, возможности обработки данных, возможности проектирования систем и возможности обработки знаний генеративного ИИ обеспечат новые концепции дизайна и новые функции для инструментов разработки, баз данных, поисковых систем и операционных систем. Смогут ли в будущем родиться операционная система с ИИ в качестве ядра и интеллектуальная вычислительная платформа с ИИ в качестве ядра, полностью зависит от того, насколько высокой может достичь способность к сложным логическим рассуждениям генеративного ИИ.
По сравнению с простой генерацией текста и генерацией изображений мультимодальные системы, включающие звук, видео, 3D-сцены, анимацию и сложные сюжетные линии, больше соответствуют здравому смыслу и изначальным потребностям человека и, очевидно, имеют более широкие и далеко идущие перспективы применения. О техническом состоянии и перспективах мультимодального ИИ см. в другой статье автора этой статьи:
В эпоху после GPT мультимодальность — самая большая возможность В области мультимодальности мы считаем, что сегодняшний и будущий генеративный ИИ будет развиваться и накапливаться примерно в соответствии с контекстом, показанным на рисунке ниже, и продолжит рождать революционно новые приложения, новые платформы и даже революционные новые бизнес-модели:
Разрешение на использование
Изображения и текстовое содержимое всех вышеперечисленных дорожных карт приложений выпущены SeedV Lab под лицензией CC BY 4.0. На основании указания первоисточника (лаборатория SeedV) каждый может свободно использовать, модифицировать и переиздавать.
Изображения приведенной выше дорожной карты приложений также являются открытым исходным кодом в следующих местах, добро пожаловать в гости (вы можете напрямую щелкнуть [прочитать исходный текст] в конце статьи, чтобы посетить):
github.com/SeedV/generative-ai-roadmap