Ранее мы обсуждали, как искусственный интеллект и Web3 могут дополнять друг друга в вертикальных отраслях, таких как вычислительные сети, посреднические платформы и потребительские приложения. Когда дело касается данных как вертикальной области, новые веб-проекты предлагают новые возможности для приобретения, обмена и использования данных.
Данные стали ключевым стимулом инноваций и принятия решений в различных отраслях. UBS прогнозирует, что объем глобальных данных вырастет в десять раз с 2020 по 2030 год и достигнет 660 ЗБ. К 2025 году ожидается, что каждый человек в мире будет генерировать 463 ЭБ (эксабайт, 1 ЭБ = 1 миллиард ГБ) данных ежедневно. Рынок Data-as-a-Service (DaaS) быстро расширяется. По данным Grand View Research, глобальный рынок DaaS оценивается в 14,36 миллиарда долларов в 2023 году и ожидается, что к 2030 году он вырастет среднегодовой темп роста (CAGR) 28,1%, достигнув 76,8 миллиарда долларов.
Тренировка модели ИИ в значительной степени зависит от больших наборов данных для выявления закономерностей и настройки параметров. После тренировки также необходимы наборы данных для тестирования производительности и способностей моделей к обобщению. Кроме того, ИИ-агенты, как новые формы интеллектуальных приложений, требуют источников данных в режиме реального времени и надежных для обеспечения точного принятия решений и выполнения задач.
(Источник: Leewayhertz)
Спрос на бизнес-аналитику становится все более разнообразным и широким, служа как основной инструмент, способствующий инновациям в предприятии. Например, платформы социальных медиа и исследовательские фирмы нуждаются в надежных данный о поведении пользователей для разработки стратегий и анализа тенденций, интегрируя разнообразные данные с нескольких социальных платформ для создания более полной картины.
Для экосистемы Web3 также требуются надежные и аутентичные данные on-chain для поддержки новых финансовых продуктов. Поскольку все более инновационные активы токенизируются, требуются гибкие и надежные интерфейсы данных для поддержки разработки продуктов и управления рисками, что позволяет смарт-контрактам выполняться на основе проверяемых данных в реальном времени.
Более того, примеры использования в научных исследованиях, IoT и других областях подчеркивают взрывной спрос на разнообразные, подлинные и актуальные данные. Традиционные системы могут испытывать трудности в справлении с быстро растущим объемом данных и постоянно меняющимися требованиями.
Типичная экосистема данных включает сбор, хранение, обработку, анализ и применение данных. Централизованные модели характеризуются централизованным сбором и хранением данных, управляемыми основной ИТ-командой с строгим контролем доступа. Например, экосистема данных Google охватывает различные источники данных, такие как поисковые системы, Gmail и операционная система Android. Эти платформы собирают данные пользователей, хранят их в глобально распределенных центрах обработки данных и обрабатывают их с использованием алгоритмов для поддержки разработки и оптимизации различных продуктов и услуг.
На финансовых рынках LSEG (ранее Refinitiv) собирает данные в реальном времени и исторические данные от мировых бирж, банков и крупных финансовых институтов, используя свою собственную новостную сеть Reuters, чтобы собирать новости, связанные с рынком. Они обрабатывают эту информацию, используя собственные алгоритмы и модели, чтобы генерировать аналитические продукты и продукты оценки рисков в качестве дополнительных услуг.
(Источник: kdnuggets.com)
В то время как традиционная архитектура данных эффективна в профессиональных услугах, ограничения централизованных моделей становятся все более очевидными, особенно в покрытии новых источников данных, обеспечении прозрачности и защите конфиденциальности пользователей. Ниже приведены некоторые ключевые проблемы:
Например, событие GameStop 2021 года показало ограничения традиционных поставщиков финансовых данных в анализе настроений в социальных сетях. Инвестиционное настроение на платформах вроде Reddit быстро влияет на рыночные тренды, но терминалы данных, такие как Bloomberg и Reuters, не смогли своевременно уловить эти динамики, что привело к задержке прогнозов рынка.
Помимо этих проблем, традиционные поставщики данных сталкиваются с проблемами, связанными с эффективностью затрат и гибкостью. Хотя они активно решают эти проблемы, появляющиеся технологии Web3 предоставляют новые перспективы и возможности для их решения.
С момента запуска децентрализованных решений хранения, таких как IPFS (межпланетная файловая система) в 2014 году, ряд новых проектов нацелились на преодоление ограничений традиционных экосистем данных. Децентрализованные решения данных развились в многоуровневую взаимосвязанную экосистему, охватывающую все этапы жизненного цикла данных, включая генерацию данных, их хранение, обмен, обработку и анализ, проверку и безопасность, а также конфиденциальность и владение.
Поскольку обмен данными и их использование увеличиваются, обеспечение подлинности, достоверности и конфиденциальности становится критическим. Это стимулирует экосистему Web3 на инновации в области проверки данных и защиты конфиденциальности, ведущих к прорывным решениям.
Многие технологии Web3 и родные проекты сосредоточены на решении проблем подлинности данных и защиты конфиденциальности. Помимо широкого использования технологий, таких как доказательства в нулевом знании (ZK) и многосторонние вычисления (MPC), TLS Notary стал заметным новым методом верификации.
Введение в TLS Notary
Протокол защиты транспортного уровня (TLS) - широко используемый протокол шифрования для сетевых коммуникаций. Его основная цель - обеспечить безопасность, целостность и конфиденциальность передачи данных между клиентом и сервером. TLS - общепринятый стандарт шифрования в современных сетевых коммуникациях, применяемый в сценариях, таких как HTTPS, электронная почта и мгновенные сообщения.
(Принципы шифрования TLS, Источник: TechTarget)
Когда TLS Notary был впервые представлен десять лет назад, его целью было проверить подлинность сеансов TLS путем введения стороннего «нотариуса» за пределами клиента (доказывающего) и сервера.
Используя технологию разделения ключей, мастер-ключ TLS-сессии делится на две части, которые хранятся отдельно у клиента и нотариуса. Такая конструкция позволяет нотариусу участвовать в качестве доверенной третьей стороны в процессе проверки, не получая доступа к фактическому содержанию сообщения. Этот механизм предназначен для обнаружения атак типа «злоумышленник посередине», предотвращения поддельных сертификатов и обеспечения того, чтобы коммуникационные данные не были подделаны во время передачи. Это также позволяет доверенным третьим сторонам подтверждать законность сообщений, защищая при этом конфиденциальность.
Таким образом, TLS Notary предлагает безопасную проверку данных и эффективно балансирует потребности в проверке с защитой конфиденциальности.
В 2022 году проект TLS Notary был реструктурирован исследовательской лабораторией Privacy and Scaling Exploration (PSE) Фонда Эфириума. Новая версия протокола TLS Notary была переписана с нуля на языке программирования Rust и интегрирована с более продвинутыми криптографическими протоколами, такими как MPC. Эти обновления позволяют пользователям доказать подлинность полученных данных от сервера третьей стороне, не раскрывая содержание данных. Сохраняя свои основные возможности верификации, новый TLS Notary значительно улучшает защиту конфиденциальности, делая его более подходящим для текущих и будущих требований к конфиденциальности данных.
В последние годы технология TLS Notary продолжает развиваться, что приводит к созданию различных производных продуктов, дополнительно улучшающих ее возможности по обеспечению конфиденциальности и проверки:
Проекты Web3 используют эти криптографические технологии для улучшения проверки данных и защиты конфиденциальности, решая такие проблемы, как монополии данных, разрозненность и надежная передача. Пользователи могут безопасно подтверждать право собственности на учетные записи в социальных сетях, записи о покупках финансовых кредитов, банковскую кредитную историю, профессиональный опыт и академические документы, не ставя под угрозу свою конфиденциальность. Примеры:
(Проекты, работающие над TLS-оракулами, Источник: Бастиан Ветцель)
Проверка данных в Web3 является неотъемлемым звеном в экосистеме данных с огромными перспективами применения. Развитие этой экосистемы направляет цифровую экономику на более открытую, динамичную и ориентированную на пользователя модель. Однако развитие технологий проверки подлинности является лишь началом создания инфраструктуры данных следующего поколения.
Некоторые проекты объединяют вышеупомянутые технологии проверки данных с дальнейшим исследованием экосистем данных верхнего уровня, таких как трассируемость данных, распределенный сбор данных и надежная передача. Ниже мы выделим три представительных проекта - OpenLayer, Grass и Vana - которые демонстрируют уникальный потенциал в создании инфраструктуры следующего поколения данных.
OpenLayer, один из проектов программы ускоренного старта a16z Crypto 2024 весны, является первым модульным аутентичным уровнем данных. Он стремится предоставить инновационное модульное решение для координации сбора, проверки и преобразования данных, отвечая потребностям как компаний Web2, так и Web3. OpenLayer получил поддержку известных фондов и ангельских инвесторов, включая Geometry Ventures и LongHash Ventures.
Традиционные уровни данных сталкиваются с несколькими проблемами: отсутствие надежных механизмов проверки, зависимость от централизованных архитектур, которые ограничивают доступность, отсутствие совместимости и потока между различными системами, а также отсутствие механизмов справедливого распределения стоимости данных.
Более конкретной проблемой является увеличение дефицита обучающих данных для искусственного интеллекта. На общедоступном интернете многие веб-сайты теперь применяют меры по борьбе со съемом данных, чтобы предотвратить массовый сбор данных компаниями по искусственному интеллекту. В частных собственных данных ситуация еще более сложная. Ценные данные часто хранятся в защищенном от доступа в силу их чувствительной природы, отсутствуют эффективные стимулирующие механизмы. Пользователи не могут безопасно монетизировать свои личные данные и, таким образом, неохотно делятся чувствительной информацией.
Чтобы решить эти проблемы, OpenLayer объединяет технологии проверки данных для создания модульного уровня аутентификации данных. С помощью децентрализации и экономических стимулов он координирует процессы сбора, проверки и преобразования данных, обеспечивая более безопасную, эффективную и гибкую инфраструктуру данных для компаний Web2 и Web3.
OpenLayer предоставляет модульную платформу, которая упрощает процессы сбора данных, проверки достоверности и трансформации.
a) OpenNodes
OpenNodes - это основные компоненты, ответственные за децентрализованный сбор данных в экосистеме OpenLayer. Через мобильные приложения, расширения браузера и другие каналы пользователи могут собирать данные. Различные операторы/узлы могут оптимизировать свои награды, выполняя задачи, наиболее подходящие для их аппаратных характеристик.
OpenNodes поддерживает три основных типа данных:
Разработчики могут легко добавлять новые типы данных, указывать источники данных и определять требования и методы извлечения данных. Пользователи могут предоставлять анонимизированные данные в обмен на вознаграждение. Эта концепция позволяет системе непрерывно расширяться, чтобы удовлетворять новым требованиям к данным. Разнообразные источники данных делают OpenLayer подходящим для различных сценариев применения и снижают порог предоставления данных.
b) OpenValidators
OpenValidators обрабатывает проверку собранных данных, позволяя потребителям данных подтвердить точность предоставленных пользователями данных по их источнику. Методы проверки используют криптографические доказательства, и результаты могут быть проверены впоследствии. Несколько провайдеров могут предлагать услуги проверки для одного и того же типа доказательства, позволяя разработчикам выбирать наиболее подходящего провайдера для своих потребностей.
В первоначальных случаях использования, особенно для общедоступных или частных данных из интернет-API, OpenLayer использует TLS Notary в качестве решения для проверки. Он экспортирует данные из любого веб-приложения и проверяет их подлинность, не нарушая конфиденциальность.
Помимо TLS Notary благодаря своему модульному дизайну система верификации легко может интегрировать другие методы, чтобы удовлетворить разнообразные потребности в данных и верификации, включая:
c) OpenConnect
OpenConnect - это модуль, ответственный за преобразование данных и их удобство использования в экосистеме OpenLayer. Он обрабатывает данные из различных источников, обеспечивая взаимодействие между различными системами для удовлетворения разнообразных требований приложений. Например:
Обеспечение анонимизации данных, сохраняющей конфиденциальность пользовательских аккаунтов, при повышении безопасности при совместном использовании данных для снижения утечек и злоупотреблений.
Для удовлетворения запросов на данные в режиме реального времени для приложений искусственного интеллекта и блокчейн OpenConnect поддерживает эффективное преобразование данных в режиме реального времени.
В настоящее время, благодаря интеграции с EigenLayer, операторы OpenLayer AVS (Active Validation Service) контролируют задачи запроса данных, собирают данные, проверяют и сообщают результаты системе. Операторы ставят или переставляют активы на EigenLayer, чтобы обеспечить экономические гарантии своих действий. Злонамеренное поведение приводит к снижению активов. Как один из самых ранних проектов AVS на основной сети EigenLayer, OpenLayer привлек более 50 операторов и $4 миллиарда активов, переставленных.
Grass, флагманский проект, разработанный Wynd Network, предназначен для создания децентрализованного сетевого краулера и платформы данных для обучения искусственного интеллекта. К концу 2023 года Grass завершил раунд затравочного финансирования на сумму $3.5 миллиона, возглавляемый Polychain Capital и Tribe Capital. В сентябре 2024 года он обеспечил финансирование серии A на сумму $5 миллионов, возглавляемое HackVC и с дополнительным участием Polychain, Delphi, Lattice и Brevan Howard.
Поскольку обучение ИИ все больше опирается на разнообразные и обширные источники данных, Grass удовлетворяет эту потребность, создавая распределенную сеть узлов поискового робота. Эта сеть использует децентрализованную физическую инфраструктуру и пропускную способность простаивающих пользователей для сбора и предоставления проверяемых наборов данных для обучения ИИ. Узлы маршрутизируют веб-запросы через интернет-соединения пользователей, получая доступ к общедоступным веб-сайтам и компилируя структурированные наборы данных. Первоначальная очистка и форматирование данных выполняются с использованием технологии edge computing, обеспечивающей высокое качество выходных данных.
Grass использует архитектуру Solana Layer 2 Data Rollup для повышения эффективности обработки. Валидаторы получают, проверяют и пакетно обрабатывают веб-транзакции от узлов, генерируя доказательства Zero-Knowledge (ZK) для подтверждения подлинности данных. Проверенные данные хранятся в Grass Data Ledger (L2), а соответствующие доказательства связаны с блокчейном Solana L1.
а) Узлы травы:
Пользователи устанавливают приложение Grass или расширение для браузера, что позволяет использовать их простаивающую пропускную способность для децентрализованного веб-сканирования. Узлы маршрутизируют веб-запросы, получают доступ к общедоступным веб-сайтам и компилируют структурированные наборы данных. Используя edge computing, они выполняют первоначальную очистку и форматирование данных. Пользователи зарабатывают токены GRASS в качестве вознаграждения в зависимости от их вклада в пропускную способность и объема предоставленных данных.
b) Маршрутизаторы:
Действуя в качестве посредников, маршрутизаторы соединяют узлы Grass с валидаторами. Они управляют сетью узлов и передают пропускную способность, получая стимулы на основе общей проверенной пропускной способности, которую они обеспечивают.
c) Валидаторы:
Валидаторы получают и проверяют веб-транзакции, ретранслируемые маршрутизаторами. Они генерируют ZK-доказательства, чтобы подтвердить действительность данных, используя уникальные наборы ключей для установления безопасных соединений TLS и наборов шифрования. В настоящее время Grass использует централизованных валидаторов, но имеются планы по переходу к децентрализованному валидаторскому комитету.
d) Процессоры ZK:
Эти процессоры проверяют узловые данные сеанса и пакетируют все доказательства веб-запросов для отправки на Уровень 1 Solana.
e) Уровень данных травы (Grass L2):
Хранилище данных Grass Ledger хранит полные наборы данных и связывает их с соответствующими L1-доказательствами на платформе Solana, обеспечивая прозрачность и прослеживаемость.
f) Модели встраивания края:
Эти модели преобразуют неструктурированные веб-данные в структурированные наборы данных, подходящие для обучения искусственного интеллекта.
Источник: Трава
Grass и OpenLayer разделяют обязательство использования распределенных сетей для предоставления компаниям доступа к открытым интернет-данным и аутентифицированным частным данным. Оба используют механизмы стимулирования для содействия обмену данными и созданию высококачественных наборов данных, но их технические архитектуры и бизнес-модели отличаются.
Техническая архитектура:
Grass использует архитектуру Solana Layer 2 Data Rollup с централизованной валидацией, полагаясь на одного валидатора. OpenLayer, как ранний принимающий AVS (Active Validation Service) от EigenLayer, использует децентрализованный механизм валидации с использованием экономических стимулов и штрафов за сокращение. Его модульный дизайн подчеркивает масштабируемость и гибкость в услугах проверки данных.
Фокус продукта:
Оба проекта позволяют пользователям монетизировать данные через узлы, но их деловые сценарии использования различаются:
Grass в первую очередь ориентирован на компании в области искусственного интеллекта и специалистов по обработке данных, нуждающихся в масштабных структурированных наборах данных, а также на исследовательские учреждения и предприятия, нуждающиеся в веб-данных. OpenLayer ориентирован на разработчиков Web3, нуждающихся в источниках данных вне цепи, компании по искусственному интеллекту, нуждающиеся в потоковых данных в реальном времени, подтверждаемых в реальном времени, и предприятия, стремящиеся к инновационным стратегиям, таким как проверка использования продуктов конкурентов.
В то время как оба проекта в настоящее время занимают разные ниши, их функциональности могут сливаться по мере развития отрасли:
Оба проекта также могут интегрировать разметку данных как критический этап для обучения наборов данных. Grass, с его огромной сетью из более чем 2,2 миллионов активных узлов, мог быстро развернуть услуги обучения с подкреплением с обратной связью человека (RLHF) для оптимизации моделей искусственного интеллекта. OpenLayer, благодаря своему опыту в верификации и обработке данных в реальном времени, мог бы поддерживать преимущество в области достоверности и качества данных, особенно для частных наборов данных.
Несмотря на потенциальные перекрытия, их уникальные преимущества и технологические подходы могут позволить им доминировать в разных нишах в децентрализованной экосистеме данных.
(Источник: IOSG, Дэвид)
Vana - это сеть пулов данных, ориентированная на пользователя и разработанная для предоставления высококачественных данных для искусственного интеллекта и связанных приложений. По сравнению с OpenLayer и Grass, Vana имеет отдельный технологический и бизнес-подход. В сентябре 2024 года Vana привлекла $5 млн инвестиций, возглавленных Coinbase Ventures, после раунда серии A на $18 млн, в котором участвовали Paradigm в качестве главного инвестора, а также Polychain и Casey Caruso.
Запущенный в 2018 году как исследовательский проект MIT, Vana является блокчейн-платформой уровня 1, посвященной частной пользовательской информации. Ее инновации в области владения данными и распределения стоимости позволяют пользователям получать прибыль от моделей искусственного интеллекта, обученных на их данных. Vana достигает этого через безопасные, частные и прослеживаемые пулы ликвидности данных (DLP) и инновационный механизм доказательства вклада, который облегчает поток и монетизацию частных данных.
Vana представляет уникальную концепцию Пулов Жидкости Данных (DLP), которые являются основой сети Vana. Каждый DLP - это независимая сеть пирингов, агрегирующая определенные типы данных. Пользователи могут загружать свои личные данные - такие как записи о покупках, привычки в интернете и активность в социальных медиа - в указанные DLP и решать, разрешать ли конкретное использование третьим лицам.
Данные, находящиеся в этих пулах, проходят деидентификацию для защиты конфиденциальности пользователей, сохраняя при этом возможность применения для коммерческих целей, таких как обучение моделей искусственного интеллекта и исследования рынка. Пользователи, вносящие данные в DLP, получают вознаграждение в виде соответствующих токенов DLP. Эти токены представляют вклад пользователя в пул, предоставляют права на управление и дают право на долю в будущей прибыли.
В отличие от традиционной единоразовой продажи данных, Vana позволяет данным непрерывно участвовать в экономическом цикле, обеспечивая пользователям постоянные вознаграждения с прозрачным, визуализированным отслеживанием использования.
Механизм Proof of Contribution (PoC) является краеугольным камнем подхода Vana к обеспечению качества данных. Каждая DLP может определить уникальную функцию PoC, адаптированную к ее характеристикам, проверяя подлинность и полноту предоставленных данных и оценивая свой вклад в повышение производительности модели ИИ. Этот механизм количественно оценивает вклад пользователей, записывая их для распределения вознаграждения. Подобно концепции «Proof of Work» в криптовалюте, PoC вознаграждает пользователей в зависимости от качества, количества и частоты использования данных. Смарт-контракты автоматизируют этот процесс, гарантируя, что вкладчики получают справедливое и прозрачное вознаграждение.
Этот основной уровень позволяет вносить, проверять и записывать данные в DLP, преобразуя данные в передаваемые цифровые активы on-chain. Создатели DLP развертывают смарт-контракты для установки целей, методов верификации и параметров взноса. Участники предоставляют данные для проверки, и модуль PoC оценивает качество данных и назначает права управления и вознаграждения.
Служащая приложением Vana, эта платформа облегчает сотрудничество между вкладчиками данных и разработчиками. Она предоставляет инфраструктуру для создания распределенных моделей обучения и приложений искусственного интеллекта с использованием ликвидности в DLP.
Децентрализованный реестр, лежащий в основе экосистемы Vana, Connectome действует как картография потока данных в реальном времени. Он записывает все транзакции данных в реальном времени с использованием консенсуса Proof of Stake, обеспечивая эффективный перевод токенов DLP и обеспечивая доступ к данным DLP. Полностью совместим с EVM, он позволяет взаимодействовать с другими сетями, протоколами и приложениями DeFi.
(Источник: Vana)
Vana предлагает новый подход, фокусируясь на ликвидности и уполномочивании пользовательских данных. Эта децентрализованная модель обмена данными не только поддерживает тренировку и рынки данных искусственного интеллекта, но также обеспечивает безупречное поперечное платформенное совместное использование данных и их владение в экосистеме Web3. В конечном итоге это способствует открытому интернету, где пользователи могут владеть и управлять своими данными и интеллектуальными продуктами, созданными на их основе.
В 2006 году известный специалист по данным Клайв Хамби заметил: "Данные - новая нефть". За последние два десятилетия мы стали свидетелями быстрого развития технологий, "очищающих" этот ресурс, таких как аналитика больших данных и машинное обучение, которые позволили извлечь несравненную ценность из данных. По данным IDC, к 2025 году глобальная сфера данных расширится до 163 ZB, преимущественно за счет отдельных лиц. Поскольку интернет вещей, носимые устройства, искусственный интеллект и персонализированные услуги становятся все более широко распространенными, большая часть данных, необходимых для коммерческого использования, будет поступать от отдельных лиц.
Веб-решения Web3 преодолевают ограничения традиционной инфраструктуры, используя распределенные сети узлов. Эти сети обеспечивают более широкий и эффективный сбор данных, улучшая доступность и верифицируемость конкретных наборов данных в реальном времени. Технологии Web3 обеспечивают подлинность и целостность данных, защищая при этом конфиденциальность пользователей, способствуя более справедливой модели использования данных. Децентрализованная архитектура демократизирует доступ к данным и дает пользователям возможность разделять экономические выгоды от экономики данных.
Как OpenLayer, так и Grass полагаются на модели пользователь-узел для улучшения конкретных процессов сбора данных, в то время как Vana монетизирует частные пользовательские данные. Эти подходы не только повышают эффективность, но и позволяют обычным пользователям участвовать в создании ценности экономики данных, создавая выигрышную ситуацию для пользователей и разработчиков.
Через токеномику решения данных Web3 перепроектируют модели стимулирования, устанавливая более справедливый механизм распределения стоимости. Эти системы привлекают значительное участие пользователей, аппаратных ресурсов и капитальных инвестиций, оптимизируя работу всей сети данных.
Решения Web3 обеспечивают модульность и масштабируемость, позволяя осуществлять технологическую итерацию и расширение экосистемы. Например: модульный дизайн OpenLayer обеспечивает гибкость для будущих усовершенствований; распределенная архитектура Grass оптимизирует обучение моделей искусственного интеллекта, предоставляя разнообразные и качественные наборы данных.
От генерации, хранения и проверки данных до обмена и анализа — решения на основе Web3 устраняют недостатки традиционных инфраструктур. Предоставляя пользователям возможность монетизировать свои данные, эти решения коренным образом трансформируют экономику данных.
По мере развития технологий и расширения сценариев применения децентрализованные уровни данных готовы стать угловым камнем инфраструктуры следующего поколения. Они будут поддерживать широкий спектр отраслей, ориентированных на данные, обеспечивая пользователям контроль над своими данными и их экономическим потенциалом.
Ранее мы обсуждали, как искусственный интеллект и Web3 могут дополнять друг друга в вертикальных отраслях, таких как вычислительные сети, посреднические платформы и потребительские приложения. Когда дело касается данных как вертикальной области, новые веб-проекты предлагают новые возможности для приобретения, обмена и использования данных.
Данные стали ключевым стимулом инноваций и принятия решений в различных отраслях. UBS прогнозирует, что объем глобальных данных вырастет в десять раз с 2020 по 2030 год и достигнет 660 ЗБ. К 2025 году ожидается, что каждый человек в мире будет генерировать 463 ЭБ (эксабайт, 1 ЭБ = 1 миллиард ГБ) данных ежедневно. Рынок Data-as-a-Service (DaaS) быстро расширяется. По данным Grand View Research, глобальный рынок DaaS оценивается в 14,36 миллиарда долларов в 2023 году и ожидается, что к 2030 году он вырастет среднегодовой темп роста (CAGR) 28,1%, достигнув 76,8 миллиарда долларов.
Тренировка модели ИИ в значительной степени зависит от больших наборов данных для выявления закономерностей и настройки параметров. После тренировки также необходимы наборы данных для тестирования производительности и способностей моделей к обобщению. Кроме того, ИИ-агенты, как новые формы интеллектуальных приложений, требуют источников данных в режиме реального времени и надежных для обеспечения точного принятия решений и выполнения задач.
(Источник: Leewayhertz)
Спрос на бизнес-аналитику становится все более разнообразным и широким, служа как основной инструмент, способствующий инновациям в предприятии. Например, платформы социальных медиа и исследовательские фирмы нуждаются в надежных данный о поведении пользователей для разработки стратегий и анализа тенденций, интегрируя разнообразные данные с нескольких социальных платформ для создания более полной картины.
Для экосистемы Web3 также требуются надежные и аутентичные данные on-chain для поддержки новых финансовых продуктов. Поскольку все более инновационные активы токенизируются, требуются гибкие и надежные интерфейсы данных для поддержки разработки продуктов и управления рисками, что позволяет смарт-контрактам выполняться на основе проверяемых данных в реальном времени.
Более того, примеры использования в научных исследованиях, IoT и других областях подчеркивают взрывной спрос на разнообразные, подлинные и актуальные данные. Традиционные системы могут испытывать трудности в справлении с быстро растущим объемом данных и постоянно меняющимися требованиями.
Типичная экосистема данных включает сбор, хранение, обработку, анализ и применение данных. Централизованные модели характеризуются централизованным сбором и хранением данных, управляемыми основной ИТ-командой с строгим контролем доступа. Например, экосистема данных Google охватывает различные источники данных, такие как поисковые системы, Gmail и операционная система Android. Эти платформы собирают данные пользователей, хранят их в глобально распределенных центрах обработки данных и обрабатывают их с использованием алгоритмов для поддержки разработки и оптимизации различных продуктов и услуг.
На финансовых рынках LSEG (ранее Refinitiv) собирает данные в реальном времени и исторические данные от мировых бирж, банков и крупных финансовых институтов, используя свою собственную новостную сеть Reuters, чтобы собирать новости, связанные с рынком. Они обрабатывают эту информацию, используя собственные алгоритмы и модели, чтобы генерировать аналитические продукты и продукты оценки рисков в качестве дополнительных услуг.
(Источник: kdnuggets.com)
В то время как традиционная архитектура данных эффективна в профессиональных услугах, ограничения централизованных моделей становятся все более очевидными, особенно в покрытии новых источников данных, обеспечении прозрачности и защите конфиденциальности пользователей. Ниже приведены некоторые ключевые проблемы:
Например, событие GameStop 2021 года показало ограничения традиционных поставщиков финансовых данных в анализе настроений в социальных сетях. Инвестиционное настроение на платформах вроде Reddit быстро влияет на рыночные тренды, но терминалы данных, такие как Bloomberg и Reuters, не смогли своевременно уловить эти динамики, что привело к задержке прогнозов рынка.
Помимо этих проблем, традиционные поставщики данных сталкиваются с проблемами, связанными с эффективностью затрат и гибкостью. Хотя они активно решают эти проблемы, появляющиеся технологии Web3 предоставляют новые перспективы и возможности для их решения.
С момента запуска децентрализованных решений хранения, таких как IPFS (межпланетная файловая система) в 2014 году, ряд новых проектов нацелились на преодоление ограничений традиционных экосистем данных. Децентрализованные решения данных развились в многоуровневую взаимосвязанную экосистему, охватывающую все этапы жизненного цикла данных, включая генерацию данных, их хранение, обмен, обработку и анализ, проверку и безопасность, а также конфиденциальность и владение.
Поскольку обмен данными и их использование увеличиваются, обеспечение подлинности, достоверности и конфиденциальности становится критическим. Это стимулирует экосистему Web3 на инновации в области проверки данных и защиты конфиденциальности, ведущих к прорывным решениям.
Многие технологии Web3 и родные проекты сосредоточены на решении проблем подлинности данных и защиты конфиденциальности. Помимо широкого использования технологий, таких как доказательства в нулевом знании (ZK) и многосторонние вычисления (MPC), TLS Notary стал заметным новым методом верификации.
Введение в TLS Notary
Протокол защиты транспортного уровня (TLS) - широко используемый протокол шифрования для сетевых коммуникаций. Его основная цель - обеспечить безопасность, целостность и конфиденциальность передачи данных между клиентом и сервером. TLS - общепринятый стандарт шифрования в современных сетевых коммуникациях, применяемый в сценариях, таких как HTTPS, электронная почта и мгновенные сообщения.
(Принципы шифрования TLS, Источник: TechTarget)
Когда TLS Notary был впервые представлен десять лет назад, его целью было проверить подлинность сеансов TLS путем введения стороннего «нотариуса» за пределами клиента (доказывающего) и сервера.
Используя технологию разделения ключей, мастер-ключ TLS-сессии делится на две части, которые хранятся отдельно у клиента и нотариуса. Такая конструкция позволяет нотариусу участвовать в качестве доверенной третьей стороны в процессе проверки, не получая доступа к фактическому содержанию сообщения. Этот механизм предназначен для обнаружения атак типа «злоумышленник посередине», предотвращения поддельных сертификатов и обеспечения того, чтобы коммуникационные данные не были подделаны во время передачи. Это также позволяет доверенным третьим сторонам подтверждать законность сообщений, защищая при этом конфиденциальность.
Таким образом, TLS Notary предлагает безопасную проверку данных и эффективно балансирует потребности в проверке с защитой конфиденциальности.
В 2022 году проект TLS Notary был реструктурирован исследовательской лабораторией Privacy and Scaling Exploration (PSE) Фонда Эфириума. Новая версия протокола TLS Notary была переписана с нуля на языке программирования Rust и интегрирована с более продвинутыми криптографическими протоколами, такими как MPC. Эти обновления позволяют пользователям доказать подлинность полученных данных от сервера третьей стороне, не раскрывая содержание данных. Сохраняя свои основные возможности верификации, новый TLS Notary значительно улучшает защиту конфиденциальности, делая его более подходящим для текущих и будущих требований к конфиденциальности данных.
В последние годы технология TLS Notary продолжает развиваться, что приводит к созданию различных производных продуктов, дополнительно улучшающих ее возможности по обеспечению конфиденциальности и проверки:
Проекты Web3 используют эти криптографические технологии для улучшения проверки данных и защиты конфиденциальности, решая такие проблемы, как монополии данных, разрозненность и надежная передача. Пользователи могут безопасно подтверждать право собственности на учетные записи в социальных сетях, записи о покупках финансовых кредитов, банковскую кредитную историю, профессиональный опыт и академические документы, не ставя под угрозу свою конфиденциальность. Примеры:
(Проекты, работающие над TLS-оракулами, Источник: Бастиан Ветцель)
Проверка данных в Web3 является неотъемлемым звеном в экосистеме данных с огромными перспективами применения. Развитие этой экосистемы направляет цифровую экономику на более открытую, динамичную и ориентированную на пользователя модель. Однако развитие технологий проверки подлинности является лишь началом создания инфраструктуры данных следующего поколения.
Некоторые проекты объединяют вышеупомянутые технологии проверки данных с дальнейшим исследованием экосистем данных верхнего уровня, таких как трассируемость данных, распределенный сбор данных и надежная передача. Ниже мы выделим три представительных проекта - OpenLayer, Grass и Vana - которые демонстрируют уникальный потенциал в создании инфраструктуры следующего поколения данных.
OpenLayer, один из проектов программы ускоренного старта a16z Crypto 2024 весны, является первым модульным аутентичным уровнем данных. Он стремится предоставить инновационное модульное решение для координации сбора, проверки и преобразования данных, отвечая потребностям как компаний Web2, так и Web3. OpenLayer получил поддержку известных фондов и ангельских инвесторов, включая Geometry Ventures и LongHash Ventures.
Традиционные уровни данных сталкиваются с несколькими проблемами: отсутствие надежных механизмов проверки, зависимость от централизованных архитектур, которые ограничивают доступность, отсутствие совместимости и потока между различными системами, а также отсутствие механизмов справедливого распределения стоимости данных.
Более конкретной проблемой является увеличение дефицита обучающих данных для искусственного интеллекта. На общедоступном интернете многие веб-сайты теперь применяют меры по борьбе со съемом данных, чтобы предотвратить массовый сбор данных компаниями по искусственному интеллекту. В частных собственных данных ситуация еще более сложная. Ценные данные часто хранятся в защищенном от доступа в силу их чувствительной природы, отсутствуют эффективные стимулирующие механизмы. Пользователи не могут безопасно монетизировать свои личные данные и, таким образом, неохотно делятся чувствительной информацией.
Чтобы решить эти проблемы, OpenLayer объединяет технологии проверки данных для создания модульного уровня аутентификации данных. С помощью децентрализации и экономических стимулов он координирует процессы сбора, проверки и преобразования данных, обеспечивая более безопасную, эффективную и гибкую инфраструктуру данных для компаний Web2 и Web3.
OpenLayer предоставляет модульную платформу, которая упрощает процессы сбора данных, проверки достоверности и трансформации.
a) OpenNodes
OpenNodes - это основные компоненты, ответственные за децентрализованный сбор данных в экосистеме OpenLayer. Через мобильные приложения, расширения браузера и другие каналы пользователи могут собирать данные. Различные операторы/узлы могут оптимизировать свои награды, выполняя задачи, наиболее подходящие для их аппаратных характеристик.
OpenNodes поддерживает три основных типа данных:
Разработчики могут легко добавлять новые типы данных, указывать источники данных и определять требования и методы извлечения данных. Пользователи могут предоставлять анонимизированные данные в обмен на вознаграждение. Эта концепция позволяет системе непрерывно расширяться, чтобы удовлетворять новым требованиям к данным. Разнообразные источники данных делают OpenLayer подходящим для различных сценариев применения и снижают порог предоставления данных.
b) OpenValidators
OpenValidators обрабатывает проверку собранных данных, позволяя потребителям данных подтвердить точность предоставленных пользователями данных по их источнику. Методы проверки используют криптографические доказательства, и результаты могут быть проверены впоследствии. Несколько провайдеров могут предлагать услуги проверки для одного и того же типа доказательства, позволяя разработчикам выбирать наиболее подходящего провайдера для своих потребностей.
В первоначальных случаях использования, особенно для общедоступных или частных данных из интернет-API, OpenLayer использует TLS Notary в качестве решения для проверки. Он экспортирует данные из любого веб-приложения и проверяет их подлинность, не нарушая конфиденциальность.
Помимо TLS Notary благодаря своему модульному дизайну система верификации легко может интегрировать другие методы, чтобы удовлетворить разнообразные потребности в данных и верификации, включая:
c) OpenConnect
OpenConnect - это модуль, ответственный за преобразование данных и их удобство использования в экосистеме OpenLayer. Он обрабатывает данные из различных источников, обеспечивая взаимодействие между различными системами для удовлетворения разнообразных требований приложений. Например:
Обеспечение анонимизации данных, сохраняющей конфиденциальность пользовательских аккаунтов, при повышении безопасности при совместном использовании данных для снижения утечек и злоупотреблений.
Для удовлетворения запросов на данные в режиме реального времени для приложений искусственного интеллекта и блокчейн OpenConnect поддерживает эффективное преобразование данных в режиме реального времени.
В настоящее время, благодаря интеграции с EigenLayer, операторы OpenLayer AVS (Active Validation Service) контролируют задачи запроса данных, собирают данные, проверяют и сообщают результаты системе. Операторы ставят или переставляют активы на EigenLayer, чтобы обеспечить экономические гарантии своих действий. Злонамеренное поведение приводит к снижению активов. Как один из самых ранних проектов AVS на основной сети EigenLayer, OpenLayer привлек более 50 операторов и $4 миллиарда активов, переставленных.
Grass, флагманский проект, разработанный Wynd Network, предназначен для создания децентрализованного сетевого краулера и платформы данных для обучения искусственного интеллекта. К концу 2023 года Grass завершил раунд затравочного финансирования на сумму $3.5 миллиона, возглавляемый Polychain Capital и Tribe Capital. В сентябре 2024 года он обеспечил финансирование серии A на сумму $5 миллионов, возглавляемое HackVC и с дополнительным участием Polychain, Delphi, Lattice и Brevan Howard.
Поскольку обучение ИИ все больше опирается на разнообразные и обширные источники данных, Grass удовлетворяет эту потребность, создавая распределенную сеть узлов поискового робота. Эта сеть использует децентрализованную физическую инфраструктуру и пропускную способность простаивающих пользователей для сбора и предоставления проверяемых наборов данных для обучения ИИ. Узлы маршрутизируют веб-запросы через интернет-соединения пользователей, получая доступ к общедоступным веб-сайтам и компилируя структурированные наборы данных. Первоначальная очистка и форматирование данных выполняются с использованием технологии edge computing, обеспечивающей высокое качество выходных данных.
Grass использует архитектуру Solana Layer 2 Data Rollup для повышения эффективности обработки. Валидаторы получают, проверяют и пакетно обрабатывают веб-транзакции от узлов, генерируя доказательства Zero-Knowledge (ZK) для подтверждения подлинности данных. Проверенные данные хранятся в Grass Data Ledger (L2), а соответствующие доказательства связаны с блокчейном Solana L1.
а) Узлы травы:
Пользователи устанавливают приложение Grass или расширение для браузера, что позволяет использовать их простаивающую пропускную способность для децентрализованного веб-сканирования. Узлы маршрутизируют веб-запросы, получают доступ к общедоступным веб-сайтам и компилируют структурированные наборы данных. Используя edge computing, они выполняют первоначальную очистку и форматирование данных. Пользователи зарабатывают токены GRASS в качестве вознаграждения в зависимости от их вклада в пропускную способность и объема предоставленных данных.
b) Маршрутизаторы:
Действуя в качестве посредников, маршрутизаторы соединяют узлы Grass с валидаторами. Они управляют сетью узлов и передают пропускную способность, получая стимулы на основе общей проверенной пропускной способности, которую они обеспечивают.
c) Валидаторы:
Валидаторы получают и проверяют веб-транзакции, ретранслируемые маршрутизаторами. Они генерируют ZK-доказательства, чтобы подтвердить действительность данных, используя уникальные наборы ключей для установления безопасных соединений TLS и наборов шифрования. В настоящее время Grass использует централизованных валидаторов, но имеются планы по переходу к децентрализованному валидаторскому комитету.
d) Процессоры ZK:
Эти процессоры проверяют узловые данные сеанса и пакетируют все доказательства веб-запросов для отправки на Уровень 1 Solana.
e) Уровень данных травы (Grass L2):
Хранилище данных Grass Ledger хранит полные наборы данных и связывает их с соответствующими L1-доказательствами на платформе Solana, обеспечивая прозрачность и прослеживаемость.
f) Модели встраивания края:
Эти модели преобразуют неструктурированные веб-данные в структурированные наборы данных, подходящие для обучения искусственного интеллекта.
Источник: Трава
Grass и OpenLayer разделяют обязательство использования распределенных сетей для предоставления компаниям доступа к открытым интернет-данным и аутентифицированным частным данным. Оба используют механизмы стимулирования для содействия обмену данными и созданию высококачественных наборов данных, но их технические архитектуры и бизнес-модели отличаются.
Техническая архитектура:
Grass использует архитектуру Solana Layer 2 Data Rollup с централизованной валидацией, полагаясь на одного валидатора. OpenLayer, как ранний принимающий AVS (Active Validation Service) от EigenLayer, использует децентрализованный механизм валидации с использованием экономических стимулов и штрафов за сокращение. Его модульный дизайн подчеркивает масштабируемость и гибкость в услугах проверки данных.
Фокус продукта:
Оба проекта позволяют пользователям монетизировать данные через узлы, но их деловые сценарии использования различаются:
Grass в первую очередь ориентирован на компании в области искусственного интеллекта и специалистов по обработке данных, нуждающихся в масштабных структурированных наборах данных, а также на исследовательские учреждения и предприятия, нуждающиеся в веб-данных. OpenLayer ориентирован на разработчиков Web3, нуждающихся в источниках данных вне цепи, компании по искусственному интеллекту, нуждающиеся в потоковых данных в реальном времени, подтверждаемых в реальном времени, и предприятия, стремящиеся к инновационным стратегиям, таким как проверка использования продуктов конкурентов.
В то время как оба проекта в настоящее время занимают разные ниши, их функциональности могут сливаться по мере развития отрасли:
Оба проекта также могут интегрировать разметку данных как критический этап для обучения наборов данных. Grass, с его огромной сетью из более чем 2,2 миллионов активных узлов, мог быстро развернуть услуги обучения с подкреплением с обратной связью человека (RLHF) для оптимизации моделей искусственного интеллекта. OpenLayer, благодаря своему опыту в верификации и обработке данных в реальном времени, мог бы поддерживать преимущество в области достоверности и качества данных, особенно для частных наборов данных.
Несмотря на потенциальные перекрытия, их уникальные преимущества и технологические подходы могут позволить им доминировать в разных нишах в децентрализованной экосистеме данных.
(Источник: IOSG, Дэвид)
Vana - это сеть пулов данных, ориентированная на пользователя и разработанная для предоставления высококачественных данных для искусственного интеллекта и связанных приложений. По сравнению с OpenLayer и Grass, Vana имеет отдельный технологический и бизнес-подход. В сентябре 2024 года Vana привлекла $5 млн инвестиций, возглавленных Coinbase Ventures, после раунда серии A на $18 млн, в котором участвовали Paradigm в качестве главного инвестора, а также Polychain и Casey Caruso.
Запущенный в 2018 году как исследовательский проект MIT, Vana является блокчейн-платформой уровня 1, посвященной частной пользовательской информации. Ее инновации в области владения данными и распределения стоимости позволяют пользователям получать прибыль от моделей искусственного интеллекта, обученных на их данных. Vana достигает этого через безопасные, частные и прослеживаемые пулы ликвидности данных (DLP) и инновационный механизм доказательства вклада, который облегчает поток и монетизацию частных данных.
Vana представляет уникальную концепцию Пулов Жидкости Данных (DLP), которые являются основой сети Vana. Каждый DLP - это независимая сеть пирингов, агрегирующая определенные типы данных. Пользователи могут загружать свои личные данные - такие как записи о покупках, привычки в интернете и активность в социальных медиа - в указанные DLP и решать, разрешать ли конкретное использование третьим лицам.
Данные, находящиеся в этих пулах, проходят деидентификацию для защиты конфиденциальности пользователей, сохраняя при этом возможность применения для коммерческих целей, таких как обучение моделей искусственного интеллекта и исследования рынка. Пользователи, вносящие данные в DLP, получают вознаграждение в виде соответствующих токенов DLP. Эти токены представляют вклад пользователя в пул, предоставляют права на управление и дают право на долю в будущей прибыли.
В отличие от традиционной единоразовой продажи данных, Vana позволяет данным непрерывно участвовать в экономическом цикле, обеспечивая пользователям постоянные вознаграждения с прозрачным, визуализированным отслеживанием использования.
Механизм Proof of Contribution (PoC) является краеугольным камнем подхода Vana к обеспечению качества данных. Каждая DLP может определить уникальную функцию PoC, адаптированную к ее характеристикам, проверяя подлинность и полноту предоставленных данных и оценивая свой вклад в повышение производительности модели ИИ. Этот механизм количественно оценивает вклад пользователей, записывая их для распределения вознаграждения. Подобно концепции «Proof of Work» в криптовалюте, PoC вознаграждает пользователей в зависимости от качества, количества и частоты использования данных. Смарт-контракты автоматизируют этот процесс, гарантируя, что вкладчики получают справедливое и прозрачное вознаграждение.
Этот основной уровень позволяет вносить, проверять и записывать данные в DLP, преобразуя данные в передаваемые цифровые активы on-chain. Создатели DLP развертывают смарт-контракты для установки целей, методов верификации и параметров взноса. Участники предоставляют данные для проверки, и модуль PoC оценивает качество данных и назначает права управления и вознаграждения.
Служащая приложением Vana, эта платформа облегчает сотрудничество между вкладчиками данных и разработчиками. Она предоставляет инфраструктуру для создания распределенных моделей обучения и приложений искусственного интеллекта с использованием ликвидности в DLP.
Децентрализованный реестр, лежащий в основе экосистемы Vana, Connectome действует как картография потока данных в реальном времени. Он записывает все транзакции данных в реальном времени с использованием консенсуса Proof of Stake, обеспечивая эффективный перевод токенов DLP и обеспечивая доступ к данным DLP. Полностью совместим с EVM, он позволяет взаимодействовать с другими сетями, протоколами и приложениями DeFi.
(Источник: Vana)
Vana предлагает новый подход, фокусируясь на ликвидности и уполномочивании пользовательских данных. Эта децентрализованная модель обмена данными не только поддерживает тренировку и рынки данных искусственного интеллекта, но также обеспечивает безупречное поперечное платформенное совместное использование данных и их владение в экосистеме Web3. В конечном итоге это способствует открытому интернету, где пользователи могут владеть и управлять своими данными и интеллектуальными продуктами, созданными на их основе.
В 2006 году известный специалист по данным Клайв Хамби заметил: "Данные - новая нефть". За последние два десятилетия мы стали свидетелями быстрого развития технологий, "очищающих" этот ресурс, таких как аналитика больших данных и машинное обучение, которые позволили извлечь несравненную ценность из данных. По данным IDC, к 2025 году глобальная сфера данных расширится до 163 ZB, преимущественно за счет отдельных лиц. Поскольку интернет вещей, носимые устройства, искусственный интеллект и персонализированные услуги становятся все более широко распространенными, большая часть данных, необходимых для коммерческого использования, будет поступать от отдельных лиц.
Веб-решения Web3 преодолевают ограничения традиционной инфраструктуры, используя распределенные сети узлов. Эти сети обеспечивают более широкий и эффективный сбор данных, улучшая доступность и верифицируемость конкретных наборов данных в реальном времени. Технологии Web3 обеспечивают подлинность и целостность данных, защищая при этом конфиденциальность пользователей, способствуя более справедливой модели использования данных. Децентрализованная архитектура демократизирует доступ к данным и дает пользователям возможность разделять экономические выгоды от экономики данных.
Как OpenLayer, так и Grass полагаются на модели пользователь-узел для улучшения конкретных процессов сбора данных, в то время как Vana монетизирует частные пользовательские данные. Эти подходы не только повышают эффективность, но и позволяют обычным пользователям участвовать в создании ценности экономики данных, создавая выигрышную ситуацию для пользователей и разработчиков.
Через токеномику решения данных Web3 перепроектируют модели стимулирования, устанавливая более справедливый механизм распределения стоимости. Эти системы привлекают значительное участие пользователей, аппаратных ресурсов и капитальных инвестиций, оптимизируя работу всей сети данных.
Решения Web3 обеспечивают модульность и масштабируемость, позволяя осуществлять технологическую итерацию и расширение экосистемы. Например: модульный дизайн OpenLayer обеспечивает гибкость для будущих усовершенствований; распределенная архитектура Grass оптимизирует обучение моделей искусственного интеллекта, предоставляя разнообразные и качественные наборы данных.
От генерации, хранения и проверки данных до обмена и анализа — решения на основе Web3 устраняют недостатки традиционных инфраструктур. Предоставляя пользователям возможность монетизировать свои данные, эти решения коренным образом трансформируют экономику данных.
По мере развития технологий и расширения сценариев применения децентрализованные уровни данных готовы стать угловым камнем инфраструктуры следующего поколения. Они будут поддерживать широкий спектр отраслей, ориентированных на данные, обеспечивая пользователям контроль над своими данными и их экономическим потенциалом.