Camada de Dados Descentralizada: A Nova Infraestrutura para a Era da IA #247

Intermediário

11/26/2024, 4:28:16 AM

Anteriormente, discutimos como a IA e a Web3 podem se complementar em setores verticais, como redes computacionais, plataformas intermediárias e aplicações do consumidor. Ao focar nos recursos de dados como um campo vertical, os novos projetos da Web oferecem novas possibilidades para a aquisição, compartilhamento e utilização de dados.

TL/DR

Anteriormente discutimos como a IA e o Web3 podem complementar-se entre si em indústrias verticais como redes computacionais, plataformas intermediárias e aplicações de consumidor. Ao concentrar-se nos recursos de dados como um campo vertical, os projetos Web emergentes oferecem novas possibilidades para a aquisição, partilha e utilização de dados.

Os fornecedores tradicionais de dados lutam para atender à demanda por dados de alta qualidade, em tempo real e verificáveis em IA e outras indústrias orientadas a dados, especialmente em termos de transparência, controle do usuário e proteção da privacidade.
As soluções Web3 estão a remodelar o ecossistema de dados. Tecnologias como MPC (Cálculo Multi-Partes), provas de conhecimento zero e Notário TLS garantem a autenticidade e privacidade dos dados durante o fluxo entre múltiplas fontes, enquanto o armazenamento distribuído e a computação periférica oferecem maior flexibilidade e eficiência no processamento de dados em tempo real.
Redes de dados descentralizadas como infraestrutura emergente deram origem a vários projetos representativos, como OpenLayer (uma camada de dados reais modular), Grass (aproveitando a largura de banda ociosa do usuário e redes de nós rastreadores descentralizados) e Vana (uma rede de camada 1 de soberania de dados do usuário), que abrem novas perspectivas para campos como treinamento de IA e aplicações por meio de diferentes caminhos tecnológicos.
Ao aproveitar a capacidade crowdsourced, camadas de abstração sem confiança e mecanismos de incentivo baseados em token, a infraestrutura de dados descentralizada pode fornecer soluções mais privadas, seguras, eficientes e econômicas em comparação com os gigantes da Web2. Ele também capacita os usuários com controle sobre seus dados e recursos relacionados, construindo um ecossistema digital mais aberto, seguro e interconectado.

1. O aumento da demanda de dados

Os dados tornaram-se o principal impulsionador da inovação e da tomada de decisões em todas as indústrias. O UBS prevê que o volume global de dados crescerá dez vezes entre 2020 e 2030, atingindo 660 ZB. Até 2025, prevê-se que cada indivíduo globalmente gere diariamente 463 EB (Exabytes, 1 EB = 1 bilhão de GB) de dados. O mercado de Data-as-a-Service (DaaS) está a expandir-se rapidamente. Segundo a Grand View Research, o mercado global de DaaS foi avaliado em $14,36 mil milhões em 2023 e espera-se que cresça a uma taxa de crescimento anual composta (CAGR) de 28,1%, atingindo $76,8 mil milhões até 2030.

O treinamento do modelo de IA depende muito de grandes conjuntos de dados para identificar padrões e ajustar parâmetros. Após o treinamento, também são necessários conjuntos de dados para testar o desempenho e as capacidades de generalização dos modelos. Além disso, os agentes de IA, como formas emergentes de aplicação inteligente, requerem fontes de dados em tempo real e confiáveis para garantir tomadas de decisão precisas e execução de tarefas.

(Fonte: Leewayhertz)

A procura de análise de negócios também está a tornar-se mais diversificada e generalizada, servindo como uma ferramenta fundamental para impulsionar a inovação empresarial. Por exemplo, as plataformas de redes sociais e as empresas de pesquisa de mercado precisam de dados fiáveis sobre o comportamento do utilizador para formular estratégias e analisar tendências, integrando dados diversos de várias plataformas sociais para construir uma imagem mais abrangente.

Para o ecossistema Web3, também é necessário ter dados confiáveis e autênticos na cadeia para suportar novos produtos financeiros. À medida que mais ativos inovadores são tokenizados, são necessárias interfaces de dados flexíveis e confiáveis para suportar o desenvolvimento de produtos e a gestão de riscos, permitindo a execução de contratos inteligentes com base em dados verificáveis em tempo real.

Além disso, os casos de uso em pesquisa científica, IoT e outros campos destacam a demanda crescente por dados diversos, autênticos e em tempo real. Sistemas tradicionais podem ter dificuldade em lidar com o volume de dados em rápida expansão e as demandas em constante mudança.

2. Limitações e Desafios dos Ecossistemas de Dados Tradicionais

Um ecossistema de dados típico inclui coleta, armazenamento, processamento, análise e aplicação de dados. Os modelos centralizados são caracterizados pela coleta e armazenamento centralizados de dados, gerenciados por uma equipe central de TI com controle de acesso restrito. Por exemplo, o ecossistema de dados do Google abrange várias fontes de dados, como motores de busca, Gmail e o sistema operacional Android. Essas plataformas coletam dados do usuário, armazenam-nos em centros de dados distribuídos globalmente e processam-nos usando algoritmos para apoiar o desenvolvimento e otimização de vários produtos e serviços.

Nos mercados financeiros, a LSEG (anteriormente Refinitiv) recolhe dados em tempo real e históricos de bolsas globais, bancos e grandes instituições financeiras, enquanto utiliza a sua rede de notícias Reuters proprietária para recolher notícias relacionadas com o mercado. Processam estas informações utilizando algoritmos e modelos proprietários para gerar produtos de análise e avaliação de risco como serviços de valor acrescentado.

(Fonte: kdnuggets.com)

Embora a arquitetura de dados tradicional seja eficaz em serviços profissionais, as limitações dos modelos centralizados estão a tornar-se cada vez mais evidentes, especialmente na cobertura de fontes de dados emergentes, transparência e proteção da privacidade do utilizador. Abaixo estão algumas questões-chave:

Cobertura insuficiente de dados: Os provedores de dados tradicionais têm dificuldade em capturar e analisar rapidamente fontes emergentes de dados, como sentimentos das redes sociais e dados de dispositivos IoT. Os sistemas centralizados enfrentam desafios para adquirir e integrar eficientemente dados de "longa cauda" de numerosas fontes de pequena escala ou não convencionais.

Por exemplo, o evento GameStop de 2021 revelou as limitações dos fornecedores tradicionais de dados financeiros na análise do sentimento das redes sociais. O sentimento do investidor em plataformas como o Reddit influenciou rapidamente as tendências do mercado, mas os terminais de dados como a Bloomberg e a Reuters falharam em capturar essas dinâmicas a tempo, levando a previsões de mercado atrasadas.

Acesso limitado aos dados: O monopólio limita o acesso. Muitos provedores tradicionais abrem partes de seus dados por meio de APIs/serviços em nuvem, mas altas taxas de acesso e processos de autorização complexos aumentam a dificuldade da integração de dados. Os desenvolvedores on-chain lutam para acessar rapidamente dados confiáveis off-chain, com dados de alta qualidade monopolizados por alguns gigantes a um alto custo.
Questões de Transparência e Credibilidade dos Dados: Muitos provedores de dados centralizados carecem de transparência em seus métodos de coleta e processamento de dados. Mecanismos eficazes para verificar a autenticidade e a completude de dados em grande escala também são inexistentes. Verificar dados em tempo real em grande escala continua sendo complexo, e a natureza centralizada aumenta o risco de adulteração ou manipulação dos dados.
Proteção da Privacidade e Propriedade dos Dados: As grandes empresas de tecnologia comercializaram extensivamente os dados dos utilizadores. Os utilizadores, como os criadores dos dados pessoais, raramente obtêm o devido valor. Muitas vezes, não conseguem compreender como os seus dados são recolhidos, processados ou utilizados, nem podem decidir o âmbito e modo da sua utilização. A sobrecoleta e o uso indevido também resultam em graves riscos de privacidade. Por exemplo, o escândalo da Cambridge Analytica do Facebook expôs falhas significativas na transparência e na proteção da privacidade nos ecossistemas de dados tradicionais.
Silos de Dados: É desafiante integrar rapidamente dados em tempo real de diferentes fontes e formatos, o que dificulta a análise abrangente. Grande parte destes dados permanece bloqueada dentro das organizações, limitando a partilha e inovação entre diferentes indústrias e organizações. Este efeito de "silo de dados" obstrui a integração e análise de dados entre diferentes domínios. Por exemplo, na indústria de consumo, as marcas precisam de integrar dados de plataformas de comércio eletrónico, lojas físicas, redes sociais e estudos de mercado, mas estes conjuntos de dados podem estar isolados devido a inconsistências ou segregação das plataformas. Da mesma forma, empresas de partilha de viagens como a Uber e a Lyft recolhem grandes quantidades de dados em tempo real sobre tráfego, procura de passageiros e localizações geográficas, mas a dinâmica competitiva impede a partilha ou integração destes conjuntos de dados.

Além desses problemas, os provedores tradicionais de dados enfrentam desafios relacionados à eficiência de custos e flexibilidade. Embora estejam abordando ativamente esses problemas, as tecnologias emergentes Web3 fornecem novas perspectivas e possibilidades para enfrentá-los.

3. O Ecossistema de Dados Web3

Desde o lançamento de soluções de armazenamento descentralizado como o IPFS (Sistema de Ficheiros Interplanetário) em 2014, uma série de projetos emergentes têm como objetivo resolver as limitações dos ecossistemas de dados tradicionais. As soluções de dados descentralizados evoluíram para um ecossistema interligado e multicamadas que abrange todas as fases do ciclo de vida dos dados, incluindo a geração de dados, armazenamento, troca, processamento e análise, verificação e segurança, bem como privacidade e propriedade.

Armazenamento de dados: O rápido desenvolvimento do Filecoin e do Arweave demonstra que o armazenamento descentralizado (DCS) está se tornando uma mudança de paradigma no campo do armazenamento. O DCS reduz os pontos únicos de falha por meio de uma arquitetura distribuída, ao mesmo tempo que atrai participantes com eficiência competitiva de custos. Com o surgimento de aplicações em grande escala, a capacidade de armazenamento do DCS cresceu exponencialmente (por exemplo, a capacidade total de armazenamento em rede do Filecoin atingiu 22 exabytes até 2024).
Processamento e Análise: Plataformas de computação de dados descentralizadas como Fluence melhoram o desempenho em tempo real e a eficiência do processamento de dados por meio da computação de borda, especialmente para cenários de aplicação em tempo real, como IoT e inferência de IA. Projetos Web3 utilizam tecnologias como aprendizado federado, privacidade diferencial, ambientes de execução confiáveis e criptografia totalmente homomórfica para fornecer proteção de privacidade flexível na camada de computação.
Plataformas de Mercados/Trocas de Dados: Para facilitar a valorização e circulação de dados, a Ocean Protocol utiliza a tokenização e mecanismos DEX para criar canais eficientes e abertos de troca de dados. Por exemplo, colaborou com a Daimler (empresa-mãe da Mercedes-Benz) para desenvolver mercados de troca de dados para gestão da cadeia de abastecimento. Por outro lado, a Streamr desenvolveu uma rede de fluxo de dados baseada em subscrição, sem permissões, adaptada para cenários de IoT e análise em tempo real, mostrando um potencial excepcional em projetos de transporte e logística (por exemplo, colaborando com o projeto da cidade inteligente da Finlândia).

À medida que a troca e a utilização de dados aumentam, garantir autenticidade, credibilidade e privacidade tornou-se fundamental. Isso impulsiona o ecossistema Web3 a inovar na verificação de dados e proteção de privacidade, levando a soluções inovadoras.

3.1 Inovações em Verificação de Dados e Proteção de Privacidade

Muitas tecnologias Web3 e projetos nativos focam em abordar questões de autenticidade de dados e proteção de privacidade. Além da adoção generalizada de tecnologias como Provas de Conhecimento Zero (ZK) e Computação Multi-Partes (MPC), Notário TLS surgiu como um novo método de verificação digno de nota.

Introdução ao TLS Notary

O protocolo de Segurança da Camada de Transporte (TLS) é um protocolo de encriptação amplamente utilizado para comunicações em rede. O seu principal objetivo é garantir a segurança, integridade e confidencialidade da transmissão de dados entre um cliente e um servidor. O TLS é um padrão comum de encriptação em comunicações de rede modernas, aplicado em cenários como HTTPS, e-mail e mensagens instantâneas.

(Princípios de Criptografia TLS, Fonte: TechTarget)

Quando o TLS Notary foi introduzido pela primeira vez há uma década, seu objetivo era verificar a autenticidade das sessões TLS introduzindo um "notário" de terceiros fora do cliente (provador) e do servidor.

Usando a tecnologia de divisão de chaves, a chave mestra de uma sessão TLS é dividida em duas partes, mantidas separadamente pelo cliente e pelo notário. Esse design permite que o notário participe como terceira parte confiável no processo de verificação sem acessar o conteúdo real da comunicação. Esse mecanismo tem como objetivo detectar ataques de intermediários, prevenir certificados fraudulentos e garantir que os dados de comunicação não sejam adulterados durante a transmissão. Ele também permite que terceiros confiáveis confirmem a legitimidade das comunicações enquanto protegem a privacidade.

Assim, o TLS Notary oferece verificação segura de dados e equilibra eficazmente as necessidades de verificação com proteção de privacidade.

Em 2022, o projeto TLS Notary foi reestruturado pelo laboratório de pesquisa Privacy and Scaling Exploration (PSE) da Ethereum Foundation. A nova versão do protocolo TLS Notary foi reescrita do zero na linguagem de programação Rust e integrada com protocolos criptográficos mais avançados, como o MPC. Essas atualizações permitem que os usuários comprovem a autenticidade dos dados recebidos de um servidor para uma terceira parte sem revelar o conteúdo dos dados. Mantendo suas capacidades de verificação principais, o novo TLS Notary melhora significativamente a proteção da privacidade, tornando-o mais adequado para os requisitos atuais e futuros de privacidade de dados.

3.2 Variantes e Extensões do Notário TLS

Nos últimos anos, a tecnologia TLS Notary continuou a evoluir, resultando em vários derivados que melhoram ainda mais as suas capacidades de privacidade e verificação:

zkTLS: Uma versão com melhorias de privacidade do TLS Notary que integra a tecnologia ZKP, permitindo aos usuários gerar provas criptográficas de dados da página web sem expor nenhuma informação sensível. É especialmente adequado para cenários de comunicação que exigem alta proteção de privacidade.
3P-TLS (Three-Party TLS): Este protocolo introduz três partes - cliente, servidor e auditor - permitindo que o auditor verifique a segurança das comunicações sem divulgar o conteúdo. Este protocolo é útil em cenários que exigem transparência e privacidade, como auditorias de conformidade ou revisões de transações financeiras.

Os projetos Web3 utilizam essas tecnologias criptográficas para aprimorar a verificação de dados e a proteção da privacidade, lidando com problemas como monopólios de dados, silos e transmissão confiável. Os usuários podem verificar com segurança a propriedade de contas de mídia social, registros de compras para empréstimos financeiros, histórico de crédito bancário, histórico profissional e credenciais acadêmicas sem comprometer sua privacidade. Exemplos incluem:

Protocolo de Recuperação: Utiliza o zkTLS para gerar provas de conhecimento zero do tráfego HTTPS, permitindo aos utilizadores importar de forma segura atividade, reputação e dados de identidade de websites externos sem expor informações sensíveis.
zkPass: Combina a tecnologia 3P-TLS para permitir aos usuários verificar dados privados do mundo real com segurança, com aplicações em serviços KYC e de crédito. Também é compatível com a rede HTTPS.
Opacity Network: Construída em zkTLS, permite aos usuários provar com segurança suas atividades em plataformas como Uber, Spotify e Netflix sem acessar diretamente as APIs dessas plataformas, possibilitando a verificação de atividades entre plataformas.

(Projetos que trabalham em Oráculos TLS, Fonte: Bastian Wetzel)

A verificação de dados no Web3 é um elo essencial no ecossistema de dados, com vastas perspectivas de aplicação. O florescimento deste ecossistema está a orientar a economia digital para um modelo mais aberto, dinâmico e centrado no utilizador. No entanto, o desenvolvimento de tecnologias de verificação de autenticidade é apenas o início da construção da infraestrutura de dados da próxima geração.

4. Redes de Dados Descentralizadas

Alguns projetos combinaram as tecnologias de verificação de dados mencionadas anteriormente com uma exploração adicional dos ecossistemas de dados upstream, como a rastreabilidade de dados, a coleta de dados distribuída e a transmissão confiável. Abaixo, destacamos três projetos representativos - OpenLayer, Grass e Vana - que demonstram um potencial único na construção de infraestrutura de dados de próxima geração.

4.1 OpenLayer

OpenLayer, um dos projetos do Acelerador de Startups de Primavera de 2024 a16z Crypto, é a primeira camada de dados autênticos modular. O objetivo é fornecer uma solução modular inovadora para coordenar a coleta, verificação e transformação de dados, atendendo às necessidades de empresas Web2 e Web3. OpenLayer recebeu apoio de fundos renomados e investidores-anjo, incluindo Geometry Ventures e LongHash Ventures.

As camadas de dados tradicionais enfrentam vários desafios: falta de mecanismos de verificação confiáveis, dependência de arquiteturas centralizadas que limitam a acessibilidade, falta de interoperabilidade e fluxo entre diferentes sistemas, e a ausência de mecanismos justos de distribuição de valor de dados.

Uma questão mais específica é a crescente escassez de dados de treinamento para IA. Na internet pública, muitos sites agora implementam medidas anti-raspagem para impedir a raspagem em grande escala de dados por empresas de IA. Em dados proprietários privados, a situação é ainda mais complexa. Dados valiosos são frequentemente armazenados de maneira protegida por privacidade devido à sua natureza sensível, faltando mecanismos de incentivo eficazes. Os usuários não podem monetizar com segurança seus dados privados e, portanto, relutam em compartilhar informações sensíveis.

Para resolver esses problemas, a OpenLayer combina tecnologias de verificação de dados para construir uma Camada de Dados Autênticos Modular. Através da descentralização e incentivos econômicos, coordena os processos de coleta, verificação e transformação de dados, fornecendo uma infraestrutura de dados mais segura, eficiente e flexível para empresas Web2 e Web3.

4.1.1 Componentes Principais do Design Modular do OpenLayer

O OpenLayer fornece uma plataforma modular que simplifica processos de coleta de dados, verificação confiável e transformação.

a) OpenNodes

Os OpenNodes são os componentes principais responsáveis pela recolha descentralizada de dados no ecossistema OpenLayer. Através de aplicações móveis, extensões de navegador e outros canais, os utilizadores podem recolher dados. Diferentes operadores/nós podem otimizar as suas recompensas ao realizar tarefas mais adequadas às suas especificações de hardware.

OpenNodes suporta três principais tipos de dados:

Dados da internet publicamente disponíveis (por exemplo, dados financeiros, meteorológicos, desportivos e de redes sociais)
Dados privados do utilizador (por exemplo, histórico de visualização da Netflix, registos de encomendas da Amazon)
Dados autodeclarados de fontes confiáveis (por exemplo, dados verificados pelos proprietários ou hardware específico confiável).

Os desenvolvedores podem facilmente adicionar novos tipos de dados, especificar fontes de dados e definir requisitos e métodos de recuperação. Os utilizadores podem fornecer dados anonimizados em troca de recompensas. Este design permite que o sistema se expanda continuamente para atender a novas demandas de dados. As diversas fontes de dados tornam o OpenLayer adequado para vários cenários de aplicação e reduzem o limiar para a prestação de dados.

b) OpenValidators

Os OpenValidators lidam com a verificação dos dados coletados, permitindo que os consumidores de dados confirmem a precisão dos dados fornecidos pelo usuário em relação à sua fonte. Os métodos de verificação utilizam provas criptográficas e os resultados podem ser validados retrospectivamente. Vários provedores podem oferecer serviços de verificação para o mesmo tipo de prova, permitindo que os desenvolvedores escolham o provedor mais adequado às suas necessidades.

Nos casos de uso inicial, especialmente para dados públicos ou privados de APIs da Internet, o OpenLayer utiliza o TLS Notary como solução de verificação. Ele exporta dados de qualquer aplicativo da web e verifica sua autenticidade sem comprometer a privacidade.

Para além do TLS Notary, graças ao seu design modular, o sistema de verificação pode facilmente integrar outros métodos para acomodar diversas necessidades de dados e verificação, incluindo:

Conexões TLS atestadas: Utilizando Ambientes de Execução Confiáveis (TEEs) para estabelecer conexões TLS certificadas, garantindo a integridade e autenticidade dos dados durante a transmissão.
Enclaves Seguros: Utilizando ambientes de isolamento seguro a nível de hardware (por exemplo, Intel SGX) para processar e verificar dados sensíveis, oferecendo proteção de dados de nível superior.
Geradores de Provas ZK: Integrando Provas de Conhecimento Zero para verificar atributos de dados ou resultados de computação sem expor os dados subjacentes.

c) OpenConnect

OpenConnect é o módulo responsável pela transformação de dados e usabilidade dentro do ecossistema OpenLayer. Ele processa dados de várias fontes, garantindo a interoperabilidade entre diferentes sistemas para atender a diversos requisitos de aplicação. Por exemplo:

Convertendo dados em um formato Oracle on-chain para uso direto por contratos inteligentes.
Pré-processamento de dados brutos não estruturados em dados estruturados para treinamento de IA.

Fornecendo anonimização de dados preservando a privacidade das contas privadas dos usuários enquanto aprimora a segurança durante o compartilhamento de dados para reduzir vazamentos e uso indevido.

Para atender às demandas de dados em tempo real de aplicativos de IA e blockchain, o OpenConnect suporta uma transformação eficiente de dados em tempo real.

Atualmente, através da integração com a Camada de Dados EigenLayer, os operadores do serviço de Validação Ativa (AVS) OpenLayer monitorizam tarefas de pedido de dados, recolhem dados, verificam-nos e reportam os resultados ao sistema. Os operadores apostam ou voltam a apostar ativos na EigenLayer para fornecer garantias económicas para as suas ações. Comportamentos maliciosos resultam em redução de ativos. Como um dos primeiros projetos AVS na mainnet da EigenLayer, o OpenLayer atraiu mais de 50 operadores e $4 bilhões em ativos re-apostados.

4.2 Grama

Grass, o projeto principal desenvolvido pela Wynd Network, é projetado para criar um rastreador de rede descentralizado e uma plataforma de dados de treinamento de IA. Até o final de 2023, a Grass completou uma rodada de financiamento inicial de US$ 3,5 milhões liderada pela Polychain Capital e Tribe Capital. Em setembro de 2024, assegurou financiamento da Série A, com US$ 5 milhões liderados pela HackVC e participação adicional da Polychain, Delphi, Lattice e Brevan Howard.

À medida que o treinamento de IA depende cada vez mais de fontes de dados diversas e expansivas, o Grass aborda essa necessidade criando uma rede distribuída de nós de rastreadores da web. Essa rede aproveita a infraestrutura física descentralizada e a largura de banda ociosa do usuário para coletar e fornecer conjuntos de dados verificáveis para treinamento de IA. Os nós roteiam solicitações da web por meio das conexões de internet do usuário, acessando sites públicos e compilando conjuntos de dados estruturados. A limpeza inicial de dados e a formatação são realizadas usando a tecnologia de computação de borda, garantindo saídas de alta qualidade.

Grass utiliza a arquitetura de Camada de Dados Solana Layer 2 Data Rollup para melhorar a eficiência de processamento. Os validadores recebem, verificam e processam em lote as transações da web dos nós, gerando provas de Zero-Knowledge (ZK) para confirmar a autenticidade dos dados. Os dados verificados são armazenados no Grass Data Ledger (L2), com provas correspondentes vinculadas à blockchain Solana L1.

4.2.1 Componentes Chave da Grama

a) Nós de Grama:

Os utilizadores instalam a aplicação Grass ou a extensão do navegador, permitindo que a sua largura de banda inativa alimente a pesquisa descentralizada na web. Os nós encaminham pedidos da web, acedem a websites públicos e compilam conjuntos de dados estruturados. Utilizando computação periférica, eles realizam a limpeza inicial dos dados e a formatação. Os utilizadores ganham tokens GRASS como recompensa com base na sua contribuição de largura de banda e no volume de dados fornecidos.

b) Roteadores：

Atuando como intermediários, os roteadores conectam os nós Grass aos validadores. Eles gerenciam a rede de nós e a largura de banda de relé, sendo incentivados com base na largura de banda total verificada que facilitam.

c) Validadores:

Os validadores recebem e verificam as transações web transmitidas pelos roteadores. Eles geram provas de conhecimento zero (ZK proofs) para confirmar a validade dos dados, aproveitando conjuntos de chaves exclusivas para estabelecer conexões TLS seguras e conjuntos de criptografia. Embora o Grass atualmente use validadores centralizados, existem planos para fazer a transição para um comitê de validadores descentralizado.

d) Processadores ZK:

Esses processadores validam as provas de dados da sessão do nó e agrupam todas as provas de solicitação da web para envio à Camada 1 do Solana.

e) Grass Data Ledger (Camada de dados Grass L2):

O Ledger de Dados da Grass armazena conjuntos de dados abrangentes e os vincula às suas respectivas provas L1 na Solana, garantindo transparência e rastreabilidade.

f) Modelos de Incorporação de Borda:

Esses modelos transformam dados da web não estruturados em conjuntos de dados estruturados adequados para treinamento de IA.

Origem: Grama

Comparação: Grama vs. OpenLayer

Grass e OpenLayer partilham o compromisso de alavancar redes distribuídas para fornecer às empresas acesso a dados abertos da internet e dados privados autenticados. Ambos utilizam mecanismos de incentivo para promover a partilha de dados e a produção de conjuntos de dados de alta qualidade, mas as suas arquiteturas técnicas e modelos de negócio diferem.

Arquitetura Técnica:

A Grass utiliza uma arquitetura de Rollup de Dados da Camada 2 do Solana com validação centralizada, dependendo de um único validador. A OpenLayer, como uma das primeiras a adotar o AVS (Serviço de Validação Ativa) da EigenLayer, emprega um mecanismo de validação descentralizada utilizando incentivos econômicos e penalidades de redução. Seu design modular enfatiza escalabilidade e flexibilidade nos serviços de verificação de dados.

Foco do Produto:

Ambos os projetos permitem aos usuários monetizar dados por meio de nós, mas seus casos de uso empresarial divergem:

Grass apresenta um modelo de mercado de dados usando L2 para armazenar conjuntos de dados estruturados e de alta qualidade de forma verificável. Estes conjuntos de dados são adaptados para empresas de IA como recursos de treinamento.
O OpenLayer concentra-se na verificação em tempo real de fluxo de dados (VaaS) em vez de armazenamento dedicado de dados. Ele atende a cenários dinâmicos, como oráculos para mercados de previsão/RWA/DeFi, dados sociais em tempo real e aplicações de IA que exigem entradas de dados instantâneas.

O Grass visa principalmente empresas de IA e cientistas de dados que precisam de conjuntos de dados estruturados em grande escala, bem como instituições de pesquisa e empresas que exigem dados baseados na web. O OpenLayer atende desenvolvedores Web3 que precisam de fontes de dados off-chain, empresas de IA que precisam de fluxos verificáveis em tempo real e empresas que buscam estratégias inovadoras, como verificar o uso de produtos concorrentes.

Competição futura e sinergias

Embora ambos os projetos ocupem atualmente nichos distintos, suas funcionalidades podem convergir à medida que a indústria evolui:

A relva pode expandir para oferecer dados estruturados em tempo real.
A OpenLayer pode desenvolver um registro de dados dedicado para gerenciamento de conjunto de dados.

Ambos os projetos também poderiam integrar a rotulagem de dados como uma etapa crítica para treinar conjuntos de dados. A Grass, com sua vasta rede de mais de 2,2 milhões de nós ativos, poderia implantar rapidamente serviços de Aprendizagem por Reforço com Feedback Humano (RLHF) para otimizar modelos de IA. A OpenLayer, com sua experiência em verificação e processamento de dados em tempo real, poderia manter uma vantagem na credibilidade e qualidade dos dados, especialmente para conjuntos de dados privados.

Apesar da sobreposição potencial, suas forças únicas e abordagens tecnológicas podem permitir que eles dominem nichos diferentes dentro do ecossistema de dados descentralizados.

(Fonte: IOSG, David)

4.3 Vana: Uma Rede de Pool de Dados Centrada no Utilizador

Vana é uma rede de pool de dados centrada no usuário, projetada para fornecer dados de alta qualidade para IA e aplicações relacionadas. Comparado ao OpenLayer e Grass, Vana adota uma abordagem tecnológica e comercial distinta. Em setembro de 2024, a Vana assegurou $5 milhões em financiamento liderado pela Coinbase Ventures, seguindo uma rodada da Série A de $18 milhões em que a Paradigm atuou como investidora líder, com a participação da Polychain e Casey Caruso.

Lançada originalmente em 2018 como um projeto de pesquisa do MIT, a Vana é uma blockchain de Camada 1 dedicada aos dados privados do usuário. Suas inovações em propriedade de dados e distribuição de valor permitem que os usuários lucrem com modelos de IA treinados em seus dados. A Vana alcança isso por meio de Pools de Liquidez de Dados (DLPs) confiáveis, privados e atribuíveis e um mecanismo inovador de Prova de Contribuição que facilita o fluxo e a monetização de dados privados.

4.3.1. Pools de Liquidez de Dados (DLPs)

Vana introduz um conceito único de Pools de Liquidez de Dados (DLPs), que estão no centro da rede Vana. Cada DLP é uma rede independente peer-to-peer que agrega tipos específicos de ativos de dados. Os utilizadores podem carregar os seus dados privados—tais como registos de compras, hábitos de navegação e atividade em redes sociais—em DLPs designados e decidir se autorizam ou não o uso de terceiros específicos.

Os dados dentro dessas pools passam por desidentificação para proteger a privacidade do usuário, ao mesmo tempo em que permanecem utilizáveis para aplicações comerciais, como treinamento de modelos de IA e pesquisa de mercado. Os usuários que contribuem com dados para um DLP são recompensados com tokens DLP correspondentes. Esses tokens representam a contribuição do usuário para a pool, concedem direitos de governança e dão direito ao usuário a uma parcela dos lucros futuros.

Ao contrário da venda tradicional única de dados, a Vana permite que os dados participem continuamente no ciclo económico, permitindo aos utilizadores receber recompensas contínuas com rastreamento de utilização transparente e visualizado.

4.3.2. Mecanismo de Prova de Contribuição

O mecanismo de Prova de Contribuição (PoC) é uma pedra angular da abordagem da Vana para garantir a qualidade dos dados. Cada DLP pode definir uma função PoC única adaptada às suas características, verificando a autenticidade e completude dos dados enviados e avaliando a sua contribuição para melhorar o desempenho do modelo de IA. Esse mecanismo quantifica as contribuições dos usuários, registrando-as para a alocação de recompensas. Semelhante ao conceito de "Prova de Trabalho" em criptomoedas, a PoC recompensa os usuários com base na qualidade, quantidade e frequência de uso dos dados. Os contratos inteligentes automatizam esse processo, garantindo que os contribuintes sejam compensados de forma justa e transparente.

Arquitetura Técnica da Vana

Camada de liquidez de dados:

Esta camada central permite a contribuição, verificação e registo de dados nos DLPs, transformando dados em ativos digitais transferíveis on-chain. Os criadores de DLP implementam contratos inteligentes para definir propósitos, métodos de verificação e parâmetros de contribuição. Os contribuidores de dados submetem dados para validação, e o módulo PoC avalia a qualidade dos dados e atribui direitos de governança e recompensas.

Camada de Portabilidade de Dados:

Servindo como camada de aplicação da Vana, esta plataforma facilita a colaboração entre os contribuidores de dados e os desenvolvedores. Ela fornece infraestrutura para a construção de modelos de treinamento de IA distribuídos e aplicativos descentralizados de IA usando a liquidez em DLPs.

Conectoma:

Um livro-razão descentralizado que sustenta o ecossistema Vana, o Connectome atua como um mapa de fluxo de dados em tempo real. Regista todas as transações de dados em tempo real usando o consenso de Prova de Participação, garantindo a transferência eficiente de tokens DLP e permitindo o acesso cruzado de dados DLP. Totalmente compatível com EVM, permite a interoperabilidade com outras redes, protocolos e aplicações DeFi.

(Fonte: Vana)

Vana fornece uma abordagem fresca ao focar na liquidez e capacitação dos dados do utilizador. Este modelo de troca de dados descentralizada não só suporta a formação de IA e mercados de dados, mas também permite a partilha de dados e propriedade sem problemas em várias plataformas no ecossistema Web3. No final, promove um internet aberta onde os utilizadores podem possuir e gerir os seus dados e os produtos inteligentes criados a partir deles.

5. A Proposta de Valor das Redes de Dados Descentralizadas

Em 2006, o cientista de dados Clive Humby afirmou famosamente: 'Dados são o novo petróleo'. Nas últimas duas décadas, testemunhamos a rápida evolução de tecnologias que 'refinam' esse recurso, como análise de big data e aprendizado de máquina, que desbloquearam um valor sem precedentes a partir dos dados. De acordo com a IDC, até 2025, a esfera global de dados se expandirá para 163 ZB, sendo a maioria proveniente de indivíduos. À medida que a IoT, dispositivos vestíveis, IA e serviços personalizados se tornam mais difundidos, grande parte dos dados necessários para uso comercial terá origem em indivíduos.

Desafios das Soluções Tradicionais e Inovações Web3

As soluções de dados Web3 superam as limitações da infraestrutura tradicional aproveitando redes de nós distribuídos. Estas redes permitem uma recolha de dados mais ampla e eficiente, melhorando simultaneamente a acessibilidade e a verificabilidade em tempo real de conjuntos de dados específicos. As tecnologias Web3 garantem a autenticidade e integridade dos dados enquanto protegem a privacidade do usuário, promovendo um modelo de utilização de dados mais justo. Essa arquitetura descentralizada democratiza o acesso aos dados e capacita os usuários a compartilhar os benefícios econômicos da economia de dados.

Tanto o OpenLayer como o Grass dependem de modelos de usuário-nó para aprimorar processos específicos de coleta de dados, enquanto o Vana monetiza dados privados do usuário. Essas abordagens não apenas melhoram a eficiência, mas também permitem que usuários comuns participem do valor criado pela economia de dados, criando um cenário de ganha-ganha para usuários e desenvolvedores.

Através da tokenomics, as soluções de dados Web3 redesenham os modelos de incentivo, estabelecendo um mecanismo de distribuição de valor mais justo. Esses sistemas atraem uma participação significativa dos usuários, recursos de hardware e investimentos de capital, otimizando a operação de toda a rede de dados.

As soluções Web3 oferecem modularidade e escalabilidade, permitindo iteração tecnológica e expansão do ecossistema. Por exemplo: o design modular da OpenLayer oferece flexibilidade para avanços futuros; a arquitetura distribuída da Grass otimiza o treinamento de modelos de IA fornecendo conjuntos de dados diversos e de alta qualidade.

Desde a geração, armazenamento e verificação de dados até a troca e análise, as soluções impulsionadas pela Web3 abordam as deficiências das infraestruturas tradicionais. Ao permitir que os utilizadores rentabilizem os seus dados, estas soluções transformam fundamentalmente a economia de dados.

À medida que as tecnologias evoluem e os cenários de aplicação se expandem, as camadas de dados descentralizadas estão prestes a tornar-se uma pedra angular da infraestrutura da próxima geração. Elas irão suportar uma ampla gama de indústrias orientadas por dados, enquanto capacitam os usuários a assumir o controle de seus dados e seu potencial econômico.

Aviso legal:

Este artigo é reproduzido a partir de [IOSG Ventures]. Todos os direitos autorais pertencem ao autor original [IOSG Ventures]. Se houver objeções a esta reimpressão, contacte o gate Aprenderequipa e eles irão tratar disso prontamente.
Isenção de Responsabilidade: As opiniões expressas neste artigo são exclusivamente do autor e não constituem conselho de investimento.
A equipe de tradução da gate Learn traduziu o artigo para outros idiomas. Copiar, distribuir ou plágio dos artigos traduzidos é proibido, a menos que mencionado.

Partilhar

Conteúdos

TL/DR

1. O aumento na demanda de dados

2. Limitações e Desafios dos Ecossistemas de Dados Tradicionais

3. O Ecossistema de Dados Web3

4. Redes de Dados Descentralizadas

5. A Proposta de Valor das Redes de Dados Descentralizadas

Camada de Dados Descentralizada: A Nova Infraestrutura para a Era da IA #247

Intermediário11/26/2024, 4:28:16 AM

Macrotendências Tecnologia IA

TL/DR

1. O aumento na demanda de dados

2. Limitações e Desafios dos Ecossistemas de Dados Tradicionais

3. O Ecossistema de Dados Web3

4. Redes de Dados Descentralizadas

5. A Proposta de Valor das Redes de Dados Descentralizadas

TL/DR

Os fornecedores tradicionais de dados lutam para atender à demanda por dados de alta qualidade, em tempo real e verificáveis em IA e outras indústrias orientadas a dados, especialmente em termos de transparência, controle do usuário e proteção da privacidade.
As soluções Web3 estão a remodelar o ecossistema de dados. Tecnologias como MPC (Cálculo Multi-Partes), provas de conhecimento zero e Notário TLS garantem a autenticidade e privacidade dos dados durante o fluxo entre múltiplas fontes, enquanto o armazenamento distribuído e a computação periférica oferecem maior flexibilidade e eficiência no processamento de dados em tempo real.
Redes de dados descentralizadas como infraestrutura emergente deram origem a vários projetos representativos, como OpenLayer (uma camada de dados reais modular), Grass (aproveitando a largura de banda ociosa do usuário e redes de nós rastreadores descentralizados) e Vana (uma rede de camada 1 de soberania de dados do usuário), que abrem novas perspectivas para campos como treinamento de IA e aplicações por meio de diferentes caminhos tecnológicos.
Ao aproveitar a capacidade crowdsourced, camadas de abstração sem confiança e mecanismos de incentivo baseados em token, a infraestrutura de dados descentralizada pode fornecer soluções mais privadas, seguras, eficientes e econômicas em comparação com os gigantes da Web2. Ele também capacita os usuários com controle sobre seus dados e recursos relacionados, construindo um ecossistema digital mais aberto, seguro e interconectado.

1. O aumento da demanda de dados

(Fonte: Leewayhertz)

2. Limitações e Desafios dos Ecossistemas de Dados Tradicionais

(Fonte: kdnuggets.com)

Cobertura insuficiente de dados: Os provedores de dados tradicionais têm dificuldade em capturar e analisar rapidamente fontes emergentes de dados, como sentimentos das redes sociais e dados de dispositivos IoT. Os sistemas centralizados enfrentam desafios para adquirir e integrar eficientemente dados de "longa cauda" de numerosas fontes de pequena escala ou não convencionais.

Acesso limitado aos dados: O monopólio limita o acesso. Muitos provedores tradicionais abrem partes de seus dados por meio de APIs/serviços em nuvem, mas altas taxas de acesso e processos de autorização complexos aumentam a dificuldade da integração de dados. Os desenvolvedores on-chain lutam para acessar rapidamente dados confiáveis off-chain, com dados de alta qualidade monopolizados por alguns gigantes a um alto custo.
Questões de Transparência e Credibilidade dos Dados: Muitos provedores de dados centralizados carecem de transparência em seus métodos de coleta e processamento de dados. Mecanismos eficazes para verificar a autenticidade e a completude de dados em grande escala também são inexistentes. Verificar dados em tempo real em grande escala continua sendo complexo, e a natureza centralizada aumenta o risco de adulteração ou manipulação dos dados.
Proteção da Privacidade e Propriedade dos Dados: As grandes empresas de tecnologia comercializaram extensivamente os dados dos utilizadores. Os utilizadores, como os criadores dos dados pessoais, raramente obtêm o devido valor. Muitas vezes, não conseguem compreender como os seus dados são recolhidos, processados ou utilizados, nem podem decidir o âmbito e modo da sua utilização. A sobrecoleta e o uso indevido também resultam em graves riscos de privacidade. Por exemplo, o escândalo da Cambridge Analytica do Facebook expôs falhas significativas na transparência e na proteção da privacidade nos ecossistemas de dados tradicionais.
Silos de Dados: É desafiante integrar rapidamente dados em tempo real de diferentes fontes e formatos, o que dificulta a análise abrangente. Grande parte destes dados permanece bloqueada dentro das organizações, limitando a partilha e inovação entre diferentes indústrias e organizações. Este efeito de "silo de dados" obstrui a integração e análise de dados entre diferentes domínios. Por exemplo, na indústria de consumo, as marcas precisam de integrar dados de plataformas de comércio eletrónico, lojas físicas, redes sociais e estudos de mercado, mas estes conjuntos de dados podem estar isolados devido a inconsistências ou segregação das plataformas. Da mesma forma, empresas de partilha de viagens como a Uber e a Lyft recolhem grandes quantidades de dados em tempo real sobre tráfego, procura de passageiros e localizações geográficas, mas a dinâmica competitiva impede a partilha ou integração destes conjuntos de dados.

3. O Ecossistema de Dados Web3

Armazenamento de dados: O rápido desenvolvimento do Filecoin e do Arweave demonstra que o armazenamento descentralizado (DCS) está se tornando uma mudança de paradigma no campo do armazenamento. O DCS reduz os pontos únicos de falha por meio de uma arquitetura distribuída, ao mesmo tempo que atrai participantes com eficiência competitiva de custos. Com o surgimento de aplicações em grande escala, a capacidade de armazenamento do DCS cresceu exponencialmente (por exemplo, a capacidade total de armazenamento em rede do Filecoin atingiu 22 exabytes até 2024).
Processamento e Análise: Plataformas de computação de dados descentralizadas como Fluence melhoram o desempenho em tempo real e a eficiência do processamento de dados por meio da computação de borda, especialmente para cenários de aplicação em tempo real, como IoT e inferência de IA. Projetos Web3 utilizam tecnologias como aprendizado federado, privacidade diferencial, ambientes de execução confiáveis e criptografia totalmente homomórfica para fornecer proteção de privacidade flexível na camada de computação.
Plataformas de Mercados/Trocas de Dados: Para facilitar a valorização e circulação de dados, a Ocean Protocol utiliza a tokenização e mecanismos DEX para criar canais eficientes e abertos de troca de dados. Por exemplo, colaborou com a Daimler (empresa-mãe da Mercedes-Benz) para desenvolver mercados de troca de dados para gestão da cadeia de abastecimento. Por outro lado, a Streamr desenvolveu uma rede de fluxo de dados baseada em subscrição, sem permissões, adaptada para cenários de IoT e análise em tempo real, mostrando um potencial excepcional em projetos de transporte e logística (por exemplo, colaborando com o projeto da cidade inteligente da Finlândia).