Encaminhar o título original: Computação Descentralizada
O artigo de hoje aborda o setor emergente, mas muitas vezes mal compreendido, de computação descentralizada em criptografia. Nós mergulhamos na paisagem da infraestrutura de AI para entender onde as alternativas descentralizadas podem competir realisticamente.
Exploramos questões como: O ASI pode ser treinado em redes distribuídas? Quais são as vantagens únicas que as redes criptográficas oferecem? E por que a infraestrutura de computação sem permissão pode se tornar tão essencial para a IA quanto o Bitcoin é para as finanças.
Um padrão comum que você notará no artigo é o crescimento exponencial de tudo sobre IA - investimento, computação e capacidades. Isso coincide com um ressurgimento nos mercados de cripto e mindshare. Estamos muito animados com a interseção dessas duas grandes ondas tecnológicas.
Olá!
Num dia ensolarado em Memphis, Tennessee, um avião espião de hélice circulou repetidamente sobre um prédio industrial, seus passageiros fotografando freneticamente as instalações abaixo. Isso não era uma cena de espionagem da Guerra Fria, mas de 2024. O alvo não era uma instalação militar ou um local de enriquecimento de urânio, mas uma antiga fábrica de eletrodomésticos que agora abriga um dos supercomputadores mais poderosos do mundo. Os passageiros não eram agentes estrangeiros, mas funcionários de uma empresa rival de centro de dados.
A cada poucas décadas, surge uma tecnologia transformadora com o potencial de alterar inquestionavelmente a trajetória da civilização. O que se segue é uma corrida entre as entidades mais poderosas do mundo para realizar essa tecnologia primeiro. As recompensas são tão imensas, e as consequências do fracasso tão devastadoras, que essas entidades mobilizam rapidamente todo o seu arsenal de recursos - talento humano e capital - para dominar a tecnologia.
No século XX, duas tecnologias destacaram-se nesta definição - armas nucleares e exploração espacial. A corrida para aproveitar essas tecnologias envolveu as nações mais poderosas. As vitórias dos Estados Unidos em ambos solidificaram seu status como superpotência dominante do mundo, inaugurando uma era de prosperidade sem precedentes. Para os vencidos - Alemanha Nazista e União Soviética - as consequências foram devastadoras, até mesmo terminais.
A gigantesca fábrica de 44 acres K-25 em Oak Ridge, Tennessee, EUA, onde o urânio para a primeira arma atômica foi produzido (fonte)
A vitória da América teve um preço enorme. O Projeto Manhattan custou quase $2 bilhões (aproximadamente $30 bilhões ajustados para a inflação) e empregou mais de 120.000 pessoas - uma em cada mil americanos. A corrida espacial exigiu ainda mais recursos. O programa Apollo custou $28 bilhões na década de 1960 (cerca de $300 bilhões em dinheiro de hoje) e envolveu mais de 400.000 pessoas - uma em 490 americanos. No seu auge em 1966, a NASA comandava 4,4% de todo o orçamento federal dos EUA.
O Apollo 11, apenas antes do lançamento na missão para a luafonte)
O lançamento do ChatGPT em 2022 marcou o início de uma nova corrida com proporções que alteram a civilização - a busca pela superinteligência artificial (ASI). Enquanto a IA já está presente na vida diária - gerenciando feeds de mídia social, recomendações da Netflix e filtros de spam de email - o surgimento de grandes modelos de linguagem (LLMs) promete transformar tudo: produtividade humana, criação de mídia, pesquisa científica e inovação em si.
Desta vez, os contendores não são os estados-nação (pelo menos, ainda não), mas as maiores corporações do mundo (Microsoft, Google, Meta, Amazon), as startups mais quentes (OpenAI, Anthropic) e o indivíduo mais rico (Elon Musk). Enquanto a Big Tech canaliza um capital sem precedentes para construir a infraestrutura para treinar modelos cada vez mais poderosos, as startups estão a garantirrecorde quebrandofinanciamento de capital de risco. Elon é, bom, fazendo coisas de Elon(o centro de dados sob vigilância pertencia à sua empresa, xAI).
E depois há todos os outros - empresas, empresas mais pequenas e startups - que podem não aspirar a construir ASI, mas estão ansiosos por aproveitar as capacidades de ponta desbloqueadas pela IA para otimizar seus negócios, perturbar uma indústria ou criar novas totalmente. As recompensas potenciais são tão vastas que todos estão a correr para reivindicar a sua parte nesta nova economia impulsionada pela inteligência artificial.
No coração da revolução da IA está o seu componente mais essencial: a unidade de processamento gráfico (GPU). Originalmente projetada para alimentar jogos de vídeo, este chip de computador especializado tornou-se a mercadoria mais procurada do mundo. A demanda por GPUs é tão avassaladora que as empresas frequentemente suportam listas de espera de vários mesesapenas para adquirir alguns. Essa demanda projetou a NVIDIA, seu principal fabricante, para a posição da empresa mais valiosa do mundo.
Para empresas incapazes ou não dispostas a comprar GPUs diretamente, alugar poder computacional tornou-se a próxima melhor opção. Isso impulsionou o surgimento de provedores de nuvem de IA - empresas que operam centros de dados sofisticados projetados para atender às necessidades computacionais do boom da IA. No entanto, o aumento na demanda e sua natureza imprevisível significa que nem o preço nem a disponibilidade são garantidos.
Eudiscutidoque a criptomoeda funciona como uma tecnologia “Coasian”, projetada para “engraxar as rodas, pavimentar as estradas e fortalecer as pontes” para que outras inovações disruptivas floresçam. À medida que a IA surge como a força transformadora da nossa era, a escassez e o custo exorbitante de acesso a GPU apresentam uma barreira à inovação. Várias empresas de criptomoeda estão entrando em cena, com o objetivo de derrubar essas barreiras com incentivos baseados em blockchain.
No artigo de hoje, primeiro recuamos das criptomoedas para examinar os fundamentos da infraestrutura moderna de IA - como as redes neurais aprendem, por que as GPUs se tornaram essenciais e como os centros de dados de hoje estão evoluindo para atender a demandas computacionais sem precedentes. Em seguida, mergulhamos em soluções de computação descentralizadas, explorando onde elas podem competir realisticamente com os provedores tradicionais, as vantagens únicas que as redes de criptomoedas oferecem e por que - embora não nos ofereçam IA geral - ainda serão essenciais para garantir que os benefícios da IA permaneçam acessíveis a todos.
Vamos começar pelo motivo pelo qual as GPUs são tão importantes em primeiro lugar.
Este é David, uma escultura de mármore de 17 pés de altura e 6 toneladas, criada pelo gênio mestre do Renascimento italiano Michelangelo. Ela representa o herói bíblico da história de Davi e Golias e é considerada uma obra-prima por sua representação impecável da anatomia humana e atenção magistral à perspectiva e aos detalhes.
Como todas as esculturas de mármore, David começou como uma enorme laje áspera de mármore de Carrara. Para chegar à sua forma final majestosa, Michelangelo teve que lascar metodicamente a pedra. Começando com traços amplos e audaciosos para estabelecer a forma humana básica, ele progrediu para detalhes cada vez mais finos - a curva de um músculo, a tensão numa veia, a expressão sutil de determinação nos olhos. Michelangelo levou três anos para libertar David da pedra.
Mas por que discutir uma figura de mármore de 500 anos em um artigo sobre IA?
Como David, cada rede neural começa como um potencial puro - uma coleção de nós inicializados com números aleatórios (pesos), tão informes como aquele bloco maciço de mármore de Carrara.
Este modelo bruto é alimentado repetidamente com dados de treino - inúmeras instâncias de entradas emparelhadas com as suas saídas corretas. Cada ponto de dados que passa pela rede desencadeia milhares de cálculos. Em cada nó (neurónio), as conexões de entrada multiplicam o valor de entrada pelo peso da conexão, somam esses produtos e transformam o resultado através de uma 'função de ativação' que determina a força de disparo do neurónio.
Assim como Michelangelo dava um passo atrás, avaliava seu trabalho e fazia ajustes, as redes neurais passam por um processo de refinamento. Após cada passagem adiante, a rede compara sua saída com a resposta correta e calcula sua margem de erro. Através de um processo chamado retropropagação, ela mede quanto cada conexão contribuiu para o erro e, assim como os golpes de cinzel de Michelangelo, faz ajustes em seus valores. Se uma conexão leva a uma previsão incorreta, sua influência diminui. Se ela ajuda a chegar à resposta certa, sua influência se fortalece.
Quando todos os dados passam pela rede (completando uma etapa de propagação para a frente e para trás por ponto de dados), marca o fim de uma "época". Este processo repete-se várias vezes, sendo que cada passagem refinando a compreensão da rede. Durante as primeiras épocas, as alterações de peso são dramáticas, à medida que a rede faz ajustes amplos - como os primeiros golpes de cinzelagem a negrito. Em épocas posteriores, as alterações tornam-se mais subtis, ajustando as conexões para um desempenho ótimo - assim como delicados toques finais trouxeram os detalhes de David.
Finalmente, após milhares ou milhões de iterações, o modelo treinado emerge. Como David, orgulhoso em sua forma finalizada, a rede neural se transforma de ruído aleatório em um sistema capaz de reconhecer padrões, fazer previsões, gerar imagens de gatos andando de scooters ou permitir que os computadores entendam e respondam em linguagem humana.
Michelangelo, trabalhando sozinho em David, só podia dar um golpe de cinzel de cada vez, sendo que cada um exigia cálculos precisos de ângulo, força e posição. Essa precisão meticulosa é o motivo pelo qual ele levou três anos incansáveis para completar sua obra-prima. Mas imagine milhares de escultores igualmente habilidosos trabalhando em David em perfeita coordenação—uma equipe nos cachos de cabelo, outra nos músculos do tronco e centenas mais nos detalhes intricados do rosto, mãos e pés. Tal esforço paralelo comprimiria esses três anos em meros dias.
Da mesma forma, enquanto os CPUs são poderosos e precisos, eles só podem realizar um cálculo de cada vez. O treinamento de uma rede neural não requer um único cálculo complexo, mas centenas de milhões de cálculos simples - principalmente multiplicações e adições em cada nó. Por exemplo, a rede neural de amostra mencionada anteriormente, com apenas 18 nós e cerca de 100 conexões (parâmetros), pode ser treinada em um CPU dentro de um período razoável.
No entanto, os modelos mais poderosos de hoje, como o GPT-4 da OpenAI, têm 1,8 trilhões de parâmetros! Mesmo modelos modernos menores contêm pelo menos um bilhão de parâmetros. Treinar esses modelos um cálculo de cada vez levaria séculos. É aqui que as GPUs se destacam: elas podem realizar um grande número de cálculos matemáticos simples simultaneamente, tornando-as ideais para processar vários nós de rede neural em paralelo.
As GPUs modernas são incrivelmente poderosas. A mais recente GPU B200 da NVIDIA, por exemplo, é composta por mais de 200 bilhões de transistores e suporta 2,250 trilhões de cálculos paralelos por segundo (2,250 TFLOPS). Uma única GPU B200 pode lidar com modelos de até 740 bilhões de parâmetros. Essas máquinas representam proezas da engenharia moderna, o que explica por que a NVIDIA, vendendo cada unidade por $40,000, viu o preço de suas ações aumentar mais de 2,500% em cinco anos.
Jensen Huang a apresentar a NVIDIA B200
No entanto, mesmo essas máquinas formidáveis não conseguem treinar modelos de IA sozinhas. Lembre-se de que durante o treino, cada instância de dados deve passar pelo modelo individualmente em um ciclo de avanço e retrocesso. Os modernos modelos de linguagem de grande porte (LLMs) são treinados em conjuntos de dados que abrangem toda a internet. O GPT-4, por exemplo, processou aproximadamente 12 trilhões de tokens (cerca de 9 trilhões de palavras), e espera-se que a próxima geração de modelos consiga lidar com até 100 trilhões de tokens. Utilizar uma única GPU para um volume tão imenso de dados ainda levaria séculos.
A solução reside em adicionar mais uma camada de paralelismo - criando clusters de GPU onde as tarefas de treino são distribuídas entre numerosas GPUs a trabalhar como um sistema unificado. As cargas de trabalho do treino do modelo podem ser paralelizadas de três maneiras:
Paralelismo de Dados: Múltiplas GPUs mantém uma cópia completa do modelo de rede neural enquanto processam diferentes partes dos dados de treinamento. Cada GPU processa seu lote de dados atribuído independentemente antes de se sincronizar periodicamente com todas as outras GPUs. Neste período de sincronização, as GPUs se comunicam umas com as outras para encontrar uma média coletiva de seus pesos e, em seguida, atualizam seus pesos individuais de forma que sejam todos idênticos. Consequentemente, elas continuam treinando em seu lote de dados individualmente antes de ser hora de sincronizar novamente.
À medida que os modelos crescem, uma única cópia pode se tornar muito grande para caber em uma GPU. Por exemplo, a mais recente GPU B200 só pode conter 740 bilhões de parâmetros, enquanto o GPT-4 é um modelo de 1,8 trilhão de parâmetros. O paralelismo de dados entre GPUs individuais não funciona neste caso.
Paralelismo de tensor: esta abordagem aborda a restrição de memória distribuindo o trabalho e os pesos de cada camada do modelo em vários GPUs. GPUs trocam cálculos intermediários com todo o cluster durante cada etapa de propagação direta e inversa. Esses GPUs geralmente são agrupados em servidores de oito unidades, conectados via NVLink - a interconexão direta de GPU para GPU de alta velocidade da NVIDIA. Essa configuração requer conexões de alta largura de banda (até 400 Gb / s) e baixa latência entre GPUs. Um cluster de tensor funciona efetivamente como um único GPU massivo.
Paralelismo de Pipeline: Este método divide o modelo entre várias GPUs, com cada GPU a lidar com camadas específicas. Os dados fluem através destas GPUs sequencialmente, como uma corrida de estafetas onde cada corredor (GPU) gere a sua parte antes de passar o bastão. O paralelismo de pipeline é particularmente eficaz para ligar diferentes servidores de 8 GPUs dentro de um centro de dados, utilizando redes InfiniBand de alta velocidade para comunicação entre servidores. Embora os requisitos de comunicação excedam o paralelismo de dados, eles permanecem inferiores às trocas intensivas de GPU para GPU do paralelismo tensorial.
A escala dos clusters modernos é notável. O GPT-4, com 1,8 trilhões de parâmetros e 120 camadas, necessitou de 25.000 GPUs A100 para treino. O processo levou três meses e custou mais de $60 milhões. O A100 é duas gerações antigo; utilizando as GPUs B200 de hoje, seriam necessárias apenas cerca de 8.000 unidades e 20 dias de treino. Apenas mais uma demonstração de como a IA está a avançar rapidamente.
Mas a classe de modelos GPT-4 são brinquedos antigos agora. O treinamento para a próxima geração de modelos avançados está em andamento nos centros de dados que abrigam clusters de 100.000 GPUs B100 ou H100 (este último sendo uma geração mais antiga). Esses clusters, representando mais de $4 bilhões em despesas de capital de GPU, são os supercomputadores mais poderosos da humanidade, fornecendo pelo menos quatro vezes a capacidade de computação bruta dos governamentais.
Além de garantir a computação bruta, os aspirantes à ASI encontram outro problema ao tentar configurar esses clusters: eletricidade. Cada uma dessas GPUs consome 700W de energia. Quando você combina 100.000 delas, o cluster inteiro (incluindo hardware de suporte) consome mais de 150MW de energia. Para colocar isso em perspectiva, esse consumo equivale ao de uma cidade de 300.000 pessoas - comparável a Nova Orleans ou Zurique.
A loucura não pára por aqui. A maioria dos aspirantes a ASI acreditam que o Leis de escala LLM—que sugerem que o desempenho do modelo melhora previsivelmente com o aumento do tamanho do modelo, do tamanho do conjunto de dados e do treinamento computacional—continuará sendo verdadeiro. Já estão em andamento planos para execuções de treinamento de modelos ainda mais poderosos. Até 2025, estima-se que o custo de cada cluster de treinamento ultrapasse os 10 bilhões de dólares. Até 2027, mais de 100 bilhões de dólares. À medida que esses números se aproximam do investimento do governo dos EUA nos programas Apollo, fica claro por que alcançar a ASI emergiu como a corrida definidora de nossa era.
As métricas para modelos a partir do GPT-5 são estimativas
À medida que o consumo de eletricidade cresce proporcionalmente com o tamanho dos clusters, as execuções de treinamento do próximo ano exigirão mais de 1GW de energia. No ano seguinte, 10GW ou mais. Sem indicações de desaceleração dessa expansão, espera-se que os centros de dados consumam aproximadamente 4,5% do global gerado até 2030. Redes elétricas existentes,já está lutando com as demandas do modelo atual, não consegue gerar energia suficiente para futuros clusters. Isso levanta uma questão crítica: de onde virá essa energia? A Big Tech está adotando uma abordagem de duas frentes.
A longo prazo, a única solução viável é que os aspirantes ASI gerem a sua própria eletricidade. Tendo em conta os seus compromissos climáticos, esta energia deve provir de fontes renováveis. A energia nuclear destaca-se como a principal solução. Amazônia recentemente compradoum campus de centro de dados alimentado por uma central nuclear por $650 milhões. Microsoftcontratou um chefe de tecnologias nucleares e é reviver a histórica planta de Three Mile Island. O Google temadquiriu vários reatores nucleares pequenosda Kairos Power da Califórnia. Sam Altman da OpenAI apoiou startups de energia como Helion, Exowatt, e Oklo.
A Microsoft está reabrindo a Usina Nuclear Three Mile Island (fonte da imagem)
Embora as sementes da energia nuclear estejam sendo plantadas agora, os frutos (ou poder) levarão vários anos para se desenvolverem. E quanto aos requisitos de energia para a geração imediata de modelos? A solução intermediária envolve treinamento distribuído em vários centros de dados. Em vez de concentrar enormes demandas de energia em um único local, empresas como a Microsoft e o Google estão distribuindo seus clusters de treinamento em vários locais.
O desafio, é claro, é fazer com que esses sistemas distribuídos funcionem juntos de forma eficaz. Mesmo na velocidade da luz, os dados levam aproximadamente 43ms para uma viagem de ida e volta da costa leste para a costa oeste dos EUA - uma eternidade em termos de computação. Além disso, se mesmo um chip ficar para trás, digamos, 10%, isso faz com que toda a execução do treinamento seja desacelerada na mesma proporção.
A solução reside na ligação de centros de dados em vários locais com redes de fibra ótica de alta velocidade e na aplicação de uma combinação das técnicas de paralelismo discutidas anteriormente para sincronizar as suas operações. O paralelismo tensor é aplicado às GPUs dentro de cada servidor, permitindo que elas funcionem como uma única unidade. O paralelismo de pipeline, com suas demandas de rede mais baixas, é empregado para conectar servidores dentro do mesmo data center. Por último, os centros de dados em diferentes locais (referidos como "ilhas") sincronizam as suas informações periodicamente utilizando paralelismo de dados.
Anteriormente, observamos que o paralelismo de dados se mostra ineficaz para GPUs individuais porque elas não podem acomodar modelos grandes de forma independente. No entanto, essa dinâmica muda quando estamos paralelizando ilhas — cada uma contendo milhares de GPUs — em vez de unidades individuais. Os dados de treinamento são distribuídos por cada ilha, e essas ilhas sincronizam periodicamente nas conexões de fibra ótica relativamente mais lentas (em comparação com NVLink e Infiniband).
Vamos desviar o nosso foco do treino e das GPUs para os próprios centros de dados.
Há vinte anos, a Amazon lançou a Amazon Web Services (AWS) - um dos negócios mais transformadores da história - e criou uma nova indústria conhecida como computação em nuvem. Os líderes atuais da nuvem (Amazon, Microsoft, Google e Oracle) desfrutam de uma dominação confortável, gerando uma receita anual combinada próxima de $300 bilhões com margens de 30-40%. Agora, a emergência da IA criou novas oportunidades em um mercado que tem permanecido largamente oligopolístico por anos.
Os requisitos físicos, a complexidade técnica e a economia dos centros de dados de IA com uso intensivo de GPU diferem drasticamente dos seus homólogos tradicionais.
Discutimos anteriormente o quão ávidas por energia são as GPUs. Isso leva a que os centros de dados de IA sejam muito mais densos em termos de energia e, consequentemente, produzam mais calor. Enquanto os centros de dados tradicionais utilizam grandes ventiladores (refrigeração a ar) para dissipar o calor, esta abordagem não é suficiente nem financeiramente viável para as instalações de IA. Em vez disso, os centros de dados de IA estão adotando sistemas de refrigeração líquida, onde os blocos de água se conectam diretamente às GPUs e outros componentes quentes para dissipar o calor de forma mais eficiente e silenciosa. (As GPUs B200 possuem essa arquitetura integrada). O suporte a sistemas de refrigeração líquida requer a adição de grandes torres de refrigeração, uma instalação centralizada de sistema de água e tubulações para transportar a água de e para todas as GPUs - uma modificação fundamental na infraestrutura do centro de dados.
Além do maior consumo absoluto de energia, os centros de dados de IA têm requisitos de carga distintos. Enquanto os data centers tradicionais mantêm um consumo de energia previsível, os padrões de uso de energia da carga de trabalho de IA são muito mais voláteis. Essa volatilidade ocorre porque as GPUs alternam periodicamente entre funcionar a 100% da capacidade e desacelerar até quase parar à medida que o treinamento chega aos pontos de verificação, onde os pesos são armazenados na memória ou, como vimos anteriormente, sincronizados com outras ilhas. Os centros de dados de IA necessitam de infraestruturas de energia especializadas para gerir estas flutuações de carga.
Construir clusters de GPU é muito mais difícil do que construir nuvens de computadores regulares. As GPUs precisam se comunicar entre si muito rapidamente. Para que isso aconteça, elas devem ser embaladas bem juntas. Uma instalação típica de IA precisa de mais de 200.000 cabos especiais chamados conexões InfiniBand. Esses cabos permitem a comunicação entre as GPUs. Se apenas um cabo parar de funcionar, o sistema inteiro é desligado. O processo de treinamento não pode continuar até que esse cabo seja consertado.
Estes requisitos de infraestrutura tornam praticamente impossível adaptar os centros de dados tradicionais com GPUs de alto desempenho para torná-los prontos para IA. Essa atualização exigiria uma reforma estrutural quase completa. Em vez disso, as empresas estão construindo novos centros de dados especificamente projetados para IA desde o início, com diferentes organizações perseguindo isso em diferentes escalas.
Na vanguarda, as principais empresas de tecnologia estão correndo para construir seus próprios centros de dados de IA. A Meta está investindo pesado em instalações exclusivamente para seu próprio desenvolvimento de IA, tratando-a como um investimento de capital direto, uma vez que não oferece serviços em nuvem. A Microsoft está construindo centros igualmente massivos para alimentar seus próprios projetos de IA e atender clientes-chave como a OpenAI. A Oracle também entrou neste espaço de forma agressiva, garantindo a OpenAI como um cliente notável. A Amazon continua a expandir sua infraestrutura, particularmente para apoiar empresas emergentes de IA, como a Anthropic. A xAI de Elon Musk, não querendo depender de outra empresa, optou por construir seu próprio cluster de 100.000 GPUs.
Dentro do centro de dados GPU 100.000 H100 da xAI (origem)
Ao lado dos incumbentes, estão surgindo os “neoclouds” – provedores de nuvem especializados que se concentram exclusivamente em computação GPU para cargas de trabalho de IA. Esses neoclouds são divididos em duas categorias distintas com base na escala.
Grandes provedores de neocloud, incluindo CoreWeave, Crusoe, e LLama Labs, operar clusters com mais de 2.000 GPUs. Diferenciam-se dos serviços tradicionais de nuvem de duas maneiras: oferecendo soluções de infraestrutura personalizadas em vez de pacotes padronizados e exigindo compromissos de longo prazo dos clientes em vez de acordos de pagamento por uso.
O seu modelo de negócio alavanca estes acordos de longo prazo e a solvabilidade do cliente para garantir o financiamento da infraestrutura. A receita provém das taxas premium cobradas pelos serviços especializados e dos lucros provenientes da diferença entre os baixos custos de financiamento e os pagamentos dos clientes.
É assim que esse tipo de acordo geralmente funciona: um provedor de neocloud garante um contrato de três anos com uma startup de IA bem financiada para 10.000 GPUs H100 a $40 milhões mensais. Usando essa receita garantida de $1,44 bilhão, o provedor garante financiamento bancário favorável (a 6% de juros) para comprar e instalar infraestrutura no valor de $700 milhões. As receitas mensais de $40 milhões cobrem $10 milhões em custos operacionais e $20 milhões em pagamentos de empréstimos, gerando $10 milhões em lucros mensais, enquanto a startup recebe poder de computação dedicado e personalizado.
Este modelo requer uma seleção cuidadosa e excepcional do cliente. Os fornecedores geralmente procuram empresas com grandes reservas de dinheiro ou forte suporte de empreendimento - muitas vezes avaliações de $500 milhões ou mais.
Pequenas neoclouds oferecem clusters de GPU de 2.000 ou menos e atendem a um segmento separado do mercado de IA - pequenas e médias start-ups. Essas empresas treinam modelos menores (até 70 bilhões de parâmetros) ou ajustam os de código aberto. (Ajuste fino é o processo de adaptar um modelo de fundação para casos de uso específicos.) Ambas as cargas de trabalho requerem computação moderada, mas dedicada por períodos mais curtos.
Estes fornecedores oferecem computação sob demanda com tarifas horárias para acesso ininterrupto de duração fixa. Embora isso custe mais do que contratos de longo prazo, dá às startups flexibilidade para experimentar sem se comprometer com acordos de vários milhões de dólares.
Finalmente, além dos gigantes da nuvem e dos fornecedores de neocloud, temos os intermediários do espaço de infraestrutura de IA: plataformas e agregadores. Esses intermediários não possuem infraestrutura de GPU, mas conectam proprietários de recursos de computação com aqueles que precisam deles.
Fornecedores de plataformas comoHydraHost e Fluidstackservir como o Shopify da computação GPU. Assim como o Shopify permite aos comerciantes lançar lojas online sem construir infraestruturas de comércio eletrónico, estas plataformas permitem aos operadores de centros de dados e aos proprietários de GPU oferecer serviços de computação sem desenvolverem as suas próprias interfaces de cliente. Fornecem um pacote técnico completo para executar um negócio de computação GPU, incluindo ferramentas de gestão de infraestrutura, sistemas de provisionamento de clientes e soluções de faturação.
Agregadores de mercado como Vast.aifuncionar como a Amazon do mundo das GPU. Eles criam um mercado que combina diversas ofertas de computação de vários fornecedores - desde cartões RTX de consumo até GPUs profissionais H100. Os proprietários de GPUs listam seus recursos com métricas de desempenho detalhadas e classificações de confiabilidade, enquanto os clientes compram tempo de computação por meio de uma plataforma de autoatendimento.
Até agora, a nossa discussão tem-se centrado na formação (ou ajuste fino) de modelos. No entanto, uma vez treinado, um modelo deve ser implementado para servir os utilizadores finais - um processo chamado inferência. Sempre que estás a conversar com o ChatGPT, estás a utilizar GPUs a executar cargas de trabalho de inferência que recebem a tua entrada e geram a resposta do modelo. Vamos voltar a falar sobre estátuas de mármore por um minuto.
Este também é David - não o original de Michelangelo, mas um molde de gesso encomendado pela Rainha Vitória em 1857 para o Victoria and Albert Museum de Londres. Enquanto Michelangelo passou três anos extenuantes cuidadosamente lascando mármore para criar o original em Florença, este gesso foi feito a partir de um molde direto da estátua - reproduzindo perfeitamente cada curva, ângulo e detalhe que Michelangelo havia criado. O intenso trabalho criativo aconteceu uma vez. Depois, tornou-se uma questão de replicar fielmente esses recursos. Hoje, réplicas de David aparecem em todos os lugares, desde salões de museus até pátios de cassinos de Las Vegas.
É assim que funciona a inferência em IA. Treinar um grande modelo de linguagem é como o processo escultural original de Michelangelo - intensivo em computação, demorado e exigente em recursos, à medida que o modelo aprende gradualmente a forma correta da linguagem através de milhões de pequenos ajustes. Mas usar o modelo treinado - inferência - é mais como criar uma réplica. Quando você conversa com o ChatGPT, você não está ensinando a linguagem do zero, mas usando uma cópia de um modelo cujos parâmetros (como as curvas e ângulos precisos de David) já foram aperfeiçoados.
As cargas de trabalho de inferência diferem fundamentalmente do treinamento. Embora o treinamento exija clusters grandes e densos das GPUs mais recentes, como H100s, para lidar com cálculos intensivos, a inferência pode ser executada em servidores GPU únicos usando hardware mais antigo, como A100s, ou até mesmo placas de nível de consumidor, tornando-a significativamente mais econômica. Dito isto, as cargas de trabalho de inferência têm suas próprias demandas exclusivas:
Essas características tornam as cargas de inferência ideais para modelos de preços de pontos. Sob preços de pontos, os recursos de GPU estão disponíveis com descontos significativos - muitas vezes 30-50% abaixo das taxas sob demanda - com a compreensão de que o serviço pode pausar quando os clientes de maior prioridade precisam de recursos. Esse modelo adequa-se à inferência porque a implantação redundante permite que as cargas de trabalho se desloquem rapidamente para GPUs disponíveis se forem interrompidas.
Neste contexto de GPUs e computação em nuvem de IA, agora estamos em posição de começar a explorar onde a criptomoeda se encaixa em tudo isso. Vamos (finalmente) começar.
Projetos e relatórios frequentemente citam a observação de Peter Thiel de que "a IA está centralizando, a criptomoeda está descentralizando" ao discutir o papel da criptomoeda no treino de IA. Embora a declaração de Thiel seja indiscutivelmente verdadeira, acabamos de ver evidências abundantes da clara vantagem da Big Tech no treino de IA poderosa - muitas vezes é inadequadamente sugerido que a criptomoeda e os computadores descentralizados oferecem a solução principal para contrabalançar a influência da Big Tech.
Tais afirmações ecoam exageros anteriores sobre o potencial das criptomoedas para revolucionar as redes sociais, os jogos e inúmeras outras indústrias. Elas não são apenas contraproducentes, mas também, como argumentarei em breve, irrealistas—pelo menos a curto prazo.
Em vez disso, vou adotar uma abordagem mais pragmática. Vou assumir que uma startup de IA à procura de computação não se preocupa com os princípios da descentralização ou com a oposição ideológica ao Big Tech. Pelo contrário, eles têm um problema - eles querem ter acesso a computação confiável de GPU ao menor custo possível. Se um projeto de criptomoeda puder oferecer uma solução melhor para esse problema do que alternativas não criptográficas, eles a usarão.
Para isso, vamos primeiro entender com quem os projetos de criptografia estão competindo. Anteriormente, discutimos as diferentes categorias de provedores de nuvem de IA - Big Tech e hipercalados, grandes neonuvens, pequenas neonuvens, provedores de plataformas e mercados.
A tese fundamental por trás da computação descentralizada (como todos os projetos DePIN) é que o mercado atual de computação opera de forma ineficiente. A demanda por GPUs continua excepcionalmente alta, enquanto a oferta está fragmentada e subutilizada em centros de dados globais e residências individuais. A maioria dos projetos neste setor concorre diretamente com os mercados, agregando essa oferta dispersa para reduzir as ineficiências.
Com esse estabelecimento, vamos ver como esses projetos (e mercados de computação em geral) podem ajudar com diferentes cargas de trabalho de IA - treinamento, ajuste fino e inferência.
Primeiro as coisas mais importantes. Não, a ASI não será treinada numa rede global de GPUs descentralizadas. Pelo menos, não na trajetória atual da IA. Aqui está o porquê.
Anteriormente, discutimos o quão grandes estão ficando os clusters de modelos de base. Você precisa de 100.000 dos mais poderosos GPUs do mundo para começar a competir. Este número está aumentando a cada ano que passa. Até 2026, espera-se que o custo de uma execução de treino ultrapasse os $100 bilhões de dólares, exigindo talvez um milhão de GPUs ou mais.
Apenas as grandes empresas de tecnologia, apoiadas por grandes neoclouds e parcerias diretas com a Nvidia, podem montar clusters dessa magnitude. Lembre-se, estamos em uma corrida pela ASI, e todos os participantes são altamente motivados e capitalizados. Se houver um suprimento adicional dessas muitas GPUs (o que não há), eles serão os primeiros a adquiri-las.
Mesmo que um projeto de criptografia de alguma forma acumule a computação necessária, dois obstáculos fundamentais impedem o desenvolvimento descentralizado de ASI:
Primeiro, as GPUs ainda precisam ser conectadas em grandes clusters para funcionarem efetivamente. Mesmo que esses clusters sejam divididos entre ilhas em cidades, eles terão que ser conectados por linhas de fibra ótica dedicadas. Nenhum desses é possível em um ambiente descentralizado. Além da aquisição de GPUs, o estabelecimento de centros de dados prontos para IA exige um planejamento meticuloso - normalmente um processo de um a dois anos. (xAI fez isso em apenas 122 dias, mas é improvável que Elon esteja lançando um token em breve.)
Em segundo lugar, apenas criar um centro de dados de IA não é suficiente para criar uma IA superinteligente. Como fundador antrópico Dario Amodei explicado recentemente, escalar na IA é análogo a uma reação química. Assim como uma reação química requer múltiplos reagentes em proporções precisas para prosseguir, o escalonamento bem-sucedido da IA depende de três ingredientes essenciais que crescem em conjunto: redes maiores, tempos de treinamento mais longos e conjuntos de dados maiores. Se você aumentar a escala de um componente sem os outros, o processo estagna.
Mesmo que de alguma forma consigamos acumular tanto o cálculo quanto fazer com que os clusters trabalhem juntos, ainda precisamos de terabytes de dados de alta qualidade para que o modelo treinado seja bom. Sem as fontes de dados proprietárias da Big Tech, o capital para assinar contratos de milhões de dólares com fóruns online e meios de comunicação ou modelos existentes para gerar dados sintéticos, adquirir dados de treinamento adequados é impossível.
Tem havido alguma especulação recentemente de que as leis de escalabilidade podem atingir um patamar, com os LLMs potencialmente atingindo limitações de desempenho. Alguns interpretam isso como uma oportunidade para o desenvolvimento descentralizado de IA. No entanto, isso desconsidera um fator crucial: a concentração de talentos. As empresas de tecnologia de ponta e os laboratórios de IA de hoje abrigam os principais pesquisadores do mundo. Qualquer caminho alternativo de avanço para a AGI provavelmente surgirá desses centros. Dadas as condições competitivas do mercado, essas descobertas permaneceriam estritamente guardadas.
Considerando todos esses argumentos, tenho 99,99% de certeza de que o treinamento de ASI - ou mesmo dos modelos mais poderosos do mundo - não será realizado em um projeto de computação descentralizada. Nesse caso, quais modelos a criptomoeda realmente poderia ajudar a treinar?
Para que os modelos sejam treinados em clusters de GPU separados colocados em locais geográficos diferentes, precisamos implementar o paralelismo de dados entre eles. (Lembre-se de que o paralelismo de dados é como diferentes ilhas de GPUs, cada uma trabalhando em partes separadas dos dados de treinamento, sincronizam entre si). Quanto maior for o modelo a ser treinado, maior será a quantidade de dados que terão de ser trocados entre estas ilhas. Como discutimos, para modelos de fronteira com mais de um trilhão de parâmetros, a largura de banda necessária é grande o suficiente para exigir conexões de fibra ótica dedicadas.
No entanto, para modelos mais pequenos, os requisitos de largura de banda diminuem proporcionalmente. Avanços recentes em algoritmos de treino com baixa comunicação, particularmente em sincronização atrasada, têm criado oportunidades promissoras para treinar modelos de pequena a média dimensão de forma descentralizada. Duas equipas estão a liderar estes esforços experimentais.
Nous Researché uma empresa aceleradora de IA e um dos principais players no desenvolvimento de IA de código aberto. Eles são mais conhecidos pela sua série Hermes de modelos de linguagem e projetos inovadores como o World Sim. No início deste ano, operaram um sub-rede BitTensor de classificação LLM por alguns meses. Eles deram os primeiros passos na computação descentralizada ao lançar o DisTrOprojeto (Treino Distribuído Pela Internet), onde eles treinaram com sucesso um modelo Llama-2 com 1,2B de parâmetros, alcançando uma redução de 857x nos requisitos de largura de banda entre GPUs.
O relatório DisTrO da Nous Research
Prime IntellectA , uma startup que desenvolve infraestrutura para IA descentralizada em escala, tem como objetivo agregar recursos de computação globais e permitir o treinamento colaborativo de modelos de última geração por meio de sistemas distribuídos. Seu Estrutura OpenDiLoCo(implementando DeepMind’sMétodo distribuído de baixa comunicação) treinou com sucesso um modelo de um bilhão de parâmetros em dois continentes e três países, mantendo uma utilização de computação de 90-95%.
Mas como funcionam essas corridas de treinamento descentralizadas?
O paralelismo de dados tradicional exige que as GPUs compartilhem e calculem a média de seus pesos após cada etapa de treinamento — impossível em conexões com a Internet. Em vez disso, esses projetos permitem que cada "ilha" de GPUs treine de forma independente por centenas de etapas antes da sincronização. Pense nisso como equipes de pesquisa independentes trabalhando no mesmo projeto: em vez de verificar constantemente uns com os outros, eles fazem progressos significativos de forma independente antes de compartilhar suas descobertas.
DisTrO e OpenDiLoCo sincronizam apenas a cada 500 passos, usando uma abordagem de otimização dupla:
Quando eles sincronizam, em vez de compartilhar todos os pesos, eles compartilham um “pseudo-gradiente”—basicamente a diferença entre seus pesos atuais e os pesos da última sincronização. Isto é notavelmente eficiente, como compartilhar apenas o que mudou em um documento em vez de enviar o documento inteiro toda vez.
INTELLECT-1, uma implementação prática do OpenDiLoCo pela Prime Intellect, está levando essa abordagem ainda mais longe ao treinar um modelo de 10B parâmetros - o maior esforço de treinamento descentralizado até o momento. Eles adicionaram otimizações-chave como:
INTELLECT-1, treinado por mais de 20 clusters de GPU distribuídos em todo o mundo, recentemente concluído pré-treino e em breve será lançado como um modelo totalmente open-source.
painel de treinamento INTELLECT-1
Equipes comoMacrocosmosestão usando algoritmos similares paramodelos de tremno ecossistema Bittensor.
Se estes algoritmos de treino descentralizados continuarem a melhorar, poderão ser capazes de suportar modelos de até 100 mil milhões de parâmetros com a próxima geração de GPUs. Mesmo modelos deste tamanho podem ser muito úteis para uma ampla variedade de casos de uso:
A afinação fina é o processo de pegar um modelo de base pré-treinado (geralmente um código aberto da Meta, Mistral ou Alibaba) e treiná-lo ainda mais em um conjunto de dados específico para adaptá-lo a tarefas ou domínios específicos. Isso requer significativamente menos cálculos do que o treinamento do zero, uma vez que o modelo já aprendeu padrões de linguagem gerais e só precisa ajustar seus pesos para o novo domínio.
Calcular os requisitos para ajustar a escala de acordo com o tamanho do modelo. Supondo treinamento em um H100:
Dadas essas especificações, o ajuste fino não exige os complexos algoritmos de treinamento distribuído discutidos anteriormente. O modelo sob demanda, em que os desenvolvedores alugam clusters de GPU por períodos curtos e concentrados, fornece suporte adequado. Os mercados de computação descentralizada com disponibilidade robusta de GPU estão idealmente posicionados para lidar com essas cargas de trabalho.
A Inferência é onde os mercados de computação descentralizados têm o caminho mais claro para se adaptar ao mercado. Ironicamente, este é o fluxo de trabalho menos discutido no contexto do treino descentralizado. Isso decorre de dois fatores: a inferência não tem o apelo de 100.000 execuções de treino de modelos de GPU "deus", e em parte por causa da atual fase da revolução da IA.
A partir de hoje, a maioria do cálculo está, de fato, indo para o treinamento. A corrida para IAS está levando a investimentos massivos antecipados em infraestrutura de treinamento. No entanto, esse equilíbrio inevitavelmente muda à medida que as aplicações de IA passam da pesquisa para a produção. Para que um modelo de negócio em torno da IA seja sustentável, a receita gerada a partir da inferência deve exceder os custos tanto do treinamento quanto da inferência combinados. Embora o treinamento do GPT-4 tenha sido enormemente caro, esse foi um custo único. As despesas contínuas de cálculo - e o caminho da OpenAI para a lucratividade - são impulsionadas pelo atendimento de bilhões de solicitações de inferência de clientes pagantes.
Os mercados de computação, descentralizados ou não, pela natureza de agregarem uma variedade de modelos de GPU (antigos e novos) de todo o mundo, encontram-se numa posição única para atender às cargas de trabalho de inferência.
Os mercados de computação, sejam descentralizados ou tradicionais, naturalmente se destacam em cargas de trabalho de inferência, agregando diversos modelos de GPU (atuais e legados) globalmente. Suas vantagens inerentes se alinham perfeitamente com os requisitos de inferência: ampla distribuição geográfica, tempo de atividade consistente, redundância do sistema e compatibilidade entre gerações de GPU.
Discutimos os diferentes fluxos de trabalho com os quais a computação descentralizada pode e não pode ajudar. Agora, precisamos responder a outra pergunta importante: por que um desenvolvedor escolheria proteger a computação de um provedor descentralizado em vez de um centralizado? Que vantagens atraentes oferecem as soluções descentralizadas?
As stablecoins alcançaram a adequação ao mercado ao oferecerem uma alternativa superior aos pagamentos transfronteiriços tradicionais. Um grande fator é que as stablecoins são simplesmente muito mais baratas! Da mesma forma, o maior fator que influencia a escolha do provedor de nuvem por um desenvolvedor de IA é o custo. Para que os provedores de computação descentralizada possam competir efetivamente, primeiro eles devem oferecer preços superiores.
Um mercado de computação, como todos os mercados, é um negócio de efeitos de rede. Quanto maior a oferta de GPUs em uma plataforma, maior a liquidez e disponibilidade para os clientes, o que, por sua vez, atrai mais demanda. À medida que a demanda cresce, isso incentiva mais proprietários de GPUs a se juntarem à rede, criando um ciclo virtuoso. O aumento da oferta também permite preços mais competitivos por meio de uma melhor correspondência e redução do tempo ocioso. Quando os clientes conseguem encontrar consistentemente a computação de que precisam a taxas atrativas, é mais provável que criem dependências técnicas duradouras na plataforma, o que fortalece ainda mais os efeitos de rede.
Esta dinâmica é particularmente poderosa na inferência, onde a distribuição geográfica da oferta pode realmente melhorar a oferta de produtos, reduzindo a latência para os utilizadores finais. O primeiro mercado a alcançar esse volante de liquidez em escala terá uma vantagem competitiva significativa, já que fornecedores e clientes enfrentam custos de mudança depois de se integrarem às ferramentas e fluxos de trabalho de uma plataforma.
O efeito de rede da roda dentada do mercado de GPU
Nesses mercados, o vencedor leva tudo, inicializando a redee atingir a velocidade de escape é a fase mais crítica. Aqui, a cripto fornece projetos de computação descentralizada com uma ferramenta muito poderosa que seus concorrentes centralizados simplesmente não possuem: incentivos de tokens.
A mecânica pode ser simples, mas poderosa. O protocolo lançaria primeiro um token que inclui um cronograma de recompensas inflacionárias, possivelmente distribuindo alocações iniciais para os primeiros contribuintes por meio de airdrops. Essas emissões de token serviriam como a principal ferramenta para inicializar ambos os lados do mercado.
Para os fornecedores de GPU, a estrutura de recompensa deve ser cuidadosamente projetada para moldar o comportamento do lado da oferta. Os provedores ganhariam tokens proporcionais à sua contribuição computacional e taxas de utilização, mas o sistema deve ir além das recompensas lineares simples. O protocolo poderia implementar multiplicadores de recompensa dinâmicos para abordar desequilíbrios geográficos ou de tipo de hardware - semelhante à forma como a Uber usa preços dinâmicos para incentivar os motoristas em áreas de alta demanda.
Um provedor pode ganhar recompensas 1.5x por oferecer computação em regiões desatendidas ou 2x por fornecer tipos de GPU temporariamente escassos. A segmentação adicional do sistema de recompensas com base nas taxas de utilização consistentes incentivaria os provedores a manterem uma disponibilidade estável em vez de alternar oportunisticamente entre plataformas.
Do lado da demanda, os clientes receberiam recompensas de token que efetivamente subsidiariam o uso deles. O protocolo pode oferecer recompensas aumentadas para compromissos de computação mais longos, incentivando os usuários a construir dependências técnicas mais profundas na plataforma. Essas recompensas poderiam ser ainda estruturadas para se alinharem com as prioridades estratégicas da plataforma, como capturar a demanda em uma geografia específica.
As taxas base para computação podem ser mantidas no nível ou ligeiramente abaixo das taxas de mercado, com protocolos utilizandooráculos zkTLSpara monitorizar continuamente e igualar os preços dos concorrentes. As recompensas de token serviriam como uma camada adicional de incentivo sobre essas taxas base competitivas. Este modelo de preços duplos permitiria à plataforma manter a competitividade de preços enquanto usa incentivos de token para impulsionar comportamentos específicos que fortalecem a rede.
Ao distribuir incentivos simbólicos, tanto os provedores quanto os clientes começariam a acumular uma participação na rede. Enquanto alguns, talvez a maioria, poderiam vender essas participações, outros as manteriam, tornando-se efetivamente partes interessadas e evangelistas da plataforma. Esses participantes engajados teriam interesse no sucesso da rede, contribuindo para seu crescimento e adoção além de seu uso direto ou fornecimento de recursos computacionais.
Com o tempo, à medida que a rede atinge a velocidade de escape e estabelece efeitos de rede fortes, esses incentivos de token podem ser gradualmente reduzidos. Os benefícios naturais de ser o maior mercado - melhor correspondência, maior utilização, uma cobertura geográfica mais ampla - se tornariam impulsionadores autossustentáveis de crescimento.
Como os incentivos de tokens podem potencializar a roda livre do mercado de GPUs
Embora o preço e a gama sejam diferenciadores críticos, as redes de computação descentralizadas abordam uma preocupação crescente: restrições operacionais de provedores centralizados. Os provedores de nuvem tradicionais já demonstraram sua disposição em suspender ou encerrar serviços com base em políticas de conteúdo e pressões externas. Esses precedentes levantam questões legítimas sobre como políticas semelhantes podem se estender ao desenvolvimento e implantação de modelos de IA.
À medida que os modelos de IA se tornam mais sofisticados e enfrentam casos de uso cada vez mais diversos, existe uma possibilidade real de que os provedores de nuvem implementem restrições no treinamento e na disponibilização de modelos, semelhantes às suas abordagens de moderação de conteúdo existentes. Isso pode afetar não apenas o conteúdo NSFW e tópicos controversos, mas também casos de uso legítimos em áreas como imagens médicas, pesquisa científica ou artes criativas que possam acionar filtros automatizados excessivamente cautelosos.
Uma rede descentralizada oferece uma alternativa ao permitir que os participantes do mercado tomem suas próprias decisões de infraestrutura, potencialmente criando um ambiente mais livre e sem restrições para a inovação.
O lado oposto da arquitetura sem permissão é que a privacidade se torna mais desafiadora. Quando o cálculo é distribuído por uma rede de provedores em vez de estar contido nos centros de dados de uma única entidade confiável, os desenvolvedores precisam pensar na segurança dos dados. Embora a criptografia e os ambientes de execução confiáveis possam ajudar, há uma compensação inerente entre a resistência à censura e a privacidade que os desenvolvedores devem navegar com base em seus requisitos específicos.
Dada a demanda extremamente alta por computação de IA, os fornecedores de GPU podem aproveitar sua posição para extrair o máximo de lucro dos clientes bem-sucedidos. Em um publicação do ano passado, o famoso desenvolvedor solo Pieter Levels compartilhou como ele e outros desenvolvedores experimentaram seus provedores aumentando repentinamente os preços em mais de 600% depois de compartilharem publicamente os números de receita de seus aplicativos de IA.
Os sistemas descentralizados podem oferecer um contraponto a este problema: a execução de contratos sem confiança. Quando os acordos são codificados on-chain em vez de enterrados em termos de serviço, tornam-se transparentes e imutáveis. Um fornecedor não pode aumentar arbitrariamente os preços ou alterar os termos a meio do contrato sem que as alterações sejam explicitamente acordadas através do protocolo.
Além do preço, as redes descentralizadas podem alavancar ambientes de execução confiáveis (TEEs)para fornecer computação verificável. Isso garante que os desenvolvedores estejam realmente obtendo os recursos de GPU pelos quais estão pagando, tanto em termos de especificações de hardware quanto de acesso dedicado. Por exemplo, quando um desenvolvedor paga pelo acesso dedicado a oito GPUs H100 para treinamento de modelo, provas criptográficas podem verificar que suas cargas de trabalho estão realmente sendo executadas em H100s com os 80GB completos de memória por GPU, em vez de serem silenciosamente rebaixadas para cartões de menor qualidade ou terem recursos compartilhados com outros usuários.
Redes de computadores descentralizadas podem fornecer aos desenvolvedores alternativas verdadeiramente sem permissão. Ao contrário dos provedores tradicionais que exigem processos extensos de KYC e verificações de crédito, qualquer pessoa pode participar dessas redes e começar a consumir ou fornecer recursos de computação. Isso reduz drasticamente a barreira de entrada, especialmente para os desenvolvedores em mercados emergentes ou aqueles que trabalham em projetos experimentais.
A importância desta natureza sem permissão torna-se ainda mais poderosa quando consideramos o futuro dos agentes de IA. Os agentes de IA acabaram de começar a encontrar o seu equilíbrio, com agentes verticalmente integradosespera-se que ultrapasse o tamanho da indústria de SaaS. Com empresas como Terminal da VerdadeeZerebro, estamos vendo os primeiros sinais de agentes ganhando autonomia e aprendendo a usar ferramentas externas como as redes sociais e geradores de imagens.
À medida que esses sistemas autônomos se tornam mais sofisticados, eles podem precisar provisionar dinamicamente seus próprios recursos de computação. Uma rede descentralizada onde os contratos podem ser executados sem confiança por meio de código em vez de intermediários humanos é a infraestrutura natural para este futuro. Agentes poderiam negociar contratos autonomamente, monitorar o desempenho e ajustar o uso de computação com base na demanda - tudo isso sem exigir intervenção ou aprovação humana.
O conceito de redes de computação descentralizada não é novo - projetos têm tentado democratizar o acesso a recursos computacionais escassos muito antes do atual boom de IA.Rede Rendertem estado em operação desde 2017, agregando recursos de GPU para a renderização de gráficos de computador.Akashlançado em 2020 para criar um mercado aberto para computação geral. Ambos os projetos encontraram sucesso moderado em suas áreas de atuação, mas agora estão focados em cargas de trabalho de IA.
Da mesma forma, redes de armazenamento descentralizado como Filecoin e Arweaveestão se expandindo para a computação. Eles reconhecem que, à medida que a IA se torna o principal consumidor tanto do armazenamento quanto da computação, oferecer soluções integradas faz sentido.
Assim como os centros de dados tradicionais têm dificuldade em competir com instalações de IA específicas, essas redes estabelecidas enfrentam uma batalha difícil contra soluções nativas de IA. Elas não possuem o DNA para executar a complexa orquestração necessária para cargas de trabalho de IA. Em vez disso, estão encontrando seu lugar ao se tornarem provedores de computação para outras redes específicas de IA. Por exemplo, tanto Render quanto Akash agora disponibilizam suas GPUs no mercado da io.net.
Quem são esses novos marketplaces nativos de IA?io.net é um dos líderes iniciais na agregação de fornecimento de GPU de nível empresarial, com mais de 300.000 GPUs verificadas em sua rede. Eles afirmam oferecer economia de custos de 90% em relação aos incumbentes centralizados e alcançaram ganhos diários de mais de $25.000 ($9 milhões anualizados). Da mesma forma, Aethiragrega mais de 40.000 GPUs (incluindo mais de 4.000 H100s) para atender aos casos de uso de IA e computação em nuvem.
Anteriormente, discutimos como o Prime Intellect está a criar os frameworks para treino descentralizado em grande escala. Para além destes esforços, eles também fornecem um Mercado de GPUsonde os usuários podem alugar H100s sob demanda.Gensyné outro projeto que aposta forte na formação descentralizada com uma abordagem semelhante de formação, juntamente com uma abordagem de mercado de GPU.
Embora todas essas sejam marketplaces agnósticas de carga de trabalho (suportam tanto treinamento quanto inferência), alguns projetos estão se concentrando apenas na inferência - a carga de trabalho de computação descentralizada que mais nos entusiasma. O principal deles é Exo Labs, que permite aos usuários executar LLMs de nível de fronteira em dispositivos cotidianos. Eles desenvolveram uma plataforma de código aberto que permite a distribuição de tarefas de inferência de IA em vários dispositivos como iPhones, Androids e Macs. Eles recentemente demonstradoexecutando um modelo 70-B (escalável até 400-B) distribuído em quatro M4 Pro Mac Minis.
Quando Satoshi lançou o Bitcoin em 2008, seus benefícios - ouro digital com oferta limitada e dinheiro resistente à censura - eram puramente teóricos. O sistema financeiro tradicional, apesar de suas falhas, estava funcionando. Os bancos centrais ainda não haviam embarcado em impressões de dinheiro sem precedentes. Sanções internacionais não eram utilizadas como arma contra economias inteiras. A necessidade de uma alternativa parecia mais acadêmica do que urgente.
Passaram-se dez anos de flexibilização quantitativa, culminando na expansão monetária da era COVID, para que os benefícios teóricos do Bitcoin se cristalizassem em valor tangível. Hoje, à medida que a inflação corrói as poupanças e as tensões geopolíticas ameaçam a dominação do dólar, o papel do Bitcoin como "ouro digital" evoluiu de um sonho ciberpunk para um ativo adotado por instituições e Estados-nação.
Este padrão repetiu-se com as stablecoins. Assim que uma blockchain de uso geral no Ethereum estava disponível, as stablecoins imediatamente tornaram-se um dos casos de uso mais promissores. No entanto, foram necessários anos de melhorias graduais na tecnologia e nas economias de países como Argentina e Turquia, devastados pela inflação, para que as stablecoins evoluíssem de uma inovação cripto de nicho para uma infraestrutura financeira crítica movimentando trilhões de dólares em volume anual.
Cripto é por natureza uma tecnologia defensiva - inovações que parecem desnecessárias durante bons momentos, mas se tornam essenciais durante crises. A necessidade dessas soluções só se torna aparente quando os sistemas incumbentes falham ou revelam suas verdadeiras cores.
Hoje, estamos vivendo a era de ouro da IA. O capital de risco flui livremente, as empresas competem para oferecer os menores preços e as restrições, se houver, são raras. Nesse ambiente, as alternativas descentralizadas podem parecer desnecessárias. Por que lidar com as complexidades da economia de tokens e sistemas de prova quando os provedores tradicionais funcionam muito bem?
Mas, se considerarmos as principais ondas tecnológicas do passado, essa benevolência é temporária. Estamos apenas dois anos na revolução da IA. À medida que a tecnologia amadurece e os vencedores da corrida da IA surgem, seu verdadeiro poder vai surgir. As mesmas empresas que hoje oferecem acesso generoso eventualmente vão impor o controle - através de preços, políticas, permissões.
Este não é apenas outro ciclo de tecnologia em jogo. A IA está se tornando o novo substrato da civilização - a lente através da qual processaremos informações, criaremos arte, tomaremos decisões e, em última análise, evoluiremos como espécie. Computação é mais do que apenas um recurso; é a moeda da própria inteligência. Aqueles que controlam seu fluxo moldarão a fronteira cognitiva da humanidade.
A computação descentralizada não se trata de oferecer GPUs mais baratos ou opções de implantação mais flexíveis (embora precise oferecer ambos para ter sucesso). Trata-se de garantir que o acesso à inteligência artificial - a tecnologia mais transformadora da humanidade - permaneça não censurável e soberana. É o nosso escudo contra um futuro inevitável onde um punhado de empresas ditam não apenas quem pode usar a IA, mas como podem pensar com ela.
Estamos construindo esses sistemas hoje não porque são imediatamente necessários, mas porque serão essenciais amanhã. Quando a IA se tornar tão fundamental para a sociedade quanto o dinheiro, o cálculo sem permissão não será apenas uma alternativa - será tão crucial para resistir à hegemonia digital quanto o Bitcoin e as stablecoins são para resistir ao controle financeiro.
A corrida para a superinteligência artificial pode estar além do alcance de sistemas descentralizados. Mas garantir que os frutos dessa inteligência permaneçam acessíveis a todos? Essa é uma corrida que vale a pena correr.
Encaminhar o título original: Computação Descentralizada
O artigo de hoje aborda o setor emergente, mas muitas vezes mal compreendido, de computação descentralizada em criptografia. Nós mergulhamos na paisagem da infraestrutura de AI para entender onde as alternativas descentralizadas podem competir realisticamente.
Exploramos questões como: O ASI pode ser treinado em redes distribuídas? Quais são as vantagens únicas que as redes criptográficas oferecem? E por que a infraestrutura de computação sem permissão pode se tornar tão essencial para a IA quanto o Bitcoin é para as finanças.
Um padrão comum que você notará no artigo é o crescimento exponencial de tudo sobre IA - investimento, computação e capacidades. Isso coincide com um ressurgimento nos mercados de cripto e mindshare. Estamos muito animados com a interseção dessas duas grandes ondas tecnológicas.
Olá!
Num dia ensolarado em Memphis, Tennessee, um avião espião de hélice circulou repetidamente sobre um prédio industrial, seus passageiros fotografando freneticamente as instalações abaixo. Isso não era uma cena de espionagem da Guerra Fria, mas de 2024. O alvo não era uma instalação militar ou um local de enriquecimento de urânio, mas uma antiga fábrica de eletrodomésticos que agora abriga um dos supercomputadores mais poderosos do mundo. Os passageiros não eram agentes estrangeiros, mas funcionários de uma empresa rival de centro de dados.
A cada poucas décadas, surge uma tecnologia transformadora com o potencial de alterar inquestionavelmente a trajetória da civilização. O que se segue é uma corrida entre as entidades mais poderosas do mundo para realizar essa tecnologia primeiro. As recompensas são tão imensas, e as consequências do fracasso tão devastadoras, que essas entidades mobilizam rapidamente todo o seu arsenal de recursos - talento humano e capital - para dominar a tecnologia.
No século XX, duas tecnologias destacaram-se nesta definição - armas nucleares e exploração espacial. A corrida para aproveitar essas tecnologias envolveu as nações mais poderosas. As vitórias dos Estados Unidos em ambos solidificaram seu status como superpotência dominante do mundo, inaugurando uma era de prosperidade sem precedentes. Para os vencidos - Alemanha Nazista e União Soviética - as consequências foram devastadoras, até mesmo terminais.
A gigantesca fábrica de 44 acres K-25 em Oak Ridge, Tennessee, EUA, onde o urânio para a primeira arma atômica foi produzido (fonte)
A vitória da América teve um preço enorme. O Projeto Manhattan custou quase $2 bilhões (aproximadamente $30 bilhões ajustados para a inflação) e empregou mais de 120.000 pessoas - uma em cada mil americanos. A corrida espacial exigiu ainda mais recursos. O programa Apollo custou $28 bilhões na década de 1960 (cerca de $300 bilhões em dinheiro de hoje) e envolveu mais de 400.000 pessoas - uma em 490 americanos. No seu auge em 1966, a NASA comandava 4,4% de todo o orçamento federal dos EUA.
O Apollo 11, apenas antes do lançamento na missão para a luafonte)
O lançamento do ChatGPT em 2022 marcou o início de uma nova corrida com proporções que alteram a civilização - a busca pela superinteligência artificial (ASI). Enquanto a IA já está presente na vida diária - gerenciando feeds de mídia social, recomendações da Netflix e filtros de spam de email - o surgimento de grandes modelos de linguagem (LLMs) promete transformar tudo: produtividade humana, criação de mídia, pesquisa científica e inovação em si.
Desta vez, os contendores não são os estados-nação (pelo menos, ainda não), mas as maiores corporações do mundo (Microsoft, Google, Meta, Amazon), as startups mais quentes (OpenAI, Anthropic) e o indivíduo mais rico (Elon Musk). Enquanto a Big Tech canaliza um capital sem precedentes para construir a infraestrutura para treinar modelos cada vez mais poderosos, as startups estão a garantirrecorde quebrandofinanciamento de capital de risco. Elon é, bom, fazendo coisas de Elon(o centro de dados sob vigilância pertencia à sua empresa, xAI).
E depois há todos os outros - empresas, empresas mais pequenas e startups - que podem não aspirar a construir ASI, mas estão ansiosos por aproveitar as capacidades de ponta desbloqueadas pela IA para otimizar seus negócios, perturbar uma indústria ou criar novas totalmente. As recompensas potenciais são tão vastas que todos estão a correr para reivindicar a sua parte nesta nova economia impulsionada pela inteligência artificial.
No coração da revolução da IA está o seu componente mais essencial: a unidade de processamento gráfico (GPU). Originalmente projetada para alimentar jogos de vídeo, este chip de computador especializado tornou-se a mercadoria mais procurada do mundo. A demanda por GPUs é tão avassaladora que as empresas frequentemente suportam listas de espera de vários mesesapenas para adquirir alguns. Essa demanda projetou a NVIDIA, seu principal fabricante, para a posição da empresa mais valiosa do mundo.
Para empresas incapazes ou não dispostas a comprar GPUs diretamente, alugar poder computacional tornou-se a próxima melhor opção. Isso impulsionou o surgimento de provedores de nuvem de IA - empresas que operam centros de dados sofisticados projetados para atender às necessidades computacionais do boom da IA. No entanto, o aumento na demanda e sua natureza imprevisível significa que nem o preço nem a disponibilidade são garantidos.
Eudiscutidoque a criptomoeda funciona como uma tecnologia “Coasian”, projetada para “engraxar as rodas, pavimentar as estradas e fortalecer as pontes” para que outras inovações disruptivas floresçam. À medida que a IA surge como a força transformadora da nossa era, a escassez e o custo exorbitante de acesso a GPU apresentam uma barreira à inovação. Várias empresas de criptomoeda estão entrando em cena, com o objetivo de derrubar essas barreiras com incentivos baseados em blockchain.
No artigo de hoje, primeiro recuamos das criptomoedas para examinar os fundamentos da infraestrutura moderna de IA - como as redes neurais aprendem, por que as GPUs se tornaram essenciais e como os centros de dados de hoje estão evoluindo para atender a demandas computacionais sem precedentes. Em seguida, mergulhamos em soluções de computação descentralizadas, explorando onde elas podem competir realisticamente com os provedores tradicionais, as vantagens únicas que as redes de criptomoedas oferecem e por que - embora não nos ofereçam IA geral - ainda serão essenciais para garantir que os benefícios da IA permaneçam acessíveis a todos.
Vamos começar pelo motivo pelo qual as GPUs são tão importantes em primeiro lugar.
Este é David, uma escultura de mármore de 17 pés de altura e 6 toneladas, criada pelo gênio mestre do Renascimento italiano Michelangelo. Ela representa o herói bíblico da história de Davi e Golias e é considerada uma obra-prima por sua representação impecável da anatomia humana e atenção magistral à perspectiva e aos detalhes.
Como todas as esculturas de mármore, David começou como uma enorme laje áspera de mármore de Carrara. Para chegar à sua forma final majestosa, Michelangelo teve que lascar metodicamente a pedra. Começando com traços amplos e audaciosos para estabelecer a forma humana básica, ele progrediu para detalhes cada vez mais finos - a curva de um músculo, a tensão numa veia, a expressão sutil de determinação nos olhos. Michelangelo levou três anos para libertar David da pedra.
Mas por que discutir uma figura de mármore de 500 anos em um artigo sobre IA?
Como David, cada rede neural começa como um potencial puro - uma coleção de nós inicializados com números aleatórios (pesos), tão informes como aquele bloco maciço de mármore de Carrara.
Este modelo bruto é alimentado repetidamente com dados de treino - inúmeras instâncias de entradas emparelhadas com as suas saídas corretas. Cada ponto de dados que passa pela rede desencadeia milhares de cálculos. Em cada nó (neurónio), as conexões de entrada multiplicam o valor de entrada pelo peso da conexão, somam esses produtos e transformam o resultado através de uma 'função de ativação' que determina a força de disparo do neurónio.
Assim como Michelangelo dava um passo atrás, avaliava seu trabalho e fazia ajustes, as redes neurais passam por um processo de refinamento. Após cada passagem adiante, a rede compara sua saída com a resposta correta e calcula sua margem de erro. Através de um processo chamado retropropagação, ela mede quanto cada conexão contribuiu para o erro e, assim como os golpes de cinzel de Michelangelo, faz ajustes em seus valores. Se uma conexão leva a uma previsão incorreta, sua influência diminui. Se ela ajuda a chegar à resposta certa, sua influência se fortalece.
Quando todos os dados passam pela rede (completando uma etapa de propagação para a frente e para trás por ponto de dados), marca o fim de uma "época". Este processo repete-se várias vezes, sendo que cada passagem refinando a compreensão da rede. Durante as primeiras épocas, as alterações de peso são dramáticas, à medida que a rede faz ajustes amplos - como os primeiros golpes de cinzelagem a negrito. Em épocas posteriores, as alterações tornam-se mais subtis, ajustando as conexões para um desempenho ótimo - assim como delicados toques finais trouxeram os detalhes de David.
Finalmente, após milhares ou milhões de iterações, o modelo treinado emerge. Como David, orgulhoso em sua forma finalizada, a rede neural se transforma de ruído aleatório em um sistema capaz de reconhecer padrões, fazer previsões, gerar imagens de gatos andando de scooters ou permitir que os computadores entendam e respondam em linguagem humana.
Michelangelo, trabalhando sozinho em David, só podia dar um golpe de cinzel de cada vez, sendo que cada um exigia cálculos precisos de ângulo, força e posição. Essa precisão meticulosa é o motivo pelo qual ele levou três anos incansáveis para completar sua obra-prima. Mas imagine milhares de escultores igualmente habilidosos trabalhando em David em perfeita coordenação—uma equipe nos cachos de cabelo, outra nos músculos do tronco e centenas mais nos detalhes intricados do rosto, mãos e pés. Tal esforço paralelo comprimiria esses três anos em meros dias.
Da mesma forma, enquanto os CPUs são poderosos e precisos, eles só podem realizar um cálculo de cada vez. O treinamento de uma rede neural não requer um único cálculo complexo, mas centenas de milhões de cálculos simples - principalmente multiplicações e adições em cada nó. Por exemplo, a rede neural de amostra mencionada anteriormente, com apenas 18 nós e cerca de 100 conexões (parâmetros), pode ser treinada em um CPU dentro de um período razoável.
No entanto, os modelos mais poderosos de hoje, como o GPT-4 da OpenAI, têm 1,8 trilhões de parâmetros! Mesmo modelos modernos menores contêm pelo menos um bilhão de parâmetros. Treinar esses modelos um cálculo de cada vez levaria séculos. É aqui que as GPUs se destacam: elas podem realizar um grande número de cálculos matemáticos simples simultaneamente, tornando-as ideais para processar vários nós de rede neural em paralelo.
As GPUs modernas são incrivelmente poderosas. A mais recente GPU B200 da NVIDIA, por exemplo, é composta por mais de 200 bilhões de transistores e suporta 2,250 trilhões de cálculos paralelos por segundo (2,250 TFLOPS). Uma única GPU B200 pode lidar com modelos de até 740 bilhões de parâmetros. Essas máquinas representam proezas da engenharia moderna, o que explica por que a NVIDIA, vendendo cada unidade por $40,000, viu o preço de suas ações aumentar mais de 2,500% em cinco anos.
Jensen Huang a apresentar a NVIDIA B200
No entanto, mesmo essas máquinas formidáveis não conseguem treinar modelos de IA sozinhas. Lembre-se de que durante o treino, cada instância de dados deve passar pelo modelo individualmente em um ciclo de avanço e retrocesso. Os modernos modelos de linguagem de grande porte (LLMs) são treinados em conjuntos de dados que abrangem toda a internet. O GPT-4, por exemplo, processou aproximadamente 12 trilhões de tokens (cerca de 9 trilhões de palavras), e espera-se que a próxima geração de modelos consiga lidar com até 100 trilhões de tokens. Utilizar uma única GPU para um volume tão imenso de dados ainda levaria séculos.
A solução reside em adicionar mais uma camada de paralelismo - criando clusters de GPU onde as tarefas de treino são distribuídas entre numerosas GPUs a trabalhar como um sistema unificado. As cargas de trabalho do treino do modelo podem ser paralelizadas de três maneiras:
Paralelismo de Dados: Múltiplas GPUs mantém uma cópia completa do modelo de rede neural enquanto processam diferentes partes dos dados de treinamento. Cada GPU processa seu lote de dados atribuído independentemente antes de se sincronizar periodicamente com todas as outras GPUs. Neste período de sincronização, as GPUs se comunicam umas com as outras para encontrar uma média coletiva de seus pesos e, em seguida, atualizam seus pesos individuais de forma que sejam todos idênticos. Consequentemente, elas continuam treinando em seu lote de dados individualmente antes de ser hora de sincronizar novamente.
À medida que os modelos crescem, uma única cópia pode se tornar muito grande para caber em uma GPU. Por exemplo, a mais recente GPU B200 só pode conter 740 bilhões de parâmetros, enquanto o GPT-4 é um modelo de 1,8 trilhão de parâmetros. O paralelismo de dados entre GPUs individuais não funciona neste caso.
Paralelismo de tensor: esta abordagem aborda a restrição de memória distribuindo o trabalho e os pesos de cada camada do modelo em vários GPUs. GPUs trocam cálculos intermediários com todo o cluster durante cada etapa de propagação direta e inversa. Esses GPUs geralmente são agrupados em servidores de oito unidades, conectados via NVLink - a interconexão direta de GPU para GPU de alta velocidade da NVIDIA. Essa configuração requer conexões de alta largura de banda (até 400 Gb / s) e baixa latência entre GPUs. Um cluster de tensor funciona efetivamente como um único GPU massivo.
Paralelismo de Pipeline: Este método divide o modelo entre várias GPUs, com cada GPU a lidar com camadas específicas. Os dados fluem através destas GPUs sequencialmente, como uma corrida de estafetas onde cada corredor (GPU) gere a sua parte antes de passar o bastão. O paralelismo de pipeline é particularmente eficaz para ligar diferentes servidores de 8 GPUs dentro de um centro de dados, utilizando redes InfiniBand de alta velocidade para comunicação entre servidores. Embora os requisitos de comunicação excedam o paralelismo de dados, eles permanecem inferiores às trocas intensivas de GPU para GPU do paralelismo tensorial.
A escala dos clusters modernos é notável. O GPT-4, com 1,8 trilhões de parâmetros e 120 camadas, necessitou de 25.000 GPUs A100 para treino. O processo levou três meses e custou mais de $60 milhões. O A100 é duas gerações antigo; utilizando as GPUs B200 de hoje, seriam necessárias apenas cerca de 8.000 unidades e 20 dias de treino. Apenas mais uma demonstração de como a IA está a avançar rapidamente.
Mas a classe de modelos GPT-4 são brinquedos antigos agora. O treinamento para a próxima geração de modelos avançados está em andamento nos centros de dados que abrigam clusters de 100.000 GPUs B100 ou H100 (este último sendo uma geração mais antiga). Esses clusters, representando mais de $4 bilhões em despesas de capital de GPU, são os supercomputadores mais poderosos da humanidade, fornecendo pelo menos quatro vezes a capacidade de computação bruta dos governamentais.
Além de garantir a computação bruta, os aspirantes à ASI encontram outro problema ao tentar configurar esses clusters: eletricidade. Cada uma dessas GPUs consome 700W de energia. Quando você combina 100.000 delas, o cluster inteiro (incluindo hardware de suporte) consome mais de 150MW de energia. Para colocar isso em perspectiva, esse consumo equivale ao de uma cidade de 300.000 pessoas - comparável a Nova Orleans ou Zurique.
A loucura não pára por aqui. A maioria dos aspirantes a ASI acreditam que o Leis de escala LLM—que sugerem que o desempenho do modelo melhora previsivelmente com o aumento do tamanho do modelo, do tamanho do conjunto de dados e do treinamento computacional—continuará sendo verdadeiro. Já estão em andamento planos para execuções de treinamento de modelos ainda mais poderosos. Até 2025, estima-se que o custo de cada cluster de treinamento ultrapasse os 10 bilhões de dólares. Até 2027, mais de 100 bilhões de dólares. À medida que esses números se aproximam do investimento do governo dos EUA nos programas Apollo, fica claro por que alcançar a ASI emergiu como a corrida definidora de nossa era.
As métricas para modelos a partir do GPT-5 são estimativas
À medida que o consumo de eletricidade cresce proporcionalmente com o tamanho dos clusters, as execuções de treinamento do próximo ano exigirão mais de 1GW de energia. No ano seguinte, 10GW ou mais. Sem indicações de desaceleração dessa expansão, espera-se que os centros de dados consumam aproximadamente 4,5% do global gerado até 2030. Redes elétricas existentes,já está lutando com as demandas do modelo atual, não consegue gerar energia suficiente para futuros clusters. Isso levanta uma questão crítica: de onde virá essa energia? A Big Tech está adotando uma abordagem de duas frentes.
A longo prazo, a única solução viável é que os aspirantes ASI gerem a sua própria eletricidade. Tendo em conta os seus compromissos climáticos, esta energia deve provir de fontes renováveis. A energia nuclear destaca-se como a principal solução. Amazônia recentemente compradoum campus de centro de dados alimentado por uma central nuclear por $650 milhões. Microsoftcontratou um chefe de tecnologias nucleares e é reviver a histórica planta de Three Mile Island. O Google temadquiriu vários reatores nucleares pequenosda Kairos Power da Califórnia. Sam Altman da OpenAI apoiou startups de energia como Helion, Exowatt, e Oklo.
A Microsoft está reabrindo a Usina Nuclear Three Mile Island (fonte da imagem)
Embora as sementes da energia nuclear estejam sendo plantadas agora, os frutos (ou poder) levarão vários anos para se desenvolverem. E quanto aos requisitos de energia para a geração imediata de modelos? A solução intermediária envolve treinamento distribuído em vários centros de dados. Em vez de concentrar enormes demandas de energia em um único local, empresas como a Microsoft e o Google estão distribuindo seus clusters de treinamento em vários locais.
O desafio, é claro, é fazer com que esses sistemas distribuídos funcionem juntos de forma eficaz. Mesmo na velocidade da luz, os dados levam aproximadamente 43ms para uma viagem de ida e volta da costa leste para a costa oeste dos EUA - uma eternidade em termos de computação. Além disso, se mesmo um chip ficar para trás, digamos, 10%, isso faz com que toda a execução do treinamento seja desacelerada na mesma proporção.
A solução reside na ligação de centros de dados em vários locais com redes de fibra ótica de alta velocidade e na aplicação de uma combinação das técnicas de paralelismo discutidas anteriormente para sincronizar as suas operações. O paralelismo tensor é aplicado às GPUs dentro de cada servidor, permitindo que elas funcionem como uma única unidade. O paralelismo de pipeline, com suas demandas de rede mais baixas, é empregado para conectar servidores dentro do mesmo data center. Por último, os centros de dados em diferentes locais (referidos como "ilhas") sincronizam as suas informações periodicamente utilizando paralelismo de dados.
Anteriormente, observamos que o paralelismo de dados se mostra ineficaz para GPUs individuais porque elas não podem acomodar modelos grandes de forma independente. No entanto, essa dinâmica muda quando estamos paralelizando ilhas — cada uma contendo milhares de GPUs — em vez de unidades individuais. Os dados de treinamento são distribuídos por cada ilha, e essas ilhas sincronizam periodicamente nas conexões de fibra ótica relativamente mais lentas (em comparação com NVLink e Infiniband).
Vamos desviar o nosso foco do treino e das GPUs para os próprios centros de dados.
Há vinte anos, a Amazon lançou a Amazon Web Services (AWS) - um dos negócios mais transformadores da história - e criou uma nova indústria conhecida como computação em nuvem. Os líderes atuais da nuvem (Amazon, Microsoft, Google e Oracle) desfrutam de uma dominação confortável, gerando uma receita anual combinada próxima de $300 bilhões com margens de 30-40%. Agora, a emergência da IA criou novas oportunidades em um mercado que tem permanecido largamente oligopolístico por anos.
Os requisitos físicos, a complexidade técnica e a economia dos centros de dados de IA com uso intensivo de GPU diferem drasticamente dos seus homólogos tradicionais.
Discutimos anteriormente o quão ávidas por energia são as GPUs. Isso leva a que os centros de dados de IA sejam muito mais densos em termos de energia e, consequentemente, produzam mais calor. Enquanto os centros de dados tradicionais utilizam grandes ventiladores (refrigeração a ar) para dissipar o calor, esta abordagem não é suficiente nem financeiramente viável para as instalações de IA. Em vez disso, os centros de dados de IA estão adotando sistemas de refrigeração líquida, onde os blocos de água se conectam diretamente às GPUs e outros componentes quentes para dissipar o calor de forma mais eficiente e silenciosa. (As GPUs B200 possuem essa arquitetura integrada). O suporte a sistemas de refrigeração líquida requer a adição de grandes torres de refrigeração, uma instalação centralizada de sistema de água e tubulações para transportar a água de e para todas as GPUs - uma modificação fundamental na infraestrutura do centro de dados.
Além do maior consumo absoluto de energia, os centros de dados de IA têm requisitos de carga distintos. Enquanto os data centers tradicionais mantêm um consumo de energia previsível, os padrões de uso de energia da carga de trabalho de IA são muito mais voláteis. Essa volatilidade ocorre porque as GPUs alternam periodicamente entre funcionar a 100% da capacidade e desacelerar até quase parar à medida que o treinamento chega aos pontos de verificação, onde os pesos são armazenados na memória ou, como vimos anteriormente, sincronizados com outras ilhas. Os centros de dados de IA necessitam de infraestruturas de energia especializadas para gerir estas flutuações de carga.
Construir clusters de GPU é muito mais difícil do que construir nuvens de computadores regulares. As GPUs precisam se comunicar entre si muito rapidamente. Para que isso aconteça, elas devem ser embaladas bem juntas. Uma instalação típica de IA precisa de mais de 200.000 cabos especiais chamados conexões InfiniBand. Esses cabos permitem a comunicação entre as GPUs. Se apenas um cabo parar de funcionar, o sistema inteiro é desligado. O processo de treinamento não pode continuar até que esse cabo seja consertado.
Estes requisitos de infraestrutura tornam praticamente impossível adaptar os centros de dados tradicionais com GPUs de alto desempenho para torná-los prontos para IA. Essa atualização exigiria uma reforma estrutural quase completa. Em vez disso, as empresas estão construindo novos centros de dados especificamente projetados para IA desde o início, com diferentes organizações perseguindo isso em diferentes escalas.
Na vanguarda, as principais empresas de tecnologia estão correndo para construir seus próprios centros de dados de IA. A Meta está investindo pesado em instalações exclusivamente para seu próprio desenvolvimento de IA, tratando-a como um investimento de capital direto, uma vez que não oferece serviços em nuvem. A Microsoft está construindo centros igualmente massivos para alimentar seus próprios projetos de IA e atender clientes-chave como a OpenAI. A Oracle também entrou neste espaço de forma agressiva, garantindo a OpenAI como um cliente notável. A Amazon continua a expandir sua infraestrutura, particularmente para apoiar empresas emergentes de IA, como a Anthropic. A xAI de Elon Musk, não querendo depender de outra empresa, optou por construir seu próprio cluster de 100.000 GPUs.
Dentro do centro de dados GPU 100.000 H100 da xAI (origem)
Ao lado dos incumbentes, estão surgindo os “neoclouds” – provedores de nuvem especializados que se concentram exclusivamente em computação GPU para cargas de trabalho de IA. Esses neoclouds são divididos em duas categorias distintas com base na escala.
Grandes provedores de neocloud, incluindo CoreWeave, Crusoe, e LLama Labs, operar clusters com mais de 2.000 GPUs. Diferenciam-se dos serviços tradicionais de nuvem de duas maneiras: oferecendo soluções de infraestrutura personalizadas em vez de pacotes padronizados e exigindo compromissos de longo prazo dos clientes em vez de acordos de pagamento por uso.
O seu modelo de negócio alavanca estes acordos de longo prazo e a solvabilidade do cliente para garantir o financiamento da infraestrutura. A receita provém das taxas premium cobradas pelos serviços especializados e dos lucros provenientes da diferença entre os baixos custos de financiamento e os pagamentos dos clientes.
É assim que esse tipo de acordo geralmente funciona: um provedor de neocloud garante um contrato de três anos com uma startup de IA bem financiada para 10.000 GPUs H100 a $40 milhões mensais. Usando essa receita garantida de $1,44 bilhão, o provedor garante financiamento bancário favorável (a 6% de juros) para comprar e instalar infraestrutura no valor de $700 milhões. As receitas mensais de $40 milhões cobrem $10 milhões em custos operacionais e $20 milhões em pagamentos de empréstimos, gerando $10 milhões em lucros mensais, enquanto a startup recebe poder de computação dedicado e personalizado.
Este modelo requer uma seleção cuidadosa e excepcional do cliente. Os fornecedores geralmente procuram empresas com grandes reservas de dinheiro ou forte suporte de empreendimento - muitas vezes avaliações de $500 milhões ou mais.
Pequenas neoclouds oferecem clusters de GPU de 2.000 ou menos e atendem a um segmento separado do mercado de IA - pequenas e médias start-ups. Essas empresas treinam modelos menores (até 70 bilhões de parâmetros) ou ajustam os de código aberto. (Ajuste fino é o processo de adaptar um modelo de fundação para casos de uso específicos.) Ambas as cargas de trabalho requerem computação moderada, mas dedicada por períodos mais curtos.
Estes fornecedores oferecem computação sob demanda com tarifas horárias para acesso ininterrupto de duração fixa. Embora isso custe mais do que contratos de longo prazo, dá às startups flexibilidade para experimentar sem se comprometer com acordos de vários milhões de dólares.
Finalmente, além dos gigantes da nuvem e dos fornecedores de neocloud, temos os intermediários do espaço de infraestrutura de IA: plataformas e agregadores. Esses intermediários não possuem infraestrutura de GPU, mas conectam proprietários de recursos de computação com aqueles que precisam deles.
Fornecedores de plataformas comoHydraHost e Fluidstackservir como o Shopify da computação GPU. Assim como o Shopify permite aos comerciantes lançar lojas online sem construir infraestruturas de comércio eletrónico, estas plataformas permitem aos operadores de centros de dados e aos proprietários de GPU oferecer serviços de computação sem desenvolverem as suas próprias interfaces de cliente. Fornecem um pacote técnico completo para executar um negócio de computação GPU, incluindo ferramentas de gestão de infraestrutura, sistemas de provisionamento de clientes e soluções de faturação.
Agregadores de mercado como Vast.aifuncionar como a Amazon do mundo das GPU. Eles criam um mercado que combina diversas ofertas de computação de vários fornecedores - desde cartões RTX de consumo até GPUs profissionais H100. Os proprietários de GPUs listam seus recursos com métricas de desempenho detalhadas e classificações de confiabilidade, enquanto os clientes compram tempo de computação por meio de uma plataforma de autoatendimento.
Até agora, a nossa discussão tem-se centrado na formação (ou ajuste fino) de modelos. No entanto, uma vez treinado, um modelo deve ser implementado para servir os utilizadores finais - um processo chamado inferência. Sempre que estás a conversar com o ChatGPT, estás a utilizar GPUs a executar cargas de trabalho de inferência que recebem a tua entrada e geram a resposta do modelo. Vamos voltar a falar sobre estátuas de mármore por um minuto.
Este também é David - não o original de Michelangelo, mas um molde de gesso encomendado pela Rainha Vitória em 1857 para o Victoria and Albert Museum de Londres. Enquanto Michelangelo passou três anos extenuantes cuidadosamente lascando mármore para criar o original em Florença, este gesso foi feito a partir de um molde direto da estátua - reproduzindo perfeitamente cada curva, ângulo e detalhe que Michelangelo havia criado. O intenso trabalho criativo aconteceu uma vez. Depois, tornou-se uma questão de replicar fielmente esses recursos. Hoje, réplicas de David aparecem em todos os lugares, desde salões de museus até pátios de cassinos de Las Vegas.
É assim que funciona a inferência em IA. Treinar um grande modelo de linguagem é como o processo escultural original de Michelangelo - intensivo em computação, demorado e exigente em recursos, à medida que o modelo aprende gradualmente a forma correta da linguagem através de milhões de pequenos ajustes. Mas usar o modelo treinado - inferência - é mais como criar uma réplica. Quando você conversa com o ChatGPT, você não está ensinando a linguagem do zero, mas usando uma cópia de um modelo cujos parâmetros (como as curvas e ângulos precisos de David) já foram aperfeiçoados.
As cargas de trabalho de inferência diferem fundamentalmente do treinamento. Embora o treinamento exija clusters grandes e densos das GPUs mais recentes, como H100s, para lidar com cálculos intensivos, a inferência pode ser executada em servidores GPU únicos usando hardware mais antigo, como A100s, ou até mesmo placas de nível de consumidor, tornando-a significativamente mais econômica. Dito isto, as cargas de trabalho de inferência têm suas próprias demandas exclusivas:
Essas características tornam as cargas de inferência ideais para modelos de preços de pontos. Sob preços de pontos, os recursos de GPU estão disponíveis com descontos significativos - muitas vezes 30-50% abaixo das taxas sob demanda - com a compreensão de que o serviço pode pausar quando os clientes de maior prioridade precisam de recursos. Esse modelo adequa-se à inferência porque a implantação redundante permite que as cargas de trabalho se desloquem rapidamente para GPUs disponíveis se forem interrompidas.
Neste contexto de GPUs e computação em nuvem de IA, agora estamos em posição de começar a explorar onde a criptomoeda se encaixa em tudo isso. Vamos (finalmente) começar.
Projetos e relatórios frequentemente citam a observação de Peter Thiel de que "a IA está centralizando, a criptomoeda está descentralizando" ao discutir o papel da criptomoeda no treino de IA. Embora a declaração de Thiel seja indiscutivelmente verdadeira, acabamos de ver evidências abundantes da clara vantagem da Big Tech no treino de IA poderosa - muitas vezes é inadequadamente sugerido que a criptomoeda e os computadores descentralizados oferecem a solução principal para contrabalançar a influência da Big Tech.
Tais afirmações ecoam exageros anteriores sobre o potencial das criptomoedas para revolucionar as redes sociais, os jogos e inúmeras outras indústrias. Elas não são apenas contraproducentes, mas também, como argumentarei em breve, irrealistas—pelo menos a curto prazo.
Em vez disso, vou adotar uma abordagem mais pragmática. Vou assumir que uma startup de IA à procura de computação não se preocupa com os princípios da descentralização ou com a oposição ideológica ao Big Tech. Pelo contrário, eles têm um problema - eles querem ter acesso a computação confiável de GPU ao menor custo possível. Se um projeto de criptomoeda puder oferecer uma solução melhor para esse problema do que alternativas não criptográficas, eles a usarão.
Para isso, vamos primeiro entender com quem os projetos de criptografia estão competindo. Anteriormente, discutimos as diferentes categorias de provedores de nuvem de IA - Big Tech e hipercalados, grandes neonuvens, pequenas neonuvens, provedores de plataformas e mercados.
A tese fundamental por trás da computação descentralizada (como todos os projetos DePIN) é que o mercado atual de computação opera de forma ineficiente. A demanda por GPUs continua excepcionalmente alta, enquanto a oferta está fragmentada e subutilizada em centros de dados globais e residências individuais. A maioria dos projetos neste setor concorre diretamente com os mercados, agregando essa oferta dispersa para reduzir as ineficiências.
Com esse estabelecimento, vamos ver como esses projetos (e mercados de computação em geral) podem ajudar com diferentes cargas de trabalho de IA - treinamento, ajuste fino e inferência.
Primeiro as coisas mais importantes. Não, a ASI não será treinada numa rede global de GPUs descentralizadas. Pelo menos, não na trajetória atual da IA. Aqui está o porquê.
Anteriormente, discutimos o quão grandes estão ficando os clusters de modelos de base. Você precisa de 100.000 dos mais poderosos GPUs do mundo para começar a competir. Este número está aumentando a cada ano que passa. Até 2026, espera-se que o custo de uma execução de treino ultrapasse os $100 bilhões de dólares, exigindo talvez um milhão de GPUs ou mais.
Apenas as grandes empresas de tecnologia, apoiadas por grandes neoclouds e parcerias diretas com a Nvidia, podem montar clusters dessa magnitude. Lembre-se, estamos em uma corrida pela ASI, e todos os participantes são altamente motivados e capitalizados. Se houver um suprimento adicional dessas muitas GPUs (o que não há), eles serão os primeiros a adquiri-las.
Mesmo que um projeto de criptografia de alguma forma acumule a computação necessária, dois obstáculos fundamentais impedem o desenvolvimento descentralizado de ASI:
Primeiro, as GPUs ainda precisam ser conectadas em grandes clusters para funcionarem efetivamente. Mesmo que esses clusters sejam divididos entre ilhas em cidades, eles terão que ser conectados por linhas de fibra ótica dedicadas. Nenhum desses é possível em um ambiente descentralizado. Além da aquisição de GPUs, o estabelecimento de centros de dados prontos para IA exige um planejamento meticuloso - normalmente um processo de um a dois anos. (xAI fez isso em apenas 122 dias, mas é improvável que Elon esteja lançando um token em breve.)
Em segundo lugar, apenas criar um centro de dados de IA não é suficiente para criar uma IA superinteligente. Como fundador antrópico Dario Amodei explicado recentemente, escalar na IA é análogo a uma reação química. Assim como uma reação química requer múltiplos reagentes em proporções precisas para prosseguir, o escalonamento bem-sucedido da IA depende de três ingredientes essenciais que crescem em conjunto: redes maiores, tempos de treinamento mais longos e conjuntos de dados maiores. Se você aumentar a escala de um componente sem os outros, o processo estagna.
Mesmo que de alguma forma consigamos acumular tanto o cálculo quanto fazer com que os clusters trabalhem juntos, ainda precisamos de terabytes de dados de alta qualidade para que o modelo treinado seja bom. Sem as fontes de dados proprietárias da Big Tech, o capital para assinar contratos de milhões de dólares com fóruns online e meios de comunicação ou modelos existentes para gerar dados sintéticos, adquirir dados de treinamento adequados é impossível.
Tem havido alguma especulação recentemente de que as leis de escalabilidade podem atingir um patamar, com os LLMs potencialmente atingindo limitações de desempenho. Alguns interpretam isso como uma oportunidade para o desenvolvimento descentralizado de IA. No entanto, isso desconsidera um fator crucial: a concentração de talentos. As empresas de tecnologia de ponta e os laboratórios de IA de hoje abrigam os principais pesquisadores do mundo. Qualquer caminho alternativo de avanço para a AGI provavelmente surgirá desses centros. Dadas as condições competitivas do mercado, essas descobertas permaneceriam estritamente guardadas.
Considerando todos esses argumentos, tenho 99,99% de certeza de que o treinamento de ASI - ou mesmo dos modelos mais poderosos do mundo - não será realizado em um projeto de computação descentralizada. Nesse caso, quais modelos a criptomoeda realmente poderia ajudar a treinar?
Para que os modelos sejam treinados em clusters de GPU separados colocados em locais geográficos diferentes, precisamos implementar o paralelismo de dados entre eles. (Lembre-se de que o paralelismo de dados é como diferentes ilhas de GPUs, cada uma trabalhando em partes separadas dos dados de treinamento, sincronizam entre si). Quanto maior for o modelo a ser treinado, maior será a quantidade de dados que terão de ser trocados entre estas ilhas. Como discutimos, para modelos de fronteira com mais de um trilhão de parâmetros, a largura de banda necessária é grande o suficiente para exigir conexões de fibra ótica dedicadas.
No entanto, para modelos mais pequenos, os requisitos de largura de banda diminuem proporcionalmente. Avanços recentes em algoritmos de treino com baixa comunicação, particularmente em sincronização atrasada, têm criado oportunidades promissoras para treinar modelos de pequena a média dimensão de forma descentralizada. Duas equipas estão a liderar estes esforços experimentais.
Nous Researché uma empresa aceleradora de IA e um dos principais players no desenvolvimento de IA de código aberto. Eles são mais conhecidos pela sua série Hermes de modelos de linguagem e projetos inovadores como o World Sim. No início deste ano, operaram um sub-rede BitTensor de classificação LLM por alguns meses. Eles deram os primeiros passos na computação descentralizada ao lançar o DisTrOprojeto (Treino Distribuído Pela Internet), onde eles treinaram com sucesso um modelo Llama-2 com 1,2B de parâmetros, alcançando uma redução de 857x nos requisitos de largura de banda entre GPUs.
O relatório DisTrO da Nous Research
Prime IntellectA , uma startup que desenvolve infraestrutura para IA descentralizada em escala, tem como objetivo agregar recursos de computação globais e permitir o treinamento colaborativo de modelos de última geração por meio de sistemas distribuídos. Seu Estrutura OpenDiLoCo(implementando DeepMind’sMétodo distribuído de baixa comunicação) treinou com sucesso um modelo de um bilhão de parâmetros em dois continentes e três países, mantendo uma utilização de computação de 90-95%.
Mas como funcionam essas corridas de treinamento descentralizadas?
O paralelismo de dados tradicional exige que as GPUs compartilhem e calculem a média de seus pesos após cada etapa de treinamento — impossível em conexões com a Internet. Em vez disso, esses projetos permitem que cada "ilha" de GPUs treine de forma independente por centenas de etapas antes da sincronização. Pense nisso como equipes de pesquisa independentes trabalhando no mesmo projeto: em vez de verificar constantemente uns com os outros, eles fazem progressos significativos de forma independente antes de compartilhar suas descobertas.
DisTrO e OpenDiLoCo sincronizam apenas a cada 500 passos, usando uma abordagem de otimização dupla:
Quando eles sincronizam, em vez de compartilhar todos os pesos, eles compartilham um “pseudo-gradiente”—basicamente a diferença entre seus pesos atuais e os pesos da última sincronização. Isto é notavelmente eficiente, como compartilhar apenas o que mudou em um documento em vez de enviar o documento inteiro toda vez.
INTELLECT-1, uma implementação prática do OpenDiLoCo pela Prime Intellect, está levando essa abordagem ainda mais longe ao treinar um modelo de 10B parâmetros - o maior esforço de treinamento descentralizado até o momento. Eles adicionaram otimizações-chave como:
INTELLECT-1, treinado por mais de 20 clusters de GPU distribuídos em todo o mundo, recentemente concluído pré-treino e em breve será lançado como um modelo totalmente open-source.
painel de treinamento INTELLECT-1
Equipes comoMacrocosmosestão usando algoritmos similares paramodelos de tremno ecossistema Bittensor.
Se estes algoritmos de treino descentralizados continuarem a melhorar, poderão ser capazes de suportar modelos de até 100 mil milhões de parâmetros com a próxima geração de GPUs. Mesmo modelos deste tamanho podem ser muito úteis para uma ampla variedade de casos de uso:
A afinação fina é o processo de pegar um modelo de base pré-treinado (geralmente um código aberto da Meta, Mistral ou Alibaba) e treiná-lo ainda mais em um conjunto de dados específico para adaptá-lo a tarefas ou domínios específicos. Isso requer significativamente menos cálculos do que o treinamento do zero, uma vez que o modelo já aprendeu padrões de linguagem gerais e só precisa ajustar seus pesos para o novo domínio.
Calcular os requisitos para ajustar a escala de acordo com o tamanho do modelo. Supondo treinamento em um H100:
Dadas essas especificações, o ajuste fino não exige os complexos algoritmos de treinamento distribuído discutidos anteriormente. O modelo sob demanda, em que os desenvolvedores alugam clusters de GPU por períodos curtos e concentrados, fornece suporte adequado. Os mercados de computação descentralizada com disponibilidade robusta de GPU estão idealmente posicionados para lidar com essas cargas de trabalho.
A Inferência é onde os mercados de computação descentralizados têm o caminho mais claro para se adaptar ao mercado. Ironicamente, este é o fluxo de trabalho menos discutido no contexto do treino descentralizado. Isso decorre de dois fatores: a inferência não tem o apelo de 100.000 execuções de treino de modelos de GPU "deus", e em parte por causa da atual fase da revolução da IA.
A partir de hoje, a maioria do cálculo está, de fato, indo para o treinamento. A corrida para IAS está levando a investimentos massivos antecipados em infraestrutura de treinamento. No entanto, esse equilíbrio inevitavelmente muda à medida que as aplicações de IA passam da pesquisa para a produção. Para que um modelo de negócio em torno da IA seja sustentável, a receita gerada a partir da inferência deve exceder os custos tanto do treinamento quanto da inferência combinados. Embora o treinamento do GPT-4 tenha sido enormemente caro, esse foi um custo único. As despesas contínuas de cálculo - e o caminho da OpenAI para a lucratividade - são impulsionadas pelo atendimento de bilhões de solicitações de inferência de clientes pagantes.
Os mercados de computação, descentralizados ou não, pela natureza de agregarem uma variedade de modelos de GPU (antigos e novos) de todo o mundo, encontram-se numa posição única para atender às cargas de trabalho de inferência.
Os mercados de computação, sejam descentralizados ou tradicionais, naturalmente se destacam em cargas de trabalho de inferência, agregando diversos modelos de GPU (atuais e legados) globalmente. Suas vantagens inerentes se alinham perfeitamente com os requisitos de inferência: ampla distribuição geográfica, tempo de atividade consistente, redundância do sistema e compatibilidade entre gerações de GPU.
Discutimos os diferentes fluxos de trabalho com os quais a computação descentralizada pode e não pode ajudar. Agora, precisamos responder a outra pergunta importante: por que um desenvolvedor escolheria proteger a computação de um provedor descentralizado em vez de um centralizado? Que vantagens atraentes oferecem as soluções descentralizadas?
As stablecoins alcançaram a adequação ao mercado ao oferecerem uma alternativa superior aos pagamentos transfronteiriços tradicionais. Um grande fator é que as stablecoins são simplesmente muito mais baratas! Da mesma forma, o maior fator que influencia a escolha do provedor de nuvem por um desenvolvedor de IA é o custo. Para que os provedores de computação descentralizada possam competir efetivamente, primeiro eles devem oferecer preços superiores.
Um mercado de computação, como todos os mercados, é um negócio de efeitos de rede. Quanto maior a oferta de GPUs em uma plataforma, maior a liquidez e disponibilidade para os clientes, o que, por sua vez, atrai mais demanda. À medida que a demanda cresce, isso incentiva mais proprietários de GPUs a se juntarem à rede, criando um ciclo virtuoso. O aumento da oferta também permite preços mais competitivos por meio de uma melhor correspondência e redução do tempo ocioso. Quando os clientes conseguem encontrar consistentemente a computação de que precisam a taxas atrativas, é mais provável que criem dependências técnicas duradouras na plataforma, o que fortalece ainda mais os efeitos de rede.
Esta dinâmica é particularmente poderosa na inferência, onde a distribuição geográfica da oferta pode realmente melhorar a oferta de produtos, reduzindo a latência para os utilizadores finais. O primeiro mercado a alcançar esse volante de liquidez em escala terá uma vantagem competitiva significativa, já que fornecedores e clientes enfrentam custos de mudança depois de se integrarem às ferramentas e fluxos de trabalho de uma plataforma.
O efeito de rede da roda dentada do mercado de GPU
Nesses mercados, o vencedor leva tudo, inicializando a redee atingir a velocidade de escape é a fase mais crítica. Aqui, a cripto fornece projetos de computação descentralizada com uma ferramenta muito poderosa que seus concorrentes centralizados simplesmente não possuem: incentivos de tokens.
A mecânica pode ser simples, mas poderosa. O protocolo lançaria primeiro um token que inclui um cronograma de recompensas inflacionárias, possivelmente distribuindo alocações iniciais para os primeiros contribuintes por meio de airdrops. Essas emissões de token serviriam como a principal ferramenta para inicializar ambos os lados do mercado.
Para os fornecedores de GPU, a estrutura de recompensa deve ser cuidadosamente projetada para moldar o comportamento do lado da oferta. Os provedores ganhariam tokens proporcionais à sua contribuição computacional e taxas de utilização, mas o sistema deve ir além das recompensas lineares simples. O protocolo poderia implementar multiplicadores de recompensa dinâmicos para abordar desequilíbrios geográficos ou de tipo de hardware - semelhante à forma como a Uber usa preços dinâmicos para incentivar os motoristas em áreas de alta demanda.
Um provedor pode ganhar recompensas 1.5x por oferecer computação em regiões desatendidas ou 2x por fornecer tipos de GPU temporariamente escassos. A segmentação adicional do sistema de recompensas com base nas taxas de utilização consistentes incentivaria os provedores a manterem uma disponibilidade estável em vez de alternar oportunisticamente entre plataformas.
Do lado da demanda, os clientes receberiam recompensas de token que efetivamente subsidiariam o uso deles. O protocolo pode oferecer recompensas aumentadas para compromissos de computação mais longos, incentivando os usuários a construir dependências técnicas mais profundas na plataforma. Essas recompensas poderiam ser ainda estruturadas para se alinharem com as prioridades estratégicas da plataforma, como capturar a demanda em uma geografia específica.
As taxas base para computação podem ser mantidas no nível ou ligeiramente abaixo das taxas de mercado, com protocolos utilizandooráculos zkTLSpara monitorizar continuamente e igualar os preços dos concorrentes. As recompensas de token serviriam como uma camada adicional de incentivo sobre essas taxas base competitivas. Este modelo de preços duplos permitiria à plataforma manter a competitividade de preços enquanto usa incentivos de token para impulsionar comportamentos específicos que fortalecem a rede.
Ao distribuir incentivos simbólicos, tanto os provedores quanto os clientes começariam a acumular uma participação na rede. Enquanto alguns, talvez a maioria, poderiam vender essas participações, outros as manteriam, tornando-se efetivamente partes interessadas e evangelistas da plataforma. Esses participantes engajados teriam interesse no sucesso da rede, contribuindo para seu crescimento e adoção além de seu uso direto ou fornecimento de recursos computacionais.
Com o tempo, à medida que a rede atinge a velocidade de escape e estabelece efeitos de rede fortes, esses incentivos de token podem ser gradualmente reduzidos. Os benefícios naturais de ser o maior mercado - melhor correspondência, maior utilização, uma cobertura geográfica mais ampla - se tornariam impulsionadores autossustentáveis de crescimento.
Como os incentivos de tokens podem potencializar a roda livre do mercado de GPUs
Embora o preço e a gama sejam diferenciadores críticos, as redes de computação descentralizadas abordam uma preocupação crescente: restrições operacionais de provedores centralizados. Os provedores de nuvem tradicionais já demonstraram sua disposição em suspender ou encerrar serviços com base em políticas de conteúdo e pressões externas. Esses precedentes levantam questões legítimas sobre como políticas semelhantes podem se estender ao desenvolvimento e implantação de modelos de IA.
À medida que os modelos de IA se tornam mais sofisticados e enfrentam casos de uso cada vez mais diversos, existe uma possibilidade real de que os provedores de nuvem implementem restrições no treinamento e na disponibilização de modelos, semelhantes às suas abordagens de moderação de conteúdo existentes. Isso pode afetar não apenas o conteúdo NSFW e tópicos controversos, mas também casos de uso legítimos em áreas como imagens médicas, pesquisa científica ou artes criativas que possam acionar filtros automatizados excessivamente cautelosos.
Uma rede descentralizada oferece uma alternativa ao permitir que os participantes do mercado tomem suas próprias decisões de infraestrutura, potencialmente criando um ambiente mais livre e sem restrições para a inovação.
O lado oposto da arquitetura sem permissão é que a privacidade se torna mais desafiadora. Quando o cálculo é distribuído por uma rede de provedores em vez de estar contido nos centros de dados de uma única entidade confiável, os desenvolvedores precisam pensar na segurança dos dados. Embora a criptografia e os ambientes de execução confiáveis possam ajudar, há uma compensação inerente entre a resistência à censura e a privacidade que os desenvolvedores devem navegar com base em seus requisitos específicos.
Dada a demanda extremamente alta por computação de IA, os fornecedores de GPU podem aproveitar sua posição para extrair o máximo de lucro dos clientes bem-sucedidos. Em um publicação do ano passado, o famoso desenvolvedor solo Pieter Levels compartilhou como ele e outros desenvolvedores experimentaram seus provedores aumentando repentinamente os preços em mais de 600% depois de compartilharem publicamente os números de receita de seus aplicativos de IA.
Os sistemas descentralizados podem oferecer um contraponto a este problema: a execução de contratos sem confiança. Quando os acordos são codificados on-chain em vez de enterrados em termos de serviço, tornam-se transparentes e imutáveis. Um fornecedor não pode aumentar arbitrariamente os preços ou alterar os termos a meio do contrato sem que as alterações sejam explicitamente acordadas através do protocolo.
Além do preço, as redes descentralizadas podem alavancar ambientes de execução confiáveis (TEEs)para fornecer computação verificável. Isso garante que os desenvolvedores estejam realmente obtendo os recursos de GPU pelos quais estão pagando, tanto em termos de especificações de hardware quanto de acesso dedicado. Por exemplo, quando um desenvolvedor paga pelo acesso dedicado a oito GPUs H100 para treinamento de modelo, provas criptográficas podem verificar que suas cargas de trabalho estão realmente sendo executadas em H100s com os 80GB completos de memória por GPU, em vez de serem silenciosamente rebaixadas para cartões de menor qualidade ou terem recursos compartilhados com outros usuários.
Redes de computadores descentralizadas podem fornecer aos desenvolvedores alternativas verdadeiramente sem permissão. Ao contrário dos provedores tradicionais que exigem processos extensos de KYC e verificações de crédito, qualquer pessoa pode participar dessas redes e começar a consumir ou fornecer recursos de computação. Isso reduz drasticamente a barreira de entrada, especialmente para os desenvolvedores em mercados emergentes ou aqueles que trabalham em projetos experimentais.
A importância desta natureza sem permissão torna-se ainda mais poderosa quando consideramos o futuro dos agentes de IA. Os agentes de IA acabaram de começar a encontrar o seu equilíbrio, com agentes verticalmente integradosespera-se que ultrapasse o tamanho da indústria de SaaS. Com empresas como Terminal da VerdadeeZerebro, estamos vendo os primeiros sinais de agentes ganhando autonomia e aprendendo a usar ferramentas externas como as redes sociais e geradores de imagens.
À medida que esses sistemas autônomos se tornam mais sofisticados, eles podem precisar provisionar dinamicamente seus próprios recursos de computação. Uma rede descentralizada onde os contratos podem ser executados sem confiança por meio de código em vez de intermediários humanos é a infraestrutura natural para este futuro. Agentes poderiam negociar contratos autonomamente, monitorar o desempenho e ajustar o uso de computação com base na demanda - tudo isso sem exigir intervenção ou aprovação humana.
O conceito de redes de computação descentralizada não é novo - projetos têm tentado democratizar o acesso a recursos computacionais escassos muito antes do atual boom de IA.Rede Rendertem estado em operação desde 2017, agregando recursos de GPU para a renderização de gráficos de computador.Akashlançado em 2020 para criar um mercado aberto para computação geral. Ambos os projetos encontraram sucesso moderado em suas áreas de atuação, mas agora estão focados em cargas de trabalho de IA.
Da mesma forma, redes de armazenamento descentralizado como Filecoin e Arweaveestão se expandindo para a computação. Eles reconhecem que, à medida que a IA se torna o principal consumidor tanto do armazenamento quanto da computação, oferecer soluções integradas faz sentido.
Assim como os centros de dados tradicionais têm dificuldade em competir com instalações de IA específicas, essas redes estabelecidas enfrentam uma batalha difícil contra soluções nativas de IA. Elas não possuem o DNA para executar a complexa orquestração necessária para cargas de trabalho de IA. Em vez disso, estão encontrando seu lugar ao se tornarem provedores de computação para outras redes específicas de IA. Por exemplo, tanto Render quanto Akash agora disponibilizam suas GPUs no mercado da io.net.
Quem são esses novos marketplaces nativos de IA?io.net é um dos líderes iniciais na agregação de fornecimento de GPU de nível empresarial, com mais de 300.000 GPUs verificadas em sua rede. Eles afirmam oferecer economia de custos de 90% em relação aos incumbentes centralizados e alcançaram ganhos diários de mais de $25.000 ($9 milhões anualizados). Da mesma forma, Aethiragrega mais de 40.000 GPUs (incluindo mais de 4.000 H100s) para atender aos casos de uso de IA e computação em nuvem.
Anteriormente, discutimos como o Prime Intellect está a criar os frameworks para treino descentralizado em grande escala. Para além destes esforços, eles também fornecem um Mercado de GPUsonde os usuários podem alugar H100s sob demanda.Gensyné outro projeto que aposta forte na formação descentralizada com uma abordagem semelhante de formação, juntamente com uma abordagem de mercado de GPU.
Embora todas essas sejam marketplaces agnósticas de carga de trabalho (suportam tanto treinamento quanto inferência), alguns projetos estão se concentrando apenas na inferência - a carga de trabalho de computação descentralizada que mais nos entusiasma. O principal deles é Exo Labs, que permite aos usuários executar LLMs de nível de fronteira em dispositivos cotidianos. Eles desenvolveram uma plataforma de código aberto que permite a distribuição de tarefas de inferência de IA em vários dispositivos como iPhones, Androids e Macs. Eles recentemente demonstradoexecutando um modelo 70-B (escalável até 400-B) distribuído em quatro M4 Pro Mac Minis.
Quando Satoshi lançou o Bitcoin em 2008, seus benefícios - ouro digital com oferta limitada e dinheiro resistente à censura - eram puramente teóricos. O sistema financeiro tradicional, apesar de suas falhas, estava funcionando. Os bancos centrais ainda não haviam embarcado em impressões de dinheiro sem precedentes. Sanções internacionais não eram utilizadas como arma contra economias inteiras. A necessidade de uma alternativa parecia mais acadêmica do que urgente.
Passaram-se dez anos de flexibilização quantitativa, culminando na expansão monetária da era COVID, para que os benefícios teóricos do Bitcoin se cristalizassem em valor tangível. Hoje, à medida que a inflação corrói as poupanças e as tensões geopolíticas ameaçam a dominação do dólar, o papel do Bitcoin como "ouro digital" evoluiu de um sonho ciberpunk para um ativo adotado por instituições e Estados-nação.
Este padrão repetiu-se com as stablecoins. Assim que uma blockchain de uso geral no Ethereum estava disponível, as stablecoins imediatamente tornaram-se um dos casos de uso mais promissores. No entanto, foram necessários anos de melhorias graduais na tecnologia e nas economias de países como Argentina e Turquia, devastados pela inflação, para que as stablecoins evoluíssem de uma inovação cripto de nicho para uma infraestrutura financeira crítica movimentando trilhões de dólares em volume anual.
Cripto é por natureza uma tecnologia defensiva - inovações que parecem desnecessárias durante bons momentos, mas se tornam essenciais durante crises. A necessidade dessas soluções só se torna aparente quando os sistemas incumbentes falham ou revelam suas verdadeiras cores.
Hoje, estamos vivendo a era de ouro da IA. O capital de risco flui livremente, as empresas competem para oferecer os menores preços e as restrições, se houver, são raras. Nesse ambiente, as alternativas descentralizadas podem parecer desnecessárias. Por que lidar com as complexidades da economia de tokens e sistemas de prova quando os provedores tradicionais funcionam muito bem?
Mas, se considerarmos as principais ondas tecnológicas do passado, essa benevolência é temporária. Estamos apenas dois anos na revolução da IA. À medida que a tecnologia amadurece e os vencedores da corrida da IA surgem, seu verdadeiro poder vai surgir. As mesmas empresas que hoje oferecem acesso generoso eventualmente vão impor o controle - através de preços, políticas, permissões.
Este não é apenas outro ciclo de tecnologia em jogo. A IA está se tornando o novo substrato da civilização - a lente através da qual processaremos informações, criaremos arte, tomaremos decisões e, em última análise, evoluiremos como espécie. Computação é mais do que apenas um recurso; é a moeda da própria inteligência. Aqueles que controlam seu fluxo moldarão a fronteira cognitiva da humanidade.
A computação descentralizada não se trata de oferecer GPUs mais baratos ou opções de implantação mais flexíveis (embora precise oferecer ambos para ter sucesso). Trata-se de garantir que o acesso à inteligência artificial - a tecnologia mais transformadora da humanidade - permaneça não censurável e soberana. É o nosso escudo contra um futuro inevitável onde um punhado de empresas ditam não apenas quem pode usar a IA, mas como podem pensar com ela.
Estamos construindo esses sistemas hoje não porque são imediatamente necessários, mas porque serão essenciais amanhã. Quando a IA se tornar tão fundamental para a sociedade quanto o dinheiro, o cálculo sem permissão não será apenas uma alternativa - será tão crucial para resistir à hegemonia digital quanto o Bitcoin e as stablecoins são para resistir ao controle financeiro.
A corrida para a superinteligência artificial pode estar além do alcance de sistemas descentralizados. Mas garantir que os frutos dessa inteligência permaneçam acessíveis a todos? Essa é uma corrida que vale a pena correr.