No me he sacudido de este gran error.
Todavía me persigue porque era la apuesta más obvia para cualquier persona que prestara atención, sin embargo, no invertí ni un solo dólar.
No, no fue el próximo asesino de Solana o un memecoin con un perro que lleva un sombrero divertido.
Fue… NVIDIA.
Precio de las acciones de NVDA año a la fecha. Fuente: Google
En solo un año, NVDA se triplicó, pasando de una capitalización de mercado de $1T a $3T. Incluso superó a Bitcoin en el mismo período.
Claro, parte de eso es publicidad engañosa sobre la inteligencia artificial. Pero una gran parte de ello está fundamentada en la realidad. NVIDIA informó ingresos de $60 mil millones para el ejercicio fiscal 2024, un asombroso aumento del 126% con respecto a 2023. Este crecimiento fue impulsado por las grandes empresas de tecnología que adquirieron GPUs en una carrera global de la inteligencia artificial hacia la AGI.
Entonces, ¿por qué lo perdí?
Durante dos años, estuve centrado en la cripto y no miré hacia afuera para ver lo que estaba sucediendo en la IA. Ese fue un gran error y todavía me pesa.
Pero no estoy cometiendo el mismo error dos veces.
Hoy, la IA Cripto se siente extrañamente similar. Estamos al borde de una explosión de innovación. Los paralelos con la Fiebre del Oro de California de mediados del siglo XIX son difíciles de ignorar: las industrias y ciudades surgieron de la noche a la mañana, la infraestructura avanzó a un ritmo frenético y las fortunas fueron hechas por aquellos que se atrevieron a saltar.
Al igual que NVIDIA en sus primeros días, Crypto AI parecerá obvio a la luz retrospectiva.
En Parte I de mi tesis, expliqué por qué la inteligencia artificial en el ámbito de laCripto es la oportunidad más emocionante de hoy para inversores y constructores.
Aquí hay un resumen rápido:
En su núcleo, Crypto AI es IA con infraestructura de cripto superpuesta. Esto significa que es más probable que siga la trayectoria de crecimiento exponencial de la IA que el mercado cripto en general. Entonces, para mantenerse adelante, debes sintonizar la última investigación de IA en Arxiv y hablar con los fundadores que creen que están construyendo la próxima gran cosa.
En la Parte II de mi tesis, profundizaré en cuatro de los subsectores más prometedores en Cripto IA:
Esta pieza representa la culminación de semanas de investigación profunda y conversaciones con fundadores y equipos en todo el panorama de la IA Cripto. No está diseñada para ser una inmersión profunda exhaustiva en cada sector, eso es un agujero de conejo para otro día.
En su lugar, considérelo como una hoja de ruta de alto nivel creada para despertar la curiosidad, afilar su investigación y guiar el pensamiento de inversión.
Me imagino la pila de IA descentralizada como un ecosistema en capas: comienza con cálculos descentralizados y redes de datos abiertos en un extremo, que alimentan el entrenamiento de modelos de IA descentralizados.
Cada inferencia se verifica, tanto los insumos como los resultados, utilizando una combinación de criptografía, incentivos criptoeconómicos y redes de evaluación. Estos resultados verificados fluyen hacia agentes de IA que pueden operar de forma autónoma en la cadena, así como aplicaciones de IA para consumidores y empresas en las que los usuarios realmente pueden confiar.
Las redes de coordinación lo unen todo, permitiendo una comunicación y colaboración fluida en todo el ecosistema.
En esta visión, cualquier persona que construya en IA podría aprovechar una o más capas de esta pila, dependiendo de sus necesidades específicas. Ya sea aprovechando la informática descentralizada para el entrenamiento de modelos o utilizando redes de evaluación para garantizar salidas de alta calidad, la pila ofrece una variedad de opciones.
Gracias a la composabilidad inherente de la cadena de bloques, creo que naturalmente nos estamos moviendo hacia un futuro modular. Cada capa se está volviendo altamente especializada, con protocolos optimizados para funciones distintas en lugar de un enfoque integrado todo en uno.
Fuente: topology.vc
Ha habido una explosión cámbrica de startups construyendo en cada capa del stack de IA descentralizada, la mayoría fundadas en los últimos 1-3 años. Está claro: todavía estamos en una etapa temprana.
El mapa más completo y actualizado del panorama de startups de inteligencia artificial en Crypto que he visto es mantenido por Casey y su equipo en topology.vc. Es un recurso invaluable para cualquier persona que siga el espacio.
Mientras me sumerjo en los subsectores de Crypto AI, me pregunto constantemente: ¿qué tan grande es la oportunidad aquí? No estoy interesado en apuestas pequeñas, busco mercados que puedan escalar a cientos de miles de millones.
Comencemos con el tamaño del mercado. Al evaluar un subsector, me pregunto: ¿está creando un mercado completamente nuevo o perturbando uno existente?
Tomemos como ejemplo la computación descentralizada. Es una categoría disruptiva cuyo potencial se puede estimar mirando el mercado establecido de computación en la nube, que vale ~$680B hoy y se espera que alcance los $2.5T en 2032.
Nuevos mercados sin precedentes, como los agentes de IA, son más difíciles de cuantificar. Sin datos históricos, evaluarlos implica una combinación de conjeturas educadas y verificaciones instintivas sobre los problemas que están resolviendo. Y la trampa es que a veces, lo que parece un nuevo mercado es realmente solo una solución en busca de un problema.
El momento lo es todo. La tecnología tiende a mejorar y a abaratarse con el tiempo, pero el ritmo del progreso varía.
¿Qué tan madura está la tecnología en un subsector dado? ¿Está lista para escalar, o todavía se encuentra en la fase de investigación, con aplicaciones prácticas a años de distancia? El momento determina si un sector merece atención inmediata o si debe ser dejado en la categoría de “esperar y ver”.
Tomemos el cifrado completamente homomórfico (FHE) como ejemplo: el potencial es innegable, pero hoy en día todavía es demasiado lento para un uso generalizado. Es probable que pasen varios años antes de que se vuelva viable a gran escala. Al centrarnos primero en sectores más cercanos a la escalabilidad, puedo dedicar mi tiempo y energía donde se está construyendo el impulso y la oportunidad.
Si tuviera que mapear estas categorías en un gráfico de tamaño vs. tiempo, se vería algo así. Ten en cuenta que esto es más un boceto conceptual que una guía estricta. Hay muchos matices, por ejemplo, dentro de la inferencia verificable, enfoques diferentes como zkML y opML están en diferentes niveles de preparación para su uso.
Dicho esto, estoy convencido de que la escala de la IA será tan masiva que incluso lo que hoy parece un “nicho” podría convertirse en un mercado importante.
También vale la pena señalar que el progreso tecnológico no siempre sigue una línea recta, a menudo ocurre en saltos. Mis puntos de vista sobre el momento y el tamaño del mercado cambiarán cuando ocurran avances emergentes.
Con este marco en mente, desglosemos cada subsector.
Varios equipos de Crypto AI se están posicionando para capitalizar la escasez de GPU en relación con la demanda mediante la construcción de redes descentralizadas que aprovechan la reserva global de potencia de cómputo latente.
La propuesta de valor principal para los mercados de GPU es triple:
Para abordar el lado de la oferta del mercado, estos mercados obtienen recursos informáticos de:
Por otro lado, la demanda de cómputo descentralizado hoy proviene de:
Lo fundamental que hay que recordar: los desarrolladores siempre priorizan los costos y la fiabilidad.
Las startups en este espacio a menudo presumen del tamaño de sus redes de suministro de GPU como una señal de éxito. Pero esto es engañoso, en el mejor de los casos es una métrica de vanidad.
La verdadera restricción no es la oferta sino la demanda. Las métricas clave a seguir no son el número de GPUs disponibles, sino la tasa de utilización y el número de GPUs realmente alquiladas.
Los tokens son excelentes para arrancar el lado de suministro, creando los incentivos necesarios para escalar rápidamente. Sin embargo, no resuelven inherentemente el problema de la demanda. La verdadera prueba es llevar el producto a un estado lo suficientemente bueno como para que la demanda latente se materialice.
Haseeb Qureshi (Dragonfly) lo dice mejor:
Contrariamente a la creencia popular, el mayor obstáculo para los mercados distribuidos de GPU web3 hoy en día es simplemente hacer que funcionen correctamente.
Este no es un problema trivial.
La orquestación de GPU en una red distribuida es compleja, con capas de desafíos: asignación de recursos, escalado dinámico de cargas de trabajo, equilibrio de carga entre nodos y GPU, administración de latencia, transferencia de datos, tolerancia a fallas y manejo de hardware diverso disperso en varias geografías. Podría seguir y seguir.
Lograr esto requiere una ingeniería seria y una arquitectura de red robusta y adecuadamente diseñada.
Para ponerlo en perspectiva, consideremos Kubernetes de Google. Es ampliamente considerado como el estándar de oro para la orquestación de contenedores, automatizando procesos como el equilibrio de carga y la escalabilidad en entornos distribuidos, desafíos muy similares a los enfrentados por las redes de GPU distribuidas. Kubernetes en sí mismo se construyó sobre más de una década de experiencia de Google, y aún así, tomó años de iteración implacable para hacerlo bien.
Algunos de los mercados de cómputo de GPU que ya están en funcionamiento hoy en día pueden manejar cargas de trabajo a pequeña escala, pero las grietas comienzan a aparecer tan pronto como intentan escalar. Sospecho que esto se debe a que fueron construidos sobre bases arquitectónicas mal diseñadas.
Otro desafío/oportunidad para las redes informáticas descentralizadas es garantizar la confiabilidad: verificar que cada nodo realmente esté proporcionando la potencia informática que afirma. Actualmente, esto depende de la reputación de la red y, en algunos casos, los proveedores de informática se clasifican según puntuaciones de reputación. La cadena de bloques parece ser un ajuste natural para sistemas de verificación sin confianza. Empresas emergentes como Gensyn y Esferónestán impulsando un enfoque sin confianza para resolver este problema.
Hoy en día, muchos equipos de web3 todavía están navegando por estos desafíos, lo que significa que la oportunidad está totalmente abierta.
¿Qué tan grande es el mercado de las redes de cálculo descentralizado?
Hoy en día, probablemente sea solo una pequeña fracción de la industria de computación en la nube de $680B - $2.5T. Sin embargo, a pesar de la fricción adicional para los usuarios, siempre habrá cierta demanda mientras los costos sigan siendo inferiores a los de los proveedores tradicionales.
Creo que los costos se mantendrán bajos a corto y mediano plazo debido a una combinación de subsidios de tokens y la liberación de suministro por parte de usuarios que no son sensibles al precio (por ejemplo, si puedo alquilar mi computadora portátil para juegos por dinero extra, estoy contento ya sea que sean $20 o $50 al mes).
Pero el verdadero potencial de crecimiento para las redes informáticas descentralizadas y la verdadera expansión de su TAM vendrá cuando:
La computación descentralizada y sin permisos se erige como la capa base, la infraestructura fundamental, para un ecosistema de IA descentralizado.
A pesar de la expansión continua en la cadena de suministro de silicio (es decir, las GPU), creo que solo estamos en el amanecer de la era de la Inteligencia de la humanidad. Habrá una demanda insaciable de cómputo.
Esté atento al punto de inflexión que podría desencadenar una importante recalificación de todos los mercados de GPU en funcionamiento. Probablemente llegue pronto.
Imagínate esto: un modelo de IA masivo y transformador, no desarrollado en laboratorios elitistas secretos, sino creado por millones de personas comunes. Los jugadores, cuyas GPU suelen generar explosiones cinematográficas de Call of Duty, ahora prestan su hardware a algo más grande: un modelo de IA de código abierto y de propiedad colectiva sin guardianes centrales.
En este futuro, los modelos a escala de la fundación no son solo el dominio de los mejores laboratorios de IA.
Pero vamos a fundamentar esta visión en la realidad actual. Por ahora, la mayor parte del entrenamiento intensivo de IA sigue estando anclado en centros de datos centralizados, y esto probablemente será lo normal durante algún tiempo.
Empresas como OpenAI están escalando sus enormes clústeres. Elon Musk recientemente anunció que xAI está a punto de completar un centro de datos que cuenta con el equivalente a 200.000 GPU H100.
Pero no se trata solo del recuento bruto de GPU. Utilización de FLOPS del modelo (MFU): una métrica introducida en El documento PaLM de Googleen 2022, rastrea qué tan eficazmente se utiliza la capacidad máxima de una GPU. Sorprendentemente, el MFU a menudo oscila alrededor del 35-40%.
¿Por qué tan bajo? Si bien el rendimiento de las GPU ha aumentado considerablemente en los últimos años siguiendo la ley de Moore, las mejoras en la red, la memoria y el almacenamiento han quedado rezagadas, creando cuellos de botella. Como resultado, las GPU a menudo permanecen inactivas, esperando datos.
El entrenamiento de IA sigue estando altamente centralizado hoy en día debido a una palabra: eficiencia.
Entrenar modelos grandes depende de técnicas como:
• Paralelismo de datos: dividir conjuntos de datos en varias GPU para realizar operaciones en paralelo, lo que acelera el proceso de entrenamiento.
• Paralelismo del modelo: distribución de partes del modelo entre las GPU para evitar las restricciones de memoria.
Estos métodos requieren GPUs para intercambiar datos constantemente, lo que hace que la velocidad de interconexión, es decir, la velocidad a la que se transfieren los datos entre las computadoras de la red, sea absolutamente esencial.
Cuando el entrenamiento de modelos de IA de frontera puede costar más de 1.000 millones de dólares, cada ganancia de eficiencia es importante.
Con sus interconexiones de alta velocidad, los centros de datos centralizados permiten una transferencia rápida de datos entre las GPU y generan ahorros significativos de costos durante el tiempo de entrenamiento que las configuraciones descentralizadas no pueden igualar… aún.
Si hablas con personas que trabajan en el campo de la IA, muchos te dirán que el entrenamiento descentralizado simplemente no funciona.
En configuraciones descentralizadas, los clústeres de GPU no están físicamente ubicados en el mismo lugar, por lo que transferir datos entre ellos es mucho más lento y se convierte en un cuello de botella. El entrenamiento requiere que las GPU sincronicen e intercambien datos en cada paso. Cuanto más separadas estén, mayor será la latencia. Una mayor latencia significa una velocidad de entrenamiento más lenta y costos más altos.
Lo que podría tardar unos días en un centro de datos centralizado podría extenderse a dos semanas con un enfoque descentralizado a un costo más alto. Simplemente no es viable.
Pero esto va a cambiar.
La buena noticia es que ha habido un enorme aumento del interés en la investigación sobre el entrenamiento distribuido. Los investigadores están explorando múltiples enfoques simultáneamente, como lo demuestra la avalancha de estudios y artículos publicados. Estos avances se acumularán y se compilarán, acelerando el progreso en este ámbito.
También se trata de probar en producción y ver hasta dónde podemos empujar los límites.
Algunas técnicas de capacitación descentralizada ya pueden manejar modelos más pequeños en entornos de interconexión lenta. Ahora, la investigación de vanguardia está trabajando para extender estos métodos a modelos cada vez más grandes.
Otro desafío es gestionar una amplia gama de hardware de GPU, que incluye GPUs de consumo con memoria limitada que son típicas en redes descentralizadas. Técnicas como el paralelismo de modelos (dividir capas de modelos entre dispositivos) pueden ayudar a que esto sea factible.
Los métodos actuales de formación descentralizada siguen limitando el tamaño de los modelos a cifras muy por debajo de la frontera (se informa que GPT-4 está cerca de un billón de parámetros, 100 veces más grande que el modelo de 10B de Prime Intellect). Para escalar realmente, necesitaremos avances en la arquitectura de modelos, una mejor infraestructura de red y una división más inteligente de tareas entre dispositivos.
Y podemos soñar en grande. Imagine un mundo en el que el entrenamiento descentralizado agrega más potencia de cómputo de GPU de la que incluso los centros de datos centralizados más grandes podrían reunir.
Investigación Pluralis (un equipo brillante en el entrenamiento descentralizado, uno para seguir de cerca) argumenta que esto no solo es posible, sino inevitable. Los centros de datos centralizados están limitados por restricciones físicas como el espacio y el disponibilidad de energía, mientras que las redes descentralizadas pueden aprovechar un pozo efectivamente ilimitado de recursos globales.
Incluso Jensen Huang de NVIDIA ha reconocido que entrenamiento descentralizado asincrónicoPodría desbloquear el verdadero potencial de la escala de IA. Las redes de entrenamiento distribuido también son más tolerantes a fallos.
Entonces, en un futuro potencial, los modelos de IA más poderosos del mundo serán entrenados de manera descentralizada.
Es una perspectiva emocionante, pero aún no estoy completamente convencido. Necesitamos pruebas más sólidas de que el entrenamiento descentralizado de los modelos más grandes es técnicamente y económicamente viable.
Aquí es donde veo una inmensa promesa: el punto óptimo de la capacitación descentralizada podría residir en modelos más pequeños, especializados y de código abierto diseñados para casos de uso específicos, en lugar de competir con los modelos de frontera ultra grandes impulsados por AGI. Ciertas arquitecturas, especialmente los modelos sin transformadores, ya están demostrando ser un ajuste natural para las configuraciones descentralizadas.
Y hay otra pieza en este rompecabezas: tokens. Una vez que el entrenamiento descentralizado se vuelva factible a gran escala, los tokens podrían desempeñar un papel fundamental en incentivar y recompensar a los contribuyentes, iniciando efectivamente estas redes.
El camino hacia esta visión es largo, pero el progreso es profundamente alentador. Los avances en la formación descentralizada beneficiarán a todos, incluso a las grandes empresas tecnológicas y a los laboratorios de investigación de IA de primer nivel, ya que la escala de los modelos futuros superará la capacidad de un único centro de datos.
El futuro es distribuido. Y cuando una tecnología tiene un potencial tan amplio, la historia muestra que siempre mejora y avanza más rápido de lo que cualquiera espera.
En este momento, la mayor parte de la potencia de cómputo de la IA se está canalizando hacia el entrenamiento de modelos masivos. Los principales laboratorios de IA están en una carrera armamentista para desarrollar los mejores modelos fundacionales y, en última instancia, lograr AGI.
Pero aquí está mi opinión: este intenso enfoque informático en la formación se desplazará hacia la inferencia en los próximos años. A medida que la IA se incorpore cada vez más en las aplicaciones que usamos a diario, desde la atención médica hasta el entretenimiento, los recursos informáticos necesarios para respaldar la inferencia serán asombrosos.
Y no es solo especulación. El escalado de cómputo en tiempo de inferencia es la última palabra de moda en IA. OpenAI lanzó recientemente una versión preliminar/mini de su último modelo, o1 (nombre en clave: Strawberry), ¿y el gran cambio? Se toma su tiempo para pensar preguntándose primero cuáles son los pasos que debe seguir para responder a la pregunta, y luego pasa por cada uno de esos pasos.
Este modelo está diseñado para tareas más complejas y que requieren mucha planificación, como Resolviendo crucigramas—y aborda problemas que requieren un razonamiento más profundo. Notarás que es más lento, tarda más tiempo en generar respuestas, pero los resultados son mucho más reflexivos y matizados. También es mucho más caro de ejecutar (25 veces el costo de GPT-4)
El cambio de enfoque es claro: el próximo salto en el rendimiento de la IA no vendrá solo de entrenar modelos más grandes, sino también de escalar el uso de cálculo durante la inferencia.
Si quieres leer más, varios estudios papelesdemostrar:
Una vez que se entrenan los modelos poderosos, sus tareas de inferencia, donde los modelos hacen cosas, se pueden descargar en redes informáticas descentralizadas. Esto tiene mucho sentido porque:
Piense en la inferencia descentralizada como una CDN (red de entrega de contenido) para IA: en lugar de entregar sitios web rápidamente conectándose a servidores cercanos, la inferencia descentralizada aprovecha la potencia de cómputo local para ofrecer respuestas de IA en un tiempo récord. Al adoptar la inferencia descentralizada, las aplicaciones de IA se vuelven más eficientes, receptivas y confiables.
La tendencia es clara. El nuevo chip M4 Pro de Apple rivales de NVIDIARTX 3070 Ti: una GPU que, hasta hace poco, era el dominio de los jugadores más hardcore. El hardware que ya tenemos tiene cada vez más capacidad para manejar cargas de trabajo de IA avanzadas.
Para que las redes de inferencia descentralizadas tengan éxito, debe haber incentivos económicos convincentes para la participación. Los nodos en la red deben ser compensados por sus contribuciones de cálculo. El sistema debe asegurar una distribución justa y eficiente de las recompensas. La diversidad geográfica es esencial, reduciendo la latencia para las tareas de inferencia y mejorando la tolerancia a fallos.
¿Y la mejor manera de construir redes descentralizadas? Cripto.
Los tokens proporcionan un mecanismo poderoso para alinear los intereses de los participantes, asegurando que todos estén trabajando hacia el mismo objetivo: escalar la red y aumentar el valor del token.
Los tokens también potencian el crecimiento de la red. Ayudan a resolver el clásico problema del huevo y la gallina que paraliza la mayoría de las redes al recompensar a los primeros adoptantes y fomentar la participación desde el primer día.
El éxito de Bitcoin y Ethereum demuestra este punto, ya que han agregado las mayores piscinas de potencia informática del planeta.
Las redes de inferencia descentralizadas son las siguientes en la línea. Con diversidad geográfica, reducen la latencia, mejoran la tolerancia a fallos y acercan la IA al usuario. Y con incentivos impulsados por cripto, escalarán más rápido y mejor de lo que las redes tradicionales podrían hacerlo nunca.
No me he sacudido de este gran error.
Todavía me persigue porque era la apuesta más obvia para cualquier persona que prestara atención, sin embargo, no invertí ni un solo dólar.
No, no fue el próximo asesino de Solana o un memecoin con un perro que lleva un sombrero divertido.
Fue… NVIDIA.
Precio de las acciones de NVDA año a la fecha. Fuente: Google
En solo un año, NVDA se triplicó, pasando de una capitalización de mercado de $1T a $3T. Incluso superó a Bitcoin en el mismo período.
Claro, parte de eso es publicidad engañosa sobre la inteligencia artificial. Pero una gran parte de ello está fundamentada en la realidad. NVIDIA informó ingresos de $60 mil millones para el ejercicio fiscal 2024, un asombroso aumento del 126% con respecto a 2023. Este crecimiento fue impulsado por las grandes empresas de tecnología que adquirieron GPUs en una carrera global de la inteligencia artificial hacia la AGI.
Entonces, ¿por qué lo perdí?
Durante dos años, estuve centrado en la cripto y no miré hacia afuera para ver lo que estaba sucediendo en la IA. Ese fue un gran error y todavía me pesa.
Pero no estoy cometiendo el mismo error dos veces.
Hoy, la IA Cripto se siente extrañamente similar. Estamos al borde de una explosión de innovación. Los paralelos con la Fiebre del Oro de California de mediados del siglo XIX son difíciles de ignorar: las industrias y ciudades surgieron de la noche a la mañana, la infraestructura avanzó a un ritmo frenético y las fortunas fueron hechas por aquellos que se atrevieron a saltar.
Al igual que NVIDIA en sus primeros días, Crypto AI parecerá obvio a la luz retrospectiva.
En Parte I de mi tesis, expliqué por qué la inteligencia artificial en el ámbito de laCripto es la oportunidad más emocionante de hoy para inversores y constructores.
Aquí hay un resumen rápido:
En su núcleo, Crypto AI es IA con infraestructura de cripto superpuesta. Esto significa que es más probable que siga la trayectoria de crecimiento exponencial de la IA que el mercado cripto en general. Entonces, para mantenerse adelante, debes sintonizar la última investigación de IA en Arxiv y hablar con los fundadores que creen que están construyendo la próxima gran cosa.
En la Parte II de mi tesis, profundizaré en cuatro de los subsectores más prometedores en Cripto IA:
Esta pieza representa la culminación de semanas de investigación profunda y conversaciones con fundadores y equipos en todo el panorama de la IA Cripto. No está diseñada para ser una inmersión profunda exhaustiva en cada sector, eso es un agujero de conejo para otro día.
En su lugar, considérelo como una hoja de ruta de alto nivel creada para despertar la curiosidad, afilar su investigación y guiar el pensamiento de inversión.
Me imagino la pila de IA descentralizada como un ecosistema en capas: comienza con cálculos descentralizados y redes de datos abiertos en un extremo, que alimentan el entrenamiento de modelos de IA descentralizados.
Cada inferencia se verifica, tanto los insumos como los resultados, utilizando una combinación de criptografía, incentivos criptoeconómicos y redes de evaluación. Estos resultados verificados fluyen hacia agentes de IA que pueden operar de forma autónoma en la cadena, así como aplicaciones de IA para consumidores y empresas en las que los usuarios realmente pueden confiar.
Las redes de coordinación lo unen todo, permitiendo una comunicación y colaboración fluida en todo el ecosistema.
En esta visión, cualquier persona que construya en IA podría aprovechar una o más capas de esta pila, dependiendo de sus necesidades específicas. Ya sea aprovechando la informática descentralizada para el entrenamiento de modelos o utilizando redes de evaluación para garantizar salidas de alta calidad, la pila ofrece una variedad de opciones.
Gracias a la composabilidad inherente de la cadena de bloques, creo que naturalmente nos estamos moviendo hacia un futuro modular. Cada capa se está volviendo altamente especializada, con protocolos optimizados para funciones distintas en lugar de un enfoque integrado todo en uno.
Fuente: topology.vc
Ha habido una explosión cámbrica de startups construyendo en cada capa del stack de IA descentralizada, la mayoría fundadas en los últimos 1-3 años. Está claro: todavía estamos en una etapa temprana.
El mapa más completo y actualizado del panorama de startups de inteligencia artificial en Crypto que he visto es mantenido por Casey y su equipo en topology.vc. Es un recurso invaluable para cualquier persona que siga el espacio.
Mientras me sumerjo en los subsectores de Crypto AI, me pregunto constantemente: ¿qué tan grande es la oportunidad aquí? No estoy interesado en apuestas pequeñas, busco mercados que puedan escalar a cientos de miles de millones.
Comencemos con el tamaño del mercado. Al evaluar un subsector, me pregunto: ¿está creando un mercado completamente nuevo o perturbando uno existente?
Tomemos como ejemplo la computación descentralizada. Es una categoría disruptiva cuyo potencial se puede estimar mirando el mercado establecido de computación en la nube, que vale ~$680B hoy y se espera que alcance los $2.5T en 2032.
Nuevos mercados sin precedentes, como los agentes de IA, son más difíciles de cuantificar. Sin datos históricos, evaluarlos implica una combinación de conjeturas educadas y verificaciones instintivas sobre los problemas que están resolviendo. Y la trampa es que a veces, lo que parece un nuevo mercado es realmente solo una solución en busca de un problema.
El momento lo es todo. La tecnología tiende a mejorar y a abaratarse con el tiempo, pero el ritmo del progreso varía.
¿Qué tan madura está la tecnología en un subsector dado? ¿Está lista para escalar, o todavía se encuentra en la fase de investigación, con aplicaciones prácticas a años de distancia? El momento determina si un sector merece atención inmediata o si debe ser dejado en la categoría de “esperar y ver”.
Tomemos el cifrado completamente homomórfico (FHE) como ejemplo: el potencial es innegable, pero hoy en día todavía es demasiado lento para un uso generalizado. Es probable que pasen varios años antes de que se vuelva viable a gran escala. Al centrarnos primero en sectores más cercanos a la escalabilidad, puedo dedicar mi tiempo y energía donde se está construyendo el impulso y la oportunidad.
Si tuviera que mapear estas categorías en un gráfico de tamaño vs. tiempo, se vería algo así. Ten en cuenta que esto es más un boceto conceptual que una guía estricta. Hay muchos matices, por ejemplo, dentro de la inferencia verificable, enfoques diferentes como zkML y opML están en diferentes niveles de preparación para su uso.
Dicho esto, estoy convencido de que la escala de la IA será tan masiva que incluso lo que hoy parece un “nicho” podría convertirse en un mercado importante.
También vale la pena señalar que el progreso tecnológico no siempre sigue una línea recta, a menudo ocurre en saltos. Mis puntos de vista sobre el momento y el tamaño del mercado cambiarán cuando ocurran avances emergentes.
Con este marco en mente, desglosemos cada subsector.
Varios equipos de Crypto AI se están posicionando para capitalizar la escasez de GPU en relación con la demanda mediante la construcción de redes descentralizadas que aprovechan la reserva global de potencia de cómputo latente.
La propuesta de valor principal para los mercados de GPU es triple:
Para abordar el lado de la oferta del mercado, estos mercados obtienen recursos informáticos de:
Por otro lado, la demanda de cómputo descentralizado hoy proviene de:
Lo fundamental que hay que recordar: los desarrolladores siempre priorizan los costos y la fiabilidad.
Las startups en este espacio a menudo presumen del tamaño de sus redes de suministro de GPU como una señal de éxito. Pero esto es engañoso, en el mejor de los casos es una métrica de vanidad.
La verdadera restricción no es la oferta sino la demanda. Las métricas clave a seguir no son el número de GPUs disponibles, sino la tasa de utilización y el número de GPUs realmente alquiladas.
Los tokens son excelentes para arrancar el lado de suministro, creando los incentivos necesarios para escalar rápidamente. Sin embargo, no resuelven inherentemente el problema de la demanda. La verdadera prueba es llevar el producto a un estado lo suficientemente bueno como para que la demanda latente se materialice.
Haseeb Qureshi (Dragonfly) lo dice mejor:
Contrariamente a la creencia popular, el mayor obstáculo para los mercados distribuidos de GPU web3 hoy en día es simplemente hacer que funcionen correctamente.
Este no es un problema trivial.
La orquestación de GPU en una red distribuida es compleja, con capas de desafíos: asignación de recursos, escalado dinámico de cargas de trabajo, equilibrio de carga entre nodos y GPU, administración de latencia, transferencia de datos, tolerancia a fallas y manejo de hardware diverso disperso en varias geografías. Podría seguir y seguir.
Lograr esto requiere una ingeniería seria y una arquitectura de red robusta y adecuadamente diseñada.
Para ponerlo en perspectiva, consideremos Kubernetes de Google. Es ampliamente considerado como el estándar de oro para la orquestación de contenedores, automatizando procesos como el equilibrio de carga y la escalabilidad en entornos distribuidos, desafíos muy similares a los enfrentados por las redes de GPU distribuidas. Kubernetes en sí mismo se construyó sobre más de una década de experiencia de Google, y aún así, tomó años de iteración implacable para hacerlo bien.
Algunos de los mercados de cómputo de GPU que ya están en funcionamiento hoy en día pueden manejar cargas de trabajo a pequeña escala, pero las grietas comienzan a aparecer tan pronto como intentan escalar. Sospecho que esto se debe a que fueron construidos sobre bases arquitectónicas mal diseñadas.
Otro desafío/oportunidad para las redes informáticas descentralizadas es garantizar la confiabilidad: verificar que cada nodo realmente esté proporcionando la potencia informática que afirma. Actualmente, esto depende de la reputación de la red y, en algunos casos, los proveedores de informática se clasifican según puntuaciones de reputación. La cadena de bloques parece ser un ajuste natural para sistemas de verificación sin confianza. Empresas emergentes como Gensyn y Esferónestán impulsando un enfoque sin confianza para resolver este problema.
Hoy en día, muchos equipos de web3 todavía están navegando por estos desafíos, lo que significa que la oportunidad está totalmente abierta.
¿Qué tan grande es el mercado de las redes de cálculo descentralizado?
Hoy en día, probablemente sea solo una pequeña fracción de la industria de computación en la nube de $680B - $2.5T. Sin embargo, a pesar de la fricción adicional para los usuarios, siempre habrá cierta demanda mientras los costos sigan siendo inferiores a los de los proveedores tradicionales.
Creo que los costos se mantendrán bajos a corto y mediano plazo debido a una combinación de subsidios de tokens y la liberación de suministro por parte de usuarios que no son sensibles al precio (por ejemplo, si puedo alquilar mi computadora portátil para juegos por dinero extra, estoy contento ya sea que sean $20 o $50 al mes).
Pero el verdadero potencial de crecimiento para las redes informáticas descentralizadas y la verdadera expansión de su TAM vendrá cuando:
La computación descentralizada y sin permisos se erige como la capa base, la infraestructura fundamental, para un ecosistema de IA descentralizado.
A pesar de la expansión continua en la cadena de suministro de silicio (es decir, las GPU), creo que solo estamos en el amanecer de la era de la Inteligencia de la humanidad. Habrá una demanda insaciable de cómputo.
Esté atento al punto de inflexión que podría desencadenar una importante recalificación de todos los mercados de GPU en funcionamiento. Probablemente llegue pronto.
Imagínate esto: un modelo de IA masivo y transformador, no desarrollado en laboratorios elitistas secretos, sino creado por millones de personas comunes. Los jugadores, cuyas GPU suelen generar explosiones cinematográficas de Call of Duty, ahora prestan su hardware a algo más grande: un modelo de IA de código abierto y de propiedad colectiva sin guardianes centrales.
En este futuro, los modelos a escala de la fundación no son solo el dominio de los mejores laboratorios de IA.
Pero vamos a fundamentar esta visión en la realidad actual. Por ahora, la mayor parte del entrenamiento intensivo de IA sigue estando anclado en centros de datos centralizados, y esto probablemente será lo normal durante algún tiempo.
Empresas como OpenAI están escalando sus enormes clústeres. Elon Musk recientemente anunció que xAI está a punto de completar un centro de datos que cuenta con el equivalente a 200.000 GPU H100.
Pero no se trata solo del recuento bruto de GPU. Utilización de FLOPS del modelo (MFU): una métrica introducida en El documento PaLM de Googleen 2022, rastrea qué tan eficazmente se utiliza la capacidad máxima de una GPU. Sorprendentemente, el MFU a menudo oscila alrededor del 35-40%.
¿Por qué tan bajo? Si bien el rendimiento de las GPU ha aumentado considerablemente en los últimos años siguiendo la ley de Moore, las mejoras en la red, la memoria y el almacenamiento han quedado rezagadas, creando cuellos de botella. Como resultado, las GPU a menudo permanecen inactivas, esperando datos.
El entrenamiento de IA sigue estando altamente centralizado hoy en día debido a una palabra: eficiencia.
Entrenar modelos grandes depende de técnicas como:
• Paralelismo de datos: dividir conjuntos de datos en varias GPU para realizar operaciones en paralelo, lo que acelera el proceso de entrenamiento.
• Paralelismo del modelo: distribución de partes del modelo entre las GPU para evitar las restricciones de memoria.
Estos métodos requieren GPUs para intercambiar datos constantemente, lo que hace que la velocidad de interconexión, es decir, la velocidad a la que se transfieren los datos entre las computadoras de la red, sea absolutamente esencial.
Cuando el entrenamiento de modelos de IA de frontera puede costar más de 1.000 millones de dólares, cada ganancia de eficiencia es importante.
Con sus interconexiones de alta velocidad, los centros de datos centralizados permiten una transferencia rápida de datos entre las GPU y generan ahorros significativos de costos durante el tiempo de entrenamiento que las configuraciones descentralizadas no pueden igualar… aún.
Si hablas con personas que trabajan en el campo de la IA, muchos te dirán que el entrenamiento descentralizado simplemente no funciona.
En configuraciones descentralizadas, los clústeres de GPU no están físicamente ubicados en el mismo lugar, por lo que transferir datos entre ellos es mucho más lento y se convierte en un cuello de botella. El entrenamiento requiere que las GPU sincronicen e intercambien datos en cada paso. Cuanto más separadas estén, mayor será la latencia. Una mayor latencia significa una velocidad de entrenamiento más lenta y costos más altos.
Lo que podría tardar unos días en un centro de datos centralizado podría extenderse a dos semanas con un enfoque descentralizado a un costo más alto. Simplemente no es viable.
Pero esto va a cambiar.
La buena noticia es que ha habido un enorme aumento del interés en la investigación sobre el entrenamiento distribuido. Los investigadores están explorando múltiples enfoques simultáneamente, como lo demuestra la avalancha de estudios y artículos publicados. Estos avances se acumularán y se compilarán, acelerando el progreso en este ámbito.
También se trata de probar en producción y ver hasta dónde podemos empujar los límites.
Algunas técnicas de capacitación descentralizada ya pueden manejar modelos más pequeños en entornos de interconexión lenta. Ahora, la investigación de vanguardia está trabajando para extender estos métodos a modelos cada vez más grandes.
Otro desafío es gestionar una amplia gama de hardware de GPU, que incluye GPUs de consumo con memoria limitada que son típicas en redes descentralizadas. Técnicas como el paralelismo de modelos (dividir capas de modelos entre dispositivos) pueden ayudar a que esto sea factible.
Los métodos actuales de formación descentralizada siguen limitando el tamaño de los modelos a cifras muy por debajo de la frontera (se informa que GPT-4 está cerca de un billón de parámetros, 100 veces más grande que el modelo de 10B de Prime Intellect). Para escalar realmente, necesitaremos avances en la arquitectura de modelos, una mejor infraestructura de red y una división más inteligente de tareas entre dispositivos.
Y podemos soñar en grande. Imagine un mundo en el que el entrenamiento descentralizado agrega más potencia de cómputo de GPU de la que incluso los centros de datos centralizados más grandes podrían reunir.
Investigación Pluralis (un equipo brillante en el entrenamiento descentralizado, uno para seguir de cerca) argumenta que esto no solo es posible, sino inevitable. Los centros de datos centralizados están limitados por restricciones físicas como el espacio y el disponibilidad de energía, mientras que las redes descentralizadas pueden aprovechar un pozo efectivamente ilimitado de recursos globales.
Incluso Jensen Huang de NVIDIA ha reconocido que entrenamiento descentralizado asincrónicoPodría desbloquear el verdadero potencial de la escala de IA. Las redes de entrenamiento distribuido también son más tolerantes a fallos.
Entonces, en un futuro potencial, los modelos de IA más poderosos del mundo serán entrenados de manera descentralizada.
Es una perspectiva emocionante, pero aún no estoy completamente convencido. Necesitamos pruebas más sólidas de que el entrenamiento descentralizado de los modelos más grandes es técnicamente y económicamente viable.
Aquí es donde veo una inmensa promesa: el punto óptimo de la capacitación descentralizada podría residir en modelos más pequeños, especializados y de código abierto diseñados para casos de uso específicos, en lugar de competir con los modelos de frontera ultra grandes impulsados por AGI. Ciertas arquitecturas, especialmente los modelos sin transformadores, ya están demostrando ser un ajuste natural para las configuraciones descentralizadas.
Y hay otra pieza en este rompecabezas: tokens. Una vez que el entrenamiento descentralizado se vuelva factible a gran escala, los tokens podrían desempeñar un papel fundamental en incentivar y recompensar a los contribuyentes, iniciando efectivamente estas redes.
El camino hacia esta visión es largo, pero el progreso es profundamente alentador. Los avances en la formación descentralizada beneficiarán a todos, incluso a las grandes empresas tecnológicas y a los laboratorios de investigación de IA de primer nivel, ya que la escala de los modelos futuros superará la capacidad de un único centro de datos.
El futuro es distribuido. Y cuando una tecnología tiene un potencial tan amplio, la historia muestra que siempre mejora y avanza más rápido de lo que cualquiera espera.
En este momento, la mayor parte de la potencia de cómputo de la IA se está canalizando hacia el entrenamiento de modelos masivos. Los principales laboratorios de IA están en una carrera armamentista para desarrollar los mejores modelos fundacionales y, en última instancia, lograr AGI.
Pero aquí está mi opinión: este intenso enfoque informático en la formación se desplazará hacia la inferencia en los próximos años. A medida que la IA se incorpore cada vez más en las aplicaciones que usamos a diario, desde la atención médica hasta el entretenimiento, los recursos informáticos necesarios para respaldar la inferencia serán asombrosos.
Y no es solo especulación. El escalado de cómputo en tiempo de inferencia es la última palabra de moda en IA. OpenAI lanzó recientemente una versión preliminar/mini de su último modelo, o1 (nombre en clave: Strawberry), ¿y el gran cambio? Se toma su tiempo para pensar preguntándose primero cuáles son los pasos que debe seguir para responder a la pregunta, y luego pasa por cada uno de esos pasos.
Este modelo está diseñado para tareas más complejas y que requieren mucha planificación, como Resolviendo crucigramas—y aborda problemas que requieren un razonamiento más profundo. Notarás que es más lento, tarda más tiempo en generar respuestas, pero los resultados son mucho más reflexivos y matizados. También es mucho más caro de ejecutar (25 veces el costo de GPT-4)
El cambio de enfoque es claro: el próximo salto en el rendimiento de la IA no vendrá solo de entrenar modelos más grandes, sino también de escalar el uso de cálculo durante la inferencia.
Si quieres leer más, varios estudios papelesdemostrar:
Una vez que se entrenan los modelos poderosos, sus tareas de inferencia, donde los modelos hacen cosas, se pueden descargar en redes informáticas descentralizadas. Esto tiene mucho sentido porque:
Piense en la inferencia descentralizada como una CDN (red de entrega de contenido) para IA: en lugar de entregar sitios web rápidamente conectándose a servidores cercanos, la inferencia descentralizada aprovecha la potencia de cómputo local para ofrecer respuestas de IA en un tiempo récord. Al adoptar la inferencia descentralizada, las aplicaciones de IA se vuelven más eficientes, receptivas y confiables.
La tendencia es clara. El nuevo chip M4 Pro de Apple rivales de NVIDIARTX 3070 Ti: una GPU que, hasta hace poco, era el dominio de los jugadores más hardcore. El hardware que ya tenemos tiene cada vez más capacidad para manejar cargas de trabajo de IA avanzadas.
Para que las redes de inferencia descentralizadas tengan éxito, debe haber incentivos económicos convincentes para la participación. Los nodos en la red deben ser compensados por sus contribuciones de cálculo. El sistema debe asegurar una distribución justa y eficiente de las recompensas. La diversidad geográfica es esencial, reduciendo la latencia para las tareas de inferencia y mejorando la tolerancia a fallos.
¿Y la mejor manera de construir redes descentralizadas? Cripto.
Los tokens proporcionan un mecanismo poderoso para alinear los intereses de los participantes, asegurando que todos estén trabajando hacia el mismo objetivo: escalar la red y aumentar el valor del token.
Los tokens también potencian el crecimiento de la red. Ayudan a resolver el clásico problema del huevo y la gallina que paraliza la mayoría de las redes al recompensar a los primeros adoptantes y fomentar la participación desde el primer día.
El éxito de Bitcoin y Ethereum demuestra este punto, ya que han agregado las mayores piscinas de potencia informática del planeta.
Las redes de inferencia descentralizadas son las siguientes en la línea. Con diversidad geográfica, reducen la latencia, mejoran la tolerancia a fallos y acercan la IA al usuario. Y con incentivos impulsados por cripto, escalarán más rápido y mejor de lo que las redes tradicionales podrían hacerlo nunca.