DeepSeek V4 ya está aquí—su versión Pro cuesta un 98% menos que GPT 5.5 Pro

###En resumen

  • DeepSeek lanzó su nuevo modelo V4-Pro con 1.6 billones de parámetros.
  • Cuesta $1.74/$3.48 por millón de tokens de entrada/salida, aproximadamente 1/20 del precio de Claude Opus 4.7 y un 98% menos que GPT 5.5 Pro.
  • DeepSeek entrenó V4 en parte con chips Huawei Ascend, eludiendo las restricciones de exportación de EE. UU., y dice que una vez que 950 nuevos supernodos estén en línea a finales de 2026, el precio ya bajo del modelo Pro bajará aún más.

DeepSeek ha vuelto, y apareció unas horas después de que OpenAI lanzara GPT-5.5. ¿Coincidencia? Quizá. Pero si eres un laboratorio de IA chino que el gobierno de EE. UU. ha estado intentando ralentizar con prohibiciones de exportación de chips durante los últimos tres años, tu sentido del timing se vuelve bastante agudo. El laboratorio con sede en Hangzhou lanzó versiones preliminares de DeepSeek-V4-Pro y DeepSeek-V4-Flash hoy, ambos con peso abierto, ambos con ventanas de contexto de un millón de tokens. Eso significa que básicamente puedes trabajar con un contexto aproximadamente del tamaño de la trilogía El Señor de los Anillos antes de que el modelo colapse. Ambos también tienen un precio muy por debajo de cualquier cosa comparable en Occidente, y ambos son gratuitos para quienes puedan ejecutarlos localmente. La última gran interrupción de DeepSeek—R1 en enero de 2025—borró $600 mil millones de la capitalización de Nvidia en un solo día, cuando los inversores cuestionaron si las empresas americanas realmente necesitaban inversiones tan enormes para lograr resultados que un pequeño laboratorio chino logró con una fracción del costo. V4 es un movimiento diferente: más silencioso, más técnico y más enfocado en la eficiencia para quienes realmente construyen con IA.

Dos modelos, trabajos muy diferentes  De los dos nuevos modelos, V4-Pro de DeepSeek es el grande, con 1.6 billones de parámetros en total. Para ponerlo en perspectiva, los parámetros son las “configuraciones” internas o “células cerebrales” que un modelo usa para almacenar conocimientos y reconocer patrones—cuantos más parámetros tenga un modelo, más información compleja puede teóricamente contener. Eso lo convierte en el modelo de código abierto más grande en el mercado de LLM hasta la fecha. El tamaño puede parecer ridículo hasta que aprendes que solo activa 49 mil millones de ellos por pasada de inferencia.
Este es el truco de Mezcla de Expertos que DeepSeek ha perfeccionado desde V3: El modelo completo está allí, pero solo la parte relevante se activa para cualquier solicitud dada. Más conocimiento, misma factura de cómputo. “DeepSeek-V4-Pro-Max, el modo de mayor esfuerzo de razonamiento de DeepSeek-V4-Pro, avanza significativamente las capacidades de conocimiento de los modelos de código abierto, estableciéndose firmemente como el mejor modelo de código abierto disponible hoy,” escribió DeepSeek en la tarjeta oficial del modelo en Huggingface. “Logra un rendimiento de primer nivel en benchmarks de codificación y cierra significativamente la brecha con los modelos cerrados líderes en tareas de razonamiento y agentes.” V4-Flash es el práctico: 284 mil millones de parámetros en total, 13 mil millones activos. Está diseñado para ser más rápido, más barato y, según los propios benchmarks de DeepSeek, “logra un rendimiento de razonamiento comparable a la versión Pro cuando se le da un mayor presupuesto de pensamiento.”

Ambos soportan un millón de tokens de contexto. Eso es aproximadamente 750,000 palabras—más o menos toda la trilogía “El Señor de los Anillos” más un poco más. Y eso como característica estándar, no en un nivel premium. El toque secreto de DeepSeek: hacer que la atención no sea terrible a escala Aquí está la parte técnica para los nerds o los interesados en la magia que impulsa el modelo. DeepSeek no oculta sus secretos, y todo está disponible de forma gratuita—el artículo completo está en Github. La atención estándar de IA—el mecanismo que permite a un modelo entender relaciones entre palabras—tiene un problema brutal de escalabilidad. Cada vez que duplicas la longitud del contexto, el costo de cómputo se cuadruplica aproximadamente. Así que ejecutar un modelo con un millón de tokens no solo cuesta el doble que con 500,000 tokens. Cuesta cuatro veces más. Por eso, el contexto largo ha sido históricamente una casilla que los laboratorios añaden y luego silenciosamente limitan mediante límites de tasa. DeepSeek inventó dos nuevos tipos de atención para sortear esto. El primero, Atención Dispersa Comprimida, funciona en dos pasos. Primero comprime grupos de tokens—digamos, cada 4 tokens—en una sola entrada. Luego, en lugar de atender a todas esas entradas comprimidas, usa un “Indexador Relámpago” para seleccionar solo los resultados más relevantes para cualquier consulta dada. Tu modelo pasa de atender a un millón de tokens a atender a un conjunto mucho menor de los fragmentos más importantes, como un bibliotecario que no lee todos los libros pero sabe exactamente qué estantería revisar. El segundo, Atención Muy Comprimida, es más agresivo. Colapsa cada 128 tokens en una sola entrada—sin selección dispersa, solo compresión brutal. Pierdes detalles finos, pero obtienes una vista global extremadamente barata. Los dos tipos de atención se alternan en capas, así que el modelo obtiene tanto el detalle como la visión general.

El resultado, del artículo técnico: En un millón de tokens, V4-Pro usa el 27% del cómputo que necesitaba su predecesor (V3.2). La caché KV—la memoria que el modelo necesita para rastrear el contexto—cae al 10% de V3.2. Y esto se amplía con V4-Flash: 10% del cómputo, 7% de memoria. Y esto permitió a DeepSeek ofrecer un precio por token mucho más barato que sus competidores, mientras proporciona resultados comparables. En términos de dólares: GPT-5.5 se lanzó ayer con (entrada y )salida por millón de tokens, con GPT-5.5 Pro a $5 el precio por millón de tokens de entrada y $30 el precio por millón de tokens de salida.

DeepSeek V4-Pro cuesta $1.74 por entrada y $3.48 por salida. V4-Flash cuesta $0.14 por entrada y $0.28 por salida. El CEO de Cline, Saoud Rizwan, señaló que si Uber hubiera usado DeepSeek en lugar de Claude, su presupuesto de IA para 2026—que se informa sería suficiente para cuatro meses de uso—habría durado siete años.

deepseek v4 ahora es el modelo sota más barato disponible, a 1/20 del costo de opus 4.7.

en perspectiva, si Uber usara deepseek en lugar de claude, su presupuesto de IA para 2026 habría durado 7 años en lugar de solo 4 meses. pic.twitter.com/i9rJZzvRBV

— Saoud Rizwan $30 @sdrzn$180 24 de abril de 2026

Las referencias DeepSeek hace algo inusual en su informe técnico: publica las brechas. La mayoría de los lanzamientos de modelos seleccionan solo los benchmarks donde ganan. DeepSeek realizó toda la comparación contra GPT-5.4 y Gemini-3.1-Pro, encontró que el razonamiento de V4-Pro queda atrás de esos modelos en unos tres a seis meses, y aún así lo publicó. Donde V4-Pro-Max realmente gana: Codeforces, benchmark de programación competitiva, calificado como ajedrez humano. V4-Pro obtuvo 3,206 puntos, ubicándose en torno al puesto 23 entre participantes humanos en concursos. En Apex Shortlist, un conjunto curado de problemas difíciles de matemáticas y STEM, obtuvo una tasa de aprobación y alcanzó 90.2% frente al 85.9% de Opus 4.6 y 78.1% de GPT-5.4. En SWE-Verified, que mide si un modelo puede resolver problemas reales de GitHub extraídos de repositorios de código abierto, obtuvo 80.6%—igualando a Claude Opus 4.6.

Donde queda atrás: benchmark multitarea MMLU-Pro (Gemini-3.1-Pro con 91.0% frente a V4-Pro con 87.5%), benchmark de conocimiento experto GPQA Diamond (Gemini 94.3 frente a V4-Pro 90.1), y el Examen Final de Humanidad, un benchmark de nivel de posgrado donde Gemini-3.1-Pro con 44.4% aún supera a V4-Pro con 37.7%. En contexto largo específicamente, V4-Pro lidera modelos de código abierto y supera a Gemini-3.1-Pro en el benchmark CorpusQA (una prueba que simula análisis de documentos reales con un millón de tokens), pero pierde frente a Claude Opus 4.6 en MRCR—una prueba que mide qué tan bien un modelo recupera agujas específicas enterradas en un pajar muy largo. Construido para ejecutar agentes, no solo responder preguntas Lo interesante de la parte de agentes es donde esta versión se vuelve relevante para los desarrolladores que realmente lanzan productos.

V4-Pro puede ejecutarse en Claude Code, OpenCode y otras herramientas de codificación IA. Según una encuesta interna de DeepSeek a 85 desarrolladores que usaron V4-Pro como su agente principal de codificación, el 52% dijo que estaba listo para ser su modelo predeterminado, el 39% se inclinó por sí, y menos del 9% dijo que no. Los empleados internos dijeron que supera a Claude Sonnet y se acerca a Claude Opus 4.5 en tareas de codificación con agentes.

Artificial Analysis, que realiza evaluaciones independientes de modelos de IA en tareas del mundo real, clasificó a V4-Pro en primer lugar entre todos los modelos de peso abierto en GDPval-AA—un benchmark que prueba trabajos de conocimiento económicamente valiosos en finanzas, legal e investigación, puntuados vía Elo. V4-Pro-Max obtuvo 1,554 Elo, por delante de GLM-5.1 (1,535) y MiniMax M2.7 (1,514). Como referencia, Claude Opus 4.6 obtiene 1,619 en el mismo benchmark—todavía por delante, pero la brecha se cierra.

DeepSeek V4 Pro es el modelo de peso abierto número 1 en GDPval-AA, nuestra evaluación de tareas de trabajo del mundo real con agentes@deepseek_ai ha lanzado V4 Pro (1.6T en total / 49B activos) y V4 Flash (284B en total / 13B activos). V4 es el primer tamaño nuevo de DeepSeek desde V3, con todos los modelos intermedios… pic.twitter.com/2kJWVrKQjF

— Artificial Analysis (@ArtificialAnlys) 24 de abril de 2026

V4 de DeepSeek también introduce algo llamado “pensamiento intercalado.” En modelos anteriores, si ejecutabas un agente que hacía múltiples llamadas a herramientas—por ejemplo, buscaba en la web, luego ejecutaba código, luego buscaba de nuevo—el contexto de razonamiento del modelo se borraba entre rondas. Cada nuevo paso, el modelo tenía que reconstruir su modelo mental desde cero. V4 mantiene toda la cadena de pensamiento a través de las llamadas a herramientas, por lo que un flujo de trabajo de 20 pasos no sufre de amnesia a mitad de camino. Esto importa más de lo que parece para quienes ejecutan pipelines automatizados complejos. DeepSeek y la guerra de IA entre EE. UU. y China EE. UU. ha estado restringiendo las exportaciones de chips Nvidia de alta gama a China desde 2022. El objetivo declarado era ralentizar el desarrollo de IA chino, pero la prohibición de chips no detuvo a DeepSeek y, en cambio, los llevó a inventar una arquitectura más eficiente y a ampliar el suministro de hardware nacional. DeepSeek no lanzó V4 en un vacío—el espacio de IA ha estado muy activo últimamente: Anthropic lanzó Claude Opus 4.7 el 16 de abril—un modelo Decrypt probado y considerado fuerte en codificación y razonamiento, con un uso de tokens notablemente alto. El día anterior, Anthropic también tenía en reserva a Claude Mythos, un modelo de ciberseguridad que dice no poder lanzar públicamente porque es demasiado bueno en ataques autónomos a redes. Xiaomi lanzó MiMo V2.5 Pro el 22 de abril, con capacidades multimodales completas—imagen, audio, video. Costos (entrada y )salida por millón de tokens. Igualando a Opus 4.6 en la mayoría de benchmarks de codificación. Hace tres meses, nadie hablaba de Xiaomi como una empresa de frontera en IA. Ahora, lanza modelos competitivos más rápido que la mayoría de los laboratorios occidentales.

GPT-5.5 de OpenAI se lanzó ayer con costos que se disparan hasta $1 por millón de tokens de salida en la versión Pro. Supera a V4-Pro en Terminal Bench 2.0 $3 82.7% frente a 70.0%$180 , que prueba flujos de trabajo complejos de agentes en línea de comandos. Pero cuesta mucho más que V4-Pro para tareas equivalentes. Ese mismo día, Tencent lanzó Hy3, otro modelo de vanguardia enfocado en eficiencia. Lo que esto significa para ti Así que, con tantos modelos nuevos disponibles, la pregunta que realmente hacen los desarrolladores: ¿Cuándo vale la pena el premium? Para empresas, las matemáticas pueden haber cambiado. Un modelo que lidera benchmarks de código abierto a $1.74 por millón de tokens de entrada significa que los procesos de procesamiento de documentos a gran escala, revisión legal o generación de código que hace seis meses eran caros, ahora son mucho más baratos. El contexto de un millón de tokens significa que puedes alimentar bases de código completas o archivos regulatorios en una sola solicitud en lugar de dividir en múltiples llamadas. Además, su naturaleza de código abierto significa que no solo puede ejecutarse gratis en hardware local, sino que también puede personalizarse y mejorarse según las necesidades y casos de uso de la empresa. Para desarrolladores y creadores en solitario, V4-Flash es la que hay que seguir. A $0.14 de entrada y $0.28 de salida, es más barato que modelos que hace un año se consideraban opciones económicas—y maneja la mayoría de tareas que la versión Pro. Los endpoints deepseek-chat y deepseek-reasoner existentes ya dirigen a V4-Flash en modos de no pensar y pensar respectivamente, así que si usas la API, ya lo estás usando. Por ahora, los modelos son solo de texto. DeepSeek dijo que está trabajando en capacidades multimodales, lo que significa que otros laboratorios grandes, desde Xiaomi hasta OpenAI, todavía tienen esa ventaja. Ambos modelos tienen licencia MIT y están disponibles hoy en Hugging Face. Los endpoints antiguos deepseek-chat y deepseek-reasoner se retirarán el 24 de julio de 2026.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado