DeepSeek V3.1: una actualización inesperada que mejora el contexto y unifica modelos

Deepseek V3.1 lanzamiento novedades

Cuando se presentó el chatbot de DeepSeek hace unos meses, el mundo de la IA tembló. El chatbot chino no solo es de código abierto, sino que también es gratuito, se entrena con mayor facilidad y con un hardware infinitamente más modesto que sus principales rivales (ChatGPT, Gemini y Llama). Esto hizo que se popularizase en muy poco tiempo, aunque principalmente entre los entusiastas de la IA.

Desde aquel entonces, el modelo ha ido mejorando en algunas cosas a través de varias actualizaciones menores, pero ahora acaba de dar un salto oficial hacia una nueva versión. DeepSeek V3.1 ya es una realidad y te vamos a mostrar sus novedades, ¿estás preparado?

La V3.1 de DeepSeek puede analizar libros de hasta 400 páginas y todo funciona en un solo modelo unificado

Deepseek V3.1 aumenta longitud de contexto y unifica modelos IA

A través de una modesta publicación en WeChat, el 19 de agosto, la compañía detrás de DeepSeek anunció que su modelo alcanzó oficialmente la versión 3.1. La principal novedad es la ampliación de la ventana de contexto, que ahora es de 128.000 token, además de aumentar el número de parámetros a 685.000 millones.

Con esto, DeepSeek V3.1 podrá gestionar entradas y salidas de datos mucho más extensas, equivalentes a un libro de 300 a 400 páginas. Esto es especialmente útil cuando se analizan documentos técnicos y cuando se hace investigación profunda, además de ayudar a mantener conversaciones extendidas sin que se pierda el hilo. Según los desarrolladores, DeepSeek V3 ya era compatible internamente con este contexto ampliado, pero apenas ahora es que se habilitó oficialmente para las distintas herramientas.

Recomendado:  Google Genie 3: una IA para crear mundos virtuales interactivos donde el límite está en tu imaginación

Junto a esto, DeepSeek eliminó todas las referencias al modelo R1 en la interfaz del chatbot, lo que adelanta que la transición hacia un modelo híbrido único ya es una realidad. Dicho de manera más simple: en DeepSeek V3.1 ya no hay un modelo de razonamiento y otro para tareas sin razonamiento, sino que todo se ha integrado en un gran modelo unificado.

Las primeras pruebas de rendimiento también se han dado a conocer, pues DeepSeek V3.1 obtuvo una puntuación del 71,6% en el test de programación de Aider. Esto le sitúa por encima de Claude Opus 4, logrando que pueda considerarse a DeepSeek como uno de los modelos de código abierto más potentes disponibles actualmente. También hubo mejoras a nivel de razonamiento lógico y matemático, aunque no tan grandes si se le compara con R1-0528, la versión previa.

Respecto a la implementación de su API en otras herramientas o la compilación de una instancia propia para usar offline, DeepSeek V3.1 puede operar bajo múltiples formatos de precisión, tal como versiones anteriores. Puede funcionar en modo BF16, FP8 y F32, dando así mayor flexibilidad a los usuarios, según el entorno en el que vaya a implementarse. El código fuente puede descargarse a través de Hugging Face, y cuenta con licencia de código abierto avalada por el MIT.

Recomendado:  Xiaomi AI Glasses: las nuevas gafas inteligentes potenciadas con IA

El público esperaba el lanzamiento de R2, pero DeepSeek todavía no está lista para esa actualización

DeepSeek R2 retrasado

Aunque V3.1 es una actualización que muchos agradecerán, los usuarios más fieles a DeepSeek esperaban que el próximo gran lanzamiento fuese el modelo R2. Este vendría con verdaderas mejoras en las capacidades de razonamiento del LLM, pero un informe publicado en Financial Times señala la razón por la que todavía no ha llegado.

Según el documento, la compañía detrás de DeepSeek está teniendo problemas con los chips de IA Ascend de Huawei. La empresa quiere reducir su dependencia de Nvidia y alinearse a la estrategia china de ser autosuficientes a nivel de Inteligencia Artificial. Sin embargo, el entrenamiento con chips Ascend no ha dado buenos resultados, especialmente por temas de compatibilidad.

DeepSeek decidió seguir adelante con chips de Nvidia por algún tiempo más, de ahí que se lanzase V3.1. R2 seguirá en la hoja de ruta, con Ascend como su hardware principal, pero no se lanzará hasta que se solucionen los problemas.