DeepSeek ha presentado una versión más pequeña de su modelo de inteligencia artificial R1, llamada DeepSeek-R1-0528-Qwen3-8B. Este nuevo modelo ha llamado la atención de la comunidad de IA porque supera a otros modelos de tamaño similar en ciertas pruebas. Utilizando como base el modelo Qwen3-8B de Alibaba, lanzado en mayo, DeepSeek-R1-0528-Qwen3-8B ha demostrado un mejor rendimiento que Gemini 2.5 Flash de Google en un conjunto de preguntas matemáticas desafiantes llamado AIME 2025. Además, se acerca al rendimiento del modelo Phi 4 de Microsoft en otra prueba de habilidades matemáticas, HMMT.
Los modelos “destilados” como DeepSeek-R1-0528-Qwen3-8B suelen ser menos potentes que sus versiones completas, pero tienen la ventaja de requerir menos recursos computacionales. Por ejemplo, el modelo Qwen3-8B necesita una GPU con entre 40GB y 80GB de RAM para funcionar, mientras que el nuevo R1 completo requiere alrededor de una docena de GPUs de 80GB.
DeepSeek ha entrenado DeepSeek-R1-0528-Qwen3-8B utilizando texto generado por el R1 actualizado para mejorar el modelo Qwen3-8B. En una página dedicada a este modelo en la plataforma de desarrollo de IA Hugging Face, DeepSeek lo describe como útil tanto para la investigación académica sobre modelos de razonamiento como para el desarrollo industrial enfocado en modelos de pequeña escala. Además, DeepSeek-R1-0528-Qwen3-8B está disponible bajo una licencia MIT permisiva, lo que significa que se puede utilizar comercialmente sin restricciones. Varios proveedores, como LM Studio, ya ofrecen el modelo a través de una API.


