La semana pasada, el laboratorio chino DeepSeek lanzó una versión actualizada de su modelo de inteligencia artificial R1, que se desempeña bien en varias pruebas de matemáticas y programación. La empresa no reveló la fuente de los datos utilizados para entrenar el modelo, pero algunos investigadores en inteligencia artificial especulan que al menos una parte provino de la familia de IA Gemini de Google. Sam Paeach, un desarrollador de Melbourne que crea evaluaciones de “inteligencia emocional” para IA, publicó lo que dice es evidencia de que el último modelo de DeepSeek fue entrenado con salidas de Gemini. Según Paeach, el modelo de DeepSeek, llamado R1-0528, prefiere palabras y expresiones similares a las que favorece Gemini 2.5 Pro.
Aunque esto no es una prueba definitiva, otro desarrollador, que utiliza un seudónimo y creó una evaluación de “libertad de expresión” para IA llamada SpeechMap, notó que los “pensamientos” generados por el modelo de DeepSeek se parecen a los de Gemini. DeepSeek ha sido acusado anteriormente de entrenar con datos de modelos de IA rivales. En diciembre, se observó que el modelo V3 de DeepSeek a menudo se identificaba como ChatGPT, la plataforma de chatbot de OpenAI, lo que sugiere que pudo haber sido entrenado con registros de chat de ChatGPT. A principios de este año, OpenAI informó al Financial Times que encontró evidencia que vincula a DeepSeek con el uso de destilación, una técnica para entrenar modelos de IA extrayendo datos de modelos más grandes y capaces. Según Bloomberg, Microsoft, un colaborador cercano de OpenAI, detectó que grandes cantidades de datos estaban siendo extraídas a través de cuentas de desarrollador de OpenAI a finales de 2024, cuentas que OpenAI cree están afiliadas a DeepSeek.
La destilación no es una práctica inusual, pero los términos de servicio de OpenAI prohíben a los clientes utilizar las salidas de los modelos de la empresa para construir IA competidoras. Es importante aclarar que muchos modelos se identifican incorrectamente y convergen en las mismas palabras y frases. Esto se debe a que la web abierta, de donde las empresas de IA obtienen la mayor parte de sus datos de entrenamiento, se está llenando de contenido de baja calidad. Las granjas de contenido están utilizando IA para crear “clickbait”, y los bots están inundando plataformas como Reddit y X.
Para evitar la destilación, las empresas de IA han estado aumentando sus medidas de seguridad. En abril, OpenAI comenzó a requerir que las organizaciones completen un proceso de verificación de identidad para acceder a ciertos modelos avanzados. Este proceso requiere una identificación emitida por el gobierno de uno de los países que soporta la API de OpenAI; China no está en la lista. Por su parte, Google recientemente comenzó a “resumir” las trazas generadas por los modelos disponibles a través de su plataforma de desarrolladores AI Studio, un paso que dificulta entrenar modelos rivales de alto rendimiento con trazas de Gemini. Anthropic, en mayo, anunció que también comenzaría a resumir las trazas de su propio modelo, citando la necesidad de proteger sus “ventajas competitivas”. Hemos contactado a Google para obtener comentarios y actualizaremos este artículo si recibimos respuesta.


