Google está mejorando su chatbot Gemini con un nuevo modelo de imagen de inteligencia artificial que permite a los usuarios editar fotos con mayor precisión. Esta actualización, llamada Gemini 2.5 Flash Image, se lanzará a partir del martes para todos los usuarios de la aplicación Gemini, así como para desarrolladores a través de la API de Gemini, Google AI Studio y las plataformas Vertex AI.
El nuevo modelo de imagen de Gemini está diseñado para realizar ediciones más precisas basadas en solicitudes en lenguaje natural de los usuarios, manteniendo la coherencia de rostros, animales y otros detalles, algo que muchas herramientas rivales no logran. Por ejemplo, si le pides a ChatGPT o a Grok de xAI que cambien el color de la camisa de alguien en una foto, el resultado podría incluir un rostro distorsionado o un fondo alterado. En cambio, el editor de imágenes nativo de Gemini 2.5 Flash combina fotos de un perro y una persona, manteniendo su parecido.
La nueva herramienta de Google ya ha llamado la atención. En las últimas semanas, usuarios de redes sociales elogiaron un impresionante editor de imágenes de IA en la plataforma de evaluación colaborativa LMArena, donde el modelo apareció de forma anónima bajo el seudónimo “nano-banana”. Google confirma que está detrás de este modelo, que es realmente la capacidad de imagen nativa dentro de su modelo insignia Gemini 2.5 Flash. La compañía asegura que su nuevo modelo de imagen de IA es de última generación en LMArena y otros estándares.
Nicole Brichtova, líder de producto en modelos de generación visual en Google DeepMind, comentó en una entrevista que están avanzando en la calidad visual y en la capacidad del modelo para seguir instrucciones. Según Brichtova, esta actualización mejora la forma en que se realizan las ediciones, haciendo que los resultados sean utilizables para cualquier propósito.
Los modelos de imagen de IA se han convertido en un campo de batalla crucial para las grandes empresas tecnológicas. Cuando OpenAI lanzó el generador de imágenes nativo de GPT-4 en marzo, el uso de ChatGPT se disparó gracias a una ola de memes generados por IA. Para mantenerse al día, Meta anunció la semana pasada que licenciaría modelos de imagen de IA de la startup Midjourney. Mientras tanto, Black Forest Labs, respaldada por a16z, continúa dominando los estándares con sus modelos de imagen FLUX.
Brichtova menciona que Google diseñó específicamente el modelo de imagen pensando en casos de uso para consumidores, como ayudar a visualizar proyectos de hogar y jardín. El modelo también tiene un mejor “conocimiento del mundo” y puede combinar múltiples referencias en un solo comando, como fusionar una imagen de un sofá, una foto de una sala de estar y una paleta de colores en una sola representación coherente.
Gemini 2.5 Flash Image permite a los usuarios tener conversaciones “multiturno” con un modelo de imagen de IA. Aunque este nuevo generador de imágenes facilita a los usuarios crear y editar imágenes realistas, Google ha implementado medidas de seguridad que limitan lo que se puede crear. La compañía ha tenido problemas en el pasado con estas salvaguardias, pero ahora siente que ha encontrado un mejor equilibrio.
Brichtova afirma que quieren dar a los usuarios control creativo, pero con ciertas restricciones. Las condiciones de servicio de Google prohíben la generación de “imágenes íntimas no consensuadas”. Para abordar el aumento de imágenes deepfake, que pueden dificultar la identificación de lo que es real en línea, Google aplica marcas de agua visuales a las imágenes generadas por IA, así como identificadores en sus metadatos. Sin embargo, es posible que alguien que desplaza imágenes en redes sociales no busque tales identificadores.


