Tras poner del revés la industria IA, DeepSeek lanza su primer modelo que entiende y crea imágenes: Janus Pro

DeepSeek, conocida por su innovador modelo de IA R1, ha lanzado un nuevo modelo llamado Janus Pro 7B, orientado a la generación y comprensión de imágenes a partir de texto. Este modelo es de código abierto, aunque con ciertas restricciones similares a otros modelos de la industria, como el Llama de Meta. Janus Pro 7B es destacado por su capacidad para unificar bajo una misma arquitectura la generación y comprensión de imágenes sin sacrificar eficiencia o rendimiento, una problemática común en modelos multimodales previos.

La innovación principal de Janus Pro 7B radica en su sistema «doble vía» para el procesamiento visual, separando las vías de codificación mientras mantiene un único transformer para el flujo de información. Su uso del codificador visual SigLIP-L para imágenes de 384×384 píxeles establece un equilibrio entre calidad y velocidad de procesamiento, aunque esta resolución podría parecer limitada para ciertas aplicaciones en comparación con otros generadores de imágenes que parten de resoluciones mayores.

La eficiencia de Janus Pro 7B se beneficia de un diseño compacto de 7.000 millones de parámetros, lo cual le confiere un rendimiento superior a modelos de mayor tamaño. Su código, disponible bajo licencia MIT para mayor flexibilidad, enfrenta sin embargo restricciones a través de la licencia DeepSeek que prohíbe usos militares o la generación de desinformación.

Este modelo no solo supone otro avance en la IA multimodal sino que representa un cambio de paradigma en la arquitectura de sistemas de IA capaces de entender y crear visuales. Basado en el modelo base de lenguaje DeepSeek-LLM-7b-base, Janus Pro 7B expande sus capacidades lingüísticas con habilidades visuales avanzadas gracias a su sistema de submuestreo eficiente. Con esto, DeepSeek no solo cuestiona los modelos de negocio de grandes tecnológicas por costos sino que también pone en juego un nuevo enfoque en el desarrollo de inteligencia artificial.