DeepMind, una división de Alphabet, ha lanzado recientemente Veo 2, un modelo de generación de vídeo por IA, que sobresale significativamente en la industria, especialmente en comparación con Sora de OpenAI. Veo 2 destaca por su capacidad para generar clips de dos minutos a una resolución de hasta 4K DCI, superando ampliamente las especificaciones de Sora tanto en duración como en calidad de imagen. Actualmente, Veo 2 es accesible exclusivamente a través de Vertex AI en VideoFX, aunque inicialmente con limitaciones de duración y resolución.
La innovación de Veo 2 radica en su habilidad para generar vídeos a partir de instrucciones textuales o combinando texto con imágenes de referencia. Además, DeepMind ha mejorado el entendimiento del modelo sobre la física y los controles de la cámara, permitiendo la creación de vídeos con escenas dinámicas y movimientos fluidos desde múltiples ángulos, ofreciendo una calidad visual más definida y realista. Los ejemplos mostrados por Google ilustran cómo Veo 2 maneja de manera impresionante elementos como los fluidos y la interacción de la luz y las sombras, prometiendo avances significativos en la generación de contenido visual por IA.
Sin embargo, la creación de contenido coherente y consistente sigue siendo un desafío, especialmente en lo que respecta a mantener características consistentes en personajes a lo largo de los clips. A pesar de estos retos, los ejemplos proporcionados sugieren que Veo 2 avanza en superar estas dificultades, colocándose por delante de Sora en términos de realismo y fidelidad visual.
Un factor clave para el desarrollo y entrenamiento de Veo 2 ha sido el acceso de Google y DeepMind al vasto repositorio de contenidos de YouTube. Este recurso ha permitido una mejora sustancial en la capacidad de sus modelos para generar vídeos más precisos y realistas, subrayando la importancia de las grandes bases de datos en el avance de la tecnología de inteligencia artificial generativa.
