Sora: un modelo de IA que genera videos a partir de texto

15 de febrero de 2024

Sora es un modelo de inteligencia artificial que puede generar videos a partir de instrucciones de texto, como “un gato persiguiendo un ratón” o “un cohete despegando”. El modelo es capaz de crear videos realistas y creativos, simulando el movimiento, la iluminación, el color y la textura de las escenas.

¿Cómo funciona Sora? Sora es un modelo de difusión, que genera un video a partir de uno que parece ruido estático y lo transforma gradualmente eliminando el ruido en muchos pasos1. Sora utiliza una arquitectura de transformador, similar a los modelos GPT, que le permite escalar mejor y representar diferentes tipos de datos visuales2. Sora también utiliza la técnica de recaptioning de DALL·E, que consiste en generar descripciones detalladas para los datos visuales de entrenamiento3. Así, el modelo puede seguir mejor las instrucciones de texto del usuario en el video generado.
¿Qué se puede hacer con Sora? Sora puede generar videos enteros de una sola vez o extender videos generados para hacerlos más largos4. Además de poder generar un video solo a partir de texto, el modelo puede tomar una imagen existente y generar un video a partir de ella, animando el contenido de la imagen con precisión y atención al detalle. El modelo también puede tomar un video existente y extenderlo o rellenar los fotogramas que faltan.
¿Qué desafíos presenta Sora? Sora tiene algunas limitaciones y debilidades. Puede tener dificultades para simular la física de una escena compleja, y puede no entender casos específicos de causa y efecto. Por ejemplo, una persona puede morder una galleta, pero después, la galleta puede no tener una marca de mordisco. El modelo también puede confundir los detalles espaciales de un texto, como mezclar izquierda y derecha, y puede tener problemas con las descripciones precisas de los eventos que ocurren en el tiempo, como seguir una trayectoria específica de la cámara.
¿Qué medidas de seguridad se tomarán con Sora? Antes de hacer que Sora esté disponible en los productos de OpenAI, tomaremos varias medidas de seguridad importantes. Estamos trabajando con red teamers, expertos en áreas como la desinformación, el contenido de odio y el sesgo, que pondrán a prueba el modelo de forma adversarial. También estamos construyendo herramientas para ayudar a detectar el contenido engañoso, como un clasificador de detección que puede decir cuándo un video fue generado por Sora. Además, utilizaremos los métodos de seguridad existentes que hemos construido para nuestros productos que utilizan DALL·E, que son aplicables a Sora también. Por ejemplo, nuestro clasificador de texto revisará y rechazará las instrucciones de texto que violen nuestras políticas de uso, como las que soliciten violencia extrema, contenido sexual, imágenes de odio, parecidos de celebridades o la propiedad intelectual de otros. También hemos desarrollado clasificadores de imágenes robustos que se utilizan para revisar los fotogramas de cada video generado para asegurarnos de que se adhieren a nuestras políticas de uso, antes de mostrárselo al usuario.

Sora es una base para modelos que puedan entender y simular el mundo real, una capacidad que creemos que será un hito importante para lograr la inteligencia artificial general.