Sora es una herramienta creada por OpenAI que puede crear escenas realistas de video de hasta 60 segundos a partir de instrucciones de texto, con un resultado detallado, un movimiento de cámara complejo y múltiples personajes con emociones.
Exalumnos de los equipos de desarrollo de Google DeepMind, TikTok y de otros laboratorios de investigación del mundo académico han desarrollado una herramienta que ofrece funciones similares a Sora de manera gratuita.
Dos de sus desarrolladores, Yishu Miao y Ziyu Wang, han explicado en una entrevista para TechCrunch que comenzaron a trabajar en esta empresa, Haiper, en 2021 para lanzarla en 2022, apostando inicialmente por la reconstrucción 3D utilizando redes neuronales.
Sin embargo, en sus investigaciones descubrieron que les interesaba más la generación de video, por lo que terminaron desarrollando diferentes funcionalidades de IA generativa, entre las que se encuentra una solución que permite crear videos en alta calidad (HD) a partir de breves descripciones de texto.
Para utilizar esta herramienta, se debe acceder con una cuenta de Google o de Discord, momento en que se presentan las diferentes opciones de generación de contenido de Haiper: desde esta última novedad hasta animar una imagen o volver a pintar el video, entre otras opciones.
Al escoger la opción de crear video con texto, se abre una ventana en la que se debe describir "cualquier video" que se pueda imaginar con texto, momento en el que se muestran sugerencias temáticas para los videos. Por ejemplo, 'Steampunk', 'Lego' o 'Impresionismo'.
Junto al botón de 'Crear', que se debe pulsar al introducir la descripción del texto, se sitúan otras dos opciones. La primera de ellas muestra el icono de un ojo y permite a los usuarios decidir si crear sus videos para verlos en privado o mostrarlos en público, para que otros usuarios puedan visualizarlos a través del botón 'Explorar'.
Asimismo, se presenta un botón que permite elegir la duración del video. Por el momento, este puede ser de dos segundos, aunque la compañía ya trabaja en el formato de cuatro segundos, que llegará "muy pronto", según indica la página de la herramienta.
La prueba uruguaya en Haiper
En El Observador se intentó hacer una prueba uruguaya para examinar los resultados. En primer lugar, se le pidió que generara un "Pikachu fanático de Uruguay" y no detectó de qué se trataba. Luego, se le pidió un Bart Simpson con una bandera de Uruguay en sus hombros y tampoco tuvo resultado.
Finalmente, se decidió poner la palabra "Uruguay" y lo que confeccionó es lo que parece la Calle de los Suspiros en Colonia del Sacramento, un icónico punto turístico del Barrio Histórico de la ciudad.
Planes a futuro
Los investigadores han reconocido en la entrevista con TechCrunch que, a pesar de que Haiper se centra en un sitio web orientado al consumidor, esperan construir un modelo central de generación de video que se pueda ofrecer a terceros.
Para ello, han comenzado a trabajar con otro grupo de desarrolladores, a fin de probar su interfaz de programación de aplicaciones (API, por sus siglas en inglés) cerrada. Asimismo, han considerado publicar el código fuente de sus modelos para permitir que los usuarios exploren diferentes casos de uso de la IA.
Basado en Europa Press