Plongée en Australie : VIDU

Lors de la publication de mon livre Les Jeunes Explorateurs, j’avais promis de réaliser dans la suite un film court, sans caméra, de quelques aventures des protagonistes. Fin 2024, les technologies IA de génération de vidéos étaient suffisamment avancées pour me lancer dans ce projet. J’ai choisi comme outil IA des générateurs image2video qui créent des séances vidéo de courte durée, à partir d’images de référence et de descriptions (text2video) en langage naturelle (prompts) concernant l’animation de chaque scène.

Les images de référence, spécifiées au début de chaque scène, ont été générées sur la plateforme luxembourgeoise LetzAI. Après le montage manuel du film dans un éditeur vidéo classique, j’ai chargé le film dans ChatGPT et demandé de rédiger un récit pour raconter l’aventure avec une voix off. J’ai généré les sons avec l’outil IA Meta Audiobox et pour la voix off, j’ai sélectionné une voix synthétique française masculine dans la librairie publique de l’entreprise ElevenLabs.

Le premier outil de génération vidéo que j’ai testé était VIDU Studio. L’outil d’IA VIDU a été développé par la startup chinoise Shengshu Technology, en collaboration avec l’Université Tsinghua à Pékin. VIDU a été officiellement lancé en juillet 2024. Sur le plan technique, le cœur du système repose sur une architecture appelée U‑ViT (Universal Vision Transformer), développée par le scientifique en chef Jun Zhu et son équipe.

https://youtu.be/jkGYfadSB_U?si=9Vka4PQ3WQbDrt_q