Après les images, la vidéo. Rien de bien nouveau, me direz-vous !
Pourtant, c’est une petite révolution qui met en ébullition la communauté des artistes IA : Wan2.1 , le nouveau modèle proposé par Alibaba.
Qu’est-ce que Wan2.1 a de spécial ?
Wan2.1 est un modèle gratuit, open source et qui fonctionne en local, c’est-à-dire sur votre propre ordinateur (un peu musclé) !
Autrement dit, que ce soit à partir d’un texte (prompt) ou avec une image de départ + un prompt, vous pouvez générer des vidéos … et c’est génial !
Vous pouvez voir les meilleures réalisations sur leur blog officiel : https://wan.video/
Et pour ceux qui veulent tenter une installation : https://github.com/Wan-Video/Wan2.1
Il y a des Workflows ComfyUI spécialisés qui fonctionnent très bien.
Ce modèle est juste incroyable !
Quelques exemples
Vous vous souvenez dans mon article sur les angles de vue , à la fin, il y a l’image d’une femme des années 1920 dans les montagnes ?
C’est elle :
Et bien j’ai donné cette image à Wan2.1 , avec pour prompt : « Très jolie montagnarde des années 1920, elle sourit et regarde tendrement. Ses cheveux bougent un peu dans le vent. »
« A very pretty 1920s mountain woman, she smiles and looks on tenderly. Her hair moves a little in the wind. »
Configuration : modèle i2v_780_fp8, 20 step, 3 secondes de vidéo.
Et voilà !
Incroyable non ? Vous sentez l’air frais de nos montagnes ?
Et l’article sur le réalisme ? Avec à la fin des personnes au calme dans un restaurant ?
Cette image là :
Avec le prompt : « Une femme boit du thé dans un restaurant de montagne. Elle porte la tasse à sa bouche et boit une gorgée. La scène est très réconfortante. »
« A woman drinks tea in a mountain restaurant. She brings the cup to her mouth and takes a sip. The scene is very comforting. »
Configuration : modèle i2v_780_fp8, 30 step, 3 secondes de vidéo.
Et plus récemment, j’ai écris un « serious game » où le lecteur doit collecter des Muses quand il répond juste à une question de français ( Minotaure – Partir )
Voici une des muses (générée par IA) :
Et voici la vidéo générée avec Wan2.1 :
Comptez 50 minutes de rendu pour 4 secondes en 720p 32fps avec une rtx 3060
Des obstacles
Tout n’est pas parfait… loin de là. Le premier point important est que cela consomme énormément de ressources… pendant un temps non-négligeable.
En effet, selon votre matériel, la résolution, le nombre de secondes, etc. il faut plusieurs minutes pour générer ces vidéos. Et comme pour les images : il faut recommencer, et recommencer encore pour modifier le prompt et/ou différents paramètres. Et quand une itération demande 30 minutes, cela devient vite fastidieux !
Les autres modèles tout aussi performants sont payants. Sur ces plateformes, on est à un coût approximatif de 0.30€ pour 5 secondes de vidéo (hors formules gratuites).
Le 2e point est que Wan2.1 semble mauvais pour tout ce qui est des mouvements de caméra. Nul doute que cela s’améliorera dans les prochaines versions.
Des questions
Wan2.1 est plutôt bon pour générer des expressions humaines. Tout cela me fait penser à Harry Potter et les images animées dans leurs journaux, tableaux et cadres.
Là où je veux en venir, c’est que je pourrais très bien « animer » une vieille photo de mon arrière grand-mère que j’appréciais beaucoup. Je pourrais la faire qui me sourit, ou qui m’envoie un baiser.
Et pourtant, quelque chose me dit qu’il y a possiblement ici un grand danger…