Vidéos par IA : Wan2.1 est là !

Publié le 14 mars 202517 mars 2025

Après les images, la vidéo. Rien de bien nouveau, me direz-vous !

Pourtant, c’est une petite révolution qui met en ébullition la communauté des artistes IA : Wan2.1 , le nouveau modèle proposé par Alibaba.

Qu’est-ce que Wan2.1 a de spécial ?

Wan2.1 est un modèle gratuit, open source et qui fonctionne en local, c’est-à-dire sur votre propre ordinateur (un peu musclé) !

Autrement dit, que ce soit à partir d’un texte (prompt) ou avec une image de départ + un prompt, vous pouvez générer des vidéos … et c’est génial !

Vous pouvez voir les meilleures réalisations sur leur blog officiel : https://wan.video/
Et pour ceux qui veulent tenter une installation : https://github.com/Wan-Video/Wan2.1
Il y a des Workflows ComfyUI spécialisés qui fonctionnent très bien.

Ce modèle est juste incroyable !

Quelques exemples

Vous vous souvenez dans mon article sur les angles de vue , à la fin, il y a l’image d’une femme des années 1920 dans les montagnes ?

C’est elle :

Et bien j’ai donné cette image à Wan2.1 , avec pour prompt : « Très jolie montagnarde des années 1920, elle sourit et regarde tendrement. Ses cheveux bougent un peu dans le vent. »

« A very pretty 1920s mountain woman, she smiles and looks on tenderly. Her hair moves a little in the wind. »

Configuration : modèle i2v_780_fp8, 20 step, 3 secondes de vidéo.

Et voilà !

Incroyable non ? Vous sentez l’air frais de nos montagnes ?

Et l’article sur le réalisme ? Avec à la fin des personnes au calme dans un restaurant ?

Cette image là :

Avec le prompt : « Une femme boit du thé dans un restaurant de montagne. Elle porte la tasse à sa bouche et boit une gorgée. La scène est très réconfortante. »

« A woman drinks tea in a mountain restaurant. She brings the cup to her mouth and takes a sip. The scene is very comforting. »

Configuration : modèle i2v_780_fp8, 30 step, 3 secondes de vidéo.

Et plus récemment, j’ai écris un « serious game » où le lecteur doit collecter des Muses quand il répond juste à une question de français ( Minotaure – Partir )

Voici une des muses (générée par IA) :

Et voici la vidéo générée avec Wan2.1 :

Comptez 50 minutes de rendu pour 4 secondes en 720p 32fps avec une rtx 3060

Des obstacles

Tout n’est pas parfait… loin de là. Le premier point important est que cela consomme énormément de ressources… pendant un temps non-négligeable.

En effet, selon votre matériel, la résolution, le nombre de secondes, etc. il faut plusieurs minutes pour générer ces vidéos. Et comme pour les images : il faut recommencer, et recommencer encore pour modifier le prompt et/ou différents paramètres. Et quand une itération demande 30 minutes, cela devient vite fastidieux !

Les autres modèles tout aussi performants sont payants. Sur ces plateformes, on est à un coût approximatif de 0.30€ pour 5 secondes de vidéo (hors formules gratuites).

Le 2e point est que Wan2.1 semble mauvais pour tout ce qui est des mouvements de caméra. Nul doute que cela s’améliorera dans les prochaines versions.

Des questions

Wan2.1 est plutôt bon pour générer des expressions humaines. Tout cela me fait penser à Harry Potter et les images animées dans leurs journaux, tableaux et cadres.

Là où je veux en venir, c’est que je pourrais très bien « animer » une vieille photo de mon arrière grand-mère que j’appréciais beaucoup. Je pourrais la faire qui me sourit, ou qui m’envoie un baiser.

Et pourtant, quelque chose me dit qu’il y a possiblement ici un grand danger…

Dans Génération d'images Tags : ComfyUI, montagne, video, wan2.1

Quand l’IA ne connait pas…

Publié le 30 décembre 202431 décembre 2024

Je voulais générer une jolie image pour la « Bonne Année 2025 ».

En gardant l’axe « Les Alpes, les montagnes, la Savoie », sans chercher beaucoup d’originalité, j’ai commencé par imaginer simplement une fleur Edelweiss en gros plan…

Sur 6 modèles essayés, aucun ne connait l’edelweiss, tous me sortent une marguerite plus ou moins fraiche.

J’ai donc modifié le prompt pour tenter de donner tous les détails qui caractérisent notre belle fleur de nos montagnes :

A highly detailed close-up in 4K resolution of a wild edelweiss flower. The flower is composed of numerous fine and delicate petals, pure white with silvery shades, creating a slightly fuzzy effect. Each petal is star-shaped, with small visible veins adding texture and depth. At the center of the flower, a pale yellow core subtly contrasts with the surrounding petals. Natural light illuminates the flower, highlighting its complex structure and fragile beauty. In the background, an artistic blur evokes majestic Alpine mountains, with touches of soft green and gray, accentuating the purity and elegance of the edelweiss. The overall image conveys a sense of calm, preserved nature, and delicacy. In the bottom is written : « BONNE ANNEE 2025 »

Et là, festival de fleurs très jolies, mais aucune edelweiss :

Inutile d’insister, les modèles FLUX ne connaissent pas l’edelweiss.

On en revient donc à cette règle fondamentale :

L’IA ne connait que ce sur quoi elle a été entrainée.
Le biais est de croire qu’elle sait tout.

Donc, pris au jeu, j’ai essayé d’enrichir la composition avec une situation réaliste, mais en réalité très difficile à réaliser « dans la vrai vie ». En l’occurence, un gros plan sur la fleur avec en arrière plan une vache intéressée par manger cette fleur.

J’ai ajouté au prompt : « In the background there is the head of a cow, going to eat this flower. »

Pour aller plus loin, j’ai aussi ajouté une randonneuse : « In the background, to the right, there is the head of a cow, going to eat this flower. In the background, to the left, there is a woman hiker. »

Toujours pas d’Edelweiss…

Pour le fun, et parce que les hommes ne peuvent faire autrement que d’être des hommes, j’ai ajouté « en bikini », pour voir… Devinez quoi ? L’IA sait super bien faire des femmes en bikini ! Comme si elle avait été particulièrement bien entrainée sur le sujet… Par contre, écrire correctement des mots, ce n’est toujours pas pertinent.

Quelques rendus de mauvais goût :

Sacrée Heidi !

Las de ces compositions aux limites du grotesque, j’ai changé de pied : Au lieu d’utiliser l’IA pour représenter du réel, il vaut mieux l’utiliser pour représenter du réel vraiment impossible.

J’ai donc imaginé les mêmes fleurs, mais avec en fond les éléphants de l’armée d’Hannibal quand il traversa les Alpes en 218 av JC (ce qui, vous le savez, est la raison de la statue des éléphants à Chambéry)

Exit la vache et la randonneuse : In the background, A massive war elephant from Hannibal’s army as he crossed the Alps, adorned with simple harness and equipment. Soldiers in ancient Carthaginian armor, equipped with spears and shields, march alongside the elephants.

Quelques rendus intéressants :

Mais ces images sont un peu trop martiales pour souhaiter une bonne année. J’ai donc modifié le prompt pour avoir un elephant en paturage dans nos alpages, scène qui a certainement existé, jadis. J’avoue que j’aime cette idée : Un jour, un éléphant parcourait nos montagnes…

Tous mes vœux pour cette nouvelle année 2025 !

Note: C’est bien évidemment aussi la notion de créativité avec l’IA qui est sous-jacente à cet article 😉

Références: les modèles utilisés sont des fine-tune de FLUX.D (sans LoRA). Aucun animal n’a été maltraité pour réaliser ces clichés.

Dans Génération d'images Tags : Alpes, Forge UI, Intelligence Artificielle, prompt, Réalisme, Savoie, Stable Diffusion

Top 10 des LoRA Célébrités sur Civitai (Novembre 24).

Publié le 23 novembre 202424 novembre 2024

Il est possible d’entrainer le LoRA d’une personne… Cela signifie qu’il est alors possible de générer des photos de cette personne dans tous les contextes possibles et imaginables.

La question sous-jacente, sous prétexte d’un titre aguicheur, est celle du droit à l’image et même peut-être plus.

Le TOP 10 du mois (novembre 24)

Le filtre : Les LoRA « célébrité » les plus téléchargés sur les 30 derniers jours. Uniquement sur le modèle FLUX (ultra-réalisme).

https://civitai.com/models?tag=celebrity

Vous pouvez indiquer day/week/month dans « filter » en haut à droite

Notez qu’aucunes des images n’est une vraie photo de la célébrité …

Dans l’ordre :

Taylor Swift (chanteuse)
Emilia Clarke (Daenerys dans Game of Thrones)
Little Caprice (actrice films adultes)
Krystal Boyd (actrice films adultes)
Lupa Fuentes (actrice films adultes)
Amouranth (streameuse célèbre sur twitch)
Riho Yoshioka 2015 (actrice japonaise)
Kat Dennings (actrice américaine)
Kristen Bell (actrice américaine)
Jennifer Connely 1990s (actrice américaine)

Le 1er homme est Donald Trump autour de la 60e place.

La 1ere française est Eva Green autour de la 100e place.

James Bond Girls : https://civitai.com/models/284753?modelVersionId=1055033

Sur l’année, et tous les modèles confondus:

Tous les acteurs de Game of Thrones
Les James Bond Girls
Aespa Karina (chanteuse Sud-coréenne)
Emma Watson (Hermione)
etc.

Inutile de chercher à analyser les pourquoi de ce classement, pourquoi ces célébrités et pas d’autres, tout le monde aura bien compris, et ce n’est pas le sujet.

C’est toi, oui, mais quand ?

Et oui ! Nous changeons… le temps fait son œuvre. C’est la première chose qui m’a frappé : Ce ne sont pas des LoRA de la personne, mais de la personne à une époque précise, ou dans un contexte précis (un film), à une époque où les photos d’entrainement (dataset) sont cohérentes.

L’exemple le plus parlant est le LoRA de « Erin Moriarty Pre-plastic surgery ». Autrement dit, c’est le modèle de cette actrice américaine « avant qu’elle ne se fasse refaire le visage ». Ou pour Jennifer Connely, il est bien spécifié que l’entrainement est basé sur des photos d’elle dans les années 1990.

Ce qui m’intéresse ici, ce n’est pas que des fans veuillent générer leur idole à des âges différents, mais c’est l’idée que la personne elle-même (ou sa famille) puisse générer ces images d’un temps qui n’est plus… « Regarde, je me suis fait une photo de moi avant… »

Mais imaginons que bientôt il soit pertinent/possible de générer des LoRA d’une personne à travers les âges. Il suffirait alors d’indiquer dans le prompt l’âge de la personne en question pour retrouver une image fidèle et réaliste.

Puis, bientôt (déjà là), des vidéos, avec une reproduction de la voix…

Plus loin, je peux facilement imaginer un écran posé sur une table avec dedans « l’avatar » vidéo et sonore de mon grand-père qui puisse m’écouter et me répondre grâce à un chatBot. Ce ChatBot étant optimisé sur l’ensemble des souvenirs écris et numérisés de mon grand-père (par un RAG sur le LLM).

Est-ce un bien ou un mal ? Je ne le sais pas. Mais toutes les technologies sont déjà là.

Changeons de point de vue

Quel est le principe d’un LoRA ? Et de l’IA en général ?

Le principe est de numériser le sens (humain) des choses, extraire l’équation de la chose. En philosophie, on parlerai de « l’essence » et d’un processus « phénoménologique ».

Un LoRa est l’expression numérique de ce qui fait que cette « chose » est différente des autres « choses », l’ensemble de ses caractéristiques nécessaires qui font que, pour tout humain, cette chose est percevable et identifiable en tant que telle. Cette version numérique est associée à un mot clef. L’utilisation de ce mot clef dans un prompt va donner des contraintes au modèle lors de la génération.

Mais cet entraînement est nécessairement imparfait. La meilleure preuve en est que sur certaines célébrités, il y a plusieurs versions de LoRA disponibles.

Le LoRA est une interprétation de celui qui a fait l’entrainement par un choix des photos du dataset. Cela va en déterminer l’orientation, les accents, la qualité.

Aussi, et c’est là où je voulais en venir, l’utilisation d’un LoRA est, a priori, aussi soumise à des droits… Il n’est pas seulement dépendant des photos/matériels utilisés, mais aussi directement déterminé par un auteur qui a fait des choix. Cela ne m’étonnerait pas que, rapidement, des LoRA deviennent payants, ou, aussi, deviennent des supports marketing…

Notez que même si on reste dans un usage strictement personnel, car je ne pense pas qu’un professionnel s’amuserait à générer des images de quelqu’un sans son consentement, certains auteurs de LoRA font preuve d’une certaine déontologie en rappelant : » Please be wise with the usage of this model. Do Not Use for inappropriate or NSFW work that can harm others. »

Conclusion

Il y a quelque chose de profondément nouveau dans cet étalage de personnes à télécharger, qu’elles soient célèbres ou non.

En effet, il est possible de télécharger par exemple toutes les princesses Disney… Mais aussi des personnes « nobody », autrement dit des personnes communes, « quelqu’un », l’homme de la rue.

Bientôt des services de recomposition de personnes à partir de toutes ses photos, vidéos et écris dont on dispose sur elle ?

Il y a quelque chose de l’ordre du « vol d’âme ». On n’est plus dans le simple montage photo, on a passé un cap…
Il y a, je pense, ici un pouvoir potentiel de nuisance à la personne énorme, mais aussi de potentiels bienfaits enthousiasmants.

Mon grand-père sur une clef USB ?…

Ce sont de vraies questions qui s’avancent.

Références :

Prompt de l’image en une : <lora:nobody_2_f1:1> The image is a portrait of a young woman sitting in the back seat of a car. She has long, wavy blonde hair that is styled in loose curls and falls over her shoulders. She is wearing black-rimmed glasses and has freckles on her face. The woman is looking directly at the camera with a serious expression. The background is blurred, it’s ALpine mountains near Chambéry – Savoie, but it appears to be the interior of the car, with the sunroof visible on the right side of the image. In the bottom centered of the photography is text written in the VHS timestamp style « NOBODY – NOV 2024 «

LoRA « Nobody : https://civitai.com/models/675026/flux-nobody-model

Dans Génération d'images Tags : FLUX, Forge UI, LoRA, prompt

Chercher du réalisme dans les images IA

Publié le 18 novembre 202418 novembre 2024

L’artificiel cherche à imiter le réel, voire à paraître plus réel que ce qui est imité.

Comment rendre la génération d’image plus réaliste ? Facile ! En imitant les erreurs !

Erreurs de cadrage, erreurs d’exposition, erreurs de mise au point etc. En insérant l’erreur, la photographie générée par IA devient plus réaliste.

J’ai trouvé un LoRA (voire l’article sur les LoRA si vous ne savez pas ce que c’est) qui ajoute des mots clefs spécialisés. La liste parle d’elle même : amateurish photo, low lighting, in motion, overexposed, underexposed, GoPro lens, eerie atmosphere, smeared background, smeared foreground
(photo amateur, faible éclairage, en mouvement, surexposé, sous-exposé, objectif GoPro, atmosphère inquiétante, arrière-plan brouillé/flou, premier plan brouillé/flou)

Les modèles utilisés sont de type FLUX .

Premiers prompts avec test d’écriture

Les modèles FLUX sont réputés pour écrire correctement du texte… Ce n’est pas aussi simple que cela et je ferai un article sur le sujet.

Voici les 1er prompts de mes essais, toujours orientés sur notre belle région savoyarde.

« an amateurish photo, amateur shot of A pretty Alpine woman rests in the sun on a ski slope. She’s in a deckchair on the terrace of a high-altitude restaurant. There’s a restaurant sign with the name of the restaurant written on it in large type with text : “**SAVOIE SKI BAR 1923 . Plat du jour : RACLETTE**”. She’s relaxing in the sunshine and fresh air. She’s wearing clothes from the 1920s. She’s wearing winter boots, winter pants and a light top. The Alps are covered in snow. The sun is not in the photography. »

Que l’on pourrait traduire par : « une photo amateur, une photo amateur d’une jolie femme alpine qui se repose au soleil sur une piste de ski. Elle est installée dans un transat sur la terrasse d’un restaurant d’altitude. Il y a une enseigne de restaurant avec le nom du restaurant écrit en gros caractères avec le texte : « **SAVOIE SKI BAR 1923 . Plat du jour : RACLETTE** ». Elle se détend au soleil et à l’air frais. Elle porte des vêtements des années 1920. Elle porte des bottes d’hiver, un pantalon d’hiver et un haut léger. Les Alpes sont couvertes de neige. Le soleil n’est pas dans la photographie. »

Voici des rendus, avec des variations de prompt . Par exemple, avec ou sans le soleil dans le prompt.

Les photos sont plutôt belles, mais ce n’est pas le réalisme que j’attendais.

Chercher à reproduire les défauts

Pour aller au réalisme, il faut explicitement décrire les erreurs .

« Low-resolution photograph taken in a crowded area, perhaps in the apartment of a mountain chalet rental in a ski resort in the Alps, showing a young woman with short, dark hair. She appears to be of Caucasian origin, with a fair complexion. The woman is dressed in a thick beige sweater, and ski pants; she is leaning slightly forward. She wears a large red scarf and a silver ring in her left ear. Her face is a little red with the marks of sunglasses. Her lips are slightly parted, revealing a small silver nail in her lower lip. In the background, shelves are filled with miscellaneous items found in a winter sports rental, such as gloves, a backpack and a hat, giving the room a somewhat disorganized look. The lighting is dim, giving the scene a yellowish hue, perhaps from a lamp or light source in the room. The overall mood suggests a cheerful winter vacation style. The image is slightly blurred, perhaps due to poor lighting or an unstable camera. »

Traduction : Photographie à faible résolution prise dans un endroit encombré, peut-être dans l’appartement d’une location de chalet de montagne dans une station de ski dans les Alpes, montrant une jeune femme aux cheveux courts et foncés. Elle semble être d’origine caucasienne et avoir un teint clair. La femme est vêtue d’un pull beige épais, et d’un pantalon de ski ; elle est légèrement penchée en avant. Elle porte une grande écharpe rouge et un anneau d’argent à l’oreille gauche. Ses lèvres sont légèrement écartées, laissant apparaître un petit clou en argent dans sa lèvre inférieure. Son visage est un peu rouge avec les marques des lunettes de soleil. À l’arrière-plan, des étagères sont remplies d’objets divers qu’on trouve dans une location pour les sports d’hiver comme des gants, un sac à dos, un bonnet, ce qui donne à la pièce un aspect quelque peu désorganisé. L’éclairage est faible et donne une teinte jaunâtre à la scène, peut-être à cause d’une lampe ou d’une source lumineuse dans la pièce. L’ambiance générale suggère un style de vacances d’hiver joyeuses. L’image est légèrement floue, peut-être en raison d’un mauvais éclairage ou d’un appareil photo instable.

Voici des rendus, avec et sans les lunettes.

Et là ! Là, on a bien ce rendu particulier d’une photo prise dans un appartement de montagne.

On imagine parfaitement une station de ski en Savoie ou Haute-Savoie ! On imagine un début de soirée dans une location entre amis.

On a l’impression que je partage des photos de vacances, hein ?! C’est presque embarassant.

Et bien non ! Rien de tout cela n’existe ! Ces personnes n’existent pas.

L’inter-saison, tout un esprit…

Prompt : » Scene of a small mountain village in the wintry Alps seen through a large window whose paint is peeling on the sill, revealing a bleak outdoor mountain landscape. In the foreground, the window frame is prominent, slightly worn and aged, suggesting the interior of an old wooden building. Beyond the glass, leafless trees stand in the middle of a brown, patchy field leading to a series of old dwelling chalets with thick slate roofs, characterized by weathered facades and balconies. The sky is overcast, casting a muted gray light over the entire view, indicating a late autumn or early winter atmosphere. The photograph is of amateur quality, slightly blurred, with dull colors, giving a feeling of melancholy and stillness. »

Traduction : « Scène d’un petit village de montagne dans les Alpes hivernales vue à travers une grande fenêtre dont la peinture s’écaille sur l’appui, révélant un paysage extérieur de montagne morne. Au premier plan, le cadre de la fenêtre est proéminent, légèrement usé et vieilli, suggérant l’intérieur d’un vieux bâtiment en bois. Au-delà de la vitre, des arbres sans feuilles se dressent au milieu d’un champ brun et morcelé menant à une série de vieux chalets d’habitation aux épais toits d’ardoise, caractérisés par des façades et des balcons usés par le temps. Le ciel est couvert, jetant une lumière grise et sourde sur l’ensemble de la vue, indiquant une atmosphère de fin d’automne ou de début d’hiver. La photographie est de qualité amateur, légèrement floue, avec des couleurs ternes, donnant un sentiment de mélancolie et d’immobilité.., »

On sent la bonne ambiance…

Un autre prompt avec les montagnes

Prompt : « Interior of a high-altitude restaurant in the Alps. Large windows with a vibrant sunset, vivid pink and purple hues, contrasting with the silhouette of the village in the valley. Outside, the peaks of the snow-capped Alps can be seen in the orange glow of the sunset. There’s a woman looking out pensively, the emphasis on the serene contrast between inside and outside. Wide-angle lens, good image quality. »

Traduction : « Intérieur d’un restaurant d’altitude dans les Alpes. Grandes fenêtres avec un coucher de soleil vibrant, aux teintes roses et violettes, contrastant avec la silhouette du village dans la vallée. À l’extérieur, on aperçoit les sommets des Alpes enneigées dans la lueur orangée du coucher de soleil. Une femme regarde dehors d’un air pensif, l’accent étant mis sur le contraste serein entre l’intérieur et l’extérieur. Objectif grand angle, bonne qualité d’image. » Traduit avec DeepL.com (version gratuite)

Les rendus :

Ne cherchez pas où est ce restaurant ou quelles sont ces montagnes.
Rien n’existe…

Conclusion :

Ce ne sont que des exemples pour montrer que, quand vous entendez « j’aime pas les images IA, je les repère tout de suite avec leur aspect trop parfait« , sachez qu’en fait, cela dépend de la notion de « réel » que l’auteur de l’image a voulu exprimer…

Et ce n’est que le début !

LoRA utilisé : https://civitai.com/models/796382

Dans Génération d'images Tags : Alpes, Forge UI, Intelligence Artificielle, LoRA, montagne, Réalisme, Savoie, Stable Diffusion

Images IA : Le Deepfake facile… Création de souvenirs.

Publié le 14 novembre 202414 novembre 2024

Pourquoi ? Pourquoi vouloir utiliser le visage d’une personne pour générer des photos/dessins à volonté ?

On pourrait penser qu’il n’y a ici que des intentions malsaines… Et pourtant pas du tout ! L’origine de ce besoin « technique » est tout autre.

Le problème fondamental des images par IA est la « permanence ». En effet, à chaque fois que vous générez une image, tout, ou presque, est différent. Aussi, les jolis personnages que vous venez de générer sont de la chance : Il va être difficile (impossible) de les utiliser dans d’autres situations…

C’est la raison pour laquelle la « permanence des personnages » (character consistency) est un problème de la génération par IA.

C’est de là que sont apparues les techniques de « DeepFake » avec l’intention de rendre un visage « collable » dans des images, et donc d’ouvrir la possibilité d’utiliser un même personnage dans différentes situations/styles/univers.

Tout commence avec une photo

Oui, là, ça fait froid dans le dos… Une simple photo correctement cadrée, comme une photo d’identité, suffit.

Pour les exemples, je vais utiliser mon visage. En effet, il n’est pas question de détourner l’image d’une personne, aussi…. il ne reste que moi et mon amour-propre…
Notez simplement que, si nous sommes amenés à nous rencontrer, depuis ces photos… le temps a passé. 😉

Notez aussi, que la photo du visage peut provenir d’une IA !

Enfin, cet article est destiné à servir pendant mes formations, ce qui explique l’utilisation de mon visage. Désolé pour ceux qui ne me connaissent pas de visu.

2 techniques de base +1

La première technique consiste à utiliser un filtre qui va « dire » au modèle de suivre une « forme » de visage basée sur la photo d’identité donnée. On utilise ControlNet, avec un IP-Adapter spécialisé dans les visages.

Mais ce filtre, tout seul, ne suffit pas à reproduire correctement un visage. Par contre, il permet de retrouver les traits et d’empêcher le modèle de faire à sa guise.

La deuxième technique consiste à utiliser une extension comme par exemple ReActor. Cette extension fait un Post-traitement. Ce point est important : Il ne s’agit pas ici d’influencer le modèle pour qu’il génère un visage, mais de prendre l’image finale pour lui apposer le visage cible. Selon les cas, on peut voir l’effet « copier-coller.

La troisième technique consiste à entrainer un LoRA sur la personne cible. Autrement dit, on prend une centaine de photos de la personne et on entraine un module que l’on pourra appeler dans tous les prompts. Cette technique est très (de plus en plus) utilisée avec les personnalités publiques.

Pour les exemples, j’utilise le cumul des 2 premières techniques.

Enfin, l’utilisation des IP-Adapter n’est, à cet instant, pas disponible pour des modèles de dernière génération comme FLUX. Aussi, les exemples sont sur des modèles SD1.5 ou SDXL.

Des exemples avec mon visage

Donc toutes ces photos/dessins sont « truquées » : J’ai donné à différents modèles un prompt et une vieille photo d’identité (quand j’étais plus jeune donc).

Prompt : 1gman, 40 y.o.,solo, wearing overalls, (growing tomatoes:1.2) in a sunny garden full of flowers,smiling, masterpiece, best quality, highly detailed (cinematic lighting, sunlight, volumetric), <lora:ip-adapter-faceid-plus_sd15_lora:1> ,4k

Prompt : Night in 1922 night exterior, photograph taken with a 35 mm camera outdoors in black and white. Garden of a mansion, A middle-aged man, mad scientist in a white suit and black rubber gloves, walks confidently. extravagantly heroic. captured in motion with motion blur with a 35mm camera

Prompt : photograph taken with a 35mm camera outdoors in black and white, (1 man, mad scientist is making futuristic), Night in 1922 interior of a scientist’s laboratory at night, high-tech robots surrounded by tesla coils, captured in motion with motion blur, steampunk

Prompt : sketch artsyle, charcoal lines, strong blacks, a (40 year old man:1.5), highly detailed linework , old ship, black sails, pirate captain, hat, hair, wind, sea, motion, wind, heavy rain, hyper-realistic characters, pastel, elegance, dramatic lighting, greyscale, expressive camera angle, matte, concept art, disintegrating

Croquis d’un gars sur le port à shanghai, j’étais jeune… un peu fou-fou

Prompt : photograph of a racing driver (rally) in overalls sitting in his (Porsche car:1.2) , the man is 50 year old, shaved. soft lighting, high quality, film grain, Fujifilm XT3

Le pire et le meilleur

Ce n’est que le début (car la vidéo arrive).
Je peux facilement générer, dès à présent, une image de moi, mais aussi de n’importe qui dont j’ai une photo de qualité honorable, dans toutes les situations que je souhaite, il n’y a pas de limite.

Cette possibilité est très pratique quand on doit illustrer un roman par exemple, ou toutes les illustrations avec un personnage récurent. Par contre, pour le reste, cela pose beaucoup de questions…

L’avenir va certainement passer par des LoRA entrainés sur des personnes ou personnages. J’imagine possible que, dans un avenir proche, on ne demande pas à un illustrateur de créer des illustrations, mais plutôt de créer des personnages qui seront entrainés pour générer des illustrations.

En regardant ce jour (novembre 2024) la personne publique la plus téléchargée sur 30 jours sur la plateforme Civitai, il s’agit de « Emma Watson » (la fille dans Harry Potter). Il existe donc un LoRA qui permet de générer des images de cette actrice à volonté… (ici : https://civitai.com/models/859919/emma-watson-flux?modelVersionId=966723)

Vous vous souvenez quand, sur quelques réseaux sociaux, on pouvait dire « qui est sur la photo » ?…

Références :

ReActor : https://github.com/Gourieff/sd-webui-reactor
ControlNet : https://github.com/lllyasviel/ControlNet

Dans Génération d'images Tags : Automatic 1111, ControlNet, LoRA, prompt

Qu’est qu’un LoRA ? Et comment les utiliser avec Stable Diffusion ?

Publié le 12 novembre 202417 novembre 2024

Les modèles de grande envergure nécessitent habituellement des ressources de calcul importantes et un volume de données conséquent pour être ajustés à des tâches spécifiques.
On ne peut donc pas raisonnablement ré-entrainer un modèle entier juste pour ajouter un style, un personnage ou un univers.

Les Low-Rank Adaptations (LoRA) ont été développées pour répondre au besoin de fine-tuning efficace des modèles de génération d’images massifs, comme Stable Diffusion. LoRA contourne ce problème en introduisant des « adapteurs de bas-rang » qui modifient uniquement certaines parties des matrices de poids du modèle, réduisant ainsi considérablement la charge de calcul et la mémoire nécessaires pour l’entraînement.

Cette technique permet de conserver le modèle principal inchangé et d’ajuster des paramètres supplémentaires, qui se superposent pour spécialiser le modèle sans nécessiter une reformation complète. Pour utiliser LoRA avec Stable Diffusion, on peut charger un modèle pré-entrainé et y appliquer les adapteurs LoRA pré-configurés pour générer des images adaptées à des styles, sujets ou détails spécifiques sans avoir à réentraînner entièrement le modèle, offrant ainsi une solution efficace pour la personnalisation de génération d’images.

Autrement dit, on peut dire qu’un LoRA est comme un « plugin », un « Add-on », une « extension », qu’on insère dans le prompt pour utiliser un effet.

Comment cela fonctionne ?

Dans le prompt original, on ajoute <Nom_Du_Lora:Force> MotClef-Activation

Nom du LoRA : le nom du LoRA que vous avez téléchargé

Forcedu LoRA : de 0 à 2 . 1 par défaut, souvent on obtient de meilleurs résultats avec une valeur de 0.75/0.85

MotClef (trigger word) : les mots associés au LoRA et qui activent l’effet.

Reprenons l’exemple de prompt : » An Alpine woman in the 1920s. Alpine mountains in background. » (La Savoie et la Haute-Savoie à toujours l’honneur donc 😉 )

Nous utiliserons un modèle FLUX.

Voici un rendu, sans utilisation de LoRA :

Exemple avec un LoRA spécialisé dans les films muets des années 1920

Le prompt : « An Alpine woman in the 1920s. Alpine mountains in background. <lora:20s_Silent_Movie:1> ArsMovieStill, 20s Silent Movie Still »

Exemple avec un LoRA spécialisé dans les films des années 1930

Le prompt : » An Alpine woman in the 1920s. Alpine mountains in background. <lora:30s_Technicolor_Movie:0.85> ArsMovieStill, movie still from a 1930s technicolor movie »

Exemple avec un LoRA spécialisé dans les films noirs des années 1950

Le prompt : » An Alpine woman in the 1920s. Alpine mountains in background. <lora:50s_Noir_Movie:1> ArsMovieStill, Noir Movie Still »

Exemple avec un LoRA spécialisé dans les films psychédéliques des années 1960

Le prompt : » An Alpine woman in the 1920s. Alpine mountains in background. <lora:60s_Psychedelic_Movie:1> ArsMovieStill, movie still from a 60s psychedelic movie »

Exemple avec un LoRA spécialisé dans les films d’horreur des années 1970

Le prompt : » An Alpine woman in the 1920s. Alpine mountains in background. <lora:70s_Horror_Movie:1> ArsMovieStill, movie still from a 1970s horror movie »

Exemple avec un LoRA spécialisé dans les films fantastiques des années 1980

Le prompt : » An Alpine woman in the 1920s. Alpine mountains in background. <lora:80sFantasyMovie2:1> ArsMovieStill, 80s Fantasy Movie Still »

Que retenir de ces exemples ?

Que ce n’est pas aussi simple que ça ! Assez rapidement vous aurez des effets de « bleeding » , c’est-à-dire que le style ajouté déborde sur des aspects où vous ne le vouliez pas. Dans nos exemples, la tenue de la jeune femme, suivant les années, ne respecte pas le prompt orginal des 1920 .

Composer une image IA est beaucoup plus difficile qu’on le pense, cela demande, avant tout, d’avoir une idée précise de ce que l’on veut représenter…

Références : Les LoRA utilisés viennent de https://civitai.com/user/ArsMachina

Dans Génération d'images Tags : FLUX, LoRA, prompt, Stable Diffusion

Les angles de vue dans les prompts pour images

Publié le 6 novembre 20246 novembre 2024

L’angle de vue s’ajoute ou remplace la prise de vue.

Tout comme le premier article sur le sujet, pour permettre des comparaisons, le prompt de base sera le suivant : « An Alpine woman in the 1920s. Alpine mountains in background. »

C’est à dire : une femme des alpes dans les années 1920, avec les montagnes des Alpes en fond. (La Savoie et la Haute-Savoie à l’honneur donc 😉 )

Les modèles utilisés seront FLUX et SDXL :

Pour FLUX : Acorn is Spinning FLUX, en version De-Distilled.
Pour SDXL : JuggernautXL.

Tout comme dans l’article précédent, les modèles Stable Diffusion sont beaucoup plus efficaces sur ce genre de contraintes. Le modèle FLUX, lui, a du mal à respecter les consignes du prompt.

Overhead shot, from the top, birds eye, birds eye view (vue d’un oiseau !)

Notez que cette vue est difficile à obtenir. Les modèles FLUX n’ont pas été convaincant.

Ground level shot, shot from ground level (Le photographe est au niveau du sol)

Knee level shot (Le photographe est au niveau des genoux)

NOTE : ce qui est intéressant, c’est que l’IA respecte bien l’angle de prise de vue, mais par contre, elle fait apparaître des genoux sur le sujet ! Le terme « knee » est appliqué aux 2 !
Il faudrait spécifier dans le prompt la tenue du sujet.

High angle, high angle shot (grand angle)

Low angle shot, from a low angle (angle faible)

Eye level shot, at the eye level (au niveau des yeux)

Conclusion

Les angles de vue sont très difficiles à faire respecter par les modèles. Cela n’empêche que ce sont des contraintes très utiles pour réaliser des compositions riches et variées.

Je n’ai pas réussi à générer une image correcte en « vue du ciel » (bird’s eyes) avec le modèle FLUX, ce qui est plutôt décevant.

Dans Génération d'images Tags : FLUX, Forge UI, sdxl

Les prises de vue pour les images dans les prompts IA

Publié le 4 novembre 20244 novembre 2024

Pour obtenir une belle image, un bon cadrage est essentiel. L’IA a tendance à centrer le sujet automatiquement, mais cela ne suffit pas toujours ! Il existe plusieurs types de prises de vue : Close-up, Extreme Close-up, POV, Medium Shot, Long Shot, etc., chacun apportant une esthétique et un focus différents.

Je vous propose de tester les effets de ces différents « types de prise de vue ». Le prompt de base sera le suivant : « An Alpine woman in the 1920s. Alpine mountains in background. »

Les modèles utilisés seront FLUX et SDXL :

Pour FLUX : Acorn is Spinning FLUX, en version De-Distilled.
Pour SDXL : JuggernautXL.

Notez que les modèles FLUX, bien que produisant des images de qualité, ne respectent pas toujours fidèlement les spécifications des prises de vue.

L’Extreme Close-up (Zoom) :

Prompt 1 : « Extreme close-up of an Alpine woman in the 1920s. Alpine mountains in background. »

Le Close-up (Gros plan / portrait) :

Prompt : « Close-up of an Alpine woman in the 1920s. Alpine mountains in background. »

Medium shot (hanches) :

Prompt : « Medium of an Alpine woman in the 1920s. Alpine mountains in background. »

Cowboy shot (mi-cuisse):

Prompt : « Cowboy shot of an Alpine woman in the 1920s. Alpine mountains in background. »
Note : FLUX n’est pas bon pour ce terme. C’est une spécificité des modèles SD1.5 et SDXL. Plus que cela, il sort une femme « cowboy » … SDXL cadre correctement, mais ajoute aussi un chapeau de Cowboy…

Le modèle FLUX ne comprend pas la prise de vue « Cowboy shot » …

Medium full shot :

Prompt : « Medium full shot of an Alpine woman in the 1920s. Alpine mountains in background. »

Full shot :

Prompt : « Full shot of an Alpine woman in the 1920s. Alpine mountains in background. »

Long shot :

Prompt : « Long shot of an Alpine woman in the 1920s. Alpine mountains in background. »

Conclusion

Les modèles d’IA ne respectent pas toujours parfaitement les contraintes de cadrage, mais il est essentiel de les inclure dans les prompts. En particulier, précisez au minimum un cadrage « full body » ou « portrait » pour obtenir des résultats proches de vos attentes.

Dans Génération d'images Tags : FLUX, sdxl, Stable Diffusion, Tuto

Automatic 1111 , ForgeUi : Générer des images avec l’IA en local

Publié le 31 octobre 202431 octobre 2024

Si vous avez une machine qui dispose d’au moins 8gb de VRAM, vous pouvez essayer de générer des images grâce à l’intelligence artificielle sur votre propre ordinateur.

Je vais ici vous présenter les concepts importants pour débuter.

Les 3 logiciels :

Automatic1111 : https://github.com/AUTOMATIC1111/stable-diffusion-webui

Le plus populaire à l’heure actuelle.

Forge UI : https://github.com/lllyasviel/stable-diffusion-webui-forge

Une réplique modifiée de Automatic 1111 qui voit sa popularité augmenter depuis qu’il permet d’utiliser les modèles FLUX

ComfyUI : https://github.com/comfyanonymous/ComfyUI

Moins utilisé, car plus technique

J’utilise ici Automatic 1111 avec une carte 3060RTX 12Go

Des concepts importants :

Text2img : L’images est générée à partir d’un prompt.

Img2img : L’image est générée à partir d’une image de référence.

Inpainting : On donne un prompt pour modifier une partie d’une image existante.

Prompt : Les instructions données au modèle.

Negative Prompt : Les instructions de ce qu’on ne veut pas.

Upscaling : Filtre qui permet de grandir la résolution du résultat

Les modèles (Checkpoint) :

Il existe des modèles de base (sd 1.5, sd XL, FLUX etc.), mais aussi une multitude de modèles retravaillés par la communauté.

Certains modèles sont spécialisés en réalisme, d’autres en cartoon, etc. Il suffit de télécharger un modèle et de le placer dans le répertoire adéquat de votre logiciel pour pouvoir l’utiliser.

Attention aux licences !! Chaque modèle a sa licence d’utilisation …

Attention : La taille du modèle ne doit pas dépasser la taille de la mémoire de votre carte graphique !

Une bonne source de modèles se trouve ici : https://civitai.com/models

SD 1.5 : C’est le modèle de base de « stable diffusion » qui est rapide et est encore largement utilisé du fait des nombreux « LoRA » et autres filtres apportés par la communauté.

SDXL 1.0 : C’est le modèle qui a succédé à SD 1.5, plus orienté réalisme.

FLUX : Un modèle encore meilleur, mais qui ne fonctionne (pour l’instant) que sur Forge UI et Comfy UI.

LoRA : Un LoRA (Low Rank Adaption) est un petit modèle entrainé sur un point précis. Un personnage, un style, un concept etc. Les LoRA sont appelés dans vos prompts pour ajouter des effets.

Textual Inversion & Embeddings : Comme les LoRA, mais encore plus petits. Ils ajoutent des corrections comme par exemple les mains avec trop de doigts .

VAE : Ajoute des détails et des corrections d’images à la fin du processus.

Des extensions :

ControlNet (essentielle ! ): Une extension qui va par exemple permettre de définir des poses des personnages. Vous trouverez facilement une multitude de tutoriels sur le sujet.

ADetailer /DeForum : Des filtres et des outils.

ESRGAN : Permet de faire de l’upscaling de bonne qualité pour atteindre de grandes résolutions.

AnimatedDiff : Permet de générer de courtes vidéos, souvent sous forme de GIF animés.

Vous voilà prêt pour votre premier prompt !

Attention : tous les prompts sont en anglais

Un exemple : « Portrait of a woman from the Alpes in 1920s. Alpes mountains in background. »
Modele : juggernautXL_v9Rundiffusionphoto2 (base sdxl 1.0)

Même prompt avec le modèle « realcartoon25D_v3 » (base sd1.5), spécialisé Dessin à plat.

Enfin, la même chose avec FLUX (modèle acornIsSpinningFLUX_aisFluxDeDistilled) :

Vous pouvez voir les différences énormes d’interprétation selon les modèles, sur un prompt identique.

Quelques petites choses importantes :

Le temps mis pour générer une image va dépendre de la capacité de votre carte graphique, du modèle utilisé, de la taille de l’image voulue, du nombre de Steps (itérations, généralement 20) configuré. Cela va de quelques secondes à plusieurs minutes !
Cela consomme de l’énergie ! Votre carte graphique et votre CPU seront utilisés presque au maximum de leurs capacités.
On génère habituellement beaucoup d’images d’un coup, pour ensuite faire une sélection.

Il est temps d’essayer ! A vous de jouer !

Dans Génération d'images Tags : Automatic 1111, FLUX, Forge UI, Intelligence Artificielle, sd 1.5, sdxl, Stable Diffusion, Tuto