Les machines qui génèrent des images

Les machines qui génèrent des images

L’histoire de la génération d’images par intelligence artificielle sera développée dans plusieurs chapitres spécifiques. J’en résume ici les premières étapes marquantes :

  • 1972 : Harold Cohen, pionnier à la croisée de l’IA et des arts visuels, crée AARON, un programme informatique révolutionnaire conçu pour générer de manière autonome des peintures et des dessins. Son approche novatrice, mêlant créativité computationnelle et art traditionnel, lui vaut une renommée internationale. Les œuvres d’AARON sont exposées dans de nombreux musées prestigieux à travers le monde, et Cohen reçoit plusieurs distinctions au cours de sa carrière.
  • Années 1990–2000 : les premiers algorithmes évolutifs, fractals et générateurs procéduraux, comme POV-Ray (Persistence of Vision Raytracer), permettent de créer des images abstraites ou des paysages virtuels. Ces productions restent toutefois éloignées du réalisme photographique.
  • 2014 : Ian J. Goodfellow, alors chercheur chez Google Brain (et plus tard directeur de l’apprentissage automatique chez Apple), invente les GANs (Generative Adversarial Networks). Deux réseaux neuronaux y sont mis en compétition : l’un génère des images, l’autre les évalue. C’est une révolution : pour la première fois, l’IA produit des visages, objets et paysages réalistes. En 2019, le site This Person Does Not Exist, qui génère des visages fictifs ultra-réalistes, fait sensation.
  • 2015 : Des chercheurs de Google, notamment Alexander Mordvintsev, présentent DeepDream, une « machine à rêves » numérique qui transforme des images existantes en visions psychédéliques et devient rapidement virale sur Internet.
  • 2021 : OpenAI lance DALL-E, premier modèle capable de générer des images originales à partir de simples descriptions textuelles.
  • 2021 (juillet) : DALL-E mini, créé par Boris Dayma à la suite d’un hackathon organisé par Hugging Face et Google.
  • 2022 : explosion médiatique avec plusieurs modèles concurrents : DALL-E2 (OpenAI), Imagen (Google), MidJourney, et Stable Diffusion (Stability AI).
  • 2023 : lancement de LetzAI, générateur d’images IA luxembourgeois. C’est la première plateforme à permettre la création conviviale de modèles personnalisés, avec ses propres personnages, objets et styles. Rapidement, LetzAI évolue et est aujourd’hui considéré comme l’un des écosystèmes visuels les plus performants au monde.
  • 2024 : DALL-E3 est intégré à ChatGPT et les générateurs d’images par IA s’invitent dans les outils de création grand public, comme Photoshop.

Mon expérience avec DALL-E2

J’ai découvert les premières images de DALL-E2 dans l’édition du 14 juillet 2022 du magazine renommé IEEE Spectrum. Certaines de ces illustrations m’ont profondément marqué.

Le modèle neuronal DALL-E2 avait été entraîné sur environ 650 millions d’images, extraites d’Internet et accompagnées de descriptions textuelles. À ce moment-là, le modèle n’était pas public : seuls quelques chercheurs sélectionnés y avaient accès pour l’évaluer.

Quelques jours plus tard, OpenAI annonçait que le million d’usagers inscrits sur une liste d’attente seraient progressivement invités à tester une version bêta. Je m’étais moi aussi inscrit.

Pour prévenir les abus, OpenAI avait imposé des garde-fous : interdiction de générer des contenus violents, racistes ou pornographiques, et impossibilité de créer des visages humains réalistes.

En attendant d’être invité à tester DALL-E2, je me suis tourné vers DALL-E mini, développé par Boris Dayma. Publié d’abord sur la plateforme communautaire HuggingFace, le modèle, devenu viral, a ensuite été hébergé sur un site dédié : craiyon.com. Certes, ce modèle n’avait ni la résolution ni la performancede son «grand frère», mais il permettait déjà d’entrevoir le potentiel disruptif de cette technologie. Tout comme DALL-E2, il empêchait la génération de visages réalistes.

Lorsqu’on soumettait une description sur Craiyon, 16 images en basse résolution étaient produites, et les 9 meilleures s’affichaient à l’écran.

Le 15 août 2022, j’ai enfin reçu la confirmation qu’OpenAI avait accepté ma candidature pour participer aux tests de DALL-E2. Je me suis empressé d’effectuer mes premiers essais.

Mon tout premier prompt était :
“cartoon of an elephant and a giraffe riding a bicycle on the beach”

Parmi les quatre images générées, chacune en 1024 x 1024 pixels, j’ai choisi celle qui me plaisait le plus :

cartoon of an elephant and a giraffe riding a bicycle on the beach (août 2022)

J’étais fasciné par cette technologie et j’utilisais chaque jour tous mes crédits gratuits. Je publiais régulièrement mes meilleures créations comme image du jour sur Facebook, Instagram et LinkedIn.

Le prompt avec l’éléphant et la girafe est d’ailleurs resté mon test favori : je l’utilise encore aujourd’hui pour comparer les résultats des nouveaux générateurs d’images, y compris des modèles chinois.