Les machines qui génèrent des poèmes

Les machines qui génèrent des poèmes

En février 2019, OpenAI annonçait la mise au point de GPT-2, présenté comme un «modèle de langage ultra-performant». Son «intelligence» reposait sur un entraînement massif sur des milliards de données disponibles sur Internet, avec la capacité d’ajuster en permanence ses prédictions pour apprendre de manière autonome. Contrairement à sa mission initiale de publier librement ses modèles d’IA, OpenAI — devenue entre-temps une entreprise à but lucratif plafonné (capped-profit company) — décida de ne pas diffuser les poids de GPT-2 dans leur intégralité, invoquant des risques d’abus.

Fin mai 2020, OpenAI franchit une nouvelle étape avec le lancement de GPT-3. Alors que GPT-2 comptait 1,5 milliard de paramètres, GPT-3 en intégrait 175 milliards, entraînés sur près de 700 Go de données issues du Web et d’e-books. GPT-3 se déclinait en plusieurs versions spécialisées, nommées d’après des auteurs célèbres : davinci, curie, babbage et ada.

En 2022, OpenAI ouvrit GPT-3 comme service commercial via une API payante, facturée au volume de requêtes, avec un crédit de bienvenue de 18 dollars. Je m’étais abonné au printemps 2022 et j’ai effectué mes premiers tests dans le Playground d’OpenAI.

Par curiosité, j’ai demandé au chatbot de générer un poème sur un grille-pain tombant amoureux d’un chien. Voici deux exemples de résultats :

A toaster and a dog may seem
An unlikely pair, it might seem
But love can strike in the strangest ways
And make our hearts sing and blaze
The toaster longed for the dog’s warm embrace
To feel her soft fur and gentle face
The dog, she pined for the toaster’s heat
To feel its warmth beneath her feet
They danced and they played, under the moon’s gentle light
Their love was a flame, burning bright
Though others may scoff and call it absurd
This toaster and dog, their love was not deterred
For in this world, where love is rare
Their bond, so strong, it will not tear
A toaster and a dog, a love so true
Forever they’ll be, me and you.


A toaster once fell in love with a dog,
With a heart of steel and a wag of its tail.
Together they roamed, a love so strong,
Through fields and forests, they never did fail.
The toaster toasted bread with care,
While the dog chased squirrels without a care.
They shared a bond, like no other,
A love that could conquer any fear.
Through rain and shine, they remained true,
A toaster and a dog, in love so pure.
Their bond grew stronger with each passing day,
A love that would never fade, that’s for sure.
So here’s to the toaster and the dog,
A love so rare, it must be celebrated.
Their bond is unbreakable, a love so pure,
A toaster and a dog, forever mated.


Schreif mer e Gedicht

À l’été 2022, j’ai publié sur HuggingFace un espace de démonstration intitulé Schreif mer e Gedicht, qui permettait de générer automatiquement des poèmes en luxembourgeois.

My HuggingFace demo space « Schreif mer e Gedicht » (2022)

Mais comme l’application s’appuyait sur mon compte OpenAI, elle consommait directement mon crédit facturable. Très vite, les coûts dépassèrent mes prévisions. En effet, au lieu de générer uniquement des poèmes luxembourgeois, de nombreux utilisateurs étrangers s’amusaient à dialoguer en d’autres langues avec le chatbot. Résultat : le plafond de 30 dollars que j’avais fixé était régulièrement atteint dès les premiers jours du mois, rendant l’application inutilisable le reste du temps. Malgré mes efforts, je n’ai pas réussi à limiter ces usages détournés.

En novembre 2022 , RTL publia un court reportage sur mon projet de génération de poèmes luxembourgeois, mettant en lumière cette première expérience locale avec les grands modèles de langage.

Reportage RTL sur mon projet « Schreif mer e Gedicht » (2022)


De GPT-3 à ChatGPT

Rapidement, GPT-3 fut supplanté par GPT-3.5, qui servit de base au lancement du prototype ChatGPT en novembre 2022. Le lecteur averti connaît déjà la suite de cette histoire : une adoption fulgurante et une popularité planétaire.

Les machines qui génèrent des films

Les machines qui génèrent des films


Restons dans le domaine de l’IA générative et intéressons-nous cette fois-ci à l’évolution des images animées, depuis leurs débuts jusqu’aux usages actuels.


Aux origines du cinéma


On attribue généralement l’invention du cinéma aux frères Lumière, qui ont présenté leur premier film le 28 décembre 1895 à Paris. Mais il est moins connu que Louis Ducos du Hauron (1837-1920), déjà pionnier de la photographie en couleurs, avait exploré dès la fin du XIXe siècle des procédés de photographie séquentielle qui préfiguraient les techniques cinématographiques. Ses travaux ont jeté les bases de l’image animée bien avant son exploitation commerciale par les frères Lumière.


Les premiers dessins animés


L’histoire des films animés prend un tournant en 1928 avec la sortie de Steamboat Willie, le premier dessin animé à bénéficier d’une bande sonore synchronisée. Ce court-métrage introduit au public le personnage de Mickey Mouse, devenu un véritable symbole de la culture populaire. Le film fut animé par Ubbe Ert Iwwerks (1901-1971), surnommé la « main magique » de Walt Disney. Après une brève carrière indépendante, il revint dans les années 1940 chez Disney, non plus comme animateur, mais comme ingénieur en effets spéciaux, contribuant à des innovations techniques qui ont marqué des films cultes du studio.

Disney Cartoons present a Micky Mouse Sound Cartoon in 1928


Steamboat Willie et l’IA générative


Le film joue aujourd’hui un rôle particulier dans le contexte de l’IA générative. En 2023, les droits d’auteur sur le premier Mickey Mouse sont arrivés à expiration. 75 ans après sa publication, l’œuvre est tombée dans le domaine public. Cette libération juridique a ouvert la voie à de nouveaux usages créatifs : par exemple, les utilisateurs de LetzAI ont pu entraîner légalement un modèle inspiré de ce Mickey originel et l’imaginer dans des scènes contemporaines. Ci-dessous, quelques images générées par le créateur luxembourgeois Biitz en témoignent.

E.T., un autre jalon de l’innovation


Un autre film emblématique est E.T. l’extra-terrestre de Steven Spielberg (1982), chef-d’œuvre du cinéma de science-fiction. À l’époque, les technologies de synthèse 3D n’étaient pas encore assez avancées pour créer un personnage numérique crédible. Steven Spielberg fit donc appel à une combinaison de marionnettes, d’animatronique et de performances humaines. Trois personnes ont incarné E.T. : Pat Bilon (1,22 m), acteur atteint de nanisme, Tamara De Treaux (0,84 m), également actrice atteinte de nanisme et Matthew DeMeritt, un adolescent né sans jambes.

Pat Bilon, E.T., Tamara De Treaux et Matthew DeMeritt

Le résultat fut si convaincant qu’E.T. devint une icône universelle, prouvant qu’avant l’ère numérique, l’imagination et l’ingénierie pouvaient donner vie à des personnages inoubliables.

Paddington, l’ours en CGI qui a conquis le cinéma

Dans un registre plus récent, l’exemple de Paddington illustre l’évolution spectaculaire de l’animation par ordinateur. Inspiré du personnage créé par Michael Bond en 1958, l’ours péruvien amateur de marmelade a été adapté au cinéma par Paul King dans deux longs-métrages à succès, en 2014 et en 2017.

Contrairement à E.T., qui était animé par marionnettes et acteurs costumés, Paddington est un personnage généré entièrement en CGI (Computer-Generated Imagery). Son intégration réaliste dans des scènes tournées avec de véritables acteurs a nécessité un travail colossal de la part des studios Framestore. Les animateurs ont accordé une attention méticuleuse aux détails : la texture de sa fourrure, ses expressions faciales, ses gestes maladroits mais attendrissants. Résultat : Paddington a su émouvoir le public tout en se fondant parfaitement dans un univers réel.


Rencontre avec la Reine Élisabeth II


L’ours numérique a atteint un sommet symbolique lors des célébrations du Platinum Jubilee de la Reine Élisabeth II, en juin 2022. Une courte vidéo diffusée à l’ouverture du concert officiel montrait Paddington prenant le thé avec la Reine au palais de Buckingham. Dans ce sketch devenu viral, l’ours maladroit renverse du thé, partage un sandwich à la marmelade et frappe ensuite sa tasse à la cuillère pour donner le rythme à « We Will Rock You » de Queen, repris par l’orchestre militaire et le public.

Paddington Bear and the Queen in 2022


Mes premiers films CGI

Entre 2019 et 2021, je me suis amusé à créer moi-même quelques films d’animation avec les technologies disponibles à l’époque.

👉 Premier exemple : les DigiBirds.

J’ai utilisé des oiseaux animatroniques interactifs qui bougeaient le bec et la tête, et qui pouvaient chanter en chœur lorsqu’on sifflait. Il s’agissait des DigiBirds de Silverlit, commercialisés à partir de 2014. Ces petits robots-jouets, capables de réagir à des stimuli sonores, peuvent être vus comme une forme très primitive d’intelligence artificielle.

Wantervullen-Zielung in 2019

👉 Deuxième exemple : Le GenPet Piccini

J’ai créé un modèle 3D nommé Piccini, en hommage à la sculptrice australienne Patricia Piccinini, connue pour ses créatures hybrides en silicone qui interrogent les limites de la bioéthique et de la biotechnologie. Pour tourner la vidéo, j’avais posé une maquette en carton de la créature sur mon canapé, afin de disposer d’un repère visuel pendant l’enregistrement avec mon iPhone fixé sur un trépied.

Happy Birthday to my GenPet Piccini in 2021

Le «GenPet» qu’on aperçoit dans le film est une œuvre d’art lancée en 2005 par l’artiste canadien Adam Brandejs. Ces sculptures animatroniques en latex, plastique et circuits électroniques simulaient de subtils signes de vie : respiration, tremblements, mouvements limités. Présentées comme des animaux bio-ingénierés pré-emballés, elles étaient accompagnées d’un faux site web, d’emballages sous blister, de « jauges de vitalité » et d’accessoires fictifs. Tout était conçu pour être crédible et provoquer la confusion entre art, science et marketing.
Chaque Genpet était proposé avec des « traits de personnalité » codés par couleur (rouge, bleu, violet, etc.) qui influaient sur son comportement supposé.

Copie écran du site web genpets.com

Les Genpets ont été exposés dans plusieurs galeries d’art contemporain au Canada et en Europe. En 2007, j’ai acquis un Genpet violet auprès de l’artiste, qui a même remplacé le câble d’alimentation canadien par un modèle européen avant de me l’envoyer. Mon Genpet « dort » toujours dans son état d’hibernation, et le site officiel genpets.com reste en ligne. Cette œuvre est aujourd’hui considérée comme l’un des exemples les plus marquants d’hoax artistique.
Au fond, il s’agit d’une fake news avant l’heure, une fiction conçue pour questionner notre rapport à la biotechnologie et qui résonne aujourd’hui à l’ère de l’IA générative.

👉 Troisième exemple : Google Search AR

À partir de 2019, Google a permis de placer dans son salon, grâce à la réalité augmentée, des animaux ou objets 3D visibles à travers l’appareil photo d’un smartphone. Parmi le catalogue proposé, j’avais choisi un panda. J’ai réglé sa taille et sa position de manière à le faire asseoir sur mon canapé, puis je me suis installé à côté de lui pour simuler une conversation.

My first Google AR video end 2022 : A panda eating bamboo on my sofa

Les premiers films IA

À partir de 2022, une nouvelle révolution a commencé : l’IA générative appliquée à la vidéo. On n’avait plus besoin de caméra, de figurines animées ou de dizaines d’outils CGI sophistiqués. Un simple texte suffisait.

My first AI video end 2022 : A panda playing chess on the beach.

Novembre 2023 : sont apparus les premiers outils Image2Video, qui permettaient d’animer directement des images fixes générées par IA. J’ai ainsi pu donner vie aux premières créations LetzAI.

My first animated LetzAI image end 2023 : Kuchemännercher

Septembre 2024 : les modèles se sont encore affinés. J’ai pu assembler plusieurs scènes à partir de portraits LetzAI, publiés par l’artiste Savitar Storm (plus de 16.500 images à l’époque, plus de 100.000 aujourd’hui). Un exemple parfait de la puissance… et du côté addictif de ces technologies.

My first animated LetzAI image sequence in autumn 2024 : Portraits by Savitar Storm

Novembre 2024 : j’ai partagé sur les réseaux sociaux mon premier court-métrage sans caméra, racontant la visite d’un site UNESCO par trois protagonistes de mon livre « Les Jeunes Explorateurs ».

  • Animation : réalisée avec Vidu Studio et KLING AI.
  • Texte : écrit par ChatGPT.
  • Son : bruitages générés avec Meta Audiobox, voix off choisies dans la librairie ElevenLabs.
  • Images fixes : créées avec LetzAI, servant de points d’ancrage visuels.

La vidéo ci-dessous montre successivement la version KLING, puis la version VIDU, ce qui permet de comparer leurs forces et faiblesses.

My first AI short film end 2024 : Young Explorers in Australia

Enfin, j’ai généré l’affiche du film avec LetzAI, en utilisant le modèle de style « @japanese_movie_poster » partagé par Misch Strotz.

Affiche pour la vidéo générée avec LetzAI

Pour conclure ce chapitre, je présente quelques créations professionnelles réalisés avec des outils IA dans le cadre de campagnes de sensibilisation des jeunes sur les risques des informations sur les réseaux sociaux lancés par l’initiative gouvernementale BEE SECURE au courant des années 2024 et 2025.

Vidéos BEE SECURE

Deep Fakes

Deep Fakes : une menace de désinformation accrue.

Les machines qui s’engagent dans les domaines artistiques et culturels

Les machines qui s’engagent dans les domaines artistiques et culturels

Après notre excursion dans les technologies vocales, revenons en août 2022, au moment où a éclaté ce que beaucoup ont appelé la « guerre » entre les artistes des beaux-arts et l’intelligence artificielle.


La première version publique d’un modèle de génération d’images IA en open source a été distribuée le 22 août 2022 par Stability AI, une société britannique fondée en 2019 par Emad Mostaque. Ce projet a été mené en collaboration avec CompVis (Computer Vision and Learning Group de l’Université Ludwig-Maximilian de Munich) et l’organisation à but non lucratif LAION (Large-scale Artificial Intelligence Open Network).


Au départ, le modèle — baptisé Stable Diffusion — restait un outil technique. Il fallait installer des logiciels complexes, parfois disposer d’une carte graphique puissante, et maîtriser des interfaces peu intuitives. Mais très vite, des développeurs indépendants et des start-ups ont intégré Stable Diffusion dans leurs propres plateformes, en créant des interfaces conviviales ainsi que des applications pour mobiles et tablettes.

Dès septembre 2022, j’avais recensé 24 applications dans l’App Store permettant à n’importe quel détenteur d’iPhone ou d’iPad de générer sa première « œuvre d’art ». J’ai rassemblé les pages de couverture de ces applications dans la figure ci-dessous.

Applications iOS de génération d’images IA en septembre 2022

Progressivement, tout un chacun pouvait créer en quelques minutes une illustration d’allure professionnelle, sans formation artistique particulière. Les artistes professionnels ont commencé à voir certains de leurs contrats — couvertures, illustrations de magazines, affiches — remplacés par l’IA.


Les tensions juridiques et la mobilisation des artistes


Courant 2023, les débats juridiques se sont intensifiés :

  • procès Getty Images contre Stability AI pour usage non autorisé d’images,
  • plaintes d’artistes contre l’utilisation de leurs œuvres dans les datasets LAION.

À partir de l’été 2023, des collectifs d’artistes se sont constitués, publiant des lettres ouvertes, des manifestes, des pétitions, lançant des campagnes en ligne et organisant des boycotts. Les médias généralistes ont alors commencé à parler d’une véritable « guerre ouverte » entre artistes et IA. Les créateurs s’opposaient au fait que leurs peintures, illustrations, photographies et autres œuvres soient exploitées par l’IA pour produire des copies virtuelles. Pendant plusieurs semaines, les réseaux sociaux ont été submergés de débats et de prises de position.

Une confusion entre copie et inspiration

Beaucoup d’adversaires pensaient qu’un modèle génératif stockait l’intégralité des images collectées sur Internet dans une gigantesque base de données. Or, la réalité est plus subtile : Un modèle IA ne contient pas des images, mais uniquement des chiffres — des milliers, des millions, parfois des milliards de coefficients — qui définissent la transmission d’informations dans un réseau neuronal artificiel. La comparaison avec notre propre cerveau est éclairante : nous avons suffisamment de souvenirs pour reconnaître une œuvre célèbre, mais nous serions incapables de la reproduire fidèlement sans référence visuelle. C’est ce qui distingue une inspiration d’une copie.

Le cas luxembourgeois : Jingna Zhang et « Turandot »

Pour illustrer cette nuance, je rappelle l’affaire de plagiat qui a opposé en 2022 un jeune artiste luxembourgeois à l’artiste sino-américaine Jingna Zhang. L’affaire a fait le tour des médias luxembourgeois et internationaux.

  • 7 décembre 2022 : le tribunal d’arrondissement luxembourgeois juge que l’originalité de la photo de Jingna Zhang est insuffisante et que l’artiste luxembourgeois n’a donc pas plagié son œuvre. «Le moment sera jouissif», avait fait savoir maître Gaston Vogel, l’avocat de l’artiste luxembourgeois, avant le procès.
  • 9 mai 2024 : la Cour d’appel revoit le jugement et donne finalement raison à Jingna Zhang. L’artiste luxembourgeois est condamné pour violation du droit d’auteur, interdit d’exposer ou de vendre « Turandot » et doit verser une indemnité de procédure de 1.500 €.

En juillet et août 2022, j’avais moi-même demandé à DALL-E2 et à Craiyon de produire des « plagiats » de la photo de Jingna Zhang. Les résultats sont visibles ci-dessous.

J’avais transmis ces images générées par IA par email à l’étude Gaston Vogel, avocat de l’artiste luxembourgeois. Maître Vogel m’a remercié chaleureusement par lettre personnelle pour ces preuves. Mais j’ai eu l’impression qu’il n’avait pas totalement saisi la différence entre une copie directe et une inspiration générée par IA.

LetzAI : l’IA made in Luxembourg

En pleine guerre des artistes contre l’IA au printemps 2023, Misch Strotz, fondateur et directeur de l’agence de communication hybride marketing & technologie Neon Internet, s’est lancé, avec ses associés et collaborateurs, dans la création d’une plateforme luxembourgeoise de génération d’images par IA:


➡️ Nom : LetzAI
➡️ URL : letz.ai
➡️ Modèle de base : Stable Diffusion


Une approche différente

La différence fondamentale avec les générateurs d’images IA existants réside dans la focalisation sur l’entraînement de modèles personnalisés à partir d’une sélection d’images et de photos.
L’objectif explicite : créer des visuels représentant des personnalités, sites touristiques, spécialités culinaires, mascottes, produits et marques luxembourgeois.

Quelques exemples emblématiques :

  • Figures publiques : Grand-Duc Henri, Maître Gaston Vogel
  • Monuments & lieux : Roud Bréck, Gëlle Fra
  • Gastronomie : Bouneschlupp, Kachkéis
  • Culture pop : Yuppi, Superjemp

Inspiration ou copie ?

LetzAI se positionne dans une zone intermédiaire entre inspiration et copie.
L’entraînement complémentaire du modèle Stable Diffusion avec des références spécifiques renforce certains coefficients du réseau neuronal artificiel, de manière à mieux reproduire l’original.
Mais la machine ne génère jamais une copie exacte : contrairement à un photocopieur, elle ne trace pas l’œuvre trait par trait ou point par point.

Cependant, cette ressemblance renforcée a alimenté la méfiance des artistes envers les outils IA, et le Luxembourg n’a pas échappé à ce débat.


Les débuts

Le 9 septembre 2023, j’ai profité de l’offre Early Access (forfait 99 €) pour faire partie des premiers utilisateurs de LetzAI. Quelques jours plus tard, j’entraînais mes premiers modèles personnalisés.

Copie écran de la page web « Early Access » de LetzAI (2023)

Une ambition internationale

Aujourd’hui, LetzAI a largement dépassé les frontières du Luxembourg et est considéré comme l’un des meilleurs générateurs d’images IA au monde. Le lecteur intéressé trouvera sur ce portail plusieurs chapitres dédiés aux réalisations marquantes de LetzAI.

En attendant, pour conclure ce chapitre sur le domaine artistique et culturel, je présenterai ci-après quelques images de sujets qui risquent de disparaître de la plateforme, leurs ayants droit s’étant opposés à l’utilisation de leurs marques ou de leurs œuvres pour entraîner un modèle LetzAI.

Les machines qui animent des têtes parlantes

Les machines qui animent des têtes parlantes

Les tout premiers systèmes de synthèse vocale prenaient souvent la forme de têtes parlantes.
Au Moyen Âge, il s’agissait le plus souvent de supercheries : ainsi, la fameuse tête parlante attribuée à Albert le Grand, qui aurait été brisée par Thomas d’Aquin, relevait davantage du mythe que de la science. D’autres prétendus prodiges reposaient simplement sur la ventriloquie.

Thomas d’Aquin détruit la tête parlante d’Albert le Grand

Un véritable exploit technique vit cependant le jour le 2 juillet 1783, lorsqu’un automate à deux têtes parlantes fut présenté à l’Académie royale des sciences de Paris. Son inventeur était Jacques de Vaucanson Mical, dit l’abbé Mical (1730–1809). L’appareil se composait de deux bustes mécaniques reliés à un système de soufflets et de tuyaux imitant les poumons, le larynx et la bouche.
Chaque tête produisait des sons distincts qui, combinés, pouvaient articuler des phrases complètes en français. On estime qu’elles étaient capables de prononcer une quinzaine de mots intelligibles, parmi lesquels :

  • « Le Roi a donné la paix à l’Europe »
  • « La paix fait la gloire des rois »

Cette machine illustre parfaitement l’esprit à la fois scientifique et spectaculaire du Siècle des Lumières.

Têtes parlantes de l’abbé Mical (1783)

Un autre exemple marquant est la machine parlante Euphonia, conçue à partir de 1835 par l’inventeur allemand Joseph Faber (1800–1850). Formé en physique, mathématiques et musique à l’Institut polytechnique impérial et royal de Vienne, Joseph Faber présenta sa création à Vienne, puis au roi de Bavière en 1841.

L’Euphonia fut ensuite exposée à Berlin et à Dresde, avant de traverser l’Atlantique pour des démonstrations à New York et à Philadelphie. Mais ce n’est qu’à partir de 1846, lors d’expositions à Londres et à Paris, que la machine devint une véritable attraction.
Pendant plusieurs décennies, elle intégra même le cirque itinérant de P.T. Barnum, captivant des foules à travers le monde.

Tête parlante Euphonia de Joseph Faber (1835)

Après la mort de Joseph Faber, la machine passa entre les mains de sa nièce et de son mari, qui poursuivirent les démonstrations publiques. Mais après 1885, on perd définitivement la trace de cette invention fascinante.

Têtes parlantes virtuelles

Cent cinquante ans après la présentation de l’Euphonia, les têtes parlantes sont devenues virtuelles.
À la fin des années 1990, les applications permettant de créer des têtes animées pour le web se multipliaient. Haptek, Mendel3D, Famous3D, LifeX, Crazy Talk, avTalk, FaceWorks ne sont que quelques exemples de produits qui, à l’époque, offraient la possibilité de générer des têtes 3D à partir de deux simples photos de son visage — une de face et une de profil.

My FaceWorks Talking Head (1999)

La figure ci-dessus illustre l’interface de FaceWorks, un outil lancé en 1997 par Digital Equipment Corporation.

Les objectifs de ces têtes parlantes en trois dimensions étaient variés :

  • création d’avatars personnalisés pour les jeux vidéo,
  • réduction de la bande passante en visiophonie (une tête animée consomme moins de données qu’une vidéo complète),
  • étude des interactions sociales dans des environnements numériques.

Parmi ces programmes, le plus avancé était 3DmeNow, développé par la société anglaise BioVirtual. Cet outil permettait de créer des têtes parlantes photo-réalistes et d’animer le visage en synchronisation avec sa propre voix.

Ma propre tête parlante, créée à l’époque avec 3DmeNow, est présentée dans la petite vidéo ci-après :

My Biovirtual Talking Head 3DmeNow in 2000

Les têtes parlantes multilingues

La combinaison de la traduction automatique, du clonage de la voix et de la synchronisation labiale permet aujourd’hui de générer des têtes parlantes capables de s’exprimer dans des centaines de langues différentes.

En septembre 2023, j’ai réalisé une petite vidéo en anglais pour présenter le premier volume de ma tétralogie Qubit Lëtzebuerg, qui raconte l’histoire de l’introduction des nouvelles technologies de l’information et de la communication au Luxembourg. Grâce à la version bêta de l’application «Translate a Video» de Heygen, j’ai pu générer douze versions traduites : en allemand, coréen, espagnol, français, hindi, italien, japonais, mandarin, néerlandais, polonais, portugais et turc.


À découvrir ci-après :

Vidéo multilingue

Français

Présentation « Qubit Lëtzebuerg » — version française.


Les têtes parlantes luxembourgeoises

Il y a deux ans, les outils IA de Heygen ne maîtrisaient pas encore le luxembourgeois. Depuis, les têtes parlantes — devenues entre-temps de véritables avatars  — ont appris à s’exprimer aussi dans notre langue nationale.

J’ai ainsi généré, début juillet 2025, la vidéo ci-dessous avec l’avatar public Annie de Heygen, qui récite la fable d’Ésope « De Nordwand an d’Sonn ».

Avatar public Annie de Heygen en juillet 2025

Les machines qui reconnaissent notre voix

Les machines qui reconnaissent notre voix

On confond souvent reconnaissance de la parole et reconnaissance de la voix, mais ce sont deux notions différentes.

  • Dans le premier cas, l’objectif est de comprendre ce qui est dit : ce sont les systèmes ASR, présentés dans le chapitre précédent.
  • Dans le second cas, il s’agit de reconnaître une empreinte vocale afin d’identifier la personne qui parle.

Une expérience pratique

Lors de l’entraînement du modèle TTS  avec la voix de Max Kuborn, je me suis heurté à un problème inattendu: il fallait distinguer les enregistrements masculins et féminins.

En effet, les métriques associées à la création du modèle luxembourgeois ne progressaient pas de façon cohérente. Après enquête, j’ai découvert que la base de données (environ 45.000 échantillons) contenait quelques centaines d’enregistrements d’une collaboratrice du ZLS. Une erreur de manipulation lors de l’assemblage par le ZLS avait provoqué ce mélange. Ni les noms des fichiers ni leurs dates n’aidaient à faire le tri. Une séparation manuelle, en écoutant chaque échantillon, aurait été irréaliste vu le volume.

J’ai donc demandé à ChatGPT de générer une application pour automatiser le tri. L’IA a produit un script Python qui analysait les fréquences sonores et l’intonation. Mais les résultats n’étaient pas assez fiables. Finalement, j’ai trouvé sur HuggingFace l’outil IA voice-gender-classifier, développé par Jaesung Huh. Avec un petit script Python, j’ai pu l’intégrer et utiliser cette application pour filtrer correctement la base. Après nettoyage, l’entraînement du modèle TTS s’est déroulé sans difficulté.

HuggingFace demo space of a voice-gender-classifier (2024)

De la reconnaissance de genre à la diarisation

Depuis cet incident, survenu en juin 2024, de nouveaux outils de diarisation sont apparus. Ces systèmes ne se contentent plus de distinguer les voix masculines et féminines : ils répondent avec précision à la question clé de la diarisation :
👉 « Qui parle, et à quel moment ? »

Un système de diarisation combine généralement plusieurs étapes :

  1. Segmentation : découper l’audio en morceaux correspondant à une seule voix.
  2. Caractérisation : extraire des empreintes vocales (embeddings) qui résument les caractéristiques de la voix (timbre, hauteur, spectre).
  3. Clustering : regrouper les segments similaires pour déterminer combien de personnes parlent et attribuer chaque segment au bon locuteur.
  4. Étiquetage : associer chaque voix à une identité (par exemple Alice ou Bob), si un échantillon de référence est disponible.

Les machines qui se déplacent

Les machines qui se déplacent

En 1898, Nikola Tesla présenta l’une de ses inventions les plus stupéfiantes au Madison Square Garden lors d’une exposition électrique. Devant une foule intriguée, il fit la démonstration d’un petit bateau sans équipage qui semblait obéir à des commandes vocales. Les spectateurs criaient des instructions, et le bateau répondait en changeant de direction, en s’arrêtant ou en allumant ses lumières. Ce qu’ils ignoraient, c’est que Tesla le contrôlait discrètement grâce à un émetteur radio. Cette mise en scène constitua l’une des toutes premières démonstrations mondiales de télécommande sans fil, une technologie si en avance sur son temps que beaucoup dans le public crurent à un tour de magie, voire à de la télépathie.

Nikola Tesla appela son invention un « téléautomate », et il avait d’ailleurs déposé un brevet à ce sujet plus tôt dans l’année. Le bateau fonctionnait avec des batteries et était équipé d’un récepteur, d’un gouvernail commandé à distance et de moteurs électriques. Bien que sous-estimée de son vivant, la démonstration de Nikola Tesla posa les bases de technologies modernes comme la communication sans fil, les véhicules téléguidés et même les drones. Son petit bateau n’était pas un simple jouet flottant dans un bassin : c’était un aperçu de l’avenir.

Les machines qui reconnaissent notre parole

Les machines qui reconnaissent notre parole

Les machines qui reconnaissent notre parole (ASR – Automatic Speech Recognition, respectivement STT = Speech to Text) comprennent ce que nous disons : elles convertissent la parole en texte.

Chacun a probablement déjà utilisé un assistant personnel pour dicter un message. Les plus connus sont :

  • Siri (2011), d’Apple,
  • Google Assistant (2012), sur smartphones Android,
  • Cortana (2014), intégré aux systèmes Windows de Microsoft,
  • Alexa (2014), développée par Amazon pour ses enceintes connectées,
  • Bixby (2017), assistant vocal de Samsung.

Les pionniers


Ces outils modernes ont eu des prédécesseurs bien plus anciens :

  • 1952 : Audrey, développé par les laboratoires Bell, ne reconnaissait que les chiffres de 0 à 9, et uniquement pour un locuteur spécifique.
  • 1962 : à l’exposition universelle de Seattle, IBM présente Shoebox, capable de reconnaître en outre 16 mots liés aux opérations arithmétiques de base. Il est considéré comme l’un des ancêtres de la reconnaissance vocale interactive.
  • 1976 : Harpy, développé à l’Université Carnegie Mellon (Pittsburgh), maîtrisait déjà un vocabulaire de 1000 mots. Il reposait sur les réseaux d’états finis, qui ont jeté les bases des modèles de Markov cachés (HMM). Les HMM ont dominé la recherche et les applications en reconnaissance vocale pendant plusieurs décennies, jusqu’à l’arrivée de l’apprentissage profond sur les réseaux neuronaux.

La révolution Dragon


En 1997, le logiciel Dragon NaturallySpeaking marque une véritable révolution : c’est le premier logiciel grand public de dictée vocale continue. Il est adopté massivement par les professionnels (médecins, avocats, secrétaires, etc.). Ses créateurs, James K. Baker et son épouse Janet M. Baker, tous deux anciens de Carnegie Mellon, avaient fondé Dragon Systems en 1982. En 2000, l’entreprise est rachetée par Lernout & Hauspie (L&H), fleuron belge de la technologie vocale devenu mondialement célèbre, mais dont l’histoire s’est achevée dans un retentissant scandale financier.

Les actifs de L&H ont ensuite été repris par ScanSoft, qui fusionne en 2005 avec Nuance Communications. Nuance devient alors le leader mondial de la reconnaissance vocale… jusqu’à son rachat par Microsoft en 2022. Aujourd’hui, les héritages de Dragon se retrouvent dans les services cloud récents de Microsoft : Azure, Microsoft 365, Copilot, etc.

Le cas luxembourgeois


Aucun des outils cités jusqu’à présent ne prend en charge le luxembourgeois. Pourtant, le pays dispose aujourd’hui de deux systèmes performants de reconnaissance de la parole : schreifmaschinn.lu et Lux-ASR. Fait étonnant : ces applications ont été accessibles au grand public avant les premiers systèmes de synthèse vocale luxembourgeoise, alors que la technologie ASR est encore plus complexe que celle du TTS. En effet, l’entraînement d’un système ASR exige bien plus d’échantillons audio annotés que pour un modèle TTS.

Dans la suite, j’expliquerai les raisons qui ont permis cette avancée et je retracerai l’histoire du développement de ces deux systèmes.

Les bases technologiques modernes :

  • 2009 : lancement de Kaldi, un projet open source de l’Université Johns Hopkins (USA), devenu une référence dans la recherche ASR.
  • 2019 : Wav2Vec, modèle développé par Meta AI (Facebook Research), entraîné sur des échantillons couvrant 53 langues.
  • 2021 : sortie d’une version étendue de Wav2Vec, supportant 128 langues, dont le luxembourgeois.
  • 2021 : Coqui-AI développe en parallèle à ses systèmes TTS un modèle ASR nommé Coqui-STT.
  • 2022 : OpenAI publie Whisper (septembre), le modèle ASR open source le plus performant à ce jour, réputé pour sa robustesse et sa précision multilingue.

Trois générations au service de la reconnaissance vocale luxembourgeoise

Trois personnes issues de trois générations différentes se sont lancées dans le développement d’applications ASR en luxembourgeois entre fin 2021 et début 2022.


🎓 La génération Z

Le plus jeune, Le Minh Nguyen (génération Z), est un étudiant luxembourgeois en sciences des technologies vocales à l’Université de Groningen (Pays-Bas). Au printemps 2022, il effectue un stage auprès du ZLS (Zenter fir d’Lëtzebuerger Sprooch) et, à l’été, il obtient son master avec distinction cum laude. Son mémoire de fin d’études s’intitulait « Improving Luxembourgish Speech Recognition with Cross-Lingual Speech ».

À partir de l’automne 2022, il perfectionne son modèle avec l’appui de Sven Colette, linguiste informatique, chercheur et consultant en IA, qui avait rejoint le ZLS au début de 2021. Ensemble, ils enrichissent l’entraînement du modèle ASR avec des échantillons audio/texte supplémentaires fournis par RTL et la Chambre des Députés.

Le volume, la richesse et la qualité de ces enregistrements, associés aux textes sources de RTL et aux transcriptions du secrétariat de la Chambre, ont largement contribué au succès du projet.

L’application schreifmaschinn.lu est inaugurée le 9 décembre 2022 par Claude Meisch, ministre de l’Éducation nationale et ministre de tutelle du ZLS. Une deuxième version, basée sur le modèle Whisper d’OpenAI, est mise en production fin septembre 2023.

Schreifmaschinn.lu by ZLS (December 2022)

👨‍🏫 La génération X

Le deuxième acteur est Peter Gilles (génération X), déjà présenté dans un chapitre précédent. Dès février 2022, il publie un premier prototype ASR sur la plateforme HuggingFace, basé sur le modèle Wav2Vec de Meta AI et entraîné sur des données similaires à celles utilisées par le ZLS. En mai 2022, il présente les résultats complets sur le site de l’Université du Luxembourg, sous le titre « A very first model ». Ce fut un jalon important dans le développement des technologies vocales au Luxembourg.

Luxembourgish STT by uni.lu (2022)

Lors de l’inauguration de schreifmaschinn.lu, Peter Gilles me confie qu’il s’est lancé dans le perfectionnement de Whisper, déjà pré-entraîné pour le luxembourgeois. Quelques mois plus tard, je découvre son premier prototype sur HuggingFace. Mes tests montrent rapidement des performances extraordinaires.

Par la suite, le projet est présenté lors de conférences internationales par Peter Gilles, Nina Hosseini Kivanani et Léopold Edem Ayité Hillah, avant d’être mis à disposition du public sous le nom de Lux-ASR.

LuxASR by uni-lu (2023)

Début 2024, l’Université du Luxembourg et la Chambre des Députés annoncent une phase de test pour assister le secrétariat dans la transcription des débats et discours parlementaires.

Récemment, une API a été mise à disposition des entreprises pour connecter LuxASR à leurs systèmes informatiques. De plus, des applications mobiles pour iOS et Android ont été publiées dans l’App-Store et dans Google Play-Store, permettant d’utiliser LuxASR directement sur smartphone.

Ces outils ne se limitent pas à la reconnaissance du luxembourgeois : ils gèrent également d’autres langues, traduisent les transcriptions, distinguent les voix de différents interlocuteurs et peuvent traiter des vidéos entières afin d’extraire les dialogues et générer des sous-titres. Autant de fonctionnalités qui ouvrent la voie à une véritable machine IA rédactrice de comptes rendus. Nous reviendrons sur ce point dans un prochain chapitre.


👴 La génération baby-boomer

Enfin, j’étais la troisième personne, représentant la génération baby-boomer, également fasciné par l’ASR. Mes premiers développements se sont appuyés sur le modèle Coqui-STT. Fin juillet 2022, j’ai publié sur HuggingFace un modèle STT multilingue intitulé : « Mir verstinn och Lëtzebuergesch ». Mais très vite, j’ai dû reconnaître que face à la supériorité du modèle Whisper, mon projet ne pouvait pas rivaliser. J’ai donc décidé d’arrêter son développement.

My HuggingFace demo space with Coqui-STT

Les machines qui parlent notre langue

Les machines qui parlent notre langue


Pour s’entretenir avec une machine en langage naturel, il faut qu’elle puisse répondre par la voix. La technologie qui rend cela possible est la synthèse vocale, connue sous le sigle TTS (Text-to-Speech).


J’ai toujours été fasciné par cette technologie. En 1976, j’ai supervisé un travail de diplôme à l’Institut d’Électronique de l’EPFZ, réalisé par Kurt Mühlemann. L’objectif était de créer un circuit de synthèse vocale avec des filtres réglés. À la fin, le synthétiseur était capable de prononcer la phrase « Ich bin ein Computer », avec une tonalité résolument robotique.


En 2020, j’ai publié un livre retraçant l’histoire de la synthèse vocale mécanique, électrique, électronique et informatique, sous le titre Synthèse de la Parole.

On y trouve, entre autres, Pedro the Voder, présenté à l’Exposition universelle de New York en 1939, l’Orator Verbis Electris (OVE-1, 1953), le synthétiseur Parametric Artificial Talker (P.A.T., 1958), le Votrax (1970), le célèbre jouet éducatif Speak & Spell (1976), les programmes KlatTalk et  DECTalk (1982), ainsi que les systèmes Festival et Merlin, apparus à partir de 1984.

Ces projets, ainsi que leurs inventeurs et inventrices, seront présentés en détail dans un chapitre spécifique.


Aujourd’hui, les sociétés GAFAM (Google, Apple, Facebook, Amazon, Microsoft) proposent des services de synthèse vocale dans le cloud avec des voix artificielles d’une telle qualité qu’il est souvent impossible de les distinguer d’une voix humaine. Hélas, la langue luxembourgeoise n’est pas encore prise en charge par ces grands acteurs.


Les premiers pas au Luxembourg


En mars 2014, j’ai commencé à développer un module de synthèse vocale luxembourgeoise pour la version 1.48.4 du logiciel libre eSpeak. Ce projet avait été lancé en 1995 par Jonathan Duddington, jeune informaticien anglais, pour les ordinateurs personnels ACORN équipés du système d’exploitation RISC OS. Le système utilisait la méthode de synthèse par formants et reposait sur les phonèmes, c’est-à-dire les plus petits sons d’une langue qui permettent de distinguer les mots. On distingue notamment voyelles et consonnes, prononciation voisée (sonore) ou sourde.

Speak by Jonathan Duddington (1995)

1995 était également l’année de lancement d’un projet majeur de synthèse vocale à la Faculté polytechnique de Mons (Belgique). Il s’agissait d’un projet de recherche européen, financé par la Commission européenne et dirigé par Thierry Dutoit.

La méthode retenue reposait sur la concaténation de diphones — des segments de parole qui couvrent la transition entre deux phonèmes. Le système fut baptisé MBROLA, acronyme de Multi-Band Resynthesis OverLap-Add. Cette approche constituait une variante optimisée de la technique PSOLA (Pitch-Synchronous Overlap-Add), spécifiquement adaptée à la synthèse vocale par diphones.

MBROLA n’intégrait pas directement la conversion de texte en phonèmes : cette étape était généralement assurée par des outils complémentaires comme eSpeak. Le projet avait toutefois une particularité novatrice pour l’époque : sa distribution gratuite était autorisée pour des usages non commerciaux, notamment en recherche et en éducation, ce qui a largement contribué à sa diffusion et à son succès académique.

J’avais interrompu mon travail sur eSpeak quand le projet plus avancé MaryLUX a été présenté en septembre 2015 à l’Université du Luxembourg par Ingmar Steiner, Jürgen Trouvain, Judith Manzoni et Peter Gilles. Ce système reposait sur MaryTTS, une technologie de synthèse vocale par sélection d’unités développée à l’Université de la Sarre dès les années 2000.


En septembre 2021, j’ai repris le développement du module luxembourgeois pour eSpeak, à la demande d’une personne aveugle qui souhaitait l’utiliser comme lecteur d’écran. C’était alors le seul moyen d’ajouter le luxembourgeois dans l’application libre NVDA (Non Visual Desktop Access), destinée aux aveugles et malvoyants. Le 11 novembre 2021, le luxembourgeois figurait comme 127e langue dans eSpeak-NG (nouvelle génération).

Pull request for my luxembourgish eSpeak-NG module (November 2021)


L’apport de Coqui-AI


L’année 2021 fut aussi marquée par la fondation de la start-up allemande Coqui-AI, qui ambitionnait de créer un écosystème européen dédié aux voix synthétiques. L’entreprise proposait une large gamme de modèles TTS basés sur des réseaux neuronaux modernes, accompagnés d’instructions détaillées pour les installer et les exécuter sur des ordinateurs personnels.


Pour la première fois, la communauté mondiale des passionnés de TTS disposait d’un environnement complet pour se familiariser avec l’apprentissage profond, aujourd’hui méthode de référence pour la création de systèmes d’IA vocale. J’ai été un des utilisateurs de la première heure et, sans surprise, j’ai commencé mes essais par la création d’une voix synthétique luxembourgeoise.


Cet exemple est idéal pour expliquer quelles sont les données, compétences et infrastructures nécessaires pour développer une application d’IA. J’en présente ici les grandes lignes avant d’entrer dans les détails dans les chapitres suivants.


Les ingrédients d’un modèle TTS


Le modèle TTS


La condition de départ est la disponibilité d’un modèle performant. Je ne détaillerai pas ici l’installation technique sur un ordinateur ou dans le cloud — c’est déjà une prouesse en soi — mais il faut savoir que le code est généralement partagé sur une plateforme de collaboration comme GitHub.


Les données


Un échantillon est constitué d’un enregistrement audio d’un texte parlé (de quelques secondes à une minute), accompagné d’un fichier texte avec la transcription et la séquence de phonèmes.


Les enregistrements doivent idéalement être réalisés par un locuteur qualifié, dans un studio sans bruit de fond. Mais un seul échantillon ne suffit pas: il en faut des milliers pour entraîner un modèle. Dans une langue dite à faibles ressources comme le luxembourgeois, cela constitue un vrai défi. Les bases de données peuvent être hébergées sur la plateforme HuggingFace, ou sur le portail national data.public.lu s’il s’agit de données luxembourgeoises.


L’entraînement


Avant de lancer l’apprentissage, il faut paramétrer le modèle : nombre d’itérations, format audio, taille des échantillons, etc. Le processus d’entraînement peut durer des heures, des jours, voire des semaines, selon la puissance de calcul disponible et le nombre d’échantillons. L’entraîneur doit analyser régulièrement les logs d’entraînement et réagir aux éventuelles erreurs. En général, cette étape demande une expertise avancée, souvent de niveau doctorat.


La mise au point


Une fois le modèle entraîné, il faut le mettre en production pour les utilisateurs, avec un guide d’usage et un dictionnaire des noms propres, mots étrangers et abréviations. Cette phase de finition requiert elle aussi des compétences spécialisées.


Les premiers modèles luxembourgeois


Pour entraîner mon premier modèle AI-TTS luxembourgeois fin 2021, j’ai utilisé la base de données MaryLUX. Pour le deuxième, j’ai ajouté des dictées disponibles sur le site de l’Université du Luxembourg, avec le consentement des trois oratrices et de Peter Gilles, linguiste et directeur du département des sciences humaines. J’ai publié les résultats sur mon site web le 6 janvier 2022.


Comme la qualité restait en deçà de l’état de l’art, j’ai enrichi la base avec des échantillons multilingues équilibrés (anglais, français, allemand, portugais) disponibles dans le domaine public, ce qui a permis de multiplier par cinq le volume d’entraînement. Le résultat fut un des premiers modèles TTS multilingues, présenté sur HuggingFace, et salué par la communauté comme par les responsables de Coqui-AI. Chaque voix pouvait synthétiser un texte dans les cinq langues, tout en conservant le charme de son accent natif.

My HuggingFace demo space of a multilingual TTS model (2022)

Liesmaschinn.lu


Depuis 2021, je collabore avec le Zenter fir d’Lëtzebuerger Sprooch (ZLS). J’y ai appris que Max Kuborn, collaborateur de longue date de RTL, enregistrait des phrases en luxembourgeois pour documenter la prononciation des mots du LOD (Lëtzebuerger Online Dictionnaire). Convaincu de la valeur de ces données, j’ai demandé à obtenir une copie.

Je pariais que, vu la taille considérable de la base de données, il serait possible de se passer de l’étape intermédiaire des phonèmes et d’entraîner directement le modèle TTS à partir des caractères alphabétiques. Autrement dit, au lieu d’utiliser une première application d’IA pour convertir le texte en phonèmes, puis une deuxième pour transformer ces phonèmes en sons, on pourrait imaginer un modèle capable d’apprendre directement la correspondance lettres → sons grâce à la masse de données disponibles.


En mars 2024, j’ai reçu un premier lot de fichiers. En juillet 2024, j’ai pu présenter une première version du modèle TTS, entraîné avec ces enregistrements, aux responsables du ZLS et au commissaire à la langue luxembourgeoise, Pierre Reding. Tous furent impressionnés par la qualité de la voix synthétisée. On décida alors de mettre le système à disposition du public sous le nom de Schwätzmaschinn.


La responsabilité technique fut ensuite confiée à Christopher Morse, nouveau collaborateur du ZLS, spécialisé dans les technologies IA, qui adapta le modèle pour la production. Après quelques mois, le TTS fut installé sur les ordinateurs du gouvernement, aux côtés du système de reconnaissance vocale schreifmaschinn.lu (ASR), inauguré le 9 décembre 2022. Le projet prit finalement le nom Liesmaschinn.lu, intégré dans le portail combiné Sproochmaschinn.lu.


Le 10 février 2025, le ministre de la Culture, Eric Thill, a présenté officiellement cette plateforme vocale à la presse.

Liesmaschinn vum ZLS (Februar 2025)

Les évolutions récentes


L’évolution exponentielle de l’IA fait que les grandes étapes se comptent désormais en mois plutôt qu’en années.

  • Décembre 2023 : Coqui-AI annonce sa fermeture et ses services disparaissent progressivement.
  • Mars 2025 : le gouvernement lance un appel d’offres pour le projet ScreenReaderLB, destiné à remplacer le module eSpeak-NG luxembourgeois dans les lecteurs d’écran pour malvoyants.
  • 15 avril 2025 : RTL et l’Université du Luxembourg annoncent le lancement de LuxVoice, un projet de recherche financé par le Fonds National de la Recherche (FNR). L’objectif est de développer un système de synthèse vocale luxembourgeois à la fois expressif sur le plan émotionnel et riche sur le plan linguistique. Les responsables du projet sont :
    • Nina Hossemi-Kivanani, cheffe de projet chez RTL
    • Tom Weber, CTO de RTL
    • Peter Gilles, conseiller scientifique à l’Université du Luxembourg
  • Mai 2025 : Michel Hansen (alias Synesthesiam), ancien contributeur au projet Coqui-TTS, publie une nouvelle version de son modèle luxembourgeois Piper TTS.
  • Juin 2025 : la start-up luxembourgeoise SoftGiant TTS présente son premier modèle luxembourgeois. Malheureusement, la licence de la base du ZLS utilisée pour l’entraînement ne permet pas une exploitation commerciale.

Les machines qui traduisent nos textes

Les machines qui traduisent nos textes

Lorsque deux personnes ne parlent pas la même langue, il faut convertir le contenu exprimé dans la langue source vers la langue cible : c’est ce que l’on appelle la traduction. Le Luxembourg figure parmi les pionniers de la traduction automatique, notamment parce que de nombreuses institutions européennes y ont leur siège.

Dans son rapport d’activités 1975–1977, la Direction générale XIII de la Commission européenne (chargée de l’information et de l’innovation) annonçait le lancement d’un projet pilote de traduction automatique avec le logiciel SYSTRAN. Un premier contrat pour l’utilisation de SYSTRAN par les institutions européennes a été signé fin 1975 avec Peter Toma, un informaticien hongrois émigré aux États-Unis en 1952, qui avait commencé à développer des systèmes de traduction automatique dès 1961.

Vidéo sur l’histoire de SYSTRAN et de son fondateur Peter Toma

L’histoire de SYSTRAN se lit comme un roman policier ; je la raconte en détail (dix pages) dans le premier volume de ma tétralogie Qubit Lëtzebuerg, consacrée à l’introduction des technologies de l’information et de la communication au Luxembourg.

En avril 2006, Google a utilisé SYSTRAN pour démarrer son service de traduction en ligne Google Translate. Dès octobre 2007, le système a été remplacé par une technologie propriétaire de Google, qui est restée pendant plus de dix ans le seul outil capable de traduire le luxembourgeois.

Du côté des institutions européennes, SYSTRAN a été remplacé en décembre 2010 par MT@EC, puis en mars 2020 par eTranslation. Ironie de l’histoire : aucun de ces projets développés (en partie) au Luxembourg ne maîtrise la langue luxembourgeoise.

En 2022, j’ai développé un espace de démonstration pour la traduction anglais ↔ luxembourgeois avec trois modèles d’IA open source : NLLB (Meta AI), MarianNMT (projet académique) et T5/mt5 (Google Research). Chaque utilisateur peut constater que, malgré leurs qualités, ces modèles sont encore loin du niveau requis pour obtenir un certificat C1 en luxembourgeois.

My HuggingFace space in 2022

Aujourd’hui, ChatGPT et des outils commerciaux comme DeepL sont largement utilisés par des journalistes et autres professionnels pour traduire des textes dans différentes langues. Les versions récentes de ChatGPT peuvent effectivement traduire des textes luxembourgeois dans les deux sens, mais le résultat reste loin de celui d’un traducteur natif. Pourtant, les technologies et les données existent déjà pour développer un modèle IA capable de traduire le luxembourgeois de manière parfaite.

Deux exemples encourageants : Sitraka Matthieu Forler, data scientist travaillant depuis juin 2025 chez POST Luxembourg, a montré la voie en développant une version personnalisée de ChatGPT dédiée à la traduction anglais/français/allemand ↔ luxembourgeois. Ce projet, baptisé LuxemGPT, n’en est encore qu’à sa version 0.1, mais il constitue un premier pas prometteur.

LuxemGPT 0.1 by Sitraka Matthieu Forler (September 2025)

Un deuxième projet, déjà arrivé à la version 0.6.2, a été présenté le 24 septembre 2025 par Michel Weimerskirch, créateur du correcteur orthographique luxembourgeois (spellchecker), dont le développement a débuté en 2006. Le site web spellchecker.lu, très apprécié des résidents, a été repris en 2023 par le ZLS (Zenter fir d’Lëtzebuerger Sprooch), qui gère également le LOD (Lëtzebuerger Online Dictionnaire).

Michel Weimerskirch a étudié le génie logiciel à l’Université technique de Kaiserslautern de 2004 à 2009. Après ses études, il a travaillé comme développeur web indépendant avant de fonder, en 2013, avec deux associés, sa propre agence web Lightbulb. Il y a quelques années, il a choisi de rejoindre une entreprise en tant que développeur web full-stack et a cédé ses parts dans Lightbulb à ses cofondateurs.

KI-Iwwersetzer by Michael Weimerskirch (September 2025)

Les machines qui génèrent des images

Les machines qui génèrent des images

L’histoire de la génération d’images par intelligence artificielle sera développée dans plusieurs chapitres spécifiques. J’en résume ici les premières étapes marquantes :

  • 1972 : Harold Cohen, pionnier à la croisée de l’IA et des arts visuels, crée AARON, un programme informatique révolutionnaire conçu pour générer de manière autonome des peintures et des dessins. Son approche novatrice, mêlant créativité computationnelle et art traditionnel, lui vaut une renommée internationale. Les œuvres d’AARON sont exposées dans de nombreux musées prestigieux à travers le monde, et Cohen reçoit plusieurs distinctions au cours de sa carrière.
  • Années 1990–2000 : les premiers algorithmes évolutifs, fractals et générateurs procéduraux, comme POV-Ray (Persistence of Vision Raytracer), permettent de créer des images abstraites ou des paysages virtuels. Ces productions restent toutefois éloignées du réalisme photographique.
  • 2014 : Ian J. Goodfellow, alors chercheur chez Google Brain (et plus tard directeur de l’apprentissage automatique chez Apple), invente les GANs (Generative Adversarial Networks). Deux réseaux neuronaux y sont mis en compétition : l’un génère des images, l’autre les évalue. C’est une révolution : pour la première fois, l’IA produit des visages, objets et paysages réalistes. En 2019, le site This Person Does Not Exist, qui génère des visages fictifs ultra-réalistes, fait sensation.
  • 2015 : Des chercheurs de Google, notamment Alexander Mordvintsev, présentent DeepDream, une « machine à rêves » numérique qui transforme des images existantes en visions psychédéliques et devient rapidement virale sur Internet.
  • 2021 : OpenAI lance DALL-E, premier modèle capable de générer des images originales à partir de simples descriptions textuelles.
  • 2021 (juillet) : DALL-E mini, créé par Boris Dayma à la suite d’un hackathon organisé par Hugging Face et Google.
  • 2022 : explosion médiatique avec plusieurs modèles concurrents : DALL-E2 (OpenAI), Imagen (Google), MidJourney, et Stable Diffusion (Stability AI).
  • 2023 : lancement de LetzAI, générateur d’images IA luxembourgeois. C’est la première plateforme à permettre la création conviviale de modèles personnalisés, avec ses propres personnages, objets et styles. Rapidement, LetzAI évolue et est aujourd’hui considéré comme l’un des écosystèmes visuels les plus performants au monde.
  • 2024 : DALL-E3 est intégré à ChatGPT et les générateurs d’images par IA s’invitent dans les outils de création grand public, comme Photoshop.

Mon expérience avec DALL-E2

J’ai découvert les premières images de DALL-E2 dans l’édition du 14 juillet 2022 du magazine renommé IEEE Spectrum. Certaines de ces illustrations m’ont profondément marqué.

Le modèle neuronal DALL-E2 avait été entraîné sur environ 650 millions d’images, extraites d’Internet et accompagnées de descriptions textuelles. À ce moment-là, le modèle n’était pas public : seuls quelques chercheurs sélectionnés y avaient accès pour l’évaluer.

Quelques jours plus tard, OpenAI annonçait que le million d’usagers inscrits sur une liste d’attente seraient progressivement invités à tester une version bêta. Je m’étais moi aussi inscrit.

Pour prévenir les abus, OpenAI avait imposé des garde-fous : interdiction de générer des contenus violents, racistes ou pornographiques, et impossibilité de créer des visages humains réalistes.

En attendant d’être invité à tester DALL-E2, je me suis tourné vers DALL-E mini, développé par Boris Dayma. Publié d’abord sur la plateforme communautaire HuggingFace, le modèle, devenu viral, a ensuite été hébergé sur un site dédié : craiyon.com. Certes, ce modèle n’avait ni la résolution ni la performancede son «grand frère», mais il permettait déjà d’entrevoir le potentiel disruptif de cette technologie. Tout comme DALL-E2, il empêchait la génération de visages réalistes.

Lorsqu’on soumettait une description sur Craiyon, 16 images en basse résolution étaient produites, et les 9 meilleures s’affichaient à l’écran.

Le 15 août 2022, j’ai enfin reçu la confirmation qu’OpenAI avait accepté ma candidature pour participer aux tests de DALL-E2. Je me suis empressé d’effectuer mes premiers essais.

Mon tout premier prompt était :
“cartoon of an elephant and a giraffe riding a bicycle on the beach”

Parmi les quatre images générées, chacune en 1024 x 1024 pixels, j’ai choisi celle qui me plaisait le plus :

cartoon of an elephant and a giraffe riding a bicycle on the beach (août 2022)

J’étais fasciné par cette technologie et j’utilisais chaque jour tous mes crédits gratuits. Je publiais régulièrement mes meilleures créations comme image du jour sur Facebook, Instagram et LinkedIn.

Le prompt avec l’éléphant et la girafe est d’ailleurs resté mon test favori : je l’utilise encore aujourd’hui pour comparer les résultats des nouveaux générateurs d’images, y compris des modèles chinois.