Pas d'équation, ni de lignes de code, je procède comme ChatGPT. J'utilise le langage naturel pour vous raconter comment fonctionnent quelques architectures fondamentales de l'IA.

Ici, on va aborder un gros morceau, il m'a fallu plusieurs jours pour comprendre comment cela fonctionnait. Mais je ne suis pas déçu, c'est brillantissime.

Il s'agit de Stable Diffusion, le modèle derrière quasiment tous les générateurs d'images, type DALL·E (OpenAI), Midjourney, etc.

Les auteurs du papier qui va être à l'origine du principe directeur de ce modèle, la Diffusion, sont vraiment aller chercher loin l'inspiration. On va se mettre dans leurs chaussures quelques instants parce que, lorsque vous aurez compris la démarche, tout le reste va devenir plus clair.

Vous avez surement croisé le destin de la tasse de café qui refroidit pour adopter la température ambiante. Ce sont les lois immuables de la thermodynamique. Et bien, il existerait des exceptions. Prends ça dans les dents Patriarcat !

Dans des systèmes très petits, en chimie par exemple, on a constaté des variations dans le transfert de l'énergie. Par analogie, le café refroidi pourrait rester légèrement plus chaud ou devenir un peu plus froid que la température de votre cuisine.

Ne décrochez pas ! Dans quelques lignes, vous aurez l'impression d'avoir inventé Midjourney.

Cette théorie s'appelle Nonequilibrium Thermodynamics mais ce qu'il faut retenir, ce sont les variations. A certaines échelles, il arrive même qu'elles deviennent majoritaires par rapport à l'équilibre. C'est à dire que le café à température de la pièce, c'est l'exception.

Vous ne voyez toujours pas le rapport ? Les variations d'une image générée par rapport à une photo d'origine par exemple ? N'est ce pas ce que l'on vient chercher dans un générateur d'images ?

Si on se réfère à cette théorie et, notamment, le cas où les variations sont quasi systématiques. On peut imaginer un système qui génèrerait des images de chats, par exemple, à partir d'une vraie photo de chat mais avec de petites différences à chaque fois.

Avouez que c'est brillant. On a la base pour monter une startup d'un milliard de dollars. Mais le plus dur reste à faire ! Comment construire un système qui va permettre de faire émerger ces variations ?

C'est là qu'intervient la fameuse Diffusion.

Je vais faire une analogie que j'aurais adoré que l'on me fasse. Parce qu’on vous décrit le process de la diffusion à tour de bras sur YouTube, etc. Mais personne ne semble vouloir expliquer ce que l'on cherche à obtenir.

Plutôt que le café, je vais prendre l'exemple d'un glaçon dans un verre d'eau. La Diffusion consisterait à provoquer et observer la fonte du glaçon jusqu'à ce qu'il se mélange avec l'eau. Puis, effectuer le mouvement inverse et tenter de retrouver la forme du glaçon d'origine.

<aside> 💡 La Diffusion, c'est une machine à entropie (qui mesure la désorganisation d'un système) ou plutôt, un miracle, une machine à inverser l'entropie (NDLR : néguentropie). Un pari osé, via les statistiques, dont le résultat va faire apparaitre de petites variations par rapport au glaçon d'origine.

</aside>

C'est tant mieux, parce que, rappelez vous, c'est ce que l'on cherche à obtenir !