Apprentissage et génération par échantillonnage aléatoire (16) - Stéphane Mallat (2023-2024)

Enseignement 2022-2023 : Apprentissage et génération par échantillonnage aléatoire
Séminaire du 13 avril 2024 : Une vision alternative des modèles de diffusion par débruitage

Intervenant : Francis Bach, Directeur de recherche à l’INRIA

Retrouvez les enregistrements audios et vidéos du cycle :
https://www.college-de-france.fr/fr/agenda/seminaire/apprentissage-et-generation-par-echantillonnage-aleatoire

Chaire Sciences des données
Professeur : Stéphane Mallat

Retrouvez tous ses enseignements :
https://www.college-de-france.fr/chaire/stephane-mallat-sciences-des-donnees-chaire-statutaire

Le Collège de France est une institution de recherche fondamentale dans tous les domaines de la connaissance et un lieu de diffusion du « savoir en train de se faire » ouvert à tous.
Les cours, séminaires, colloques sont enregistrés puis mis à disposition du public sur le site internet du Collège de France.

Découvrez toutes les ressources du Collège de France :
https://www.college-de-france.fr

Suivez-nous sur :
Facebook : https://www.facebook.com/College.de.France
Instagram : https://www.instagram.com/collegedefrance
X (ex-Twitter) : https://twitter.com/cdf1530
LinkedIn : https://fr.linkedin.com/company/collègedefrance

[Musique] [Musique] donc on va assister au dernier séminaire mais pas des moindres qui va être donné par euh Francis Bach donc Francis c’est un des chercheurs brillants en machine learning membre de l’Académie des Sciences av auréolé de plein de prix pour ses travaux de manière générale en machine learning euh beaucoup sur des problème d’optimisation l’interface entre optimisation et et statistique et euh il va aujourd’hui donc nous donner son point de vue sur ses algorithmes de euh corord diffffusion ce qui fera un complément par rapport à l’introduction que j’ai fait avant merci beaucoup Francis pour merci Stéphane pour l’introduction très généreuse et pour l’invitation c’est toujours un plaisir de venir venir ici parler à cette audience donc aujourd’hui je vais vous parler de choses sur lesquell je suis pas super expert d’accord donc ce sont des choses que j’ai appris à connaître depuis depuis 6 mois et l’idée étant de dans une première partie de donner la version classique d’accord qui est celle que vous Verz dans les différents tutoriaux et la version plus personnelle qui est une collaboration avec G1 Park et sa saremi donc le but va être de faire de de l’échantillonnage à partir d’une distribution P et l’enjeu dans ce dans ces domaines d’échantillonnage c’est comment on connaît P d’cord donc souvent on connaît P à travers sa densité ou à travers sa log densité f2x et souvent bah on veut s’amuser à échantillonné en haute dimension et le haute étant assez relatif souant les suivant les cas et de des données complexes donc dans notre cadre dans le cadre de l’échantillonnage en en milieu continu en gros c’est on va s’attacher à avoir des densités qui sont pas forcément log concave d’accord log concave ça veut dire en gros essentiellement elles sont unimodales et bien gentilles donc ça on sait faire en dimension assez grande et peut-être que dans certains de V cours vous avez dû voir ces algorithmes là et le but va être de euh il dans un cadre o on n’ura pas d’hypothèse de concavité ou de convexité sur les sur les logs densité et on verra que soit f est donné soit f n’est pas donné mais on connait des échantillons et on veut échantillonner par rapport à F on dirait c’est un peu circulaire d’accord j’ai j’ai des échantillons et je veux en en regénérer d’autres ça paraît un peu circulaire mais ça sert à faire toutes les belles images qu’on voit sur sur le net sur journée ou d’autres GPT à la fin ils ont appris sur des images donc ils ont appris à échantioner par rapport à une source qui qui le connaissait uniquement à l’ d’échantillon l’idée étant qu’on veut pouvoir modifier un petit peu les images d’accord donc je va ça un petit peu à la fin mais l’idée éant de savoir on va avir des des des images qui des des échantillons et on va apprendre à échantillonner donc la la l’algorithme le plus classique actuellement est très utilisé donc c’est pas le seul pour échtillonnner mais c’est dit la gorine de de diffusion que j’ai j’ai passé quelques transparents à le décrire ça c’est juste pour l’introduction on va suivre une diffusion avec un un terme de drift qui sera exactement le euh hop j’ai arrivé exactement le gradient de la de la densité d’accord et plus un un bronien je définirai ça tout à l’heure mais une manière de faire en pratique c’est de discrétiser cette diffusion la discrétisation de LR Maruyama qui consiste à à faire descendre de gradient donc là j’ai fait une erreur ça commence bien c’est XK moin moins gamma gradient de f2xk donc c’est DIN de gradiant essentiellement avec un pas auquel je rajoute un bruit d’accord donc ça c’est ce bruit qui va générer non pas l’arrivée vers l’optimum global qui sera x étoil qu’on appellera x étoil mais euh l’échantillonnage par rapport à expéentiel moin F donc ça ça converge en général presque tout le temps d’accord des conditions générales mais c’est souvent très très longent d’accord et si vous voulez utiliser en pratique ce n’est en dimension plus grande que 10 ou 20 ce n’est vraiment utile que quand la la densité et l concave et c’est exactement une situation qu’on veut éviter d’accord donc c’est que c’est le but du jeu aujourd’hui donc un petite revue des des équation différentielle stochastique j’en ais un peu besoin pour montrer comment marche la diffusion donc c’est une différentielle donc si je prends l’ustre l’if classique j’ai DXT sur DT é= une fonction de XT et potentiellement du temps donc ça c’est le le l’équation différentielle classique mais je rajoute je rajoute un bruit stocastique à chaque itération donc il faudrait un cours entier pour définir exactement ce que c’est une une équadif stocastique mais euh moi dans ma manière dont je vois les choses c’est euh à travers le pas de discrétisation d’accord donc si je discrétise cette euh cette équation pardon cette équation différentielle stocastique si j’ai que le terme non stochastique bon ben ça c’est la formule de l’air pour aller de la de l’Instant T à l’instant T+ DT et bien je rajoute bah le temps fois mon gradient donc ça c’est la version non stochastique et la différentielle stocastique je rajoute une gosienne d’accord avec et c’est ça un peu la subtilité si vous si vous retenez une seule chose aujourd’hui c’est que le bruit il est en racine du pas et pas dans le pas d’accord donc je rajoute un bruit gaussien de variance DT mais d’écart type racine racine de DT donc l’échelle de bruit est beaucoup plus importante que le la taille du pas pourquoi c’est plus important parce queon est en DT petit donc la racine carrée est plus petite la plus grande pardon que DT donc on fait un pas de un pas suivant le on prend le le on suit le drift et on rajoute on rajoute du bruit et souvent dans l’algorithmique et bien quand T est discrétisé d’accord euh avec euh avec échelle gamma et donc on on commence à 0 gamma 2 gamma 3 gamma et on passe de K gamma à K + 1 gamma essentiellement dans C dans cette équation remplaçant le DT par gamma d’accord quand vous voyez un un un si vous faites de l’optimisation vous voyez un pas un step size gamma et bien ça correspond de manière implicite à un pas de discrétisation d’une d’une équation différentielle voilà donc ça c’est un peu la manière de de voir les choses mais ça c’est la manière un peu un peu intuitive mais on on sait dire plein de choses d’accord la première chose qu’on sait dire c’est que donc comme j’ai un ala mes X sont aléatoire donc j’ai une densité à à l’instant T et cette densité elle évolue au cours du temps il s’avère qu’elle vérifie une équation d’rivée partielle qui s’appelle l’équation de fer plan donc je vais pas montrer j’ai juste donc la décrire c’est queil y a le la dérivée par rapport au temp de cette densité et bien va avoir des termes qu’on retrouve classiquement en équation dérivé partielle si vous vous rappelez un peu de de la physique laplcien d’accord qui est la somme la trace de laen d’accord et la divergence qui est la trace jacobien d’accord donc c’est d la divergence d’un champ de vecteur F c’est DFI bah c’est DF1 sur DX1 + D2 sur DX2 jusqu’à jusqu’à la dimension donc ça il y a une équation de de fauxur planque donc la preuve que je connais c’est de Cader ce qui se passe quand je prends l’espérance d’une fonction test ça c’est la classique d’accord je regarde la fonction une fonction texte h fixe son espérance qui est l’intégrale de px HX en T + DT et en T j’utilise la la discrétisation et après une une et après une expression de tellor à l’ordre 2 à l’ordre 1 je vois apparaître le gradient euh à l’ordre 1 j’ai le gradient fois quelque chose qui est de moyenne nulle donc on espérence ça va disparaître par contre quand j’aurai le carré donc quand j’aurai le terme en iien j’aurai un carré qui va me donner 1 demi qui va contrer mon RAC mon RAC 2 et j’obtiens la trace de la ça c’est juste et après une fois que j’ai arrivéis arrivé à ça intégration par partie et j’obtiens F plan donc ça si vous avez jamais vu les équations Diffen stocastique ça paraît un peu mystérieux mais c’est c’est un sujet qui est assez qui prend un peu d’ampleur en machine learning qui était très classique quand j’avais quand j’éta à votre place pour la la finance mathématique mais qui maintenant prend aussi de l’ampleur en machine d’n donc quand j’ai F plan pourquoi c’est intéressant et bien si je prends un un terme de drift qui était moins la gradante fonction f Il pouvez vérifier par vous-même que si je prends donc log de P quand je prends log de P é= F sur SIG car et bien je peux vérifier que l’équation de fore planque le point stationnaire donc pour lequel la dérivée vaut zé par rapport àant va zé on obtient bien on obtient bien la la bonne densité d’accord donc ça c’est j’aura besoin de T pour ça j’en parle jeen parle ici donc il y a toujours une convergence qui est souvent exponentielle vers la distribution distribution stationnaire donc c’est comme une chaîne de Markof une chaî de Markof on va souvent si elle est homogène et là mon terme mon terme de drift il est homogène j’ai pas de bruit si le bruit est homogène bah une chaîne de Markov tant à converger vers une stationnaire et souvent converge de manière exponentielle mais j’ai mis ça entre entre guillemets parce que c’est exponentiel mais ça peut être très très lent d’accord donc le ce qu’on a appris en optimisation c’est qu’ exponentiellement con c’est pas suffisant il faut être exponentiellement convergent mais avec une constante qu’on connaît d’accord si elle est si la constante de temps c’est 10 c’est 10 pu 16 c’est pas super intéressant d’accord donc là il s’avère que c’est toujours exponentiel presque toujours avec des conditions assez assez faibles mais très très long làù ça devient contrôlé c’est quand la densité est l concave don quand F est convexe donc quelque part il y a y a un peu un une une similarité entre ce qu’on fera en optimisation d’accord descente de graniant on sait montrer les taux de convergence globaux quand une fonction convexe pareil quand on fait des diffusions de l’enjin on sait montré des taux de convergence avec des des des constante explicite quand on est quand la fonction f est convexe qui correspond au densité de l concave et je rappelle le but est vraiment des ché par rapport à des densité non lo concave donc ça c’est petite revue des de l’evin donc le but d’aujourd’hui he c’est d’aller au-delà des des densités lo concave imaginez échantillonné par rapport à toutes les images naturelles allons-y alors quel est le quel est le le le l’astuce derrière modèle de diffusion donc ça ça date de s Hermon 5 ans et il y a de très beau introductions partin B Gabriel per j’ai repris j’ai repris un peu le présentation donc la la prère fois qu’on voit ça ça paraî un peu un peu bizarre voir délirant d’accord mais faisonsle quand même donc on va ce qu’on va faire c’est qu’on va d’abord va lancer une diffusion qu’on va ce qui est celle-ci d’accord avec un terme de drift qui est en moin XT qui est le gradient de XT au Carr de la norme de XT au Carr et en partant de la distribution de laquelle je cherche à échantillonn donc X0 ça sera mes images ma distribution d’image et donc je vais m’éloigner ma distribution donc ça cette équation différentielle stocastique elle a un nom c’est or du LBEC et elle est très étudiée euh en mathématique appliqué en probabilité et en fait elle est intégrable complètement on sait dire à tout moment quelle est la densité de X donc soit en résolvant focur plan que j’ai présenté au transparent précédent soit avec d’autres techniques mais à la fin ce qu’on peut montrer c’est que à l’instant T la loi de XT c’est une somme de ma loi initiale X0 d’accord plus une gaussienne le tout un peu risquellé d’accord donc à la fin ce que va faire ce C ce processus c’est par de X0 é à 0 j’ai mes images et je vais rajouter un peu de bruit et tout tout ris vers Z vous pouvez vérifier que quand l’infini et bien disparaîé il vous reste une grosse gaienne de standard donc ce qu’on va faire c’est partir d’ distribution très structurée les images et finir un gros bruit blanc à la fin donc ça c’est un un flow voilà je rajoute du bruit sur mon image au fur et à mesure et l’idée euh l’idée euh bah on va dire je dire idée géniale B idée a quand même très euh qui paraît farfelu euh mais qui euh qui va fonctionner c’est de se dire et bien on va euh aller jusque très très loin en gros gaussien on va faire demi-tour d’accord pour essayer de enlever du bruit au fur et à mesure d’accord donc ça c’est quelque chose qui est sensé être difficile j’ai rajouté du bruit je peux pas l’enlever quoi hein comme vous sortez le dentifrice de du pot bah allez le remettre dedans pas facile d’accord et bien il s’avèent que c’est ce qu’on va faire d’accord et l’idée étant de dire que donc on va appeler YT petit T qui sera donc le processus backward donc on parle de Grand T t très très grand de telle sorte que si je suis à T très très grand bah ce thme là disparaît donc j’ai en gros une grosse gaussienne d’accord et euh je vais partir de Grand T et partir dans l’autre sens et il s’avère et je vais faire la preuve transparent suivant que ce processus stochastique il suit lui-même une diffusion donc qui dit suriv une diffusion dit B je vais pouvoir discrétiser pour la suivre d’accord donc regardons cette diffusion et on va voir qu’elle fait apparaître la densité de X d’accord c’est pas une diffusion qui est aussi simple avec un terme de drift qui est qui est qui est constant qui qui dépend pas du temps d’accord celà c’est vraiment toujours x là ça va dépendre du temps donc comment comment on montre ça ça donc là effectivement ça paraît un peu magique et je vais utiliser ce que j’ai montré au transparent précédent qui esttiellement fer plan d’accord donc je prends l’équation de focer planque pour la densité à la densité de X à l’instant T que j’ai appelé RT donc c’est toujours donc dérivé par rapport au temps de ma densité à l’instant T ça une fonction de de l’espace x c’est moins divergence du drift d’accord le drift c’est x donc c’est divergence de r X X plus de la platien voilà donc ça c’est le c’est ma nation de fur planque ensuite je vais introduire ma densité de de mon processus backwards et la seule différence entre les deux en terme de dérivée la dérivé par rapport à l’espace est la même mais la dérivée par rapport au temps va être inversée d’accord parce que j’ai inversé le temps donc quand on regarde la dérivée par rapport par rapport au temps on obtient quelque chose qui ressemble beaucoup à une équation de F plan mais il y a des termes négatifs qui sont un peu embêtants en particulier celui-ci d’accord autant celui-ci on pourra le rentrer là et dire que c’est le un TER de drift qui est moin x carré qui pas pas top mais au moins ça on sait gérer mais c’est le moins laplant qui est vraiment un problème et l’idée ça vaitê de manipuler ce terme d’accord et la la manière de faire la manière qui a été faite donc par Hermon et song c’est de prendre donc moi laplacien de le voir comme étant le laplacien d’accord donc dont on aura besoin pour créer une diffusion d’accord on sait que quand on a une diffusion dans dans le DP qui définit la denensité on a un lalcien donc on prend de la plen et on soustrait deux fois de lalacien après on écrit la PL comme la divergence du gradient d’accord donc le la divergence c’est la trace de la jacobienne d’accord la jacobienne du gradient et la traceoben le JEP la placien et donc et là on fait une technique qui est que vous avez déjà vu je pense ici qui est de voir le Grad de densité comme étant t XI fois le gradient de la log densité si je prends le gradient du log je vais avir le gradient divisé par XI donc je dois rajouter XI pour que ça fonctionne d’accord c’est encore un tout petit peu ici qui traîne voilà et donc quand je fais ça je fais apparaître quii si j’en ai besoin pour dans le terme de divergence ici et quand j’ai fait ça B on voit que je peux tout remettre dans la dans le même dans la même la même équation j’ai mon j’ai mon ma der par rapport au temps j’ai une j’ai moins d’un divergence donc j’ai le X qui reste là j’ai euh mon nouveau terme qui est le gradient de log du score et maintenant j’ai un plus laplen donc maintenant j’ai exactement une équation de focur planque et je n’ai qu’à identifier les je n’ai qu’à identifier les termes donc là x bah c’est c’est bah c’est x d’accord y c’est y et là j’ai le gradient du log de la densité de X et je l’ai appelé r tout à l’heure d’accord donc on voit que si je veux faire euh euh je je peux voir le processus backwards comme étant une équation dérivée partielle équation différentiel stochastique pardon et donc à la fin l’gor va être lequel il va être excessivement simple alors simple aussi entre guillemets parce qu’on verra qu’ pe quand même d’autres choses pour le faire fonctionner et bien j’ai qu’à discrétiser l’équation différentielle stastique qui est ici d’accord exactement comme je l’ai fait au transparent précédent et bien je passe de l’étape k K + 1 en faisant en imaginant que je rajoute gamma au temps et donc j’ai gamma fois mon drift donc le drift c’est c’est ça donc c’est YT + 2 le le gradant du log hop pr de drift plus un RAC gamma x N gaenne d’accord donc ça c’est euh l’algorithme une fois que je connais les r l’algorithme va être celui-ci d’accord donc ce qui est magique ici c’est que c’est l’équation très très très très simple à mettre en vre le seul IC c’est que il va falloir connaître toutes ces densités d’accord donc c’est quoi ces densité je rappelle que c’est la densité R de petit t c’est la densité de X c’est quoi x c’est la densité de X0 qui est ma densité initiale plus une gaussienne le tout riscalé donc le riscaling ça change pas grandchose hein ça c’est on sait gérer pour la densité il va falloir rajouter du bruit à X0 du bruit gaussien et ça c’est exactement dans ça qu’on va appeler le la fonction score transparent suivant c’est j’aurais besoin de de la log densité du gradient de la log densité de X X0 qui est ma densité initiale plus du bruit gausien si je connais ça et bien je peux mettre en œuvre cette cette diffusion et euh si jamais et ça faut le connaître à plusieurs échelles d’accord c’est pas uniquement un un seul temps t parce que j’ai besoin de pouvoir suivre cette diffusion donc faut connaître ce score pour tous les pour les pour tous les T qui sont de Grand T à zé ça veut dire qu’il faut que je connaisse la densité de ma densité initiale image plus du bruit avec du bruit qui va de variance zéro à variance assez assez grande va falloir apprendre tous les scores euh de manière simultanée VO donc ça c’est un peu c’est la lorithmique et donc là j’ai pas j’ai pas mis d’image mais toutes les images que vous voyez où vous générez des belles images les nouveaux visage et bien sont basés sont basés là-dessus il y a bien sûr plein de d’autres hack pour faire marcher mais ça c’est le principe général donc euh maintenant comment on va apprendre à prendre ces scores donc ça c’est un point important parce que pour l’instant si je si je dispose de mes données euh deses images j’ai beaucoup d’échantillon de X0 ça me dit pas comment prendre le score d’accord donc ça se trouve la tâche d’apprendre les scores est aussi difficile que la tâche d’échantillonn et j’ai pas j’ai pas avancé beaucoup ben il s’avère que bah on va PIR faire le lien ce que vous avez vu juste avant donc là ce qu’on va appeler le le le score on va appeler donc euh euh alors là les notation pop pop donc c’est RT je crois Ctait RT tout à l’heure mais l’idée c’est le gradient de log c’est c’est Q et si jamais si jamais donc je je divise par exponentiel Mo t d’accord pour vraiment avoir ma densité plus du bruit sans riscaling et bien ça me fait euh un un un un scalaire ici qui va partir de 0 quand t vaut 0 et va grand grandir avec T donc à la fin j’ai besoin de la densité de X0 plus un bruit grossien de de variance Sima Carr et donc ça je vais l’appeler Q Sigma donc en fait ça va être r ici excusez-moi là j’ai pas corrigé à chaque fois je vois à chaque fois je le vois à chaque fois j’oublie pas grave donc Q Sigma ça va être la densité de X plus un une gaussienne isotrope de variance SIG Carr et donc là un élément important et ça ça date de Robins années 50 années 50 et pour ceux qui aiment l’optimisation c’est le même Robins que Robins Monro d’accord grand stochastique voilà donc il est quelqu’un contribue à plusieurs plusieurs plusieurs aspects et et en fait Robins l’a fait dans le cas exponentiel je crois lo exponentiel et c’est miazawa qui l’a fait dans le cas gosien et la preuve qui qui est encore là il s’avère que cette ce score en fait est équivalent à l’algorithme optimal de bruitage donc qu’est-ce que je veux dire par là c’est si je considère euh donc le X mon image j’ai je lui rajoute du bruit sa FO fois du bruit et j’observe la version bruité y comment je reviens à X d’accord c’est la tâche de débruitage et si jamais je mets un critère quadratique sur la performance de débruitage donc si je je trouver l’esemateur tel que qui dépend de y tel que l’écart à X en moyenne quadratique et le le plus faible possible et bien ça c’est l’espérance conditionnelle vous avez dû voir ça juste au-dessus et là il y a un côté magique que cette espérance conditionnelle elle est essentiellement fonction du score donc la la formule est assez simple finalement l’espérance conditionnelle c’est de prendre y d’accord quelque part X Y c’est x plus du bruit donc l’estimateur le plus débile c’est de dire que je prends X = Y d’accord donc ça ça va faire quelque chose de très bruité bien sûr et il y a un terme correctif et ce terme correctif il va essentiellement dépendre que de la densité de y le côté le côté magique c’est que ça dépend pas de la densité de X d’accord donc on a besoin on a besoin que de la densité de la variable bruité d’accord donc ça ça a été utilisé dans plein d’endroits en en MATAP d’accord donc est n classique hos son Chili qui a utilisé ça pas mal ivarinenvarinen et sa sum en Couteur l’ont aussi utilisé dans un cadre de sampling mais c’est truc qui revient tout le temps et la preuve vous l’avez fait c’est encore intégration par partie c’est vraiment quelque chose et ça revient très souvent si vous faites des States et bien la méthode de Stein est basée sur la même la même chose on VO l’espérance de X fois une fonction de x quand X est Gaien et bien ça correspond à l’expérience du gradent de F de X essentiellement ça qui se passe voilà donc ça c’est vrai pour la gaussienne pour une gasienne d’où l’importance du brigaauien d’accord donc ici si je remplace ça par un autre variable aléatoire de moyenne nulle et de variance même de variance identité j’aurai une formule différente voilà donc qu’est-ce qu’on appelle donc le dinosine score matching donc comment je vais apprendre les scores donc là pour l’instant on a vu que échantillonn ça ça demandit d’avoir tous les scores à à toutes les échelles Sigma possibles et bien euh donc on va ça c’est le résumé de ce qu’on a vu on veut estimer Q de Sigma on sait que Q de Sigma m mieux on veut pas Q de Sigma on ne veut que le gradiant de son logarithme d’accord donc c’est quelque chose on veut en fait un peu on veut un peu plus ou un peu moins selonelon selon le point de vue mais on veut bref log de Q de Sigma il s’avère que ce log de ce gradient de log de Q de Sigma c’est quelque chose c’est une performance de dinoising d’accord c’est un dinoiser et donc l’idée qu’ avait utilisé d’abord qui date de d’ivarinen c’est que quand on va apprendre un score et bien typiquement ça rentre pas dans la catégorie clque d’estimation de densité donc ce qu’on voit quand on fait un cours de stat on voit par exemple le maximum de vraessemblance d’accord on va chercher à maximiser par rapport au modèle la vemblance des données ici la vemblance des données bon ben on l’a pas on a que le gradant de log on que le score qui le gradant du log donc on Nura pas facilement accès à la au max de ressemblance et ce qu’ a fait à c’est de trouver un critère qui était utilisable pour apprendre la fonction score d’accord donc c’est ça correspond à ement à comparer les scores donc si P il son sont mes données et bien je vais pouvoir l’intégrale de px entre la le gradient B la le carré du gradient entre le la différence entre les scorses et bien vous voyez bien que quand Q se rapproche de P ça va tendre ver ça va tendre ça ég à 0 il y a un petit côté magique encore intégration par partie où à la fin euh ce critère là peut se voir comme une espérence par rapport à P d’accord donc le problème quand on fait de l’estimation de densité c’est qu’on n pas accès à la densité de manière analytique on a que un échantillon donc pour avoir ce qu’on appelle une une proper scoring rôle voilà pour avoir pour quelque chose qui est qui est correct faut pouvoir avoir une intégrale par rapport à P il s’avère que par intégessant par partie on peut avir une intégrale par rapport à P donc ça je le mentionne parce que c’est vraiment le la source la source de de ce qu’on va voir juste après vient là et donc comment c’est à quoi ça permet qu’est-ce que ça permet de faire donc là je sa quelques étapes et bien ce critère de score matching qui a été étudié pour le bien comprendre comment on peut estimer une densité et bien qu’est-ce qui donne à la fin comme critère et là il y a y a plusieurs passages que je que je que je passe mais à la fin l’algorithme est assez assez simple et bien il va essentiellement apprendre le score en apprenant à débruer d’accord donc pourquoi bah on sait que si j’ai le score et bien j’ai le j’ai le débruiteur optimal et donc comment on va apprendre les scores donc c’est s’appelle dinosine score matching donc ça c’est ça date de Vincent j’ai dire Emmanuel Vincent Pascal Vincent en 2011 et yvarinen qui a aussi l’a proposé un peu aussi avant de manière un peu un peu différente ça va de dire et bien je prends mes données x j’observe mes XI et bien je vais créer un Yi en rajoutant du bruit d’accord je prends mon x je rajoute du bruit tout seul bah je rajoute du bruit gaussien donc j’ai un Yi et après je vais essayer de revenir à X d’accord donc d’avoir d’apprendre cette fonction là de telle sorte que bah quand je j’imagine que cette fonction là sera le gradient de log Q et bien ça ça sera y i + ça sera normalement le le dinoiseur optimal donc je vais regarder la différence entre la vraie la vraie version desbruité et le dennoiseer que je propose et bien quand je fais ça c’est un critère qui va m’apprendre à à débruer donc ça c’est et de manière directe à cause de la formule de pericle base ça va m’apprendre le le score donc comment ce sont là comment c’est fait après en pratique pour les images et bien on va prendre un paquet d’images donc la N grand d’accord plusieurs oh bien plusieurs milliards j’imagine maintenant euh je prends une image je rajoute du bruit du bruit gaussien et on verra des exemples tout à l’heure que le bruit gaussien les déstructure complètement et euh je paramétrise une fonction d’accord gradient Locu Sigma donc je sais plus si ils apprennent Q de Sigma ou si log de Q de Sigma ou sils apprennent le gradant directement donc soit une fonction à variable réelle ou directement fonction variable vectorielle j’avoue que j’ai un peu oublié avec plein de paramètres donc là il y a toute la technologie des réseaux de neuron avec les architectures que vous pouvez que vous avez dû voir dans dans d’autres cours donc beaucoup de paramètres beaucoup d’observations descent de gradient dans tous les sens et à la fin on obtient le score difficulté supplémentaire il faut le score à la fois pour un SIG pas pas seulement pour un sigma mais pour plein de Sigma donc il faut le Sigma très grand qui correspond au quand j’ai rajouté beaucoup de bruit on va plus on va plus plus de la gaussienne d’accord et euh je exemple tout à l’heure à le dinosur a pas beaucoup de bruit don ça c’est ça c’est le principe donc étape 1 de mes données j’apprends les scores et étape 2 de mon score j’apprends de mon score bah je je suis cette cette SDI donc je rajoute du bruit au fur et à mesure avant que je passe un peu à la suite à la version un peu alternative y a-t-il des questions sur ces ce cadre de score diffusion très bien donc on va passer donc à une vue score matching proof je lesi pas fait voilà donc ça c’est le donc ça c’est le donc le résume de ce qu’on a vu d’accord donc étap étape 1 j’apprends les fonctions score partir à différentes échelles et ensuite je lance ma diffusion d’accord donc regardons maintenant une vue vue alternative donc ça c’est travaux en collaboration avec Said saremi et Jibon Park qui sont à Genentech en Californie donc la première la première idée c’est de d’aller au-delà d’une seule mesure donc ça c’est souvent quand on dans un cadre traitement du signal on dit signal signal Bruté dans un cadre statistique souvent on dit y est la mesure de X qui est elle même bruitée donc quand on a plusieurs mesures ça veut dire que on aura pas un Y qui est une copie bruitée de X on en aura plusieurs donc on va prendre on va prendre un ma distribution des données mes images et je rajoute du bruit en parallèle donc on peut voir que le la diffusion va rajouter du bruit en série d’accord quand on rajoute du bruit de plus en plus fort bah la gaussienne de de de variance de Sigma carré bah c’est Sigma car + Sigma carré d’accord donc quand on rajoute du bruit de plus en plus on fait du rajout de bruit en séquence et là on le fait en parallèle donc pour la même pour le même x j’ rajoute des bruits et bien sûr ces bruits seront indépendants lesep il sont indépendants et donc la première chose à savoir faire c’est si j’observe plusieurs plusieurs mesures d’accord comme cela et bien euh est-ce que je peux retrouver faire un débruiteur d’accord donc ça c’est la même la même preuve que le résultatc base à nouveau intégration par partie et donc si vous faites euh espérence de X suiv donc qui est le la le la donnée initiale étant donné les les différentes mesures et bien vous obtenez la moyenne d’accord qui est plutôt un estimateur logique hein donc j’ai des copies bruitées j’ai des copies bruitées de X bah si je les moyenne B je vais un peu moyenner le bruit aussi d’accord donc ça c’est le l’estimateur simple duquel je vais je vais rajouter un T correctif et ce t correctif fait apparaître aussi le score et cette fois-ci le score a une variance qui est divisée par M a une logique le fait d’avoir eu m mesure ça correspond à avoir M m FO moins de bruit en terme de variance donc ça c’est ça c’est la ça c’est la formule et un autre autre point c’est c’est à quel point je suis proche d’accord donc ça pour l’instant ce que j’ai dit ici c’est que cette formule là est le est le débrutage parfait optimal ça veut pas dire qu’il est bon d’accord il peut très bien le mieux qu’on puisse faire et av une performance qui est très mauvaise d’accord et donc on peut essayer de caractériser ESS de caractériser la différence entre et bien la loi de X et la loi du du du du X débruité d’accord d’accord donc c’est ce qui c’est ce qu’on peut faire ici ce qu’on a commencé par faire donc si je prends la loi de X et après la loi de du X débruité après avoir observé uniquement les mesures et bien on voit apparaître donc ça c’est en en verstein que c’est l’ de Sigma carré d/ m donc Sigma c’est la variance du bruit rajouté d c’est la dimension ambiante et M c’est le nombre de mesure donc ce qu’on voit arriver c’est que si je prends si ma carré sur n est plus plus petit et j’ai deux manières d’Ar i soit je prends un sigma petit soit je prends un M grand et bien j’aurai un résultat qui sera qui sera aussi proche que je que je le veux donc ça c’est un résultat qui est correct mais qui n’a aucun intérêt alors savez-vous pourquoi il a il n’a aucun intérêt c’est pas facile hein d’accord donc j’ai parlé j’ai parlé d’un d’un estimateur hyper simple qui est la moyenne de Y d’accord et bien la moyenne de y va avoir exactement cette performance aussi d’accord donc ce ce ce résultat B pourquoi parce que simplement bah quand je prends c’est y y c’est x + y i la moyenne de y c’est x plus la moyenne deep I et la variance de la moyenne bien c’est la moyen c’est la moyenne des variances d’accord et donc on obtient un terme 1/ m d’acord SIG car d/ M donc le fait de le fait de ce résultat simplement bah que quand si carré et M bah si car sur M est très petit ça va bien se passer mais ça c’est vrai pour toutes les lois potentielles de X d’accord donc si x est lui-même très gaussien très diffus vous pourvez pas faire grand-chose et vous aurez une borne comme ça qui sera assez mauvaise elle est mauvaise parce que d en image d c’est un million quoi d’accord donc s’il faut contr contrer faut rajouter un peu de bruit et contrer le si carré faut 1 million ça va être un peu ça être un peu un peu compliqué mais si votre si votre votre loi de X est assez marqué d’accord avec beaucoup de zones vides avec des appartenement des sous-espaces des sousviétés et bien vous avez avez une possibilité d’avoir un rés un résultat nement meilleur don ça ça se voit on peut on peut on peut on peut le montrer si on veut si on a une densité de X qui est un peu singulière et bien on peut passer de Sigma car sur M quelque chose qui est exponentiel en moin s car sur M m sur car donc ça c’est la première chose donc la première idée la première idée de de sa avec son avec autre ceura de dire bon pour sler par rapport à X je vais prendre sler des y l’idée étant que comme la densité de y c’est x plus du bruit on peut imaginer c’est plus facile à sler que que X et après je vais utiliser B pour revenir donc qu’est-ce que ça donne ce sont des vraies données donc ça c’est une image X donc une vraie image charpe de la base de données je rajoute du bruit et là on voit que les Sigma qu’on utilise pour faire ce denoising ils sont grands d’accord c’est pas c’est des Sigma qui dénaturent totalement l’image d’accord donc là c’est presque du bruit blanc donc on reconnaît un peu l’image derrière donc là j’ai quatre échantillons d’accord bruité quand je les moyenne et bien je divise je divise donc le bruit par deux en en écart type donc on voit apparaître un peu plus l’image mais ça reste très mauvais donc l’estim l’estimateur dont je parlais tout à l’heure qui est la moyenne il est il est vraiment pas bon d’accord le bruit diminue mais pas suffisamment par contre si on applique si on apprend le score d’accord si on appris le score par ailleurs par dinine score matching et bien quand on prend l’espérence de X sachant y on obtient quelque chose qui est encore un peu bruité d’accord donc vous voyez bon voyz peut-être pas mais encore c’est un peu c’est un tout petit peu flou mais on voit apparaître quand même on voit apparaître quand même l’image d’accord donc ça c’est le point important c’est que il se passe beaucoup de choses dans le dans le dos on rajoute beaucoup de bruit d’accord donc on arrive vraiment à quelque chose qui est proche est proche du bruit blanc et on fait le chemin à l’envers donc là qu’est-ce qu’il faut pas trop dans leur approche c’est que s y pas si facile que ça d’accord donc ça resta un problème non convexe compliqué non lo concave et ça posait quelques problèmes donc l’idée numéro 2 ça a été de euh de regarder de manière séquentielle le problème donc qu’est-ce qu’on va faire toujours nos mesures nos mesures m on a M mesure et encore ce sont le des mesures en parallèle sur le même le même échantillon et ce qu’on va faire on va d’abord ensampler une seule Y1 de cette loi là d’accord on verra commment on fait tout à l’heure et puis après je vais itérer en déchautillonnant le le deuxième sachant le premier et le im sachant les i Mo 1 premier donc là on n pas une chaîne de Markov parce que comme tous les grequy dépendent les uns des autres d’accord à travers x donc quand on n pas une chaîne de Markof donc à chaque fois faut vraiment conditionner par rapport par rapport au passé comme cela vous me direz bah à quoi ça sert un est-ce que c’est faisable et de à quoi ça sert et ben s’avère qu’on va pouvoir répondre à ces deux à ces deux questions d’accord donc on va euh utiliser donc des algorithmes pour échantillonner qu’on connaît et qu’on maîtrise il y en a beaucoup mais celui qu’on va utiliser c’est le Langevin dont je parlais tout à l’heure en début de présentation donc ce Langevin je vous ai indiqué que si je suis pas l’ concave c’est un peu euh c’est un peu hopeless hopeless un peu sans espoir voilà c’est un peu sans espace ça ça va prendre beaucoup de temps et donc on va utiliser l’enjint et ce qui va faire ce qui va faire fonctionner euh le l’algorithme c’est que on va se débrouiller pour que ces deux bah tous ces tous ces étapes d’ chosillonnage soit soit le concave d’accord donc on verra qu’on va si a pris suffisamment grand pour être le conc donc ça sera overall ça sera de manière générale non non marcovien parce que j’ai j’ai quelque chose qui dépend du temps tout le temps qui dépend de tout le passé par contre à chaque étape ça sera marcovien donc la manière don on représente ça c’est avec cette petite petit diagramme donc je prends à l’étape 1 et bien je rajouteéchantillon j’échantillonne mon x plus du bruit donc c’est très très bruité je donc là si je prends ma densité densité avec de ave deux modes j’ai mis tellement de bruit que je vois qu’un seul mode donc c’est facile à chautillonner d’accord et donc là c’est la première étape et là j’ai une chaîne de Markof qui va bouger à l’intérieur de de cette densité et finit par converger vers la la bonne loi ensuite je prends l’échantillons que j’ai je le garde et je vais lancer une chaîne de Marcof conditionnelle par rapport à ma première observation donc si mon observation elle est arrivée un petit peu un petit peu à droite et bien cette nouvelle densité elle sera un peu tiltée du côté du côté droit elle sera toujours l concave et j’ai fin ch de Markov et au fur à mesure que je progresséis j’aurais toujours j’aurais commencé à trouver le mode mais toujours avec une loi qui est conditionnellement l concave par rapport étant donné le passé et à la fin j’ai retrouvé le bon échantillon donc là on voit qu’on on on passe une densité qui est qui mélange tout à au fur à mesure qui identifie le bon mode dans cette distribution donc ça c’est un peu la la version diagramme donc comment comment comment ça va comment ça va se faire donc d’abord le côté faisabilité d’accord donc j’ai dit que je vais utiliser euh du l’enjint donc ça va calculer le gradient de mes différentes mes différentes fonctions donc pour le premier bah ça on sait que ça marche parce c’est le gradient c’est le gradient de la densité après avoir rajouté du bruit c’est exactement le score d’accord le gradient de de la log densité c’est exactement le score et pour M qui est plus grand donc quand M est bah m est plus grand que 1 et bien il s’avère que quand je conditionne par rapport au au mesure aux mesures passées et bien euh donc je calcule le gradient par rapport à YM donc là l’important c’est que et ça c’est unintérêt des du score c’est qu’on a pas besoin de la constante de de normalisation j’aiie de le mentionner c’est ça un peu la magie du score c’est la raison pour laquelle apover l’a introduite bah l’ introduit y a une quinzaine d’années vingtaine d’années maintenant c’est que le score fait disparaître la la constante de normalisation donc là j’ai uniquement besoin deer la densité jointe d’accord et quand je prends ce gradient et bien ben reintégraation par partie et bien j’ai la même formule j’ai une formule très similaire qui va qui dans il y a pas un gros intérêt de l’avir mais je sais calculer en fonction de mes données la moyenne moins le le dernier observé plus un score toujours avec un un sigma sur r√ M là c’est une faisabilité et donc quel sera le les le l’intérêt de de faire ça et bien il s’avère que ce qu’on peut montrer c’est que si Sigma est assez large et bien chacune de ces euh de ces densités desquelles je dois échantillonner est log concave et on peut on peut calculer la constante de lo concavité donc je me suis ramené à faire du lo concave donc mes chaînes de Markof ici bien je sais que j’ai pas en faire trop d’accord c’est l concave c’est entre guillemets maîtrisé c’est pas si facile mais c’est un peu près près maîtrisé donc ça c’est Sigma et grand chaque étape sur l concave mais si si Sigma est grand je me retrouver avec une densité très très bruitée et donc l’intérêt c’est que si M est assez grand et bien je vais pouvoir avoir mon SIG carré sur M qui sera assez petit pour pouvoir retrouver des échantillons qui seront qui seront propres c’est ça un peu le bénéfique don pourquoi c’est l concave donc ça c’est des choses qui en fait on été étudier en vision d’accord donc rajouter de la gaussienne vision s’appelle du floutage du Flage Gaien l’idéeant que quand on floute densité compliquée on finit par devenir unimodal d’accord et nous on a besoin de l concave qui un peu une version version un peu plus forte de unimodal et donc c’est quelque chose qu’on peut montrer voilà donc il y a une il y a une preuve et la preuve entre guillemets fa pas toute la preuve mais c’est encore inégration par partie donc comment on montre qu’on est log concave et bien on calcule la enne de la log densité et on espère qu’elle est négative on calcule une sen et bien ça correspond à prendre le gradient du gradient et donc à nouveau in pas parti et on a une formule qui aboutit à quque chose bon d’assez d’assz d’assez simple qui est un terme négatif il y a moins identité moins la covariance de X sachant y d’accord et si jamais les X son sont un peu sont bornés on sait qu’ son sont bornés à l’avance bien si Sigma est assez grand ce terme là va toujours être petit par rapport à l’identité et je vais bien avoir quelque chose quelque chose de négatif donc ça c’est la version simple que si si vous mettez suffisamment de bleur à la fin tout devient un peu unimodal et vous convergez une grosse gaussienne ça c’est ça ça c’est assez simple et la deuxième aspect dans les dans les quand on a plusieurs plusieurs mesures on peut à nouveau inégr par partie et on peut calculer la sien d’accord de ma de ma densité conditionnelle et bien j’ai la même formule sauf que et ça c’est c’est pas évident que ça soit la même formule mais c’est c’est la même formule et j’obtiens une covariance de X sachant tout le passé d’accord ça change toutes les mesures et donc là l’idée ce qui est sympathique c’est que plus je conditionne plus la covariance diminue d’accord donc ça c’est vrai c’est c’est formel quand tu fais en espérance par rapport à y mais c’est aussi euh on peut montrer que ça rest ça reste vrai que si le premier l concave ils seront tous l concave là c’est juste pour pour montrer que quand on rajoute suffisamment de bruit et bien tout devient euh tout devient euh euh un peu simple à échantillonn alors montrons un peu quelques exemples donc là on l’a fait pour l’instant euh on l’a fait sur desgsienes m de goien pour pouvoir voir un peu comment ça se passe et là des expériences actuelles qui montrent que ça marche ça marche comme le ça fonctionne essentiellement à peu près comme comme le les les diffusions classiques on verra quelques avantages après donc là on prend deux on prend deux gasiennes d’accord d’accord avec une mélange de gasienes où chacune a une covariance donné et un écart de moyenne qui sera constant donc quand je fais grandir la dimension mes goenes seront très très larges très très éloignés par rapport à leur variance donc ça bien sûr c’est très facile d’ chionner si je connais où sont les moyennes d’accord mais c’est juste un test bed pour savoir si je prends un truc très très non lo concave avec vraiment deux deux barrières de grosses barrières de potentiel entre les entre les deux modes donc j’ai deux modes il est très très dur quand je prends deux modes très éloignés votre Langevin va jamais va jamais passer de l’un à l’autre d’accord c’est ça ça ça sera vrai une probabilité très très faible et donc je compare on compare différents algorithmes donc là on fait augmenter la dimension donc en D est petit et bien les les gaussiennes finalement elles sont es sont assez proche d’accord euhh parce que là quand quand d augmente euh la distance entre les moyennes la distance Delta mu B elle grandit en racine d donc quand d grandit mais on se retrouve avec on se retrouve avec quelque chose d’assez d’assez grand et donc là si jamais je prends euh directement si je prends alors juste une mesure d’accord donc là c’est optimisé pour avoir le le meilleur Sigma et bien ça fonctionne au début puis après on y arrive pas alors que oat c’est c’est en séquentiel one at a time on voit apparaître on va apparaître que on arrive toujours à à bien échantillonner il y a d’autres figures qui sont si on se prend sans en rajoutant pas trop de bruit et ben sans bruit ça fonctionne au début ça fonne pas en dimension c’est juste pour vérifier vérifier que ça fonctionne bien pour les mélanges de gausienne à droite ici on fait on fait varier la la variance du bruit euh donc çaà dire c’est la variance initiale du bruit donc clairement là va avoir un compromis si je rajoute donc là j’ai un budget constant ici euh si je rajoute trop de bruit et bien j’auraai pas suffisamment d’étapes pour arriver à à un échantillonnage bah pas trop pas trop pas trop flou et si je rajoute pas assez de bruit j’arrive pas à échantillonner d’accord donc on voit on voit il y a un swet spot qu’on qu’on voit arriver donc pour pour pour finir der ça sera avant dernier transparent en fait il s’avère que ce qu’on a fait et un sousc d’un cadre plus général qui s’appelle l’idée de localisation stochastique de monanarie de l’année dernière et qui est essentiellement à mon sens la vraie version que faut retenir des modes de diffusion d’accord donc la mod de diffusion où je prends mon image je rajoute du bruit et je fais demi-tour et j’utilise fcker plan pour dire que c’est le score c’est quelque chose qui pour moi euh un poil compliqué il y a pas de raison de devoir avoir fait un cours de d’équation différentielle stocastique pour comprendre le sampling d’accord donc cette version là la nôtre demande pas de connaissance de SDI mais c’est que la nôtre est un sousc de celle-ci donc quand on prendre celle-ci et celle-ci est vraiment vraiment intéressante et donc l’idée c’est de dire bon ben je veux je veux je veux parter d’une gosienne et arriver à X autant met de manière explicite donc je vais définir donc Z un processus stochastique où je prends x ma distribution initiale je multiplie par T donc quand t vaut 0 ça disparaît et je rajoute un bruit rajoute mouvement bronien donc qui est en gros une gaussienne imaginellement gaussien à chaque étape donc en T ég à 0 ça vaut 0 et puis ça grandit comme cela donc il y a plusieurs plusieurs faits je vais pas je vais pas les mentionner mais mais je pense que c’est la la manière dont ça devrait être présenté maintenant euh donc premier première fait c’est que bah si je divise si je divise ZT par T ben ZT sur T j’obtiens x + bt/ T donc bt/ t BT c’est c’est B bronien donc la marginale t c’est gaussien de variance t donc quand je dise par T ça fait ça fait Go de variance 1/ t donc euh la distribution marginale de Z sur T x plus du bruit gaussien on retrouve les mêmes les mêmes éléments d’accord premier premier fait deuxième fait ZT suit un processus stochastique d’accord qui peut se montrer en quelques lignes sans avoir à faire à focur plan donc le intuitivement plus simple qui va dépendre aussi du score aussi de de la de l’ conditionnelle d’accord donc ça c’est un fait qui n’est essentiellement la même calcul qu’on a fait mais en en plus simple et celui-ci on peut le faire à la main alleer faire le Granon du score euh la la réversion du score à la main c’est pas facile là celui-là il est il est on peut le voir de manière intuitive et 3ème fait bon ben ça on l’a déjà vu c’est que comme ZT c’est X+ du bruit et bien le débruitage de X connaissant ZT et bien c’est aussi bah c’est la même formule c’est euh on avit y + c² fois le score bah là c’est pareil s fait y c’est zt/ T et donc l’algorithme l’algorithme que propose Andre motanari c’est simpleement de suivre cette diffusion d’accord qui est pas très différente de l’autre simplement elle nécessite pas de dire que je fais que je fais quelque chose de B donc quel est le lien donc il a un lien assez intéressant donc le lien donc qui m’a été donné par andreaar directement c’est que bah si je prends la différence entre donc mon processus ici si je je prends à deux étapes discrétisé par Delta donc entre K del et k- 1 Delta et je divise par Delta donc par définition Z k Delta bah c’est k Delta X X quand je retire celui de l’étape d’avant et bien je récupère x d’accord c’est presque construit pour après je prends mon mouvement bronien et je je le préserve d’accord j’ai le mouvement bronien à K Delta et mouvement bronien à k- Delta donc là j’ai un accrément brogien et donc là l’intérêt des acréments brogien c’est qu’ils sont tous indépendants ord donc qu’est-ce que c’est que cette cette vableatoire qui est la différence de ce processus stocastique à des instants discrets c’est exactement x plus des Brou indépendant donc c’est exactementes mes mesures multiples d’accord et et le matching se fait avec Delta = 1/ Sigma Carr donc ce qu’on a ce qui ce ce qu’on a ce qu’ ce qu’a vu Andrea c’est le fait que notre processus qui qui partait qui partait d’un de mesur de X plus du bruit on prenait la première puis on conditionnait ça correspond exactement à suivre le processus stocastique Z suivant le temps mais en l’échantillonnant à des temps discrets d’accord à l’instant zéro bon bah c’est juste ça ça Z0 et puis à l’instant 1 et bien c’est not mon Y1 là j’ai mon y2 jusqu’au mon YM d’accord donc c’est deux manières différentes de voir sa pr stocastique mais je pense que celle-ci pour le coup est euh est beaucoup plus simple à à mettre en œuvre il y a pas il y a pas de format de B comme ça donc pour pour conclure dans ce que j’ai fait en première partie c’est de présenter un peu comment marchaient les modèles de diffusion et le ce qu’il faut retenir c’est vraiment le fait que la magie dans les SCOR d’accord et le la chose pas magique la chose magique bon il a deux magies dans les SCOR et de on sait apprendre les Scor à é de donné ça c’est la magie par contre si je vous donne la densité de f2x d’accord sans sans bruit donc pour C ég à 0 aller construire le score ça c’est pas facile d’accord donc ça résout pas les problèmes des chtillages class classique hein donc il y a des si je vous donne une densité qui est pas l concave vous donne FX vous saurez pas vous saurez pas utiliser cette technique là pour le faire et le le le problème c’est que calculer le score est un problème d’accord mais là si on connaî les données et bien on peut estimer le score paringon proposé avec de interétation qui est sansation différenti stastique donc permet de savoir où commencer commencee du bruit jusquà concave d’accord dire pe à l’avanceis s’arrêter toujours de hamètr extension donc c’est de comparer ça avec les le les SC machine qui est le score machine classique bon si on l’a fait ça marche pareil c’est pas très c’est pas c’est pas très surprenant c’est de comparer un peu le le le le la performance des chantillonnage d’accord donc ça il y a des travaux qui existent déjà pour savoir si je connais les score à quelle vitesse je vais aller en gros combien de pas de gradient je devoir je devoir faire mais ce qui est intéressant pour moi c’est dans notre approche il y a pas il y a pas de d’ctif stocastique il y a pas de gasien il y a une gasienne parce qu’on définit des goussien mais le l’idée de dire je prends mon x que je bruite je peux le faire avec une gasienne mais avec je peux le faire avec avec des variables discrètes je peux le faire avec des variable entière je peux faire avec un peu ce que je veux donc ça c’est un peu ça qui nous intéresse en ce moment c’est de voir étendre la diffusion Auel desgcien un peu compliqué mais le côté discret lui est facilement facile à à étendre et enfin bien sûr il y a le Samp conditionnel d’accord donc ça le but et ça ça qui est impressionnant dans ces dans ces t de génération d’image c’est que je donne un prompte et ça génère et ça génère et ça génère une image correspondant au prompt donc ce qui est assez magique ici et comment la manère ça fonctionne c’est uniquement la règle de base c’est que la proba de X ça sur Y donc si y est votre prompte on une classe d’image vous voulez sembler de X Y et bien la probable de X Y c’est celleement celle de X et C de y x c’est le produit des deux d’accord px on sait on vient de le faire générer une image naturelle et P y x c’est un classifieur d’accord donc pour faire du SLI conditionnel il faut juste savoir échantner une image avoir l’idensité de toutes les images du monde donc ça c’est ce qu’on vient de faire là et d’avoir un bon classifieur y x donc promp sa x et ça ben la manière de le faire donc ça j’ai je nai pas parlé du tout dans le détail mais vraiment à la fin c’est vraiment utiliser euh euh la combinaison de score pour savoir bien estimer le scores de la densité des images naturelles et il y a un bon classifieur et ça donne ces belles images que vous avez tous vu merci de votre [Applaudissements] attention [Musique]

Apprentissage et génération par échantillonnage aléatoire (16) – Stéphane Mallat (2023-2024)

Botswana Warm First Impressions 🇧🇼 vA 140

Courtney Dauwalter first women and second overall at the nice 100 miles #ultrarunning #trailrunning

Saint Raphaël, En Vélo Vintage 😍

Apprentissage et génération par échantillonnage aléatoire (16) – Stéphane Mallat (2023-2024)

Related

Botswana Warm First Impressions 🇧🇼 vA 140

Courtney Dauwalter first women and second overall at the nice 100 miles #ultrarunning #trailrunning

Saint Raphaël, En Vélo Vintage 😍