Apprentissage et génération par échantillonnage aléatoire (8) - Stéphane Mallat (2023-2024)

Enseignement 2022-2023 : Apprentissage et génération par échantillonnage aléatoire
Séminaire du 07 février 2024 : Modèles génératifs pour la simulation de systèmes à l’équilibre

Intervenante : Marylou Gabrié, Professeure à l’École Polytechnique

Dans cette présentation, nous discuterons des opportunités d’accélération de simulation des systèmes physique à l’équilibre avec l’apprentissage automatique. Ces méthodes reposent largement sur des modèles génératifs profonds qui sont des modèles probabilistes très flexibles, capables de fournir des échantillons indépendants de distributions complexes à coûts négligeables. Ils peuvent être mis à contribution pour faciliter la simulation d’une distribution de
Boltzmann, une tâche généralement difficile soit en raison de la dimensionnalité, de la multi-modalité, du mauvais conditionnement ou d’une combinaison des précédentes. Nous présenterons différentes méthodes combinant simulation classique et apprentissage, quelques exemples d’application et discuterons les défis restants.

Retrouvez les enregistrements audios et vidéos du cycle :
https://www.college-de-france.fr/fr/agenda/seminaire/apprentissage-et-generation-par-echantillonnage-aleatoire

Chaire Sciences des données
Professeur : Stéphane Mallat

Retrouvez tous ses enseignements :
https://www.college-de-france.fr/chaire/stephane-mallat-sciences-des-donnees-chaire-statutaire

Le Collège de France est une institution de recherche fondamentale dans tous les domaines de la connaissance et un lieu de diffusion du « savoir en train de se faire » ouvert à tous.
Les cours, séminaires, colloques sont enregistrés puis mis à disposition du public sur le site internet du Collège de France.

Découvrez toutes les ressources du Collège de France :
https://www.college-de-france.fr

Suivez-nous sur :
Facebook : https://www.facebook.com/College.de.France
Instagram : https://www.instagram.com/collegedefrance
X (ex-Twitter) : https://twitter.com/cdf1530
LinkedIn : https://fr.linkedin.com/company/collègedefrance

[Musique] [Musique] le séminaire là va être donné par donc marielou gabrier qu’on est très content de d’accueillir ou est une des spécialistes à l’interface entre d’un côté la physique et le machine learning et c’est vraiment ce pont très riche que qu’elle fait évoluer elle est professeurs à l’École polytechnique et donne des conférences

Partout dans le monde sur ce sujet donc merci beaucoup de venir pour cette présentation je crois que tu as le truc il faut peut-être bon parfait bah merci beaucoup merci infiniment Stéphane donc de me donner l’opportunité de vous parler parler de cette ligne de recherche donc qui allie les modèles

Génératifs donc de l’apprentissage à la simulation des systèmes physiques euh donc c’est une ligne de recherche à laquelle je contribue depuis quelques années et ce aussi grâce à de nombreuses collaboratrices et collaborateurs donc de par le monde à la fois ici à l’École polytechnique mais aussi donc aux États-Unis à New York à

Stanford et même en Colombie donc à l’université d’antiokia donc je vais vous parler un peu de tout ça et euh ce sera vraiment dans la continuité des sujets qui ont été abordés ce matin donc j’espère que j’arriverai à à mettre ce lien en évitence pour vous mais avant de

Commencer ce que je voulais c’était vraiment vous donner deux éléments de contexte qui à mon sens sont très importants pour situer cette ligne de recherche et le premier de ces éléments c’est le l’avènement de l’apprentissage automatique génératif donc au cours des dernières années on a vraiment assisté à

Quelque chose qu’on pourrait appeler une révolution et qui est encore en cours où on on est passé d’un apprentissage prédictif à un apprentissage génératif que je pourrais résumer sur un exemple de traitement d’images en ces termes on est passé de la classification d’images j’ai par exemple des images de chien et

De chats et je suis capable de créer un programme qui va généraliser au-delà des exemples que j’aurais vu pour m’entraîner et donner des étiquettes chat chien en fonction de l’entrée donc ça c’est ce qu’on a résolu en premier en apprentissage automatique et notamment donc sur les applications d’image qui

Sont vraiment un des chevaux de bataille de l’apprentissage automatique à si vous voulez la configuration inverse on donne l’étiquette finalement de ce qu’on veut au programme et il nous sort des réalisations des données qui correspondraient à cette étiquette donc là par exemple j’ai pris ce petit modèle qui s’appelle dalimini je lui demandais

Un chat selon inia et il m’a créé des images de chat et donc on a d’une part une inversion de la dimension on passait donc de de donné en très grande dimension qu’on essayit de résumer à des données en petite dimension même binaire dans ce ce cas d’exemple de

Classification chachien à un cas où on a un input en petite dimension simplement quelques caractères quelques phrases et on génère donc des points de données beaucoup plus complexes et par ailleurs vous observerez que pour une même étiquette on peut demander à nos algorithmes génératifs de générer plusieurs réalisation donc on a aussi ce

Passage à des modèles probabilistes stochastiques euh donc dans euh la littérature d’apprentissage automatique aujourd’hui donc ça c’est quelque chose comme je le disais qui s’est très bien vu sur les exemples d’images qui sont encore une fois un des chevaux de bataille de l’apprentissage automatique mais c’est aussi sur beaucoup d’autres

Formes de données donc pour le texte on ne présente plus du tout chat GPT qui par exemple ce matin vous saluait en vous souhaitant donc une bonne journée remplie d’apprentissage de découvertees et d’inspiration je vous le souhaite aussi mais c’est le cas aussi sur des des problématiques donc comment comment

Dire beaucoup moins répandu beaucoup plus pointu tel que la génération de système physique et là je vous ai choisi un exemple parmi d’autres où un papier donc qui a notamment eu pas mal d’éco dans la communauté l’année dernière proposé d’essayer de générer des poses d’un ligand donc d’une petite molécule

Sur une protéine pour donc réussir à explorer donc les les possibilités de liaison de ce ligan et de ces protéines et donc en produire en prédire les propriétés mais donc vraiment un algorithme gén qui génère la pose d’une molécule sur une autre donc on a ce premier élément de contexte le deuxième

Élément de contexte c’est l’appropriation de l’apprentissage et de l’apprentissage en particulier profond par les scientifiques de tout bord dans leur boîte à outils de calcul scientifique donc on a vraiment j’insiste sur le côté apprentissage profond parce que finalement c’est extrêmement porté par ces réseaux de neurones qui comme vous

Le savez peut-être sont des une classe de fonction qu’on peut prouver donc est capable d’approcher toute fonction continue donc évidemment il faut leur donner une certaine taille pour que ce soit le cas mais on a ces théorèmes dit d’approximation universelle qui permettent si vous voulez d’imaginer de Tron de tronquer cette approximation de

Fonction comme un développement sur une classe de fonction sur une base de fonction donc que Stéphane mentionné il y a quelques minutes avec donc ces classes extrêmement diverses des réseau de neurones donc ceci c’est au prix de modèles qui sont paramétrés par beaucoup de paramètres qu’on ne sait plus

Interpréter c’est plus je comprends que c’est telle intensité sur tel mode de ma de sur tel mode de Fourier donc j’ai telle voilà telle fréquence qui est représentée avec telle intensité dans mes données là on ne sait plus interpréter les paramètres des réseaux de neuron ils en ont énormément

Mais malgré ce manque d’interprétabilité on parle on parle d’eux souvent avec le terme de boîte noire on va euh ils vont garder une capacité de généralisation de leur prédiction au-delà de leurs exemples d’entraînement et donc être extrêmement puissant en fait pour faire des règles de prédiction ce qui va les

Rendre extrêmement utile et donc on va avoir une multiplication dans la littérature maintenant même de revue qui passe en revue de manière plus ou moins euh spécialiser les apprentissages de les pardon les utilisations de l’apprentissage automatique donc euh dans dans les différentes sciences par exemple dès 2018 il fallait déjà faire

Une revue un article de revue des applications de l’apprentissage profond sur la science du LHC donc vous voyez très précis mais déjà euh besoin de faire un bilan de ce qui se fait et puis ensuite voilà des choses plus générales en physique des applications très marquantes en chimie par exemple avec

L’apprentissage des champs de force pour faire de la dynamique moléculaire euh le transport aussi des méthodes euh de traitement d’image automatique à des applications microscopie et cetera et cetera donc ça euh ce sont donc les deux éléments de contexte euh sur lequel je vais m’appuyer pour euh vous parler

D’une certaine vision du monde qui sont euh l’étude des modèles probabilistes donc à la fois l’avènement de l’apprentissage génératif et à la fois euh la l’identification il faut si vous voulez du potentiel de l’utilisation de l’apprentissage profond en calcul scientifique et donc ces modèles probabilistes ce sont des modèles qui se

Rencontrent dans l’étude du monde sous donc dans plusieurs cas et celui qui va m’intéresser en particulier c’est celui des de système des de l’étude des systèmes physiques à l’équilibre donc comme vous le savez peut-être la physique statistique nous dit que un système dans un bain thermique a une

Température B à l’équilibre à des statistiques qui vont être décrites donc par l’ensemble qu’on dit canonique et dont la distribution et la distribution dite de bolzman donc qui va s’écrire donc à avec la le le facteur beta qui est simplement l’inverse de la température et qui fait aussi intervenir

La constante de bolsman comme donc cette distribution avec cette densité de probabilité qui est donc proportionnelle à exponentiel Mo ins beta FO une fonction u de X ou u de X ici serait simplement la fonction d’énergie du système donc si x est la coordonnée de mon système qui donc qui représente

L’état de ma configuration physique si je connais u Dex la distribution de bolzman me donne donc les statistiques du système pour vous donner un exemple extrêmement concret on pourrait penser à étudier une petite protéine disons et cette petite protéine on pourrait savoir qu’elle a deux conformations majoritaires et on aimerait savoir

Quelle fraction du temps la protéine va passer dans une conformation ou dans une autre et ben ce sont des propriétés purement d’équilibre purement statistique qui son sont donc directement décrites par la distribution de bolsman donc du système donc ça c’est une une une des manières de rencontrer des modèles probabilistes pour étudier

Ben tout simplement le monde qui nous entoure une autre manière qui me paraî pertinent d’évoquer c’est celle des modélisations statistiques baaisiennes donc dans ce cas-là on va avoir en fait un paradigme complètement différent on va avoir une distribution qui nous vient de la règle de base et qui sera en fait

Une distribution dite postérieure sur des paramètres thêta d’un modèle qu’on va contraindre à partir d’un jeu de données quiici je note simplement d donc cette postérieure elle va venir d’une vraie semblance qui correspond à la probabilité d’observer les données étant donné certains paramètres du modèle donc si le processus de génération de données

Suivit le modèle avec ces paramètres est-ce que ces données seraient probables et une loi a priori sur les paramètres du modèle modèle encore une fois euh si je vous donne un exemple très concret simplement pour fixer les idées les statistiques baaisiennes sont extrêmement utilisé en astrophysique et

Ici l’exemple que je vous donne c’est celui de la modélisation de la vélocité radiale d’un système exoplanète étoil en fonction donc du temps donc les observations coûtent cher on en a quelques-unes j’ai quelques points noirs qui correspondent à la mesure de cette vélocité radiale et bien cette vélocité

Radiale de l’étoile qui va osciler je vais m’attendre en fait à ce qu’elle oscile euh dans notre champ de vision pourquoi parce que simplement il y a une déplacement du euh centre de masse duit du système simplement puisque j’imagine que j’ai ce système binaire avec une étoile et une exoplanète euh autour et

Euh ici je me rends compte que avec ces quelques observations que j’ai pu m’offrir et ben il y a énormément de modèles oscillants différents qui passent par ces points d’observation et donc euh si je veux euh rendre compte scientifiquement de ces données il faut bien que je rendre compte de

L’incertitude que j’ai dans contraindre les paramètres de ce modèle oscillant et donc en fin de compte contraindre par exemple la masse de l’étoile de la planète qui seront donc observé via cette vélocité radiale donc deux exemples complètement différents mais où dans les deux cas on se retrouve avec une densité de

Probabilité donc que je note à chaque fois r dans cet exposé et que je connais que je connais analytiquement à une chose près qui est le facteur de normalisation de cette densité de probabilité donc ici je fais l’hypothèse que je connais la fonction d’énergie de mon système donc je connais la loi de

Probabilité à l’exception donc des C 1/ Z donc que je n’ai pas détaillé mais qui simplement s’assure que l’intégrale de la distribution de probabilité sur l’espace considéré simplement somme à 1 donc même point de départ et en réalité par biais de formation je vais euh à chaque fois adopter plutôt

Cette dénomination de la distribution de bolzman aussi parce que je suis particulièrement intéressée par les systèmes physiques à l’équilibre mais juste je note si vous êtes plutôt côté directement étude de modèle probabiliste que vous pouvez toujours en tout cas dans les cas qui nous intéressent redéfinir l’énergie simplement comme la

Négative log vraissemblance donc vous prenez moins le log de cette densité de probabilité et vous avez votre analogie entre euh physique à l’équilibre et modèle probabiliste qui vous serait donné par un autre billet très bien donc la star de cette exposé c’est une densité de probabilité qui est connue à une normalisation près

Donc je vais lui donner un peu une petite étoile donc dans le reste des slides puisqu’on va avoir donc plusieurs dans ces probabilités qui vont apparaître mais c’est mon point de départ j’ai une variable X qui décrit par exemple les coordonnées d’un système physique qui vit dans RD et je connais

Donc donc analytiquement cette densité de probabilité a un facteur de normalisation près donc les propriétés de cette densité de probabilité et donc les propriétés de mon système physique à l’équilibre sont donné par des calculs d’espérance vis-à-vis donc d’observable qui qui m’intéresserait donc par exemple sur ce cas de fraction de temps que ma

Molécule va passer dans un isomère ou dans un autre il faudrait que je mette simplement l’espérance d’une indicatrice pour avoir la probabilité donc d’un d’être dans un certains espace région de l’espace des configurations ou dans une autre région de l’espace des configurations mais évidemment donc cette espérance qui encore une fois

Sécrit sous une intégrale où on va pondérer les valeurs de l’observable F qui nous intéresse donc sur les configurations par la densité de probabilité c’est quelque chose qu’on ne peut pas faire analytiquement dès que on a plus que de trois coordonnées bien sûr puisque cet intégrale numérique nous

Demande de faire tout simplement une grille de l’espace et la taille de cette grille va augmenter exponentiellement dans la dimension donc c’est évidemment quelque chose qui n’est pas faisable et à la place on s’appuie sur la loi des grands nombres qui nous dit que on va pouvoir approximer cette espérance par

Une somme empirique sur des réalisations que j’appelle XI si ces ces réalisations XI sont distribué selon cette distribution de probabilité r étoile de X donc si vous voulez je déplace mon problème de calcul d’une différence qui peut se voir comme un calcul d’ intégrale vers un problème de simulation

D’obtenir des X1 xn qui doivent être distribuer selon R étoile de X alors comment faire en pratique cette simulation et bien on a un exemple très simple qu’on peut se donner en tête pour se fixer lesidé encore une fois donc là je pense à une particule qui serait donc

Sur une surface donc bidimensionnelle dans laquelle j’auris mis depuis et ici si je vous vous trace la densité de probabilité qui correspond c’est simplement en réalité une mixture de gausienne donc avec deux régions où ma densité de probabilité va être significativement différente de zé et je

Peux vous tracer donc sur les deux axes X1 et X0 les marginal de cette densité de probabilité très bien la dynamique physique en fait de cette particule si par exemple j’en utilise j’en initialise une trajectoire ici et une trajectoire ici aura euh donc une tête un peu comme

Celle-ci où je vais avoir donc un espèce de mouvement bronien avec aussi informé par le potentiel sur donc ma surface de la particule et c’est une manière de générer des réalisations de ma probabilité ma densité de probabilité d’intérêt donc si vous voulez ici j’ai

Un petit peu je me suis un peu mordu la queue j’ai dit j’ai pas besoin de tous les détail j’ai juste besoin de simuler la densité de probabilité mais euh en fait comment simuler cette densité de probabilité bon une première idée c’est de se dire ben en fait on connaît des

Approximations de la dynamique physique et on pourrait les utiliser toutefois est-ce que vous voyez un donc c’est une dynamique ici en particulier qui s’appelle de l’evin est-ce que vous identifiez quel est le problème de cette approche ou en tout cas le comment dire le oui ce ce vers quoi je vais me heurter

Avec cette approche oui ouais alors en fait le problème c’est que cette dynamique physique elle va effectivement sur des échelles de temps très longues échantillonner la distribution d’équilibre c’est ça le les prémisses de mon exposé mais en réalité le temps qu’elle va avoir besoin d’être simulé pour arrivriver à décrire cette

Cette distribution d’équilibre donc qui se passe beaucoup plus vite dans le monde qu’on qu’on qu’on qu’on expérimente mais c’est beaucoup plus lent de le faire sur l’ordinateur d’essayer de de appliquer ce qui se passe dans la vie réelle et bien on va par exemple ne pas observer donc les

Transitions qu’il y a normalement dans les trajectoires de cette distribution puisqu’elles suivent cette densité de probabilité et en particulier si on utilisait des réalisations de tel trajectoire pour calculer donc notre somme empirique qu’est-ce qu’on verrait on verrait que le poids relatif des deux modes de magoienne ou la

Profondeur relative de mes depits de potentiel sur lequel se B de ma particule serait en fait complètement malestimé et et simplement hérité de l’initialisation des trajectoires donc que j’ai donné pour le temps donc que je peux me permettre de simuler ces trajectoires donc la dynamique physique va être assimulé beaucoup trop coûteuse

Et on veut vraiment être capable de faire autre chose pour réussir à efficacement estimer donc les propriétés d’équilibre des systèmes physiques et on voudrait en fait un algorithme qui vraiment idéalement nous donne des réalisations donc aléatoire indépendamment distribué de ma distribution cible qui aurait donc une tête un peu comme celle-ci comment le

Faire l’objectif de cette présentation c’est de vous donner une manière une vision de comment le faire bien sûr il y a c’est un problème crucial dans lequel il y a une littérature qui est énorme mais aujourd’hui je veux me donc me concentrer sur est-ce qu’on peut profiter de ces progrès en apprentissage

Génératif pour effectuer donc une simulation dite de Monte Carlo efficace peut-être que le mot clé que j’ai oublié de citer donc à l’oral c’est que quand on on passe donc de cette idée d’une simulation de du système qui suivrait une simulation physique à une simulation qui n’a comme objectif unique que d’être

Distribué selon R étoile de X pour faire donc ces approximation qu’on dit de type Monte Carlo donc qui sera encore une fois donc le deuxème chapitre si j’ai compris de du cours partie échantillonnage ah ah d’accord qui a déjà été faite bon bah parfait donc donc donc très bien euh donc pour se

Concentrer sur les modèles génératifs euh la ce que je voulais vous faire c’est redonner les fondamentaux des modèles génératifs comme j’en ai besoin aujourd’hui donc pareil c’est des sujets tout à fait au centre de ceours mais ici si je résume les propriétés que j’ai besoins que vous ayez en tête pour

L’exposer elles sont les suivantes donc les modèles génératifs ont été introduits pour faire de l’estimation de densité donc comme le disait encore Stéphane ce matin c’est-à-dire que c’est le cas où j’ai un jeu de données d’intérêt donc une réalisation de Xi d’une certaine taille donc pareil vous pouvez toujours commencer par penser aux

Exemples d’images donc j’ai une collection d’images disons de chiens et euh ce que je vais faire c’est que je vais postuler un modèle probabiliste paramétré je vous ai pas encore dit comment et je vais essayer d’entraîner les paramètres de mon modèle probabiliste paramétré donc je note ces

Paramètres thta de manière à ce qu’il maximise la vraisemblance de mon ensemble de données donc qui me sert d’ensemble de données dites d’entraînement donc la vraissemblance du jeu de données ce serait le produit de la densité de probabilité évaluée à chaque point de donné si je prends donc

Simplement le log de la vraissemblance je vais donc maximiser la somme de log de r thêta de Xi pour essayer donc d’apprendre un un modèle probabiliste r thêta qui va ressembler autant que possible à mes données d’entraînement et par exemple me permettre d’en régénérer donc une manière de faire ça c’est de

S’appuyer sur le paradigme des modèles génératifs à variable latente donc ici je suis en train de décrire une paramétrisation possible et extrêmement commune et extrêmement puissante des modèles génératifs donc qui marche de cette de cette manière c’est une paramétrisation qui s’appuie sur la transformation d’une mesure de base donc

Ici j’ai une distribution de probabilité simple que je sais simuler efficacement avec mon ordinateur donc par exemple une gasienne multivariée en grande dimension et euh ce que je vais faire c’est prendre des réalisations de cette distribution de probabilité et les transformer par une fonction que cette fois-ci je vais apprendre donc que

J’appelle T indice thêta donc pour insister sur le fait que c’est là où sont les paramètres de ma fonction pour créer des x donc que je vais essayer donc de faire aussi proche possible que de ceux de ma distribution initiale donc par exemple avec cette technologie on peut aujourd’hui transformer des réalisations gosiennes

Euh en image de chien donc si on on organise ces réalisations d’une gotienne aléatoire en pixel aussi ça nous donnerait comme une image toute pixelisée qui donc par l’apprentissage d’une certaine transformation va être capable d’être transformé en l’ image de chien donc ce qu’il faut avoir en tête c’est

Que cette procédure définit bien un modèle probabiliste avec donc la mesure image r thêta de X qui correspond donc à cette procédure de échantillonner une mesure de base telle qu’une gaauienne et la transformer avec un modèle paramétré et si j’ai réussi donc mon entraînement par exemple sur une base de

Données d’image de chien ce que j’obtiens c’est que à chaque fois que je vais échantillonner une nouvelle gosienne une nouvelle réalisation donc de ma mesure de base éventuellement gasienne je vais obtenir une nouvelle image de chien donc un dernier point technique dont j’ai besoin c’est euh encore une sous-catégorie de ces modèles génératifs

À variable attente qui sont les flots d’ normalisants ou les normalizing flows en anglais qui se restreignent à des des transformations ttta qui soient des dihéomorphismes alors pourquoi est-ce qu’on euh veut des transformations inversibles euh pour le ttta si puisque ça n c’est parce que ça nous permet

D’avoir une mesure image explicite donc d’avoir une mesure une expression analytique du R thêta de X qui est simplement donné en fait par la formule du changement de variable que vous appliquez au densité au lo au densité de probabilité donc vous utilisez la mesure de base vous l’évaluez dans l’inverse de

La transformation et vous rajoutez donc le terme du déterminant du jacobien qui vous donc prend en compte donc la ch le changement de volume dans vos espaces entraînés par ce diphéomorphisme donc voilà les les fondamentaux des modèles génératifs que j’ai besoin que vous ayez en tête notez bien que ce sont

Donc des modèles qui sont qui ont la possibilité de créer des distribution extrêmement compliqué puisque si on pense à la distribution qui soutendrait les images de chien c’est quelque chose qui a énormément de structure euh qui a priori est extrêmement compliqué mais qui garde la possibilité d’être échantillonné ex exactement très

Facilement donc à chaque il me suffit donc d’échantiller une nouvelle réalisation de ma mesure de base pour obtenir un nouvel échantillon exact une nouvelle simulation exacte de du modèle r thêta de X d’où l’intuition qui peuvent probablement nous être utile pour simuler des distributions de probabilité qui nous seraient donné par

Un autre biais donc si vous voulez ici on on ferme la boucle de dans un cas j’ai des une distribution de probabilité qui m’est donnée par exemple parce qu’elle décrit un physique un système physique à l’équilibre et je veux en obtenir des réalisations et les modèles génératifs qui eux à partir de

Réalisation à partir d’échantillon d’intérêt réapprennent une densité de probabilité qui y ressemble donc on va essayer maintenant de fusionner ces technologies pour donc arriver à notre premier objectif qui est celui de la simulation d’une distribution de probabilité qui a été donnée donc si je reviens à mon exemple simple de

Ma particule sur une surface en 2D je peux avoir un modèle génératif qui va va définir lui aussi donc une densité de probabilité r thêta de X que je vais mettre dans le même espace et que je peux ajuster de manière à ce qu’il ressemble autant possible à la

Distribution de probabilité cible donc par exemple je peux obtenir le ce résultat si et une fois que j’ai ça qu’en faire et bien une première idée ce serait de dire ça ressemble à la distribution qui m’intéresse je peux l’échantillonner facilement j’obtiens simplement un set d’échantillon de cette distribution de probabilité rotéta et je

L’utilise pour faire mon approximation par Monte Carlo de l’espérance qui m’intéresse quel est le problème le problème c’est que les modèles génératifs donc qui s’appuie sur l’apprentissage euh donc profond vont souffrir de toutes les erreurs euh possible d’approximation et d’optimisation que nous ne pouvons pas contrôler en apprentissage profond donc

L’apprentissage profond c’est à la fois quelque chose d’extrêmement puissant et à la fois quelque chose de complètement incontrôlé et donc dans cette idée de euh étude des système physique à l’équilibre on ne va pas se satisfaire d’avoir ces erreurs qui ne sont pas prédictibles qui ne sont pas euh

Contrôlable sur le modèle final et ce qu’on va faire c’est qu’on va plutôt utiliser ce modèle génératif donc encore enc une fois ce modèle r thêta 2 x qu’on a essayé d’approcher de r étoile pour faire mieux et on peut faire mieux de manière Act de manière en fait très

Simple par exemple en s’appuyant sur la l’algorithme de d’échantillonnage par importance qui utilise donc ces réalisations que je venais de vous montrer mais qui va les repondérer donc très simplement en mettant en regard quelle est la densité de probabilité de ces réalisations à la densité qui m’intéresse comparé à celle avec

Laquelle ils ont été tirés donc ici on va pouvoir simplement réécrire notre approximation par mont Carlo avec une somme pondérée qui on va pouvoir le montrer cette fois-ci asymptotiquement serait sans B pour calculer donc la l’espérance euh l’espérance recherchée donc tout simplement en rééquilibrant les poids les les échantillons qui nous ont été

Donnés au départ on obtient quelque chose cette fois-ci de contrôlable de vérifiable qui a vraiment donc profité de la précision si vous voulez du modèle génératif rotéat pour trouver où étai les zones d’intérêt dans la distribution cible mais qui ensuite ne suffit pas uniquement et un un mécanisme de correction par cette

Pondération d’accord donc euh finalement ce que je vous ai essayé de vous vous montrer euh jusqu’ici c’est supposons qu’on puisse entraîner un modèle génératif tel qu’on a un r théta qui soit à peu près égal au R étoile de notre système physique d’intérêt alors qu’est-ce qu’on y gagne on y gagne

Beaucoup on est capable de simuler efficacement puisqu’on va pouvoir à la fois trouver les régions d’intérêt et simuler des des propositions si vous voulez par facilement avec le modèle génératif et on va aussi avoir des méthodes donc de repondération pour les corriger et pour être sûr de vraiment coller à la physique

Toutefois je ne vous ai pas dit comment on s’entraîne et comment on s’entraîne c’est si vous voulez le nerf de la guerre dans ces applications puisque je pars de l’hypothèse que je n’ai pas de données d’entraînement pour commencer j’ai simplement accès à une densité de probabilité r étoile que je veux

Échantillonner mais je n’ai pas ces réalisations XI de mon r étoile qui correspondrait finalement à mes données d’entraînement dans un problème de d’apprentissage génératif classique donc qui toujours partent des données donc comment s’entraîner ici sans données pour permettre de profiter de cette technologie dans cette simulation r

Étoile de r étoile de X et ben en fait il y a des méthodes et on va même en voir deux en comprenant leurs avantages et leurs inconvénients et la première c’est tout simplement de considérer une une un objectif d’entraînement qui ne requiert pas de données d’entraînement

Qui ne requierent pas de simuler rau étoile a priori alors c’est quelque chose qui en fait porte le nom d’inférence variationnelle et qui est très vieux qui a été justement la première fois formulée sur l’étude des systèmes ferromagnétiques binaires donc des choses très très simple au début du 20e

Siècle et qui depuis donc a pris du gallon et ici qui va intégrer donc tout tous les progrès qu’on a en apprentissage génératif pour vraiment exploiter le potentiel de cette méthode au maximum et elle consiste finalement très simplement à utiliser comme objectif d’entraînement une divergence de coolback lier donc quelque chose qui

A aussi été mentionné ce matin et celle qui va s’écrire entre rotetta et rot étoile comme une espérance sur rotéta donc le fait que cette divergence s’écrive comme une espérance sur rotétat va nous permettre d’estimer efficacement cet objectif pour l’utiliser donc dans une descente de gradient ensuite sur les

Paramètres thêta de notre modèle génératif je peux donc écrire simplement en échantillonnant ma mesure de base du modèle génératif à variable latente que j’utilise et même plus précisément du flow normalisant qui me permet d’avoir donc accès à au qui me permet d’avoir accès à une transformation qui est à la fois

Inversible et que dont je peux calculer efficacement le jacobien je vais pouvoir donc utiliser cette euh divergence de coolback libler pour régler les paramètres de thta de manière à ce qu’elles soi minimum donc c’est quelque chose qui porte le nom d’inférence variationnelle dans la mesure dans la littérature de statistique ou principe variationnel

Simplement dans la littérature de mécanique statistique on reprend toujours l’exemple simple cette particule sur une surface en 2D dont la distribution de probabilité est cette mixture de gaustienne et on on utilise donc cette divergence de coolback Laber comme un objectif pour s’entraîner donc simplement pour régler les paramètres d’une distribution modélisé par un

Normalizing flow euh en suivant donc la une descente de gradient sur cet objectif et on verrait par exemple quelque chose de comme ça au début donc on initialise notre modèle de réseau de neuron bah un peu comme on peut et on va suivre les gradients et on va réussir à

Développer un modèle qui va identifier dans l’espace où est ce qu’il y a de la probabilité donc dans notre euh distribution cible donc très bien le modèle n’est pas parfait mais comme je vous l’ai dit c’est pas vraiment notre objectif d’avoir quelque chose de parfait par contre en fait il y a un

Problème dans ce dans cet objectif qui est qu’il est un peu trop optimiste de penser que vraiment on n pas besoin de d’échantillon ou de connaissance de rou étoile autre que simplement la valeur analytique de cette fonction à une constante de normalisation près puisque si j’avais refait la même expérience

Mais initialisé mon flot normalisant de cette manière donc beaucoup plus centré et beaucoup moins couvrant sur l’espace j’aurais plutôt observé quelque chose de comme ça c’est-à-dire que la descente de gradient va m’emmener vers simplement une des régions d’intérêt de mon système et ne me permettra pas de couvrir toutes

Les régions d’intérêt donc ça c’est un phénomène qu’on appelle le mode collapse en anglais et qui en fait est bien connu à travers les modèles génératifs même avec données d’ailleurs mais ici qui vient notamment d’un problème de non convexité de notre objectif d’entraînement qui des fois ne sont pas

Des problèmes en apprentissage profond et qui ici et effectivement un problème puisque on a une un un un souci pour même détecter dans le cas où on ne saurait pas qu’il y a une autre région d’intérêt le fait qu’on ait échoué à vraiment modéliser notre distribution d’intérêt avec le modèle génératif

Donc c’est une méthode intéressante mais qui a ce problème du du mode collapse qui est en fait assez mal compris même mathématiquement et qui personnellement m’intéresse beaucoup où on peut voir même suivant les des paramétrisations des modes qui sont trouvés puis ensuite oubliés par la descente de gradient donc

Quelque chose qui n’est pas vraiment stable donc à la place qu’on a par exemple euh proposer c’est de s’appuyer sur une technique de chaîne de Monte Carlo chaîne de Markov donc de Monte Carlo par chaîne de Markov qu’on va appeler adaptatif donc c’est une méthode où on va converger

Simultanément une simulation du système et l’entraînement du modèle génératif alors je vais y aller pas à pas pour essayer de vous donner le contexte enfin l’idée mais la première idée de cette approche c’est de retourner en en fait à l’objectif initial d’entraînement des réseaux génératifs qui sera celui du

Maximum de vraissemblance donc de manière notable en réalité cet objectif de maximum de vraissemblance il n’est autre que la minimisation de la divergence de coolback lier mais qui est simplement prise dans l’autre sens comparé à celle qu’on vient de discuter donc au lieu de prendre 10ql de r thta r

Étoil maintenant je prends DQL de r étoil r théta et donc j’obtiens une espérance sur rau étoile qui se traduit bien par une fonction équivalente en tout cas du point de vue de l’optimisation de rotéat comme le maximum de log vraemblance et qui nécessite toutefois pour être évalué

D’avoir des échantillon de notre densité de probabilité cible donc ça c’est notre objectif donc c’est un peu le problème d’en avoir besoin pour entrer notre réseau mais on va simplement procéder par étape alors qu’est-ce qu’on fait on se dit bon pour commencer j’ai ma dynamique locale de physique je peux en

Initialiser un peu partout dans mon espace et regarder un peu les les États qui ont été visités par cette dynamique physique je sais que je n’ai pas toute l’information sur mon problème mais j’en ai quand même et de manière elle est précieuse je peux utiliser donc les informations les configurations qui sont

Sorties de ma dynamique locale pour entraîner ou en tout cas commencer à entraîner mon mon modèle génératif ainsi mon modèle génératif a commencé à identifier quelle est la région de l’espace avec des configuration intéressante et je peux à son tour l’utiliser pour faire tourner un algorithme de mon t Carlo parchîn de

Markov que je détaillerai dans la slide suivante mais qui lui en fait va permettre grâce aux propositions qui sont données par ce modèle génératif qui couvre bien l’espace de d’observer ces transitions que je ne voyais pas avec la dynamique simplement physique et je vais en observer beaucoup très efficacement

Et notamment cela va me permettre d’obtenir les poids relatifs donc des deux modes une fois que j’ai ça en réalité j’ai des données qui sont encore meilleures pour réentraîner mon réseau donc ce que je vais faire simplement pardon ce que je vais faire simplement c’est répéter ces étapes 1 2 3 je vais

Jamais les converger chacune les unes après les autres et je vais simplement faire quelques pas de chacun de ces algorithmes itératifs de manière à ce que une simulation de la de l’algorithme adaptatif qui va à la fois faire appel à une dynamique physique à la fois faire appel à l’entraînement d’un d’un modèle

Génératif et à la fois faire appel à l’utilisation de ce ce modèle génératif va avoir donc une tête un peu comme ça si je vous rejoue la vidéo euh hop si je peux voilà où toutes les choses vont en fait se passer en même temps pour donc

Euh décrire les statistiques donc de rau étoile très fidèlement donc ce que je ce que je vous ai pas donné donc dans donc c’est un Moné Carlo qui est appelé adaptatif parce qu’en réalité on va se servir des données qui sont générées par le monde

Des Carlo donc que ce soit celle par le Monte Carlo local ou par le Monte Carlo global pour entraîner le modèle génératif qui lui-même va intervenir dans le Carnel de Monte Carlo donc laissez-moi vous expliquer ça rapidement donc la simulation par chaîne de Markov c’est quelque chose que je n’ai pas encore

Évoqué mais qui est absolument omniprésente dans ces problématiques d’échantillonnage de loi de probabilité et qui suit si vous voulez le le paradigme suivant qui est qu’on va éud qu’on va mettre au point un noyau de Markof donc c’est une probabilité conditionnelle si vous voulez de d’aller visiter une configuration XT + 1 à

Partir d’une d’une configuration XT tel que la de configuration produ X0 et cetera jusqu’à xn suivent la distribution cible rau étoile à partir d’une certaine date t qui soit suffisamment grande donc c’est un noyau de Markov dont la distribution stationnaire et le rau étoile et donc on va simplement simuler des trajectoires

Qui sont donc données par un donc une une simulation stochastique à chaque étape par le noyau de Markof pour en déduire des réalisations de rau étoil et euh un exemple absolument crucial dans cette littérature c’est celui du noyau de Metropolis Hastings qui s’applique à énormément de problèmes puisque’il se définit de la manière

Absolument générale suivante qui est qu’on va utiliser simplement un noyau de proposition donc une densité de probabilité qui va nous proposer d’aller vers un X til t +1 à partir d’un XT et ensuite cette proposition va simplement être acceptée ou rejetée en fonction d’une certaine probabilité d’acceptation si on rejette on reste là

Où on était si on accepte donc on va à la proposition et cette probabilité d’accepter va mettre en regard plusieurs choses elle va mettre en regard quelle est la densité de probabilité de la cible là où on essaie d’aller comparer à là où on était évidemment on veut y

Aller davantage si cette densité de probabilité augmente et ensuite elle va aussi mettre en regard quelle était la fréquence à laquelle on va proposer de faire un tel saut puisque si finalement on propose souvent d’aller voir xle t +1 il faut pas qu’on l’accepte trop souvent pour ne pas le surreprésenter donc ce

Noyau de mettropolis de mtropolis ce noyau de mop ah pardon ce noyau de Metropolis Hastings il est très général parce qu’en fait on a juste besoin de définir un Carnel de proposition et par exemple vous pourriez faire une chaîne aléatoire avec des propositions qui seraient simplement gosiennes localement

Donc vous auriez une une marche aléatoire gaussienne qui s’appuyerait sur un noyau de Metropolis E mais c’est quelque chose qui va souffrir donc du des problèmes de la localité des problèmes de traverser les régions de faible densité au milieu des régions de grande densité et ici ce qu’on propose

En fait c’est simplement de faire des propositions qui deviennent non locales et on s’appli on s’appuie donc à la place d’avoir ce Carnel de proposition typiquement local on le remplace par un modèle génératif qui va proposer n’importe où dans l’espace là où le modèle génératif aura développé donc une

Forme densité de probabilité donc ça explique ce qui se passe à cette itération de l’algorithme où on va avoir un algorithme de d’échantillonnage non local qui va nous permettre d’observer des transitions grâce à ce qu’on a appris avec le modèle génératif mais et donc des un algorithme potentiellement très très efficace le

Seul bémol à bien avoir en tête c’est que cette chosel n’est possible que si on a vraiment eu connaissance d’un point dans chaque région d’intérêt si j’avais initialisé toutes mes trajectoires par exemple dans le coin en haut à droite j’aurais observé comme outcome le même que celui qui se passe dans le mode

Collapse de l’inférence variationnelle donc c’est une manière de bien prendre en compte toutes les régions d’intérêt qu’on connaît mais par contre ce n’est pas une manière de découvrir des régions d’intérêt ce qui est si vous voulez un peu une une non surprise parce qu’on sait très bien qu’aller chercher des

Minimas locau dans des paysages d’énergie en grande dimension benah c’est un problème euh extrêmement difficile donc très bien euh si vous voulez j’ai donc si on on récapitule tout l’algorithme juste vraiment très rapidement en une slide on va avoir à la fois donc un métropolisistinx qui va se

Placer qui va s’appuyer sur un modèle génératif rotéta de X un carnal local et puis de temps en temps une chaîne de Markov qui va s’arrêter dans ses itérations pour prendre des pas de gradient euh de maximum de vrai semblance pour améliorer le modèle génératif donc avec cette technologie

J’ai couvert la question de est-ce qu’on peut s’entraîner dans ce contexte où on n’ pas de données à priori oui on peut donc dans certains cas lafférence variationnelle nous permet d’avoir un objectif qui lui ne demande pas du tout de données et dans d’autres cas on va

Être capable si vous voulez de créer les données au fur et à mesure de l’algorithme en alliant en fait ce problème d’entraînement à ce problème de simulation et en les faisant évoluer si vous voulez dans un cercle vertueux conjointement euh vers donc leur objectif donc tout ça c’est

Possible si j’essaie donc de vous donner une idée de à quel point ces choses maintenant sont ont un écho et à quel point elles sont utilisées donc depuis les quelques dernières années où elles ont été introduites et bien euh il y en a beaucoup dans la simulation des

Molécules euh donc on a cette idée vraiment de d’échantillonnner des mesures de bolzman à l’échelle des molécules qui qui a été donc un papier de science qui de Fran Noé du groupe de Franck Noé qui a fait énormément de bruit et qui ensuite a donné lieu à plein d’autres articles dans cette

Communauté il y a aussi des articles qui essayent d’utiliser ces méthodes pour échantillonner des modèles plutôt de ver de spin donc dans la communauté de physique desésordonnées on a encore la communauté cette fois-ci qui fait de la chromodynamique quantique sur réseau qui qui a aussi des gros problèmes

D’échantillonnage et qui va utiliser ces méthodes ou euh encore et bien comme je vous le disais les problèmes d’inférence baaisienne et en particulier en astrophysique qui utilise ces méthodes euh si je vous donne euh des exemples concrets dans lequel moi j’ai eu recours à euh ces méthodes euh donc au-delà de

Les développer mais aussi de les appliquer donc à des à des problèmes il va y avoir donc le cas de l’échantillonnage de cluster euh d’argent métastable donc c’est des choses qui sont très petites c’est simplement six atomes d’argent ensemble mais que si on cherche à le décrire de

Manière très précise à la précision de la mécanique quantique des effets quantiques qui peuvent avoir lieu qui est déjà extrêmement coûteux à simuler donc là c’est six atom d’argent par exemple ils peuvent avoir ils peuvent prendre une forme un peu pyramidale ou une forme plane un peu triangulaire et

On sait qu’à température ambiante il y a potentiellement ces deux isomères qui importent mais si on utilise donc un code de dynamique moléculaire classique enfin classique quantique mais qui euh donc a fait ses preuves ce qu’on va pouvoir observer au prix de d’énormément de temps de calcul c’est simplement les

Fluctuations d’ isumer mais on ne pourra pas observer de transition entre ces deux isomères et bien en utilisant des modèles génératifs on peut construire des chaînes de Markof qui vont donc produire des réalisations de la distribution de bolsman de ce système et qui vont transitionner en entre les deux isomères

Donc simplement ici je vous Monti une projection sur deux coordonnées d’une chaîne de Markov qui se balade donc entre les deux isomères donc avec cette projection où on a aussi rajouté les un paysage d’énergie libre qui vous donne une idée de la distribution marginale sur ces deux coordonnées de projection

Euh donc voilà par exemple un exemple euh d’application très concret euh un autre ce serait donc l’application de ces méthodes en inférence bayisienne et notamment pour les données d’astrophysique et ça c’est le travail d’un collègue case Wong qui en fait espère analyser les données qui proviennent de d’événements d’onde

Gravitationnelle en fait de réception d’ondes gravitationnel et ce le plus rapidement possible pour pouvoir inférer en fait la localisation dans le ciel de la source de l’événement et pour pouvoir observer donc avec davantage d’instruments avant que l’événement soit terminé donc ça c’est une une très belle histoire et j’espère qu’elle qu’elle

Prendra vraiment vie mais pour l’instant au Nive on est au au stade de l’histoire mais voilà dans le problème d’inférence baaisienne des paramètres des événements d’onde gravitationnelle on a une quinzaine de paramètres et on a besoin donc de euh avoir une idée de l’échantillonnage des postérieurs et ce le plus rapidement

Possible éventuellement pour pouvoir observer un même événement avec plus d’instruments que celui simplement qui qui l’URA détecté euh donc voilà donc c’est des méthodes euh qui dans ce contexte d’inférence baaisien on va euh se borner à peut-être des quelques dizaines de paramètres à inférer euh et pour lesqueles on a euh

La connaissance d’une distribution a priori euh c’est des méthodes qu’on pourrait qualifier même de off the shelf que vous vous pouvez simplement prendre et appliquer à votre problème et euh donc c’est pour ce c’est c’est pour ça qu’on a créé donc un un un librairie python avec donc mon collègue ke Wang

Pour utiliser ces méthodes dans ce contexte mais donc qui peuvent aussi servir donc à tout chercheur qui aurait une question et se poserait de la question de la pertinence de ces approches sur ces questions d’échantillonnage et de simulation très bien donc on a vu quelques exemples c’est prometteur les choses se diffusent dans

La communauté quelque chose qu’on n’ pas vraiment encore discuté c’est mais finalement à quel point est-ce qu’on a besoin d’avoir un rotéta qui ressemble à un rot étoile pour que la procédure soit utile donc c’est une question que je mets sur la table notamment puisque en apprentissage génératif la

Question de l’évaluation du modèle est toujours une question compliquée par exemple sur les questions des sur les les images de chien à quel moment est-ce que j’ai l’impression d’avoir un bon modèle est-ce que il faut que simplement l’image de chien soit crédible mais est-ce que si elle est

Très crédible mais que la plupart du temps je reproduis les chiens que j’ai vu dans mon entraînement est-ce que c’est un problème c’est une question qui est assez mal posée et ici on a un peu l’opportunité de la poser mieux puisqu’on on sait notre objectif on sait qu’on veut échantillonner rau étoil euh

Donc qu’est-ce que ça veut dire que ce réta à peu près égal à r étoile alors ça pose aussi la question de jusqu’où peut-on aller avec ces méthode dans le cas idéal on serait capable d’apprendre un modèle génératif qui serait exactement égal égal à la distribution

Qui nous intéresse et bien sûr on ne peut jamais vraiment vérifier ça bien que ce soit le cas problème résolu parce que là toute méthode que vous metteriez en place finalement reviendrait à échantillonner directement le modèle génératif en pratique donc ce n’est pas possible euh et si les distributions

Sont trop différentes finalement ce dont je vous ai parlé donc à la fois le cas où on va repondérer les les les réalisations de cette distribution ou le cas où on va utiliser ce modèle génératif simplement comme une proposition dans une chaîne de Markov en fait on va se rendre compte que le

Modèle est complètement inutile et on aura perdu notre temps à l’entraîner euh le juge de P c’est donc finalement exactement ça quelle est la variance des estimateurs de Monte Carlo que je vais construire en utilisant ce modèle génératif et euh si j’utilise plutôt quelque chose qui a la forme d’une

Chaîne de Markof avec un Metropolis Hastings qui a ce taux de ce qui a cette étape d’acceptation rejet à quelle fréquence est-ce que j’accepte ce que me propose le modèle génératif donc il y a des études donc qui commencent à être faites sur le passage à l’échelle de ces

Méthodes dans des systèmes jouet et là le système jouet qui a été regardé donc c’est le modèle fi 4 qui était aussi au tableau plutôt aujourd’hui et qui a donc une particularité donc de représenter des spin donc dans sur une grille en 2D et va donc représenter une

Un effet de magnétisation donc en dessous d’une certaine température critique tout le monde va être aligné donc on va avoir une image blanche à une température critique donc on va avoir des effets spécifiques et au-dessus d’une température critique les spins vont être aléatoirement organisés donc il y aura plus de

Magnétisation on sait donc que la simulation à la température critique est toujours quelque chose de très compliqué et ce qui est intéressant c’est c’est que c’est quelque chose qui va pouvoir se voir aussi dans les performances des méthodes qui s’appuient sur les modelles génératifes que je discute donc ici sur

Ce graphe donc qui est l’étude faite par le groupe de deldebio et publié en 2021 qu’est-ce qu’on a on a le taux d’acceptance dans un Metropolis Hastings qui s’appuie sur les propositions d’un modèle génératif en fonction à la fois de la température et en fonction en couleur de la taille du système qu’il

Regarde et donc ce qu’on observe c’est que plus la la taille du système augment donc on passe du jaune clair au violet foncé plus le taux d’acceptation va diminuer et en réalité on voit arriver le moment où cette acceptation va devenir zéro en fait plus on regarde un

Système grand là on part de 6 par 6 et on termine par 20 par 20 mais cette acceptation va diminuer inexorablement de même on se rend compte que on voit très bien la température critique se se présenter puisqu’on voit qu’il y a un un un minimum dans l’acceptation donc à un endroit

Puisqueen fait les choses deviennent aussi plus compliquées pour ces méthodes par modèle génératif et donc euh jusqu’où on peut aller la question est ouverte mais on voit bien sûr que plus les modèles sont compliqués et plus il est difficile aussi de faire marcher ces méthodes là

Le c’est là où si vous voulez on commence à mettre un peu les sous-titres on met les étoil et on va lire les Astérix donc supposons qu’on puisse entraîner un modèle tel que RTA soit à peu près égal à r étoile de X qui gagne tout on y gagne beaucoup mais bon c’est

À condition que le modèle soit assez bon que ce rotétat étoile ce rotéat soit proche de ce rotéat étoile ce qui devient pardon compliqué pour les systèmes soit très grands soit très complexes donc peut-être une dernière idée pour aller au-delà de ce constat c’est qu’ on ne peut pas tout laisser si

Vous voulez à l’apprentissage on peut pas s’attendre à ce qu’on soit capable de d’apprendre si vous voulez from scratch on dirait en anglais à partir de rien euh les les modèles physiques les plus compliqués et l’idée ça va être vraiment une idée clé pour faire progresser ces méthodes et et l’applicabilité de ces

Méthodes ça va être de baser des architectures de réseau de neuron de modèles avec des paramètres apprenables sur en fait les caractéristiques de ces modèles donc je vous donne un exemple très simple en 1D qui est une version donc pardon en en grande dimension mais qui représente un modèle sur gris mais

Sur gris 1D donc c’est le modèle F4 encore celui de cette magnétisation mais qui cette fois a été réduit à 1D et qui a donc ce terme de la platien de couplage qui était donc discuté encore par Stéphane ce matin et un potentiel local qui va pousser les spin à être

Plutôt soit proche de Moisin et soit plutôt proche de 1 et qui nous donnerait donc des réalisations comme celle-ci où chaque ligne noire correspond à un champ euh donc le champ ici est représenté par le vecteur Phi I et vous avez les indices si vous voulez S ou i ici qui

Correspondent ici à une discrétisation en 100 site du champ et vous avez donc typiquement des réalisations qui sont soit dans un mode en haut donc qui passent de 0 à 0 qui sont mes conditions au bord euh via 1 soit de 0 à 0 via -1

Donc ça encore une fois sous l’effet du potentiel local et sous l’effet du terme de couplage qui va inciter les voisins à plutôt être égaux à leurs voisins égau entre eux et bien donc cette fonction d’énergie du système euh qui n’est nous oblige à faire appel à des méthodes d’échantillonnage de simulation

Sophistiquée elle peut en on peut en fait n’en garder que les termes gosiens donc les termes quadratiques et si on en garde que les termes gosiens on peut utiliser cette mesure gasienne qui sera adaptée au problème et notamment en terme des corrélations locales des sites de champ pour faire une distribution de

Base d’un mod modèle génératif à variable latente donc euh c’est par exemple ce que nous avons fait où on remplace donc le choix euh par défaut d’une euh loi de base qui soit un un bruit blanc euh où il y a vraiment aucune structure là vous avez juste

Plein de réalisation les unes à côté des autres et on a on ne voit absolument rien euh par donc une réalisation qui cette fois va donc chaque ligne correspond à une réalisation et on voit la corrélation euh qui a été donc donnée la couleur qui a été donnée si je garde

Simplement dans ma mesure de base tous les termes quadratiques de euh la la fonction d’énergie que je connais et qui est ma cible et en faisant ça voilà on était capable dans des dimensions donc 100 par exemple d’atteindre des taux d’acceptance de 60 % donc ça veut dire

Que toutes les deux fois où vous proposez vous acceptez et vous allez par être capable de changer de mode très efficacement très efficacement donc ça ça ça représente des gains euh d’efficacité qui sont vraiment énormes euh et donc ça c’est vraiment un exemple choisi parmi tout ce qu’on tout ce qu’on

Peut encore imaginer donc c’est des choses qui reste beaucoup à imaginer mais qui je pense seront aussi en partie discuté donc par Stéphane qui va parler donc d’une décpposition de multi-échelle probablement de ce type de modèle et qui seront donc a priori très utiles donc sur ce laissez-moi donc vous

Conclure avec quelques perspectives euh donc vraiment les progrès en modélisation générative suggère la possibilité de de créer des des simulateurs qui soi extrêmement efficac et donc des gains en terme de capacité de simulation donc vraiment significatif ces méthodes sont je pense à l’heure actuelle déjà mû pour résoudre

Des problème qui soit plutôt de l’ordre de l’inférence baisienne où on va se limiter à quelques degrés de liberté d’intérêt euh et pour lesquels on a des distributions a priori par contre atteindre la précision des entraînement euh requis est pas toujours facile si on commence à regarder des choses de plus en plus

Complexes et on envoie déjà les limites euh une manière donc d’approcher ce problème c’est de se dire qu’on doit mettre dans nos modèles génératifs des informations sur la physique du problème qui nous intéresse et par ailleurs évidemment ici je me suis cantonné à euh des simulateurs de base donc par exemple

La simulation par importance ou la simulation par chaîne de Markof avec un Metropolis htings qui sont extrêmement simple c’est si vous voulez c’est le one on one de la simulation qu’on peut porter à des des niveaux d’applicabilité et de performance loin avec les modèles génératifs mais on peut aussi se tourner

Vers des simulateurs beaucoup plus sophistiqués et les utiliser et imaginer les conjonction avec lesquels ils peuvent être utilisés euh avec les modèles génératifs donc pour encore encore une fois pousser les limites d’applicabilité et l’impact de ces méthodes et sur ce je vous remercie beaucoup pour votre attention et je

Seraai contente de répondre à vos éventuelles [Applaudissements] [Musique] questions

Apprentissage et génération par échantillonnage aléatoire (8) – Stéphane Mallat (2023-2024)

Botswana Warm First Impressions 🇧🇼 vA 140

Courtney Dauwalter first women and second overall at the nice 100 miles #ultrarunning #trailrunning

Saint Raphaël, En Vélo Vintage 😍

Apprentissage et génération par échantillonnage aléatoire (8) – Stéphane Mallat (2023-2024)

Related

Botswana Warm First Impressions 🇧🇼 vA 140

Courtney Dauwalter first women and second overall at the nice 100 miles #ultrarunning #trailrunning

Saint Raphaël, En Vélo Vintage 😍