Enseignement 2022-2023 : Apprentissage et génération par échantillonnage aléatoire
    Cours du 31 janvier 2024 : Apprentissage et génération par échantillonnage aléatoire (3)

    Professeur : Stéphane Mallat
    Chaire Sciences des données

    Retrouvez les enregistrements audios et vidéos du cycle :
    https://www.college-de-france.fr/fr/agenda/cours/apprentissage-et-generation-par-echantillonnage-aleatoire

    Retrouvez tous les enseignements du Pr Stéphane Mallat :
    https://www.college-de-france.fr/chaire/stephane-mallat-sciences-des-donnees-chaire-statutaire

    Le Collège de France est une institution de recherche fondamentale dans tous les domaines de la connaissance et un lieu de diffusion du « savoir en train de se faire » ouvert à tous.
    Les cours, séminaires, colloques sont enregistrés puis mis à disposition du public sur le site internet du Collège de France.

    Découvrez toutes les ressources du Collège de France :
    https://www.college-de-france.fr

    Suivez-nous sur :
    Facebook : https://www.facebook.com/College.de.France
    Instagram : https://www.instagram.com/collegedefrance
    X (ex-Twitter) : https://twitter.com/cdf1530
    LinkedIn : https://fr.linkedin.com/company/collègedefrance

    [Musique] [Musique] bonjour euh alors aujourd’hui on va euh aborder la partie modélisation approximation à travers les champs de Markov donc ça c’est une idée tout à fait fondamentale qu’on retrouve absolument partout et qui qui est vraiment l’outil conceptuel qui permet de comprendre comment on arrive à créer des modèles de relativement basse dimension quand bien même on a en apparence énormément de variables qui sont en interaction donc la première partie donc ça va être sur la modélisation ou l’approximation avec des modèles de Markov de champ de Markov et ça ça fait le lien avec la physique et puis la deuxème partie ça va être sur l’estimation paramétrique la dernière partie et donc ça c’est un aspect plutôt d’optimisation avec le maximum de vraissemblance notamment donc ça c’est toujours les les deux aspects des problèmes d’apprentissage c’est d’un côté il faut faire des modèles et on va approximer les vraies distributions de probabilit sur les modèles et de l’autre côté il y a la partie optimisation c’estàdire ces modèles sont paramétrés et on optimise les paramètres alors peut-être juste avant que je commence un commentaire on vous a je crois distribué euh des feuille qui est une enquête faite par le Collège de France sur les participants au cours ce qui les intéresse et cetera donc on vous remercie de bien vouloir les remplir d’autant plus que vous êtes une population un peu particulière pour le Collège de France où normalement la moyenne d’âge est plus élevée donc voilà c’est ça donne une vision un peu différente des choses donc voilà ça c’est juste un commentaire si vous pouvez les remettre à la fin vous pourrez les poser éventuellement ou les redonner à la personne qui vous les a distribuer ok donc on va passer donc à au modèle de Markov alors je vais commencer à avec une idée le principe c’est que on va représenter les interactions [Applaudissements] entre les variables et cette interaction elle va expliciter la notion d’indépendance conditionnelle indép dans conditionnelle alors je vais commencer avec un exemple qui est un exemple tout simple de vote vous avez quatre personnes disons A B C et D qui vont voter et qui s’influence mutuellement donc vous pouvez imaginer par exemple des amis et voulez représenter l’influence entre deux personnes X et Y au moment du vote et la valeur du vote euh c’est ça qui qui vous intéresse donc vous allez avoir deux personnes avec leur vote et typiquement si ces deux personnes qui sont en lien l’un avec l’autre vote de la même manière c’est-à-dire si x est égal à y bah typiquement vous considéz vous mettez un très fort poids vous considérez que c’est probable alors par exemple si le vote est égal à 1 ça peut être disons différent mais malgré tout probable si jamais le vote est opposé et puis euh vous allez mettre une interaction beaucoup vous voulez expliciter le fait que les différents amis s’influencent dans le vote donc si jamais ils ont des votes qui sont différent et bien vous allez mettre un poids qui est beaucoup plus faible donc ça ça vous donne par exemple ça c’est les liens d’amitié entre les différentes personnes et maintenant ce que vous voulez c’est avoir la probabilité du vote de A B C et D et donc dans une configuration comme ça vous allez dire bah ça va être le produit de l’influence de a sur B de B sur C de C sur D et puis comme vous avez besoin que l’intégrale de tout ça soit égal à 1 on va mettre ici une constante de normalisation alors c’est quoi l’idée c’est que finalement vous avez une forme de couplage et puis chacun va s’influencer et au bout d’un moment vous allez avoir un système qui va converger à l’équilibre qui va permettre de résoudre euh les différentes interactions donc le vote le plus probable c’est celui qui euh reflète les interactions entre les différents membres tout en respectant les propriétés de de ce couplage donc ce qu’on voit ici c’est que pour ensuite être capable de de mesurer la probabilité bah évidemment il va falloir calculer cette constante de de normalisation et puis ça c’est quelque chose qui va pas être forcément facile si jamais on veut calculer des un échantillonnage c’est-à-dire pour savoir le vote le plus probable de a il faut comprendre les interaction entre A B et C qui eux-mêmes dépendent des interactions avec D donc vous avez un phénomène de de propagation et vous avez cet équilibre qu’il va falloir mettre en place ça c’est un modèle qui d’une C certaine manière est plus compliqué qu’un modèle directionnel un modèle directionnel c’est un modèle où vous savez que a va influencer disons B C et B et C vont influencer d si vous êtes dans une situation comme ça alors ce que vous savez c’est que la probabilité de ABC d bah vous pouvez la factoriser comme étant la probabilité a sachant BCD que vous pouvez elle-même factoriser comme a sachant B donc on va prendre excusez-moi vous avez la probabilité de a sachant BCD FO la probabilité de BCD et la probabilité de du dernier groupe je peux l’écrire comme la probabilité de ces deuxl sachant celle-là probabilité de D donc si vous avez une expression comme ça calculer cette probabilité elle s’obtient directement comme un produit des probabilités conditionnelles et si je veux échantillonner donc trouver une configuration probable il me suffit de trouver une configuration probable de d tout seul et puis ensuite une configuration probable de BC étant des données et une fois que j’ai échantillonné BCD il me suffit de trouver une probabilité forte de a sachant les trois donc là dans ce cas-là on peut en inversant les directions facilement échantillonner le champ dans ce cas-là il y a pas de direction dans le cas des champs de Markov non directionnel il y a pas de direction donc c’est plus compliqué on va le voir pour faire l’échantillonnage et ça ça va nous amener sur les différentes étapes du cours pour comprendre effectivement comment on peut trouver des configurations probables de ce genre de choses alors pourquoi on va se mettre plutôt dans ce cadre qui en apparence est plus compliqué c’est que par contre pour établir ce genre de relation qui sont des relations asymétrique c’est beaucoup plus difficile c’est beaucoup plus facile de savoir si deux variables sont corrélées que de comprendre un lien de causalité qui consiste à voir si une variable influence l’autre par opposition à l’influence de l’autre sur la première donc comme je disais ça ça va être le sujet de la conférence de Michel elle se bag dans 2 semaines tout le machine learning pratiquement est dans ce cadre là et en particulier tous les modèles de réseau de neurone on va le voir sont dans un cadre non directionnel on lit les variables essentiellement sans mettre d’information de causalité même les très gros systèmes comme les systèmes de langage n’ont aucun élément de causalité qui sont à l’intérieur et c’est comme je disais une des limites ceci étant on va voir que ce genre d’approche est extraordinairement puissante et c’est vraiment la base de tous les modèles qui sont en physique alors comment on généralise cette notion on va définir donc cette notion de champ de Markov et le principe d’un champ de Markov ça va être de représentation des contraintes entre les différentes variables donc un champ de Marcov les expression les abréviations c’est en anglais random field MRF donc c’est une distribution de probabilité jointe qui va pouvoir se factoriser sur un graphe qui va être non directionnel et donc donc les nœuds ici je vais les appeler XK sont des XK donc c’est les variables qui m’intéressent et ce que je veux regarder c’est la probabilité jointe de X1 X2 xD En dimension d et cette probabilité je vais pouvoir l’écrire comme un produit sur ce qu’on appelle des clics que je vais définir de facteurs ça c’est les facteurs d’influence entre les différentes variables des X c alors qu’est-ce que c’est que XC XC c’est un ensemble de variables x i1 x i k où tous les i1 i appartiennent à la clique alors qu’est-ce que c’est qu’une clique c’est un sous-graphe de G qui est Connect qui est entièrement connecté j’ai besoin de m’assurer que cette distribution de probabilité est bien une distribution de probabilité autrement dit que l’intégrale est bien égal à 1 et donc je vais mettre ici devant une constante de normalisation et cette constante de normalisation si vous calculez cette intégrale et bien vous pouvez la sortir qu’est-ce que vous allez avoir vous allez avoir que z-1 FO cet intégrale vaut 1 autrement dit que Z est égal à l’intégrale du produit des facteurs fa X c d X1 x d’accord donc c’est juste la constante qu’on met devant de manière à ce que inégral soit égal à 1 alors dans ce cas particulier c’est quoi les clics c’est un sous-graphe connecté bah les sous-graphes connectés c’est juste les paires a entre b b c c d mais maintenant si vous avez un un exemple beaucoup plus compliqué de graphe par exemple vous pouvez avoir un graphe comme ceci avec chacune des croix représentant des variable et ben vous allez avoir ça c’est une clique ça c’est une clique ça une clique et vous devriez pouvoir factoriser votre graphe sous forme de ces trois clics donc l’idée c’est que on va pouvoir factoriser la distribution de de probabilité et donc sous-jacent pourquoi ça va être important parce que ça veut dire que quand bien même ces deux variables sont dépendantes et on va va voir qu’elles sont dépendantes les liens entre les variables sont locales et donc le nombre de paramètres pour caractériser la distribution de probabilité locale et donc ce qu’on va aller chercher derrière ce genre de modèle c’est une représentation de basse dimension de la distribution de probabilité où cette représentation reflète les influences des variables les unes par rapport aux autres alors il y a une prpriété fondamentale qui permet de faire le lien avec ce dont je parlais c’est-à-dire l’indépendance conditionnelle qui est la propriété de Markov alors pour comprendre ça je vais juste déjà vous rappeler la notion d’indépendance et d’indépendance conditionnel donc l’indépendance évidemment j’en ai dà parler longuement vous avez deux variables X1 X2 variable aléatoire dont la distribution jointe c’est P de X1 X2 on dit qu’elles sont indépendantes si leur distribution de probabilité c’est le produit des distributions de probabilité maintenant ce qu’on peut regarder c’est la probabilité jointe de X1 X2 étant connu la valeur d’une autre variable qui peut les influencer et on dira que elle il y a une indépendance conditionnelle si cette probabilité jointe elle est séparable aussi autrement dit c’est la probabilité de X1 sachant y fois la probabilité de X2 sachant y c’estàdire qu’il y a pas besoin d’une certain manière regarder les connexions entre les trois variables y est suffisant pour connaître X1 et pour connaître la distribution de X2 et notamment si je veux par exemple regarder la dépendance la probabilité de X1 sachant X2 et y bah ça probabilité de X1 sachant X Y c’est la probabilité de X1 X2 sachant y fo la probabilité de euh X1 alors x X2 euh sachant y alors ça va me donner probabilité de X1 ça X2 fois la probabilité jointe fois la probabilité de la 2è de X2 sachant y pardon et comme vous savez donc ici que euh non diviser excusez-moi c’est la probabilité conditionnelle c’est la probabilité jointe là ça va pas divisé par la probabilité de la variable c’est-à-dire la probabilité de X2 sachant y ouf et la probabilité de X1 X2 sachant y c’est le produit des deux vous avez divisé donc ça ça vous donne la probabilité de X1 sachant y donc qu’est-ce que ça veut dire ça veut dire que X2 n’apporte aucune information sur X1 si vous connaissez déj y un peu évident et donc c’est ça qu’on va essayer de représenter mais dans un CAD beaucoup plus complexe où on a beaucoup plus de variables qui interagissent qu-ce que dit la propri de Markov c’est que si il n’existe pas de clic qui incl de variables I et J une autre manière de dire ça c’est que il y a pas de lien ou d’arête entre i et j alors la variable XI va être orthogonale alors ça cette notion d’indépendance conditionnelle on dit souvent X1 est orthogonale à X2 sachant y on notera comme ça alors XI va être indépendant de XJ étant connu toutes les autres variables XK pour k différent de I J autrement dit donc c’est évidemment pour un champ de Markov autrement dit dans un graphe comme par exemple celui-ci ces deux arêtes ne sont pas directement connectés c’est-à-dire que si je connais les valeurs de toutes les autres arêtes pardon de tous les autres variables tous les autres nœuds alors à ce moment-là ces deux variables sont indépendants conditionné à cela autrement dit ces deux variables n’ont pas c’est le reflet du graphe d’influence directe l’une par rapport à l’autre l’influence ne va être du qu’ variables externes qui sont les autres nud du graphe alors comment on va démontrer ça on va regarder la probabilité jointe des deux variables XI XJ étant connu toutes les autres variables k différent de I et de J et ce qu’on voudrait démontrer c’est que la probabilité jointe peut se factoriser si elle peut se factoriser c’est qu’on a une indépendance conditionnelle alors l’hypothèse c’est que on est sur un champ de Markof autrement dit on peut écrire ça sous forme de produit de facteur donc on va avoir z-1 et puis le produit sur toutes les clics alors le produit sur toutes les clics j’ai distingué différents types de clics je vais distinguer d’abord les clics C alors il y a pas de clic C dans lequel normalement en général je pourrais distinguer les clics C pour lequel I appartient à la clique C et puis il y aurait les clics C pour laquelle i appartient à la clic C et j n’appartient pas à la clic C avec tous les facteurs correspondants et puis il y a les clics à savoir à nouveau C voisinage pour lequel j appartient à la cque et I artient pas à la clique et enfin toutes les clics pour lequel i n’appartient pas à la clique et j n’appartient pas à la clique alors l’hypothèse elle dit que ça ça n’existe pas donc j’ai un facteur simplement qui va se simplifier et puis le z-1 qui est ici et bien c’est l’intégral donc c’est l’intégral on l’ vu de tous les facteurs donc celui-ci n’existe pas donc je vais le représenter celuil sous forme de l’intégral c’est c’est l’intégral produit sur c nappartenant pas à la cque de pH XC et puis le deuxè pour i n’appartenant pas à la clique j j appartient à la clique pH de XC et dxi d XJ d’accord ça c’est le produit maintenant qu’est-ce que vous observez excusez-moi le dernier terme qui est ici que j’ai oublié d’écrire qui est donc là j’ai le dxi d j mais comme ceci ne dépend pas de I et de J dans l’intégrale je peux le sortir donc je vais le mettre à l’extérieur de l’intégral ici c’est les termes avec toutes les cliques ou ni j ni i appartiennent à la clique comme à nouveau làdedans j’ai pas de xxj je peux le sortir de l’intégrale et donc ce que vous voyez c’est quand vous calculez ce rapport et bien ce produit là il se simplifie il disparaît et donc vous vous retrouvez avec un produit de deux termes et divisé par cette intégrale mais là-dedans j’ai pas de J et là-dedans j’ai pas de i donc cet intégrale double je peux l’écrire comme une intégrale simple sur dxi multip par l’intégrale sur celui-ci donc là ça va dépendre pardon que de J et ça ça ne va dépendre que de i l’intégral double je peux l’écrire comme le produit des intégrales simples et qu’est-ce que vous voyez là vous avez un premier terme ce terme là il dépend de X mais il dépend pas de XJ d’accord donc ça ça va être une probabilité qui va dépendre de Xi pas de XJ mais par contre qui va dépendre de toutes les autres variables pourquoi je dis que c’est une probabilité parce que c’est normalisé je l’ai divisé par l’intégrale sur la variable et ça c’est quelque chose c’est i appartient pas donc c’est un P de X pardon et le deuxème terme ici là alors là j’ai excusez-moi j’ai i appartient la clic ouais mais là j’ai ça c’est I qui appartient à la clic J qui appartient pas à la clic donc c’est xiidément et le deuxième terme c’est j appartient à la clique i appartient pas donc ça va dépendre de X donc ce deè terme il va dépendre de P de XJ sachant toutes les autres variables X K pour k différent de I et de J donc du coup qu’est-ce que on obtient avec ce produit ici c’est que la probabilité de XI et de XJ sachant toutes les variables pour différ de et de J bien ça s’écrit comme un produit de de probabilité puisque c’est bien des quantités qui sont normalisé d’un côté de X sachant X et P sachant x autrement dit on a bien une indépendance conditionnelle donc les propriétés des clics sont essentiellement équivalentes pour l’instant j’ai juste une implication on va voir dans l’autre sens mais dans ce cas-là il y a une implication sur la notion d’indépendance conditionnelle alors on va voir des exemples et on va commencer par l’exemple plus simple c’est l’exemple d’un processus gasien alors pour un processus gausien vous avez une distribution de probabilité on l’a vu la dernière fois qui est une exponentielle d’une forme quadratique comme ceci alors si vous êtes dans le cas où la probabilité strictement positive vous pouvez toujours écrire quand vous avez un champ de Marcof ce produit comme une exponentielle d’une somme comment dit si je regarde le log de l’pra le log de lapra ça va être log z-1 plus la somme sur toutes les cliques des log d fic FC donc ça on va écrire ça sous forme d’une énergie exactement moins une énergie ça veut dire quoi ça veut dire que à partir du moment où la proba est strictement positif je peux l’écrire comme ça je peux donc voir ma probabilité comme étant Z -1 puu est un reflet des facteurs ici l’énergie ça va être cette forme quadratique alors qu’est-ce que dit le le théorème de Markov il dit que si maintenant je regarde mes variables donc j’ai les variables X1 x x regarde la matrice la matrice elle reflète les interactions entre deux variables à l’intérieur de ce dupl X1 X2 X4 si je regarde un élément k j ici si k j dans la matrice est nul autrement dit si le coefficient est nul ça veut dire que les variables n’ont pas d’interaction directe autrement dit si elles sont nulles ça veut dire que les variables XI et XJ sont conditionnellement indépendantes étant connu toutes les autres variables donc quand vous regardez une matrice un processus gausien vous pouvez le regarder de deux façons différentes ce qu’on a vu c’est la dernière fois c’est que K – 1 c’est la covariance mais si vous regardez non pas la covariance mais directement k c’est-à-dire la matrice d’interaction ce que vous voyez c’est directement les interactions entre les différentes variables alors il y a un cas particulier qui est euh très euh classique en physique c’est le cas où justement la matrice K c’est un laplacien si k est un laplacien alors à ce moment-là x transpose laapatien x si vous définissez par exemple un laplatien sur une grille donc ici je vais considérer que mes différentes variables par exemple sont des pixels d’une image et on peut définir l’opérateur d’interaction un pixel par rapport à tous les autres comme ne dépendant que des voisins et comme étant le laplacien donc le laplacien ça va vous mettre par exemple laaplacien discrétisé un facteur 4 ici -1 ici -1 ici – 1 – 1 donc c’est discrétisation de l’opérateur de la placien ici en 2D et ce que ça dit quand vous avez un distribution de probabilité gaussienne dont l’opérateur ici est la placien c’est que vous avez une interaction que avec les plus proches voisins et cette interaction grosso modo va faire la différence entre le pixel central et la différence entre et tous les autres pixel auto donc qu’est-ce que ça va imposer ce que vous voulez si vous avez un champ qui est probable c’est que cette quantité ici soit la plus petite possible donc que la la placien soit le plus petit possible ça va avoir tendance à produire des champs qui ont une forme de régularité en même temps vous avez une fluctuation ici ça ça va vous être votre fluctuation gaussienne donc ces variations vont malgré tout fluctuer ça on peut le réécrire autrement si vous faites une intégration par partie alors si vous avez plus l’habitude si vous êtes dans le domaine du continu ça ça va s’écrire comme le produit scalaire entre X de U le laplacien de X du si vous faites alors je vais mettre ici le signe moins si vous je vais peut-être mettre un 1 demi pour normaliser de façon un peu plus classique si vous faites une intégration par partie ici vous allez avoir la dérivée vous allez avoir la divergence du gradient vous passez ça de l’autre côté ça va vous donner un gradient vous allez avoir intégral du gradient de X deu ça c’est formulation variationnelle classique xdu carré donc autrement dit sous forme discrète c’est que ceci va vous donner la somme sur I de X de i ça vous pouvez le réécrire exactement la même intégration par partie ça peut se réécrire en somme ça va être différence entre x I et X j Carr pour tous les J qui sont dans le voisinage ici le voisinage ça va définir une clique qui est comme ceci et donc qu’est-ce que c’est que cette quantité là c’est la somme des différences au carré des voisins donc c’est les énergies des différences d’accord et ça reflète la variation locale du champ donc qu’est-ce que vous avez dans le cas du laplacien ceci ça va être dem somme de MO somme des [Musique] X ça c’est les facteurs qui vont correspondre à votre champ de Mar et ça qu’est-ce que ça va vous donner ça va vous donner un BR un mouvement BR alors je vous montrer quelque chose qui est un peu plus compliqué que ça c’est ce qu’on appelle c’est un une modélisation du ferromagnétisme en en physique alors en physique quand vous avez des atomes ils ont un spin et le spin va potentiellement définir un champ magnétique la manière dont c’est ici modélisé c’est au lieu d’avoir un modèle qui est discret où la valeur du spin c’est soit soit 0 on va le modéliser avec une variable qui est continue donc on définit les X comme étant des atomes qui sont sur une grille qui est régulière chacun a une valeur qui correspond au spin simplement le spin ici est défini comme une valeur continue qui va varier entre disons 2 et 2 avec une forte probabilité d’être plutôt égal à -1 et à 1 ça c’est ce qu’on appelle le modèle fi4 et qui un modèle générique qui est utilisé pour expliquer beaucoup de phénomènes notamment ces phénomènes que je vais vous montrer ici de transition de phase donc qu’est-ce qu’on dit on dit que on va définir une probabilité ça c’est le modèle physique qui va s’écrire comme étant une énergie et donc ça va être un champ de Markov cette énergie va comporter un certain nombre de facteurs cette énergie qui est écrite tout en haut la première composante ça va être la composante ce qu’on appelle l’énergie cinétique qui est la composante que j’ai mentionné juste avant alors ici excusez-moi quand on fait il reste le 1 demi ici et donc ici j’ai un 1 donc l’énergie cinétique en quelque sorte c’est associé quand on est en mécanique à la vitesse c’est aux incréments entre les variables au carré et donc c’est s’il n’y avait que ça une composante qui donnerait des fluctuations aléatoires et qui définirait un chambreonien mais il y a quelque chose d’autres qui dit que la valeur de x qui est censé correspondre plus ou moins un spin donc 1 1 a une forte probabilité d’être plutôt égale à 1 plutôt égal à -1 alors comment est-ce qu’on impose ça on impose ça en mettant ce qu’on appelle un potentiel qui dit que si je regarde la valeur x c’està-dire du spin en un point I je vais l’appeler disons cette valeur ici T et bien la valeur de t elle va plutôt être égale à soit -1 soit 1 et je vais imposer ça en mettant une valeur beaucoup plus négative en -1 et en 1 et pour les autres valeurs et ben je vais remonter et donc ici qu’est-ce que je dis je rajoute à mon énergie une composante qui est ce qu’on appelle un potentiel scalaire donc le potentiel scalaire il va exprimer le fait que les variables ont plutôt tendance à être -1 et 1 et donc ça va être cette fonction V de la valeur du champ ou de l’image en chacun des points I qui va forcer les variables parce que ce que je veux c’est que U de X l’énergie soit la plus petite possible donc pour qu’elle soit petite il faut que les valeurs soient plutôt là pour que le potentiel V soit petit en chacun des points donc ça c’est le modèle physique ce modèle il exprime à la fois l’interaction le terme d’interaction des particules ou des spin entre quand ils sont à côté et le fait que ce soit des valeurs plutôt égales à 1 ou-1 maintenant on a un modèle qui est complètement local d’accord puisque chacun n’influence que son voisin et lui-même a des valeurs qui sont preséscrites par le potentiel et ce qu’on a envie de voir c’est qu’elle va être la tête du champ c’est exactement l’équivalent du vote c’est-à-dire à quoi va être égal x alors ici il y a un facteur de température qui rentre qui est ce facteur qu’on met devant beta et ce facteur de température qu’est-ce qu’il va faire il va essentiellement réguler la taille relative des deux termes si vous avez un facteur de température alors la température c’est en fait beta c’est 1 sur la température donc si on est en situation où beta é= à 0 beta é= à 0 c’est c’est-à-dire très grande température tout fluctue dans tous les sens comment ça se reflète ça se reflète par le fait que ce premier terme disparaît et donc qu’est-ce que ça veut dire ça veut dire que u x s’écrit comme une somme sur I des v x2i donc autrement dit les la probabilité X1 X2 xD je peux la séparer puisque là j’ai une exponentielle d’une somme je peux la séparer comme un produit des exponentielles de V X avec la constante de renormalisation donc autrement dit c proba c’est un produit des probabilités marginales c’estàdire des probabilités de chacune des variables donc là on est dans une situation où tout le monde est indépendant maintenant si B qui est ici commence augmenté le laplacien il va induire une corrélation entre les variables et vous allez commencer à voir que les valeurs des spin autrement dit les signes de X vont commencer à dépendre localement et c’est ce qu’on voit ici ici on n’est pas à température 0 mais la température elle est plus petite qu’une certaine variable don je parler ici BTA critique et donc on voit que les points de l’image ils ont tendance à être quand il y a un point blanc le voisin est plutôt blanc et puis ensuite il y a du noir donc c’est assez irrégulier mais malgré tout il y a des petites tâches localement de corrélation d’accord et la la taille de la corrélation va dépendre de la température et puis la température augmente et on arrive là à un phénomène qu’on appelle un phénomène critique de transition de phase qui est que tout d’un coup on voit apparaître des corrélations très longues portées et ça c’est pas évident parce que vous voyez vous avez un modèle qui est complètement local j’interagis qu’avec mes voisins mais comme le facteur qui est correspond au la platien devient suffisamment grand et bien cette interaction va commencer à se propager et vous allez avoir des phénomène de structure très longue portée et donc ça c’est ce qu’on voit ici et notamment quand on arrive à une certaine température critique quand on regarde la puissance spectrale alors là c’est en log log plot ben ce qu’on voit c’est que la puissance spectrale elle commence à augmenter de plus en plus en basse fréquence c’est-à-dire vous avez de plus en plus de structures qui vont lier les variables à très très longue portée et puis quand on passe au-delà de cette température critique ce qui se passe c’est que soit soit on a un phénomène qu’on dira en anglais de winner take all c’est-à-dire que soit il y a plus de 1 et à ce moment-là ça va forcer tout le monde à petit à petit tous les spin à être égal à 1 parce que il y a des liens trop fort entre les spines soit au départ de la fluctuation il y avait plutôt plus de mo-s un et tout le monde va commencer à s’aligner et de devenir égal à -1 et donc on a deux phases soit on observe des champs ou pratiquement tout le monde est égal à -1 soit on observe des champs où tout le monde est égal à 1 et on a une espèce de divergenence on a deux types de champs donc là ça c’est à basse température donc betêa plus grand que la température critique et là je montre un cas où on voit des variables qui sont toutes égales à 1 mais j’aurais pu montrer exactement l’équivalent où elles sont toutes égales à -1 et ce qu’on voit c’est que autour du 1 on a des toutes plus petites fluctuations donc on a d’une certaine manière quelque chose de beaucoup plus simple et ça c’est le phénomène du du ferromagnétisme c’est-à-dire que tout d’un coup il y a un phénomène d’aimimmentation globale qui apparaît avec une direction de l’aimmentation et puis peu de fluctuation du champ magnétique autour de de ces de cette amentation simplement l’émentation elle peut être égale à 1 ou égale à -1 et ça c’est typiquement ce qu’on va faire où typiquement vous prenez un matériau comme ça vous commencez à le chauffer tout va commencer à fluctuer et puis vous baissez la température et dès que vous descendez au-dessous de la température critique tout va commencer à se geler et vous avez une aimentation qui va commencer à dominer et vous allez voir apparaître l’existence d’un champ et ça c’est le champ magnétique ici qui est égal à 1 donc on a un phénomène ici qui devient très non linéaire et assez complexe avec pourtant un modèle qui est très simple et ça c’est entièrement induit par ces structures locales alors ce qu’on va voir c’est que ce genre de chose c’est un modèle très important pour comprendre comment on peut faire apparaître des structures y compris dans des images aussi compliquées que voir éventuellement des des structures de de de visage mais déjà en physique des structures telles que structures de turbulence et cetera alors dans le cadre du cours comme j’ai avancé progressivement je vais voir jusqu’où je vais pouvoir aller par contre je vais donner une série de séminaires qui vont essentiellement donner l’interface avec la recherche de tout le domaine et en particulier qui va être centré sur cette interface entre machine learning et physique donc ça c’est séminaire que vous pouvez récupérer par zoom que je vais donner en l’occurrence demain et après-demain donc ça c’est les liens ces séminaires sont directement liés au cours donc le cours va avancer en vous donnant toutes les bases quoi toutes certain nombre de bases mathématiques pour comprendre ce qu’il y a derrière le séminaire par contre les la la série de séminaire va vous donner les interfac avec les questions de recherche donc demain ce sera sur le lien entre ce qu’on appelle le groupe de renormalisation en physique et ces questions de de génération et de représentation de champ et une des idées qui va être importante et que je vais mentionner là tout à l’heure c’est le fait que pour regarder ces champs où on commence à voir ses interactions longue portée ce qu’il faut faire c’est séparer les phénomènes à différentes échelles il y a une espèce d’organisation hiérarchique des interactions qui apparaît et cette idée d’interaction hiérarchique c’est une idée qui est apparu en physique avec ce qu’on appelle donc le groupe de renormalisation qui a été développé par Wilson qui a eu le le prix Nobel autour de ça et ce qui est intéressant c’est de voir que cette idée qui est très profonde en physique qui permet d’expliquer les phénomènes de transition de phase en fait on la retrouve dans les réseaux de neurones on la retrouve notamment dans les architectures de réseaux de neurones comme par exemple un unet où ce que vous voyez c’est que dans le cas d’un unet qui prend une image en entrée ça prend l’image et puis ça la décompose à différentes échelles et aux différentes échelles pour ceux qui connaissent le unet qui a une structure comme ça il y a des interactions horizontales avec une partie du du réseau qui va permettre de refléter les interactions multi-échelle et ça c’est quelque chose dont je parlerai donc ensuite le vendredi donc ce sera euh un séminaire un peu plus technique autour des notions de log des des constantes de log soolev et des ondelettes donc ça c’est deux notions dont qu’on verra dans le cadre du cours sans doute plus rapidement qui sont derrière les problématiques d’optimisation et dit dans ces problèmes il y a toujours deux côtés d’un côté l’approximation qui consiste à essayer de définir un modèle et notamment de minimiser les paramètres éventuellement comprendre la nature physique de ces paramètres et puis de l’autre côté euh vous avez des modèles qui sont paramétrés évidemment c’est comme dans les dans les réseaux de neuron il faut faire la descente de gradient qui va vous permettre d’optimiser les poids et donc pour comprendre dans quelles conditions ce genre d’optimisation fonctionne ou ne fonctionne pas et bien il y a une notion mathématique assez fondamental qui sont ces constantes de l’xobolè et on verra le lien avec les ondl et donc demain ça ce sera à 14h je parlerai du lien avec les modèles de diffusion donc ça c’est les fameux modèles qui font ces images spectaculaires comme cell que que je vous ai montré et je montrerai que il y a un lien qui est assez direct qu’on voit à travers les architectures et le fait que ces distributions de probabilité qui sont en très très grande dimension soi apprenable ça vient du fait que on arrive à les factoriser et ça c’est des expériences qu’on peut faire peut prendre des réseau de neurones qui sont capables de synthétiser des visages et au lieu de laisser le réseau de neurone faire des interactions entre n’importe quel pixel et n’importe quel pixel de l’image on peut imposer que les interactions reste très local et bien qu’on impose que les interactions restent très locales à partir du moment où on a séparé les échellees comme le suggèrent ces modèles de physique de de du groupe group de normalisation et bien on arrive à reconstruire des choses qui sont essentiellement des des bons modèles de visage mais avec des interactions qui sont très locales donc ça veut dire que ce problème ou qui en apparence très globale parce que un visage bien il y a des structures très global deux yeux qui sont assez éloignés des contours de la tête qui vont êtres réguli et ben on peut le représenter par des structures locales mais des structures locales à différentes échelles donc ça ça va être euh c’est le le programme de ces différents séminaires et qui seront enregistrés donc si jamais vous voulez les récupérer à un autre moment alors on va continuer sur les propriétés des euh chaînne de Markov et des champs de Markov pardon en regardant plus précisément l’équivalence entre ces factorisations et le fait que il y ait une indépendance conditionnelle et ça c’est le théorème de amersley Clifford alors les propriétés d’indépendance on va les regarder en considérant des groupes de variables donc vous définissez un graphe quelque chose comme ça et puis comme ça et vous pouvez définir des groupes de variables donc ici vous avez par exemple un premier groupe ça ça x ça ça y et puis Z ce que vous voulez c’est regarder les dépendances entre les groupes de variables et ça c’est quelque chose qui va être disait important quand on commence à regarder une image en entier parce qu’au lieu de regarder les interactions entre les pixels eu mêm on va regarder les interactions entre des structures et des structures ça va être les groupes de variables et la propriété qui va être importante quand on a un graphe qui est comme ceci c’est vous voyez toutes les variables qui sont dans X ne sont pas il y en a aucune qui est en lien avec des variables qui sont en Z autrement dit on est dans une le cas où il n’existe pas d’arête entre x et z autrement dit y est une frontière là on a fait une partition de tout le graphe G alors les variables sont conditionnell indépendante autrement dit X est conditionnement indépendant à Z étant connu y alors comment on montre ça ça c’est essentiellement le même type de démonstration que celle qu’on a faite c’est-à-dire que on regarde les probabilités jointes de toutes les variables le fait qu’il n’y ait pas d’arrête entre les deux ça veut dire que quand on regarde la factorisation sous forme de clic et bien on va avoir d’un côté des arêtes qui vont appartenir à des des clics qui vont appartenir pardon les arêtes vont appartenir à X elles peuvent être entre x et y entre Y et Z mais non pas entre x et z donc ça veut dire que je vais pouvoir quand je prends la factorisation en clic je vais pouvoir décomposer ça en deux parties je vais avoir toutes les composantes xé qui sont soit dans X soit dans Y donc ça va être une première fonction de x et de Y et puis je vais avoir toutes les arêtes qui sont entre Y et Z et donc je vais avoir une deuxème fonction qui vont s’écrire entre Y et Z et donc le fait que j’ai cette propriété comme je sais que ceci va être intégrable à 1 je pouvoir diviser 1 sur Z pouvoir l’écrire comme l’intégral de fxy par rapport à toutes les variables qui sont dans X et dans Y parce que il y a pas de variable Z donc elles vont disparaître alors euh les pour i appartenant à Y et Z X l’intégrale de F2 de Y Z pour toutes les variables X pour i appartenant à Y et Z autrement dit je vais pouvoir diviser ça par Z1 et par Z2 et j’obtiens ma probabilité qui va s’écrire comme une probabilité qui va ici dépendre 2 x et 2 y et de Y et de Z autrement dit je vais pouvoir l’écrire comme un produit séparable entre les deux alors deux propri là j’ai écrit comme ça je vais le diviser excusez-moi je prend la probabilité jointe de XZ étant donné y la probabilité XY éant donné y ça va être donc probabilité de X Y Z divis par la probabilité de Y et maintenant si je prends ce que j’ai écrit làhaut je vais avoir la probabilité de X Z sachant y qui va s’écrire je vais le réécrire plutôt comme ça comme mon premier facteur F1 X Y divisé par une √ P2Y donc ça ça va être le premier facteur et fois F2 de XZ divisé par la racine de y et donc j’ai un produit de deux termes excusez-moi je vaisécrire comme ça le premier terme ne dépend que de XZ et le deè terme ne dépend que de YZ donc je peux le réécrire comme une probabilité de X sach y fo la probabilité de Z sach y donc on a la propriété d’indépendance conditionnelle inversement pour avoir une équivalence on va montrer que si jamais on a la propriété d’indépendance conditionnelle alors ça veut dire qu’on peut l’écrire sous forme d’un graphe qui cette structure là c’est-à-dire sous forme de ensemble de var X qui sont en lien avec une frontière qui sépare l’ensemble de variables Z donc la propriété jeécrire ici c’est que si j’ai des variables qui sont effectivement indépendantes conditionnellement à y alors on peut écrire la distribution de probabilité sous forme d’un graphe avec Z qui est séparé de X par l’ensemble des variables y donc autrement dit il n’existe pas de X à Z alors comment ça ça se montre pour le montrer il faut montrer qu’on peut écrire la distribution de probabilité sous forme d’une factorisation on prend direct vari P et on va écrire ça sous forme de probabilité conditionnelle donc ça je peux le réécrire comme la probabilité de Y fois la probabilité de Z sachant y fo la probabilité de X sachant Y et Z d’accord je fais juste une factorisation de ma distribution de probabilité qu’on a fait souvent et puis maintenant la probabilité de X sachant Y et Z et bien comme j’ai ma propriété d’orthogonalité ça ça va être la même chose que la probabilité de X sachant y et maintenant j’ai la probabilité ici de Z sachant y et cette probabilité pareil je peux la par exemple la factoriser dans les deux groupe et donc j’obtiens deux facteurs ici le premier facteur qui dépend que de Z et de y deè facteur qui dépend que de x et de y donc autrement dit on a bien équivalence entre d’un côté ces propriétés de d’indépendance conditionnelle de variable et le fait que la distribution de probabilité peut s’écrire sous forme d’une distribution de GIPS sur un graphe qui ne va pas mettre en contact directement les variables maintenant il y a une chose àquelle il faut faire très attention à nouveau c’est que c’est pas parce que j’ai trois variables comme ceci et X qui est pas en contact direct avec Z que les deux variables sont indépendantes pourquoi parce que si je veux regarder la probabilité jointe entre X et Z pour voir si elles sont indépendantes il faut que la probabilité jointe soit le produit des deux prob donc si je regarde la probabilité jointe des de et bien ça va être je sais j’ai cette configuration là donc j’ai un pH XY FO F2 de de Y Z que je vais écrire sous forme de dy dy ça veut dire l’intégrale par rapport à toutes les variables qui sont à l’intérieur ici de Y et ça cette somme elle a aucune raison de s’écrire comme le produit d’une fonction de x fois le produit d’une fonction de y donc autrement dit là où il faut faire attention c’est que ces deux variables sont dépendant à nouveau y joue le rôle d’une variable cachée ça veut dire en partie ulier que avec ce genre de modèle je peux pas expliquer une situation où j’aurais par exemple un X qui avec le Y qui est ici c’est-à-dire que effectivement X et Y sont dépendants mais il y a une asymétrie c’està-dire c’est X qui cause y et Z qui cause y dans ce CASL X et Y a priori quand vous exprimez ça sous forme d’un réseau paisien comme ceci sont indépendant mais ce genre de propriété vous avez une dépendance entre X et Y y en Z et pourtant une indépendance entre x et z parce que il y a un phénomène de causalité on narrive pas à l’exprimer avec un graphe comme ça donc un grap non direction c’estàd un graphe qui explicite des propriétés de Markov elle n’arrive qu’à expliciter des propriétés d’indépendance conditionnelle mais elles arrivent pas à expliciter toutes les propriétés d’indépendance possibles alors cette propriété que j’ai donné ici elle se généralise par le théorème de hammerley Clifford qui essentiellement dit la propriété d’équivalence que j’ai donné sur trois groupes elle est vraie sur n’importe quel nombre de groupes je vais vous donner le théorème donc on va considérer on dit que en fait on a un certain nombre de propriétés on dit que que j’ai on appelle ça parfois une une information map ap c’estàd un graphe ici est capable de on dit que donc G est une carte d’information si toutes les propriétés d’indépendance conditionnelle sont dans la topologie de G donc le lien entre les différents éléments les différents n donc on considère une distribution de probabilité qui est positive ce que le théorème de Clifford dit c’est qu’il y a une équivalence entre des contraintes d’indépendance conditionnelle et le fait de pouvoir exprimer ça sous forme d’une énergie de GIPS autrement dit d’un produit de facteur donc si on a une distribution de probabilité P a dit p de X1 X2 xD sur des des nœud qui sont donc G qui un graphe indirect alors G est une carte d’informationap si et seulement si alors c’estap sur la probabilité P si seulement si p est une distribution de GIPS sur le graphe et donc autrement dit j’aurais d le dire dans la définition ça c’est une distribution de GIPS donc une distribution de GIPS et une distribution qui s’écrit comme un produit de facteur ou qui peut s’écrire comme si elle est strictement positive une exponenti d’une énergie alors pour démontrer ça en fait qu’ il faut démontrer c’est qu’il y a une équivalence entre deux choses d’un côté d’être capable d’écrire la distribution P X1 X2 xD sous forme d’un produit comme ceci de facteur sur des clics et de l’autre côté la donnée de condition d’indépendance conditionnelle autrement dit le fait que on a l’indépendance conditionnelle sur un certain nombre de groupes de variables qui sont que les XI sont orthogonales au ZI étant connu à are groupe de variables donc on a un certain nombre de conditions sous cette forme et ce que le théorème dit c’est qu’il a l’équivalence entre les deux alors ce qu’on a vu c’est l’implication dans ce sens là ça c’était la première propriété de Markov qu’on a démontré en haut à droite c’est que si on peut l’écrire comme ça alors à ce momentl s’il n’y a pas d’arête entre X et Z alors on a cette propriété ce qui est un peu plus compliqué c’est d’aller dans l’autre sens aller dans l’autre sens ça veut dire que si j’ai un ensemble de conditions comme ça alors je peux construire sur mon graphe des clics tel que la distribution de probabilité peut s’écrire sous forme d’une factorisation alors ça on l’a démontré ici dans le cas de trois groupes X Y Z dans ce cas-là c’est assez immédiat on voit que le produit peut s’écrire comme un produit la probabilité peut s’écrire comme un produit de facteur qu’est-ce qui se passe si on a un graphe qui est beaucoup plus compliqué alors si on a un grap qui est beaucoup plus compliqué je faire ici je juste donner le principe de la démonstration je va pas la faire en fait il faut regarder chaque nud du graphe et regarder ses voisins c’està-dire tous les autres N qui sont en lien donc on va avoir un voisinage d’accord donc les voisins je définir l’ensemble y pour un X est fixé y ça va être le voisinage de x c’est tous les nuds qui sont en lien direct avec X et puis ensuite j’ai tous les autres nud du graphe ce que je sais par définition c’est que ici le y ça va être la frontière entre le X et tous les autres nud du graphe donc autrement dit ce que je peux toujours écrire ça c’est la propriété qui est ici c’est que la probabilité X1 X2 xD je peux l’écrire avec un certain facteur je peux la factoriser avec facteur qui va donner le premier terme c’est-à-dire quelque chose qui va dépendre de ici euh Z ça c’est Z ici c’est le X et Y il est là donc je vais avoir quelque chose qui va dépendre d’abord de x et de y autrement dit de XI et du voisinage des éléments dans le voisinage et puis un deuxième terme plus moins c’est-à-dire tout ce qui ne contient pas XI c’est-à-dire quelque chose qui va dépendre du voisinage et du reste autrement dit il va dépendre de tous les nœuds moins XI donc ça c’est une factorisation je suis simplement en train de dire si je regarde n’importe quel nœud je peux établir son voisinage qui va le protéger des autres nœuds et je peux donc factoriser ma distribution de probabilité comme quelque chose qui dépend de XI et de tous les nœuds qui ne dépendent pas de X et ça je vais pouvoir faire ça pour toutti et donc je vais avoir plein de factorisation et ensuite le principe ça va être de regrouper ces factorisations petit à petit jusqu’à obtenir une seule factorisation et quand on va regrouper les factorisations ce qu’on va faire c’est en fait des intersections sur les contraintes et en faisant les intersections sur les contraintes on va petit à petit capturer chacune des conditions qui sont ici et obtenir une factorisation globale donc ça je vais pas le faire cette démonstration parce que ça va pas être utile pour la suite du cours mais ce résultat est très important parce que il nous dit essentiellement tout est capturé dans cette factorisation qui est ici alors je vais vous donner un tout petit exemple de tout ça pour faire le lien avec ces idées de multi-échelle je vais le faire très simple pour que on puisse le faire en 10 minutes c’est le cas d’un mouvement bronien mais en une dimension alors le cas d’un mouvement broniant en une dimension c’est donc une marche aléatoire une marche aléatoire on définit on part d’un certain X0 qui va avoir une distribution gaussienne et ce qu’on va faire c’est à chaque fois on va créer un xn + 1 qui est égal à la variable précédente plus une fluctuation aléatoire et on va imposer que Zn a une distribution gaussienne alors n ici c’est au sens distribution normale de moyenne Z0 et de variance Sigma carré et puis je vais aussi supposer que la première variable elle est aussi gaussienne de moyenne 0 de variance Sigma car donc on a une marche aléatoire c’est-à-dire que à chaque fois on bouge avec une petite fluctuation donc on va à chaque fois avoir une fluctuation et on voit une espèce de courbe typiquement comme ça ce qui est par exemple les modèles des euh des des par exemple en finance une série de prix le modèle le plus simple c’est un mouvement brunen comme ça donc on a comme ceci une chaîne euh de valeurs qui sont toutes très dépendantes les unes des autres si jamais je veux regarder euh la moyenne donc de XN bah comme chacune des variables est égale à 0 ça ça va être égale à 0 par contre si je regarde l’esérance de XN au carré bah xn je peux le développer ça va être X0 + Z1 plus + Zn et toutes ces variables aléatoires sont indépendantes donc si je la prend au carré et ben tous les produits croisés vont avoir une espérance qui sont Nules parce que ce sont des variables indépendantes je vais avoir des espérances de Z ZJ comme elles sont indépendantes c’est l’espérance de Z FO l’espérance de ZJ et ça ça va être 0 donc autrement dit toutes les corrélations sont Nules et donc il va plus que me rester les espérances de Z au Carr et si je fais ça au carré je vais en avoir n donc je vais avoir n SIG si je regarde deux variables xn et xn + T bah c’est quoi la différence c’est que xn + T bah c’est toutes ces variablesl plus en plus les autres Zn + 1 plus Zn + T bah comme toutes celles-ci sont indépendantes avec cellees-ci si je regarde le produit les seul qui vont corr c’est cette composante avec C c’est le fait que c’est en fait égal à xn plus tout ceci et donc là vous faites le calcul je toujours avoir n SIG autrement dit ce qui va se passer c’est que je peux avoir variablatoir qui sont très loin les unes des autres et qui sont encore très très corrél donc quand on regarde un processus comme ça on a un phénomène de corrélation très long porté qui est dû au fait que on garde le souvenir du fait qu’on a émergé de la variable xn quand on se retrouve ici alors maintenant je vais vous présenter une représentation de la même chose qui va être une forme de version ultra simplifiée de ce dont je parlais sur la présentation multiéchelle de cette chaîne mais de façon un peu différente l’idée c’est que quand vous avez des variables qui sont comme ceci et je vais le faire ici qui peuvent être très corrélés ce qu’on essaie de construire c’est une espèce de représentation hiérarchique on essae dans le dans les cas les plus simples d’avoir des varibles qui sont explicatives des fluctuations des corrélations entre ces éléments et puis ensuite ces groupes on va les regrouper à nouveau comme ceci alors comment on va faire ça dans le cas du mouvement brunien ce qu’on va faire c’est que on observe que j’ai mes variables X0 X 1 X2 X3 comment sont reliés ces variables par un incrément et les incréments sont indépendants donc ce qu’on veut faire apparaître c’est les incréments donc je vais prendre ces deux variables là et je vais faire une représentation orthogonale je vais transformer X0 X1 en deux nouvelles variables X0 + X1 sur √2 et X0 – X1 sur √2 donc ça en deux dimensions c’est une rotation c’està-dire j’avais de mes deux variables X X2 j’ai défini un nouveau système de coordonnées avec une rotation comme ceci de 45°g qui sont donné par ces deux variables je vais faire ça pour chacune des paires des varibl de variables donc ça veut dire que mes deux premières variables je les ai représenté en une différence que je vais écrire ici sous forme de moin et une somme je écr sous forme de plus pour chacune des paires chacune des paires présente par sa différence et sa sommeant les différences entre ces variables dans le cas du mouvement brunien je sais qu’elles sont toutes indépendantes donc toutes ces variables ici es sont toutes indépendantes les unes par rapport aux autres par contre elles sont relié au somm d’accord maintenant je vais prendre les sommes les sommes je peux refaire la même chose c’estàd je peux les grouper en de ici et je peux faire exactement la même chose c’estàd je peux faire la somme des sommes une somme et la différence des sommes le même petit changement orogon je de cascader des transformations orthogonalir les différences entre les sommes différence et ces variables là ID es vont être indépendantes qu’est-ce que j’ai j’ai variabl es sont reli les différences à cette grande différence et la somme ce comm ce maintenant je peux répéter les sommes ici je peux faire à nouveau une transformation je les regroupe sous forme d’une différence et d’une somme et celle-ci je les regroupe sous forme d’une différence et d’une somme et ces différences à nouveau parce qu’elles correspondent à deux groupes disjoint elles vont être indépendante mais celles-ci elles vont dépendre de de celle-ci donc je vais avoir un graphe de dépendance comme ceci et cetera et on peut continuer comme ça avec une différence ici et une somme et qu’est-ce que ça veut dire ça veut dire qu’on a représenté cette série de dépendance longue portée comme des dépendances qui sont locales mais qui sont hiérarchiques alors dans le cas d’un mouvement bronier en une dimension on peut faire quelque chose de plus simple parce que on a une topologie de chaîne de Markov qu’on va voir là dans 2 semaines mais si on est dans le cas d’une image et bien ça ça va fonctionner pareil c’est-à-dire que on a certes des dépendances qui sont très longue porté mais ces dépendances qui sont très longue porté pensez à par exemple une une structure hiérarchique dans une compagnie là vous avez le PDG le PDG même si vous avez deux personnes de service qui sont très loin ils sont relié par le fait queéventuellement le PDG décide de restructurer la société de couper les coups et à ce moment-là tout le monde va le subir et pourtant ils ont aucune interface directe et commentce qu’on reflète ça en fait en sous-jacant on reflète ça par le fait que bah il y a toute une structure hiérarchique dans une société et vous avez des groupes des équipes qui sont regroupés dans des services qui sont regroupés éventuellement dans des sous-sociétés et cetera et c’est ça qu’on est en train de refléter alors ça c’est un cas qui est très simple parce que là j’ai pas mis le fait qu’il y avait un lien mais ce que ce qu’offre comme possibilité les champs de Markof c’est de dire on n’est pas forcé de se restreindre à une structure d’arbre maintenant je peux dire oui mais ceux-là ils sont collègues parce que ils sont dans le même bureau ou dans le même couloir et donc il y a quand même certains liens qui peuvent être là qui éventuellement pas avec ceuxl et qui sont là et ici je peux avoir éventuellement à nouveau un lien parce que c’est des directeurs de servicees qui partagent un bureau qui sont dans le même truc et cetera et donc je peux commencer à construire un lien mais ce que vous voyez c’est que votre graphe les liens il y en a pas autant que ça par le fait même que on n’est pas capable de d’avoir dans une journée des relations avec 250 personnes vous êtes capable d’avoir des des relations peut-être 6 7 8 personnes en véritablement en interaction proche donc le nombre de liens que vous avez est limité mais ces liens ont beau être limités ça peut produire des structures à très très longue portée à partir du moment où vous avez une organisation comme ça d’échelle et ce que vous voyez ici c’est que il y a un axe d’échelle cet axe d’échelle en fait représente les regroupements autrement dit combien de personnes vous avez sous votre responsabilité et si on pense en terme brunien ici ça c’était quoi c’était ce coefficient qui est ici en fait c’est là j’ai fait une différence mais celui-là c’esttude issue de la différence entre deux sommes donc en fait cette valeur là c’est cette moyenne là moins cette moyenne là autrement dit ceci c’est un produit scalaire avec un vecteur qui va faire la différence entre ces deux coefficients et ça c’est ce qu’on appelle une base orthogonale de r parce que si vous regardez ce que j’ai construit ici en fait vous avez des petits vecteurs qui vont faire la différence entre deux voisinages mais mais qui vont être de plus en plus grands la différence entre les voisinages de plus en plus grands et ça ça se retrouve dans cette théorie des ondelettes dont je parlais c’est une ondelette particulière qui est petit à petit dilaté et en faisant ces produits scalaires qui consistent à faire des moyennes locales et des différences de moyennes locales on obtient une représentation orthogonale de la série d’origine la série d’origine en apparence tout le monde interagit avec tout le monde mais si vous représentez ça sous forme de variation locale et bien les interactions deviennent locales et lorsque les interactions deviennent locales ça veut dire qu’on va avoir un champ de Markov mais le champ de Markov il est pas sur le domaine de départ le champ de Markov il est dans ce domaine ici c’est-à-dire dans un domaine où il y a d’un côté l’axe qui était initialement par exemple l’axe temporel dans le cas des images ça va être que vous avez ici c’est le champ spatial et vous avez un deuxième axe qui apparaît et qu’on a créé c’est l’axe des échelles qui permet d’éviter ces dépendances longue portées toutes les dépendances deviennent des dépendance courte portée et ça c’est exactement la façon dont on analyse un champ comme ou une image comme les images de ce modèle ici fi 4 mais on peut avoir le même type d’organisation sur des choses beaucoup plus compliquées et c’est ça qui apparaît derrière ces structures de réseau de nux alors c’est important de de à nouveau de réaliser queil y a rien à faire quelque part il doit y avoir une source de simplicité s’il y a pas de source de simplicité c’est pas possible un réseau de neurone ne peut pas fonctionner parce que le nombre de données même s’il est grand il explose pas exponentiellement comme la dimension parce que vous aurez vous auriez jamais assz de donnée pour l’entraîner donc l’enjeu c’est d’essayer d’aller chercher ces sources de simplicité et aller chercher ces sources de simplicité ça veut dire essayer de trouver des représentations à l’intérieur desquels les interactions deviennent locales autrement dit deviennent limité donc ça c’est un exemple mais c’est un exemple qui est très générique pourquoi il est générique parce que cette idée d’échelle elle est partout dans le monde qui nous entoure vous avez des atomes qui vont s’agréger pour définir des molécules qui vont s’agréger pour définir des structures plus importantes qui vont définir les propriétés de matériaux vont définir des phénomènes de plus en plus grandes échelles jusqu’à avoir des phénomènes de dynamique de fluide de climatique astrophysique cosmologique et cetera chaque fois on bouge comme ça dans les échelles et c’est des phénomènes d’agrégat de ces propriétés et c’est ça qu’on essaie de mettre en évidence voilà donc ça ce sera le sujet des conférences et c’est le sujet vers lequel on avance petit à petit donc du coup une fois de plus j’ai pris du retard c’est la prochaine fois qu’on va faire l’estimation paramétrée assez rapidement avec le maximum likelyood et puis on va rentrer dans la problématique d’échantillonnage parce que ce qu’on a vu c’est que c’est très naturel comme description les champs de Markov mais par contre ensuite trouver des échantillons c’est-à-dire échantillonner ces distribution de probabilité c’est beaucoup plus compliqué or juste un dernier point c’est constantes de normalisation par exemple z-1 pour les calculer j’ai dit ce qu’il faut c’est calculer l’intégrale de cette valeur mais cet intégrale c’est une intégrale en très très grande dimension donc comment on va faire pour calculer cette intégrale et ben on va utiliser une méthode de monter Carlo et pour utiliser une de monter Carlo ce qu’il va falloir c’est créer une distribution de probabilité qui n’est pas très éloignée de la distribution de probabilité de départ et donc on est obligé d’échantillonner ce type de distribution de probabilité et ça passe systématiquement par ça et on verra que on va pouvoir faire ça avec des chaînes de Markov donc on va avancer dans cette direction voilà on va faire une courte pause va y avoir plusieurs choses d’abord si vous voulez bien pour les élèves de Master signer les feuilles de présence si vous voulez bien remettre les enquêtes et surtout il va y avoir juste après une présentation tion des prix et des meilleures solutions des challenges 2003 avec pardon 2023 avec une discussion pour essayer de voir un peu qu’est-ce qui a fonctionné et qu’est-ce qui n’a pas fonctionné et pourquoi et c’est intéressant de voir les expériences passé donc je vous encourage à assister à cette remise des prix et à ces séminaires voilà à tout de suite et je mets les feuilles [Musique]

    Leave A Reply