Apprentissage et génération par échantillonnage aléatoire (2) - Stéphane Mallat (2023-2024)

Enseignement 2022-2023 : Apprentissage et génération par échantillonnage aléatoire
Séminaire du 17 janvier 2024 : Challenges de données 2024 (1)

Professeur : Stéphane Mallat
Chaire Sciences des données

Présentation des challenges de données pour l’année 2024 : challengedata.ens.fr

Les challenges sont proposés par des services publics, des entreprises ou des laboratoires scientifiques, et sont issus de problématiques concrètes. Les participants soumettent les résultats de leurs algorithmes de classification ou de prédiction, qui sont mis en compétition par le site web. Les challenges sont intégrés dans le cours du Pr Stéphane Mallat au Collège de France, et proposés dans de nombreux enseignements de sciences des données en France et dans le monde francophone.

Retrouvez les enregistrements audios et vidéos du cycle :
https://www.college-de-france.fr/fr/agenda/cours/apprentissage-et-generation-par-echantillonnage-aleatoire

Retrouvez tous les enseignements du Pr Stéphane Mallat :
https://www.college-de-france.fr/chaire/stephane-mallat-sciences-des-donnees-chaire-statutaire

Le Collège de France est une institution de recherche fondamentale dans tous les domaines de la connaissance et un lieu de diffusion du « savoir en train de se faire » ouvert à tous.
Les cours, séminaires, colloques sont enregistrés puis mis à disposition du public sur le site internet du Collège de France.

Découvrez toutes les ressources du Collège de France :
https://www.college-de-france.fr

Suivez-nous sur :
Facebook : https://www.facebook.com/College.de.France
Instagram : https://www.instagram.com/collegedefrance
X (ex-Twitter) : https://twitter.com/cdf1530
LinkedIn : https://fr.linkedin.com/company/collègedefrance

[Musique] [Musique] ce qu’on va faire là c’est vous présenter donc les quatre premiers challenges mais je voudrais commencer par remercier euh Enzo Dalby et Marine Nery qui sont là qui vont vous introduire les différents challengers ainsi que les ceux qui viennent pardon les challenge providers c’est un gros

Travail de mettre en place ces challenges ça veut dire organiser le betta testing les données et cetera et donc je voudrais à nouveau les remercier beaucoup pour tout le travail qu’ils ont fait et je vais maintenant leur passer la parole vous allez donc avoir la présentation des qure premier challenge merci beaucoup à

Tous euh bonjour à tous du coup comme Stéphane l’a mentionné on va passer à la présentation des challenges de l’année 2024 donc le challenge data c’est une plateforme qui va mettre à disposition du coup des étudiants et aussi des Data scientist déjà en post des données pour que vous puissiez

Vous amuser dessus et tester des modèles voir ce qui marche le mieux ou pas pour l’année 2023 il y avait 13 challenges qui étaient en ligne certains ont eu plus de 1000 participants et quasi tous ont pu enfin quasi tous les challenges ont été ont eu un benchmark qui a été

Battu par les participants donc ça prouve que il y a des bonnes idées qui sont fournies du par les part tout enfin par vous tous et par les autres participants qui sont hors de du cours du MVA euh la remise des prix des challenges aura lieu du coup dans de semaines

Pareil au moment du séminaire donc vous pourrez en apprendre plus sur les solutions mises à disposition par les participants euh sur trois des challenges de l’année dernière euh cette année euh du coup en 2023 on a aussi fait pas mal de choses sur la plateforme notamment on a voulu mettre à

Disposition des challenges plus simples pour essayer de susciter des vocations en mathématiques euh dès le lycée en utilisant du coup la data science pour faire apprendre aux jeunes étudiants euh des notions plus simples de math et on a aussi réorganisé tous les challenges passés sous forme de catalogue pour que

Vous puissiez plus facilement vous y retrouver et les réutiliser par la suite euh on va passer du coup à la présentation de cette année avec Enzo et donc du coup pour cette année on a un peu moins de challenge que l’année dernière on en a huit mais on a quand

Même réussi à avoir des challenges assez variés euh que ce soit au niveau des thématiques euh donc on a un challenge en santé pour le moment un challenge en sport et le reste ça va être réparti entre énergie transport finances un petit peu plus habituel au niveau des problématiques

Pareil ça va être assez varié on a quatre quatre challenges qui font appel à des séries temporelles on en a deux où il y a du traitement d’image donc vous avez également le choix sur sur ce pointl beaucoup de challenge de classification un peu de régression un peu de segmentation donc vous pourrez

Tester différentes techniques on a même un challenge qui fait appel à un peu de forcément donc si vous voulez vous vous entraîner sur ça vous pourrez il y en a pour tous les niveaux donc voilà on a moins de challenge donc on espère plus de compétitions sur ces huit challenges

Du coup euh voilà on va en présenter quatre aujourd’hui donc les quatre premiers présentés par Elmi radium euh CFM et Transilien SNCF qui sont donc ici présents et du coup on tient vraiment à remercier tous les providers donc les quatre qui sont ici aujourd’hui et on remerciera les quatre autres la

Semaine prochaine qui nous ont fait confiance et qui reviennent donc on a SNCF Transilien qui revient on a qrt CFM et radium qui reviennent qrt CFM qui avait beaucoup marché l’année dernière et qui reviennent cette année donc on espère qu’il y aura autant de participations sur ce challenge on

Remercie également beaucoup les betta testeers qui ont fourni un gros travail pour que ces challenge soit le plus propre possible donc on remercie beaucoup Nathanaël Tiffanie Amada Tony thbao Mohamed Étienne et Rassen pour ce ces betta test et ce temps passé pour que la plateforme soit le le mieux possible cette

Année voilà je pense que c’est à peu près tout du coup on va commencer avec la présentation du premier challenge et donc je vais donner la parole à Anthony Galtier pour Elmi [Applaudissements] merci bonjour à tous donc je vous parler du challenge que j’ai soumis pour l’entreprise Elmi

Que j’ai rejoint il y a quelques mois c’est assez nouveau donc c’est dans le secteur de l’énergie c’est un petit acteur d’un grand système électrique le système électrique d’un pays quand on va dans les détail c’est très compliqué mais si on le schématise assez simplement on a d’un

Côté des producteurs d’électric C en France et en grande majorité du nucléaire un peu de renouvelable et il y a aussi des importations d’électricité qu’on fait à nos voisins via des gros câbles qui passent soit sous la Manche soit au-dessus des frontières terrestres et de l’autre côté en face on a des

Consommateurs qui peuvent être des particuliers comme nous ou des entreprises comme la SNCF ou d’autres euh il y a des pertes d’électricité sur le réseau aussi il y a aussi des exportations donc on envoie aussi via ces gros câbles d’électricité à nos voisins et au milieu

En fait il se passe deux choses il y a physiquement un échange d’électricité via des bah du coup un réseau électrique un réseau de transport puis de distribution et ensuite il y a un marché de l’électricité qui permet bah de se mettre d’accord sur des prix et des quantités à

Échanger et ce donc en fait c’est sur ce marché que que j’été invité à travailler chez Elmi en tant qu’ canaliste et le challenge traite justement de ces marchés et plus spécifiquement des marchés que vous voyez au milieu donc c’est le marché day headead qu’on appelle aussi le marché

Spot et le marché infrajournalier donc fait l’électricité quand on souhaite l’acheter euh enfin quand on souhaite en fait l’échanger euh d’abord on va connaître donc que soit notre production ou notre consommation on va en avoir une idée assez grossière et on va contractuiser des grandes quantités sur

Des longues périodes on va acheter 1 MW sur une année sur un trimestre sur euh des grosses durées comme ça et ensuite donc ça c’est sur un marché qui est boursier euh et ensuite quand on arrive vraiment la veille de la livraison réelle de l’électricité là on passe sur un marché d’enchère qu’on

Appelle le marché spot et là on va pouvoir vraiment acheter heure par heure en fonction des prévisions de consommation et de production d’électricité qu’on connaît à ce momentl on va pouvoir vraiment ajuster plus finement euh les on va dire les enfin ce qu’on ce qu’on aimerait acheter ou

Vendre sur le marché donc pour pour notre production pour notre consommation et si on se trompe sur ce marché là on peut toujours se rattraper ensuite sur le marché infra journalier donc le jour même de la livraison il y a un autre marché qui celui-ci est boursier qui qui permet encore d’acheter ventere

Deélectricité jusqu’à 15 minutes avant la livraison et puis si encore on s’est trompé si vraiment encore il y a des écarts après il y a un marché d’ajustement mais ça je vais pas trop en parler là le challenge en fait il va en gros il consiste à essayer d’arbitrer

Ess c’est de savoir s’il vaut mieux acheter de l’électricité ou vendre de l’électricité euh sur le marché spot donc est-ce qu’il vaut mieux placer des enchères la veille ou est-ce qu’il vaut mieux qu’on se qu’on qu’on traite ça sur le marché infrajournalier donc en gros c’est estce que savoir est-ce que ça va

Être plus cher ou moins cher en infra journalier par rapport au marché spot euh et en fait cet écart de prix il s’explique surtout en fait par l’évolution des prévisions en fait plus 11 raapoche de la date réelle enfin du du moment de livraison concrée de l’électricité plus on connaît

Précisément ce que les gens vont consommer et ce que les centrales vont pouvoir produire et c’est cette évolution des prévisions en fait qui va vraiment faire varier les prix d’un marché à l’autre euh et et ces écarts en fait entre la veille et le jour même ils peuvent vraiment

Être super significatif là je vous ai mis des écarts en haut de consommation pour le 2 janvier donc il y a quelques jours jour on était donc le réseau il prévoyait une consommation qui était de plus faible de 4 GW donc 4 GW c’est l’équivalent de quatre réacteurs

Nucléaires euh donc c’est vraiment des écarts qui peuvent être énormes et générer des écarts de prix assez significatifs et pareil côté côté production c’est surtout en fait niveau centrale nucléaire à moins qu’il y a une centrale un réacteur qui tombe en pan en général il y a pas des écarts très

Significatifs sur ce plan par contre c’est les ressources d’énergie Renou l’éolien et le solaire qui par définition ne sont pas pilotables on peut pas les démarrer et arrêter ces centrales comme on le souhaite en fait c’estf du fait qu’elles sont non pilotables on peut vraiment avoir des différences entre la veille et

Le jour même qui sont très significatives et du coup ça nous fait des prix qui ne sont pas les mêmes et le challenge il consiste à essayer de prédire C écart de prix là pareil donc on voit en vert la courbe du marché spot et en orange on voit la courbe du marché

Infrajournalier donc on voit sur certaines heures de la journée c’est moins cher que ce qui était prévu au spot et d’autre part ça peut être plus cher donc le challenge en fait il consiste vraiment à prédire cet écart et ce qui nous importe c’est surtout de prédire correctement le sens de cet

Écart donc on peut modéliser ça comme comme une régression enfin prédire euh la valeur continue de l’écart positive ou négative mais au final dans la métrique ce qui va vraiment nous importer c’est est-ce que le sens positif ou négatif de cet écart euh était correctement prédit et ensuite cet

Écart on va le pondérer par l’écart absolu réellement observé donc enfin la métrique ça va êre la weited accuracy euh voilà donc pour pour évaluer ce euh ce voilà cet écart là et je crois que c’est tout voilà est-ce que vous avez des questions sur ce sur ce

Challenge non je vousi ouais je vous ai peut-être pas parlé trop des des données en entrée les données en entrée ça va être vraiment tout l’historique des prévisions de consommation et de production euh qui sont observées sur le réseau de l’électricité français euh donc c’est en fonction de

L’évolution de ces de ces prévisions dont on a connaissance jusqu’à la fermeture du marché spot euh essayer de savoir comment ça évolue ensuite ouais donc en fait tu vas avoir euh tu vas avoir l’historique enfin en puisque tu as la variable C tu as l’historique en fait des écarts observés

Sur le passé donc ça tu peux t’en t’en servir dans en entrée de ton modèle euh et sinon les autres variables expatives supplémentaires on qui sont qui sont donné ça va être d’une part la consommation à l’échelle nationale prévue par RTE qui est le réseau de transport de l’électricité euh et

D’autre part en face la production et là ça va être divisé par type de centrale doncir les prévisions de production nucléaire et en face les prévisions de production solaire éolienne et je crois qu’on détaille aussi pour les centrales à gaz et charbon et tout est à l’échelle nationale ouais donc

En non non tu tu connais la date en question donc si tu veux tu peux aller chercher quelques données externes euh pour pour les matcher pour enrichir ton dataset ou ça c’est c’est ça serait bienvenue évite d’aller chercher directement les réponses si tu payes tu peux les trouver mais c’est pas le c’est

Pas l’enjeu du challenge voilà d’autres questions non et ben voilà ben j’espère que vous arriverez à faire mieux que moi parce que moi j’ai eu un peu de mal sur ce sujet euh et j’ai hâte de voir vos vos résultats et je passe la main je

Suppose radium ou non je passe la main à à Marine merci euh du coup maintenant ça va être la présentation de SNCF donc c’est Rémy Coulot et Matthéo Guimar qui vont présenter le challenge donc après la l’anticipation d’affluence au sein des trains l’année dernière ça sera au sein des gare cette année

Exactement bonjour merci beaucoup à toutes et à tous d’être ici présente merci à Stéphane mala aussi de nous permettre de présenter ce challenge au sein de son cours et merci à l’équipe de l’ilb de nous permettre de d’avoir accès à leur plateforme donc l’idée aujourd’hui c’est de présenter

Notre sujet du moment qui est de pouvoir anticiper à moyen long terme euh c’est-à-dire à 6 mois dans ce cas-là mais idéalement ça serait même à 5 ans ou à 10 ans le volume de voyageurs qu’ va y avoir dans nos gares avant ça je vais juste vous faire

Un rappel sur Transilien Transilien on est l’opérateur de train de banlieu d’Île-de-France on exploite un réseau qu’on appelle mass transit on est le deuxième réseau mass transit dans le monde on transporte 3 million de voyageurs par jour dans plus de 6000 trains on a environ 18000 18 lignes dont

C lignes de R et trois lignes de tramtraain et ce qui est important à avoir en tête c’est qu’on a 408 gares donc on a 408 points d’entrée dans notre réseau donc 408 moyens ou 408 séries temporelles en fait qui nous permettre de mieux comprendre comment les voyageurs utilisent les

Transports en commun en Île-de-France pourquoi on parle de mass transit parce qu’on parle de d’une zone très dense on est sur 2 % de la surface de de la France terrest de la France on est sur 10 % du réseau national et on transporte 70 % des voyageurs de la SNCF

Dans 40 % des trains en gros donc on est un gros bébé au sein de la SNCF le point pourquoi pour nous c’est important de connaître les validations futures c’est-à-dire le nombre de fois où vous allez passer votre passe Navigo où vous allez mettre un titre magnétique c’est parce que pour île- de-fance

Mobilité ça représente une petite partie de du coût réel île- de-fance mobilité c’est notre autorité organisatrice c’est celle qui nous paye pour vous faire transporter pour vous faire voyager au sein de l’Île-de-France en fait ça représente 1/3 du coût réel donc quand vous prenez les transports en commun

Vous payez un/3 du prix ça c’est un point important et le reste est payé par les entreprises ou par d’autres taxes par contre ce qui est important pour nous c’est queaujourd’hui les volumes de validation ça rentre peu dans notre arbitrage financier c’est-à-dire que que il y ait 1200 personnes qui valident à

Savini sur Orge ou qui en a 10000 ça change rien on a une énorme part forfaitaire c’est en gros on on a un forfait qui qui est payé par î-defance mobilité demain le vous savez que il y a une ouverture à la concurrence des réseaux de transport en France et notamment

Toutes nos lignes vont être ouvertes à la concurrence donc un nouvel opérateur peut rentrer et dire bah c’est moi qui exploite le RRB par exemple ça ça veut dire que pour île-de-fance mobilité c’est l’occasion de mettre plus de poids sur la qualité de service et sur le volume de validation donc de d’essayer

D’inciter l’opérateur à faire amener à amener des gens dans dans sa gare et donc nous notre intérêt c’est déjà de mieux pouvoir anticiper à 5 10 ans quand on répond à un appel d’offre le volume de validation parce que ça va impacter grandement nos recettes ou beaucoup plus

Que aujourd’hui ça ne l’impacte voilà donc ça c’était pour vous donner le contexte et je vais laisser Matthéo vous présenter un peu plus le jeu de données alors bonjour à tous Alors voilà bah comme vous pouvez le voir voilà en île-defance il y a de nombreux profils de gare c’est très varié déjà

Spatialement voilà donc on a les grandes gares parisiennes qui qui con centre des des des milliers de voyageurs chaque jour alors que au contraire en banlieu euh on a des stations qui peuvent parfois enregistrer des euh quasiment zéro voyageurs par jour donc c’est des choses qu’il va falloir prendre en

Compte voilà que vous voyez du coup là sur sur sur ce graphique voilà donc le poids rouge qui conna qui correspond à la défense qui est également un grand pôle et donc que au niveau voilà des gares euh le nur pe changer énormément donc à la fois spatialement mais

Également dans le temps donc là vous avez le nombre de validation sur l’ensemble du réseau snzf Transilien euh bon sachant que dans le challenge faudra prédire par euh par station voilà donc pour voir un peu l’évolution temporelle euh donc entre 2015 2022 par jour et on voit les nombreuses

Saisonalités de ce de ce jeu de données donc on VO les les grandes alors les très grandes variations c’est par rapport au à la forte différence entre le nombre de validation euh en en semaine par rapport au weekend on voit d’important creux qui correspond les grands pour les vacances d’été les plus

Petits pour les vacances de de Noël et cetera et on voit également les chocs ponctuel comme en 2020 avec le covid où forcément le nombre de validation a fortement baissé on voit aussi en décembre 2019 une plus forte baisse liée aux grèves qui au fores grèv qui avait eu pendant cette

Périodelà euh voilà donc autant de choses qu’il va falloir prendre en compte pour ce challenge sachant que voilà donc chaque année le nombre de validation augmente de 6 % environ et on voit cette tendance à la hausse sur euh sur ce graphique voilà et donc l’objectif sera d’anticiper l’affluence

Future dans chaque gare du réseau Transilien euh donc vous avez un petit aperçu des données juste ici notre variable àprédire ce sera le nombre de validation par jour et par gare et donc dans les variables bon logiquement vous avez la date et la gare sachant que la

Les noms de gare sont anonymisés comme vous pouvez le voir euh par une suite de trois lettres et chiffres euh voilà parce que les les données sont retrouvables partiellement en ligne librement donc on a préféré anonymiser les noms de station et vous avez également trois autres variable que vous

Êtes libre d’utiliser donc jour férier quiindiique si le jour est férier ou pas les pareil pour les vacances c’est pareil pour le type je jour qui est aussi une indicatrice qui indique si c’est un jour de semaine ou un weekend alors vous êtes libre d’utiliser ces variables non vous êtes libre de les

Compléter avec les variables qui vous viennent en tête donc voilà donc vous avez des données de série temporelles avec une forte corrélation spatiale et de beaucoup de saisonnalité euh à prendre en compte et pour conclure je vais laisser la parole à reméi merci beaucoup donc les vous avez

8 ans de données sur l’ensemble du réseau SNCF Transilien vous vous avez une métrique qui est intéressante qui est le MAP dans le sens où ça va vous obliger à regarder les petites gares et pas seulement les grosses gares si on avait mis un MAE on aurait eu juste la

Plus vous prédisiez bien la défense ou Paris host Paris monparnas meilleur serit vos performances nous là on a plutôt privilégié une métrique qui permet de de mettre à égal un peu près tout le monde le benchmark est très simple c’est juste un copier-collé on a essayé de faire mieux mais finalement ça

Marchait pas beaucoup mieux donc on AOP l’année 2022 et on l’a mis sur 2023 euh donc normalement vous devriez pouvoir faire mieux j’espère le jeu de données est assez petit il fait un peu moins un peu plus de 1 million de lignes euh et il fait moins de 25 m oct donc il

Est vous pouvez travailler facilement sur vos vos ordinateurs personnels vous avez 6 mois de données à prédire comme je l’ai dit et attention les données sont disponibles en ligne ou partiellement donc n’essayez pas de d’aller les chercher c’est pas ce qu’on cherche on sait où ellees se trouve

D’ailleurs c’est pour ça qu’on a fait ce challenge le but c’est de vous que vous proposiez des bons modèles donc à vos claviers pour améliorer le le quotidien de millions de voyageurs et si vous avez des questions nésitez pas à m’envoyer un mail à remi.cou@ snf.fr merci pour votre attention et

N’hésitez pas si vous avez des questions pas de question c’est des séries temporelles c’est facile [Applaudissements] merci beaucoup à tous les deux on va passer maintenant je vais passer la parole à Corentin dans pour le challenge proposé par radium merci Enzo merci à Stéphane mal à nous accueillir ici pour ce challenge

Donc voilà je suis Corentin dans 7 je suis un chercheur chez radium depuis environ en 6 mois donc on est une petite start-up qui a été fondée il y a 2 ans et on B sur la radiologie et donc comment appliquer le Deep learning et pour l’imagerie médicale donc nous on essaie de

Construire un modèle de fondation pour la radiologie donc l’idée c’est ça va être de d’entraîner un modèle sur une quantité énorme de de données qui vont être très varié donc ça peut être plusieurs par exemple types de machines plusieurs types de modalités des IRM des scanners euh des patients

Malades des patients sains et donc de d’agréger toutes ces informations dans un dans un seul et même modèle qui va pouvoir ensuite être adapté assez facilement on l’espère assez efficacement à énormément de tâches qu’ qu’on veut pour lequel les radiologues ont besoin d’aide donc ça peut être de

La détection de la segmentation de la classification de pathologies par exemple un exemple ça peut être ici de d’identifier toutes les les sousstructures d’un organe donc ici le cœur donc il a il y a il y a on voit des des centaines de de sousstructures qui sont qui sont nommées c’est c’est très

Dur de de de déjà de retenir tout ça pour un radiologue et donc si on peut l’aider à qu quand il veut écrire un rapport à identifier spécifiquement le nom d’une sous-structure ça fait gagner énormément de temps au médecins et donc c’est très bénéfique pour eux eu et donc le challenge qu’on

Propose nous c’est de la segmentation donc voilà vous connaissez la segmentation on a des images en entrée et il faut à chaque pixel un label qui normalement correspond à la classe de l’objet donc on peut faire pareil en imagerie médicale on a ici une slice d’un d’un

Scanner des poumons et donc on voit en haut chaque chaque organe va être associer à une classe donc par contre ce challenge est un peu particulier ici c’est pas de la segmentation sémantique donc on va pas vous demander de prédire le label associé à chaque pixel on va

Juste vous demander de prédire des structures donc c’està-dire de regrouper en entre eux les pixels qui appartiennent à un même organe mais on va pas vous demander de quel à quelle classe il ils appartiennent donc on va pas vous demander est-ce que ça c’est le foie est-ce que ça c’est le poumon juste

On veut obtenir des groupes de pixels qui appartiennent à un même organe et donc c’est un c’est un petit peu plus dur à l’entraînement parce que du coup on n’ pas accès à ce label là non plus à l’entraînement tous les toutes les classes vont être mélangées et on peut

Pas appliquer des modèles de segmentation classiques donc pour vous mettre sur une piste ça ressemble un petitu pe par exemple à ce que fait segment anything donc c’est un modèle qui est sorti il y a à peu près un an qui fait de la segmentation sans classe

Donc on va juste donner un prompte on va lui dire par exemple je veux segmenter cette zone là de l’image ou alors juste je veux segmenter tous les objets dans l’image et il va donner des voilà il va donner différents objets sans donner leur label donc ça peut être une piste à

Explorer pour ce challenge de d’utiliser ça de le fine tuner sur les données qu’on propose et donc pour rentrer un peu plus en détail dans les données donc euh en entrée on a des images qui sont issues de scanner donc ça peut être n’importe quelle partie du corps il va y avoir des

Scanners abdominaux euh de la tête voilà des thoraciques ça c’est c’est très varié et donc on vous donne une slice pour pour une entrée donc c’est une image en 2D h et donc on il y en a 2000 dans le training set 400 sont an notés et 1600

Aucun label donc pour ça il va falloir faire utiliser des techniques donc de par exemple de self supervise learning de pseudo labelling euh c’est à vous de trouver la manière la plus efficace d’utiliser ces données et en test on a 500 images qui sont cachées donc pour sur lesquelles vous devez prédire des

Labels de segmentation donc pour de par rapport au challenge de l’an dernier on a mis deux fois plus d’images donc pour ce qui permet à priori d’apprendre des modèles un peu plus plus forts et on a ajouté un type de de structure donc c’est des lésions euh avant on avait

Juste les organes et maintenant on a ajouté donc des tumeurs donc c’est des structures qui sont un peu plus difficiles à segmenter elles sont plus petites déjà elles sont au sein d’un organe donc ça peut être un peu plus dur pour les algorithmes de segmentation et euh aussi leur le leur structure interne

Et c’est un peu plus diffus il y a pas forcément de bordure très clair ça peut être juste des différences de texture ou ou de couleurs donc c’est voilà quelque chose qui est un petit peu plus difficile à segmenter donc on va voir qu’est-ce que vous pouvez proposer pour

Améliorer la segmentation là-dessus et donc c’est un problème qui est très très important pour les radiologu de pouvoir segmenter des structur des des tumeurs pour calculer leur taille mesurer leur évolution dans le temps et cetera donc c’est un un vrai problème réel quoi et donc pour le les les labels donc

C’est aussi des des des matrices de D de la même taille que les images euh chaque pixel est associé du coup à une une valeur un entier donc zéro pour le B et ensuite des des entiers de 1 à N et donc voilà comme je l’ai dit la particularité c’est que un entier

Correspond pas forcément à un organe en particulier on peut avoir le 1 sur une image qui va être le foie et le 1 sur une autre image qui va être le pancréas ou un aut organe et voilà donc il y a des petites particularités pour charger le les

Données comme c’est des CSV on a expliqué tout ça dans la documentation du challenge ensuite pour calculer les maîtriques donc pareil c’est pas une maîtrique classique de segmentation ici on a envie de mesurer la similarité entre deux set de cluster et du coup on uise mrique s’appelle r

Index donc voilà elle prend entr de set de cluster elle va calculer le similarité donc si on a de de cluster comme sur l’image sont très très similaires on va avoir un rindex qui va être proche de 1 et on avoir 0 si on prédit des clusters complètement aléatoires

Et donc les les valeurs le label qui est donné au cluster n’a aucun aucune importance tant que les deux sets de cluster sont identiques et donc au global donc ça c’est la métrique pour chaque image et au global on va faire la moyenne de cette métrique sur toutes les

Images donc une baseline très simple qui basé juste sur faire un trold sur le la valeur des pixels va obtenir 0.16 qui prit du coup une seule classe donc voilà on espère que vous pourrez faire mieux que cette baseline à priori oui eu et donc voilà on a hâte de recevoiros

Vos soumissions et n’hésitez pas si vous avez des [Applaudissements] questions je don aucune information sur le nombre euh euh on pe on peut dire dans l’ensemble du dataset il y a environ une centaine de classes par image c’est assez variable en fait ça peut être de quelquesunes à

50 j’avais montré une image là au début où il y avait je pense une quarantaine de d’organes différents ça dépend en fait si on est au niveau abdominal il y a vraiment beaucoup d’organes différents si on est sur la tête il y en il va en avoir qu’un juste le cerveau donc c’est

C’est très variable selon selon les slides mais donc ça peut être de 1 à une cinquantaine je dirais quelque chose comme ça ou euh je pense que se tromper sur le nombre de clusters c’est pas très grave en gros la métrique il me semble que à

Peu près c’est la la la proportion de pair donc si on prend prend les paires qui sont qui appartiennent au même cluster on regarde si elles sont classées par le l’algorithme dans le même cluster effectivement ou non donc je pense pas que le nombre de clusters

Joue enfin si on prédit beaucoup trop de clusters c’est pas très grave euh tant que on a quand même la majorité des paires qui sont bien groupées dans le même dans les mêmes clusters merci et du coup on va passer au dernier challenge c’est le challenge de CFM qui

Sera présenté par Stephen hardardiman du coup CFM et là depuis la première année des challenges et vous permet de travailler sur leur donnée depuis 2015 du coup il me semble si je me trompe pas si ok euh oui je suis désolé mais j’ai j’ai un peu

Prévu de parler en anglais et je suis plus à l’aise en anglais j’espère que ça je pas trop mais n’hésite pas de poser des questions en français après et je vais essayer de parler assez clairement so what’s the challenge so first what CFM CFM we an investment manager located not very far from

[Musique] here pr ok so who CFM invest manager staff and we have very Collegiate atmosphere a lot of people from backgrounds different nationalities for example this is why I’m speaking in English um and we’re very much uh how do I say collaborative and we do like to

Keep in touch with what’s going on in uh in science we like to publish we like to stay active in research and so we’re also very very interested in staying close to what’s happening current trends in in machine learning for example so because of that we’ve been active in the

Data challenge now for for quite a number of years ok so um i’m going to explain the data set um so one of the problems that we uh have uh in our business is is the problem of execution right so being investment manager it’s not just uh taking positions and stocks and holding

Them or or whatever it might be uh but we we we also do our own execution and a lot of Investment Managers don’t do this but we we focus on that one of our teams and uh what does that mean that means the Nitty Gritty of going to the

Exchange and sending orders and trying to get the best price for the trade that you want to do and so what does um uh the exchange look like at the very finest detail the most uh fine grained level well most of the exchanges uh in which we trade um

Assets let’s say uh are are managed through something called an orderbook and it basically looks like this uh and you can send an order to to say buy uh let’s say a stock at a particular price uh in this case you might send an order

To to buy at uh the price of 99 ok what will happen is it goes into a ok and it goes to the back of the at the price of 99 and uh it’ll just stay in the book waiting to be executed unless somebody out there decides i want to sell at 99

And then what happens it’ll be eventually executed you’ll have a trade there’ll be a buyer and a seller both at the price of 99 um but what happens is uh people want to buy at the lower price and they want to sell at the higher price so people like to place these

Patient orders hoping that somebody else will send the Socalled market order instead so you have the concept of a limit order it goes in the book at a price goes into a and then you wait until eventually it’s executed so for example somebody executes some of the

Orders that are in front of you in the queue at 99 the que depletes you are still at the back of the que somebody else decides they also want to buy at 99 uh there’s now more shares behind you in the que somebody then decides I will sell at

99 you get the people in fr be traded and eventually you get traded and and this is how it works so you can be uh patient you can place your orders in the queue and you can wait until somebody decides to send a so-called market order and so what is

A market order well conceptually uh the simplest way to say it is it’s a decision to trade against one of the limit orders that is already resting in the book by one of these patient actors and when you send a market order you will be executed immediately

Low ex if you want to bu andest price if you want to sell uh and that’s that’s pretty much it so you will see in the data all the information about what when people an order in the book at what price they place an order and then you

Will also see in the data when a trade occs and what PR and probably the simplest explanation I can give at a high level of the datas set so this is the Nitty Gritty this is the details I don’t know explosion of what the data set looks like and uh yeah

It’s a very detailed slide but it’s it’s it’s it’s useful reference so you have um i don’t know about what 10 colums ok you have uh crucially the price at which every event takes place and to make the challenge more difficult i have removed the price

Ok so normally on each stock there would be a different bid price and a different ask price so I forgot to say the highest bu the highest level on the left side 99 is the bid it’s the best bid and the lowest on the on the

Right side is the ask the best ask so when you see here we’re talking the bid and the Ask we’re talking about the prices of the two if iforder you will get a worse price than 99 because you were not patient and if you want to sell immediately you get the

The soced bid price of 99 and so to make the challenge more difficult i removed the price right otherwise uh you’ll see later that the problem is to work out which stock we’re talking about it’s a classification problem I will give you piece of dataet from this

Orderbook and you’ll have to decide is it Microsoft is it Apple which St is it and if I give you the price then it becomes very easy because you will know that the price of apple is 22 or whatever it might be and ITL become very easy to identify that it’s

Apple later based on the price so the price is removed so the first bid price in all of the data sets is always zero and then the Ask price is some s correct relative to the bid so this urate picture you would not see whole dollar increments between the prices of the

Order book usually would just be aent right so you can imagine each of these levels on on us stocks is always about a cent for large liquid stocks so otheration you have is size si this is of shares that are present in the levels at the bid and the Ask two

Best B and ask levels um and then you have the action that takes place ok so the action can either be you place an order or you will uh do I have a laser on this not sure uh you can either place an order or you can

Cancel an order or you can even update order so that gives rise to yeah that gives rise to uh three different possibilities a d or u so if you place an order it’s an a if you delete an order it’s a d uh in other words cancel an order buuse you can

Choose later to always cancel your order you can put it in the order book and then you can cancel it later and then you have a u and sometimes if if a trade occurs well that means that somebody has removed your order from the order book

And caused a trade and that will also be represented as as a d but at the same time you will see a flag here to tell you that it wasn’t a cancellation it wasn’t you deciding that you no longer want your order in the book it’s because you were deleted because somebody else

Sent a market order and then traded against you I hope that’s clear um and finally uh a little bit of complexity here but on us stock markets there are um often a number of different exchanges that are trading the same instruments the same stock and so the order book

That we’re talking about is not a singular order book on a single exchange but it’s an aggregate order book it’s a sum over about five or six different order books on different exchanges and this gives rise to to one more uh fields which is the venue which

Is telling you on which one of the venues from which we build the aggregated order book did that particular event take place and then you’ve got this order ID and this is this is what makes this data level three very very detailed information on the order book because

Anytime an event occurs like you place an order or you del there’s a unique identifier that tells you that it was the same order that you would have seen earlier in in in the in the feed of data so for example here you see an order is

Placed but then later it is deleted and you know it’s the same order because it has the same order ID zero uh and then uh the flux is just telling you it’s it’s just uh the change to the level so you will see that a flux is always

Caused by deletion of volume and when you add an order to the book it creates an increase in volume example if you add order to the bid you would see auxably of maybe 100 and then in the next line you would see that the bid the bid size would have

Increased and uh i think that mostly explains all the data just beware that it’s not perfect and there are some situations here that I’ve shown where in fact um in fact no I didn’t show it actually but it can be possible that uh an order might

Appear to be deleted before it was even added to the order book because the events were picked up in the wrong order so there might be now and again a strange problem like this but I don’t guarantee that the data is 100% perfect in how we received it and collected it and recorded

It finally uh events can occur anywhere in the orderbook so most people will place orders close to the best bid and the best ask because it makes it more likely that they’re going to buy or sell or be traded but it’s very possible that an order will be placed somewhere deep

In the order book far away that will probably never be executed and that information is is still recorded so for example this order here was placed on the bid side of the book right the left side at a price that was 912 ticks 912 levels away from the best bid

Um and I think that’s that’s everything I can say so in terms of what is x and what is y what is the the particular task at hand well for each x let’s say we have a of these events occurring in sequence it’s a small snapshot in time of what happened on one

Of these exchanges and you’ll have 100 values so 100 of these rows and then that will correspond to that particular observation and then the y for this set of events will be the label of that stock that you have to identify uh which is which is what I’ve

Shown here so for example you have I think in the training set maybe about0,000 of these moments from different order books on different stocks and for each one of these uh tables of data that occurred over 100 events you simply need to decide uh which stock it is and there are 24

Possible stocks so it’s a classification task it’s uh something you would put a soft max on at the end it also means that the loss the target the score that you want to to maximize to to to win is going to be simply the classification accuracy that means the probability or

The the frequency with which you guess correctly the stock in the out of sample test data set and I think that’s as much as I can remember to say uh so don’t hesitate if you have more questions or don’t hesitate to send an email to to me

During the course of the challenge if you have some particular questions and yeah good [Applaudissements] luck yes the classes there is uh yeah you’ll see this in in the training set that there is an equal number of observations drawn per day per stock for all stocks and I didn’t say this

But the training set Drai of time of months and then the test is Dra from another time in the future they completely separated in time yes so this is something I did consider to put in time because in the real exchange data you will know the time Delta the difference in time

Between each event that takes place for example some there might be hfts right high frequency traders who are sending orders very very fast and the difference in time between these events could be microseconds or it could be a stock for which there’s not much things happening and you might see seconds or minutes

Pass between events I didn’t show you this information so you only have the correct ordering of events up to like the example that I thought I had in the slide which was the case where there was definitely a mistake that an event was deleted before it was uh

Placed and the reason for that is because these two messages probably arrived when we collected it very very close in time separated by microseconds and or maybe it was just an error in the processing but for some reason these events were were flipped over but generally speaking uh the temporal order

Of things the time order is correct yes question oh yeah good question yeah no for us it’s it’s not that’s a very good question I mean yes it doesn’t necessarily help in terms of our end goal to be able to predict that a particular St [Musique]

Is will it will provoke in terms of trying to to build that so the same model that you choose to classify a particular stock is going to be one that understands and that can interpret the dynamics of what’s happening in that exchange and uh you know there there’s

Plenty of uh scope for transfer learning if you can build a model that can very well classify stock you can likely build a model that can very well detect what is happening inside that piece of data is there a particular agent at play who’s making a trade that you can detect

And so whatever model I can imagine that a good participant can can use to classify a stock is likely one that can be repurposed to do something particular you know potentially more interesting uh so the BET is on let’s say universality and transfer learning euh je voudrais peut-être juste terminer

En remerciant CFM parce que c’est CFM qui nous soutient depuis 7 ans aussi pour beaucoup d’éléments et donc je vous retrouve la semaine prochaine pour la deuxème séance et à nouveau merci à Enzo et [Applaudissements] Marine [Musique]

Apprentissage et génération par échantillonnage aléatoire (2) – Stéphane Mallat (2023-2024)

Last Km – Paris-Tours 2024

Cycling to Serpent D’Ocean 🇫🇷 #serpent #paysdelaloire #france

Shocking Luxury News! Off White a Failure? Valentino Paris Fashion Show Review – Dacob Live

Apprentissage et génération par échantillonnage aléatoire (2) – Stéphane Mallat (2023-2024)

Related

Last Km – Paris-Tours 2024

Cycling to Serpent D’Ocean 🇫🇷 #serpent #paysdelaloire #france

Shocking Luxury News! Off White a Failure? Valentino Paris Fashion Show Review – Dacob Live