Enseignement 2022-2023 : Apprentissage et génération par échantillonnage aléatoire
    Séminaire du 17 janvier 2024 : Challenges de données 2024 (1)

    Professeur : Stéphane Mallat
    Chaire Sciences des données

    Présentation des challenges de données pour l’année 2024 : challengedata.ens.fr

    Les challenges sont proposés par des services publics, des entreprises ou des laboratoires scientifiques, et sont issus de problématiques concrètes. Les participants soumettent les résultats de leurs algorithmes de classification ou de prédiction, qui sont mis en compétition par le site web. Les challenges sont intégrés dans le cours du Pr Stéphane Mallat au Collège de France, et proposés dans de nombreux enseignements de sciences des données en France et dans le monde francophone.

    Retrouvez les enregistrements audios et vidéos du cycle :
    https://www.college-de-france.fr/fr/agenda/cours/apprentissage-et-generation-par-echantillonnage-aleatoire

    Retrouvez tous les enseignements du Pr Stéphane Mallat :
    https://www.college-de-france.fr/chaire/stephane-mallat-sciences-des-donnees-chaire-statutaire

    Le Collège de France est une institution de recherche fondamentale dans tous les domaines de la connaissance et un lieu de diffusion du « savoir en train de se faire » ouvert à tous.
    Les cours, séminaires, colloques sont enregistrés puis mis à disposition du public sur le site internet du Collège de France.

    Découvrez toutes les ressources du Collège de France :
    https://www.college-de-france.fr

    Suivez-nous sur :
    Facebook : https://www.facebook.com/College.de.France
    Instagram : https://www.instagram.com/collegedefrance
    X (ex-Twitter) : https://twitter.com/cdf1530
    LinkedIn : https://fr.linkedin.com/company/collègedefrance

    [Musique] [Musique] ce qu’on va faire là c’est vous présenter donc les quatre premiers challenges mais je voudrais commencer par remercier euh Enzo Dalby et Marine Nery qui sont là qui vont vous introduire les différents challengers ainsi que les ceux qui viennent pardon les challenge providers c’est un gros

    Travail de mettre en place ces challenges ça veut dire organiser le betta testing les données et cetera et donc je voudrais à nouveau les remercier beaucoup pour tout le travail qu’ils ont fait et je vais maintenant leur passer la parole vous allez donc avoir la présentation des qure premier challenge merci beaucoup à

    Tous euh bonjour à tous du coup comme Stéphane l’a mentionné on va passer à la présentation des challenges de l’année 2024 donc le challenge data c’est une plateforme qui va mettre à disposition du coup des étudiants et aussi des Data scientist déjà en post des données pour que vous puissiez

    Vous amuser dessus et tester des modèles voir ce qui marche le mieux ou pas pour l’année 2023 il y avait 13 challenges qui étaient en ligne certains ont eu plus de 1000 participants et quasi tous ont pu enfin quasi tous les challenges ont été ont eu un benchmark qui a été

    Battu par les participants donc ça prouve que il y a des bonnes idées qui sont fournies du par les part tout enfin par vous tous et par les autres participants qui sont hors de du cours du MVA euh la remise des prix des challenges aura lieu du coup dans de semaines

    Pareil au moment du séminaire donc vous pourrez en apprendre plus sur les solutions mises à disposition par les participants euh sur trois des challenges de l’année dernière euh cette année euh du coup en 2023 on a aussi fait pas mal de choses sur la plateforme notamment on a voulu mettre à

    Disposition des challenges plus simples pour essayer de susciter des vocations en mathématiques euh dès le lycée en utilisant du coup la data science pour faire apprendre aux jeunes étudiants euh des notions plus simples de math et on a aussi réorganisé tous les challenges passés sous forme de catalogue pour que

    Vous puissiez plus facilement vous y retrouver et les réutiliser par la suite euh on va passer du coup à la présentation de cette année avec Enzo et donc du coup pour cette année on a un peu moins de challenge que l’année dernière on en a huit mais on a quand

    Même réussi à avoir des challenges assez variés euh que ce soit au niveau des thématiques euh donc on a un challenge en santé pour le moment un challenge en sport et le reste ça va être réparti entre énergie transport finances un petit peu plus habituel au niveau des problématiques

    Pareil ça va être assez varié on a quatre quatre challenges qui font appel à des séries temporelles on en a deux où il y a du traitement d’image donc vous avez également le choix sur sur ce pointl beaucoup de challenge de classification un peu de régression un peu de segmentation donc vous pourrez

    Tester différentes techniques on a même un challenge qui fait appel à un peu de forcément donc si vous voulez vous vous entraîner sur ça vous pourrez il y en a pour tous les niveaux donc voilà on a moins de challenge donc on espère plus de compétitions sur ces huit challenges

    Du coup euh voilà on va en présenter quatre aujourd’hui donc les quatre premiers présentés par Elmi radium euh CFM et Transilien SNCF qui sont donc ici présents et du coup on tient vraiment à remercier tous les providers donc les quatre qui sont ici aujourd’hui et on remerciera les quatre autres la

    Semaine prochaine qui nous ont fait confiance et qui reviennent donc on a SNCF Transilien qui revient on a qrt CFM et radium qui reviennent qrt CFM qui avait beaucoup marché l’année dernière et qui reviennent cette année donc on espère qu’il y aura autant de participations sur ce challenge on

    Remercie également beaucoup les betta testeers qui ont fourni un gros travail pour que ces challenge soit le plus propre possible donc on remercie beaucoup Nathanaël Tiffanie Amada Tony thbao Mohamed Étienne et Rassen pour ce ces betta test et ce temps passé pour que la plateforme soit le le mieux possible cette

    Année voilà je pense que c’est à peu près tout du coup on va commencer avec la présentation du premier challenge et donc je vais donner la parole à Anthony Galtier pour Elmi [Applaudissements] merci bonjour à tous donc je vous parler du challenge que j’ai soumis pour l’entreprise Elmi

    Que j’ai rejoint il y a quelques mois c’est assez nouveau donc c’est dans le secteur de l’énergie c’est un petit acteur d’un grand système électrique le système électrique d’un pays quand on va dans les détail c’est très compliqué mais si on le schématise assez simplement on a d’un

    Côté des producteurs d’électric C en France et en grande majorité du nucléaire un peu de renouvelable et il y a aussi des importations d’électricité qu’on fait à nos voisins via des gros câbles qui passent soit sous la Manche soit au-dessus des frontières terrestres et de l’autre côté en face on a des

    Consommateurs qui peuvent être des particuliers comme nous ou des entreprises comme la SNCF ou d’autres euh il y a des pertes d’électricité sur le réseau aussi il y a aussi des exportations donc on envoie aussi via ces gros câbles d’électricité à nos voisins et au milieu

    En fait il se passe deux choses il y a physiquement un échange d’électricité via des bah du coup un réseau électrique un réseau de transport puis de distribution et ensuite il y a un marché de l’électricité qui permet bah de se mettre d’accord sur des prix et des quantités à

    Échanger et ce donc en fait c’est sur ce marché que que j’été invité à travailler chez Elmi en tant qu’ canaliste et le challenge traite justement de ces marchés et plus spécifiquement des marchés que vous voyez au milieu donc c’est le marché day headead qu’on appelle aussi le marché

    Spot et le marché infrajournalier donc fait l’électricité quand on souhaite l’acheter euh enfin quand on souhaite en fait l’échanger euh d’abord on va connaître donc que soit notre production ou notre consommation on va en avoir une idée assez grossière et on va contractuiser des grandes quantités sur

    Des longues périodes on va acheter 1 MW sur une année sur un trimestre sur euh des grosses durées comme ça et ensuite donc ça c’est sur un marché qui est boursier euh et ensuite quand on arrive vraiment la veille de la livraison réelle de l’électricité là on passe sur un marché d’enchère qu’on

    Appelle le marché spot et là on va pouvoir vraiment acheter heure par heure en fonction des prévisions de consommation et de production d’électricité qu’on connaît à ce momentl on va pouvoir vraiment ajuster plus finement euh les on va dire les enfin ce qu’on ce qu’on aimerait acheter ou

    Vendre sur le marché donc pour pour notre production pour notre consommation et si on se trompe sur ce marché là on peut toujours se rattraper ensuite sur le marché infra journalier donc le jour même de la livraison il y a un autre marché qui celui-ci est boursier qui qui permet encore d’acheter ventere

    Deélectricité jusqu’à 15 minutes avant la livraison et puis si encore on s’est trompé si vraiment encore il y a des écarts après il y a un marché d’ajustement mais ça je vais pas trop en parler là le challenge en fait il va en gros il consiste à essayer d’arbitrer

    Ess c’est de savoir s’il vaut mieux acheter de l’électricité ou vendre de l’électricité euh sur le marché spot donc est-ce qu’il vaut mieux placer des enchères la veille ou est-ce qu’il vaut mieux qu’on se qu’on qu’on traite ça sur le marché infrajournalier donc en gros c’est estce que savoir est-ce que ça va

    Être plus cher ou moins cher en infra journalier par rapport au marché spot euh et en fait cet écart de prix il s’explique surtout en fait par l’évolution des prévisions en fait plus 11 raapoche de la date réelle enfin du du moment de livraison concrée de l’électricité plus on connaît

    Précisément ce que les gens vont consommer et ce que les centrales vont pouvoir produire et c’est cette évolution des prévisions en fait qui va vraiment faire varier les prix d’un marché à l’autre euh et et ces écarts en fait entre la veille et le jour même ils peuvent vraiment

    Être super significatif là je vous ai mis des écarts en haut de consommation pour le 2 janvier donc il y a quelques jours jour on était donc le réseau il prévoyait une consommation qui était de plus faible de 4 GW donc 4 GW c’est l’équivalent de quatre réacteurs

    Nucléaires euh donc c’est vraiment des écarts qui peuvent être énormes et générer des écarts de prix assez significatifs et pareil côté côté production c’est surtout en fait niveau centrale nucléaire à moins qu’il y a une centrale un réacteur qui tombe en pan en général il y a pas des écarts très

    Significatifs sur ce plan par contre c’est les ressources d’énergie Renou l’éolien et le solaire qui par définition ne sont pas pilotables on peut pas les démarrer et arrêter ces centrales comme on le souhaite en fait c’estf du fait qu’elles sont non pilotables on peut vraiment avoir des différences entre la veille et

    Le jour même qui sont très significatives et du coup ça nous fait des prix qui ne sont pas les mêmes et le challenge il consiste à essayer de prédire C écart de prix là pareil donc on voit en vert la courbe du marché spot et en orange on voit la courbe du marché

    Infrajournalier donc on voit sur certaines heures de la journée c’est moins cher que ce qui était prévu au spot et d’autre part ça peut être plus cher donc le challenge en fait il consiste vraiment à prédire cet écart et ce qui nous importe c’est surtout de prédire correctement le sens de cet

    Écart donc on peut modéliser ça comme comme une régression enfin prédire euh la valeur continue de l’écart positive ou négative mais au final dans la métrique ce qui va vraiment nous importer c’est est-ce que le sens positif ou négatif de cet écart euh était correctement prédit et ensuite cet

    Écart on va le pondérer par l’écart absolu réellement observé donc enfin la métrique ça va êre la weited accuracy euh voilà donc pour pour évaluer ce euh ce voilà cet écart là et je crois que c’est tout voilà est-ce que vous avez des questions sur ce sur ce

    Challenge non je vousi ouais je vous ai peut-être pas parlé trop des des données en entrée les données en entrée ça va être vraiment tout l’historique des prévisions de consommation et de production euh qui sont observées sur le réseau de l’électricité français euh donc c’est en fonction de

    L’évolution de ces de ces prévisions dont on a connaissance jusqu’à la fermeture du marché spot euh essayer de savoir comment ça évolue ensuite ouais donc en fait tu vas avoir euh tu vas avoir l’historique enfin en puisque tu as la variable C tu as l’historique en fait des écarts observés

    Sur le passé donc ça tu peux t’en t’en servir dans en entrée de ton modèle euh et sinon les autres variables expatives supplémentaires on qui sont qui sont donné ça va être d’une part la consommation à l’échelle nationale prévue par RTE qui est le réseau de transport de l’électricité euh et

    D’autre part en face la production et là ça va être divisé par type de centrale doncir les prévisions de production nucléaire et en face les prévisions de production solaire éolienne et je crois qu’on détaille aussi pour les centrales à gaz et charbon et tout est à l’échelle nationale ouais donc

    En non non tu tu connais la date en question donc si tu veux tu peux aller chercher quelques données externes euh pour pour les matcher pour enrichir ton dataset ou ça c’est c’est ça serait bienvenue évite d’aller chercher directement les réponses si tu payes tu peux les trouver mais c’est pas le c’est

    Pas l’enjeu du challenge voilà d’autres questions non et ben voilà ben j’espère que vous arriverez à faire mieux que moi parce que moi j’ai eu un peu de mal sur ce sujet euh et j’ai hâte de voir vos vos résultats et je passe la main je

    Suppose radium ou non je passe la main à à Marine merci euh du coup maintenant ça va être la présentation de SNCF donc c’est Rémy Coulot et Matthéo Guimar qui vont présenter le challenge donc après la l’anticipation d’affluence au sein des trains l’année dernière ça sera au sein des gare cette année

    Exactement bonjour merci beaucoup à toutes et à tous d’être ici présente merci à Stéphane mala aussi de nous permettre de présenter ce challenge au sein de son cours et merci à l’équipe de l’ilb de nous permettre de d’avoir accès à leur plateforme donc l’idée aujourd’hui c’est de présenter

    Notre sujet du moment qui est de pouvoir anticiper à moyen long terme euh c’est-à-dire à 6 mois dans ce cas-là mais idéalement ça serait même à 5 ans ou à 10 ans le volume de voyageurs qu’ va y avoir dans nos gares avant ça je vais juste vous faire

    Un rappel sur Transilien Transilien on est l’opérateur de train de banlieu d’Île-de-France on exploite un réseau qu’on appelle mass transit on est le deuxième réseau mass transit dans le monde on transporte 3 million de voyageurs par jour dans plus de 6000 trains on a environ 18000 18 lignes dont

    C lignes de R et trois lignes de tramtraain et ce qui est important à avoir en tête c’est qu’on a 408 gares donc on a 408 points d’entrée dans notre réseau donc 408 moyens ou 408 séries temporelles en fait qui nous permettre de mieux comprendre comment les voyageurs utilisent les

    Transports en commun en Île-de-France pourquoi on parle de mass transit parce qu’on parle de d’une zone très dense on est sur 2 % de la surface de de la France terrest de la France on est sur 10 % du réseau national et on transporte 70 % des voyageurs de la SNCF

    Dans 40 % des trains en gros donc on est un gros bébé au sein de la SNCF le point pourquoi pour nous c’est important de connaître les validations futures c’est-à-dire le nombre de fois où vous allez passer votre passe Navigo où vous allez mettre un titre magnétique c’est parce que pour île- de-fance

    Mobilité ça représente une petite partie de du coût réel île- de-fance mobilité c’est notre autorité organisatrice c’est celle qui nous paye pour vous faire transporter pour vous faire voyager au sein de l’Île-de-France en fait ça représente 1/3 du coût réel donc quand vous prenez les transports en commun

    Vous payez un/3 du prix ça c’est un point important et le reste est payé par les entreprises ou par d’autres taxes par contre ce qui est important pour nous c’est queaujourd’hui les volumes de validation ça rentre peu dans notre arbitrage financier c’est-à-dire que que il y ait 1200 personnes qui valident à

    Savini sur Orge ou qui en a 10000 ça change rien on a une énorme part forfaitaire c’est en gros on on a un forfait qui qui est payé par î-defance mobilité demain le vous savez que il y a une ouverture à la concurrence des réseaux de transport en France et notamment

    Toutes nos lignes vont être ouvertes à la concurrence donc un nouvel opérateur peut rentrer et dire bah c’est moi qui exploite le RRB par exemple ça ça veut dire que pour île-de-fance mobilité c’est l’occasion de mettre plus de poids sur la qualité de service et sur le volume de validation donc de d’essayer

    D’inciter l’opérateur à faire amener à amener des gens dans dans sa gare et donc nous notre intérêt c’est déjà de mieux pouvoir anticiper à 5 10 ans quand on répond à un appel d’offre le volume de validation parce que ça va impacter grandement nos recettes ou beaucoup plus

    Que aujourd’hui ça ne l’impacte voilà donc ça c’était pour vous donner le contexte et je vais laisser Matthéo vous présenter un peu plus le jeu de données alors bonjour à tous Alors voilà bah comme vous pouvez le voir voilà en île-defance il y a de nombreux profils de gare c’est très varié déjà

    Spatialement voilà donc on a les grandes gares parisiennes qui qui con centre des des des milliers de voyageurs chaque jour alors que au contraire en banlieu euh on a des stations qui peuvent parfois enregistrer des euh quasiment zéro voyageurs par jour donc c’est des choses qu’il va falloir prendre en

    Compte voilà que vous voyez du coup là sur sur sur ce graphique voilà donc le poids rouge qui conna qui correspond à la défense qui est également un grand pôle et donc que au niveau voilà des gares euh le nur pe changer énormément donc à la fois spatialement mais

    Également dans le temps donc là vous avez le nombre de validation sur l’ensemble du réseau snzf Transilien euh bon sachant que dans le challenge faudra prédire par euh par station voilà donc pour voir un peu l’évolution temporelle euh donc entre 2015 2022 par jour et on voit les nombreuses

    Saisonalités de ce de ce jeu de données donc on VO les les grandes alors les très grandes variations c’est par rapport au à la forte différence entre le nombre de validation euh en en semaine par rapport au weekend on voit d’important creux qui correspond les grands pour les vacances d’été les plus

    Petits pour les vacances de de Noël et cetera et on voit également les chocs ponctuel comme en 2020 avec le covid où forcément le nombre de validation a fortement baissé on voit aussi en décembre 2019 une plus forte baisse liée aux grèves qui au fores grèv qui avait eu pendant cette

    Périodelà euh voilà donc autant de choses qu’il va falloir prendre en compte pour ce challenge sachant que voilà donc chaque année le nombre de validation augmente de 6 % environ et on voit cette tendance à la hausse sur euh sur ce graphique voilà et donc l’objectif sera d’anticiper l’affluence

    Future dans chaque gare du réseau Transilien euh donc vous avez un petit aperçu des données juste ici notre variable àprédire ce sera le nombre de validation par jour et par gare et donc dans les variables bon logiquement vous avez la date et la gare sachant que la

    Les noms de gare sont anonymisés comme vous pouvez le voir euh par une suite de trois lettres et chiffres euh voilà parce que les les données sont retrouvables partiellement en ligne librement donc on a préféré anonymiser les noms de station et vous avez également trois autres variable que vous

    Êtes libre d’utiliser donc jour férier quiindiique si le jour est férier ou pas les pareil pour les vacances c’est pareil pour le type je jour qui est aussi une indicatrice qui indique si c’est un jour de semaine ou un weekend alors vous êtes libre d’utiliser ces variables non vous êtes libre de les

    Compléter avec les variables qui vous viennent en tête donc voilà donc vous avez des données de série temporelles avec une forte corrélation spatiale et de beaucoup de saisonnalité euh à prendre en compte et pour conclure je vais laisser la parole à reméi merci beaucoup donc les vous avez

    8 ans de données sur l’ensemble du réseau SNCF Transilien vous vous avez une métrique qui est intéressante qui est le MAP dans le sens où ça va vous obliger à regarder les petites gares et pas seulement les grosses gares si on avait mis un MAE on aurait eu juste la

    Plus vous prédisiez bien la défense ou Paris host Paris monparnas meilleur serit vos performances nous là on a plutôt privilégié une métrique qui permet de de mettre à égal un peu près tout le monde le benchmark est très simple c’est juste un copier-collé on a essayé de faire mieux mais finalement ça

    Marchait pas beaucoup mieux donc on AOP l’année 2022 et on l’a mis sur 2023 euh donc normalement vous devriez pouvoir faire mieux j’espère le jeu de données est assez petit il fait un peu moins un peu plus de 1 million de lignes euh et il fait moins de 25 m oct donc il

    Est vous pouvez travailler facilement sur vos vos ordinateurs personnels vous avez 6 mois de données à prédire comme je l’ai dit et attention les données sont disponibles en ligne ou partiellement donc n’essayez pas de d’aller les chercher c’est pas ce qu’on cherche on sait où ellees se trouve

    D’ailleurs c’est pour ça qu’on a fait ce challenge le but c’est de vous que vous proposiez des bons modèles donc à vos claviers pour améliorer le le quotidien de millions de voyageurs et si vous avez des questions nésitez pas à m’envoyer un mail à remi.cou@ snf.fr merci pour votre attention et

    N’hésitez pas si vous avez des questions pas de question c’est des séries temporelles c’est facile [Applaudissements] merci beaucoup à tous les deux on va passer maintenant je vais passer la parole à Corentin dans pour le challenge proposé par radium merci Enzo merci à Stéphane mal à nous accueillir ici pour ce challenge

    Donc voilà je suis Corentin dans 7 je suis un chercheur chez radium depuis environ en 6 mois donc on est une petite start-up qui a été fondée il y a 2 ans et on B sur la radiologie et donc comment appliquer le Deep learning et pour l’imagerie médicale donc nous on essaie de

    Construire un modèle de fondation pour la radiologie donc l’idée c’est ça va être de d’entraîner un modèle sur une quantité énorme de de données qui vont être très varié donc ça peut être plusieurs par exemple types de machines plusieurs types de modalités des IRM des scanners euh des patients

    Malades des patients sains et donc de d’agréger toutes ces informations dans un dans un seul et même modèle qui va pouvoir ensuite être adapté assez facilement on l’espère assez efficacement à énormément de tâches qu’ qu’on veut pour lequel les radiologues ont besoin d’aide donc ça peut être de

    La détection de la segmentation de la classification de pathologies par exemple un exemple ça peut être ici de d’identifier toutes les les sousstructures d’un organe donc ici le cœur donc il a il y a il y a on voit des des centaines de de sousstructures qui sont qui sont nommées c’est c’est très

    Dur de de de déjà de retenir tout ça pour un radiologue et donc si on peut l’aider à qu quand il veut écrire un rapport à identifier spécifiquement le nom d’une sous-structure ça fait gagner énormément de temps au médecins et donc c’est très bénéfique pour eux eu et donc le challenge qu’on

    Propose nous c’est de la segmentation donc voilà vous connaissez la segmentation on a des images en entrée et il faut à chaque pixel un label qui normalement correspond à la classe de l’objet donc on peut faire pareil en imagerie médicale on a ici une slice d’un d’un

    Scanner des poumons et donc on voit en haut chaque chaque organe va être associer à une classe donc par contre ce challenge est un peu particulier ici c’est pas de la segmentation sémantique donc on va pas vous demander de prédire le label associé à chaque pixel on va

    Juste vous demander de prédire des structures donc c’està-dire de regrouper en entre eux les pixels qui appartiennent à un même organe mais on va pas vous demander de quel à quelle classe il ils appartiennent donc on va pas vous demander est-ce que ça c’est le foie est-ce que ça c’est le poumon juste

    On veut obtenir des groupes de pixels qui appartiennent à un même organe et donc c’est un c’est un petit peu plus dur à l’entraînement parce que du coup on n’ pas accès à ce label là non plus à l’entraînement tous les toutes les classes vont être mélangées et on peut

    Pas appliquer des modèles de segmentation classiques donc pour vous mettre sur une piste ça ressemble un petitu pe par exemple à ce que fait segment anything donc c’est un modèle qui est sorti il y a à peu près un an qui fait de la segmentation sans classe

    Donc on va juste donner un prompte on va lui dire par exemple je veux segmenter cette zone là de l’image ou alors juste je veux segmenter tous les objets dans l’image et il va donner des voilà il va donner différents objets sans donner leur label donc ça peut être une piste à

    Explorer pour ce challenge de d’utiliser ça de le fine tuner sur les données qu’on propose et donc pour rentrer un peu plus en détail dans les données donc euh en entrée on a des images qui sont issues de scanner donc ça peut être n’importe quelle partie du corps il va y avoir des

    Scanners abdominaux euh de la tête voilà des thoraciques ça c’est c’est très varié et donc on vous donne une slice pour pour une entrée donc c’est une image en 2D h et donc on il y en a 2000 dans le training set 400 sont an notés et 1600

    Aucun label donc pour ça il va falloir faire utiliser des techniques donc de par exemple de self supervise learning de pseudo labelling euh c’est à vous de trouver la manière la plus efficace d’utiliser ces données et en test on a 500 images qui sont cachées donc pour sur lesquelles vous devez prédire des

    Labels de segmentation donc pour de par rapport au challenge de l’an dernier on a mis deux fois plus d’images donc pour ce qui permet à priori d’apprendre des modèles un peu plus plus forts et on a ajouté un type de de structure donc c’est des lésions euh avant on avait

    Juste les organes et maintenant on a ajouté donc des tumeurs donc c’est des structures qui sont un peu plus difficiles à segmenter elles sont plus petites déjà elles sont au sein d’un organe donc ça peut être un peu plus dur pour les algorithmes de segmentation et euh aussi leur le leur structure interne

    Et c’est un peu plus diffus il y a pas forcément de bordure très clair ça peut être juste des différences de texture ou ou de couleurs donc c’est voilà quelque chose qui est un petit peu plus difficile à segmenter donc on va voir qu’est-ce que vous pouvez proposer pour

    Améliorer la segmentation là-dessus et donc c’est un problème qui est très très important pour les radiologu de pouvoir segmenter des structur des des tumeurs pour calculer leur taille mesurer leur évolution dans le temps et cetera donc c’est un un vrai problème réel quoi et donc pour le les les labels donc

    C’est aussi des des des matrices de D de la même taille que les images euh chaque pixel est associé du coup à une une valeur un entier donc zéro pour le B et ensuite des des entiers de 1 à N et donc voilà comme je l’ai dit la particularité c’est que un entier

    Correspond pas forcément à un organe en particulier on peut avoir le 1 sur une image qui va être le foie et le 1 sur une autre image qui va être le pancréas ou un aut organe et voilà donc il y a des petites particularités pour charger le les

    Données comme c’est des CSV on a expliqué tout ça dans la documentation du challenge ensuite pour calculer les maîtriques donc pareil c’est pas une maîtrique classique de segmentation ici on a envie de mesurer la similarité entre deux set de cluster et du coup on uise mrique s’appelle r

    Index donc voilà elle prend entr de set de cluster elle va calculer le similarité donc si on a de de cluster comme sur l’image sont très très similaires on va avoir un rindex qui va être proche de 1 et on avoir 0 si on prédit des clusters complètement aléatoires

    Et donc les les valeurs le label qui est donné au cluster n’a aucun aucune importance tant que les deux sets de cluster sont identiques et donc au global donc ça c’est la métrique pour chaque image et au global on va faire la moyenne de cette métrique sur toutes les

    Images donc une baseline très simple qui basé juste sur faire un trold sur le la valeur des pixels va obtenir 0.16 qui prit du coup une seule classe donc voilà on espère que vous pourrez faire mieux que cette baseline à priori oui eu et donc voilà on a hâte de recevoiros

    Vos soumissions et n’hésitez pas si vous avez des [Applaudissements] questions je don aucune information sur le nombre euh euh on pe on peut dire dans l’ensemble du dataset il y a environ une centaine de classes par image c’est assez variable en fait ça peut être de quelquesunes à

    50 j’avais montré une image là au début où il y avait je pense une quarantaine de d’organes différents ça dépend en fait si on est au niveau abdominal il y a vraiment beaucoup d’organes différents si on est sur la tête il y en il va en avoir qu’un juste le cerveau donc c’est

    C’est très variable selon selon les slides mais donc ça peut être de 1 à une cinquantaine je dirais quelque chose comme ça ou euh je pense que se tromper sur le nombre de clusters c’est pas très grave en gros la métrique il me semble que à

    Peu près c’est la la la proportion de pair donc si on prend prend les paires qui sont qui appartiennent au même cluster on regarde si elles sont classées par le l’algorithme dans le même cluster effectivement ou non donc je pense pas que le nombre de clusters

    Joue enfin si on prédit beaucoup trop de clusters c’est pas très grave euh tant que on a quand même la majorité des paires qui sont bien groupées dans le même dans les mêmes clusters merci et du coup on va passer au dernier challenge c’est le challenge de CFM qui

    Sera présenté par Stephen hardardiman du coup CFM et là depuis la première année des challenges et vous permet de travailler sur leur donnée depuis 2015 du coup il me semble si je me trompe pas si ok euh oui je suis désolé mais j’ai j’ai un peu

    Prévu de parler en anglais et je suis plus à l’aise en anglais j’espère que ça je pas trop mais n’hésite pas de poser des questions en français après et je vais essayer de parler assez clairement so what’s the challenge so first what CFM CFM we an investment manager located not very far from

    [Musique] here pr ok so who CFM invest manager staff and we have very Collegiate atmosphere a lot of people from backgrounds different nationalities for example this is why I’m speaking in English um and we’re very much uh how do I say collaborative and we do like to

    Keep in touch with what’s going on in uh in science we like to publish we like to stay active in research and so we’re also very very interested in staying close to what’s happening current trends in in machine learning for example so because of that we’ve been active in the

    Data challenge now for for quite a number of years ok so um i’m going to explain the data set um so one of the problems that we uh have uh in our business is is the problem of execution right so being investment manager it’s not just uh taking positions and stocks and holding

    Them or or whatever it might be uh but we we we also do our own execution and a lot of Investment Managers don’t do this but we we focus on that one of our teams and uh what does that mean that means the Nitty Gritty of going to the

    Exchange and sending orders and trying to get the best price for the trade that you want to do and so what does um uh the exchange look like at the very finest detail the most uh fine grained level well most of the exchanges uh in which we trade um

    Assets let’s say uh are are managed through something called an orderbook and it basically looks like this uh and you can send an order to to say buy uh let’s say a stock at a particular price uh in this case you might send an order

    To to buy at uh the price of 99 ok what will happen is it goes into a ok and it goes to the back of the at the price of 99 and uh it’ll just stay in the book waiting to be executed unless somebody out there decides i want to sell at 99

    And then what happens it’ll be eventually executed you’ll have a trade there’ll be a buyer and a seller both at the price of 99 um but what happens is uh people want to buy at the lower price and they want to sell at the higher price so people like to place these

    Patient orders hoping that somebody else will send the Socalled market order instead so you have the concept of a limit order it goes in the book at a price goes into a and then you wait until eventually it’s executed so for example somebody executes some of the

    Orders that are in front of you in the queue at 99 the que depletes you are still at the back of the que somebody else decides they also want to buy at 99 uh there’s now more shares behind you in the que somebody then decides I will sell at

    99 you get the people in fr be traded and eventually you get traded and and this is how it works so you can be uh patient you can place your orders in the queue and you can wait until somebody decides to send a so-called market order and so what is

    A market order well conceptually uh the simplest way to say it is it’s a decision to trade against one of the limit orders that is already resting in the book by one of these patient actors and when you send a market order you will be executed immediately

    Low ex if you want to bu andest price if you want to sell uh and that’s that’s pretty much it so you will see in the data all the information about what when people an order in the book at what price they place an order and then you

    Will also see in the data when a trade occs and what PR and probably the simplest explanation I can give at a high level of the datas set so this is the Nitty Gritty this is the details I don’t know explosion of what the data set looks like and uh yeah

    It’s a very detailed slide but it’s it’s it’s it’s useful reference so you have um i don’t know about what 10 colums ok you have uh crucially the price at which every event takes place and to make the challenge more difficult i have removed the price

    Ok so normally on each stock there would be a different bid price and a different ask price so I forgot to say the highest bu the highest level on the left side 99 is the bid it’s the best bid and the lowest on the on the

    Right side is the ask the best ask so when you see here we’re talking the bid and the Ask we’re talking about the prices of the two if iforder you will get a worse price than 99 because you were not patient and if you want to sell immediately you get the

    The soced bid price of 99 and so to make the challenge more difficult i removed the price right otherwise uh you’ll see later that the problem is to work out which stock we’re talking about it’s a classification problem I will give you piece of dataet from this

    Orderbook and you’ll have to decide is it Microsoft is it Apple which St is it and if I give you the price then it becomes very easy because you will know that the price of apple is 22 or whatever it might be and ITL become very easy to identify that it’s

    Apple later based on the price so the price is removed so the first bid price in all of the data sets is always zero and then the Ask price is some s correct relative to the bid so this urate picture you would not see whole dollar increments between the prices of the

    Order book usually would just be aent right so you can imagine each of these levels on on us stocks is always about a cent for large liquid stocks so otheration you have is size si this is of shares that are present in the levels at the bid and the Ask two

    Best B and ask levels um and then you have the action that takes place ok so the action can either be you place an order or you will uh do I have a laser on this not sure uh you can either place an order or you can

    Cancel an order or you can even update order so that gives rise to yeah that gives rise to uh three different possibilities a d or u so if you place an order it’s an a if you delete an order it’s a d uh in other words cancel an order buuse you can

    Choose later to always cancel your order you can put it in the order book and then you can cancel it later and then you have a u and sometimes if if a trade occurs well that means that somebody has removed your order from the order book

    And caused a trade and that will also be represented as as a d but at the same time you will see a flag here to tell you that it wasn’t a cancellation it wasn’t you deciding that you no longer want your order in the book it’s because you were deleted because somebody else

    Sent a market order and then traded against you I hope that’s clear um and finally uh a little bit of complexity here but on us stock markets there are um often a number of different exchanges that are trading the same instruments the same stock and so the order book

    That we’re talking about is not a singular order book on a single exchange but it’s an aggregate order book it’s a sum over about five or six different order books on different exchanges and this gives rise to to one more uh fields which is the venue which

    Is telling you on which one of the venues from which we build the aggregated order book did that particular event take place and then you’ve got this order ID and this is this is what makes this data level three very very detailed information on the order book because

    Anytime an event occurs like you place an order or you del there’s a unique identifier that tells you that it was the same order that you would have seen earlier in in in the in the feed of data so for example here you see an order is

    Placed but then later it is deleted and you know it’s the same order because it has the same order ID zero uh and then uh the flux is just telling you it’s it’s just uh the change to the level so you will see that a flux is always

    Caused by deletion of volume and when you add an order to the book it creates an increase in volume example if you add order to the bid you would see auxably of maybe 100 and then in the next line you would see that the bid the bid size would have

    Increased and uh i think that mostly explains all the data just beware that it’s not perfect and there are some situations here that I’ve shown where in fact um in fact no I didn’t show it actually but it can be possible that uh an order might

    Appear to be deleted before it was even added to the order book because the events were picked up in the wrong order so there might be now and again a strange problem like this but I don’t guarantee that the data is 100% perfect in how we received it and collected it and recorded

    It finally uh events can occur anywhere in the orderbook so most people will place orders close to the best bid and the best ask because it makes it more likely that they’re going to buy or sell or be traded but it’s very possible that an order will be placed somewhere deep

    In the order book far away that will probably never be executed and that information is is still recorded so for example this order here was placed on the bid side of the book right the left side at a price that was 912 ticks 912 levels away from the best bid

    Um and I think that’s that’s everything I can say so in terms of what is x and what is y what is the the particular task at hand well for each x let’s say we have a of these events occurring in sequence it’s a small snapshot in time of what happened on one

    Of these exchanges and you’ll have 100 values so 100 of these rows and then that will correspond to that particular observation and then the y for this set of events will be the label of that stock that you have to identify uh which is which is what I’ve

    Shown here so for example you have I think in the training set maybe about0,000 of these moments from different order books on different stocks and for each one of these uh tables of data that occurred over 100 events you simply need to decide uh which stock it is and there are 24

    Possible stocks so it’s a classification task it’s uh something you would put a soft max on at the end it also means that the loss the target the score that you want to to maximize to to to win is going to be simply the classification accuracy that means the probability or

    The the frequency with which you guess correctly the stock in the out of sample test data set and I think that’s as much as I can remember to say uh so don’t hesitate if you have more questions or don’t hesitate to send an email to to me

    During the course of the challenge if you have some particular questions and yeah good [Applaudissements] luck yes the classes there is uh yeah you’ll see this in in the training set that there is an equal number of observations drawn per day per stock for all stocks and I didn’t say this

    But the training set Drai of time of months and then the test is Dra from another time in the future they completely separated in time yes so this is something I did consider to put in time because in the real exchange data you will know the time Delta the difference in time

    Between each event that takes place for example some there might be hfts right high frequency traders who are sending orders very very fast and the difference in time between these events could be microseconds or it could be a stock for which there’s not much things happening and you might see seconds or minutes

    Pass between events I didn’t show you this information so you only have the correct ordering of events up to like the example that I thought I had in the slide which was the case where there was definitely a mistake that an event was deleted before it was uh

    Placed and the reason for that is because these two messages probably arrived when we collected it very very close in time separated by microseconds and or maybe it was just an error in the processing but for some reason these events were were flipped over but generally speaking uh the temporal order

    Of things the time order is correct yes question oh yeah good question yeah no for us it’s it’s not that’s a very good question I mean yes it doesn’t necessarily help in terms of our end goal to be able to predict that a particular St [Musique]

    Is will it will provoke in terms of trying to to build that so the same model that you choose to classify a particular stock is going to be one that understands and that can interpret the dynamics of what’s happening in that exchange and uh you know there there’s

    Plenty of uh scope for transfer learning if you can build a model that can very well classify stock you can likely build a model that can very well detect what is happening inside that piece of data is there a particular agent at play who’s making a trade that you can detect

    And so whatever model I can imagine that a good participant can can use to classify a stock is likely one that can be repurposed to do something particular you know potentially more interesting uh so the BET is on let’s say universality and transfer learning euh je voudrais peut-être juste terminer

    En remerciant CFM parce que c’est CFM qui nous soutient depuis 7 ans aussi pour beaucoup d’éléments et donc je vous retrouve la semaine prochaine pour la deuxème séance et à nouveau merci à Enzo et [Applaudissements] Marine [Musique]

    Leave A Reply