Mon parcours académique

De l’école d’ingénieur à la thèse en Machine Learning, appliquée aux maladies neurodégénératives

Un rapport complexe aux mathématiques et à la recherche

À 20 ans, en entrant à l’École des Ponts, je m’étais juré d’arrêter les maths. Le manque d’applications concrètes me pesait. Et j’ai envisagé de bifurquer vers les écoles de commerce. Mais une diplômée m’en a découragé : « Apprends d’abord des compétences techniques. Tu auras le temps pour la partie business plus tard. »

J’ai donc donné une seconde chance aux mathématiques. J’ai étudié l’économie à l’Université Paris Dauphine, puis j’ai effectué un stage en Machine Learning à Argonne, un laboratoire de recherche américain. C’est là que le déclic s’est produit, me conduisant à faire un Master de Machine Learning de l’École Polytechnique.

À la fin du master, je souhaitais mettre à profit mes compétences en rejoignant une entreprise. Mais, en pleine mode du “Big Data”, le manque de compétences qui y régnaient m’en a découragé.

Pour cette raison, je me suis tourné vers la recherche et j’ai commencé un doctorat avec Stanley Durrleman et Stéphanie Allassonnière.

Modéliser la progression des maladies neurodégénératives

Mes travaux portaient sur la modélisation de l’évolution des maladies neurodégénératives comme Alzheimer, Parkinson ou Huntington. L’objectif était triple :

  • Reconstruire la progression « moyenne » sur de longs horizons temporels,
  • Caractériser les trajectoires individuelles par rapport à cette moyenne,
  • Prédire l’évolution individuelle jusqu’à ~5 ans à l’avance.

Tout cela à partir de données multimodales : évaluations cognitives, imagerie (IRM, TEP) et biomarqueurs sanguins. Les difficultés étaient multiples. Les données biomédicales réelles sont imprévisibles. La progression n’est pas linéaire, son rythme change. Les suivis sont irréguliers, manquants ou incomplets. Chaque patient ne fournit qu’une petite pièce du puzzle et la variabilité inter-individuelle est importante.

Nous avons donc construit un modèle unique capable de s’adapter aux différentes maladies et modalités, reposant sur (1) la géométrie riemannienne, (2) la modélisation probabiliste de l’hétérogénéité, et (3) l’inférence sous incertitude et données manquantes (chaînes de Markov / Monte Carlo, Expectation–Maximization).

L’essentiel de mes travaux académiques se trouve dans ma thèse et mes publications, notamment :

À son apogée, cette approche a permis un travail de prédiction à grande échelle, publié dans Nature Communications, démontrant que nos modèles pouvaient prévoir la progression d’Alzheimer jusqu’à cinq ans à l’avance.

Créer une recherche qui ne disparaît pas après la publication

Dès le début de la thèse, j’ai été frappé par le fait que chaque nouvel étudiant repartait quasiment de zéro.

Parallèlement à mes publications, j’ai donc décidé de créer Leaspy, une librairie Python avec une intention simple : donner aux futurs doctorants et ingénieurs une base qu’ils pourraient étendre avec de nouveaux modèles, de nouvelles cohortes, de nouvelles maladies et de nouvelles analyses.

C’est devenu le socle de nombreux travaux ultérieurs, incluant :

Ce même instinct de « durabilité » s’est manifesté ailleurs : article Medium sur Leaspy, enseignement, Digital-Brain.org, le site Disease Progression Modeling, et des collaborations avec des équipes académiques et pharmaceutiques pour analyser des données d’essais cliniques (quantification des effets des médicaments, stratification des populations).

C’est aussi ce qui m’a poussé à créer ma première entreprise.