Mon parcours académique

De l’école d’ingénieur à un doctorat en mathématiques appliquées, pour prédire l’évolution des maladies neurodégénératives.

Une relation étrange avec les maths et la recherche

À 20 ans, en entrant à l’École des Ponts, je me suis juré d’arrêter les maths, par manque d’applications concrètes. J’ai envisagé un double diplôme avec une échole de commecer. Mais une diplômée m’en a découragé très clairement : « Apprends d’abord des compétences techniques. Tu auras le temps pour la partie business plus tard. »

Alors j’ai redonné une chance aux maths. J’ai étudié l’économie à l’Université Paris Dauphine, puis j’ai fait un stage en Machine Learning à Argonne, un laboratoire national américain. C’est là que j’ai enfin trouvé un intérêt aux maths. Intérêt poursuivi en master de Machine Learning à l’École Polytechnique.

À la fin du master, je souhaitais mettre à profit mes compétences en rejoignant une entreprise. Mais, en pleine mode du “Big Data”, le manque de compétences qui y régnaient m’en a découragé.

Pour cette raison, j’ai démarré une thèse avec Stanley Durrleman et Stéphanie Allassonnière.

Mes recherches scientifiques : modéliser l’évolution des maladies neurodégénératives

Mes recherches scientifiques portaient sur la modélisation et la prédiction de la progression des maladies neurodégénératives (Alzheimer, Parkinson, Huntington). L’objectif était triple :

  • Reconstruire la progression “moyenne” sur de longues échelles de temps
  • Caractériser les trajectoires individuelles par rapport à cette moyenne
  • Prédire l’évolution individuelle jusqu’à ~5 ans à l’avance

Le tout avec des données multimodales : tests cognitifs, imagerie (IRM, TEP), et biomarqueurs sanguins. Les difficultés à les traiter étaient multiples. Leur progression n’est pas linéaire. Les suivis sont irréguliers, manquants ou incomplets. Chaque personne n’apporte qu’une petite pièce du puzzle, et la variabilité interindividuelle est importante.

Nous avons donc développé un modèle capable de s’adapter à différentes maladies et données, qui tire profit de (1) la géométrie riemannienne, (2) la modélisation probabiliste de l’hétérogénéité, et (3) l’inférence sous incertitude et données manquantes (Monte Carlo / chaînes de Markov, Expectation–Maximization).

L’essentiel de mon travail académique est dans ma thèse et des articles, notamment :

Faire une recherche qui reste

Dès le début de la thèse, j’ai été frappé par le fait que chaque nouvel étudiant repartait de zéro (concepts, code, logiciels). Chacun apprennait beaucoup, mais collectivement, on perdait des années.

Alors, en parallèle de mes publications, j’ai développé Leaspy, un package Python avec une intention simple : donner aux futurs doctorants et ingénieurs une base qu’ils puissent étendre avec de nouveaux modèles, de nouvelles cohortes, de nouvelles maladies, de nouvelles analyses.

Ce package a été largement réutilisé dans le laboratoire dans le cadre de :

Nos travaux les plus poussés et validés ont fait l’objet d’une publication dans Nature Communications, montrant que nos modèles pouvaient prédire l’évolution d’Alzheimer jusqu’à cinq ans à l’avance.

Cette intention de “consolider” la recherche a aussi été à l’origine d’un post Medium à propos de Leaspy, de cours, de Digital-Brain.org, du site Disease Progression Modeling et de collaborations avec des équipes académiques et pharma pour analyser des données d’essais cliniques (quantifier des effets de traitement, stratifier des populations).

C’est aussi ce qui m’a poussé vers la création de ma première entreprise.