Le Défi Virtual Cell utilise l'IA pour prédire les effets de l'inactivation génique, révolutionnant les tests biologiques.
Imagine un laboratoire où l’on pourrait tester des milliers de candidats médicaments sans jamais toucher une boîte de Pétri. Le Défi Virtual Cell de l’Arc Institute vise exactement cela : utiliser un modèle, probablement un réseau de neurones, pour simuler les effets d’une altération génétique sur des cellules. Un pas énorme pour la recherche scientifique, permettant de réduire considérablement le temps et les coûts des essais en laboratoire traditionnels.
Entraîner un modèle pour simuler une cellule
Au cœur de ce défi se trouve l’entraînement d’un modèle pour prédire l’effet de la silenciation d’un gène via CRISPR. La tâche, qualifiée de ‘context generalization’, requiert une compréhension fine des processus biologiques. Arc met à disposition un ensemble de données comprenant 300 000 profils de séquençage RNA de cellules uniques, une mine d’or pour tout ingénieur ML prêt à braver le jargon biologique.
Le Défi Virtual Cell utilise l’IA pour prédire comment l’inactivation génique impacte le transcriptome des cellules, réduisant ainsi la nécessité des tests biologiques classiques coûteux.
La complexité des données et leur utilisation
Le dataset fournit non seulement un nombre impressionnant de cellules, mais aussi des ‘transcriptomes’ pour chacune. Par exemple, pour le gène TMSB4X, souvent inactivé dans cette base de données, la différence de transcripts entre cellules témoins et perturbées est cruciale pour comprendre l’effet de la modification génétique. Pourtant, mesurer ces changements est illusoire, car lire le transcriptome détruit la cellule, un souci rappelant l’effet observateur en physique quantique.
Modélisation et base de référence avec STATE
Avant ce défi, Arc a introduit STATE, une solution utilisant deux modèles de transformateurs en guise de référence pour les participants. Le modèle de transition d’état (ST) et le modèle d’encodage d’état (SE) sont conçus pour simuler les transitions cellulaires et générer des embeddings cellulaires robustes face aux divers types cellulaires.
« STATE offre un point de départ solide pour modéliser les effets à travers divers types cellulaires. »
Arc Institute
Le modèle State Transition (ST) : simulateur cellulaire
ST s’appuie sur une architecture Transformer avec un noyau Llama, traitant les transcriptomes basal et les vecteurs perturbation codés. Il exploite des ensembles de contrôle et cible appariés pour discerner les véritables effets d’une perturbation. La formation du ST se fait via Maximum Mean Discrepancy, cherchant à minimiser les différences entre les distributions de probabilités observées et prévues.
Le Défi Virtual Cell ouvre de nouvelles perspectives pour la biotechnologie et l’IA. En intégrant des approches comme celles d’Arc avec STATE, les chercheurs peuvent potentiellement réduire les tests physiques coûteux. La modélisation fine des effets génétiques via l’IA est prometteuse, mais elle demande un croisement étroit de compétences entre technologie et biologie. Les ingénieurs audacieux qui se lanceront dans ce défi pourraient bien dessiner les contours futurs de la recherche biomédicale.