Calculs de Processus et Biologie des Réseaux Moléculaires

Action de Recherche Coopérative INRIA

Version hypertexte: http://contraintes.inria.fr/cpbio

Année 2002

BSMI, Institut Pasteur (contact: Magali Roux-Rouquié),

Contraintes, INRIA (contact: François Fages),

Genoscope (contact: Vincent Schächter, précédemment Hybrigenics),

ModBio, LORIA (contact: Alexander Bockmayr),

PPS, CNRS (contact: Vincent Danos).

New: post-doctoral position available in "Computational Biology : Pathways Models"

Sommaire


	Contexte du projet Objectifs scientifiques Méthodologie Organisation de l'action et rôle des partenaires Bibliographie Réunions Page interne

Contexte du projet

La biologie s'est clairement engagée ces dernières années dans un travail d'élucidation des processus biologiques de haut niveau en termes de leurs bases biochimiques à l'échelle moléculaire. Il n'est probablement pas nécessaire de s'attarder ici sur les applications concrètes et les enjeux de ces recherches (accélération du cycle de développement des médicaments, nouvelles méthodes de diagnostic, thérapies géniques, etc). Avec la fin des années 90, le front de la recherche en bioinformatique a évolué; passant de l'analyse de la séquence génomique à l'analyse de données diverses produites en masse par les technologies dites "post-génomiques" (expression des ARN et des protéines, SNP et haplotypes, interactions protéine-protéine, structures 3D, etc.). Cet effort de "désassemblage" par identification et mesure de certaines caractéristiques des constituants élémentaires (gènes et protéines) commence à pouvoir servir de base à l'effort systématique inverse : la reconstitution des mécanismes biologiques au sein desquels ces constituants exhibent une fonction.

La complexité des systèmes en jeu met tout le monde d'accord sur la nécessité d'un gros travail parallèle autour de la représentation symbolique des processus et des données biologiques. C'est tout particulièrement vrai de la biologie des réseaux (réseaux métaboliques, signalisation extra- et intra-cellulaire, réseaux de régulation génétique) qui nous intéresse dans ce projet. Pour donner un ordre d'idée, on estime que 2.500 des 10.000 sortes de protéines présentes dans une cellule seraient dévolues à des tâches de transfert d'information. La communauté scientifique est encore loin de disposer de toutes les clés de ce fonctionnement, et le langage dans lequel on pourrait dresser les plans de cette machinerie cellulaire reste à définir.

De nombreux travaux s'attachent à modéliser et analyser des processus biologiques. Ces études se structurent par différents formalismes de modélisation (Bower et Bolouri 2001, de Jong 2000). Parmi cette diversité d'approches l'action proposée ici a pour thème central les algèbres de processus. En 98, R. Hofestädt (Bonn) et S. Thelen (Magdebourg) ont utilisé des réseaux de Petri modifiés (qui peuvent être vus comme un sous-calcul du Join-calcul de Fournet et Gonthier) dans la représentation de réseaux métaboliques. En 99, A. Regev et E. Shapiro (Weizmann Institute) ont ébauché une formalisation surprenante d'une voie de signalisation cellulaire (la cascade RTK/MAPK) dans le Pi-calcul de Milner, et ont montré comment décrire le "lego" moléculaire qui implémente ces tâches de communication d'une manière relativement lisible pour le biologiste. Il en ressort qu'un pi-calcul appliqué pourrait se révéler un excellent outil de description des dynamiques mésoscopiques en biologie.

Dans le cahier des charges d'un langage de modélisation biologique, un point d'importance, et probablement le moins bien perçu par un public non-informaticien, est qu'il permette une approche compositionnelle ou modulaire : au fur et à mesure que les descriptions s'accumulent, et elles s'accumulent très vite, le modèle doit être capable d'intégrer les nouvelles données. L'une des conséquences est que le modèle doit rester ouvert et doit probablement permettre de descendre jusqu'à un niveau de description assez fin ( par exemple moléculaire). Les calculs de processus semblent particulièrement bien adaptés à cette tâche (d'ailleurs les travaux de G. Berry et G. Boudol sur la "machine chimique abstraite", qui sert aujourd'hui de langage intermédiaire pour les calculs de processus, invoquaient déjà explicitement la métaphore chimique due à Banâtre et Le Métayer).

Plus récemment, est apparue l'utilisation en biologie des réseaux de Petri hybrides (travaux de Matsuno et al.) et des systèmes hybrides (travaux de Alur et al., et de Ghosh et Tomlin). A. Bockmayr et A. Courtois ont reconstruit des modèles, à l'aide de langages concurrents avec contraintes hybrides, qui mêlent interactions discrètes et dynamiques globales gérées par des systèmes d'équations différentielles à temps continu. Le tout donne un exposé tout à la fois lisible et exécutable du modèle de départ. L'impression qui ressort de ces derniers modèles est que les langages de contraintes à temps continu donnent un cadre très interessant et algorithmiquement crédible pour représenter des systèmes dynamiques multi-échelles.

Objectifs Scientifiques

Nous nous proposons de poursuivre plus avant cette approche déclarative et compositionnelle d'un "langage du vivant". En travaillant sur des modèles biologiques déjà bien compris, nous chercherons

à identifier dans les familles de modèles concurrents issus de la programmation fonctionnelle (Pi, Join et leurs dérivés) et de la programmation logique (cc et ses extensions au temps continu, tcc, hcc), les éléments appropriés à la définition d'un langage de représentation modulaire et multi-échelle de processus biologiques.
à fournir une série d'exemples de processus biomoléculaires transcrits dans ces calculs
et à appliquer à ces exemples les outils informatiques de simulation, d'analyse ou d'interrogation disponibles.

En conséquence l'étude s'articule autour de trois axes:


	Axe 1: Définir une base d'exemples de processus biomoléculaires, ainsi qu'une taxinomie des problèmes ouverts de représentation formelle qui se posent dans la modélisation de ces processus. Le cahier des charges d'un langage de modélisation de processus biomoléculaires -- et donc les problèmes de représentation formelle, qui en constituent les points délicats -- dépend autant de l'utilisation que l'on envisage pour les modèles que des types de processus qui seront modélisés. Parmi les grandes catégories d'applications des représentations informatiques de réseaux biologiques, on peut citer : stockage dans des bases de données avec navigation plus ou moins complexe, la visualisation, la simulation de processus, l'analyse de la dynamique, et la reconstruction de réseaux à partir de données expérimentales hétérogènes. En ce qui concerne les problèmes de représentations que nous nous attacherons à définir plus précisément et relativement au contexte applicatif, on peut notamment citer la modularité, la compositionnalité, l'exécutabilité de modèles conçus dans une optique descriptive, la représentation d'information incomplète ou fausse, la représentation multi-échelle, la représentation conjointe d'informations discrètes et continues, la représentation du contexte moléculaire. La base d'exemples sera construite afin de permettre à la fois le travail sur des réponses formelles aux problèmes de représentation retenus, et la validation de l'intérêt de ces solutions par des biologistes et bioinformaticiens. Par exemple, montrer la faisabilité, dans un calcul biologique, du développement modulaire, révisable et multi-échelle d'un modèle biologique, nécessitera de choisir des exemples suffisamment complexes pour que ce développement incrémental prenne son sens, et dont le détail biochimique soit consensuel et bien documenté. Dans cet esprit , le processus de cycle cellulaire est un processus complexe soumis à de multiples régulations externes (signalisation) et internes (transcription) et impliqué dans le couplage de nombreuses voies physiologiques (voir Tapon et al. 2001). Les mécanismes moléculaires du cycle cellulaire sont largement argumentés dans la littérature, c'est la raison pour laquelle nous avons engagé le recensement des entités moléculaires impliquées (cyclines, Cyclin-dependant kinases, facteurs de transcription, phoshatases, etc.), des évènements (activation, dégradation, etc.), de leur organisation (localisation spatiale, temporelle, topologie), etc. Ces données sont actuellement exploitées pour une modélisation en Hybrid CC dans le cadre d'une collaboration entre le Loria (MODBIO) et l'Institut Pasteur (BSMI). Nous envisageons aussi de nous intéresser à la cascade RTK/MAPK qui se trouve au centre du traitement intra-cellulaire de l'information liée au cycle cellulaire, et qui est le paradigme de la voie de signalisation cellulaire. On y trouve un échantillon assez complet des évènements élémentaires (ou du jeu d'instructions si on file la métaphore informatique) typiques des voies de signalisation : activation par phosphorylation, formations de complexes, utilisation de protéine échafaudage, facteurs de transcription, etc. La cascade tout aussi importante associée aux "death factors" et qui pose de manière aiguë le problème de la sélectivité des voies de signalisation (cf. The Death Factors: a Combinatorial Analysis) pourrait fournir un autre exemple. Axe 2: Comparer différentes modélisations des mécanismes de la base d'exemples dans différents calculs de processus, à l'aide de critères correspondants aux points délicats du cahier des charges identifiés par l'axe 1, et de différents points de vue: élégance de l'expression du mécanisme, performance des simulations, pertinence des éventuelles notions d'équivalences de processus, outils d'analyse disponibles. Les calculs de processus considérés sont principalement le Pi-calcul, le Join-calcul, les Ambients, et les langages concurrents avec contraintes CC (Timed CC, Hybrid CC, Linear CC et langages CC probabilistes). Pour chacun de ces calculs, le travail consistera à sélectionner, à définir ou à construire à partir des primitives préexistantes, un ensemble de primitives adaptées à la représentation des processus de la base d'exemples. Le système Regev-Shapiro constituera le point de départ de cet effort. Toutefois, même dans le cas du pi-calcul, il sera nécessaire de reprendre à la base le problème de modélisation et de définir les "briques" biologiques adapté à la représentation des réseaux à l'échelle moléculaire. L'intérêt d'une telle remise à plat est de dépasser l'une des principales limitations du système Regev-Shapiro, à savoir que la représentation obtenue dans les exemples est rendue illisible 1) par de nombreux "hacks" dont le seul bénéfice est de se plier à la syntaxe du pi-calcul ordinaire, 2) par le fait que la structure modulaire du système n'est pas (ou très peu) manifeste dans le modèle final. Les modèles obtenus seront évalués suivants des critères définis par l'axe 1, permettant l'identification motivée de pistes d'extension des calculs de processus retenus. Axe 3: Proposer de nouveaux calculs de processus adaptés au domaine bio-moléculaire, et réaliser des implémentations prototypes. Il apparait d'ores et déjà que les calculs de processus existants devront être modifiés et probablement enrichis afin de satisfaire à certains critères essentiels parmi ceux qui seront définis par l'axe 1. En prenant par exemple la modélisation en pi-calcul comme point de départ, on peut notamment envisager l'enrichissement par un mécanisme de filtrage (à la manière du spi-calcul ou des langages CC) qui facilitera grandement la représentation des réactions d'identification entre molécules et d'autres mécanismes clés dans les voies de signalisation cellulaires, ainsi que l'enrichissement par une notion explicite de module. Il est possible qu'il soit également avantageux d'appauvrir le calcul en simplifiant la gestion des noms privés (utilisés pour représenter les relations physiques de liaison et notamment la co-présence de domaines réactifs sur une même molécule). C'est un des points sur lesquels les compétences particulières rassemblées dans ce projet lui confère une certaine avance. Dans un second temps, on peut envisager d'enrichir un tel bio-calcul afin de permettre l'incorporation aux modèles de nouvelles informations biologiquement pertinentes: variation des affinités domaines/domaines relatives à la protéine hôte; comportements dépendants des paramètres exogènes de l'environnement (température, concentrations, acidité, ...); comportements dépendants des lieux d'interactions (à l'aide des calculs de mobilité qui introduisent la notion de "locations": ambients, nomadic pict, pi-box, join avec locations, etc); données stochastiques. Une dynamique multi-échelle: Parallèlement, il nous faut comprendre, en prenant inspiration de ce qui se fait déjà dans les calculs de contraintes hybrides, comment réussir l'intégration de ce niveau moléculaire de modélisation avec une dynamique macroscopique continue (gérée par des équations différentielles). En première analyse, cette étape semble très importante pour la portée pratique de ce projet. Permettre le bouclage des deux niveaux de dynamiques enrichit considérablement le champ de modélisation et ouvre la possibilité de cacher des dynamiques trop complexes (soit qu'elles soient trop gourmandes en calcul, soit qu'on n'en connaisse rien d'utilisable au niveau moléculaire) dans des équations différentielles de haut niveau. Il est possible qu'il faille pour cela trouver une manière d'interfacer ces deux paradigmes (pi et CC) ce qui est un problème interessant en soi.

Méthodologie

Dans le cadre de cette action, la collaboration avec nos partenaires biologistes sera articulée sur un choix de modèles connus et largement argumentés ; le traitement de problèmes ouverts de modélisation n'étant pas envisagé à ce stade. La méthodologie sur laquelle nous nous appuierons pour cette étude repose sur trois grands principes :


	Travailler sur des processus biologiques abondamment décrits dans la littérature, ou bien connus de nos partenaires biologistes. Nous sélectionnerons des processus biologiques faisant l'objet d'un consensus sur les mécanismes de base, processus déjà modélisés avec suffisamment de précision et disposant de données expérimentales permettant de valider des instanciations fines du modèle. Lorsque cela est possible, reproduire par simulation les données expérimentales, ou bien déduire d'une analyse statique du modèle des propriétés du processus. Evaluer avec nos partenaires biologistes l'apport de nos résultats vis à vis des problèmes de représentation.

En ce qui concerne les simulations logicielles, nous nous appuierons sur les implantations existantes des calculs de processus et en développerons de nouvelles au-dessus de langages de prototypage rapide.

Organisation de l'action et rôle des partenaires

Tâche 1 (Hybrigenics, BSMI, ModBio) :

Définir une base d'exemples de réseaux biologiques et une taxinomie des questions de représentation.

Tâche 2 (ModBio, Contraintes, Hybrigenics, PPS) :

Formaliser les processus biomoléculaires dans différents calculs de processus.

Tâche 3 (Contraintes, ModBio, PPS) :

Réaliser des simulations logicielles an adaptant les implantations existantes des calculs de processus.

Tâche 4 (PPS, Contraintes, Hybrigenics, ModBio) :

Proposer de nouveaux calculs de processus.

Tâche 5 (BSMI, Hybrigenics, ModBio) :

Evaluer les modélisations formelles.

Réunions

12 février 2002 (PPS, 175 rue du Chevaleret ,Paris 13) Réunion de démarrage

5 avril 2002 (Institut Henri Poincaré, 11 rue Pierre et Maris Curie, Paris 5,) Deuxième réunion plénière

23 avril 2002 15h30 (Institut Pasteur, Paris 15, salle J.P. Aubert, bât. Biotechnologies) Groupe de travail "Cycle cellulaire "

14 mai 2002 15h30 (Chevaleret, salle 6A 92) Groupe de travail "Cycle cellulaire"

3 juin 2002 10h30 (Hybrigenics, 3 impasse Reille, Paris 14) Troisième réunion plénière

28 juin 2002 14h00-18h00 (Hybrigenics) prochaine réunion du groupe de travail cycle cellulaire.

5 septembre 2002 10h30 (PPS, Chevaleret, secteur 6A92): Quatrième réunion plénière

14 octobre 2002 11h00 (PPS, Chevaleret): réunion d'organisation en comité restreint

8 novembre 2002 11h00 (PPS, Chevaleret) :Cinquième réunion plénière.