Version hypertexte: http://contraintes.inria.fr/cpbio
Année 2002
![]() ![]() ![]() ![]() ![]() |
La biologie s'est clairement engagée ces dernières
années dans un travail d'élucidation des processus biologiques
de haut niveau en termes de leurs bases biochimiques à l'échelle
moléculaire. Il n'est probablement pas nécessaire de s'attarder
ici sur les applications concrètes et les enjeux de ces recherches
(accélération du cycle de développement des médicaments,
nouvelles méthodes de diagnostic, thérapies géniques,
etc). Avec la fin des années 90, le front de la recherche en bioinformatique
a évolué; passant de l'analyse de la séquence génomique
à l'analyse de données diverses produites en masse par les
technologies dites "post-génomiques" (expression des ARN et des
protéines, SNP et haplotypes, interactions protéine-protéine,
structures 3D, etc.). Cet effort de "désassemblage" par identification
et mesure de certaines caractéristiques des constituants élémentaires
(gènes et protéines) commence à pouvoir servir de
base à l'effort systématique inverse : la reconstitution
des mécanismes biologiques au sein desquels ces constituants exhibent
une fonction.
La complexité des systèmes en jeu met tout le monde d'accord sur la nécessité d'un gros travail parallèle autour de la représentation symbolique des processus et des données biologiques. C'est tout particulièrement vrai de la biologie des réseaux (réseaux métaboliques, signalisation extra- et intra-cellulaire, réseaux de régulation génétique) qui nous intéresse dans ce projet. Pour donner un ordre d'idée, on estime que 2.500 des 10.000 sortes de protéines présentes dans une cellule seraient dévolues à des tâches de transfert d'information. La communauté scientifique est encore loin de disposer de toutes les clés de ce fonctionnement, et le langage dans lequel on pourrait dresser les plans de cette machinerie cellulaire reste à définir.
De nombreux travaux s'attachent à modéliser et analyser des processus biologiques. Ces études se structurent par différents formalismes de modélisation (Bower et Bolouri 2001, de Jong 2000). Parmi cette diversité d'approches l'action proposée ici a pour thème central les algèbres de processus. En 98, R. Hofestädt (Bonn) et S. Thelen (Magdebourg) ont utilisé des réseaux de Petri modifiés (qui peuvent être vus comme un sous-calcul du Join-calcul de Fournet et Gonthier) dans la représentation de réseaux métaboliques. En 99, A. Regev et E. Shapiro (Weizmann Institute) ont ébauché une formalisation surprenante d'une voie de signalisation cellulaire (la cascade RTK/MAPK) dans le Pi-calcul de Milner, et ont montré comment décrire le "lego" moléculaire qui implémente ces tâches de communication d'une manière relativement lisible pour le biologiste. Il en ressort qu'un pi-calcul appliqué pourrait se révéler un excellent outil de description des dynamiques mésoscopiques en biologie.
Dans le cahier des charges d'un langage de modélisation biologique, un point d'importance, et probablement le moins bien perçu par un public non-informaticien, est qu'il permette une approche compositionnelle ou modulaire : au fur et à mesure que les descriptions s'accumulent, et elles s'accumulent très vite, le modèle doit être capable d'intégrer les nouvelles données. L'une des conséquences est que le modèle doit rester ouvert et doit probablement permettre de descendre jusqu'à un niveau de description assez fin ( par exemple moléculaire). Les calculs de processus semblent particulièrement bien adaptés à cette tâche (d'ailleurs les travaux de G. Berry et G. Boudol sur la "machine chimique abstraite", qui sert aujourd'hui de langage intermédiaire pour les calculs de processus, invoquaient déjà explicitement la métaphore chimique due à Banâtre et Le Métayer).
Plus récemment, est apparue l'utilisation en biologie des réseaux
de Petri hybrides (travaux de Matsuno et al.) et des systèmes hybrides
(travaux de Alur et al., et de Ghosh et Tomlin). A. Bockmayr et A. Courtois
ont reconstruit des modèles, à l'aide de langages concurrents
avec contraintes hybrides, qui mêlent interactions discrètes
et dynamiques globales gérées par des systèmes d'équations
différentielles à temps continu. Le tout donne un exposé
tout à la fois lisible et exécutable du modèle de
départ. L'impression qui ressort de ces derniers modèles
est que les langages de contraintes à temps continu donnent un cadre
très interessant et algorithmiquement crédible pour représenter
des systèmes dynamiques multi-échelles.
![]() Le cahier des charges d'un langage de modélisation de processus biomoléculaires -- et donc les problèmes de représentation formelle, qui en constituent les points délicats -- dépend autant de l'utilisation que l'on envisage pour les modèles que des types de processus qui seront modélisés. Parmi les grandes catégories d'applications des représentations informatiques de réseaux biologiques, on peut citer : stockage dans des bases de données avec navigation plus ou moins complexe, la visualisation, la simulation de processus, l'analyse de la dynamique, et la reconstruction de réseaux à partir de données expérimentales hétérogènes. En ce qui concerne les problèmes de représentations que nous nous attacherons à définir plus précisément et relativement au contexte applicatif, on peut notamment citer la modularité, la compositionnalité, l'exécutabilité de modèles conçus dans une optique descriptive, la représentation d'information incomplète ou fausse, la représentation multi-échelle, la représentation conjointe d'informations discrètes et continues, la représentation du contexte moléculaire. La base d'exemples sera construite afin de permettre à la fois le travail sur des réponses formelles aux problèmes de représentation retenus, et la validation de l'intérêt de ces solutions par des biologistes et bioinformaticiens. Par exemple, montrer la faisabilité, dans un calcul biologique, du développement modulaire, révisable et multi-échelle d'un modèle biologique, nécessitera de choisir des exemples suffisamment complexes pour que ce développement incrémental prenne son sens, et dont le détail biochimique soit consensuel et bien documenté. Dans cet esprit , le processus de cycle cellulaire est un processus complexe soumis à de multiples régulations externes (signalisation) et internes (transcription) et impliqué dans le couplage de nombreuses voies physiologiques (voir Tapon et al. 2001). Les mécanismes moléculaires du cycle cellulaire sont largement argumentés dans la littérature, c'est la raison pour laquelle nous avons engagé le recensement des entités moléculaires impliquées (cyclines, Cyclin-dependant kinases, facteurs de transcription, phoshatases, etc.), des évènements (activation, dégradation, etc.), de leur organisation (localisation spatiale, temporelle, topologie), etc. Ces données sont actuellement exploitées pour une modélisation en Hybrid CC dans le cadre d'une collaboration entre le Loria (MODBIO) et l'Institut Pasteur (BSMI). Nous envisageons aussi de nous intéresser à la cascade
RTK/MAPK
qui se trouve au centre du traitement intra-cellulaire de l'information
liée au cycle cellulaire, et qui est le paradigme de la voie de
signalisation cellulaire. On y trouve un échantillon assez complet
des évènements élémentaires (ou du jeu d'instructions
si on file la métaphore informatique) typiques des voies de signalisation
: activation par phosphorylation, formations de complexes, utilisation
de protéine échafaudage, facteurs de transcription, etc.
La cascade tout aussi importante associée aux "death factors" et
qui pose de manière aiguë le problème de la sélectivité
des voies de signalisation (cf. The
Death Factors: a Combinatorial Analysis) pourrait fournir un autre
exemple.
Pour chacun de ces calculs, le travail consistera à sélectionner, à définir ou à construire à partir des primitives préexistantes, un ensemble de primitives adaptées à la représentation des processus de la base d'exemples. Le système Regev-Shapiro constituera le point de départ de cet effort. Toutefois, même dans le cas du pi-calcul, il sera nécessaire de reprendre à la base le problème de modélisation et de définir les "briques" biologiques adapté à la représentation des réseaux à l'échelle moléculaire. L'intérêt d'une telle remise à plat est de dépasser l'une des principales limitations du système Regev-Shapiro, à savoir que la représentation obtenue dans les exemples est rendue illisible 1) par de nombreux "hacks" dont le seul bénéfice est de se plier à la syntaxe du pi-calcul ordinaire, 2) par le fait que la structure modulaire du système n'est pas (ou très peu) manifeste dans le modèle final. Les modèles obtenus seront évalués suivants des
critères définis par l'axe 1, permettant l'identification
motivée de pistes d'extension des calculs de processus retenus.
Il apparait d'ores et déjà que les calculs de processus existants devront être modifiés et probablement enrichis afin de satisfaire à certains critères essentiels parmi ceux qui seront définis par l'axe 1. En prenant par exemple la modélisation en pi-calcul comme point de départ, on peut notamment envisager l'enrichissement par un mécanisme de filtrage (à la manière du spi-calcul ou des langages CC) qui facilitera grandement la représentation des réactions d'identification entre molécules et d'autres mécanismes clés dans les voies de signalisation cellulaires, ainsi que l'enrichissement par une notion explicite de module. Il est possible qu'il soit également avantageux d'appauvrir le calcul en simplifiant la gestion des noms privés (utilisés pour représenter les relations physiques de liaison et notamment la co-présence de domaines réactifs sur une même molécule). C'est un des points sur lesquels les compétences particulières rassemblées dans ce projet lui confère une certaine avance. Dans un second temps, on peut envisager d'enrichir un tel bio-calcul afin de permettre l'incorporation aux modèles de nouvelles informations biologiquement pertinentes:
|
![]() Nous sélectionnerons des processus biologiques faisant l'objet d'un consensus sur les mécanismes de base, processus déjà modélisés avec suffisamment de précision et disposant de données expérimentales permettant de valider des instanciations fines du modèle.
|
En ce qui concerne les simulations logicielles, nous nous appuierons
sur les implantations existantes des calculs de processus et en développerons
de nouvelles au-dessus de langages de prototypage rapide.