ARC MOCA
MOdularité, Compositionalité et Abstraction
dans les réseaux géniques et protéiques

2006-2007
CONTRAINTES, INRIA Rocquencourt Sylvain Soliman (Coord.), François Fages
Laurence Calzone
Université de la Méditerranée, Marseille Claudine Chaouiya, Denis Thieffry,
Élisabeth Remy, Paul Ruet
IRI, Lille Ralf Blossey
PPS, CNRS Vincent Danos, Fabien Tarissan
SYMBIOSE, INRIA Rennes Anne Siegel, Michel Le Borgne,
Ovidiu Radulescu

Réunion de lancement: les 23-24 janvier 2006, joint à la réunion de l'ACI VICANNE

Deuxième Réunion: le 19 mai 2006, après la réunion de l'ACI VICANNE.

Troisième Réunion: le 3 novembre 2006.

Quatrième Réunion: les 25-26 juin 2007.

Cinquième Réunion: les 22-23 novembre 2007.

Sujet Scientifique

Le développement de langages formels pour modéliser les systèmes biologiques a ouvert la voie à la conception de nouveaux outils de raisonnement automatique destinés au biologiste modélisateur. Dans ce cadre, l'étude des calculs de processus pour modéliser les processus cellulaires, tels qu'étudiés par exemple dans l'ARC CPBIO en 2002-2004, a rapidement conduit à considérer, d'une part, des variantes de ces calculs, ou d'autres formalismes de modélisation, intégrant des aspects quantitatifs, et d'autre part, des langages de formalisation des propriétés biologiques attendues du système, fondés notamment sur la logique temporelle et les techniques de model-checking. En s'appuyant sur ces langages formels, il devient possible d'utiliser, par exemple, des techniques d'apprentissage automatique pour inférer de nouvelles règles de réaction, estimer les valeurs des paramètres cinétiques, et corriger ou compléter des modèles semi-automatiquement.
L'objectif de notre proposition d'ARC 2006-2007 sur la modélisation des réseaux géniques et protéiques est d'aborder les questions de modularité, de compositionalité et d'abstraction des modèles biologiques. Ces questions se posent en effet naturellement dans une démarche de modélisation du vivant fondée sur les langages formels, mais sont encore de nature exploratoire, étant donnée la jeunesse de cette démarche.

Les questions de modularité concernent la structure des réseaux étudiés (structure inférée statistiquement à partir de données expérimentales et/ou choisie par le modélisateur) et plus généralement, les méthodes de structuration des grands réseaux d'interaction. Par exemple, la présence de boucles de rétroaction ou d'interférences complexes entre modules peut remettre en cause certaines décompositions modulaires.
La question de la compositionalité des modèles vise à développer des modèles "ouverts" réutilisables dans différents contextes. Cette question est prospective et dépasse l'état de l'art en Biologie des Systèmes. Néanmoins nous tâcherons de l'aborder sur quelques exemples dans cette ARC et de dégager les pistes permettant d'avancer dans cette direction.
Enfin, les questions d'abstraction portent sur la définition des différents niveaux de détails à prendre en compte ou ignorer en fonction des besoins d'analyse d'un système. Elles portent sur les relations formelles qui existent entre modèles quantitatifs et qualitatifs, ainsi que sur les mécanismes de simplification ou de raffinement de modèles (que l'on souhaiterait en partie automatiser) vis à vis d'une question que l'on se pose sur un système.

Les partenaires apportent chacun des compétences complémentaires sur :

L'objectif de cette ARC est de définir ensemble des méthodes d'analyse modulaire, d'abstraction, et de composition de modèles, prenant en compte les différents formalismes considérés par les partenaires. Ces méthodes seront appliquées à un système de référence commun : le réseau de régulation contrôlant le cycle cellulaire eucaryote, en particulier chez les mammifères.

Les problèmes abordés dans le cadre de ce projet d'ARC s'inscrivent dans le défi prioritaire ``modéliser le vivant''. Ils sont certes de nature exploratoire, mais il est cependant à noter que des besoins existent déjà pour certaines des méthodes que nous entendons développer. Par exemple dans le domaine des librairies de modèles biologiques en ligne (comme BioModels.net ou JWS), la tendance actuelle est la vérification, manuelle, des modèles avant leur distribution. Par ailleurs, une question qui émerge rapidement concerne la composition des modèles ainsi vérifiés pour obtenir un modèle plus complet, ou au contraire la décomposition de tels modèles en modules, afin d'en réutiliser une partie. Ce souci de réutilisabilité et de validation des modèles est au coeur des questions que nous soulevons et des évolutions récentes en Biologie des Systèmes. De plus, les liens entre les différents formalismes (abstractions) devront être explicités, ouvrant la voie à de possibles comparaisons et combinaisons de modèles.
Le but ultime de la composition de modèles est d'unifier des connaissances parcellaires sur le vivant et de répondre à des questions plus globales comme par exemple comment les différentes voies de signalisation, métaboliques, et de régulation génique se croisent pour remplir des fonctions cellulaires de base ou comment les mêmes voies sont perturbées dans les cellules malades.

Participants et rôle

Projet CONTRAINTES, INRIA, Rocquencourt

(Resp. Sylvain Soliman)

La machine abstraite biochimique BIOCHAM, développée dans le projet, est un environnement logiciel qui offre un langage simple de règles pour modéliser des interactions biomoléculaires, à trois niveaux d'abstraction, correspondant à trois sémantiques : booléenne, concentration et population. Il propose également un langage puissant fondé sur la logique temporelle pour formaliser les propriétés biologiques du système. Ces propriétés peuvent être vérifiées par model-checking ou utilisées comme des spécifications dans des procédures d'apprentissage automatique pour inférer des règles de réaction ou des valeurs de paramètres.
Cette problématique de modélisation soulève la question de la relation formelle entre les différents niveaux d'abstraction ainsi définis. En particulier, si des méthodes inspirées de l'algorithme de Gillespie (simulations stochastiques) permettent de passer du niveau des concentrations à celui des populations, le passage d'un niveau qualitatif, comme le niveau booléen, à un niveau quantitatif reste à effectuer.
D'autre part, la possibilité de formaliser les propriétés du système capturées par le modèle fournit une base à la validation de la composition ou du raffinement de modèles. Nous nous proposons d'explorer l'automatisation rendue possible par les spécifications formelles dans ce cadre.

Équipe

Collaborations extérieures

Logiciels

Publications

Enseignement

Cours de bioinformatique formelle du Master Parisien de Recherche en Informatique, avec Vincent Danos, PPS, et Vincent Schächter, Genoscope.

Université de la Méditerranée, Marseille

(Resp. Claudine Chaouiya)

Nos travaux porteront principalement sur le développement de méthodes discrètes pour la composition de modèles qualitatifs. Pour cela, nous souhaitons combiner deux approches : d'une part, la méthode logique développée spécifiquement pour la modélisation des réseaux géniques (cf. Larrinaga et al., 2005), d'autre part les réseaux de Petri. Nous avons déjà récemment défini, dans ce cadre, une traduction systématique des graphes de régulation logiques en réseaux de Petri (cf. Chaouiya et al., 2004), permettant ainsi de bénéficier des avantages des deux approches : l'approche logique s'avère très utile pour mettre au point la structure d'un réseau de régulation, ainsi que les règles définissant le comportement de chaque élément du réseau en fonction de l'état de ses régulateurs ; quant aux réseaux de Petri, ils fournissent des outils d'analyse et de simulation développés par une communauté active depuis quelques décennies, et constituent un excellent cadre formel pour développer des extensions quantitatives (réseaux de Petri hybrides et/ou stochastiques). Les réseaux de Petri donnent également accès à des méthodes de vérification automatique basées sur des logiques temporelles (model-checking).
Nous appliquerons systématiquement nos méthodes discrètes de modélisation, de composition, et de vérification au réseau moléculaire contrôlant le cycle cellulaire chez les mammifères. Le problème de la composition se pose déjà au niveau de l'articulation de différents modules de contrôle (check points) du cycle cellulaire. En outre, nous nous intéresserons aux effets du couplage de ces modules à d'autres modules de régulation impliqués dans la différentiation cellulaire. Sur ce point, nous considérerons la lignée lymphocytaire T, très étudiée au niveau expérimental sur le site de Luminy (au TAGC et au CIML, partenaires du LGPD dans le cadre d'une ACI IMPbio).

Équipe

Collaborations extérieures

Des collaborations interdisciplinaires ont été établies au cours de ces dernières années entre équipes de différents laboratoires (IML, CPT, LGPD, CIML, TAGC et LIF - tous ces laboratoires impliquent l'Université de la Méditerranée et sont localisés sur le site de Luminy).
Nos travaux sont actuellement soutenus au travers d'un projet européen (STREP DIAMONDS 2005-2007), d'une ACI IMPbio (LumImDynNet, 2005-2007) et d'un financement ANR jeunes chercheurs et jeunes chercheuses (MAREBIO, 2005-2006).
Par ailleurs, il existe des échanges réguliers avec plusieurs projets de l'INRIA (COMORE, CONTRAINTES, HELIX, SYMBIOSE), en particulier lors des réunions de travail financées par l'ACI VICANNE. Nous avons également des contacts avec Jean-Claude Bermond du projet MASCOTTE de Sophia-Antipolis, pour les questions portant plus particulièrement sur l'analyse des graphes.

Logiciels

Publications

Projet IRI, Lille

(Resp. Ralf Blossey)

L'équipe ``Modélisation et simulation des nanosystèmes biologiques'' (MSNB) de l'Institut de Recherche Interdisciplinaire veut contribuer au projet à partir de ses connaissances de la modélisation des systèmes stochastiques basées sur la physique statistique. Nous sommes très ouverts à la combinaison des approches physiques avec les méthodes avancées de l'informatique. Le but final de notre travail est le développement de critères et méthodes qui permettent de bien définir et de choisir le niveau de modélisation et de simulation : microscopique (niveau moléculaire), mésoscopique (niveau de ``motifs'' de régulation) ou macroscopique (comportement cellulaire). Surtout, il sera important de faciliter le passage d'un niveau à un autre.

Nous appliquerons cette approche à la régulation de la transcription chez les eucaryotes, entre autres au cours du cycle cellulaire. Il est bien connu que la régulation transcriptionnelle chez les eucaryotes est contrôlée par la dynamique de la chromatine, via des complexes ADN-protéines dans le noyau de la cellule. Il existe déjà plusieurs modèles qualitatifs développés par les biologistes pour ces processus. Notre ambition est d'affiner ces modèles qualitatifs en modèles quantitatifs. Il faudra vraisemblablement recourir à plusieurs approches complémentaires de manière à intégrer les différents niveaux de régulation impliqués.

Équipe

Collaborations

Logiciels

Nous utilisons le logiciel SPIM développé par L. Cardelli et al. ; nous sommes très intéressés à comparer plusieurs logiciels pour le modèle de la régulation transcriptionnelle à développer.

Publications

R. Blossey, L. Cardelli, A. Phillips, A compositional approach to the stochastic dynamics of gene networks, TCSB, soumis (2005)

PPS, CNRS, Paris

(Resp. Vincent Danos)

Nous reprendrons dans le cadre de ce projet une famille de formalismes destinés à représenter les réseaux d'interaction biologiques au niveau moléculaire offrant plusieurs niveaux de résolution statique sur la structure interne des molécules et autres composants biologiques de bas niveau (pas de structure, sites d'activation, domaines protéiques et promoteurs), plusieurs niveaux de résolution dynamique (booléen, différentiel, stochastique) à des fins de simulation, et plusieurs niveaux correspondants de résolution logique dans l'exploration du modèle à l'aide de logiques temporelles appropriées.
L'objectif est d'établir soigneusement les relations d'abstractions/simulations entre ces différents niveaux de détail statique, dynamique et logique afin de donner au modélisateur la possibilité:

Équipe

Collaborations

Publications

Projet SYMBIOSE, INRIA, Rennes

(Resp. Anne Siegel)

Le projet Symbiose de l'IRISA, Rennes, rassemble différents chercheurs autour de thèmes reliés à la bioinformatique (analyse linguistique des séquences, parallélisme, analyses de modèles d'interaction). Michel Le Borgne, Ovidiu Radulescu et Anne Siegel travaillent sur la thématique modélisation des réseaux biologiques, soutenus par l'ACI IMPbio MathResoGen. Nous interprétons des données qualitatives de type transcriptome comme des informations sur le déplacement entre des états d'équilibres d'un modèle différentiel.
Le point de vue adopté est statique, s'appliquant à des modèles de réseaux abstraits sous forme de graphes d'interaction. Une telle abstraction s'avère prometteuse pour travailler sur des modèles intégrant à la fois des aspects métaboliques et génétiques. Le fait qu'on se concentre sur des états d'équilibre plutôt que sur la dynamique du système permet de travailler sur des modèles d'assez grande taille (quelques centaines de produits) et éventuellement assez imprécis. Pour interpréter les déplacements d'équilibre, nous devons résoudre des équations qualitatives ; nous utilisons un outil de model-checking Sigali, basé sur la résolution d'équations polynomiales dans les corps finis. Nous cherchons à utiliser cet outil pour inférer des paramètres dans les modèles linéaires par morceaux.
Nous souhaitons généraliser ces approches basées sur les graphes d'interaction pour identifier des modules, principalement en recherchant des sous-graphes qui assurent l'unicité des états d'équilibres sous certaines conditions. Nous souhaitons aussi vérifier que nos méthodes s'appliquent dans un cadre non différentiel (booléen multivalué en particulier).

Équipe

Collaborations

Logiciels

Nous développons un logiciel de visualisation et de navigation de systèmes biologiques (GARMeN) et d'interprétation de ces systèmes en termes de graphes d'interaction.

Publications


Last modified : Friday April 21, 2006