CONTRAINTES, INRIA Rocquencourt | Sylvain Soliman (Coord.), François Fages Laurence Calzone |
Université de la Méditerranée, Marseille | Claudine Chaouiya, Denis Thieffry, Élisabeth Remy, Paul Ruet |
IRI, Lille | Ralf Blossey |
PPS, CNRS | Vincent Danos, Fabien Tarissan |
SYMBIOSE, INRIA Rennes | Anne Siegel, Michel Le Borgne, Ovidiu Radulescu |
Réunion de lancement: les 23-24 janvier 2006, joint à la réunion de l'ACI VICANNE
Deuxième Réunion: le 19 mai 2006, après la réunion de l'ACI VICANNE.
Troisième Réunion: le 3 novembre 2006.
Quatrième Réunion: les 25-26 juin 2007.
Cinquième Réunion: les 22-23 novembre 2007.
Le développement de langages formels pour modéliser les systèmes biologiques a
ouvert la voie à la conception de nouveaux outils de raisonnement automatique
destinés au biologiste modélisateur. Dans ce cadre, l'étude des calculs de
processus pour modéliser les processus cellulaires, tels qu'étudiés par
exemple dans l'ARC CPBIO en 2002-2004, a rapidement conduit à considérer,
d'une part, des variantes de ces calculs, ou d'autres formalismes de
modélisation, intégrant des aspects quantitatifs, et d'autre part, des
langages de formalisation des propriétés biologiques attendues du système,
fondés notamment sur la logique temporelle et les techniques de
model-checking. En s'appuyant sur ces langages formels, il devient possible
d'utiliser, par exemple, des techniques d'apprentissage automatique pour
inférer de nouvelles règles de réaction, estimer les valeurs des paramètres
cinétiques, et corriger ou compléter des modèles semi-automatiquement.
L'objectif de notre proposition d'ARC 2006-2007 sur la modélisation des
réseaux géniques et protéiques est d'aborder les questions
de modularité, de compositionalité et d'abstraction des modèles biologiques.
Ces questions se posent en effet naturellement dans une démarche de
modélisation du vivant fondée sur les langages formels, mais sont encore de
nature exploratoire, étant donnée la jeunesse de cette démarche.
Les questions de modularité concernent la structure des réseaux étudiés
(structure inférée statistiquement à partir de données expérimentales et/ou
choisie par le modélisateur) et plus généralement, les méthodes de
structuration des grands réseaux d'interaction. Par exemple, la présence de
boucles de rétroaction ou d'interférences complexes entre modules peut
remettre en cause certaines décompositions modulaires.
La question de la compositionalité des modèles vise à développer des
modèles "ouverts" réutilisables dans différents contextes. Cette question est
prospective et dépasse l'état de l'art en Biologie des Systèmes.
Néanmoins nous tâcherons de l'aborder sur quelques exemples dans cette ARC et
de dégager les pistes permettant d'avancer dans cette direction.
Enfin, les questions d'abstraction portent sur la définition des différents
niveaux de détails à prendre en compte ou ignorer en fonction des besoins
d'analyse d'un système. Elles portent sur les relations formelles qui existent
entre modèles quantitatifs et qualitatifs, ainsi que sur les mécanismes de
simplification ou de raffinement de modèles (que l'on souhaiterait en partie
automatiser) vis à vis d'une question que l'on se pose sur un système.
Les partenaires apportent chacun des compétences complémentaires sur :
L'objectif de cette ARC est de définir ensemble des méthodes d'analyse modulaire, d'abstraction, et de composition de modèles, prenant en compte les différents formalismes considérés par les partenaires. Ces méthodes seront appliquées à un système de référence commun : le réseau de régulation contrôlant le cycle cellulaire eucaryote, en particulier chez les mammifères.
Les problèmes abordés dans le cadre de ce projet d'ARC s'inscrivent
dans le défi prioritaire ``modéliser le vivant''. Ils sont certes de nature
exploratoire, mais il est cependant à noter que des besoins existent déjà
pour certaines des méthodes que nous entendons développer. Par exemple dans le
domaine des librairies de modèles biologiques en ligne (comme BioModels.net ou
JWS), la tendance actuelle est la vérification, manuelle, des modèles avant
leur distribution. Par ailleurs, une question qui émerge rapidement concerne
la composition des modèles ainsi vérifiés pour obtenir un modèle plus complet,
ou au contraire la décomposition de tels modèles en modules, afin d'en
réutiliser une partie. Ce souci de réutilisabilité et de validation des
modèles est au coeur des questions que nous soulevons et des évolutions
récentes en Biologie des Systèmes. De plus, les liens entre les différents
formalismes (abstractions) devront être explicités, ouvrant la voie à de
possibles comparaisons et combinaisons de modèles.
Le but ultime de la composition de modèles est d'unifier des
connaissances parcellaires sur le vivant et
de répondre à des questions plus globales comme
par exemple comment les différentes voies de signalisation,
métaboliques, et de régulation génique se croisent pour
remplir des fonctions cellulaires de base ou comment les
mêmes voies sont perturbées dans les cellules malades.
(Resp. Sylvain Soliman)
La machine abstraite biochimique BIOCHAM, développée dans le projet, est un
environnement logiciel qui offre un langage simple de règles pour modéliser
des interactions biomoléculaires, à trois niveaux d'abstraction, correspondant
à trois sémantiques : booléenne, concentration et population. Il propose
également un langage
puissant fondé sur la logique temporelle pour formaliser les propriétés
biologiques du système.
Ces propriétés peuvent être vérifiées par model-checking
ou utilisées comme des spécifications dans des procédures d'apprentissage automatique
pour inférer des règles de réaction ou des valeurs de paramètres.
Cette problématique de modélisation soulève la question de la relation
formelle entre les différents niveaux d'abstraction ainsi définis. En
particulier, si des méthodes inspirées de l'algorithme de Gillespie
(simulations stochastiques) permettent de passer du niveau des concentrations
à celui des populations, le passage d'un niveau qualitatif, comme le niveau
booléen, à un niveau quantitatif reste à effectuer.
D'autre part, la possibilité de formaliser les propriétés du système capturées
par le modèle fournit une base à la validation de la composition ou du
raffinement de modèles. Nous nous proposons d'explorer l'automatisation rendue
possible par les spécifications formelles dans ce cadre.
Cours de bioinformatique formelle du Master Parisien de Recherche en Informatique, avec Vincent Danos, PPS, et Vincent Schächter, Genoscope.
(Resp. Claudine Chaouiya)
Nos travaux porteront principalement sur le développement de méthodes
discrètes pour la composition de modèles qualitatifs. Pour cela, nous
souhaitons combiner deux approches : d'une part, la méthode logique développée
spécifiquement pour la modélisation des réseaux géniques (cf. Larrinaga et
al., 2005), d'autre part les réseaux de Petri. Nous avons déjà récemment
défini, dans ce cadre, une traduction systématique des graphes de régulation
logiques en réseaux de Petri (cf. Chaouiya et al., 2004), permettant ainsi de
bénéficier des avantages des deux approches : l'approche logique s'avère très
utile pour mettre au point la structure d'un réseau de régulation, ainsi que
les règles définissant le comportement de chaque élément du réseau en fonction
de l'état de ses régulateurs ; quant aux réseaux de Petri, ils fournissent des
outils d'analyse et de simulation développés par une communauté active depuis
quelques décennies, et constituent un excellent cadre formel pour développer
des extensions quantitatives (réseaux de Petri hybrides et/ou stochastiques).
Les réseaux de Petri donnent également accès à des méthodes de vérification
automatique basées sur des logiques temporelles (model-checking).
Nous appliquerons systématiquement nos méthodes discrètes de modélisation, de composition, et de vérification au réseau moléculaire contrôlant le cycle cellulaire chez les mammifères. Le problème de la composition se pose déjà au niveau de l'articulation de différents modules de contrôle (check points) du cycle cellulaire. En outre, nous nous intéresserons aux effets du couplage de ces modules à d'autres modules de régulation impliqués dans la différentiation cellulaire. Sur ce point, nous considérerons la lignée lymphocytaire T, très étudiée au niveau expérimental sur le site de Luminy (au TAGC et au CIML, partenaires du LGPD dans le cadre d'une ACI IMPbio).
Des collaborations interdisciplinaires ont été établies au cours de ces dernières années entre équipes de différents laboratoires (IML, CPT, LGPD, CIML, TAGC et LIF - tous ces laboratoires impliquent l'Université de la Méditerranée et sont localisés sur le site de Luminy).
Nos travaux sont actuellement soutenus au travers d'un projet européen (STREP DIAMONDS 2005-2007), d'une ACI IMPbio (LumImDynNet, 2005-2007) et d'un financement ANR jeunes chercheurs et jeunes chercheuses (MAREBIO, 2005-2006).
Par ailleurs, il existe des échanges réguliers avec plusieurs projets de l'INRIA (COMORE, CONTRAINTES, HELIX, SYMBIOSE), en particulier lors des réunions de travail financées par l'ACI VICANNE. Nous avons également des contacts avec Jean-Claude Bermond du projet MASCOTTE de Sophia-Antipolis, pour les questions portant plus particulièrement sur l'analyse des graphes.
(Resp. Ralf Blossey)
L'équipe ``Modélisation et simulation des nanosystèmes biologiques'' (MSNB) de l'Institut de Recherche Interdisciplinaire veut contribuer au projet à partir de ses connaissances de la modélisation des systèmes stochastiques basées sur la physique statistique. Nous sommes très ouverts à la combinaison des approches physiques avec les méthodes avancées de l'informatique. Le but final de notre travail est le développement de critères et méthodes qui permettent de bien définir et de choisir le niveau de modélisation et de simulation : microscopique (niveau moléculaire), mésoscopique (niveau de ``motifs'' de régulation) ou macroscopique (comportement cellulaire). Surtout, il sera important de faciliter le passage d'un niveau à un autre.
Nous appliquerons cette approche à la régulation de la transcription chez les eucaryotes, entre autres au cours du cycle cellulaire. Il est bien connu que la régulation transcriptionnelle chez les eucaryotes est contrôlée par la dynamique de la chromatine, via des complexes ADN-protéines dans le noyau de la cellule. Il existe déjà plusieurs modèles qualitatifs développés par les biologistes pour ces processus. Notre ambition est d'affiner ces modèles qualitatifs en modèles quantitatifs. Il faudra vraisemblablement recourir à plusieurs approches complémentaires de manière à intégrer les différents niveaux de régulation impliqués.
Nous utilisons le logiciel SPIM développé par L. Cardelli et al. ; nous sommes très intéressés à comparer plusieurs logiciels pour le modèle de la régulation transcriptionnelle à développer.
R. Blossey, L. Cardelli, A. Phillips, A compositional approach to the stochastic dynamics of gene networks, TCSB, soumis (2005)
(Resp. Vincent Danos)
Nous reprendrons dans le cadre de ce projet une famille de formalismes
destinés à représenter les réseaux d'interaction biologiques au niveau
moléculaire offrant plusieurs niveaux de résolution statique sur la
structure interne des molécules et autres composants biologiques de bas niveau
(pas de structure, sites d'activation, domaines protéiques et promoteurs),
plusieurs niveaux de résolution dynamique (booléen, différentiel,
stochastique) à des fins de simulation, et plusieurs niveaux correspondants de
résolution logique dans l'exploration du modèle à l'aide de logiques temporelles appropriées.
L'objectif est d'établir soigneusement les relations d'abstractions/simulations entre ces différents niveaux de détail statique, dynamique et logique afin de donner au modélisateur la possibilité:
(Resp. Anne Siegel)
Le projet Symbiose de l'IRISA, Rennes, rassemble différents chercheurs autour
de thèmes reliés à la bioinformatique (analyse linguistique des séquences,
parallélisme, analyses de modèles d'interaction). Michel Le Borgne, Ovidiu
Radulescu et Anne Siegel travaillent sur la thématique modélisation des
réseaux biologiques, soutenus par l'ACI IMPbio MathResoGen.
Nous interprétons des données qualitatives de type
transcriptome comme des informations sur le déplacement entre des états
d'équilibres d'un modèle différentiel.
Le point de vue adopté est statique, s'appliquant à des modèles de réseaux
abstraits sous forme de graphes d'interaction. Une telle abstraction s'avère
prometteuse pour travailler sur des modèles intégrant à la fois des aspects
métaboliques et génétiques. Le fait qu'on se concentre sur des états
d'équilibre plutôt que sur la dynamique du système permet de travailler sur
des modèles d'assez grande taille (quelques centaines de produits) et
éventuellement assez imprécis. Pour interpréter les déplacements d'équilibre,
nous devons résoudre des équations qualitatives ; nous utilisons un outil de
model-checking Sigali, basé sur la résolution d'équations polynomiales
dans les corps finis. Nous cherchons à utiliser cet outil pour inférer des
paramètres dans les modèles linéaires par morceaux.
Nous souhaitons généraliser ces approches basées sur les graphes
d'interaction pour identifier des modules, principalement en recherchant des
sous-graphes qui assurent l'unicité des états d'équilibres sous certaines
conditions. Nous souhaitons aussi vérifier que nos méthodes s'appliquent dans
un cadre non différentiel (booléen multivalué en particulier).
Nous développons un logiciel de visualisation et de navigation de systèmes biologiques (GARMeN) et d'interprétation de ces systèmes en termes de graphes d'interaction.