CEA, LITEN,
Laboratoire des systèmes solaires (L2S).
50 av. du Lac Léman,
73375 LE BOURGET DU LAC - CEDEX

 



  Analyse des signatures génomiques

L’objet de ma thèse est le développement de méthodes permettant l’analyse des signatures génomiques. Une partie des travaux présentés ici s’appuie donc sur cet exemple.
Une séquence d’ADN peut être considérée comme un texte constitué à l’aide d’un alphabet de 4 lettres (les 4 oligonucléotides symbolisés par A, C, T, et G). La séquence est alors caractérisable par les fréquences des mots qui la composent (un mot est une suite de nucléotides). L’ensemble des fréquences de mots est appelé « signature génomique ». Nous avons choisi de représenter les signatures génomiques comme des images où chaque mot est associé à un pixel: plus le pixel est foncé, plus le mot est fréquent (fig. 2). L’intérêt de l’utilisation des signatures génomiques résulte principalement de deux points: d’une part, le calcul et le traitement des signatures est extrêmement rapide (ce qui permet l’analyse d’énormes quantités de séquences), d’autre part, la comparaison de séquences non-homologues ne pose aucun problème (au contraire des méthodes classiques).

Figrure 2:
Signature génomiques de 6 espèces

   Propriétés associées à la signature
L’analyse des fréquences révèle que:
-   La signature génomique est spécifique de l’espèce dont provient la séquence d’ADN.
-   Les espèces ayant une parenté présentent une proximité du point de vue de la signature génomique.
-   La plupart des signatures locales (fréquences d’apparition des mots dans un segment du génome) sont proches de la signature l’espèce d’origine: il existe un « style d’écriture » de l’ADN propre à chaque espèce accessible à travers la signature. Chaque signature locale peut ainsi être considérée comme une réalisation du style de l’espèce.
A partir de ces considérations, deux points de vue peuvent êtres adoptés. Tout d’abord nous pouvons observer les signatures comme le résultat d’une analyse sur une chaîne de caractères et faire appel à des méthodes issues de l’analyse textuelle (loi binomiale, chaînes de Markov, …). Nous considérons surtout les signatures comme des vecteurs (l’ensemble des fréquences) caractérisant les séquences. Dans ce cadre, des procédures d’analyse de données peuvent être utilisées. Toutefois, les propriétés particulières de ce jeu de données doivent être prises en compte : les signatures ont 256 dimensions, avec des dépendances non-linéaires très fortes entre les variables.


   Analyses menées
Description des styles. Les fréquences d’utilisation des mots apportent de l’information sur la biologie de l’espèce. Par exemple, la collaboration avec une équipe du Laboratoire de Physiologie Cellulaire Végétale du CEA de Grenoble sur l’étude du génome de Plasmodium falciparum en comparaison avec celui d’une plante (Arabidopsis thaliana) a contribué à mettre à jour des gènes homologues entre ces espèces dont les styles d’écriture sont pourtant radicalement différents [a1].
Classification des espèces. Nous avons montré que la proximité taxonomique des espèces est le plus souvent liée à la proximité en terme de signature. Nous avons donc pu proposer des arbres taxonomiques d’espèces issus de l’analyse de séquences non-homologues. En particulier, l’utilisation de métriques fractionnaires a permis de construire un arbre des coronavirus qui place le SARS dans le groupe 1 avec les coronavirus de chauve-souris (avec lequel il est parent selon la majorité des études) et en accord avec les études immunohistochimiques, alors que les études phylogéniques classiques le place hors des 3 groupes de coronavirus connus [b2].
Syntaxe des génomes. Grâce à des hypothèses sur la loi que suit la fréquence d’un mot dans les signatures locales, nous quantifions sa variation au long du génome par un Z-score spécifique. Des tests non-paramétriques et des techniques d’apprentissage statistique comme les algorithmes génétiques sont utilisés pour l’interprétation. Nous montrons ainsi que les mots les plus variables au long du génome sont les mêmes pour la plupart des espèces, les mots les moins variables sont aussi communs aux différentes espèces. L’hypothèse que nous proposons est qu’il existe une syntaxe commune aux espèces: des « mots de structure » (avec des fréquences assez stables au long des génomes) qui organisent la « phrase », et des « mots de contenu » (dont les fréquences sont variables) qui portent le « sens ». La spécificité d’espèce de la signature génomique (et donc le style) résulte pour beaucoup de l’utilisation des « mots de structure » [b1, d1, e2, e1].
Détection / segmentation des zones attypiques. L’analyse systématique des signatures locales permet l’examen du style le long du génome. Certaines zones présentant un style original peuvent alors êtres détectées [a2]. A partir de la distribution attendue des distances entre les signatures locales et la signature de l’espèce, nous avons développé une statistique tenant compte de la longueur des zones étudiées qui permet une meilleure détection et une segmentation précise des zones originales [e5] qui se révèlent souvent être des ARN structuraux ou de probables transferts horizontaux [a2]. La rapidité (et l’efficacité) de notre méthode de détection/segmentation des zones originales permet une analyse systématique des séquences en vue de la localisation des transferts horizontaux.
Choix de la métrique.
Pour trouver la métrique la plus adaptée dans notre contexte, nous avons donc choisi de faire une analyse (supervisée) de la capacité de nombreuses métriques à révéler deux informations biologiques que l’on sait exprimées par les signatures:
-   
La recherche de l’espèce d’origine de signatures locales : la qualité d’affectation des signatures locales à la signature du génome complet le plus proche est une mesure de la pertinence des métriques pour les signatures génomiques.
-    La comparaison de signatures d'espèces dans un but phylogénétique: la comparaison de la proximité entre espèces du point de vue de la phylogénie admise permet de produire des métriques aptes à classer les espèces.
On observe une plus grande robustesse des "métriques fractionnaires" dans ce contexte. L'utilisation de ces métriques est également motivée par des arguments d'ordre théorique [d2, e3].
Visualisation de l’organisation spatiale des signatures. Avec DD-HDS, la méthode de réduction de dimension que nous avons développée, nous sommes en mesure de visualiser sur un espace bidimensionnel l’organisation spatiale des signatures génomiques. Nous nous apercevons ainsi que cette organisation est étroitement liée à la taxonomie des espèces [a4] (fig. 3). Nous constatons également que les séquences d’ARN structuraux occupent une zone distincte des autres séquences [c1] (fig. 4).

Figure 3 : Visualisation des signatures d’espèces par DD-HDS.
Partie gauche : Les distances de  référence sont mesurées dans l’arbre du vivant. La couleur du point code la taxonomie de l’espèce.

Partie droite : Les distances de référence sont mesurées entre signatures génomiques. L’organisation des signatures génomiques dans l’espace est liée à la taxonomie.
Figure 4 :
Signatures de séquences (ARN en rouge) observé par ACP et par DD-HDS.


   Valorisation: Genstyle
L’analyse des signatures génomiques rencontre un intérêt croissant dans la communauté scientifique. Les spécialistes de la technique sont de plus en plus sollicités pour se pencher sur des données particulières. Comme peu de connaissances préalables sont nécessaires pour obtenir les résultats par ce biais, nous avons souhaité permettre à un large public d’analyser directement les séquences d’ADN en terme de signature. Dans ce but, nous avons élaboré un ensemble d’outils disponibles sur le WEB destiné à la caractérisation et la classification de séquences d’ADN à partir de leur signature génomique (http://genstyle.imed.jussieu.fr) [a3, e4].


  Autres données

Beaucoup des méthodes présentées ici ont été développées pour l’étude des signatures génomiques. Pourtant, beaucoup d’autres jeux de données montrent des propriétés semblables. Ainsi, nous obtenons de résultats intéressant dans le cas d’alignement de séquences génomiques et protéiniques, dans le cas de photographies et dans le cas de données sociologiques.
Beaucoup des méthodes présentées ici ont été développées pour l’étude des signatures génomiques. Pourtant, un grand nombre de jeux de données montrent des propriétés semblables et peuvent donc être traités de la même façon. Ainsi, nous avons obtenu des résultats intéressants dans plusieurs cas:
Alignement de séquences génomiques et protéiniques. Le mapping des données sur la base des distances est une alternative à la construction d’arbres taxonomiques. Il permet plus de souplesse dans la représentation et permet donc de visualiser des relations entre espèces qui échappent aux phylogénies. Une collaboration entre Laboratoire de Physiologie Cellulaire Végétale du CEA de Grenoble et le Laboratoire d’Ecologie et Evolution des Microorganismes (INSERM U722) est ouverte à ce sujet [a1].
Analyse automatique de photographies. Nous montrons que la représentation par RankVisu de photos caractérisées à l’aide de filtres de Gabor permet de séparer des scènes naturelles et artificielles [a5].
Fouille de données sociologiques. Les successions d’événements de la vie de famille de nombreux suisses au cours du XXème siècle ont été comparées. A partir de distances issues de la comparaison des parcours de vie, nous cherchons à identifier des tendances que nous croisons avec des informations telles que le sexe, l’année de naissance, etc. Ce travail fait l’objet d’une collaboration avec l’équipe de Théories et Mathématiques de l’Economie et de la Société de l’université de Genève [b4, c3, d7].