|
|
L'annotation en génomique fonctionnelle et en protéomique |
Sommaire |
|
1. Rappel des buts de la génomique et de la protéomique 2. L'annotation : présentation générale 3. Les problémes de l'annotation |
4. Les moyens pour l'annotation 5. Quelques méthodes et outils pour l'annotation 6. Liens Internet et références bibliographiques |
1. Rappel des buts de la génomique, de la transcriptomique et de la protéomique La génomique est composée de plusieurs volets complémentaires : la génomique structurale, la génomique fonctionnelle, la transcriptomique et la protéomique. |
La génomique structurale analyse la structure des gènes et autres parties du génome. Elle permet l'annotation des génomes et l'identification des séquences informatives (les gènes avec ou sans introns codant des protéines ou des ARN fonctionnels, les séquences régulatrices, les séquences répétées, les éléments transposables, ...). |
|
|
La génomique fonctionnelle analyse la fonction des gènes et autres parties du génome. Elle inclue l'analyse du transcriptome (ARN messagers) ou transcriptomique. Elle permet aussi l'annotation des génomes et l'identification des séquences informatives. |
La protéomique a pour but d'identifier (et de quantifier) l'ensemble des protéines synthétisées ou protéome, à un moment donné et dans des conditions données au sein d'un tissu, d'une cellule ou d'un compartiment cellulaire. Le protéome est extrêmemement complexe à plusieurs titres :
|
|
La protéomique apporte des réponses auxquelles la transcriptomique ne peut répondre :
|
Les buts de ces disciplines sont donc :
|
2. L'annotation : présentation générale L’annotation d’un génome, d'un transcriptome d'un protéome, d'un métabolome ... consiste à documenter de la manière la plus exhaustive tous les composants de cette information brute. On conçoit que c'est un travail encyclopédique de titan, d'autant que de nouvelles données s'accumulent qui peuvent être croisées ! L'adéquation entre fouille de données textuelles ("text mining") automatique pertinente et recherche "manuelle" par les experts fait même l'objet de "workshops" internationaux ("BioCreative Article Classification Task" - BBCIII-ACT) et de nombreuses publications. Voir des données statistiques pour Arabidopsis et d'autres organismes (EMBL/EBI - UniProtKB - GOA ). a. L’annotation automatique s'appuie (essentiellement) sur des comparaisons des séquences à annoter avec les séquences présentes dans les banques de données. Les algorithmes recherchent des similarités / homologies de séquence, de structure, de motifs, … Ils permettent de prédire la fonction d’une molécule et de transfèrer automatiquement l'annotation entre les molécules homologues. Si l'annotation des molécules de référence est correcte, il n'y a pas de souci. Si elle est fausse, c'est un "jeu de domino" : l'erreur initiale est répercutée de proche en proche. b. L’annotation manuelle (ou curation) par des experts (des curateurs) qui valident ou invalident la prédiction en fonction de leurs connaissances ou de résultats expérimentaux. L'annotation manuelle est donc tout à fait indispensable. Mais, vue la quantité "astronomique" de données acquises quotidiennement, il est illusoire d'envisager une curation manuelle de l'ensemble des données en temps réel. On mesure aisément le problème : une quantité "minime" de données traitées par l'homme en temps réel qui induit un retard / décalage de plus en plus grand. c. L’annotation structurale dans le cas d'un génome tente de prédire :
Il existe des méthodes intrinsèques ou ab-initio qui s'appuient sur techniques informatiques d'apprentissage automatique utilisant :
Il existe des méthodes extrinsèques qui reposent sur la comparaison des ORF avec les séquences présentes dans les banques de données (exemples : "Orpheus", "Critica", "Reganor", ...). d. L’annotation fonctionnelle tente de prédire la fonction potentielle des gènes (notion d'étiquette, avec nom, fonction et interactions probables). e. L’annotation relationnelle tente de décrire les relations (interactions) entre les produits des gènes (familles de gènes, réseaux de régulation, réseaux métaboliques, ...). |
|
Source : GO |
|
|
Exemple dans le cas d'un gène Une fois un gène identifié, il faut l'annoter de même que les produits pour lesquels il code, c'est- à-dire obtenir le plus d'informations concernant :
Des logiciels bioinformatiques sont dédiées à l'étude de la structure des gènes et à leur annotation. Par exemple :
Des bases de données regroupent les données de structure des gènes et leur annotation :
Bien sur, l'ensemble de ces données sont intégrées dans les grandes bases de données biologiques mondiales que sont :
|
3. Les problémes de l'annotation Le séquençage à trés haut débit génère des quantités phénoménales d'information. |
Le décalage entre le nombre de génomes séquencés et leur documentation encyclopédique On peut donc considérer que l'annotation est maintenant le point d'achoppement des disciplines en "omique". En regard de la performance extraordinaire des technologies de ces domaines (on envisage trés prochainement le séquençage d'un génome par ... jour !) et donc l'accumulation tout à fait colossale de données de tous types dans les banques de données, on ne peut qu'induire un décalage entre les données brutes et leur interprétation, donc leurs significations biologiques. Voir un exemple de "méta-données" ("data") selon l'ontologie de EDAM ("EMBRACE Data and Methods"). Tant que ce décalage existera, le pas suivant qui est d'extraire une "sur-information biologique" de cette information brute, ne pourra être correctement franchi. |
Source : Hanson et al. (2010)
|
| Evolution du nombre de génes estimés dans le génome humain | |||
| Technique | Date | Nombre de gènes estimés | Hypothèses et commentaires |
| "Calcul" initial | 1990 | 100 000 | Avec l'hypothèse que la taille moyenne d'un gène = 30 kb |
| Ebauche de séquençage du génome | 1994 | 71 000 | Résultat biaisé par les régions riches en gènes ? |
| Ilôts CpG | 80 000 | Avec l'hypothèse que 66% des gènes humains ont de tels "ilôts" | |
| Analyse des EST | 1994 | 64 000 | Gènes ayant un homologue dans GenBank - Redondance des EST de 50% |
| Chromosome 22 | 1999 | 45 000 | Correction liée à la haute densité en gène de ce chromosome |
| Technique "Exofish" ("Exon Finding by Sequences Homology") | 2000 | 28 000 - 34 000 | Avec l'hypothèse que les régions codantes sont plus conservées que les non-codantes. Comparaison des génomes homme - poisson ("Tetraodon nigroviridis") |
| EST | 2000 | 35 000 120 000 |
Nombre de gènes Nombre de transcrits |
| Premier "brouillon" du génome | 2001 | 30 000 - 40 000 | Gènes connus + prédictions |
| Comparaison avec le génome de la souris | 2002 | 30 000 | Gènes connus + prédictions |
| Génome abouti | 2004 | 20 000 - 25 000 | Gènes connus + prédictions |
| Génome abouti | 2007 | 20 000 | Annotation des gènes améliorée |
| Source : Duret L. (2011) - "Bioinformatique: Annotation des génomes (eucaryotes)" | |||
Les erreurs ou l'absence d'annotation Les "inconnues" dans les bases de données :
|
Source : Hanson et al. (2010) |
Il est dommage d'accumuler une quantité inouie de données si on ne peut pas en tirer toute l'information. Ce déluge de données peut même "noyer" l'information 'actuelle" pertinente et nuire (au moins dans un premier temps). Quel intérêt d'obtenir à la suite d'une étude longue et coûteuse via des EST ou des puces à ADN, des informations telles que : "not annotated", "hypothetical protein" (!), "unnamed molecule, "putative function", ... On aboutit aux mêmes conclusions : X gènes sont sur-exprimés et Y sont sous-exprimés. Mais qui sont-ils, que font-ils, où sont adressées les protéines pour lesquelles ils codent ... ?! |
4. Les moyens pour l'annotation Toutes les démarches d'annotation vont de paire avec le développement d'une ontologie : un recueil de termes soigneusement sélectionnés afin de standardiser la dénomination de 3 concepts fondamentaux. Ainsi, l'ontologie du consortium "Gene ontology" (GO) contient plus de 32000 termes :
Ces termes sont placés dans une hiérarchie rigoureuse qui établit des liens univoques de "parents à enfants" entre eux. Figure ci-contre : illustration des liens entre les termes ontologiques pour le mot "chloroplast" lui-même inclu dans le concept fondamental "cellular component". Source : Annotation de la base de données "QuickGO" |
|
L'ontologie est un concept difficile à définir. C'est un mot employé dans des contextes différents (en premier lieu en philosophie ("l'étude de ce qui est"), mais aussi en linguistique, en intelligence artificielle, ...). En bioinformatique, on peut tenter de définir l'ontologie comme une "carte d'identité" non ambigüe qui, à l'origine, décrivait chaque gène et son/ses produit(s) et qui, maintenant, décrit l'ensemble des molécules d'une cellule. |
En plus de cette description précise employant un vocabulaire sélectionné (on dit "contrôlé"), les termes de l'ontologie font partie d'une structure (un graphe orienté acyclique) où chaque terme est en relation de manière hiérarchisée avec un ou plusieurs autres termes. Voir les relations de l'ontologie de la base de données "Gene Ontology - GO". |
|
Un terme GO est défini par :
|
|
||||||||||||||||
Ces démarches d'annotation vont aussi de paire avec l'utilisation de langages spécifiques pour standardiser le format des données afin qu'ils soient transmis sans difficulté d'un service (logiciel) bioinformatique à un autre. De plus en plus, le langage XML avec des schémas de format XSD s'imposent. Figure ci-contre : démarche logique du flux ("workflow") de données (ovales rouges) via un ensemble de services (logiciels) bioinformatiques (rectangles bleus). La transformation d'un type de données en un autre est d'autant plus performante que les formats en entrée et en sortie sont standardisés afin que n'importe quel logiciel puissent "accepter" les données entrantes (format d'échange commun BioXSD). Source : Pettifer et al. (2010) |
|
Les autres moyens pour l'annotation L'ensemble de ces moyens fait partie de la génomique comparative et s'appuie sur la notion d'association. L'exemple typique est celui de génes bactériens regroupés en opéron codant les différentes enzymes qui catalysent les étapes d'une voie métabolique : la fonction d'un géne inconnu peut-être inferrée à partir des génes connus de cet opéron. Cette notion est étendue à la comparaison de génomes entiers. Une étude récente a ainsi permis de prédire la fonction de 19 familles de protéines d'Arabidopsis et de procaryotes (Gerdes et al., 2011). Parmi ces moyens, on peut citer :
D'autres sources d'informations (textuelles, images 2D, ...) peuvent être utilisées et combinées, soit manuellement, soit automatiquement. C'est le cas, par exemple, des méthodes d'annotation des gènes de l'embryon de souris (méthodes et base de données "EMAGE"). |
5. Quelques méthodes et outils pour l'annotation a. Généralités Elles sont de diverses natures, mais pour la plupart extrêmement théoriques. On conçoit intuitivement qu'il faut obtenir des outils logiciels qui puissent :
Source : "Ontologizer" C'est une gageure. Mais les avancées en bioinformatique (théoriques et/ou logicielles) permettent de plus en plus d'atteindre ce but. Dans l'exemple décrit ci-dessous, les auteurs décrivent une méthode de recherche de "catégories biologiques" contenant le plus d'informations liées aux gènes mis en évidence par telle ou telle approche de génomique et/ou de transcriptomique. Remarque : les auteurs emploient l'expression "biological categories". Que signifie-t-elle du point de vue de l'ontologie et encore plus de celui de la biologie ? Selon eux, le problème est que des bases de données telle que "Gene ontology" (GO) contiennent des milliers de "catégories" qui se chevauchent : l'obtention d'une "bonne catégorie" en renvoie un grand nombre d'autres qui y sont corrélées, ce qui n'aide pas à la prise de décision. |
Leur modèle (ci-contre) analyse toutes les "catégories" d'une base de données d'ontologie en les insérant dans un réseau Bayesien ("model-based gene set analysis" - MGSA). Au sein de ce réseau, la réponse de tel ou tel gène ("gene response" = sur-expression ou sous-expression ? Voir l'article) est modèlisée en fonction de "l'activation" de "catégories biologiques" identifiées par inférence probabilistique. Source : Bauer et al. (2010) |
|
Leur résultat consiste à renvoyer la "meilleure catégorie" (augmentation de la précision) avec le moins de "catégories corrélées" (diminution du bruit de fond). Figure ci-contre : l'algorithme qui traduit l'approche et le modèle décrits ci-dessus. Voir l'application qui a été développé par ce groupe : "Graphviz". Source : Bauer et al. (2010) |
|
b. Des outils d'annotation via les motifs Les motifs sont des séquences consensus d'acides aminés qui signe une famille de protéines. Voir l'exemple du serveur Web "GOmotif" : entrer la séquence [GS]SSE.[DEG] (format "Prosite"). c. Des outils de ré-annotation D'autres outils bioinformatiques permettent de ré-annoter l'existant ou de confirmer l'annotation existante et ainsi de corriger les erreurs ou de donner des pistes pour une correction ultérieure. La figure ci-contre présente le protocole d'analyse des erreurs d'annotation des fonctions des super familles d'enzymes dans les bases de données publiques. Source : Schnoes et al. (2009) d. Des outils et des bases de données pour l'analyse des réseaux d'interactions proteines - protéines "PPI Finder" : un outil web pour la fouille de données textuelles des résumés publiés dans "PubMed" (NCBI) à la recherche de co-occurrences de mots et d'interactions entre ces mots, validées par leur existence dans les bases de données d'interactions protéines - protéines ("PPI databases") dont HPRD et BioGRID et les mots partagés de l'ontologie. d. D'autres outils en ligne
|
|
| e. Exemples de systèmes d'annotation de génomes, de gènes, de voies métaboliques, de réseaux d'interactions etc ... | |
| "The gene ontology (GO) database" | GO current annotations |
| KAAS ("KEGG Automatic Annotation Server") | Moriya et al. (2007) "KAAS: an automatic genome annotation and pathway reconstruction server" Nucleic Acids Res. 35, W182-W185 |
| "The Joint Genome Institute's (JGI) Integrated Microbial Genomes (IMG) system" | Markowitz et al. (2009) "The integrated microbial genomes system: an expanding comparative analysis resource" Nucleic Acids Res., 1-9 |
| "The National Microbial Pathogen Data Resource's (NMPDR) Rapid Annotation using Subsystems Technology (RAST) server" | Aziz et al. (2008) "The RAST Server: Rapid Annotations using Subsystems Technology" BMC Genomics 9, 75 |
"J. Craig Venter Institute (JCVI) Annotation Service" "The Glimmer system" : suite logicielle pour le séquençage et l'assemblage de génomes, la recherche de gènes, l'annotation et l'analyse de génomes, l'analyse métagénomique (et autres outils génomiques et protéomiques) |
|
| RGAP : "Rice Genome Annotation Project" | |
"CycADS : an annotation database system to ease the development and update of BioCyc databases" BioCyc : ensemble de bases de données (plus de 1100 génomes et leurs voies métaboliques !) |
Source : Vellozo et al. (2011)
|
| 6. Liens Internet et références bibliographiques |
| "Précis de Génomique" (2004) G. Gibson & S. Muse - Ed. De Boeck - ISBN : 2-8041-4334-1 | |
Bakke et al. (2009) "Evaluation of Three Automated Genome Annotations for Halorhabdus utahensis" PLoS ONE 4, e6291 Schnoes et al. (2009) "Annotation error in public databases: misannotation of molecular function in enzyme superfamilies" PLoS Comput. Biol. 5, e1000605 Pettifer et al. (2010) "The EMBRACE web service collection" Nuc. Acids Res. 38, W683 - W688 Hanson et al. (2010) "‘Unknown’ proteins and ‘orphan’ enzymes: the missing half of the engineering parts list – and how to find it" Biochem. J 425, 1-11 Gerdes et al. (2011) "Synergistic use of plant-prokaryote comparative genomics for functional annotations" BMC Genomics 12, S2 |
|
"The gene ontology (GO) database" Ashburner et al. (2000) "Gene Ontology: tool for the unification of biology" Nat. Genet. 25, 25 - 29 The gene ontology consortium (2001 ) "Creating the Gene Ontology Resource: Design and Implementation" Genome Res. 11, 1425 - 1433 Leonelli et al. (2011) "How the gene ontology evolves" BMC Bioinformatics 12, 325 |
|
"BioCyc" : ensemble de bases de données. Plus de 1100 génomes et leurs voies métaboliques. Vellozo et al. (2011) "CycADS: an annotation database system to ease the development and update of BioCyc databases" Database "CycADS : an annotation database system to ease the development and update of BioCyc databases" |
|
He et al. (2009) "PPI Finder: A Mining Tool for Human Protein-Protein Interactions" PLoS ONE 4, e455 Bauer et al. (2010) "GOing Bayesian: model-based gene set analysis of genome-scale data" Nuc. Acids Res. 1 -10 |
|
"HPRD : Human Protein Reference Database" "BioGRID interaction database" "BioCreAtIvE : Critical Assessment of Information Extraction systems in Biology" |
|