L'annotation en génomique fonctionnelle et en protéomique

Sommaire

1. Rappel des buts de la génomique et de la protéomique

2. L'annotation : présentation générale

3. Les problémes de l'annotation

4. Les moyens pour l'annotation

5. Quelques méthodes et outils pour l'annotation

6. Liens Internet et références bibliographiques

 

1. Rappel des buts de la génomique, de la transcriptomique et de la protéomique

La génomique est composée de plusieurs volets complémentaires : la génomique structurale, la génomique fonctionnelle, la transcriptomique et la protéomique.

La génomique structurale analyse la structure des gènes et autres parties du génome.

Elle permet l'annotation des génomes et l'identification des séquences informatives (les gènes avec ou sans introns codant des protéines ou des ARN fonctionnels, les séquences régulatrices, les séquences répétées, les éléments transposables, ...).

Structure gene

La génomique fonctionnelle analyse la fonction des gènes et autres parties du génome. Elle inclue l'analyse du transcriptome (ARN messagers) ou transcriptomique.

Elle permet aussi l'annotation des génomes et l'identification des séquences informatives.

Voir un exemple.

La protéomique a pour but d'identifier (et de quantifier) l'ensemble des protéines synthétisées ou protéome, à un moment donné et dans des conditions données au sein d'un tissu, d'une cellule ou d'un compartiment cellulaire.

Le protéome est extrêmemement complexe à plusieurs titres :

  • épissage alternatif des transcrits primaires
  • modifications post-traductionnelles et autres maturations des protéines
  • stade de développement ou phase d'activité cellulaire
  • dynamique du taux de synthèse et temps de demie-vie des protéines
  • ...

Schema general cellule

La protéomique apporte des réponses auxquelles la transcriptomique ne peut répondre :

  • compléments d'informations sur les modalités d'expression des gènes pour les organismes dont le génome n'a pas encore été séquencé ou pour lesquels les programmes de prédiction de séquences codantes sont moins fiables. Un exemple est l'aide au repérage des bordures d'exons ce qui permet en retour une meilleure annotation du transcriptome et donc des génomes.
  • estimation quantitative des concentrations des protéines synthétisées (méthode de marqueurs d'affinité contenant un isotope d'identification : ICAT).
  • obtention de données sur la fonction des protéines et les interactions entre protéines ou entre protéines et autres molécules biologiques (approche double-hybride ou approche "tandem affinity purification by tag" - TAP/TAG).

Les buts de ces disciplines sont donc :

  • décrire l'organisation des gènes et localiser les motifs de régulation de l'expression des gènes (sites d'initiation ou de terminaison de la transcription, ...)
  • déterminer la structure globale des gènes : rechercher les cadres de lecture ouvert ou ORF ("Open Reading Frame"), localiser les régions codantes, localiser les sites d'épissage aux bornes exon / intron, ...
  • identifier les régions des génomes dont on ignore encore le rôle et élucider ce rôle, déterminer les pseudogènes, les éléments transposables ...
  • étudier les différences d'expression des produits des gènes dans le temps et pour chaque type de tissus et de cellules
  • étudier la structure et la fonction des protéines et des ARN pour lesquelles les gènes codent
  • intégrer toutes ces informations dans un ensemble plus vaste, celui de l'ensemble des voies métaboliques (métabolome)
  • décrire les interactions entre tous ces types de macromolécules biologiques (interactome)

Presentation generale Genomique

haut page

 

2. L'annotation : présentation générale

L’annotation d’un génome, d'un transcriptome d'un protéome, d'un métabolome ... consiste à documenter de la manière la plus exhaustive tous les composants de cette information brute.

On conçoit que c'est un travail encyclopédique de titan, d'autant que de nouvelles données s'accumulent qui peuvent être croisées ! L'adéquation entre fouille de données textuelles ("text mining") automatique pertinente et recherche "manuelle" par les experts fait même l'objet de "workshops" internationaux ("BioCreative Article Classification Task" - BBCIII-ACT) et de nombreuses publications.

Voir des données statistiques pour Arabidopsis et d'autres organismes (EMBL/EBI - UniProtKB - GOA ).

a. L’annotation automatique s'appuie (essentiellement) sur des comparaisons des séquences à annoter avec les séquences présentes dans les banques de données.

Les algorithmes recherchent des similarités / homologies de séquence, de structure, de motifs, … Ils permettent de prédire la fonction d’une molécule et de transfèrer automatiquement l'annotation entre les molécules homologues.

Si l'annotation des molécules de référence est correcte, il n'y a pas de souci. Si elle est fausse, c'est un "jeu de domino" : l'erreur initiale est répercutée de proche en proche.

b. L’annotation manuelle (ou curation) par des experts (des curateurs) qui valident ou invalident la prédiction en fonction de leurs connaissances ou de résultats expérimentaux.

L'annotation manuelle est donc tout à fait indispensable. Mais, vue la quantité "astronomique" de données acquises quotidiennement, il est illusoire d'envisager une curation manuelle de l'ensemble des données en temps réel.

On mesure aisément le problème : une quantité "minime" de données traitées par l'homme en temps réel qui induit un retard / décalage de plus en plus grand.

c. L’annotation structurale dans le cas d'un génome tente de prédire :

  • le contenu en gènes et leur localisation dans le génome en recherchant les phases de lecture ouverte dans les 6 cadres de lecture (ORF - "Open Reading Frame"), les introns et les exons.
  • l'organisation des gènes (régions non codantes - voir ci-dessus, gènes, opérons, séquences promotrices, terminateurs, sites de fixation aux ribosomes, ...).

Il existe des méthodes intrinsèques ou ab-initio qui s'appuient sur techniques informatiques d'apprentissage automatique utilisant :

  • des modèles de Markov interpolés (exemples de logiciels : "Glimmer 1.0", "EasyGene", "GeneMark", ...)
  • des modèles de contexte interpolés (exemples de logiciels : "Glimmer 2.0", "Glimmer 3.0", ...)

Il existe des méthodes extrinsèques qui reposent sur la comparaison des ORF avec les séquences présentes dans les banques de données (exemples : "Orpheus", "Critica", "Reganor", ...).

d. L’annotation fonctionnelle tente de prédire la fonction potentielle des gènes (notion d'étiquette, avec nom, fonction et interactions probables).

e. L’annotation relationnelle tente de décrire les relations (interactions) entre les produits des gènes (familles de gènes, réseaux de régulation, réseaux métaboliques, ...).

Source : GO

Procedure GO

Exemple dans le cas d'un gène

Une fois un gène identifié, il faut l'annoter de même que les produits pour lesquels il code, c'est- à-dire obtenir le plus d'informations concernant :

  • la structure du gène et des séquences de régulation, la position des introns / exons, les différents transcrits possibles (épissage alternatif)
  • la ou les fonction(s) biologique(s) / biochimique(s) des molécules pour lesquelles il code
  • leur(s) localisation(s) sub-cellulaire(s)
  • l'expression spatio - temporelle de ces molécules
  • leurs liens avec les données de génétique concernant leurs fonctions et les variations phénotypiques des mutants pour le(s) produit(s) que code ce gène codée(s).
  • leur implication dans des processus de régulation
  • leur interactions avec d'autres molécules biologiques
  • ...

Des logiciels bioinformatiques sont dédiées à l'étude de la structure des gènes et à leur annotation. Par exemple :

  • BLAST qui permet d'aligner la séquence du génome avec les séquences d'ADNc ou rechercher des similarités entre ce génome et d'autres génomes déjà connus et annotés.
  • "ORF Finder" (NCBI) : recherche de cadres de lecture ouvert ou ORF ("Open Reading Frame")
  • Suite logicielle pour l'annotation de Arabidopsis thaliana

Des bases de données regroupent les données de structure des gènes et leur annotation :

Bien sur, l'ensemble de ces données sont intégrées dans les grandes bases de données biologiques mondiales que sont :

haut page

 

3. Les problémes de l'annotation

Le séquençage à trés haut débit génère des quantités phénoménales d'information.

Le décalage entre le nombre de génomes séquencés et leur documentation encyclopédique

On peut donc considérer que l'annotation est maintenant le point d'achoppement des disciplines en "omique".

En regard de la performance extraordinaire des technologies de ces domaines (on envisage trés prochainement le séquençage d'un génome par ... jour !) et donc l'accumulation tout à fait colossale de données de tous types dans les banques de données, on ne peut qu'induire un décalage entre les données brutes et leur interprétation, donc leurs significations biologiques.

Voir un exemple de "méta-données" ("data") selon l'ontologie de EDAM ("EMBRACE Data and Methods").

Tant que ce décalage existera, le pas suivant qui est d'extraire une "sur-information biologique" de cette information brute, ne pourra être correctement franchi.

Sequences annotees et non annotees

Source : Hanson et al. (2010)

 

Evolution du nombre de génes estimés dans le génome humain
Technique Date Nombre de gènes estimés Hypothèses et commentaires
"Calcul" initial 1990 100 000 Avec l'hypothèse que la taille moyenne d'un gène = 30 kb
Ebauche de séquençage du génome 1994 71 000 Résultat biaisé par les régions riches en gènes ?
Ilôts CpG   80 000 Avec l'hypothèse que 66% des gènes humains ont de tels "ilôts"
Analyse des EST 1994 64 000 Gènes ayant un homologue dans GenBank - Redondance des EST de 50%
Chromosome 22 1999 45 000 Correction liée à la haute densité en gène de ce chromosome
Technique "Exofish" ("Exon Finding by Sequences Homology") 2000 28 000 - 34 000

Avec l'hypothèse que les régions codantes sont plus conservées que les non-codantes. Comparaison des génomes homme - poisson ("Tetraodon nigroviridis")

EST 2000

35 000

120 000

Nombre de gènes

Nombre de transcrits

Premier "brouillon" du génome 2001 30 000 - 40 000 Gènes connus + prédictions
Comparaison avec le génome de la souris 2002 30 000 Gènes connus + prédictions
Génome abouti 2004 20 000 - 25 000 Gènes connus + prédictions
Génome abouti 2007 20 000 Annotation des gènes améliorée
Source : Duret L. (2011) - "Bioinformatique: Annotation des génomes (eucaryotes)"

Les erreurs ou l'absence d'annotation

Les "inconnues" dans les bases de données :

  • Le séquençage en masse de centaines de génomes bactériens a révélé que 30% à 40% des protéines n'ont pas de fonction biologique élucidée.
  • Sur la base de 1000 génomes séquencés ("GOLD : Genomes OnLine Database" en contient près de 2000), on estime le nombre de protéines annotées "inconnues" à ... 106 !
  • Pour certaines familles de gènes, on estime à 60% le taux d'erreur d'annotation.
  • Plus le nombre de génomes séquencés augmente, plus on découvre des familles de protéines qui ne sont pas documentées.
  • Pour 36% des 3736 enzymes qui ont un numéro EC, il n'existe pas de séquences de gènes ou de protéines qui leur soient homologues !

Nombre proteines inconnues

Source : Hanson et al. (2010)

Il est dommage d'accumuler une quantité inouie de données si on ne peut pas en tirer toute l'information. Ce déluge de données peut même "noyer" l'information 'actuelle" pertinente et nuire (au moins dans un premier temps).

Quel intérêt d'obtenir à la suite d'une étude longue et coûteuse via des EST ou des puces à ADN, des informations telles que : "not annotated", "hypothetical protein" (!), "unnamed molecule, "putative function", ...

On aboutit aux mêmes conclusions : X gènes sont sur-exprimés et Y sont sous-exprimés. Mais qui sont-ils, que font-ils, où sont adressées les protéines pour lesquelles ils codent ... ?!

haut page

 

4. Les moyens pour l'annotation

Toutes les démarches d'annotation vont de paire avec le développement d'une ontologie : un recueil de termes soigneusement sélectionnés afin de standardiser la dénomination de 3 concepts fondamentaux.

Ainsi, l'ontologie du consortium "Gene ontology" (GO) contient plus de 32000 termes :

  • "Cellular Component" : 3000 termes
  • "Molecular Function" : 9000 termes
  • "Biological Process" : 20 000 termes

Ces termes sont placés dans une hiérarchie rigoureuse qui établit des liens univoques de "parents à enfants" entre eux.

Figure ci-contre : illustration des liens entre les termes ontologiques pour le mot "chloroplast" lui-même inclu dans le concept fondamental "cellular component".

Source : Annotation de la base de données "QuickGO"

Filiation des mots ontologie

L'ontologie est un concept difficile à définir. C'est un mot employé dans des contextes différents (en premier lieu en philosophie ("l'étude de ce qui est"), mais aussi en linguistique, en intelligence artificielle, ...).

En bioinformatique, on peut tenter de définir l'ontologie comme une "carte d'identité" non ambigüe qui, à l'origine, décrivait chaque gène et son/ses produit(s) et qui, maintenant, décrit l'ensemble des molécules d'une cellule.

En plus de cette description précise employant un vocabulaire sélectionné (on dit "contrôlé"), les termes de l'ontologie font partie d'une structure (un graphe orienté acyclique) où chaque terme est en relation de manière hiérarchisée avec un ou plusieurs autres termes.

Voir les relations de l'ontologie de la base de données "Gene Ontology - GO".

 

Liens logiques GO

 

 

Un terme GO est défini par  :

  • un nom de terme : dans l'exemple ci-contre "glycolysis"
  • un N° d'accession unique (préfixe "GO") : "0006096"
  • une "ontologie" : "Biological Process"
  • une définition dont les sources sont mentionnées
  • des commentaires sur la signification ou l'utilisation du terme
  • le cas échéant : des synonymes qui ont un lien avec le nom du terme ("related") ou qui sont exactement équivalents("exact") ou qui ont une acception plus large ou plus restrictive ("broad")
  • le cas échéant : des références croisées avec d'autres bases de données ("xref")
Résultat de GO en cherchant le terme "glycolysis" (ou, à l'inverse le code GO "0006096")
Accession 0006096
Ontology Biological Process
Synonyms
  • related: anaerobic glycolysis
  • exact: Embden-Meyerhof pathway
  • exact: Embden-Meyerhof-Parnas pathway
  • alt_id: GO:0019641
  • alt_id: GO:0019642
  • related: modifed Embden-Meyerhof pathway
Definition

"The chemical reactions and pathways resulting in the breakdown of a monosaccharide (generally glucose) into pyruvate, ..."

Source: GOC:bf, ISBN:0716720094, Wikipedia:Glycolysis

Comment None
Subset Prokaryotic GO subset
Community  

Ces démarches d'annotation vont aussi de paire avec l'utilisation de langages spécifiques pour standardiser le format des données afin qu'ils soient transmis sans difficulté d'un service (logiciel) bioinformatique à un autre.

De plus en plus, le langage XML avec des schémas de format XSD s'imposent.

Figure ci-contre : démarche logique du flux ("workflow") de données (ovales rouges) via un ensemble de services (logiciels) bioinformatiques (rectangles bleus).

La transformation d'un type de données en un autre est d'autant plus performante que les formats en entrée et en sortie sont standardisés afin que n'importe quel logiciel puissent "accepter" les données entrantes (format d'échange commun BioXSD).

Source : Pettifer et al. (2010)

flow chart

Les autres moyens pour l'annotation

L'ensemble de ces moyens fait partie de la génomique comparative et s'appuie sur la notion d'association.

L'exemple typique est celui de génes bactériens regroupés en opéron codant les différentes enzymes qui catalysent les étapes d'une voie métabolique : la fonction d'un géne inconnu peut-être inferrée à partir des génes connus de cet opéron.

Cette notion est étendue à la comparaison de génomes entiers.

Une étude récente a ainsi permis de prédire la fonction de 19 familles de protéines d'Arabidopsis et de procaryotes (Gerdes et al., 2011).

Parmi ces moyens, on peut citer :

  • les ensembles de gènes proches physiquement dans le génome ("gene clustering"). Exemples : bases de données "STRING", "SEED", ...
  • les profils de co-occurence phylogénétique selon l'hypothèse que les enzymes d'une même voie métabolique seront ou toutes présentes ou toutes absentes au sein d'un organisme donné. Exemples : outils ou bases de données "STRING", "PHYDBAC", "MBGD", "The Signature Genes tool", "Phylogenetic Profiler" au JGI ...
  • la fusion de gènes qui permet d'obtenir des données sur l'interaction entre les protéines issues de ces génes. Exemples : "FusionDB"
  • les sites de régulation de l'expression de génes communs à plusieurs gènes ("SwissRegulon")
  • la reconstruction métabolique à l'échelle d'un génome
  • les profils d'expressions de gènes (transcriptomique)
  • les données qualitatives et quantitatives concernant les protéines (protéomique)
  • les associations issues de comparaison de phénotypes
  • la comparaison des structures secondaires ("PSIPRED", "GenTHREADER"), voire tridimensionnelles des protéines et de certains ARN.

D'autres sources d'informations (textuelles, images 2D, ...) peuvent être utilisées et combinées, soit manuellement, soit automatiquement. C'est le cas, par exemple, des méthodes d'annotation des gènes de l'embryon de souris (méthodes et base de données "EMAGE").

haut page

 

5. Quelques méthodes et outils pour l'annotation

a. Généralités

Elles sont de diverses natures, mais pour la plupart extrêmement théoriques. On conçoit intuitivement qu'il faut obtenir des outils logiciels qui puissent :

  • de manière automatique et bien sûr avec la plus grande fiabilité possible
  • effectuer une fouille la plus exhaustive de millions (milliards ?) de données
  • données de "natures" (littéral, sémantique, syntaxique, numériques, hypertexte, images, ...) et de formats différents
  • en effectuer une synthèse avec le maximum de rigueur
  • et, enfin, proposer une réponse / solution / interprétation à l'utilisateur avec le minimum d'ambiguité !

Source : "Ontologizer" Demarche globale annotation

C'est une gageure.

Mais les avancées en bioinformatique (théoriques et/ou logicielles) permettent de plus en plus d'atteindre ce but.

Dans l'exemple décrit ci-dessous, les auteurs décrivent une méthode de recherche de "catégories biologiques" contenant le plus d'informations liées aux gènes mis en évidence par telle ou telle approche de génomique et/ou de transcriptomique.

Remarque : les auteurs emploient l'expression "biological categories". Que signifie-t-elle du point de vue de l'ontologie et encore plus de celui de la biologie ?

Selon eux, le problème est que des bases de données telle que "Gene ontology" (GO) contiennent des milliers de "catégories" qui se chevauchent : l'obtention d'une "bonne catégorie" en renvoie un grand nombre d'autres qui y sont corrélées, ce qui n'aide pas à la prise de décision.

Leur modèle (ci-contre) analyse toutes les "catégories" d'une base de données d'ontologie en les insérant dans un réseau Bayesien ("model-based gene set analysis" - MGSA).

Au sein de ce réseau, la réponse de tel ou tel gène ("gene response" = sur-expression ou sous-expression ? Voir l'article) est modèlisée en fonction de "l'activation" de "catégories biologiques" identifiées par inférence probabilistique.

Source : Bauer et al. (2010)

 

Modele bayesien ontologie

Formule modele Bayesien

 

Leur résultat consiste à renvoyer la "meilleure catégorie" (augmentation de la précision) avec le moins de "catégories corrélées" (diminution du bruit de fond).

Figure ci-contre : l'algorithme qui traduit l'approche et le modèle décrits ci-dessus.

Voir l'application qui a été développé par ce groupe : "Graphviz".

Source : Bauer et al. (2010)

Algorithme

b. Des outils d'annotation via les motifs

Les motifs sont des séquences consensus d'acides aminés qui signe une famille de protéines.

Voir l'exemple du serveur Web "GOmotif" : entrer la séquence [GS]SSE.[DEG] (format "Prosite").

c. Des outils de ré-annotation

D'autres outils bioinformatiques permettent de ré-annoter l'existant ou de confirmer l'annotation existante et ainsi de corriger les erreurs ou de donner des pistes pour une correction ultérieure.

La figure ci-contre présente le protocole d'analyse des erreurs d'annotation des fonctions des super familles d'enzymes dans les bases de données publiques. Source : Schnoes et al. (2009)

d. Des outils et des bases de données pour l'analyse des réseaux d'interactions proteines - protéines

"PPI Finder" : un outil web pour la fouille de données textuelles des résumés publiés dans "PubMed" (NCBI) à la recherche de co-occurrences de mots et d'interactions entre ces mots, validées par leur existence dans les bases de données d'interactions protéines - protéines ("PPI databases") dont HPRD et BioGRID et les mots partagés de l'ontologie.

d. D'autres outils en ligne

Protocole correction erreur annotation

e. Exemples de systèmes d'annotation de génomes, de gènes, de voies métaboliques, de réseaux d'interactions etc ...
"The gene ontology (GO) database" GO current annotations
KAAS ("KEGG Automatic Annotation Server") Moriya et al. (2007) "KAAS: an automatic genome annotation and pathway reconstruction server" Nucleic Acids Res. 35, W182-W185
"The Joint Genome Institute's (JGI) Integrated Microbial Genomes (IMG) system" Markowitz et al. (2009) "The integrated microbial genomes system: an expanding comparative analysis resource" Nucleic Acids Res., 1-9
"The National Microbial Pathogen Data Resource's (NMPDR) Rapid Annotation using Subsystems Technology (RAST) server" Aziz et al. (2008) "The RAST Server: Rapid Annotations using Subsystems Technology" BMC Genomics 9, 75

"J. Craig Venter Institute (JCVI) Annotation Service"

"The Glimmer system" : suite logicielle pour le séquençage et l'assemblage de génomes, la recherche de gènes, l'annotation et l'analyse de génomes, l'analyse métagénomique (et autres outils génomiques et protéomiques)

JCVI

"The Glimmer system"

RGAP : "Rice Genome Annotation Project"

"CycADS : an annotation database system to ease the development and update of BioCyc databases"

BioCyc : ensemble de bases de données (plus de 1100 génomes et leurs voies métaboliques !)

Protocole annotation systeme CYCADS

Source : Vellozo et al. (2011)

 

6. Liens Internet et références bibliographiques
"Précis de Génomique" (2004) G. Gibson & S. Muse - Ed. De Boeck - ISBN : 2-8041-4334-1

Bakke et al. (2009) "Evaluation of Three Automated Genome Annotations for Halorhabdus utahensis" PLoS ONE 4, e6291

Schnoes et al. (2009) "Annotation error in public databases: misannotation of molecular function in enzyme superfamilies" PLoS Comput. Biol. 5, e1000605

Pettifer et al. (2010) "The EMBRACE web service collection" Nuc. Acids Res. 38, W683 - W688

Hanson et al. (2010) "‘Unknown’ proteins and ‘orphan’ enzymes: the missing half of the engineering parts list – and how to find it" Biochem. J 425, 1-11

Gerdes et al. (2011) "Synergistic use of plant-prokaryote comparative genomics for functional annotations" BMC Genomics 12, S2

Article

Article

Article

Article

Article

"The gene ontology (GO) database"

Ashburner et al. (2000) "Gene Ontology: tool for the unification of biology" Nat. Genet. 25, 25 - 29

The gene ontology consortium (2001 ) "Creating the Gene Ontology Resource: Design and Implementation" Genome Res. 11, 1425 - 1433

Leonelli et al. (2011) "How the gene ontology evolves" BMC Bioinformatics 12, 325

GO

Article

Article

Article

"BioCyc" : ensemble de bases de données. Plus de 1100 génomes et leurs voies métaboliques.

Vellozo et al. (2011) "CycADS: an annotation database system to ease the development and update of BioCyc databases" Database

"CycADS : an annotation database system to ease the development and update of BioCyc databases"

BioCyc

Article

CycADS

He et al. (2009) "PPI Finder: A Mining Tool for Human Protein-Protein Interactions" PLoS ONE 4, e455

Bauer et al. (2010) "GOing Bayesian: model-based gene set analysis of genome-scale data" Nuc. Acids Res. 1 -10

Article

Article

"HPRD : Human Protein Reference Database"

"BioGRID interaction database"

"BioCreAtIvE : Critical Assessment of Information Extraction systems in Biology"

HPRD

BioGRID

BioCreAtIvE

 

Valid XHTML 1.0 Transitional Retour haut de page