|
|
Les marqueurs de séquence exprimée ou "EST" ("expressed sequence tags") |
Sommaire |
|
|
|
1. Introduction |
|
Le génome des Eucaryotes ne contient qu'une proportion faible de séquences dites "codantes" : séquences d'ADN transcrites en ARN messagers, eux-mêmes traduits en protéines. Il existe une différence d'expression des gènes selon les tissus et dans le temps (différence d'expression spatio-temporelle). Un tissu donné exprime environ 15 000 gènes :
Le taux d'expression des gènes, c'est-à-dire la quantité d'un ARN messager donné, est trés variable. En conséquence, le séquençage d'ADN complémentaire ou ADNc consiste à caractériser l'ensemble des ARN messagers (qui auront été préalablement rétro-transcrits en ADNc) exprimés dans une cellule. |
|
a. La première étape est la construction d'une banque d'ADNc : ceux-ci sont clonés de sorte que l'on obtienne une collection de clones indépendants. Pour celà, les ADNc sont insérés dans un même type de vecteur, choisi en fonction du type de banque que l'on veut construire. L'énorme intérêt est que toutes les séquences en amont et en aval des ADNc (séquences d'ADN du vecteur) sont identiques pour tous les clones : on utilise les mêmes jeux d'amorces pour le séquençage de tous les clones, ce qui permet l'automatisation et donc un séquençage à grande échelle. b. Pour chaque clone, quelques centaines de nucléotides (200 à 700) sont séquencés une seule fois ("single pass") à chaque extrémité de l'ADNc inséré. L'information peut donc n'être que partielle par rapport à la taille de certains ADNc (qui peut atteindre plusieurs milliers de nucléotides), mais elle est suffisante pour caractériser de manière univoque chaque clone. Ces séquences partielles d'ADNc sont appelées marqueurs de séquence exprimée ou "EST" : "expressed sequence tags". |
|
|
Le séquençage s'effectuant à partir des 2 extrémités, on génère 2 types d'EST :
|
|
|
5' EST |
3' EST |
|
Les 5' EST sont obtenus à partir de la région des transcrits qui, le plus souvent, est celle qui code une protéine. Cette région est davantage conservée entre différentes espèces et ne changent pas beaucoup au sein d'une famille de gènes. |
Les 3' EST ont une probabilité plus élevée de correspondre à une région non-codante ou non traduite ("UnTranslated Regions" - UTR) et sont caractérisés par une plus faible conservation entre différentes espèces. |
|
Par ailleurs, une étude des transcrits de 10 chromosomes humains a montré que prés de la moitié sont non polyadénylés [poly(A)-] :
Cheng et al. (2005) "Transcriptional maps of 10 human chromosomes at 5-nucleotide resolution" Science 308, 1149 - 1154 |
|
|
Enfin, la polyadénylation alternative génère différents transcrits à partir d'un même gène (schéma ci-dessous).
Source : D. Gautheret - INSERM ERM206 |
|
|
La polyadénylation chez les procaryotes : voir Sarkar (1997) "Polyadenylation of mRNA in prokaryotes" Annual Rev. Biochem. 66, 173-197 |
Quelques applications
des EST :
|
|
Avantages des EST :
|
Inconvénients des EST :
|
|
3. Les biais a. La normalisation des banques d'ADNc (Soares et al., 1994) L'expression différentielle des gènes est régulée par un grand nombre de sytèmes de transduction du signal qui aboutit à la synthèse de 20 000 à 60 000 transcrits. Le profil d'expression d'un gène spécifique peut varier de 1 copie à 25 0000 copies par cellule selon le contexte. Les gènes peuvent être classés en 3 catégories sur la base du nombre de copies de leurs ARN messagers à un moment donné :
Cette gamme extrèmement étendue de niveau d'expression d'un gène à un autre rend difficile l'analyse de banques d'ADNc en particulier si la détermination de séquences est la stratégie choisie pour la découverte de gènes. La normalisation est un processus complexe au cours duquel le nombre de copies de tous les d'ADNc d'une banque "primaire" est égalisé afin que tous les transcrit soit présents de façon équivalente dans la banque normalisée. La technique de normalisation s'appuie sur une propriété cinétique de l'hybridation entre molécules d'acides nucléiques. La grande difficulté est de sélectionner les molécules simple brin. L'hybridation entre acides nucléiques dépend de nombreux paramètres physico-chimiques. En particulier, la probabilité d'hybridation entre des séquences complémentaires augmente avec :
Pour tenir compte de ces 2 facteurs, on définit le produit (concentration x temps) appelé :
|
|
En pratique, le nombre de copies des gènes fortement et modérément exprimés est donc réduit (en moyenne d'un facteur 100) à celui des gènes rares dans la banque normalisée. En conséquence, :
|
|
|
c. Exemple de protocole pour la préparation d'une banque normalisée et soustraite en une seule étape (Carninci et al., 2000) La stratégie repose sur :
La normalisation et la soustraction sont effectuées en une seule étape. |
|
|
|
|
C'est le processus qui permet à un même gène de générer différents transcrits selon la combinaison des exons qui formeront l'ARNm mature : on obtient différents ADNc. Les répercutions sur les EST que l'on peut obtenir sont les suivantes :
Figure adaptée de "Précis de génomique", Gibson & Muse (2004) |
|
Puisque les séquences des EST ne correspondent qu'aux extrémités 3' ou 5' des ADNc, des séquences distinctes d'EST issues d'un même gène peuvent être interprétées dans un premier temps comme issues de gènes différents. La comparaison des EST et des séquences d'ADN génomique permet de lever cette ambiguïté et d'associer différents EST à un gène unique. |
|
La banque "dbEST" du NCBI (créée en 1993) contient presque 71 millions d'EST (Octobre 2011) obtenues par différents projets de séquençage. Des banques diminuent l'extrème redondance des séquences d'EST en regroupant les séquences correspondant au même gène : UniGene La banque "dbGSS" ("database of Genome Survey Sequence") est semblable à dbEST, mais les séquences sont d'origine génomique et non issues d'ADNc. |
|
5. Le regroupement des EST |
|
Le regroupement ("clustering") des EST nécessite un pré-traitement des séquences peu ou pas spécifiques. Ces séquences sont : a. les contaminations par les séquences des vecteurs de clonage. Ces différents types de séquences sont masqués par des programmes informatiques tel que "RepeatMasker" ou "DUST" dans le cas du système "UniGene" du NCBI Ces logiciels remplacent les nucléotides de ces régions par le symbole "X" qui décrit n'importe quel nucléotide. Les séquences de type "XXX ... XXX" ne sont pas prises en compte par les logiciels de regroupement. b. les séquences répétées (RepeatMasker) qui sont à l'origine d'erreurs lors de la recherche de similitudes. Par exemple, les extrémités 3' non traduites des transcrits (3'-UTR) contiennent des sites alternatifs de poly-adénylation. c. les séquences de faible complexité ("low-complexity regions") : régions qui contiennent peu de caractères différents. Ces régions posent des problémes dans l'analyse des séquences car elles génèrent un score biaisé. |
Source : MUBRI Bioinformatics Group |
Exemples de séquences de faible complexité :
Exemple de programme qui analyse ce type de régions : "SEG" (partie "Algorithm paramaters" de BLAST). |
|
b. Les groupes "UniGene" - NCBI UniGene est un système de regroupement automatique des séquences (et donc des EST) de la base de données GenBank dans différents ensembles non redondants de groupes ou "clusters". Il existe des groupes "UniGene"pour plusieurs dizaines d'espèces animales et végétales.
Remarque : On constate que les chiffres n'augmentent quasiment plus entre 2010 et 2011. Est-ce dû à l'apparition des nouvelles techniques de séquençage à trés haut débit ("NGST") qui permettent une étude du transcriptome à bien plus grande échelle et beaucoup plus précisément (au nucléotide près), avec des conditions expérimentales moins complexes et pour un coût moindre ? En d'autres termes : les approches EST et puces à ADN sont-elles appelées à disparaître au profit d'approche telles que "RNA seq" ou "MPSS" ? |
|
Chaque groupe "UniGene" contient :
"ProtEST" ("Protein/EST Alignments") est un outil qui propose des alignements (déjà générés par BLAST) entre les séquences de protéines d'organismes modèles et la traduction selon les 6 phases de lectures de séquences nucléotidiques issues de "UniGene". La collection "UniGene" a été utilisée comme source de séquences uniques pour la fabrication de puces à ADN. |
|
c. Construction itérative d'un groupe "UniGene" sur la base de transcrits (ARNm) Les séquences sont d'abord masquées par le programme DUST (NCBI). Seules les EST d'au moins 100 paires de bases significatives (et avec un trés petit nombre de "N") sont retenues pour être intégrées à un groupe "UniGene". |
|
1ère analyse :
|
|
|
2ème analyse :
Voir la répartition finale des groupes "UniGene" pour Arabidopsis thaliana L'ensemble des groupes d'EST ainsi construits est comparé à l'ensemble des groupes d'EST construits la semaine précédente et re-numérotés. Puisque le nombre de séquences constitutives d'un groupe peut changer et que l'identifiant d'un groupe peut disparaître (par exemple quand 2 groupes fusionnent / voir le groupe "UniGene" At.49097), il est préférable d'utiliser le numéro d'accession Genbank d'une séquence. |
| d. Exemple d'un groupe "UniGene" |
|
Groupe "UniGene"
At.49098
- Arabidopsis thaliana
|
|
| Protéine : NP_198658.1 | Petite chaîne de la Ribulose-bisphosphate carboxylase (RuBisCO) - 181 acides aminés |
| Banque dbEST : ID.12688 |
stade de développement : plantule de quelques jours - tissu : plantule - vecteur : pBluescript SK (-) - hôte : E. coli XL1-Blue MRF - site de clonage : EcoRI & XhoI |
| ARN messager : CB264334 | 616 paires de base - clone ADNc [MPIZp2000J172Q] - 5 prime - séquence ARNm |
529 séquences d'EST représentent le gène. |
EST : clone RAFL17-46-G19 - extrémité 3' - 435 bases |
|
Exemple : |
Clone : RAFL17-46-G19 - Banques : RAFL17 & dbEST 10432 |
|
RAFL : "RIKEN
Arabidopsis Full-Length cDNAs"
|
|
| 6. L'assemblage des EST et des transcrits |
|
a. Les contig (définition originale donnée par Staden, 1979) La comparaison des séquences permet d'aligner les parties qui se recouvrent partiellement ou"chevauchantes". Les séquences chevauchantes peuvent être assemblées en enchaînements plus grands que l'on appelle des contigs. Cette opération d'assemblage est effectuée par des programmes informatiques tels que :
|
|
|
Voir le résultat obtenu en tapant : "QG_CA_Contig310" dans le champs "ContigID" de la page d'accueil du programme Contig Viewer. |
|
b. La reconstitution de la structure la plus probable d'un gène Elle nécessite d'isoler des ADNc pleine longueur (criblage par hybridation de banque de haute qualité) et de connaître la séquence du génome. La position réelle de l'extrémité 5' peut être déterminée par des techniques telles que l'extension d'amorce ou la protection contre la RNase. Des programmes informatiques tentent de prédire le ou les produits de l'unité de transcription. a. Il faut prédire les séquence signal de la transcription et de la traduction :
b. Il faut prédire les sites d'épissage corrects des exons pour identifier les différents transcrits alternatifs :
Parmi ces programmes, on peut citer, par exemple : Voir "Recherche de gènes et régions codantes" (Université de Nice) : exemples bien expliqués de conflits entre prédiction et données expérimentales. Ces exemples illustrent des cas de figure typiques. |
Les "pipeline". Ce sont des suites logicielles qui permettent le traitement d'un trés grand nombre de données de manière automatisées. Les données de bases sont traitées par un premier logiciel puis les résultats sont soumis à un autre logicie et ainsi de suite jusqu'à l'obtention d'une information riche en renseignements pour le biologiste. |
Ci-contre, une description de l'ensemble du processus du traitement d'EST de la pêche :
Source : ESTree db |
|
| 7. Exemples de résultats issus de l'analyse d'EST |
|
a. Wang et al. (2005) "A comparative survey, by expressed sequence tag analysis, of genes expressed in peach leaves infected with Plum pox virus (PPV) and free from PPV"Canadian J. Plant Pathol. p 410 - 419 Le potyvirus de la sharka du prunier (Plum pox virus, PPV) a pour hôtes naturels les Prunus spp. Le séquençage systématique d'EST permet d'identifier des gènes associés à l'infection, à la réplication et au développement de PPV. Deux banques d'ADNc insérés de façon directionnelle et de longueurs choisies, ont été construites à partir de tissus de feuilles de pêchers infectées ou exemptes de PPV . 3839 EST ont été obtenues. A partir du séquençage partiel des EST et de leurs fonctions présumées, les EST ont été classées en 611 groupes et en 1153 marqueurs isolés.
Les analyses comparatives suggèraient donc à cette époque que :
Les résultats de cette étude ont aidé à mieux comprendre les mécanismes moléculaires associés à la sensibilité à la sharka chez le Prunus persica et ont facilité le développement de nouvelles stratégies de lutte contre le PPV. |
|
b. Melotto et al. (2005) "Comparative bioinformatic analysis of genes expressed in common bean (Phaseolus vulgaris L.) seedlings" Genome 48, 562 - 570 Découverte de marqueurs moléculaires pour l'étiquetage et la cartographie de gènes exprimés chez le haricot. - Trois banques d'ADNc du haricot (Phaseolus vulgaris L.) ont été préparées à partir de jeunes feuilles et de plantules inoculées ou non avec un champignon pathogène, cause de l'anthracnose. - 5255 séquences d'EST ont été inclues dans la banque de données du haricot. - Ces EST regroupées avec les logiciels Phred et CAP3, formaient une collection de 3126 séquences uniques (unigènes). - Au sein des groupes, 318 SNP ("single nucleotide polymorphism" ou polymorphisme mononucléotidique) et 68 indels (insertions / délétions) ont été mis en évidence, ce qui indiquait la présence de familles de séquences paralogues au sein de ces séquences. - La recherche de similarité pour chaque unigène avec des gènes connus dans GenBank, a permis de les classer en 14 catégories :
|
|
8. Application : visualisation de contig à partir du transcrit de la ribulose 1,5-bisphosphate carboxylase - oxygénase ou RuBisCO d'Arabidopsis thaliana. |
| Aller au : NASC
A. thaliana MapView
Fenêtres en haut à droite : taper : "rbcl". Catégorie : "transcript", cliquer sur le lien "rbcl-MIPS". |
|
Combien y -a-t-il d'exons ? Quelle est la taille du transcrit ? Sur quel chromosome ? A quelle position ? Quelle est la taille du chromosome chloroplastique ? Combien contient-il de gènes codant des protéines ? Quelle est la taille de la protéine codée ? De quelle protéine s'agit-il ? Y a-t-il des introns ? |
1 exon 1440 pb position : 54958 - 56397 154 478 pb 85 gènes grande sous-unité de la RuBisCO NON |
|
Trouver un gène proche qui contiennent des introns. |
Item "Genomic Location", cliquer sur le lien : "The start of this transcript is located in Contig chloroplast c". Item "Detailed view", taper dans les cases "bp" : 50000 (début) et 100000 (fin). Cliquer sur l'icône "Refresh". Repérer : "rps12" et sélectionner "transcr:rps12-MIPS" dans le menu déroulant. |
|
Pour quelle protéine code-t-il ? |
protéine ribosomale S12 |
|
Sur quelle région du chromosome se situe-t-il ? Quelle est la taille du plus grand intron ? Quelle est la taille des segments qui constituent le contig ? |
69611 - 98793 pb 28274 pb 3 exons : 232 pb + 26 pb + 114 pb = 372 pb |
| 9. Liens Internet et références bibliographiques |
"Précis de génomique", Gibson & Muse (2004) Adams et al. (1991) "Complementary DNA sequencing: expressed sequence tags and human genome project" Science 252, 1651 - 1656 |
|
Ganeteg et al. (2004) "Is Each Light-Harvesting Complex Protein Important for Plant Fitness ?" Plant Physiol., 134, 502 - 509 Nagaraj et al. (2007) "A hitchhiker's guide to expressed sequence tag (EST) analysis" Brief Bioinform. 8, 6 - 21 |
|
| Boguski et al. (1993) "dbEST-database for expressed sequence tags" Nat Genet. 4, 332 - 333 | |
|
Soares et al. (1994) "Construction and characterization of a normalized cDNA library" Proc. Natl. Acad. Sci. USA 91, 9228 - 9232 Diatchenko et al. (1996) "Suppression subtractive hybridization: A method for generating differentially regulated or tissue-specific cDNA probes and libraries" Biochemistry 93, 6025 - 6030 Asamizu et al. (2000) "A large scale analysis of cDNA in Arabidopsis thaliana: generation of 12,028 non-redundant expressed sequence tags from normalized and size-selected cDNA libraries" DNA Res. 7, 175 - 180 Carninci et al. (2000) "Normalization and subtraction of cap-trapper-selected cDNAs to prepare full-length cDNA libraries for rapid discovery of new genes" Genome Res. 10, 1431 - 1432 |
|
| Boguski et al. (1993) "dbEST-database for expressed sequence tags" Nat. Genet. 4, 332 - 333 | |
| Pontius et al. (2003) "UniGene : a unified view of the transcriptome" The NCBI Handbook - Bethesda (MD) - National Center for Biotechnology Information | |
|
Huang & Madan (1999) "CAP3: A DNA Sequence Assembly Program" Genome Res. 9, 868 - 877 "CAP3" Program (implémentation au PBIL - Lyon) |
|
|
Künne et al. (2005) "CR-EST: a resource for crop ESTs" Nuc. Acids Res., 33, D619 -D621 CR-EST : "The crop expressed sequence tag database" |
|
| "TAIR SeqViewer Whole Genome View" | |
| Staden, R. (1979) "A strategy of DNA sequencing employing computer programs", Nucleic Acids Res. 7, 2601 - 2610 | |