|
|
Génomique : les méthodes de séquençage d'acides nucleiques et l'acquisition des données |
|
1. Introduction 2. Détermination des séquences en nucléotides par la méthode historique de Fréderick Sanger 3. Méthode du pyroséquençage 4. Les technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGST) |
5. Séquençage du transcriptome 6. Les technologies de demain ? 7. Stratégies de séquençage des génomes : méthode hiérarchique vs. méthode en "vrac" 8. L'assemblage : les contigs 9. Liens Internet et références bibliographiques |
|
1. Introduction Le "matériaux de base" de la génomique (et de la protéomique) est la séquence : l'enchaînement ordonné et orienté de nucléotides pour les acides nucléiques (ou d'acides aminés pour les protéines). De plus en plus de génomes sont séquencés ou en cours de séquençage. Voir les bases de données suivantes :
|
Source : B. Dujon (2008) |
| De la vitesse
d'obtention de ces séquences et de leur qualité (c'est-à-dire
leur fiabilité)
dépend l'ensemble des analyses en aval.
Un énorme effort, essentiellement technologique, a été fait dans les années 90 pour obtenir des outils de plus en plus performants et surtout automatisés. Des quelques 800 à 1000 nucléotides qu'un chercheur pouvait espérer séquencer en quelques jours par des techniques lourdes, complexes et dangereuses (utilisation d'isotopes radioactifs) dans les années 80, on est arrivé à des techniques de séquençage simples qui génèrent des millions de nucléotides par jour. Bientôt des milliards ? Enfin, l'ensemble des données est implémenté en temps réel dans des bases de données pour l'analyse. Pour le séquençage des premiers génomes "historiques" (entre autre le génome humain), l'automatisation a requis dans les années 1990 / 2000 le développement :
|
|
Figure ci-contre, la ligne de production automatique pour la préparation des échantillons pour le séquençage du génome humain au Whitehead Institute - Center for Genome Research, en 2001. |
Source : Nature 409, 860 - 921 |
2. Détermination des séquences en nucléotides par la méthode historique de Fréderick Sanger (Prix Nobel chimie 1980) |
Bien que de moins en moins utilisée au profit de techniques nouvelles, la méthode de Sanger est historiquement capitale puisqu'elle a permis les premiers séquençages de génomes complets :
|
Fin 2011, avec l'avènement des nouvelles technologies de séquençage à trés haut débit : Nombre de génomes séquencés : 1896 Nombre de génomes en cours: 11450 "Genomes OnLine Database" - GOLD |
Les nucléotides au sein des acides nucléiques sont liés par une liaison phosphodiester qui s'établit entre le groupement OH sur le carbone 3' du ribose du nucléotide dit en position 5' et le phosphore du groupe phosphoryle en position α du nucléotide dit en position 3'. La méthode de séquençage de Sanger (dite par terminaison de chaîne) utilise des nucléotides appelés didésoxyribonucléotides (ddNTP) qui ont un atome d'hydrogène à la place du groupement OH sur le carbone 3' du ribose. Ils peuvent donc être incorporés dans un brin d'ADN en cours de synthèse, mais ils ne permettent pas qu'un autre nucléotide soit incorporé après eux : en effet, l'absence de l'atome d'oxygène en 3' empêche la formation d'une nouvelle liaison phosphodiester. L'allongement du brin d'ADN s'arrète donc au niveau du ddNTP incorporé, d'où terminaison de la synthèse de l'ADN. |
|
|
|
Sanger et al. (1977) Proc. Natl Acad. Sci. USA, 74, 5463 - 5467 |
La polymérase nécessitant un court fragment complémentaire du brin à séquencer pour initier la synthèse du brin copie, la méthode de séquençage utilisait une amorce marquée ("dye-labeled primer"). Quatre réactions de séquençage étaient donc menées en parallèle dans quatre tubes distincts, contenant chacun un seul didésoxyribonucléotide (ddTTP, ddATP, ddCTP et ddGTP) :
Dans chaque tube, toutes les copies d'ADN synthétisés sont interrompues derrière un seul type de nucléotide. Le rapport des concentrations entre les dNTP et les didésoxyribonucléotides et le nombre de réactions simultanées catalysées par la polymérase assure statistiquement que toutes les copies partielles intermédiaires possibles de la molécule d'ADN seront synthétisées. |
On sépare alors les copies selon leur taille par une migration électrophorétique dans un gel poreux : le contenu de chaque tube étant déposé dans un puits distinct. Ces gels permettent de séparer deux intermédiaires consécutifs qui ont une différence de taille d'un seul nucléotide. Exemple ci-contre : profil d'électrophorèse du contenu du tube avec le ddCTP. Toutes les copies intermédiaires d'ADN synthétisé sont terminées par un C (figure ci-contre). |
Source : University of Michigan |
|
La technique de séquençage "dye terminator sequencing" Smith et al. (1986) "Fluorescence detection in automated DNA sequencing" Nature 321, 674 - 679 Elle utilise des didésoxyribonucléotides dont chacun est marqué par un fluorophore spécifique. Les fragments d'ADN synthétisés portent ce fluorophore terminal. On les appelle des terminateurs d'élongation ou "BigDye Terminators" ou "Dye-labeled terminator". |
Ci-contre et ci-dessous, exemple de structures de ddNTP fluorescents :
|
Source : Brandis (1999) "Dye structure affects Taq DNA polymerase terminator selectivity" Nucleic Acids Res. 27, 1912 - 1918 |
|
|
La méthode utilisant une amorce marquée est plus laborieuse et coûteuse (elle nécessite 4 réactions distinctes) que celle des ddNTP fluorescents. Par ailleurs, l'un des problème du séquençage est la formation de "faux-stop" : c'est la terminaison prématurée d'une copie qui implique un désoxyribonucleotide à la place d'un ddNTP. Un autre avantage de la méthode des ddNTP fluorescents est que les "faux-stop" ne sont pas détectés car ils ne fluorescent pas. |
Il n'y a qu'une réaction de séquençage en présence des 4 didésoxyribonucléotides : ADN matrice + dNTP + ddCTP fluorescent bleu + ddATP fluorescent vert + ddGTP fluorescent jaune + ddGTP fluorescent rouge
|
Source : University of Michigan |
Ci-contre, le séquenceur "MegaBACE®" (société Amersham) qui est une plateforme capillaire à haut débit pour l'analyse d'ADN en séquençage et en analyse de fragments (génotypage, SNP, ...). Schématiquement, l'appareil est composé de 96 capillaires, d'un système d'électrophorèse, d'un laser et d'une caméra CCD (Charge-Coupled Device). |
|
|
| La dernière étape est la lecture des profils bruts ou "base-calling" (détermination de la séquence par appel de bases). |
|
|
Elle permet d'effectuer un séquençage rapide et à moindre coût qu'un séquençage par la méthode de Sanger car elle ne nécessite pas de clonage et la lecture de la séquence obtenue après le séquençage est directe. Les nucléotides (sous forme désoxyribonucleotide triphosphate - dNTP*) sont ajoutés l'un après l'autre (et non pas tous ensemble comme dans la méthode de Sanger). |
|
Source : Ahmadian et al. (2006) |
|
Si le nucléotide ajouté est complémentaire du nucléotide du brin matrice, il est incorporé dans le brin en cours de synthèse et un pyrophosphate inorganique (PPi) est libéré. |
|
|
L'ATP sulfurylase transforme stoechiomètriquement le pyrophophate libéré en ATP en présence d'un substrat : l'adénosine 5' - phosphosulfate (APS). L'ATP formé est utilisé par une luciférase qui transforme la luciférine en oxyluciférine qui génère un signal lumineux dans le visible proportionnel à la quantité d'ATP. L'apyrase dégrade les nucléotides non incorporés et l'excès d'ATP. |
|
Remarque importante : l'ATP est le substrat de la polymérase (pour l'élongation du brin en cours de synthèse) mais il est aussi formé par l'ATP sulfurylase. Pour la polymérisation, on utilise donc un analogue de l'ATP : la désoxyadénosine alfa-thio triphosphate (dATPalphaS) qui n'est pas un substrat de la luciférase. |
|
Le capteur CCD du séquenceur capte le signal lumineux et le traduit par un pic sur le pyrogramme™. La hauteur du pic est proportionnelle à l'intensité du signal lumineux, elle-même proportionnelle au nombre de nucléotides incorporés au même moment. |
|
On déduit la séquence à partir de la taille des pics obtenus. En cas de mélange de nucléotides à une même position (polymorphisme de séquence), la taille des pics permet d'avoir une quantification de la proportion de brins porteurs de l'un ou l'autre des nucléotides. |
Application du pyroséquençage : étude du transcriptome de Arabidopsis thaliana - EST Weber et al. (2007) "Sampling the Arabidopsis transcriptome with massively parallel pyrosequencing" Plant Physiol. 144, 32 - 42 Aller à l'outil de visualisation. Modifier le menu déroulant de la vision la plus précise "Voir 100 bp" à la plus large "Voir 100 kbp". |
| Méthode | longueur des lecture (nucléotides) |
nombre de lectures | total par tour ("run") (Mpb) |
coût relatif par nucléotide |
| Sanger | 700 | 96 | 0,07 | 1 |
| pyroséquençage | 250 | 400 000 | 100 | 0,1 |
| phase solide | 25 - 35 | 40 à 80 millions | 1000 - 2000 | 0,01 |
| Lire l'article : "Vers un génome à 100 dollars" | ||||
Du fait des données en masse liées aux nouvelles technologies de séquençage, des "simulateurs" ont été développés pour prédire le coût et la durée (estimés sur la base du génome d'Arabidopsis thaliana et de son annotation). |
4. Les technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGST) |
Une nouvelle révolution des domaines en "omique" et notamment en en génomique fonctionnelle a eu lieu avec l'avènement ces 5 dernières années de technologies de séquençage à trés haut débit ou massivement parallèles. Elles permettent d'amplifier spécifiquement un fragment d'ADN isolé, en évitant les étapes de clonage bactérien particulièrement longues. Ces méthodes sont parallèlisées : des centaines de milliers (voire des millions) de réactions ont lieu en même temps dans des barettes qui contiennent des puits minuscules en fibre optique. Les fragments séquencés sont courts. L'acquisition, la compilation, l'étude et la fiabilité des résultats a nécessité le développement d'outils bioinformatiques adaptés. Ces méthodes (incluant le pyroséquençage) permettent d'aborder :
Voir l'article : Morozova & Marra (2008) "Applications of next-generation sequencing technologies in functional genomics" Genomics 92, 255 - 264 |
La technologie développée par Roche 454 - séquenceurs GS20 et GS FLX La société "454 Life Sciences" (Connecticut - USA) a développé les séquenceurs GS20 et GS FLX ("Genome Sequencer" - distribution par Roche Diagnostics). La technique utilisée (Margulies et al., 2005) est basée sur l'amplification d'ADN lié à une bille en émulsion et au pyroséquençage. Lors de la synthèse d'un nouveau brin d'ADN, la fluorescence portée par le nouveau nucléotide est lue. |
Source : 454.com |
| Cette technique permet le séquençage d'un nombre colossal de
bases d'ADN à un coût 10 fois moindre qu'avec la méthode de Sanger.
En effet, le séquençage est fait en un temps record : car avec la technique classique, l'échantillonnage pour le séquençage d'un génome moyen prend en moyenne deux mois, puisqu'il faut découper l'ADN en petits fragments et les incérer dans des vecteurs (étape de clonage). |
GS20 - 20 mégabases (Mb) : la réaction de pyroséquençage lit 100 bases dans 200.000 puits en parallèle par cycle de mesure de 4-5 heures. GS FLX - 100 Mb (photo ci-contre) : 220 à 240 bases avec 400.000 lectures en parallèle. GS FLX Titanium - 400 - 500 Mb : 350 à 450 bases avec 1 million de lectures en parallèle |
Source : Roche |
Exemples d'application
|
Les autres technologies actuelles 1. "llumina sequencing" ou "Solexa sequencing" : le Solexa basé sur l'amplification, l'accrochage-liaison sur puce et l'utilisation de terminateurs de chaîne réversibles marqués par des fluorochromes. Voir un développement de la technique et du principe des réactions chimiques. 2. "SOLiD" ("Sequencing by Oligonucleotide Ligation and Detection") : le séquençage est basé sur l'amplification par émulsion et l'hybridation-ligature chimique. Il utilise une ligation avec une DNA ligase. Voir un développement de la technique et du principe des réactions chimiques. |
3. "Helicos BioSciences": technologie "True Single Molecule Sequencing (tSMS)". Les nucléotides fluorescents sont ajoutés l'un après l'autre. Les nucléotides non incorporés (selon le brin matrice), sont éliminés. Une illumination avec un faisceau laser induit une émission de fluorescence aux endroits où le nucléotide a été incorporé. Le groupe fluorescent du nucléotide qui vien dêtre incorporé est à son tour éliminé afin que le nucléotide suivant puisse être incorporé par la polymérase. Voir une vidéo qui décrit cette technologie (figure ci-contre). |
Source : Helicos BioSciences |
4. L'une des dernières technologies en date : "Ion Torrent" Elle est basée sur des puces semi-conductrices remplies de puits. Un proton est relargué quand un nucléotide est incorporé par la polymérase dans l'ADN. Cela résulte en un changement de pH local qui est détecté par cette technologie sensible à la variation d'ions. Cette technologie ne nécessite :
Rothberg et al. (2011) "An integrated semiconductor device enabling non-optical genome sequencing" Nature 475, 348 - 352 |
Source : Rothberg et al. (2011) |
Ci-dessous : tableau comparatif des différentes nouvelles technologies de séquençage Voir aussi : Suzuki et al. (2011) |
Source : Metzker M. - Nature (2010) |
Des millions de fragments ("ultra high-throughput short reads") sont générés et séquencés. |
Source : Nagalakshmi et al. (2008) |
L'un des principaux avantages de la technologie "RNA-seq" ("RNA-sequencing") est sa résolution à la base près : en effet, les fragments séquencés sont trés courts (quelques dizaines de nucléotides), leur nombre est énorme (plusieurs millions !) et ils se chevauchent. |
Cette méthode permet donc l'analyse :
|
Source : BGI |
Source : BGI |
Quelques avantages de la méthode "RNA-seq" ("RNA-sequencing")
|
b. La méthode "Massively parallel signature sequencing" - MPSS - Brenner et al. (2000) Une séquence signature de 16 à 20 pb (en moyenne 17 pb) fixée à une bille est séquencée / identifiée. Cette identification est effectuée en parallèle sur des centaines de milliers de billes et environ 1 million de signatures sont obtenues par expérience. Voir une animation décrivant cette technique. Avantages de cette technique :
|
|
Source : Buckingham S. (2003) |
Application à Arabidopsis
|
Voir le cours : Quelques méthodes d'analyse quantitative du transcriptome et de l'expression des gènes |
En parallèle de ces technologies "massivement productives de courts fragments séquencés" ("ultra high-throughput short reads") ont été développés : - de nouveaux algorithmes pour l'alignement de ces millions de courts segments séquencés avec des génomes entiers ("alignement du transcriptome"). Exemple : Cufflinks permet l'assemblage des transcrits, le calcul de leur abondance, l'analyse de l'expression différentielle (différentes conditions), l'analyse de la régulation de l'expression. - des site web avec des applications de visualisation ("mapper") et d'annotation. Exemple : TopHat : "a fast splice junction mapper for RNA-Seq reads". Trapnell et al. (2009)"TopHat: Discovering splice junctions with RNA-Seq" Bioinformatics 25, 1105 - 1111 |
Projets "pharaoniques" de séquençage de génomes "Beijing Genomics Institute" (BGI) espère dépasser l'équivalent de 10.000 séquençages du génome humain par an. Les chiffres deviennent quelque peu étourdissants ! (rappels : E = exa = 1018 / P = péta = 1015 / T = téra = 1012 / "flops" ("Floating Point Operations Per seconds") = opérations par seconde d'un processeur).
Evolution des moyens bioinformatiques De nouveaux algorithmes et suites logicielles sont développés pour le traitement de quantités aussi colossales d'informations : par exemple SOAP ("Short Oligonucleotide Analysis Package") développé par le BGI permet d'assembler un génome en quelques jours. Voir les articles :
Autres exemples de programmes |
| 6. Les technologies de demain ? |
1. Le passage de fragments d'ADN au travers de nanopores constitués de protéines (hémolysine) incluses dans une bicouche lipidique. 2. La spectromètrie de masse appliquée aux fragments d'ADN. 3. La visualisation directe de molécule d'ADN par microscopie de force atomique. Source : Oxford Nanopore Technologies Ltd |
|
Cette partie retrace davantage un certain "historique". En regard de l'avancée phénoménale des techniques et des capacités d'analyse, certaines parties peuvent sembler obsolètes mais elles posent certains fondements de la génomique. |
|
7. Stratégies de séquençage des génomes a. La méthode hiérarchique ou "clone par clone" |
|
Le génome est découpé en un nombre "restreint" (quelques dizaines de milliers) de fragments de grande taille (50 à 200 kilo paires de base) qui couvrent l'ensemble du génome. Ces fragments sont clonés dans des vecteurs spéciaux : les YAC ("Yeast Artificial Chromosome" - problème d'échange de fragments d'ADN), les BAC ("Bacterial Articifial Chromosome") ou des vecteurs dérivés du phage P1 (les PAC). Une carte physique des clones est établie pour faciliter l'obtention de la séquence finale du génome : elle permet d'ordonner les clones dans le génome. |
Source : "Précis de génomique" Gibson & Muse (2004) |
Les cartes de liaison disposent des marqueurs ordonnés le long des chromosomes par la mesure de leur liaison deux à deux. Ces cartes de liaison permettent de se repérer dans le génome et sont une aide essentielle dans la construction de la carte physique. Un sous-ensemble avec un minimum de recouvrement (pour avoir une couverture la plus complète possible du génome) est ensuite choisi et séquençé en "vrac" (voir ci-dessous) : chaque clone de grande taille est découpé en un grand nombre de fragments de petite taille (environ 2000 paires de bases) et les extrémités sont séquencées individuellement. Les problèmes d'assemblage ne se posent qu'à l'échelle des grands fragments et sont facilement résolus en multipliant le nombre de lectures dans ces zones. |
|
b. La méthode de séquençage aléatoire global ou "en vrac" ou "shotgun" |
|
Méthode très différente et complémentaire. Une carte de grands fragments ordonnés n'est pas établie au préalable. Un trés grand nombre de séquences sont obtenues de façon aléatoire à l'échelle du génome entier. Les extrémités d'une partie de ces fragments sont séquencés. Puis ces séquences sont assemblées selon leurs recouvrements. Du fait du grand nombre de fragments et du clonage, certaines séquences ne sont jamais séquencées. |
Source : "Précis de génomique" Gibson & Muse (2004) |
La difficulté d'assemblage est beaucoup plus grande que dans la stratégie "clone par clone" et le nombre énorme de comparaisons de séquences nécessite une puissance de calcul considérable. Il n'est pas possible, pour combler les trous entre les "contigs", de diriger le travail de séquençage supplémentaire sur un grand fragment bien identifié. (Dans la littérature : "WGS sequences = whole genome shotgun sequences") |
|
Lors de l'assemblage terminal pour l'ébauche d'un génome à partir des différents clones BAC séquencés, il faut éliminer :
|
Avec les technologies encore les plus courantes dans un grand nombre de laboratoires, chaque séquençage ne permet d'obtenir une lecture que de quelques milliers de paires de base . Il n'est donc pas possible de séquencer en une seule fois des molécules d'ADN aussi grandes que les chromosomes. Pour reconstituer ces immenses séquences, il faut effectuer un grand nombre de séquençages, plusieurs fois supérieur à la taille du chromosome. Ces séquençages redondants permettent :
|
|
Pour les trés grands génomes, la redondance doit être d'un facteur 8 à 10 (on dit une "profondeur de 8 à 10X"). Celà signifie :
|
Source : B. Dujon (2008) |
|
La comparaison des séquences permet d'aligner les parties qui se recouvrent partiellement ou chevauchantes. Les séquences chevauchantes peuvent être assemblées en enchaînements plus grands que l'on appelle des contigs. Cette opération d'assemblage est effectuée par des programmes informatiques. Elle permet ainsi en collant des contigs à d'autres contigs de reconstituer des séquences de plusieurs millions à plusieurs dizaines de millions de bases. |
|
Source : Genoscope - FAQ |
|
|
La lecture des profils bruts ou "base-calling" (détermination de la séquence par appel de bases) s'effectue en routine par des programmes informatiques qui lisent les bases, comparent les séquences similaires et fournissent une plate-forme intuitive de correction. La suite logicielle publique développée à l'Université de Washington contient les programmes :
|
|
Source : "Précis de génomique" Gibson & Muse (2004) |
Comme le séquençage est effectué sur des sous-fragments pris de manière aléatoire, même avec un tel niveau de redondance, il reste des parties non assemblées : des trous ("gap") qui peuvent être "comblés" par un travail ciblé. Pour déterminer les relations de voisinage des contigs, les liens clones sont considérés, c'est-à-dire les lectures obtenues aux deux extrémités d'un même fragment d'ADN. On recherche parmi ces paires celles qui s'ancrent dans deux contigs différents. Cela permet de jeter un pont entre les deux contigs et de les orienter. De plus, le fragment d'ADN "à cheval" sur le trou entre les deux contigs peut faire l'objet d'un séquençage supplémentaire, ce qui permet de combler le trou. |
Les techniques actuelles sont beaucoup plus sophistiquées. La figure ci-contre montre le "remplissage du trou" dans le chromosome 6 humain entre la position 9,199,727 et la position 9,249,729, soit la rechercche de ... 2 nucléotides sur 2,8 milliards ! |
Source : Bovee et al. (2008) |
| 9. Liens Internet et références bibliographiques |
| "Précis de génomique" - Gibson & Muse (2004) - Ed. De Boeck Université - ISBN : 2-8041-4334-1 | |
|
Méthode de séquençage de F. Sanger : Sanger et al. (1977) "DNA sequencing with chain-terminating inhibitors" Proc. Natl Acad. Sci. USA 74, 5463 - 5467 Film (format QuickTime) : "Dideoxy Sequencing of DNA" Voir l'animation : "Sanger sequencing" |
|
| Le séquençage des génomes - Université Jussieu | |
| Génoscope : Questions fréquemment posées à propos du génome humain. | Aller au site |
|
Articles en relation avec les nouvelles techniques de séquençage
|
|
|
Ronaghi et al. (1998) "A sequencing method based on real-time pyrophosphate" Science 281, 363 - 365 Ahmadian et al. (2006) "Pyrosequencing: History, biochemistry and future" Clinica Chimica Acta 363, 83 - 94 |
Biotage |