Génomique : les méthodes de séquençage d'acides nucleiques et l'acquisition des données
Tweet

1. Introduction

2. Détermination des séquences en nucléotides par la méthode historique de Fréderick Sanger

3. Méthode du pyroséquençage

4. Les technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGST)

 

5. Séquençage du transcriptome

6. Les technologies de demain ?

7. Stratégies de séquençage des génomes : méthode hiérarchique vs. méthode en "vrac"

8. L'assemblage : les contigs

9. Liens Internet et références bibliographiques

 

1. Introduction

Le "matériaux de base" de la génomique (et de la protéomique) est la séquence : l'enchaînement ordonné et orienté de nucléotides pour les acides nucléiques (ou d'acides aminés pour les protéines).

De plus en plus de génomes sont séquencés ou en cours de séquençage.

Voir les bases de données suivantes :

Exemples de genomes sequences

Source : B. Dujon (2008)

De la vitesse d'obtention de ces séquences et de leur qualité (c'est-à-dire leur fiabilité) dépend l'ensemble des analyses en aval.

Un énorme effort, essentiellement technologique, a été fait dans les années 90 pour obtenir des outils de plus en plus performants et surtout automatisés.

Des quelques 800 à 1000 nucléotides qu'un chercheur pouvait espérer séquencer en quelques jours par des techniques lourdes, complexes et dangereuses (utilisation d'isotopes radioactifs) dans les années 80, on est arrivé à des techniques de séquençage simples qui génèrent des millions de nucléotides par jour.

Bientôt des milliards ?

Enfin, l'ensemble des données est implémenté en temps réel dans des bases de données pour l'analyse.

Pour le séquençage des premiers génomes "historiques" (entre autre le génome humain), l'automatisation a requis dans les années 1990 / 2000 le développement :

  • de système d'électrophorèse capillaire piloté par ordinateur qui ont remplacé les gel à plat
  • de robot passeur d'échantillon qui permet d'enchaîner les échantillons
  • de marqueurs fluorescents dont la lumière réfléchie après excitation par un laser est captée par une cellule CCD (Charge-Coupled Device)
  • de suites logicielles permettant l'analyse des signaux sortant des séquenceurs et leur mise en forme sous forme de fichiers analysables (électrophorègramme et séquence)

Figure ci-contre, la ligne de production automatique pour la préparation des échantillons pour le séquençage du génome humain au Whitehead Institute - Center for Genome Research, en 2001.

Ligne de production automatique pour la preparation des echantillons pour le sequencage du genome humain

Source : Nature 409, 860 - 921

Retour haut de page

 

2. Détermination des séquences en nucléotides par la méthode historique de Fréderick Sanger (Prix Nobel chimie 1980)

Bien que de moins en moins utilisée au profit de techniques nouvelles, la méthode de Sanger est historiquement capitale puisqu'elle a permis les premiers séquençages de génomes complets :

  • Haemophilus influenzae 1995
  • Saccharomyces cerevisiae 1996
  • Escherichia coli K-12 1997
  • Caenorhabditis elegans 1998
  • Arabidopsis thaliana 2000
  • Drosophila melanogaster 2000
  • Homme 2001
  • Mus musculus (Souris) 2002
  • Rat 2004

Fin 2011, avec l'avènement des nouvelles technologies de séquençage à trés haut débit :

Nombre de génomes séquencés : 1896

Nombre de génomes en cours: 11450

"Genomes OnLine Database" - GOLD

Les nucléotides au sein des acides nucléiques sont liés par une liaison phosphodiester qui s'établit entre le groupement OH sur le carbone 3' du ribose du nucléotide dit en position 5' et le phosphore du groupe phosphoryle en position α du nucléotide dit en position 3'.

La méthode de séquençage de Sanger (dite par terminaison de chaîne) utilise des nucléotides appelés didésoxyribonucléotides (ddNTP) qui ont un atome d'hydrogène à la place du groupement OH sur le carbone 3' du ribose.

Ils peuvent donc être incorporés dans un brin d'ADN en cours de synthèse, mais ils ne permettent pas qu'un autre nucléotide soit incorporé après eux : en effet, l'absence de l'atome d'oxygène en 3' empêche la formation d'une nouvelle liaison phosphodiester.

L'allongement du brin d'ADN s'arrète donc au niveau du ddNTP incorporé, d'où terminaison de la synthèse de l'ADN.

liaison phosphodiester

didesoxyribonucleotides ddNTP

Sanger et al. (1977)

Proc. Natl Acad. Sci. USA, 74, 5463 - 5467

La polymérase nécessitant un court fragment complémentaire du brin à séquencer pour initier la synthèse du brin copie, la méthode de séquençage utilisait une amorce marquée ("dye-labeled primer").

Quatre réactions de séquençage étaient donc menées en parallèle dans quatre tubes distincts, contenant chacun un seul didésoxyribonucléotide (ddTTP, ddATP, ddCTP et ddGTP) :

  • ADN matrice + amorce marquée + dNTP + ddTTP
  • ADN matrice + amorce marquée + dNTP + ddATP
  • ADN matrice + amorce marquée + dNTP + ddCTP
  • ADN matrice + amorce marquée + dNTP + ddGTP

Dans chaque tube, toutes les copies d'ADN synthétisés sont interrompues derrière un seul type de nucléotide.

Le rapport des concentrations entre les dNTP et les didésoxyribonucléotides et le nombre de réactions simultanées catalysées par la polymérase assure statistiquement que toutes les copies partielles intermédiaires possibles de la molécule d'ADN seront synthétisées.

On sépare alors les copies selon leur taille par une migration électrophorétique dans un gel poreux : le contenu de chaque tube étant déposé dans un puits distinct.

Ces gels permettent de séparer deux intermédiaires consécutifs qui ont une différence de taille d'un seul nucléotide.

Exemple ci-contre : profil d'électrophorèse du contenu du tube avec le ddCTP. Toutes les copies intermédiaires d'ADN synthétisé sont terminées par un C (figure ci-contre).

Gel electrophorese

Source : University of Michigan

La technique de séquençage "dye terminator sequencing"

Smith et al. (1986) "Fluorescence detection in automated DNA sequencing" Nature 321, 674 - 679

Elle utilise des didésoxyribonucléotides dont chacun est marqué par un fluorophore spécifique. Les fragments d'ADN synthétisés portent ce fluorophore terminal.

On les appelle des terminateurs d'élongation ou "BigDye Terminators" ou "Dye-labeled terminator".

Ci-contre et ci-dessous, exemple de structures de ddNTP fluorescents :

  • 6-TAMRA-ddTTP
  • 6-FAM-ddTTP
  • 5-TET-ddCTP
  • 5-HEX-deaza-ddGTTP
  • R = 2',3'-dideoxyribose-5'-triphosphate
  • FAM = 6-carboxyfluorescéine

5-HEX-deaza-ddGTTP

Source : Brandis (1999) "Dye structure affects Taq DNA polymerase terminator selectivity" Nucleic Acids Res. 27, 1912 - 1918

6-FAM-ddTTP

5-TET-ddCTP

La méthode utilisant une amorce marquée est plus laborieuse et coûteuse (elle nécessite 4 réactions distinctes) que celle des ddNTP fluorescents.

Par ailleurs, l'un des problème du séquençage est la formation de "faux-stop" : c'est la terminaison prématurée d'une copie qui implique un désoxyribonucleotide à la place d'un ddNTP.

Un autre avantage de la méthode des ddNTP fluorescents est que les "faux-stop" ne sont pas détectés car ils ne fluorescent pas.

Il n'y a qu'une réaction de séquençage en présence des 4 didésoxyribonucléotides :

ADN matrice + dNTP + ddCTP fluorescent bleu + ddATP fluorescent vert + ddGTP fluorescent jaune + ddGTP fluorescent rouge

  • L'excitation se fait à 2 longueurs d'onde différentes par un laser à l'argon. L'émission de fluorescence est mesurée à 4 longueurs d'onde correspondant aux 4 fluorophores.
  • Chaque base a donc un signal spécifique qui permet de l'identifier lors de son passage dans le faisceau d'un photomètre situé à la sortie du capillaire (figure ci-dessous).
  • L'analyse des signaux reçus est réalisés par un ordinateur et permet de reconstituer la séquence avec une grande précision (figure ci-contre).

Electrophorese ddNTP fluorescents

Source : University of Michigan

Ci-contre, le séquenceur "MegaBACE®" (société Amersham) qui est une plateforme capillaire à haut débit pour l'analyse d'ADN en séquençage et en analyse de fragments (génotypage, SNP, ...).

Schématiquement, l'appareil est composé de 96 capillaires, d'un système d'électrophorèse, d'un laser et d'une caméra CCD (Charge-Coupled Device).

  • Les capillaires (diamètre environ 250 µm), sont remplis d'un polymère qui sert de tamis moléculaire.
  • Les molécules d'ADN sont introduites à une extrémité des capillaires par électro-injection et migrent ensuite tout au long de ceux-ci sous l'effet d'un très haut voltage (8500 volts) de façon à les séparer en fonction de leur longueur.
  • Près de l'anode, un rayon laser traverse chaque capillaire afin d'exciter les ddNTP fluorescents incorporées à l'ADN au cours de la réaction de séquençage.
  • Une caméra CCD mesure l'émission de fluorescence au fur et à mesure que les copies d'ADN passent devant le laser. Les ddNTP fluorescents sont distingués les uns des autres selon la longueur d'onde émise. Exemples : TAMRA : excitation 552 nm - émission 575 nm / FAM : excitation 490 nm - émission 520 nm.

sequenceur

La dernière étape est la lecture des profils bruts ou "base-calling" (détermination de la séquence par appel de bases).

Electrophoregramme

Retour haut de page

 

3. Méthode du pyroséquençage

Elle permet d'effectuer un séquençage rapide et à moindre coût qu'un séquençage par la méthode de Sanger car elle ne nécessite pas de clonage et la lecture de la séquence obtenue après le séquençage est directe.

Les nucléotides (sous forme désoxyribonucleotide triphosphate - dNTP*) sont ajoutés l'un après l'autre (et non pas tous ensemble comme dans la méthode de Sanger).

Source : Ahmadian et al. (2006)

Addition sequentielle des nucleotides lors du pyrosequencage

Si le nucléotide ajouté est complémentaire du nucléotide du brin matrice, il est incorporé dans le brin en cours de synthèse et un pyrophosphate inorganique (PPi) est libéré.

pyrophosphate inorganique PPi

L'ATP sulfurylase transforme stoechiomètriquement le pyrophophate libéré en ATP en présence d'un substrat : l'adénosine 5' - phosphosulfate (APS).

L'ATP formé est utilisé par une luciférase qui transforme la luciférine en oxyluciférine qui génère un signal lumineux dans le visible proportionnel à la quantité d'ATP.

L'apyrase dégrade les nucléotides non incorporés et l'excès d'ATP.

Reaction de la polymerase et l'apyrase lors du pyrosequencage

Remarque importante : l'ATP est le substrat de la polymérase (pour l'élongation du brin en cours de synthèse) mais il est aussi formé par l'ATP sulfurylase.

Pour la polymérisation, on utilise donc un analogue de l'ATP : la désoxyadénosine alfa-thio triphosphate (dATPalphaS) qui n'est pas un substrat de la luciférase.

Le capteur CCD du séquenceur capte le signal lumineux et le traduit par un pic sur le pyrogramme™.

La hauteur du pic est proportionnelle à l'intensité du signal lumineux, elle-même proportionnelle au nombre de nucléotides incorporés au même moment.

pyrogramme pyrosequencage

Source : Ahmadian et al. (2006)

On déduit la séquence à partir de la taille des pics obtenus.

En cas de mélange de nucléotides à une même position (polymorphisme de séquence), la taille des pics permet d'avoir une quantification de la proportion de brins porteurs de l'un ou l'autre des nucléotides.

Application du pyroséquençage : étude du transcriptome de Arabidopsis thaliana - EST

Weber et al. (2007) "Sampling the Arabidopsis transcriptome with massively parallel pyrosequencing" Plant Physiol. 144, 32 - 42

Aller à l'outil de visualisation. Modifier le menu déroulant de la vision la plus précise "Voir 100 bp" à la plus large "Voir 100 kbp".

Méthode

longueur des lecture (nucléotides)

nombre de lectures

total par tour ("run") (Mpb)

coût relatif par nucléotide

Sanger 700 96 0,07 1
pyroséquençage 250 400 000 100 0,1
phase solide 25 - 35 40 à 80 millions 1000 - 2000 0,01
Lire l'article : "Vers un génome à 100 dollars"

Du fait des données en masse liées aux nouvelles technologies de séquençage, des "simulateurs" ont été développés pour prédire le coût et la durée (estimés sur la base du génome d'Arabidopsis thaliana et de son annotation).

Retour haut de page

 

4. Les technologies de séquençage à trés haut débit ("next-generation high-throughput DNA sequencing technologies" - NGST)

Une nouvelle révolution des domaines en "omique" et notamment en en génomique fonctionnelle a eu lieu avec l'avènement ces 5 dernières années de technologies de séquençage à trés haut débit ou massivement parallèles.

Elles permettent d'amplifier spécifiquement un fragment d'ADN isolé, en évitant les étapes de clonage bactérien particulièrement longues.

Ces méthodes sont parallèlisées : des centaines de milliers (voire des millions) de réactions ont lieu en même temps dans des barettes qui contiennent des puits minuscules en fibre optique.

Les fragments séquencés sont courts.

L'acquisition, la compilation, l'étude et la fiabilité des résultats a nécessité le développement d'outils bioinformatiques adaptés.

Ces méthodes (incluant le pyroséquençage) permettent d'aborder :

  • le séquençage de novo ou le re-séquençage d'un génome connu
  • l'annotation (ou la ré-annotation) de plus en plus précise et exhaustive d'un génome
  • l'étude de la variabilité génétique et du polymorphisme de nucléotide simple (SNP)
  • le séquencage d'haplotypes particuliers lors du clonage positionnel d'un gène d'intérêt
  • l'étude du transcriptome : identification des sites de démarrage de la transcription, des séquences frontière intron/exon
  • l'étude du transcriptome : étude des évènements de l'épissage alternatif
  • l'étude du transcriptome : analyse quantitative du niveau d'expression des gènes
  • l'étude du transcriptome : quantification et détection d'ARN rares, identification de régions dont on ne savait pas au préalable qu'elles sont transcrites
  • l'étude du transcriptome : étude du profil en petits ARN non codants ("small ncRNAs"), découverte de gènes codant ces types d'ARN
  • l'étude du profil de méthylation (épigénétique)
  • l'étude des interactions ADN / protéines
  • l'étude des modifications post-traductionnelles des histones
  • la génomique médicale (évènements de mutation aberrants)
  • la métagénomique
  • l'épigénomique

Voir l'article : Morozova & Marra (2008) "Applications of next-generation sequencing technologies in functional genomics" Genomics 92, 255 - 264

La technologie développée par Roche 454 - séquenceurs GS20 et GS FLX

La société "454 Life Sciences" (Connecticut - USA) a développé les séquenceurs GS20 et GS FLX ("Genome Sequencer" - distribution par Roche Diagnostics).

La technique utilisée (Margulies et al., 2005) est basée sur l'amplification d'ADN lié à une bille en émulsion et au pyroséquençage.

Lors de la synthèse d'un nouveau brin d'ADN, la fluorescence portée par le nouveau nucléotide est lue.

technologie developpee par Roche 454 - sequenceurs GS20 et GS FLX

Source : 454.com

Cette technique permet le séquençage d'un nombre colossal de bases d'ADN à un coût 10 fois moindre qu'avec la méthode de Sanger.

En effet, le séquençage est fait en un temps record : car avec la technique classique, l'échantillonnage pour le séquençage d'un génome moyen prend en moyenne deux mois, puisqu'il faut découper l'ADN en petits fragments et les incérer dans des vecteurs (étape de clonage).

GS20 - 20 mégabases (Mb) : la réaction de pyroséquençage lit 100 bases dans 200.000 puits en parallèle par cycle de mesure de 4-5 heures.

GS FLX - 100 Mb (photo ci-contre) : 220 à 240 bases avec 400.000 lectures en parallèle.

GS FLX Titanium - 400 - 500 Mb : 350 à 450 bases avec 1 million de lectures en parallèle

sequenceur sequencage

Source : Roche

Exemples d'application

  • Etude des SNP de l'eucalyptus (Novaes et al., 2008).
  • Séquençage du génome du blé (16 000 000 000 nucléotides) - Université de Bristol : publication en Août 2010 d'un "brouillon" du génome du blé ( variété "Chinese spring") obtenu avec la technologie Roche 454. Voir aussi le consortium international pour le séquençage du blé (IWGSC)

Les autres technologies actuelles

1. "llumina sequencing" ou "Solexa sequencing" : le Solexa basé sur l'amplification, l'accrochage-liaison sur puce et l'utilisation de terminateurs de chaîne réversibles marqués par des fluorochromes.

Voir un développement de la technique et du principe des réactions chimiques.

2. "SOLiD" ("Sequencing by Oligonucleotide Ligation and Detection") : le séquençage est basé sur l'amplification par émulsion et l'hybridation-ligature chimique. Il utilise une ligation avec une DNA ligase.

Voir un développement de la technique et du principe des réactions chimiques.

3. "Helicos BioSciences": technologie "True Single Molecule Sequencing (tSMS)".

Les nucléotides fluorescents sont ajoutés l'un après l'autre.

Les nucléotides non incorporés (selon le brin matrice), sont éliminés.

Une illumination avec un faisceau laser induit une émission de fluorescence aux endroits où le nucléotide a été incorporé.

Le groupe fluorescent du nucléotide qui vien dêtre incorporé est à son tour éliminé afin que le nucléotide suivant puisse être incorporé par la polymérase.

Voir une vidéo qui décrit cette technologie (figure ci-contre).

Helicos BioSciences technologie sequencage True Single Molecule Sequencing tSMS

Source : Helicos BioSciences

4. L'une des dernières technologies en date : "Ion Torrent"

Elle est basée sur des puces semi-conductrices remplies de puits.

Un proton est relargué quand un nucléotide est incorporé par la polymérase dans l'ADN.

Cela résulte en un changement de pH local qui est détecté par cette technologie sensible à la variation d'ions.

Cette technologie ne nécessite :
  • pas de camera, pas de scanner
  • pas de cascade enzymatique
  • pas de fluorophore ou chemiluminescence
  • il est annoncé un débit de 1000 Mpb/expérience en 2012 !
  • temps d'expérience total (construction de la banque / données intégrées) : 2 jours
  • un tour : 3,5 heures

Rothberg et al. (2011) "An integrated semiconductor device enabling non-optical genome sequencing" Nature 475, 348 - 352

technologie sequencage Ion torrent

Detection de changement de pH local Ion torrent

Source : Rothberg et al. (2011)

Ci-dessous : tableau comparatif des différentes nouvelles technologies de séquençage

Voir aussi : Suzuki et al. (2011)

comparatif des differentes nouvelles technologies de sequencage

Source : Metzker M. - Nature (2010)

5. Séquençage du transcriptome

a. Méthode "RNA-seq" ou "Whole Transcriptome Shotgun Sequencing" - WTSS

C'est une technologie trés récente et assez complexe (protocole général ci-dessous).

Elle est surtout lié à l'apparition des technologies de séquençage à trés haut débit qui ont révolutionné la portée et l'ampleur des études en génomique.

Des millions de fragments ("ultra high-throughput short reads") sont générés et séquencés.

Methode RNA-seq ou Whole Transcriptome Shotgun Sequencing WTSS

Source : Nagalakshmi et al. (2008)

L'un des principaux avantages de la technologie "RNA-seq" ("RNA-sequencing") est sa résolution à la base près : en effet, les fragments séquencés sont trés courts (quelques dizaines de nucléotides), leur nombre est énorme (plusieurs millions !) et ils se chevauchent.

Cette méthode permet donc l'analyse :

  • de régions ayant de fortes homologies (séquences répétées par exemple)
  • de SNP
  • des bordures exoniques
  • des profils d'épissage alternatif

RNA seq protocole

Source : BGI

Bordure intron exon

Source : BGI

Quelques avantages de la méthode "RNA-seq" ("RNA-sequencing")

  • Un procole simplifié de construction des banques.
  • Résolution à la base près : les fragments séquencés sont trés courts (quelques dizaines de nucléotides), leur nombre est énorme (plusieurs millions !) et ils se chevauchent. Elle permet donc (entre autres) :
    1. l'analyse de régions ayant de fortes homologies (séquences répétées par exemple), de SNP.
    2. l'analyse des bordures exoniques, des profils d'épissage alternatif et l'étude d'isoformes de protéines.
    3. la découverte de "petits" ARN ("small RNAs" : snRNA, snoRNA, siRNA, miRNA, piRNA ("Piwi-interacting RNAs"), ...) de faible taille (20 - 30 nucléotides) et prédiction de leur structures secondaires.
  • Extrême sensibilité ("dynamic range of expression") : 10 à 100 fois plus élevé que les puces à ADN permet une quantification des ARN et la détection d'ARN rares. Elle permet de mettre en évidence des régions dont on ne savait pas au préalable qu'elles sont transcrites.
  • La comparaison avec des génomes complets permet de préciser :
    1. Il n'est pas nécessaire d'avoir des connaissances sur le génome étudié. Cependant, si l'on dispose de génomes de "référence", c'est une méthode de choix pour améliorer sensiblement leur annotation.
    2. Dans les régions non traduites en 5' ("5′ UTRs"), il existe des phases de lecture ouverte dites en amont du codon d'initiation ("upstream ORFs - uORFs") qui régulent l'expression des gènes codant des protéines et la dégradation des ARMm.
    3. La localisation du site de polyadénylation de chaque transcrit, l'étiquette étant générée à partir d'un fragment issu d'un site de restriction (de 4 pb) situé immédiatement en 5' du site poly-A+.
    4. Différentes étiquettes homologues de différentes séquences d'un même gène mettent en évidence des terminaisons alternatives en 3'.
  • On peut étudier l'expression différentielle de transcrits par comparaison des résultats obtenus avec des banques issues de différents tissus et/ou traitements.

b. La méthode "Massively parallel signature sequencing" - MPSS - Brenner et al. (2000)

Une séquence signature de 16 à 20 pb (en moyenne 17 pb) fixée à une bille est séquencée / identifiée.

Cette identification est effectuée en parallèle sur des centaines de milliers de billes et environ 1 million de signatures sont obtenues par expérience.

Voir une animation décrivant cette technique.

Avantages de cette technique :

  • détection de quasiment tous les génes exprimés dans un tissus, même ceux dont le niveau d'expression est faible
  • détection de "petits" ARN ("small RNAs" : snRNA, snoRNA, siRNA ("small interfering RNA"), miRNA, piRNA, ...) de faible taille (20 - 30 nucléotides)
  • mesure précise de ce niveau d'expression via un comptage précis et non biaisé des ARN messagers d'un tissus

Petits ARN small RNAs snRNA, snoRNA, siRNA, miRNA, piRNA

Source : Buckingham S. (2003)

Application à Arabidopsis

Voir le cours : Quelques méthodes d'analyse quantitative du transcriptome et de l'expression des gènes

En parallèle de ces technologies "massivement productives de courts fragments séquencés" ("ultra high-throughput short reads") ont été développés :

- de nouveaux algorithmes pour l'alignement de ces millions de courts segments séquencés avec des génomes entiers ("alignement du transcriptome"). Exemple : Cufflinks permet l'assemblage des transcrits, le calcul de leur abondance, l'analyse de l'expression différentielle (différentes conditions), l'analyse de la régulation de l'expression.

- des site web avec des applications de visualisation ("mapper") et d'annotation. Exemple : TopHat : "a fast splice junction mapper for RNA-Seq reads".

Trapnell et al. (2009)"TopHat: Discovering splice junctions with RNA-Seq" Bioinformatics 25, 1105 - 1111

Projets "pharaoniques" de séquençage de génomes

"Beijing Genomics Institute" (BGI) espère dépasser l'équivalent de 10.000 séquençages du génome humain par an.

Les chiffres deviennent quelque peu étourdissants ! (rappels : E = exa = 1018 / P = péta = 1015 / T = téra = 1012 / "flops" ("Floating Point Operations Per seconds") = opérations par seconde d'un processeur).

Evolution des moyens bioinformatiques

De nouveaux algorithmes et suites logicielles sont développés pour le traitement de quantités aussi colossales d'informations : par exemple SOAP ("Short Oligonucleotide Analysis Package") développé par le BGI permet d'assembler un génome en quelques jours.

Voir les articles :

  • Zerbino & Birney (2008) "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs" Genome Res. 18, 821 - 829
  • Li & Homer (2010) "A survey of sequence alignment algorithms for next-generation sequencing" Brief. Bioinform. 11, 473 - 483

Autres exemples de programmes

  • SOAP : "Short Oligonucleotide Alignment Program"
  • RMAP
  • MAQ : "Mapping and Assembly with Qualities"
  • ELAND : "Efficient Large-Scale Alignment of Nucleotide Databases"
6. Les technologies de demain ?

1. Le passage de fragments d'ADN au travers de nanopores constitués de protéines (hémolysine) incluses dans une bicouche lipidique.

2. La spectromètrie de masse appliquée aux fragments d'ADN.

3. La visualisation directe de molécule d'ADN par microscopie de force atomique.

Source : Oxford Nanopore Technologies Ltd

Nanopores

Retour haut de page

 

Cette partie retrace davantage un certain "historique".

En regard de l'avancée phénoménale des techniques et des capacités d'analyse, certaines parties peuvent sembler obsolètes mais elles posent certains fondements de la génomique.

7. Stratégies de séquençage des génomes

a. La méthode hiérarchique ou "clone par clone"

Le génome est découpé en un nombre "restreint" (quelques dizaines de milliers) de fragments de grande taille (50 à 200 kilo paires de base) qui couvrent l'ensemble du génome.

Ces fragments sont clonés dans des vecteurs spéciaux : les YAC ("Yeast Artificial Chromosome" - problème d'échange de fragments d'ADN), les BAC ("Bacterial Articifial Chromosome") ou des vecteurs dérivés du phage P1 (les PAC).

Une carte physique des clones est établie pour faciliter l'obtention de la séquence finale du génome : elle permet d'ordonner les clones dans le génome.

Methode de sequencage hierarchique ou clone par clone

Source : "Précis de génomique"

Gibson & Muse (2004)

Les cartes de liaison disposent des marqueurs ordonnés le long des chromosomes par la mesure de leur liaison deux à deux. Ces cartes de liaison permettent de se repérer dans le génome et sont une aide essentielle dans la construction de la carte physique.

Un sous-ensemble avec un minimum de recouvrement (pour avoir une couverture la plus complète possible du génome) est ensuite choisi et séquençé en "vrac" (voir ci-dessous) : chaque clone de grande taille est découpé en un grand nombre de fragments de petite taille (environ 2000 paires de bases) et les extrémités sont séquencées individuellement.

Les problèmes d'assemblage ne se posent qu'à l'échelle des grands fragments et sont facilement résolus en multipliant le nombre de lectures dans ces zones.

b. La méthode de séquençage aléatoire global ou "en vrac" ou "shotgun"

Méthode très différente et complémentaire.

Une carte de grands fragments ordonnés n'est pas établie au préalable.

Un trés grand nombre de séquences sont obtenues de façon aléatoire à l'échelle du génome entier. Les extrémités d'une partie de ces fragments sont séquencés. Puis ces séquences sont assemblées selon leurs recouvrements.

Du fait du grand nombre de fragments et du clonage, certaines séquences ne sont jamais séquencées.

Methode de sequencage aleatoire global ou en vrac ou shotgun

Source : "Précis de génomique"

Gibson & Muse (2004)

La difficulté d'assemblage est beaucoup plus grande que dans la stratégie "clone par clone" et le nombre énorme de comparaisons de séquences nécessite une puissance de calcul considérable.

Il n'est pas possible, pour combler les trous entre les "contigs", de diriger le travail de séquençage supplémentaire sur un grand fragment bien identifié.

(Dans la littérature : "WGS sequences = whole genome shotgun sequences")

Lors de l'assemblage terminal pour l'ébauche d'un génome à partir des différents clones BAC séquencés, il faut éliminer :

  • les fragments d'ADN contaminants d'origine bactérienne
  • les clones ne provenenant pas, à l'origine, d'un même fragment du génome du fait d'une recombinaison à l'intérieur du BAC ou d'une mauvaise annotation lors de la construction de la collection de fragments pour la phase de séquençage en vrac
  • les séquences répétées peuvent aussi poser un problème lors de l'assemblage des grands génomes car elles peuvent conduire à assembler 2 séquences provenantde régions distantes du génome. Lors de l'assemblage, elles sont donc "masquées" par des programmes informatiques tel que RepeatMasker. Ces logiciels remplaçent les nucléotides de ces régions par le symbole "N" qui décrit n'importe quel nucléotide.

Retour haut de page

 

8. L'assemblage : les contigs

Avec les technologies encore les plus courantes dans un grand nombre de laboratoires, chaque séquençage ne permet d'obtenir une lecture que de quelques milliers de paires de base . Il n'est donc pas possible de séquencer en une seule fois des molécules d'ADN aussi grandes que les chromosomes.

Pour reconstituer ces immenses séquences, il faut effectuer un grand nombre de séquençages, plusieurs fois supérieur à la taille du chromosome. Ces séquençages redondants permettent :

  • de raccorder les séquences les unes aux autres
  • de s'assurer de la qualité du résultat de chaque lecture

Pour les trés grands génomes, la redondance doit être d'un facteur 8 à 10 (on dit une "profondeur de 8 à 10X").

Celà signifie :

  • fractionner le fragment à séquencer en sous-fragments
  • effectuer un nombre de séquençage tel que l'ensemble de ces séquençage, mis bout à bout, représentent 10 fois la longueur de la séquence du fragment initial
  • en d'autres termes, chaque base du fragment initial doit apparaître dans 10 lectures en moyenne

redondance profondeur des sequencages

Source : B. Dujon (2008)

La comparaison des séquences permet d'aligner les parties qui se recouvrent partiellement ou chevauchantes.

Les séquences chevauchantes peuvent être assemblées en enchaînements plus grands que l'on appelle des contigs.

Cette opération d'assemblage est effectuée par des programmes informatiques.

Elle permet ainsi en collant des contigs à d'autres contigs de reconstituer des séquences de plusieurs millions à plusieurs dizaines de millions de bases.

 

Source : Genoscope - FAQ

Assemblage contigs

Assemblage contigs

La lecture des profils bruts ou "base-calling" (détermination de la séquence par appel de bases) s'effectue en routine par des programmes informatiques qui lisent les bases, comparent les séquences similaires et fournissent une plate-forme intuitive de correction.

La suite logicielle publique développée à l'Université de Washington contient les programmes :

  • Phred : il convertit les fichiers "traces" (chromatogramme au milieu de la figure ci-contre) en séquences qui sont immédiatement déposées dans des banques.
  • Phrap / CrossMatch / Swat : ensembles de programmes pour l'assemblage de séquences d'ADN en contigs.

 

  • Consed : outil graphique de visualisation et d'édition des séquences assemblées par Phrap.
  • La fonction "Autofinish" (Gordon et al . 2001) du programme Consed permet de combler les "trous" cités précédemment en proposant des amorces et en identifiant des matrices d'ADN qui permettent de franchir les discontinuités entre 2 contigs.

Electrophoregramme

Source : "Précis de génomique"

Gibson & Muse (2004)

Comme le séquençage est effectué sur des sous-fragments pris de manière aléatoire, même avec un tel niveau de redondance, il reste des parties non assemblées : des trous ("gap") qui peuvent être "comblés" par un travail ciblé.

Pour déterminer les relations de voisinage des contigs, les liens clones sont considérés, c'est-à-dire les lectures obtenues aux deux extrémités d'un même fragment d'ADN. On recherche parmi ces paires celles qui s'ancrent dans deux contigs différents.

Cela permet de jeter un pont entre les deux contigs et de les orienter. De plus, le fragment d'ADN "à cheval" sur le trou entre les deux contigs peut faire l'objet d'un séquençage supplémentaire, ce qui permet de combler le trou.

Les techniques actuelles sont beaucoup plus sophistiquées.

La figure ci-contre montre le "remplissage du trou" dans le chromosome 6 humain entre la position 9,199,727 et la position 9,249,729, soit la rechercche de ... 2 nucléotides sur 2,8 milliards !

Gap filled

Source : Bovee et al. (2008)

9. Liens Internet et références bibliographiques
"Précis de génomique" - Gibson & Muse (2004) - Ed. De Boeck Université - ISBN : 2-8041-4334-1

Méthode de séquençage de F. Sanger :

Sanger et al. (1977) "DNA sequencing with chain-terminating inhibitors" Proc. Natl Acad. Sci. USA 74, 5463 - 5467

Film (format QuickTime) : "Dideoxy Sequencing of DNA"

Voir l'animation : "Sanger sequencing"

Article

Aller au site

Aller au site

Le séquençage des génomes - Université Jussieu

Aller au site

Génoscope : Questions fréquemment posées à propos du génome humain. Aller au site

Articles en relation avec les nouvelles techniques de séquençage

  • Brenner et al. (2000) "Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays" Nat.Biotechnol. 18, 630-634
  • Hanna et al. (2000) "Comparison of sequencing by hybridization and cycle sequencing for genotyping of human immunodeficiency virus type 1 reverse transcriptase" J. Clinic. Microbiol. 38, 2715 - 2721
  • Drmanac et al. (2002) "Sequencing by hybridization (SBH): advantages, achievements, and opportunities" Adv. Biochem. Eng. Biotechnol.77, 75 - 101
  • Margulies et al. (2005) "Genome Sequencing in Open Microfabricated High Density Picoliter Reactors" Nature 437, 376 - 380
  • Edwards et al. (2005) "Mass-spectrometry DNA sequencing". Mutation Research 573, 3 - 12
  • Weber et al. (2007) "Sampling the Arabidopsis transcriptome with massively parallel pyrosequencing" Plant Physiol. 144, 32 - 42
  • Morozova & Marra (2008) "Applications of next-generation sequencing technologies in functional genomics" Genomics 92, 255 - 264
  • Cloonan et al. (2008) "Stem cell transcriptome profiling via massive-scale mRNA sequencing" Nature Methods 5, 613 - 619
  • Zerbino & Birney (2008) "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs" Genome Res. 18, 821 - 829
  • Metzker M. - Nature (2010)
  • Li & Homer (2010) "A survey of sequence alignment algorithms for next-generation sequencing" Brief. Bioinform. 11, 473 - 483
  • Suzuki et al. (2011) "Comparison of Sequence Reads Obtained from Three Next-Generation Sequencing Platforms" PLoS ONE 6, e19534
  • Rothberg et al. (2011) "An integrated semiconductor device enabling non-optical genome sequencing" Nature 475, 348 - 352

Ronaghi et al. (1998) "A sequencing method based on real-time pyrophosphate" Science 281, 363 - 365

Ahmadian et al. (2006) "Pyrosequencing: History, biochemistry and future" Clinica Chimica Acta 363, 83 - 94

Biotage

Article

 

Valid XHTML 1.0 Transitional         Flux RSS Retour haut de page