|
|
Analyse des données d'expression issues des puces à ADN |
Sommaire |
|
1. Introduction 2. Préparation des échantillons et hybridation 3. L'analyse des données
|
4. L'interprétation biologique des données 5. "Chromatin ImmunoPrecipitation on Chip" 6. Application 7. Liens Internet et références bibliographiques |
|
1. Introduction Préambule : les nouvelles technologies de séquençage à trés hauts débits vont-elles rendre caduques les approches telles que les puces à ADN, "Chip on Chip" ou EST ? Il y a des arguments pour (à long terme) et contre (l'acquis via les puces à ADN ou EST et la précision de cet acquis). Il n'en demeure pas moins qu'à titre historique et surtout conceptuel, il est intéressant de connaître les principes des études du transcriptome par la technique des puces à ADN. |
|
En 1995, une nouvelle biotechnologie est apparue : les puces à ADN ("microarray"). Ci-contre, la première puces à ADN avec 45 sondes fluorescentes d'Arabidopsis thaliana (Schena et al. (1995) Science 270, 467 - 470). Le développement des puces à ADN sur membrane de nylon puis sur lame de verre a permis d'obtenir des mesures massivement parallèles de la concentration des ARN messagers d'une cellule dans un état physiologique donné. Diverses techniques permettaient à cette époque d'aborder l'étude de l'expression des gènes :
|
|
Cependant la principale avancée des puces à ADN a été de changer d'échelle : l'analyse simultanée de l'ensemble de tous les transcrits d'un génome. La technologie des puces à ADN a permis de générer des "images" de l'état de l'expression des gènes d'une cellule. L'application immédiate a été d'améliorer et de préciser le diagnostic, le pronostic et l'orientation thérapeutique dans le cas de pathologies diverses. |
|
Le terme puces à ADN est générique. |
|
Type
|
"macro-arrays ou filtres à haute densité |
"micro-arrays"
|
puces à oligonucléotides
|
|
principe
|
dépôt direct de l'ADN sur le support 1 condition expérimentale par puce |
dépôt direct de l'ADN sur le support 2 conditions expérimentales par puce |
sondes oligonucléotidiques synthétisées in situ par photolithographie. 1 condition expérimentale par puce |
|
marquage radioactif criblage par excès de cibles |
marquage
par fluorescence
|
marquage
par fluorescence
|
|
|
fragments d'ADN déposés
|
2400
|
10000
|
|
|
aperçu
|
![]() |
![]() |
![]() |
|
Source figures : DNA microarray principle |
|||
| Principaux fabricants de puces à ADN |
|
|
Les puces à ADN sont des lames de verre activée sur lesquelles sont déposés de nombreuses copies d'une séquence d'ADN spécifique d'un gène donné (figure ci-contre). Source : Frouin & Gidrol (2005) Biofutur 252 |
|
|
Les différents types d'aiguilles d'impression |
|
Les clavettes ou aiguilles fendues transfèrent quelques nanolitres de solution d'ADN sur l'alignement par tension capillaire quand la pointe entre en contact avec la surface. |
Les pointes et les aiguilles TeleChem appliquent de petites gouttes par contact entre l'aiguille et le support. |
La construction pointe et anneau prélève l'ADN sur un petit anneau. Une aiguille plaque la solution sur la lamelle avec une densité uniforme. |
Une imprimante à jet d'encre pulvérise des goutelettes de quelques picolitres de liquide sous pression. |
|
Source des figures : "Précis de génomique" 1ère Ed. (2004) - G. Gibson & S. Muse - Ed. de Boeck Université |
| Voir une vidéo de la fabrication de puces à ADN par un robot (Université du Delaware - USA). |
Figure ci-contre, une description de la technologie de synthèse des oligonucléotides sur les puces ultra-haute densité. Source : Agilent microarray technology |
|
| Exemples de puces à ADN pour l'étude du transcriptome d'Arabidopsis thaliana |
|
1. La puce CATMA ("Complete Arabidopsis Transcriptome MicroArray") Elle contient 30 886 GSTs (étiquettes spécifiques de gènes - "Gene-specific Sequence Tags") étiquetant la majorité des gènes prédits chez Arabidopsis thaliana. Les GSTs sont des fragments génomiques de 150 à 500 paires de base amplifiés par réaction de polymérisation en chaîne (voir la position des GST). Au maxium, 50% de ces paires de base doivent être des séquences d'introns. Par ailleurs, elles ont été sélectionnées de sorte que leurs séquences ne présentent pas plus de 70% d'identité avec n'importe quelle autre séquence du génome d'Arabidopsis thaliana. La puce CATMA est complétée par 615 sondes spécifiques des génomes chloroplastique et mitochondrial. Cette puce permet :
Aubourg et al. (2007) "Analysis of CATMA transcriptome data identifies hundreds of novel functional genes and improves gene models in the Arabidopsis genome" BMC Genomics 8, 401 La base de données CATdb rassemble les résultats obtenus avec la puce CATMA. Elle a été développée à l'Unité de Recherche en Génomique Végétale / INRA- Versailles (URGV). Gagnot et al. (2008) "CATdb: a public access to Arabidopsis transcriptome data from the URGV-CATMA platform" Nucleic Acids Research 36, D986-D990 |
2. Une puce dite "chromosomique"
3. Une puce ATH1 d'Affymetrix Cette puce a été conçue en collaboration avec le TIGR et contient plus de 22,500 sondes oligonucléotidiques (25-mer) représentant environ 24,000 gènes d'Arabidopsis thaliana. L'interface "NetAffxª Analysis Center" contient les données ATH1-12150 du TIGR et permet l'analyse des données. Voir les caractéristiques de la puce CATMA et d'autres puces Affymetrix ("TAIR Microarray Elements Statistics"). |
Tableau ci-dessous : survol des puces les plus utilisées pour l'étude de l'expression de gènes chez des plantes et nombre d'expériences stockées dans la base de données ArrayExpress / EBI. La puce ATH1 et la puce CATMA sont les plus utilisées et environ 775 expériences concernant Arabidopsis ont été publiées. |
Source : Baginsky et al. (2010) |
|
Rappel sur la transcription et la traduction
Schématiquement, les deux grandes étapes de l'ADN aux ARN messagers puis des ARN messagers aux protéines sont :
Après la transcription, l'enchaînement des 4 nucléotides de l'ARN messager (C, G, A et U) correspond exactement à celui des 4 nucléotides (C, G, A et T) des exons de l'ADN.
L'enchaînement des nucléotides de l'ARN messager est décodé dans les ribosomes par triplet : 3 nucléotides = 1 codon. Après la traduction, l'enchaînement des 20 acides aminés de la protéine correspond exactement à celui des codons de l'ARN messager. |
|
|
Les sondes Les acides nucléiques fixés sur les puces à ADN sont appelés sondes ("probes"). Les sondes peuvent être de l'ADN génomique (l'ensemble des gènes) ou des gènes exprimés (Expressed Sequence Tags ou EST). Les puces à ADN sont des lames de verre activée sur lesquelles sont déposés quelques milliers de "spot". Un spot correspond à de nombreuses sondes, c'est-à-dire à de nombreuses copies d'une séquence d'ADN spécifique d'un gène donné. Avant l'hybridation, les sondes sont dénaturées : elles sont sous forme simple brin et peuvent ainsi s'hybrider avec le brin complémentaire d'une cible. |
|
Source :"ADN recombinant", Watson et al. (1994) - Ed. DeBooeck Université
|
Les cibles Les acides nucléiques qui sont hybridés avec ces sondes sont appelés cibles ("targets"). Pour une exprérience donnée, une condition expérimentale (stress, pathologie, état de différenciation cellulaire, ...) est comparée à une condition de référence. Les ARN messagers (les cibles) sont extraits des 2 types de cellules que l'on veut comparer. Les ARN messagers sont rétro-transcrits en ADNc par une transcriptase inverse (figure ci-contre). C'est une DNA polymérase qui synthétise un brin d'ADN complémentaire (ADNc) en utilisant un ARN comme matrice. Un hybride [premier brin d'ADNc - ARN] est ainsi formé dans un premier temps. Après synthèse du premier brin d'ADNc, l'ARN matrice est hydrolysé par la RNAse H. Le second brin d'ADNc est ensuite synthétisé. |
|
Au cours de cette rétro-transcription :
Le marquage des cibles consiste en l'incorporation de nucléotides portant :
Ces 2 molécules sont les plus classiquement utilisées.
|
MMT : groupe 4-monomethoxytrityle Source : Amersham Biosciences Ltd |
Il existe 2 méthodes de marquage des cibles en fluorescence :
|
Les deux familles de cibles sont mélangées et déposées sur la lame. S'il existe un brin d'ADN sonde complémentaire d'un brin d'ADNc cible, ils s'hybrident pour former de l'ADN double brin fluorescent. |
|
Cette hybridation est compétitive : plus la concentration d'un ADNc cible (donc celle de l'ARN messager qui en est l'origine) est élevée, plus l'ADNc cible s'hybridera sur la sonde. En conséquence, l'intensité de fluorescence verte ou rouge traduit l'hybridation préferentielle d'un ADNc cible de référence (témoin) ou d'un ADNc cible issu de la condition expérimentale. Source :Frouin, V. & Gidrol, X. (2005) |
|
|
L'intensité de fluorescence traduit donc la concentration relative des ARN messagers dans chaque condition. Ceux-ci sont soit :
|
Source : Vulgariz |
Voir des exemples de conditions expérimentales d'hybridation et de résultats. |
|
Elle se décompose en 3 étapes :
Certains outils bioinformatiques existent pour répondre à cette démarche. |
|
Malgré tout, la diversité des applications des puces à ADN et des problèmatiques biologiques auxquellles elles contribuent à apporter une réponse implique le développement d'algorithmes et de logiciels de plus en plus spécifiques. |
a. La détection du signal et l'analyse d'images Lors de la lecture, chaque spot est excité par un laser et l'émission de fluorescence est mesurée. On obtient 2 images en niveaux de gris qui correspondent au mélange des fluorescences respectives des 2 fluorophores. |
On remplace les niveaux de gris par :
Après superposition, on obtient une image en fausses couleurs composée de spots :
|
Source : Frouin, V. & Gidrol, X. (2005) |
Ces étapes font appel à des techniques de traitement de l'image et utilisent des algorithmes de morphologie mathématique. Les technologies pour l'analyse des images sont de plus en plus performantes. La résolution est augmentée, en conséquence :
Par ailleurs, de nouvelles surfaces sont utilisées pour remplacer le verre. Par exemple, des cristaux de mélange d'oxyde de silice et de titane à fluorescence accrue. |
Source : Agilent microarray technology |
Source : MYcroarray |
| Voir un exemple d'utilisation de logiciel d'analyse d'image et des différentes étapes de la procédure (ENS). |
|
b. Le traitement des données brutes Après l'étape d'analyse de l'image, chaque sonde est caractérisée par :
|
Pour chaque spot, le logarithme du rapport (r) de l'intensité de fluorescence de la condition pathologique sur l'intensité de fluorescence de la condition de référence est calculé (rapport fluorescence rouge / fluorescence verte) : log2(r). Ce rapport permet d'évaluer l'expression différentielle d'un gène dans les 2 échantillons biologiques étudiés. On considère pour un rapport :
|
|
|
|
Ci-contre : exemple de puces de 16000 oligonucléotides de Medicago truncatula et une représentation des intensités des spots. |
|
Normalisation des données de fluorescence Elle a pour but, entre autre, de distinguer les variations aléatoires (biologiques et expérimentales : celles que l'on veut mettre en évidence) des variations systématiques. Ces dernières ont pour origine en particulier :
L'hypothèse de base de la normalisation est que la majorité des gènes ont un niveau d'expression invariant entre 2 conditions (référence et pathologique, par exemple), soit : log2(r) = 0. La normalisation a pour but de ramener la moyenne de cette grandeur à 0. Exemple de valeurs normalisées : le rapport permet de mettre en évidence les gènes pour lesquels le canal rouge (condition pathologique) donne une valeur supérieure au canal vert. Le log2(r) donne une distribution symétrique autour de zéro. Enfin, la soustraction du rapport moyen des logarithmes permet de tenir compte de l'intensité plus importante du canal rouge.
Le filtrage Un rapport d'une valeur donnée peut être obtenu par des valeurs d'intensité [rouge/vert] trés proches du bruit de fond (peu fiables alors) ou, au contraire, trés élevées (plus significatives). Exemple : le rapport 1,6 = (160/100) ou (16000/10000). Le filtrage a pour but d'éliminer les sondes pour lesquelles une des mesures d'intensité est inférieure à un seuil (arbitraire ou déterminé à partir d'un modèle). Risque statistique Les traitements précédents aboutissent à une liste de rapports (r) pour chaque gène. La suite consiste à déterminer, à l'aide de logiciels utilisant des techniques statistiques, les gènes différentiellement exprimés (ceux dont les valeurs de log2(r) sont significativement différents de 0). Cependant, le choix d'une méthode d'analyse est liée aux conditions dans lesquelles a été menée l'expérience (réplicats, facteurs expérimentaux, ...). De plus, ces outils informatiques ne donnent pas de valeur seuil sur le résultat d'un test pour évaluer si l'expression d'un gène est modulée ou non.Il incombe à l'expérimentateur de choisir son niveau de risque. La standardisation La méthode de standardisation "MIAME" ("Minimum information about a microarray experiment") est une charte qui décrit l'information minimale (à propos d'une expérience de puce à ADN) requise pour que les résultats de cette expérience soient interprétables, d'une manière non-ambigüe et de sorte que cette expérience soit reproductible. Tout expérimentateur qui désire déposer ces données issues de puces à ADN dans une banque doit répondre à cette charte en indiquant (entre autre) :
|
|
c. Analyse des données : la prédiction |
|
Outre l'obtention de listes de gènes différentiellement exprimés, on peut suivre le profil d'expression d'un gène : l'ensemble des valeurs d'expression mesurées dans des conditions diverses ou au cours d'une étude cinétique. Dans ce cas, l'une des 2 sources d'ARN hybridés est fixée de sorte que toutes les valeurs de log2(r) soient comparables. Cette source est alors considérée comme la référence. On peut dés lors s'intéresser :
Exemples de logiciels de regroupement : "J-Express" - "MultiExperiment Viewer" - "Genesis" |
|
Figure ci-contre : une série de profils d'expression de gènes désordonnés (figure de gauche) peut être convertie en une série de groupes par le regroupement hiérachique (Eisen et al., 1998). Le résultat (à droite) est un arbre qui montre l'évolution de l'expression dans le temps pour certains gènes hypothétiques. Les gènes de la classe "down" se regroupent. Il est probable que les gènes "unknown14", "unknown10" et "unknown13" de la classe "unknown" aient des fonctions similaires à ceux de la classe "down". Il en va de même pour les classes "yoyo", "mid" et "late" en ce qui concerne les autres gènes de la classe "unknown". |
Source : "Précis de génomique" (2004) - G. Gibson & S. Muse |
|
Figure ci-contre : différence de profils d'expression des gènes mitochondriaux de la famille des transporteurs de Arabidopsis thaliana. Les résultats mettent en évidence les variations selon type de tissus et la réponse à des stress hormonaux et environnementaux. Source : Millar & Heazlewood (2003) "Genomic and Proteomic Analysis of Mitochondrial Carrier Proteins in Arabidopsis" Plant Physiol. 131, 443 - 453 |
| Source : CBB group (Berlin) |
|
|
a. L'annotation et l'ontologie Le consortium Gene Ontology distribue une classification qui est l'une des références en génomique fonctionnelle. Voir la présentation de GO : "GO: the Gene Ontology" - P. Gaudet - 2005 (et biens d'autres). Le premier but de GO est de définir un vocabulaire contrôlé (ce que l'on appelle l'ontologie) qui décrit :
et ainsi d'uniformiser la multiplicité des termes employés pour décrire un concept. |
|
Exemple : tous les termes suivants
|
décrivent la formation du glucose. |
D'où le terme "générique" de GO : "gluconeogenesis" dont le numéro identifiant GO est : GO:0006094 |
|
Le second but de GO est de définir des relations logiques entre l'ensemble des termes retenus. Les termes sont liés par 2 types de relations : |
|
|
|
|
| Un troisième but de GO est d'augmenter la "communicabilité" entre bases de données. |
|
Exemples de logiciels et interface web pour l'annotation 1. Le consortium GO propose un ensemble de logiciels ("Gene Ontology Tools") pour traiter et analyser des données de divers types, en particulier celles issues des puces à ADN. Ces logiciels sont utilisables directement via une interface Web ou à installer sur l'ordinateur pour divers types de systèmes d'exploitation (Unix, Linux, Windows, Mac) 2. L'une des interfaces les plus didactiques et intuitives pour l'annotation est à mettre au compte de l'EBI. Il s'agit des services : "QuickGO (GO Browser)" et "Gene Ontology Annotation (GOA)" (en particulier le lien : "Search GOA"). 3. Autres exemples de logiciels - interface web :
|
b. Le projet KEGG - métabolomique et biologie intégrative Il propose pour les voies métaboliques et les métabolites impliqués dans ces voies, des graphes d'interaction entre les enzymes impliquées dans ces voies et, par extension, entre les gènes qui codent ces enzymes. |
Exemple : la biotine existe sous forme libre ou sous forme de groupement prosthétique lié à certaines carboxylases qui catalysent des réactions de synthèse des acides gras ou de certains acides aminés. En allant sur le site, l'image originale est interactive. En cliquant sur les N° EC ou les noms, on accéde à une multitude d'informations sur les molécules choisies. Source : KEGG - Biotin metabolism |
|
|
c.Les bases de données d'expression de gènes 1. Gene Expression Omnibus (GEO) : base de données d'expression et d'abondance de molécules (ARNm, ADN génomique et protéines) et aussi un système de recherche de ces données d'expression. Les données soumises répondent à la charte de standardisation "MIAME" et à un cahier des charges trés strict. Les données de GEO sont issues de diverses technologies : puces à ADN, méthode SAGE et spectromètrie de masse. 2. La base de données NASCArrays dédiée à Arabidopsis thaliana. 3. La base de données ArrayExpress / EBI. |
Cette méthode appelée aussi "ChIP on chip" permet d'identifier les protéines qui se fixe à l'ADN. Elle est extrêmement utile pour l'étude des sites de fixation des facteurs de transcription, par exemple. Cette technique combine celle de l'immunoprécipitation de la chromatine et celle des puces à ADN. |
Source : Cell signaling |
On crée d'abord une liaison covalente in vivo entre les protéines et la partie de l'ADN avec lesquelles elles interagissent. On utilise la formaldéhyde en général. L'ADN de la cellule est extrait puis découpé en courts fragments. On sélectionne les fragments d'ADN qui sont associés à la protéine étudiée avec un anticorps spécifique de cette protéine. Les complexes [ADN-protéine-anticorps] sont précipités. Cette précipitation élimine l'ADN qui ne s'est pas associé à la protéine étudiée. La partie protéique du complexe [ADN-protéine-anticorps] est protéolysé afin de ne conserver que l'ADN. |
Source : Wikipédia |
En conséquence, les courts fragments d'ADN récupérés sont ceux qui interagissent avec la protéine étudiée. Ces fragments sont étudiés par la technique des puces à ADN. Source : NimbleGen |
|
|
Exemple de recherches du projet "Arabidopsis functional genomics" : validation de gènes par l'utilisation de la puce ADN du chromosome 2.
|
|
Question
|
Procédure
|
Réponse
|
| Combien la base de données TAIR contient-elle d'expériences utilisant des puces et obtenues après l'application de stress abiotiques ? | Aller au site : TAIR Microarray Experiments Search |
36
|
|
Présentation
de la base de données TAIR
|
Garcia-Hernandez
et al. (2002) "TAIR: a resource for integrated Arabidopsis data"
Functional & Integrative
Genomics 2, 239 - 253
|
|
| Combien d'expériences ont trait spécifiquement aux semences ? | "Search by Keywords" -> Item "Plant Tissue" -> taper "seed" |
58
|
| Combien d'expériences ont trait spécifiquement à la germination de semences ? | "Search by Keywords" -> Item "Experiment Goals" -> taper "seed germination" |
3
|
| Quel organisation (consortium) est à l'origine des puces considérées ? | Cliquer sur le lien : AtGenExpress | |
|
Question
|
Procédure
|
Réponse (01/02/06)
|
|
Combien d'expériences ont trait à un traitement hormonal des semences ? |
Item "Experiment Categories", cliquer sur le lien "hormone treatment" |
26
|
|
Quelle est l'hormone ? Quelles sont les caractéristiques de cette hormone ? |
L'acide abcissique ("abscisic acid" - ABA) identifié en 1963 par F. Addicott et ses collaborateurs. Hormone végétale synthétisée par les racines ou les feuilles en période de sécheresse pour limiter le stress hydrique. Structure : sesquiterpène - terpène dérivé de l'isoprène, composé en C10. Certains rôles : inhibition de la germination des graine - fermeture des stomates |
|
| Combien d'expériences ont trait à un traitement hormonal des semences ? | Item "Experiment Categories", cliquer sur le lien "hormone treatment " |
26
|
|
Traitement de semences de pois (Pisum sativum) par l'ABA Travaux UMR 1191 PMS - ANGERS |
Grelet et
al. (2005) "Identification in Pea Seed Mitochondria of a Late-Embryogenesis
Abundant Protein Able to Protect Enzymes from Drying" Plant
Physiol. 137, 157 - 167
|
|
|
Question
|
Procédure
|
Réponse
|
| Quelles sonts les conditions environnementales, le stade de développement et les traitements des différents échantillons (référence et ) qui ont été utilisées pour les puces ? |
Item "Experiment Name", cliquer sur le lien "AtGenExpress: Effect of ABA during seed imbibition" |
Choisir l'onglet "Samples"
|
|
"RIKEN" |
Aller au site : "Rarge - Riken Arabidopsis" Choisir l'item "Microarray" - "Search Expression Genes" |
|
|
Puce Arabidopsis thaliana Profil d'expression de 7000 gènes après traitement par l'ABA |
Seki et al.
(2002) "Monitoring the expression pattern of around 7,000 Arabidopsis
genes under ABA treatments using a full-length cDNA microarray"
Functional & Integrative
Genomics 2, 282 - 291
|
|
|
Question
|
Procédure
|
Réponse
|
|
Quels sont les gènes d'autres organismes annotés de façon similaires ? |
Item "Experimental Goals", cliquer sur le lien "response to abscisic acid stimulus" Item "Similarly Annotated Genes From Other Organisms", cliquer sur le lien " GO Database" |
Keyword:response to abscisic acid stimulus |
|
Combien d'associations directes correspondent aux critères suivants :
|
Item "Experiment Categories", cliquer sur le lien "hormone treatment" |
1 GASA1 gene from Arabidopsis thaliana TAIR - IDA PMID:10849358 |
| 7. Liens Internet et références bibliographiques |
| Consortium "Gene Ontology" (GO) | |
| KEGG ("Kyoto Encyclopedia of genes ans genomes") | |
|
Barrett et al. (2005) "NCBI GEO : mining millions of expression profilesÐdatabase and tools" Nucleic Acids Res. 33, D562 - D566 GEO ("Gene Expression Omnibus") |
|
| TAIR Microarray Experiments Search | |
|
NASC Arrays ("Nottingham Arabidopsis Stock Centre's microarray database") NASC Proteomics database for Arabidopsis data |
|
| Frouin, V. & Gidrol, X. (2005) "Analyse des doinnées d'expression issues des puces à ADN" Biofutur 252, 22 - 26 | |
|
Schena et al. (1995) "Quantitative monitoring of gene expression patterns with a complementary DNA microarray" Science 270, 467 - 470 |
|
| Schena et al. (1996) "Parallel human genome analysis: Microarray-based expression monitoring of 1000 genes" PNAS 93, 10614 - 10619 | |
| Lockhart et al. (1996) "Expression monitoring by hybridization to high-density oligonucleotide arrays" Nature Biotechnology 14, 1675 - 1680 | |
| DeRisi et al. (1997) "Exploring the metabolic and genetic control of gene expression on a genomic scale" Science 278, 680 - 686 | |
| Eisen et al. (1998) "Cluster analysis and display of genome-wide expression patterns" PNAS 95, 14863 - 14868 | |
| Lipshutz et al. (1999) "High density synthetic oligonucleotide arrays" Nature Genetics 21 (suppl.), 20 - 24 | |
| Alizadeh et al. (2000 ) "Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling" Nature 403, 503 - 511 | |