EST de cerveau d'abeille - Analyse de l'article de Whitfield et al. (2002)

Sommaire

1. Introduction

2. Exemple de protocole pour la préparation d'une banque normalisée et soustraite en une seule étape

3. Analyse des EST obtenues à partir du cerveau de l'abeille

4. Logiciels et bases de données utilisés

5. Puces à ADN

6. Résumé des résultats

7. Liens Internet et références bibliographiques

 

1. Introduction

L'article a été publié en 2002. Or le génome de l'abeille n'a été publié qu'en Janvier 2005.

C'est la raison pour laquelle l'annotation des gènes de l'abeille a été faite par rapport au génome de la Drosophile.

  • Abeille : Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Hymenoptera; Apocrita; Aculeata; Apoidea; Apidae; Apis; Apis mellifera
  • Drosophile : Eukaryota; Metazoa; Eumetazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Ephydroidea; Drosophilidae; Drosophilinae; Drosophilini; Drosophiliti

Le génome de l'abeille (environ 200 méga-bases) a été séquencé par une méthode en vrac ("shotgun") et clonage dans des BAC.

Il est constitué de 16 chromosomes et 1 chromosome mitochondrial.

 

Photo abeille

Source : Genome.gov

 

Intéret de l'abeille : étude de la "plasticité" neuronale et comportementale de l'abeille en relation avec son comportement social, ses capacités d'apprentissage et de mémoirisation.

Perspectives : implications des résultats en écologie et dans le domaine de l'évolution des espèces. Par extension, on peut mentionner l'importance économique de la pollinisation des fleurs et de la fabrique du miel par ce type d'abeille.

Justification de l'obtention d'un trés grand nombre d'EST ("expressed sequence tag") :

  • En 2002, il n'y avait qu'un millier de séquences (gènes et EST) concernant l'abeille.
  • Par ailleurs, l'intéret de l'analyse d'un grand nombre de gènes en parallèle avait été démontré par des profils d'expression caractéristiques de la differenciation entre abeille ouvrière et reine.

Matériel de départ : 400 cerveaux d'abeilles ouvrières (d'ages différents : de 1 à 30 jours) ont été isolés pour l'obtention des ARN à l'origine des banques !

 

2. Exemple de protocole pour la préparation d'une banque normalisée et soustraite en une seule étape (Carninci et al., 2000)

Technique mise au point à l'institut "RIKEN".

La stratégie repose sur :

  • l'isolement d'ARNm abondants (normalisation) ou déjà isolés (soustraction), mais surtout nouveaux et rares.
  • la synthèse du premier brin d'ADNc pleine longueur ("full-length cDNA") à partir de ces différents types d'ARN.
  • une hybridation entre ces différents types de premier brin d'ADNc ("Tester cDNAs") et diverses populations d'ARNm ("Driver") biotinylées.

La normalisation et la soustraction sont effectuées en une seule étape.

Normalisation soustraction banque partie 1

 

Normalisation soustraction banque partie 2

L'hybridation entre acides nucléiques dépend de nombreux paramètres physico-chimiques.

En particulier, la probabilité d'hybridation entre des séquences complémentaires augmente avec :

  • le temps de la réaction
  • la concentration en acides nucléiques

Pour tenir compte de ces 2 facteurs, on définit le produit (concentration x temps) appelé :

  • RoT pour l'hybridation ARN - ADN
  • CoT pour l'hybridation ADN - ADN

La valeur RoT 1/2 correspond à 50% de molécules hybridées.

 

Difference banque normale et normalisée

 

Gel electrophorese ADNc

Banque d'ADNc de tailles sélectionnées ("size-selected cDNA library").

Les ADNc sont séparés sur gel d'agarose .

Puis la partie du gel correspondant aux ADNc de tailles désirées est découpée et les ADNc sont élués du gel.

Retour haut de page

 

3. Analyse des EST obtenues à partir du cerveau de l'abeille

Remarque 1 : dans cette étude, la banque a été normalisée puis soustraite.

Remarque 2 : en 2010, la base de données UniGene (NCBI) contient 64663 EST d'abeille regroupées en 9749 groupes ou "clusters".

Nombre total de séquences EST
21408
Nombre total de clones ADNc séquencés (5'EST)
20256
5'EST issues de la banque normalisée
7968
5'EST issues de la banque normalisée puis traitée par hybridation soustractive
12288
Séquences 5'EST redondante
960
Séquences 3'EST
192

Nombre total de séquences d'EST de haute qualité

taille moyenne : 494 paires de base

15311
Nombre d'EST initiales pour l'assemblage
9481
Nombre de contig
3136
Nombre de singletons
5830

Nombre de transcrits supposés après regroupement des EST

(Résultats conservés issus de CAP3)

8966 - 54 = 8912

Qualité des EST et correspondance avec des gènes

a. L'analyse avec BLAST (e-value ≤ e-5) indique que, parmi ces 8912 séquences assemblées, 3501 (= 2616 + 885 / 39%) ont un homologue connu dans la base de données "Non-Redundant Protein (nr)".

b. Sur les 8912 séquences assemblées, 3449 possèdent une phase de lecture ouverte ("Open Reading Frame - ORF") d'au moins 450 paires de bases. Parmi ces séquences, 2616 (76%) ont un homologue connu dans la base de données "nr".

En d'autres termes, 833 (24%) gènes possibles, codant des protéines et exprimés dans le cerveau de l'abeille n'ont pas d'homologues dans la base de données "nr" et seraient donc nouveaux.

Aller au NCBI : BLAST

Camembert Blast des ORF

Source : Whitfield et al. (2002)

 

c. Sur les 8912 séquences assemblées, 5463 possèdent une ORF inférieure à 450 paires de bases. Parmi ces séquences, 885 (16%) ont un homologue connu dans la base de données "nr".

d. En ce qui concerne les 4578 (84%) autres séquences qui ne correspondent à rien, diverses explications sont fournies :

  • assemblage trop court de certains contigs
  • décalage de la fenêtre de lecture
  • troncation du côté 5' donc une teneur trés forte en 3'UTR
  • intron riche en AT partiellement epissé
  • insertion dans une orientation réverse
  • séquence poly(A)+

Camembert Blast sans ORF

Source : Whitfield et al. (2002)

Comparaison avec d'autres espèces

a. L'abeille et la drosophile sont toutes deux des arthropodes. En effet, l'analyse avec BLAST indique que, parmi les 3501 séquences assemblées qui ont un homologue connu dans la base de données "nr", 2245 (64%) sont similaires de séquences de protéines de la drosophile.

b. Une comparaison avec BLASTX indique que 3362 séquences d'EST assemblées de l'abeille sont homologues à 2672 séquences de la drosophile soit (19,6% de redondance). Sur la base d'une redondance d'environ 20% dans les 8912 séquences assemblées, les auteurs estiment que ces 8912 séquences représenteraient 7100 gènes exprimés.

Ils en concluent que : si l'abeille a le même nombre de gènes que la drosophile, ces 7100 gènes représenteraient 50% des gènes du génome de l'abeille.

[Rappel : l'article a été publié en 2002. Or le génome de l'abeille n'a été publié qu'en Janvier 2005].

 

Annotation fonctionnelle des séquences d'EST assemblées du cerveau d'abeille

Elle a été faite :

  • avec les séquences ayant un degré d'homologie avec celle de la drosophile tel que e-value ≤ e-5 (BLASTX)
  • sur la base de l'annotation du génome de la drosophile (génome publié en 2000)
  • sur la base de l'ontologie GO ("Gene Ontology") de la drosophile en utilisant les annotations de type ISS ("inferred from sequence similarity"), plus fiables que celles de type IEA ("inferred from electronic annotatio") car curées manuellement

Résultats :

  • tableau 3 : fonction des molécules
  • tableau 4 : processus biologiques. 116 gènes sont liés à la transmission synaptique ("synaptic transmission" - code GO : 0007268) et 42 gènes sont liés aucomportement ("behavior" ou "behaviour" - code GO : 0007610)
  • tableau 5 : liste des 46 gènes (sur 116) de la drosophile liés à la transmission synaptique, ayant au moins un homologue dans les séquence assemblées de l'abeille (remarque : le texte mentionne 54 gènes)
  • tableau 6 : liste de 47 gènes (sur 106*) de la drosophile liés au comportement, ayant au moins un homologue dans les séquence assemblées de l'abeille.

*En 2001, seuls 42 gènes de la drosophile étaient annotés comme liés au comportement. Pour augmenter ce nombre, les auteurs ont généré une liste de 106 gènes à partir de mutants de la drosophile ayant des modifications de différents aspects du comportement.

Aller à la base de donnée : Honey Bee Genome Project

Retour haut de page

 

4. Logiciels et bases de données utilisés
  • séquençage des EST par "appel de base" : programme Phred
  • élimination des séquençes de vecteur : programme CrossMatch
  • élimination des séquençes de faible qualité : programmes Qualtrim et Simpletrim
  • masquage des séquençes répétées : programme RepeatMasker
  • recherche d'homologie pour l'élimination de séquences contaminantes ou artéfactuelles : aller à la page d'accueil du programme BLAST (NCBI) - Choisir : "Nucleotide-nucleotide BLAST (blastn)" puis cliquer sur "Choose database " pour voir les bases de données interrogeables (nr, EST-human, ...)

Electrphoregramme

Electrophoregramme obtenu par "appel de base"

 

  • recherche de phase de lecture ouverte ("open reading frame" - ORF) : programme Flip
  • annotation des EST assemblées : base de données Gene Ontology

 

Image pixel hybridation

Analyse du bruit de fond par le programme GenePix

Haut de page

 

5. Caractéristiques des échantillons pour les puces à ADN

Le but de cette analyse n'est pas une analyse transcriptomique classique, c'est-à-dire une comparaison des gènes différentiellement exprimés entre une condition témoin et une condition pathologique.

Cette analyse a pour but de valider le point suivant : la quantité d'ARN extraite d'UN cerveau d'abeille est-elle suffisante pour toute expérience ultérieure d'hybridation aux 2 longueurs d'onde (635 nm et 532 nm) ?

En effet, les ARN sont extraits de 2 cerveaux d'abeille puis l'échantillon est divisé en 2 aliquotes. Chacun est marqué par un fluorophore (Cy3 et Cy5). Les échantillons marqués sont mélangés et hybridés à la même puce. Les puces sont lues aux 2 longueurs d'onde.

Les résultats du tableau 7 et de la figure 2 confirment la possibilité de ne travailler que sur un cerveau.

Choix des EST

  • 8872 clones d'EST ont été choisis de sorte qu'ils représentent 7000 transcrits potentiels uniques.
  • Au sein des contig, le choix de l'EST ayant une séquence d'au moins 300 paires de base entraîne une sur-représentation des 3'EST sur la puce mais permet de déposer sur la lame des sondes qui ont au moins cette taille.

Bétaine

La relation entre température de fusion et composition en base des sondes est moins stricte en présence de bétaine.

Ainsi, l'emploi de la bétaine dans les puces à ADN augmente (Diehl et al., 2001) :

  • l'homogénéïté du dépôt des sondes (spots) sur la lame
  • le signal d'hybridation (fluorescence)

 

Structure betaine

 

Cibles

Les cibles sont des ARNm extraits d'un mélange de 2 cerveaux d'abeilles adultes puis amplifiés.

Le marquage est effectué au cours de la rétro-transcription des ARN : un échantillon aliquote est marqué au Cy3 et un autre échantillon aliquote est marqué au Cy5. Les 2 échantillons sont ensuite mélangés et hybridés aux sondes (p 560).

Amplification d'ARN : cette technique est utilisée pour la synthèse et le marquage de cibles pour des expériences de puces, quand la quantité de matériel de départ est limitante.

Un oligonucléotide qui contient la séquence du promoteur de l'ARN polymérase T7 est incorporé au cours de la synthèse du second brin d'ADNc. L'ARN polymérase T7 permet ensuite la synthèse d'un ARN antisens amplifié ("amplified antisense RNA" - "aRNA").

Remarque : dans cette étude, l'émission de fluorescence est suivie à 532 nm et 635 nm.

 

Amplification d'ARN

Source : Van Gelder et al., 1990

Voir pour les puces à ARN ("RNA microarray") :

Contrôles

  • contrôles négatifs externes ("exogenous controls 1-4" - voir aussi p 560) :
    1. ADNc de la phosphoglycérate kinase et de la microglobuline de bétail
    2. ADNc de la RuBisCO et de la protéine fixant la chlorophylle de soja
  • contrôles "spot" ("exogenous controls 5-48") : mélange de 43 ADNc de vertébrés déposés aléatoirement sur les puces

Données issues des puces à ADN

Normalisation des valeurs d'intensite

Les valeurs d'intensité de fluorescence ont été normalisées de sorte que la moyenne du rapport des intensités (635 / 532 nm) = 1.

Longueur d'onde
635 nm
532 nm
Nombre total de spots abeille
7329
7329
spots abeille > spots contrôles + 2 fois déviation standard
6647 (91%)
6631 (90%)

Les résultats des puces à ADN confirment que la grande majorité des EST du cerveau sont issues de transcrits réellement exprimés dans le cerveau de l'abeille.

Retour haut de page

 

6. Résumé des résultats

Les transcrits potentiels ont été annotés sur la base des données disponibles en 2002 pour la drosophile.

  • Les EST obtenues à partir du cerveau d'abeille sont liées à une large gamme de gènes impliqués dans des fonctions et des processus biologiques, notamment neurobiologiques.
  • Environ 50% des séquences d'EST d'abeille sont liées à des gènes qui, chez la drosophile, sont impliqués dans la transmission synaptique et/ou le comportement.
  • 24% des séquences d'EST d'abeille contenant une phase de lecture ouverte d'au moins 450 nucléotides semblent correspondre à des gènes nouveaux, liés à ces deux processus biologiques.
  • Plus de 100 transcrits potentiels chez l'abeille, communs à d'autres organismes, ne semblent pas exister chez la drosophile.
  • Les puces à ADN ont été fabriquées à partir de 7329 EST amplifiées (donnant une bande unique sur gel). Ces EST représentent différents transcrits potentiels. Avec une redondance de 20% dans les assemblages d'EST, les auteurs estiment que les 8912 assemblages correspondent à environ 7100 gènes exprimés dans le cerveau de l'abeille.
  • Les résultats d'hybridation obtenus avec des cibles synthétisées à partir des ARNm d'un seul cerveau d'abeille mettent en évidence une expression de génes pour 90% des ADNc (sondes) de l'abeille avec un rapport d'intensité (log2(r)) deux fois supérieur à ceux obtenus avec des cibles issues d'un ADN contrôle externe.

Conclusions - perspectives

Beaucoup de phénomènes liés au comportement chez l'abeille ne sont pas observés chez la drosophile.

De plus l'abeille est haplo-diploïde et a le taux de recombinaison le plus élevé connu chez les animaux.

 

Séquence abeille : gène du comportement
BB170005A10D08 - CAM Kinase II

Fichier Unigene

 

Pour mieux corréler l'expression de certains gènes au comportement de l'abeille :

Continuité de ce travail : Nunes et al. (2004) "The use of Open Reading frame ESTs (ORESTES) for analysis of the honey bee transcriptome" BMC Genomics 5, 84

 

7. Liens Internet et références bibliographiques

Honey Bee Genome Project & Apis mellifera (honey bee) genome view

Abeille - NCBI
Whitfield et al. (2002) "Annotated Expressed Sequence Tags and cDNA Microarrays for Studies of Brain and Behavior in the Honey Bee" Genome Research 12, 555 - 566
Article
Carninci et al. (2000) "Normalization and subtraction of cap-trapper-selected cDNAs to prepare full-length cDNA libraries for rapid discovery of new genes" Genome Res. 10, 1431 - 1432
Article
Diehl et al. (2001) "Manufacturing DNA microarrays of high spot homogeneity and reduced background signal" Nucleic Acids Research 29, e38
Article
Van Gelder et al. (1990) "Amplified RNA synthesized from limited quantities of heterogeneous cDNA" Proc. Natl. Acad. Sci. U S A. 87, 1663 - 1667
Article

Tweet

Valid XHTML 1.0 Transitional Retour haut de page