|
|
La bioinformatique |
|
|
|
||
|
| 1. La bioinformatique : définition, description, démarche et principales étapes |
|
|
|
|
|
|
2. Deux types de molécules support de la bioinformation : les acides nucléiques et les protéines |
|
ADN : Acide DésoxyriboNucléique
On distingue :
|
|
ARN : Acide RiboNucléique
On distingue :
|
Protéine
|
|
|
|
||||
|
3. Deux types de bioinformation : la séquence des nucléotides et la séquence des acides aminés Les chaînes nucléotidiques (ADN, ARN) et les chaînes polypeptidiques (protéines) sont des polymères d'unités élémentaires :
Elles possèdent 2 extrémités distinctes et sont donc orientées :
En conséquence :
|
|
Exemple de séquence nucléotidique
|
Exemple de séquence polypeptidique
|
|
| aattccggca tagaaactca aatcaaagag gaagaaacac cgattctcct tttctctctc taaacaacta gatcagatct ctgagtttaa ggaagctttc agcctattcg ataaggatgg cgatggttgc atcacaacca aggagcttgg aactgttatg cgatcattgg gacaaaaccc aactgaagca gagcttcagg acatgatcaa |
MADQLTDDQI SEFKEAFSLF DKDGDGCITT KELGTVMRSL GQNPTEAELQ DMINEVDADG NGTIDFPEFL NLMARKMKDT DSEEELKEAF RVFDKDQNGF ISAAELRHVM TNLGEKLTDE EVDEMIREAD VDGDGQINYE EFVKVMMAK |
|
Les séquences
constituent l'un des principaux types de bioinformation qu'analyse la
bioinformatique.
|
| Exemples d'autres types de bioinformation (directe ou obtenue "in silico") | |
| Les structures tridimensionnelles des protéines et aussi, malgré leur nombre plus restreint, des acides nucléiques (en particulier les ARN de transfert). | |
| Les données obtenues en protéomique (gels d'électrophorèse bidimensionnel). | |
| Le changement d'un nucléotide dans un gène quelconque ("Single Nucleotide Polymorphism"). | |
| La taxonomie (classification) des organismes. | |
| L'ontologie : l'organisation hiˇrarchique de la connaissance sur un ensemble d'objets par leur regroupement en sous-catégories suivant leurs caractéristiques essentielles. | |
| Les données bibliographiques (diffusion des résultats de la recherche par les articles). | |
| 4. L'obtention des séquences | ||
|
Séquence des
nucléotides
: méthode de F.
Sanger (1977)
|
Séquence des acides
aminés : méthode
de P. Edman
(1950)
|
|
|
La molécule d'ADN est le support biologique de l'information héréditaire. Cette information est transmise par la copie conforme de cette molécule.
C'est une macromolécule formée par l'enchaînement de milliers, de millions ou de milliards (dans le cas de l'homme) de nucléotides. L'extension complète de l'ADN humain formerait un fil de plus d'1,2 m. |
|
![]() |
Ci-contre, schéma du super-enroulement de l'ADN dans les chromosomes qui explique son extrème compacité. Source : Alberts et al. - "Access Excellence"
Ci-dessous, une seule molécule d'ADN (long brin jaune) d'une bactérie Escherichia coli éclatée par un choc osmotique. Echelle : un fragment de la molécule d'ADN d'environ la moitié de la longueur de la bactérie correspond à environ 5000 paires de bases.
Source : "L'information biologique" |
| Ci-contre,
un aperçu du déroulement du séquençage du
génome humain.
Source : Nature 409, 860 - 921 |
|
|
1984 à 1990 |
Les pré-projets.
|
|
|
1990
|
Le NIH ("National Institute of Health" - USA) et le DOE ("Department of Energy Office of science"- USA) présentent au Congrès américain le projet "Génome Humain" ("Human Genome Project" - HGP). HGP est un consortium regroupant des laboratoires de différents pays (Etats-Unis, Royaume-Uni, Japon, Allemagne, Chine et France - Génoscope). Il est financé par des fonds publiques et caritatifs. Pour éviter les problèmes liés au dépôt de brevet, les résultats du séquençage sont accessibles à tous sur internet dans les 24 heures. |
Les objectifs du HGP étaient de :
Le Consortium public n'a pas accordé d'importance au choix des multiples donneurs d'ADN. |
|
1992
|
Première phase du projet
: première carte
physique génétique complète (basse résolution).
|
Voir une belle animation décrivant le principe du séquençage (Jussieu - Génoscope). |
|
1993
|
Le Généthon
fournit des mega-YACs au HGP.
|
Le YAC ("Yeast Artificial Chromosome") est un vecteur utilisé pour cloner des fragments d'ADN jusqu'à une taille de 400 kb. Le BAC ("Bacterial Artificial Chromosome") est aussi un vecteur utilisé pour cloner des fragments d'ADN jusqu'à une taille de 300 kb. |
|
1997
|
Séquençage complet du génome de la bactérie Escherichia Coli. Publication de cartes physiques génétiques à haute résolution des chromosomes humains 7 et X. |
Le décryptage du génome
pose la question de la brevetabilité du vivant, l'UNESCO
le 11 novembre 1997 à déclaré que le génome
humain est un patrimoine de l'humanité, or un patrimoine de l'humanité
ne peut pas être la propriété d'un individu. Donc,
une séquence d'ADN ne peut pas être brevetée.
|
|
1998
|
Création de la société "Celera Genomics" (USA) par Craig Venter dans le but de séquencer le génome humain en compétition avec l'HGP. Cette société a fait le choix de séquencer l'ADN de cinq personnes d'origine : africaine, asiatique, caucasienne et latino-américaine. |
Une vraie course au séquençage
est lancée : l'enjeu est la propriété
publique ou privée du génome humain dans le but
d'une exploitation commerciale des tests et des médicaments (brevets).
|
|
1999
|
Première séquence
complète du chromosome 22 établie par HGP.
|
|
|
2000
|
HGP annonce 90 % du séquençage du génome humain. "Celera Genomics" propose les premiers résultats du séquençage total du génome d'une personne. Publication du génome du chromosome 21. Publication du génome complet de la mouche Drosophila melanogaster. |
Communiqué commun de Tony Blair et Bill Clinton (14 mai 2000) qui annoncent leur souhait que les résultats du séquençage soient en accès libre et que les brevets soient limités à leur exploitation industrielle et commerciale. L'entreprise "Celera Genomics" va donc devoir rendre ses résultats publics de manière trimestrielle. |
|
Février 2001 |
La même semaine, publication du brouillon initial des travaux de séquençage du génome humain complet par :
Le génome humain contient 3,2 milliards de nucléotides et il contiendrait environ 30.000 à 40.000 gènes (chiffre nettement inférieur à ce qui était prévu). Cependant, la structure des gènes est trés complexe (introns, exons, épissage alternatif) : un même gène peut coder différentes protéines. On ignore le nombre total de protéines différentes que peut fabriquer l'organisme humain. Pour le moment, on estime ce nombre entre 50 000 et 150 000. |
1. L'ADN humain est extrêmement hétérogène. Les gènes ne sont pas répartis uniformément sur le génome. Il existe des zones qui n'en contiennent aucun, mais possèdent des séquences répétitives. On ne connait pas encore les fonctions de ces parties de l'ADN. 2. Les résultats de la société "Celera Genomics" montrent qu'il y a plus de différences entre l'ADN des deux Caucasiens qu'entre celui d'un Africain et d'un Caucasien. Tous les êtres humains sont différents et cette différence résulte des variations entre l'ADN des individus. Ces variations correspondent au changement d'un nucléotide dans un gène quelconque que l'on appelle un "Single Nucleotide Polymorphism" (SNP). Les SNPs représentent 0,1% de différence entre deux génomes (plus de 1,4 millions de SNP ont été identifiés). Ils sont particulièrement intéressants pour la médecine et l'industrie pharmaceutique (détermination de l'origine de nombreuses maladies, développement de tests de prédisposition aux maladies, synthèse de médicaments en fonction de la sensibilité génétique). Voir "Société : champs d'application de la bioinformatique et des domaines affèrant". 3. Le gène ZNF217 est identifié dans le chromosome 20. Ce gène apparaît en nombre croissant de copies dans beaucoup de tumeurs. Il jouerait un rôle dans le cancer du sein. |
|
|||||
|
6. Le stockage de la bioinformation : les banques de données Les fichiers contenant l'information biologique sous la forme de séquences est l'élément central autour duquel les banques de données se sont constituées. Il existe un grand nombre de bases de données d'intérêt biologique. On peut distinguer :
Exemple de grandes banques généralistes :
Ces trois banques s'échangent systématiquement leur contenu depuis 1987 et adoptent un système de conventions communes (The DDBJ/EMBL/GenBank Feature Table Definition).
Les multiples liens entre les groupes de données dans les banques généralistes sont d'une complexité étonnante. Voir les exemples de Genbank ou ExPASy. Exemple de banques spécialisées :
|
| Projet
"Embrace" : standardiser l'accès aux données bioinformatiques
en Europe
Projet de réseau bioinformatique européen (début février 2005), doté par la commission européenne de 8,28 millions d'euros pour cinq ans, il rassemble 16 partenaires de 11 pays, dont 3 équipes du CNRS. Depuis la première ébauche du séquençage du génome humain, en 2001, les biologistes produisent toujours plus de données bioinformatiques. Pour les stocker, ils multiplient les bases de données, mais aucune standardisation n'existe encore dans ce domaine. En conséquence, les données ne sont pas toutes présentées sous la même forme. De plus, les protocoles d'accès sont différents, de même que les algorithmes qui traitent les données. Le but du projet "Embrace" est de standardiser l'accès aux innombrables données issues des projets de génomique, et leurs méthodes d'étude, afin que les chercheurs puissent les consulter et les exploiter facilement. Embrace utilisera la "technologie de grille" (grid), où un grand nombre d'ordinateurs géographiquement éloignés les uns des autres travaillent en réseau afin d'offrir une importante capacité de stockage et de calcul. |
|
9. Exemple d'analyse bioinformatique d'une enzyme : la glutamate déshydrogénase (GDH) On peut considérer la première réaction d'assimilation de l'azote (sous forme d'ammoniac) par la glutamate déshydrogénase (GDH) comme un point d'entrée dans le métabolisme azoté. L'atome d'azote est à l'origine de la fonction a-aminée des acides aminés selon la réaction : NH3+ + a-cétoglutarate + NAD(P)H + H+ <======> glutamate + NAD(P)+ Il existe trois isoformes de GDH :
La GDH4 joue peut-être un rôle clé dans l'assimilation de l'azote. Or ce rôle n'a pas encore été démontré, notamment chez les plantes. Par ailleurs, on ne dispose d'aucune information concernant la structure de la GDH4. La bioinformatique permet l'étude prospective de la relation structure - fonction de la GDH. |
|
10. Les domaines d'étude en "ome" ou "omique" Le plein essor de la bioinformatique (telle qu'on la conçoit maintenant) a commencé avec la génomique (début des années 80) marquée par des évènements phares comme le séquençage du génome humain. Puis la quantité et la multiplicité d'informations biologiques obtenues de même que les avancées technologiques ont fait apparaître au fur et à mesure d'autres domaines d'étude en "ome" ou "omique". Leur définition évolue ce qui explique qu'elle puisse différer selon les sources. |
|
Domaine d'étude
|
source
|
définition
|
|
Génomique
|
La génomique est une nouvelle discipline de la biologie qui vise à l'analyse moléculaire et physiologique complète du matériel héréditaire des organismes vivants. [...] il s'agit de déduire les fonctions des gènes et leurs interactions à partir de leurs séquences, ce qui facilite l'intégration de la génomique dans la physiologie. [...] La génomique repose sur des techniques qui évoluent à une vitesse prodigieuse et l'ensemble des bases de données obtenues, qui représente des dizaines de milliards de caractères répartis en dizaines de milliers de fichiers, pose déjà aux informaticiens des problèmes considérables pour classer et interpréter cette énorme masse de données. |
|
|
Rapport sur Génomique et informatique L'impact sur les thérapies et sur l'industrie pharmacaeutique F. Sérusclat - Sénateur (1999) |
|
|
|
Génomique structurale
|
La génomique structurale (qu'il serait plus judicieux et exact de nommer "protéomique structurale") s'attèle à déterminer la structure tridimensionnelle des protéines codées par le génome. On s'aperçoit de l'ambiguité du nom de génomique structurale. | |
|
Génomique fonctionnelle
ou post-génomique
|
La génomique fonctionnelle
ou post-génomique étudie le transcriptome
(ensemble des ARN messagers transcrits à partir du génome).
Le but est de déterminer la
fonction des gènes à partir de leurs produits d'expression
(ARN et protéines) et d'étudier leur mode de régulation
et leurs interactions.
|
|
|
Protéomique
|
La protéomique étudie
le protéome
: ensemble des protéines identifiées à partir d'un
génome. Toutes les cellules de l'organisme possèdent le
même génome, mais ont un protéome différent
selon l'organe et le moment du développement de l'individu. La
protéomique s'attache à déterminer la localisation,
la structure et la fonction de ces protéines. Elle analyse leurs
interactions et leurs modifications au cours du temps.
|
|
|
Les autres "omes" et "omiques" |
Métabolome
- métabolomique : description de la
population des différents métabolites d'une cellule dans
un stade physiologique donné.
Interactome - interactomique : description des interactions entre toutes les macromolécules d'une cellule. On trouve aussi dans la littérature : lipidome, protéasome, régulome, spliceosome, prédictome, réactome |
|
|
11. Société : champs d'application de la bioinformatique et des domaines affèrant
|
||||||||||||||||||
| 12. Liens Internet et références bibliographiques |
|
Informations
générales
|
|
|
La Bioinformatique (Infobiogen - Génopole d'Evry - France) Cours : "Analyse bioinformatique des séquences" Site : "L'information génétique" - Simple et didactique |
|
|
Séquençage du génome humain : "The Human Genome Project" Actualités concernant la génomique et les biotechnologies |
|
|
Revue scientifique : "Bioinformatics" Revue scientifique : "Nucleic Acids Research" Revue scientifique : "OMICS: A Journal of Integrative Biology" |
|
|
Fields & Johnston (2002) "Genomics : A Crisis in Postgenomic Nomenclature" Science 296, 671 - 672 Kanehisa & Bork (2003) "Bioinformatics in the post-sequence era" Nature Genetics 33, 305 - 310 |
|
|
Algorithmes
et programmes en bioinformatique
|
|
|
Needleman, S.B. & Wunsch, C.D. (1970) "A general method applicable to the search for similarities in the amino acid sequence of two proteins" J. Mol. Biol. 48, 443 - 453 Smith, T. & Waterman M. (1981) "Identification of common molecular subsequences" J. Mol. Biol. 147, 195 - 197 |
|
|
Clustal W : Thompson, J. D., Higgins, D. G. & Gibson , T. J. (1994) "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice" Nuc. Acids Res. 22, 4673 - 4680 |
|
|
FASTA : Pearson, W. R. & Lipman, D. J. (1988) "Improved tools for biological sequence comparison" Proc. Natl. Acad. Sci. USA 85, 2444 - 244 |
|
|
BLAST : Altschul, S. F., Gish, W., Miller, W., Myers, E. W. & Lipman, D. J. (1990) "Basic local alignment search tool" J Mol Biol 215, 403 - 410 |
|
|
Multalin : Corpet, F. (1988) "Multiple sequence alignment with hierarchical clustering" Nuc. Acids Res. 16, 10881 Š 10890 |
|
|
ESpript : Gouet, P., Courcelle, E., Stuart, D. I. & Metoz, F. (1999) "ESPript : analysis of multiple sequence alignments in PostScript" Bioinformatics 15, 305 - 308 |
|
|
ESyPred3D : Lambert, C., Leonard, N., De Bolle, X. & Depiereux, E. (2002) "ESyPred3D : Prediction of proteins 3D structures" Bioinformatics 18, 1250 - 1256 |
|
|
Swiss-PdbViewer : Guex, N. & Peitsch M. C. (1997) "SWISS-MODEL and the Swiss-PdbViewer: an environment for comparative protein modeling" Electrophoresis 18, 2714 - 2723 |
|