|
|
La bioinformatique : définition, description, démarche et principales étapes |
|
|
Définition La bioinformation est l'information liée aux molécules biologiques : leurs structures, leurs fonctions, leurs liens de "parenté", leurs interactions et leur intégration dans la cellule. Divers domaines d'études permettent d'obtenir cette bioinformation : la génomique structurale, la génomique fonctionnelle, la protéomique, la détermination de la structure spatiale des molécules biologiques, la modélisation moléculaire ... La bioinformatique est l'analyse de la bioinformation. |
|
Description C'est une discipline récente (quelques dizaines d'années). C'est une discipline "hybride" : elle est fondée sur des concepts et des formalismes issus de la biologie, de l'informatique, des mathématiques et de la physique. C'est une discipline qui utilise toutes les potentialités de traitement de l'informatique : modèles théoriques, algorithmes et programmes, ordinateurs, réseau Internet, bases de données ... |
|
Démarche 1. Compilation et organisation des données biologiques dans des banques de données : ces banques sont soit généralistes (elles contiennent le plus d'information possible sans expertise particulière de l'information déposée), soit spécialisées dans un domaine autour de thèmes précis. 2. Traitements systématiques des données : l'objectif principal est de repérer et de caractériser une fonction et/ou une structure biologique importante. Les résultats de ces traitements constituent de nouvelles données biologiques obtenues "in silico". 3. Elaboration de stratégies :
|
| Principales étapes en biologie moléculaire, en informatique et en bioinformatique |
| 1965 | Première compilation de protéines ("Atlas of Protein Sequences") : Margaret Dayhoff et al. |
| 1967 | Article : "Construction of Phylogenetic Trees" - Fitch & Margoliash |
| 1970 | Algorithme pour l'alignement global de séquences : Needleman & Wunsch |
| 1971 |
Premier microprocesseur Intel 4004 |
| 1972 | Clonage de fragments d'ADN dans un virus, l'ADN recombiné : Paul Berg, David Jackson, Robert Symons |
| 1973 |
Découverte des enzymes de restriction qui coupe spécifiquement l'ADN. Méthode de transfection (introduction d'un ADN étranger) des cellules eucaryotes grâce à un virus (vecteur). |
| 1974 | Programme de prédiction de structures secondaires des protéines : "Prediction of Protein Conformation" - Chou & Fasman |
| 1977 | Micro-ordinateurs |
| Techniques de séquençage d'ADN : Frederick Sanger / Maxam & Gilbert | |
| 1978 - 1980 |
Mutagénèse dirigée : Michael Smith Séquençage du 1er génome à ADN, le bactériophage phiX174 : Frederick Sanger Premières bases de données : EMBL, GenBank, PIR |
| 1980 | Accès téléphonique à la base de données PIR |
|
1981 : 370.000 nucléotides GenBank : 270 séquences |
Micro-ordinateur IBM-PC 8088 |
| Programme d'alignement local de séquences : Smith & Waterman | |
| 1983 | IBM-XT disque dur (10 Mb) |
| 1984 |
Amplification de l'ADN : réaction de polymérisation en chaîne (PCR) - Karry Mullis MacIntosh : interface graphique & souris |
| 1985 | "FASTA" : Programme d'alignement local de séquences - Pearson & Lipman |
| 1987 | Nouveau vecteur permettant de cloner des fragments d'ADN 20 fois plus grands : le YAC (Yeast Artificial Chromosome). Rend possible l'étude de grands génomes. |
| 1988 | Taq polymérase, enzyme thermostable pour la PCR. |
| 1989 |
INTERNET succède à ARPANET |
| 1990 |
Clonage positionnel et premier essai de thérapie génique. "BLAST" : Programme d'alignement local de séquences - Altschul et al. |
| 1992 | Séquençage complet du chromosome III de levure |
| 1996 | Séquençage complet de la levure (consortium européen) |
| 1997 | 11 génomes bactériens séquencés |
| 1998 | Séquençage de 2 millions de nucléotides par jour |
| 2000 | Séquençage du 1er génome de plante : Arabidopsis thaliana |
| 2001 | Séquence "premier jet" complète du génome humain |
|
Janvier 2012 Plus de 393.000.000.000 nucléotides ! |
Plus de 3040 génomes eucaryotes et procaryotes séquencés et des milliers en projet (Genomes OnLine) ! |
|
Voir le développement de la banque de données EMBL (banque européenne créée en 1980) Voir le développement de la banque de données Genbank (créée en 1982 et diffusée par le National Center for Biotechnology Information) |
|
A quelles fins la bioinformatique est-elle utilisée ? |
| L'acquisition des données biologiques | Bases ou banques de donnés & internet |
|
|
|
Une grande partie du traitement des données s'appuie sur la comparaison de séquences pour trouver des similarités, des motifs connus. Les buts sont multiples (liste non exhaustive) : |
|
Acides nucléiques
|
Protéines
|
| Pour boucler la boucle : | développement de théories, de modèles, d'algorithmes, de programmes, de langages pour répondre aux besoins qui précèdent |
| Buts plus généraux à moyen terme : | biologie intégrative (métabolisme, réseaux d'interactions entre molécules), modéliser le fonctionnement global d'une cellule |
| Applications : | thérapie génique, pharmacogénomique (cibles pour la mise au point de molécules actives), analyse d'images (IRM) |
|
L'industrie de la santé est devenue la première industrie mondiale avec un chiffre d'affaires de 2000 milliards d'euros en l'an 2000, et une perspective de 4000 milliards en 2010. On évalue le marché de la bioinformatique à plus de 1,1 milliard d'euros en 2005, avec un taux de croissance annuel de 15,8% pour atteindre 3 milliard d'euros en 2010. Essentiellement pour des investissements en :
En ce qui concerne l'Europe, le marché de la bioinformatique devrait passer de 257 millions d'euros en 2004 à 598 millions d'euros en 2011, avec un taux de croissance annuel de 14.4% essentiellement en protéomique. Source : "Genetic Engineering News" |
Source : "Business Communications Company" |
| Voir des propositions d'emplois en bioinformatique. |
|
Les domaines d'étude en "ome" ou "omique" Le plein essor de la bioinformatique (telle qu'on la conçoit maintenant) a commencé avec la génomique (début des années 80) marquée par des évènements phares comme le séquençage du génome humain. Puis la quantité et la multiplicité d'informations biologiques obtenues de même que les avancées technologiques ont fait apparaître au fur et à mesure d'autres domaines d'étude en "ome" ou "omique". Leur définition évolue ce qui explique qu'elle puisse différer selon les sources. |
| Domaine d'étude | source | définition |
| Génomique |
Les Actions Concertées Incitatives Ministère de la Recherche |
La génomique est une nouvelle discipline de la biologie qui vise à l'analyse moléculaire et physiologique complète du matériel héréditaire des organismes vivants. [...] il s'agit de déduire les fonctions des gènes et leurs interactions à partir de leurs séquences, ce qui facilite l'intégration de la génomique dans la physiologie. [...] La génomique repose sur des techniques qui évoluent à une vitesse prodigieuse et l'ensemble des bases de données obtenues, qui représente des dizaines de milliards de caractères répartis en dizaines de milliers de fichiers, pose déjà aux informaticiens des problèmes considérables pour classer et interpréter cette énorme masse de données. |
|
Rapport sur Génomique et informatique L'impact sur les thérapies et sur l'industrie pharmacaeutique F. Sérusclat - Sénateur (1999) |
|
|
| Génomique structurale |
Voir les cours : Génomique fonctionnelle végétale et |
Elle décrit l'organisation du génome, réalise son séquençage et dresse l'inventaire des gènes : prédiction des régions codantes d'un gène - dentification des sites de régulation de la transcription - identification d'exons et d'introns ... Définition : la génomique structurale s'attèle à déterminer la structure 3D des protéines codées par le génome. Selon cette définition, elle devrait s'appeler "protéomique structurale"... |
| Génomique fonctionnelle ou post-génomique |
La génomique fonctionnelle ou post-génomique étudie le transcriptome (ensemble des ARN messagers transcrits à partir du génome). Le but est de déterminer la fonction des gènes à partir de leurs produits d'expression (ARN et protéines) et d'étudier leur mode de régulation et leurs interactions. On inclue souvent la protéomique dans la génomique fonctionnelle. |
|
| Protéomique | La protéomique étudie le protéome : ensemble des protéines identifiées à partir d'un génome. Toutes les cellules de l'organisme possèdent le même génome, mais ont un protéome différent selon l'organe et le moment du développement de l'individu. La protéomique s'attache à déterminer la localisation, la structure et la fonction de ces protéines. Elle analyse leurs interactions et leurs modifications au cours du temps. | |
|
Les autres "omes" et "omiques" |
Métabolomique : description de la
population des différents métabolites d'une cellule dans
un stade physiologique donné.
Interactome - interactomique : description des interactions entre toutes les macromolécules d'une cellule. On trouve aussi dans la liitérature : lipidome, protéasome, régulome, spliceosome, prédictome, réactome |
|
| Liens Internet |
|
Revue scientifique : "Bioinformatics" Revue scientifique : "Nucleic Acids Research" Revue scientifique : "OMICS: A Journal of Integrative Biology" |
|
|
Fields & Johnston (2002) "Genomics : A Crisis in Postgenomic Nomenclature" Science 296, 671 - 672 Kanehisa & Bork (2003) "Bioinformatics in the post-sequence era" Nature Genetics 33, 305 - 310 |