La bioinformatique : définition, description, démarche et principales étapes

Définition

La bioinformation est l'information liée aux molécules biologiques : leurs structures, leurs fonctions, leurs liens de "parenté", leurs interactions et leur intégration dans la cellule.

Divers domaines d'études permettent d'obtenir cette bioinformation : la génomique structurale, la génomique fonctionnelle, la protéomique, la détermination de la structure spatiale des molécules biologiques, la modélisation moléculaire ...

La bioinformatique est l'analyse de la bioinformation.

Description

C'est une discipline récente (quelques dizaines d'années).

C'est une discipline "hybride" : elle est fondée sur des concepts et des formalismes issus de la biologie, de l'informatique, des mathématiques et de la physique.

C'est une discipline qui utilise toutes les potentialités de traitement de l'informatique : modèles théoriques, algorithmes et programmes, ordinateurs, réseau Internet, bases de données ...

Démarche

1. Compilation et organisation des données biologiques dans des banques de données : ces banques sont soit généralistes (elles contiennent le plus d'information possible sans expertise particulière de l'information déposée), soit spécialisées dans un domaine autour de thèmes précis.

2. Traitements systématiques des données : l'objectif principal est de repérer et de caractériser une fonction et/ou une structure biologique importante. Les résultats de ces traitements constituent de nouvelles données biologiques obtenues "in silico".

3. Elaboration de stratégies :

  • le but est d'apporter des connaissances biologiques supplémentaires en combinant les données biologiques initiales et les données biologiques obtenues "in silico".
  • ces connaissances permettent, à leur tour, de développer de nouveaux concepts en biologie.
  • concepts qui nécessitent l'élaboration de nouvelles théories et outils en mathématiques et en informatique.
Principales étapes en biologie moléculaire, en informatique et en bioinformatique
1965 Première compilation de protéines ("Atlas of Protein Sequences") : Margaret Dayhoff et al.
1967 Article : "Construction of Phylogenetic Trees" - Fitch & Margoliash
1970 Algorithme pour l'alignement global de séquences : Needleman & Wunsch
1971

Premier microprocesseur Intel 4004

1972 Clonage de fragments d'ADN dans un virus, l'ADN recombiné : Paul Berg, David Jackson, Robert Symons
1973

Découverte des enzymes de restriction qui coupe spécifiquement l'ADN.

Méthode de transfection (introduction d'un ADN étranger) des cellules eucaryotes grâce à un virus (vecteur).

1974 Programme de prédiction de structures secondaires des protéines : "Prediction of Protein Conformation" - Chou & Fasman
1977 Micro-ordinateurs
Techniques de séquençage d'ADN : Frederick Sanger / Maxam & Gilbert
1978 - 1980

Mutagénèse dirigée : Michael Smith

Séquençage du 1er génome à ADN, le bactériophage phiX174 : Frederick Sanger

Premières bases de données : EMBL, GenBank, PIR

1980 Accès téléphonique à la base de données PIR

1981 : 370.000 nucléotides

GenBank : 270 séquences
Micro-ordinateur IBM-PC 8088
Programme d'alignement local de séquences : Smith & Waterman
1983 IBM-XT disque dur (10 Mb)
1984

Amplification de l'ADN : réaction de polymérisation en chaîne (PCR) - Karry Mullis

MacIntosh : interface graphique & souris

1985 "FASTA" : Programme d'alignement local de séquences - Pearson & Lipman
1987 Nouveau vecteur permettant de cloner des fragments d'ADN 20 fois plus grands : le YAC (Yeast Artificial Chromosome). Rend possible l'étude de grands génomes.
1988 Taq polymérase, enzyme thermostable pour la PCR.
1989

INTERNET succède à ARPANET

1990

Clonage positionnel et premier essai de thérapie génique.

"BLAST" : Programme d'alignement local de séquences - Altschul et al.

1992 Séquençage complet du chromosome III de levure
1996 Séquençage complet de la levure (consortium européen)
1997 11 génomes bactériens séquencés
1998 Séquençage de 2 millions de nucléotides par jour
2000 Séquençage du 1er génome de plante : Arabidopsis thaliana
2001 Séquence "premier jet" complète du génome humain

Janvier 2012

Plus de 393.000.000.000 nucléotides !

Plus de 3040 génomes eucaryotes et procaryotes séquencés et des milliers en projet (Genomes OnLine) !

Voir le développement de la banque de données EMBL (banque européenne créée en 1980)

Voir le développement de la banque de données Genbank (créée en 1982 et diffusée par le National Center for Biotechnology Information)

Retour haut de page

 

A quelles fins la bioinformatique est-elle utilisée ?

L'acquisition des données biologiques Bases ou banques de donnés & internet
  • les séquences nucléotidiques et les séquences polypeptidiques
  • les gels bidimensionnels et les différentes méthodes de spectromètrie de masse (protéomique)
  • la bibliographie
  • stocker, trier, organiser, corriger et annoter les données
  • développer des protocoles de communication interactive (internaute - banques ou entre banques)
  • gérer la diversité des formats des fichiers pour optimiser les échanges de données

Une grande partie du traitement des données s'appuie sur la comparaison de séquences pour trouver des similarités, des motifs connus.

Les buts sont multiples (liste non exhaustive) :

Acides nucléiques

  • la recherche de phase de lecture ouverte (gène) et de signaux de régulation de la transcription et de la traduction, détection de bornes introns/exons
  • la détection de polymorphismes de nucléotide simple ou d'insertion / délétion
  • la reconstruction d'arbres phylogèniques
  • l'analyse de génomes entiers (génomique structurale, synténie)
  • l'ontologie : l'organisation hiérarchique de la connaissance sur un ensemble d'objets par leur regroupement en sous-catégories suivant leurs caractéristiques essentielles.

 

Protéines

  • traduction in silico
  • recherche de motifs structuraux : détection de sites actifs (enzymes), de domaines, de types de repliement (famille de protéines)
  • prédiction de structures secondaires
  • modélisation de structure tridimensionnelles
  • l'ontologie : l'organisation hiérarchique de la connaissance sur un ensemble d'objets par leur regroupement en sous-catégories suivant leurs caractéristiques essentielles.
Pour boucler la boucle : développement de théories, de modèles, d'algorithmes, de programmes, de langages pour répondre aux besoins qui précèdent
Buts plus généraux à moyen terme : biologie intégrative (métabolisme, réseaux d'interactions entre molécules), modéliser le fonctionnement global d'une cellule
Applications : thérapie génique, pharmacogénomique (cibles pour la mise au point de molécules actives), analyse d'images (IRM)

 

L'industrie de la santé est devenue la première industrie mondiale avec un chiffre d'affaires de 2000 milliards d'euros en l'an 2000, et une perspective de 4000 milliards en 2010.

On évalue le marché de la bioinformatique à plus de 1,1 milliard d'euros en 2005, avec un taux de croissance annuel de 15,8% pour atteindre 3 milliard d'euros en 2010. Essentiellement pour des investissements en :

  • développement de logiciels d'analyses et services
  • chimie informatique (recherche de médicaments)
  • pharmacogénomique (test de médicaments)

En ce qui concerne l'Europe, le marché de la bioinformatique devrait passer de 257 millions d'euros en 2004 à 598 millions d'euros en 2011, avec un taux de croissance annuel de 14.4% essentiellement en protéomique.

Source : "Genetic Engineering News"

 

Evolution marche de la bioinformatique

Source : "Business Communications Company"

Voir des propositions d'emplois en bioinformatique.

Retour haut de page

Les domaines d'étude en "ome" ou "omique"

Le plein essor de la bioinformatique (telle qu'on la conçoit maintenant) a commencé avec la génomique (début des années 80) marquée par des évènements phares comme le séquençage du génome humain.

Puis la quantité et la multiplicité d'informations biologiques obtenues de même que les avancées technologiques ont fait apparaître au fur et à mesure d'autres domaines d'étude en "ome" ou "omique".

Leur définition évolue ce qui explique qu'elle puisse différer selon les sources.

Domaine d'étude source définition
Génomique

Les Actions Concertées Incitatives

Ministère de la Recherche

La génomique est une nouvelle discipline de la biologie qui vise à l'analyse moléculaire et physiologique complète du matériel héréditaire des organismes vivants. [...] il s'agit de déduire les fonctions des gènes et leurs interactions à partir de leurs séquences, ce qui facilite l'intégration de la génomique dans la physiologie. [...]

La génomique repose sur des techniques qui évoluent à une vitesse prodigieuse et l'ensemble des bases de données obtenues, qui représente des dizaines de milliards de caractères répartis en dizaines de milliers de fichiers, pose déjà aux informaticiens des problèmes considérables pour classer et interpréter cette énorme masse de données.

Rapport sur Génomique et informatique

L'impact sur les thérapies et sur l'industrie pharmacaeutique

F. Sérusclat - Sénateur (1999)

  • La génomique est l'étude exhaustive des génomes et en particulier de l'ensemble des gènes, de leur disposition sur les chromosomes, de leur séquence, de leur fonction et de leur rôle.
  • La cartographie physique est le positionnement de repères sur le génome.
  • Le séquençage : pour connaître les "instructions " que renferme un fragment d'ADN, on lit la succession des bases puriques et pyrimidiques (A, T, G, C) de l'enchaînement. Cette lecture est appelée séquençage.
Génomique structurale

Voir les cours :

Génomique fonctionnelle végétale

et

Protéomique

Elle décrit l'organisation du génome, réalise son séquençage et dresse l'inventaire des gènes : prédiction des régions codantes d'un gène - dentification des sites de régulation de la transcription - identification d'exons et d'introns ...

Définition : la génomique structurale s'attèle à déterminer la structure 3D des protéines codées par le génome. Selon cette définition, elle devrait s'appeler "protéomique structurale"...

Génomique fonctionnelle ou post-génomique

La génomique fonctionnelle ou post-génomique étudie le transcriptome (ensemble des ARN messagers transcrits à partir du génome). Le but est de déterminer la fonction des gènes à partir de leurs produits d'expression (ARN et protéines) et d'étudier leur mode de régulation et leurs interactions.

On inclue souvent la protéomique dans la génomique fonctionnelle.

Protéomique La protéomique étudie le protéome : ensemble des protéines identifiées à partir d'un génome. Toutes les cellules de l'organisme possèdent le même génome, mais ont un protéome différent selon l'organe et le moment du développement de l'individu. La protéomique s'attache à déterminer la localisation, la structure et la fonction de ces protéines. Elle analyse leurs interactions et leurs modifications au cours du temps.

Les autres "omes" et "omiques"

Métabolomique : description de la population des différents métabolites d'une cellule dans un stade physiologique donné.

Interactome - interactomique : description des interactions entre toutes les macromolécules d'une cellule.

On trouve aussi dans la liitérature : lipidome, protéasome, régulome, spliceosome, prédictome, réactome

 

Liens Internet

Revue scientifique : "Bioinformatics"

Revue scientifique : "Nucleic Acids Research"

Revue scientifique : "OMICS: A Journal of Integrative Biology"

Bioinformatics

NAR

OMICS

Fields & Johnston (2002) "Genomics : A Crisis in Postgenomic Nomenclature" Science 296, 671 - 672

Kanehisa & Bork (2003) "Bioinformatics in the post-sequence era" Nature Genetics 33, 305 - 310

Article

Article

 

Tweet

Valid XHTML 1.0 Transitional Retour haut de page