|
|
Les matrices de substitution | Sommaire |
|
| 1. Les matrices nucléïques |
|
Il existe peu de matrices pour les acides nucléiques car il n'y a que 4 lettres pour leur alphabet. La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où toutes les bases sont considérées comme équivalentes. |
|
matrice unitaire
|
matrice de transition - transversion
|
matrice de BLAST
|
|
2. Les matrices protéiques |
|
Elles ont été créées par Magaret Dayhoff et ses collaborateurs, après l'alignement d'environ 1300 séquences appartenant à 71 familles de protéines. Ce type de matrice donne la probabilité que, suite à une mutation par substitution au cours de l'évolution, n'importe quel acide aminé remplace n'importe quel autre acide aminé sans que la fonction de la protéine ne soit altérée.
|
Exemple de la matrice PAM250 (ci-dessous) Cette matrice donne la probabilité que 250 mutations soit acceptées pour 100 acides aminés. Du fait des mutations silencieuses et des réversions de mutations, cette matrice correspond à des séquences qui ont globalement 20% d'identité. Une valeur faible dans la matrice (exemple : W / C = -8) signifie qu'il est peu probable d'observer la substitution d'un tryptophane par une cystéine sans perte significative de la fonction de la protéine. Au contraire, une valeur forte (exemple : Y / F = 7) signifie qu'il est probable d'observer la substitution d'une tyrosine par une phénylalanine.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Les matrices PAM sont un peu moins utilisées maintenant au profit des matrices BLOSUM. Les raisons sont les suivantes :
|
|
Correspondance entre la distance évolutive et la valeur des matrices PAM
La zone d'ombre ("twilight zone") est la zone à partir de laquelle il devient difficile de dire si deux protéines sont homologues ou si elles se sont alignées par chance. Source figure : Infobiogen.fr |
|
|
Elles sont postèrieures aux matrices PAM et ont été développées par Henikoff & Henikoff. Les matrices BLOSUM sont construites à partir de 2000 BLOCKS provenant de plus de 500 familles de protéines. Les BLOCKS sont des régions conservées de familles de protéines ne contenant pas d'insertions ou de délétions. Ils sont tenus à jour dans une base de données massive située sur le serveur Blocks WWW Server. Exemple d'un BLOCK pour 3 protéines :
LONM_YEAST|P36775 ( 632) GPPGVGKTSIGKSIARALNR 15 Les matrices BLOSUM sont le type de matrice par défaut du logiciel "Blastp". Elles sont trés efficaces pour des alignements locaux de séquences ressemblantes. |
Comparaison des matrices PAM et des matrices BLOSUM Les matrices PAM sont basées sur des mutations observées dans un alignement global, incluant aussi bien des régions hautement conservées que des régions hautement mutables. Les matrices BLOSUM sont basées uniquement sur des régions hautement conservées à partir d'alignements qui ne contiennent pas de brèches ("gaps"). La méthode pour comptabiliser les substitutions est différente. A l'inverse de la procédure suivie pour l'obtention des matrices PAM, celle des matrices BLOSUM utilise des groupes de séquences au sein desquels toutes les mutations n'ont pas le même poids, c'est-à-dire que les mutations ne sont pas toutes comptabilisées de manière identique.
|
|
Ce type de matrice a été construit en 1992 par Gonnet, Cohen et Benner. C'est une méthode itérative, sur la base de 16300 séquences de protéines correspondant à 2600 familles. Chaque séquence a été comparée à l'ensemble des séquences de la banque et les alignements ont été obtenus en utilisant une matrice initiale choisie arbitrairement. Une nouvelle matrice a été construite et les alignements ont été recalculés à partir de cette nouvelle matrice. Cette procédure a été répétée jusqu'à ce que la matrice reste inchangée. Différentes matrices Gonnet : Gonnet 40, Gonnet 120, ..., Gonnet 250, Gonnet 350. |
|
Vu la diversité des types de matrices, le problème du choix adapté au type d'analyse que l'on veut faire se pose. Un grand nombre d'études sur les matrices ont mis en évidence que, de manière schématique :
Pour la comparaison d'une séquence donnée à un ensemble de séquences dans une banque de données, il semble que la matrice PAM120 soit un bon point de départ. De manière générale, pour les recherches dans les banques :
|
|||||||||
Il n'en reste pas moins que c'est à l'utilisateur de trouver le meilleur outil par différentes analyses et ne surtout pas "prendre pour argent comptant" le résultat d'un alignement. |
e. Les valeurs par défaut de ClustalW2 a. La longueur des mots "KTUP" : la valeur par défaut pour les protéines est 3. b. Par défaut, les matrices sont :
Les matrices pour les protéines sont :
c. Les paramètres de pénalité liés aux gap gaps La fonction de pénalité d'un gap est définie par : f(n) = d + [e . (n-1)], où :
Exemple : un gap de longueur n = 3, avec une pénalité d'ouverture d = -10 et d'extension e = -2, aura un score de f(3) = -10 + (-2 x 2) = -14
|
|
Exercice d'application sur un ensemble de séquences de glutamate déshydrogénase. |
| 3. Liens Internet et références bibliographiques |
| Voir un historique des matrices de substitution. | Site |
| Dayhoff, Schwartz & Orcutt (1978) "A model of evolutionary change in proteins, matrixes for detecting distant relationships" dans "Atlas of protein sequence and structure", Dayhoff, M.O. (ed.), vol 5, 345 - 358 | |
| Henikoff & Henikoff (1992) "Amino acid substitution matrices from protein blocks" Proc. Nat. Acad. Sci. USA 89, 10915 - 10919 | Article |
| Gonnet et al. (1992) "Exhaustive matching of the entire protein sequence database" Science 256, 1443-1444 | |
|
Johnson & Overington (1993) "A structural basis for sequence comparisons. An evaluation of scoring methodologies" J. Mol. Biol. 233, 716 - 738 |
|