|
|
Etude des protéines LEA ("Late Embryogenesis Abundant proteins") | Sommaire |
1. Mise en évidence d'un motif 2. Affinement du motif 3. Illustration du principe de la recherche de similarité locale avec BLAST 4. Recherche de protéines possédant le(s) motif(s)
5. PHI-blast |
6. Recherche de motifs répétés 7. Caractéristiques structurales des LEA 8. Recherche d'informations bibliographiques liées au motif et à la famille de protéines étudiée 9. Recherche du maximum de séquences de LEA 10. Liens Internet et références bibliographiques |
|
"ExPASy Proteomics tools" : Ensemble d'applications pour l'analyse de séquences peptidiques. "Bioinformatics Databases and Tools Guide" : Liste d'un trés grand nombre d'applications bioinformatiques, de bases de données et autres classées par catégories. "Sequence Manipulation Suite" : Ensemble d'applications Java pour l'analyse de séquences d'ADN et de protéines. |
|
1. Mise en évidence d'un motif a. Chercher un programme de traduction. b. Obtenez la traduction sur les 6 phases de la séquence nucléotidique de la Protéine 1. c. Copier les données de l'écran. Sauvegardez le résultat dans un fichier texte. Eliminez les caractères qui ne correspondent pas à un nucléotide clairement déterminé. d. Chercher un programme de conversion de formats de fichiers. e. Transformez les 6 séquences traduites au format FASTA. Veillez à éliminer les "gaps". Enregistrer le fichier. f. Faute de critère pour savoir quelle traduction est correcte, rechercher des homologues de chaque traduction avec BLAST. g. S'il en existe, repérez et enregistrer un ou plusieurs motif(s). h. Récupérer le fichier FASTA de la protéine qui vous semble le plus logiquement correspondre à la séquence de la protéine 1. |
|
a. Effectuer le même travail avec les séquences nucléotidiques suivantes. Remarque : Ayant repéré un ou des motifs, il ne devrait plus être nécessaire d'effectuer une recherche de similarité locale avec BLAST sur les 6 phases. Une inspection " à l'oeil " des 6 traductions devrait suffire. b. Chercher un programme d'alignement multiple. Avec les 10 meilleures séquences peptidiques que vous avez obtenues, faites le "meilleur alignement" afin de mettre en évidence un ou des motifs communs à cette famille de protéines. Remarque 1 : pour la recherche de motifs conservées vs. des régions peu ou pas conservées, l'échantillon de séquences peptidiques sélectionnées doit contenir des séquences proches entre elles (convergentes) et des séquences éloignées (divergentes). et, bien sûr la ou les séquences requêtes. Remarque 2 : le "meilleur alignement" nécessite d'effectuer plusieurs alignements en modifiant le type de matrice choisie et/ou la valeur de pénalité des différents types de "gaps". c. Récupérez les séquences : CAJ56060, AAD02258, CAA33364, CAJ56055, CAA68765, AAB05927, AAN08718, BAD13498, BAD86644 En les comparant aux traductions obtenues précedemment, que peut-on conclure ? |
| Voir le fichier "aide" |
|
3. Illustration du principe de la recherche de similarité locale avec BLAST. Effectuer une recherche de similarité locale avec BLAST à partir de : a. La séquence intitulée "Traduction 53 frame 2 Rice rab21". Cette séquence est la traduction sur une phase de lecture de la séquence nucléotidique de "Rice rab21 gene for water-stress inducible protein RAB21" (accession : Y00842.1). Effectuer une recherche de similarité locale avec BLAST avec cette séquence. b. La séquence intitulée "Concatenation Aegilops umbellulata dehydrin 1" qui suit n'est autre que la concaténation des séquences issues de la traduction d'une même séquence nucléotidique (Aegilops umbellulata mRNA for dehydrin 1) sur … les 6 phases ! Les résultats sont-ils si étonants vu le principe de BLAST ? |
|
4. Recherche de protéines possédant le(s) motif(s) Faire une recherche avec PSI-Blast avec 1710351B. Quelle est cette protéine ? Effectuer 3 itérations et commenter l'évolution des résultats. Remarque : le paramètre "Inclusion threshold" = 0.005 par défaut. Qu'a la séquence ADT65201 de particulier par rapport au processus PHI-Blast ? Récupérer sa séquence. |
| Voir le fichier "aide" |
Récupérer les séquences les plus similaires du résultat PSI-BLAST. Aller à MULTALIN. Effectuer plusieurs alignements en modifiant le choix de la matrice et les valeurs des gaps.
Aller à LEAPdb et effectuer un BLAST avec la séquence ADT65201.
|
|
a. Compléments sur PSI-Blast ("Position Specific Iterated Blast") C'est un programme adapté à :
PSI-Blast est le programme BLAST le plus sensible ce qui en fait le meilleur outil pour trouver des protéines trés distantes. En effet, PSI-Blast construit un profil à partir de l'alignement multiple des séquences qui ont obtenu les meilleurs scores avec la séquence requête. Ce profil est comparé à la banque interrogée et est raffiné au fur et à mesure des itérations. Ainsi, la sensibilité du programme est augmentée. Un profil est un tableau des fréquences observées des acides aminés (ou nucléotides) à chaque position dans un alignement multiple. (voir ci-dessous : matrice PSSM et application à PSI-Blast) Exemple (très simple) d'alignement multiple de 2 séquences de 4 acides aminés : DWKD Le profil correspondant (en probabilités) :
1
2 3 4 Ce qui ce signifie :
L'utilisation d'un profil permet une recherche beaucoup plus sensible de séquences homologues « éloignées » que l'utilisation d'une séquence seule car le profil contient de l'information sur la variabilité des différentes positions parmi les protéines connues. En contrepartie un profil est moins spécifique qu'une simple séquence seule. Si on utilise PSI-Blast sur un sous ensemble particulier de séquences, il est probable que l'on ne trouve pas tous les homologues, surtout si leur séquence est peu conservée par rapport à la séquence requête. Pour améliorer la sensibilité de détection des homologues, il est préférable d'effectuer un alignement avec PSI-Blast sur une banque de séquences plus grande. Mais la sensibilité est diminuée si la banque de données est trop grande puisque la fréquence d'observation d'un score particulier (la "E-value") augmente avec la taille de la banque de données. Or, pour un alignement de 2 séquences, plus le score est petit, plus la probabilité que ces 2 séquences soient homologues est grande. Il est donc préférable de chercher d'abord dans une banque "nettoyée" ("curated") comme la base de données non-redondante "nr" où toutes les séquences identiques ont été éliminées sauf un exemplaire. Si plusieurs séquences sont dans cette banque, on peut calculer un profil et l'utiliser pour effectuer une nouvelle recherche dans ce sous ensemble. On augmente ainsi la sensibilité de la recherche d'homologues.
Les programmes des familles Fasta et BLAST sont des heuristiques qui réduisent le facteur temps en "sacrifiant" un peu de sensibilité. L'un et l'autre simplifient le problème :
|
b. Profils et "Position Specific Scoring Matrice" (PSSM) Sa construction est basée sur la fréquence de chaque résidu d'acide aminé à une position spécifique d'un alignement multiple. |
|
Certaines fréquences sont égales à 0 du fait du nombre de séquence dans l'alignement multiple. Une telle fréquence pourrait entraîner une "exclusion" de l'acide aminé concerné à cette position. On contourne ce biais en ajoutant une "petite valeur" à toutes les fréquences observées. Cette faible "fréquence non-observée" s'appelle un "pseudo-count". En reprenant l'exemple précédent avec un "pseudo-count" de 1 :
La fréquence de chaque acide aminé déterminée à chaque position est comparée à la fréquence à laquelle chaque acide aminé est attendu dans une séquence au hasard. On fait l'hypothèse que chaque acide aminé est observé avec une fréquence identique dans une séquence au hasard. Le score est calculé à partir du logarithme du rapport (fréquences observées) / (fréquences attendues) : Scoreij = log (f'ij / qi) où :
|
| Ci-contre : la matrice PSSM "Position Specific Scoring Matrice" complète calculée à partir de l'exemple précédent. |
|
La matrice PSSM est ensuite appliquée à la séquence requête en utilisant une "fenêtre glissante". A chaque position, un score PSSM est ca lculé en sommant les scores de toutes les colonnes. Le plus haut score est retenu. |
![]() |
![]() |
|
| Source figures : Pagni M. (2003) "An introduction to Patterns, Profiles, HMMs and PSI-BLAST" / SIB Course | ||
| Conclusion PSSM | |
| Avantages | Inconvénients |
|
|
A utiliser pour modéliser de courtes régions avec une forte variabilité mais de longueurs constantes. Outils :
Bases de données : |
|
Application à PSI-Blast 1. Une recherche standard BLAST est effectuée contre une base de données en utilisant une matrice de substitution. 2. Une matrice PSSM est construite automatiquement à partir d'un alignement multiple des séquences ayant le plus haut score ("hits") dans cette première recherche BLAST.
3. La matrice PSSM remplace la matrice initiale et on effectue une 2ème recheche BLAST. 4. Les étapes 3 et 4 sont répétées et à chaque fois, les séquences nouvellement trouvées sont ajoutées afin de construire une nouvelle matrice PSSM. 5. On considère que le programme PSI-BLAST a convergé quand aucune nouvelle séquence n'est ajoutée. |
5. PHI-Blast ("Pattern Hit Initiated BLAST") Ce programme prend en entrée une séquence requête protéique et un motif défini par une expression régulière. PHI-Blast est adapté à la recherche de séquences protéiques qui contiennent un motif spécifié par l'utilisateur (fenêtre "PHI pattern" de la section "Algorithm") ET sont similaires à la séquence requête (fenêtre "Search") dans le voisinage proche du motif. La syntaxe du motif doit suivre la syntaxe de PROSITE. Exemple : <A-x-[ST](2)-x(0,1)-{V}
Exemple 1 de syntaxe de motif : [KR]-[LIM]-K-[DE]-K-[LIM]-P-G Exemple 2 de syntaxe de motif : S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-[KR](4) Faire une recherche avec PHI-Blast sur la base de un (ou deux) motifs communs à la famille de protéines étudiée. Attention : vérifier la syntaxe des motifs que vous choisissez. |
| Voir le fichier "aide" |
6. Recherche de motifs répétés a. 1ère partie Récupérer la séquence FASTA de "AAC05921" dans LEAPDB ("Late Embryogenesis Abundant Proteins Database"). Cette base de données est spécifiquement dédiée aux protéines de la famille "LEA". Aller à la base de données Prosite ("Database of protein domains, families and functional sites"). Remarque : l'EBI propose également une interface ("PPSearch - Protein motifs Search").
Interpréter les résultats. |
Voir les motifs des 12 classes de LEAP (via PMA/EAD). |
Revenir au résultat du 1er scan ci-dessus. Cliquer sur le lien "Hits by PS00823 " (ou sur l'un des deux traits bleus du schéma). Une déhydrine d'un végétal d'interêt fondamental pour l'UMR PMS ne possède pas l'un des motifs. De quel végétal s'agit-il ? Retrouver les séquences de déhydrines de ce végétal et aligner avec d'autres déhydrines spécifiques. Quelles sont les différences ? |
b. 2ème partie "Découper" la séquence FASTA de "AAC05921"(413 acides aminés) en 4 séquences de longueur équivalente (environ 104 acides aminés). Sauvegarder au format FASTA (outil "Readseq - biosequence conversion tool") chaque "quart" de séquence. Aligner les 4 séquences "quarts" avec un logiciel comme "ClustalW" ou autre. Optimiser l'alignement en modifiant les valeurs des paramètres. |
|
Si un alignement semble compatible avec la figure ci-contre, repérez et écrivez un ou des motif(s) selon la syntaxe "Prosite" et tester le. |
|
| Voir le fichier "Motifs répétés" |
7. Caractéristiques structurales des LEA Les LEA ont une caractéristique structurale. Récupérer la séquence FASTA de "AAC05921" dans LEAPDB. Aller à : "DisProt: the Database of Disordered Proteins". Quel est le but de cette base de données ? Choisir l'item "Disorder Predictors" (menu de gauche). Tester plusieurs programmes de prédiction de sructure, en particulier "Fold Index".
|
|
9. Recherche du maximum de séquences de LEA Aller au NCBI et taper "late embryogenesis abundant OR Lea OR dehydrin" en choisissant "Protein". Examiner le résultat. Elaborer un crible de plus en plus précis et exhaustif afin de réduire le nombre de résultats aux seules LEA. Pour celà s'inspirer du fichier : "1RequeteRemplirLEA". |
| 10. Liens Internet et références bibliographiques |
| LEAPDB ("Late Embryogenesis Abundant Proteins Database") | "Readseq - biosequence conversion tool" | ||
|
Logiel d'alignement "Multalin" |
BLAST - NCBI | ||
| DisProt: the Database of Disordered Proteins | Prosite | ||