Etude des protéines LEA ("Late Embryogenesis Abundant proteins") Sommaire

1. Mise en évidence d'un motif

2. Affinement du motif

3. Illustration du principe de la recherche de similarité locale avec BLAST

4. Recherche de protéines possédant le(s) motif(s)

a. Compléments sur PSI-blast

b. Profils et matrice PSSM

5. PHI-blast

6. Recherche de motifs répétés

7. Caractéristiques structurales des LEA

8. Recherche d'informations bibliographiques liées au motif et à la famille de protéines étudiée

9. Recherche du maximum de séquences de LEA

10. Liens Internet et références bibliographiques

 

"ExPASy Proteomics tools" : Ensemble d'applications pour l'analyse de séquences peptidiques.

"Bioinformatics Databases and Tools Guide" : Liste d'un trés grand nombre d'applications bioinformatiques, de bases de données et autres classées par catégories.

"Sequence Manipulation Suite" : Ensemble d'applications Java pour l'analyse de séquences d'ADN et de protéines.

 

1. Mise en évidence d'un motif

a. Chercher un programme de traduction.

b. Obtenez la traduction sur les 6 phases de la séquence nucléotidique de la Protéine 1.

c. Copier les données de l'écran. Sauvegardez le résultat dans un fichier texte. Eliminez les caractères qui ne correspondent pas à un nucléotide clairement déterminé.

d. Chercher un programme de conversion de formats de fichiers.

e. Transformez les 6 séquences traduites au format FASTA. Veillez à éliminer les "gaps". Enregistrer le fichier.

f. Faute de critère pour savoir quelle traduction est correcte, rechercher des homologues de chaque traduction avec BLAST.

g. S'il en existe, repérez et enregistrer un ou plusieurs motif(s).

h. Récupérer le fichier FASTA de la protéine qui vous semble le plus logiquement correspondre à la séquence de la protéine 1.

 

2. Affinement du motif

a. Effectuer le même travail avec les séquences nucléotidiques suivantes.

Remarque : Ayant repéré un ou des motifs, il ne devrait plus être nécessaire d'effectuer une recherche de similarité locale avec BLAST sur les 6 phases. Une inspection " à l'oeil " des 6 traductions devrait suffire.

b. Chercher un programme d'alignement multiple. Avec les 10 meilleures séquences peptidiques que vous avez obtenues, faites le "meilleur alignement" afin de mettre en évidence un ou des motifs communs à cette famille de protéines.

Remarque 1 : pour la recherche de motifs conservées vs. des régions peu ou pas conservées, l'échantillon de séquences peptidiques sélectionnées doit contenir des séquences proches entre elles (convergentes) et des séquences éloignées (divergentes). et, bien sûr la ou les séquences requêtes.

Remarque 2 : le "meilleur alignement" nécessite d'effectuer plusieurs alignements en modifiant le type de matrice choisie et/ou la valeur de pénalité des différents types de "gaps".

c. Récupérez les séquences : CAJ56060, AAD02258, CAA33364, CAJ56055, CAA68765, AAB05927, AAN08718, BAD13498, BAD86644

En les comparant aux traductions obtenues précedemment, que peut-on conclure ?

Voir le fichier "aide"

 

3. Illustration du principe de la recherche de similarité locale avec BLAST.

Effectuer une recherche de similarité locale avec BLAST à partir de :

a. La séquence intitulée "Traduction 53 frame 2 Rice rab21". Cette séquence est la traduction sur une phase de lecture de la séquence nucléotidique de "Rice rab21 gene for water-stress inducible protein RAB21" (accession : Y00842.1).

Effectuer une recherche de similarité locale avec BLAST avec cette séquence.

b. La séquence intitulée "Concatenation Aegilops umbellulata dehydrin 1" qui suit n'est autre que la concaténation des séquences issues de la traduction d'une même séquence nucléotidique (Aegilops umbellulata mRNA for dehydrin 1) sur … les 6 phases !

Les résultats sont-ils si étonants vu le principe de BLAST ?

Haut page

 

4. Recherche de protéines possédant le(s) motif(s)

Faire une recherche avec PSI-Blast avec 1710351B. Quelle est cette protéine ?

Effectuer 3 itérations et commenter l'évolution des résultats.

Remarque : le paramètre "Inclusion threshold" = 0.005 par défaut.

Qu'a la séquence ADT65201 de particulier par rapport au processus PHI-Blast ? Récupérer sa séquence.

Voir le fichier "aide"

Récupérer les séquences les plus similaires du résultat PSI-BLAST. Aller à MULTALIN.

Effectuer plusieurs alignements en modifiant le choix de la matrice et les valeurs des gaps.

  • Un ou des motifs conservés sont-ils mis en évidence ?
  • Comparer en particulier les séquences de 1710351B et ADT65201 avec MULTALIN.
  • Ecrivez le ou les motif(s) les plus longs et les moins dégénérés.

Aller à LEAPdb et effectuer un BLAST avec la séquence ADT65201.

  • Cette séquence est-elle dans la base de données ?
  • Faut-il l'y ajouter ?
  • A quelle classe de LEAP appartient-elle ?
  • La recherche PHI-BLAST était-elle intéressante pour enrichir la base de données LEAPdb ?

Haut page

 

a. Compléments sur PSI-Blast ("Position Specific Iterated Blast")

C'est un programme adapté à :

  • à la recherche de similarité fine entre séquences protéiques
  • la détection de membres éloignés d'une famille protéique
  • l'étude de la fonction de protéines inconnues

PSI-Blast est le programme BLAST le plus sensible ce qui en fait le meilleur outil pour trouver des protéines trés distantes.

En effet, PSI-Blast construit un profil à partir de l'alignement multiple des séquences qui ont obtenu les meilleurs scores avec la séquence requête. Ce profil est comparé à la banque interrogée et est raffiné au fur et à mesure des itérations. Ainsi, la sensibilité du programme est augmentée.

Un profil est un tableau des fréquences observées des acides aminés (ou nucléotides) à chaque position dans un alignement multiple. (voir ci-dessous : matrice PSSM et application à PSI-Blast)

Exemple (très simple) d'alignement multiple de 2 séquences de 4 acides aminés :

      DWKD
      DWNG

Le profil correspondant (en probabilités) :

            1      2      3      4
      D    1.0    0.0    0.0    0.5
      G    0.0    0.0    0.0    0.5
      K    0.0    0.0    0.5    0.0
      N    0.0    0.0    0.5    0.0
      W    0.0    1.0    0.0    0.0

Ce qui ce signifie :

  • probabilité de trouver D en position 1 = 1.0 (un D en première position de chaque séquence)
  • probabilité de trouver G en position 1 = 0.0 (aucun G en première position)
  • etc ...

L'utilisation d'un profil permet une recherche beaucoup plus sensible de séquences homologues « éloignées » que l'utilisation d'une séquence seule car le profil contient de l'information sur la variabilité des différentes positions parmi les protéines connues. En contrepartie un profil est moins spécifique qu'une simple séquence seule.

Si on utilise PSI-Blast sur un sous ensemble particulier de séquences, il est probable que l'on ne trouve pas tous les homologues, surtout si leur séquence est peu conservée par rapport à la séquence requête.

Pour améliorer la sensibilité de détection des homologues, il est préférable d'effectuer un alignement avec PSI-Blast sur une banque de séquences plus grande.

Mais la sensibilité est diminuée si la banque de données est trop grande puisque la fréquence d'observation d'un score particulier (la "E-value") augmente avec la taille de la banque de données. Or, pour un alignement de 2 séquences, plus le score est petit, plus la probabilité que ces 2 séquences soient homologues est grande.

Il est donc préférable de chercher d'abord dans une banque "nettoyée" ("curated") comme la base de données non-redondante "nr" où toutes les séquences identiques ont été éliminées sauf un exemplaire.

Si plusieurs séquences sont dans cette banque, on peut calculer un profil et l'utiliser pour effectuer une nouvelle recherche dans ce sous ensemble. On augmente ainsi la sensibilité de la recherche d'homologues.

  • la sensibilité est l'aptitude d'un algorithme à détecter toutes les similarités considérées comme significatives et donc à générer le minimum de faux-négatifs.
  • la sélectivité est l'aptitude d'un algorithme à ne sélectionner que des similarités considérées comme significatives et donc à générer le minimum de faux-positifs.

Les programmes des familles Fasta et BLAST sont des heuristiques qui réduisent le facteur temps en "sacrifiant" un peu de sensibilité.

L'un et l'autre simplifient le problème :

  • en pré-sélectionnant les séquences de la banque susceptibles de présenter une similarité significative avec la séquence requête
  • et en localisant les régions potentiellement similaires dans les séquences
Ces étapes sélectives permettent :
  • de n'appliquer les méthodes de comparaison, coûteuses en temps, qu'à un sous-ensemble des séquences de la banque
  • de restreindre le calcul de l'alignement optimal à des parties des séquences
Cette logique de recherche plus rapide dans son exécution, comporte donc le risque d'éliminer des séquences qui ont une similarité plus difficile à détecter ou d'aboutir à des alignements sub-optimaux.

 

b. Profils et "Position Specific Scoring Matrice" (PSSM)

Sa construction est basée sur la fréquence de chaque résidu d'acide aminé à une position spécifique d'un alignement multiple.

 

PSSM

 

  • Colonne 1 : fréquence (A, 1) = 0/5 = 0 ; fréquence (G, 1) = 5/5 = 1 ; ...
  • Colonne 2 : fréquence (A, 2) = 0/5 = 0 ; fréquence (H, 2) = 5/5 = 1 ; ...
  • ...
  • Colonne 15 : fréquence (A, 15) = 2/5 = 0,4 ; fréquence (C, 15) = 1/5 = 0,2 ; ...

Certaines fréquences sont égales à 0 du fait du nombre de séquence dans l'alignement multiple. Une telle fréquence pourrait entraîner une "exclusion" de l'acide aminé concerné à cette position.

On contourne ce biais en ajoutant une "petite valeur" à toutes les fréquences observées. Cette faible "fréquence non-observée" s'appelle un "pseudo-count". En reprenant l'exemple précédent avec un "pseudo-count" de 1 :

  • Colonne 1 : f' (A, 1) = (0+1)/(5+20) = 0,04 ; f' (G, 1) = (5+1)/(5+20) = 0,24 ; ...
  • Colonne 2 : f' (A, 2) = (0+1)/(5+20) = 0,04 ; f' (H, 2) = (5+1)/(5+20) = 0,24 ; ...
  • ...
  • Colonne 15 : f' (A, 15) = (2+1)/(5+20) = 0,12 ; f' (C, 15) = (1+1)/(5+20) = 0,08 ; ...

La fréquence de chaque acide aminé déterminée à chaque position est comparée à la fréquence à laquelle chaque acide aminé est attendu dans une séquence au hasard. On fait l'hypothèse que chaque acide aminé est observé avec une fréquence identique dans une séquence au hasard.

Le score est calculé à partir du logarithme du rapport (fréquences observées) / (fréquences attendues) : Scoreij = log (f'ij / qi)

où :

  • Scoreij est le score pour le résidu i à la position j
  • f'ij est la fréquence relative pour le résidu i à la position j, corrigée par les "pseudo-count"
  • qi est la fréquence relative attendue pour le résidu i dans une séquence au hasard
Ci-contre : la matrice PSSM "Position Specific Scoring Matrice" complète calculée à partir de l'exemple précédent.

PSSM corrigee

 

La matrice PSSM est ensuite appliquée à la séquence requête en utilisant une "fenêtre glissante".

A chaque position, un score PSSM est ca lculé en sommant les scores de toutes les colonnes.

Le plus haut score est retenu.

 

Source figures : Pagni M. (2003) "An introduction to Patterns, Profiles, HMMs and PSI-BLAST" / SIB Course
Conclusion PSSM
Avantages Inconvénients
  • Bonne méthode pour de courtes régions conservées.
  • Approche statistique (basée sur la taille des banques) / interprétation des résultats sur la base d'une "e-value".
  • Insertions et délétions interdites avec les matrices PSSm . Sinon, il faut utiliser des "profils généralisés".
  • Les séquences correspondant à de longues regions ne peuvent être décrites avec cette méthode.

A utiliser pour modéliser de courtes régions avec une forte variabilité mais de longueurs constantes.

Outils :

Bases de données :

  • "Prosite" : Database of protein domains, families and functional sites
  • "PRINTS": PSSM database
  • "Blocks": PSSM database
  • "Pfam": protein domain database
  • "SMART ": protein domain database
  • "ProDom ": protein domain database
  • "InterPRO ": protein "signatures" database

 

Application à PSI-Blast

1. Une recherche standard BLAST est effectuée contre une base de données en utilisant une matrice de substitution.

2. Une matrice PSSM est construite automatiquement à partir d'un alignement multiple des séquences ayant le plus haut score ("hits") dans cette première recherche BLAST.

  • positions trés conservées : scores élevés
  • positions faiblement conservées : scores faibles

3. La matrice PSSM remplace la matrice initiale et on effectue une 2ème recheche BLAST.

4. Les étapes 3 et 4 sont répétées et à chaque fois, les séquences nouvellement trouvées sont ajoutées afin de construire une nouvelle matrice PSSM.

5. On considère que le programme PSI-BLAST a convergé quand aucune nouvelle séquence n'est ajoutée.

Haut page

 

5. PHI-Blast ("Pattern Hit Initiated BLAST")

Ce programme prend en entrée une séquence requête protéique et un motif défini par une expression régulière.

PHI-Blast est adapté à la recherche de séquences protéiques qui contiennent un motif spécifié par l'utilisateur (fenêtre "PHI pattern" de la section "Algorithm") ET sont similaires à la séquence requête (fenêtre "Search") dans le voisinage proche du motif.

La syntaxe du motif doit suivre la syntaxe de PROSITE.

Exemple : <A-x-[ST](2)-x(0,1)-{V}

  • Ala en position N-terminale
  • suivie par n'importe quel acide aminé
  • suivie par deux fois (Ser ou Thr)
  • suivie ou non par n'importe quel acide aminé
  • suivie par n'importe quel acide aminé sauf Val

Exemple 1 de syntaxe de motif : [KR]-[LIM]-K-[DE]-K-[LIM]-P-G

Exemple 2 de syntaxe de motif : S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-[KR](4)

Faire une recherche avec PHI-Blast sur la base de un (ou deux) motifs communs à la famille de protéines étudiée.

Attention : vérifier la syntaxe des motifs que vous choisissez.

Voir le fichier "aide"

 

6. Recherche de motifs répétés

a. 1ère partie

Récupérer la séquence FASTA de "AAC05921" dans LEAPDB ("Late Embryogenesis Abundant Proteins Database"). Cette base de données est spécifiquement dédiée aux protéines de la famille "LEA".

Aller à la base de données Prosite ("Database of protein domains, families and functional sites").

Remarque : l'EBI propose également une interface ("PPSearch - Protein motifs Search").

  • 1er scan. Coller la séquence dans la fenêtre "Sequence(s) to be scanned" et lancer le "scan".
  • 2eme scan. Coller la séquence dans la fenêtre "Sequence(s) to be scanned" et coller l'un ou l'autre des motifs suivants dans la fenêtre "Motif(s) to scan for" et lancer le "scan".
    1. motif 1: [KR]-[LIM]-K-[DE]-K-[LIM]-P-G
    2. motif 2: S(4)-[SD]-[DE]-x-[DE]-[GVE]-x(1,7)-[GE]-x(0,2)-[KR](4)
  • 3eme scan. Coller seulement l'un ou l'autre des motifs suivants dans la fenêtre. Sélectionner un nombre réduit de séquences ("Maximum of matched sequences" et lancer le "scan").

Interpréter les résultats.

 

Voir les motifs des 12 classes de LEAP (via PMA/EAD).

 

Revenir au résultat du 1er scan ci-dessus.

Cliquer sur le lien "Hits by PS00823 " (ou sur l'un des deux traits bleus du schéma).

Une déhydrine d'un végétal d'interêt fondamental pour l'UMR PMS ne possède pas l'un des motifs. De quel végétal s'agit-il ?

Retrouver les séquences de déhydrines de ce végétal et aligner avec d'autres déhydrines spécifiques.

Quelles sont les différences ?

 

b. 2ème partie

"Découper" la séquence FASTA de "AAC05921"(413 acides aminés) en 4 séquences de longueur équivalente (environ 104 acides aminés).

Sauvegarder au format FASTA (outil "Readseq - biosequence conversion tool") chaque "quart" de séquence.

Aligner les 4 séquences "quarts" avec un logiciel comme "ClustalW" ou autre.

Optimiser l'alignement en modifiant les valeurs des paramètres.

Si un alignement semble compatible avec la figure ci-contre, repérez et écrivez un ou des motif(s) selon la syntaxe "Prosite" et tester le.

 

 

Voir le fichier "Motifs répétés"

Haut page

 

7. Caractéristiques structurales des LEA

Les LEA ont une caractéristique structurale.

Récupérer la séquence FASTA de "AAC05921" dans LEAPDB.

Aller à : "DisProt: the Database of Disordered Proteins". Quel est le but de cette base de données ?

Choisir l'item "Disorder Predictors" (menu de gauche). Tester plusieurs programmes de prédiction de sructure, en particulier "Fold Index".

  • Que peut-on dire de la structure native des LEA ?
  • Existe-t-il des données cristallographiques pour les LEA ?
  • Si oui, cela est-il compatible avec la principale caractéristique structurale des LEA ?
  • Dés lors y a-t-il eu révision de la classification des protéines cristalisées initialement classifiées LEA et par qui ?

 

8. Recherche d'informations bibliographiques liées au motif et à la famille de protéines étudiée

Faites une recherche bibliographique sur le rôle physiologique de ce ou ces motifs.

  • Quelles protéines et/ou familles de protéines caractérise-t-il ?
  • Chez quels organismes ?
  • Dans quels processus biologiques ces protéines sont-elles impliquées ?
  • Comment sont "classées" les LEA ? Combien de groupes de LEA y a-t-il et qui a proposé ces groupes ?
  • Cette classification a été revue en 2007 : par qui et combien de groupes ont été proposés ?
  • A quel groupe appartiennent les déhydrines ?
  • Sur la base de motifs répétés, les déhydrines ont été classées par T.J. Close (1997) en sous-groupes : quels sont les architectures de ces déhydrines par sous-groupe ?

 

9. Recherche du maximum de séquences de LEA

Aller au NCBI et taper "late embryogenesis abundant OR Lea OR dehydrin" en choisissant "Protein".

Examiner le résultat.

Elaborer un crible de plus en plus précis et exhaustif afin de réduire le nombre de résultats aux seules LEA. Pour celà s'inspirer du fichier : "1RequeteRemplirLEA".

 

10. Liens Internet et références bibliographiques
LEAPDB ("Late Embryogenesis Abundant Proteins Database") "Readseq - biosequence conversion tool"

Logiel d'alignement "Multalin"

BLAST - NCBI
DisProt: the Database of Disordered Proteins Prosite