Quelques formats de fichiers dans les banques de données

1. Exemples de formats liés aux logiciels de traitement des séquences

2. Exemples de formats liés aux banques de données

3. Les outils de conversion de formats

 

1. Exemples de formats liés aux logiciels de traitement des séquences
1. Format FASTA

Sans doute le plus répandu et l'un des plus pratiques car trés simple. La séquence, sous forme de lignes de 80 caractères maximum, est précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">".

Plusieurs séquences peuvent être mises dans un même fichier.

>1YYCA 174 bp 
GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDFKGVTRD 
GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPVKVA 
YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF

Voir une description d'un fichier au format FASTA

2. Format ClustalW- suffixe ".aln"
  • Doit commencer avec "CLUSTAL W" sans autre information.
  • Une ou plusieurs lignes vides.
  • Un ou plusieurs blocs de séquences. Chaque bloc contient :
    • une ligne pour chaque séquence. Chaque ligne consiste :
      1. le nom de la séquence
      2. espace blancs white space
      3. jusqu'à 60 caractères
    • Une ligne indiquant le degré de conservation (via des caractères spéciaux : "*", ":", ".") pour les colonnes de l'alignement pour ce bloc.
    • Une ou plusieurs lignes vides.
CLUSTAL W (1.8) multiple sequence alignment   
1YYCA           GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDFKGVTRD                   
1YYCA           GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPVKVA                   
1YYCA           YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF 
      
3. Format GCC/MSF ("Pileup") - ("Genetics Computer Group" - GCG fondu dans "Accelrys")
  • Le format adopté par le package GCG permet à la fois de commenter les données et de vérifier l'intégrité de la séquence par une valeur (=Checksum) calculée sur celle-ci.
  • Le format GCG n'autorise qu'une seule séquence par fichier..
  • Le fichier est constitué de la manière suivante:
    • avant les ".." : commentaires
    • ligne signal avec identificateur et "Check #### .."
    • après les ".." : séquence.
      1YYCA     
      1YYCA  Length: 174  Feb 14, 2011  10:21  Check: 9268  ..    
      1 GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD   
      51 DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP  
      101 DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP  
      151 VVGDITIPVS TQGEIKLPSL RDFF 
                      
4. Format NBRF/PIR
  • Une ligne qui commence par le caractère ">" et un code à 2 lettres qui désigne le type de séquence : P1, F1, DL, DC, RL, RC ou XX.
  • Un point-virgule suivi par le code lié à la base de donnée (dans l'exemple suivant : ";1YYCA").
  • Une ligne qui décrit la séquence.
  • La séquence elle-même. Cette partie doit finir par une astérisque.
  • Plusieurs séquences peuvent être mises dans un même fichier.
>P1;1YYCA
1YYCA  174 bases
GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD
DVDFKGVTRD GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP
DPGSLVGSGT TVLDVPVKVA YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP
VVGDITIPVS TQGEIKLPSL RDFF* 
          
5. Format Staden

Le plus ancien et le plus simple : suite des lettres de la séquence par lignes terminées par un retour à la ligne (80 caractères maximum par ligne). Ce format n'autorise qu'une séquence par fichier.

SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKADVMVVVAYGL

6. Format Stanford / IG

  • la 1ère ligne est une ligne de commentaires précédée par le caractère ";"
  • la 2e contient l'identificateur (nom de la séquence) dans les 10 premières colonnes
  • les lignes suivantes contiennent la séquence (80 caractères maximum par ligne) terminée par le caractère "1" (séquence linéaire) ou "2" (séquence circulaire)
;1YYCA  174 bases   
1YYCA 
GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVD 
DVDFKGVTRDGVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIP 
DPGSLVGSGTTVLDVPVKVAYSIAVSLMKDMCTDWDIDYQLDIGLTFDIP 
VVGDITIPVSTQGEIKLPSLRDFF1

7. Autres formats

Le format MSF ("Multiple Sequence Format") contient plusieurs séquences dans un fichier. Il est issu d'un alignement multiple produit par les programmes PileUp, LineUp -MSF et reformat -MSF de GCG.

Le format PHYLIP : deux formats de base sont proposés.

Retour haut de page

 

2. Exemples de formats liés aux banques de données

a. Format GenBank

Chaque ligne indique le nom du champs et dans chaque champs on trouve des informations.

Aller à : "Entrez" - NCBI - taper "28377945" dans "Search across databases"

Description fichier GenBank

b. Format EMBL

Chaque entrée de la base EMBL est composée de lignes qui commencent par un code à deux caractères (champs) suivi de 3 blancs eux même suivis d’informations.

ID   1YYCA          STANDARD;       PRT;   174 AA.
SQ   SEQUENCE   174 AA;  C11E4F3E CRC32;
GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD DVDFKGVTRD        60
GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT TVLDVPVKVA       120
YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF             174
// 

Aller à : EBI dbfetch - taper "PS13882" dans "search item"

Description codes entrée fichier EMBL

c. Format PROSITE

La syntaxe pour la description d'un motif structural ou signature ("pattern") de la base de données PROSITE est la suivante :

  • lettres A-Z correspondant aux acides aminés (minuscules ou majuscules)
  • [] indique une ambiguite inclusive. Exemple : [ILVM]
  • {} ambiguite exclusive. Exemple : {FWY}
  • X caractère positionnel indifférent
  • (n) répétition n fixe d'un sous-motif. Exemple : [RD](2)
  • X(n,m) insertions min-max (insertion variable). Exemple : X(2,4)
  • < au début du motif : le motif est cadré à gauche de la séquence
  • > à la fin du motif : le motif est cadré à droite de la séquence
  • le caractère '-' sépare chaque position
  • le caractère '+' indique que la suite du motif continue à la ligne suivante

Exemples de motifs PROSITE : D - x - [DNS] - {ILVFYW} - [DENSTG] - [DNQGHRK] - {GP} - [LIVMC] - [DENQSTAGC] - x(2) - [DE] - [LIVMFYW]

3. Les outils de conversion de formats

1. ReadSeq ("Biosequence conversion tool") : Programme de l'EBI. Il permet le reformatage général des séquences. De nombreux formats de sortie sont proposés par Readseq.

2. Sequence Utilities ("BCM Search Launcher") : Attention à cocher la ... bonne case.

Tweet

Valid XHTML 1.0 Transitional Retour haut de page