Les formats des fichiers dans les banques de données

1. Exemples de formats liés aux logiciels de traitement des séquences

2. Exemples de formats liés aux banques de données

3. Les outils de conversion de formats

 

Exemples de formats liés aux logiciels de traitement des séquences

1. Format FASTA

Sans doute le plus répandu et l'un des plus pratiques. La séquence, sous forme de lignes de 80 caractères maximum, est précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">". Plusieurs séquences peuvent être mises dans un même fichier.

>gi|532319|pir|TVFV2E|TVFV2E envelope protein

ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSE

>em|A17957|GD03957 Pisum sativum Glutamate dehydrogenase 1.4.1.4

AGATACAAGGAAGTTAGAGGCTAAAACAGGATATCTGTGGTTAAGCACCTGTGAGGACCCCGGAT

2. Format Staden

Le plus ancien et le plus simple : suite des lettres de la séquence par lignes terminées par un retour à la ligne (80 caractères maximum par ligne). Ce format n'autorise qu'une séquence par fichier.

SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKADVMVVVAYGL

3. Format Stanford / IG

  • la 1ère ligne est une ligne de commentaires précédée par le caractère ";"
  • la 2e contient l'identificateur (nom de la séquence) dans les 10 premières colonnes
  • les lignes suivantes contiennent la séquence (80 caractères maximum par ligne) terminée par le caractère "1" (séquence linéaire) ou "2" (séquence circulaire)

; Dro5s-T.Seq Length: 120 April 6, 1989 21:22 Check: 9487

dro5stseq

GCCAACGACCAUACCACGCUGAAUACAUCGGUUCUCGU1

4. Format GCG (suite logiciels)

Le format adopté par la suite logiciels GCG permet à la fois de commenter les données et de vérifier l'intégrité de la séquence par une valeur (Check pour "checksum") calculée sur celle-ci. Le format GCG n'autorise qu'une seule séquence par fichier.

pir:ccho (1-104)

pir:ccho Length: 104 (today) Check: 8847

1 GDVEKGKKIF VQKCAQCHTV EKGGKHKTGP NLHGLFGRKT GQAPGFTYTD

 

Exemples de formats liés aux banques de données

1. Format EMBL : Chaque entrée de la base EMBL est composée de lignes qui commencent par un code à deux caractères (champs) suivi de 3 blancs eux même suivis d’informations.

2. Format GenBank : Les 12 premières colonnes contiennent le nom du champs et dans chaque champs on trouve des informations.

3. Format PIR-NBRF : Sur la 1ère ligne, l'identificateur de la séquence (code de 1 à 6 caractères ou chiffres) doit être précédé du caractère ">" suivi de deux caractères spécifiant la nature de la séquence et du caractère ";".

4. Format PROSITE : La syntaxe pour la description d'un motif structural ou signature (pattern) de la banque PROSITE est la suivante :

  • lettres A-Z correspondant aux acides aminés (minuscules ou majuscules)
  • [] indique une ambiguite inclusive. Exemple : [ILVM]
  • {} ambiguite exclusive. Exemple : {FWY}
  • X caractère positionnel indifférent
  • (n) répétition n fixe d'un sous-motif. Exemple : [RD](2)
  • X(n,m) insertions min-max (insertion variable). Exemple : X(2,4)
  • < au début du motif : le motif est cadré à gauche de la séquence
  • > à la fin du motif : le motif est cadré à droite de la séquence
  • le caractère '-' sépare chaque position
  • le caractère '+' indique que la suite du motif continue à la ligne suivante

Exemples de motifs PROSITE :

Ex. 1 : C-{CPWHF}-X(2,4)-C-H-{CFYW}
Ex. 2 : P-x(2)-R-G-[STAIV](2)-x-N-[APK]-x-[DE]-[LIVM]-x(4)-[LIVM]-x(6,8)-Y-x(12,13)-[LIVM]-x(2)-N-[SACF]-x(2)-[FY]

 

Les outils de conversion de formats

1. ReadSeq : Programme de reformatage général des séquences (conversion) avec reconnaissance automatique du format du fichier d'entrée. De nombreux formats de sortie sont autorisés par Readseq. Par exemple : IG/Stanford ; GenBank/GB ; NBRF ; EMBL ; GCG

2. ConvSeq : Programme génère un fichier formaté de séquences à partir de séquences de banques désignées par leur identificateur ou leur numéro d'accession. Les formats de sortie possibles sont ceux autorisés par le programme Readseq.

3. Programme GCG : GCG propose des commandes spécifiques de conversion selon les formats donnés en entrée et souhaité en sortie.