|
|
Quelques formats de fichiers dans les banques de données |
|
|
| 1. Exemples de formats liés aux logiciels de traitement des séquences |
| 1. Format FASTA
Sans doute le plus répandu et l'un des plus pratiques car trés simple. La séquence, sous forme de lignes de 80 caractères maximum, est précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">". Plusieurs séquences peuvent être mises dans un même fichier. >1YYCA 174 bp GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDFKGVTRD GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPVKVA YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF |
2. Format ClustalW- suffixe ".aln"
CLUSTAL W (1.8) multiple sequence alignment
1YYCA GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVDDVDFKGVTRD
1YYCA GVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIPDPGSLVGSGTTVLDVPVKVA
1YYCA YSIAVSLMKDMCTDWDIDYQLDIGLTFDIPVVGDITIPVSTQGEIKLPSLRDFF
|
3. Format GCC/MSF ("Pileup") - ("Genetics Computer Group" - GCG fondu dans "Accelrys")
|
4. Format NBRF/PIR
|
| 5. Format
Staden
Le plus ancien et le plus simple : suite des lettres de la séquence par lignes terminées par un retour à la ligne (80 caractères maximum par ligne). Ce format n'autorise qu'une séquence par fichier.
6. Format Stanford / IG
;1YYCA 174 bases 1YYCA GHHHHHHLEASADEKVVEEKASVISSLLDKAKGFFAEKLANIPTPEATVD DVDFKGVTRDGVDYHAKVSVKNPYSQSIPICQISYILKSATRTIASGTIP DPGSLVGSGTTVLDVPVKVAYSIAVSLMKDMCTDWDIDYQLDIGLTFDIP VVGDITIPVSTQGEIKLPSLRDFF1 7. Autres formats Le format MSF ("Multiple Sequence Format") contient plusieurs séquences dans un fichier. Il est issu d'un alignement multiple produit par les programmes PileUp, LineUp -MSF et reformat -MSF de GCG. Le format PHYLIP : deux formats de base sont proposés. |
| 2. Exemples de formats liés aux banques de données |
|
a. Format GenBank Chaque ligne indique le nom du champs et dans chaque champs on trouve des informations. |
|
Aller à : "Entrez" - NCBI - taper "28377945" dans "Search across databases" |
Description fichier GenBank |
|
b. Format EMBL Chaque entrée de la base EMBL est composée de lignes qui commencent par un code à deux caractères (champs) suivi de 3 blancs eux même suivis dinformations. ID 1YYCA STANDARD; PRT; 174 AA. SQ SEQUENCE 174 AA; C11E4F3E CRC32; GHHHHHHLEA SADEKVVEEK ASVISSLLDK AKGFFAEKLA NIPTPEATVD DVDFKGVTRD 60 GVDYHAKVSV KNPYSQSIPI CQISYILKSA TRTIASGTIP DPGSLVGSGT TVLDVPVKVA 120 YSIAVSLMKD MCTDWDIDYQ LDIGLTFDIP VVGDITIPVS TQGEIKLPSL RDFF 174 // |
|
Aller à : EBI dbfetch - taper "PS13882" dans "search item" |
Description codes entrée fichier EMBL |
c. Format PROSITE La syntaxe pour la description d'un motif structural ou signature ("pattern") de la base de données PROSITE est la suivante :
Exemples de motifs PROSITE : D - x - [DNS] - {ILVFYW} - [DENSTG] - [DNQGHRK] - {GP} - [LIVMC] - [DENQSTAGC] - x(2) - [DE] - [LIVMFYW] |
| 3. Les outils de conversion de formats |
|
1. ReadSeq ("Biosequence conversion tool") : Programme de l'EBI. Il permet le reformatage général des séquences. De nombreux formats de sortie sont proposés par Readseq. 2. Sequence Utilities ("BCM Search Launcher") : Attention à cocher la ... bonne case. |