|
|
Les formats des fichiers dans les banques de données |
|
|
1. Exemples de formats liés aux logiciels de traitement des séquences 2. Exemples de formats liés aux banques de données 3. Les outils de conversion de formats |
|
Exemples de formats liés aux logiciels de traitement des séquences 1. Format FASTA Sans doute le plus répandu et l'un des plus pratiques. La séquence, sous forme de lignes de 80 caractères maximum, est précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">". Plusieurs séquences peuvent être mises dans un même fichier.
2. Format Staden Le plus ancien et le plus simple : suite des lettres de la séquence par lignes terminées par un retour à la ligne (80 caractères maximum par ligne). Ce format n'autorise qu'une séquence par fichier.
3. Format Stanford / IG
4. Format GCG (suite logiciels) Le format adopté par la suite logiciels GCG permet à la fois de commenter les données et de vérifier l'intégrité de la séquence par une valeur (Check pour "checksum") calculée sur celle-ci. Le format GCG n'autorise qu'une seule séquence par fichier.
Exemples de formats liés aux banques de données 1. Format EMBL : Chaque entrée de la base EMBL est composée de lignes qui commencent par un code à deux caractères (champs) suivi de 3 blancs eux même suivis dinformations. 2. Format GenBank : Les 12 premières colonnes contiennent le nom du champs et dans chaque champs on trouve des informations. 3. Format PIR-NBRF : Sur la 1ère ligne, l'identificateur de la séquence (code de 1 à 6 caractères ou chiffres) doit être précédé du caractère ">" suivi de deux caractères spécifiant la nature de la séquence et du caractère ";". 4. Format PROSITE : La syntaxe pour la description d'un motif structural ou signature (pattern) de la banque PROSITE est la suivante :
Exemples de motifs PROSITE :
Les outils de conversion de formats 1. ReadSeq : Programme de reformatage général des séquences (conversion) avec reconnaissance automatique du format du fichier d'entrée. De nombreux formats de sortie sont autorisés par Readseq. Par exemple : IG/Stanford ; GenBank/GB ; NBRF ; EMBL ; GCG 2. ConvSeq : Programme génère un fichier formaté de séquences à partir de séquences de banques désignées par leur identificateur ou leur numéro d'accession. Les formats de sortie possibles sont ceux autorisés par le programme Readseq. 3. Programme GCG : GCG propose des commandes spécifiques de conversion selon les formats donnés en entrée et souhaité en sortie. |