Pitanje:
Postoje li baze podataka predložaka za uobičajene formate bioinformatičkih datoteka?
Chris_Rands
2017-06-02 19:08:50 UTC
view on stackexchange narkive permalink

Želim neke predloške različitih formata datoteka koje mogu koristiti za testiranje mojih skripti i prepoznavanje mogućih pogrešaka u mojem kodu.

Na primjer, razmotrite nukleotid FASTA, jednostavan, ali često zlostavljan format, ja bih žele predloške za hvatanje regularnih i nepravilnih formata, kao što sam vidio sve ove:

1) Jednostruki redoslijed

  >1ATG  

2) Višeredni slijed

  >1ATG  

3) Velika i mala slova u nizu

  >1Atg  

4) Ns i X (i eventualno druga slova) u nizu

  >1ANnxX  

5) Neobična zaglavlja ( ponekad znakovi koji nisu ASCI, treba razmotriti kodiranje)

  >ATG > 汉字 ATG  

6) Razmak između zapisa

  >1ATG>2ATG  

7) Duplicirana zaglavlja

  >1ATG>1ATC  

8) Prazna zaglavlja ili sekvence (valjana FASTA ?)

  >>  

9) Nema novog znaka '\ n' u zadnjem retku (može zabrljati datoteku spajanje)

  >1A # < ovdje nema novog retka  

10) Različiti znakovi novog retka, ovisno o OS-u

  >1A # \ r \ n vs \ n  

itd.

Trebali bi postojati zasebni predlošci za nukleotid i protein FASTA i odvojeni za poravnati FASTA.

Idealno bi bilo uključiti i druge aspekte, poput različitih formata kompresije (poput .gz , .bzip2 ) i različitih ekstenzija datoteka (kao što je . fa , .fasta).

Nikad nisam vidio resurse koji sadrže predloške koji ih pokrivaju, ali mislim da bi bilo korisno. Naravno da bih mogao izraditi vlastite predloške, ali trebalo bi vremena da se uhvate sve vjerojatne varijacije formata, posebno za složenije formate datoteka.

Napomena, mene ne zanima samo FASTA format, to je bio primjer.

Također imajte na umu da znam i alate (poput BioPython ) koji bi trebali rukovati mnogim formatima dobro, ali mogu imati i bugove. U svakom slučaju, u praksi ponekad na kraju i sam raščistim datoteke izravno jer ne želim režijske troškove ili ovisnost vanjskog paketa.

EDIT: Molim vas, nemojte odgovoriti na ovo pitanje da biste rekli da ne Ne znam za takve resurse, ni ja, pa otuda i pitanje. korisni odgovor od bli pokazuje da postoji barem jedan ispitni paket koji bi se mogao koristiti kao polazna točka. Znam da je obično lako potražiti specifikaciju bilo kojeg određenog formata datoteke.

Zapravo, definicija FASTA formata vrlo je jednostavna. Ima samo dva ograničenja, a drugo se često zanemaruje: i) retci zaglavlja moraju počinjati s `>` i mogu sadržavati sve što im se sviđa, osim `\ n`. ii) redovi niza trebali bi sadržavati 60 znakova po retku. Ništa drugo nije relevantno, ni broj redaka niza, ni znakovi u zaglavlju, ni proširenje (što je ionako obično nevažno izvan svijeta Windows-a), nema ograničenja na znakove koje slijed može imati (stoga nema razlike između specifikacije proteina i nukleotida fasta).
Svakako, specifikacija je jednostavna, ali kao što kažete u praksi, ne slijedi se uvijek i kada raščlanite datoteku, sve ove varijacije postaju relevantne. Mnogo sam se alata spotakao preko čudnih FASTA zaglavlja ili sekvenci i očito je važno da alati razlikuju nukleotide od aminokiselina. Na primjer, možete `globirati` datoteke s samo jednim određenim sufiksom.
Ako se alati uguše u tome, to su alati koji ignoriraju standard. FASTA standard jedan je od rijetkih koji je zapravo jasan i lako razumljiv. To je jednostavno vrlo slobodan format. I da, naravno da možete globati ekstenzije. Ja, na primjer, obično nazivam svoje proteinske datoteke `.pep` i nt` .fa`, ali za to ne postoji standard. Sve što vaši alati trebaju je i) uzeti cijeli redak nakon `>` kao naziv sekvence i ii) sve ostalo kao niz. To je sve, i to je sve što treba da bi bilo fasta.
Svakako, alati mogu ignorirati standard i zato mislim da je dobro imati različite predloške za testiranje alata. I nije uvijek jednostavno, na pr. ako koristite FASTA zaglavlja za imenovanje sljedećih datoteka, posebni znakovi mogu predstavljati smetnju. U svakom slučaju, kao što sam rekao FASTA je bio samo primjer, logika se proteže i na druge složenije formate
Spominjete "Ne zanima me samo FASTA format, to je bio primjer", ali imajte na umu da je najbolje da pitanja budu što preciznija.
šest odgovori:
#1
+7
bli
2017-06-02 21:18:49 UTC
view on stackexchange narkive permalink

Spominjete Biopython koji sadrži testove: https://github.com/biopython/biopython/tree/master/Tests.

Neki od testova sastoje se u čitanju datoteke prisutne u mapama navedenim u gornjoj vezi. Te bi datoteke mogle biti početna točka za bazu podataka testnih datoteka. Kad god naiđe na testni slučaj koji nije pokriven ovim datotekama, mogao bi stvoriti novu testnu datoteku i dodati je u Biopython, zajedno s testom, ili barem podnijeti problem: https://github.com/biopython / biopython / issues.

To bi bio način da se doprinese Biopythonu, dok čini bazu podataka testnih datoteka.

Hvala, sviđa mi se ova ideja; Pitam se sadrže li BioPerl i drugi projekti slične ispitne pakete koji bi se mogli koristiti
Ovdje je i "ja": ponekad sam koristio primjer ili testne podatke za BioPython kao testne podatke za druge programe. Vi barem imate uvjerenje da je valjana. Mogli biste pronaći neke slične korisne podatke s Galaxy alatima.
#2
+5
olga
2017-06-03 00:44:01 UTC
view on stackexchange narkive permalink

Nije da sam svjestan. Pri kodiranju je najbolje ići sa specifikacijama formata.

Također bi moglo biti dobro pogledati primjere datoteka koje dolaze zajedno s raznim alatima za izvršavanje pretvorbe datoteka i rukovanja njima. Npr.

#3
+2
woemler
2017-06-02 22:08:55 UTC
view on stackexchange narkive permalink

Koliko znam, ne postoji niti jedno spremište koje prikuplja sve uobičajene formate podataka koji se koriste u bioinformatici. Tipično morate otići na izvor kako biste pronašli specifikacije za svaki format. Postoji nekoliko mjesta koja prikupljaju opise formata datoteka, iako:

  • IGV File Formati pokriva sve formate koji se mogu koristiti u programu Integrative Genomics Viewer programa Broad Institute ( što je puno).
  • NCI formati datoteka, uglavnom formati koje koristi TGCA (uključujući MAF i VCF).
  • UCSC Genomics, pokriva BED, MAF i nekoliko drugih.
  • GenePattern, pokriva mnoge formate datoteka koji se odnose na podatke o mikrorezkama.
  • GSEA, Dokumentacija o analizi obogaćivanja širokog gena.
#4
+2
jgreener
2020-03-31 16:26:12 UTC
view on stackexchange narkive permalink

BioJulia održava BioFmtSpecimens. Iz README:

Bioinformatika je bogata formatima i parserima za te formate. Ovi se analizatori ne slažu uvijek oko definicija ovih formata, jer mnogima nedostaje bilo kakav formalni standard.

Ovo spremište ima za cilj objediniti zbirku primjeraka formata kako bi stvorilo jedinstveni skup podataka s kojima bi se testirati softver protiv. Testiranje na istim slučajevima prvi je korak prema dogovoru o pojedinostima i rubnim slučajevima formata.

#5
+1
terdon
2017-06-02 19:24:56 UTC
view on stackexchange narkive permalink

Ne. Barem nijedna za koju sam čula i sumnjam da će je ikad biti. Ne postoji središnje spremište za formate, a svaki alat, zajednica, polje itd. Imaju svoje.

Najbolje što možete učiniti je potražiti službeni standard za svaki format i nadati se da uključuju primjere. Imati uistinu sveobuhvatnu kolekciju svih mogućih varijacija u osnovi je nemoguće za užasne složene formate poput VCF-a. Samo uzmite u obzir jednostavnu činjenicu da dopušta korisnički definirana polja INFO s proizvoljnim sadržajem.

Dakle, najbolje što možete učiniti je provjeriti jesu li vaše skripte u skladu sa standardom i nadati se da to čine i vaši unosi.

Moglo bi postojati središnje spremište s predlošcima za najčešće formate. Ne vidim zašto ne? Ne može biti potpuno sveobuhvatan, naravno. Meni se ovo čini kao dobra ideja ...
@Chris_Rands, kao općenito pravilo, nažalost ima vrlo malo centraliziranog * bilo čega * u biologiji i to je općenito pitanje s tim područjem. To je reklo, priznajem da zapravo ne vidim svrhu za ovo. Ono što trebate je standard. Višestruki primjeri primjene standarda na različite načine ne čine mi se toliko korisnima; barem ne ako je standard dobro definiran (što nije uvijek slučaj). Kad malo bolje razmislim, ne mogu se sjetiti niti jednog takvog spremišta primjera formata općenito, ne samo u biologiji.
Hvala, slažem se zbog nedostatka standardizacije / centralizacije. Glavna upotreba za mene bila bi test slučajevi / jedinično testiranje. Poznavanje specifikacija je jedno, ali uočavanje svih rubnih slučajeva može biti nezgodno bez testiranja
@Chris_Rands s / lukav / nemoguć :) Sada radim u industriji nakon desetljeća i pol u akademskoj zajednici i ne biste * vjerovali * sranju koje smo poslali kao "vcf datoteke". Ne postoji način da se pokriju svi rubni slučajevi, neki će vam ljudi dati excel datoteku s nastavkom .vcf i očekuju da će raditi :(
Mislim da je github repo s primjerima rubnih slučajeva za svaki format izvrsna ideja - svaki put kad bi itko od nas naišao na novi način da je netko učinio nešto čudno s formatom da bismo mogli izdati PR na repou.
#6
  0
tweirick
2017-06-02 19:24:46 UTC
view on stackexchange narkive permalink

Možda nisu točno ono što tražite, ali sadrže širok raspon formata s primjerima. Ako želite više, možete pokušati pretražiti druge velike baze podataka koje hostiraju druge vrste u npr. Uniprot, PDB, NCBI.

https://genome.ucsc.edu/FAQ/FAQformat.html

http://www.ensembl.org/info /website/upload/bed.html

Hvala, upoznat sam s UCSC-om i Ensemblom i opisima njihovih formata, ali nisam to zapravo mislio pod predlošcima


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...