Pitanje:
Alati za stvaranje anotirane tablice varijanti iz VCF-a
roblanf
2017-08-11 03:44:41 UTC
view on stackexchange narkive permalink

Problem: Imam VCF datoteku, referentni genom i hrpu bilješki za referencu (geni, regije ponavljanja itd.) kao GFF ili BED datoteke.

Što bih želio je alat koji sve ovo uzima kao ulaz i izlazi tablicu razdvojenu tablicom ili zarezom koja sadrži što više informacija. Potencijalni stupci u izlazu uključuju:

  1. Tip varijante (SNV, strukturni, itd.)
  2. Pojedinosti o varijanti (npr. Referentna baza, baza varijante, pokrivenost, položaj itd.) )
  3. Bilješke koje se preklapaju
  4. Bilješke u blizini varijante (npr. nalaze li se uzvodno od gena)
  5. Ako se pojave u kodirajućem području, mijenja li to aminokiselina.

Mnogo je alata koji rade ovako nešto . No, novajliji (poput mene) nije jasno s kojim alatima vrijedi započeti. Budući da se većini alata prije svega treba malo truda kako bi započeo s radom, moje je pitanje:

Koji je alat najbliži izvršavanju onoga što sam opisao, pouzdan je i vjerojatno će se održati sljedećih nekoliko godina.

Tri odgovori:
Cotton Seed
2017-08-14 09:20:38 UTC
view on stackexchange narkive permalink

Pozdrav možda je opcija za vas.

Sve ga više razvija tim za Broad. Strogo je testiran (kontinuirana integracija, kontinuirano postavljanje, izvještaji o greškama dobivaju regresijske testove, bla bla bla).

Dizajniran je za rješavanje ovog problema (između ostalih). Može uvesti razne formate, uključujući VCF, TSV, UCSC BED, JSON i datoteke s intervalima. (Nemamo izričitu podršku za GFF, ali s njima se vjerojatno možemo nositi s općenitim sadržajima. Ako nemate, kontaktirajte i mi ćemo dodati podršku.) Može pozvati VEP (i uskoro Nirvanu, Illuminino prepisivanje VEP-a) . Sadrži opće mogućnosti za transformiranje, filtriranje, čišćenje i postavljanje upita.

Štoviše, pripremili smo veliku kolekciju resursa za bilješke (trenutno ~ 22 baze podataka s bilješkama + VEP), hostirane u javnom segmentu u Googleovom oblaku i izradio interaktivni graditelj upita za odabir resursa koje želite koristiti. Javite se ako želite da dodamo dodatne resurse. Više o tome možete pročitati ovdje.

Izjava o odricanju odgovornosti: Radim na Hail-u.

Prihvaćeni odgovor ostavio sam kao FEATnotator, samo zato što ovo čini točno ono što sam pitao u pitanju. Ali htio sam zahvaliti što ste me (nas?) Obavijestili o Pozdravu, što svakako zvuči izuzetno korisno. Aktivni razvoj i otvorenost zahtjevima za značajke veliki su plus.
dkainer
2017-08-11 11:50:41 UTC
view on stackexchange narkive permalink

Koristio sam FEATnotator i mislim da može pružiti sve stupce koje biste željeli vidjeti. Generirano je mnogo izlaznih datoteka, ali objedinjeni izlaz ima sljedeće stupce:

  • Kromosom
  • Položaj
  • Stupac_3
  • Consensus_Allele
  • Annotation_Signature
  • Reference_Base
  • Alternate_Base
  • Prijelaz / transverzija SNP_Type
  • Prerano_STOP_Gained STOP_Lost
  • START_CODON
  • STOP_CODON
  • SPLICE_SITE
  • InterGenic
  • Gene_Body
  • Intron
  • Exon
  • Kodiranje
  • UTR
  • Transcription_Start_Site
  • Najbliži_gene
  • Udaljenost

evo nekoliko primjera izlaznih zapisa korištenja datoteke VCF, referentnog genoma i GFF-a (oprostite zbog glupog oblikovanja ... puno je polja!):

  Chr01 28177 TG NA TG TRANSVERZIJA NA NE NE NE NE NE DA NE NE NE NE NE NE NE Eucgr.A00211.v2.0 16054Chr01 44876 CG gen: Eucgr.A00211.v2.0 mRNA: Eucgr.A00211.1.v2.0 [intron] CG TRANSVERZIJA NE NE NE NE NE NE NE DA DA NE NE NE NE NA NAChr01 46819 AG gen: Eucgr.A00211 .v2.0 mRNA: Eucgr.A00211.1.v2.0 CDS: Eucgr.A00211.1.v2.0.CDS.4 [AAA - K = > GAA - E (MISSENSE)] exon: Eucgr.A00211.1 .v2.0.exon.4 AG PRIJELAZNA MISENA NE NE NE NE NE NE DA NE DA DA DA NE NE NA NA  
arupgsh
2017-08-11 12:39:25 UTC
view on stackexchange narkive permalink

snpEff je izvrstan alat za bilježenje VCF datoteka i možete dodati prilagođene referentne sekvence.

http://snpeff.sourceforge.net/

Vodič za dodavanje prilagođenih datoteka bilješki u snpEff

https://gatkforums.broadinstitute.org/gatk/discussion/50/adding-genomic-annotations-using-snpeff-and-variantannotator

U njihovoj je bazi podataka dostupan niz prethodno pripremljenih skupova podataka za bilješke.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...