Pitanje:
vcftools: naredba histograma indel size vraća praznu datoteku
Joanne
2018-10-16 04:59:33 UTC
view on stackexchange narkive permalink

Želio bih dobiti neke sažete statistike o vcf datoteci od jedne osobe koja ima preko milijun varijantnih poziva. Ovom naredbom pokušao sam napraviti histogram veličina indela,

  vcftools --vcf sample.vcf --out sample --hist-indel-len  

ali vraća praznu datoteku. Vidim tisuće brisanja u vcf-u, iako neobično bez umetanja. Tipični redak u vcf datoteci koju imam izgleda ovako

  NC_025968.3 168363 191 N <DEL>. . SVTYPE = DEL; STRANDS = + -: 19; SVLEN = -1026; END = 169389; CIPOS = -9,330; CIEND = -152,9; CIPOS95 = -3,61; CIEND95 = -32,3; IMPRECISE; SU = 19; PE = 19; SR = 0 GT: SU: PE: SR ./.:19:19:19  

Ažuriranje: Uskladio sam čitanja s mojom referencom s BWA MEM, a zatim upotrijebio samblaster za izdvajanje neskladnih parova i podijeljeno čitanje. Razvrstao sam i indeksirao tri bam datoteke, a zatim upotrijebio lumpyexpress za generiranje vcf-a.

  samblaster -i sample.sam --excludeDups --addMateTags --maxSplitCount 2 --minNonOverlap 20 | pogled samtools -S -b - > sample.bamsamtools view -h sample.bam | samblaster -a -e -d sample.disc.sam -s sample.split.sam -o / dev / nulllumpyexpress -B ../sample.sorted.bam -S ../sample.split.sorted.bam -D. ./sample.disc.sorted.bam -o sample.vcf 

Volio bih vidjeti raspodjelu veličina brisanja i ako je moguće, shvatiti zašto nema umetanja.

Hvala na vašem pitanju, Joanne, i dobrodošla u Bioinformatics SE. Možete li objaviti nekoliko redaka iz svoje VCF datoteke kako bismo mogli bolje shvatiti što se događa? Teško je to reći ako se podaci ne gledaju izravno.
Hvala na dobrodošlici! Evo tipične crte: `NC_025968.3 168363 191 N . . SVTYPE = DEL; STRANDS = + -: 19; SVLEN = -1026; END = 169389; CIPOS = -9,330; CIEND = -152,9; CIPOS95 = -3,61; CIEND95 = -32,3; IMPRECISE; SU = 19; PE = 19; SR = 0 GT: SU: PE: SR ./ .: 19: 19: 0`
Pozdrav @Joanne samo napomena. Možete [urediti] svoje pitanje da biste dodali detalje (poput retka koji sam već dodao za vas) ili bilo koji drugi napredak ili ideju koji ćete imati u vezi s pitanjem. Obično date više detalja, veće su šanse da će se naći netko tko će znati odgovor.
Samo znatiželjno, kako zovete ovu VCF datoteku? Ako koristite GATK, mislim da postoje neke mogućnosti za izlaz samo SNPS, ili SNP + indels, ili samo indeli. Također, možete li pojasniti što točno mislite pod sažetim statistikama? Trenutno je teško reći koje je točno vaše pitanje: IE želite li raspodjelu veličina izbrisanih stavki koje postoje, ili također želite shvatiti zašto umetanja nedostaju iz vašeg VCF-a? Ako želite ovo drugo, trebat će nam informacije o naredbama koje ste koristili za generiranje VCF datoteke.
Hvala na savjetima za protokol foruma - uredio sam svoje pitanje kako bih uključio više detalja.
Jedan odgovor:
conchoecia
2018-10-23 13:43:06 UTC
view on stackexchange narkive permalink

Čini se da kvrgast traži točke prekida u vašoj referenci. Vjerojatno mjesta na kojima je haplotipski prekidač koji se može otkriti s podacima na raspolaganju?

Jedina mi je misao da se, budući da se kvrgavi koristi za proizvodnju VCF datoteke, ona sama po sebi nije tražeći umetke. Predložio bih pokretanje iste BAM datoteke kroz GATK cjevovod najbolje prakse (lakše reći nego učiniti) i vcftools cjevovod. Ako oni proizvode umetanja, ali lumpy ne, to mora biti zbog načina na koji lumpy proizvodi pozive. Sretno!



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 4.0 licenci pod kojom se distribuira.
Loading...