Pitanje:
Mapiranje genomskih koordinata radi obračuna indeksa
Greg Slodkowicz
2017-05-30 19:35:08 UTC
view on stackexchange narkive permalink

Zanima me dobivanje kodirajućih sekvenci mog omiljenog gena kod svih pojedinaca iz 1000Genomesa (i sličnih projekata). Koristim GATK da dobijem pravi podskup inačica, vcf-konsenzus za mapiranje tih varijanti na referentni genom i na kraju samtools za izdvajanje pojedinačnih egzona. To dobro funkcionira ako su varijante SNP-ovi, ali ako postoje indeli, to mijenja koordinate egzona i na kraju dobivam pogrešnu regiju. Postoji li neki generički način ponovnog mapiranja genomskih koordinata kako bi se uzele u obzir promjene koje su stvorili indels?

Dva odgovori:
#1
+8
Karel Brinda
2017-05-30 20:23:34 UTC
view on stackexchange narkive permalink

Mislim da vam je potrebna datoteka LiftOver Chain da biste transformirali svoje koordinate. Takvu datoteku možete dobiti pomoću bcftools konsenzusa s parametrom -c :

  -c, --chain <file> napiši datoteku lanca za život  

Tada ga možete koristiti za transformiranje koordinata u razne genomske formate pomoću CrossMap.

Lijepo, +1. Bilo bi sjajno kada biste ovo mogli proširiti na primjer naredbe koju bi OP mogao pokrenuti, potrebne korake itd. Web lokacije Stack Exchange imaju vrlo stroge smjernice o tome što je odgovor (zato sam vas i gnjavio) i idealno , želimo da odgovor pruži sve potrebne informacije za rješavanje postavljenog pitanja. Drugim riječima, nemojte postavljati pokazivače (čak ni vrlo korisne poput ovog) kao odgovore. Ili samo objavite komentar ili uobličite pokazivač u cjelovit odgovor.
Možda sam samo ja, ali njegov se odgovor čini u redu, čak i za SE standard, ali to sam samo ja.
@nuin se složio, zbog čega sam i glasao. Samo mislim da bi bilo još bolje s više detalja, to je sve.
Nema ljutnje.
#2
+2
finswimmer
2019-01-16 01:17:46 UTC
view on stackexchange narkive permalink

Ako je cilj izvući konsenzusni slijed za određene regije, ovo funkcionira u 2019.

bgzip i indeksira vaš vcf datoteka.

   $ bgzip -c input.vcf > input.vcf.gz $  tabix input.vcf.gz  

Stvorite region.txt koji sadrži po jednu regiju po retku u formatu chr: from-to . Ako već imate datoteku bed , za izradu možete upotrijebiti ovu malu skriptu awk :

   $ awk '{print $ 1": "$ 2 + 1" - "$  3}' input.bed > region.txt  

Sada pokrenite ovu kombinaciju od samtools i bcftools:

  $ samtools faidx -r region.txt genome.fa | bcftools konsenzus input.vcf.gz -o konsenzus. fa  


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...