Pitanje:
Kako brzo odrediti mutacije u čitanju same datoteke?
rraadd88
2017-05-18 08:14:29 UTC
view on stackexchange narkive permalink

Nakon sekvenciranja DNA, generirao sam datoteku sam poravnavanjem datoteke fastq. Prije nego što upotrijebim dobro poznate programe za pozivanje varijanti (npr. Annovar itd.), Želim odabrati nekoliko čitanja i znati kakve su mutacije.

Postoji li brz način za to?

Neusklađenosti možete vizualizirati s nečim poput [IGB] (https://wiki.transvar.org/display/igbman/Visualizing+read+alignments#Visualizingreadalignments-Loadsequencedatatoviewmismatches)
Tri odgovori:
#1
+8
Scott Gigante
2017-05-18 08:24:19 UTC
view on stackexchange narkive permalink

Za kvalitativnu analizu vjerojatno bi vam bilo bolje koristiti nešto manje granulirano, poput IGV ili IGB. Međutim, ako stvarno želite pogledati nekoliko čitanja:

Ako ste voljni zanemariti pogreške u nizu, možete pregledati niz CIGAR ili MD oznaku, a oba daju informacije o poravnanju jednog čitanja.

Niz CIGAR daje detalje o umetanju, brisanju, isječcima, podudaranjima i neusklađenostima. Iz Wiki za analizu genoma,

Slijed koji se poravnava s referencom može imati dodatne baze koje nisu u referenci ili mogu nedostajati baze koje su u referenci. Niz CIGAR je slijed osnovnih duljina i pridružene operacije. Koriste se za označavanje stvari poput onih koje se baze poravnavaju (podudaranje / nepodudaranje) s referencom, brišu se iz reference i predstavljaju umetke koji nisu u referenci. Na primjer:

  RefPos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19Referenca: CCATACTGAACTGACTAA CRead: ACTAGAATGGC TWS gornjim poravnanjem dobivate : POS: 5CIGAR: 3M1I3M1D5M  

Najčešća upotreba niza CIGAR koristi M (podudaranje / nepodudaranje), I (umetanje), D (brisanje), S (meko isjecanje) i H (tvrdi isječak). Imajte na umu da su = (podudaranje) i X (neusklađenost) dostupni kao alternative manje informativnom M, ali se manje koriste.

MD oznaka daje specifične detalje o neusklađenostima i brisanjima. Iz specifikacije SAMtools oznaka,

Polje MD ima za cilj postizanje SNP / indel poziva bez gledanja reference. Na primjer, niz '10A5 ^ AC6' znači od krajnje lijeve referentne baze u poravnanju, postoji 10 podudaranja iza kojih slijedi A na referenci koja se razlikuje od poravnate baze za čitanje; sljedećih 5 referentnih baza su podudaranja nakon čega slijedi brisanje od 2 bp iz reference; izbrisani slijed je AC; posljednjih 6 baza su šibice. Polje MD trebalo bi se podudarati sa nizom CIGAR.

Imajte na umu da vam niti jedno od ovih neće pružiti nikakvu ideju o strukturnim varijantama u kratkim čitanjima, niti će biti posebno čitljivo (ili korisno zbog veća stopa pogrešaka) u dugim čitanjima.

#2
+7
dariober
2017-05-21 22:47:47 UTC
view on stackexchange narkive permalink

Napisao sam program ASCIIGenome koji mi se čini prikladnim u slučajevima kada želite na brzinu pogledati genomske podatke. To je preglednik genoma za naredbeni redak.

Za prikaz samo čitanja koja sadrže neusklađenosti možete koristiti internu funkciju awk . Za filtriranje čitanja gdje je NM oznaka (broj nepodudaranja)> 0:

  ASCIIGenome -fa genome.fa aln.bam ... [h] za pomoć: awk 'getSamTag (" NM ") > 0 ' 

Pogled na zaslonu terminala može izgledati otprilike ovako: enter image description here

Slično tome, dobiti samo čitanja koja sadrže indelove možete koristiti awk '$ 6 ~ "D | I"'

Nadam se da ovo pomaže i slobodno prijavite greške u problemima s &.

To je stvarno super. Sviđa mi se.
#3
+4
gringer
2017-05-18 21:23:10 UTC
view on stackexchange narkive permalink

samtools mpileup to može učiniti brzo:

  samtools mpileup -f reference.fasta -uv input.sam > variant.vcf  

Ovo će stvoriti VCF-formatiranu datoteku koja sadrži informacije o tome koje su inačice viđene u SAM datoteci, objedinjenu za sva mapirana čitanja.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...