Pitanje:
Kako mogu izvršiti uzorkovanje BAM datoteke uz zadržavanje oba čitanja u parovima?
medbe
2017-06-03 04:44:45 UTC
view on stackexchange narkive permalink

Znam kako napraviti BAM datoteku radi uzorkovanja kako bih smanjio pokrivenost. Znam da mogu nasumično odabrati retke u SAM-u, ali ovaj postupak ne može jamčiti da se dva uzorka u paru uvijek uzorkuju u isto vrijeme. Postoji li način za smanjenje uzorka BAM-a uz zadržavanje netaknutih podataka o uparivanju?

Možete li dati malo više objašnjenja * zašto * bi bilo korisno smanjiti uzorke čitanja? Postoji nekoliko različitih načina kako to učiniti, a odgovori će ovisiti o vašem cilju. Na primjer, možete napraviti digitalnu normalizaciju kako biste smanjili broj očitanih ulaznih podataka za sastavljanje genoma, ali ta metoda ne bi bila prikladna za kvantitativnu analizu očitavanja (npr. Za RNASeq).
Tri odgovori:
#1
+14
rightskewed
2017-06-03 06:08:48 UTC
view on stackexchange narkive permalink

samtools ima opciju poduzorkovanja:

-s FLOAT: Cjelobrojni dio koristi se za postavljanje generatora slučajnih brojeva [0]. Dio nakon decimalne točke postavlja uložak predložaka / parova na uzorak [bez poduzorkovanja]

  samtools view -bs 42.1 in.bam > subsampled.bam  

poduzorkovat će 10 posto preslikanih čitanja s 42 kao početno za generator slučajnih brojeva.

Da bi se izbjegla moguća zabuna u budućnosti, treba napomenuti da to djeluje raspršivanjem pročitanog imena. Ako iz nekog strašnog razloga supružnici nemaju potpuno isto ime (npr. `/ 1` i` / 2` nisu uklonjeni), tada će se to prekinuti.
A također zbog načina na koji to funkcionira, broj uzoraka s uzorkom ne zajamčuje se točno potrebnim postotkom: uspoređuje se neka transformacija raspršivanja koja se nalazi u intervalu [0,1] u odnosu na udio uzorkovanja. Ovisno o imenima čitanja koja su prisutna u datoteci, broj efektivno uzorkovanih unosa će varirati.
#2
+4
ATpoint
2018-12-12 05:12:02 UTC
view on stackexchange narkive permalink

Pomoću ove funkcije možete poduzorkovati datu BAM datoteku na korisnički određeni broj čitanja pomoću SamBambe. Funkcija automatski izračunava faktor skaliranja. Ideje djelomično preuzete iz ovdje

  funkcije Poduzorka {## Izračunajte faktor uzorkovanja na temelju predviđenog broja čitanja: FACTOR =  $ (samtools idxstats $  1 | cut -f3 | awk -v COUNT =  $ 2 'POČINI {ukupno = 0} {ukupno + = $  1 } END {print COUNT / total} ') ako [[ $ FACTOR > 1]] then echo' [ERROR]: Traženi broj čitanja premašuje ukupan broj čitanja u '$  span > 1 '- izlazak iz' && izlaz 1fisambamba view -s  $ FACTOR -f bam -l 5 $  1} ## Primjer upotrebe, odabir 100.000 čitanja: SubSample in. bam 100000 > subsampled.bam  

Imajte na umu da je $ 2 broj čitanja. Recimo da odaberete 10000 čitanja, ali imate uparene podatke, na kraju ćete dobiti 5000 fragmenata.

#3
+1
swbarnes2
2018-12-13 00:31:35 UTC
view on stackexchange narkive permalink

Potpuno drugačija taktika ... pomaže ako niste previše izbirljivi u pogledu broja čitanja na kraju.

Imena čitanja Illumina sadrže traku, pločicu i xy koordinate čitati u njima. Ako ih filtrirate, zajamčeno će vam biti oba člana para ili niti jedan ni drugi. Preporučio bih da pokušate izbjeći rubove protočne ćelije.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...