Pitanje:
Spajanje podataka o sekvenciranju za ChIP-seq eksperimente
olga
2017-06-03 17:42:58 UTC
view on stackexchange narkive permalink

Moram spojiti podatke o sekvenciranju iz različitih izvođenja sekvenciranja, ali za istu biblioteku ChiP-seq (HiSeq 2000).

Postoje li potencijalne prednosti ili nedostaci prilikom spajanja datoteka u fazi .fastq ili .BAM (usklađivanje s Bowite / 1.1.2)?

Tri odgovori:
#1
+7
Konrad Rudolph
2017-06-03 17:48:05 UTC
view on stackexchange narkive permalink

Mislim da to nije važno. Obje se lako spajaju (BAM putem samtools merge i (gzipped) FASTQ putem cat ), a nijedna metoda nema određene nedostatke, osim ako vaše FASTQ datoteke iz nekog razloga nisu sortirane (ali to općenito ne bi smjeli biti.)

Jedna od prednosti zadržavanja FASTQ datoteka je ta što olakšava paraleliziranje koraka mapiranja: samo paralelno pokrenite mapper na odvojenim FASTQ datotekama. Iako bowtie za to ima opciju ( -p ), protok od toga je nešto lošiji od pokretanja mapiranja na podijeljenim datotekama.

#2
+3
Sarah Carl
2017-06-06 13:19:38 UTC
view on stackexchange narkive permalink

Za ChIP-seq to zapravo ne bi trebalo biti važno. No, imajte na umu da samtools merge po zadanom zadržava podatke o čitanju grupe (polje @RG u zaglavlju) iz svake ulazne datoteke. To bi moglo predstavljati problem za neke nizvodne analize (npr. Za GATK HaplotypeCaller) ako želite da se spojeni podaci smatraju dijelom istog uzorka. To ponašanje možete promijeniti pomoću opcije -c .

Mislim da ne trebaju `@RG` informacije za ChIP-Seq, mislim da je vrlo malo vjerojatno da bi netko želio napraviti varijantu pozivajući ChIP-Seq. Dakle, u svakom slučaju to teško da bi bilo važno. Ne bih ovdje spomenuo `@RG` jer se ljudi mogu zbuniti.
Poštena točka. Ali budući da je olga pitala o prednostima ili nedostacima, mislio sam da bi to bilo vrijedno spomenuti. Moglo bi biti korisno u budućnosti ili za druge korisnike pri spajanju datoteka za druge programe osim ChIP-seq, jer se `samtools merge` široko koristi.
#3
+2
ewels
2017-06-06 22:40:14 UTC
view on stackexchange narkive permalink

Složite se s ostalima da to zapravo nije važno. Ipak, imajte na umu - ako deduplicirate svoje BAM datoteke (vjerojatno biste trebali za ChIP-seq podatke), pobrinite se da to napravite nakon spajanja .. :)

Imajte na umu da ako umjesto jedne knjižnice imate više tehničkih replika (tj. Više knjižnica iz istog uzorka), trebali biste izvršiti poravnanje za svaku tehničku repliku zasebno, zatim deduplicirati i ONDA spojiti. To vam omogućuje zadržavanje jedinstvenih fragmenata iz svake knjižnice koji mogu izgledati poput PCR duplikata (jer se mapiraju na isto mjesto), ali zapravo su jedinstveni.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...