Pitanje:
Zašto je bwa-mem standardni algoritam kada se koristi bwa?
terdon
2017-06-03 18:58:27 UTC
view on stackexchange narkive permalink

Čini se da je industrijski standard za usklađivanje kratkih čitanja bwa-mem. Međutim, u mojim testovima vidio sam da korištenje bwa backtracka (bwa-aln + bwa-sampe + bwa-samse) djeluje bolje. Nešto je sporiji, ali daje znatno bolje rezultate i u pogledu osjetljivosti i specifičnosti. Testirao sam ga koristeći podatke o genomima u bočici i javnim uzorcima (NA12878 i NA12877, između ostalih) i otkrio da je povratak neprestano nadmašivao bwa-mem.

Pa zašto je bwa-mem standard? Jesam li u krivu i drugi su testovi pokazali suprotno? Ne znam zapravo kako otkako sam testirao koristeći najčešće skupove podataka i podatke o provjeri valjanosti. Je li to da blagi porast učinkovitosti nadmašuje smanjenje performansi?

Jedino drugo objašnjenje koje vidim je da je bwa backtrack dizajniran posebno za čitanje Illumine i da su svi moji testovi bili na podacima Illumine. Je li samo to što je bwa-mem "agnostik sekvencera"? Tako da možemo koristiti isti algoritam neovisno o tome koja se platforma za sekvenciranje koristi? U tom slučaju ima smisla koristiti backtrack ako imamo posla s podacima Illumine i memom samo ako možemo imati različite sekvencere. Ali, ako je tako, budući da je Illumina toliko raširena, zašto se povratni podaci ne koriste češće na podacima Illumine? Osjećam da mi sigurno nešto nedostaje.

Heng Li bio bi najbolja osoba koja bi odgovorila na ovo .... Također bi moglo vrijediti citiranje postojećih mjerila ili davanje detalja o onima koje ste pokrenuli.
Uvijek postoji i bwa mem papir https://arxiv.org/pdf/1303.3997.pdf
@MatthewBashton da, znam. Nažalost, nemam ih u obliku koji je lako prikazati, a vodio sam ih prije više od godinu dana, tako da možda više nisu ni relevantni. Nadam se da su i drugi vidjeli slične probleme i da znaju zašto bi jedan bio bolji od drugog. Ili da je objavljen pregledni članak u kojem se uspoređuju i moj objavljeni fu me jednostavno nije uspio. Ako ne, pretpostavit ću da ću ih sam ponoviti, dublje razmotriti i postaviti novo pitanje.
Kolika je vaša dužina čitanja? http://bio-bwa.sourceforge.net preporučuje mem kao najbolji za> 70 bp. Bilo bi zanimljivo vidjeti ponovljivu referentnu vrijednost ako ste pronašli drugačije
@blmoore prosječno je uglavnom ~ 150nt. Upravo zbog toga bio sam iznenađen kad sam ovo vidio. Međutim, shvaćam da ako vam ne pokažem svoje podatke (koje se bojim da ću morati obnoviti), teško je da mi vjerujete na riječ. Nadao sam se da je ovo dobro poznato pitanje i jednostavno sam bio neznalica.
Pozdrav @terdon; naš temeljni tim za sekvenciranje proučio je BWA-MEM vs backtrack za nekoliko skupova podataka i dosljedno utvrdio da je MEM brži i precizniji od backtracka. Također smo otkrili da ako imate značajnih padova kvalitete na performansama stražnjeg stražnjeg dijela, to jako pati ... i to je još jedna prednost MEM-a: ne treba vam kvalitetno obrezivanje, gdje povratak mora čitati da bi se mapirao u punoj dužini , koju smo promatrali neovisno o i pored Henga Lija (vidi [ovu temu] (https://www.biostars.org/p/90149/)).
@WyattMcDonnell hvala, to izgleda zanimljivo iako imam problema s čitanjem takve vrste kaotične niti. Mislite li da biste s ovim točkama mogli izmisliti odgovor?
naš odjel koristi bwa backtrack i za podatke o sekvenciranju ilumine. kao popratnu napomenu, minimap2 (napisao heng li) nadmašuje bwa mem za dugo čitanje, tako da imam problema s otkrivanjem gdje bwa mem pada na sliku.
Usko povezani (vjerojatno duplikat): https://bioinformatics.stackexchange.com/q/15/3144. Ipak, još uvijek nema empirijske usporedbe učinkovitosti dvaju pristupa onakvog kakvog je OP ovdje tražio.
Mogući duplikat [Razlika između BWA-backtracka i BWA-MEM] (https://bioinformatics.stackexchange.com/questions/15/difference-between-bwa-backtrack-and-bwa-mem)
Jedan odgovor:
gringer
2017-06-04 12:38:44 UTC
view on stackexchange narkive permalink

bwa mem je noviji, brži i [trebao bi biti] precizniji, posebno za dulja čitanja.

Na man stranici bwa ( vjerojatno riječima Henga Lija):

BWA je softverski paket za mapiranje nisko divergentnih sekvenci protiv velikog referentnog genoma, poput ljudskog genoma. Sastoji se od tri algoritma: BWA-backtrack, BWA-SW i BWA-MEM. Prvi algoritam dizajniran je za Illumina slijed koji čita do 100 bp, dok su preostala dva za duže sekvence bila u rasponu od 70bp do 1Mbp. BWA-MEM i BWA-SW dijele slične značajke kao što su podrška za dugo čitanje i podijeljeno poravnanje, ali BWA-MEM, koji je najnoviji, obično se preporučuje za visokokvalitetne upite jer je brži i više precizan. BWA-MEM također ima bolje performanse od BWA-backtracka za 70-100bp Illumina očitavanja.

Da, znam da to tvrdi. To jednostavno nisam vidio. Imate li mjerila ili pregledni članak ili bilo što što pokazuje da je bwa-mem doista točniji?
Heng Li-ov članak o BWA nalazi se [ovdje] (https://arxiv.org/abs/1303.3997). Uspoređuje točnost BWA-MEM s BWA-SW i pokazuje da BWA-MEM ima veći broj preslikanih očitavanja za isti broj pogrešno mapiranih očitavanja (vidi sliku 1).
Da, ali on to ne uspoređuje s bwa backtrackom, o čemu tražim.
[Brian Bushnell] (https://www.biostars.org/p/199625/#199627) čini se da misli da je BWA-MEM precizniji od BWA-backtracka.
Da, mnogi ljudi to rade. Ali nisam vidio da itko daje dokaze u prilog tome, a moji testovi pokazali su da nije.
Da budemo pošteni, također niste dali nikakve dokaze koji to potkrepljuju. Bilo bi sjajno kada biste u svoje pitanje mogli dodati grafikon ili druge rezultate (po mogućnosti s čitavim / referentnim setom za preuzimanje).
Da svakako. Trebao bih pokazati svoje podatke. Da budem iskren, to sam učinio prije više od godinu dana i jednostavno ih više nemam. Apsolutno je moguće da griješim i nema razloga da mi itko vjeruje samo zato što ja tako kažem. Nadao sam se da će netko moći odgovoriti vlastitim mjerilima ili, još bolje, recenziranim člankom koji prikazuje podatke za usporedbu.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...