Pitanje:
Postoji li svrha rekalibracije rezultata za pozivanje varijanti?
Kamil S Jaron
2017-06-01 03:33:00 UTC
view on stackexchange narkive permalink

Najpopularniji cjevovod za pozivanje GATK uključuje ponovnu kalibraciju osnovne ocjene kvalitete (BQSR) koja zahtijeva popis poznatih varijanti. Nedavno je učinjeno i nekoliko poslova na bezreferentnoj kalibraciji rezultata: Lacer i atlas, što je motivirano izradom maksimuma za aDNA i skupove podataka s niskom pokrivenošću.

Važnost za aDNA objašnjena je u ovom predavanju, ali nije mi jasno je li / koliko važan BQSR za svježe uzorke DNA s pristojnom (> 15x) pokrivenošću. Pogotovo kad radim s nemodelnim organizmima i ne mogu jednostavno koristiti standardne alate.

Koliki utjecaj ima ponovna kalibracija rezultata na pozivanje varijanti? Postoji li osnovno pravilo za koje se to vrijedi / ne isplati se truditi?

četiri odgovori:
#1
+5
burger
2017-06-02 03:07:27 UTC
view on stackexchange narkive permalink

Osobno mislim da BQSR nema velikog utjecaja na pozivanje varijanti, ali zapravo ne trebate pogađati. Ako pokrenete GATK BQSR, on će dati tablicu i grafikone koliko su točno prilagođene ocjene kvalitete. Prilagodba će se razlikovati ovisno o položaju u čitanju i genomskom kontekstu (prethodna i sljedeća baza). Prema mom iskustvu, razlika je najviše nekoliko bodova, ali je svakako primjetna.

GATK preporučuje BQSR i za podatke o genomu i za exome, koji je obično puno veći od 15x.

#2
+2
Manuel
2017-06-01 04:27:28 UTC
view on stackexchange narkive permalink

To je dobro pitanje.

Rekao bih da se ne trebate zamarati ponovnom kalibracijom varijante za

  • mali broj uzoraka (npr. samo dva trojke); Ionako nisam mogao postići da GTAK ponovno kalibrira varijantne rezultate kako bi radio
  • uzorke s visokim pokrivanjem (npr., X deset genoma s 30x pokrivenosti), gdje su sami uzorci DNA visoke, usporedive kvalitete i sekvencirani su u skladu tehnologija.

Općenito je moj dojam da mnoga razmišljanja i napredni statistički modeli ugrađeni u GATK potječu iz ranijih faza projekta 1000 Genomes. To znači (1) malu pokrivenost, (2) različite genome pokrivenosti (3) sekvencirane s različitim tehnološkim verzijama (4) različitim uzorcima i (5) sekvenciranjem populacije.

Ako ste u kliničkom okruženju tamo gdje ionako radite sekvenciranje 30x samo na X Ten platformi, tada vam ponovna kalibracija vjerojatno neće toliko pomoći.

S druge strane, ako integrirate mnogo skupova podataka iz različitih podatkovnih centara i verzija stroja itd. ., varijabla kalibracije možda vrijedi pokušati.

Dobra provjera bila bi promatranje raspodjele kvalitete genotipa i ostalih mjernih podataka koji se odnose na varijantu / kvalitetu prije i nakon rekalibracije.

Svatko: molim ispravite ja ako griješim!

Govorite li ovdje o osnovnoj rekalibraciji ocjene kvalitete (BQSR) ili o varijabilnoj rekalibraciji ocjene kvalitete (VQSR)? Mislim da se OP odnosi na BQSR, ali vi raspravljate o VQSR.
Da, OP je potvrdio. Pitanje je o BQSR-u, pa se bojim da ste odgovorili na pogrešno pitanje.
* uzdah * i tamo sam pomislio da bih mogao nešto doprinijeti.
#3
+1
vchris_ngs
2017-06-06 16:07:56 UTC
view on stackexchange narkive permalink

Idealno je da su ove BQSR metode napravljene imajući na umu kako će tehničke pogreške zapravo pokvariti pozive osnovne kvalitete i kada su strojevi još uvijek bili u fazi razvoja dok su se koristili za projekt 1000G. Od danas su strojevi snažniji i jači tamo gdje ih vjerojatno neće koristiti, ali svejedno koristimo s navedenim SNP-ovima za pronalaženje kovarijanata i izgradnju modela oko podataka koristeći informacije pomoću trikova za strojno učenje kako bismo poboljšali kvalitetu tih osnovnih poziva . Idealno bi bilo prikladnije kada se koriste stari strojevi tvrtke Illumina ili drugih standardnih tvrtki, ali s novim strojevima koji su mnogo moćniji i imaju veliku propusnost trebali bi se srušiti. Ne sjećam se jesu li napravljeni takvi testovi, ali očito znam da novi stroj za sekvenciranje uvijek radi takve testove kako bi pokazao da su smanjili takve pogreške, ali i dalje preporučujem takav BQSR za varijantne pozive. Sada je problem u popisu SNP-ova, ovo je za mene pravi problem, jer popis koji koristimo daleko od toga da je zlatni standard, a ako se o tome ne vodi računa pravilno, sve što zaključujemo o kvaliteti još uvijek je klimavo. Ova veza prilično je informativna, ali stara je. Doista bih vidio poboljšanja s novim sekvencerima. Međutim, vrlo je malo ljudi stalo do takvih testova u akademskim istraživanjima, a također prevoditeljski laboratorij doista neće ulagati vrijeme i novac u takve, osim ako ustanova nema neke bioinformatičare koji uvijek rade takva ispitivanja dok kupuju novi sekvencer za institut. Što se tiče kliničke genomike za pronalaženje inačica, pretpostavljam da bi se trebali koristiti najmoćniji i najsavremeniji sekvenceri, ali nisam siguran koriste li i dalje BQSR i ako jesu kakav je popis koji koriste za izgradnju modela kovarijacije oko podataka.

Imajte na umu da je pitanje motivirano istraživanjem nemodelnih organizama - ne mogu se koristiti popisom poznatih varijanti, jer takav popis ne postoji za moju vrstu. Stoga sam želio znati, koliko je važno rekalibrirati QS, jer je to u konačnici moguće, ali ne samo izvođenjem još jednog koraka u GATK cjevovodu.
Slažem se da je to model koji nije model i zato nećete imati takav popis varijanti. Ali budući da je motivacija pristupa bila i pitanje o BQSR-u, rekao sam. Možete pogledati ovaj https://media.readthedocs.org/pdf/lts-workflows-sm-non-model-toolkit/latest/lts-workflows-sm-non-model-toolkit.pdf o tome kako koristiti vaše HC varijante uzorka da se kalibriraju. Također bi mogla pomoći i ova gatlk veza. http://gatkforums.broadinstitute.org/gatk/discussion/3286/quality-score-recalibration-for-non-model-organisms. Sada je na vama da odlučite koristiti ili usporediti.
@KamilSJaron za nemodele to je jedan od načina, ali ako je vaš stroj za sekvenciranje prilično nov i poboljšane točnosti, možda ćete i ukloniti korak. Čitao bih publikacije kako bih vidio što rade, ali ipak zbog mene obavljam pozive bez BQSR-a i s BQSR-om s HC varijantama, koristim ih kao bazu podataka i uspoređujem kako bih i sam zaključio. To je moje mišljenje. To također ovisi o vrlini projekta.
Prva je poveznica vrlo relevantna za moje izvorno pitanje: "Iako GATK UnifiedGenotyper pati tijekom indel poziva bez ponovne kalibracije i ponovnog poravnanja, i HaplotypeCaller i FreeBayes rade dobro ili bolje bez ovih koraka." Hvala. Druga je veza također relevantna, ali nemam dovoljno pojedinaca koji su sekvencirani da bi odabrali svoj pristup za ponovnu kalibraciju.
@KamilSJaron Drago mi je da je to relevantno, ali opet bih rekao da možete trčati i sa i bez i napraviti neku procjenu. Budući da nemate puno uzoraka za stvaranje vlastite baze podataka HC SNP-a, to možete učiniti i sa strogim strogim SNP-ovima svojih pojedinaca. Ili budući da nemate puno uzoraka, jednostavno izbjegavajte korak BQSR i izvucite gornje inačice, a ne velik dio varijanti. Najbolje varijante, iako rezultat možda nije vrlo točan, ali pozivi će i dalje biti vrlo sigurni i po mogućnosti istinski pozitivni. Pretpostavljam da ovisi o broju varijanti na koje ste se spustili.
BQSR je i dalje relevantan, jedan od razloga za to je neki novi iluminacijski hardver kao što je NextSeq koji može iznijeti samo binned Q rezultate, BQSR u biti "poništava" Q rezultate dajući veću granularnost koja se koristi u pozivima dubokih somatskih varijanti, http://gatkforums.broadinstitute.org/gatk/discussion/4594/beware-of-using-binned-quality-scores-with-some-gatk-procedures. Pored toga, NextSeq pati od problema s visokim povjerenjem u G, BQSR će i ovdje biti koristan https://sequencing.qcfail.com/articles/illumina-2-colour-chemistry-can-overcall-high-confidence-g-bases/
Ah, to je bilo nešto što nisam bio svjestan jer još nisam morao naići na NextSeq. Ovo je dobra stvar. Tada bi i OP trebao razmisliti o tome, i da, samo sam razmišljao o tome kako je BQSR prvi put došao u sliku. Ali ovo je dobar ulov za binned Q rezultate i za pitanje poly G.
#4
  0
Bekir Ergüner
2020-01-22 16:32:17 UTC
view on stackexchange narkive permalink

U slučaju da BQSR nije opcija (tj. nemodelni organizmi), najbolje bi bilo upotrijebiti neki slijed unutarnje kontrole kao što je PhiX za platformu ilumina. Iako bi ovo trebala biti uobičajena praksa, neki je objekti ignoriraju. U principu, strojevi bi trebali koristiti ove sekvence kao referencu kako bi bodovanje bilo točnije. Prema mom iskustvu, prvih 10-15 baza ilumina očitavanja uvijek je bilo lošije kvalitete. To se lako može vidjeti u raspodjeli nukleotida. Savjetovao bih obrezivanje prvih 10-15 baza i završno obrezivanje na temelju kvalitete.Ako je kvaliteta pojedinog očitanja važna, kao što je ponovna sekvencija slabe pokrivenosti ili de-novo aplikacije za sastavljanje genoma.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...