Pitanje:
Jedan uzorak nasuprot genotipizaciji zglobova
llevar
2017-05-17 18:02:17 UTC
view on stackexchange narkive permalink

Pokušavam razumjeti prednosti zajedničkog genotipiziranja i bio bih zahvalan ako bi netko mogao pružiti argument (idealno matematički) koji bi jasno pokazao korist zajedničkog genotipiziranja u odnosu na pojedinačni uzorak.

Ovo je ono što sam prikupio iz drugih izvora (Biostars, GATK forumi, itd.)

  • Zajedničko genotipiziranje pomaže u kontroli FDR-a jer se pogreške iz pojedinačno genotipiziranih uzoraka zbrajaju i pojačavaju pri spajanju poziva- kompleta (napisao Heng Li na https://www.biostars.org/p/10926/)

Ako netko to razumije, može li pojasniti što je razlika u ukupnoj stopi FDR između dva scenarija (opet, s idealnim primjerom)

Ne razumijem kako je prisutnost pouzdano nazvane varijante na istom mjestu kod druge jedinke može utjecati na genotipizaciju osobe s malim pokrivanjem. Postoji li neki valjani argument koji omogućava čitanje druge osobe kao dokaz određene varijante kod treće osobe? Koje su pretpostavke za takav argument? Što ako je ta osoba iz druge populacije s potpuno različitim frekvencijama alela za tu varijantu?

Pročitavši nekoliko radova (ili opisa metoda) koji opisuju najnovije metode pozivanja SNP-a svjesne haplotipa (HaplotypeCaller, freebayes , Platypus) čini se da je cjelokupni okvir:

    1. Uspostavite prioritet o distribuciji frekvencije alela na mjestu koje vas zanima koristeći jedan (ili kombinaciju) od: neinformativnog prioriteta, prioriteta utemeljenog na populacijskoj genetici, poput Wriga Fishera, prioriteta na temelju utvrđenih obrazaca varijacija poput dbSNP, ExAC, ili gnomAD.
    1. Izradite popis vjerojatnih haplotipova u regiji oko mjesta interesa od strane lokalnog okupljanja.
    1. Odaberite haplotip s najvećom vjerojatnošću na temelju prethodnih i čita podataka i u skladu s tim zaključite genotip lokusa.

U kojoj se točki u gore navedenom postupku mogu dijeliti ili udruživati ​​podaci između uzoraka? Ne treba li vjerovati AFS-u iz velikog resursa poput gnomAD-a puno više od distribucije dobivene iz drugih uzoraka koji su nominalno strana iste "kohorte", ali možda nemaju puno veze jedni s drugima, na primjer zbog različitih predaka?

Stvarno želim razumjeti opravdanja i prednosti koje nudi genotipizacija s više uzoraka i zahvalio bih vam na uvidima.

Dva odgovori:
#1
+10
user172818
2017-05-17 19:08:22 UTC
view on stackexchange narkive permalink

Recimo da sekvencirate 2X pokrivenost. Pretpostavimo da na mjestu, uzorak S ima jednu referentnu bazu i jednu zamjensku bazu. Teško je reći je li ovo pogreška u sekvenciranju ili heterozigota. Sada pretpostavimo da imate 1000 drugih uzoraka, svi na 2X dubini čitanja. Jedan od njih ima dvije ALT baze; Njih 10 ima jedan REF i jedan ALT. Obično je nevjerojatno da svi ti uzorci imaju istu pogrešku u sekvenciranju. Tada možete ustvrditi da uzorak S ima het. Pozivi s više uzoraka pomažu u povećanju osjetljivosti ne tako rijetkih SNP-ova. Imajte na umu da je ovdje važna pretpostavka neovisnosti o pogreškama. Preci imaju samo mali neizravni učinak.

Pozivanje s više uzoraka kažnjava vrlo rijetke SNP-ove, posebno pojedinačne. Kad su vam bitne samo varijante, ovo je za dobro. Naivno kombiniranje poziva s jednim uzorkom daje veću stopu pogrešaka. Pozivanje s više uzoraka također pomaže filtriranju varijanti u kasnijoj fazi. Na primjer, za uzorak sekvenciran do 30X pokrivenosti ne biste znali je li mjesto na dubini od 45X uzrokovano potencijalnim CNV-om / pogrešnim mapiranjem ili statističkom fluktuacijom. Kad vidite 1000 uzoraka 30X na dubini od 45X, lako možete znati da gledate CNV / sustavnu pogrešnu kartu. Višestruki uzorci poboljšavaju većinu statističkih signala.

Starije metode objedinjuju sve BAM-ove prilikom pozivanja varijanti. To je neophodno jer jedan uzorak s malim pokrivanjem nema dovoljno podataka za oporavak skrivenih INDEL-ova. Međutim, ovu strategiju nije tako lako masovno paralelizirati; dodavanje novog uzorka pokreće ponovno pozivanje, što je također vrlo skupo. Kako danas uglavnom radimo sekvenciranje s visokim pokrićem, stari problem s INDEL pozivima sada nije važan. GATK ima ovaj novi cjevovod za pozivanje jednog uzorka u kojem kasnije kombinirate gVCF-ove po uzorku. Takva strategija kombiniranja uzoraka možda je jedino razumno rješenje kada imate posla sa 100.000 uzoraka.

Takozvano pozivanje varijante temeljeno na haplotipu je zasebno pitanje. Ova vrsta pristupa pomaže pozivanju INDEL-ova, ali nije od velike važnosti za pozivanje s više uzoraka. Također, od tri varijante pozivatelja u vašem pitanju, samo GATK (i Scalpel koje niste spomenuli) koriste sklop u cjelini. Freebayes ne. Platypus to čini, ali samo u ograničenoj mjeri i ne funkcionira dobro u praksi.

Pretpostavljam da ono o čemu stvarno želite razgovarati je pozivanje temeljeno na imputaciji. Ovaj pristup dodatno poboljšava osjetljivost na LD. S dovoljno uzoraka možete izmjeriti LD između dva položaja. Pretpostavimo da na položaju 1000 vidite jedno očitavanje REF-a, a nema očitanja ALT-a; na položaju 1500 vidite jedno očitavanje REF-a i dva očitanja ALT-a. Ne biste nazvali nijedan SNP na položaju 1000 čak i ako imate više uzoraka. Međutim, kada znate da su dva položaja čvrsto povezana i da su dominantni haplotipovi REF-REF i ALT-ALT, znate da će u uzorku koji se ispituje vjerojatno nedostajati ALT alel. LD prenosi signale preko web mjesta i pojačava moć ispravnog pozivanja genotipizacije. Unatoč tome, kako danas uglavnom radimo sekvenciranje s velikim pokrivanjem, metode temeljene na imputaciji imaju samo manji učinak i rijetko se primjenjuju.

Hvala, nekoliko nastavaka (prelomljeno u nekoliko komentara): Gornji odlomak zvuči više poput pozivanja varijanti nego genotipizacije, što je donekle neizvedivo u kontekstu velikih studija s velikim obuhvatom ili kontinuiranog kliničkog usmjeravanja sekvenciranja. Vidite li da se ista logika primjenjuje na genotipizaciju, tj. Uvjetovana postojanjem varijante u lokusu? Ono s čime se borim je razumijevanje, sa strane otkrivanje skupnog učinka, zašto bismo informacijama o AFS-u vjerovali iz pomalo proizvoljne kolekcije uzoraka (genetski gledano) više od velikog resursa uzoraka poput gnomAD?
Ne razumijem zašto "Naivno kombiniranje poziva s jednim uzorkom daje veću stopu pogrešaka." Možete li objasniti ili navesti primjer u kontekstu genotipizacije?
wrt. haplotipskom pozivu ili pozivanju na temelju sklopa to je jednostavno odraz činjenice da se čini da najbolje metode rasuđuju u regiji oko lokusa, ne samo samog lokusa, i ja pokušavam shvatiti gdje se u takvoj metodi mogu koristiti podaci iz više uzoraka . Konkretno, u kontekstu sekvenciranja cijelog genoma s velikom pokrivenošću, gdje više serija uzoraka povremeno stiže na analizu i ne postoji nužno konačna veličina uzorka.
Gornji odlomak govori o odluci o * genotipu * uzorka S - to je genotipizacija. Kada znate učestalost alela na web mjestu (AFS je ovdje pogrešna formulacija) u većoj populaciji, imate boljeg prethodnika. Ovaj je prioritet manje precizan za sve populacije, ali bolji je od prethodnika ribara Wright-a. Sve ove teorije korisne su samo za lowCov. Za highCov vjerojatnost genotipa ima puno veći učinak od podataka o prethodnim podacima i unakrsnim uzorcima.
Za ostalo biste trebali postavljati zasebna pitanja. Udruživanje više tema u ovo jedno pitanje teško je za vas, za mene i za čitatelje.
U svakom slučaju ... Na pozive temeljene na skupštinama već sam rekao da to nema puno veze s pozivima s više uzoraka. O kombiniranju poziva s jednim uzorkom, već sam u gornjem odlomku objasnio da zajedničko razmatranje više uzoraka pomaže genotipizaciji - što znači da neupotreba informacija šteti genotipizaciji. BTW, tijelo vašeg pitanja miješa pozivanje varijanti i genotipiziranje (npr. FDR se odnosi na pozivanje varijanti), što uzrokuje zabunu kod mene i Devona u nastavku.
#2
+2
Devon Ryan
2017-05-17 18:13:19 UTC
view on stackexchange narkive permalink

Prednost za dodatne uzorke vidi se u vašoj točki 1. Vjerojatnost upućivanja poziva varijante funkcija je (1) dubine pokrivenosti koja podupire datu varijantu (zanemarujući razmatranje mapiranja / kvalitete baze) i (2) vjerojatnost postojanja te varijante s obzirom na pozadinsko znanje. Uz malu dubinu i nema pozadinskog znanja, pretpostavit će se da su slabo pokrivene inačice pogreške u nizu. Dodavanje više uzoraka može samo poslužiti za povećanje pozadinskog znanja na poziciji.

Hvala Devone, pitanje je posebno usmjereno na genotipizaciju, tj. Već morate pomisliti da tamo postoji neka varijanta.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...