Pitanje:
Očekivana raspodjela frekvencije alela SNV-a u stvarnim NGS podacima
German Demidov
2017-05-22 15:47:44 UTC
view on stackexchange narkive permalink

Imam ogromnu količinu ~ 20x ljudskih WGS uzoraka, poravnanih i svih SNV-a koji su pozvani s GATK-om u skladu sa standardnim postavljenim parametrima zametne linije.

Ono što trebam učiniti je modelirati frekvenciju alela SNV-ova ( AF) za različite temeljne brojeve kopija. Bolje da dam primjer igračke. Za određeno genomsko područje X:

Ako je X predstavljen u 2 kopije za određene uzorke, očekujemo da je AF super-blizu 1 ili 0,5.

Ako je X predstavljen u 4 kopije, očekujem da će bilo koji AF biti blizu 0,25, 0,5, 0,75 ili 1.

Naravno, u te svrhe mogu koristiti Binomnu distribuciju . Međutim, kao što znamo, raspodjela nije baš binomna zbog pristranosti poravnanja / sekvenciranja, a medijan AF za sve heterozigotne SNV-e bliži je 0,48, ali ne i 0,5, kao što bismo očekivali. Još nešto: za velike brojeve primjeraka očekujemo veće pokrivenosti. A GATK koristi nekoliko filtara, pa pretpostavljam da nećemo vidjeti SNV-ove s AF-om poput 0,125 (u slučaju da segment ima ploidiju 8) - unatoč super velikoj pokrivenosti tamo GATK može odbiti ovaj "čudni" AF.

Pročitao sam nekoliko članaka koji modeliraju SNV-ove AF (i slažem se da je beta-binomna raspodjela možda prilično točna), međutim, nisam bio dovoljno uvjeren da bih trebao koristiti određeno modeliranje. Iz vašeg iskustva (u slučaju da pozivate SNV-ove), koju bih probabilističku distribuciju trebao koristiti? Kako bih trebao procijeniti parametre za svakog od njih (trebam li očekivati ​​za CN4 AF = 0,5 češće od AF = 0,75 ili obrnuto, kako to procijeniti iz podataka)?

UPD: jak> Radi jednostavnosti možemo reći da imamo puno prethodno identificiranih regija s ploidnošću koja se razlikuje od CN2, a ove koordinate mogu preuzeti od ovdje. Tako da mogu koristiti više ili manje "nadzirano" učenje za procjenu parametara.

Jedan odgovor:
#1
+4
winni2k
2017-06-04 06:17:18 UTC
view on stackexchange narkive permalink

Nemam dovoljno iskustva da odgovorim koju vjerojatnosnu raspodjelu treba koristiti.

Međutim, ovo pitanje također postavlja pitanje kako procijeniti parametre raspodjela. Ako se odabere binomna raspodjela, tada je vjerojatno konačan članak Henga Lija pod naslovom "Statistički okvir za pozivanje SNP-a, otkrivanje mutacija, mapiranje asocijacija i genetičkih parametara populacije iz podataka sekvenciranja" 1. Odjeljak 2.3.1 tog rada opisuje EM algoritam za procjenu frekvencija alela iz više uzoraka pod pretpostavkom Hardy-Weinbergove ravnoteže za proizvoljnu, ali konstantnu ploidiju.

U idealnom slučaju čak i najpopularniji alati poput GATK također koriste EM algoritam za zapis kako bi procijenili vjerojatnost, dok samtools koristi EM i Brentovu metodu. Stvarni problemi s postavljanjem ploidy apriori, ali za sada nisam svjestan alata koji procjenjuju ploidiju, a zatim te podatke koriste za SNV pozive i saznaju AF. Znam da alati poput ABSOLUTE imaju moć procjene ploidnosti, ali tada ih morate koristiti kao ulaz za kasnije SNP pozive. Ali pretpostavljam da većina alata obično radi s pretpostavkom s ploidno postavljenim apriori. To mi sada pada na pamet.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...