Pitanje:
Kako se točno izračunava "efektivna duljina" koja se koristi u FPKM?
user172818
2017-06-02 00:49:22 UTC
view on stackexchange narkive permalink

Prema ovom poznatom postu na blogu, efektivna duljina prijepisa je:

$ \ tilde {l} _i = l_i - \ mu $

gdje je $ l_i $ duljina prijepisa, a $ \ mu $ prosječna duljina fragmenta. Međutim, obično je duljina fragmenta oko 300 bp. Što ako je prijepis $ l_i $ manji od 300? Kako u ovom slučaju izračunavate efektivnu duljinu?

Srodno pitanje: kako izračunati FPKM gena, kako odabrati transkript? Odabiremo li "kanonski" prijepis (kako?) Ili kombiniramo signale iz svih prijepisa na FPKM na razini gena?

Tri odgovori:
#1
+14
Devon Ryan
2017-06-02 01:03:41 UTC
view on stackexchange narkive permalink

Učinkovita duljina je $ \ tilde {l} _i = l_i - \ mu + 1 $ (imajte na umu R kod na dnu Haroldova blogovskog posta), što u slučaju $ \ mu < l_i $ treba biti 1 . U idealnom slučaju, koristili biste srednju duljinu fragmenta mapiranu na određenu značajku, a ne globalni $ \ mu $, ali to je puno više posla za vjerojatnu korist 0.

Što se tiče odabira određenog prijepisa, idealno bi bilo koristiti metodu poput lososa ili kallisto (ili RSEM ako imate vremena za ubijanje). Inače, vaše su mogućnosti (A) odabrati glavnu izoformu (ako je poznata u vašem tkivu i stanju) ili (B) upotrijebiti "model genskog gena" (zbroj ne-suvišnih duljina eksona) ili (C) uzeti srednji transkript duljina. Nijedna od te tri opcije nema velike razlike ako uspoređujete uzorke, iako su svi inferiorni od lososa / kallisto / itd. metrička.

Zašto su losos i sur. bolje metode? Za određivanje duljine značajke ne koriste proizvoljne metričke vrijednosti koje će biti iste u uzorcima. Umjesto toga, koriste maksimizaciju očekivanja (ili slično, jer barem losos zapravo ne koristi EM) za kvantificiranje pojedinačne upotrebe izoforme. Efektivna duljina gena u uzorku je tada prosjek duljina transkripta nakon ponderiranja njihovog relativnog izraza (da, treba tamo ukloniti $ \ mu $). To se onda može razlikovati između uzoraka, što je vrlo korisno ako imate izoformu koja se prebacuje između uzoraka / grupa na takav način da metode koje AC gore propuste (razmislite o slučajevima kada je prebacivanje na manji prijepis s većim pokrivanjem ... što rezultira pokrivanjem / duljinom u metodama AC koje treba prigušiti).

Ali `\ tilde {l}` je nazivnik. Ako ga postavite na 1, dramatično bi se povećala vrijednost kratkih prijepisa. Ovo mi zvuči opasno ... Također, možete li pojasniti koja je prednost lososa / kallista nad A / B / C? Hvala.
Kratki prijepisi imaju apsurdno visoke FPKM-ove, to je jedna od beskorisnih stvari o FPKM-ima. Ažurirat ću pitanje u vezi s lososom / kallisto / itd.
#2
+10
nomad
2017-06-18 23:04:10 UTC
view on stackexchange narkive permalink

Imam post na blogu koji opisuje efektivnu duljinu (kao i ove različite jedinice relativnog obilja). Kratko je objašnjenje da je ono što ljudi nazivaju "efektivnom duljinom" zapravo očekivana efektivna duljina (tj. Očekivanje efektivne duljine u statističkom smislu). Pojam efektivne duljine zapravo je svojstvo prijepisa, para fragmenata i jednak je broju potencijalnih početnih mjesta za fragment ove duljine na danom prijepisu. Ako uzmete prosjek preslikavanja svih fragmenata u transkript (potencijalno ponderiran uvjetnom vjerojatnosti ovog mapiranja), ova je količina očekivana efektivna duljina transkripta. To se često aproksimira kao jednostavno $ l_i - \ mu $ ili $ l_i - \ mu_ {l_i} $ --- gdje je $ \ mu_ {l_i} $ srednja vrijednost uvjetne distribucije duljine fragmenta (uvjetovano da je duljina fragmenta < $ l_i $ da bi se objasnio točno problem koji ste pokrenuli).

#3
+4
Kristoffer Vitting-Seerup
2017-06-16 16:01:15 UTC
view on stackexchange narkive permalink

Za djelotvornu dužinu molimo pogledajte odgovor na Devons. Imam samo mali dodatak: Kallisto / Salmon / RSEM uključuju sve procjene pristranosti u efektivnu duljinu, što znači da efektivna duljina ne predstavlja samo pristranost dužine ako uzmete vrijednosti iz tih alata (s obzirom na to da su pokrenuti s prirodno omogućenim pristranskim algoritmima ).

Što se tiče dobivanja procjena razine gena, ne biste trebali odabrati određeni prijepis. Umjesto toga, trebali biste izdvojiti / izračunati RPKM / FPKM / TxPM (prijepis na milijun izlaza Kallisto / Salmon / RSEM) za svaki prijepis i sažeti ih da biste dobili procjenu razine gena.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...