Pitanje:
Nedostaju geni i normalizacija izlaza RSEM pomoću EBSeq
J0HN_TIT0R
2017-06-02 03:57:13 UTC
view on stackexchange narkive permalink

Ne ulazeći previše u pozadinu, upravo sam se pridružio laboratoriju kao pripravnik za bioinformatiku dok završavam magisterij iz tog područja. Laboratorij ima podatke iz RNA-seqa koje su prenijeli vanjskim suradnicima, ali jedini je problem što su jedini podaci koje imaju pretprocesirani od tvrtke koja je izvršila sekvenciranje: filtriranje očitavanja, njihovo poravnavanje i stavljanje usklađenih očitavanja kroz RSEM. Trenutno imam izlaz iz RSEM-a za svaki od četiri uzorka koji se sastoje od: gena, transkripta (i), duljine, očekivanog broja i FPKM. Pokušavam dobiti FASTQ datoteke iz sekvenciranja, ali za sada to imam i pokušavam izvući nešto iz toga ako je moguće.

Pronašao sam ovaj članak koji govori o tome kako očekivano brojanje čitanja može biti bolje od broja neobrađenih čitanja kada se analizira diferencijalni izraz pomoću EBSeq; to je mišljenje samo jednog momka, a ono je iz 2014., pa je možda pogrešno ili zastarjelo, ali mislio sam pokušati jer imam očekivanih brojeva.

Međutim, imam samo nekoliko pitanja o pokretanju EBSeq-a na koja ne mogu pronaći odgovore:

1: U izlaznim RSEM datotekama koje imam nisu u svakoj zastupljeni svi geni, njih je oko 80%, ali za one koje nisu, bih li ih trebao ukloniti prije analize s EBSeqom? Pokreće se kada to učinim, ali nisam siguran je li točan.

2: Kako mogu znati koji normalizacijski faktor koristiti prilikom pokretanja EBSeq-a? Ovo je više konceptualno, a ne tehničko pitanje.

Hvala!

Dva odgovori:
#1
+6
Daniel Standage
2017-06-02 05:14:21 UTC
view on stackexchange narkive permalink

Da, taj post na blogu predstavlja mišljenje samo jednog tipa (bok!) i datira sve do 2014. , koja je, otprilike, desetljeća u genomika godina. :-) Inače, postoji poprilična literatura koja raspravlja o poboljšanjima koja očekuje očekivano brojanje čitanja izvedeno iz algoritma maksimizacije očekivanja u odnosu na neobrađeni broj čitanja. Za početak bih predložio čitanje RSEM-ovih radova [ 1] [ 2] .

Ali vaše glavno pitanje govori o mehanici rada RSEM i EBSeq. Prvo, RSEM je izričito napisan da bude kompatibilan s EBSeqom, pa bih bio jako iznenađen ako ne radi ispravno odmah. Drugo, EBSeqova funkcija MedianNorm radila je vrlo dobro u mom iskustvu za normalizaciju broja knjižnica. U skladu s tim, blog koji ste gore spomenuli ima još jedan post koji će vam se možda svidjeti.

No, šalimo se na stranu, ovi su alati doista datirani. Alati RNA-Seq bez poravnanja pružaju poboljšanja reda veličine tijekom izvođenja u odnosu na starije alternative temeljene na poravnanju, sa usporedivom točnošću. Sailfish prvi je na rastućem popisu alata koji sada uključuje losos i Kallisto. Kada započinjete novu analizu ispočetka (tj. Ako ikada dobijete izvorne FASTQ datoteke), stvarno nema dobrog razloga da ne procijenite izraz pomoću ovih puno bržih alata, nakon čega slijedi analiza diferencijalnog izraza s DESeq2, edgeR ili sleuth.


1 Li B, Ruotti V, Stewart RM, Thomson JA, Dewey CN (2010) Procjena ekspresije gena RNA-Seq s nesigurnošću mapiranja čitanja . Bioinformatika , 26 (4): 493–500, doi: 10.1093 / bioinformatics / btp692.

2 Li B, Dewey C (2011) RSEM: točna kvantifikacija prijepisa iz podataka RNA-Seq sa ili bez referentnog genoma. BMC Bioinformatics , 12: 323, doi: 10.1186 / 1471-2105-12-323.

"Zaista nema dobrog razloga da ne procjenjujete izraz pomoću ovih mnogo bržih alata" - osim ako nemate neobrađena čitanja, kao što je slučaj ovdje
Oh wow. S moje strane veliki previd!
Wow, nisam očekivao da ću dobiti odgovor od stvarnog autora! Upotrijebio sam R za obradu okvira podataka u jednu matricu svih očekivanih brojeva za svaki gen svakog uzorka.
Bio sam jednako iznenađen kad sam na StackExchangeu vidio vezu do mog starog bloga! :)
Kao malo sljedeće pitanje, u konačnici pokušavam dobiti promjenu nabora i povezanu p-vrijednost za svaki gen po stanju. Pronašao sam GetMultiFC () kako bi dobio promjene preklopa, ali nejasna mi je točna razlika između promjene nabora i promjene stražnjeg nabora. Mislim da je promjena stražnjeg nabora samo promjena nabora za normalizirane vrijednosti, pa je to ona koju bih trebao koristiti, ali u to nisam siguran. Također, je li moguće dobiti pridružene p-vrijednosti?
#2
+3
gringer
2017-06-02 06:40:29 UTC
view on stackexchange narkive permalink
  1. Uključite sve gene / transkripte u svoju analizu.

Transkript koji nije otkriven mogao bi biti neotkriven pogreškom uzorkovanja (tj. slučajno je promašilo to kod pripreme sekvencera / biblioteke transkript), ili to može biti zato što se transkript ne generira u određenom uzorku. Nerijetko se događa da se geni isključuju kao odgovor na različite biološke čimbenike, tako da gene s nultim brojem ne treba zanemariti. Ne mogu govoriti iz iskustva s EBSeq-om, ali sve dok se paket za analizu broji nula kao "neopažen", a ne kao "odsutan" (i čini relevantne ispravke), bilo bi dobro zadržati ih u njima.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...