Pitanje:
Koju mjeru treba koristiti u podacima PCA ili RNA-seq? TPM ili broji?
mgalardini
2017-08-18 15:13:13 UTC
view on stackexchange narkive permalink

Pokušavam razumjeti veličinu efekata serije u svojim uzorcima RNA-seq i pitao sam se koje su jedinice izraza prikladnije za crtanje PCA. Razmišljam o counts ili TPM , ali stvarima poput rlog ili vst mogao bi i raditi.

Osim toga, pitam se treba li bilo koju od ovih jedinica prvo pretvoriti u zapisnik, kako bi se izbjeglo veliko obilje transkripata koji pokreću PCA.

Dva odgovori:
Devon Ryan
2017-08-18 15:17:53 UTC
view on stackexchange narkive permalink

tldr: broji se pretvorba dnevnika i TPM-ovi, ali preferiraju se rlog / vst

TPM treba transformirati u zapisnik da bi se dobili korisniji rezultati. Ako već upotrebljavate DESeq2 (s obzirom na referencu rlog i vst , ovo se čini vjerojatnim), onda nastavite i upotrijebite rlog ili vst . To će vam dati razumnije rezultate od broja sirovih proizvoda. Ako ste iz nekog razloga zapeli s brojanjem, prvo upotrijebite normalizirano brojanje kako bi bili barem malo usporediviji, a zatim ih transformirajte u zapisnik tako da vaši visoko izraženi geni ne pokreću sve.

Uredi : Ako, na stranu, znate kakav je batch efekt (npr. datum pripreme za biblioteku), ponekad je zgodno to uključiti u svoj model. Tada možete procijeniti gene koji su zapravo promijenjeni zbog toga, što je ponekad korisno znati (npr. Koji geni mogu biti više / manje skloni razgradnji).

pod "normaliziranim brojanjem" mislite na nešto poput normalizacije kvantile ili uklanjanja skupnog učinka?
@mgalardini normalizirani kvantil ili bilo koja metoda koju više želite (npr. One koje se prema zadanim postavkama koriste DESeq2 / edgeR / limma).
gringer
2017-08-18 16:13:10 UTC
view on stackexchange narkive permalink

PCA najbolje funkcionira kada su ulazni podaci približno normalno raspoređeni po svakoj dimenziji. Bilo bi dobro obaviti neke početne provjere kvalitete podataka kako bi se potvrdilo da je to slučaj (i transformirati podatke na odgovarajući način ako ne) ili barem provjeriti jesu li podaci približno normalno raspoređeni u agregatu.

p> Za gledanje podataka Illumina RNASeq najbolje su mi uspjeli (tj. dali su najnormalniji podaci) sljedeći koraci:
  1. Uklanjanje gena koji su imali mali broj sirovih sastojaka u svim uzorcima
  2. Korištenjem DESeq-ove varijance stabilizirane varijance (koja transformira brojanje u log-like distribuciju)
  3. Dalje normaliziranje VST vrijednosti dijeljenjem s najdužom duljinom transkripta unutar svakog gena (koji ja nazivam VSTPk )

Ovi su koraci malo detaljnije navedeni u našem radu Th2 objavljenom krajem prošle godine:

http: // jem .rupress.org / content / early / 2016/12/01 / jem.20160470 # materijali-metode

S obzirom na to da radim s bakterijama, vjerojatno ću morati preskočiti 3. korak. Hvala na uvidu!
Imate li referencu za tvrdnju da PCA pretpostavlja normalnost, jer to nije nešto s čime sam se već susretao, i zaista, mnogi izvori kažu da nije. npr. https://stats.stackexchange.com/questions/32105/pca-of-non-gaussian-data
Predgovorit ću s "Nisam statističar" i zasnivam to na svojim sjećanjima na razgovore koje sam vodio s biostatičarom s kojim sam radio. [Operacije izvedene za PCA] (http://www.datasciencecentral.com/profiles/blogs/introduction-to-principal-component-analysis) pretpostavljaju da stvari poput srednje vrijednosti i varijance te euklidska udaljenost rade normalno i predvidljivo; krajnje nenormalna raspodjela može utjecati na to. PCA je prilično robustan u odnosu na normalne raspodjele, ali nije u potpunosti imun.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...