Pitanje:
Kako mogu izvući normalizirane vrijednosti broja pročitanih iz rezultata DESeq2?
bli
2017-05-22 19:51:28 UTC
view on stackexchange narkive permalink

Rezultati dobiveni pokretanjem naredbe results iz DESeq2 sadrže stupac "baseMean", za koji pretpostavljam da je srednja vrijednost u uzorcima normaliziranog broja za dati gen.

Kako mogu pravilno pristupiti normaliziranim brojevima?

Pokušao sam sljedeće (nastavljajući s primjerom korištenim ovdje):

  > DDS <- DESeqDataSetFromMatrix (countData = counts_data, colData = col_data, dizajn = ~ geno_treat) > DDS <- DESeq (DDS) procjenu veličine dispersionsgene tiče disperzije estimatesmean-disperzija relationshipfinal disperzija estimatesfitting modela factorsestimating i testing> res <- rezultati (dds, kontrast = c ("geno_treat", "prg1_HS30", "prg1_RT"))  

Evo što imam za prvi gen:

  > res ["WBGene00000001",] $ baseMean [1] 181.7862> mean (assays (dds) $ mu ["WBGene00000001",]) [1] 231.4634> mean (assays (dds )B counts $ [count] 00001 ",]) [1] 232.0833  

assays (dds) $ counts odgovara neobrađenom broju. assays (dds) $ mu čini se da je transformacija ovih brojeva približno čuvajući njihovu srednju vrijednost, ali ta se sredina jako razlikuje od vrijednosti "baseMean", pa to vjerojatno nisu normalizirane vrijednosti.

Dva odgovori:
#1
+11
Devon Ryan
2017-05-22 23:17:38 UTC
view on stackexchange narkive permalink

Normaliziranim brojanjima može se pristupiti s counts (dds, normalized = T) .

Što se tiče toga što baseMean zapravo znači, to će ovisiti o tome hoće li " proširena matrica modela "koristi se ili ne. S obzirom na vaše prethodno pitanje, možemo vidjeti da geno_treat ima hrpu razina, što znači da se prošireni modeli ne koriste. U takvim bi slučajevima baseMean trebala biti sredina osnovnog faktora u geno_treat .

`mean (assays (dds) $ mu [" WBGene00000001 ",] / sizeFactors (dds))` daje nešto vrlo blizu `res [" WBGene00000001 ",] $ baseMean` (181.9139). Vinjeta kaže da `eseji (dds) $ mu` odgovaraju s_j * q_ij gdje je, prema DESeq2 radu, s_j faktor veličine za knjižnicu j, a q_ij je, ako dobro razumijem, procjena količine" proporcionalne koncentracija cDNA fragmenata iz gena u uzorku ". Je li ovo q_ij ono što vi zovete "osnovni faktor"?
Ne baš. S "proširenom matricom modela" presretanje (aka "baseMean") trebalo bi biti približno prosjek normaliziranih brojanja. Za ne "proširene matrice modela" tada jedna razina faktora `group` (" osnovna razina ") postaje presretanje, pa je baseMean tada samo prosjek njegovih brojanja. Osnovna razina je alfanumerički prva razina u R prema zadanim postavkama, ako imate `grp = faktor (c (" WT "," MUT "))` tada se za izračun baseMean koristi grupa `MUT` (pod pretpostavkom da nema proširenog modela matrice).
Ovdje otkrivam da je sredina svih normaliziranih vrijednosti (`sredina (broji (dds, normalizirano = T) [" WBGene00000001 ",])`) zapravo jednaka baseMean (`res [" WBGene00000001 ",] $ baseMean `). To nije slučaj ako izračunam srednju vrijednost samo za datu razinu faktora `geno_treat`.
Pretpostavljam da se tada koristi "proširena matrica modela". Znam da je Michael nekada kodirao u točno onim slučajevima kad bi se to dogodilo, ali možda je od tada generalizirao kod, što je lijepo :)
#2
+6
Konrad Rudolph
2017-05-24 15:17:44 UTC
view on stackexchange narkive permalink

Ovisi što mislite pod pojmom "normalizirano". Kao što je Devon rekao, argument normalized = TRUE za funkciju count daje vam normalizirani count. Međutim, to su "samo" veličine knjižnice normalizirane (tj. Podijeljene s sizeFactors(dds)).

Međutim, kako vinjeta objašnjava, daljnja obrada obično zahtijeva napredniju normalizaciju, kako bi se uzela u obzir heteroskedastičnost brojanja. To se često radi jednostavnim log prebrojavanjem brojanja, ali to ima očite nedostatke (što je trivijalno, što radimo s 0 brojanjem? Zaobilazno rješenje je dodavanje pseudobroja, ali i to je problematično).

DESeq2 nudi dvije različite metode za provođenje rigoroznije analize:

  • rlog - uređeni dnevnik i
  • vst - transformacija koja stabilizira varijancu .

Obično biste koristili bilo koju od ovih za nizvodnu analizu, a ne count (dds, normalized = TRUE) .

da bi moja zbunjenost bila jasna, recimo da idem na bilo koji parametarski ili neparametarski test bilo koje usporedbe gena, mogu li uzeti rlog ili vst? Kao rlog i vst uzimam ga za klasteriranje, pca, korelaciju, wgcna. Pa je li to moguće?
@krushnachChandra Ovisi o testu i usporedbi. DESeq, na primjer, * ne * koristi niti rlog ni vst za svoj test diferencijalnog izraza, jer bi to bilo neprikladno.
da, pročitao sam u radu, na primjer dobio sam klaster i želio sam vidjeti što ako geni imaju značajnu razliku u izražavanju, pa ako moram pokrenuti recimo neparametarski test mogu li ih koristiti? vrijednosti ili moram koristiti one normalizirane brojanjem?
@krushnachChandra U ovom scenariju ne možete koristiti normalizirane vrijednosti, niti jednostavne vrijednosti rlog-a, jer nisu normalizirane za duljinu prijepisa (a time će i duži prijepisi u prosjeku pokazati veći izraz). Umjesto toga možete upotrijebiti nešto poput normaliziranog na faktor veličine [TPM] (https://bioinformatics.stackexchange.com/a/69/29). Također možete prijaviti te TPM-ove, ali za neparametrijski test to ne bi imalo razlike - to je vrsta poante neparametarskih testova.
Dakle, za PCA, klasteriranje mogu koristiti rlog. Nadam se da će me taj dio obavijestiti, pročitao sam vaš post, pa mogu li koristiti vrijednost deseq2 i pretvoriti ih u TPM, ali postoji jedan dio u kojem čak i deseq2 izračunava faktor veličine "dds <- procjenaSizeFactors (dds)" ovo pretpostavljam. Pa mogu li koristiti vašu TPM metodu pretvorbe na deseq2 vrijednostima? ili samo broji.
znatiželjan sam o ovom radu https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4986529/ Slika 6 posljednji okvir "(desno) Srednji izraz dvaju setova gena u svakoj populaciji. Trake pogrešaka predstavljaju SD. CPM, broji se na milijun ", gdje koriste vrijednosti cpm, pretpostavljam da su to rubni izlazi, pa su ovdje tu vrijednost upotrijebili za usporedbu, pa sam se pitao može li se to učiniti s vrijednostima rlog-a? Izvinite na svakodnevnom pitanju o mojem konceptu su vrlo mutni jer nisam statističar ..


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...