Pitanje:
Kako povezati dva nula napuhana signala nalik na posteljinu?
Ian Sudbery
2017-05-17 21:52:04 UTC
view on stackexchange narkive permalink

Ovo se pitanje odnosi na iCLIP, ali isto tako lako mogu biti frekvencije ChIP-seq ili ATAC-seq ili mutacije.

Imam broj iCLIP očitanja u transkriptu i želim znati jesu li signali u korelaciji - to jest, gdje je jedan od njih visok, vjerojatnost je da će drugi biti visok.

Često kada radimo s takvim podacima (npr. ICLIP podacima) znamo da su podaci uglavnom rijetki - to jest da su na većini položaja oba signala nula i to je točno, a također i napuhani nulom - to je mnogo osnova koje bi "trebale" signal nedostaje taj podatak. Dakle, samo izračunavanje Spearmanove korelacije vjerojatno će dati umjetno nisku vrijednost.

Koji bi mogao biti način za procjenu povezanosti? Trebao bih dodati da je cilj procijeniti povezanost obrazaca vezanja unutar gena, umjesto (ili kao i) između gena.

Stvari na koje sam pomislio:

  • Primijenite neku vrstu izravnavanja podataka (npr. pokretna sredina). U oba uzorka uklonite sve baze s 0. Izračunaj kopljanike.
  • Izračunajte prosječnu udaljenost u parovima između svakog očitanja u uzorku jedan i svakog očitanja u uzorku dva. Usporedite to s podacima gdje su očitavanja nasumično odabrana u genima.

U prvom se slučaju uklanjanje svih baza s 0 u oba uzorka čini pogrešnim. Ali ako 99,99% svih baza ima nulu u oba uzorka, onda se to čini neophodnim za Spearmana.

U drugom slučaju, čini se da bi rezultat bio neintuitivan za tumačenje. A također bi to izračunavanje bilo izuzetno računalno intenzivno.

četiri odgovori:
#1
+4
Devon Ryan
2017-05-17 23:04:17 UTC
view on stackexchange narkive permalink

Iskreno, za to bih samo koristio multiBigwigSummary , a zatim plotCorrelation iz deepTools, ali pomalo sam pristran. Tamo bi ideja bila razmotriti svaki gen kao jedinicu (umjesto toga biste mogli koristiti kante za smeće, ali mislim da to ne bi tako lijepo učinilo što želite), naime davanjem alata BED ili GTF datoteku. Tada bi izračunao prosječni signal u svakom genu / transkriptu i mogli biste napraviti korelaciju svog kopljanika. Značajke s 0 u svim uzorcima po želji bi se mogle ukloniti ( plotCorrelation --skipZeros ).

Iako biste sigurno mogli proći cijelih 9 jardi i koristiti usporedbe po bazama, čini se da je to malo pretjeranog i pretpostavljam da to neće donijeti znatno više informacija (pogotovo kad se uzme u obzir dodatno vrijeme).

Pogledajte moje pojašnjenje. - Želim gledati prostorne obrasce unutar gena, a ne između njih.
@IanSudbery Ah, dobro je znati, moj odgovor tada nije primjenjiv.
#2
+3
rightskewed
2017-05-17 23:08:39 UTC
view on stackexchange narkive permalink

Umjesto da radite na osnovnoj razini, vjerojatno biste mogli raditi na recimo broju gena. Kendall-ova tau, metrika redne asocijacije, tada se može koristiti kao odgovarajuća mjera korelacije.

Ako su $ X $ i $ Y $ vaši iCLIP replikati, $ i $ predstavlja gen index i $ (x_i, y_i) $ predstavlja broj mjesta za vezivanje RBP-a u $ X $ odnosno $ Y $ za gen $ i ^ {th} $, Kendallova tau definirana je kao:

$ $ \ frac {\ text {# (podudarni parovi)} - \ text {# (neskladni parovi)}} {n (n-1) / 2} $$

Gdje su bilo koja dva para $ (x_i , y_i) $ i $ (x_j, y_j) $ su podudarni ako:

  • $ x_i > x_j $ AND $ y_i > y_j $

ILI

  • $ x_i < x_j $ AND $ y_i < y_j $

Odgovarajuće su neskladni ako:

  • $ x_i < x_j $ AND $ y_i > y_j $

ILI

  • $ x_i > x_j $ AND $ y_i < y_j $
Nisam siguran zašto je prikazivanje texsa isključeno.
Pogledajte moje pojašnjenje: Zanimaju me obrasci unutar gena, a ne između njih. Je li tau bolji u radu s podacima gdje su mnoga opažanja nula?
Ako je vaš cilj proučavanje uzorka unutar gena, djeluje li vaš drugi uzorak kao replika? Nisam siguran da u potpunosti razumijem što bi ovdje značilo "unutar gena".
Ne, pokušavam utvrditi pokazuju li dva proteina slično unutar uzoraka vezanja gena.
Podrška za Mathjax nije bila aktivirana. Sad je bilo tako da se vaš odgovor ispravno prikazuje.
#3
+3
CloudyGloudy
2017-05-18 01:18:09 UTC
view on stackexchange narkive permalink

Ovisi želite li intenzitete vrhova tretirati binarno (uspoređujući prisutnost / odsutnost vrhova u skupovima) ili kontinuirano (uspoređujući relativne veličine vrhova).

Binarno

Za početak može biti prikladna jednostavna binarna usporedba. Možete koristiti pozivatelja vršnih vrijednosti po vašem izboru da biste identificirali vršne vrijednosti u svakom uzorku prema vašim željenim kriterijima. Tada možete upotrijebiti metriku sličnosti kao što je Jaccard indeks za kvantificiranje razine slaganja između vrhova u dva uzorka.

Jedna potencijalna prepreka je definiranje granica vašeg vrhovi neće biti potpuno izravni. Na primjer, vrh u jednom uzorku može imati 2 preklapajuća vrha u drugom uzorku, po jedan na svakom kraju. Grubo rješenje za to je podijeliti genom u kante (možda oko 100-1000 bp, ovisno o vašoj željenoj razlučivosti). Vrh možete tretirati kao prisutan u kanti ako više od polovice vrha leži u kanti. Na taj se način kante u jednom uzorku mogu izravno usporediti s odgovarajućim kantama u drugom uzorku. Očito je da to nije jedini način da se to učini; postoje i druge odgovarajuće metode.

Kontinuirano

Ako želite tretirati vršne intenzitete kao kontinuirane, možete primijeniti sličnu metodu spajanja uzimajući " rezultat "kante za otpatke da bude prosječni vršni intenzitet na pozicijama unutar te kante. Tada biste mogli baciti sve kante bez vrhova ili samo vrhove niskog intenziteta kroz genom. Tada biste mogli izračunati Spearmanovu korelaciju za preostale kante. Pretpostavljam da će biti teže pronaći snažnu korelaciju kontinuiranih intenziteta zbog količine eksperimentalne varijabilnosti koja je sama po sebi prisutna.

Ako je, nakon što slijedi ove korake, Spearmanova korelacija i dalje "umjetno low "kao što ste predložili, onda je to vjerojatno problem s osnovnim podacima, a ne ukupnom analizom; možda se vaša dva skupa podataka zapravo ne slažu tako dobro.

Zabrinule su me umjetno niske vrijednosti kad je većina opažanja bila 0. Izuzimajući slučajeve kada su opažanja 0 u oba signala, jednostavno se "nisam osjećala" u redu.
@IanSudbery vidim. Dakle, također vas zanima u kojoj se mjeri "ne-vrhovi" međusobno slažu. Tada je jedna mogućnost ne baciti kante u kojima su obje vrijednosti nula i izvijestiti Spearmanovu korelaciju. Međutim, budući da ste rekli da su vrhovi prilično rijetki, vaše nulte vrijednosti otežat će uvid u opseg korelacije između stvarnih pozitivnih vrijednosti. Slažem se da nije "u redu" izuzimati nulte vrijednosti u Spearmanovim korelacijskim ocjenama, ali ako umjesto toga koristite metriku za skupove presjeka (poput Jaccard indeksa), izuzeće nula bilo bi u redu.
Pogled na križanje rješava problem rijetkosti, ali ne i onaj napuhan nulom: signali sa sličnih tragova obično su blizu, ali ne i jedan iznad drugog. Iskreno, počinjem misliti da je vaš drugi prijedlog najbolji što postoji.
To je istina, ali ako koristite pristup binning za definiranje raskrižja umjesto da tražite strogo preklapanje, ovo bi moglo pomoći. (tj. računa se kao sjecište ako ista kanta sadrži vrhove u oba kolosijeka, čak i ako se vrhovi izravno ne preklapaju)
#4
+2
Sasha Favorov
2017-05-31 00:18:23 UTC
view on stackexchange narkive permalink

To mi je jedna od najdražih priča.

Bacite pogled na softver StereoGene, koji je za korelaciju genomskog kolosijeka opisan u pretisku.

Također možete pokrenite MACS ili drugog vršnog pozivatelja i procijenite korelaciju dva intervalska skupa pomoću paketa GenomtriCorr.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...