Pitanje:
Koju jedinicu dobivam na osi y osi metagene profila?
bli
2017-06-09 20:08:41 UTC
view on stackexchange narkive permalink

Počinjem s razvrstanom i indeksiranom bam datotekom ("mapped.bam") koja predstavlja mapiranje malih očitavanja na referentnom genomu i datotekom kreveta ("genes.bed") koja sadrži koordinate niza značajki interesa (recimo da su geni), za koji želim izračunati prosječni profil pomoću programa iz deeptools. Želio bih razumjeti uključene korake kako bih bio siguran što predstavlja okomita os konačnog profila.

Prvi korak: izrada bigwig datoteke

Iz bam datoteke kreiram datoteku bigwig ("mapped.bw") koristeći bamCoverage kako slijedi:

  bamCoverage -b mapped.bam -bs 10 -of = bigwig -o mapped.bw  

Pomoć bamCoverage kaže:

Pokrivenost se izračunava kao broj čitanja po bin, gdje su kante kratki uzastopni prozori za brojanje definirane veličine.

U mom slučaju, kante su duge 10 bp. Moja čitanja su duža od toga.

Za određenu kantu, zadana lektira može:

  1. potpuno preklopiti kantu

  2. preklapati kantu na n bp, n < 10

  3. uopće ne preklapati kantu

Molim vas, ispravite me ako griješim: Pretpostavljam da se očitanje broji kao 1 u slučajevima 1. i 2. i 0 u suprotnom, a pretpostavljam i da se čitanje može računati za nekoliko uzastopnih kanti ako je dovoljno dugo .

Drugi korak: usrednjavanje gena i crtanje

Izračunavam "matricu meta profila" ("mapped_on_genes.gz") koristeći computeMatrix scale-region kako slijedi:

  computeMatrix scale-region \ -S mapped.bw \ -R genes.bed \ --upstream 300 \ --unscaled5prime 500 \ --regionBodyLength 2000 \ --unscaled3prime 500 \ - downstream 300 \ -out mapped_on_genes.gz  

(Postoji parametar -bs čija je zadana vrijednost 10 prema pomoći naredbe.)

Koristim ovo za crtanje korisničkog profila ng plotProfile :

  plotProfile -m mapped_on_genes.gz \ -out mapped_on_genes_meta_profile.pdf  

Dobivam profil s vrijednostima na osi y. U kojim su jedinicama ove vrijednosti?

Pretpostavljam da je sljedeće:

Za uzvodno (300 bp) i interno 5-prime (500 bp), budući da je veličina spremnika bila isto u bamCoverage i computeMatrix , svaka točka na osi x vjerojatno predstavlja prozor od 10 bp, a njena y koordinata je prosjek za regije prisutne u datoteci sloja datoteke odgovarajuće kante u datoteci bigwig, tako da se radi o prosječnom broju čitanja koji se preklapaju u kantu od 10 bp.

Ista stvar na 3-početnoj i nizvodnoj strani.

Za središnju 100 bp dijela, prije usrednjavanja po regijama moralo je biti izvršeno neko skupljanje ili širenje kanti, pretpostavljam usrednjavanjem između susjednih kanti. Dakle, konačna jedinica je i dalje broj čitanja koji se preklapaju sa bin od 10 bp .

A ako koristim veće kante, trebao bih dobiti proporcionalno veće vrijednosti.

Jesam li u pravu?

Jedan odgovor:
Devon Ryan
2017-06-09 22:04:20 UTC
view on stackexchange narkive permalink

Slobodno @ me u pitanjima deepTools-a, jer sam ja primarni programer.

Za određenu kantu, dodijeljen joj je broj čitanja koja se preklapaju, bez obzira na to preklapaju li se za 1 ili 10 osnova. Dakle, čitanje koje se preklapa samo djelomično i jedno preklapanje u potpunosti tretira se isto.

Budući da je vaša datoteka bigWig u jedinicama "poravnanja" (tj. Nije normalizirana 1x), rezultirajući profil također će biti u jedinicama "poravnanja" (tj. profili i toplinske karte nalaze se u onim jedinicama u kojima su ulazne datoteke).

Uzvodno / nizvodno i nerazmjerena područja također su 10 osnovnih spremnika. Imajte na umu da su to tada prosjeci vrijednosti po bazi, jer ovdje spremnici možda neće u potpunosti odgovarati kantama u datotekama bigWig. Crta u grafikonu profila doista je prosjek (prema zadanim postavkama možete odabrati medijan, maksimum, min, itd.) Temeljnih regija za svaku kantu.

Što se tiče skaliranog odjeljka u sredini, vrijednost broj genomskih baza po binu mijenja se tako da će regija imati "length" / (regionBodyLength / binSize) baze. Kao i gore, vrijednost po osnovi se tada prosječuje (ili što god odredite) da se izvede vrijednost po binu. Ovdje se smanjuje duljina ako imate područja bez skale, jer bi se u suprotnom baze brojale dva puta.

Kada napišete "prosjek vrijednosti po bazi" mislite na to da ako se regija 10 bp bin preklapa s 3 bp iz genomske bin `i` (koja ima` m` očitavanja) i 7 bp iz genske bin `i + 1` (nakon čitanja `n`), tada će vrijednost za ovu regiju biti` (3 * m + 7 * n) / 10`?
Točno, prosjek će biti ponderiran količinom preklapanja točno onako kako ste pokazali.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...