Počinjem s razvrstanom i indeksiranom bam datotekom ("mapped.bam") koja predstavlja mapiranje malih očitavanja na referentnom genomu i datotekom kreveta ("genes.bed") koja sadrži koordinate niza značajki interesa (recimo da su geni), za koji želim izračunati prosječni profil pomoću programa iz deeptools. Želio bih razumjeti uključene korake kako bih bio siguran što predstavlja okomita os konačnog profila.
Prvi korak: izrada bigwig datoteke
Iz bam datoteke kreiram datoteku bigwig ("mapped.bw") koristeći bamCoverage
kako slijedi:
bamCoverage -b mapped.bam -bs 10 -of = bigwig -o mapped.bw
Pomoć bamCoverage
kaže:
Pokrivenost se izračunava kao broj čitanja po bin, gdje su kante kratki uzastopni prozori za brojanje definirane veličine.
U mom slučaju, kante su duge 10 bp. Moja čitanja su duža od toga.
Za određenu kantu, zadana lektira može:
-
potpuno preklopiti kantu
-
preklapati kantu na n bp, n < 10
-
uopće ne preklapati kantu
Molim vas, ispravite me ako griješim: Pretpostavljam da se očitanje broji kao 1 u slučajevima 1. i 2. i 0 u suprotnom, a pretpostavljam i da se čitanje može računati za nekoliko uzastopnih kanti ako je dovoljno dugo .
Drugi korak: usrednjavanje gena i crtanje
Izračunavam "matricu meta profila" ("mapped_on_genes.gz") koristeći computeMatrix scale-region
kako slijedi:
computeMatrix scale-region \ -S mapped.bw \ -R genes.bed \ --upstream 300 \ --unscaled5prime 500 \ --regionBodyLength 2000 \ --unscaled3prime 500 \ - downstream 300 \ -out mapped_on_genes.gz
(Postoji parametar -bs
čija je zadana vrijednost 10 prema pomoći naredbe.)
Koristim ovo za crtanje korisničkog profila ng plotProfile
:
plotProfile -m mapped_on_genes.gz \ -out mapped_on_genes_meta_profile.pdf
Dobivam profil s vrijednostima na osi y. U kojim su jedinicama ove vrijednosti?
Pretpostavljam da je sljedeće:
Za uzvodno (300 bp) i interno 5-prime (500 bp), budući da je veličina spremnika bila isto u bamCoverage
i computeMatrix
, svaka točka na osi x vjerojatno predstavlja prozor od 10 bp, a njena y koordinata je prosjek za regije prisutne u datoteci sloja datoteke odgovarajuće kante u datoteci bigwig, tako da se radi o prosječnom broju čitanja koji se preklapaju u kantu od 10 bp.
Ista stvar na 3-početnoj i nizvodnoj strani.
Za središnju 100 bp dijela, prije usrednjavanja po regijama moralo je biti izvršeno neko skupljanje ili širenje kanti, pretpostavljam usrednjavanjem između susjednih kanti. Dakle, konačna jedinica je i dalje broj čitanja koji se preklapaju sa bin od 10 bp .
A ako koristim veće kante, trebao bih dobiti proporcionalno veće vrijednosti.
Jesam li u pravu?