Pitanje:
Imajte DNK motive duljine 6-12 bp, pokušavajući dobiti rezultate očuvanja
Eric Brenner
2017-05-31 02:18:08 UTC
view on stackexchange narkive permalink

Imam oko 200 kratkih nukleotidnih motiva (duljine 6-12 bp) iz ljudskog genoma i pokušavam vidjeti koliko su očuvani kod kralježnjaka.

Razmišljao sam da bih za svaki motiv trebao napraviti datoteku za krevet koja će navesti sve njegove pojave u ljudskom genomu. Odatle bih mogao mapirati krevete u velike datoteke s rezultatima PhastCons (u osnovi radeći obrnuto od onoga za što je dizajniran softver PhastCons). Zvuči li to kao najbolji pristup?

Zaglavljujem na koraku prelaska s motiva na datoteke kreveta. Pokušao sam pomoću BLAST-a pronaći sve pojave motiva, ali njihova kratka duljina uzrokuje probleme.
Pokušao sam se zajebati s pragom e-vrijednosti, veličinom riječi i parametrima filtra, ali još uvijek ne razumijem bilo kakvih pogodaka.

Postoji li zaobilaženje ovog problema ili bih trebao preispitati cijeli svoj pristup?

Učinio sam nešto slično, ali s popisom dobro definiranih n-mjera umjesto "motiva", svi s istom vrijednošću n. U slučaju da vam ovo može pomoći, kod koji sam koristio za izradu datoteke kreveta je sljedeći: https://bitbucket.org/blaiseli/conservation_mirna_targets/src/20b7a0894b957e69912f637ef2d0493779036029/trie.py?at=master&fileviewer=file-view- defaultKod možda nije super učinkovit u memoriji.
Tri odgovori:
#1
+7
BaCh
2017-05-31 02:53:31 UTC
view on stackexchange narkive permalink

U slučaju da u motivima imate samo ACGT

Kratki motivi zvuče kao da tražite posao kmer brojača. Možete odabrati upotrebu postojećeg softvera ili izradu vlastitog.

  1. Korištenje postojećeg softvera možda je vaš najlakši put. Stariji post iz 2014. vjerojatno će vam dati prvu ideju što je vani: http://homolog.us/blogs/blog/2014/04/07/kmer-counting-a-2014-recap/. Imajte na umu da je nekoliko tamo spomenutih algoritama dobilo nasljednike, pa je vrijedno malo se oko toga iskopati. Mala veličina kmera učinit će većinu upotrebljivim za vaše potrebe.
  2. Budući da je maksimalna veličina vaših kmersa relativno mala (12 nt treba 24 bita, tj., Maksimalno 16,7 milijuna unosa u vašu kmer tablicu), trebali biste moći lako premotati svoj kmer brojeći na bilo kojem jeziku koji volite i na bilo kojem današnjem računalu. Odjeljak o pseudokodu na Wikipediji unosa za kmere dat će vam prve upute za to. Možda bude malo više posla, ali možda i fleksibilnije, ovisno o vašim potrebama.

U slučaju da u svojim motivima imate IUPAC baze (N, W, itd.)

Ne znam nijedan postojeći softver koji radi ono što trebate. Mogao sam zamisliti da kratki motivi čine upotrebu regularnih izraza izvodljivom za ovu vrstu pretraživanja, ali možda griješim. Testiranje ovoga trebalo bi biti jednostavno u jednostavnoj skripti jer svi glavni programski jezici imaju module ili knjižnice za RE. Čak i ako bi trebalo nekoliko sati da se pokrene na vašem skupu podataka, to bi bilo dovoljno za jednokratni izračun.

#2
+3
rightskewed
2017-05-31 03:46:53 UTC
view on stackexchange narkive permalink

Za skeniranje motiva u genomu (ili bazi podataka) koristio bih FIMO koji će vam dati točne lokacije tih motiva u vašem genomu.

Jednom kada utvrdite lokacije , možete koristiti phastCons bigiwig iz UCSC-a za izračunavanje rezultata očuvanja u osnovi. Međutim, imajte na umu da se rezultati phastCons izravnavaju kroz prozore i možda neće biti najbolja metrika ako pokušavate usporediti razine očuvanja na mjestima koja se podudaraju s motivima u usporedbi sa sljedovima koji ih prate. p>

Neko sam vrijeme napisao paket da bih to učinio, uključujući otkrivanje motiva za de-novo. Međutim, to bi moglo biti pretjerano za vaš slučaj upotrebe.

Zapravo sam ranije koristio FIMO, ali za usporedbu motiva protiv PWM-ova (od JASPAR). Možda je glupo pitanje, ali je li prilično lako uspoređivati ​​s genomom nego s bazom podataka PWM-a?
@EricBrenner Možete jednostavno prenijeti datoteku sekvence u web verziju.
#3
+1
Alex Reynolds
2018-03-07 06:10:38 UTC
view on stackexchange narkive permalink

Što se tiče mjesta vezivanja transkripcijskog faktora, u našim smo radovima koristili podatke o očuvanju phyloP umjesto izglađenih rezultata phastCons.

Koristimo BEDOPS bedmap za mapiranje rezultata na više, podstavljenih mjesta povezivanja (oblikovano u BED) za zadani model motiva. Rezultati phyloP-a su WIG datoteke dobivene iz UCSC goldenpath i pretvorene u BED putem wig2bed.

Rezultirajuća matrica intervala mjesta vezanja i njihovi rezultati po bazi mogu se pretvoriti u rangirani toplinska karta ili agregirana za određivanje prosječne očuvanosti baze po modelu motiva.

Iako mjesta za vezanje TF-a urođeno pokazuju visok sadržaj informacija, a time i visoku očuvanost, matrice se mogu dalje sortirati prema bodovnim kartama gustoće oznaka ChIP-seq ili DNaseI-seq.

Ovo vam može pomoći u filtriranju zanimljivih uzoraka s malo šuma i visokog signala, a korisno je kada se matrica prozori, a prozor uključuje područja s malo informacija s nekoliko ostataka visokih informacija izvan glavnog motiva - kao što je primjerice slučaj s CTCF-om.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...