Pitanje:
Prijenos genomskih značajki na nove koordinate
BioNaab
2017-11-22 16:43:48 UTC
view on stackexchange narkive permalink

Imam eukariotski genom za koji je nedavno dobiven ažurirani slijed za kromosom. Želim mapirati očitanja RNAseq-a na genomu (i izvesti druge nizvodne analize) i želio bih upotrijebiti najnovije moguće podatke (tako da 'novi' slijed tog kromosoma).

Međutim, prije izvođenja čitanja mapiranja, želio bih ažurirati bilješku svog genoma (GFF3) kako bi se podudarala s 'novim' koordinatama ovog kromosoma.

U osnovi, želio bih prenijeti podatke iz "starih koordinata" GFF3 da bih dobio "nove koordinate" GFF3 i, ako je moguće, sačuvati sve informacije / hijerarhiju datoteke (gen, mRNA, egzon itd.).

  izvorni gen chrXX 222 5942. -. ID = gen_1; Ime = gen_1; duljina = 5720chrXX izvor mRNA 222 5942. -. ID = gen_1.1; Roditelj = gen_1; Ime = gen_1.1; duljina = 5720chrXX izvor exon 222 5794. -. ID = gen_1.1.2; Roditelj = gen_1.1chrXX izvor exon 5889 5942. -. ID = gen_1.1.1; Nadređeni = gen_1.1chrXX izvorni CDS 222 5794. - 1 ID = CDS: gen_1.1.2; Roditelj = gen_1.1; Ime = gen_1.1chrXX izvorni CDS 5889 5942. - 0 ID = CDS: gen_1.1.1; Roditelj = gen_1.1; Ime = gen_1.1  

... treba ažurirati na ...

  chrXX izvorni gen 333 6053. -. ID = gen_1; Ime = gen_1; duljina = 5720chrXX izvor mRNA 333 6053. -. ID = gen_1.1; Roditelj = gen_1; Ime = gen_1.1; duljina = 5720chrXX izvor exon 333 5905. -. ID = gen_1.1.2; Nadređeni = gen_1.1chrXX izvor exon 6000 6053. -. ID = gen_1.1.1; Nadređeni = gen_1.1chrXX izvorni CDS 333 5905. - 1 ID = CDS: gen_1.1.2; Roditelj = gen_1.1; Ime = gen_1.1chrXX izvorni CDS 6000 6053. - 0 ID = CDS: gen_1.1.1; Roditelj = gen_1.1; Ime = gen_1.1  

Pristup koji sam pokušao (ali nisam siguran u to je način za to):

  1. Izdvoji slijed svih značajki koje će se ažurirati na fasta ( bedtools getfasta )
  2. Mapiraj ove sekvence na genom ažuriranim kromosomom ( gmap s --nosplicing jer sekvencije koje mapiramo odgovaraju genomskim regijama).
  3. Stvorite ažuriranu datoteku GFF3. Kad to radim, primjenjujem jedno dopunsko pravilo: ako je značajka mapirana na drugom kromosomu, ali je postojalo i drugo poravnanje na ažuriranom kromosomu, dajte prednost onom koji odgovara istom (ažuriranom) kromosomu.

Koji bi bio pravi način za takvo što? Svaki prijedlog metoda / alata je dobrodošao!

Predložio bih da zalijepite puni kod koji se koristi za svaki korak, kako bi vas ljudi mogli bolje savjetovati.
Dva odgovori:
heathobrien
2017-11-22 17:42:11 UTC
view on stackexchange narkive permalink

Mislim da je standardni način da se to napravi lančana datoteka, a zatim je iskoristiti za liftOver napomena:

  mkdir pslfor i in ../ci3/rm/masked/*.masked; do blat ../ci2.2bit $ i -tileSize = 12 -fastMap -minIdentity = 98 psl / `osnovno ime $ i .fa.masked`.psl -noHead -minScore = 100; gotovo  

Prevedi psl datoteke u lance u lancu direktorija:

  mkdir chainfor i u psl / *. psl; napravite axtChain -linearGap = medium -psl $ i ../ci2.2bit ../ci3/ci3.2bit chain / `basename $ i .psl`.chain; gotovo  

Spajanje kratkih lanaca u duže u direktorij chainMerge:

  mkdir chainMergechainMergeSort chain / *. chain | chainSplit chainMerge stdin -lump = 50  

concat i razvrstaj lance:

  cat chainMerge / *. chain > all.chainchainSort all.chain all.sorted .chain  

Potrebne su informacije o veličinama kromosoma za umrežavanje:

  twoBitInfo ../ci3/ci3.2bit ci3.chromInfotwoBitInfo ../ci2.2bit ci2 .chromInfo  

Umrežavanje: identificiranje otuđivih regija iz lanaca:

  mkdir netchainNet all.sorted.chain ci2.chromInfo ci3.chromInfo net / all.net / dev / null  

Konačno, odaberite ispravna otuđiva područja pomoću mreža, stvarajući datoteku "liftOver":

  netChainSubset net / all.net all. lanac ci2ToCi3.liftOver  

Pokreni liftOver:

  CrossMapy.py krevet ci2ToCi3.liftOver test.hg18.bed  
Hvala na brzom odgovoru, testirat ćete ga i prijaviti.
holmrenser
2017-11-30 14:07:51 UTC
view on stackexchange narkive permalink

Uz odgovor heathobrien, možete pogledati i RATT: Alat za brzi prijenos bilješki. Pristup je u osnovi isti, samo koristeći suvremenije pristupe, na primjer, za poravnavanje cijelog genoma. Koristi nucmer, koji vam prilikom korištenja najnovije verzije (4.0) omogućuje poravnavanje cijelog genoma paralelnim računanjem.

Postoje li resursi koji pokazuju kako to učiniti? Čini se da dokumentacija zaista nije prikladna za korisnika.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...