Pitanje:
Kako prenijeti gff bilješke u genom s opsežnim duplikacijama?
scalefreegan
2017-05-31 16:01:10 UTC
view on stackexchange narkive permalink

Genomi mikroba mogu sadržavati opsežne duplikate. Često bismo željeli prenijeti napomene s označene vrste na onu koja je novo sekvencirana.

Postojeći alati (npr. RATT, LiftOver, Kraken) ili izrađuju određene pretpostavke o tome koliko su vrste blisko povezane ili se ne uspijevaju prenijeti kada se u novom genomu pronađe više podudaranja, posebno ako su nizovi vrlo slični.

Konkretno, imam aplikaciju za sintetsku biologiju u kojoj se geni mogu umnožiti. Slijedom su identični, ali duplicirani su više puta i premještaju se (tj. Ne samo da su susjedni). Niti jedan od gore spomenutih alata ne može prenijeti koordinate napomena na genome s više kopija značajki.

Postoje li u ovom scenariju postojeći alati ili softver koji prenose napomene? Ideje za načine kako to učiniti robusno?

Možete li navesti više detalja? Koji su vaši unosi (npr. Neobrađena čitanja, sklopovi, okviri za otvoreno čitanje)? kakva sekvencija? koji točno rezultat želite? »Nisam siguran da razumijem vaše stajalište o pretpostavkama. Također, LiftOver i Kraken potpuno su različiti alati s različitim primjenama
Bi li to uopće bilo teoretski moguće? Kako možete pretpostaviti da su napomene prenosive ako postoje opsežne duplikacije? Vjerojatno je umjesto toga bolje potražiti homologe.
@terdon mislite na ortologe? homolozi = ortolozi (ne duplicirani) + paralozi (duplicirani)
@Chris_Rands Ne, mislio sam na homologe. Upravo zato što ne možemo znati jesu li orto- ili para- (imam lijep post o razlici između njih dvoje [ovdje] (https://biology.stackexchange.com/a/4964/1306), od strane način), pa sve što prvo možete učiniti je pronaći homologe, a zatim pokušati shvatiti jesu li dovoljno slični da prenose bilo kakve bilješke.
@terdon Vidim da dobro rješavanje ortologa / paraloga naravno nije lako, ali to se može učiniti, ovisno o točnim podacima (ne znam kako izgledaju podaci OP-a), na primjer neki moji kolege održavaju orthodb http: / /www.orthodb.org/
Oh, naravno da se to može! Moja je poanta bila da se čini da je traženje regija homologije (bilo koje vrste) bolji način prijenosa bilješki od pokušaja prevođenja genomskih koordinata između genoma različitih vrsta.
@Chris_Rands: Ulaz bi bili sklopovi, na pr. de novo iz sekvenciranja gDNA. Rezultat bi bio prijenos bilješki (npr. Gff format) s karakteriziranih vrsta na novosakupljeni genom (prijenos koordinata). I LiftOver i Kraken (ovaj, samo da bismo bili sigurni da su na istoj stranici: https://github.com/nedaz/kraken) to rade. LiftOver prikladniji za prijenos koordinata između usko povezanih sekvenci, na pr. različiti sklopovi; Kraken koristi poravnavanje genoma (MUMer, Satsuma) tako bolje za divergentne sekvence.
@terdon: razlikovanje tipa / porijekla homologije prevazišao bi opseg onoga što bih želio postići, ali razlika je važna kako ste istaknuli. također s pravom reći da bi transfer manjih homoloških regija bio bolji, posebno za divergirane vrste. fyi o primjeni: Imam syn bio aplikaciju u kojoj se geni mogu umnožiti. oni su identični u slijedu, ali duplicirani su više puta i premještani (tj. ne u susjedstvu). Nijedan od gore spomenutih alata nije uspio prenijeti koordinate bilješki u genom s više kopija bilješki.
Da, niti bih to očekivao. To sam govorio. Alati za podizanje jednostavno mapiraju koordinate i neće se moći nositi s ovakvim stvarima. Bojim se da ćete to morati učiniti ručno dobivanjem popisa gena / proteina od interesa, pronalaženjem njihovih homologa i prijenosom bilježaka (s očitim upozorenjima oko toga možete li pretpostaviti da se bilješke mogu prenositi). Nažalost, neće biti baš zabavno.
isprike Mislio sam da mislite na kraken: http://ccb.jhu.edu/software/kraken/, tko imenuje ove alate? u svakom slučaju, ovo je sasvim netrivijalno za pravilno raditi. morat ćete izvršiti montažu genoma, predviđanje gena i dodjeljivanje ortologa / paraloga; postoje razni cjevovodi (neki su ovdje pregledani: https://www.ncbi.nlm.nih.gov/pubmed/27043882), ali trebat će im neko vrijeme. alternativno, za nešto "brže i prljavije" prijedlozi @terdon-a čine se razumnima
Dva odgovori:
#1
+5
BaCh
2017-05-31 20:34:48 UTC
view on stackexchange narkive permalink

Postoji jedan vrlo pojednostavljeni način na koji koristim koji bi mogao funkcionirati za ono što radite, sličan je onome što je terdon predložio.

Uzmite de-novo anotaciju mikrobnog genoma alat (ja imam svoj, ali možete koristiti / izmijeniti prokka). Alati poput ovih često prvo predviđaju granice gena (s drugim alatima poput izgubljenog ili svjetlucanja), a zatim pokušavaju dodijeliti funkciju pronađenim genima. Ova se funkcija dodjeljuje često s BLAST-om i drugim alatima ... i tu možete ući i izmijeniti se kako biste učinili ono što vam treba.

Koristim bazu proteina "znanja" o genima koje želim su vrlo strogo označeni kao prvi redak bilješki (npr. u vašem slučaju: označeni genomi). Zbog toga prolazim kroz vrlo stroge parametre identiteta / sličnosti koji se postupno opuštaju.

Npr .: Petlja 0: prijenos bilješki samo sa 100% DNK identiteta, iste duljine. Petlja 1: prijenos bilješki samo sa 100% sličnosti , iste dužine. Petlja 2: prijenos bilješki samo na 99% sličnosti, duljina +/- 1% .... Petlja n: prijenos bilješki samo na 100- (n-1)% sličnosti, duljina +/- (n-1 )%.

U svakoj petlji očito bilježite samo ono što nije bilo označeno u prethodnim petljama.

Nakon toga upotrijebite "normalni" cjevovod za napomene alata da biste označili ostalo.

Ne zahtijeva li to da su prvo pronađeni geni ciljnog genoma? Ili vaš alat može vršiti i de-novo predviđanje gena? (usput zvuči kao vrlo koristan alat, svaka čast!)
Pronalaženje / predviđanje prokariotskih gena više je ili manje riješen problem, postojeći alati rade prilično dobro. Pogledajte http://prodigal.ornl.gov/ i http://prodigal.ornl.gov/ (samo da navedemo dva).
Da, znam, samo sam se iznenadio što to niste spomenuli u svom odgovoru. Ako dobro razumijem, prvi korak bio bi da OP pronađe popis navodnih gena u njihovom novo sekvenciranom genomu, zar ne?
Ispravno. Prokka (http://www.vicbioinformatics.com/software.prokka. , koji koristi neke ideje iz cjevovoda prokka.
#2
+3
terdon
2017-05-31 19:04:23 UTC
view on stackexchange narkive permalink

Mislim da ćete prvo morati identificirati regije homologne regijama definiranim u vašem GFF-u, a zatim prenijeti bilješke. Naravno, pretpostavka je da će i homolog imati istu napomenu koja često nije istinita. Međutim, ne vidim kako to možete učiniti na bilo koji drugi način, jer ne možete koristiti genomske koordinate (a i dalje biste pretpostavljali istu pretpostavku čak i kad biste to mogli) kad su genomi toliko različiti.

Za vrlo pojednostavljeni pristup (što bi moglo biti dovoljno ako su, kako kažete, vaši nizovi gotovo identični), možete učiniti nešto poput:

  1. Prikupiti sekvence od interesa iz vaše već označene vrste.

  2. Upotrijebite alat poput genewise ili exonerate za mapiranje ovih u ciljani genom. Oba alata mogu vratiti izlaz u formatu gff i oba mogu pronaći više pogodaka u ciljnom genomu. Za ono što želite, predložio bih upotrebu vrlo visokog praga sličnosti niza i pokrivenosti upita (gdje pronađena ciljana sekvenca pokriva sve ili većinu upotrijebljene sekvence upita).

    Budući da se radi o mikrobnim genomima i stoga spajanje nije problem, isto biste mogli napraviti i s jednostavnim BLASTn ili tBLASTn ako krenete od proteinskih sekvenci.

  3. U ovom trenutku trebali biste imati popis homologa (od kojih će neki biti ortolozi, a drugi paralozi) i možete prenijeti bilješke niza upita na cilj.

Ponovno naglašavam da ovo čini nevjerojatnu ogromnu pretpostavku: homologni nizovi imaju istu funkciju i mogu automatski biti označeni kao bilo što što ste imali u genomu upita. To će biti istina za mnoge slučajeve, ali bit će i lažno za druge. Pogotovo ako gledate paraloge (gene čija se duplikacija dogodila nakon događaja specijacije, pa su stoga vjerojatno različiti u funkciji).

Međutim, kao što sam već rekao, ovaj bi problem bio potpuno isti čak i ako biste uspjeli prenijeti bilješke samo identificiranjem sintetičkih regija genoma 1 , tako da tu nema velike razlike.


1 Kao što sam rekao u komentarima, ne vidim kako bi to moglo biti moguće. Prema definiciji, ako imate opsežne duplikate, genomske koordinate bit će potpuno različite i nemoguće je preslikati iz jednog genoma u drugi.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...