Pitanje:
Koji je najbolji način za objasniti promjenu sadržaja GC tijekom konstrukcije filogenetskog stabla na osnovi nukleotida?
Iakov Davydov
2017-05-18 23:52:28 UTC
view on stackexchange narkive permalink

Recimo da želim konstruirati filogenetsko stablo na temelju ortoloških nukleotidnih sekvenci; Ne želim koristiti proteinske sekvence da bih imao bolju razlučivost. Te vrste imaju različit sadržaj GC.

Ako koristimo izravan pristup poput maksimalne vjerojatnosti s JC69 ili bilo kojim drugim klasičnim modelom nukleotida, konzervirane sekvence kodiranja proteina udaljenih vrsta sa sličnim sadržajem GC umjetno će se grupirati. To će se dogoditi jer će sadržaj GC uglavnom utjecati na klimave položaje kodona, a slični će izgledati i na razini nukleotida.

Koji su mogući načini da se to prevlada? Do sada sam razmotrio sljedeće mogućnosti:

  1. Korištenje proteinske sekvence. To je naravno moguće, ali gubimo puno informacija na kratkoj udaljenosti. Nije primjenjivo na nekodirajuće sekvence.

  2. Prekodiranje. U ovom pristupu C i T se mogu kombinirati u jedno pirimidinsko stanje Y (G i A se također mogu kombinirati u nekim izvedbama). Ovo zvuči zanimljivo, ali, prvo, ovdje također gubimo neke informacije. Matematička svojstva rezultirajućeg postupka nisu jasna. Kao rezultat, ovaj se pristup ne koristi široko.

  3. Izuzimanjem položaja trećeg kodona iz analize. Ponovno gubimo neke informacije o kratkim udaljenostima. Također, nisu sve sinonimske zamjene specifične za položaje trećeg kodona, pa i dalje očekujemo određenu pristranost. Nije primjenjivo na nekodirajuću sekvencu.

U teoriji bi trebao biti moguć model koji omogućuje pomake u GC-sadržaju. Ovo će biti nepovratni Markov proces. Koliko razumijem, postoje neke računske poteškoće u procjeni vjerojatnosti za takve modele.

Samo bih dodao da mislim da ovdje postoji ključna pretpostavka: "Ne želim koristiti proteinske sekvence da bih imao bolju razlučivost". Ovdje se možemo „bolje“ razgraditi - vjerojatno će biti precizniji, ali i pristraniji, potonji iz svih razloga koje ocrtavate.
U slučaju da biste mogli biti zainteresirani, testirao sam neke od pristupa koje spominjete, plus nekoliko drugih shema prekodiranja (http://dx.doi.org/10.6084/m9.figshare.732758) u sljedećim radovima: http: // arxiv.org/abs/1307.1586 i http://dx.doi.org/10.1093/molbev/msu105
Tri odgovori:
#1
+5
Leo Martins
2017-05-19 03:38:52 UTC
view on stackexchange narkive permalink

Postoje modeli koji uzimaju u obzir heterogenost kompozicije i u okviru maksimalne vjerojatnosti i bajesovskog okvira. Iako postupak supstitucije nije vremenski reverzibilan, proračuni su pojednostavljeni pretpostavljajući da se matrica trenutne brzine može razgraditi u "vektor ravnotežne frekvencije" (nehomogen) i simetrični, stalni tečaj matrica.

Pretpostavljam da su svi vaši prijedlozi također valjani i sjećam se da se kodiranje uspješno koristi za smanjenje pristranosti GC sadržaja (primjeri u gornjim referencama i ovdje).

#2
+3
bli
2017-05-19 14:18:46 UTC
view on stackexchange narkive permalink

Sljedeći članak iz 2004. opisuje način modeliranja promjena kompozicije na drvetu, u Bayesovom okviru: https://doi.org/10.1080/10635150490445779

Piton paket koji implementira ovo ("p4") i poboljšanja dodana tijekom godina dostupan je ovdje: https://github.com/pgfoster/p4-phylogenetics

Za početak , ovdje možete pronaći korisne primjere: http://p4.nhm.ac.uk/scripts.html

Ovo je korišteno u nekoliko velikih filogenetskih analiza.

#3
+1
Michael
2019-04-09 14:49:39 UTC
view on stackexchange narkive permalink

Odgovor je logDet algoritam konstruiran da prevlada GC% klasteriranje.

U to vrijeme kada je osmišljena bila je dostupna / implementirana samo metoda udaljenosti, tako da nije bila vrlo moćna. Ovdje objavljeni postovi impliciraju da je dostupan Bayesov ili ML pristup i oni se čvrsto drže modela.

Izvorna publikacija ovdje

Imate li na umu publikaciju ili web stranicu? Možete li ga povezati?
Gore navedena veza. Vraća se dug put ... do 1996


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...