Pitanje:
Kako brojači kmera određuju koji je kmer 'kanonski'?
conchoecia
2018-02-04 22:24:36 UTC
view on stackexchange narkive permalink

Kada se broje kanonski kmeri, tj. kmeri u kojima se i napredni i reverzni komplement niza tretiraju kao identični, kako programi brojanja kmera odlučuju koji će kmer koristiti kao kanonski slijed? Rade li sve na isti način?

Da bih istražio načinio sam niz s GAGTGCGGAATACCACTCTT koji sadrži svih 16 mogućih 2mera. Tada sam koristio kmc da shvatim kako određuju koji se kmer koristi. Pojavili su se samo kmeri u donjem stupcu filtered . Dakle, čini se da su KMC-ovi "kanonski" kmeri ti koji se prvi javljaju po abecedi.

  ╔════════════════╦═══ ══╦════════════════════╦══════════╗║ Mogući kilometri ║ RC ║ RC se javlja ranije? ║ filtrirano ║╠════════════════╬═════╬════════════════════╬══ ════════╣║ TT ║ AA ║ DA ║ TA ║║ TG ║ CA ║ DA ║ GC ║║ TC ║ GA ║ DA ║ GA ║║ TA ║ TA ║ ║ CG ║║ GT ║ AC ║ DA ║ CC ║║ GG ║ CC ║ DA ║ CA ║║ GC ║ GC ║ ║ AT ║║ GA ║ TC ║ ║ AG ║║ CT ║ AG ║ DA ║ AC ║║ CG ║ CG ║ ║ AA ║║ CC ║ GG ║ ║ ║║ CA ║ TG ║ ║ ║║ AT ║ AT ║ ║ ║║ AG ║ CT ║ ║ ║║ AC ║ GT ║ ║ ║║ AA ║ TT ║ ║ ║╚════════════ ════╩═════╩════════════ ════════╩══════════╝  

Koriste li svi programi za brojanje kmera iste kanonske kmere, a ako jesu, imate li dokumentaciju koja objašnjava ovaj? Nisam uspio pronaći ništa u novinama za meduze ili kmc .

Jedan odgovor:
user172818
2018-02-05 10:49:05 UTC
view on stackexchange narkive permalink

Kad je k-mer identičan svom obrnutom komplementu, oba su kanonska. Imajte na umu da je kanonski k-mer niz, nebitan za njegov položaj (položaje) u ulaznom nizu. Preciznije, dajte niz $ s $, njegov kanonski niz je $$ {\ rm canonical} (s | h) = \ left \ {\ begin {array} {ll} s & \ mbox {if $ h (s) <h (\ overline {s}) $} \\\ overline {s} & \ mbox {inace} \\\ end {array} \ right. $$ gdje $ \ overline {s} $ je obrnuti dodatak Watson-Cricka od $ s $, a $ h $ proizvoljna heš funkcija. U praksi najčešće koristimo 2-bitno kodiranje kao $ h $. Redoslijed pod takvom hash funkcijom ekvivalentan je leksikografskom redoslijedu.

Navedeno drugačije, svaki program može imati različite kanonske k-mjere s istim ulaznim podacima.
Hvala na komentaru. Moj manje žargon-y prijevod je: "Programi za brojanje Kmera pohranjuju kmere koristeći hash, a ne niz. Hash funkcija daje istu vrijednost za kmer i njegov obrnuti dodatak Watson-Crick-a. Kada program za brojanje kmera ispiše brojeve u ljudima -čitljiv format, prevodi kmerovu hash vrijednost u niz. Hoće li se prikazati jedan niz kmera ili njegov obrnuti komplement, ovisi o programski definiranom "abecednom redu". U slučaju KMC, taj "abecedni red" je {ACGT}. To objašnjava zašto su prijavljeni gornji kmeri.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...