Pitanje:
Velika i mala slova u referentnom genomu
Scott Gigante
2017-05-24 08:26:50 UTC
view on stackexchange narkive permalink

Koristim referentni genom za mm10 miša preuzet s NCBI i želio bih detaljnije razumjeti razliku između malih i velikih slova koja čine otprilike jednake dijelove genoma. Razumijem da se N koristi za "teško maskiranje" (područja u genomu koja se ne mogu sastaviti), a mala slova za "meko maskiranje" u regijama koje se ponavljaju.

  1. Što zapravo znači ovo maskiranje znači?
  2. Koliko mogu biti siguran u slijed u tim regijama?
  3. Što predstavlja malo slovo n?
Tri odgovori:
#1
+25
rightskewed
2017-05-24 11:01:33 UTC
view on stackexchange narkive permalink

Što zapravo znači ovo meko maskiranje?

Mnogo se niza u genomima ponavlja. Na primjer, ljudski genom ima (najmanje) dvije trećine ponavljajućih elemenata. [1].

Ovi se ponavljajući elementi maskiraju pretvaranjem velikih slova u mala. Važan slučaj upotrebe ovih mekomaskiranih osnova bit će u pretraživanjima homologije: atatatatatatat će se težiti pojavljivanju i u genomu čovjeka i miša, ali vjerojatno nije homologan.

Koliko mogu biti siguran u slijed u tim regijama?

Kao što možete biti u položajima koji nisu mekano maskirani. Meko maskiranje vrši se nakon određivanja dijelova u genomu koji se vjerojatno ponavljaju. Ne postoji nesigurnost je li određena baza 'A' ili 'G', samo da je ona dio ponavljanja i stoga treba biti predstavljena kao 'a'.

Što znači malo slovo n predstavljaju?

UCSC koristi pretraživač slučajnih ponavljanja i RepeatMasker za potencijalno ponavljanje mekog maskiranja. NCBI najvjerojatnije koristi TANTAN. 'N' ne predstavljaju informacije o sekvenci dostupne za tu bazu. Zamijenjen s "n" vjerojatno je artefakt softvera za ponavljanje maskiranja, gdje "N" maskira s "n" da bi se naznačilo da je i dio genoma vjerojatno ponavljanje.

[1] http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002384

Informativni odgovor, ali mislim da je kontroverzno reći da je ljudski genom "(barem) dvije trećine ponavljajućih elemenata"; metoda P-oblaka koju navodite prilično je popustljiva, a polovica je uobičajenija brojka. A meko maskiranje ne uključuje maskiranje općenito svih ponavljanja, samo prošarane repete i nizove složenosti. Također uvijek postoji nesigurnost oko pozivanja baze i izgradnje sklopa, a posebno za ponavljajuće sekvence, iako je mm10 jedan od najboljih sklopova, naravno ...
#2
+11
Chris_Rands
2017-05-24 13:16:19 UTC
view on stackexchange narkive permalink

Upotreba malih / velikih slova i N / n slova u sekvencama genoma nije u potpunosti standardizirana i uvijek biste trebali provjeriti specifikaciju resursa koji koristite .

Mala slova najčešće se koriste za predstavljanje „meke maskiranih sekvenci“, konvencije koju je popularizirao RepeatMasker, gdje su prošarana ponavljanja (koja pokrivaju transpozone, retrotranspozone i obrađene pseudogene) a nizovi složenosti označeni su malim slovima. Imajte na umu da veća ponavljanja, poput značajnih tandemskih ponavljanja, dupliciranja segmenata i dupliciranja cijelih gena, uglavnom nisu maskirana.

Međutim, postoje i druge namjene za mala / velika slova, na primjer, Ensembl koristili su velika / mala slova da predstavljaju egzonične i intronične sekvence.

N i n nukleotidi mogu predstavljati „teško maskirane sekvence ”, Gdje su prošarani ponovci i nizovi složenosti zamijenjeni s N s. Ali N / n s mogu alternativno predstavljati dvosmislene nukleotide, doista je ovo IUPAC specifikacija.

Također povremeno napominjemo ( iako srećom rijetko) X / x koristi se i za predstavljanje dvosmislenih nukleotida ili "teško zamaskiranih sekvenci".

#3
+4
Kamil S Jaron
2017-05-24 17:29:31 UTC
view on stackexchange narkive permalink
  1. Nukleotidi malih slova obično označavaju meke maskirane sekvence. Kako je točno genom maskiran možete pronaći u često postavljanim pitanjima NCBI:

Jesu li ponavljane sekvence u eukariotskim genomima maskirane?

Ponovljene sekvence u datotekama sekvenci eukariotskog genoma, kako ih je identificirao WindowMasker, zamaskirane su malim slovima.

Mjesto i identitet pronađenih ponavljanja od RepeatMasker također su u zasebnoj datoteci. Ti rasponi mogu se koristiti za maskiranje genomskih sekvenci ako se želi. Međutim, imajte na umu da mnogi manje proučavani organizmi nemaju dobre biblioteke ponavljanja koje bi RepeatMasker mogao koristiti.

  1. IMHO, regije male složenosti su uvijek je vjerojatnije da će se sklopiti nego sekvence visoke složenosti. Međutim, to će biti problem za organizme koji nisu modeli. Pretpostavljam da će pouzdanost softmaskiranih područja genoma miša biti vrlo visoka.

  2. Nema pojma, izgleda kao artefakt.

  3. ol >

    Primjer upotrebe meke maske

    Mapiranje sekvence u referencu obično započinje savršenim podudaranjem sjemenki (podnizova) preslikanih čitanja i referentne sekvence. Mekane maskirane (niske složenosti) regije ne koriste se za podudaranje sjemena, već se koriste samo za produženje poravnanja ako je sjeme bilo u susjednoj regiji. Ova primjena softmaskiranja primijenjena na problem dugog čitanja sklopa opisana je na ovom blogu.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...