Pitanje:
Zašto većina poravnavača ne izvodi operaciju CIGAR "X"?
medbe
2017-06-03 04:58:11 UTC
view on stackexchange narkive permalink

Dok sam čitao specifikaciju SAM-a, CIGAR operator "X" predstavlja neusklađenost. Ovo se čini korisnim jer možemo znati gdje se nalaze neusklađenosti bez gledanja na referentni genom. Međutim, mnogi popularni poravnavači poput BWA ne daju "X". Zašto izostavljaju "X"?

Čudno je da su podaci o neusklađenosti pohranjeni u MD oznaci (barem za BWA), pa se čini da je to bila svjesna odluka, a ne stvar jednostavnosti.
Također općenito ne daju `=`.
@DevonRyan Mislim da će se prikazati ili `M` ili` X` / `=` pa ako izostave `X`, automatski će izostaviti` = `
Jedan odgovor:
#1
+8
John Marshall
2017-06-03 23:39:38 UTC
view on stackexchange narkive permalink

SAM format prvotno je imao samo M , I , D , N , S , H i P CIGAR operatori. Pogledajte izvornu specifikaciju SAM-a (ako možete pregledati Apple Pages dokumente) i tablicu 1 u Poravnanje slijeda / format karte i SAMtools (Li et al , 2009). To je bilo u skladu s prethodnim alatima koji su koristili CIGAR nizove, posebno exonerate koji su ih uveli sa samo M , I , i D operatora.

BWA-backtrack napisan je istovremeno s SAM formatom 2008. i 2009. (i objavljen u svibnju 2009.). Njegov ChangeLog pokazuje da je u oznaci MD iz siječnja 2009. iznosio informacije o neusklađenosti i da je MD definiran u SAM specifikaciji vremena ( te da je sintaksa vrijednosti oznake u veljači 2009. donekle varirala). Oznaka MD također je opisana u toj ranoj specifikaciji SAM-a oblikovanoj na v1.0 Pages.

= i X Operatori CIGAR predstavljeni su kasnije u SAM v1.3 kao rezultat ove dugačke niti popisa za slanje samtools-devel. Znakovi korišteni za operatore i početne implementacije u osnovi su bili na mjestu do studenog 2009.

Od tada operateri = / X zapravo nisu preuzeto s M , kao što ste vidjeli. Vjerojatno tome doprinose brojni čimbenici:

  • Njihovo kasnije uvođenje, dugo nakon osnovnog M / I / D operateri i oznaka MD bili su dobro uspostavljeni;
  • moguće je da su specifični za SAM i nedostupni u drugim CIGAR okusima;
  • > Oznaka MD i dalje pruža više informacija - X vam ne govori koje su neusklađene referentne baze bile.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...