Pitanje:
Koju verziju ensembl genoma trebam koristiti za poravnanja? (npr. toplevel.fa u odnosu na primary_assembly.fa)
story
2017-06-07 18:23:52 UTC
view on stackexchange narkive permalink

Kad pogledate sve datoteke genoma dostupne od Ensembla. Predstavljate vam hrpu opcija. Koji je najbolje koristiti / preuzeti?

Imate kombinaciju izbora.

Opcije prvog dijela:

  • dna_sm - Ponavlja maskirano (pretvara nukleotide koji se ponavljaju u mala slova)
  • dna_rm - Ponavlja maskirane (pretvara ponavljanja u N)
  • dna - Bez maskiranja

Opcije drugog dijela:

  • .toplevel - Sadrži informacije o haplotipu ( nisam siguran kako se poravnači nose s tim)

  • .primary_assembly - Pojedinačna referentna baza po položaju

Trenutno za analizu obično koristim nemaskirani primarni sklop, pa u slučaju ljudi: Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

Da li to imaju smisla za standardne RNA-Seq, ChIP-Seq, ATAC-Seq, CLIP-Seq, scRNA-Seq, itd ...?

U kojim bih slučajevima preferirao druge genome? Koji alati / poravnavači uzimaju u obzir regije sa softmaskiranim ponavljanjem?

Relevantni post na blogu: http://genomespot.blogspot.ch/2015/06/mapping-ngs-data-which-genome-version.html
Kakva "poravnanja"? Proteini tblastn? Poravnanja cijelog genoma? NGS čitanje poravnanja? Poravnanja na razini gena?
četiri odgovori:
Devon Ryan
2017-06-07 18:29:18 UTC
view on stackexchange narkive permalink

Rijetko postoji dobar razlog za upotrebu teško maskiranog genoma (ponekad za eksploziju, ali to je to). Iz tog razloga koristimo meke maskirane maske, koji imaju samo korist otprilike pokazujući gdje su ponavljanja (to nikada ne koristimo za naše * -seq eksperimente, ali postoji u slučaju da to ikad poželimo).

Za primarni u odnosu na gornji nivo, vrlo malo poravnavača može ispravno obraditi dodatne haplotipove. Ako slučajno koristite BWA, tada bi vam bio od koristi sklop najvišeg nivoa. Za STAR / hisat2 / bowtie2 / BBmap / itd. haplotipovi će vam stvarati probleme zbog pogrešnog povećanja brzine višestrukog dodavanja. Imajte na umu da se niti jedan od njih zapravo ne koristi maskiranjem.

Postoje li poravnači za čitanje tipa grafika de bruijn koji koriste informacije o haplotipu?
Ne za to barem znam.
user172818
2017-06-07 20:04:08 UTC
view on stackexchange narkive permalink

Općenito, trebali biste koristiti primarno sklop s maskiranim ili nemaskiranim sustavom. Poravnavači cijelog genoma među vrstama, posebno oni stariji, moraju znati regije pod maskom; inače mogu biti nepraktično spori za genom sisavaca. Suvremeni poravnavači za čitanje dizajnirani su za učinkovit rad s ponavljanjima i stoga ne trebaju vidjeti meku masku.

Za GRCh38, ipak bih preporučio upotrebu službene gradnje na GRC FTP. Većina će ljudi vjerojatno odabrati "no_alt_analysis_set". Korištenje verzije Ensembl nije preporučljivo zbog imenovanja kromosoma. Za GRCh38 češće koristimo "chr1" umjesto "1". U jednom se trenutku Ensembl zapravo složio da koristi i "chr1", ali pretpostavljam da se to nije dogodilo zbog tehničkih problema.

Što se tiče alternativnih haplotipova, većina poravnjača ne može raditi s njima ; niti jedna varijantna osoba koja poziva ne može iskoristiti prednost ovih sekvenci. Kada se poravnate s referentnim genomom koji sadrži haplotipove s alatom za poravnanje koji ne podržava ove dodatne sekvence, dobit ćete loše rezultate mapiranja.

Chris_Rands
2017-06-07 19:08:52 UTC
view on stackexchange narkive permalink

Koji alati / poravnavači uzimaju u obzir regije mekog maskiranja ponavljanja?

Ako radite čitav genom - poravnavanje cijelog genoma (umjesto poravnavanja čita), tada koristite genom s maskiranim maskama je definitivno najbolje. Alati pogodni za takav zadatak poravnanja velikih razmjera u početnim koracima u potpunosti preskaču označene ponavljanje kako bi se spriječilo nakupljanje lažnih kratkih poravnanja koja mogu imati velik utjecaj na performanse u smislu vremena i upotrebe memorije. Na primjer, LASTZ preskače mala slova tijekom faze sjetve.

Kapeel Chougule
2017-06-07 19:44:42 UTC
view on stackexchange narkive permalink

TOPLEVEL

Ove datoteke sadrže sva područja sljedova označena kao viši nivo u Ensemblschemi. To uključuje kromsome, regije koje nisu sastavljene u kromosome i N podstavljene haplotipske / zakrpljene regije.

Npr.: Koristio sam mekane maskirane sklopove za cjevovode za označavanje genoma poput MAKER, također i one koji nisu maskirani za RNA-seq, ChipSeq analiza

PRIMARNI SKLOP

Primarni sklop sadrži sva područja sekvence najvišeg nivoa, isključujući haplotipove i zakrpe. Ova se datoteka najbolje koristi za obavljanje pretraživanja sličnosti nizova gdje bi sekvence zakrpa i haplotipa zbunile analizu.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...