Pitanje:
Preuzimanje referentnog genoma za Bowtie2
EMiller
2017-06-01 03:56:27 UTC
view on stackexchange narkive permalink

Kako mogu preuzeti referentni genom koji mogu koristiti s bowtie2? Konkretno HG19. Na UCSC-u postoji puno opcija datoteka.

Dva odgovori:
#1
+11
Konrad Rudolph
2017-06-01 14:38:53 UTC
view on stackexchange narkive permalink

Pretpostavljam da je stvar preferencija, ali preporučujem Ensembl gradnje. Odlučite želite li gornji nivo ili primarni sklop i želite li datoteke s maskiranim, ponavljanim ili nemaskiranim datotekama. Shema imenovanja vrlo je jednostavna; kombinacije su opisane u README datoteci, a sve datoteke nalaze se u jednom direktoriju.

Na primjer, ako želite nemaskirani primarni sklop, datoteka za preuzimanje bila bi Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz .

Što se tiče GoldenPath / UCSC , nema potrebe za preuzimanjem i spajanjem zasebnih kromosoma (suprotno onome što je drugi odgovor rekao); možete preuzeti cijelu (najvišu) referencu iz direktorija bigZips ; iz README:

Ovaj direktorij sadrži sklop ljudskog genoma iz veljače 2009. (hg19, GRCh37 Reference Genom Consortium Human Reference 37 (GCA_000001405.1)), kao i ponavljanje napomena i GenBank sekvenci.

Ovdje su u osnovi tri mogućnosti:

  1. chromFa.tar.gz , koji sadrži cijeli genom u jednom kromosomu po datoteci;
  2. chromFaMasked.tar.gz , isto s ponavljanjima maskiranim N ;
  3. hg19.2bit , što je cijeli genom u jednoj datoteci, ali ga je potrebno izvući pomoću uslužnog programa twoBitToFa , koji treba preuzeti zasebno.

U svakom slučaju, uvijek preuzmem referencu i napravim vlastiti indeks za mapiranje, jer mi to omogućuje veću kontrolu; ne bi svi trebali toliko kontrole, ali tada je izrada indeksa ionako prilično brza.

Mislim da ovo pokreće još jedno pitanje "koja je razlika između različitih verzija iste građe genoma?". Odgovor na pitanje trebao bi uključivati ​​razliku između DNA i RNA-seq / analize funkcionalne genomike. U svijetu DNA / varijanti ljudi će se općenito držati onoga što su veliki projekti sekvenciranja / Heng Li zaključio da je "najbolje". U svijetu RNA-seq / funkcionalne genomike važna je pažljiva kuracija genoma, ovisno o pročitanom mapiranju i o tome što podržavaju alati nizvodno (veći set alata znači duži rep manje korištenih alata koji imaju idiosinkratske zahtjeve).
#2
+9
Manuel
2017-06-01 04:21:54 UTC
view on stackexchange narkive permalink

tl; dr: Jednostavno upotrijebite preuzimanja na početnoj stranici Bowtie2 ili Illumina iGenomes. Ili jednostavno raspakirajte i spojite FASTA datoteke pronađene na UCSC goldenpath, a zatim izradite indeks.

Malo duži odgovor:

Dvije su komponente za " genom za čitač mappera "kao što su Bowtie ili BWA.

Prvo morate odabrati stvarni slijed (izdanje genoma kao što je GRCh37 / hg19 ili GRCh38 / hg38). Postoje izdanja zakrpa kao što je GRCh37.p3, gdje se neke baze mogu razmijeniti, a ovisno o izdanju, mogu se dodati neki "nemapirani" loci sadržaji, ali općenito je GRCh37.p1 otprilike isti kao GRCh37.p2, na primjer. Obično se ljudi dogovore o određenoj verziji zakrpe za svako čitanje i koriste je za mapiranje čitanja.

Općenito, postoji okus UCSC hg19 / hg38 itd. I okus NCBI / GRC GRCh37, GRCh38 itd. (slično mišu). UCSC nema izdanja verzija osim izdanja genoma i (prema mojim saznanjima) ne ažurira sekvencu genoma nakon puštanja hg19 FASTA datoteke.

Drugo, morate izgraditi indeksne datoteke za svaki genom. Ovisno o mapperu za čitanje koji koristite, možda će vam trebati ili ne trebati originalne FASTA datoteke za poravnanje. Za Bowtie i Bowtie 2 ne trebaju vam originalne FASTA datoteke nakon izgradnje indeksa jer Bowtie 1/2 može rekonstruirati slijed "u letu" iz indeksnih datoteka.

HTH

Ne znam kako sam uspio propustiti preuzimanje na početnoj stranici leptir mašne. Nadam se da ovo pomaže nekome drugome!


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...