Pitanje:
S obzirom na VCF ljudskog genoma, kako mogu procijeniti kvalitetu u odnosu na poznate SNV-ove?
ShanZhengYang
2017-05-21 02:49:51 UTC
view on stackexchange narkive permalink

Tražim alate za provjeru kvalitete VCF-a koji imam od ljudskog genoma. Želio bih provjeriti VCF u odnosu na javno poznate inačice u drugim ljudskim genomima, na pr. koliko je SNP-a već u javnim bazama podataka, jesu li umetanja / brisanja na poznatim pozicijama, distribucija duljine umetanja / brisanja, ostali SNV-ovi / SV, itd.? Pretpostavljam da postoje resursi iz prethodnih projekata za provjeru poznatih SNP-ova i InDela prema ljudskim subpopulacijama.

Koji resursi za to postoje i kako to mogu učiniti?

Tri odgovori:
#1
+7
Kevin
2017-05-21 19:48:39 UTC
view on stackexchange narkive permalink

Da biste postigli (barem neke) svoje ciljeve, preporučio bih prediktor učinka varijante (VEP). To je fleksibilni alat koji pruža nekoliko vrsta bilješki na ulaznoj .vcf datoteci. Slažem se da je ExAC de facto zlatni standardni katalog za ljudske genetske varijacije u kodirajućim regijama. Da biste vidjeli raspodjelu frekvencija varijanti prema globalnoj subpopulaciji, pored 1000 genoma provjerite "Frekvencije alela ExAC". VEP ExAC

Izlaz u web pregledniku: VEP_ExAC_res

Ako preuzmete označeni .vcf, frekvencije bit će u polju INFO :

  ## INFO = <ID = CSQ, Number =., Type = String, Description = "Bilješke o posljedicama iz Ensembl VEP-a. Format : Allele | Posljedica | IMPACT | SIMBOL | Gen | Vrsta_tipa | Značajka | BIOTIP | EXON | INTRON | HGVSc | HGVSp | cDNA_pozicija | CDS_pozicija | Protein_pozicija | Amino_kiseline | Kodoni | Postojeće_varijacija | UDALJENOST | SIGURNOSNA_SIGURA | SIGURNOSNA_SIGURA | SIGURNOSNA_SIGURA | SIGURNOSNA_SIGURA | SIGURNOSNA_SIGURA | SIGURNOSNA_SIGURA | SIGURNOSNA_SIGURA | SIGURNOSNA_ZAVEZA_ZAVEZA_ZAVEZA_ZAVEZA | PolyPhen | AF | AFR_AF | AMR_AF | EAS_AF | EUR_AF | SAS_AF | AA_AF | EA_AF | ExAC_AF | ExAC_Adj_AF | ExAC_AFR_AF | ExAC_AMR_AF | ExAC_EAS_AF | ExAC_FIN_AF | ExAC_NFE_AF | ExAC_OTH_AF | ExAC_SAS_AF | CLIN_SIG | somatskih | fenomenima | MOTIF_NAME | MOTIF_POS | HIGH_INF_POS | MOTIF_SCORE_CHANGE 

Prethodno spomenuti Annovar također može komentirati frekvencije alela ExAC. Na kraju, treba spomenuti i najnoviji resurs cijelog genoma, gnomAD.

Vrlo dobar prijedlog. Koliko razumijem, ExAC drži cca. 123K exome i gnomAD sada ima oko 15K genoma
Sve su to izvrsni odgovori, ali kako se čini da je ovo omiljen u zajednici, označit ću kao "odgovor". Ali budući čitatelji: molim vas, pogledajte ostale!
#2
+5
Kamil S Jaron
2017-05-21 06:12:08 UTC
view on stackexchange narkive permalink

Najveći katalog varijanti kodiranja proteina definitivno je ExAC (> 65.000 osoba). Također su objavili blogpost u kojem opisuju kako reproducirati figure u radu (dobar je početak kako se upoznati sa skupom podataka).

Za cjelinu -genome varijante Osvrnuo bih se na podatke stvorene projektom 1000 genoma (posljednje izdanje ima više od 3 tisuće pojedinaca). Integrirani varijantni skupovi poziva mogu se preuzeti iako portal i katalog SV-a možete pronaći ovdje.

U ovom papir (također projekt 1000 genoma) govore o nepreciznom postavljanju SV-a od strane SV pozivatelja. Imao bih to na umu radi usporedbe vašeg genoma s poznatim varijantama.

Hvala na pomoći. Pomalo me zbunjuje hiperveza u `guide` koja opisuje potrebnu perl skriptu. Koristeći ovu skriptu, ovo će stvoriti VCF od agregiranih ~ 2.5K pojedinaca?
Skripta je dio [VCFtools] (http://vcftools.github.io/), oni je povezuju s priručnikom paketa umjesto izvornog koda, očekuje se da instalirate paket, a ne samo da preuzmete skriptu. Također sam otkrio da su pokrenuli portal na web stranici pa sam uredio odgovor.
#3
+4
nuin
2017-05-21 10:18:16 UTC
view on stackexchange narkive permalink

Najbolje je da koristite programe koji vam pružaju potpunu napomenu varijanti prisutnih u vašem VCF-u. Dva su primjera snpEff i Annovar. Ovi programi rade na poznatim varijantama i smatraju se različitim izvorima te vam pružaju informacije o svakoj stavci u vašoj datoteci koje možete filtrirati nakon pokušaja razumijevanja učinaka svake varijante.

Sada postoji pristup gnomAD-u s ANNOVAR-om, što je prilično cool.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...