Pitanje:
provjera etničke pripadnosti iz bam ili vcf datoteka
719016
2018-01-09 15:41:36 UTC
view on stackexchange narkive permalink

Koji bih alat mogao koristiti za provjeru etničke pripadnosti ljudske datoteke bam ili vcf? Želio bih koristiti rezultate kao provjeru kvalitete kako bih znao da li se određeni uzorak ili skup uzoraka podudaraju s podacima o etničkoj pripadnosti označenim u meta podacima ili ne.

Do sada viđeno:

Primjeri funkcioniraju, ali počevši od datoteke GRCh38 .vcf (iz GATK UG) daje mi pogrešku:

  Pročitajte mytest.vcf: 1 Iznimka pojedinaca u niti "main" java.lang.NumberFormatException: Za ulazni niz: "" na java.lang.NumberFormatException.forInputString (NumberFormatException.java:65) na java.lang.Integer.parseInt (Integer.java:592) na java.lang.Integer.valueOf (Integer.java:766) na Individual.get_Individual (Individual.java:73) na similarity.main (similarity.java:80 )  

Neće odmah raditi s GATK UG .vcf datotekama, treba za ponovnu obradu .bam datoteka pomoću ANGSD cjevovoda:

Ovaj alat radi ne davati provjere etničke pripadnosti već samo provjere genotipa. Pokretanje all-vs-all vcfs vs bams može stvoriti polu-matricu sličnosti.

Jedan odgovor:
Christopher Chang
2018-01-14 00:25:30 UTC
view on stackexchange narkive permalink

Ovdje je glavna poteškoća uporaba GRCh38. Nažalost, unatoč činjenici da su stariji od četiri godine, glavni javni skupovi podataka (1000 Genomi, gnomAD kad su dovoljne frekvencije alela) s oznakom etničke pripadnosti još uvijek nisu dostupni za tu referencu. Potrebno je izvršiti operaciju dizanja ili jednostavno upotrijebiti preklapajuće se rsID-ove i nadati se najboljem.

Pretpostavimo da idete s preklapajućim se rsID-ovima i popis tih rsID-ova, jedan u retku nalazi se u 'rsids. txt '. (Zbog prevrtanja niti između referentnih izrada, možda ćete htjeti ograničiti ovaj popis tako da se svi kodovi alela podudaraju, a također je razumno izbaciti SNP-ove A / T i C / G.) Tada bi funkcionirao sljedeći postupak:

  1. Preuzmi ADMIXTURE ( https://www.genetics.ucla.edu/software/admixture/download.html), poveži ( https: / /www.cog-genomics.org/plink/1.9/) i / ili chr1-chr22 od 1000 genoma faza 3 ( ftp://ftp.1000genomes.ebi.ac.uk/vol1/ ftp / release / 20130502 /) ako ih već nemate.

  2. Upotrijebite plink da biste izvukli preklapajuće se rsID-ove višeg MAF-a iz svake faze 3 od 1000 genoma VCF ("plink --vcf ... --extract rsids.txt --maf 0,05 --make-bed --out ..."), a zatim spojite rezultirajuće skupove datoteka po kromosomima ("plink --merge- list ... --out merged_phase3_subset ").

  3. ADMIXTURE preferira skup podataka s oko 100.000 inačica. Osim ako imate mali popis preklapajućih se rsID-ova (u tom slučaju bolje je koristiti drugu metodu), trebali biste imati i više od toga. plink-ova funkcija obrezivanja LD dobar je način za odabir podskupine za upotrebu ADMIXTURE: "plink --bfile merged_phase3_subset --indep-pairwise 500kb 1 0.2; plink --bfile merged_phase3_subset --extract plink.prune.in --make-bed --out admixture_data "

Podesite prag 0,2 po potrebi kako biste zadržali pravi broj varijanti.

  1. Pokrenite ADMIXTURE u nenadgledanom načinu ("dodatak primjesa_data.bed 5 -j8"; prilagodite parametar -j ovisno o broju procesorskih jezgri). Ovo generira datoteku admixture_data.5.P s frekvencijama alela populacije i datoteku admixture_data.5.Q s uzorcima dodjeljivanja populacije. Provjerite odgovara li datoteka .Q datoteci "superpopulacijama" faze 3 od 1000 genoma.

  2. Prema potrebi pretvorite podatke u plink-format, zadržavajući samo preklapajuće se rsID-ove i 'nadogradnju' na koordinate GRCh37. Provjerite jesu li vaše inačice sortirane u GRCh37 koordinatnom redoslijedu, a poredak alela također se podudara s onim u vašem referentnom skupu podataka ("--a2-allele admixture_data.bim 6 2" tijekom vašeg konačnog --make-bed postupka učinit će trik) ; inače ADMIXTURE neće učiniti pravu stvar. Zatim pokrenite ADMIXTURE u načinu projiciranja ("cp admixture_data.5.P my_data.5.P.in; admixture -P my_data.bed 5"). my_data.5.Q tada će imati procjene etničke pripadnosti koje tražite.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...