Pitanje:
Stanje, ograničenja i usporedbe velikih trgovina varijantama
agapow
2017-05-22 21:14:17 UTC
view on stackexchange narkive permalink

Pozadina: Sve nam je potrebniji način za pohranu mnoštva varijantnih podataka povezanih s puno ispitanika: razmislite o kliničkim ispitivanjima i bolničkim pacijentima, tražeći gene koji uzrokuju bolesti ili relevantne gene. Tisuću predmeta bismo započeli, govori se o milijunima na pomolu. S raznim inicijativama genomske medicine, ovo je vjerojatno šira potreba.

Problem: Iako postoji puno platformi, to se polje brzo razvija. Teško je steći osjećaj kako (i jesu li) uspješni i kako se svrstavaju jedni protiv drugih:

  • Što je skalabilno i može li obraditi puno podataka? Kakva ograničenja?
  • Što je robusno, a ne ravnotežna hrpa hakiranih komponenata?
  • Što iza sebe ima veliku zajednicu i što se zapravo široko koristi?
  • Što olakšava pristup i pretraživanje druge usluge? (API-ji naredbenog retka, REST ili softvera)
  • Kakve inačice obrađuju?
  • Kakve se parametre mogu koristiti u pretraživanju?

Rješenja koja sam do sada vidio:

  • BigQ: koristi se s i2b2, ali njegova šira upotreba je nejasna
  • OpenCGA: izgleda najrazvijenije, ali čuo sam pritužbe na veličinu podataka koje ispljuva
  • Korištenje BigQueryja preko Google Genomics db: čini se da nije općenito rješenje
  • Blizanci: preporučeno, ali je li doista skalabilan i dostupan s drugih usluga?
  • SciDb: komercijalni generalni db
  • Dunja
  • LJUBAV
  • Adam
  • Na kojoj god platformi da radi DIVAS & RVD: koja možda nije slobodno dostupna
  • Nekoliko grafičkih / grafičkih rješenja genoma: Mi (i većina drugih ljudi) vjerojatno se trenutno ne bave podacima o genomu grafa, ali je li to moguće rješenje?
  • Osvrnite se na svoje: Često se preporučuje, ali sumnjam da je ovo prihvatljivo rješenje za veliki skup podataka.

Svatko s iskustvom daje pregled ili vodič na visokoj razini za ovaj prostor platforme?

Moja dva centa: koristite MongoDB umotan u jednostavan REST okvir. Omogućuje fleksibilni model i upite i trebao bi se povećati na milijarde zapisa na jednom čvoru. Trenutno radim na FLOSS projektu, ali još nije spreman za proizvodnju.
@woemler Kako se uspoređuje s drugim pristupima? Netko koga poznajem probao je MongoDB ~ prije 5 godina na 1000 g genotipova. Rekao je da je MongoDB bio preko 10 puta sporiji od bcf2 u paralelnim upitima, dok je imao puno veći otisak diska / memorije. To je reklo da je tada bio nov u MongoDB-u i možda to nije radio na optimalan način.
@user172818: Novije verzije MongoDB (3.2+) znatno su brže od verzija od prije nekoliko godina. Usporedio sam ga s drugim besplatnim RDBMS-ima i obično radi jednako dobro ili bolje, posebno za složene prikaze podataka, poput varijantnih poziva.
Je li ovdje važnije pohranjivanje podataka ili je obrada statistike (pomoću Pythona, R, itd.) O podacima važnija?
@macgyver: dobro promatranje. Podaci - navodno će ljudi htjeti rudariti i ispitivati ​​podatke, umjesto da gledaju sažetke statistike i analize.
Jedan odgovor:
#1
+13
user172818
2017-05-23 03:13:53 UTC
view on stackexchange narkive permalink

Epsko pitanje. Nažalost, kratki je odgovor: ne, nema široko korištenih rješenja.

Za nekoliko tisuća uzoraka, BCF2, binarni prikaz VCF, trebao bi dobro funkcionirati. Ne vidim potrebu za novim alatima u ovoj mjeri. Za veću veličinu uzorka, ljudi iz ExAC-a koriste tuču na bazi iskri. Uz genotipove čuva sve bilješke po uzorku (poput GL, GQ i DP). Tuča je barem nešto što se često koristi u praksi, iako je to dosad uglavnom radilo nekoliko grupa.

Jednostavniji je problem pohranjivati ​​samo genotipove. To je dovoljno za većinu krajnjih korisnika. Postoje bolji pristupi čuvanju i ispitivanju genotipova. GQT, koji je razvio tim Gemini, omogućuje brzo ispitivanje uzoraka. Omogućuje vam brzo izvlačenje uzoraka pod određenim konfiguracijama genotipa. Koliko se sjećam, GQT je za redoslijed veličine brži od google genomics API-ja za obavljanje PCA. Drugi alat je BGT. Stvara mnogo manju datoteku i pruža brze i praktične upite za web stranice. Njegov članak govori o ~ 32k uzoraka cijelog genoma. U kampu sam koji vjerujem da su specijalizirani binarni formati poput GQT i BGT brži od rješenja izgrađenih na vrhu generičkih baza podataka. Preporučio bih vam da pogledate ako želite ispitivati ​​samo genotipove.

Intelov GenomicDB problemu pristupa iz drugog kuta. Zapravo ne drži "kvadratni" multi-sample VCF interno. Umjesto toga zadržava genotipove / bilješke po uzorku i stvara spojeni VCF u letu (ovo je moje razumijevanje, što bi moglo biti pogrešno). Nemam iskustva iz prve ruke s GenomicDB-om, ali mislim da bi nešto u ovom retku trebalo biti konačno rješenje u eri 1M uzoraka. Znam da ga GATK4 koristi u nekom koraku.

Što se tiče ostalih s vašeg popisa, Blizanci se možda neće toliko dobro skalirati, pretpostavljam. To je djelomično razlog zašto rade na GQT-u. Posljednji put kad sam provjerio, BigQuery nije ispitivao pojedinačne genotipove. Upitiva samo statistiku web mjesta. Googleovi genomički API-ji pristupaju pojedinačnim genotipovima, ali sumnjam da to može biti izvedljivo. Adama vrijedi pokušati. Ipak nisam pokušao.

+1 za tuču, u ovom trenutku očito Pravi odgovor
Pomoću BigQueryja možete ispitivati ​​pojedine genotipove. U ovom trenutku najveći je izazov pisanje vlastitih upita za analizu.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...