Pitanje:
Kako mogu nazvati strukturne inačice (SV) iz podataka kratkog čitanja za ponovno čitanje na kraju para?
Kamil S Jaron
2017-05-18 19:28:48 UTC
view on stackexchange narkive permalink

Imam referentni genom i sada bih želio nazvati strukturne varijante podataka o ponovnom sekvenciranju cijelog genoma s parom Illumina (umetnite veličinu 700 bp).

Postoji mnogo alata za SV pozive (dolje sam napravio nepotpun popis alata). Postoji i alat za spajanje SV poziva iz više metoda / uzoraka - SURVIVOR. Postoji li kombinacija metoda za otkrivanje SV s optimalnom ravnotežom između osjetljivosti i specifičnosti?

Postoji referentni rad, koji procjenjuje osjetljivost i specifičnost SV poziva pojedinačnih metoda pomoću simuliranog para -završi čitanje. Međutim, nema elaboracija kombinacije metoda.

Popis alata za pozivanje strukturnih varijanti:

Samo ću dodati komentar, jer to nije cjelovit odgovor. Provjerite genom u konzorciju za boce. Sada se raspravlja o tome kako odrediti najboljeg pozivatelja (pozivatelje) i definiciju standardnog skupa poziva za uspoređivanje i testiranje novih pristupa. U svom radu imao sam dobre rezultate sa Socratesom, koji je sada zamijenjen s [GRIDSS] (https://github.com/PapenfussLab/gridss).
@nuin - Nisam znao za Genome u konzorciju boce, izgleda zanimljivo, ali nisam mogao pronaći nijedan javni zapis o raspravi. Imate li poveznicu?
Dva odgovori:
#1
+6
roblanf
2017-05-19 15:18:41 UTC
view on stackexchange narkive permalink

Mislim da će najbolja metoda ili kombinacija metoda ovisiti o aspektima podataka koji se mogu razlikovati od jednog do drugog skupa podataka. Npr. vrsta, veličina i učestalost strukturnih varijanti, broj SNV-a, kvaliteta reference, onečišćenja ili drugi problemi (npr. kvaliteta čitanja, pogreške u nizu) itd.

Iz tog razloga bih uzeo dva pristupa:

  1. Isprobajte puno metoda i pogledajte njihovo preklapanje
  2. Potvrdite podskup poziva različitih metoda mokrim laboratorijskim eksperimentima - na kraju je ovo jedini stvarni način saznavanja točnosti za određeni slučaj.
Što podrazumijevate pod "Provjera valjanosti podskupina različitih metoda"?
Smiješno, pregledni rad (sim podaci) nekako se slaže s vama - sve metode imaju puno lažnih pozitivnih rezultata - bolje je da se preklapaju. Međutim, rad "Integrirana mapa strukturnih varijacija" (Germainov odgovor) učinio je suprotno - dotjerujući svaki softver kako bi smanjio lažne pozitivne rezultate i uzimajući sve.
Pod potvrđivanjem mislim na ulazak i ponovno postavljanje gomile predviđenih varijanti. Sve bioninformatičke metode dat će puno lažnih pozitivnih rezultata (i puno lažnih negativa, iako je negativne probleme teže pronaći). Dakle, jedini istinski način da saznate točnost vaših poziva je dobivanje neovisnih informacija, npr. od resekveniranja.
#2
+3
German Demidov
2017-05-20 13:33:59 UTC
view on stackexchange narkive permalink

U slučaju da ste zaista posvećeni postizanju savršenih rezultata, možete koristiti strategiju opisanu tamo, u papiru za otkrivanje SV-a od 3. faze 1000GP - koristite ove alate, potvrdite svoje pozive IRS testom, objedinite pozive u jedan skup poziva.

Ako iz svog iskustva ne želite potrošiti tisuće ljudskih sati koliko je potrošeno tijekom ove pripreme rada, bolje je koristiti 1 metodu udaljenosti umetanja uparenih krajeva i jednu metodu utemeljenu na dubini čitanja. Svaka od njih pokriva "različita" područja u genomu. (čak i ako se oni preklapaju, otkrivanje uparenih krajeva zahtijeva da se obje SV prelomne točke nalaze unutar regija s dobrom mapiranjem, što nije uvijek slučaj, ali razlučivost metoda dubinske čitanja općenito je niža, upareni krajevi dobro rade za brisanja / tandemske duplikacije / inverzije, ali imaju problema s netandemskim duplikacijama).

Nadam se da pomaže.

Išao sam uz dodatak članka, stvarno je ludo - čini se da se vrlo malo preklapa različitih računalnih metoda, ali stopa lažnih otkrića prilično je dobra za neinverzijske SV-ove (2 - 10%). Međutim, oni su koristili ogroman skup podataka o populaciji, ja imam redoslijed 9 osoba, uključujući referencu.
Da, preklapanje je pomalo malo, ali to je uglavnom zato što različiti alati traže različite vrste CNV-a (kao što sam gore objasnio uspoređujući dubinu čitanja i metode na temelju umetnute udaljenosti). Ovo je najbolja točnost koju možete dobiti. Imajući samo 9 pojedinaca, bolje je isključiti CNV-ove koji se događaju s učestalošću> 1% u populaciji (vidi članak), a zatim upotrijebiti npr. DELLY i cn.mops (samo primjer, nisam siguran je li ovo idealan izbor, ali obojica su sasvim dobra).


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...