Pitanje:
Poboljšajte referentni genom s podacima o sekvenciranju
Scott Gigante
2017-05-18 08:11:37 UTC
view on stackexchange narkive permalink

Imam uzorak DNK za koji znam da se ne podudara sasvim s mojim referentnim genomom - moja kultura potječe iz subpopulacije koja je pretrpjela značajne mutacije od stvaranja reference.

Iz vizualnog pregleda s IGV-om čini se da je prisutan značajan broj SNP-a i SV-a, ali sklop izgrađen u potpunosti od mojih vlastitih podataka o sekvenciranju nije dovoljno kvalitetan za moje potrebe.

Kako mogu izmijeniti ovaj referentni genom tako da odgovara mojem uzorku s novim podacima o sekvenciranju (po mogućnosti s Oxford Nanopore Technologies dugim čitanjima, ali ih također mogu koristiti za skeniranje kratkih očitavanja ako je potrebno), koristeći svoje znanje da je postojeća referenca uglavnom vrlo dobra, bez potrebe za čitanjem čitanja koja su izvorno korištena za konstrukciju referentnog genoma?

Kako ćete ikada biti sposobni zaista vjerovati sklopu ako su ulazni izvori podataka tako raznoliki kao što kažete (značajna količina SNP-a i strukturnih varijanti)?
Postoji li razlog zašto ne želite stvoriti novu referencu? Jedno pokretanje MinION-a daje ~ 5Gbp podataka, što znači da čak i ako barkodujete uzorke, trebali biste imati dovoljno pokrića za izgradnju novoga genoma. Što je cilj projekta? Uredi: pod pretpostavkom da radite s nekim bakterijama
Primjer koji imam na umu je E.coli, da. Isprobali smo montažu pomoću nekoliko različitih alata, a de-novo sklop nije toliko kvalitetan koliko bismo željeli, unatoč tome što imamo tone podataka. Pristupajući ovome s Bayesova gledišta, referentni genom pruža vrlo dobar prior ako bismo ga mogli pametno koristiti.
Dobar je prethodnik, ali ako je cilj projekta otkriti koliko je SV-a akumulirano, sklopom na temelju referenci pristravat ćete na izlazu. Također nije jasno što znači "visoka kvaliteta".
Cilj projekta nije utvrditi gdje su SV, samo mi treba referenca koja točno predstavlja moj uzorak kako bih podatke koristio za nizvodnu analizu (kao set obuke za strojno učenje.) Dakle, visokokvalitetnom referencom , Mislim onaj koji što bolje predstavlja uzorak koji je sekvenciran. Da stvar bude gora, ovo možda nije ona koja ima najveći identitet poravnanja ako postoje sustavne pogreške u nizu, kao u sekvenciranju nanopora!
Pet odgovori:
#1
+4
roblanf
2017-05-18 16:07:14 UTC
view on stackexchange narkive permalink

Jedan pristup ovome jest upotreba podataka koji su vam na raspolaganju za iterativno ažuriranje referentnog genoma. Možete usput zadržati lančane datoteke kako biste mogli pretvoriti koordinate (npr. U gff datotekama) iz izvorne reference u vašu novu pseudoreferencu.

Jednostavan pristup može biti:

  1. Poravnajte nove podatke s postojećim referentnim
  2. varijantama poziva (npr. Samtools mpileup, GATK ili ono što je najbolje za vas)
  3. Stvorite novu referencu koja uključuje inačice iz 2
  4. Isperite i ponovite (tj. Idite na 1)

Dok ovo radite možete pratiti neke jednostavne statistike - npr. broj novih varijanti trebao bi se smanjiti, broj preslikanih očitavanja trebao bi se povećati, a stopa neusklađenosti smanjiti, sa svakom ponavljanjem gornje petlje. Jednom kad se pseudoreferencija stabilizira, znate da ne možete učiniti puno više.

#2
+4
Daniel Standage
2017-05-21 12:43:44 UTC
view on stackexchange narkive permalink

Ovisno o pokrivenosti vaših podataka i složenosti genoma, možete ponovno sastaviti genom de novo ili pokrenuti referentno vođeni (ili referentno potpomognuti) sklop. Čini se da se više naginjete ovom potonjem.

Dostupno je nekoliko alata za montažu vođenih referencom: AlignGraph i Ragout. Oni mogu ili ne moraju biti prikladni, ovisno o organizmu koji vas zanima i vašim vrstama podataka. Na primjer, vrlo je malo vjerojatno da će ovi alati dobro funkcionirati na očitanjima Oxforda Nanoporea koja nisu ispravljena pogreškama pomoću Nanopolish ili Canu -correct.

Mogu dodati ovaj alat, Ragout: https://www.ncbi.nlm.nih.gov/pubmed/24931998, a u radu je dosta korisnih referenci. Čak i u naslovu članka stoji da bi trebao raditi s genomima bakterija, s genomima sisavaca
#3
+3
madhu bioinfo
2017-05-18 10:29:39 UTC
view on stackexchange narkive permalink

Možete koristiti nanopolish pomoću čitanja ilumine. Pogledajte i pilon.

#4
+3
haegglund
2017-05-18 10:38:32 UTC
view on stackexchange narkive permalink

Ako se radi o kratko pročitanom nacrtu sklopa i ako imate dugo čitana (ONT ili Pacbio), pokrenite veze da skelirate genom i zatim iterativno pokrenite Pilon da biste pokušali za poliranje i popunjavanje praznina pomoću kratkog čitanja.

#5
  0
bedeabc
2017-08-05 00:08:29 UTC
view on stackexchange narkive permalink

Kindel (koji sam napisao) može zaključiti na konsenzusu iz poravnanja kratkog čitanja niske kvalitete prema virusnim referencama, a njegovo proširivanje na rad s očitanjima od jedne molekule i većim genomima je na mom popisu obaveza iako pretpostavljam da će ovo trebati redizajn.
Vjerojatno se u ovom slučaju radi o genomu bakterija ili gljivica? Imam i osnovnu verziju C ++, ali daleko je od toga da budem prilagođen korisniku. Svejedno, možda ga vrijedi pogledati - slobodno stupite u kontakt sa svim problemima s kojima se susrećete. Koristio bih Pilon kao što je gore spomenuto



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...