Pitanje:
Kako mogu poboljšati dugo čitani sklop s ponavljajućim genomom?
gringer
2017-05-25 16:46:36 UTC
view on stackexchange narkive permalink

Trenutno pokušavam sastaviti genom od parazita glodavaca, Nippostrongylus brasiliensis . Ovaj genom ima postojeći referentni genom, ali je vrlo fragmentiran. Evo nekoliko statistika kontinuiteta za skele trenutnog referentnog genoma Nippo (sastavljeno iz Illumina čita):

  Ukupne sekvence: 29375Ukupna duljina: 294.400206 MbNajduža sekvenca: 394.171 kbKratka sekvenca: 500 bMean Length: 10.022 kbMedian Length: 2.682 kbN50: 2024 sekvence; L50: 33,527 kbN90: 11638 sekvence; L90: 4.263 kb  

Ovaj je genom najvjerojatnije teško sastaviti zbog izrazito ponavljajuće prirode genomskih sekvenci. Te se ponavljajuće sekvence svrstavaju u (najmanje) tri klase:

  1. Tandem ponavlja s jedinicom ponavljanja duljinom većom od duljine čitanja ilumininih sekvencera (npr. 171bp)
  2. Tandem ponavlja s kumulativnom duljinom većom od duljine fragmenata ilumininih sekvencera ili duljine predloška za povezana čitanja (npr. 20kb)
  3. Kompleks (tj. ne- ponavljajuća) sekvenca koja se pojavljuje na više mjesta u genomu

Čini se da se Canu prilično dobro nosi s prve dvije vrste ponavljanja, unatoč obilju repetitivne strukture u genomu. Evo sažetka za jednoznačivanje koji je Canu izradio na jednom od sklopova koje sam pokušao. Primijetite da oko 30% čitanja obuhvaća ili sadrži dugo ponavljanje:

  kategorija čita% značajke dužine čitanja ili analizu pokrivenosti -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- sredina nedostaje 694 0,07 7470,92 + - 5552,00 953,06 + - 1339,13 (loše podrezivanje) sredina -hump 549 0,05 3770,05 + - 3346,10 74,23 + - 209,86 (loše podrezivanje) no-5-prime 3422 0,33 6711,32 + - 5411,26 70,92 + - 272,99 (loše podrezivanje)
no-3-prime 3161 0,30 6701,35 + - 5739,86 87,41 + - 329,42 (loše podrezivanje) niska pokrivenost 27158 2,59 3222,51 + - 1936,79 4,99 + - 1,79 (lako se sastavlja, potencijal za konsenzus slabije kvalitete) jedinstveni 636875 60,76 6240,20 + - 3908,44 25,22 + - 8,49 (lako se sastavlja, savršeno, god) ponavljanje-nastavak 48398 4,62 4099,55 + - 3002,72 335,54 + - 451,43 (potencijal za pogreške konsenzusa, nema utjecaja na sklop) ponavljanje-golub 135 0,01 16996,33 + - 6860,08 397,37 + - 319,52 (teško sastaviti, vjerojatno se neće pravilno ili čak uopće ne sastaviti) span-repeat 137927 13,16 9329,94 + - 6906,27 2630,06 + - 3539,53 (čitati obuhvaća veliko ponavljanje, obično lako za sastavljanje) uniq-repeat-cont 155725 14,86 6529,83 + - 3463,16 (trebao bi biti jedinstveno postavljen, mali potencijal za konsenzusne pogreške, bez utjecaja na sklop) uniq-repeat-dove 28248 2,70 12499 , 99 + - 8446,95 (završit će kontigovi, potencijalno se pogrešno sastaviti) uniq-sidro 5721 0,55 8379,86 + - 4575,71 3166,22 + - 3858,35 (ponovljeno čitanje, s jedinstvenim odjeljkom, vjerovatno loše čitanje)  

Međutim, treća vrsta ponavljanja zadaje mi malo žalosti. Korištenjem gornjeg sklopa, evo parametara kontinuiteta iz sastavljenih kontigova:

  Ukupne sekvence: 3505 Ukupna duljina: 322,867456 MbNajduža sekvenca: 1,762243 MbKratka sekvenca: 2,606 kbMean Length: 92,116 kbMedian Length: 42,667 kbN50: 417 sekvenci; L50: 194.126 kbN90: 1996 sekvence; L90: 35.634 kb  

To nije loš sklop, posebno s obzirom na složenost genoma, ali smatram da bi se mogao poboljšati rješavanjem složenih genomskih ponavljanja na neki način. Otprilike 60 MB kontigova u ovom sklopu međusobno je povezano na ogromnoj mreži (na temelju GFA izlaza iz Canua):

60Mb linked structure from Canu GFA

Regije koje se ponavljaju obično su duže od 500 bp, u prosjeku oko 3 kb, a vidio sam barem jedan slučaj koji se čini kao slijed od 20 kb dupliciran u više regija.

Zadane postavke Canu-a dati najbolje rezultate montaže za nekoliko parametara koje sam isprobao, uz jednu iznimku: obrezivanje. Pokušao sam se malo poigrati s parametrima obrezivanja, i neobično je da pokrivanje od 5X (s preklapanjem od 500bp) daje susjedniji sklop nego s pokrivanjem od 2X (s istim preklapanjem).

Ako je netko zainteresiran da sam pogleda te podatke, nazive FASTQ iz Nippo sekvenciranja mogu pronaći ovdje. Još uvijek sam u procesu prijenosa sirovih signalnih datoteka nanopore, ali one će biti dostupne u sljedećih nekoliko tjedana povezane s projektom ENA PRJEB20824. Tu je i Zenodo arhiva ovdje koja sadrži GFA i kontigove sklopa.

Ima li netko još prijedloga kako bih mogao riješiti ta složena ponavljanja?

Da pojasnimo: želite li računalna rješenja ili ste otvoreni za ponovno redosljeđivanje pomoću određenih tehnika za poboljšanje sklopa?
Računarska rješenja bi bila poželjnija, ali ponovno postavljanje redoslijeda ne dolazi u obzir.
Zbunjen sam pitanjem. Zvuči kao da imate statistiku sa sklopa ilumine, kao i podatke o nanoporima koji nisu dio prijavljene statistike. Dakle, čini se da je očigledan odgovor učiniti npr. Canu + pilon (ili slično) za pokušaj boljeg kombiniranja kombinirajući obje vrste podataka. Ali pretpostavljam da to nije ono što tražiš. Možete li pojasniti?
Ix Canu [ovaj asembler] (https://github.com/marbl/canu)? Na koga izgledaju kontigi skupštine s Iluminom. Čini se da je s nanoPore sklop puno bolji.
Da, mogu koristiti podatke Illumine da ispravim sklop Canu, ali to ne pomaže u rješavanju ponavljanja "tipa 3". Regije su dovoljno slične da se očitavanja ilumine preslikavaju u više točaka u genomu.
Kontrole Illumina su visoke kvalitete (tj. Imaju dobre BUSCO rezultate, što ukazuje na nekoliko varijantskih pogrešaka), ali prilično kratke. Bilo koji njuh ponavljanja i kontig završava. Imam više od nekoliko primjera regija zbog kojih bi Illumina čitala (čak i 10x povezanih čitanja) strahovala.
Čak i ako su Illumina sadržaji visoke kvalitete, to ne znači da dobro rade za takav ponovljeni genom.
Jedan odgovor:
#1
+6
user172818
2017-05-30 04:41:53 UTC
view on stackexchange narkive permalink

Ne možete riješiti 20 kb u blizini identičnih ponavljanja / segdupa s 10 kb čitanja. Sve što možete učiniti je kladiti se u nekoliko pretjerano dugih čitanja koja slučajno obuhvaćaju neke jedinice. Za divergentne primjerke vrijedi pogledati ovaj rad. Koristi Illumina očitanja za identificiranje k-mersa u jedinstvenim regijama i zanemaruje nesvakidašnje k-merove u fazi preklapanja. Članak je rekao da je ova strategija bolja od korištenja standardnih preklapača koje kupujem, ali vjerojatno ne može riješiti ni segdup od 20 kb s pregršt neusklađenosti.

Takvi pristupi temeljeni na neusklađenosti uvijek imaju ograničenja i možda neće raditi za nedavna segdupiranja / ponavljanja. Krajnje rješenje je dugo čitanje, duže od vaših jedinica za ponavljanje / izdvajanje. Čitanja od ~ 100 kb u nedavnom pretisku bit će izmjenjivač igara za vas. Ako vaša ponavljanja od ~ 20 kb nisu tandemska, možda će vam pomoći i 10X-ova ~ 100 kb povezana čitanja.

Već imamo nekoliko čitanja od 100 kb u našim uzorcima, ali izgleda da će nam možda trebati više. Uzorak DNA poslan je u Canberru kako bi ga sekvencirali na tečaju za Nanopore (od strane kolege), pa se nadamo da ćemo iz toga dobiti dobra čitanja.
"Nekoliko" 100kb čitanja neće puno pomoći. Morate primijeniti ultradugi protokol koji se razlikuje od standardnog protokola.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...