Pitanje:
Kako mogu sustavno otkriti nepoznate sekvence crtičnog koda / adaptora unutar skupa uzoraka?
story
2017-05-31 14:49:30 UTC
view on stackexchange narkive permalink

Često sam preuzimao skupove podataka sa SRA-a, gdje autori nisu spomenuli koji su adapteri obrezani tijekom obrade.

Lokalna poravnanja teže prevladati ovu prepreku, ali čini se pomalo barbarskom.

fastQC povremeno radi na njihovom preuzimanju, ali ponekad ne uspijeva pronaći stvarne sekvence adaptora.

Obično sam na kraju potražio setove koje su koristili i pokušavao pronaći sve moguće crtične kodove.

Postoji li robusniji / učinkovitiji način za to?

Ovo ne odgovara na vaše pitanje, ali nadam se da postoji mogućnost da takve probleme prijavite SRA-u kako bi zatražili od autora da objave nedostajuće podatke.
Zašto smatrate da je lokalno usklađivanje pomalo barbarsko? To bi trebala biti zadana metoda u današnje vrijeme, osim ako ne radite sa sekvenciranjem malih RNA. Sklon sam obrezivanju ispravljača kako bih bio na sigurnoj strani, ali odradio sam puno posla ne trudeći se i oslanjajući se samo na lokalno poravnanje.
četiri odgovori:
#1
+4
ewels
2017-06-02 12:52:08 UTC
view on stackexchange narkive permalink

Spominjete da FastQC "ne uspijeva pronaći stvarne sekvence adaptora" - pretpostavljam da mislite na grafikonu onečišćenja sekvence adaptora. Međutim, parcele sadržaja kmer i sekvence često su korisne čak i kad prva ne uspije. U prošlosti sam ih koristio - ponekad možete jednostavno pročitati sekvencu adaptera od početka parcele sa sadržajem sekvence (ili barem vidjeti koliko baza treba obrezati).

#2
+2
gringer
2017-05-31 15:45:23 UTC
view on stackexchange narkive permalink

Nisam upoznat ni sa jednom postojećom metodom da to učinim, ali evo nekoliko ideja o tome kako se to može učiniti:

Canu ima metodu obrezivanja adaptera koja uključuje traženje odsutnosti preklapanja za čitanja. Ako nema drugih čitanja koja dijele sekvence u određenoj regiji, tada se očitanje razbija na mjestu slabe pokrivenosti, a mali dijelovi se odbacuju. Mogla bi se koristiti metoda poput ove za lov na moguće sekvence adaptora / crtičnog koda očuvanjem kratkih očitavanja.

Druga je mogućnost izvršiti kmer pretragu na početku čitanja i provjeriti ima li kmeri s velikim obiljem mogu se sastaviti i / ili podudarati s postojećim poznatim adapterima ili crtičnim kodovima.

#3
+1
bli
2017-05-31 15:28:26 UTC
view on stackexchange narkive permalink

Ako slučajno znate slijed koji bi u knjižnici trebao biti bogat, možete zarezati njegov početak ili kraj (s označavanjem podudaranja uzorka) i provjeriti dolazi li isti slijed sustavno neposredno prije ili neposredno nakon toga. Ova vrsta vizualnog pregleda može vam pomoći da pronađete adapter.

Na primjer, u prethodnom laboratoriju radili smo na D. melanogaster podaci o sekvenciranju male RNA, a moj kolega je iz prethodnog iskustva s ovom vrstom podataka znao da će sljedeća mala RNA vjerojatno biti obilna: http://flybase.org/reports/FBgn0065042.html

Morali smo ga grepnuti u datoteci fastq da bismo vidjeli mnogo redaka s tim nizom, pored drugog slijeda koji je uvijek bio isti: nepoznati adapter.

Mogu li znati razlog glasanja protiv? Vidio sam kako se ova metoda primjenjuje u slučaju malih RNA-seq, gdje se očekivala jedna vrlo obilna sekvenca. Vizualni pregled izlaza grep-a ove sekvence (s istaknutim uzorkom) dao je vrlo dobar nagovještaj o tome koji je adapter bio (ne-istaknuti dio).
Postavlja se pitanje kako otkriti nepoznate sekvence adaptora, tako da OP neće unaprijed znati za obilne sekvence. To je vrsta poante pitanja ...
@tallphil Ne vidim vezu između nepoznavanja adaptora i nepoznavanja obilnog niza koji se očekuje da će biti prisutan u podacima. Ako se dobro sjećam, u primjeru koji spominjem u svom komentaru, moj kolega je iz prethodnog iskustva s ovom vrstom podataka znao da će sljedeća mala RNA vjerojatno biti u izobilju: http://flybase.org/reports/FBgn0065042.htmlSamo morao ga je grepnuti u datoteci fastq da bi vidio mnogo redaka s ovim nizom, pored drugog slijeda koji je uvijek bio isti: nepoznati adapter.
Zapravo sam samo pročitao vaš post i sad vidim na što ste mislili. Ovo je razumna ideja. Međutim, mislim da ste to loše objasnili u smislu da se čitatelj može zbuniti i da mislite da ste mislili da bi traganje za najzastupljenijim nizom mogao doći do crtičnog koda. Trebali ste navesti da je "obilna sekvenca" u ovom slučaju bila poznata sekvenca nukleinske kiseline za koju bi se očekivalo da adapteri budu povezani na jedan ili oba kraja.
Ah da, isprike - upravo sam to pročitao. Vjerojatno nije pomoglo to što se u izvornom pitanju spominje grepping za očekivane sekvence adaptora, pa mi je ovo bilo svježe :) Žao nam je @bli! Bojim se da glas protiv nije bio od mene pa ga ne mogu povući.
Pokušao sam pojasniti svoja objašnjenja.
#4
+1
Nils
2017-06-02 16:41:16 UTC
view on stackexchange narkive permalink

Uslužni program minion iz skupa alata kraken / reaper može vam biti od pomoći: http://wwwdev.ebi.ac.uk/enright-dev/kraken/reaper/src/ reaper-latest / doc / minion.html

Ovo izgleda točno kao pravi tip alata. Iako šteta, dizajniran je uglavnom za 3 'krajnji adapter. Zanima me biste li mogli preokrenuti sva svoja čitanja i primijeniti ih na 5 'kraju.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...