Pitanje:
Zašto ukupna RNA-seq obično daje nisku stopu mapiranja?
kaka01
2017-11-21 16:54:44 UTC
view on stackexchange narkive permalink

Možda je ovo glupo pitanje, ali stvarno se pitam zašto obično dobivamo niske stope mapiranja ako mapiramo ukupne RNA-seq, ali ne i obogaćene poli (A) (posebno za ljude, miši i zebre) skupovi podataka)?

Zar datoteka gesta fasta ne sadrži i ribosomske RNA (što se obilno očekuje u ukupnim RNA-seq bibliotekama)?

Nemam brojeve za ljudska prava sada, ali sjećam se da sam i prije imao niske stope mapiranja i za ljudske podatke. Ono što me u ovom trenutku pokrenulo je zapravo kad sam preslikao podatke o zebrafishima. Dobio sam oko 60% mapiranja u genom i 45% u transkriptom s jednim skupom podataka i 36% - 35% s drugim skupom podataka (imajte na umu da su to iz dvije različite studije i obje su ukupne RNA-sekvence, mapiranje je izvršeno pomoću STAR-a i Losos, koji ima svoje metode).

To se može dogoditi i ako preslikate na sekvencu transkriptoma umjesto na sekvencu genoma, jer može biti puno intronske sekvence iz neprerađene mRNA i iz nenaznačenih nekodirajućih RNA
četiri odgovori:
Tom
2017-11-21 19:40:51 UTC
view on stackexchange narkive permalink

Vjerojatno objašnjenje je da ukupna RNA-Seq sadrži visok udio očitavanja iz ribosomskih RNA. Ribosomske RNA prisutne su u više kopija u genomu, pa mnogi čitaju mapu na više genomskih mjesta i odlagač ih odbacuje. Na primjer, STAR sa zadanim parametrima čitanje smatra nemapiranim ako se preslika na više od 10 genomskih lokusa (ovo ponašanje može se promijeniti s opcijom --outFilterMultimapNmax ). Da bi se potvrdilo je li to stvarno slučaj , mogli biste provjeriti broj čitanja višestrukog mapiranja u datotekama dnevnika alignera.

Pokušao sam povećati broj dopuštenih čitanja s više preslikavanja i zaista se povećao broj čitanja preslikanih na više lokusa, iako neznatno (6,92% na 7,50%). Većina ne-mapiranih kategorizirana je u "prekratke" (u ZVIJEZDI). Imate li ideje što je to (pa, to se odnosi na moje početno pitanje, budući da se to dogodilo i u lososu)?
Izrezujete li adaptere iz očitavanja prije mapiranja? To bi moglo objasniti mnoga "prekratka" čitanja. Također, pogledajte ovaj problem na STAR-ovom Github repo-u: https://github.com/alexdobin/STAR/issues/169
@kaka01 Ako računovodstvo višestrukog mapiranja ne riješi vaš problem, onda jednostavno može biti nešto pogrešno s vašim podacima: na visokokvalitetnim skupovima podataka mapiranje ukupne RNA u genomsku referencu obično bi trebalo donijeti> 80% mapiranih očitavanja. Mnoga "prekratka" mapiranja mogu ukazivati ​​na fragmente RNA. Jeste li izvršili odabir veličine prije sekvenciranja?
Tom: Nije bilo obrezivanja prije mapiranja. @Konrad Biblioteke nisu odabrane po veličini. Vaše objašnjenje ima smisla, poravnavanje nemapiranih očitavanja sa zbirkom rRNA dalo je visoku stopu mapiranja (što je znak da su to stvarno rRNA). Još uvijek nisam siguran zašto ih je STAR klasificirao kao prekratke, možda se jednostavno moram više poigrati s parametrima.
@kaka01 "Prekratko" ovdje jednostavno znači da STAR nije u stanju uskladiti očitanje s visokom kvalitetom: bilo zato što je početno čitanje (nakon obrezivanja) toliko kratko da bi moglo odgovarati referenci gotovo bilo gdje (<~ 14 osnova za nešto poput ljudskog genom), pa imamo nisko povjerenje u ispravno podrijetlo. Ili zato što je STAR, kada se izvodi s `--alignEndsType Local` (koji je zadani), u stanju podudarati samo mali dio čitanja (što onda dovodi do prvog problema).
@kaka01 Budući da niste odabrali veličinu, moguće je da imate velik broj kratkih fragmenata i na kraju uskladite adapter. Možete pokušati obrezati adapter i ponovno mapirati očitanja. To bi moglo pomoći u ublažavanju problema jer je u STAR-u minimalna mapirana duljina ako je djelić ukupne duljine čitanja.
@KonradRudolph u vašem odgovoru kažete da _mješana knjižnica kratkih i dugih RNA izgleda da ne prolazi dobro kroz cijelu duljinu fragmenta_. Nisam bio svjestan ovog problema, znate li zašto je to slučaj? (oprostite na komentiranju ovdje, nemam dovoljno reputacije da bih komentirao vaš odgovor izravno)
@Tom Razgovarajmo izvan mreže (jeste li večeras u RNA klubu? Prisustvovat ću.) Ukratko, nemam potvrde, ali to je ono što promatramo i ne smatram nevjerojatnim s obzirom na kemiju.
Devon Ryan
2017-11-21 20:05:12 UTC
view on stackexchange narkive permalink

Pogotovo za miševe, to se može dogoditi ako iscrpljivanje ribosa nije bilo užasno učinkovito, jer u referentnom genomu nema Rn45s sekvence. To u kombinaciji s brojnim kopijama tRNA, 5S rRNA itd. Što uzrokuje probleme s multimapperima (vidi odgovor od @Tom) može znatno smanjiti stope poravnavanja.

Imajte na umu da ljudski referentni genom sadrži nekoliko kopija 45S (npr. na GL000220.1 i chr21), tako da će se ova očitavanja multimapirati (moguće previše puta). Ne znam za referentni genom zebrafish.

Konrad Rudolph
2017-11-23 16:52:13 UTC
view on stackexchange narkive permalink

Kada sekvenciranje RNA iz netom ubranih tkiva pod odgovarajućim uvjetima, općenito treba očekivati> 50% mapiranih očitavanja. Zapravo, sve što < 80% obično izaziva zabrinutost.

Iz vašeg opisa (u pitanju i komentarima) zvuči kao da su vaši uzorci potencijalno degradirani i stoga zasićeni kratkim fragmentima RNA, bilo zato što ' Imate staro tkivo, gledate uzorke iz okoliša ili zbog nepravilnog rukovanja.

A budući da ne obavljate nikakvo obogaćivanje, podaci o sekvenciranju tada će također biti vrlo zasićeni razgrađenom RNA. Razlog tome je što je RNA-seq (nadam se donekle jednoliko) uzorkovanje vašeg alikvota uzorka: sve u njemu proporcionalno je predstavljeno u podacima RNA-seq. Zato su koraci obogaćivanja važni kako bi se povećao udio bilo koje frakcije koja nas zanima.

Konkretno,

  1. Ukupna RNA uglavnom se sastoji od gena s mnogo kopija : uglavnom rRNA i (mnogo manje) tRNA. Stoga je važnost iscrpljivanja ribozoma ili odabira poli (A).
  2. RNA je općenito nestabilna. Ovisno o sakupljanju uzoraka (porijeklo uzorka koji nije tkivo - starost tkiva prije sakupljanja?), Veliki dio RNA mogao se razgraditi u sitne fragmente, koji se dodatno skraćuju pripremom u knjižnici. Odabirom veličine riješili bismo se ovih neželjenih fragmenata.

Prema mom iskustvu, drugo je pitanje pogoršano na određenim sekvencerima (vidio sam ga na Illumina HiSeq 1500) jer mješovita biblioteka čini se da kratka i duga RNA ne kola dobro kroz cijelu duljinu fragmenta. Dakle, čak i ako imate (mali, ali još uvijek prisutan) udio dugih fragmenata RNA, sekvencer možda neće moći učinkovito sintetizirati cijelu njihovu duljinu. Učinak je taj da postoji proporcionalno više kratkih čitanja nego što je bilo kratkih fragmenata u uzorku.

To možete provjeriti izračunavanjem distribucije veličine umetanja vaših očitavanja nakon obrezivanja adaptera (npr. pomoću picarda ili jednostavnim izračunavanjem dužina čitanja 1 ). Mala očitanja (< ~ 14 nt) s fragmenata razgradnje u osnovi se ne mogu preslikati, jer su prekratka da bi imala određeni identitet. Čak i kad bismo dopustili mapiraču da ih poravna, njihove koordinate bi u osnovi bile slučajne.


1 Ovo djeluje:

  awk 'NR % 4 == 2 {c [length ($ 0)] ++} END {for (i in c) print i, c [i]} 'in.fastq  
ithinkiam
2017-11-22 17:46:40 UTC
view on stackexchange narkive permalink

Ne možete pretpostaviti da su geni rRNA u genomu. Postoji mnogo primjeraka i nisu svi stavljeni na kromosome. Imali smo ovaj problem s podacima o ljudima i mišima za ukupne pripreme RNA. Morate osigurati da napravite mapu protiv cijelog genoma, ne samo kromosoma.

Doista preslikavam na cijeli genom. No, svejedno, pod pretpostavkom da mapirate cijeli genom, jeste li dobili znatno veću stopu mapiranja?


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...