Pitanje:
Postoje li alternative RepBase za bilješke ponavljajućih elemenata na cijelom genomu?
Konrad Rudolph
2017-06-01 16:11:10 UTC
view on stackexchange narkive permalink

Koristim biblioteke RepBase zajedno s RepeatMaskerom za dobivanje bilješki ponavljajućih elemenata širom genoma, posebno za prenosive elemente.

To djeluje dovoljno dobro i čini se biti de facto standard na terenu.

Međutim, postoje dva problema s upotrebom RepBase-a, zbog čega sam (i drugi) tražio alternative (do sada bez uspjeha):

  1. RepBase nisu otvoreni podaci. Njihov ugovor o akademskoj licenci uključuje klauzulu koja izričito zabranjuje širenje podataka izvedenih iz RepBase . Nejasno je u kojoj je mjeri to obvezujuće / izvršno, ali učinkovito sprječava objavljivanje barem nekih podataka koje koristim i generiram. To je neprihvatljivo za otvorenu znanost.

    • Podređen ovome, model pretplate RepBase također onemogućava integraciju RepBase u potpuno automatizirane cjevovode, jer je potrebna interakcija korisnika pretplatiti se na RepBase i pružiti vjerodajnice za prijavu.
  2. RepBase je ručno kuriran. Ovo je i dobro i loše. Dobro, jer je ručno kuriranje podataka o redoslijedu često najpouzdaniji oblik kuriranja. S druge strane, ručna je priprema u biti pristrana; i još gore, teško je kvantificirati ovu pristranost - to potvrđuju održavatelji RepBase-a.

Jeste li pitali samo za definirane knjižnice za ponavljanje? Protumačio sam ga malo šire kao o alatima koji se koriste i za izgradnju knjižnica (što postaje relevantno kada se sekvenciraju genomi iz novih svojti)
@Chris_Rands Oboje (knjižnice i alati). Vaš je odgovor na mjestu.
Cilj je izgraditi anotiranu biblioteku ponavljanja ili maskirati ponavljajuće dijelove genoma?
@KamilSJaron Radim s TE-ovima, tako da trebam označenu knjižnicu, a ne (samo) ponavljani maskirani niz.
Ups, ali za TE-ove samo podskup regija koje se ponavljaju, postoje specijalizirani alati za njihovo bilježenje (poput [DNApipeTE] (https://github.com/clemgoub/dnaPipeTE) i [REPET] (https: //urgi.versailles. inra.fr/Tools/REPET)). Možda biste to mogli navesti u pitanju.
@KamilSJaron Lijepo, i ovo bi moglo vrijediti odgovora. Također ću ažurirati pitanje. Uz to, tražim i ponavljajuće elemente izvan TE-a.
Jeste li i sigurni da se RepBase protivi publikacijama koje izvode podatke na temelju svojih podataka? Može li biti da oni jednostavno ne žele da dijelite neobrađene podatke i datoteke koje pružaju. Budući da imaju dobar broj citata u različitim poljima: https://scholar.google.de/scholar?um=1&ie=UTF-8&lr&cites=11574259945967474319
@story Oni to doslovno kažu u akademskom korisničkom sporazumu na koji sam povezan. Evo relevantnog citata: "Slažete se da nećete Repbase (ili bilo koji njegov dio, uključujući izvješća Repbase, karte ponavljanja ** i ostale izvedene materijale, modificirane ili ne **) učiniti dostupnima svima izvan vaše istraživačke grupe." Naglasak moj. U stvari, druga klauzula u ugovoru tehnički mi čak zabranjuje njegovo potpisivanje, jer moj institut zahtijeva pohranu javnih podataka, pa vjerojatno ne smijem potpisivati ​​takve sporazume. "
Da, čini se da se slaže s mojom prethodnom izjavom. Pretpostavljam da je moja poanta ono što ste točno trebali podijeliti (na temelju vašeg izvornog posta), a što bi se uzelo u obzir iz njihove baze podataka? Osjećam da ovo ne bi uključivalo broj značajki, ali sekvence mogu predstavljati problem.
@story Trebam potencijalno podijeliti sve podatke koji su korišteni / generirani u mojoj analizi. To posebno uključuje specifičnu bilješku o ponavljanju koju sam koristio, a koja je izvedena iz RepBase, kao i podatke o potencijalnim redoslijedima iz tih ponavljanja.
Ovo bi moglo biti staro pitanje, ali netko pokušava postaviti novu, otvorenu, alternativu repBaseu (koji sniježim u punoj reklami), ili ga barem tako doživljavam: https://twitter.com/ TransposableMan / status / 1060519887897067521
šest odgovori:
#1
+12
Konrad Rudolph
2017-06-01 17:15:48 UTC
view on stackexchange narkive permalink

Dfam je nedavno pokrenuo sestrinski resurs Dfam_consensus , čiji je navedeni cilj zamjena RepBase-a. Iz najave:

Dfam_consensus pruža otvoreni okvir za zajednicu za pohranu i poravnanja sjemena (više poravnanja instanci za datu obitelj) i odgovarajući model konsenzusnog slijeda.

I RepeatMasker i RepeatModeler su ažurirani tako da podržavaju Dfam_consensus.

Nisam to još probao, ali izgleda obećavajuće.

#2
+6
Jens Bast
2017-06-27 13:06:22 UTC
view on stackexchange narkive permalink

Za već postojeće pouzdane TE knjižnice pomalo je zbrkana, jer ne svi deponiraju TE specifične knjižnice u bazu podataka poput RepBase. A koliko znam DFAM sadrži samo ljudske resurse, ili se varam?

Što se tiče de novo generiranja TE biblioteka specifičnih za vrstu (što bi trebalo učiniti za bilo koju vrstu koji već nije prisutan u npr. RepBase): Ne postoji "zlatni standard" kako se to najbolje riješiti. U principu treba razmišljati o dva glavna dijela - ponavljanje otkrivanja-napomena

Za ponoviti otkrivanje Preporučio bih kombinaciju dviju stvari (što je neophodno jer TE kopije mogu nedostajati u sklopovima jer se ponavljajuća područja često teže sastaviti i baciti u završnom sklopu).

I) Ponovite otkrivanje iz neobrađenih očitavanja (kao npr. kod DNApipeTE ili tedna ili RepeatExplorer). Za mene je DNAPipeTE radio prilično lijepo, ali sve ima svoje prednosti i nedostatke.II) Ponovite otkrivanje iz sklopova (kao npr. Kod REPET ili kao što je spomenuto prije RepeatModeler)

Tada je napomena ta su ponavljanja također nezgodna, jer se većina metoda oslanja na homologiju između novo TE-a i TE-a nekih (vjerojatno udaljenih) srodnih vrsta. Ali neki programi uzimaju u obzir i strukturu (poput REPCLASS). REPET može obaviti otkrivanje i bilježenje, ali muka je za pokretanje.

Preporučio bih upotrebu nekih programa za otkrivanje ponovnih pojava vaše vrste od interesa i na neobrađenom čitanju i na sklopu, grupiranje tih knjižnica (npr. uclust i 95% identiteta), a zatim pokretanje bilješke s homologijom i strukturnom identifikacijom.

Vjerojatno vam programi neće dati cjelovite cjelovite TE -e, već konsenzusne sekvence nekoliko kopija iz obitelji TE-a. Ako želite, možete pretraživati ​​sve kopije jedne obitelji, izvući ih iz kontiga plus granice i ručno ih poravnati i ručno uređivati ​​granice. Zatim proširite granice ako ne pogađate okolna (neotuđiva) područja ili orijentire TE-a poput LTR-a ili TIR-a ili tako nekako. Ali ovo je vrlo dugotrajno ako želite samo usporediti brojnost TE između vrsta, na primjer, ne bih to učinio, već bih usporedio brojnost pomoću čitanja (kao u Bast i sur. 2016). Ovisi o svim pitanjima koja želite postaviti.

#3
+4
Chris_Rands
2017-06-01 17:09:58 UTC
view on stackexchange narkive permalink

Možete koristiti RepeatScout, koji je definirao knjižnice ponavljanja za ograničeni broj vrsta (uključujući čovjeka, miša i štakora). Ako vaš takson nije zastupljen, također možete napraviti novo predviđanje ponavljanja s RepeatScoutom kako biste izradili vlastitu knjižnicu za feed u RepeatMasker. Publikacija RepeatScout uključuje neke usporedbe s RepBaseom. Drugi srodni alat je RepeatModeler, koji RepeatScout omotava s RECON i nekim drugim programima, a autore dijeli s timom RepeatMasker.

Dobra strana je RepeatScout / RepeatModeler su otvoreni izvor i ne koriste ručno pripremanje, udovoljavajući vašim kriterijima. Negativno, nisam siguran kako se točno održavaju RepeatModeler i komponentni alati. Web stranice RepeatScout i github nisu ažurirane nekoliko godina, iako stranica RepeatModeler pokazuje da je najnovije izdanje bilo 2017. Svejedno, znam da su neke kombinacije RepeatScout / RepeatModeler korištene za bilježenje ponavljanja za neke prilično nedavne novo sekvencirani genomi, npr za ciklide, coelacanth i Darwinova zeba, pa mislim da je pošteno reći da je takav pristup prihvaćen na terenu, barem za projekti genoma kralježnjaka.

#4
+4
matt
2019-02-27 22:17:14 UTC
view on stackexchange narkive permalink

AFAIK Dfam i Repbase trenutno su dva najbolja izvora (raznih) TE sekvenci.

U svojim napomenama o genomu koristio sam RepeatModeler + RepeatMasker, a zatim sam kasnije koristio Repbase + tblastx i Dfam + nhmmer da ih klasificiram.

Postupak klasifikacije u mom cjevovodu PhyLTR ( https://github.com/mcsimenc/PhyLTR) temelji se na Dfamu i Repbaseu. Proces koji sam koristio za LTR identifikaciju je

  1. Putativni ID s LTRHarvest (na temelju karakteristika strukturnih sekvenci)
  2. Klasifikacija prema homologiji prema Repbaseu i Dfamu
  3. Uklanjanje elemenata bez homologije sa sekvencama u Repbaseu ili Dfamu.

To rezultira nizom LTR-R-ova koji su u punoj dužini i koji imaju dokaze da su LTR-R-ovi.

#5
+3
AntiSocialBehaviourOrder
2017-12-14 12:52:14 UTC
view on stackexchange narkive permalink

+1 za rješavanje problema s RepBaseom.

Koristim napomene iz Hammell Lab GTF-a koje su objavili s TEtoolkit-om. Slično je onome što ste opisali da upotrebljavate, pa je ovo možda suvišan i beskoristan odgovor, ali čini se da su iskopavanja koja sam obavio izgleda sveobuhvatna i dobro kurirana (barem za Drosophilu).

#6
+1
jpalmer
2018-06-25 21:59:09 UTC
view on stackexchange narkive permalink

Znam da je ovo pitanje pomalo staro, ali ovo je još uvijek problem za mnoge istraživače koji ne mogu pristupiti RepBaseu. Sada se čini da je najnovija verzija RepeatMasker-a ovisna o RepBase-u za potpunu funkcionalnost ako prikriva bilo što drugo osim ljudskog (trenutno DFAM ima samo ljudske modele). Nedavno sam otkrio de novo pristup ponavljajućeg maskiranja pod nazivom REpeat Detector (crveni). Ovo bi moglo biti rješenje za neke koji žele maskirati ponavljanja na sklopu genoma za bilješke. Članak je ovdje. Zatim sam napisao omot oko Reda kako bih malo olakšao meko maskiranje genoma, koji možete pronaći ovdje.

Jedno od ograničenja crvene boje je da ponavljanja nisu klasificirana, pa su samo identificirana. Morali biste upotrijebiti neke od gore spomenutih alata da biste ih pokušali klasificirati.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...