Pitanje:
Koji je ovo format? Prilično siguran da to nije BED datoteka
ithinkiam
2017-08-29 21:31:13 UTC
view on stackexchange narkive permalink

Vrijeme je za pogađanje formata datoteke bioinformatike ... :)

Pronašao sam ovu datoteku ".bed" na GEO ( GSE84660), ali očito nije BED datoteka . Svatko zna što bi to moglo biti? I što ga može vidjeti? Dolazi iz izuzeća HiC-a.

  # zaglavlja stupaca: bait1_chr, bait1_start, bait1_end, bait2_chr, bait2_start, bait2_end, contact_ID, NA, NA, B1_D0_counts, B1_D3_counts, B1_D6_scount B2, B1_D6_s3, B2 848168 chr1 850619 874081 b2b_1. . 114 125 127 75 97 92chr1 831895 848168 chr1 889424 903640 b2b_2. . 15 12 16 4 15 20chr1 831895 848168 chr1 903641 927394 b2b_3. . 13 13 10 18 15 8 ...  
Možete li objasniti za što vam treba? Mislim, to je samo jednostavna tekstualna datoteka tako da je svaki uređivač teksta (ili čak Excel) može pregledati. Koje podatke trebate izvući iz njih?
Pokušavate li vizualizirati matricu kontakata? Ovi podaci potječu [iz ovog rada] (https://www.nature.com/ng/journal/vaop/ncurrent/full/ng.3935.html).
@DevonRyan je idealno da, ali prvo sam htio provjeriti da to nije neki određeni format kojeg nisam bio svjestan. Imate li prijedloga za vizualizaciju matrice kontakata?
@ithinkiam Predložio bih [HiCExplorer] (https://github.com/maxplanck-ie/HiCExplorer), ali pristran sam. Na prvobitno pitanje morat ćete izraditi ovu datoteku, ali vidjet ću mogu li smisliti neki kod za to.
@ithinkiam Uzimam to natrag, nije 100% jasno koji je prikladan način prelaska s velikih područja mamaca na pojedinačne položaje. Nadam se da netko drugi ima bolju ideju.
Možda je pozvan _.bed_ kako bi predložio da se koordinate početka i kraja tumače na BED-način poluotvorenom (ili ekvivalentno 0, temeljenom na 0, na kraju otvorenom)? Par genomskih intervala po zapisu podsjeća na [BEDPE format] (http://bedtools.readthedocs.io/en/latest/content/general-usage.html#bedpe-format), ali nisam upoznat ni s čim HiC pa ne bih komentirao je li ovo puka slučajnost ...
Jedan odgovor:
aechchiki
2017-08-29 22:45:47 UTC
view on stackexchange narkive permalink

Čini se čudnim načinom predstavljanja podataka. U pravu ste, uopće ne izgleda kao KREVET.

Kopanje u GEO-u natjeralo me je da nađem ove podatke:

Supplementary_files_format_and_content: Datoteka razdvojena karticama prijavljuje jedan kontakt po retku. Djelomični fragmenti HindIII predstavljeni su u formatu kreveta (chr / start / stop) s prvo navedenim mamcem (ili mamcem uzvodno, u slučaju b2b kontakata). Sljedeća polja odgovaraju jedinstvenom ID-u kontakta, ID-ovima fragmenata za prvi i drugi fragment te brojevima neobrađenih čitanja koji podržavaju kontakte u svakoj replici.

Stoga mislim da su autori spojili BED3 format i dodatne BED-nepovezana polja koja generiraju datoteku odijeljenu karticama - nisu jasno navedena u njihovim metodama. Najjednostavnije bi bilo možda kontaktirati autore?

Ovisno o vašim ciljevima, ako vam trebaju samo prva 3 polja (ali sumnjam u to), ovu bih "krevet" datoteku preformatirao (kako bi postala obradiva kao BED datoteka) u dvije poddatoteke:

  mačka original.bed | rez -f 1,2,3 > mamac1.txtcat mamac1.txt | glava -3chr1 831895 848168 chr1 831895 848168 chr1 831895 848168cat original.bed | rez -f 4,5,6 > mamac2.txtcat mamac2.txt | glava -3chr1 850619 874081 chr1 889424 903640chr1 903641 927394  

Nismo sigurni bi li odgovarao vašim ciljevima.

Također, možda će vam biti potreban ovaj rad za vizualizaciju kontaktnih matrica.

Ako želite, možete pojednostaviti svoju naredbu na `cut -f 1-3 original.bed> bait1.txt`. `Mačka` nije potrebna,` izrezivanje` može uzeti put do datoteke kao ulaz, a popisi polja mogu se definirati s `x-y`.
Ovo je jedan od svih mogućih načina na koji se može zamisliti predstavljanje kontaktne matrice i koji je specifičan za dodatne podatke u ovom radu (jer je neobično pohraniti 6 kontaktnih matrica u jednu datoteku). Ako OP želi to vizualizirati, vjerojatno će ga trebati spojiti u sasvim drugačiji format.
Zahvaljujem na pomoći, ali nije zapravo ono za čime se bavim.
ok, pa možda bi bilo pametno urediti svoje pitanje i razjasniti svoje ciljeve, tako da korisnici mogu dati smislenije odgovore. ili ste samo željeli provjeriti nije li neki dokumentirani format koji ste možda preskočili?


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...