Pitanje:
Kako odabrati najreprezentativnije putove iz analize obogaćivanja gena?
llrs
2017-05-26 19:07:00 UTC
view on stackexchange narkive permalink

Izvršio sam analizu obogaćivanja klastera gena. Izlaz je popis putova i njihove p-vrijednosti (putovi su odabrani jer je p-vrijednost < 0,05). Popis je još prilično dugačak, pa ga želim smanjiti. U tu svrhu izračunao sam Dice koeficijent putova u matrici $ p $ x $ p $ gdje je $ p $ broj putova na popisu. Želim i one koji su različitiji (manje se preklapaju, koeficijent Dice im je niži) i putove koji su reprezentativniji najsličnijih putova (Dakle, ako postoji grupa od 5 putova koji se preklapaju preko 0,8, uzmite samo jedan).

Kako mogu odabrati putove koji predstavljaju najviše predstavnika?

Postoji sličan alat za GO, ali se oslanja na odbacivanje nevažnog GO, dok su ovdje svi početni putovi već značajni.

Ako napravim klasteriranje staza pomoću matrice koeficijenta Dice, ne znam gdje (ili kako) izrezati.

circular dendrogara

Pokušao sam koristiti visinu za odabir putova. Ali nisam siguran u tumačenje visine.

Neki drugi alati koje sam vidio koriste višedimenzionalnu skalu skaliranja, ali nisam siguran bi li izvođenje i rezanje u određenoj točki prve dimenzije pomoglo. MDS plot

Koristite li vrijednost p <0,05 ili vrijednost p <0,05 / (# testiranih pojmova)? Morat ćete ga koristiti kako biste izbjegli lažne pozitivne posljedice zbog višestrukog testiranja
Pretpostavljam da ćete se morati pomiriti s "razumno dobrim" heurističkim rješenjem, jer postoji nekoliko različitih varijabli u problemu koji pokušavate riješiti (broj putova u grupi, željeno preklapanje / udaljenost između putova itd.) .) Mogu zamisliti mnogo mogućih odgovora.
Ispravljanje @CloudyGloudy za višestruko testiranje je već učinjeno, nažalost nisam ga prethodno spomenuo. Da, igrao sam se s idejom da odaberem preklapanje / udaljenost od 0,5 i zadržim one iznad toga, ali to ostavlja izvan putova koji se potpuno razlikuju od ostalih, ali možda bih mogao odabrati one iznad 0,75 i one ispod 0,25
Tri odgovori:
#1
+4
gringer
2017-05-28 15:23:34 UTC
view on stackexchange narkive permalink

Ovo zvuči kao nešto što bi moglo biti podložno grupiranju dijagrama toplotne karte, grafikonu korelacijske matrice ili nečemu sličnom. Jeste li pogledali matricu korelacije matrice koeficijenta kockica (ili možda samo grafički prikaz te matrice bez matrice korelacije)?

Paket corrplot izgleda kao da bi mogao biti korisno, posebno prezentacija hclust / crtanje pravokutnika.

Ipak ne mogu jamčiti za ovaj paket; to je samo nešto što sam pronašao pretragom "R matrica korelacije crteža".

S toplinskom kartom ili korelacijskom grafikonom mogao bih uočiti sličnosti između putova, kao što to trenutno radim s dendrogramom i MDS-om. Međutim, pitanje je kako odabrati one reprezentativnije putove. Hvala na ispravkama i komentarima btw.
#2
+3
benn
2017-12-12 18:38:49 UTC
view on stackexchange narkive permalink

Jedan od načina grupiranja sličnih značajnih putova je kvantificiranje broja gena koji se preklapaju između putova, a zatim to korištenje u grupiranju (heatmap). Napravio sam alat u R koji izračunava indeks preklapanja između GO pojmova i potom ih grupira u toplotnu kartu. Indeks preklapanja je udio gena koji se preklapaju (broj između 0-1). Također se Pearsonova korelacija može koristiti za klasteriranje umjesto indeksa preklapanja. Moj paket ( gogadget) radi samo s goseq analizom, ali goseq možete koristiti i za podatke reakcije ili kegga.

Koristio sam ovo preklapanje klastera pristup različitim skupovima podataka sada, a obično možemo smanjiti 200-300 GO pojmova u 10-20 funkcionalnih skupina.

Koji indeks preklapanja koristi? Postoji nekoliko indeksa koji se preklapaju. Savjetovao bih da se ovaj pristup ne koristi u GO-u, postoje određene metode za mjerenje koliko su dva GO pojma slična. Pogledajte [GOSemSim] (www.bioconductor.org/packages/GOSemSim/).
Indeks preklapanja definiran je brojem gena koji se preklapaju podijeljenim brojem gena u manjem od dva seta gena. Opisana je u [Studije slučaja bioprovodnika] (http://www-huber.embl.de/pub/pdf/HahneHuberGentlemanFalcon2008.pdf), poglavlje 13.3. Ovu su knjigu napisala velika imena iz bioinformatike (poput R. Gentlemana i W. Hubera).
Hvala na novom indeksu preklapanja, nisam to znao. BTW, na način na koji se izračunava ova sličnost između gena, koristi se drugim indeksima preklapanja, tako da ovo neće pomoći.
U redu, ali moja poanta nije u tome koji indeks upotrijebiti, već u pristupu klasterizacije (isto kao i [gringer] (https://bioinformatics.stackexchange.com/users/73/gringer). Ako pogledate [korisnički vodič] (https://sourceforge.net/projects/gogadget/files/gogadget.2.1/) mog paketa na stranici 26-28, vidjet ćete toplinsku kartu. Obično postižem dobre rezultate s Ward.D i Euclidean. Stablo se može rezati u R, ali prvo ćete možda htjeti vidjeti i procijeniti koji su skupovi gena skupljeni u koje grane prije nego što pronađete pravi odrezak.
Oprostite, moj posljednji komentar razmišljao je u drugom pitanju. Da, ovaj bi pristup mogao uspjeti
#3
+2
Scott Gigante
2017-05-27 15:43:35 UTC
view on stackexchange narkive permalink

Ako ste zadovoljni sigurnijim rangiranjem najreprezentativnijih genskih skupova, umjesto da nužno smanjujete popis, možete isprobati EGSEA. Koristi ensemble pristup za rangiranje najrelevantnijih skupova gena, a također stvara interaktivni HTML izlaz sa statistikama, toplinskim kartama, kartama putova, sažetim grafikonima i GO grafovima koji vam omogućuju ispitivanje rezultata na različitim razinama granulacije.

Možete pročitati članak o bioRxiv ili preuzeti paket s Bioconductor.

Poredak je već izvršen putem p-vrijednosti (moglo bi se tvrditi da bi bilo bolje razrađen test kakav je predložio EGSEA), ali čini se da ovo ne daje odgovor na to kako odabrati relevantne putove iz rezultata EGSEA ili drugog softvera / alati / metode
Ne biste trebali rangirati prema vrijednosti p. Vrijednost p samo je pokazatelj je li promatrana promjena statistički značajna, a ne pokazatelj veličine opažene promjene.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...