Pitanje:
Otkrivanje dijelova ljudskih bjelančevina s visokim stupnjem mikrobne sličnosti
bluescholar1212
2017-06-08 03:30:55 UTC
view on stackexchange narkive permalink

Ja sam pridošlica u svijetu bioinformatike i trebam pomoć u rješavanju problema.

Cilj mi je sastaviti popis ljudskih bjelančevina i identificirati segmente (duljine 13-17aa) ) s visokim stupnjem sličnosti s mikrobnim sekvencama. U idealnom slučaju, želio bih započeti s popisom FASTA sekvenci i imati jednostavan način za generiranje rezultata odgovarajućih segmenata velike sličnosti svakog proteina.

Postoje li postojeći alati ili softver kojih bih trebao biti svjestan od toga će mi olakšati život?

Unaprijed hvala.

Opterećenja :) Možete li molim vas [urediti] svoje pitanje i reći nam i) o koliko sekvenci govorite; ii) imate li ili ne već ljudske proteinske sekvence ili samo njihova imena; iii) ako tražite samo homologiju jednostavnih sekvenci ili ako ćete pomoću homologije zaključiti funkcionalnu homologiju (u tom slučaju treba uzeti u obzir proteinske domene); iv) zašto 13-17aa konkretno? v) koje mikrobne vrste? Bilo koji? Specifične?
Pozdrav bluescholar1212, hvala na vašem pitanju i dobrodošli na Bioinformatics Stack Exchange. Bioinformatika je veliko područje i može uključivati ​​niz različitih programa koji bi vam mogli olakšati život, a koji gotovo svi nisu povezani s mikrobnom homologijom. Preciznost u pitanjima koja postavljate može biti od velike pomoći odgovornicima, jer im omogućuje da odgovore bez pogrešnog puta. Kakav ste izlaz zainteresirani? Spomenuli ste da problem postoji, ali niste naveli u čemu je taj problem. Koja je vaša priča oko problema koji pokušavate riješiti?
Dobrodošli u Bioinformatics.SE! Samo da podijelimo neke dlake:) ... morat ćete biti oprezni pri korištenju izraza poput ** visoka homologija **. Nizovi su ili homologni (dijele pretke) ili nisu. Sličnost sekvenci je često korišteni proxy za homologiju i ** prikladno je reći ** velika sličnost **. Ali ne postoji klizna ljestvica homologije. Neki su parovi sljedova toliko slični da je jedino izvedivo objašnjenje zajedničko podrijetlo. Neki su toliko različiti da je jasno da nema homologije. U sredini je nešto sive zone, ali to se odnosi samo na našu nesigurnost. Nadam se da ovo ima smisla!
Slažem se s @daniel-standage, da ne postoji * visoki stupanj homologije * ili * segmenti visoke homologije *. Segmenti su homologni ili nisu. To je kao da kažete visok stupanj trudnoće. Možda pojmove možete zamijeniti nečim poput "velika vjerojatnost homologije"?
@DanielStandage Budući da dijelimo dlake, sve sekvence imaju zajedničko podrijetlo ako se vratite dovoljno unatrag, ako prihvatite da je postojalo jedno ishodište života
@Chris_Rands Dovoljno točno. :-)
@DanielStandage Uredno zabilježeno! To je dobra i važna stvar. Zanimaju me regije s visokim postotkom sličnosti nizova, što ne podrazumijeva nužno homologiju kao što ste istakli.
@bluescholar1212 Tada sam uredio pitanje. Slobodno se vratite ili izmijenite kako želite ako mislite da sam pogrešno predstavio vaše pitanje.
Jedan odgovor:
terdon
2017-06-08 03:51:55 UTC
view on stackexchange narkive permalink

Zvuči kao da je upravo posao za koji je BLAST razvijen. Sad, koji će okus ovisiti o tome što želite raditi i koje podatke imate na raspolaganju. Neke mogućnosti:

  1. PSI-BLAST : ovo je obično najbolji izbor ako pokušavate pronaći proteinske homologe. Djeluje tako što gradi skriveni model markova koji opisuje slijed vašeg upita i koristi taj model za postavljanje upita u bazu podataka o proteinima. Prednost je u tome što se izvodi u više iteracija, pružajući vam priliku da dodate ili uklonite rezultate (tako da dodate one koji su istinski pozitivni i uklonite lažne), na kraju gradeći prilično dobar model vašeg proteina. Ovo je daleko snažnije od jednostavnog pristupa temeljenog na homologiji, jer proteini djeluju putem proteinskih domena, a jednostavna homologija nije toliko važna koliko specifični konzervirani funkcionalni ostaci.

    Za to idite na NCBI stranicu o eksploziji proteina i odaberite PSI-BLAST:

    psi-blast option at ncbi

  2. BLASTp : Jednostavna eksplozija proteina i proteina. Identificirat će homologne proteine ​​na temelju sličnosti sekvenci. Da li to također podrazumijeva funkcionalnu homologiju nije tako jednostavno i ovisit će o svakom slučaju koji istražite.

    Kao i gore, idite na NCBI stranicu o eksploziji proteina, ali ovaj put koristite zadane postavke.

  3. tBLASTn : ovo je alat koji uzima sekvence proteina kao ulaz i uspoređuje ih s bazom podataka DNA koja se dinamički prevodi u svih 6 mogućih okvira za čitanje. Vrlo dobro za pronalaženje homolognih sekvenci kada nemate dobro označene informacije o proteinima za ciljane vrste. Prednost je u tome što je osjetljiviji i što može pronaći udaljenije homologije od osnovnog nukleotida BLASTn i pristup prema vama kada je vaša ciljana vrsta udaljena i nije dobro označena.

    tBLASTn stranica NCBI-a.

Sve se to može pokrenuti putem Interneta putem NCBI-jeve stranice BLAST. Ako želite istražiti stotine proteina, predlažem da instalirate eksploziju lokalno. Zatim možete preuzeti relevantne ciljne sekvence s NCBI-a i obnoviti lokalno bazu podataka eksplozija (ako je tako, predlažem da postavite novo pitanje o tome kako to učiniti) ili upotrijebite NCBI-jev udaljeni klijent eksplozije koji vam omogućuje upotrebu lokalno pohranjene datoteke upita i pokrenut će se na NCBI-jevim poslužiteljima.

Sad će ti programi vratiti ono što je poznato kao parovi visokog bodovanja (HSP), područja vašeg slijeda upita koji se dobro poravnavaju s ciljem. Postoje razne opcije s kojima se možete igrati kako biste poboljšali osjetljivost ili specifičnost, ali rasprava o njima zahtijevat će mnogo više detalja o tome što radite, a najbolje bi bilo i u novom pitanju.

Jednom kada imate svoje HSP-ove, možete ih relativno lako raščlaniti kako biste odabrali regije s danim rasponom vrijednosti sličnosti niza i određene duljine. Još jednom, o tome bi bilo bolje razgovarati u zasebnom pitanju nakon što dobijete rezultate i pokažete primjer.

hvala na korisnom odgovoru! BLAST je jedan od alata o kojem sam razmišljao. Nisam razmotrio algoritam PSI-BLAST kao opciju i zvuči točno onako kako tražim. Uz pokretanje pretraživanja, što ću planirati raditi s eksplozijom lokalno, želio bih automatizirati kuriranje rezultatima. Bi li se za ovo najbolje kladio da napišem osnovnu skriptu oko eksplozije navodeći koje rezultate zadržati i filtrirajući ostatak?
@bluescholar1212 da, vjerojatno. Inače, to bi također bilo ovdje na temu. Kad dobijete rezultate, postavite još jedno pitanje i rado ćemo vam pomoći da ih raščlanite. Možda ćete htjeti postaviti novo pitanje kada odlučite koji od ovih alata koristite, objašnjavajući koji izlaz želite zadržati i pitajući o tome koji izlazni format najbolje koristite. Blast može vratiti razne izlazne formate, ovisno o opcijama s kojima ga koristite, a neke je lakše raščlaniti od drugih.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...