Pitanje:
Najmanja veličina grupe za diferencijalnu ekspresiju u limmama (skupna RNA-Seq)
gc5
2018-05-24 19:30:03 UTC
view on stackexchange narkive permalink

Čitam Smytha i suradnike. (ref. 1). Želim pokrenuti analizu diferencijalne ekspresije na skupnom skupu podataka RNA-Seq u kojem je svaka skupina sastavljena od 2 uzorka. U prethodno citiranom radu napisano je da:

Geni moraju biti izraženi u najmanje jednoj skupini (ili u najmanje tri uzorka tijekom cijelog eksperimenta, pri čemu su kao ova odabrana tri je najmanja veličina grupe ) koju treba zadržati za nizvodnu analizu.

Je li moguće koristiti limma DE analizu i sa skupinama sastavljenim od samo 2 uzorka? Napomena: Moguće je da je u ovom određenom skupu podataka najmanja veličina grupe 3.

Ako ne, koju bih alternativu trebao koristiti?

Ažuriranje

Imam 17 uzoraka . Moja ideja je testirati jednu skupinu u odnosu na ostale grupe (sve zajedno). Tako bi barem referentnu skupinu činilo> 10 uzoraka. U ovom slučaju, što može biti izvediva analiza za DE?

  1. Smyth, GK, Law, CW, Alhamdoosh, M., Su, S. & Ritchie, ME RNA-seq analiza je jednostavna kao 1-2-3 s limmom, Glimmom i edgeR. F1000Istraživanje 5, 1408 (2016).
Dva odgovori:
llrs
2018-05-24 19:43:57 UTC
view on stackexchange narkive permalink

Problem većine metoda je taj što se koristi varijansa gena za svaku skupinu, što se ne može izračunati (pouzdano) kada je uzorak < = 2. Također, statistički, imao bi izuzetno malu snagu, pa bi zaključcima se nije moglo puno vjerovati.

Mogli biste i sami izračunati "sirovu" promjenu nabora (tj. bez procjene i prilagodbe varijance). Da imate još jedan uzorak po grupi, mogli biste upotrijebiti DESeq2 što se mislilo za takve slučajeve. Ali iz rada:

Međutim, ako postoje dvije ili manje replikata za stanje, ti uzorci ne pridonose otkrivanju izvanzemaljaca, jer nema dovoljno replikata za određivanje statusa odstupanja.

Što me čini nesigurnim hoće li raditi dobro za samo dva uzorka, jer neće pomoći u otkrivanju gena koji odstupaju.

Hvala. Ažurirao sam svoje pitanje. Konkretno, razmišljao sam o tome da iskoristim vaš prijedlog i samo uzmem neobrađenu promjenu. Je li ispravno uzimati gene koji se smatraju izvanrednim (npr.> 3 StD) kada se uspoređuje skupina s ostalim uzorcima?
Problem s tako malobrojnim uzorcima je taj što je teško znati što je outlier i što je to "normalno". Ako usporedite 2 protiv 15, još uvijek imate dva problema. 1) još trebate izračunati varijancu za skupinu 2 koja ima isti problem kao u početku i 2) usporedba će biti značajna? Ako ih smatrate različitim skupinama s razlogom, ako ih pomiješate, pomoći će vam da shvatite koje su razlike među njima?
Možete vam pokazati uzorke i relevantne podatke o tim uzorcima (kojim skupinama, pripadaju li, ako se radi o biološkim ili tehničkim preslikama ili razlikama između uvjeta, ...) kako biste vam pomogli bolje.
Skup podataka koji koristim je ovaj na GEO (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE109125). Još nema navoda i nisam pronašao u metapodacima jesu li to biološke ili tehničke replike. Međutim, mislim da su to biološke replike. Skupina je prvi dio naziva uzorka (prije znaka '#'). Cijelu normaliziranu matricu možete preuzeti ovdje: ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE109nnn/GSE109125/suppl/GSE109125%5FGene%5Fcount%5Ftable%2Ecsv%2Egz
To može zvučati očito, ali možete li dati neki kontekst u odgovoru na pitanje zašto se varijance ne mogu pouzdano izračunati kada je uzorak <= 2?
@gc5 S manje od 2 nemate varijance, a sa samo 2 nije dovoljno dobra, jer se definira razlikom između točaka i srednje vrijednosti, a ako dodate još jednu točku, dodajte 33% više podataka! Ali to bi bilo dobro pitanje za statistiku.SE, koja bi mogla dati razumniji i detaljniji odgovor od mene: \
heathobrien
2018-05-24 21:07:56 UTC
view on stackexchange narkive permalink

Iako dijelim Llopisovu zabrinutost zbog procjene varijance iz 2 uzorka, izjava koju ste citirali govori o izbjegavanju lažnih pozitivnih rezultata iz gena koji su izraženi samo u nekoliko uzoraka. Prilično je uobičajeno izuzeti gene koji eksprimiraju u manje uzoraka od najmanje skupine, čak i ako je broj uzoraka u grupi mnogo veći od 3.

Dobra poanta, hvala. Također mislim da je rečenica to značila u ovom konkretnom slučaju.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 4.0 licenci pod kojom se distribuira.
Loading...