Pitanje:
Kako generirate plohu duljine čitanja u odnosu na kvalitetu čitanja za podatke o sekvenciranju koji se dugo čitaju (npr. MinION)?
Mark Ebbert
2017-06-24 23:16:50 UTC
view on stackexchange narkive permalink

Kako generirate grafikon duljine čitanja u odnosu na kvalitetu čitanja (toplinska karta s histogramima na margini) za podatke dugog čitanja sekvenciranja iz Oxford Nanopore Technologies (ONT) MinION? Softver MinKNOW s ONT-a pruža ovakav zaplet tijekom osnovnog pozivanja.

To bi također bilo vrlo korisno za podatke PacBio-a.

Dva odgovori:
Wouter De Coster
2017-06-26 14:51:54 UTC
view on stackexchange narkive permalink

Napisao sam i paket za stvaranje različitih grafikona iz podataka o sekvenciranju i poravnavanjima Oxforda Nanopore: NanoPlot. Može se instalirati putem pipa (pogledajte također README na Githubu). Uz više crteža, stvara se i ograničeni izlaz NanoStats (vidi također NanoStat). Podaci se mogu predstaviti pomoću:

  • datoteke fastq (po želji komprimirane)
  • datoteke bam
  • Datoteka sequencing_summary.txt koju je generirao albacore

Koristeći neobavezne zastavice možete:

  • Dnevnik transformirati duljine čitanja
  • Koristiti poravnana čitanja, a ne sekvencirana čitanja
  • Umanjite uzorke čitanja
  • Postavite maksimalnu duljinu čitanja

Dolje sam dodao primjer, crtajući dnevnik transformirane dužine čitanja u odnosu na prosječnu kvalitetu čitanja (pomoću procjene gustoće jezgre ). Više primjera možete pronaći u galeriji na mom blogu.

Pozdravljam sve povratne informacije i prijedloge!

enter image description here

Mark Ebbert
2017-06-24 23:16:50 UTC
view on stackexchange narkive permalink

Važno je uvijek uzeti u obzir dužinu i kvalitetu čitanja zajedno s podacima o čitanju s velikom pogreškom, a trenutačne tehnologije dugog čitanja (npr. MinION i PacBio) imaju visoku stopu pogrešaka. Zajedničko razmatranje duljine i kvalitete čitanja pomoći će vam da utvrdite koliko je uspješno trčanje bilo, koliko je čitanja bilo „visokokvalitetno“, jesu li dulja očitanja „stvarna“ (ili samo buka pora) itd.

Nedavno me je zanimao sličan zaplet i naišao sam na projekt pod nazivom pauvre (francuski za 'siromašan', igra na 'pora ') kroz zajednicu Oxford Nanopore Technologies (ONT) koja je po meni čak bolja od osnovne zavjere MinKNOW-a. Osim toga, ove parcele možete generirati iz datoteke fastq kad god poželite, za razliku od MinKNOW-a.

[Napomena: Nisam originalni autor, ali sada doprinosim jer mi se svidio (i potreban mi je).]

My description

Pauvre će također izvijestiti o korisnim statistikama:

  fastq statistika za fastq_runid_bb8b8ddedb22bdd6802b2bfa2b4e424c92c30d28_0.fastqnumReads: 2164829numBasepairs: 497062713939775775L17139397757 : 1495.0minLen: 5maxLen: 392031N50: 3450L50: 402786 Osnovni parovi > = bin u prosjeku PHRED i dužinaminLen Q0 Q5 Q10 Q15 Q17.5 Q20 Q21.5 Q25 Q25.5 Q30 0 4970615217 4970611559 4835461787 29710105105 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 270324 160128 50729 50729 0 0 0 0100000 6260554 6260554 0 0 0 0 0 0 0 0150000 3504240 3504240 0 0 0 0 0 0 0 0200000 2501101 2501101 0 0 0 0 0 0 0 0
250000 1609592 1609592 0 0 0 0 0 0 0 0300000 1033423 1033423 0 0 0 0 0 0 0 0350000 392031 392031 0 0 0 0 0 0 0 0 Broj čitanja > = bin u prosjeku Phred + LenminLen Q0 Q5 Q10 Q15 Q17.5 Q20 Q21,5 Q25 Q25,5 Q30 0 2164829 2164605 2083436 1626706 1183812 435687 77341 1 0 0 50000 109 109 5 3 1 1 0 0 0 0100000 36 36 0 0 0 0 0 0 0 0 0150000 15 15 0 0 0 0 0 0 0 0 0200000 9 9 0 0 0 0 0 0 0 0250000 5 5 0 0 0 0 0 0 0 0300000 3 3 0 0 0 0 0 0 0 0 0350000 1 1 0 0 0 0 0 0 0 0  

Ove crteže i statistike bile bi jednako korisne s PacBiom, ali to nije super lako (iako je to moguće) s trenutnim sirovim izlazom iz sekvencera Sequel: Koje kodiranje ocjena kvalitete koristi PacBio?

Pauvre trenutno koristi Biopython za raščlanjivanje fastq-a i matplotlib za stvarnu grafiku i omogućit će vam odabir formata izlazne slike (npr. .png, .pdf, itd.). Također možete odabrati hoće li pozadina biti prozirna ili bijela (za .png izlaz).

Raščlanjivač je trenutno super spor jer koristi SeqIO.parse , ali mijenjamo raščlanjivače kako bismo to ubrzali. Također dodajemo neke dodatne značajke (npr. Odaberite hoćete li uključiti osi y u histograme margina, ispisati neke statistike izravno na parcelu radi dokumentacije itd.)

Ljubičasta je trenutno jedini izbor boja (koju ja osobno volim), ali dodavanje opcija za promjenu bit će vrlo jednostavno.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...