Kysymys:
Muuttuuko vaihtoehtoisia puheluita, kun soitat CRAM: lta?
morgantaschuk
2017-06-08 19:54:57 UTC
view on stackexchange narkive permalink

Harkitsemme tallennusmuodon vaihtamista BAM: sta CRAM: ksi. Työskentelemme ihmisen syöpänäytteiden kanssa, joiden esiintyvyysvaihtoehdot voivat olla hyvin alhaiset (ts. Ei diploiditaajuutta).

Jos käytämme häviöllistä CRAM: ää säästääksesi enemmän tilaa, kuinka paljon näistä CRAM-tiedostoista kutsutut variantit muuttuvat? Millä pakkausstrategialla on pienin vaikutus?

Onko muita vaikutuksia loppupään työkaluihin, joita emme harkitse?

CRAM: n ei tarvitse ** olla tappiollinen, onko sinulla syytä siihen?
Levytilan säästäminen. Maksamme GB: llä, ja meidän on pidettävä tietoja noin 10 vuoden ajan.
Ei voi väittää, että budjetti ei ole hyvä syy :)
Mielenkiintoinen kysymys. Mielestäni tämä on sellainen asia, joka tekee mukavan sivuprojektin. Ota bam-tiedostokutsu muunnelmille, muunna se tunkeutumaan ja suorita muunnos soittaja. Mittaa näiden kahden lähestymistavan välinen ero ja muunneltavuus käyttämällä useita erilaisia ​​tiedostoja.
Jos joku on huolissaan tietojen ehdottomasta eheydestä / toistettavuudesta, budjetin huomioon ottaminen ei ole hyvä syy.
Ellei vastaus ole: tietyntyyppisillä häviöllisillä pakkauksilla ei ole vaikutusta muunnospuheluihin.
BAM-tiedostot pakataan tavallisella gzip-pakkauksella. Pura heidät "alastomaan BAM: iin" - en terminologiani - ja pakkaa uudestaan ​​jotain vahvemmalla, kuten 7zip / LZMA. Voit aina pakata ne uudelleen bgzip-työkalulla, kun tarvitset niitä takaisin todellisessa BAM-muodossa. Tämä vie sinut suurimmalle osalle tiedostomuotoja tiedostomuotoa muuttamatta, mikä voi olla hyvä, jos asiat on asetettu haluamallasi tavalla. Ei vastausta, koska se ei vastaa kysymykseesi, mutta se voi ratkaista ongelmasi.
Kaksi vastused:
user172818
2017-06-08 21:20:00 UTC
view on stackexchange narkive permalink

Oletusarvoisesti samtooleilla luotava CRAM on häviötön. Se tyypillisesti puolittaa syötetyn BAM: n tiedostokoon suhteen. Jos haluat pakata enemmän, voit antaa samtoolien muuttaa useimmat luetut nimet kokonaislukuiksi. Et voi kertoa optisia kaksoiskappaleita luetuista nimistä, mutta tämä on vähäinen huolenaihe. Voit myös pudottaa turhia tunnisteita kartoittajasi ja käytössä olevan soittajan mukaan. Syöpätietojen osalta en vähentäisi peruslaadun tarkkuutta ilman kattavia vertailuarvoja. Valitettavasti peruslaatu vie suurimman osan CRAM: sta. Alkuperäisten luettujen nimien ja joidenkin tunnisteiden hylkääminen ei todennäköisesti säästää paljon tilaa.

Nämä ovat kaikki hyviä ehdotuksia tiedostokoon pienentämiseksi menettämättä tietoja, mutta eivät käsittele pääkysymystä: häviön vaikutus vaihtoehtoisiin puheluihin.
@DanielS Jos et kosketa perusasioita, ominaisuuksia ja nimien pariliitosta, et muuta puhelun muunnoksia.
Kyllä, mutta niin se ei todellakaan ole tappiota, vai mitä? Eikö häviöllinen pakkaus yleensä sisällä sekvenssin ja / tai laatuarvojen muuttamista suuremman pakkaustehokkuuden saavuttamiseksi?
Se riippuu "häviöllisen" määritelmästä :) Minulle luettujen nimien ja tunnisteiden menettäminen on häviöllistä.
¯ \\ _ (ツ) _ / ¯ Sanoit itse, että puheluiden ei pitäisi muuttua, jos järjestys ja laatu eivät muutu. Joten kaikki muu on liitännäinen. Älä ymmärrä minua väärin, mielestäni on arvokasta huomauttaa, että tiedostokokoa on mahdollista pienentää muuttamatta järjestystä tai laatua, mutta minusta tuntui melko selvältä, että OP puhui sekvenssin ja / tai laatupisteiden häviöllisestä pakkaamisesta .
Jälleen kerran tämä vastaus on kohtuullinen vastaus kysymykseen "Millä pakkausstrategialla on pienin vaikutus?" Ok, otan kaiken takaisin! :-)
chrisamiller
2017-06-09 21:28:26 UTC
view on stackexchange narkive permalink

Päähuolenaihe on aina ollut CRAM-pakkauksen kautta tapahtuvien laatupisteiden "yhdistäminen" (ja se on vakiona myös HiSeqX-, HiSeq4000- ja NovaSeq-alustoilla). Anekdotisesti voin ilmoittaa hyvin vähän eroa 4-lokeroisten laatupisteiden ja syöpänäytteiden täydellisten laatupisteiden välillä, vaikka en tiedä, onko olen nähnyt suoraa vertailua.

+1. Kollegani ovat tehneet joitain vertailuarvoja osoittaakseen, että 4-lokeroisella on vain vähän vaikutusta * ituradan * näytteisiin. Olen nähnyt samanlaisia. Syöpänäytteet saavat minut kuitenkin aina varoittamaan. Olisi hienoa, jos joku arvioi järjestelmällisesti syöpänäytteet. En ole nähnyt yhtä toistaiseksi.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...