Kysymys:
Genomisten ominaisuuksien siirtäminen uusille koordinaateille
BioNaab
2017-11-22 16:43:48 UTC
view on stackexchange narkive permalink

Minulla on eukaryoottinen genomi, jolle päivitetysti saatiin päivitetty sekvenssi kromosomille. Haluan kartoittaa RNAseq-lukemat genomista (ja suorittaa muita alavirran analyysejä) ja haluaisin käyttää mahdollisimman ajantasaista tietoa (joten kyseisen kromosomin 'uusi' sekvenssi).

Ennen lukemiskartoituksen tekemistä haluaisin kuitenkin päivittää genomini (GFF3) merkinnän vastaamaan tämän kromosomin 'uusia' koordinaatteja.

Haluan pohjimmiltaan siirtää tietoja vanhojen koordinaattien GFF3: sta saadaksesi uuden koordinaatit GFF3: n ja säilyttää mahdollisuuksien mukaan kaikki tiedoston tiedot / hierarkian (geeni, mRNA, eksoni jne.).

  • Esimerkki :
      chrXX-lähdegeeni 222 5942. -. ID = geeni_1; nimi = geeni_1; pituus = 5720chrXX-lähde-mRNA 222 5942. -. ID = geeni_1,1; Vanhempi = geeni_1; Nimi = geeni_1,1; pituus = 5720chrXX-lähde eksoni 222 5794. -. ID = geeni_1.1.2; vanhempi = geeni_1.1chrXX-lähde eksoni 5889 5942. -. ID = geeni_1.1.1; vanhempi = geeni_1.1chrXX-lähde CDS 222 5794. - 1 ID = CDS: geeni_1.1.2; vanhempi = geeni_1.1; nimi = geeni_1.1chrXX-lähde CDS 5889 5942. - 0 ID = CDS: geeni_1.1.1; vanhempi = geeni_1.1; nimi = geeni_1.1  

    ... tulisi päivittää muotoon ...

      chrXX-lähdegeeni 333 6053. -. ID = geeni_1; nimi = geeni_1; pituus = 5720chrXX-lähde-mRNA 333 6053. -. ID = geeni_1.1; vanhempi = geeni_1; nimi = geeni_1,1; pituus = 5720chrXX-lähde eksoni 333 5905. -. ID = geeni_1.1.2; vanhempi = geeni_1.1chrXX-lähde eksoni 6000 6053. -. ID = geeni_1,1,1; vanhempi = geeni_1,1chrXX-lähde CDS 333 5905. - 1 ID = CDS: geeni_1.1.2; vanhempi = geeni_1.1; nimi = geeni_1.1chrXX-lähde CDS 6000 6053. - 0 ID = CDS: geeni_1.1.1; vanhempi = geeni_1.1; nimi = geeni_1.1  

    Yritin kokeilla (mutta en ole varma siitä on tapa tehdä se):

    1. Pura kaikkien ominaisuuksien sekvenssi, jotka päivitetään fastaksi ( bedtools getfasta )
    2. Yhdistä nämä sekvenssit päivitettyyn kromosomiin ( gmap kanssa --nosplicing , koska kartoittamamme sekvenssit vastaavat genomisia alueita).
    3. Luo päivitetty GFF3-tiedosto. Tätä tehdessäni käytän yhtä lisäsääntöä: jos ominaisuus on kartoitettu toisessa kromosomissa, mutta päivitetyssä kromosomissa oli myös toinen kohdistus, priorisoi sama, joka vastaa samaa (päivitettyä) kromosomia.

    Mikä olisi oikea tapa tehdä sellainen? Kaikki ehdotukset menetelmistä / työkaluista ovat tervetulleita!

  • Ehdotan, että liität jokaisessa vaiheessa käytetyn koko koodin, jotta ihmiset voivat neuvoa sinua paremmin.
    Kaksi vastused:
    heathobrien
    2017-11-22 17:42:11 UTC
    view on stackexchange narkive permalink

    Luulen, että tavallinen tapa tehdä tämä on tehdä ketjutiedosto ja käyttää sitä sitten liftOver merkintöihin:

      mkdir pslfor i hakemistossa ../ci3/rm/masked/*.masked; do blat ../ci2.2bit $ i -tileSize = 12 -fastMap -minIdentity = 98 psl / `basename $ i .fa.masked`.psl -noHead -minScore = 100; valmis  

    Käännä psl-tiedostot ketjuihin hakemistoketjussa:

      mkdir chainfor i hakemistossa psl / *. psl; tee axtChain -linearGap = keskitaso -psl $ i ../ci2.2bit ../ci3/ci3.2bit ketju / `basename $ i .psl`.ketju; valmis  

    Yhdistä lyhyet ketjut pidemmiksi hakemistoketjuunMerge:

      mkdir chainMergechainMergeSort chain / *. ketju | chainSplit chainMerge stdin -lump = 50  

    ketjut ja lajittele ketjut:

      cat chainMerge / *. ketju > all.chainchainSort all.chain all.sorted .chain  

    Tarvitset tietoja kromosomien koosta verkottamista varten:

      twoBitInfo ../ci3/ci3.2bit ci3.chromInfotwoBitInfo ../ci2.2bit ci2 .chromInfo  

    Nettoutus: tunnista kohdistettavat alueet ketjuista:

      mkdir netchainNet all.sorted.chain ci2.chromInfo ci3.chromInfo net / all.net / dev / null  

    Valitse lopuksi oikeat kohdistettavat alueet verkkojen avulla ja luo "liftOver" -tiedosto:

      netChainSubset net / all.net all. ketju ci2ToCi3.liftOver  

    Suorita liftOver:

      CrossMapy.py bed ci2ToCi3.liftOver test.hg18.bed  
    Kiitos nopeasta vastauksesta, testaan ​​sen ja ilmoitan takaisin.
    holmrenser
    2017-11-30 14:07:51 UTC
    view on stackexchange narkive permalink

    heathobrien vastauksen lisäksi voit tutustua RATT: Rapid Annotation Transfer Tool -ohjelmaan. Lähestymistapa on olennaisesti sama, vain käyttämällä nykyaikaisempia lähestymistapoja esimerkiksi koko genomin kohdentumiseen. Se käyttää nucmeria, jonka avulla uusinta versiota (4.0) käytettäessä voit tehdä kokonaisia ​​genomin kohdistuksia rinnakkaisen laskennan avulla.

    Onko olemassa resursseja, jotka osoittavat, miten tämä tehdään? Dokumentaatio ei todellakaan ole käyttäjäystävällinen.


    Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
    Loading...