Kysymys:
Kuinka valita edustavimmat reitit geenirikastusanalyysistä?
llrs
2017-05-26 19:07:00 UTC
view on stackexchange narkive permalink

Olen suorittanut rikastusanalyysin geeniryhmälle. Lähtö on luettelo poluista ja niiden p-arvosta (polut valitaan, koska p-arvo < 0.05). Luettelo on edelleen melko pitkä, joten haluan vähentää sitä. Tätä tarkoitusta varten minulla on laskettu polkujen noppakerroin matriisissa $ p $ x $ p $, jossa $ p $ on luettelossa olevien reittien lukumäärä. Haluan sekä ne, jotka ovat erilaisempia (ne menevät vähemmän päällekkäin, heidän nopan kerroin on pienempi) että polut, jotka edustavat kaikkein samanlaisia ​​reittejä (Joten jos on olemassa 5 reittiä, jotka ovat päällekkäisiä 0,8: n kanssa, ota vain yksi).

Kuinka voin valita eniten edustajapolkuja?

GO: lle on olemassa samanlainen työkalu, mutta se välittää merkityksettömän GO: n hylkäämisen, kun taas tässä kaikki alkupolut ovat jo merkittäviä.

Jos teen klusterin poluista nopan kerroinmatriisin avulla, en tiedä minne (tai miten) leikata.

circular dendrogara

Yritin käyttää reittejä korkeuden avulla. Mutta en ole varma korkeuden tulkinnasta.

Jotkut muut työkalut, joita olen nähnyt, käyttävät moniulotteista skaalauskaaviota, mutta en ole varma, auttaisivatko sen suorittaminen ja leikkaaminen tietyssä ensimmäisen ulottuvuuden kohdassa. MDS plot

Käytätkö p-arvoa <0,05 tai p-arvoa <0,05 / (testattujen termien lukumäärä)? Haluat käyttää ensimmäistä välttääksesi väärät positiiviset tulokset useiden testien vuoksi
Oletan, että joudut tyytymään "kohtuullisen hyvään" heuristiseen ratkaisuun, koska ongelmassa, jota yrität ratkaista, on muutama erilainen muuttuja (ryhmien reittien lukumäärä, haluttu päällekkäisyys / etäisyys reittien välillä jne. Voin kuvitella monia mahdollisia vastauksia.
@CloudyGloudy-korjaus useille testeille on jo tehty, valitettavasti en maininnut sitä aiemmin. Kyllä, pelasin ajatuksella valita päällekkäisyys / etäisyys 0,5 ja pitää ne sen yläpuolella, mutta se jätä polut, jotka ovat täysin erilaiset kuin muut, mutta ehkä voisin valita yli 0,75 ja alle 0,25
Kolme vastused:
gringer
2017-05-28 15:23:34 UTC
view on stackexchange narkive permalink

Tämä kuulostaa siltä, ​​että se voi olla yhteensopiva klusteroidun lämpökarttakuvaajan, korrelaatiomatriisikaavion tai muun vastaavan kanssa. Oletko tarkastellut noppakerroinmatriisin korrelaatiomatriisia (tai ehkä vain kyseisen matriisin lämpökarttakäyrää ilman korrelaatiomatriisia)?

corrplot -paketti näyttää siltä kuin se voisi olla hyödyllinen, erityisesti hclust / suorakulmioiden esitys.

En kuitenkaan voi taata tätä pakettia; se on vain jotain, jonka löysin hakemalla sanaa "R plot korrelation matrix".

Lämpökartan tai korrelaatiokaavion avulla pystyin tarkkailemaan reittien yhtäläisyyksiä, kuten nykyisin dendrogrammin ja MDS-käyrän kanssa. Kysymys on kuitenkin siitä, kuinka valita nämä edustavemmat reitit. Kiitos korjauksistasi ja kommenteistasi.
benn
2017-12-12 18:38:49 UTC
view on stackexchange narkive permalink

Yksi tapa ryhmitellä samanlaisia ​​merkittäviä reittejä on kvantifioida, kuinka monta geeniä päällekkäin reittien välillä, ja käyttää tätä sitten ryhmittelyssä (lämpökartta). Olen tehnyt R: ssä työkalun, joka laskee GO-termien päällekkäisyysindeksin ja ryhmitelee ne myöhemmin lämpökarttaan. Päällekkäisyysindeksi on päällekkäisten geenien osuus (luku välillä 0-1). Myös Pearsonin korrelaatiota voidaan käyttää klusterointiin päällekkäisen indeksin sijaan. Pakettini ( gogadget) toimii vain goseq-analyysin kanssa, mutta voit käyttää goseq myös reaktomeja tai kegg-tietoja varten.

Olen käyttänyt tätä päällekkäistä klusterointia lähestymistapa nyt eri tietojoukoille, ja yleensä voimme vähentää 200-300 GO-termiä 10-20 funktionaaliseen ryhmään.

Mitä päällekkäistä indeksiä se käyttää? Päällekkäisiä indeksejä on useita. Kehotan olemaan käyttämättä tätä lähestymistapaa GO: ssa, on olemassa erityisiä menetelmiä mitata kuinka samanlaisia ​​kaksi GO-termiä ovat. Katso [GOSemSim] (www.bioconductor.org/packages/GOSemSim/).
Päällekkäisyysindeksi määritetään päällekkäisten geenien lukumäärällä jaettuna geenien lukumäärällä pienemmässä geenisarjassa. Se on kuvattu kohdassa [Bioconductor Case studies] (http://www-huber.embl.de/pub/pdf/HahneHuberGentlemanFalcon2008.pdf), luku 13.3. Tämän kirjan ovat kirjoittaneet suuret nimet bioinformatiikassa (kuten R. Gentleman ja W. Huber).
Kiitos uudesta päällekkäisyysindeksistä, en tiennyt sitä. BTW: ssä näiden geenien samankaltaisuuden laskemisessa käytetään muita päällekkäisiä indeksejä, joten tämä ei auta.
Okei, mutta mielipiteeni ei ole siitä, mitä hakemistoa käytetään, vaan ryhmittelymenetelmä (sama kuin [gringer] (https://bioinformatics.stackexchange.com/users/73/gringer) ehdottaa). Jos katsot pakettini [userguide] (https://sourceforge.net/projects/gogadget/files/gogadget.2.1/) sivulta 26-28, näet lämpökartan. Yleensä saan hyviä tuloksia Ward.D: n ja Euclideanin kanssa. Puu voidaan leikata R-kirjaimella, mutta sinun kannattaa ensin nähdä ja arvioida, mitkä geenijoukot on ryhmitelty yhteen mihin oksiin, ennen kuin löydät oikean rajauksen.
Anteeksi, viimeinen kommenttini ajatteli toista kysymystä. Kyllä, tämä lähestymistapa voisi toimia
Scott Gigante
2017-05-27 15:43:35 UTC
view on stackexchange narkive permalink

Jos olet tyytyväinen edustavampien geenisarjojen varmempaan järjestykseen eikä välttämättä leikkaa luetteloa, voit kokeilla EGSEA: ta. Se käyttää yhdistelmälähestymistapaa tärkeimpien geenisarjojen luokittelussa ja tuottaa myös interaktiivisen HTML-lähdön, joka sisältää tilastoja, lämpökarttoja, reittikarttoja, yhteenvetokaavioita ja GO-kaavioita, joiden avulla voit tutkia tuotosta erilaisilla rakeisuuden tasoilla.

Voit lukea artikkelin osoitteesta bioRxiv tai ladata paketin osoitteesta Bioconductor.

Sijoitus on jo tehty p-arvon kautta (voidaan väittää, että EGSEA: n ehdottama yksityiskohtaisempi testi olisi parempi), mutta tämä ei näytä vastaavan siihen, kuinka valita asiaankuuluvat reitit EGSEA: n tai muun ohjelmiston tuotoksesta / työkalut / menetelmät
Sinun ei pitäisi sijoittaa p-arvon mukaan. P-arvo on vain osoitus siitä, onko havaittu muutos tilastollisesti merkitsevä, ei osoitus havaitun muutoksen suuruudesta.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...