Erätehosteiden poistojärjestys, datan imputointi ja kirjaston koon normalisointi scRNA-seq-tiedoissa

gc5

2018-01-04 02:22:15 UTC

view on stackexchange narkive permalink

Esikäsittelen scRNA-seq-tietoja. Mikä on paras käytäntö, jota käytetään sekä ComBatin suorittamiseen erätehosteiden poistamiseksi, tietojen imputoimiseksi (keskeyttämisen vähentämiseksi) että kirjaston koon normalisoimiseksi?

Luulin, että kirjaston koko tulisi suorittaa ensin, koska se on solujen normalisointi, sitten ComBat-erätehosteiden poisto. Alkuperäisessä asiakirjassa - Johnson et ai. (2007) - todetaan, että:

Oletamme, että tiedot on normalisoitu ja ilmentymisarvot on arvioitu kaikille geeneille ja näytteille.

Haluan kuitenkin soveltaa sitä scRNA-seq-tietoihin. Pitääkö tämä väite edelleen? Lisäksi aion soveltaa imputointia (esim. MAGICin kanssa) lopulta. Onko havaittavissa mitään ongelmaa?

Päivitys

Liitän PCA-esimerkin Mus Musculus -tietojoukosta, jossa eri värit edustavat eri hiiriä. Minusta näyttää siltä, että erät (hiiren tunnus) vaikuttavat kahteen ensimmäiseen pääkomponenttiin.

Päivitys 2

Suoritin PCA: n uudelleen raakalaskentatiedoilla (ensimmäinen PCA oli lokimuunnetuissa tiedoissa) ja saan erilaisen kuvauksen tietojoukosta, jossa erätehosteet eivät näytä olevan yleisiä.

Sen perusteella, mitä voin kertoa, MAGIC olisi suoritettava raakatiedoilla, joten se olisi ensimmäinen askel.

@burger MAGIC normalisoi tiedot ennen imputointia, joten se tulisi suorittaa ainakin kirjaston koon normalisoinnin jälkeen. Olen huolissani siitä, että MAGICin käyttö ennen ComBatia vahvistaa erätehosteita. Luen paperia en löytänyt mitään viittausta erätehosteiden poistamiseen.

Sain neuvon, että paras olisi sopeutua erätehosteen poistamisen sijaan. Yrititkö säätää erätehosteita? Kuinka suuri erätehosteenne on? (Ovatko PCA-, MDS- tai dendogrammit selvästi erotettavissa erätehostesi (tai useiden erien) perusteella?)

@Llopis kyllä, tosiasiallisesti erätehosteiden poistamiseksi tarkoitin säätämistä erävaikutuksille ComBatilla, tarkoititko sitä?

Ei, comBat ei sopeudu erätehosteen mukaan, vaan "poistaa" sen (ohjesivun ensimmäiseltä riviltä huolimatta). Samalta ohjesivulta: "Käyttäjille palautetaan lausekematriisi, joka on korjattu eräefekteihin"; se muuttaa tietoja "sopeutumaan" sen sijaan, että lisätään / lasketaan tekijä, joka otetaan huomioon myöhemmissä vaiheissa. Myöhempi voidaan tehdä limma-, DESeq2- ja muissa paketeissa, mutta se ei ole sama säätö kuin poistaminen.

@Llopis ok kiitos, en tiennyt tätä eroa. PCAni osoittaa kuitenkin eron eron selvästi. Päivitän kysymyksen kuvalla. Voitteko kertoa tarkemmin tekijän laskemisesta, joka otetaan huomioon myöhemmissä vaiheissa? Tarkoitatko erittää pääerä, joka korreloi erän kanssa, ja tehdä myöhemmin jotain sen kanssa?

No, minä teen sisällyttää tunnetut erävaikutukset lineaarisiin malleihin. Se voi tapahtua PCA-komponentin tai erien tiedossa olevien luokkien kautta. Voisitko laajentaa eriäsi? Mitä ovat 3_8, 3_38 ... (oletan, että M on mies ja F on nainen).?

@Llopis valitettavasti minulla ei ole metatietoja hiiren id: n ensimmäisestä osasta. Ne tarjoavat vain seksiä (M / F), mikä on kuin oletit.

PC2 erottaa hiiren solut, mutta on vain 0,6% vaihtelusta, joten sanoisin, että erätehosteita ei ole. Ensimmäinen ulottuvuus on melko korkea, mutta en tiedä onko tämä normaalia scRNA-seq: ssä. En säätäisi tai poista erätehosteita täällä, jos tämä olisi RNA-seq. Mutta en ole koskaan analysoinut scRNA: ta

Jatka [jatka tätä keskustelua chatissa] (http://chat.stackexchange.com/rooms/71464/discussion-between-gc5-and-llopis).

Kokemukseni mukaan ehdottomasti ensimmäinen asia, joka sinun on tehtävä, on normalisoida kirjaston koko. Epäilen, että jos värit solusi koon mukaan, huomaat selkeän korrelaation PC1: n kanssa.