Kysymys:
Erätehosteiden poistojärjestys, datan imputointi ja kirjaston koon normalisointi scRNA-seq-tiedoissa
gc5
2018-01-04 02:22:15 UTC
view on stackexchange narkive permalink

Esikäsittelen scRNA-seq-tietoja. Mikä on paras käytäntö, jota käytetään sekä ComBatin suorittamiseen erätehosteiden poistamiseksi, tietojen imputoimiseksi (keskeyttämisen vähentämiseksi) että kirjaston koon normalisoimiseksi?

Luulin, että kirjaston koko tulisi suorittaa ensin, koska se on solujen normalisointi, sitten ComBat-erätehosteiden poisto. Alkuperäisessä asiakirjassa - Johnson et ai. (2007) - todetaan, että:

Oletamme, että tiedot on normalisoitu ja ilmentymisarvot on arvioitu kaikille geeneille ja näytteille.

Haluan kuitenkin soveltaa sitä scRNA-seq-tietoihin. Pitääkö tämä väite edelleen? Lisäksi aion soveltaa imputointia (esim. MAGICin kanssa) lopulta. Onko havaittavissa mitään ongelmaa?

Päivitys

Liitän PCA-esimerkin Mus Musculus -tietojoukosta, jossa eri värit edustavat eri hiiriä. Minusta näyttää siltä, ​​että erät (hiiren tunnus) vaikuttavat kahteen ensimmäiseen pääkomponenttiin.

pca

Päivitys 2

Suoritin PCA: n uudelleen raakalaskentatiedoilla (ensimmäinen PCA oli lokimuunnetuissa tiedoissa) ja saan erilaisen kuvauksen tietojoukosta, jossa erätehosteet eivät näytä olevan yleisiä.

pca_raw

Sen perusteella, mitä voin kertoa, MAGIC olisi suoritettava raakatiedoilla, joten se olisi ensimmäinen askel.
@burger MAGIC normalisoi tiedot ennen imputointia, joten se tulisi suorittaa ainakin kirjaston koon normalisoinnin jälkeen. Olen huolissani siitä, että MAGICin käyttö ennen ComBatia vahvistaa erätehosteita. Luen paperia en löytänyt mitään viittausta erätehosteiden poistamiseen.
Sain neuvon, että paras olisi sopeutua erätehosteen poistamisen sijaan. Yrititkö säätää erätehosteita? Kuinka suuri erätehosteenne on? (Ovatko PCA-, MDS- tai dendogrammit selvästi erotettavissa erätehostesi (tai useiden erien) perusteella?)
@Llopis kyllä, tosiasiallisesti erätehosteiden poistamiseksi tarkoitin säätämistä erävaikutuksille ComBatilla, tarkoititko sitä?
Ei, comBat ei sopeudu erätehosteen mukaan, vaan "poistaa" sen (ohjesivun ensimmäiseltä riviltä huolimatta). Samalta ohjesivulta: "Käyttäjille palautetaan lausekematriisi, joka on korjattu eräefekteihin"; se muuttaa tietoja "sopeutumaan" sen sijaan, että lisätään / lasketaan tekijä, joka otetaan huomioon myöhemmissä vaiheissa. Myöhempi voidaan tehdä limma-, DESeq2- ja muissa paketeissa, mutta se ei ole sama säätö kuin poistaminen.
@Llopis ok kiitos, en tiennyt tätä eroa. PCAni osoittaa kuitenkin eron eron selvästi. Päivitän kysymyksen kuvalla. Voitteko kertoa tarkemmin tekijän laskemisesta, joka otetaan huomioon myöhemmissä vaiheissa? Tarkoitatko erittää pääerä, joka korreloi erän kanssa, ja tehdä myöhemmin jotain sen kanssa?
No, minä teen sisällyttää tunnetut erävaikutukset lineaarisiin malleihin. Se voi tapahtua PCA-komponentin tai erien tiedossa olevien luokkien kautta. Voisitko laajentaa eriäsi? Mitä ovat 3_8, 3_38 ... (oletan, että M on mies ja F on nainen).?
@Llopis valitettavasti minulla ei ole metatietoja hiiren id: n ensimmäisestä osasta. Ne tarjoavat vain seksiä (M / F), mikä on kuin oletit.
PC2 erottaa hiiren solut, mutta on vain 0,6% vaihtelusta, joten sanoisin, että erätehosteita ei ole. Ensimmäinen ulottuvuus on melko korkea, mutta en tiedä onko tämä normaalia scRNA-seq: ssä. En säätäisi tai poista erätehosteita täällä, jos tämä olisi RNA-seq. Mutta en ole koskaan analysoinut scRNA: ta
Jatka [jatka tätä keskustelua chatissa] (http://chat.stackexchange.com/rooms/71464/discussion-between-gc5-and-llopis).
Kokemukseni mukaan ehdottomasti ensimmäinen asia, joka sinun on tehtävä, on normalisoida kirjaston koko. Epäilen, että jos värit solusi koon mukaan, huomaat selkeän korrelaation PC1: n kanssa.
üks vastaus:
Scott Gigante
2018-10-21 23:35:04 UTC
view on stackexchange narkive permalink

MAGIC olettaa, että syötetiedot on sekä normalisoitu kirjastokokoon että joko loki- tai sqrt-muunnettu ennen imputointia (katso myös: MAGIC-opetusohjelma). Lisäksi kaikki kaavioihin perustuvat menetelmät (MAGIC, PHATE, t-SNE, UMAP, spektriklusterointi, Louvain jne.) Antavat virheellisiä tuloksia, jos tietosi sisältävät erätehosteen, koska naapurikaavio kuvastaa eräefektisi rakennetta ja mikä vielä pahempaa, imputointi vahvistaisi tätä erävaikutusta entisestään.

Siksi suosittelisin seuraavaa linjaa:

  • Kirjaston koon normalisointi
  • Neliöjuuri (tai kirjaa) muunnos
  • Erätehosteiden poisto
  • Imputointi

Mitä tulee päivitykseen , syy, miksi et ' Erävaikutus raakalaskentatiedoissa on yksinkertaisesti se, että erävaikutus ei ole näkyvissä kaikkein voimakkaimmin ilmaistuissa geeneissä. Ennen muuntamista tärkein tietojesi vaihtelulähde on yksinkertaisesti eniten ilmaistujen geenien ilmentyminen - tämä peittää olennaisesti erätehosteen lähteen eikä poista sitä. Suosittelen, ettet koskaan työskentele raakamolekyylilaskelmien kanssa scRNAseq: ssä, koska raakalaskentatiedot piilottavat suuren osan aineistosi heterogeenisyydestä, juuri sitä etsitkin, kun teet yksisoluisia RNA-seq.



Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...