Esikäsittelen scRNA-seq-tietoja. Mikä on paras käytäntö, jota käytetään sekä ComBatin suorittamiseen erätehosteiden poistamiseksi, tietojen imputoimiseksi (keskeyttämisen vähentämiseksi) että kirjaston koon normalisoimiseksi?
Luulin, että kirjaston koko tulisi suorittaa ensin, koska se on solujen normalisointi, sitten ComBat-erätehosteiden poisto. Alkuperäisessä asiakirjassa - Johnson et ai. (2007) - todetaan, että:
Oletamme, että tiedot on normalisoitu ja ilmentymisarvot on arvioitu kaikille geeneille ja näytteille.
Haluan kuitenkin soveltaa sitä scRNA-seq-tietoihin. Pitääkö tämä väite edelleen? Lisäksi aion soveltaa imputointia (esim. MAGICin kanssa) lopulta. Onko havaittavissa mitään ongelmaa?
Päivitys
Liitän PCA-esimerkin Mus Musculus -tietojoukosta, jossa eri värit edustavat eri hiiriä. Minusta näyttää siltä, että erät (hiiren tunnus) vaikuttavat kahteen ensimmäiseen pääkomponenttiin.
Päivitys 2
Suoritin PCA: n uudelleen raakalaskentatiedoilla (ensimmäinen PCA oli lokimuunnetuissa tiedoissa) ja saan erilaisen kuvauksen tietojoukosta, jossa erätehosteet eivät näytä olevan yleisiä.