Yhden näytteen vs. nivelgenotyypin määritys

llevar

2017-05-17 18:02:17 UTC

view on stackexchange narkive permalink

Yritän ymmärtää yhteisen genotyypin luomisen edut ja olisin kiitollinen, jos joku voisi esittää argumentin (mieluiten matemaattisesti), joka osoittaisi selvästi yhteisen ja yksittäisen näytteen genotyypin hyödyntämisen hyödyt.

Tämä on se, mitä olen kerännyt muista resursseista (Biostars, GATK-foorumit jne.).

Yhteinen genotyypitys auttaa hallitsemaan FDR: ää, koska erikseen genotyyppisten näytteiden virheet lisätään yhteen ja vahvistetaan, kun puhelut yhdistetään. sarjat (kirjoittanut Heng Li osoitteessa https://www.biostars.org/p/10926/)

Jos joku ymmärtää tämän, voitko selvittää mikä on ero kahden skenaarion FDR-kokonaisnopeudessa (jälleen kerran, esimerkin ollessa ihanteellinen)

Suurempi herkkyys matalataajuisille muunnelmille - jakamalla tietoja kaikkien näytteiden kesken, yhteispuhelut mahdollistavat ”Pelastus” genotyyppikutsut paikoissa, joissa operaattorin kattavuus on alhainen, mutta muilla puhelupaketin näytteillä on luottavainen muunnelma kyseisessä paikassa. (osoitteesta https://software.broadinstitute.org/gatk/documentation/article.php?id=4150)

En ymmärrä miten läsnäolo luottavaisesti kutsutun variantin samassa lokuksessa toisessa yksilössä voi vaikuttaa alhaisen peittävyyden omaavan yksilön genotyypitykseen. Onko olemassa pätevää argumenttia, jonka avulla voidaan pitää toisen henkilön lukemia todisteina kolmannen henkilön tietystä variantista? Mitkä ovat oletukset tällaiselle väitteelle? Entä jos kyseinen henkilö on eri väestöstä ja täysin erilaiset alleelitaajuudet kyseiselle muunnelmalle?

Luettuasi useita artikkeleita (tai menetelmien kuvauksia), jotka kuvaavat viimeisimmät haplotyyppitietoiset SNP-kutsumenetelmät (HaplotypeCaller, freebayes , Platypus) yleinen kehys näyttää olevan:

1. Määritä priori alleelitaajuusjakaumalle kiinnostavalla paikalla käyttämällä yhtä (tai yhdistelmää): ei-informatiivinen priori, populaatiogeneettiseen malliin perustuva priori, kuten Wright Fisher, prior perustuen vakiintuneisiin variaatiomalleihin, kuten dbSNP, ExAC, tai gnomAD.
1. Rakenna luettelo todennäköisistä haplotyypeistä kiinnostavan paikan ympärillä olevalle alueelle paikallista kokoonpanoa käyttämällä.
1. Valitse suurimman todennäköisyyden omaava haplotyyppi aikaisempien ja luettujen tietojen perusteella ja päättele lokuksen genotyyppi vastaavasti.

Missä yllä olevan menettelyn kohdassa näytteitä koskevia tietoja voidaan jakaa tai yhdistää? Eikö pitäisi luottaa AFS: ään laajamittaisesta resurssista, kuten gnomAD, paljon enemmän kuin jakelu, joka saadaan muista näytteistä, jotka ovat nimellisesti saman "kohortin" osapuolia, mutta joilla saattaa olla vain vähän tekemistä toistensa kanssa esimerkiksi erilaisten syntyperien vuoksi?

Haluan todella ymmärtää moninäytteisen genotyypin perustelut ja edut ja kiitän oivalluksistasi.