Kysymys:
Yhden näytteen vs. nivelgenotyypin määritys
llevar
2017-05-17 18:02:17 UTC
view on stackexchange narkive permalink

Yritän ymmärtää yhteisen genotyypin luomisen edut ja olisin kiitollinen, jos joku voisi esittää argumentin (mieluiten matemaattisesti), joka osoittaisi selvästi yhteisen ja yksittäisen näytteen genotyypin hyödyntämisen hyödyt.

Tämä on se, mitä olen kerännyt muista resursseista (Biostars, GATK-foorumit jne.).

  • Yhteinen genotyypitys auttaa hallitsemaan FDR: ää, koska erikseen genotyyppisten näytteiden virheet lisätään yhteen ja vahvistetaan, kun puhelut yhdistetään. sarjat (kirjoittanut Heng Li osoitteessa https://www.biostars.org/p/10926/)

Jos joku ymmärtää tämän, voitko selvittää mikä on ero kahden skenaarion FDR-kokonaisnopeudessa (jälleen kerran, esimerkin ollessa ihanteellinen)

  • Suurempi herkkyys matalataajuisille muunnelmille - jakamalla tietoja kaikkien näytteiden kesken, yhteispuhelut mahdollistavat ”Pelastus” genotyyppikutsut paikoissa, joissa operaattorin kattavuus on alhainen, mutta muilla puhelupaketin näytteillä on luottavainen muunnelma kyseisessä paikassa. (osoitteesta https://software.broadinstitute.org/gatk/documentation/article.php?id=4150)

En ymmärrä miten läsnäolo luottavaisesti kutsutun variantin samassa lokuksessa toisessa yksilössä voi vaikuttaa alhaisen peittävyyden omaavan yksilön genotyypitykseen. Onko olemassa pätevää argumenttia, jonka avulla voidaan pitää toisen henkilön lukemia todisteina kolmannen henkilön tietystä variantista? Mitkä ovat oletukset tällaiselle väitteelle? Entä jos kyseinen henkilö on eri väestöstä ja täysin erilaiset alleelitaajuudet kyseiselle muunnelmalle?

Luettuasi useita artikkeleita (tai menetelmien kuvauksia), jotka kuvaavat viimeisimmät haplotyyppitietoiset SNP-kutsumenetelmät (HaplotypeCaller, freebayes , Platypus) yleinen kehys näyttää olevan:

    1. Määritä priori alleelitaajuusjakaumalle kiinnostavalla paikalla käyttämällä yhtä (tai yhdistelmää): ei-informatiivinen priori, populaatiogeneettiseen malliin perustuva priori, kuten Wright Fisher, prior perustuen vakiintuneisiin variaatiomalleihin, kuten dbSNP, ExAC, tai gnomAD.
    1. Rakenna luettelo todennäköisistä haplotyypeistä kiinnostavan paikan ympärillä olevalle alueelle paikallista kokoonpanoa käyttämällä.
    1. Valitse suurimman todennäköisyyden omaava haplotyyppi aikaisempien ja luettujen tietojen perusteella ja päättele lokuksen genotyyppi vastaavasti.

Missä yllä olevan menettelyn kohdassa näytteitä koskevia tietoja voidaan jakaa tai yhdistää? Eikö pitäisi luottaa AFS: ään laajamittaisesta resurssista, kuten gnomAD, paljon enemmän kuin jakelu, joka saadaan muista näytteistä, jotka ovat nimellisesti saman "kohortin" osapuolia, mutta joilla saattaa olla vain vähän tekemistä toistensa kanssa esimerkiksi erilaisten syntyperien vuoksi?

Haluan todella ymmärtää moninäytteisen genotyypin perustelut ja edut ja kiitän oivalluksistasi.

Kaksi vastused:
user172818
2017-05-17 19:08:22 UTC
view on stackexchange narkive permalink

Sano, että järjestät 2X-peittoalueen. Oletetaan, että näytteessä S on yksi vertailupohja ja yksi vaihtoehtoinen emäs. On vaikea sanoa onko kyseessä sekvensointivirhe vai heterotsygootti. Oletetaan, että sinulla on 1000 muuta näytettä, kaikki 2x lukusyvyydellä. Yhdellä niistä on kaksi ALT-emästä; Kymmenellä niistä on yksi REF ja yksi ALT. Yleensä on epätodennäköistä, että kaikilla näillä näytteillä on sama sekvenssivirhe. Sitten voit väittää, että näytteellä S on het. Usean näytteen kutsuminen auttaa lisäämään ei niin harvinaisten SNP: iden herkkyyttä. Huomaa, että tässä on tärkeää olettaa virheiden riippumattomuus. Esivanhemmalla on vain pieni epäsuora vaikutus.

Usean näytteen kutsuminen rankaisee hyvin harvinaisia ​​SNP: itä, erityisesti yksittäisiä. Kun välität vain muunnelmista, tämä on hyvä. Yhden näytteen puheluiden yhdistäminen naiivisti tuottaa suuremman virhesuhteen. Usean näytteen kutsuminen auttaa myös varianttien suodatusta myöhemmässä vaiheessa. Esimerkiksi näytteelle, joka on sekvensoitu 30X: n peitteeseen, et tiedä, johtuuko sivusto 45X syvyydestä mahdollisesta CNV / väärinkartoituksesta tai tilastollisesta vaihtelusta. Kun näet 1000 30X-näytettä 45X-syvyydessä, voit helposti tietää, että katsot CNV / systemaattista väärinkartoitusta. Useat näytteet parantavat useimpia tilastollisia signaaleja.

Vanhemmat menetelmät yhdistävät kaikki BAM: t, kun kutsutaan variantteja. Tämä on tarpeen, koska yhdellä matalan peiton näytteellä ei ole tarpeeksi tietoa piilotettujen INDEL-tunnusten palauttamiseksi. Tätä strategiaa ei kuitenkaan ole niin helppo yhdistää massiivisesti; Uuden näytteen lisääminen käynnistää soiton uudelleen, mikä on myös erittäin kallista. Koska teemme enimmäkseen korkean kattavuuden sekvensointia näinä päivinä, vanhalla INDEL-puhelun ongelmalla ei ole väliä nyt. GATK: lla on tämä uusi yhden näytteen kutsuputki, jossa yhdistät näytekohtaiset gVCF: t myöhemmin. Tällainen näyteyhdistämisstrategia on ehkä ainoa järkevä ratkaisu, kun olet tekemisissä 100 000 näytteen kanssa.

Niin kutsuttu haplotyyppipohjainen varianttipuhelu on erillinen kysymys. Tämän tyyppinen lähestymistapa auttaa soittamaan INDEL: iin, mutta sillä ei ole paljon merkitystä moninäytepuheluille. Lisäksi kysymyksessäsi olevista kolmesta soittajasta vain GATK (ja Scalpel, jota et ole maininnut) käyttää kokoonpanoa yleensä. Freebayes ei. Platypus tekee, mutta vain rajoitetusti eikä toimi hyvin käytännössä.

Luulen, että haluat todella puhua imputointiin perustuvasta kutsusta. Tämä lähestymistapa parantaa edelleen herkkyyttä LD: n suhteen. Riittävillä näytteillä voit mitata LD: n kahden sijainnin välillä. Oletetaan, että kohdassa 1000 näet yhden REF-lukun eikä ALT-lukemia; kohdassa 1500 näet yhden REF-lukeman ja kaksi ALT-lukua. Et soita yhdelle SNP: lle sijainnissa 1000 edes useita näytteitä. Kuitenkin, kun tiedät, että nämä kaksi asemaa ovat tiiviisti yhteydessä toisiinsa ja hallitsevat haplotyypit ovat REF-REF ja ALT-ALT, tiedät, että tutkittavasta näytteestä todennäköisesti puuttuu ALT-alleeli. LD siirtää signaaleja sivustojen yli ja parantaa voimaa tehdä oikeita genotyyppipuheluja. Kuitenkin, koska teemme nykyään enimmäkseen suuren peittävyyden sekvensointia, imputointipohjaisilla menetelmillä on vain vähäinen vaikutus ja niitä käytetään harvoin.

Kiitos, muutama seuranta (jaettu useisiin kommentteihin): Yläosa kuulostaa enemmän vaihtoehtokutsulta kuin genotyypiltä, ​​mikä on jonkin verran mahdotonta laajamittaisten laaja-alaisten tutkimusten tai meneillään olevan kliinisesti kohdennetun sekvensoinnin yhteydessä. Näetkö saman logiikan sovellettavan genotyyppityöhön eli ehdollisena siitä, että lokuksessa on variantti? Mitä kamppailen, on ymmärtäminen, erävaikutusten havaitseminen syrjään, miksi luottaisimme AFS: ää koskeviin tietoihin hieman mielivaltaisesta näytekokoelmasta (geneettisesti ottaen) enemmän kuin suuresta näyteresurssista, kuten gnomAD?
En ymmärrä, miksi "Yhden otoksen puheluiden yhdistäminen naiivisti tuottaa suuremman virheprosentin." Voitteko laatia tai antaa esimerkin genotyyppien muodostamisen yhteydessä?
wrt. haplotyyppiin tai kokoonpanoon perustuvaan kutsumiseen se vain heijastaa sitä tosiasiaa, että parhaat menetelmät näyttävät järkeilevän lokuksen ympärillä olevalla alueella, ei vain itse lokuksessa, ja yritin selvittää, missä tällaisessa menetelmässä voidaan käyttää useista näytteistä peräisin olevaa tietoa . Erityisesti kattavan koko genomin sekvensoinnin yhteydessä, jossa useita näytteitä saapuu säännöllisesti analysoitavaksi eikä lopullista näytekokoa ole välttämättä.
Ylimmässä kappaleessa on kyse näytteen S * genotyypin * päättämisestä - se on genotyypin määrittäminen. Kun tiedät sivuston alleelitaajuuden (AFS on tässä väärä sanamuoto) suuremmalla väestöllä, sinulla on parempi priori. Tämä priori on vähemmän tarkka kaikissa populaatioissa, mutta parempi kuin wright-kalastaja. Kaikki nämä teoriat ovat hyödyllisiä vain lowCov: lle. HighCov: n suhteen genotyypin todennäköisyydellä on paljon suurempi vaikutus kuin aikaisemmilla ja ristinäytetiedoilla.
Loput, sinun tulee kysyä erillisiä kysymyksiä. Useiden aiheiden yhdistäminen tämän yhden kysymyksen alle on sinulle, minulle ja lukijoille vaikea ymmärtää.
Joka tapauksessa ... Kokoonpanopohjaisissa puheluissa sanoin jo, että sillä on vähän tekemistä moninäytteisten puheluiden kanssa. Yhden otoksen puheluiden yhdistämisessä selitin jo ylimmässä kappaleessa, että useiden näytteiden tarkasteleminen yhdessä auttaa genotyyppejä - mikä tarkoittaa, että tietojen käyttämättä jättäminen vahingoittaa genotyyppejä. BTW, kysymyksesi runko sekoittaa muunnoshuutoa ja genotyyppejä (esim. FDR on varianttipuheluita), mikä aiheuttaa sekaannusta minulle ja alla olevalle Devonille.
Devon Ryan
2017-05-17 18:13:19 UTC
view on stackexchange narkive permalink

Etu lisänäytteistä näkyy kohdassa 1. Todennäköisyys, että soitat muunnoksen, on (1) tiettyä muunnosta tukevan peittävyyden syvyys (sivuuttamatta kartoitusta / perustason laatua) ja (2) todennäköisyys, että muunnos on olemassa oleva taustatieto. Pienellä syvyydellä ja ilman taustatietoa huonosti peitettyjen varianttien oletetaan olevan sekvenssivirheitä. Lisää näytteitä voi vain auttaa lisäämään taustatietoa sijainnista.

Kiitos Devon, kysymys kohdistuu nimenomaan genotyypitykseen eli sinun on jo ajateltava, että siellä on muunnos.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...