Sekvenssin tasaus käyttämällä Markov-mallia

Kysymys:

Zeyuan

2018-09-11 13:30:16 UTC

view on stackexchange narkive permalink

Olen oppinut soveltamaan Markov-mallia sekvenssin tasaamiseen. Prof. sanoo, että siirtymän todennäköisyydet aukon ja jäännöksen tasaamisesta jäännöksen ja aukon tasaamiseen ja päinvastoin ovat molemmat 0. Onko tämän lausunnon takana mitään biologista / matemaattista syytä? Miksi solut (X, Y) ja (Y, X) ovat 0? Tämä on luentokalvo luennosta 1, viikko 4 Courserasta "Bioinformatiikka: Johdanto ja menetelmät" -kurssilla.

Kaksi vastused:

Chris_Rands

2018-09-11 14:09:49 UTC

view on stackexchange narkive permalink

Jos ymmärrän kysymyksesi oikein, mielestäni pareittain kohdistamisen tapauksessa on olemassa yksinkertainen selitys.

Uskon, että tärkein oivallus on, että: ristiriidan tulisi aina olla parempi kuin aukko . *

Tämä seuraa biologisesti, koska insertio- / deleetio (indel) -nopeus on karkeasti 1/10 substituutioasteen nopeudesta (ts. yksittäisten nukleotidimuutosten esiintyminen), ainakin selkärankaisilla. (Tämä vaihtelee elämän puussa, mutta mielestäni korvausaste ylittää käytännössä aina indel-arvon.)

Ymmärrä miksi tämä on tärkeää, harkitse esimerkkiä:

  ATG -AGATGT-G

Tämä on 'mahdoton tasaus' antamiesi todennäköisyyksien alapuolella, koska tässä on siirtyminen aukko-jäännös-tasauksesta jäännös-aukkoon.

Jos oletamme, että ristiriidat ovat todennäköisempiä biologisesti kuin indelit, oikean kohdistuksen tulisi olla:

  ATGAGATGTG

Jälkimmäinen näyttääkin kuten parempi suuntaus.

Tämä seuraa myös monimutkaisempia esimerkkejä, joten tämä:

  ATG - AAGATGTT-AG

Tästä tulee:

  ATG-AAGATGTTAG

(Tai:

  ATGA-AGATGTTAG

)

* Tarkoitan tarkkaan, että vaihdon pitäisi saada parempi tulos kuin indel (siihen liittyvien aukkojen avautumis- ja pidennysrangaistusten kanssa). Itse asiassa, jotta oletus olisi aina totta, ristiriitaisuuksien pitäisi silti olla huonompi kuin yksi indel. Tämä ei välttämättä ole aina oikea oletus, harkitse tätä esimerkkiä alla, onko todellinen kohdistustapaus 1) tai 2) vai jotain muuta? Vai onko itse asiassa maailmanlaajuinen kohdistus huono, ja tämä pitäisi jakaa kahteen paikalliseen kohdistukseen? Onko mahdollista biologista mutaatiotapahtumaa selittää tämän? Esitän nämä kysymykset vain osoittaakseni, että se ei ole mustavalkoinen, minulla ei ole selkeitä vastauksia

  CGTACGTAGAGGAATGCCCCCCCCC ------ --AGCAACGTAGCAT CGTACGTAGAGGAATG --------- TTTTTTTTAGCAACGTAGCAT

  CGTACGTAGAGGAATGCCCCCCCCCAGCAACGTAGCAT CGTACGTAGAGGAGAGETTTTTTT-AGCAACGTAGCAT

user172818

2018-09-12 23:51:02 UTC

view on stackexchange narkive permalink

Kaikki Chris_Randsin sanomat tiedot ovat oikein: valitset $ X \: n todennäköisyydeksi Y $ ja $ Y \: n arvoksi X $ arvoksi 0 kieltää vierekkäiset lisäykset / poistot tasauksesta. Monet säännöt, mukaan lukien jotkut klassiset, käyttävät tätä sääntöä, mutta itse asiassa sääntö on kyseenalainen. On helpompaa nähdä tämä Smith-Waterman-linjauksesta affiinisen aukon rangaistuksen alla, mikä on suurimmaksi osaksi ei-todennäköinen näkemys pariksi liitetystä HMM: stä.

Affine-aukon rangaistuksella pituinen rako $ k>0 $ on pisteytettiin muodossa $$ g (k) = - (d + k \ cdot e) $$, jossa $ d \ ge0 $ on aukon avoin rangaistus ja $ e>0 $ on aukon jatkamisen rangaistus. Oletetaan, että käytämme yksinkertaista pisteytysmatriisia, jossa ristiriita saa $ -b $, $ b>0 $. Saatamme nähdä lisäyksen, jota seuraa välittömästi poisto (ja päinvastoin), jos $ b>2e $. Ei todellakaan ole niin vaikeaa, että tämä tapahtuu. Esimerkiksi ihmisen ja hiiren kohdistuksessa (katso blastz-paperi), $ e = 30 $ ja $ b $ vaihtelevat välillä 31-125. On mahdollista, että $ X \ - Y $ siirtyminen on suositeltava kohdistuksessa.

Teoriassa on järkevämpää harkita välittömiä siirtymiä lisäysten ja poistojen välillä. Käytännössä ero tällaisten siirtymien sallimisen / kieltämisen välillä on kuitenkin todennäköisesti pieni.

EDIT: Chrisin esimerkissä

  CGTACGTAGAGGAATGCCCCCCCCCC ------ --AGCAACGTAGCAT CGTACGTAGAGGAATG --------- TTTTTTTTAGCAACGTAGCAT

Jos käytämme pisteytysmatriisia $ b>2e $: n kanssa, mutta estämme vierekkäiset ins-to-del-siirtymät, luultavasti päätymme kohdistuksella, kuten

  CGTACGTAGAGGAATGCCCCCCCCC ------- AGCAACGTAGCAT CGTACGTAGAGGAATG -------- TTTTTTTTAGCAACGTAGCAT

Tämä kohdistustulos on pienempi .

ⓘ

Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 4.0-lisenssistä, jolla sitä jaetaan.

about - legalese