Kysymys:
Mikä on ero FASTA-, FASTQ- ja SAM-tiedostomuotojen välillä?
kenorb
2017-05-16 23:37:28 UTC
view on stackexchange narkive permalink

Haluaisin oppia eroja 3 yleisen muodon välillä, kuten FASTA, FASTQ ja SAM. Kuinka ne ovat erilaisia? Onko hyötyä toistensa käytöstä?

Wikipedia-sivujen perusteella en osaa erottaa niiden välisiä eroja.

Neljä vastused:
Konrad Rudolph
2017-06-02 17:16:25 UTC
view on stackexchange narkive permalink

Aloitetaan siitä, mikä heillä on yhteistä: Kaikki kolme muotoa tallentavat

  1. sekvenssitiedot ja
  2. sekvenssin metatiedot.

Lisäksi kaikki kolme muotoa ovat tekstipohjaisia.

Sen lisäksi kaikki kolme muotoa ovat kuitenkin erilaiset ja palvelevat eri tarkoituksia.

Aloitetaan yksinkertaisimmasta muodosta:

FASTA

FASTA tallentaa vaihtelevan määrän sekvenssitietueita, ja jokaiselle tietueelle se tallentaa itse sekvenssin ja sekvenssitunnuksen. Jokainen tietue alkaa otsikkorivillä, jonka ensimmäinen merkki on > , jota seuraa sekvenssitunnus. Tietueen seuraavat rivit sisältävät varsinaisen sekvenssin.

Wikipedia-artikkeli antaa useita esimerkkejä peptidisekvensseistä, mutta koska FASTQ: ta ja SAM: ta käytetään yksinomaan (?) Nukleotidisekvensseihin, tässä on nukleotidisekvenssi, esimerkiksi:

  >Mus_musculus_tRNA-AlaAGC-1-1 (chr13.trna34-AlaAGC) GGGGGTGTAGCTCAGTGGTAGAGCGCGTGCTTAGCATGCACGAGGcCCTGGGTTCGATCCCCAGCACCTCCA>Mus_musculus_tRNA-AlaAGC-10-1 (chr13.trna457-AlaAGC) GGGGGATTAGCTCAAATGGTAGAGCGCTCGCTTAGCATGCAAGAGGtAGTGGGATCGATGCCCACATCCTCCA  

Tunnus voi olla missä tahansa mielivaltaisessa muodossa, vaikka on olemassa useita käytäntöjä.

Nukleotidisekvenssien yhteydessä FASTA: ta käytetään enimmäkseen tallennukseen vertailutieto; toisin sanoen kuratoidusta tietokannasta otetut tiedot; yllä oleva on mukautettu GtRNAdb: stä (tRNA-sekvenssien tietokanta).

FASTQ

FASTQ on suunniteltu ratkaisemaan sekvensoinnin aikana syntyvä erityinen ongelma: johtuu miten eri sekvensointitekniikat toimivat, luottamus jokaiseen peruspuheluun (eli arvioitu todennäköisyys tietyn nukleotidin tunnistamiseksi oikein) vaihtelee. Tämä ilmaistaan ​​ Phred-laatupisteissä. FASTA: lla ei ollut standardoitua tapaa koodata tätä. Sitä vastoin FASTQ-tietue sisältää laatupisteiden sarjan jokaiselle nukleotidille.

FASTQ-tietueella on seuraava muoto:

  1. Rivi, joka alkaa @ , sisältää sekvenssitunnuksen.
  2. Yksi tai useampi rivi, joka sisältää sekvenssin.
  3. Uusi rivi, joka alkaa merkki + , ja joko tyhjä tai toistuva sekvenssitunnus.
  4. Yksi tai useampi rivi, joka sisältää laatupisteet.

Tässä on esimerkki FASTQ tiedoston kaksi levyä:

  @ 071112_SLXA-EAS1_s_7: 5: 1: 817: 345GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC + IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @ 071112_SLXA-EAS1_s_7: 5: 1: 801: 338GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA + IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI  

FASTQ-tiedostoja käytetään enimmäkseen lyhytlukuisten tietojen tallentamiseen korkean suorituskyvyn sekvensointikokeista. Järjestys- ja laatupisteet asetetaan yleensä yhdelle riville, ja monissa työkaluissa oletetaan, että jokainen FASTQ-tiedoston tietue on täsmälleen neljä riviä pitkä, vaikka tätä ei taata.

Kuten FASTA: n kohdalla , sekvenssitunnuksen muoto ei ole standardoitu, mutta eri FASTQ-tuottajat käyttävät kiinteitä merkintöjä, jotka noudattavat tiukkoja käytäntöjä.

SAM

SAM-tiedostot ovat niin monimutkainen, että täydellinen kuvaus [PDF] vie 15 sivua. Joten tässä on lyhyt versio.

SAM-tiedostojen alkuperäinen tarkoitus on tallentaa suuritehoisten sekvensointien sekvenssien kartoitustiedot. Tämän seurauksena SAM-tietueen on tallennettava muutakin kuin sekvenssi ja sen laatu, sen on myös tallennettava tietoja siitä, missä ja miten sekvenssi kartoitetaan viitteeseen.

Toisin kuin edellisissä muodoissa, SAM on välilehtipohjainen, ja jokainen tietue, joka koostuu joko 11 tai 12 kentästä, täyttää täsmälleen yhden rivin. Tässä on esimerkki (välilehdet korvataan kiinteän leveyden välillä):

  r001 99 chr1 7 30 17M = 37 39 TTAGATAAAGGATACTG IIIIIIIIIIIIIIIIIr002 0 chrX 9 30 3S6M1P1I4M * 0 0 AAAAGATAAGGATA IIIIIIIIII6IBI NM: i: 1  

Katso yksittäisten kenttien kuvaus dokumentaatiosta. Asiaankuuluva bitti on tämä: SAM voi ilmaista täsmälleen samat tiedot kuin FASTQ, plus, kuten mainittiin, kartoitustiedot. SAM-tiedostoa käytetään kuitenkin myös lukutietojen tallentamiseen ilman kartoitustietoja.

Järjestysrekisterien lisäksi SAM-tiedostot voivat sisältää myös otsikon , joka tallentaa tietoja viitteestä, johon sekvenssit on yhdistetty, ja työkalusta, jota käytettiin SAM-tiedoston luomiseen. Otsikkotiedot edeltävät sekvenssitietueita, ja ne koostuvat riveistä, jotka alkavat @.

Itse SAM-tiedostoa ei koskaan käytetä tallennusmuodona; sen sijaan tiedostot tallennetaan BAM-muodossa, joka on kompakti binäärinen SAM-esitys. Se tallentaa samat tiedot, vain tehokkaammin, ja yhdessä hakuindeksin kanssa mahdollistaa yksittäisten tietueiden nopean hakemisen tiedoston keskeltä (= nopea satunnainen käyttö) . BAM-tiedostot ovat myös paljon pienikokoisempia kuin pakatut FASTQ- tai FASTA-tiedostot.


Yllä oleva viittaa hierarkiaan , johon muodot voivat tallentaa: FASTA ⊂ FASTQ ⊂ SAM.

Tyypillisessä korkean suorituskyvyn analyysityönkulussa kohtaat kaikki kolme tiedostotyyppiä:

  1. FASTA viittausgenomin / transkription tallentamiseksi, johon sekvenssifragmentit kartoitetaan.
  2. FASTQ sekvenssifragmenttien tallentamiseksi ennen kartoitusta.
  3. SAM / BAM sekvenssifragmenttien tallentamiseksi kartoituksen jälkeen.
Miksi FASTQ-muodossa on plusmerkki?
@charlesdarwin Minulla ei ole aavistustakaan. Plusmerkillä varustettu viiva on täysin tarpeeton. Alkuperäiset FASTQ-muodon kehittäjät tarkoittivat sitä todennäköisesti redundanssina virhetarkistuksen yksinkertaistamiseksi (= nähdäksesi, onko tietue täydellinen), mutta se epäonnistuu siinä. Jälkikäteen sitä ei olisi pitänyt sisällyttää. Valitettavasti olemme juuttuneet siihen toistaiseksi.
@KonradRudolph sikäli kuin tiedän, fastq on yhdistelmä fasta- ja laatutiedostoja, katso myös https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2847217/Tämä selittää laatuosan otsikon. Sillä ei kuitenkaan ole järkeä, että olemme jumissa sen kanssa ...
eastafri
2017-05-16 23:57:28 UTC
view on stackexchange narkive permalink

Pähkinänkuoressa

FASTA -tiedostomuoto on DNA-sekvenssimuoto DNA-sekvenssien määrittelemiseksi tai esittämiseksi, ja sen kuvaili ensin Pearson (Pearson, WR ja Lipman , DJ (1988) Parannetut työkalut biologisen sekvenssin vertailuun. Proc. Natl Acad. Sci. USA, 85, 2444–2448)

FASTQ on toinen DNA-sekvenssi tiedostomuoto, joka laajentaa FASTA-formaattia mahdollisuudella tallentaa sekvenssin laatu. Laatupisteet esitetään usein ASCII-merkkeinä, jotka vastaavat phred-pisteitä.

Sekä FASTA että FASTQ ovat yleisiä sekvenssin esitysmuotoja, ja ne ovat nousseet molekyylibiologian ja bioinformatiikan keskeisiksi tiedonvaihtomuodoksi.

SAM on muoto, joka edustaa sekvenssin kohdistustietoja luetusta kohdistimesta. Se edustaa sekvenssitietoja annettuun viitesekvenssiin nähden. Tiedot tallennetaan sarkaimilla erotettuihin ASCII-sarakkeisiin. Täydelliset SAM-muotoiset määritykset ovat saatavilla osoitteessa http://samtools.sourceforge.net/SAM1.pdf

Historiallisessa merkityksessä Sanger-instituutti käytti ensin FASTQ-muotoa.
SAM voi myös (ja sitä käytetään yhä enemmän siihen, katso PacBio) tallentaa kohdistamattomia sekvenssitietoja, jotka vastaavat tältä osin FASTQ: ta.
Huomaa, että fasta käytetään usein myös proteiinitietoihin, ei vain DNA: han.
BaCh
2017-05-16 23:53:39 UTC
view on stackexchange narkive permalink

Muuten, kysymyksesi ensimmäinen osa on asia, jonka olisit voinut etsiä itse, sillä ensimmäiset osumat Googlessa "NAME-muodossa" osoittavat sinut Wikipedian alkeisiin. Tee tulevaisuudessa se ennen kysymyksen esittämistä.

  1. FASTA
  2. FASTQ
  3. SAM

FASTA (virallisesti) vain tallentaa sekvenssin nimen ja sekvenssin, epävirallisesti ihmiset lisäävät myös kommenttikenttiä sekvenssin nimen jälkeen. FASTQ keksittiin sekä sekvenssin että siihen liittyvien laatuarvojen tallentamiseksi (esim. Sekvensointilaitteista). SAM keksittiin tallentamaan (pienten) sekvenssien (esim. Sekvenssistä syntyneiden) kohdistukset niihin liittyviin laatuarvoihin ja joitain muita tietoja suurempiin sekvensseihin, joita kutsutaan vertailusekvensseiksi, joista jälkimmäiset ovat mitä tahansa pienestä virussekvenssistä erittäin suuriin kasvisekvensseihin.

Alon Gelber
2017-05-17 00:50:21 UTC
view on stackexchange narkive permalink

FASTA- ja FATSQ-tiedostomuodot ovat molemmat tiedostomuotoja, jotka sisältävät sekvenssilukuja, kun taas SAM-tiedostot ovat nämä kohdakkain referenssisekvenssiin. Toisin sanoen, FASTA ja FASTQ ovat sekvensoinnin "raakatiedot", kun taas SAM on sekvenssilukemien kohdentamisen tulos vastaukseksi.

FASTA-tiedosto sisältää luetun nimen ja järjestyksen. Esimerkki yhdestä näistä RNASeq-lukemista voi olla:

  >Flow-solunumero: kaistan numero: sirujen koordinaatit jne. ATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGTA Luetuilla on vielä kaksi riviä, yksi + välilyönninä ja sitten rivi laatupisteitä peruspuheluille. Ominaisuudet annetaan merkkeinä '!' on pienin ja '~' korkein, kasvattaessa ASCII-arvoa. Se näyttäisi tältä tältä  
  @Flow-solunumero: kaistan numero: sirukoordinaatit jne. ATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTA +! '' * ((((*** +)) %%% ++) %%%%). 1 *** - + * ''))) ** 55CCF>>>>>>CCCCCCC65  

SAM-tiedostossa on useita kenttiä jokaiselle tasaukselle, otsikko alkaa @ -merkillä. Tasaus sisältää 11 pakollista kenttää ja useita valinnaisia ​​kenttiä. Löydät teknisen tiedoston täältä: https://samtools.github.io/hts-specs/SAMv1.pdf.

Näet usein vain BAM-tiedostoja pakatut binaariversiot SAM-tiedostoista. Voit tarkastella näitä kohdistustiedostoja useilla työkaluilla, kuten SAMtools, IGV tai USCS Genome -selain.

Hyötyjen osalta FASTA / FASTQ vs. SAM / BAM vertaa omenoita ja appelsiineja. Teen paljon RNASeq-työtä, joten yleensä otamme FASTQ-tiedostot ja kohdistamme ne refseqiin käyttämällä kohdistinta, kuten STAR, joka tuottaa SAM / BAM-tiedostoja. Pelkästään näillä kohdistustiedostoilla on paljon tekemistä lauseketta tarkasteltaessa, mutta yleensä käytän RSEM: n kaltaista työkalua lukemaan eri geenien lukemat ilmaisumatriisin luomiseksi, näytteet sarakkeina ja geenit riveinä. Saitko FASTQ- tai FASTA-tiedostoja, riippuu vain sekvensointialustastasi. En ole koskaan kuullut kenenkään todella käyttävän laatupisteitä.

Varovasti, FASTQ-muodon kuvaus on väärä: FASTQ-tietue voi ulottua yli neljään riviin; `` `ei myöskään ole paikkamerkki, se on erotin sekvenssin ja laatupisteiden välillä, ja sen jälkeen valinnainen tietuetunnuksen toisto. Lopuksi laatupistemerkkijonon on oltava saman pituinen kuin sekvenssi.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...