Laboratorion NGS-tiedostotietokannan suunnittelu

Gus

2017-05-22 21:32:41 UTC

view on stackexchange narkive permalink

Olen asuva Bioinfo Geek sairaalan akateemisessa laboratoriossa, joka käyttää säännöllisesti NGS: ää, CyTOF: ää ja muita suuria määriä dataa tuottavia teknologioita. Olen kyllästynyt nykyiseen "protokollaamme" metatietojen keräämisestä ja yhdistämisestä lopputuotteisiin (miriad excel -taulukot ja pari huonosti suunniteltuja RedCap-tietokantoja).

Haluan toteuttaa keskitetyn jäsennellyn, hallitun tietopalvelun, joka huolehdi tästä. Tiedän, että käyttöliittymä teknikoille, miten tiedot syötetään, on ratkaisevan tärkeää niiden hyväksymiselle, mutta tämä ei ole tämän erityisen kysymyksen keskipiste: Onko tämän tyyppiselle tietokannalle olemassa kaava- tai kaavaohjeita? vahva>

Haluaisin mieluummin käyttää mallia, jonka ovat kehittäneet ihmiset, jotka osaavat tehdä tämän hyvin. Tiedän BioSQL: n, mutta se näyttää olevan suunnattu täydellisiin proteiini / nukleotiditietueisiin, kuten uniprotissa tai genbankissa. Sitä ei ole täällä. Haluan jotain samanlaista kuin tässä esipainoksessa käsitellyt järjestelmä: http://biorxiv.org/content/early/2017/05/10/136358

Vaihtoehtoisesti Voiko kukaan antaa linkkejä mistä voin löytää asiaankuuluvia ohjeita tai antaa henkilökohtaisia neuvoja?

Haluatko tallentaa käsiteltyjä tai käsittelemättömiä tietoja? Mikä olisi esimerkkitiedostomuoto, jota yrität kaapata?

Tämä on enimmäkseen ensisijaista tietojärjestelmää varten: saamme 800 WAM-muistia WES: ää ja haluan, että jokaisen BAM: n tiedoston sijainti liitetään metatietoihin, kuten PROJECT, READ_LENGTH, SAMPLE_NAME, FAMILY_ID, DATA_TYPE, DIAGNOSIS jne.

Hei Gus, teemme myös samaa tutkimusta ja loimme tämän kysymyksen Biostarsissa. Kerro meille, jos löysit jotain! https://www.biostars.org/p/350514/

CREATE TABLE Project (ac TEXT, - project / Study liittyminen ENSIMMÄINEN AVAIN ( CREATE TABLE Sample (- biologinen näyte / biopsia ac TEXT, ENSIMMÄINEN AVAIN (ac)); CREATE TABLE AnalysisSample (prj_ac TEXT, - projektin liittymismerkki (Project.ac) symboli TEXT, - lyhyt nimi, joka on ainutlaatuinen projektin näyte_ac TEKSTI, - näytteen liittyminen (näyte.ac) ENSIMMÄINEN AVAIN (prj_ac, symboli)); LUO TAULUKON kokoelma (- BAM-tiedosto ac TEXT, - kokoelma- / kohdennustiedoston liittyminen prj_ac TEXT, - projektin liittyminen ( Project.ac) ENSIMMÄINEN AVAIN (ac)); Luo taulukko ReadGroup (cl_ac TEXT, - kokoelman liittyminen (Collection.ac) rg_id TEXT, - @ RG-ID sample_sym TEXT, - @ RG-SM; vastaava AnalysisSample.symboli ENSIMMÄINEN AVAIN (cl_ac, rg_id)); LUO TAULUKKO VariantSet (- VCF-tiedosto ac TEXT, - VCF-tiedosto liittyminen prj_ac TEXT, - projektin liittyminen (Project.ac) ENSIMMÄINEN AVAIN (ac)); LUO TAULUKKO Va riantSample (vs_ac TEXT, - VCF-tiedoston liittyminen (VariantSet.ac) sample_sym TEXT, - näytesymboli VCF-tiedostossa; vastaavat AnalysisSample.symbol ENSIMMÄINEN AVAIN (vs_ac, sample_sym));