Konteksti
PDB-tiedostomuoto on kiinteän sarakkeen tiedostomuoto, joka on suunniteltu 1970-luvulla makromolekyylien rakennemallien tallentamiseen. Muoto on ollut käytössä pitkään, sillä on monia käyttötarkoituksia, ja vaikka siinä on viralliset tiedot, liikkeessä olevat tiedostot eivät välttämättä noudata sitä. Siinä on aina luettelo atomeista, joissa on koordinaatit (kaksi ensimmäistä riviä lisätään korostamaan, että se on kiinteän sarakkeen muoto, ne eivät ole osa tiedostoa):
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890ATOM 1 N VAL A 1 3.320 14.780 4.844 1.00 35.53 NATOM 2 CA VAL A 1 3.577 16.239 4.984 1.00 35.39 CATOM 3 C VAL A 1 4.896 16.3985277 A 1 2.343 16.975 5.494 1.00 45.39 CATOM 6 CG1 VAL A 1 2.586 18.497 5.590 1.00 60.06 CATOM 7 CG2 VAL A 1 1.103 16.811 4.634 1.00 53.93 CATOM 8 N LEU A 2 5.748 17.241 5.158 1.00 28.04 NATOM 9 CA LEU A 2 7.116 17.471 5 .661 1,00 24,31 CATOM 10 C LEU A 2 7.166 18.490 6.792 1.00 24.00 C ...
tai, jos haluat näyttää jonkin verran RNA:
ATOM 42 N3 GB 2 9.252 12.871 -1.168 1.00 36.98 NATOM 43 C4 GB 2 8.424 12.964 -2.233 1.00 34.09 CATOM 44 PAB 3 10.376 8.321 -4.834 1.00 40.53 PATOM 45 OP1 AB 3 11.773 8.279 -5.364 1.00 38.97 OATOM 46 OP2 AB 3 9.396 7.283 -5.218 39,32 OATOM 47 O5 'AB 3 10,429 8,473 -3,211 1,00 36,55 O
ATOM 48 C5 'AB 3 11.698 8.232 -2.554 1.00 35.13 C
Protein Data Bank - kansainvälinen instituutio, joka arkistoi ja merkitsee kaikkien biologisten molekyylien rakennemalleja voi tallettaa - käyttää nyt ensisijaisena muotona mmCIF . Kiinteän sarakkeen PDB-muodossa oli luonnostaan rajoituksia (enintään 99 999 atomia, mutta myös oli vaikea sisällyttää lisätietoja). Ne tuottavat edelleen PDB-tiedostoja, jos mahdollista (eli suurimpia rakenteita lukuun ottamatta), mutta ainoa talletuksiin nyt hyväksytty muoto on mmCIF.
mmCIF: llä on melko ei intuitiivinen CIF-syntakse (ajattele JSON tai XML, mutta suunniteltu ennen XML: ää) sekä ontologia, jonka määrittelee PDBx / mmCIF-sanakirja (ajattele XML-skeemaa). MmCIF: n sisältö on jaettu taulukkomaisiin luokkiin, joissa on taulukoiden väliset suhteet (se on suunniteltu RDMBS-suosion huipulla) ja sitä on vähän vaikeampaa työskennellä, joten vanha ATE-muoto on suositumpi.
Jaksot ATE: stä
ATE-muodossa on tietue nimeltä SEQRES
, joka nimenomaisesti listaa sekvenssin, esimerkiksi (5NEO):
SEQRES 1 A 18 GGUGGGGACGACC SEQRES 2 A 18 CCA CBV C
mmCIF-muodossa on lisätietoja:
_entity_poly.pdbx_seq_one_letter_code 'GGUGGGGACGACCCCA (CBV) C' _entity_poly.pdbx_seq_one_letter_code_can GGUGGGGGCCACCCC ntity_poly.pdbx_strand_id Silmukka__entity_poly_seq.entity_id _entity_poly_seq.num _entity_poly_seq.mon_id _entity_poly_seq.hetero 1 1 G n 1 2 G n 1 3 U n 1 4 G n 1 5 G n 1 6 G n 1 7 G n 1 C n 1 10 G n 1 11 A n 1 12 C n 1 13 C n 1 14 C n 1 15 C n 1 16 A n 1 17 CBV n 1 18 C n
sekvenssi on kätevästi purettu sinulle.
Lisäksi mmCIF: ssä oleva _entity_poly_seq
sisältää tietoja mikroheterogeenisuudesta eikä SEQRES-tietue. On merkitystä, kun mallissa on kaksi vaihtoehtoista tähdettä samassa paikassa, koska osassa näytettä oli pistemutaatio.
ATE-tiedostoilla, jotka eivät ole peräisin ATE: stä, ei yleensä ole SEQRES-tietuetta. Saatat saada sekvenssin atomiluettelosta (tähteiden nimet sarakkeissa 18-20), mutta joitain tähteitä saattaa puuttua atomiluettelosta, jos atomiasemia ei voitu määrittää.
Joten sen pitäisi olla helppoa Esimerkiksi BioPythonilla on BioSeqIO-moduuli, jossa on kaksi PDB-pseudomuotoa:
- pdb-seqres - Lukee proteiinitietopankin (PDB) tiedoston proteiinisekvenssin määrittämiseksi. sellaisena kuin se näkyy otsikossa (ei riippuvuuksia).
- pdb-atomi - käyttää Bio.PDB: tä määrittämään (osittaisen) proteiinisekvenssin sellaisena kuin se esiintyy rakenteessa tiedoston atomikoordinaattiosan perusteella ( vaatii NumPy for Bio.PDB).
Yritin juuri BioPython 1.66: ta ja vaikka SeqIO.parse ()
pystyy purkamaan proteiinisekvenssin, se epäonnistuu RNA: n kanssa , kuten 5NEO yllä. Hups.
Toissijaiset rakenteen rajoitukset
Tässä voidaan ajatella erilaisia rajoituksia. Kirjoitan tarkennuksessa käytetyistä rajoituksista. Pelkästään kokeelliset tiedot eivät riitä mallin tarkentamiseen, joten tarvitaan rajoituksia, jotka edustavat aikaisempaa tietoa - atomisidosten pituudet, kulmat, tasomaiset rajoitukset, rajoitukset, jotka perustuvat paikalliseen samankaltaisuuteen muiden rakenteiden kanssa jotka määritettiin korkeamman resoluution tiedoista jne., mikä tahansa voi auttaa tekemään järkevän mallin. Tarkennusohjelmat (kuten Refmac, BUSTER, Phenix.refine) yrittävät sovittaa mallin tietoihin ja tyydyttää geometriset rajoitukset samanaikaisesti.
Makromolekyylikristallografiaohjelmisto on melko pirstoutunut ja prosessissa käytetään yleensä useita erilaisia ohjelmia. Sattuu, että toissijaisten rakennerajoitusten luomiseen tarkoitetut ohjelmat ovat erillään varsinaisista tarkennusohjelmista. (Toissijaiset rakenteen rajoitukset ovat vähemmän välttämättömiä kuin kovalenttisten sidosten rajoitukset). CCP4: llä on LibG-ohjelma, joka tekee DNA: n / RNA: n rajoituksia Refmacille. Phenixillä on ohjelma nimeltä phenix.secondary_structure_restraints, tai voit käyttää palvelinta UCSC: ltä.
Näillä rajoituksilla ei ole "hakasulkuformaattia". , mutta ne määrittelevät nimenomaisesti odotetut etäisyydet ja kulmat atomien välillä. Esimerkiksi (phenix.refine):
bond {action = * add atom_selection_1 = ketju A ja jäännös 1 ja nimi O6 atom_selection_2 = ketju A ja jäännös 18 ja nimi N4 distance_ideal = 2,91 sigma = 0.1}
tai (Refmacille):
exte dist ensimmäinen ketju A resi 16 ins. atomin N6 toinen ketju A resi 3 ins. atomin O4 arvo 2,94 sigma 0,15 tyyppi 1 ex dista ensimmäinen ketju A resi 16 ins. atomin N1 toinen ketju A resi 3 ins. atomin N3-arvo 2,84 sigma 0,1 tyypin 1 rasitus ensimmäinen ketju A resi 16 ins. atomin C2 toinen ketju A resi 16 ins. atomin N1 kolmas ketju A resi 3 ins. atomin N3 neljäs ketju A resi 3 ins. atomin C4 arvo 180 sigma 15 tyyppi 1