”Jokainen elävä solu kantaa mukanaan esi-isiensä miljardin vuoden kokeilujen kokemuksia.” Max Delbruck, 1949.
Kaksoiskierteen löytyminen vuonna 1953 herätti välittömästi kysymyksiä siitä, miten biologinen tieto on koodattu DNA:han1. Rakenteen merkittävä piirre on se, että DNA:han mahtuu lähes mikä tahansa emäsparien sekvenssi – mikä tahansa emästen adeniinin (A), sytosiinin (C), guaniinin (G) ja tymiinin (T) yhdistelmä – ja siten mikä tahansa digitaalinen viesti tai informaatio. Seuraavalla vuosikymmenellä havaittiin, että kukin geeni koodaa komplementaarista RNA-transkriptiota, jota kutsutaan sanansaattaja-RNA:ksi (mRNA)2 ja joka koostuu T:n sijasta A:sta, C:stä, G:stä ja urasiilista (U). DNA:n ja RNA:n neljää emästä vastaa proteiinien 20:tä aminohappoa triplettikoodin avulla – kukin geenissä oleva kolme kirjainta (tai ”koodonia”) koodaa yhtä aminohappoa3. Esimerkiksi AGT koodaa aminohappoa seriini. Aminohapot muodostavien DNA-kirjainten sanakirjaa kutsutaan geneettiseksi koodiksi4. Erilaisia tripletteja tai koodoneja on 64, joista 61 koodaa aminohappoa (eri tripletit voivat koodata samaa aminohappoa), ja kolmea niistä käytetään ”välimerkkeinä”, sillä ne merkitsevät kasvavan proteiiniketjun päättymistä.
Kaksoiskierteen molekyylikomplementaarisuudella – jossa DNA:n yhden säikeen kukin emäs muodostaa parin kumppanin säikeessä olevan komplementaarisen emäksensä kanssa pariliitoksensa kanssa (A T:n kanssa ja C:n ja G:n kanssa)) – on syvällisiä seurauksia biologialle. Kuten James Watson ja Francis Crick vihjasivat uraauurtavassa artikkelissaan1 , emäspariutuminen viittaa mallin kopiointimekanismiin, joka selittää geneettisen materiaalin kopioinnin uskollisuuden DNA:n replikaation aikana (ks. Albertsin artikkeli tässä numerossa, sivu 431). Se tukee myös mRNA:n synteesiä DNA-mallista sekä vaurioituneen DNA:n korjausprosesseja (Friedbergin artikkeli sivulla 436).
Työkaluja DNA:n muokkaamiseen
Entsyymejä, jotka toimivat soluissa kopioidessaan, leikatessaan ja liittäessään DNA-molekyylejä toisiinsa, hyödynnettiin myös keskeisinä työvälineinä vallankumouksellisissa uusissa tekniikoissa molekyylibiologian alalla, mukaan luettuina geenien kloonaus ja niiden valkuaisaineiden ilmentyminen sekä geenien sijainnin kartoitus kromosomeissa. Kyky luoda DNA:n monistumisprosessi keinotekoisesti uudelleen laboratoriossa johti kahden biologiaa muuttaneen tekniikan kehittämiseen: manuaaliseen DNA-sekvensointimenetelmään vuonna 1975 ja polymeraasiketjureaktion (PCR) keksimiseen vuonna 1985, jolloin DNA-sekvenssejä pystyttiin monistamaan miljoonakertaisiksi tai useammiksi5.
Vaikkakin sekvensointi- ja PCR-menetelmät muuttivat biologian tieteenalaa, niillä oli myös laaja-alaisia sovellutuksia lääketieteessä ja rikostekniikassa. DNA-sekvenssin yksilöllisen vaihtelun – niin sanottujen ”polymorfismien” – havaitseminen muodostaa perustan yksilöiden DNA-”sormenjälkien” tunnistamiselle. Oikeuslääketiede käyttää näitä sormenjälkiä isyyskiistojen ratkaisemisessa sekä rikostapauksissa, kuten raiskauksissa. Havainto, että monet erityiset DNA-polymorfismit liittyvät sairauksiin tai sairausalttiuteen, on tuonut DNA-diagnostiikan lääketieteeseen ja avannut tien aidosti ennakoivaan lääketieteeseen, jossa sairauden riskit voidaan tunnistaa jo ennen oireiden ilmaantumista (ks. Bellin artikkeli tässä numerossa, s. 414).
DNA:n automatisoitu sekvensointi
Ensimmäiset DNA:n sekvensointipyrkimykset, joiden edelläkävijöinä toimivat Walter Gilbert6 ja Fred Sanger7 1970-luvulla, purkivat DNA:n muutamien satojen emäspisteiden pituisia jaksoja. Kun ensimmäinen täydellinen genomi sekvensoitiin noin vuoden aikana vuosina 1977-78 – noin 5 000 emäksen viruksen genomi8 – kävi selväksi, että DNA:n sekvensointitiedot voivat tarjota ainutlaatuista tietoa geenien rakenteesta ja toiminnasta sekä genomin organisaatiosta. Juuri tämä mahdollisuus tuottaa valtavia määriä tietoa organismista sen geneettisestä koodista innoitti pyrkimyksiä DNA:n sekvensoinnin automatisointiin (kuva 1).
Teknisen nerokkuuden ja intensiivisen automatisoinnin yhdistelmä käynnisti seuraavalla vuosikymmenellä ”genomisen aikakauden”. Useat uudet välineet mahdollistivat uudenlaiset lähestymistavat biologiseen analyysiin9,10,11. Ensimmäinen sekvensointilaite, jonka Leroy Hood, Lloyd Smith ja Mike Hunkapiller keksivät vuonna 1986 (viite 12), automatisoi tiedonkeruun, mutta vaati edelleen huomattavaa manuaalista työtä, ja sekvensointinopeus oli alhainen, noin 250 emästä päivässä. Seuraavien kymmenen vuoden aikana automatisoidun DNA-sekvensoinnin kehitys kiihtyi, ja se läpäisi nopeasti kolme erillistä vaihetta: sekvensointilaitteen prototyyppi (1986), vankka laite, jota voitiin käyttää rutiininomaisesti tavallisessa laboratoriossa (1989), ja lopulta laite, joka oli osa integroitua tehdastyyppistä tuotantolinjaa, jossa DNA-näytteiden esikäsittely ja sekvensointi oli täysin automatisoitu (1998). Sekvensointikapasiteetin kehittyminen on ollut silmiinpistävää – uusimmat sekvensointilaitteet pystyvät purkamaan noin 1,5 miljoonaa emästä 24 tunnin aikana, mikä on 6 000 kertaa enemmän kuin prototyypin läpimenokyky.
Biologisen korkean läpimenokyvyn instrumentoinnin tavoitteena on lisätä läpimenokykyä, parantaa datan laatua ja alentaa huomattavasti hankitun informaation yksikkökohtaisia kustannuksia. Näiden tavoitteiden saavuttamiseksi tulevaisuudessa peräkkäisten menettelyjen miniatyrisointi, automatisointi, rinnakkaistaminen ja integrointi vievät DNA:n sekvensointiteknologian mikrofluidiikan ja mikroelektroniikan piiriin ja lopulta nanoteknologian alueelle. Yhden DNA-molekyylin sekvensoinnin avulla ennustamme aikaa, jolloin yksilön koko genomi voidaan sekvensoida yhdessä päivässä alle 10 000 Yhdysvaltain dollarin kustannuksella (verrattuna nykyisiin 50 miljoonaan dollariin tai enemmän). Näin voidaan helposti purkaa käytännössä minkä tahansa planeetalla elävän organismin genomisekvenssi ja tarjota ennennäkemätön pääsy biologian perusteisiin ja ihmisen geneettisen vaihtelun tutkimiseen.
Ihmisen genomiprojekti
Automaattisen DNA:n sekvensoinnin kehittymisen henkeäsalpaava nopeus johtui suurelta osin Ihmisen genomiprojektin (Human Genome Project – HGP, Human Genome Project) läpimenovaatimuksista. HGP käynnistyi virallisesti vuonna 1990 sen jälkeen, kun toteutettavuudesta ja teknologiasta oli keskusteltu ja tehty tutkimuksia, jotka alkoivat toden teolla vuonna 1985. HGP:n tavoitteena oli tuottaa valmis sekvenssi 15 vuodessa13 , mutta ihmisen genomin sekvenssin luonnos oli saatavilla vuonna 2001. Luonnoksesta laadittiin ja julkaistiin vuonna 2001 kaksi versiota, joista toisen oli laatinut ja julkaissut julkisesti rahoitettu International Human Genome Sequencing Consortium14 ja toisen biotekniikkayhtiö Celera15 (laatikko 1). Kehitettäessä välineitä ja menetelmiä, joiden avulla ihmisen genomin 3 miljardia emästä voidaan sekvensoida ja koota yhteen, sekvensoitiin myös useita kasvien, eläinten ja mikrobien genomeja, ja monien muiden genomien purkaminen on parhaillaan käynnissä. Kun genomisekvenssit tulevat saataville, biologian eri alat muuttuvat – esimerkiksi mikrobiologian tieteenala on muuttunut merkittävästi, kun yli 100 bakteerin genomisekvenssiä on valmistunut viime vuosikymmenen aikana.
HGP vaikutti syvällisesti biologiaan kahdessa suhteessa. Ensinnäkin se havainnollisti ”löytötieteen” käsitettä – ajatusta siitä, että järjestelmän kaikki elementit (eli täydellinen genomisekvenssi ja koko genomin koodaama RNA- ja proteiinituotos) voidaan määritellä, arkistoida tietokantaan ja asettaa saataville hypoteesipohjaisen tieteen ja kokonaisvaltaisten analyysien helpottamiseksi. Toiseksi, jotta HGP onnistuisi, se vauhditti tehokkaan laajamittaisen DNA-sekvensoinnin kehittämistä ja samalla edisti korkean läpimenon välineiden (esimerkiksi DNA-matriisien ja massaspektrometrian) luomista muunlaisen asiaan liittyvän biologisen tiedon, kuten mRNA:iden, proteiinien ja molekulaaristen vuorovaikutusten, analysoimiseksi.
Biologisen informaation digitaalinen luonne
Koko genomisekvenssin arvo on siinä, että biologisen systeemin tutkiminen voidaan aloittaa siten, että on olemassa tarkasti määriteltävissä oleva kyseisen organismin digitaalinen informaatioydin – täysin rajattu geneettinen lähdekoodi. Haasteena on sitten sen tulkitseminen, mitä tietoa digitaaliseen koodiin on koodattu. Genomi koodaa kahdenlaista digitaalista tietoa – geenit, jotka koodaavat elämän proteiini- ja RNA-molekyylikoneita, ja säätelyverkostot, jotka määrittelevät, miten näitä geenejä ilmaistaan ajassa, paikassa ja laajuudessa.
Säätelyverkostojen evoluutiolla eikä itse geeneillä on ratkaiseva merkitys siinä, että eliöt eroavat toisistaan. Genomien digitaalinen informaatio toimii kolmella eri aikajaksolla: evoluutio (kymmenistä vuosista miljooniin vuosiin), kehitys (tunneista kymmeniin vuosiin) ja fysiologia (millisekunneista viikkoihin). Kehitys on organismin kehittymistä yhdestä solusta (hedelmöittyneestä munasolusta) aikuiseksi (ihmisellä tämä on 1014 solua, joita on tuhansia erilaisia). Fysiologia on erityisten toiminnallisten ohjelmien (esimerkiksi immuunivasteen) käynnistymistä ympäristövihjeiden vaikutuksesta. Säätelyverkostot ovat ratkaisevassa asemassa jokaisella näistä biologian osa-alueista.
Säätelyverkostot koostuvat kahdesta päätyypistä: transkriptiotekijöistä ja DNA-kohdista, joihin ne sitoutuvat geenien kontrollialueilla, kuten promoottoreissa, tehostimissa ja vaimentimissa. Yksittäisten geenien kontrollialueet toimivat informaatioprosessoreina, jotka yhdistävät eri transkriptiotekijöiden pitoisuuksiin sisältyvän informaation signaaleiksi, jotka välittävät geeniekspressiota. Transkriptiotekijöiden ja niiden vastaavien DNA-sitoutumiskohtien kokoelma sellaisten geenien kontrollialueilla, jotka toteuttavat tiettyä kehityksellistä tai fysiologista tehtävää, muodostavat nämä säätelyverkot (kuva 2).
Koska useimmilla ”korkeammilla” eliöillä eli eukaryooteilla (eliöillä, jotka sisältävät DNA:nsa tuma-nimisessä solukompartimentissa), kuten hiivalla, kärpäsillä ja ihmisellä, on pääasiassa samoja geeniperheitä, juuri DNA:n sitomiskohtien uudelleenjärjestelyt geenien kontrollialueilla välittävät kehitysohjelmien muutoksia, jotka erottavat lajin toisesta. Siten säätelyverkot määräytyvät yksiselitteisesti niiden DNA-sitoutumiskohtien perusteella ja ovat näin ollen luonteeltaan pohjimmiltaan digitaalisia.
Yksi silmiinpistävä asia digitaalisissa säätelyverkoissa on se, että ne voivat muuttua merkittävästi lyhyessä evoluutioajassa. Tämä näkyy esimerkiksi geenisäätelyverkostojen ohjaamien ruumiinrakenteiden valtavassa monimuotoisuudessa, joka syntyi ehkä 10-30 miljoonan vuoden aikana metazoalaisten eliöiden kambrikauden räjähdyksen aikana (noin 550 miljoonaa vuotta sitten). Samoin ihmisen aivojen kehitystä ohjaavissa säätelyverkoissa tapahtui huomattavia muutoksia, kun ihminen erosi simpanssien kanssa yhteisestä esi-isästään noin 6 miljoonaa vuotta sitten.
Biologiassa on kehittynyt useita erityyppisiä informaatiohierarkioita. Ensinnäkin säätelyhierarkia on geeniverkko, joka määrittelee transkriptiotekijöiden joukon, niiden DNA-sitoutumiskohtien ja niiden perifeeristen geenien keskinäiset suhteet, jotka yhdessä kontrolloivat tiettyä kehityksen osa-aluetta. Merisiilin kehitysmalli on vaikuttava esimerkki16 (kuva 2). Toiseksi, evoluutiohierarkia määrittelee DNA:n monistumisen tuloksena syntyneiden suhteiden järjestysjoukon. Esimerkiksi yksittäinen geeni voi monistua, jolloin syntyy monigeeniperhe, ja monigeeniperhe voi monistua, jolloin syntyy supergeeniperhe. Kolmanneksi molekyylikoneet voidaan koota rakenteellisiksi hierarkioiksi järjestetyn kokoonpanoprosessin avulla. Yksi esimerkki tästä on transkriptiokoneisto, johon kuuluu sellaisten tekijöiden ja entsyymien vaiheittainen rekrytointi, jotka lopulta ohjaavat tietyn geenin erityistä ilmentymistä. Toinen esimerkki on ribosomi, kompleksi, joka kääntää RNA:ta proteiiniksi ja joka on koottu yli 50 eri proteiinista ja muutamasta RNA-molekyylistä. Lopuksi informaatiohierarkia kuvaa tiedon kulkua geenistä ympäristöön: geeni → RNA → proteiini → proteiinien vuorovaikutukset → proteiinikompleksit → proteiinikompleksien verkostot solussa → kudokset tai elimet → yksittäiset organismit → populaatiot → ekosysteemit. Kullakin peräkkäin informaatiohierarkian korkeammalla tasolla informaatiota voidaan lisätä tai muuttaa minkä tahansa elementin osalta (esimerkiksi vaihtoehtoisella RNA:n liittämisellä tai proteiinien muokkaamisella).
Systeemilähestymistapa biologiaan
Ihminen aloittaa elämänsä yksittäisenä soluna – hedelmöittyneenä munasoluna – ja kehittyy aikuiseksi, jolla on triljoonia soluja ja tuhansia solutyyppejä. Tässä prosessissa käytetään kahdenlaista biologista tietoa: genomin digitaalista tietoa ja ympäristötietoa, kuten aineenvaihduntatuotteiden pitoisuuksia, toisista soluista erittyviä tai solupinnan signaaleja tai kemiallisia gradientteja. Ympäristöinformaatiota on kahta eri tyyppiä: deterministinen informaatio, jossa signaalien seuraukset ovat pohjimmiltaan ennalta määrättyjä, ja stokastinen informaatio, jossa sattuma määrää lopputuloksen.
Sattumanvaraiset eli stokastiset signaalit voivat aiheuttaa biologisissa systeemeissä huomattavaa kohinaa, mutta vain erityistapauksissa kohina muuttuu signaaliksi. Esimerkiksi stokastiset tapahtumat ohjaavat monia geneettisiä mekanismeja, jotka ovat vastuussa vasta-aineiden monimuotoisuuden synnystä. Immuunivasteessa niiden B-solujen, jotka tuottavat vasta-aineita, jotka sitoutuvat tiukasti antigeeniin (eli joilla on korkea affiniteetti), määrä kasvaa suhteessa vasta-aineen affiniteetin voimakkuuteen (ks. Nossalin artikkeli tässä numerossa, s. 440). Näin ollen signaali (korkea affiniteetti) erottuu kohinasta (alhainen affiniteetti). Lisäksi B-solujen korkeat mutaatiotasot aiheuttavat vasta-ainegeenien spesifistä monipuolistumista antigeenin läsnä ollessa, jolloin affiniteetti kasvaa entisestään. Korkeamman affiniteetin vasta-ainegeenejä kantavat solut valikoituvat tällöin ensisijaisesti selviytymään ja lisääntymään.
Keskeinen kysymys on, mikä ja kuinka paljon signaalia nousee kohinasta. Stokastisten tapahtumien analysointi ja signaalin ja kohinan erottaminen toisistaan on nykybiologian tulevaisuuden haaste. Immuunivastetta on tutkittu yli 100 vuotta, mutta silti meillä on vain osittainen käsitys sen systeemien ominaisuuksista, kuten immuunivasteesta ja toleranssista (reagoimattomuus omiin soluihin). Tämä johtuu siitä, että viime aikoihin asti immunologit ovat voineet tutkia tätä monimutkaista järjestelmää vain yksi geeni tai yksi proteiini kerrallaan.
Systeemilähestymistapa mahdollistaa järjestelmän kaikkien elementtien tutkimisen vasteena geneettisiin (digitaalisiin) tai ympäristöön kohdistuviin häiriöihin. Eri tasojen biologisen informaation globaalit kvantitatiiviset analyysit tarjoavat kukin uutta tietoa systeemin toiminnasta; näin ollen mahdollisimman monen tason informaatio on kerättävä, integroitava ja lopulta mallinnettava matemaattisesti. Mallin tulisi selittää systeemin ominaisuudet ja luoda puitteet, joiden avulla voimme suunnitella systeemin uudelleen rationaalisella tavalla uusien emergenttien ominaisuuksien luomiseksi.
Muutamia systeemejä on tutkittu onnistuneesti. Sokerin galaktoosin hyödyntämistä hiivassa on analysoitu geneettisten häiriöiden avulla (geenien inaktivointi), ja tietoa kerättiin neljällä tasolla – RNA- ja proteiinipitoisuudet sekä proteiini-proteiini- ja proteiini-DNA-vuorovaikutukset17. Iteratiivisen ja integroivan systeemilähestymistavan avulla saatiin uutta tietoa galaktoosin käytön säätelystä. Lisäksi hahmotettiin galaktoosin säätelyverkoston suhteet muihin hiivasolun moduuleihin. Samoin merisiilin varhaista alkionkehitystä koskevissa systeemilähestymistavoissa on hahmoteltu säätelyverkosto, jolla on huomattava ennustusvoima16 (kuva 2). Systeemilähestymistavat arkeaalisen halobakteerin (organismi, joka viihtyy jopa viisimolaarisissa suolaliuoksissa, kuten Kuolleessa meressä) aineenvaihduntaan ovat paljastaneet uusia näkemyksiä useiden solun energiantuotantoa säätelevien moduulien keskinäisistä suhteista18.
Systeemilähestymistavan avulla tapahtuva solu- ja organismibiologian tutkiminen on vasta alussa. Se edellyttää eri tieteenalojen tutkijoiden – biologien, kemistien, tietojenkäsittelytieteilijöiden, insinöörien, matemaatikkojen ja fyysikoiden – integroituja tiimejä. Tarvitaan uusia menetelmiä biologisen tiedon hankkimiseksi ja analysoimiseksi suurella läpimitalla. Tehokasta laskentainfrastruktuuria on hyödynnettävä, jotta voidaan luoda tehokkaampia lähestymistapoja biologisen monimutkaisuuden keräämiseen, tallentamiseen, analysointiin, integrointiin, graafiseen esittämiseen ja matemaattiseen muotoiluun. Uudet teknologiat on integroitava toisiinsa. Lopuksi on integroitava hypoteesipohjainen ja löytävä tiede. Lyhyesti sanottuna sekä uuden tieteen että teknologian on synnyttävä, jotta systeemibiologinen lähestymistapa voi toteuttaa lupauksensa. Biotieteissä tarvitaan kulttuurista muutosta, ja seuraavan sukupolven biologien koulutus vaatii merkittäviä uudistuksia.
Gordon Moore, Intelin perustaja, ennusti, että tietokonesirulle mahtuvien transistorien määrä kaksinkertaistuisi 18 kuukauden välein. Se on tapahtunut jo yli 30 vuoden ajan. Tämä eksponentiaalinen kasvu on ollut informaatioteknologian räjähdysmäisen kasvun moottori. Samoin tiedeyhteisön käytettävissä olevan DNA-sekvenssitiedon määrä seuraa samanlaista, ehkä vielä jyrkempää, eksponentiaalista kasvua. Kriittinen kysymys on, miten sekvenssitieto voidaan muuntaa organismia koskevaksi tietämykseksi ja miten biologia muuttuu sen seurauksena. Uskomme, että systeeminen lähestymistapa biologiaan on avainasemassa. On kuitenkin selvää, että tähän lähestymistapaan liittyy merkittäviä haasteita sekä tieteellisessä että kulttuurisessa mielessä19. DNA:n rakenteen löytäminen käynnisti meidät tällä matkalla, jonka päätepisteenä on biologisten tieteiden suuri yhdistyminen kehittyvään, tietoon perustuvaan näkemykseen biologiasta.