“Minden élő sejt magában hordozza ősei egymilliárd évnyi kísérletezésének tapasztalatait.” Max Delbruck, 1949.
A kettős spirál 1953-as felfedezése azonnal kérdéseket vetett fel azzal kapcsolatban, hogy a biológiai információ hogyan van kódolva a DNS-ben1. A szerkezet figyelemre méltó tulajdonsága, hogy a DNS szinte bármilyen bázispár-sorozatot – az adenin (A), citozin (C), guanin (G) és timin (T) bázisok bármilyen kombinációját – és így bármilyen digitális üzenetet vagy információt képes tárolni. A következő évtizedben felfedezték, hogy minden gén egy komplementer RNS-átiratot, az úgynevezett hírvivő RNS-t (mRNS)2 kódolja, amely a T helyett A, C, G és uracil (U) bázisokból áll. A DNS- és RNS-ábécé négy bázisát a fehérjeábécé 20 aminosavához egy triplett kód kapcsolja – egy génben minden három betű (vagy “kodon”) egy aminosavat kódol3. Az AGT például a szerin aminosavat kódolja. Az aminosavakat alkotó DNS-betűk szótárát genetikai kódnak4 nevezzük. 64 különböző triplett vagy kodon létezik, amelyek közül 61 egy aminosavat kódol (különböző triplettek kódolhatják ugyanazt az aminosavat), három pedig “írásjelként” szolgál, mivel a növekvő fehérjelánc befejezését jelzi.
A kettős spirál molekuláris komplementerének – amelynek során a DNS egyik szálán minden bázis párosul a másik szálon lévő komplementer bázisával (A és T, illetve C és G) – mélyreható következményei vannak a biológiára. Amint arra James Watson és Francis Crick mérföldkőnek számító tanulmányukban1 utaltak, a bázispárosodás egy olyan sablonmásoló mechanizmusra utal, amely a DNS-replikáció során a genetikai anyag másolásának hűségét biztosítja (lásd Alberts cikkét ebben a számban, 431. oldal). Ez áll az mRNS DNS-sablonból történő szintézisének, valamint a sérült DNS javításának folyamatai mögött is (Friedberg tárgyalja, 436. oldal).
A DNS módosításának eszközei
A sejtekben a DNS-molekulák másolására, vágására és összekapcsolására szolgáló enzimeket a molekuláris biológia forradalmian új technikáinak kulcsfontosságú eszközeiként is hasznosították, beleértve a gének klónozását és fehérjéik expresszióját, valamint a gének kromoszómákon való elhelyezkedésének feltérképezését. A DNS-replikáció folyamatának mesterséges laboratóriumi reprodukálásának képessége két, a biológiát átalakító technika kifejlesztéséhez vezetett: 1975-ben egy kézi DNS-szekvenálási módszerhez, 1985-ben pedig a polimeráz láncreakció (PCR) felfedezéséhez, amellyel a DNS-szekvenciák milliószorosára vagy még többszörösére erősíthetők5.
A szekvenálás és a PCR ugyan átalakította a biológia tudományát, de az orvostudomány és a kriminalisztika területén is széles körű alkalmazásuk volt. A DNS-szekvencia egyénenkénti eltéréseinek – az úgynevezett “polimorfizmusok” – kimutatása képezi az egyének DNS-“ujjlenyomatának” alapját. A törvényszéki orvostudomány ezeket az ujjlenyomatokat apasági viták, valamint büntetőügyek, például nemi erőszak esetén használja fel. Az a felfedezés, hogy számos specifikus DNS-polimorfizmus betegséggel vagy betegségre való hajlamossággal hozta be a DNS-diagnosztikát az orvostudományba, és megnyitotta az utat a valóban prediktív orvoslás felé, ahol a betegség kockázatát már a tünetek megjelenése előtt azonosítani lehet (lásd Bell cikkét ebben a számban, 414. oldal).
Automatizált DNS-szekvenálás
A DNS szekvenálására tett első erőfeszítések, amelyeket Walter Gilbert6 és Fred Sanger7 kezdeményezett az 1970-es években, néhány száz bázis hosszú DNS-szakaszokat dekódoltak. Amikor 1977-78-ban körülbelül egy év alatt szekvenálták az első teljes genomot – egy körülbelül 5000 bázisból álló vírusgenomot8 -, világossá vált, hogy a DNS-szekvenciaadatok egyedülálló betekintést nyújthatnak a gének szerkezetébe és működésébe, valamint a genom szerveződésébe. Ez a lehetőség, hogy a genetikai kódból hatalmas mennyiségű információ nyerhető egy szervezetről, inspirálta a DNS-szekvenálás automatizálására irányuló erőfeszítéseket (1. ábra).
A technikai varázslatok és az intenzív automatizálás kombinációja a következő évtizedben elindította a “genomikai korszakot”. Új műszerek sora tette lehetővé a biológiai elemzés újszerű megközelítéseit9,10,11. Az első szekvenálógép – amelyet Leroy Hood, Lloyd Smith és Mike Hunkapiller talált fel 1986-ban (hivatkozás 12) – automatizálta az adatgyűjtést, de még mindig jelentős kézi figyelmet igényelt, és a szekvenálási sebesség alacsony volt, nagyjából 250 bázis/nap. A következő tíz évben az automatizált DNS-szekvenálás fejlődése felgyorsult, és gyorsan három különböző szakaszon ment keresztül: a szekvenálógép prototípusa (1986); egy robusztus eszköz, amelyet rutinszerűen lehetett használni egy standard laboratóriumban (1989); és végül egy olyan gép, amely egy integrált gyárszerű gyártósor részét képezte, ahol a DNS-minták előkészítése és a szekvenálás teljesen automatizált volt (1998). A szekvenálási kapacitásban elért előrelépések szembetűnőek voltak – a legújabb szekvenálógépek 24 óra alatt körülbelül 1,5 millió bázist képesek dekódolni, ami a prototípus teljesítményének 6000-szerese.
A nagy áteresztőképességű biológiai műszerek célja az áteresztőképesség növelése, az adatok minőségének javítása és az egységnyi megszerzett információ költségének jelentős csökkentése. E célok elérése érdekében a jövőben az egymást követő eljárások miniatürizálása, automatizálása, párhuzamosítása és integrálása a DNS-szekvenálási technológiát a mikrofluidika és a mikroelektronika, végül pedig a nanotechnológia területére repíti. Az egy DNS-molekula szekvenálással előre látjuk azt az időt, amikor egy egyén teljes genomja egyetlen nap alatt szekvenálható lesz, kevesebb mint 10 000 USD költséggel (szemben a mai 50 millió USD vagy annál is több költséggel). Ez könnyen lehetővé teszi majd a bolygó gyakorlatilag bármely organizmusának genomszekvenciájának megfejtését, és páratlan hozzáférést biztosít a biológia alapjaihoz és az emberi genetikai variabilitás tanulmányozásához.
A Humán Genom Projekt
Az automatizált DNS-szekvenálás fejlődésének lélegzetelállító sebességét nagyrészt a Humán Genom Projekt (HGP) átviteli igényei ösztönözték, amely hivatalosan 1990-ben indult, miután 1985-ben komolyan elkezdődtek a megvalósíthatóságról és a technológiáról szóló viták és tanulmányok. A HGP céljai között szerepelt, hogy 15 év alatt elkészüljön a kész szekvencia13 , de a humán genom szekvenciájának vázlata már 2001-ben rendelkezésre állt. A tervezet két változatát készítették el és tették közzé 2001-ben, az egyiket a közpénzekből finanszírozott Nemzetközi Humán Genom Szekvenáló Konzorcium14 , a másikat pedig a Celera15 biotechnológiai vállalat (1. keretes írás). Az emberi genom 3 milliárd bázisának szekvenálásához és összerakásához szükséges eszközök és módszertan kifejlesztése során számos növényi, állati és mikrobiális genomot szekvenáltak, és jelenleg is számos további genom dekódolása folyik. Ahogy a genomszekvenciák elérhetővé válnak, a biológia különböző területei átalakulnak – például a mikrobiológia tudományága jelentősen megváltozott azzal, hogy az elmúlt évtizedben több mint 100 bakteriális genomszekvencia készült el.
A HGP két szempontból is mélyen befolyásolta a biológiát. Először is, illusztrálta a “felfedező tudomány” koncepcióját – azt az elképzelést, hogy a rendszer minden elemét (azaz a teljes genomszekvenciát és a genom által kódolt teljes RNS- és fehérje-kibocsátást) meg lehet határozni, egy adatbázisban archiválni és hozzáférhetővé lehet tenni a hipotézisvezérelt tudomány és a globális elemzések megkönnyítése érdekében. Másodszor, a siker érdekében a HGP a hatékony, nagyméretű DNS-szekvenálás fejlesztését sürgette, és ezzel párhuzamosan ösztönözte a nagy áteresztőképességű eszközök (például DNS-táblázatok és tömegspektrometria) létrehozását más típusú kapcsolódó biológiai információk, például mRNS-ek, fehérjék és molekuláris kölcsönhatások elemzésére.
A biológiai információ digitális természete
A teljes genomszekvencia birtoklásának értéke az, hogy egy biológiai rendszer tanulmányozását az adott szervezet pontosan meghatározható digitális információmagjával – egy teljesen körülhatárolt genetikai forráskóddal – kezdhetjük meg. A kihívás tehát annak megfejtésében rejlik, hogy milyen információ van kódolva a digitális kódban. A genom a digitális információ két fő típusát kódolja – a géneket, amelyek az élet fehérje- és RNS-molekuláris gépeit kódolják, és a szabályozó hálózatokat, amelyek meghatározzák, hogyan fejeződnek ki ezek a gének időben, térben és amplitúdóban.
A szabályozó hálózatok evolúciója és nem maguk a gének játsszák a döntő szerepet abban, hogy a szervezetek különböznek egymástól. A genomokban található digitális információ három különböző időtávlatban működik: evolúció (több tíz évtől több millió évig), fejlődés (óráktól több tíz évig) és fiziológia (ezredmásodpercektől hetekig). A fejlődés a szervezet egyetlen sejtből (a megtermékenyített petesejtből) a felnőtté válás folyamatát jelenti (az ember esetében ez 1014 sejtet jelent több ezer különböző típusból). A fiziológia a specifikus funkcionális programok (például az immunválasz) környezeti jelzések általi kiváltása. A szabályozó hálózatok a biológia mindezen aspektusaiban kulcsfontosságúak.
A szabályozó hálózatok két fő komponenstípusból állnak: a transzkripciós faktorokból és azokból a DNS-helyekből, amelyekhez a gének kontroll régióiban, például promóterekben, enhancerekben és silencerekben kötődnek. Az egyes gének kontroll régiói információs processzorként szolgálnak, hogy a különböző transzkripciós faktorok koncentrációjában rejlő információt a génexpressziót közvetítő jelekké integrálják. A transzkripciós faktorok és a velük rokon DNS-kötőhelyek gyűjteménye az adott fejlődési vagy fiziológiai funkciót betöltő gének kontroll régióiban alkotja ezeket a szabályozó hálózatokat (2. ábra).
Mivel a legtöbb “magasabb” szervezet vagy eukarióta (a DNS-üket a sejtmagnak nevezett sejtkompartmentben tartalmazó szervezetek), mint például az élesztő, a légy és az ember, túlnyomórészt ugyanazokkal a géncsaládokkal rendelkezik, a DNS-kötőhelyek átrendeződése a gének kontroll régióiban az, ami közvetíti a fejlődési programokban bekövetkező változásokat, amelyek megkülönböztetik az egyik fajt a másiktól. A szabályozó hálózatok tehát a DNS-kötőhelyek által egyedileg meghatározottak, és ennek megfelelően alapvetően digitális természetűek.
A digitális szabályozó hálózatokkal kapcsolatban feltűnő, hogy rövid evolúciós idő alatt jelentősen megváltozhatnak. Ezt tükrözi például a génszabályozó hálózatok által vezérelt testfelépítés hatalmas változatossága, amely a metazoák kambriumban bekövetkezett robbanása során (kb. 550 millió évvel ezelőtt) talán 10-30 millió év alatt alakult ki. Hasonlóképpen figyelemre méltó változások történtek az emberi agy fejlődését irányító szabályozó hálózatokban az emberi agynak a csimpánzokkal közös őstől való kb. 6 millió évvel ezelőtti eltérése során.
A biológia számos különböző típusú információs hierarchiát fejlesztett ki. Először is, a szabályozási hierarchia egy génhálózat, amely meghatározza a transzkripciós faktorok egy halmazának, DNS-kötőhelyeinek és a downstream perifériás géneknek a kapcsolatait, amelyek együttesen szabályozzák a fejlődés egy adott aspektusát. A tengeri sün fejlődésének modellje szemléletes példát mutat erre16 (2. ábra). Másodszor, az evolúciós hierarchia a DNS-duplikációból eredő kapcsolatok rendjét határozza meg. Például egyetlen gén megkettőződhet, hogy egy több génből álló géncsaládot hozzon létre, és egy több génből álló géncsalád megkettőződhet, hogy egy szupergéncsaládot hozzon létre. Harmadszor, a molekuláris gépek egy rendezett összeszerelési folyamat révén szerkezeti hierarchiákká állhatnak össze. Ennek egyik példája az alapvető transzkripciós apparátus, amely magában foglalja a faktorok és enzimek lépésről lépésre történő toborzását, amelyek végül egy adott gén specifikus kifejeződését irányítják. A második példát a riboszóma, az RNS-t fehérjévé fordító komplex szolgáltatja, amely több mint 50 különböző fehérjéből és néhány RNS-molekulából áll össze. Végül egy információs hierarchia ábrázolja az információ áramlását a géntől a környezet felé: gén → RNS → fehérje → fehérje kölcsönhatások → fehérjekomplexek → fehérjekomplexek hálózata a sejtben → szövetek vagy szervek → egyes szervezetek → populációk → ökoszisztémák. Az információs hierarchia minden egyes, egymást követő magasabb szintjén az információ bármely adott elemhez hozzáadható vagy módosítható (például alternatív RNS-splicing vagy fehérjemódosítás révén).
A biológia rendszerszemléletű megközelítése
Az ember egyetlen sejtként – a megtermékenyített petesejtként – kezdi életét, és felnőtté fejlődik, amelyben sejtek trilliói és több ezer sejttípus található. Ez a folyamat kétféle biológiai információt használ: a genom digitális információit és a környezeti információkat, például az anyagcsere-koncentrációkat, a más sejtek által szekretált vagy sejtfelszíni jeleket vagy kémiai gradienseket. A környezeti információ két különböző típusú: determinisztikus információ, ahol a jelek következményei lényegében előre meghatározottak, és sztochasztikus információ, ahol a véletlen diktálja az eredményt.
A véletlenszerű vagy sztochasztikus jelek jelentős zajt generálhatnak a biológiai rendszerekben, de a zaj csak speciális esetekben alakul át jelekké. Például a sztochasztikus események számos olyan genetikai mechanizmust irányítanak, amelyek az antitestek sokféleségének kialakulásáért felelősek. Az immunválaszban az antigénhez szorosan kötődő (azaz nagy affinitású) antitesteket termelő B-sejtek száma az antitest-affinitás erősségével arányos mértékben növekszik (lásd Nossal cikkét ebben a számban, 440. oldal). Így a jel (magas affinitás) megkülönböztethető a zajtól (alacsony affinitás). Ráadásul a B-sejtek nagyfokú mutációja antigén jelenlétében az antitestgének specifikus diverzifikációját okozza, és lehetővé teszi az affinitás további növekedését. A magasabb affinitású antitestgéneket hordozó sejtek ezután előnyösen szelektálódnak a túlélés és a szaporodás szempontjából.
A kulcskérdés az, hogy mi és mennyi jel emelkedik ki a zajból. A sztochasztikus események elemzése és a jel és a zaj megkülönböztetése a kortárs biológia egyik jövőbeli kihívása lesz. Az immunválaszt már több mint 100 éve tanulmányozzák, mégis még mindig csak részben ismerjük a rendszer tulajdonságait, például az immunválaszt és a toleranciát (a saját sejtekkel szembeni érzéketlenséget). Ennek az az oka, hogy az immunológusok egészen a közelmúltig csak egy-egy gént vagy fehérjét tudtak tanulmányozni ebben a komplex rendszerben.
A rendszerszemléletű megközelítés lehetővé teszi egy rendszer összes elemének tanulmányozását genetikai (digitális) vagy környezeti perturbációkra adott válaszként. A különböző szintekről származó biológiai információk globális kvantitatív elemzései mindegyike új betekintést nyújt a rendszer működésébe; ezért a lehető legtöbb szinten lévő információt kell megragadni, integrálni és végül matematikailag modellezni. A modellnek meg kell magyaráznia a rendszer tulajdonságait, és olyan keretet kell létrehoznia, amely lehetővé teszi, hogy a rendszert racionális módon újratervezzük, hogy új emergens tulajdonságokat hozzunk létre.
Sikeresen vizsgáltak már több rendszert is. A galaktóz cukor hasznosítását élesztőben genetikai perturbációk (gének inaktiválása) segítségével elemezték, és négy szintű információt gyűjtöttek – RNS- és fehérjekoncentrációkat, valamint fehérje-fehérje és fehérje-DNS kölcsönhatásokat17. Az iteratív és integratív rendszerszemléletű megközelítést alkalmazva új betekintést nyertek a galaktóz felhasználásának szabályozásába. Ezen túlmenően a galaktóz szabályozó hálózat és az élesztősejt más moduljainak kapcsolatát is meghatározták. Hasonlóképpen, a tengeri sün korai embrionális fejlődésének rendszerszemléletű megközelítései olyan szabályozó hálózatot vázoltak fel, amely jelentős előrejelző képességgel rendelkezik16 (2. ábra). Végül egy archeális halobaktérium (olyan organizmus, amely akár ötmolos sóoldatokban, például a Holt-tengerben él) anyagcseréjének rendszerszemléletű megközelítései új betekintést nyújtottak a sejt energiatermelését szabályozó számos modul közötti összefüggésekbe18.
A sejt- és szervezetbiológia rendszerszemléletű megközelítéssel történő tanulmányozása még csak a kezdeténél tart. Ehhez a különböző tudományágak – biológusok, kémikusok, informatikusok, mérnökök, matematikusok és fizikusok – tudósainak integrált csapataira lesz szükség. Új módszerekre van szükség a nagy áteresztőképességű biológiai adatok megszerzéséhez és elemzéséhez. A biológiai komplexitás megragadásának, tárolásának, elemzésének, integrálásának, grafikus megjelenítésének és matematikai megfogalmazásának hatékonyabb megközelítéseihez nagy teljesítményű számítógépes infrastruktúrát kell felhasználni. Az új technológiákat integrálni kell egymással. Végül pedig integrálni kell a hipotézisvezérelt és a felfedező tudományt. Röviden, mind az új tudománynak, mind a technológiának meg kell jelennie ahhoz, hogy a rendszerbiológiai megközelítés beváltsa ígéretét. A biológiai tudományokban kulturális váltásra van szükség, és a biológusok következő generációjának oktatásában és képzésében jelentős reformokra lesz szükség.”
Gordon Moore, az Intel alapítója azt jósolta, hogy a számítógépes chipeken elhelyezhető tranzisztorok száma 18 havonta megduplázódik. Ez több mint 30 éve így is van. Ez az exponenciális növekedés volt az információtechnológia robbanásszerű növekedésének hajtóereje. Hasonlóképpen, a tudományos közösség számára elérhető DNS-szekvencia-információk mennyisége is hasonló, talán még meredekebb exponenciális növekedést követ. A kritikus kérdés az, hogy a szekvenciainformációkat hogyan lehet a szervezetre vonatkozó ismeretekké alakítani, és ennek következtében hogyan fog változni a biológia. Úgy véljük, hogy a biológia rendszerszemléletű megközelítése a kulcs. Világos azonban, hogy ez a megközelítés jelentős tudományos és kulturális kihívásokkal jár19. A DNS szerkezetének felfedezése indított el minket ezen az úton, amelynek végcélja a biológiai tudományok nagyszabású egyesítése lesz a biológia kialakulóban lévő, információalapú szemléletében.