„Každá živá buňka v sobě nese zkušenosti miliard let experimentů svých předků.“ Max Delbruck, 1949.

Objev dvojité šroubovice v roce 1953 okamžitě vyvolal otázky, jak je biologická informace zakódována v DNA1. Pozoruhodnou vlastností této struktury je, že DNA může pojmout téměř jakoukoli sekvenci párů bází – jakoukoli kombinaci bází adeninu (A), cytosinu (C), guaninu (G) a thyminu (T) – a tedy i jakoukoli digitální zprávu nebo informaci. Během následujícího desetiletí bylo zjištěno, že každý gen kóduje komplementární transkript RNA, nazývaný messengerová RNA (mRNA)2 , který se skládá z A, C, G a uracilu (U) namísto T. Čtyři báze abecedy DNA a RNA jsou spojeny s 20 aminokyselinami abecedy bílkovin pomocí tripletového kódu – každá tři písmena (neboli „kodony“) v genu kódují jednu aminokyselinu3. Například gen AGT kóduje aminokyselinu serin. Slovník písmen DNA, která tvoří aminokyseliny, se nazývá genetický kód4. Existuje 64 různých tripletů neboli kodonů, z nichž 61 kóduje aminokyselinu (různé triplety mohou kódovat stejnou aminokyselinu) a tři z nich slouží k „interpunkci“ v tom smyslu, že signalizují ukončení rostoucího proteinového řetězce.

Molekulární komplementárnost dvojité šroubovice – kdy se každá báze na jednom vlákně DNA páruje se svou komplementární bází na partnerském vlákně (A s T a C s G) – má hluboké důsledky pro biologii. Jak naznačili James Watson a Francis Crick ve svém přelomovém článku1 , párování bází naznačuje mechanismus kopírování šablon, který vysvětluje věrnost kopírování genetického materiálu během replikace DNA (viz článek v tomto čísle od Albertse, strana 431). Je také základem syntézy mRNA z předlohy DNA a procesů opravy poškozené DNA (o tom pojednává Friedberg, strana 436).

Nástroje pro modifikaci DNA

Enzymy, které v buňkách fungují při kopírování, stříhání a spojování molekul DNA, byly také využity jako klíčové nástroje pro nové revoluční techniky v molekulární biologii, včetně klonování genů a exprese jejich proteinů a mapování umístění genů na chromozomech. Schopnost uměle obnovit proces replikace DNA v laboratoři vedla k vývoji dvou technik, které změnily biologii: manuální metoda sekvenování DNA v roce 1975 a v roce 1985 objev polymerázové řetězové reakce (PCR), díky níž lze sekvence DNA amplifikovat milionkrát i více5.

Ačkoli sekvenování a PCR změnily biologickou vědu, měly také široké využití v medicíně a soudním lékařství. Zjišťování rozdílů v sekvenci DNA mezi jednotlivými jedinci – takzvaných „polymorfismů“ – tvoří základ „otisků prstů“ jednotlivců DNA. Kriminalisté tyto otisky využívají při řešení sporů o otcovství i v kriminálních případech, jako je znásilnění. Zjištění, že mnoho specifických polymorfismů DNA je spojeno s onemocněním nebo náchylností k onemocnění, přineslo diagnostiku DNA do medicíny a otevřelo cestu ke skutečně prediktivní medicíně, kde lze rizika onemocnění identifikovat s předstihem před příznaky (viz článek v tomto čísle od Bella, strana 414).

Automatizované sekvenování DNA

První snahy o sekvenování DNA, jejichž průkopníky byli Walter Gilbert6 a Fred Sanger7 v 70. letech 20. století, dekódovaly úseky DNA dlouhé několik set bází. Když byl v letech 1977-78 během přibližně jednoho roku sekvenován první kompletní genom – genom viru o délce asi 5 000 bází8 – bylo jasné, že údaje o sekvenci DNA mohou poskytnout jedinečný pohled na strukturu a funkci genů i na uspořádání genomu. Právě tento potenciál získat z genetického kódu obrovské množství informací o organismu inspiroval snahy o automatizaci sekvenování DNA (obr. 1).

Obrázek 1: Jak sekvenovat DNA.

a, DNA polymeráza kopíruje vlákno DNA. b, Vložení terminátorové báze do rostoucího vlákna zastaví proces kopírování. Jedná se o náhodnou událost, jejímž výsledkem je řada fragmentů různé délky v závislosti na bázi, u které se kopírování zastavilo. Fragmenty se rozdělí podle velikosti tak, že se proženou gelovou matricí, přičemž nejkratší fragmenty jsou dole a největší nahoře. c, Terminátory jsou označeny různými fluorescenčními barvivy, takže každý fragment fluoreskuje určitou barvou podle toho, zda končí bází A, C, G nebo T. d, Sekvence je „přečtena“ počítačem. Vytvoří „sekvenční stopu“, jak je znázorněno na obrázku, s barevnými vrcholy odpovídajícími fluorescenčním pásům čteným od spodu k vrcholu jednoho pruhu gelu. Počítač převede tyto fluorescenční signály na sekvenci DNA, jak je znázorněno v horní části grafu. Obrázek převzat z ref. 20.

Kombinace technických kouzel a intenzivní automatizace v následujícím desetiletí odstartovala „genomickou éru“. Řada nových přístrojů umožnila nové přístupy k biologické analýze9,10,11. První sekvenátor – vynalezený Leroyem Hoodem, Lloydem Smithem a Mikem Hunkapillerem v roce 1986 (pozn. 12) – byl automatizovaný při získávání dat, ale stále vyžadoval značnou manuální pozornost a rychlost sekvenování byla nízká, zhruba 250 bází za den. Během následujících deseti let se vývoj automatizovaného sekvenování DNA urychlil a rychle prošel třemi různými etapami: prototyp sekvenovacího stroje (1986); robustní přístroj, který bylo možné rutinně používat ve standardní laboratoři (1989); a nakonec stroj, který tvořil součást integrované výrobní linky podobné továrně, kde byla příprava vzorků DNA a sekvenování plně automatizovány (1998). Pokrok v kapacitě sekvenování byl ohromující – nejnovější sekvenační stroje jsou schopny dekódovat přibližně 1,5 milionu bází za 24 hodin, což je 6000krát více než u prototypu.

Cíle vysoce výkonných biologických přístrojů jsou zvýšit propustnost, zlepšit kvalitu dat a výrazně snížit náklady na jednotku získané informace. Aby bylo možné těchto cílů v budoucnu dosáhnout, miniaturizace, automatizace, paralelizace a integrace po sobě jdoucích postupů posune technologii sekvenování DNA do oblasti mikrofluidiky a mikroelektroniky a nakonec do oblasti nanotechnologií. Díky sekvenování jednotlivých molekul DNA předpokládáme dobu, kdy bude možné sekvenovat celý genom jedince během jediného dne za cenu nižší než 10 000 USD (ve srovnání s 50 miliony USD nebo více, které by to stálo dnes). To snadno umožní dekódovat genomovou sekvenci prakticky jakéhokoli organismu na planetě a poskytne bezkonkurenční přístup k základům biologie a studia lidské genetické variability.

Projekt lidského genomu

Dýchající rychlost, s jakou se rozvíjelo automatizované sekvenování DNA, byla do značné míry stimulována požadavky na propustnost projektu lidského genomu (HGP), který byl oficiálně zahájen v roce 1990 po diskusích a studiích o proveditelnosti a technologii, které začaly vážně v roce 1985. Cílem HGP bylo vytvořit hotovou sekvenci za 15 let13 , ale návrh sekvence lidského genomu byl k dispozici již v roce 2001. V roce 2001 byly vytvořeny a zveřejněny dvě verze návrhu, jednu vytvořilo Mezinárodní konsorcium pro sekvenování lidského genomu14 financované z veřejných zdrojů a druhou biotechnologická společnost Celera15 (rámeček 1). V průběhu vývoje nástrojů a metodiky, které umožňují sekvenovat a sestavit 3 miliardy bází lidského genomu, byla sekvenována řada rostlinných, živočišných a mikrobiálních genomů a mnoho dalších se v současné době dekóduje. S tím, jak jsou sekvence genomů k dispozici, dochází k proměně různých oblastí biologie – například obor mikrobiologie se výrazně změnil díky dokončení více než 100 sekvencí bakteriálních genomů za poslední desetiletí.

HGP hluboce ovlivnil biologii ve dvou ohledech. Za prvé ilustroval koncept „discovery science“ – myšlenku, že všechny prvky systému (tj. kompletní sekvenci genomu a celý výstup RNA a proteinů kódovaných genomem) lze definovat, archivovat v databázi a zpřístupnit pro usnadnění vědy založené na hypotézách a globálních analýzách. Za druhé, aby byl HGP úspěšný, prosadil vývoj účinného sekvenování DNA ve velkém měřítku a současně podnítil vytvoření vysoce výkonných nástrojů (například DNA matic a hmotnostní spektrometrie) pro analýzu dalších typů souvisejících biologických informací, jako jsou mRNA, proteiny a molekulární interakce.

Digitální povaha biologické informace

Cennost toho, že máme k dispozici celou sekvenci genomu, spočívá v tom, že můžeme zahájit studium biologického systému s přesně definovatelným digitálním jádrem informace pro daný organismus – plně vymezeným genetickým zdrojovým kódem. Výzvou je pak rozluštění toho, jaká informace je v digitálním kódu zakódována. Genom kóduje dva hlavní typy digitální informace – geny, které kódují proteinové a RNA molekulární stroje života, a regulační sítě, které určují, jak se tyto geny projevují v čase, prostoru a amplitudě.

Je to evoluce regulačních sítí, a nikoliv samotné geny, které hrají rozhodující roli v tom, že se organismy od sebe liší. Digitální informace v genomech fungují ve třech různých časových úsecích: evoluce (desítky až miliony let), vývoj (hodiny až desítky let) a fyziologie (milisekundy až týdny). Vývoj je vývoj organismu od jediné buňky (oplodněného vajíčka) až po dospělého jedince (u člověka je to 1014 buněk tisíců různých typů). Fyziologie je spouštění specifických funkčních programů (například imunitní reakce) na základě podnětů z prostředí. Regulační sítě jsou klíčové v každém z těchto aspektů biologie.

Regulační sítě se skládají ze dvou hlavních typů složek: transkripčních faktorů a míst DNA, na která se vážou v řídicích oblastech genů, jako jsou promotory, enhancery a silencery. Řídicí oblasti jednotlivých genů slouží jako informační procesory, které integrují informace obsažené v koncentracích různých transkripčních faktorů do signálů zprostředkujících genovou expresi. Soubor transkripčních faktorů a jim příbuzných vazebných míst DNA v řídicích oblastech genů, které plní určitou vývojovou nebo fyziologickou funkci, tvoří tyto regulační sítě (obr. 2).

Obrázek 2: Regulační síť genů zapojených do vývoje mořských ježků16.

a, Část sítě transkripčních faktorů a jejich interakcí s řídicími oblastmi jiných transkripčních faktorů. Geny jsou označeny vodorovnými čarami; hroty šipek označují aktivaci; symboly „⊥“ označují represi genu. b, Zvětšení promotorové oblasti genu zvaného endo 16, který pomáhá modulovat vývoj endodermu. Obsahuje 34 vazebných míst (obdélníky) pro 13 různých transkripčních faktorů a kofaktorů (znázorněných jako obdélníky, resp. lízátka). Šest modulů (A-G) transkripčních faktorů a vazebných míst vykonává diskrétní funkce pro vývojovou regulaci endo 16. c, Schéma znázorňující logické struktury řídicích okruhů A a B během vývoje mořského ježka.

Protože většina „vyšších“ organismů neboli eukaryot (organismů, které obsahují svou DNA v buněčném prostoru zvaném jádro), jako jsou kvasinky, mouchy a lidé, má převážně stejné rodiny genů, je to právě reorganizace vazebných míst DNA v řídicích oblastech genů, která zprostředkovává změny ve vývojových programech, jež odlišují jeden druh od druhého. Regulační sítě jsou tedy jednoznačně specifikovány svými vazebnými místy DNA, a proto mají v podstatě digitální povahu.

Jednou z věcí, která je na digitálních regulačních sítích nápadná, je to, že se mohou v krátkém evolučním období výrazně měnit. To se projevuje například v obrovské rozmanitosti tělesných plánů, řízených genovými regulačními sítěmi, které vznikly během možná 10-30 milionů let během kambrické exploze metazoických organismů (asi před 550 miliony let). Podobně došlo k pozoruhodným změnám v regulačních sítích řídících vývoj lidského mozku během jeho divergence od společného předka se šimpanzi asi před 6 miliony let.

Biologie vyvinula několik různých typů informačních hierarchií. Za prvé, regulační hierarchie je genová síť, která definuje vztahy souboru transkripčních faktorů, jejich vazebných míst na DNA a navazujících periferních genů, které společně řídí určitý aspekt vývoje. Model vývoje mořského ježka představuje pozoruhodný příklad16 (obr. 2). Za druhé, evoluční hierarchie definuje uspořádaný soubor vztahů, který vznikl duplikací DNA. Například jeden gen může být duplikován, aby vznikla rodina více genů, a rodina více genů může být duplikována, aby vznikla rodina supergenů. Za třetí, molekulární stroje mohou být sestaveny do strukturních hierarchií uspořádaným procesem sestavování. Jedním z příkladů je základní transkripční aparát, který zahrnuje postupný nábor faktorů a enzymů, které nakonec řídí specifickou expresi daného genu. Druhý příklad poskytuje ribozom, komplex, který překládá RNA na bílkoviny a který je sestaven z více než 50 různých bílkovin a několika molekul RNA. A konečně informační hierarchie znázorňuje tok informací z genu do prostředí: gen → RNA → protein → proteinové interakce → proteinové komplexy → sítě proteinových komplexů v buňce → tkáně nebo orgány → jednotlivé organismy → populace → ekosystémy. Na každé postupně vyšší úrovni informační hierarchie může být informace pro daný prvek přidána nebo změněna (například alternativním sestřihováním RNA nebo modifikací bílkovin).

Systémové přístupy k biologii

Člověk začíná život jako jediná buňka – oplodněné vajíčko – a vyvíjí se v dospělého člověka s biliony buněk a tisíci buněčnými typy. Tento proces využívá dva typy biologických informací: digitální informace genomu a informace z prostředí, jako jsou koncentrace metabolitů, vylučované nebo povrchové signály z jiných buněk nebo chemické gradienty. Informace o prostředí jsou dvou různých typů: deterministické informace, kde jsou důsledky signálů v podstatě předurčeny, a stochastické informace, kde výsledek diktuje náhoda.

Náhodné nebo stochastické signály mohou v biologických systémech vytvářet značný šum, ale pouze ve zvláštních případech se šum mění na signály. Například stochastické události řídí mnoho genetických mechanismů odpovědných za generování rozmanitosti protilátek. V imunitní odpovědi dochází k expanzi počtu těch B-buněk, které produkují protilátky pevně se vážící na antigen (tj. ty, které mají vysokou afinitu), která je úměrná síle afinity protilátky (viz článek v tomto čísle od Nossala, strana 440). Proto se signál (vysoká afinita) odliší od šumu (nízká afinita). Navíc vysoká úroveň mutací v buňkách B způsobuje specifickou diverzifikaci protilátkových genů v přítomnosti antigenu a umožňuje ještě více zvýšit afinitu. Buňky nesoucí geny pro protilátky s vyšší afinitou jsou pak přednostně selektovány pro přežití a proliferaci.

Klíčovou otázkou je, jaký a jak velký signál se vynoří ze šumu. Analýza stochastických událostí a rozlišení signálu a šumu bude budoucí výzvou pro současnou biologii. Imunitní reakce je studována již více než 100 let, přesto stále jen částečně chápeme vlastnosti jejích systémů, jako je imunitní odpověď a tolerance (nereaktivita vůči vlastním buňkám). Je to proto, že až donedávna mohli imunologové studovat tento složitý systém pouze po jednom genu nebo proteinu.

Systémový přístup umožňuje studovat všechny prvky systému v reakci na genetické (digitální) nebo environmentální poruchy. Globální kvantitativní analýzy biologických informací z různých úrovní poskytují každá nový pohled na fungování systému; proto je třeba zachytit, integrovat a nakonec matematicky modelovat informace na co největším počtu úrovní. Model by měl vysvětlit vlastnosti systému a vytvořit rámec, který nám umožní systém racionálně přepracovat tak, aby vznikly nové emergentní vlastnosti.

Úspěšně bylo prozkoumáno několik systémů. Využití cukru galaktózy u kvasinek bylo analyzováno pomocí genetických perturbací (inaktivace genů) a byly získány čtyři úrovně informací – koncentrace RNA a proteinů a interakce protein-protein a protein-DNA17. Pomocí iterativního a integrativního systémového přístupu byly získány nové poznatky o regulaci využívání galaktózy. Kromě toho byly také vymezeny vztahy regulační sítě galaktózy k dalším modulům v kvasinkové buňce. Podobně systémový přístup k časnému embryonálnímu vývoji mořského ježka vymezil regulační síť, která má značnou prediktivní sílu16 (obr. 2). A konečně systémové přístupy k metabolismu u archeální halobakterie (organismus prosperující v až pětimolárních roztocích solí, např. v Mrtvém moři) odhalily nové poznatky o vzájemných vztazích mezi několika moduly řídícími produkci energie v buňce18.

Studium buněčné a organismální biologie pomocí systémového přístupu je na samém počátku. Bude vyžadovat integrované týmy vědců z různých oborů – biologů, chemiků, informatiků, inženýrů, matematiků a fyziků. Jsou zapotřebí nové metody pro získávání a analýzu vysoce výkonných biologických dat. Je třeba využít výkonnou výpočetní infrastrukturu k vytvoření efektivnějších přístupů k zachycení, ukládání, analýze, integraci, grafickému zobrazení a matematickému formulování biologické složitosti. Nové technologie musí být vzájemně integrovány. A konečně musí být integrována věda založená na hypotézách a věda založená na objevech. Stručně řečeno, musí se objevit jak nové vědecké poznatky, tak technologie, aby přístup systémové biologie mohl naplnit svůj příslib. V biologických vědách je nutná kulturní změna a vzdělání a příprava příští generace biologů bude vyžadovat významnou reformu.

Gordon Moore, zakladatel společnosti Intel, předpověděl, že počet tranzistorů, které lze umístit na počítačový čip, se každých 18 měsíců zdvojnásobí. To se již více než 30 let daří. Tento exponenciální růst byl hnací silou explozivního rozvoje informačních technologií. Stejně tak množství informací o sekvencích DNA, které má vědecká komunita k dispozici, sleduje podobný, možná ještě strmější exponenciální růst. Zásadní otázkou je, jak lze sekvenční informace přeměnit na znalosti o organismu a jak se v důsledku toho změní biologie. Věříme, že klíčem je systémový přístup k biologii. Je však zřejmé, že tento přístup představuje značné výzvy, a to jak vědecké, tak kulturní19. Objevem struktury DNA jsme se vydali na tuto cestu, na jejímž konci bude velké sjednocení biologických věd v nově vznikajícím, na informacích založeném pohledu na biologii.

.

admin

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

lg