„Każda żywa komórka niesie ze sobą doświadczenia miliarda lat eksperymentów swoich przodków.” Max Delbruck, 1949 r.
Odkrycie podwójnej helisy w 1953 r. natychmiast zrodziło pytania o to, w jaki sposób informacja biologiczna jest kodowana w DNA1. Niezwykłą cechą struktury jest to, że DNA może pomieścić prawie każdą sekwencję par zasad – dowolną kombinację zasad adeniny (A), cytozyny (C), guaniny (G) i tyminy (T) – a zatem każdą wiadomość cyfrową lub informację. W następnej dekadzie odkryto, że każdy gen koduje komplementarny transkrypt RNA, zwany messenger RNA (mRNA)2, składający się z A, C, G i uracylu (U) zamiast T. Cztery zasady alfabetów DNA i RNA są powiązane z 20 aminokwasami alfabetu białkowego za pomocą kodu trójkowego – każde trzy litery (lub „kodony”) w genie kodują jeden aminokwas3. Na przykład AGT koduje aminokwas serynę. Słownik liter DNA, z których składają się aminokwasy, nazywany jest kodem genetycznym4. Istnieją 64 różne triplety lub kodony, z których 61 koduje aminokwas (różne triplety mogą kodować ten sam aminokwas), a trzy z nich są wykorzystywane do „interpunkcji” w tym, że sygnalizują one zakończenie łańcucha białka rosnącego.
Molekularne komplementarne podwójnej helisy – dzięki czemu każda baza na jednej nici DNA pary z jego komplementarnej bazy na partnerskiej nici (A z T, i C z G) – ma głębokie implikacje dla biologii. Jak sugerowali James Watson i Francis Crick w swojej przełomowej pracy1, parowanie zasad sugeruje mechanizm kopiowania szablonów, który odpowiada za wierność kopiowania materiału genetycznego podczas replikacji DNA (patrz artykuł Albertsa w tym numerze, str. 431). Leży ono również u podstaw syntezy mRNA z szablonu DNA, jak również procesów naprawy uszkodzonego DNA (omówionych przez Friedberga, strona 436).
Narzędzia do modyfikacji DNA
Enzymy, które funkcjonują w komórkach w celu kopiowania, cięcia i łączenia cząsteczek DNA, zostały również wykorzystane jako kluczowe narzędzia dla rewolucyjnych nowych technik w biologii molekularnej, w tym klonowania genów i ekspresji ich białek oraz mapowania lokalizacji genów na chromosomach. Zdolność do sztucznego odtworzenia procesu replikacji DNA w laboratorium doprowadziła do rozwoju dwóch technik, które zmieniły biologię: ręcznej metody sekwencjonowania DNA w 1975 roku oraz, w 1985 roku, odkrycia łańcuchowej reakcji polimerazy (PCR), dzięki której sekwencje DNA mogły być wzmacniane milion razy lub więcej5.
Ale sekwencjonowanie i PCR zmieniły naukę o biologii, miały również szerokie zastosowanie w medycynie i kryminalistyce. Wykrywanie różnic w sekwencji DNA między poszczególnymi osobnikami – tak zwanych „polimorfizmów” – stanowi podstawę „odcisków palców” DNA poszczególnych osób. Kryminalistyka wykorzystuje te odciski palców do rozwiązywania sporów o ojcostwo, jak również w sprawach karnych, takich jak gwałt. Odkrycie, że wiele specyficznych polimorfizmów DNA jest związanych z chorobą lub podatnością na chorobę, wprowadziło diagnostykę DNA do medycyny i otworzyło drogę do prawdziwej medycyny predykcyjnej, w której ryzyko choroby można zidentyfikować przed wystąpieniem objawów (zob. artykuł w tym numerze autorstwa Bella, s. 414).
Zautomatyzowane sekwencjonowanie DNA
Pierwsze próby sekwencjonowania DNA, których pionierami byli Walter Gilbert6 i Fred Sanger7 w latach 70. ubiegłego wieku, dekodowały odcinki DNA o długości kilkuset baz. Kiedy pierwszy kompletny genom został zsekwencjonowany w ciągu około jednego roku w latach 1977-78 – genom wirusowy o długości około 5000 zasad8 – stało się jasne, że dane sekwencji DNA mogą dostarczyć unikalnego wglądu w strukturę i funkcję genów, jak również organizację genomu. To właśnie ten potencjał generowania ogromnych ilości informacji o organizmie z jego kodu genetycznego zainspirował wysiłki w kierunku automatyzacji sekwencjonowania DNA (Rys. 1).
Połączenie czarodziejskiej techniki i intensywnej automatyzacji w następnej dekadzie zapoczątkowało „erę genomiczną”. Seria nowych instrumentów umożliwiła nowe podejścia do analizy biologicznej9,10,11. Pierwsza maszyna do sekwencjonowania – wynaleziona przez Leroya Hooda, Lloyda Smitha i Mike’a Hunkapillera w 1986 roku (ref. 12) – była zautomatyzowana w pozyskiwaniu danych, ale nadal wymagała znacznej uwagi manualnej, a szybkość sekwencjonowania była niska, około 250 baz dziennie. W ciągu następnych dziesięciu lat rozwój zautomatyzowanego sekwencjonowania DNA przyspieszył, szybko przechodząc przez trzy odrębne etapy: prototyp maszyny sekwencjonującej (1986); solidny instrument, który mógł być rutynowo stosowany w standardowym laboratorium (1989); i wreszcie maszynę, która stanowiła część zintegrowanej linii produkcyjnej przypominającej fabrykę, gdzie przygotowanie próbki DNA i sekwencjonowanie były w pełni zautomatyzowane (1998). Postęp w wydajności sekwencjonowania był uderzający – najnowsze maszyny sekwencjonujące są w stanie zdekodować około 1,5 miliona baz w ciągu 24 godzin – 6000 razy więcej niż prototyp.
Celem instrumentarium biologicznego o wysokiej przepustowości jest zwiększenie przepustowości, poprawa jakości danych i znaczne obniżenie kosztu za jednostkę uzyskanej informacji. Aby osiągnąć te cele w przyszłości, miniaturyzacja, automatyzacja, paralelizacja i integracja kolejnych procedur będzie napędzać technologię sekwencjonowania DNA do sfery mikroprzepływów i mikroelektroniki, a ostatecznie do obszaru nanotechnologii. Dzięki sekwencjonowaniu pojedynczych cząsteczek DNA przewidujemy czas, w którym cały genom danej osoby będzie można zsekwencjonować w ciągu jednego dnia za cenę mniejszą niż 10 000 USD (w porównaniu z kosztem 50 mln USD lub więcej, jaki trzeba będzie ponieść obecnie). Umożliwi to łatwe rozszyfrowanie sekwencji genomowej praktycznie każdego organizmu na planecie i zapewni niezrównany dostęp do podstaw biologii i badań nad ludzką zmiennością genetyczną.
Projekt Human Genome
Zapierająca dech w piersiach prędkość, z jaką rozwinęło się zautomatyzowane sekwencjonowanie DNA, była w dużej mierze stymulowana przez wymagania Projektu Human Genome (HGP), który oficjalnie rozpoczął się w 1990 roku po dyskusjach i badaniach nad wykonalnością i technologią, które rozpoczęły się na poważnie w 1985 roku. Celem HGP było wygenerowanie kompletnej sekwencji w ciągu 15 lat13 , ale szkic sekwencji genomu ludzkiego był dostępny w 2001 roku. W 2001 r. opracowano i opublikowano dwie wersje szkicu, jedną przez finansowane ze środków publicznych International Human Genome Sequencing Consortium14 , a drugą przez firmę biotechnologiczną Celera15 (ramka 1). W procesie opracowywania narzędzi i metodologii umożliwiających sekwencjonowanie i składanie 3 miliardów zasad genomu ludzkiego, zsekwencjonowano szereg genomów roślin, zwierząt i drobnoustrojów, a wiele innych jest obecnie dekodowanych. W miarę jak sekwencje genomów stają się dostępne, różne obszary biologii ulegają transformacji – na przykład dyscyplina mikrobiologii zmieniła się znacząco dzięki ukończeniu ponad 100 sekwencji genomów bakterii w ciągu ostatniej dekady.
HGP głęboko wpłynął na biologię w dwóch aspektach. Po pierwsze, zilustrował koncepcję „nauki odkrywczej” – pomysł, że wszystkie elementy systemu (czyli kompletna sekwencja genomu i cały wyjściowy RNA i białka kodowane przez genom) mogą być zdefiniowane, zarchiwizowane w bazie danych i udostępnione w celu ułatwienia nauki opartej na hipotezach i globalnych analizach. Po drugie, aby odnieść sukces, HGP popchnął rozwój wydajnego sekwencjonowania DNA na dużą skalę i jednocześnie napędzał tworzenie narzędzi o wysokiej wydajności (na przykład tablice DNA i spektrometria masowa) do analizy innych rodzajów powiązanych informacji biologicznych, takich jak mRNA, białka i interakcje molekularne.
Cyfrowa natura informacji biologicznej
Wartość posiadania całej sekwencji genomu polega na tym, że można rozpocząć badanie systemu biologicznego z precyzyjnie zdefiniowanym cyfrowym rdzeniem informacji dla tego organizmu – w pełni nakreślonym genetycznym kodem źródłowym. Wyzwanie polega więc na rozszyfrowaniu, jaka informacja jest zakodowana w tym cyfrowym kodzie. Genom koduje dwa główne rodzaje informacji cyfrowej – geny, które kodują białka i RNA molekularnych maszyn życia, oraz sieci regulacyjne, które określają, jak te geny są wyrażane w czasie, przestrzeni i amplitudzie.
To ewolucja sieci regulacyjnych, a nie samych genów, odgrywa decydującą rolę w odróżnianiu organizmów od siebie. Informacja cyfrowa w genomach działa na trzech różnych płaszczyznach czasowych: ewolucji (dziesiątki do milionów lat), rozwoju (godziny do dziesiątek lat) i fizjologii (milisekundy do tygodni). Rozwój to kształtowanie się organizmu od pojedynczej komórki (zapłodnionego jaja) do dorosłego osobnika (w przypadku człowieka jest to 1014 komórek tysięcy różnych typów). Fizjologia to wyzwalanie specyficznych programów funkcjonalnych (na przykład odpowiedzi immunologicznej) przez bodźce środowiskowe. Sieci regulacyjne są kluczowe w każdym z tych aspektów biologii.
Sieci regulacyjne składają się z dwóch głównych typów komponentów: czynników transkrypcyjnych i miejsc DNA, do których się wiążą w regionach kontrolnych genów, takich jak promotory, enhancery i tłumiki. Regiony kontrolne poszczególnych genów służą jako procesory informacyjne integrujące informację zawartą w stężeniach różnych czynników transkrypcyjnych w sygnały pośredniczące w ekspresji genów. Zbiór czynników transkrypcyjnych i ich miejsc wiążących DNA w regionach kontrolnych genów, które pełnią określoną funkcję rozwojową lub fizjologiczną, tworzy te sieci regulacyjne (ryc. 2).
Ponieważ większość „wyższych” organizmów lub eukariontów (organizmów, które zawierają swoje DNA w przedziale komórkowym zwanym jądrem), takich jak drożdże, muchy i ludzie, ma w przeważającej mierze te same rodziny genów, to reorganizacja miejsc wiązania DNA w regionach kontrolnych genów pośredniczy w zmianach w programach rozwojowych, które odróżniają jeden gatunek od drugiego. Tak więc, sieci regulacyjne są jednoznacznie określone przez ich miejsc wiązania DNA i, odpowiednio, są zasadniczo cyfrowe w naturze.
Jedną rzeczą, która jest uderzająca o cyfrowych sieci regulacyjnych jest to, że mogą one ulec znacznej zmianie w krótkich okresach czasu ewolucji. Odzwierciedla to, na przykład, w ogromnej różnorodności planów ciała, kontrolowane przez sieci regulacyjnych genów, które pojawiły się w ciągu być może 10-30 milionów lat podczas eksplozji kambryjskiej organizmów metazoan (około 550 milionów lat temu). Podobnie, niezwykłe zmiany nastąpiły do sieci regulacyjnych napędzających rozwój ludzkiego mózgu podczas jego dywergencji od wspólnego przodka z szympansami około 6 milionów lat temu.
Biologia rozwinęła kilka różnych typów hierarchii informacyjnych. Po pierwsze, hierarchia regulacyjna jest siecią genów, która określa relacje zestawu czynników transkrypcyjnych, ich miejsc wiązania DNA i genów peryferyjnych downstream, które wspólnie kontrolują określony aspekt rozwoju. Model rozwoju jeżowca stanowi uderzający przykład16 (ryc. 2). Po drugie, hierarchia ewolucyjna definiuje uporządkowany zestaw relacji, wynikający z duplikacji DNA. Na przykład, pojedynczy gen może być powielony, aby stworzyć rodzinę wielu genów, a rodzina wielu genów może być powielona, aby stworzyć rodzinę supergenów. Po trzecie, maszyny molekularne mogą być montowane w hierarchie strukturalne przez uporządkowany proces montażu. Jednym z przykładów jest podstawowy aparat transkrypcyjny, który obejmuje krok po kroku rekrutację czynników i enzymów, które ostatecznie będą napędzać specyficzną ekspresję danego genu. Drugim przykładem jest rybosom, kompleks przekształcający RNA w białko, który jest zbudowany z ponad 50 różnych białek i kilku cząsteczek RNA. Wreszcie, hierarchia informacyjna przedstawia przepływ informacji od genu do środowiska: gen → RNA → białko → interakcje białkowe → kompleksy białkowe → sieci kompleksów białkowych w komórce → tkanki lub organy → poszczególne organizmy → populacje → ekosystemy. Na każdym kolejno wyższym poziomie w hierarchii informacyjnej informacja może być dodana lub zmieniona dla dowolnego elementu (na przykład przez alternatywny splicing RNA lub modyfikację białka).
Podejście systemowe do biologii
Człowiek rozpoczyna życie jako pojedyncza komórka – zapłodnione jajo – i rozwija się w dorosłego człowieka z bilionami komórek i tysiącami typów komórek. Proces ten wykorzystuje dwa rodzaje informacji biologicznej: informację cyfrową genomu oraz informację środowiskową, taką jak stężenie metabolitów, wydzielane lub znajdujące się na powierzchni komórki sygnały z innych komórek lub gradienty chemiczne. Informacja środowiskowa jest dwojakiego rodzaju: informacja deterministyczna, gdzie konsekwencje sygnałów są zasadniczo z góry określone, i informacja stochastyczna, gdzie przypadek dyktuje wynik.
Losowe, lub stochastyczne, sygnały mogą generować znaczny hałas w systemach biologicznych, ale tylko w szczególnych przypadkach hałas jest przekształcany w sygnały. Na przykład, zdarzenia stochastyczne rządzą wieloma mechanizmami genetycznymi odpowiedzialnymi za generowanie różnorodności przeciwciał. W odpowiedzi immunologicznej te komórki B, które produkują przeciwciała ściśle wiążące się z antygenem (czyli te, które mają wysokie powinowactwo), przechodzą ekspansję liczebności proporcjonalną do siły powinowactwa przeciwciał (zob. artykuł Nossala w tym numerze, str. 440). W ten sposób sygnał (wysokie powinowactwo) jest odróżniany od szumu (niskie powinowactwo). Co więcej, wysoki poziom mutacji w komórkach B powoduje specyficzne zróżnicowanie genów przeciwciał w obecności antygenu i pozwala na jeszcze większe zwiększenie powinowactwa. Komórki niosące geny przeciwciał o wyższym powinowactwie są następnie preferencyjnie wybierane do przeżycia i proliferacji.
Kluczowym pytaniem jest to, co i jak dużo sygnału wyłania się z szumu. Analiza zdarzeń stochastycznych i rozróżnienie między sygnałem a szumem będzie przyszłym wyzwaniem dla współczesnej biologii. Odpowiedź immunologiczna jest badana od ponad 100 lat, ale wciąż tylko częściowo rozumiemy właściwości jej systemów, takie jak odpowiedź immunologiczna i tolerancja (brak reakcji na własne komórki). Dzieje się tak dlatego, że do niedawna immunolodzy byli w stanie badać ten złożony system tylko na poziomie jednego genu lub jednego białka na raz.
Podejście systemowe pozwala na badanie wszystkich elementów systemu w odpowiedzi na genetyczne (cyfrowe) lub środowiskowe perturbacje. Globalne analizy ilościowe informacji biologicznej z różnych poziomów dostarczają nowego wglądu w działanie systemu; dlatego informacja na tak wielu poziomach, jak to możliwe, musi być uchwycona, zintegrowana i ostatecznie modelowana matematycznie. Model powinien wyjaśnić właściwości systemu i ustanowić ramy, które pozwalają nam przeprojektować system w racjonalny sposób, aby wygenerować nowe emergent properties.
Several systems have been explored successfully. Wykorzystanie galaktozy w drożdżach było analizowane przy użyciu perturbacji genetycznych (inaktywacja genów) i zebrano cztery poziomy informacji – stężenia RNA i białek, jak również interakcje białko-białko i białko-DNA17. Stosując iteracyjne i integracyjne podejście systemowe, uzyskano nowy wgląd w regulację wykorzystania galaktozy. Co więcej, określono również relacje sieci regulacyjnej galaktozy z innymi modułami w komórce drożdży. Podobnie, systemowe podejście do wczesnego rozwoju embrionalnego jeżowca pozwoliło na wyodrębnienie sieci regulacyjnej, która ma znaczącą moc predykcyjną16 (Rys. 2). Wreszcie, systemowe podejście do metabolizmu w archetypowej halobakterii (organizm rozwijający się w pięciomolarnych roztworach soli, takich jak w Morzu Martwym) ujawniło nowe spojrzenie na wzajemne powiązania między kilkoma modułami kontrolującymi produkcję energii w komórce18.
Badanie biologii komórki i organizmu przy użyciu podejścia systemowego jest na samym początku. Będzie to wymagało zintegrowanych zespołów naukowców z różnych dziedzin – biologów, chemików, informatyków, inżynierów, matematyków i fizyków. Potrzebne są nowe metody pozyskiwania i analizy danych biologicznych o dużej wydajności. Należy wykorzystać potężną infrastrukturę obliczeniową, aby opracować bardziej skuteczne podejścia do wychwytywania, przechowywania, analizowania, integrowania, przedstawiania graficznego i matematycznego formułowania złożoności biologicznej. Nowe technologie muszą być ze sobą zintegrowane. Wreszcie, należy zintegrować naukę opartą na hipotezach i naukę opartą na odkryciach. Krótko mówiąc, aby podejście biologii systemów spełniło swoje obietnice, muszą pojawić się zarówno nowe nauki, jak i technologie. Potrzebna jest zmiana kulturowa w naukach biologicznych, a edukacja i szkolenie następnej generacji biologów będzie wymagać znaczącej reformy.
Gordon Moore, założyciel Intela, przewidział, że liczba tranzystorów, które można umieścić na chipie komputerowym, będzie się podwajać co 18 miesięcy. I tak jest od ponad 30 lat. Ten wykładniczy wzrost był siłą napędową gwałtownego rozwoju technologii informacyjnej. Podobnie, ilość informacji o sekwencji DNA dostępnych dla społeczności naukowej podąża podobnym, może nawet bardziej gwałtownym, wzrostem wykładniczym. Krytycznym problemem jest to, jak informacja o sekwencji może być przekształcona w wiedzę o organizmie i jak biologia zmieni się w wyniku tego. Uważamy, że kluczem jest systemowe podejście do biologii. Jest jednak jasne, że takie podejście stawia przed nami istotne wyzwania, zarówno naukowe, jak i kulturowe19. Odkrycie struktury DNA rozpoczęło naszą podróż, której końcem będzie wielkie zjednoczenie nauk biologicznych w wyłaniającym się, opartym na informacji spojrzeniu na biologię.
.