”Varje levande cell bär med sig erfarenheterna från en miljard år av experiment från dess förfäder.” Max Delbruck, 1949.
Upptäckten av dubbelhelixen 1953 väckte omedelbart frågor om hur biologisk information kodas i DNA1. En anmärkningsvärd egenskap hos strukturen är att DNA kan rymma nästan vilken sekvens av baspar som helst – vilken kombination som helst av baserna adenin (A), cytosin (C), guanin (G) och tymin (T) – och därmed vilket digitalt meddelande eller information som helst. Under det följande decenniet upptäckte man att varje gen kodar för en kompletterande RNA-utskrift, kallad messenger RNA (mRNA)2 , som består av A, C, G och uracil (U) i stället för T. De fyra baserna i DNA- och RNA-alfabeten är relaterade till de 20 aminosyrorna i proteinalfabetet med hjälp av en triplettkod – var och en av de tre bokstäverna (eller ”kodonerna”) i en gen kodar för en aminosyra3. AGT kodar till exempel för aminosyran serin. Ordlistan av DNA-bokstäver som bildar aminosyrorna kallas den genetiska koden4. Det finns 64 olika tripletter eller kodoner, varav 61 kodar för en aminosyra (olika tripletter kan koda för samma aminosyra) och tre används som ”interpunktion” genom att de signalerar slutet på den växande proteinkedjan.
Den molekylära komplementären i dubbelhelixen – där varje bas på en DNA-sträng bildar par med sin komplementära bas på partnersträngen (A med T, och C med G) – har djupgående konsekvenser för biologin. Som James Watson och Francis Crick antydde i sin banbrytande artikel1 tyder basparningen på en mekanism för kopiering av förlagor som förklarar tillförlitligheten i kopieringen av genetiskt material under DNA-replikation (se Alberts artikel i detta nummer, sidan 431). Den ligger också till grund för syntesen av mRNA från DNA-mallen samt processer för att reparera skadat DNA (behandlas av Friedberg, sidan 436).
Verktyg för att modifiera DNA
Enzymerna som fungerar i cellerna för att kopiera, skära och sammanfoga DNA-molekyler utnyttjades också som nyckelverktyg för revolutionerande nya tekniker inom molekylärbiologin, bland annat för att klona gener och uttrycka deras proteiner, och för att kartlägga var generna är placerade på kromosomerna. Möjligheten att artificiellt återskapa DNA-replikationsprocessen i laboratoriet ledde till utvecklingen av två tekniker som förändrade biologin: en manuell DNA-sekvenseringsmetod 1975 och 1985 upptäckten av polymeraskedjereaktionen (PCR), genom vilken DNA-sekvenser kunde amplifieras en miljon gånger eller mer5.
Och även om sekvensering och PCR förändrade biologivetenskapen hade de också breda användningsområden inom medicin och kriminalteknik. Upptäckten av variationer i DNA-sekvensen från en individ till en annan – så kallade ”polymorfismer” – utgör grunden för DNA-”fingeravtryck” av individer. Rättsmedicinen använder dessa fingeravtryck för att hantera faderskapstvister och brottsfall, t.ex. våldtäkt. Upptäckten att många specifika DNA-polymorfismer är förknippade med sjukdom eller sjukdomskänslighet har fört in DNA-diagnostik i medicinen och öppnat vägen för en verkligt förutsägande medicin, där riskerna för sjukdom kan identifieras innan symtom uppstår (se artikel av Bell i detta nummer, sidan 414).
Automatiserad DNA-sekvensering
De första försöken att sekvensera DNA, som inleddes av Walter Gilbert6 och Fred Sanger7 på 1970-talet, avkodade DNA-sträckor som var ett par hundra baser långa. När det första kompletta genomet sekvenserades under en period av cirka ett år 1977-78 – det av ett virusgenom på cirka 5 000 baser8 – stod det klart att DNA-sekvensdata skulle kunna ge unika insikter i genernas struktur och funktion, liksom i genomets organisation. Det var denna potential att generera stora mängder information om en organism från dess genetiska kod som inspirerade ansträngningarna för att automatisera DNA-sekvensering (fig. 1).
Kombinationen av teknisk trollkonst och intensiv automatisering under det följande decenniet lanserade den ”genomiska eran”. En rad nya instrument möjliggjorde nya tillvägagångssätt för biologisk analys9,10,11. Den första sekvenseringsmaskinen – som uppfanns av Leroy Hood, Lloyd Smith och Mike Hunkapiller 1986 (ref. 12) – var automatiserad när det gällde datainsamling, men krävde fortfarande betydande manuell uppmärksamhet och sekvenseringshastigheten var låg, ungefär 250 baser per dag. Under de följande tio åren accelererade utvecklingen av automatiserad DNA-sekvensering och genomgick snabbt tre olika stadier: prototypen av sekvenseringsmaskinen (1986), ett robust instrument som kunde användas rutinmässigt i ett standardlaboratorium (1989) och slutligen en maskin som utgjorde en del av en integrerad fabriksliknande produktionslinje där förberedelse av DNA-prov och sekvensering var helt automatiserade (1998). Framstegen i sekvenseringskapaciteten har varit slående – de senaste sekvenseringsmaskinerna kan avkoda cirka 1,5 miljoner baser på 24 timmar – 6 000 gånger genomströmningen hos prototypen.
Målen för biologiska instrument med hög genomströmning är att öka genomströmningen, förbättra datakvaliteten och kraftigt minska kostnaden för den information som erhålls per enhet. För att nå dessa mål i framtiden kommer miniatyrisering, automatisering, parallellisering och integrering av successiva förfaranden att driva DNA-sekvenseringstekniken in på mikrofluidikens och mikroelektronikens område och så småningom in på nanoteknikens område. Med sekvensering av enskilda DNA-molekyler förutser vi en tid då en individs hela arvsmassa kan sekvenseras på en enda dag till en kostnad av mindre än 10 000 US-dollar (jämfört med de 50 miljoner US-dollar eller mer som det skulle kosta i dag). Detta kommer lätt att göra det möjligt att avkoda den genomiska sekvensen hos praktiskt taget vilken organism som helst på planeten och ge oöverträffad tillgång till biologins grunder och till studiet av människans genetiska variabilitet.
Det mänskliga genomprojektet
Den hisnande hastighet med vilken den automatiserade DNA-sekvenseringen utvecklades stimulerades till stor del av kraven på genomströmning inom det humana genomprojektet (HGP), som officiellt inleddes 1990 efter diskussioner och studier av genomförbarhet och teknik som började på allvar 1985. HGP:s mål var att skapa en färdig sekvens på 15 år13 , men ett utkast till sekvensen av den mänskliga arvsmassan fanns tillgängligt 2001. Två versioner av utkastet togs fram och publicerades 2001, en av det offentligt finansierade International Human Genome Sequencing Consortium14 och en av bioteknikföretaget Celera15 (ruta 1). Under arbetet med att utveckla de verktyg och metoder som behövs för att kunna sekvensera och sammanställa de 3 miljarder baserna i det mänskliga genomet sekvenserades en rad växt-, djur- och mikrobiella genomer, och många fler håller för närvarande på att avkodas. I takt med att genomsekvenser blir tillgängliga förändras olika biologiska områden – till exempel har mikrobiologin förändrats avsevärt i och med att mer än 100 bakteriegenomsekvenser har färdigställts under det senaste decenniet.
HGP har påverkat biologin på ett genomgripande sätt i två avseenden. För det första illustrerade den begreppet ”upptäcktsvetenskap” – idén att alla systemets beståndsdelar (dvs. den fullständiga genomsekvensen och hela RNA- och proteinproduktionen som kodas av genomet) kan definieras, arkiveras i en databas och göras tillgängliga för att underlätta hypotesdriven vetenskap och globala analyser. För det andra, för att lyckas, har HGP drivit på utvecklingen av effektiv storskalig DNA-sekvensering och samtidigt drivit på skapandet av verktyg med hög kapacitet (t.ex. DNA-arrayer och masspektrometri) för analys av andra typer av relaterad biologisk information, t.ex. mRNA:er, proteiner och molekylära interaktioner.
Den biologiska informationens digitala natur
Värdet av att ha en hel genomsekvens är att man kan inleda studiet av ett biologiskt system med en exakt definierbar digital informationskärna för den organismen – en fullständigt avgränsad genetisk källkod. Utmaningen ligger sedan i att dechiffrera vilken information som är kodad i den digitala koden. Genomet kodar två huvudtyper av digital information – de gener som kodar för livets molekylära protein- och RNA-maskiner och de regleringsnätverk som anger hur dessa gener uttrycks i tid, rum och amplitud.
Det är utvecklingen av regleringsnätverken och inte generna i sig själva som spelar den avgörande rollen när det gäller att göra organismerna olika från varandra. Den digitala informationen i genomerna fungerar över tre olika tidsperioder: evolution (tiotals till miljontals år), utveckling (timmar till tiotals år) och fysiologi (millisekunder till veckor). Utveckling är en organisms utveckling från en enda cell (det befruktade ägget) till en vuxen organism (för människor är detta 1014 celler av tusentals olika typer). Fysiologi är utlösandet av specifika funktionella program (t.ex. immunförsvaret) genom miljöinformation. Reglerande nätverk är avgörande för var och en av dessa aspekter av biologin.
Reglerande nätverk består av två huvudtyper av komponenter: transkriptionsfaktorer och de DNA-platser som de binder till i genernas kontrollregioner, t.ex. promotorer, enhancers och silencers. Kontrollregionerna för enskilda gener fungerar som informationsprocessorer för att integrera den information som finns i koncentrationerna av olika transkriptionsfaktorer till signaler som förmedlar genuttryck. Samlingen av transkriptionsfaktorer och deras motsvarande DNA-bindningsställen i kontrollområdena för gener som utför en viss utvecklingsfunktion eller fysiologisk funktion utgör dessa regleringsnätverk (fig. 2).
Då de flesta ”högre” organismer eller eukaryoter (organismer som innehåller sitt DNA i en cellulär avdelning som kallas kärnan), såsom jäst, flugor och människor, huvudsakligen har samma genfamiljer, är det omorganiseringen av DNA-bindningsställen i genernas kontrollregioner som förmedlar de förändringar i utvecklingsprogrammen som skiljer en art från en annan. De regulatoriska nätverken är således unikt specificerade genom sina DNA-bindningsställen och är följaktligen i grunden digitala till sin natur.
En sak som är slående när det gäller digitala regulatoriska nätverk är att de kan förändras avsevärt under korta perioder av evolutionär tid. Detta återspeglas till exempel i den enorma mångfalden av kroppsplaner, som kontrolleras av genregleringsnätverk, som uppstod under kanske 10-30 miljoner år under den kambriska explosionen av metazoorganismer (för cirka 550 miljoner år sedan). På samma sätt skedde anmärkningsvärda förändringar i de regleringsnätverk som styrde utvecklingen av den mänskliga hjärnan under dess divergens från dess gemensamma förfader med schimpanser för cirka 6 miljoner år sedan.
Biologin har utvecklat flera olika typer av informationshierarkier. För det första är en reglerande hierarki ett gennätverk som definierar relationerna mellan en uppsättning transkriptionsfaktorer, deras DNA-bindningsställen och nedströms perifera gener som kollektivt kontrollerar en viss aspekt av utvecklingen. En modell av utvecklingen hos sjöborren utgör ett slående exempel16 (fig. 2). För det andra definierar en evolutionär hierarki en ordningsuppsättning av relationer som uppstår genom DNA-duplicering. En enskild gen kan till exempel dupliceras för att skapa en flergenfamilj, och en flergenfamilj kan dupliceras för att skapa en supergenfamilj. För det tredje kan molekylära maskiner sättas samman till strukturella hierarkier genom en ordnad sammansättningsprocess. Ett exempel på detta är den grundläggande transkriptionsapparaten som innebär en stegvis rekrytering av faktorer och enzymer som i slutändan kommer att driva det specifika uttrycket av en viss gen. Ett annat exempel är ribosomen, det komplex som översätter RNA till protein, som är sammansatt av mer än 50 olika proteiner och några få RNA-molekyler. Slutligen beskriver en informationshierarki informationsflödet från en gen till miljön: gen → RNA → protein → proteininteraktioner → proteinkomplex → nätverk av proteinkomplex i en cell → vävnader eller organ → enskilda organismer → populationer → ekosystem. På varje successivt högre nivå i informationshierarkin kan information läggas till eller ändras för varje givet element (t.ex. genom alternativ RNA-splicing eller proteinmodifiering).
Systemansatser inom biologin
Människan börjar sitt liv som en enda cell – det befruktade ägget – och utvecklas till en vuxen människa med triljoner av celler och tusentals celltyper. I denna process används två typer av biologisk information: den digitala informationen i genomet och miljöinformation, t.ex. koncentrationer av metaboliter, utsöndrade signaler eller signaler på cellytan från andra celler eller kemiska gradienter. Miljöinformationen är av två olika typer: deterministisk information där konsekvenserna av signalerna i huvudsak är förutbestämda, och stokastisk information där slumpen dikterar resultatet.
Randomiska, eller stokastiska, signaler kan generera betydande brus i biologiska system, men det är bara i speciella fall som bruset omvandlas till signaler. Till exempel styr stokastiska händelser många av de genetiska mekanismer som ansvarar för att generera antikroppsdiversitet. I immunsvaret genomgår de B-celler som producerar antikroppar som binder tätt till antigenet (dvs. de som har hög affinitet) en expansion i antal som är proportionell mot styrkan i antikroppsaffiniteten (se artikel av Nossal i detta nummer, sidan 440). Därför skiljer sig signalen (hög affinitet) från bruset (låg affinitet). Dessutom orsakar höga mutationsnivåer i B-cellerna en specifik diversifiering av antikroppsgener i närvaro av antigen och gör att affiniteten kan öka ännu mer. De celler som bär på antikroppsgener med högre affinitet väljs då företrädesvis ut för överlevnad och proliferation.
Nyckelfrågan är vad och hur mycket signal som framträder ur bruset. Analys av stokastiska händelser och differentiering mellan signal och brus kommer att vara en framtida utmaning för den samtida biologin. Immunförsvaret har studerats i mer än 100 år, men vi har fortfarande bara en partiell förståelse för dess systemegenskaper, t.ex. immunförsvaret och tolerans (oförmåga att reagera på de egna cellerna). Detta beror på att immunologer fram till nyligen har kunnat studera detta komplexa system endast en gen eller ett protein i taget.
Systemansatsen gör det möjligt att studera alla element i ett system som svar på genetiska (digitala) eller miljörelaterade störningar. Globala kvantitativa analyser av biologisk information från olika nivåer ger var och en nya insikter i systemets funktion; därför måste information på så många nivåer som möjligt fångas upp, integreras och slutligen modelleras matematiskt. Modellen bör förklara systemets egenskaper och upprätta en ram som gör det möjligt för oss att omforma systemet på ett rationellt sätt för att generera nya framväxande egenskaper.
Vissa system har undersökts med framgång. Utnyttjandet av sockret galaktos i jäst har analyserats med hjälp av genetiska störningar (inaktivering av gener) och fyra nivåer av information samlades in – RNA- och proteinkoncentrationer samt protein-protein- och protein-DNA-interaktioner17. Med hjälp av en iterativ och integrativ systemansats fick man nya insikter i regleringen av galaktosanvändningen. Dessutom beskrevs förhållandet mellan det galaktosreglerande nätverket och andra moduler i jästcellen. På samma sätt har man med hjälp av systemansatser för tidig embryonal utveckling i sjöborren kartlagt ett regleringsnätverk som har en betydande prediktiv förmåga16 (fig. 2). Slutligen har systemansatser för metabolism i en arkeal halobakterie (en organism som trivs i upp till fem molära saltlösningar, t.ex. i Döda havet) avslöjat nya insikter om de inbördes relationerna mellan flera moduler som kontrollerar energiproduktionen i cellen18.
Studien av cellulär och organismisk biologi med hjälp av systemansatsen befinner sig i sin absoluta begynnelsefas. Det kommer att kräva integrerade team av forskare från olika discipliner – biologer, kemister, datavetare, ingenjörer, matematiker och fysiker. Det behövs nya metoder för att samla in och analysera biologiska data med hög kapacitet. En kraftfull datainfrastruktur måste utnyttjas för att skapa effektivare metoder för att fånga, lagra, analysera, integrera, grafiskt visa och matematiskt formulera biologisk komplexitet. Ny teknik måste integreras med varandra. Slutligen måste hypotesdriven och upptäcktsbaserad vetenskap integreras. Kort sagt måste både ny vetenskap och ny teknik utvecklas för att systembiologin skall kunna förverkliga sina löften. Det behövs ett kulturellt skifte inom de biologiska vetenskaperna, och utbildningen av nästa generation biologer kommer att kräva betydande reformer.
Gordon Moore, grundaren av Intel, förutspådde att antalet transistorer som kunde placeras på ett datachip skulle fördubblas var 18:e månad. Det har det gjort i mer än 30 år. Denna exponentiella tillväxt har varit en drivkraft för informationsteknikens explosiva tillväxt. På samma sätt följer mängden DNA-sekvensinformation som är tillgänglig för forskarvärlden en liknande, kanske ännu brantare, exponentiell ökning. Den kritiska frågan är hur sekvensinformation kan omvandlas till kunskap om organismen och hur biologin kommer att förändras till följd av detta. Vi anser att en systemansats på biologi är nyckeln. Det är dock uppenbart att detta tillvägagångssätt innebär stora utmaningar, både vetenskapligt och kulturellt19. Upptäckten av DNA-strukturen startade oss på denna resa, vars slut kommer att vara den stora föreningen av de biologiska vetenskaperna i den framväxande, informationsbaserade synen på biologin.