“Enhver levende celle bærer på erfaringerne fra en milliard års eksperimenter fra dens forfædre.” Max Delbruck, 1949.

Den opdagelse, der blev gjort af dobbeltspiralen i 1953, rejste straks spørgsmål om, hvordan biologisk information er kodet i DNA1. Et bemærkelsesværdigt træk ved strukturen er, at DNA kan rumme næsten enhver sekvens af basepar – enhver kombination af baserne adenin (A), cytosin (C), guanin (G) og thymin (T) – og dermed enhver digital besked eller information. I løbet af det følgende årti opdagede man, at hvert gen koder for en komplementær RNA-transskription, kaldet messenger RNA (mRNA)2 , der består af A, C, G og uracil (U) i stedet for T. De fire baser i DNA- og RNA-alfabeterne er forbundet med de 20 aminosyrer i proteinalfabetet ved hjælp af en tripletkode – hver af de tre bogstaver (eller “kodoner”) i et gen koder for en aminosyre3. AGT koder f.eks. for aminosyren serin. Den ordbog af DNA-bogstaver, der udgør aminosyrerne, kaldes den genetiske kode4. Der findes 64 forskellige tripletter eller kodoner, hvoraf 61 koder for en aminosyre (forskellige tripletter kan kode for den samme aminosyre), og tre af dem bruges som “tegnsætning”, idet de signalerer afslutningen af den voksende proteinkæde.

Den molekylære komplementaritet i dobbeltspiralen – hvor hver base på den ene DNA-streng danner par med sin komplementære base på partnerstrengen (A med T og C med G) – har dybtgående konsekvenser for biologien. Som antydet af James Watson og Francis Crick i deres skelsættende artikel1 tyder baseparring på en mekanisme til kopiering af skabeloner, som er årsag til den nøjagtige kopiering af genetisk materiale under DNA-replikation (se artikel af Alberts i dette nummer, side 431). Den understøtter også syntesen af mRNA fra DNA-skabelonen samt processer til reparation af beskadiget DNA (omtalt af Friedberg, side 436).

Værktøjer til ændring af DNA

De enzymer, der fungerer i cellerne til at kopiere, klippe og sammenføje DNA-molekyler, blev også udnyttet som nøgleværktøjer til revolutionerende nye teknikker inden for molekylærbiologien, herunder kloning af gener og ekspression af deres proteiner og kortlægning af genernes placering på kromosomer. Evnen til at genskabe DNA-replikationsprocessen kunstigt i laboratoriet førte til udviklingen af to teknikker, der ændrede biologien: en manuel DNA-sekventeringsmetode i 1975 og i 1985 opdagelsen af polymerasekædereaktionen (PCR), hvorved DNA-sekvenser kunne forstærkes en million gange eller mere5.

Og selv om sekventering og PCR ændrede videnskaben om biologi, havde de også brede anvendelser inden for medicin og retsmedicin. Påvisningen af variationer i DNA-sekvensen fra det ene individ til det andet – såkaldte “polymorfismer” – danner grundlaget for DNA-“fingeraftryk” af enkeltpersoner. Retsmedicinerne bruger disse fingeraftryk til at behandle faderskabstvister og straffesager som f.eks. voldtægt. Opdagelsen af, at mange specifikke DNA-polymorfismer er forbundet med sygdom eller modtagelighed for sygdom, har bragt DNA-diagnostik ind i lægevidenskaben og åbnet vejen for en virkelig prædiktiv medicin, hvor risikoen for sygdom kan identificeres, før der opstår symptomer (se artiklen af Bell i dette nummer, side 414).

Automatiseret DNA-sekventering

De første forsøg på at sekventere DNA, som Walter Gilbert6 og Fred Sanger7 var pionerer inden for 1970’erne, afkodede DNA-strækninger på nogle få hundrede baser. Da det første komplette genom blev sekventeret over en periode på ca. et år i 1977-78 – nemlig et viralgenom på ca. 5 000 baser8 – blev det klart, at DNA-sekvensdata kunne give en unik indsigt i genernes struktur og funktion samt i genomets organisation. Det var dette potentiale til at generere enorme mængder information om en organisme ud fra dens genetiske kode, der inspirerede bestræbelserne på at automatisere DNA-sekventering (fig. 1).

Figur 1: Sådan sekventeres DNA.

a, DNA-polymerase kopierer en DNA-streng. b, Indsættelse af en terminatorbase i den voksende streng standser kopieringsprocessen. Dette er en tilfældig hændelse, der resulterer i en række fragmenter af forskellig længde, afhængigt af den base, hvor kopieringen blev stoppet. Fragmenterne adskilles efter størrelse ved at køre dem gennem en gelmatrix med de korteste fragmenter nederst og de største øverst. c, Terminatorerne er mærket med forskellige fluorescerende farvestoffer, så hvert fragment vil fluorescere i en bestemt farve, afhængigt af om det ender med en A, C, G eller T base. d, Sekvensen “læses” af en computer. Den genererer et “sekvensspor”, som vist her, hvor de farvede toppe svarer til de fluorescerende bånd, der læses fra bunden til toppen af den ene gelbane i gelen. Computeren oversætter disse fluorescerende signaler til en DNA-sekvens, som illustreret øverst på plottet. Billedet er tilpasset fra ref. 20.

Kombinationen af teknisk snilde og intensiv automatisering i det efterfølgende årti lancerede den “genomiske æra”. En række nye instrumenter gjorde det muligt at anvende nye metoder til biologisk analyse9,10,11. Den første sekventeringsmaskine – opfundet af Leroy Hood, Lloyd Smith og Mike Hunkapiller i 1986 (ref. 12) – var automatiseret med hensyn til dataindsamling, men krævede stadig en betydelig manuel indsats, og sekventeringshastigheden var lav, ca. 250 baser pr. dag. I løbet af de næste ti år accelererede udviklingen af automatiseret DNA-sekventering og gennemgik hurtigt tre forskellige faser: prototypen af en sekventeringsmaskine (1986), et robust instrument, der kunne anvendes rutinemæssigt i et standardlaboratorium (1989) og endelig en maskine, der udgjorde en del af en integreret fabrikslignende produktionslinje, hvor forberedelse og sekventering af DNA-prøver var fuldt automatiseret (1998). Fremskridtene inden for sekventeringskapacitet har været slående – de nyeste sekventeringsmaskiner kan afkode ca. 1,5 mio. baser i løbet af 24 timer – 6.000 gange gennemstrømningen i prototypen.

Målene med biologisk instrumentering med højt gennemløb er at øge gennemstrømningen, forbedre datakvaliteten og reducere omkostningerne pr. indsamlet informationsenhed betydeligt. For at nå disse mål i fremtiden vil miniaturisering, automatisering, parallelisering og integration af successive procedurer føre DNA-sekventeringsteknologien ind på området for mikrofluidik og mikroelektronik og i sidste ende ind på området for nanoteknologi. Med sekventering af enkelt-DNA-molekyler forudser vi en tid, hvor et individs hele genom vil kunne sekventeres på en enkelt dag til en pris på under 10 000 USD (sammenlignet med de 50 millioner USD eller mere, som det ville koste i dag). Dette vil let gøre det muligt at afkode genomsekvensen af stort set alle organismer på planeten og give en uovertruffen adgang til biologiens grundlag og til studiet af menneskets genetiske variabilitet.

Det menneskelige genomprojekt

Den betagende hastighed, hvormed den automatiserede DNA-sekventering udviklede sig, blev i høj grad stimuleret af kravene til gennemløb i det menneskelige genomprojekt (HGP), som officielt startede i 1990 efter diskussioner og undersøgelser af gennemførlighed og teknologi, der for alvor begyndte i 1985. HGP’s mål var at generere en færdig sekvens på 15 år13 , men et udkast til sekvensen af det menneskelige genom forelå allerede i 2001. Der blev udarbejdet og offentliggjort to versioner af udkastet i 2001, den ene af det offentligt finansierede International Human Genome Sequencing Consortium14 og den anden af bioteknologiselskabet Celera15 (boks 1). I forbindelse med udviklingen af de værktøjer og metoder, der skal bruges til at sekventere og samle de 3 milliarder baser i det menneskelige genom, blev en række plante-, dyre- og mikrobielle genomer sekventeret, og mange andre er i øjeblikket ved at blive afkodet. Efterhånden som genomsekvenser bliver tilgængelige, ændres forskellige områder af biologien – f.eks. har mikrobiologien ændret sig markant med færdiggørelsen af mere end 100 bakterielle genomsekvenser i løbet af det seneste årti.

Det HGP har haft en dybtgående indflydelse på biologien i to henseender. For det første illustrerede det begrebet “opdagelsesvidenskab” – idéen om, at alle systemets elementer (dvs. den komplette genomsekvens og hele det RNA- og proteinoutput, som er kodet af genomet) kan defineres, arkiveres i en database og gøres tilgængelige for at lette hypotesedrevet videnskab og globale analyser. For det andet har HGP for at få succes presset på for udviklingen af effektiv DNA-sekventering i stor skala og samtidig drevet udviklingen af værktøjer med højt gennemløb (f.eks. DNA-arrays og massespektrometri) til analyse af andre typer beslægtede biologiske oplysninger, f.eks. mRNA’er, proteiner og molekylære interaktioner.

Den digitale karakter af biologisk information

Værdien af at have en hel genomsekvens er, at man kan indlede studiet af et biologisk system med en præcist definerbar digital kerne af information for den pågældende organisme – en fuldt ud afgrænset genetisk kildekode. Udfordringen består så i at dechifrere, hvilken information der er kodet i den digitale kode. Genomet koder to hovedtyper af digital information – de gener, der koder for livets molekylære protein- og RNA-maskiner, og de regulatoriske netværk, der specificerer, hvordan disse gener udtrykkes i tid, rum og amplitude.

Det er udviklingen af de regulatoriske netværk og ikke generne selv, der spiller den afgørende rolle for, at organismer er forskellige fra hinanden. Den digitale information i genomerne opererer over tre forskellige tidsrum: evolution (fra ti til millioner af år), udvikling (fra timer til ti år) og fysiologi (fra millisekunder til uger). Udvikling er en organismes udvikling fra en enkelt celle (det befrugtede æg) til en voksen organisme (for mennesker er det 1014 celler af tusindvis af forskellige typer). Fysiologi er udløsningen af specifikke funktionelle programmer (f.eks. immunforsvaret) ved hjælp af miljømæssige signaler. Reguleringsnetværk er afgørende for hvert af disse aspekter af biologien.

Reguleringsnetværk består af to hovedtyper af komponenter: transkriptionsfaktorer og de DNA-steder, som de binder sig til i genernes kontrolområder, f.eks. promotorer, forstærkere og silencers. De enkelte geners kontrolregioner tjener som informationsprocessorer til at integrere den information, der ligger i koncentrationerne af forskellige transkriptionsfaktorer, i signaler, der formidler genekspression. Samlingen af transkriptionsfaktorer og deres beslægtede DNA-bindingssteder i kontrolregionerne af gener, der udfører en bestemt udviklingsmæssig eller fysiologisk funktion, udgør disse reguleringsnetværk (fig. 2).

Figur 2: Et genreguleringsnetværk, der er involveret i søpindsvinets udvikling16.

a, Del af netværket af transkriptionsfaktorer og deres interaktioner med andre transkriptionsfaktorers kontrolregioner. Gener er angivet med vandrette linjer; pilespidser angiver aktivering; “⊥”-symboler angiver genrepression. b, En udvidelse af promotorregionen for et gen, kaldet endo 16, der er med til at modulere udviklingen af endodermen. Det indeholder 34 bindingssteder (rektangler) for 13 forskellige transkriptionsfaktorer og cofaktorer (illustreret som henholdsvis rektangler eller slikkepinde). Seks moduler (A-G) af transkriptionsfaktorer og bindingssteder udfører diskrete funktioner til udviklingsmæssig regulering af endo 16. c, Diagram, der viser de logiske strukturer af A- og B-kontrolkredsløbene under søpindsvinets udvikling.

Da de fleste “højere” organismer eller eukaryoter (organismer, der indeholder deres DNA i et cellulært rum kaldet kernen), såsom gær, fluer og mennesker, overvejende har de samme genfamilier, er det reorganiseringen af DNA-bindingssteder i genernes kontrolregioner, der formidler de ændringer i udviklingsprogrammerne, som adskiller den ene art fra den anden. De regulatoriske netværk er således entydigt specificeret af deres DNA-bindingssteder og er derfor grundlæggende digitale i deres natur.

En ting, der er slående ved digitale regulatoriske netværk, er, at de kan ændre sig betydeligt i løbet af korte evolutionære perioder. Dette afspejles f.eks. i den enorme mangfoldighed af kropsplaner, der kontrolleres af genreguleringsnetværk, og som opstod i løbet af måske 10-30 millioner år under den kambriske eksplosion af metazoorganismer (for ca. 550 millioner år siden). På samme måde skete der bemærkelsesværdige ændringer i de reguleringsnetværk, der styrer udviklingen af den menneskelige hjerne under dens afvigelse fra dens fælles forfader med chimpanserne for ca. 6 millioner år siden.

Biologien har udviklet flere forskellige typer af informationshierarkier. For det første er et reguleringshierarki et gennetværk, der definerer forholdet mellem et sæt transkriptionsfaktorer, deres DNA-bindingssteder og de nedstrøms perifere gener, der tilsammen kontrollerer et bestemt aspekt af udviklingen. En model for udvikling i søpindsvinet er et slående eksempel16 (fig. 2). For det andet definerer et evolutionært hierarki et ordenssæt af relationer, der opstår som følge af DNA-duplikering. F.eks. kan et enkelt gen duplikeres for at skabe en flergenfamilie, og en flergenfamilie kan duplikeres for at skabe en supergenfamilie. For det tredje kan molekylære maskiner samles til strukturelle hierarkier ved hjælp af en ordnet samlingsproces. Et eksempel herpå er det grundlæggende transkriptionsapparat, der indebærer en trinvis rekruttering af faktorer og enzymer, som i sidste ende vil drive den specifikke ekspression af et givet gen. Et andet eksempel er ribosomet, det kompleks, der oversætter RNA til protein, som er sammensat af mere end 50 forskellige proteiner og et par RNA-molekyler. Endelig skildrer et informationshierarki informationsstrømmen fra et gen til omgivelserne: gen → RNA → protein → proteininteraktioner → proteinkomplekser → proteinkomplekser → netværk af proteinkomplekser i en celle → væv eller organer → individuelle organismer → populationer → økosystemer. På hvert successivt højere niveau i informationshierarkiet kan der tilføjes eller ændres information for et givet element (f.eks. ved alternativ RNA-splejsning eller proteinmodifikation).

Systemtilgange til biologi

Mennesket starter livet som en enkelt celle – det befrugtede æg – og udvikler sig til en voksen med billioner af celler og tusindvis af celletyper. I denne proces anvendes to typer biologisk information: den digitale information i genomet og miljøinformation, f.eks. koncentrationer af metabolitter, signaler fra andre celler, der udskilles eller kommer fra celleoverfladen, eller kemiske gradienter. Miljøoplysningerne er af to forskellige typer: deterministisk information, hvor konsekvenserne af signalerne i det væsentlige er forudbestemt, og stokastisk information, hvor tilfældighederne dikterer resultatet.

Randomiske eller stokastiske signaler kan generere betydelig støj i biologiske systemer, men det er kun i særlige tilfælde, at støj omdannes til signaler. Stokastiske hændelser styrer f.eks. mange af de genetiske mekanismer, der er ansvarlige for at generere antistofdiversitet. I immunresponset gennemgår de B-celler, der producerer antistoffer, som binder tæt til antigenet (dvs. dem med høj affinitet), en udvidelse i antal, der er proportional med styrken af antistofaffiniteten (se artiklen i dette nummer af Nossal, side 440). Dermed skelnes der mellem signalet (høj affinitet) og støjen (lav affinitet). Desuden medfører et højt mutationsniveau i B-cellerne en specifik diversificering af antistofgenerne i tilstedeværelsen af antigenet og gør det muligt at øge affiniteten endnu mere. De celler, der bærer antistofgener med højere affinitet, bliver derefter fortrinsvis udvalgt til overlevelse og proliferation.

Det centrale spørgsmål er, hvad og hvor meget signal der kommer ud af støjen. Analyse af stokastiske hændelser og differentiering mellem signal og støj vil være en fremtidig udfordring for den moderne biologi. Immunresponset er blevet undersøgt i mere end 100 år, men vi har stadig kun en delvis forståelse af dets systemegenskaber som f.eks. immunrespons og tolerance (manglende reaktion på egne celler). Det skyldes, at immunologer indtil for nylig kun har kunnet studere dette komplekse system med ét gen eller ét protein ad gangen.

Systemtilgangen gør det muligt at studere alle elementer i et system som reaktion på genetiske (digitale) eller miljømæssige forstyrrelser. Globale kvantitative analyser af biologisk information fra forskellige niveauer giver hver især ny indsigt i systemets funktion; derfor skal information på så mange niveauer som muligt opfanges, integreres og i sidste ende modelleres matematisk. Modellen skal forklare systemets egenskaber og opstille en ramme, der gør det muligt at redesigne systemet på en rationel måde for at generere nye emergente egenskaber.

Der er blevet undersøgt flere systemer med succes. Udnyttelsen af sukkerstoffet galactose i gær er blevet analyseret ved hjælp af genetiske forstyrrelser (inaktivering af gener), og der blev indsamlet oplysninger på fire niveauer – RNA- og proteinkoncentrationer samt protein-protein- og protein-DNA-interaktioner17. Ved hjælp af en iterativ og integrativ systemtilgang blev der opnået ny indsigt i reguleringen af galactoseforbruget. Desuden blev relationerne mellem det galaktose-regulerende netværk og andre moduler i gærcellen også afgrænset. På samme måde har systemtilgange til den tidlige embryonale udvikling i søpindsvinet beskrevet et reguleringsnetværk, som har en betydelig forudsigelseskraft16 (fig. 2). Endelig har systemtilgange til metabolisme i en arkæisk halobakterie (en organisme, der trives i op til fem molære saltopløsninger, som f.eks. i Det Døde Hav) afsløret ny indsigt i de indbyrdes relationer mellem flere moduler, der kontrollerer energiproduktionen i cellen18.

Studiet af cellulær og organismisk biologi ved hjælp af systemtilgangen er kun lige begyndt. Det vil kræve integrerede hold af forskere fra forskellige discipliner – biologer, kemikere, dataloger, ingeniører, matematikere og fysikere. Der er behov for nye metoder til indsamling og analyse af biologiske data med højt gennemløb. Der skal udnyttes en kraftig computerinfrastruktur til at skabe mere effektive metoder til registrering, lagring, analyse, integration, grafisk visning og matematisk formulering af biologisk kompleksitet. Nye teknologier skal integreres med hinanden. Endelig skal hypotesedrevet og opdagelsesbaseret videnskab integreres. Kort sagt skal der både ny videnskab og teknologi til, for at den systembiologiske tilgang kan indfri sit løfte. Der er behov for et kulturelt skift i de biologiske videnskaber, og uddannelsen af den næste generation af biologer vil kræve en betydelig reform.

Gordon Moore, grundlæggeren af Intel, forudsagde, at antallet af transistorer, der kunne placeres på en computerchip, ville fordobles hver 18. måned. Det har det gjort i mere end 30 år. Denne eksponentielle vækst har været en drivkraft for den eksplosive vækst inden for informationsteknologi. På samme måde følger mængden af DNA-sekvensoplysninger, der er tilgængelige for forskersamfundet, en lignende, måske endda endnu stejlere, eksponentiel stigning. Det kritiske spørgsmål er, hvordan sekvensinformation kan omsættes til viden om organismen, og hvordan biologien vil ændre sig som følge heraf. Vi mener, at en systemtilgang til biologien er nøglen. Det er imidlertid klart, at denne tilgang indebærer betydelige udfordringer, både videnskabeligt og kulturelt19. Opdagelsen af DNA-strukturen satte os i gang på denne rejse, hvis afslutning vil være den store forening af de biologiske videnskaber i den nye, informationsbaserede opfattelse af biologien.

admin

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

lg