“Elke levende cel draagt de ervaringen met zich mee van een miljard jaar experimenteren door zijn voorouders.” Max Delbruck, 1949.

De ontdekking van de dubbele helix in 1953 riep onmiddellijk vragen op over de wijze waarop biologische informatie in DNA is gecodeerd1. Een opmerkelijke eigenschap van de structuur is dat DNA bijna elke opeenvolging van basenparen kan bevatten – elke combinatie van de basen adenine (A), cytosine (C), guanine (G) en thymine (T) – en dus elke digitale boodschap of informatie. In het daaropvolgende decennium werd ontdekt dat elk gen codeert voor een complementair RNA-transcript, messenger RNA (mRNA)2 genoemd, dat bestaat uit A, C, G en uracil (U), in plaats van T. De vier basen van het DNA- en RNA-alfabet staan in verband met de 20 aminozuren van het eiwitalfabet door een tripletcode – elke drie letters (of “codons”) in een gen codeert voor één aminozuur3. AGT bijvoorbeeld codeert voor het aminozuur serine. Het woordenboek van DNA-letters waaruit de aminozuren zijn opgebouwd, wordt de genetische code genoemd4. Er zijn 64 verschillende tripletten of codons, waarvan er 61 een aminozuur coderen (verschillende tripletten kunnen hetzelfde aminozuur coderen), en drie worden gebruikt voor “interpunctie” in die zin dat zij het einde van de groeiende eiwitketen aangeven.

Het moleculaire complement van de dubbele helix – waarbij elke base op één streng DNA paart met zijn complementaire base op de andere streng (A met T, en C met G) – heeft diepgaande implicaties voor de biologie. Zoals geïmpliceerd door James Watson en Francis Crick in hun baanbrekende paper1 , suggereert basenparen een mechanisme voor het kopiëren van sjablonen dat de getrouwheid verklaart bij het kopiëren van genetisch materiaal tijdens DNA-replicatie (zie artikel in dit nummer van Alberts, blz. 431). Het ligt ook ten grondslag aan de synthese van mRNA uit het DNA-sjabloon, evenals aan processen voor het herstellen van beschadigd DNA (besproken door Friedberg, blz. 436).

Hulpmiddelen om DNA te wijzigen

De enzymen die in cellen functioneren om DNA-moleculen te kopiëren, te knippen en samen te voegen, werden ook benut als belangrijke hulpmiddelen voor revolutionaire nieuwe technieken in de moleculaire biologie, waaronder het klonen van genen en de expressie van hun eiwitten, en het in kaart brengen van de locatie van genen op chromosomen. Het vermogen om het DNA-replicatieproces kunstmatig na te bootsen in het laboratorium leidde tot de ontwikkeling van twee technieken die de biologie hebben veranderd: een manuele DNA-sequencingmethode in 1975 en, in 1985, de ontdekking van de polymerasekettingreactie (PCR), waarmee DNA-sequenties een miljoenvoud of meer konden worden versterkt5.

Hoewel sequencing en PCR de biologie hebben veranderd, hadden ze ook brede toepassingen in de geneeskunde en de forensische geneeskunde. De opsporing van variaties in de DNA-sequentie van het ene individu tot het andere – de zogenaamde “polymorfismen” – vormt de basis van de “vingerafdrukken” van individuen. De forensische wetenschap gebruikt deze vingerafdrukken om geschillen over het vaderschap op te lossen, maar ook in strafzaken zoals verkrachting. De ontdekking dat veel specifieke DNA-polymorfismen verband houden met ziekten of de vatbaarheid daarvoor heeft de DNA-diagnostiek in de geneeskunde gebracht en de weg geopend naar een echte voorspellende geneeskunde, waarbij de risico’s van ziekten kunnen worden geïdentificeerd voordat de symptomen optreden (zie het artikel van Bell in dit nummer, blz. 414).

Geautomatiseerde DNA-sequentiebepaling

De eerste pogingen om DNA-sequenties te bepalen, die in de jaren zeventig werden ondernomen door Walter Gilbert6 en Fred Sanger7, ontcijferden stukken DNA van een paar honderd basen lang. Toen in 1977-78 in ongeveer één jaar tijd het eerste volledige genoom werd gesequeneerd – dat van een viraal genoom van ongeveer 5.000 basen8 – werd duidelijk dat DNA-sequentiegegevens unieke inzichten konden opleveren in de structuur en functie van genen, alsook in de organisatie van het genoom. Het was dit potentieel om enorme hoeveelheden informatie over een organisme te genereren uit zijn genetische code dat de inspiratiebron vormde voor de inspanningen om DNA-sequentiebepaling te automatiseren (fig. 1).

Figuur 1: Hoe DNA-sequentiebepaling in zijn werk gaat.

a, DNA-polymerase kopieert een streng DNA. b, De invoeging van een terminatorbase in de groeiende streng stopt het kopieerproces. Dit is een willekeurige gebeurtenis die resulteert in een reeks fragmenten van verschillende lengte, afhankelijk van de base waarop het kopiëren is gestopt. De fragmenten worden naar grootte gescheiden door ze door een gelmatrix te laten lopen, waarbij de kortste fragmenten onderaan liggen en de grootste bovenaan. c. De terminators zijn gelabeld met verschillende fluorescerende kleurstoffen, zodat elk fragment een bepaalde kleur fluoresceert, afhankelijk van het feit of het eindigt op een A, C, G of T base. d. De sequentie wordt door een computer “gelezen”. Deze genereert een “sequentietraject”, zoals hier afgebeeld, waarbij de gekleurde pieken overeenkomen met fluorescerende banden die van onder naar boven op één rijstrook van de gel zijn afgelezen. De computer vertaalt deze fluorescente signalen naar DNA-sequenties, zoals geïllustreerd bovenaan het diagram. Afbeelding aangepast uit ref. 20.

De combinatie van technische tovenarij en intensieve automatisering in het daaropvolgende decennium luidde het “genomische tijdperk” in. Een reeks nieuwe instrumenten maakte nieuwe benaderingen van de biologische analyse mogelijk9,10,11. De eerste sequencingmachine – uitgevonden door Leroy Hood, Lloyd Smith en Mike Hunkapiller in 1986 (ref. 12) – was geautomatiseerd wat data-acquisitie betreft, maar vergde nog heel wat manuele aandacht en de sequencingsnelheid was laag, ruwweg 250 bases per dag. In de volgende tien jaar kwam de ontwikkeling van geautomatiseerde DNA-sequencing in een stroomversnelling en doorliep snel drie verschillende stadia: het prototype van de sequencingmachine (1986); een robuust instrument dat routinematig in een standaardlaboratorium kon worden gebruikt (1989); en ten slotte een machine die deel uitmaakte van een geïntegreerde fabrieksachtige productielijn waarin DNA-monstervoorbereiding en -sequencing volledig waren geautomatiseerd (1998). De vooruitgang in sequencing-capaciteit is opvallend – de nieuwste sequencing-machines zijn in staat om in 24 uur ongeveer 1,5 miljoen basen te decoderen – 6.000 maal de verwerkingscapaciteit van het prototype.

De doelstellingen van biologische instrumentatie met hoge verwerkingscapaciteit zijn de verwerkingscapaciteit te verhogen, de kwaliteit van de gegevens te verbeteren, en de kosten per eenheid verkregen informatie sterk te verlagen. Om deze doelstellingen in de toekomst te bereiken, zullen de miniaturisatie, automatisering, parallellisatie en integratie van opeenvolgende procedures de DNA-sequencingtechnologie op het gebied van de microfluïdica en de micro-elektronica brengen, en uiteindelijk op het gebied van de nanotechnologie. Met sequencing van enkel-DNA-moleculen voorzien wij een tijd waarin het volledige genoom van een individu in één dag kan worden gesequencet tegen een kostprijs van minder dan 10.000 USD (vergeleken met de 50 miljoen USD of meer die het vandaag zou kosten). Dit zal het gemakkelijk maken de genoomsequentie van vrijwel elk organisme op aarde te decoderen en ongeëvenaarde toegang verschaffen tot de grondslagen van de biologie en de studie van de menselijke genetische variabiliteit.

Het Menselijk Genoomproject

De adembenemende snelheid waarmee de geautomatiseerde DNA-sequencing zich ontwikkelde, werd grotendeels gestimuleerd door de doorvoervereisten van het Menselijk Genoomproject (HGP), dat officieel in 1990 van start ging na besprekingen en studies over de haalbaarheid en de technologie die in 1985 serieus van start gingen. Het HGP had tot doel binnen 15 jaar een voltooide sequentie te genereren13 , maar in 2001 was al een concept van de sequentie van het menselijk genoom beschikbaar. In 2001 werden twee versies van het ontwerp opgesteld en gepubliceerd: een door het met overheidsgeld gefinancierde International Human Genome Sequencing Consortium14 en een andere door het biotechnologiebedrijf Celera15 (kader 1). Tijdens de ontwikkeling van de instrumenten en de methodologie om de 3 miljard basen van het menselijk genoom te kunnen sequencen en assembleren, is de sequentie van een reeks genomen van planten, dieren en micro-organismen bepaald en worden er momenteel nog veel meer gedecodeerd. Naarmate genoomsequenties beschikbaar komen, ondergaan verschillende gebieden van de biologie een transformatie – de discipline microbiologie is bijvoorbeeld aanzienlijk veranderd door de voltooiing van meer dan 100 genoomsequenties van bacteriën in het afgelopen decennium.

Het HGP heeft de biologie in twee opzichten diepgaand beïnvloed. Ten eerste illustreerde het het concept van “ontdekkingswetenschap” – het idee dat alle elementen van het systeem (d.w.z. de volledige genoomsequentie en de volledige door het genoom gecodeerde RNA- en eiwitoutput) kunnen worden gedefinieerd, gearchiveerd in een database, en beschikbaar gesteld om hypothesegestuurde wetenschap en globale analyses te vergemakkelijken. Ten tweede, om te slagen, duwde het HGP de ontwikkeling van efficiënte grootschalige DNA-sequencing en, tegelijkertijd, dreef de creatie van high-throughput tools (bijvoorbeeld DNA-arrays en massaspectrometrie) voor de analyse van andere soorten gerelateerde biologische informatie, zoals mRNA’s, eiwitten en moleculaire interacties.

De digitale aard van biologische informatie

De waarde van het hebben van een volledige genoomsequentie is dat men de studie van een biologisch systeem kan beginnen met een precies definieerbare digitale kern van informatie voor dat organisme – een volledig afgelijnde genetische broncode. De uitdaging bestaat er dan in te ontcijferen welke informatie in de digitale code is gecodeerd. Het genoom codeert twee hoofdtypen digitale informatie – de genen die coderen voor de proteïne- en RNA-moleculaire machines van het leven, en de regulerende netwerken die specificeren hoe deze genen tot expressie komen in tijd, ruimte en amplitude.

Het is de evolutie van de regulerende netwerken en niet de genen zelf die de cruciale rol spelen in het verschillend maken van organismen van elkaar. De digitale informatie in de genomen bestrijkt drie verschillende tijdspannen: evolutie (tientallen tot miljoenen jaren), ontwikkeling (uren tot tientallen jaren), en fysiologie (milliseconden tot weken). Ontwikkeling is de ontwikkeling van een organisme van een enkele cel (de bevruchte eicel) tot een volwassene (voor de mens zijn dit 1014 cellen van duizenden verschillende types). Fysiologie is het op gang brengen van specifieke functionele programma’s (bijvoorbeeld de immuunrespons) door omgevingsfactoren. Regulatienetwerken zijn van cruciaal belang in elk van deze aspecten van de biologie.

Regulatienetwerken bestaan uit twee hoofdtypen componenten: transcriptiefactoren en de DNA-locaties waaraan zij zich binden in de controleregio’s van genen, zoals promotors, enhancers en silencers. De controleregio’s van individuele genen dienen als informatieprocessoren om de informatie die inherent is aan de concentraties van verschillende transcriptiefactoren te integreren in signalen die de genexpressie mediëren. De verzameling van de transcriptiefactoren en hun cognate DNA-bindende plaatsen in de controleregio’s van genen die een bepaalde ontwikkelings- of fysiologische functie uitvoeren, vormen deze regulerende netwerken (fig. 2).

Figuur 2: Een genregulerend netwerk betrokken bij de ontwikkeling van de zee-egel16.

a, Een deel van het netwerk van transcriptiefactoren en hun interacties met de controleregio’s van andere transcriptiefactoren. Genen worden aangegeven door horizontale lijnen; pijlpunten geven activering aan; ‘⊥’-symbolen geven gen-onderdrukking aan. b, Een vergroting van de promotorregio van een gen, endo 16 genaamd, dat helpt de ontwikkeling van het endoderm te moduleren. Het bevat 34 bindingsplaatsen (rechthoeken) voor 13 verschillende transcriptiefactoren en cofactoren (geïllustreerd als rechthoeken of lolly’s, respectievelijk). Zes modules (A-G) van transcriptiefactoren en bindingsplaatsen voeren discrete functies uit om het endoderm tijdens de ontwikkeling te reguleren 16. c, Schema met de logische structuren van de controlecircuits A en B tijdens de ontwikkeling van de zee-egel.

Omdat de meeste “hogere” organismen of eukaryoten (organismen die hun DNA bevatten in een celcompartiment dat de celkern wordt genoemd), zoals gist, vliegen en mensen, overwegend dezelfde genenfamilies hebben, is het de reorganisatie van de DNA-bindingsplaatsen in de controlegebieden van de genen die de veranderingen in de ontwikkelingsprogramma’s bewerkstelligen die de ene soort van de andere onderscheiden. De regulerende netwerken zijn dus op unieke wijze gespecificeerd door hun DNA-bindende plaatsen en zijn dus in wezen digitaal van aard.

Eén ding dat opvalt aan digitale regulerende netwerken is dat zij in korte perioden van evolutionaire tijd aanzienlijk kunnen veranderen. Dit wordt bijvoorbeeld weerspiegeld in de enorme diversiteit van de lichaamsplannen, gecontroleerd door gen-regelgevende netwerken, die ontstonden in misschien 10-30 miljoen jaar tijdens de Cambrische explosie van metazoan organismen (ongeveer 550 miljoen jaar geleden). Evenzo vonden er opmerkelijke veranderingen plaats in de regulerende netwerken die de ontwikkeling van het menselijk brein aanstuurden tijdens de divergentie van de mens van zijn gemeenschappelijke voorouder met chimpansees, ongeveer 6 miljoen jaar geleden.

De biologie heeft verschillende soorten van informatieve hiërarchieën ontwikkeld. Ten eerste is een regulatorische hiërarchie een genennetwerk dat de relaties definieert van een reeks transcriptiefactoren, hun DNA-bindende plaatsen en de stroomafwaartse perifere genen die gezamenlijk een bepaald aspect van de ontwikkeling controleren. Een model van de ontwikkeling in de zee-egel is hiervan een treffend voorbeeld16 (Fig. 2). Ten tweede definieert een evolutionaire hiërarchie een orde van relaties, ontstaan door DNA duplicatie. Bijvoorbeeld, een enkel gen kan worden gedupliceerd om een multi-gen familie te genereren, en een multi-gen familie kan worden gedupliceerd om een supergen familie te creëren. Ten derde kunnen moleculaire machines door een geordend assemblageproces tot structurele hiërarchieën worden geassembleerd. Een voorbeeld hiervan is het basistranscriptieapparaat, waarbij stap voor stap factoren en enzymen worden gerekruteerd die uiteindelijk de specifieke expressie van een bepaald gen zullen aandrijven. Een tweede voorbeeld is het ribosoom, het complex dat RNA in eiwitten vertaalt, dat wordt opgebouwd uit meer dan 50 verschillende eiwitten en enkele RNA-moleculen. Tenslotte geeft een informatiehiërarchie de informatiestroom weer van een gen naar de omgeving: gen → RNA → eiwit → eiwitinteracties → eiwitcomplexen → netwerken van eiwitcomplexen in een cel → weefsels of organen → individuele organismen → populaties → ecosystemen. Op elk opeenvolgend hoger niveau in de informatiehiërarchie kan voor elk gegeven element informatie worden toegevoegd of gewijzigd (bijvoorbeeld door alternatieve RNA-splicing of eiwitmodificatie).

Systeembenaderingen van de biologie

De mens begint zijn leven als één enkele cel – de bevruchte eicel – en ontwikkelt zich tot een volwassene met triljoenen cellen en duizenden celtypen. Dit proces maakt gebruik van twee soorten biologische informatie: de digitale informatie van het genoom, en omgevingsinformatie, zoals metabolietconcentraties, uitgescheiden of celoppervlaktesignalen van andere cellen of chemische gradiënten. Omgevingsinformatie is van twee verschillende types: deterministische informatie waarbij de gevolgen van de signalen in wezen vooraf bepaald zijn, en stochastische informatie waarbij het toeval de uitkomst dicteert.

Random, of stochastische, signalen kunnen in biologische systemen een aanzienlijke ruis genereren, maar het is slechts in bijzondere gevallen dat ruis in signalen wordt omgezet. Zo zijn stochastische gebeurtenissen bepalend voor veel van de genetische mechanismen die verantwoordelijk zijn voor het genereren van antilichaamdiversiteit. In de immuunrespons ondergaan de B-cellen die antilichamen produceren die zich stevig aan het antigeen binden (d.w.z. die een hoge affiniteit hebben) een uitbreiding in aantal die evenredig is met de sterkte van de affiniteit van het antilichaam (zie artikel in dit nummer van Nossal, blz. 440). Het signaal (hoge affiniteit) wordt dus onderscheiden van de ruis (lage affiniteit). Bovendien leidt een hoog mutatieniveau in de B-cellen tot een specifieke diversificatie van de antilichaamgenen in aanwezigheid van antigeen, waardoor de affiniteit nog kan toenemen. De cellen met de antilichaamgenen met hogere affiniteit worden dan bij voorkeur geselecteerd voor overleving en proliferatie.

De hamvraag is wat en hoeveel signaal er uit de ruis naar voren komt. De analyse van stochastische gebeurtenissen en het onderscheid tussen signaal en ruis zal een toekomstige uitdaging zijn voor de hedendaagse biologie. De immuunrespons wordt al meer dan 100 jaar bestudeerd, maar toch hebben we nog maar een gedeeltelijk inzicht in de systeemeigenschappen ervan, zoals de immuunrespons en tolerantie (het niet reageren op de eigen cellen). Dit komt doordat immunologen dit complexe systeem tot voor kort slechts één gen of één eiwit tegelijk konden bestuderen.

De systeembenadering maakt het mogelijk alle elementen in een systeem te bestuderen in reactie op genetische (digitale) of omgevingsperturbaties. Globale kwantitatieve analyses van biologische informatie op verschillende niveaus verschaffen elk nieuwe inzichten in de werking van het systeem; vandaar dat informatie op zoveel mogelijk niveaus moet worden vastgelegd, geïntegreerd en uiteindelijk wiskundig gemodelleerd. Het model moet de eigenschappen van het systeem verklaren en een kader vaststellen dat ons in staat stelt het systeem op rationele wijze opnieuw te ontwerpen om nieuwe opkomende eigenschappen te genereren.

Verschillende systemen zijn met succes onderzocht. Het gebruik van de suiker galactose in gist is geanalyseerd met behulp van genetische verstoringen (inactivering van genen) en er werden vier informatieniveaus verzameld – RNA- en eiwitconcentraties alsmede eiwit-eiwit- en eiwit-DNA-interacties17. Door gebruik te maken van een iteratieve en integratieve systeembenadering werden nieuwe inzichten verkregen in de regulatie van het galactosegebruik. Bovendien werden de relaties van het galactose regulerende netwerk met andere modules in de gistcel ook afgebakend. Evenzo hebben systeembenaderingen van de vroege embryonale ontwikkeling in de zee-egel een regulatoir netwerk opgeleverd dat een aanzienlijk voorspellend vermogen heeft16 (Fig. 2). Tenslotte hebben systeembenaderingen van het metabolisme in een archaeale halobacterie (een organisme dat gedijt in tot vijf molaire zoutoplossingen, zoals in de Dode Zee) nieuwe inzichten opgeleverd in de onderlinge relaties tussen verschillende modules die de energieproductie in de cel regelen18.

De bestudering van de cellulaire en de organismale biologie met behulp van de systeembenadering staat nog in de kinderschoenen. Daarvoor zijn geïntegreerde teams van wetenschappers uit verschillende disciplines nodig – biologen, scheikundigen, computerwetenschappers, ingenieurs, wiskundigen en natuurkundigen. Er zijn nieuwe methoden nodig voor het verwerven en analyseren van biologische gegevens met een hoge verwerkingscapaciteit. Er moet gebruik worden gemaakt van een krachtige computerinfrastructuur om te komen tot doeltreffender benaderingen voor het vastleggen, opslaan, analyseren, integreren, grafisch weergeven en mathematisch formuleren van biologische complexiteit. Nieuwe technologieën moeten met elkaar worden geïntegreerd. Tenslotte moeten hypothesegestuurde en ontdekkingsgeoriënteerde wetenschap worden geïntegreerd. Kortom, zowel nieuwe wetenschap als technologie moeten ontstaan wil de systeembiologische benadering haar belofte waarmaken. Er is een cultuuromslag nodig in de biologische wetenschappen, en het onderwijs en de opleiding van de volgende generatie biologen zal grondig moeten worden hervormd.

Gordon Moore, de stichter van Intel, voorspelde dat het aantal transistors dat op een computerchip kon worden geplaatst, elke 18 maanden zou verdubbelen. Dat is al meer dan 30 jaar het geval. Deze exponentiële groei is een drijvende kracht geweest achter de explosieve groei van de informatietechnologie. Ook de hoeveelheid DNA-sequentie-informatie die voor de wetenschappelijke gemeenschap beschikbaar is, volgt een soortgelijke, misschien nog steilere, exponentiële groei. De cruciale vraag is hoe sequentie-informatie kan worden omgezet in kennis van het organisme en hoe de biologie daardoor zal veranderen. Wij geloven dat een systeembenadering van de biologie de sleutel is. Het is echter duidelijk dat deze benadering aanzienlijke uitdagingen inhoudt, zowel op wetenschappelijk als op cultureel gebied19. De ontdekking van de DNA-structuur heeft ons op deze weg gebracht, waarvan het eindpunt de grote eenmaking van de biologische wetenschappen zal zijn in de opkomende, op informatie gebaseerde visie op de biologie.

admin

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

lg