„Jede lebende Zelle trägt die Erfahrungen einer Milliarde Jahre dauernder Experimente ihrer Vorfahren in sich.“ Max Delbruck, 1949.

Die Entdeckung der Doppelhelix im Jahr 1953 warf sofort Fragen darüber auf, wie biologische Information in der DNA1 kodiert ist. Ein bemerkenswertes Merkmal der Struktur ist, dass die DNA fast jede beliebige Abfolge von Basenpaaren – jede Kombination der Basen Adenin (A), Cytosin (C), Guanin (G) und Thymin (T) – und damit jede digitale Nachricht oder Information aufnehmen kann. Im folgenden Jahrzehnt wurde entdeckt, dass jedes Gen für ein komplementäres RNA-Transkript, die so genannte Boten-RNA (mRNA)2, kodiert, das aus A, C, G und Uracil (U) anstelle von T besteht. Die vier Basen des DNA- und RNA-Alphabets sind mit den 20 Aminosäuren des Protein-Alphabets durch einen Triplett-Code verbunden – jeweils drei Buchstaben (oder „Codons“) in einem Gen kodieren eine Aminosäure3. So kodiert beispielsweise AGT für die Aminosäure Serin. Das Wörterbuch der DNA-Buchstaben, aus denen sich die Aminosäuren zusammensetzen, wird als genetischer Code4 bezeichnet. Es gibt 64 verschiedene Tripletts oder Codons, von denen 61 für eine Aminosäure kodieren (verschiedene Tripletts können für dieselbe Aminosäure kodieren), und drei davon dienen der „Interpunktion“, indem sie das Ende der wachsenden Proteinkette signalisieren.

Das molekulare Komplement der Doppelhelix – wobei sich jede Base auf einem DNA-Strang mit ihrer Komplementärbase auf dem Partnerstrang paart (A mit T und C mit G) – hat tiefgreifende Auswirkungen auf die Biologie. Wie von James Watson und Francis Crick in ihrer bahnbrechenden Arbeit1 angedeutet, stellt die Basenpaarung einen Mechanismus zum Kopieren von Vorlagen dar, der für die Treue beim Kopieren des genetischen Materials während der DNA-Replikation verantwortlich ist (siehe Artikel von Alberts in dieser Ausgabe, Seite 431). Sie untermauert auch die Synthese von mRNA aus der DNA-Vorlage sowie Prozesse zur Reparatur beschädigter DNA (erörtert von Friedberg, Seite 436).

Werkzeuge zur Modifizierung der DNA

Die Enzyme, die in den Zellen zum Kopieren, Schneiden und Verbinden von DNA-Molekülen fungieren, wurden auch als Schlüsselwerkzeuge für revolutionäre neue Techniken in der Molekularbiologie genutzt, einschließlich des Klonens von Genen und der Expression ihrer Proteine sowie der Kartierung der Lage von Genen auf Chromosomen. Die Fähigkeit, den Prozess der DNA-Replikation im Labor künstlich nachzubilden, führte zur Entwicklung von zwei Techniken, die die Biologie veränderten: eine manuelle DNA-Sequenzierungsmethode im Jahr 1975 und 1985 die Entdeckung der Polymerase-Kettenreaktion (PCR), mit der DNA-Sequenzen um das Millionenfache oder mehr vervielfältigt werden konnten5.

Obwohl Sequenzierung und PCR die Wissenschaft der Biologie veränderten, fanden sie auch breite Anwendung in der Medizin und Forensik. Der Nachweis von Variationen in der DNA-Sequenz von einem Individuum zum nächsten – sogenannte „Polymorphismen“ – bildet die Grundlage für den DNA-„Fingerabdruck“ von Individuen. Die Forensik nutzt diese Fingerabdrücke zur Klärung von Vaterschaftsstreitigkeiten und in Kriminalfällen wie Vergewaltigung. Die Erkenntnis, dass viele spezifische DNA-Polymorphismen mit Krankheiten oder Krankheitsanfälligkeit in Verbindung stehen, hat die DNA-Diagnostik in die Medizin eingeführt und den Weg zu einer wirklich prädiktiven Medizin geebnet, in der Krankheitsrisiken bereits vor dem Auftreten von Symptomen erkannt werden können (siehe den Artikel von Bell in dieser Ausgabe, Seite 414).

Automatisierte DNA-Sequenzierung

Die ersten Versuche, DNA zu sequenzieren, die von Walter Gilbert6 und Fred Sanger7 in den 1970er Jahren unternommen wurden, entschlüsselten DNA-Abschnitte von einigen hundert Basen Länge. Als 1977-78 innerhalb eines Jahres das erste vollständige Genom sequenziert wurde – das eines Virusgenoms mit etwa 5.000 Basen8 – wurde klar, dass die DNA-Sequenzdaten einzigartige Einblicke in die Struktur und Funktion von Genen sowie in die Organisation des Genoms liefern können. Dieses Potenzial, aus dem genetischen Code eines Organismus riesige Mengen an Informationen zu gewinnen, inspirierte die Bemühungen um die Automatisierung der DNA-Sequenzierung (Abb. 1).

Abbildung 1: Wie man DNA sequenziert.

a, DNA-Polymerase kopiert einen DNA-Strang. b, Das Einfügen einer Terminatorbase in den wachsenden Strang stoppt den Kopiervorgang. Dies ist ein zufälliges Ereignis, das zu einer Reihe von Fragmenten unterschiedlicher Länge führt, je nachdem, an welcher Base der Kopiervorgang gestoppt wurde. Die Fragmente werden nach Größe getrennt, indem sie durch eine Gelmatrix laufen, wobei die kürzesten Fragmente unten und die größten oben liegen. c, Die Terminatoren sind mit verschiedenen Fluoreszenzfarbstoffen markiert, so dass jedes Fragment in einer bestimmten Farbe fluoresziert, je nachdem, ob es mit einer A-, C-, G- oder T-Base endet. d, Die Sequenz wird von einem Computer „gelesen“. Die farbigen Spitzen entsprechen den fluoreszierenden Banden, die von unten nach oben auf einer Spur des Gels gelesen werden. Der Computer übersetzt diese Fluoreszenzsignale in DNA-Sequenzen, wie im oberen Teil der Grafik dargestellt. Das Bild wurde von Ref. 20 übernommen.

Die Kombination aus technischer Raffinesse und intensiver Automatisierung im darauf folgenden Jahrzehnt leitete das „genomische Zeitalter“ ein. Eine Reihe neuer Instrumente ermöglichte neue Ansätze für die biologische Analyse9,10,11. Das erste Sequenziergerät – eine Erfindung von Leroy Hood, Lloyd Smith und Mike Hunkapiller aus dem Jahr 1986 (vgl. 12) – automatisierte zwar die Datenerfassung, erforderte aber immer noch einen erheblichen manuellen Aufwand, und die Sequenzierrate war mit etwa 250 Basen pro Tag gering. In den folgenden zehn Jahren beschleunigte sich die Entwicklung der automatisierten DNA-Sequenzierung und durchlief rasch drei verschiedene Stadien: den Prototyp eines Sequenziergeräts (1986); ein robustes Gerät, das routinemäßig in einem Standardlabor eingesetzt werden konnte (1989); und schließlich ein Gerät, das Teil einer integrierten fabrikähnlichen Produktionslinie war, in der die DNA-Probenvorbereitung und die Sequenzierung vollständig automatisiert waren (1998). Die Fortschritte bei den Sequenzierkapazitäten sind beeindruckend – die neuesten Sequenziermaschinen können innerhalb von 24 Stunden etwa 1,5 Millionen Basen entschlüsseln – das ist das 6.000-fache des Durchsatzes des Prototyps.

Die Ziele der biologischen Hochdurchsatz-Instrumente bestehen darin, den Durchsatz zu erhöhen, die Qualität der Daten zu verbessern und die Kosten pro gewonnener Informationseinheit erheblich zu senken. Um diese Ziele in Zukunft zu erreichen, wird die Miniaturisierung, Automatisierung, Parallelisierung und Integration aufeinander folgender Verfahren die DNA-Sequenzierungstechnologie in den Bereich der Mikrofluidik und Mikroelektronik und schließlich in den Bereich der Nanotechnologie vorantreiben. Mit der Einzel-DNA-Molekül-Sequenzierung sehen wir eine Zeit voraus, in der das gesamte Genom eines Individuums an einem einzigen Tag zu Kosten von weniger als 10.000 US-Dollar sequenziert werden könnte (im Vergleich zu den 50 Millionen US-Dollar oder mehr, die dies heute kosten würde). Dies wird die Entschlüsselung der Genomsequenz praktisch jedes Organismus auf der Erde ermöglichen und einen beispiellosen Zugang zu den Grundlagen der Biologie und der Untersuchung der menschlichen genetischen Variabilität bieten.

Das Humangenomprojekt

Die atemberaubende Geschwindigkeit, mit der sich die automatisierte DNA-Sequenzierung entwickelte, wurde größtenteils durch die Durchsatzanforderungen des Humangenomprojekts (HGP) angeregt, das offiziell 1990 begann, nachdem 1985 ernsthafte Diskussionen und Studien zur Durchführbarkeit und Technologie begonnen hatten. Ziel des HGP war es, innerhalb von 15 Jahren eine fertige Sequenz zu erstellen13 , aber ein Entwurf der menschlichen Genomsequenz lag bereits 2001 vor. Im Jahr 2001 wurden zwei Versionen des Entwurfs erstellt und veröffentlicht, eine vom öffentlich finanzierten International Human Genome Sequencing Consortium14 und eine weitere vom Biotechnologieunternehmen Celera15 (Kasten 1). Im Zuge der Entwicklung der Instrumente und Methoden zur Sequenzierung und Assemblierung der 3 Milliarden Basen des menschlichen Genoms wurde eine Reihe von Pflanzen-, Tier- und Mikrobengenomen sequenziert, und viele weitere werden derzeit entschlüsselt. In dem Maße, in dem Genomsequenzen verfügbar werden, verändern sich verschiedene Bereiche der Biologie – so hat sich beispielsweise das Fachgebiet der Mikrobiologie mit der Fertigstellung von mehr als 100 bakteriellen Genomsequenzen im letzten Jahrzehnt erheblich verändert.

Das HGP hat die Biologie in zweierlei Hinsicht tiefgreifend beeinflusst. Erstens veranschaulichte es das Konzept der „Entdeckungswissenschaft“ – die Idee, dass alle Elemente des Systems (d. h. die vollständige Genomsequenz und die gesamte vom Genom kodierte RNA- und Proteinleistung) definiert, in einer Datenbank archiviert und verfügbar gemacht werden können, um hypothesengesteuerte Wissenschaft und globale Analysen zu erleichtern. Zweitens hat das HGP, um erfolgreich zu sein, die Entwicklung einer effizienten DNA-Sequenzierung im großen Maßstab vorangetrieben und gleichzeitig die Entwicklung von Hochdurchsatzwerkzeugen (z. B. DNA-Arrays und Massenspektrometrie) für die Analyse anderer Arten verwandter biologischer Informationen wie mRNAs, Proteine und molekulare Interaktionen vorangetrieben.

Die digitale Natur der biologischen Information

Der Wert einer vollständigen Genomsequenz besteht darin, dass man die Untersuchung eines biologischen Systems mit einem genau definierbaren digitalen Kern von Informationen für diesen Organismus beginnen kann – einem vollständig beschriebenen genetischen Quellcode. Die Herausforderung besteht nun darin, zu entschlüsseln, welche Informationen in diesem digitalen Code verschlüsselt sind. Das Genom kodiert zwei Haupttypen digitaler Informationen – die Gene, die für die molekularen Protein- und RNA-Maschinen des Lebens kodieren, und die regulatorischen Netzwerke, die festlegen, wie diese Gene in Zeit, Raum und Ausmaß ausgedrückt werden.

Es ist die Entwicklung der regulatorischen Netzwerke und nicht die Gene selbst, die die entscheidende Rolle dabei spielen, dass sich Organismen voneinander unterscheiden. Die digitale Information in den Genomen arbeitet in drei verschiedenen Zeitspannen: Evolution (Dutzende bis Millionen von Jahren), Entwicklung (Stunden bis Dutzende von Jahren) und Physiologie (Millisekunden bis Wochen). Die Entwicklung ist die Entwicklung eines Organismus von einer einzelnen Zelle (der befruchteten Eizelle) bis zum Erwachsenen (beim Menschen sind dies 1014 Zellen mit Tausenden von verschiedenen Typen). Physiologie ist die Auslösung spezifischer Funktionsprogramme (z. B. der Immunantwort) durch Umweltreize. Regulatorische Netzwerke sind für jeden dieser Aspekte der Biologie von entscheidender Bedeutung.

Regulatorische Netzwerke bestehen aus zwei Haupttypen von Komponenten: Transkriptionsfaktoren und die DNA-Stellen, an die sie in den Kontrollregionen von Genen binden, wie Promotoren, Enhancer und Silencer. Die Kontrollregionen der einzelnen Gene dienen als Informationsprozessoren, um die Informationen, die in den Konzentrationen der verschiedenen Transkriptionsfaktoren enthalten sind, in Signale zu integrieren, die die Genexpression vermitteln. Die Ansammlung der Transkriptionsfaktoren und ihrer korrespondierenden DNA-Bindungsstellen in den Kontrollregionen von Genen, die eine bestimmte entwicklungsbiologische oder physiologische Funktion ausüben, bilden diese regulatorischen Netzwerke (Abb. 2).

Abbildung 2: Ein genregulatorisches Netzwerk, das an der Entwicklung des Seeigels beteiligt ist16.

a, Teil des Netzwerks von Transkriptionsfaktoren und deren Interaktionen mit den Kontrollregionen anderer Transkriptionsfaktoren. Gene sind durch horizontale Linien gekennzeichnet; Pfeilspitzen zeigen die Aktivierung an; „⊥“-Symbole zeigen die Unterdrückung des Gens an. b, Vergrößerung der Promotorregion eines Gens, genannt endo 16, das die Entwicklung des Endoderms mitbestimmt. Es enthält 34 Bindungsstellen (Rechtecke) für 13 verschiedene Transkriptionsfaktoren und Kofaktoren (dargestellt als Rechtecke bzw. Lollipops). Sechs Module (A-G) von Transkriptionsfaktoren und Bindungsstellen führen diskrete Funktionen aus, um die Entwicklung des Endoderms zu regulieren 16. c, Diagramm, das die logischen Strukturen der A- und B-Kontrollkreise während der Seeigelentwicklung darstellt.

Da die meisten „höheren“ Organismen oder Eukaryonten (Organismen, die ihre DNA in einem zellulären Kompartiment, dem Zellkern, enthalten), wie Hefe, Fliegen und Menschen, überwiegend dieselben Genfamilien haben, ist es die Reorganisation der DNA-Bindungsstellen in den Kontrollregionen der Gene, die die Veränderungen in den Entwicklungsprogrammen vermitteln, die eine Art von einer anderen unterscheiden. Die regulatorischen Netzwerke sind also eindeutig durch ihre DNA-Bindungsstellen spezifiziert und dementsprechend im Grunde digitaler Natur.

Eine Sache, die bei digitalen regulatorischen Netzwerken auffällt, ist, dass sie sich in kurzen Zeiträumen der Evolution erheblich verändern können. Dies zeigt sich zum Beispiel in der enormen Vielfalt der durch genregulatorische Netze gesteuerten Körperpläne, die während der kambrischen Explosion der metazoischen Organismen (vor etwa 550 Millionen Jahren) in vielleicht 10-30 Millionen Jahren entstanden. Auch die regulatorischen Netzwerke, die die Entwicklung des menschlichen Gehirns steuern, haben sich während der Divergenz von seinem gemeinsamen Vorfahren mit den Schimpansen vor etwa 6 Millionen Jahren bemerkenswert verändert.

Die Biologie hat mehrere verschiedene Arten von Informationshierarchien entwickelt. Erstens ist eine regulatorische Hierarchie ein Gennetzwerk, das die Beziehungen zwischen einer Reihe von Transkriptionsfaktoren, ihren DNA-Bindungsstellen und den nachgeschalteten peripheren Genen definiert, die gemeinsam einen bestimmten Aspekt der Entwicklung kontrollieren. Ein Modell der Entwicklung des Seeigels ist ein eindrucksvolles Beispiel dafür16 (Abb. 2). Zweitens definiert eine evolutionäre Hierarchie eine Reihe von Beziehungen, die sich aus der DNA-Duplikation ergeben. So kann beispielsweise ein einzelnes Gen dupliziert werden, um eine Multi-Gen-Familie zu bilden, und eine Multi-Gen-Familie kann dupliziert werden, um eine Super-Gen-Familie zu bilden. Drittens können molekulare Maschinen durch einen geordneten Bauprozess zu strukturellen Hierarchien zusammengesetzt werden. Ein Beispiel hierfür ist der grundlegende Transkriptionsapparat, der die schrittweise Rekrutierung von Faktoren und Enzymen beinhaltet, die schließlich die spezifische Expression eines bestimmten Gens steuern. Ein zweites Beispiel ist das Ribosom, der Komplex, der RNA in Proteine übersetzt und der aus mehr als 50 verschiedenen Proteinen und einigen RNA-Molekülen zusammengesetzt ist. Schließlich beschreibt eine Informationshierarchie den Informationsfluss von einem Gen zur Umwelt: Gen → RNA → Protein → Proteininteraktionen → Proteinkomplexe → Netzwerke von Proteinkomplexen in einer Zelle → Gewebe oder Organe → einzelne Organismen → Populationen → Ökosysteme. Auf jeder höheren Ebene in der Informationshierarchie können Informationen für ein bestimmtes Element hinzugefügt oder verändert werden (z. B. durch alternatives RNA-Spleißen oder Proteinmodifikation).

Systemorientierte Ansätze in der Biologie

Der Mensch beginnt sein Leben als eine einzige Zelle – das befruchtete Ei – und entwickelt sich zu einem Erwachsenen mit Billionen von Zellen und Tausenden von Zelltypen. Dieser Prozess nutzt zwei Arten von biologischen Informationen: die digitale Information des Genoms und Informationen aus der Umwelt, wie z. B. die Konzentration von Stoffwechselprodukten, Signale von anderen Zellen, die über die Zelloberfläche ausgeschieden werden, oder chemische Gradienten. Bei den Umweltinformationen gibt es zwei verschiedene Arten: deterministische Information, bei der die Folgen der Signale im Wesentlichen vorherbestimmt sind, und stochastische Information, bei der der Zufall das Ergebnis bestimmt.

Zufällige oder stochastische Signale können in biologischen Systemen ein erhebliches Rauschen erzeugen, aber nur in besonderen Fällen wird das Rauschen in Signale umgewandelt. Stochastische Ereignisse steuern zum Beispiel viele der genetischen Mechanismen, die für die Entstehung der Antikörpervielfalt verantwortlich sind. Bei der Immunreaktion steigt die Zahl der B-Zellen, die Antikörper produzieren, die sich eng an das Antigen binden (d. h. solche mit hoher Affinität), proportional zur Stärke der Antikörperaffinität (siehe Artikel von Nossal in dieser Ausgabe, Seite 440). Auf diese Weise wird das Signal (hohe Affinität) vom Rauschen (niedrige Affinität) unterschieden. Darüber hinaus führt eine hohe Mutationsrate in den B-Zellen zu einer spezifischen Diversifizierung der Antikörpergene in Gegenwart von Antigen und ermöglicht eine weitere Steigerung der Affinität. Die Zellen, die die Antikörpergene mit höherer Affinität tragen, werden dann bevorzugt für das Überleben und die Vermehrung ausgewählt.

Die Schlüsselfrage ist, welches und wie viel Signal aus dem Rauschen hervorgeht. Die Analyse stochastischer Ereignisse und die Unterscheidung zwischen Signal und Rauschen wird eine zukünftige Herausforderung für die moderne Biologie sein. Die Immunreaktion wird seit mehr als 100 Jahren erforscht, und doch verstehen wir ihre Systemeigenschaften, wie die Immunantwort und die Toleranz (die Unempfindlichkeit gegenüber den eigenen Zellen), nur teilweise. Das liegt daran, dass Immunologen dieses komplexe System bis vor kurzem nur an einem Gen oder einem Protein auf einmal untersuchen konnten.

Der Systemansatz ermöglicht die Untersuchung aller Elemente eines Systems in Reaktion auf genetische (digitale) oder umweltbedingte Störungen. Globale quantitative Analysen biologischer Informationen auf verschiedenen Ebenen liefern jeweils neue Erkenntnisse über die Funktionsweise des Systems; daher müssen Informationen auf möglichst vielen Ebenen erfasst, integriert und schließlich mathematisch modelliert werden. Das Modell sollte die Eigenschaften des Systems erklären und einen Rahmen schaffen, der es uns erlaubt, das System auf rationale Weise umzugestalten, um neue emergente Eigenschaften zu erzeugen.

Einige Systeme wurden bereits erfolgreich erforscht. Die Verwertung des Zuckers Galaktose in Hefe wurde mit Hilfe genetischer Störungen (Inaktivierung von Genen) analysiert, und es wurden vier Informationsebenen erfasst – RNA- und Proteinkonzentrationen sowie Protein-Protein- und Protein-DNA-Interaktionen17. Mithilfe eines iterativen und integrativen Systemansatzes konnten neue Erkenntnisse über die Regulierung der Galaktoseverwendung gewonnen werden. Außerdem wurden die Beziehungen des Galaktose-Regulationsnetzes zu anderen Modulen in der Hefezelle aufgezeigt. Ebenso haben Systemansätze für die frühe Embryonalentwicklung im Seeigel ein regulatorisches Netzwerk beschrieben, das eine erhebliche Vorhersagekraft hat16 (Abb. 2). Schließlich haben Systemansätze für den Stoffwechsel in einem archäischen Halobakterium (einem Organismus, der in bis zu fünfmolaren Salzlösungen wie im Toten Meer gedeiht) neue Einblicke in die Beziehungen zwischen mehreren Modulen, die die Energieproduktion in der Zelle steuern, offenbart18.

Die Erforschung der Zell- und Organismenbiologie mit Hilfe des Systemansatzes steht noch ganz am Anfang. Sie erfordert integrierte Teams von Wissenschaftlern aus verschiedenen Disziplinen – Biologen, Chemiker, Informatiker, Ingenieure, Mathematiker und Physiker. Es werden neue Methoden zur Erfassung und Analyse biologischer Hochdurchsatzdaten benötigt. Eine leistungsfähige Recheninfrastruktur muss genutzt werden, um effektivere Ansätze für die Erfassung, Speicherung, Analyse, Integration, grafische Darstellung und mathematische Formulierung biologischer Komplexität zu entwickeln. Die neuen Technologien müssen miteinander integriert werden. Schließlich müssen hypothesengesteuerte und entdeckende Wissenschaft integriert werden. Kurz gesagt, es müssen sowohl neue wissenschaftliche als auch technologische Ansätze entwickelt werden, damit der systembiologische Ansatz sein Versprechen einlösen kann. Es ist ein kultureller Wandel in den Biowissenschaften erforderlich, und die Aus- und Weiterbildung der nächsten Generation von Biologen muss grundlegend reformiert werden.

Gordon Moore, der Gründer von Intel, sagte voraus, dass sich die Zahl der Transistoren, die auf einem Computerchip untergebracht werden können, alle 18 Monate verdoppeln würde. Das ist seit mehr als 30 Jahren der Fall. Dieses exponentielle Wachstum war eine Triebfeder für das explosive Wachstum der Informationstechnologie. Auch die Menge der DNA-Sequenzinformationen, die der wissenschaftlichen Gemeinschaft zur Verfügung stehen, folgt einem ähnlichen, vielleicht sogar noch steileren exponentiellen Anstieg. Die entscheidende Frage ist, wie Sequenzinformationen in Wissen über den Organismus umgewandelt werden können und wie sich die Biologie dadurch verändern wird. Wir glauben, dass ein systemischer Ansatz in der Biologie der Schlüssel dazu ist. Es ist jedoch klar, dass dieser Ansatz erhebliche Herausforderungen mit sich bringt, sowohl wissenschaftlich als auch kulturell19. Die Entdeckung der DNA-Struktur hat uns auf diesen Weg gebracht, an dessen Ende die große Vereinigung der biologischen Wissenschaften in der entstehenden, informationsbasierten Sichtweise der Biologie stehen wird.

admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

lg