« Toute cellule vivante porte en elle les expériences d’un milliard d’années d’expérimentation par ses ancêtres. » Max Delbruck, 1949.
La découverte de la double hélice en 1953 a immédiatement soulevé des questions sur la façon dont l’information biologique est codée dans l’ADN1. Une caractéristique remarquable de la structure est que l’ADN peut accueillir presque n’importe quelle séquence de paires de bases – toute combinaison des bases adénine (A), cytosine (C), guanine (G) et thymine (T) – et, par conséquent, n’importe quel message ou information numérique. Au cours de la décennie suivante, on a découvert que chaque gène code un transcrit ARN complémentaire, appelé ARN messager (ARNm)2, composé de A, C, G et d’uracile (U), au lieu de T. Les quatre bases des alphabets de l’ADN et de l’ARN sont liées aux 20 acides aminés de l’alphabet des protéines par un code triplet – chacune des trois lettres (ou « codons ») d’un gène code un acide aminé3. Par exemple, l’AGT code pour l’acide aminé sérine. Le dictionnaire des lettres de l’ADN qui composent les acides aminés s’appelle le code génétique4. Il existe 64 triplets ou codons différents, dont 61 codent un acide aminé (différents triplets peuvent coder le même acide aminé), et dont trois servent de « ponctuation » en ce sens qu’ils signalent la fin de la chaîne protéique en croissance.
Le complément moléculaire de la double hélice – selon lequel chaque base d’un brin d’ADN s’apparie avec sa base complémentaire sur le brin partenaire (A avec T, et C avec G) – a de profondes implications pour la biologie. Comme l’ont laissé entendre James Watson et Francis Crick dans leur article qui a fait date1, l’appariement des bases suggère un mécanisme de copie de modèle qui explique la fidélité de la copie du matériel génétique pendant la réplication de l’ADN (voir l’article d’Alberts dans ce numéro, page 431). Il sous-tend également la synthèse de l’ARNm à partir de la matrice d’ADN, ainsi que les processus de réparation de l’ADN endommagé (abordé par Friedberg, page 436).
Outils pour modifier l’ADN
Les enzymes qui fonctionnent dans les cellules pour copier, couper et joindre les molécules d’ADN ont également été exploitées comme outils clés pour de nouvelles techniques révolutionnaires en biologie moléculaire, y compris le clonage des gènes et l’expression de leurs protéines, et la cartographie de l’emplacement des gènes sur les chromosomes. La capacité à recréer artificiellement le processus de réplication de l’ADN en laboratoire a conduit au développement de deux techniques qui ont transformé la biologie : une méthode de séquençage manuel de l’ADN en 1975 et, en 1985, la découverte de la réaction en chaîne par polymérase (PCR), grâce à laquelle les séquences d’ADN pouvaient être amplifiées un million de fois ou plus5.
Bien que le séquençage et la PCR aient transformé la science de la biologie, ils ont également eu de larges applications pour la médecine et la criminalistique. La détection des variations de la séquence d’ADN d’un individu à l’autre – ce que l’on appelle les « polymorphismes » – constitue la base de l' »empreinte digitale » génétique des individus. La médecine légale utilise ces empreintes pour traiter les conflits de paternité, ainsi que les affaires criminelles telles que les viols. La découverte que de nombreux polymorphismes spécifiques de l’ADN sont associés à des maladies ou à une susceptibilité aux maladies a fait entrer le diagnostic par l’ADN dans la médecine et a ouvert la voie à une médecine véritablement prédictive, où les risques de maladie peuvent être identifiés avant les symptômes (voir l’article de Bell dans ce numéro, page 414).
Séquençage automatisé de l’ADN
Les premiers efforts pour séquencer l’ADN, dont Walter Gilbert6 et Fred Sanger7 ont été les pionniers dans les années 1970, ont décodé des tronçons d’ADN de quelques centaines de bases. Lorsque le premier génome complet a été séquencé sur une période d’environ un an en 1977-78 – celui d’un génome viral d’environ 5 000 bases8 – il est devenu évident que les données de séquençage de l’ADN pouvaient fournir des informations uniques sur la structure et la fonction des gènes, ainsi que sur l’organisation du génome. C’est ce potentiel de générer de vastes quantités d’informations sur un organisme à partir de son code génétique qui a inspiré les efforts d’automatisation du séquençage de l’ADN (Fig. 1).
La combinaison de la magie technique et de l’automatisation intensive dans la décennie qui a suivi a lancé « l’ère génomique ». Une série de nouveaux instruments ont permis de nouvelles approches de l’analyse biologique9,10,11. La première machine de séquençage – inventée par Leroy Hood, Lloyd Smith et Mike Hunkapiller en 1986 (réf. 12) – était automatisée dans l’acquisition des données, mais nécessitait encore une attention manuelle importante et le taux de séquençage était faible, environ 250 bases par jour. Au cours des dix années suivantes, le développement du séquençage automatisé de l’ADN s’est accéléré, passant rapidement par trois étapes distinctes : le prototype de la machine de séquençage (1986) ; un instrument robuste pouvant être utilisé de façon routinière dans un laboratoire standard (1989) ; et enfin, une machine faisant partie d’une chaîne de production intégrée de type usine où la préparation et le séquençage des échantillons d’ADN étaient tous entièrement automatisés (1998). Les progrès de la capacité de séquençage ont été frappants – les dernières machines de séquençage sont capables de décoder environ 1,5 million de bases en 24 heures, soit 6 000 fois le débit du prototype.
Les objectifs de l’instrumentation biologique à haut débit sont d’augmenter le débit, d’améliorer la qualité des données et de réduire considérablement le coût de l’information acquise par unité. Pour atteindre ces objectifs à l’avenir, la miniaturisation, l’automatisation, la parallélisation et l’intégration des procédures successives propulseront la technologie du séquençage de l’ADN dans le domaine de la microfluidique et de la microélectronique, et finalement dans celui de la nanotechnologie. Avec le séquençage de molécules d’ADN uniques, nous prévoyons qu’un jour, le génome entier d’un individu pourra être séquencé en une seule journée pour un coût inférieur à 10 000 dollars (contre 50 millions de dollars ou plus aujourd’hui). Cela permettra facilement de décoder la séquence génomique de pratiquement n’importe quel organisme sur la planète et fournira un accès inégalé aux fondements de la biologie et à l’étude de la variabilité génétique humaine.
Le projet du génome humain
La vitesse époustouflante à laquelle le séquençage automatisé de l’ADN s’est développé a été largement stimulée par les exigences de débit du projet du génome humain (HGP), qui a officiellement commencé en 1990 après des discussions et des études sur la faisabilité et la technologie qui ont commencé sérieusement en 1985. Les objectifs du HGP étaient de générer une séquence complète en 15 ans13, mais une ébauche de la séquence du génome humain était disponible en 2001. Deux versions de cette ébauche ont été générées et publiées en 2001, l’une par le Consortium international de séquençage du génome humain14, financé par des fonds publics, et l’autre par la société de biotechnologie Celera15 (encadré 1). Au cours du processus de développement des outils et de la méthodologie permettant de séquencer et d’assembler les 3 milliards de bases du génome humain, toute une série de génomes végétaux, animaux et microbiens ont été séquencés et de nombreux autres sont actuellement en cours de décodage. Au fur et à mesure que les séquences génomiques deviennent disponibles, différents domaines de la biologie sont transformés – par exemple, la discipline de la microbiologie a changé de manière significative avec l’achèvement de plus de 100 séquences génomiques bactériennes au cours de la dernière décennie.
Le HGP a profondément influencé la biologie à deux égards. Premièrement, il a illustré le concept de « science de la découverte » – l’idée que tous les éléments du système (c’est-à-dire la séquence complète du génome et toute la production d’ARN et de protéines codée par le génome) peuvent être définis, archivés dans une base de données et mis à disposition pour faciliter la science fondée sur des hypothèses et les analyses globales. Deuxièmement, pour réussir, le HGP a poussé le développement d’un séquençage efficace de l’ADN à grande échelle et, simultanément, a stimulé la création d’outils à haut débit (par exemple, les réseaux d’ADN et la spectrométrie de masse) pour l’analyse d’autres types d’informations biologiques connexes, comme les ARNm, les protéines et les interactions moléculaires.
La nature numérique de l’information biologique
L’intérêt de disposer d’une séquence complète du génome est que l’on peut commencer l’étude d’un système biologique avec un noyau numérique d’information précisément définissable pour cet organisme – un code source génétique entièrement délimité. Le défi consiste alors à déchiffrer quelles informations sont codées dans ce code numérique. Le génome code deux types principaux d’informations numériques – les gènes qui codent les machines moléculaires à protéines et à ARN de la vie, et les réseaux de régulation qui spécifient comment ces gènes sont exprimés dans le temps, l’espace et l’amplitude.
C’est l’évolution des réseaux de régulation et non les gènes eux-mêmes qui jouent le rôle critique en rendant les organismes différents les uns des autres. L’information numérique contenue dans les génomes opère sur trois temporalités différentes : l’évolution (des dizaines à des millions d’années), le développement (des heures à des dizaines d’années) et la physiologie (des millisecondes à des semaines). Le développement est l’élaboration d’un organisme à partir d’une seule cellule (l’œuf fécondé) jusqu’à l’adulte (pour les humains, cela représente 1014 cellules de milliers de types différents). La physiologie est le déclenchement de programmes fonctionnels spécifiques (par exemple, la réponse immunitaire) par des signaux environnementaux. Les réseaux de régulation sont cruciaux dans chacun de ces aspects de la biologie.
Les réseaux de régulation sont composés de deux principaux types de composants : les facteurs de transcription et les sites d’ADN auxquels ils se lient dans les régions de contrôle des gènes, comme les promoteurs, les exhausteurs et les silencieux. Les régions de contrôle des gènes individuels servent de processeurs d’informations pour intégrer les informations inhérentes aux concentrations des différents facteurs de transcription dans des signaux qui médient l’expression des gènes. L’ensemble des facteurs de transcription et leurs sites cognitifs de liaison à l’ADN dans les régions de contrôle des gènes qui réalisent une fonction développementale ou physiologique particulière constituent ces réseaux de régulation (figure 2).
Parce que la plupart des organismes « supérieurs » ou eucaryotes (organismes qui contiennent leur ADN dans un compartiment cellulaire appelé noyau), comme la levure, les mouches et les humains, ont principalement les mêmes familles de gènes, c’est la réorganisation des sites de liaison à l’ADN dans les régions de contrôle des gènes qui médient les changements dans les programmes de développement qui distinguent une espèce d’une autre. Ainsi, les réseaux de régulation sont spécifiés de manière unique par leurs sites de liaison à l’ADN et, par conséquent, sont fondamentalement numériques par nature.
Une chose qui est frappante au sujet des réseaux de régulation numériques est qu’ils peuvent changer de manière significative dans de courtes périodes d’évolution. Cela se reflète, par exemple, dans l’énorme diversité des plans corporels, contrôlés par les réseaux de régulation des gènes, qui ont émergé sur peut-être 10 à 30 millions d’années pendant l’explosion cambrienne des organismes métazoaires (il y a environ 550 millions d’années). De même, des changements remarquables se sont produits dans les réseaux de régulation pilotant le développement du cerveau humain lors de sa divergence avec son ancêtre commun avec les chimpanzés, il y a environ 6 millions d’années.
La biologie a évolué plusieurs types différents de hiérarchies informationnelles. Tout d’abord, une hiérarchie régulatrice est un réseau de gènes qui définit les relations d’un ensemble de facteurs de transcription, leurs sites de liaison à l’ADN et les gènes périphériques en aval qui contrôlent collectivement un aspect particulier du développement. Un modèle de développement chez l’oursin en constitue un exemple frappant16 (Fig. 2). Deuxièmement, une hiérarchie évolutive définit un ensemble de relations ordonnées, découlant de la duplication de l’ADN. Par exemple, un gène unique peut être dupliqué pour générer une famille multigénique, et une famille multigénique peut être dupliquée pour créer une famille supergénique. Troisièmement, les machines moléculaires peuvent être assemblées en hiérarchies structurelles par un processus d’assemblage ordonné. Un exemple en est l’appareil de transcription de base qui implique le recrutement étape par étape de facteurs et d’enzymes qui conduiront finalement à l’expression spécifique d’un gène donné. Un deuxième exemple est fourni par le ribosome, le complexe qui traduit l’ARN en protéine, qui est assemblé à partir de plus de 50 protéines différentes et de quelques molécules d’ARN. Enfin, une hiérarchie informationnelle décrit le flux d’informations d’un gène vers l’environnement : gène → ARN → protéine → interactions protéiques → complexes protéiques → réseaux de complexes protéiques dans une cellule → tissus ou organes → organismes individuels → populations → écosystèmes. À chaque niveau successivement plus élevé de la hiérarchie informationnelle, des informations peuvent être ajoutées ou modifiées pour tout élément donné (par exemple, par épissage alternatif de l’ARN ou modification des protéines).
Approches systémiques de la biologie
L’être humain commence sa vie sous la forme d’une seule cellule – l’œuf fécondé – et se développe pour devenir un adulte avec des trillions de cellules et des milliers de types de cellules. Ce processus utilise deux types d’informations biologiques : les informations numériques du génome et les informations environnementales, telles que les concentrations de métabolites, les signaux sécrétés ou de surface cellulaire provenant d’autres cellules ou les gradients chimiques. Les informations environnementales sont de deux types distincts : l’information déterministe où les conséquences des signaux sont essentiellement prédéterminées, et l’information stochastique où le hasard dicte le résultat.
Les signaux aléatoires, ou stochastiques, peuvent générer un bruit important dans les systèmes biologiques, mais ce n’est que dans des cas particuliers que le bruit est converti en signaux. Par exemple, les événements stochastiques régissent un grand nombre des mécanismes génétiques responsables de la génération de la diversité des anticorps. Dans la réponse immunitaire, les lymphocytes B qui produisent des anticorps qui se lient étroitement à l’antigène (c’est-à-dire ceux qui ont des affinités élevées) connaissent une expansion en nombre proportionnelle à la force de l’affinité de l’anticorps (voir l’article de Nossal dans ce numéro, page 440). Ainsi, le signal (haute affinité) se distingue du bruit (faible affinité). En outre, des niveaux élevés de mutation dans les cellules B entraînent une diversification spécifique des gènes des anticorps en présence d’un antigène et permettent d’augmenter encore l’affinité. Les cellules portant les gènes d’anticorps à plus forte affinité sont alors préférentiellement sélectionnées pour la survie et la prolifération.
La question clé est de savoir quel et quelle quantité de signal émerge du bruit. L’analyse des événements stochastiques et la différenciation entre le signal et le bruit seront un défi futur pour la biologie contemporaine. La réponse immunitaire est étudiée depuis plus de 100 ans, mais nous n’avons encore qu’une compréhension partielle de ses propriétés systémiques, telles que la réponse immunitaire et la tolérance (l’absence de réponse à ses propres cellules). Cela est dû au fait que jusqu’à récemment, les immunologistes n’ont pu étudier ce système complexe qu’un gène ou une protéine à la fois.
L’approche systémique permet d’étudier tous les éléments d’un système en réponse à des perturbations génétiques (numériques) ou environnementales. Les analyses quantitatives globales de l’information biologique provenant de différents niveaux fournissent chacune de nouveaux aperçus du fonctionnement du système ; par conséquent, l’information à autant de niveaux que possible doit être saisie, intégrée et, finalement, modélisée mathématiquement. Le modèle doit expliquer les propriétés du système et établir un cadre qui nous permet de reconcevoir le système de manière rationnelle pour générer de nouvelles propriétés émergentes.
Plusieurs systèmes ont été explorés avec succès. L’utilisation du sucre galactose chez la levure a été analysée à l’aide de perturbations génétiques (inactivation de gènes) et quatre niveaux d’information ont été recueillis – les concentrations d’ARN et de protéines ainsi que les interactions protéine-protéine et protéine-ADN17. L’utilisation d’une approche systémique itérative et intégrative a permis d’acquérir de nouvelles connaissances sur la régulation de l’utilisation du galactose. En outre, les relations du réseau de régulation du galactose avec d’autres modules dans la cellule de levure ont également été délimitées. De même, les approches systémiques du développement embryonnaire précoce chez l’oursin ont permis de définir un réseau de régulation qui a un pouvoir prédictif important16 (Fig. 2). Enfin, les approches systémiques du métabolisme d’une halobactérie archéenne (un organisme se développant dans des solutions salines jusqu’à cinq molaires, comme dans la mer Morte) ont révélé de nouvelles perspectives sur les interrelations entre plusieurs modules contrôlant la production d’énergie dans la cellule18.
L’étude de la biologie cellulaire et organisationnelle à l’aide de l’approche systémique n’en est qu’à ses débuts. Elle nécessitera des équipes intégrées de scientifiques de toutes les disciplines – biologistes, chimistes, informaticiens, ingénieurs, mathématiciens et physiciens. De nouvelles méthodes d’acquisition et d’analyse de données biologiques à haut débit sont nécessaires. Une infrastructure informatique puissante doit être exploitée pour générer des approches plus efficaces de la saisie, du stockage, de l’analyse, de l’intégration, de l’affichage graphique et de la formulation mathématique de la complexité biologique. Les nouvelles technologies doivent être intégrées les unes aux autres. Enfin, la science fondée sur l’hypothèse et la science de la découverte doivent être intégrées. En bref, de nouvelles sciences et technologies doivent émerger pour que l’approche de la biologie des systèmes réalise ses promesses. Un changement culturel dans les sciences biologiques est nécessaire, et l’éducation et la formation de la prochaine génération de biologistes nécessiteront une réforme importante.
Gordon Moore, le fondateur d’Intel, avait prédit que le nombre de transistors pouvant être placés sur une puce informatique doublerait tous les 18 mois. C’est ce qui s’est passé depuis plus de 30 ans. Cette croissance exponentielle a été le moteur de la croissance explosive des technologies de l’information. De même, la quantité d’informations sur les séquences d’ADN dont dispose la communauté scientifique suit une croissance exponentielle similaire, peut-être même plus rapide. La question cruciale est de savoir comment les informations sur les séquences peuvent être converties en connaissances sur l’organisme et comment la biologie va évoluer en conséquence. Nous pensons qu’une approche systémique de la biologie en est la clé. Il est clair, cependant, que cette approche pose des défis importants, tant scientifiques que culturels19. La découverte de la structure de l’ADN nous a lancés dans ce voyage, dont la fin sera la grande unification des sciences biologiques dans la vision émergente de la biologie basée sur l’information.