«Cualquier célula viva lleva consigo las experiencias de mil millones de años de experimentación de sus antepasados». Max Delbruck, 1949.

El descubrimiento de la doble hélice en 1953 planteó inmediatamente preguntas sobre cómo se codifica la información biológica en el ADN1. Una característica notable de la estructura es que el ADN puede albergar casi cualquier secuencia de pares de bases – cualquier combinación de las bases adenina (A), citosina (C), guanina (G) y timina (T) – y, por tanto, cualquier mensaje o información digital. En la década siguiente se descubrió que cada gen codifica un transcrito de ARN complementario, llamado ARN mensajero (ARNm)2, compuesto por A, C, G y uracilo (U), en lugar de T. Las cuatro bases del alfabeto del ADN y del ARN están relacionadas con los 20 aminoácidos del alfabeto de las proteínas mediante un código de tripletes: cada tres letras (o «codones») de un gen codifica un aminoácido3. Por ejemplo, el AGT codifica el aminoácido serina. El diccionario de letras del ADN que componen los aminoácidos se llama código genético4. Hay 64 tripletes o codones diferentes, 61 de los cuales codifican un aminoácido (diferentes tripletes pueden codificar el mismo aminoácido), y tres de los cuales se utilizan para «puntuar» en el sentido de que señalan la terminación de la cadena proteica en crecimiento.

El complemento molecular de la doble hélice -por el que cada base de una hebra de ADN se empareja con su base complementaria en la hebra compañera (A con T, y C con G)- tiene profundas implicaciones para la biología. Tal y como insinuaron James Watson y Francis Crick en su histórico artículo1, el emparejamiento de bases sugiere un mecanismo de copia de plantillas que explica la fidelidad en la copia del material genético durante la replicación del ADN (véase el artículo de Alberts en este número, página 431). También es la base de la síntesis de ARNm a partir de la plantilla de ADN, así como de los procesos de reparación del ADN dañado (comentado por Friedberg, página 436).

Herramientas para modificar el ADN

Las enzimas que funcionan en las células para copiar, cortar y unir las moléculas de ADN también fueron explotadas como herramientas clave para las nuevas y revolucionarias técnicas de la biología molecular, incluyendo la clonación de genes y la expresión de sus proteínas, y el mapeo de la localización de los genes en los cromosomas. La capacidad de recrear artificialmente el proceso de replicación del ADN en el laboratorio condujo al desarrollo de dos técnicas que transformaron la biología: un método de secuenciación manual del ADN en 1975 y, en 1985, el descubrimiento de la reacción en cadena de la polimerasa (PCR), mediante la cual las secuencias de ADN podían amplificarse un millón de veces o más5.

Aunque la secuenciación y la PCR transformaron la ciencia de la biología, también tuvieron amplias aplicaciones para la medicina y la medicina forense. La detección de variaciones en la secuencia de ADN de un individuo a otro -los llamados «polimorfismos»- constituye la base de las «huellas dactilares» de ADN de los individuos. Los forenses utilizan estas huellas dactilares para resolver disputas de paternidad, así como casos criminales como la violación. El descubrimiento de que muchos polimorfismos específicos del ADN están asociados a enfermedades o a la susceptibilidad a las mismas ha llevado el diagnóstico del ADN a la medicina y ha abierto el camino a una medicina verdaderamente predictiva, en la que los riesgos de enfermedad pueden identificarse antes de que aparezcan los síntomas (véase el artículo de Bell en este número, página 414).

Secuenciación automatizada del ADN

Los primeros esfuerzos para secuenciar el ADN, iniciados por Walter Gilbert6 y Fred Sanger7 en la década de 1970, descifraron tramos de ADN de unos pocos cientos de bases. Cuando en 1977-78 se secuenció el primer genoma completo en un período de aproximadamente un año -el de un genoma vírico de unas 5.000 bases8 – quedó claro que los datos de la secuencia del ADN podían proporcionar una visión única de la estructura y la función de los genes, así como de la organización del genoma. Este potencial para generar grandes cantidades de información sobre un organismo a partir de su código genético fue lo que inspiró los esfuerzos hacia la automatización de la secuenciación del ADN (Fig. 1).

Figura 1: Cómo secuenciar el ADN.

a, la ADN polimerasa copia una cadena de ADN. b, La inserción de una base terminadora en la cadena creciente detiene el proceso de copia. Se trata de un acontecimiento aleatorio que da lugar a una serie de fragmentos de diferentes longitudes, dependiendo de la base en la que se detuvo la copia. Los fragmentos se separan por tamaño haciéndolos pasar por una matriz de gel, con los fragmentos más cortos en la parte inferior y los más grandes en la parte superior. c, Los terminadores se etiquetan con diferentes tintes fluorescentes, por lo que cada fragmento emitirá una fluorescencia de un color determinado dependiendo de si termina con una base A, C, G o T. d, La secuencia es «leída» por un ordenador. Genera un «trazado de la secuencia», como se muestra aquí, con los picos de color correspondientes a las bandas fluorescentes leídas desde la parte inferior a la superior de un carril del gel. El ordenador traduce estas señales fluorescentes a la secuencia de ADN, como se ilustra en la parte superior del gráfico. Imagen adaptada de la ref. 20.

La combinación de la magia técnica y la automatización intensiva en la década siguiente lanzó la «era genómica». Una serie de nuevos instrumentos permitieron nuevos enfoques del análisis biológico9,10,11. La primera máquina de secuenciación -inventada por Leroy Hood, Lloyd Smith y Mike Hunkapiller en 1986 (ref. 12)- estaba automatizada en la adquisición de datos, pero seguía requiriendo una atención manual considerable y la tasa de secuenciación era baja, aproximadamente 250 bases por día. En los diez años siguientes, el desarrollo de la secuenciación automatizada del ADN se aceleró, pasando rápidamente por tres etapas distintas: el prototipo de máquina de secuenciación (1986); un instrumento robusto que podía utilizarse de forma rutinaria en un laboratorio estándar (1989); y, por último, una máquina que formaba parte de una línea de producción integrada similar a la de una fábrica en la que la preparación de las muestras de ADN y la secuenciación estaban totalmente automatizadas (1998). Los avances en la capacidad de secuenciación han sido sorprendentes: las últimas máquinas de secuenciación son capaces de decodificar aproximadamente 1,5 millones de bases en 24 horas, es decir, 6.000 veces el rendimiento del prototipo.

Los objetivos de la instrumentación biológica de alto rendimiento son aumentar el rendimiento, mejorar la calidad de los datos y reducir en gran medida el coste de la información adquirida por unidad. Para alcanzar estos objetivos en el futuro, la miniaturización, la automatización, la paralelización y la integración de los procedimientos sucesivos impulsarán la tecnología de secuenciación del ADN hacia el ámbito de la microfluídica y la microelectrónica, y finalmente hacia el área de la nanotecnología. Con la secuenciación de una sola molécula de ADN, prevemos un momento en el que se podrá secuenciar el genoma completo de un individuo en un solo día a un coste inferior a 10.000 dólares (frente a los 50 millones de dólares o más que costaría hoy). Esto permitirá descifrar fácilmente la secuencia genómica de prácticamente cualquier organismo del planeta y proporcionará un acceso sin precedentes a los fundamentos de la biología y al estudio de la variabilidad genética humana.

El Proyecto Genoma Humano

La impresionante velocidad a la que se desarrolló la secuenciación automatizada del ADN fue estimulada en gran medida por las exigencias de rendimiento del Proyecto Genoma Humano (PGH), que se inició oficialmente en 1990 tras los debates y estudios sobre la viabilidad y la tecnología que comenzaron en serio en 1985. Los objetivos del HGP eran generar una secuencia terminada en 15 años13 , pero un borrador de la secuencia del genoma humano estuvo disponible en 2001. En 2001 se generaron y publicaron dos versiones del borrador, una a cargo del Consorcio Internacional de Secuenciación del Genoma Humano14 , financiado con fondos públicos, y otra a cargo de la empresa de biotecnología Celera15 (Cuadro 1). En el proceso de desarrollo de las herramientas y la metodología para poder secuenciar y ensamblar los 3.000 millones de bases del genoma humano, se secuenciaron una serie de genomas vegetales, animales y microbianos, y actualmente se están descifrando muchos más. A medida que las secuencias del genoma están disponibles, se transforman diferentes áreas de la biología; por ejemplo, la disciplina de la microbiología ha cambiado significativamente con la finalización de más de 100 secuencias del genoma bacteriano en la última década.

El HGP influyó profundamente en la biología en dos aspectos. En primer lugar, ilustró el concepto de «ciencia del descubrimiento», es decir, la idea de que todos los elementos del sistema (es decir, la secuencia completa del genoma y toda la producción de ARN y proteínas codificada por el genoma) pueden definirse, archivarse en una base de datos y estar disponibles para facilitar la ciencia basada en hipótesis y los análisis globales. En segundo lugar, para tener éxito, el HGP impulsó el desarrollo de la secuenciación eficiente del ADN a gran escala y, simultáneamente, impulsó la creación de herramientas de alto rendimiento (por ejemplo, matrices de ADN y espectrometría de masas) para el análisis de otros tipos de información biológica relacionada, como los ARNm, las proteínas y las interacciones moleculares.

La naturaleza digital de la información biológica

El valor de tener una secuencia completa del genoma es que uno puede iniciar el estudio de un sistema biológico con un núcleo digital de información precisamente definible para ese organismo – un código fuente genético completamente delineado. El reto consiste en descifrar qué información está codificada en el código digital. El genoma codifica dos tipos principales de información digital: los genes que codifican las máquinas moleculares de proteínas y ARN de la vida, y las redes reguladoras que especifican cómo se expresan estos genes en el tiempo, el espacio y la amplitud.

Es la evolución de las redes reguladoras, y no los propios genes, lo que desempeña un papel fundamental a la hora de hacer que los organismos sean diferentes entre sí. La información digital de los genomas opera a lo largo de tres espacios de tiempo diferentes: la evolución (de decenas a millones de años), el desarrollo (de horas a decenas de años) y la fisiología (de milisegundos a semanas). El desarrollo es la elaboración de un organismo desde una sola célula (el óvulo fecundado) hasta un adulto (en el caso de los humanos son 1014 células de miles de tipos diferentes). La fisiología es el desencadenamiento de programas funcionales específicos (por ejemplo, la respuesta inmunitaria) mediante señales ambientales. Las redes de regulación son cruciales en cada uno de estos aspectos de la biología.

Las redes de regulación se componen de dos tipos principales de componentes: los factores de transcripción y los sitios de ADN a los que se unen en las regiones de control de los genes, como promotores, potenciadores y silenciadores. Las regiones de control de los genes individuales sirven como procesadores de información para integrar la información inherente a las concentraciones de los diferentes factores de transcripción en señales que median la expresión de los genes. El conjunto de los factores de transcripción y sus sitios de unión al ADN afines en las regiones de control de los genes que llevan a cabo una función particular de desarrollo o fisiológica constituyen estas redes reguladoras (Fig. 2).

Figura 2: Una red reguladora de genes implicada en el desarrollo del erizo de mar16.

a, Parte de la red de factores de transcripción y sus interacciones con las regiones de control de otros factores de transcripción. Los genes se indican con líneas horizontales; las puntas de flecha indican activación; los símbolos ‘⊥’ indican represión del gen. b, Ampliación de la región promotora de un gen, llamado endo 16, que ayuda a modular el desarrollo del endodermo. Contiene 34 sitios de unión (rectángulos) para 13 factores de transcripción y cofactores diferentes (ilustrados como rectángulos o piruletas, respectivamente). Seis módulos (A-G) de factores de transcripción y sitios de unión realizan funciones discretas para regular el desarrollo del endo 16. c, Diagrama que representa las estructuras lógicas de los circuitos de control A y B durante el desarrollo del erizo de mar.

Debido a que la mayoría de los organismos «superiores» o eucariotas (organismos que contienen su ADN en un compartimento celular llamado núcleo), como la levadura, las moscas y los humanos, tienen predominantemente las mismas familias de genes, es la reorganización de los sitios de unión al ADN en las regiones de control de los genes lo que media los cambios en los programas de desarrollo que distinguen a una especie de otra. Así, las redes reguladoras están especificadas de forma única por sus sitios de unión al ADN y, en consecuencia, son básicamente de naturaleza digital.

Una cosa que llama la atención sobre las redes reguladoras digitales es que pueden cambiar significativamente en cortos periodos de tiempo evolutivo. Esto se refleja, por ejemplo, en la enorme diversidad de los planes corporales, controlados por redes reguladoras de genes, que surgieron a lo largo de quizás 10-30 millones de años durante la explosión cámbrica de los organismos metazoos (hace unos 550 millones de años). Del mismo modo, se produjeron cambios notables en las redes reguladoras que impulsan el desarrollo del cerebro humano durante su divergencia de su ancestro común con los chimpancés hace unos 6 millones de años.

La biología ha desarrollado varios tipos diferentes de jerarquías informativas. En primer lugar, una jerarquía reguladora es una red de genes que define las relaciones de un conjunto de factores de transcripción, sus sitios de unión al ADN y los genes periféricos descendentes que controlan colectivamente un aspecto particular del desarrollo. Un modelo de desarrollo en el erizo de mar representa un ejemplo sorprendente16 (Fig. 2). En segundo lugar, una jerarquía evolutiva define un conjunto de relaciones de orden, derivadas de la duplicación del ADN. Por ejemplo, un solo gen puede duplicarse para generar una familia multigénica, y una familia multigénica puede duplicarse para crear una familia supergénica. En tercer lugar, las máquinas moleculares pueden ensamblarse en jerarquías estructurales mediante un proceso de ensamblaje ordenado. Un ejemplo de ello es el aparato básico de transcripción, que implica el reclutamiento paso a paso de factores y enzimas que finalmente impulsarán la expresión específica de un gen determinado. Un segundo ejemplo es el ribosoma, el complejo que traduce el ARN en proteínas, que se ensambla a partir de más de 50 proteínas diferentes y algunas moléculas de ARN. Por último, una jerarquía informativa describe el flujo de información de un gen al entorno: gen → ARN → proteína → interacciones proteicas → complejos proteicos → redes de complejos proteicos en una célula → tejidos u órganos → organismos individuales → poblaciones → ecosistemas. En cada nivel sucesivamente superior de la jerarquía informativa, se puede añadir o alterar la información de cualquier elemento dado (por ejemplo, mediante el empalme alternativo de ARN o la modificación de proteínas).

Enfoques sistémicos de la biología

Los seres humanos comienzan la vida como una sola célula -el óvulo fecundado- y se desarrollan hasta convertirse en un adulto con billones de células y miles de tipos de células. Este proceso utiliza dos tipos de información biológica: la información digital del genoma y la información ambiental, como las concentraciones de metabolitos, las señales secretadas o de la superficie celular de otras células o los gradientes químicos. La información ambiental es de dos tipos distintos: información determinista, en la que las consecuencias de las señales están esencialmente predeterminadas, e información estocástica, en la que el azar dicta el resultado.

Las señales aleatorias, o estocásticas, pueden generar un ruido importante en los sistemas biológicos, pero sólo en casos especiales el ruido se convierte en señales. Por ejemplo, los eventos estocásticos gobiernan muchos de los mecanismos genéticos responsables de generar la diversidad de anticuerpos. En la respuesta inmunitaria, los linfocitos B que producen anticuerpos que se unen fuertemente al antígeno (es decir, los que tienen alta afinidad) experimentan una expansión en número que es proporcional a la fuerza de la afinidad del anticuerpo (véase el artículo de Nossal en este número, página 440). Así, la señal (alta afinidad) se distingue del ruido (baja afinidad). Además, los altos niveles de mutación en las células B provocan una diversificación específica de los genes de los anticuerpos en presencia del antígeno y permiten que la afinidad aumente aún más. Las células que portan los genes de anticuerpos de mayor afinidad son entonces seleccionadas preferentemente para la supervivencia y la proliferación.

La cuestión clave es qué y cuánta señal emerge del ruido. El análisis de los eventos estocásticos y la diferenciación entre señal y ruido será un reto futuro para la biología contemporánea. La respuesta inmunitaria se ha estudiado durante más de 100 años, y sin embargo sólo tenemos una comprensión parcial de sus propiedades sistémicas, como la respuesta inmunitaria y la tolerancia (la falta de respuesta a las células propias). Esto se debe a que, hasta hace poco, los inmunólogos han podido estudiar este complejo sistema sólo un gen o una proteína a la vez.

El enfoque sistémico permite estudiar todos los elementos de un sistema en respuesta a perturbaciones genéticas (digitales) o ambientales. Los análisis cuantitativos globales de la información biológica de diferentes niveles proporcionan cada uno de ellos nuevos conocimientos sobre el funcionamiento del sistema; por lo tanto, la información en tantos niveles como sea posible debe ser capturada, integrada y, en última instancia, modelada matemáticamente. El modelo debe explicar las propiedades del sistema y establecer un marco que nos permita rediseñar el sistema de forma racional para generar nuevas propiedades emergentes.

Se han explorado con éxito varios sistemas. La utilización del azúcar galactosa en la levadura se ha analizado mediante perturbaciones genéticas (inactivación de genes) y se han recogido cuatro niveles de información: concentraciones de ARN y proteínas, así como interacciones proteína-proteína y proteína-ADN17. Utilizando un enfoque sistémico iterativo e integrador, se obtuvieron nuevos conocimientos sobre la regulación del uso de la galactosa. Además, también se delinearon las relaciones de la red reguladora de la galactosa con otros módulos de la célula de levadura. Del mismo modo, los enfoques sistémicos del desarrollo embrionario temprano en el erizo de mar han delineado una red reguladora que tiene un poder predictivo significativo16 (Fig. 2). Por último, los enfoques sistémicos del metabolismo de una halobacteria arquea (un organismo que prospera en soluciones salinas de hasta cinco moles, como el Mar Muerto) han revelado nuevos conocimientos sobre las interrelaciones entre varios módulos que controlan la producción de energía en la célula18.

El estudio de la biología celular y del organismo mediante el enfoque sistémico está en sus inicios. Requerirá equipos integrados de científicos de distintas disciplinas: biólogos, químicos, informáticos, ingenieros, matemáticos y físicos. Se necesitan nuevos métodos para adquirir y analizar datos biológicos de alto rendimiento. Hay que aprovechar una potente infraestructura informática para generar enfoques más eficaces de captura, almacenamiento, análisis, integración, visualización gráfica y formulación matemática de la complejidad biológica. Las nuevas tecnologías deben integrarse entre sí. Por último, hay que integrar la ciencia basada en hipótesis y la ciencia del descubrimiento. En resumen, para que el enfoque de la biología de sistemas haga realidad su promesa, deben surgir tanto nuevas ciencias como tecnologías. Es necesario un cambio cultural en las ciencias biológicas, y la educación y formación de la próxima generación de biólogos requerirá una reforma significativa.

Gordon Moore, el fundador de Intel, predijo que el número de transistores que podían colocarse en un chip de ordenador se duplicaría cada 18 meses. Así ha sido durante más de 30 años. Este crecimiento exponencial ha sido el motor del crecimiento explosivo de la tecnología de la información. Del mismo modo, la cantidad de información sobre secuencias de ADN disponible para la comunidad científica está siguiendo un aumento exponencial similar, quizás incluso más pronunciado. La cuestión fundamental es cómo convertir la información de las secuencias en conocimiento del organismo y cómo cambiará la biología como consecuencia de ello. Creemos que un enfoque sistémico de la biología es la clave. Sin embargo, está claro que este enfoque plantea importantes retos, tanto científicos como culturales19. El descubrimiento de la estructura del ADN nos inició en este viaje, cuyo final será la gran unificación de las ciencias biológicas en la emergente visión de la biología basada en la información.

admin

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

lg