“Qualquer célula viva traz consigo as experiências de um bilhão de anos de experimentação de seus ancestrais”. Max Delbruck, 1949.
A descoberta da dupla hélice em 1953 imediatamente levantou questões sobre como a informação biológica é codificada no DNA1. Uma característica notável da estrutura é que o DNA pode acomodar quase qualquer seqüência de pares de bases – qualquer combinação das bases adenina (A), citosina (C), guanina (G) e timina (T) – e, portanto, qualquer mensagem ou informação digital. Durante a década seguinte foi descoberto que cada gene codifica uma transcrição de RNA complementar, chamado RNA mensageiro (mRNA)2, composto de A, C, G e uracil (U), ao invés de T. As quatro bases dos alfabetos de DNA e RNA estão relacionadas com os 20 aminoácidos do alfabeto de proteína por um código triplet – cada três letras (ou ‘códons’) em um gene codifica um aminoácido3. Por exemplo, AGT codifica o aminoácido serina. O dicionário de letras de DNA que compõem os aminoácidos é chamado de código genético4. Existem 64 trigêmeos ou códons diferentes, 61 dos quais codificam um aminoácido (trigêmeos diferentes podem codificar o mesmo aminoácido), e três deles são usados para ‘pontuação’, na medida em que sinalizam o término da cadeia proteica crescente.
O complemento molecular da dupla hélice – em que cada base em uma linha de pares de DNA com sua base complementar na linha parceira (A com T, e C com G) – tem profundas implicações para a biologia. Como sugerido por James Watson e Francis Crick em seu artigo de referência1, o emparelhamento de bases sugere um mecanismo de cópia de modelo que explica a fidelidade na cópia do material genético durante a replicação do DNA (ver artigo neste número por Alberts, página 431). Ele também sustenta a síntese de mRNA do modelo de DNA, assim como os processos de reparação de DNA danificado (discutido por Friedberg, página 436).
Ferramentas para modificar DNA
As enzimas que funcionam nas células para copiar, cortar e unir moléculas de DNA também foram exploradas como ferramentas-chave para novas técnicas revolucionárias em biologia molecular, incluindo a clonagem de genes e expressão de suas proteínas, e mapeando a localização dos genes nos cromossomos. A capacidade de recriar artificialmente o processo de replicação de DNA em laboratório levou ao desenvolvimento de duas técnicas que transformaram a biologia: um método manual de sequenciamento de DNA em 1975 e, em 1985, a descoberta da reação em cadeia da polimerase (PCR), através da qual as sequências de DNA podiam ser amplificadas um milhão de vezes ou mais5,
Embora o sequenciamento e a PCR tenham transformado a ciência da biologia, também tinham amplas aplicações na medicina e na medicina forense. A detecção da variação na sequência de ADN de um indivíduo para outro – os chamados ‘polimorfismos’ – forma a base da ‘impressão digital’ de ADN dos indivíduos. A medicina legal usa essas impressões digitais para lidar com disputas de paternidade, bem como casos criminais, como estupro. A descoberta de que muitos polimorfismos de DNA específicos estão associados a doenças ou suscetibilidade a doenças trouxe o diagnóstico de DNA à medicina e abriu o caminho para a medicina verdadeiramente preditiva, onde os riscos de doença podem ser identificados antes dos sintomas (ver artigo nesta edição por Bell, página 414).
Sequenciamento automatizado de DNA
Os primeiros esforços para seqüenciar o DNA, iniciados por Walter Gilbert6 e Fred Sanger7 nos anos 70, decodificaram trechos de DNA de algumas centenas de bases. Quando o primeiro genoma completo foi sequenciado durante um período de cerca de um ano em 1977-78 – o de um genoma viral de cerca de 5.000 bases8 – ficou claro que os dados da sequência de ADN podiam fornecer percepções únicas sobre a estrutura e função dos genes, bem como sobre a organização do genoma. Foi este potencial de gerar vastas quantidades de informação sobre um organismo a partir do seu código genético que inspirou os esforços para a automatização do sequenciamento de DNA (Fig. 1).
A combinação de feitiçaria técnica e automação intensiva na década que se seguiu lançou a ‘era genómica’. Uma série de novos instrumentos permitiu novas abordagens à análise biológica9,10,11. A primeira máquina sequenciadora – inventada por Leroy Hood, Lloyd Smith e Mike Hunkapiller em 1986 (ref. 12) – foi automatizada na aquisição de dados, mas ainda exigia uma atenção manual substancial e a taxa de sequenciação era baixa, cerca de 250 bases por dia. Nos dez anos seguintes, o desenvolvimento da sequenciação automatizada de ADN acelerou, passando rapidamente por três fases distintas: a máquina de sequenciação de protótipos (1986); um instrumento robusto que podia ser usado rotineiramente num laboratório padrão (1989); e finalmente, uma máquina que fazia parte de uma linha de produção integrada de fábrica onde a preparação de amostras de ADN e a sequenciação eram todas totalmente automatizadas (1998). Os avanços na capacidade de sequenciação têm sido notáveis – as máquinas de sequenciação mais recentes são capazes de descodificar aproximadamente 1,5 milhões de bases em 24 horas – 6.000 vezes o rendimento do protótipo.
Os objectivos da instrumentação biológica de alto rendimento são aumentar o rendimento, melhorar a qualidade dos dados e reduzir grandemente o custo da informação adquirida por unidade. Para alcançar estes objectivos no futuro, a miniaturização, automação, paralelização e integração de procedimentos sucessivos irá impulsionar a tecnologia de sequenciamento de DNA no domínio dos microfluidos e microelectrónica, e eventualmente na área da nanotecnologia. Com o sequenciamento mono-dNAmolécula, prevemos um tempo em que todo o genoma de um indivíduo poderia ser sequenciado num único dia a um custo inferior a 10.000 dólares (em comparação com os 50 milhões de dólares ou mais que custaria hoje). Isso permitirá prontamente a decodificação da seqüência genômica de praticamente qualquer organismo no planeta e proporcionará acesso sem paralelo aos fundamentos da biologia e ao estudo da variabilidade genética humana.
O Projeto Genoma Humano
A velocidade de tirar o fôlego na qual o sequenciamento automatizado de DNA se desenvolveu foi em grande parte estimulado pelas demandas de produção do Projeto Genoma Humano (HGP), que começou oficialmente em 1990, após discussões e estudos de viabilidade e tecnologia que começaram a sério em 1985. Os objetivos do HGP eram gerar uma seqüência terminada em 15 anos13 , mas um rascunho da seqüência do genoma humano estava disponível em 2001. Duas versões do rascunho foram geradas e publicadas em 2001, uma pelo International Human Genome Sequencing Consortium14 , com financiamento público, e outra pela empresa de biotecnologia Celera15 (Quadro 1). No processo de desenvolvimento das ferramentas e metodologia para poder sequenciar e montar as 3 bilhões de bases do genoma humano, uma série de genomas vegetais, animais e microbianos foi sequenciada e muitos outros estão sendo decodificados. Conforme as seqüências genômicas se tornam disponíveis, diferentes áreas da biologia estão sendo transformadas – por exemplo, a disciplina da microbiologia mudou significativamente com a conclusão de mais de 100 seqüências genômicas bacterianas durante a última década.
O HGP influenciou profundamente a biologia em dois aspectos. Primeiro, ele ilustrou o conceito de ‘ciência da descoberta’ – a idéia de que todos os elementos do sistema (isto é, a seqüência completa do genoma e todo o RNA e saída de proteína codificados pelo genoma) podem ser definidos, arquivados em uma base de dados, e disponibilizados para facilitar a ciência guiada por hipóteses e análises globais. Em segundo lugar, para ter sucesso, o HGP impulsionou o desenvolvimento de sequenciamento eficiente de DNA em larga escala e, simultaneamente, impulsionou a criação de ferramentas de alto rendimento (por exemplo, matrizes de DNA e espectrometria de massa) para a análise de outros tipos de informação biológica relacionada, tais como mRNAs, proteínas e interações moleculares.
A natureza digital da informação biológica
O valor de ter uma sequência completa do genoma é que se pode iniciar o estudo de um sistema biológico com um núcleo de informação digital precisamente definível para aquele organismo – um código fonte genético totalmente delineado. O desafio, então, está em decifrar que informação está codificada dentro do código digital. O genoma codifica dois tipos principais de informação digital – os genes que codificam as máquinas moleculares de proteína e RNA da vida, e as redes reguladoras que especificam como esses genes são expressos no tempo, espaço e amplitude.
É a evolução das redes reguladoras e não os próprios genes que desempenham o papel crítico de tornar os organismos diferentes uns dos outros. A informação digital em genomas opera em três diferentes períodos de tempo: evolução (dezenas a milhões de anos), desenvolvimento (horas a dezenas de anos) e fisiologia (milissegundos a semanas). O desenvolvimento é a elaboração de um organismo a partir de uma única célula (o óvulo fertilizado) para um adulto (para humanos são 1014 células de milhares de tipos diferentes). A fisiologia é o desencadeamento de programas funcionais específicos (por exemplo, a resposta imunológica) por sinais ambientais. As redes reguladoras são cruciais em cada um destes aspectos da biologia.
As redes reguladoras são compostas por dois tipos principais de componentes: os factores de transcrição e os sítios de ADN aos quais se ligam nas regiões de controlo dos genes, tais como promotores, potenciadores e silenciadores. As regiões de controle de genes individuais servem como processadores de informação para integrar a informação inerente às concentrações de diferentes fatores de transcrição em sinais que medeiam a expressão gênica. A coleta dos fatores de transcrição e seus locais de ligação de DNA cognato nas regiões de controle dos genes que desempenham uma determinada função de desenvolvimento ou fisiológica constituem essas redes reguladoras (Fig. 2).