“Qualquer célula viva traz consigo as experiências de um bilhão de anos de experimentação de seus ancestrais”. Max Delbruck, 1949.

A descoberta da dupla hélice em 1953 imediatamente levantou questões sobre como a informação biológica é codificada no DNA1. Uma característica notável da estrutura é que o DNA pode acomodar quase qualquer seqüência de pares de bases – qualquer combinação das bases adenina (A), citosina (C), guanina (G) e timina (T) – e, portanto, qualquer mensagem ou informação digital. Durante a década seguinte foi descoberto que cada gene codifica uma transcrição de RNA complementar, chamado RNA mensageiro (mRNA)2, composto de A, C, G e uracil (U), ao invés de T. As quatro bases dos alfabetos de DNA e RNA estão relacionadas com os 20 aminoácidos do alfabeto de proteína por um código triplet – cada três letras (ou ‘códons’) em um gene codifica um aminoácido3. Por exemplo, AGT codifica o aminoácido serina. O dicionário de letras de DNA que compõem os aminoácidos é chamado de código genético4. Existem 64 trigêmeos ou códons diferentes, 61 dos quais codificam um aminoácido (trigêmeos diferentes podem codificar o mesmo aminoácido), e três deles são usados para ‘pontuação’, na medida em que sinalizam o término da cadeia proteica crescente.

O complemento molecular da dupla hélice – em que cada base em uma linha de pares de DNA com sua base complementar na linha parceira (A com T, e C com G) – tem profundas implicações para a biologia. Como sugerido por James Watson e Francis Crick em seu artigo de referência1, o emparelhamento de bases sugere um mecanismo de cópia de modelo que explica a fidelidade na cópia do material genético durante a replicação do DNA (ver artigo neste número por Alberts, página 431). Ele também sustenta a síntese de mRNA do modelo de DNA, assim como os processos de reparação de DNA danificado (discutido por Friedberg, página 436).

Ferramentas para modificar DNA

As enzimas que funcionam nas células para copiar, cortar e unir moléculas de DNA também foram exploradas como ferramentas-chave para novas técnicas revolucionárias em biologia molecular, incluindo a clonagem de genes e expressão de suas proteínas, e mapeando a localização dos genes nos cromossomos. A capacidade de recriar artificialmente o processo de replicação de DNA em laboratório levou ao desenvolvimento de duas técnicas que transformaram a biologia: um método manual de sequenciamento de DNA em 1975 e, em 1985, a descoberta da reação em cadeia da polimerase (PCR), através da qual as sequências de DNA podiam ser amplificadas um milhão de vezes ou mais5,

Embora o sequenciamento e a PCR tenham transformado a ciência da biologia, também tinham amplas aplicações na medicina e na medicina forense. A detecção da variação na sequência de ADN de um indivíduo para outro – os chamados ‘polimorfismos’ – forma a base da ‘impressão digital’ de ADN dos indivíduos. A medicina legal usa essas impressões digitais para lidar com disputas de paternidade, bem como casos criminais, como estupro. A descoberta de que muitos polimorfismos de DNA específicos estão associados a doenças ou suscetibilidade a doenças trouxe o diagnóstico de DNA à medicina e abriu o caminho para a medicina verdadeiramente preditiva, onde os riscos de doença podem ser identificados antes dos sintomas (ver artigo nesta edição por Bell, página 414).

Sequenciamento automatizado de DNA

Os primeiros esforços para seqüenciar o DNA, iniciados por Walter Gilbert6 e Fred Sanger7 nos anos 70, decodificaram trechos de DNA de algumas centenas de bases. Quando o primeiro genoma completo foi sequenciado durante um período de cerca de um ano em 1977-78 – o de um genoma viral de cerca de 5.000 bases8 – ficou claro que os dados da sequência de ADN podiam fornecer percepções únicas sobre a estrutura e função dos genes, bem como sobre a organização do genoma. Foi este potencial de gerar vastas quantidades de informação sobre um organismo a partir do seu código genético que inspirou os esforços para a automatização do sequenciamento de DNA (Fig. 1).

Figure 1: Como sequenciar DNA.

a, a DNA polimerase copia uma fita de DNA. b, A inserção de uma base terminadora na fita crescente interrompe o processo de cópia. Este é um evento aleatório que resulta em uma série de fragmentos de diferentes comprimentos, dependendo da base na qual a cópia parou. Os fragmentos são separados por tamanho, passando-os por uma matriz de gel, com os fragmentos mais curtos na parte inferior e maiores na parte superior. c, Os terminadores são rotulados com diferentes corantes fluorescentes, de modo que cada fragmento irá fluorescer uma determinada cor, dependendo se termina com uma base A, C, G, ou T. d, A sequência é ‘lida’ por um computador. Ele gera um ‘traço de sequência’, como mostrado aqui, com os picos de cor correspondentes às bandas fluorescentes lidas de baixo para cima de uma faixa do gel. O computador traduz estes sinais fluorescentes para a sequência de ADN, como ilustrado no topo da trama. Imagem adaptada da ref. 20.

A combinação de feitiçaria técnica e automação intensiva na década que se seguiu lançou a ‘era genómica’. Uma série de novos instrumentos permitiu novas abordagens à análise biológica9,10,11. A primeira máquina sequenciadora – inventada por Leroy Hood, Lloyd Smith e Mike Hunkapiller em 1986 (ref. 12) – foi automatizada na aquisição de dados, mas ainda exigia uma atenção manual substancial e a taxa de sequenciação era baixa, cerca de 250 bases por dia. Nos dez anos seguintes, o desenvolvimento da sequenciação automatizada de ADN acelerou, passando rapidamente por três fases distintas: a máquina de sequenciação de protótipos (1986); um instrumento robusto que podia ser usado rotineiramente num laboratório padrão (1989); e finalmente, uma máquina que fazia parte de uma linha de produção integrada de fábrica onde a preparação de amostras de ADN e a sequenciação eram todas totalmente automatizadas (1998). Os avanços na capacidade de sequenciação têm sido notáveis – as máquinas de sequenciação mais recentes são capazes de descodificar aproximadamente 1,5 milhões de bases em 24 horas – 6.000 vezes o rendimento do protótipo.

Os objectivos da instrumentação biológica de alto rendimento são aumentar o rendimento, melhorar a qualidade dos dados e reduzir grandemente o custo da informação adquirida por unidade. Para alcançar estes objectivos no futuro, a miniaturização, automação, paralelização e integração de procedimentos sucessivos irá impulsionar a tecnologia de sequenciamento de DNA no domínio dos microfluidos e microelectrónica, e eventualmente na área da nanotecnologia. Com o sequenciamento mono-dNAmolécula, prevemos um tempo em que todo o genoma de um indivíduo poderia ser sequenciado num único dia a um custo inferior a 10.000 dólares (em comparação com os 50 milhões de dólares ou mais que custaria hoje). Isso permitirá prontamente a decodificação da seqüência genômica de praticamente qualquer organismo no planeta e proporcionará acesso sem paralelo aos fundamentos da biologia e ao estudo da variabilidade genética humana.

O Projeto Genoma Humano

A velocidade de tirar o fôlego na qual o sequenciamento automatizado de DNA se desenvolveu foi em grande parte estimulado pelas demandas de produção do Projeto Genoma Humano (HGP), que começou oficialmente em 1990, após discussões e estudos de viabilidade e tecnologia que começaram a sério em 1985. Os objetivos do HGP eram gerar uma seqüência terminada em 15 anos13 , mas um rascunho da seqüência do genoma humano estava disponível em 2001. Duas versões do rascunho foram geradas e publicadas em 2001, uma pelo International Human Genome Sequencing Consortium14 , com financiamento público, e outra pela empresa de biotecnologia Celera15 (Quadro 1). No processo de desenvolvimento das ferramentas e metodologia para poder sequenciar e montar as 3 bilhões de bases do genoma humano, uma série de genomas vegetais, animais e microbianos foi sequenciada e muitos outros estão sendo decodificados. Conforme as seqüências genômicas se tornam disponíveis, diferentes áreas da biologia estão sendo transformadas – por exemplo, a disciplina da microbiologia mudou significativamente com a conclusão de mais de 100 seqüências genômicas bacterianas durante a última década.

O HGP influenciou profundamente a biologia em dois aspectos. Primeiro, ele ilustrou o conceito de ‘ciência da descoberta’ – a idéia de que todos os elementos do sistema (isto é, a seqüência completa do genoma e todo o RNA e saída de proteína codificados pelo genoma) podem ser definidos, arquivados em uma base de dados, e disponibilizados para facilitar a ciência guiada por hipóteses e análises globais. Em segundo lugar, para ter sucesso, o HGP impulsionou o desenvolvimento de sequenciamento eficiente de DNA em larga escala e, simultaneamente, impulsionou a criação de ferramentas de alto rendimento (por exemplo, matrizes de DNA e espectrometria de massa) para a análise de outros tipos de informação biológica relacionada, tais como mRNAs, proteínas e interações moleculares.

A natureza digital da informação biológica

O valor de ter uma sequência completa do genoma é que se pode iniciar o estudo de um sistema biológico com um núcleo de informação digital precisamente definível para aquele organismo – um código fonte genético totalmente delineado. O desafio, então, está em decifrar que informação está codificada dentro do código digital. O genoma codifica dois tipos principais de informação digital – os genes que codificam as máquinas moleculares de proteína e RNA da vida, e as redes reguladoras que especificam como esses genes são expressos no tempo, espaço e amplitude.

É a evolução das redes reguladoras e não os próprios genes que desempenham o papel crítico de tornar os organismos diferentes uns dos outros. A informação digital em genomas opera em três diferentes períodos de tempo: evolução (dezenas a milhões de anos), desenvolvimento (horas a dezenas de anos) e fisiologia (milissegundos a semanas). O desenvolvimento é a elaboração de um organismo a partir de uma única célula (o óvulo fertilizado) para um adulto (para humanos são 1014 células de milhares de tipos diferentes). A fisiologia é o desencadeamento de programas funcionais específicos (por exemplo, a resposta imunológica) por sinais ambientais. As redes reguladoras são cruciais em cada um destes aspectos da biologia.

As redes reguladoras são compostas por dois tipos principais de componentes: os factores de transcrição e os sítios de ADN aos quais se ligam nas regiões de controlo dos genes, tais como promotores, potenciadores e silenciadores. As regiões de controle de genes individuais servem como processadores de informação para integrar a informação inerente às concentrações de diferentes fatores de transcrição em sinais que medeiam a expressão gênica. A coleta dos fatores de transcrição e seus locais de ligação de DNA cognato nas regiões de controle dos genes que desempenham uma determinada função de desenvolvimento ou fisiológica constituem essas redes reguladoras (Fig. 2).

Figure 2: Uma rede reguladora de genes envolvidos no desenvolvimento do ouriço-do-mar16.

a, Parte da rede de fatores de transcrição e suas interações com as regiões de controle de outros fatores de transcrição. Os genes são indicados por linhas horizontais; pontas de seta indicam ativação; símbolos ‘⊥’ indicam repressão do gene. b, Uma ampliação da região promotora de um gene, chamada endo 16, que ajuda a modular o desenvolvimento do endoderme. Contém 34 sítios de ligação (rectângulos) para 13 factores de transcrição e cofactores diferentes (ilustrados como rectângulos ou chupa-chupas, respectivamente). Seis módulos (A-G) de fatores de transcrição e locais de ligação realizam funções discretas para regular o desenvolvimento do endo 16. c, Diagrama representando as estruturas lógicas dos circuitos de controle A e B durante o desenvolvimento do ouriço-do-mar.

Porque a maioria dos organismos ‘superiores’ ou eucariotas (organismos que contêm seu DNA em um compartimento celular chamado núcleo), tais como leveduras, moscas e humanos, têm predominantemente as mesmas famílias de genes, é a reorganização dos sítios de ligação do DNA nas regiões de controle dos genes que medeiam as mudanças nos programas de desenvolvimento que distinguem uma espécie de outra. Assim, as redes regulatórias são exclusivamente especificadas pelos seus sítios de ligação de DNA e, portanto, são basicamente de natureza digital.

Uma coisa que chama a atenção nas redes regulatórias digitais é que elas podem mudar significativamente em curtos períodos de tempo evolutivo. Isto se reflete, por exemplo, na enorme diversidade dos planos corporais, controlados por redes reguladoras de genes, que surgiram durante talvez 10-30 milhões de anos durante a explosão dos organismos metazoários no Cambriano (cerca de 550 milhões de anos atrás). Da mesma forma, mudanças notáveis ocorreram nas redes reguladoras que impulsionaram o desenvolvimento do cérebro humano durante sua divergência de seu ancestral comum com os chimpanzés cerca de 6 milhões de anos atrás.

Biologia evoluiu vários tipos diferentes de hierarquias informacionais. Primeiro, uma hierarquia reguladora é uma rede de genes que define as relações de um conjunto de fatores de transcrição, seus locais de ligação de DNA e os genes periféricos a jusante que controlam coletivamente um aspecto particular do desenvolvimento. Um modelo de desenvolvimento no ouriço-do-mar representa um exemplo marcante16 (Fig. 2). Em segundo lugar, uma hierarquia evolutiva define um conjunto de relações de ordem, decorrentes da duplicação do ADN. Por exemplo, um único gene pode ser duplicado para gerar uma família multi-gene, e uma família multi-gene pode ser duplicada para criar uma família supergene. Terceiro, as máquinas moleculares podem ser montadas em hierarquias estruturais através de um processo de montagem ordenado. Um exemplo disso é o aparelho básico de transcrição que envolve o recrutamento passo a passo de fatores e enzimas que, em última instância, conduzirão à expressão específica de um determinado gene. Um segundo exemplo é fornecido pelo ribossomo, o complexo que traduz RNA em proteínas, que é montado a partir de mais de 50 proteínas diferentes e algumas moléculas de RNA. Finalmente, uma hierarquia informacional descreve o fluxo de informação de um gene para o ambiente: gene → RNA → proteína → interações proteicas → complexos proteicos → redes de complexos proteicos em uma célula → tecidos ou órgãos → organismos individuais → populações → ecossistemas. Em cada nível sucessivamente superior na hierarquia informacional, a informação pode ser adicionada ou alterada para qualquer elemento (por exemplo, por emendas alternativas de RNA ou modificação de proteínas).

Abordagens de sistemas para biologia

Humans começam a vida como uma única célula – o óvulo fertilizado – e se desenvolvem em um adulto com trilhões de células e milhares de tipos de células. Este processo utiliza dois tipos de informação biológica: a informação digital do genoma, e a informação ambiental, como as concentrações metabólicas, sinais secretados ou de superfície celular de outras células ou gradientes químicos. A informação ambiental é de dois tipos distintos: informação determinística onde as consequências dos sinais são essencialmente predeterminadas, e informação estocástica onde o acaso dita o resultado.

Random, ou estocástica, os sinais podem gerar ruído significativo em sistemas biológicos, mas é apenas em casos especiais que o ruído é convertido em sinais. Por exemplo, os eventos estocásticos governam muitos dos mecanismos genéticos responsáveis pela geração da diversidade de anticorpos. Na resposta imunológica, as células B que produzem anticorpos que se ligam firmemente ao antígeno (ou seja, aquelas com afinidades elevadas) sofrem uma expansão em número proporcional à força da afinidade dos anticorpos (ver artigo neste número de Nossal, página 440). Assim, o sinal (alta afinidade) distingue-se do ruído (baixa afinidade). Além disso, altos níveis de mutação nas células B causam diversificação específica dos genes de anticorpos na presença de antígeno e permitem que a afinidade aumente ainda mais. As células portadoras dos genes de anticorpos de maior afinidade são então preferencialmente selecionadas para sobrevivência e proliferação.

A questão chave é o que e quanto sinal emerge do ruído. A análise dos eventos estocásticos e a diferenciação entre sinal e ruído será um desafio futuro para a biologia contemporânea. A resposta imunológica tem sido estudada há mais de 100 anos, mas ainda temos apenas uma compreensão parcial das propriedades de seus sistemas, como a resposta imunológica e a tolerância (a falta de resposta às próprias células). Isto porque até recentemente os imunologistas têm sido capazes de estudar este complexo sistema apenas um gene ou uma proteína de cada vez.

A abordagem sistêmica permite o estudo de todos os elementos de um sistema em resposta a perturbações genéticas (digitais) ou ambientais. Análises quantitativas globais de informações biológicas de diferentes níveis fornecem, cada uma, novos insights sobre o funcionamento do sistema; portanto, as informações no maior número possível de níveis devem ser capturadas, integradas e, em última instância, modeladas matematicamente. O modelo deve explicar as propriedades do sistema e estabelecer uma estrutura que nos permita redesenhar o sistema de uma forma racional para gerar novas propriedades emergentes.

Sistemas transversais foram explorados com sucesso. A utilização da galactose de açúcar em leveduras foi analisada através de perturbações genéticas (inativação de genes) e quatro níveis de informação foram coletados – concentrações de RNA e proteína, assim como interações proteína-proteína e proteína-DNA17. Usando uma abordagem de sistemas iterativos e integradores, novos conhecimentos sobre a regulação do uso da galactose foram obtidos. Além disso, as relações da rede reguladora da galactose com outros módulos da célula de levedura também foram delineadas. Da mesma forma, as abordagens de sistemas para o desenvolvimento embrionário precoce no ouriço-do-mar delinearam uma rede reguladora que tem um poder preditivo significativo16 (Fig. 2). Finalmente, as abordagens de sistemas para o metabolismo em um halobactéria arqueal (um organismo que prospera em soluções salinas até cinco molares, como o Mar Morto) revelaram novos conhecimentos sobre as inter-relações entre vários módulos que controlam a produção de energia na célula18,

O estudo da biologia celular e do organismo usando a abordagem de sistemas está no seu início. Ele exigirá equipes integradas de cientistas de várias disciplinas – biólogos, químicos, cientistas da computação, engenheiros, matemáticos e físicos. São necessários novos métodos para a aquisição e análise de dados biológicos de alto rendimento. Uma poderosa infra-estrutura computacional deve ser aproveitada para gerar abordagens mais eficazes para a captura, armazenamento, análise, integração, exibição gráfica e formulação matemática da complexidade biológica. Novas tecnologias devem ser integradas umas com as outras. Finalmente, a ciência orientada por hipóteses e a ciência da descoberta devem ser integradas. Em suma, tanto a nova ciência quanto a tecnologia devem emergir para que a abordagem da biologia de sistemas realize sua promessa. Uma mudança cultural nas ciências biológicas é necessária e a educação e treinamento da próxima geração de biólogos exigirá uma reforma significativa.

Gordon Moore, o fundador da Intel, previu que o número de transistores que poderiam ser colocados em um chip de computador dobraria a cada 18 meses. Há mais de 30 anos. Este crescimento exponencial tem sido um motor para o crescimento explosivo da tecnologia da informação. Da mesma forma, a quantidade de informação da seqüência de DNA disponível para a comunidade científica está seguindo um aumento exponencial semelhante, talvez até mais acentuado. A questão crítica é como a informação da sequência pode ser convertida em conhecimento do organismo e como a biologia irá mudar como resultado. Acreditamos que uma abordagem sistêmica da biologia é a chave. É claro, porém, que essa abordagem apresenta desafios significativos, tanto científicos quanto culturais19. A descoberta da estrutura do DNA nos iniciou nesta jornada, cujo fim será a grande unificação das ciências biológicas na visão emergente e baseada em informações da biologia.

admin

Deixe uma resposta

O seu endereço de email não será publicado.

lg