“Ogni cellula vivente porta con sé le esperienze di un miliardo di anni di sperimentazione dei suoi antenati.” Max Delbruck, 1949.
La scoperta della doppia elica nel 1953 ha immediatamente sollevato domande su come l’informazione biologica è codificata nel DNA1. Una caratteristica notevole della struttura è che il DNA può ospitare quasi ogni sequenza di coppie di basi – qualsiasi combinazione delle basi adenina (A), citosina (C), guanina (G) e timina (T) – e, quindi, qualsiasi messaggio o informazione digitale. Durante il decennio successivo si scoprì che ogni gene codifica una trascrizione di RNA complementare, chiamata RNA messaggero (mRNA)2, composta da A, C, G e uracile (U), invece di T. Le quattro basi degli alfabeti di DNA e RNA sono collegate ai 20 aminoacidi dell’alfabeto proteico da un codice a terzine – ogni tre lettere (o ‘codoni’) in un gene codifica un aminoacido3. Per esempio, AGT codifica l’aminoacido serina. Il dizionario delle lettere del DNA che compongono gli aminoacidi è chiamato codice genetico4. Ci sono 64 diverse triplette o codoni, 61 dei quali codificano un aminoacido (diverse triplette possono codificare lo stesso aminoacido), e tre dei quali sono usati per la ‘punteggiatura’ in quanto segnalano la fine della catena proteica in crescita.
Il complementare molecolare della doppia elica – per cui ogni base su un filamento di DNA si accoppia con la sua base complementare sul filamento partner (A con T, e C con G) – ha profonde implicazioni per la biologia. Come suggerito da James Watson e Francis Crick nel loro storico articolo1, l’accoppiamento delle basi suggerisce un meccanismo di copia del modello che spiega la fedeltà nella copia del materiale genetico durante la replicazione del DNA (vedi articolo di Alberts in questo numero, pagina 431). È anche alla base della sintesi dell’mRNA dal modello del DNA, così come dei processi di riparazione del DNA danneggiato (discusso da Friedberg, pagina 436).
Strumenti per modificare il DNA
Gli enzimi che funzionano nelle cellule per copiare, tagliare e unire le molecole di DNA sono stati anche sfruttati come strumenti chiave per nuove tecniche rivoluzionarie in biologia molecolare, compresa la clonazione dei geni e l’espressione delle loro proteine, e la mappatura della posizione dei geni sui cromosomi. La capacità di ricreare artificialmente in laboratorio il processo di replicazione del DNA ha portato allo sviluppo di due tecniche che hanno trasformato la biologia: un metodo manuale di sequenziamento del DNA nel 1975 e, nel 1985, la scoperta della reazione a catena della polimerasi (PCR), grazie alla quale le sequenze di DNA potevano essere amplificate di un milione di volte o più5.
Anche se il sequenziamento e la PCR hanno trasformato la scienza della biologia, hanno avuto ampie applicazioni per la medicina e la medicina legale. Il rilevamento di variazioni nella sequenza del DNA da un individuo all’altro – i cosiddetti “polimorfismi” – costituisce la base del “finger-printing” del DNA degli individui. La medicina legale usa queste impronte per affrontare le dispute sulla paternità, così come i casi criminali come lo stupro. La scoperta che molti polimorfismi specifici del DNA sono associati alla malattia o alla suscettibilità alla malattia ha portato la diagnostica del DNA alla medicina e ha aperto la strada alla vera medicina predittiva, dove i rischi della malattia possono essere identificati in anticipo rispetto ai sintomi (vedi l’articolo di Bell in questo numero, pagina 414).
Sequenziamento automatizzato del DNA
I primi sforzi per sequenziare il DNA, pionieri di Walter Gilbert6 e Fred Sanger7 negli anni 70, decodificarono tratti di DNA lunghi poche centinaia di basi. Quando il primo genoma completo fu sequenziato in un periodo di circa un anno nel 1977-78 – quello di un genoma virale di circa 5.000 basi8 – divenne chiaro che i dati sulla sequenza del DNA potevano fornire intuizioni uniche sulla struttura e la funzione dei geni, così come sull’organizzazione del genoma. È stato questo potenziale di generare grandi quantità di informazioni su un organismo dal suo codice genetico che ha ispirato gli sforzi verso l’automazione del sequenziamento del DNA (Fig. 1).
La combinazione di magia tecnica e automazione intensiva nel decennio successivo ha lanciato l'”era genomica”. Una serie di nuovi strumenti ha permesso nuovi approcci all’analisi biologica9,10,11. La prima macchina di sequenziamento – inventata da Leroy Hood, Lloyd Smith e Mike Hunkapiller nel 1986 (rif. 12) – era automatizzata nell’acquisizione dei dati, ma richiedeva ancora una notevole attenzione manuale e la velocità di sequenziamento era bassa, circa 250 basi al giorno. Nei dieci anni successivi, lo sviluppo del sequenziamento automatizzato del DNA ha accelerato, passando rapidamente attraverso tre fasi distinte: il prototipo della macchina di sequenziamento (1986); uno strumento robusto che poteva essere usato di routine in un laboratorio standard (1989); e infine, una macchina che faceva parte di una linea di produzione integrata simile a quella di una fabbrica in cui la preparazione e il sequenziamento del campione di DNA erano tutti completamente automatizzati (1998). I progressi nella capacità di sequenziamento sono stati impressionanti – le ultime macchine di sequenziamento sono in grado di decodificare circa 1,5 milioni di basi in 24 ore – 6.000 volte il rendimento del prototipo.
Gli obiettivi della strumentazione biologica ad alto rendimento sono di aumentare il rendimento, migliorare la qualità dei dati e ridurre notevolmente il costo delle informazioni acquisite per unità. Per raggiungere questi obiettivi in futuro, la miniaturizzazione, l’automazione, la parallelizzazione e l’integrazione delle procedure successive spingeranno la tecnologia di sequenziamento del DNA nel regno della microfluidica e della microelettronica, e infine nell’area della nanotecnologia. Con il sequenziamento di singole molecole di DNA, prevediamo un tempo in cui l’intero genoma di un individuo potrebbe essere sequenziato in un solo giorno a un costo inferiore a 10.000 dollari (rispetto ai 50 milioni di dollari o più che costerebbe oggi). Questo permetterà facilmente la decodifica della sequenza genomica di qualsiasi organismo sul pianeta e fornirà un accesso senza precedenti ai fondamenti della biologia e allo studio della variabilità genetica umana.
Il Progetto Genoma Umano
La velocità mozzafiato a cui si è sviluppato il sequenziamento automatizzato del DNA è stata in gran parte stimolata dalle esigenze di produttività del Progetto Genoma Umano (HGP), che è iniziato ufficialmente nel 1990 dopo discussioni e studi sulla fattibilità e la tecnologia che ha iniziato sul serio nel 1985. Gli obiettivi dell’HGP erano di generare una sequenza finita in 15 anni13, ma una bozza della sequenza del genoma umano era disponibile nel 2001. Due versioni della bozza sono state generate e pubblicate nel 2001, una dall’International Human Genome Sequencing Consortium14, finanziato con fondi pubblici, e un’altra dalla società di biotecnologie Celera15 (Box 1). Nel processo di sviluppo degli strumenti e della metodologia per poter sequenziare e assemblare i 3 miliardi di basi del genoma umano, è stata sequenziata una serie di genomi di piante, animali e microbi e molti altri sono attualmente in fase di decodifica. Man mano che le sequenze dei genomi diventano disponibili, diverse aree della biologia vengono trasformate – per esempio, la disciplina della microbiologia è cambiata significativamente con il completamento di più di 100 sequenze di genomi batterici negli ultimi dieci anni.
L’HGP ha influenzato profondamente la biologia sotto due aspetti. In primo luogo, ha illustrato il concetto di ‘discovery science’ – l’idea che tutti gli elementi del sistema (cioè la sequenza completa del genoma e l’intera produzione di RNA e proteine codificate dal genoma) possono essere definiti, archiviati in un database e resi disponibili per facilitare la scienza guidata da ipotesi e analisi globali. In secondo luogo, per avere successo, l’HGP ha spinto lo sviluppo di un efficiente sequenziamento del DNA su larga scala e, contemporaneamente, ha spinto la creazione di strumenti ad alta produttività (per esempio, array di DNA e spettrometria di massa) per l’analisi di altri tipi di informazioni biologiche correlate, come mRNA, proteine e interazioni molecolari.
La natura digitale dell’informazione biologica
Il valore di avere un’intera sequenza del genoma è che si può iniziare lo studio di un sistema biologico con un nucleo digitale di informazioni precisamente definibile per quell’organismo – un codice sorgente genetico completamente delineato. La sfida, quindi, sta nel decifrare quali informazioni sono codificate all’interno del codice digitale. Il genoma codifica due tipi principali di informazioni digitali – i geni che codificano le macchine molecolari di proteine e RNA della vita, e le reti di regolazione che specificano come questi geni sono espressi nel tempo, nello spazio e nell’ampiezza.
È l’evoluzione delle reti di regolazione e non i geni stessi che giocano il ruolo critico nel rendere gli organismi diversi gli uni dagli altri. L’informazione digitale nei genomi opera attraverso tre diversi intervalli di tempo: evoluzione (da decine a milioni di anni), sviluppo (da ore a decine di anni) e fisiologia (da millisecondi a settimane). Lo sviluppo è l’elaborazione di un organismo da una singola cellula (l’uovo fecondato) a un adulto (per gli esseri umani si tratta di 1014 cellule di migliaia di tipi diversi). La fisiologia è l’innesco di specifici programmi funzionali (per esempio, la risposta immunitaria) da spunti ambientali. Le reti di regolazione sono cruciali in ognuno di questi aspetti della biologia.
Le reti di regolazione sono composte da due tipi principali di componenti: i fattori di trascrizione e i siti del DNA a cui si legano nelle regioni di controllo dei geni, come promotori, potenziatori e silenziatori. Le regioni di controllo dei singoli geni servono come processori di informazioni per integrare le informazioni inerenti alle concentrazioni dei diversi fattori di trascrizione in segnali che mediano l’espressione genica. L’insieme dei fattori di trascrizione e dei loro siti cognitivi di legame al DNA nelle regioni di controllo dei geni che svolgono una particolare funzione di sviluppo o fisiologica costituiscono queste reti di regolazione (Fig. 2).
Perché la maggior parte degli organismi “superiori” o eucarioti (organismi che contengono il loro DNA in un compartimento cellulare chiamato nucleo), come il lievito, le mosche e gli esseri umani, hanno prevalentemente le stesse famiglie di geni, è la riorganizzazione dei siti di legame al DNA nelle regioni di controllo dei geni che media i cambiamenti nei programmi di sviluppo che distinguono una specie dall’altra. Così, le reti di regolazione sono specificate in modo unico dai loro siti di legame al DNA e, di conseguenza, sono fondamentalmente di natura digitale.
Una cosa che colpisce delle reti di regolazione digitali è che possono cambiare significativamente in brevi periodi di tempo evolutivo. Questo si riflette, per esempio, nell’enorme diversità dei piani corporei, controllati da reti di regolazione genica, che sono emersi in forse 10-30 milioni di anni durante l’esplosione cambriana degli organismi metazoi (circa 550 milioni di anni fa). Allo stesso modo, si sono verificati notevoli cambiamenti nelle reti di regolazione che hanno guidato lo sviluppo del cervello umano durante la sua divergenza dal suo antenato comune con gli scimpanzé circa 6 milioni di anni fa.
La biologia ha sviluppato diversi tipi di gerarchie informative. In primo luogo, una gerarchia normativa è una rete genica che definisce le relazioni di un insieme di fattori di trascrizione, i loro siti di legame al DNA e i geni periferici a valle che controllano collettivamente un particolare aspetto dello sviluppo. Un modello di sviluppo nel riccio di mare rappresenta un esempio lampante16 (Fig. 2). In secondo luogo, una gerarchia evolutiva definisce un insieme di relazioni, derivanti dalla duplicazione del DNA. Per esempio, un singolo gene può essere duplicato per generare una famiglia multi-gene, e una famiglia multi-gene può essere duplicata per creare una famiglia supergene. In terzo luogo, le macchine molecolari possono essere assemblate in gerarchie strutturali da un processo di assemblaggio ordinato. Un esempio di questo è l’apparato di trascrizione di base che comporta il reclutamento passo dopo passo di fattori ed enzimi che alla fine guideranno l’espressione specifica di un dato gene. Un secondo esempio è fornito dal ribosoma, il complesso che traduce l’RNA in proteine, che è assemblato da più di 50 diverse proteine e alcune molecole di RNA. Infine, una gerarchia informativa descrive il flusso di informazioni da un gene all’ambiente: gene → RNA → proteina → interazioni proteiche → complessi proteici → reti di complessi proteici in una cellula → tessuti o organi → singoli organismi → popolazioni → ecosistemi. Ad ogni livello successivamente più alto nella gerarchia informativa, l’informazione può essere aggiunta o alterata per ogni dato elemento (per esempio, tramite splicing alternativo dell’RNA o modifica della proteina).
Approcci sistemici alla biologia
L’uomo inizia la vita come una singola cellula – l’uovo fecondato – e si sviluppa in un adulto con trilioni di cellule e migliaia di tipi di cellule. Questo processo utilizza due tipi di informazioni biologiche: le informazioni digitali del genoma e le informazioni ambientali, come le concentrazioni di metaboliti, i segnali secreti o sulla superficie cellulare da altre cellule o i gradienti chimici. Le informazioni ambientali sono di due tipi distinti: informazione deterministica, dove le conseguenze dei segnali sono essenzialmente predeterminate, e informazione stocastica, dove il caso detta il risultato.
I segnali casuali, o stocastici, possono generare un rumore significativo nei sistemi biologici, ma è solo in casi speciali che il rumore viene convertito in segnali. Per esempio, gli eventi stocastici governano molti dei meccanismi genetici responsabili della generazione della diversità anticorpale. Nella risposta immunitaria, le cellule B che producono anticorpi che si legano strettamente all’antigene (cioè quelle che hanno un’alta affinità) subiscono un’espansione del numero che è proporzionale alla forza dell’affinità anticorpale (vedi articolo di Nossal in questo numero, pagina 440). Quindi, il segnale (alta affinità) si distingue dal rumore (bassa affinità). Inoltre, alti livelli di mutazione nelle cellule B causano una diversificazione specifica dei geni dell’anticorpo in presenza di antigene e permettono di aumentare ancora di più l’affinità. Le cellule che portano i geni di anticorpi a più alta affinità sono quindi selezionate preferenzialmente per la sopravvivenza e la proliferazione.
La domanda chiave è quale e quanto segnale emerge dal rumore. L’analisi degli eventi stocastici e la differenziazione tra segnale e rumore sarà una sfida futura per la biologia contemporanea. La risposta immunitaria è stata studiata per più di 100 anni, eppure abbiamo ancora una comprensione solo parziale delle proprietà dei suoi sistemi, come la risposta immunitaria e la tolleranza (la non risposta alle proprie cellule). Questo perché fino a poco tempo fa gli immunologi hanno potuto studiare questo sistema complesso solo un gene o una proteina alla volta.
L’approccio sistemico permette lo studio di tutti gli elementi di un sistema in risposta a perturbazioni genetiche (digitali) o ambientali. Le analisi quantitative globali delle informazioni biologiche da diversi livelli forniscono ciascuna nuove intuizioni sul funzionamento del sistema; quindi, le informazioni a quanti più livelli possibili devono essere catturate, integrate e, infine, modellate matematicamente. Il modello dovrebbe spiegare le proprietà del sistema e stabilire un quadro che ci permetta di riprogettare il sistema in modo razionale per generare nuove proprietà emergenti.
Diversi sistemi sono stati esplorati con successo. L’utilizzo dello zucchero galattosio nel lievito è stato analizzato usando perturbazioni genetiche (inattivazione di geni) e sono stati raccolti quattro livelli di informazioni – concentrazioni di RNA e proteine, nonché interazioni proteina-proteina e proteina-DNA17. Utilizzando un approccio iterativo e integrativo dei sistemi, sono state acquisite nuove conoscenze sulla regolazione dell’uso del galattosio. Inoltre, sono state delineate anche le relazioni della rete di regolazione del galattosio con altri moduli nella cellula di lievito. Allo stesso modo, gli approcci dei sistemi allo sviluppo embrionale precoce nel riccio di mare hanno delineato una rete di regolazione che ha un significativo potere predittivo16 (Fig. 2). Infine, gli approcci sistemici al metabolismo in un alobatterio arcaico (un organismo che prospera in soluzioni saline fino a cinque molari, come il Mar Morto) hanno rivelato nuove intuizioni sulle interrelazioni tra diversi moduli che controllano la produzione di energia nella cellula18.
Lo studio della biologia cellulare e organica usando l’approccio sistemico è al suo inizio. Richiederà team integrati di scienziati di diverse discipline – biologi, chimici, informatici, ingegneri, matematici e fisici. Sono necessari nuovi metodi per acquisire e analizzare dati biologici ad alta produttività. Una potente infrastruttura computazionale deve essere sfruttata per generare approcci più efficaci alla cattura, memorizzazione, analisi, integrazione, visualizzazione grafica e formulazione matematica della complessità biologica. Le nuove tecnologie devono essere integrate tra loro. Infine, la scienza guidata dall’ipotesi e la scienza della scoperta devono essere integrate. In breve, sia la nuova scienza che la nuova tecnologia devono emergere affinché l’approccio della biologia dei sistemi realizzi la sua promessa. È necessario un cambiamento culturale nelle scienze biologiche, e l’educazione e la formazione della prossima generazione di biologi richiederà una riforma significativa.
Gordon Moore, il fondatore di Intel, aveva previsto che il numero di transistor che potevano essere messi su un chip di computer sarebbe raddoppiato ogni 18 mesi. È stato così per più di 30 anni. Questa crescita esponenziale è stata il motore della crescita esplosiva della tecnologia dell’informazione. Allo stesso modo, la quantità di informazioni sulla sequenza del DNA disponibili per la comunità scientifica sta seguendo un aumento esponenziale simile, forse anche più ripido. Il problema critico è come le informazioni sulle sequenze possano essere convertite in conoscenza dell’organismo e come la biologia cambierà di conseguenza. Noi crediamo che un approccio sistemico alla biologia sia la chiave. È chiaro, tuttavia, che questo approccio pone sfide significative, sia scientifiche che culturali19. La scoperta della struttura del DNA ci ha avviato in questo viaggio, la cui fine sarà la grande unificazione delle scienze biologiche nell’emergente visione della biologia basata sull’informazione.