„Orice celulă vie poartă cu ea experiențele unui miliard de ani de experimente ale strămoșilor săi.” Max Delbruck, 1949.

Descoperirea dublei elice în 1953 a ridicat imediat întrebări cu privire la modul în care informația biologică este codificată în ADN1. O caracteristică remarcabilă a structurii este că ADN-ul poate găzdui aproape orice secvență de perechi de baze – orice combinație a bazelor adenină (A), citosină (C), guanină (G) și timină (T) – și, prin urmare, orice mesaj sau informație digitală. În deceniul următor s-a descoperit că fiecare genă codifică un transcript complementar de ARN, numit ARN mesager (ARNm)2, alcătuit din A, C, G și uracil (U), în loc de T. Cele patru baze ale alfabetului ADN și ARN sunt legate de cei 20 de aminoacizi din alfabetul proteinelor printr-un cod de triplete – fiecare trei litere (sau „codoni”) dintr-o genă codifică un aminoacid3. De exemplu, AGT codifică aminoacidul serină. Dicționarul de litere din ADN care alcătuiesc aminoacizii se numește cod genetic4. Există 64 de triplete sau codoni diferiți, dintre care 61 codifică un aminoacid (triplete diferite pot codifica același aminoacid), iar trei dintre aceștia sunt folosiți pentru „punctuație”, în sensul că semnalează terminarea lanțului proteic în creștere.

Complementarul molecular al dublei helixuri – prin care fiecare bază de pe un fir de ADN se împerechează cu baza sa complementară de pe firul partener (A cu T și C cu G) – are implicații profunde pentru biologie. Așa cum au sugerat James Watson și Francis Crick în lucrarea lor de referință1, împerecherea bazelor sugerează un mecanism de copiere a șabloanelor care explică fidelitatea în copierea materialului genetic în timpul replicării ADN-ului (a se vedea articolul lui Alberts din acest număr, pagina 431). De asemenea, stă la baza sintezei ARNm din șablonul ADN, precum și a proceselor de reparare a ADN-ului deteriorat (discutat de Friedberg, pagina 436).

Instrumente de modificare a ADN-ului

Enzimele care funcționează în celule pentru a copia, tăia și îmbina moleculele de ADN au fost, de asemenea, exploatate ca instrumente cheie pentru noi tehnici revoluționare în biologia moleculară, inclusiv clonarea genelor și exprimarea proteinelor acestora, precum și cartografierea locației genelor pe cromozomi. Capacitatea de a recrea procesul de replicare a ADN-ului în mod artificial în laborator a dus la dezvoltarea a două tehnici care au transformat biologia: o metodă manuală de secvențiere a ADN-ului în 1975 și, în 1985, descoperirea reacției în lanț a polimerazei (PCR), prin care secvențele de ADN pot fi amplificate de un milion de ori sau mai mult5.

Deși secvențierea și PCR au transformat știința biologiei, ele au avut, de asemenea, aplicații largi pentru medicină și criminalistică. Detectarea variațiilor în secvența ADN de la un individ la altul – așa-numitele „polimorfisme” – constituie baza „amprentării” ADN a indivizilor. Criminalistica folosește aceste amprente pentru a soluționa disputele de paternitate, precum și cazurile penale, cum ar fi violul. Descoperirea faptului că multe polimorfisme specifice ale ADN-ului sunt asociate cu boli sau cu susceptibilitatea la boli a adus diagnosticarea ADN-ului în medicină și a deschis calea către o medicină cu adevărat predictivă, în care riscurile de îmbolnăvire pot fi identificate înainte de apariția simptomelor (a se vedea articolul lui Bell din acest număr, pagina 414).

Secvențierea automată a ADN-ului

Primele eforturi de secvențiere a ADN-ului, inițiate de Walter Gilbert6 și Fred Sanger7 în anii 1970, au decodificat porțiuni de ADN cu o lungime de câteva sute de baze. Atunci când primul genom complet a fost secvențiat pe o perioadă de aproximativ un an în 1977-78 – cel al unui genom viral de aproximativ 5.000 de baze8 – a devenit clar că datele secvențialității ADN ar putea oferi informații unice despre structura și funcția genelor, precum și despre organizarea genomului. Acest potențial de a genera cantități uriașe de informații despre un organism pornind de la codul său genetic a fost cel care a inspirat eforturile de automatizare a secvențierii ADN-ului (Fig. 1).

Figura 1: Cum se secvențiază ADN.

a, ADN polimeraza copiază un șir de ADN. b, Inserarea unei baze terminator în șirul în creștere oprește procesul de copiere. Acesta este un eveniment aleatoriu care are ca rezultat o serie de fragmente de diferite lungimi, în funcție de baza la care s-a oprit copierea. Fragmentele sunt separate în funcție de dimensiune, trecându-le printr-o matrice de gel, cu cele mai scurte fragmente în partea de jos și cele mai mari în partea de sus. c, Terminatorii sunt marcați cu diferiți coloranți fluorescenți, astfel încât fiecare fragment va avea o anumită culoare, în funcție de faptul că se termină cu o bază A, C, G sau T. d, Secvența este „citită” de un computer. Acesta generează o „urmă a secvenței”, așa cum se arată aici, cu vârfurile colorate care corespund benzilor fluorescente citite de jos în sus de pe o bandă a gelului. Calculatorul traduce aceste semnale fluorescente în secvență de ADN, așa cum este ilustrat în partea de sus a graficului. Imagine adaptată din ref. 20.

Combinația dintre expertiza tehnică și automatizarea intensivă din deceniul care a urmat a lansat „era genomică”. O serie de instrumente noi au permis noi abordări ale analizei biologice9,10,11. Prima mașină de secvențiere – inventată de Leroy Hood, Lloyd Smith și Mike Hunkapiller în 1986 (ref. 12) – era automatizată în ceea ce privește achiziția de date, dar necesita totuși o atenție manuală substanțială, iar rata de secvențiere era scăzută, aproximativ 250 de baze pe zi. În următorii zece ani, dezvoltarea secvențierea automată a ADN-ului s-a accelerat, trecând rapid prin trei etape distincte: prototipul mașinii de secvențiere (1986); un instrument robust care putea fi utilizat în mod curent într-un laborator standard (1989); și, în cele din urmă, o mașină care făcea parte dintr-o linie de producție integrată, asemănătoare unei fabrici, în care pregătirea probelor de ADN și secvențierea erau toate complet automatizate (1998). Progresele în ceea ce privește capacitatea de secvențiere au fost izbitoare – cele mai recente mașini de secvențiere sunt capabile să decodifice aproximativ 1,5 milioane de baze în 24 de ore – de 6.000 de ori mai mult decât debitul prototipului.

Obiectivele instrumentarului biologic de mare capacitate sunt creșterea debitului, îmbunătățirea calității datelor și reducerea considerabilă a costului pe unitate de informație dobândită. Pentru a atinge aceste obiective în viitor, miniaturizarea, automatizarea, paralelizarea și integrarea procedurilor succesive vor propulsa tehnologia de secvențiere a ADN-ului pe tărâmul microfluidicii și al microelectronicii și, în cele din urmă, în domeniul nanotehnologiei. Cu secvențierea cu o singură moleculă de ADN, preconizăm un moment în care întregul genom al unui individ ar putea fi secvențiat într-o singură zi la un cost mai mic de 10.000 de dolari SUA (în comparație cu cele 50 de milioane de dolari sau mai mult pe care le-ar costa astăzi). Acest lucru va permite cu ușurință decodarea secvenței genomice a practic oricărui organism de pe planetă și va oferi un acces fără precedent la bazele biologiei și la studiul variabilității genetice umane.

Proiectul Genomului Uman

Viteza uluitoare cu care s-a dezvoltat secvențierea automată a ADN-ului a fost stimulată în mare măsură de cerințele de randament ale Proiectului Genomului Uman (HGP), care a început oficial în 1990, în urma unor discuții și studii privind fezabilitatea și tehnologia care au început serios în 1985. Obiectivele HGP erau de a genera o secvență finalizată în 15 ani13 , dar un proiect al secvenței genomului uman a fost disponibil în 2001. Două versiuni ale proiectului au fost generate și publicate în 2001, una de către International Human Genome Sequencing Consortium14 , finanțat din fonduri publice, și alta de către compania de biotehnologie Celera15 (Caseta 1). În procesul de dezvoltare a instrumentelor și metodologiei pentru a putea secvenția și asambla cele 3 miliarde de baze ale genomului uman, au fost secvențiate o serie de genomuri vegetale, animale și microbiene și multe altele sunt în curs de decodificare. Pe măsură ce secvențele de genom devin disponibile, diferite domenii ale biologiei sunt transformate – de exemplu, disciplina microbiologiei s-a schimbat semnificativ odată cu finalizarea a peste 100 de secvențe de genomuri bacteriene în ultimul deceniu.

HGP a influențat profund biologia din două puncte de vedere. În primul rând, a ilustrat conceptul de „știință a descoperirii” – ideea că toate elementele sistemului (adică secvența completă a genomului și întreaga producție de ARN și proteine codificate de genom) pot fi definite, arhivate într-o bază de date și puse la dispoziție pentru a facilita știința bazată pe ipoteze și analizele globale. În al doilea rând, pentru a reuși, HGP a impulsionat dezvoltarea unei secvențieri eficiente a ADN-ului pe scară largă și, simultan, a condus la crearea de instrumente de mare randament (de exemplu, matrice de ADN și spectrometrie de masă) pentru analiza altor tipuri de informații biologice conexe, cum ar fi ARNm, proteine și interacțiuni moleculare.

Natura digitală a informației biologice

Valoarea de a avea o secvență completă a genomului este aceea că se poate iniția studiul unui sistem biologic cu un nucleu digital precis definibil de informații pentru acel organism – un cod sursă genetic complet delimitat. Provocarea constă, așadar, în descifrarea informațiilor care sunt codificate în cadrul codului digital. Genomul codifică două tipuri principale de informații digitale – genele care codifică mașinăriile moleculare de proteine și ARN ale vieții și rețelele de reglementare care specifică modul în care aceste gene sunt exprimate în timp, spațiu și amplitudine.

Evoluția rețelelor de reglementare, și nu genele în sine, este cea care joacă rolul critic în a face ca organismele să fie diferite unele de altele. Informația digitală din genomuri operează pe trei intervale de timp diferite: evoluția (de la zeci la milioane de ani), dezvoltarea (de la ore la zeci de ani) și fiziologia (de la milisecunde la săptămâni). Dezvoltarea este elaborarea unui organism de la o singură celulă (ovulul fecundat) la un adult (pentru oameni, aceasta reprezintă 1014 celule de mii de tipuri diferite). Fiziologia reprezintă declanșarea unor programe funcționale specifice (de exemplu, răspunsul imunitar) prin indicii de mediu. Rețelele de reglementare sunt cruciale în fiecare dintre aceste aspecte ale biologiei.

Rețelele de reglementare sunt compuse din două tipuri principale de componente: factorii de transcripție și situsurile de ADN la care se leagă în regiunile de control ale genelor, cum ar fi promotorii, amelioratorii și silențiatorii. Regiunile de control ale genelor individuale servesc drept procesoare de informații pentru a integra informațiile inerente concentrațiilor diferiților factori de transcripție în semnale care mediază expresia genelor. Ansamblul factorilor de transcripție și situsurile de legare la ADN cognate ale acestora din regiunile de control ale genelor care îndeplinesc o anumită funcție fiziologică sau de dezvoltare constituie aceste rețele de reglementare (Fig. 2).

Figura 2: O rețea de reglementare genetică implicată în dezvoltarea ariciului de mare16.

a, O parte a rețelei de factori de transcripție și interacțiunile lor cu regiunile de control ale altor factori de transcripție. Genele sunt indicate prin linii orizontale; vârfurile de săgeată indică activarea; simbolurile „⊥” indică represiunea genei. b, O extindere a regiunii promotoare a unei gene, numită endo 16, care ajută la modularea dezvoltării endodermului. Aceasta conține 34 de situsuri de legare (dreptunghiuri) pentru 13 factori de transcripție și cofactori diferiți (ilustrați sub formă de dreptunghiuri sau, respectiv, acadele). Șase module (A-G) de factori de transcripție și situsuri de legare îndeplinesc funcții discrete pentru a regla dezvoltarea endo 16. c, Diagramă care descrie structurile logice ale circuitelor de control A și B în timpul dezvoltării ariciului de mare.

Pentru că majoritatea organismelor „superioare” sau eucariote (organisme care își conțin ADN-ul într-un compartiment celular numit nucleu), cum ar fi drojdia, muștele și oamenii, au predominant aceleași familii de gene, reorganizarea situsurilor de legare a ADN-ului în regiunile de control ale genelor este cea care mediază schimbările în programele de dezvoltare care disting o specie de alta. Astfel, rețelele de reglare sunt specificate în mod unic prin situsurile lor de legare la ADN și, în consecință, sunt, în esență, de natură digitală.

Un lucru izbitor la rețelele de reglare digitale este că acestea se pot schimba semnificativ în perioade scurte de timp evolutiv. Acest lucru se reflectă, de exemplu, în diversitatea uriașă a planurilor corporale, controlate de rețelele de reglementare genetică, care au apărut în decurs de poate 10-30 de milioane de ani în timpul exploziei cambriene a organismelor metazoare (în urmă cu aproximativ 550 de milioane de ani). De asemenea, au avut loc schimbări remarcabile în rețelele de reglementare care conduc dezvoltarea creierului uman în timpul divergenței acestuia de la strămoșul său comun cu cimpanzeii, în urmă cu aproximativ 6 milioane de ani.

Biologia a evoluat mai multe tipuri diferite de ierarhii informaționale. În primul rând, o ierarhie de reglementare este o rețea de gene care definește relațiile dintre un set de factori de transcripție, site-urile lor de legare la ADN și genele periferice din aval care controlează în mod colectiv un anumit aspect al dezvoltării. Un model de dezvoltare la ariciul de mare reprezintă un exemplu izbitor16 (Fig. 2). În al doilea rând, o ierarhie evolutivă definește un set de relații de ordine, care rezultă din duplicarea ADN-ului. De exemplu, o singură genă poate fi duplicată pentru a genera o familie de mai multe gene, iar o familie de mai multe gene poate fi duplicată pentru a crea o familie de supergene. În al treilea rând, mașinile moleculare pot fi asamblate în ierarhii structurale printr-un proces de asamblare ordonată. Un exemplu în acest sens este aparatul de transcripție de bază care implică recrutarea pas cu pas a factorilor și enzimelor care, în cele din urmă, vor conduce expresia specifică a unei anumite gene. Un al doilea exemplu este oferit de ribozom, complexul care traduce ARN-ul în proteine, care este asamblat din mai mult de 50 de proteine diferite și câteva molecule de ARN. În cele din urmă, o ierarhie informațională descrie fluxul de informații de la o genă la mediu: genă → ARN → proteină → interacțiuni proteice → complexe proteice → rețele de complexe proteice într-o celulă → țesuturi sau organe → organisme individuale → populații → ecosisteme. La fiecare nivel succesiv superior în ierarhia informațională, informațiile pot fi adăugate sau modificate pentru orice element dat (de exemplu, prin splicing alternativ al ARN-ului sau modificarea proteinelor).

Abordări sistemice ale biologiei

Omul începe viața ca o singură celulă – ovulul fertilizat – și se dezvoltă până la un adult cu trilioane de celule și mii de tipuri de celule. Acest proces utilizează două tipuri de informații biologice: informația digitală a genomului și informațiile de mediu, cum ar fi concentrațiile de metaboliți, semnalele secretate sau de pe suprafața celulară de la alte celule sau gradienții chimici. Informațiile de mediu sunt de două tipuri distincte: informații deterministe, în cazul în care consecințele semnalelor sunt în esență predeterminate, și informații stocastice, în cazul în care șansa dictează rezultatul.

Semnele aleatorii, sau stocastice, pot genera un zgomot semnificativ în sistemele biologice, dar numai în cazuri speciale zgomotul este transformat în semnale. De exemplu, evenimentele stocastice guvernează multe dintre mecanismele genetice responsabile de generarea diversității anticorpilor. În cadrul răspunsului imunitar, acele celule B care produc anticorpi care se leagă strâns de antigen (adică cele care au afinități mari) suferă o expansiune în număr care este proporțională cu puterea afinității anticorpilor (a se vedea articolul lui Nossal din acest număr, pagina 440). Prin urmare, semnalul (afinitate ridicată) se distinge de zgomot (afinitate scăzută). În plus, nivelurile ridicate de mutație în celulele B determină o diversificare specifică a genelor anticorpilor în prezența antigenului și permite ca afinitatea să crească și mai mult. Celulele purtătoare ale genelor de anticorpi cu afinitate mai mare sunt apoi selectate preferențial pentru supraviețuire și proliferare.

Întrebarea cheie este ce și cât de mult semnal se desprinde din zgomot. Analiza evenimentelor stocastice și diferențierea între semnal și zgomot va fi o provocare viitoare pentru biologia contemporană. Răspunsul imunitar a fost studiat timp de peste 100 de ani, dar încă avem doar o înțelegere parțială a proprietăților sistemelor sale, cum ar fi răspunsul imunitar și toleranța (lipsa de reacție la propriile celule). Acest lucru se datorează faptului că, până de curând, imunologii au putut studia acest sistem complex doar câte o genă sau o proteină la un moment dat.

Abordarea sistemică permite studierea tuturor elementelor dintr-un sistem ca răspuns la perturbații genetice (digitale) sau de mediu. Analizele cantitative globale ale informațiilor biologice de la diferite niveluri oferă fiecare noi perspective asupra funcționării sistemului; prin urmare, informațiile de la cât mai multe niveluri posibile trebuie să fie captate, integrate și, în cele din urmă, modelate matematic. Modelul ar trebui să explice proprietățile sistemului și să stabilească un cadru care să ne permită să reproiectăm sistemul într-un mod rațional pentru a genera noi proprietăți emergente.

Au fost explorate cu succes mai multe sisteme. Utilizarea zahărului galactoză în drojdie a fost analizată cu ajutorul perturbațiilor genetice (inactivarea genelor) și au fost colectate patru niveluri de informații – concentrațiile de ARN și de proteine, precum și interacțiunile proteină-proteină și proteină-ADN17. Utilizând o abordare sistemică iterativă și integrativă, au fost obținute noi informații privind reglarea utilizării galactozei. În plus, au fost delimitate și relațiile dintre rețeaua de reglementare a galactozei și alte module din celula de drojdie. De asemenea, abordările sistemice ale dezvoltării embrionare timpurii la ariciul de mare au conturat o rețea de reglementare care are o putere predictivă semnificativă16 (Fig. 2). În cele din urmă, abordările sistemice ale metabolismului la o halobacterie arheală (un organism care prosperă în soluții saline de până la cinci molari, cum ar fi cele din Marea Moartă) au dezvăluit noi perspective asupra interrelațiilor dintre mai multe module care controlează producția de energie în celulă18.

Studiul biologiei celulare și a organismelor folosind abordarea sistemică se află la început. Acesta va necesita echipe integrate de oameni de știință din mai multe discipline – biologi, chimiști, informaticieni, ingineri, matematicieni și fizicieni. Sunt necesare noi metode de achiziție și analiză a datelor biologice de mare capacitate. O infrastructură computațională puternică trebuie să fie valorificată pentru a genera abordări mai eficiente în ceea ce privește capturarea, stocarea, analiza, integrarea, afișarea grafică și formularea matematică a complexității biologice. Noile tehnologii trebuie să fie integrate unele cu altele. În cele din urmă, trebuie să se integreze știința bazată pe ipoteze și știința de descoperire. Pe scurt, trebuie să apară atât noi științe, cât și noi tehnologii pentru ca abordarea biologiei sistemice să își realizeze promisiunea. Este necesară o schimbare culturală în științele biologice, iar educația și formarea următoarei generații de biologi va necesita o reformă semnificativă.

Gordon Moore, fondatorul Intel, a prezis că numărul de tranzistori care pot fi plasați pe un cip de calculator se va dubla la fiecare 18 luni. Acest lucru s-a întâmplat de mai bine de 30 de ani. Această creștere exponențială a fost un motor pentru creșterea explozivă a tehnologiei informației. În mod similar, cantitatea de informații privind secvențele de ADN disponibile pentru comunitatea științifică urmează o creștere exponențială similară, poate chiar mai abruptă. Problema critică este modul în care informațiile privind secvențele pot fi convertite în cunoștințe despre organism și cum se va schimba biologia ca urmare a acestui fapt. Noi credem că o abordare sistemică a biologiei este cheia. Cu toate acestea, este clar că această abordare ridică provocări semnificative, atât științifice, cât și culturale19. Descoperirea structurii ADN-ului ne-a pornit în această călătorie, al cărei final va fi marea unificare a științelor biologice în cadrul unei viziuni emergente a biologiei bazate pe informație.

.

admin

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg