- Un cadru pentru măsurarea scăpării de inactivarea X în celulele unice
- Cantificarea expresiei bialelice din fibroblastele primare cu o singură celulă
- Identificarea evadărilor în fibroblaste primare cu o singură celulă
- Cuantificarea expresiei alelice din limfoblastele fasonate clonal
- Identificarea evadărilor din limfoblastele cu o singură celulă
- Compararea evadaților identificați cu cunoștințele actuale
- LncRNA-urile extind lista de candidate la evadare
- Partiția bazată pe dovezi a genelor evadate
Un cadru pentru măsurarea scăpării de inactivarea X în celulele unice
Am identificat scăpările prin analiza expresiei genelor din celulele somatice unice folosind metodologia scRNA-Seq (vezi Metode). Pentru a evalua sensibilitatea metodei, comparăm expresia cromozomului X (ChrX) cu cea a altor cromozomi autosomali. În mod specific, ne-am concentrat asupra cromozomului 17 (Chr17), bogat în gene, ca prototip al unui cromozom autosomal. Chr17 a fost selectat deoarece reprezintă un cromozom cu un număr minim de gene imprimate specifice părinților . Proprietățile cantitative ale ChrX și Chr17 sunt enumerate în Fig. 1a.
Acest studiu se bazează pe analiza a două resurse de origine feminină: (i) fibroblaste primare UCF1014 (cu 104 celule, a se vedea Metode). Acest set este specificat de o acoperire mai mare a datelor transcriptomice, dar nu dispune de informații privind fasonarea haplotipurilor (Fig. 1b); (ii) Un set de date mai mic de limfoblaste clonale (n = 25) din linia celulară GM12878 cu genomuri diploide parentale complet fasonate și secvențiate (Fig. 1c). În ambele seturi de date, transcrierea la SNP heterozigoți (hSNP) reprezintă sursa de informații pentru determinarea expresiei monoalelice sau bialelice. Fiecare hSNP, în fiecare celulă, care este susținut de dovezi de expresie peste un prag prestabilit este considerat un SNP informativ (iSNP) (a se vedea Metode, Fișier suplimentar 1: Text). Suma iSNP-urilor per genă definește eticheta unică a acesteia ca fiind o genă inactivată sau evadată (a se vedea Metode, Fig. 1b-c, Fișier suplimentar 1: Text).
Cantificarea expresiei bialelice din fibroblastele primare cu o singură celulă
Am analizat datele scRNA-Seq publicate din fibroblastele umane primare de sex feminin . Înainte de analiză, ne-am ocupat de o capcană experimentală relevantă pentru multe studii cu o singură celulă. Capcana se referă la dublurile de celule în care mai mult de o celulă este secvențiată pe o bibliotecă. Într-un astfel de scenariu, cromozomii X activi diferiți (Xa) din două celule diferite care sunt incluse în eșantion vor produce un semnal bialelic de-a lungul întregului cromozom X. Deși se așteaptă ca fracțiunea de dublete să fie mică, aceasta poate duce la o interpretare greșită . Prin urmare, înainte de a analiza datele provenite de la fibroblaste, am revizuit toate cele 104 fibroblaste și am testat raportul lor bialelic în ceea ce privește ChrX (a se vedea Metode). Trei celule au prezentat un grad excepțional de ridicat de expresie bialelică care ar putea indica un amestec de doi cromozomi X parentali (Fișier suplimentar 1: Text și Figura S3). Am eliminat toate cele trei celule suspecte din toate analizele.
În continuare, pentru fiecare celulă în parte, am numărat numărul de citiri care au fost cartografiate în mod unic la alele hSNP. Raportul alelic (AR) pentru fiecare iSNP este definit ca fracțiunea de citiri cartografiate pentru alela alternativă (Alt) din totalul citirilor (a se vedea Metode, Fișier suplimentar 2: Tabelul S1). Figura 2a-c rezumă AR al ChrX, Chr17 și al tuturor cromozomilor autosomali în funcție de colecția de fibroblaste primare (101 din 104 celule). În plus, Fig. 2d prezintă distribuția AR a unui set adnotat de gene imprimate din țesuturile cutanate (în funcție de ). Așa cum s-a raportat anterior , este evidentă o tendință de cartografiere către genomul de referință (AR = 0) (Fig. 2a-d). În plus, a fost observată o fracțiune substanțială de expresie monoalelică pentru toate seturile testate (Fig. 2a-d). Această apariție dominantă a expresiei monoalelice în celule unice este cauzată de o combinație atât de subeșantionare a transcriptelor, cât și de un fenomen care este cunoscut sub numele de „explozie transcripțională” .
Ne-am concentrat numai asupra iSNP-urilor care prezintă o semnătură non-monoalelică (adică, excluzând AR = 0 și AR = 1). Am observat o diferență marcantă în distribuția AR a ChrX și a genelor imprimate în raport cu Chr17 și cu toți cromozomii autosomali (comparați Fig. 2a cu b și Fig. 2c cu d). În consecință, pot fi trase mai multe observații din rezultatele prezentate în Fig. 2: (i) Chr17 și toți autosomii împărtășesc un profil AR similar. (ii) O tendință clară către o expresie echilibrată (AR = 0,5) este evidentă pentru orice cromozomi autosomali (Fig. 2a-b), dar nu și pentru ChrX sau genele imprimate (Fig. 2c-d). (iii) Fracțiunea de expresie non-monoalelică în cromozomii autosomali este mai mare (~ 18 %) în raport cu ChrX (~ 9 %). (iv) Fracțiunea de expresie non-monoalelică în genele imprimate prezintă un nivel intermediar (13%). Un astfel de nivel intermediar este probabil o reflectare a inconsecvenței inerente în identitatea genelor imprimate . Fișierul suplimentar 3: Tabelul S2 enumeră iSNP-urile de susținere pentru toți cromozomii analizați în fibroblaste, inclusiv setul de gene imprimate.
Identificarea evadărilor în fibroblaste primare cu o singură celulă
În setul de date al fibroblastelor primare, există 232 și 485 de gene care sunt susținute de dovezi iSNP pentru ChrX și, respectiv, Chr17. Deoarece aceste celule nu dispun de informații privind fasonarea genomului (Fig. 1b), informațiile privind evadarea din cromozomul X sunt limitate la setul de iSNP bialelici (a se vedea Fig. 1b). Am agregat iSNP-urile în funcție de genele lor corespunzătoare (Fig. 1b). Agregarea se realizează pe diferite celule unice și pe mai mulți iSNP dintr-o anumită pereche celulă-gena. O genă va fi etichetată drept candidat evadat atunci când este asociată cu mai mulți iSNP bialelici. În total, am identificat 24 de astfel de gene (tabelul 1), care reprezintă 10,3 % din toate genele exprimate în ChrX. După cum era de așteptat, fracțiunea de gene de pe Chr17 care prezintă expresie bialelică este substanțial mai mare (49,3 %, Fișier suplimentar 4: Tabelul S3).
Tabelul 1 enumeră candidații evadați la diferite grade de susținere. De exemplu, genele ZFX (Zinc finger X-chromosomal protein) și SMC1A (Structural maintenance of chromosomes protein 1A) sunt puternic susținute cu 103 și, respectiv, 19 iSNP bialelici. O creștere suplimentară a fiabilității identificării evadărilor se bazează pe existența a cel puțin 2 celule independente care au contribuit cu informații privind expresia bialelică. Arătăm că 21 din 24 de gene au îndeplinit acest criteriu strict (tabelul 1). În special, printre evadații identificați am detectat doar trei gene PAR (SLC25A6, CD99 și DHRSX, tabelul 1). Atribuirea acestor gene ca escapees este în concordanță cu expresia PAR așteptată. Pornind de la numărul de gene PAR bialelice din genele PAR exprimate, am estimat că rata de descoperire fals negativă pentru escapees a fost de până la 70 % (adică a ratat 7 din 10 gene PAR exprimate). Fișierul suplimentar 4: Tabelul S3 prezintă suportul pentru Tabelul 1.
Cuantificarea expresiei alelice din limfoblastele fasonate clonal
O limitare majoră în protocolul descris mai sus se referă la lipsa fasonării haplotipurilor parentale. În acest cadru, iSNP-urile nu pot fi atribuite la Xa sau Xi. În consecință, alegerea aleatorie a Xi care caracterizează celulele primare limitează rata de descoperire a evadărilor. Am extins analiza scRNA-Seq la limfoblaste de origine feminină din linia celulară clonală GM12878 . A se vedea Fig. 1c și fișierul suplimentar 1: Figura S4.
Figura 3a prezintă profilul de expresie pentru celule unice de limfoblaste clonale (n = 25) (Fișier suplimentar 2: Tabelul S1, Fișier suplimentar 5: Tabelul S4). În orice celulă unică, expresia monoalelică reflectă combinația dintre o subeșantionare a transcriptelor și fenomenul de explozie transcripțională . Este clar că expresia maternă de la Xa domină (Fig. 3a, sus). O observație care concordă cu originea maternă Xa raportată a liniei celulare GM12878 . În majoritatea celulelor analizate, o fracțiune mică, dar substanțială din expresia totală măsurată provine de la cromozomul patern, Xi (Fig. 3a, sus). În schimb, Chr17 și cromozomii autosomali prezintă o expresie egală de la ambele alele (Fig. 3a, panourile din mijloc și de jos).
Din figura, este evident că fenomenul de explozie transcripțională afectează toți cromozomii, inclusiv ChrX. Pentru a evalua impactul acestui fenomen asupra identificării genelor ca fiind evadate, am comparat celulele individuale cu privire la un grup de celule (Pool100, Fig. 3a, bara din dreapta). În timp ce majoritatea iSNP-urilor din Chr17 prezintă profiluri bialelice, ChrX rămâne dominat de o expresie monoalelică maternă.
Figura 3b este o vedere agregată a ChrX, Chr17 și a cromozomilor autosomali. Datele se bazează pe 375, 808 și, respectiv, 20.212 hSNP exprimați. Figura 3b (panourile din mijloc și din dreapta) arată o partiție egală a alelelor parentale din Chr17 și cromozomii autosomali (Fig. 3b, sus). Efectuarea aceleiași analize pe datele colectate din Pool100 (Fig. 3c) arată că partiția alelelor parentale rămâne practic neschimbată (comparați fracțiunea ocupată de culorile roz și albastru, Fig. 3b-c). În plus, am observat o trecere de la o expresie monoalelică (Fig. 3b-c, culoare plină) la o expresie bialelică (Fig. 3b-c, culoare dezgolită). Fracțiunea de expresie bialelică pentru Ch17 a crescut de la 19 % în celulele individuale la 80 % în Pool100, iar pentru cromozomii autosomali de la 18 la 79 % (Fig. 3c, panourile din mijloc și din dreapta). Rezultatele de la Pool100 indică faptul că expresia monoalelică observată în celulele unice este practic abolită prin medierea semnalului.
Rezultatele de la ChrX (Fig. 3b (stânga) sunt fundamental diferite în raport cu Chr17 sau cu cromozomii autosomali (Fig. 3b-c). Cea mai notabilă diferență este că doar 21 % dintre iSNP-urile exprimate sunt asociate cu alela paternă Xi în ChrX (Fig. 3b, sus). Mai mult, în analiza Pool100, fracțiunea de expresie bialelică rămâne delimitată (o schimbare de la 9% în celulele individuale la 34% în Pool100). Modelul observat al ChrX din Pool100 (Fig. 3c, stânga) se explică cel mai bine printr-o medie a semnalului monoalelic stocastic (în același grad ca și în cazul celorlalți cromozomi), menținând în același timp un semnal puternic al expresiei monoalelice Xa. A se vedea Fișierul suplimentar 5: Tabelul S4 pentru raportul alelic al limfoblastelor din toți cromozomii testați și Pool100.
Identificarea evadărilor din limfoblastele cu o singură celulă
Figura 4a este o vedere centrată pe gene care arată partiția alelică iSNP din limfoblaste (colorată în funcție de originea lor ca expresie maternă, paternă sau mixtă, a se vedea Metode). Doar subsetul de gene care sunt susținute de mai multe iSNP este listat în funcție de ordinea lor de-a lungul cromozomilor. În total, raportăm 93 de gene adnotate pe ChrX (Fig. 4a, 30 de gene scăpate și 63 de gene inactivate). Rețineți că genele inactivate de X reprezintă genele care sunt exprimate în principal de Xa matern. Un grup de gene cu o expresie paternă la vârful brațului p al ChrX reprezintă expresia bialelică așteptată de la genele PAR (Fig. 4a). Dovezi suplimentare pentru expresia paternă sunt localizate la XIC cu gene precum XIST, JPX și FTX. În timp ce majoritatea evadărilor sunt susținute de un număr limitat de iSNP, câteva dintre ele, cum ar fi ZFX, CD99 și SLC25A6, sunt susținute de un număr relativ mare de iSNP de susținere (48, 38 și, respectiv, 34).
O metodă alternativă de evaluare a amplorii fenomenului de inactivare X este prin cuantificarea dovezilor direct din suma tuturor citirilor secvențiate (abreviat ca protocolul bazat pe citire). Figura 4b-c compară numărul de citiri din Chr17 (Fig. 4b) și ChrX (Fig. 4c) în funcție de originea paternă față de cea maternă. Comparăm datele de expresie din celulele individuale și din Pool100. Regresia liniară pentru expresia genelor din Chr17 arată o linie de potrivire cu o corelație ridicată (r2 = 0,823, Fig. 4b). După cum era de așteptat, corelația este mai puternică în cazul datelor provenite din Pool100 (r2 = 0,946, Fig. 4b). Am concluzionat că, în ciuda expresiei monoalelice datorate fenomenului de explozie transcripțională, expresia alelică echilibrată a tuturor genelor este puternic susținută. Cu toate acestea, pentru ChrX, regresia liniară rezultată din celulele individuale este slabă (r2 = 0,238, Fig. 4c) și nu a fost îmbunătățită de datele din Pool100 (r2 = 0,222, Fig. 4d). Inspectarea datelor de expresie pentru ChrX arată că liniile de regresie înclină de fapt spre expresia Xa maternă (axa x). Datele de expresie sunt în concordanță cu două linii de regresie distincte pentru ChrX. Una care se potrivește cu genele inactivate (paralelă cu axa x), iar cealaltă se potrivește cu o expresie bialelică de încredere.
Aplicarea protocolului conservator bazat pe iSNP duce la identificarea a 30 de gene ca fiind candidate la evadare care sunt, de asemenea, susținute de protocolul bazat pe citire (tabelul 2). Protocolul bazat pe citire (i.e., etichetarea unei gene ca escapee prin faptul că are un număr minim de lecturi paterne, a se vedea Metode) a extins lista de candidate escapee pentru a include în total 49 de gene (Fișier suplimentar 4: Tabelul S3).
Testarea originii parentale a alelelor de-a lungul unei gene în aceeași celulă este un test strict pentru fiabilitatea iSNP-urilor. Acest test este valabil numai pentru genele cu hSNP-uri multiple. Astfel de gene care sunt susținute cu două sau mai multe hSNP care exprimă hSNP reprezintă 44% din gene. Considerăm că o genă este consecventă dacă expresia de-a lungul genei într-o anumită celulă nu este monoalelică pentru ambele alele. În total, am identificat 3 gene inconsistente – TEX11, FTX și ZCCHC16. Pentru alte 6 gene, inconsecvența este doar parțială, deoarece există alte observații de expresie bialelică. Estimarea din inconsecvența totală (3 din cele 29 de gene care au fost eligibile pentru acest test) sugerează că o limită superioară pentru o interpretare eronată de 10%. În plus, protocolul bazat pe iSNP a identificat 9 din cele 11 gene PAR exprimate. Astfel, extrapolăm rata de detectare a evadării la 82%. În mod interesant, analiza Chr17, în ipoteza că nu există o prejudecată alelică sistematică , a arătat că 7,3 și 9,6 % dintre gene au fost asociate cu expresia monoalelică maternă și, respectiv, paternă. Aceste rezultate oferă o limită superioară de 17,9 % pentru probabilitatea de etichetare falsă a genelor în Chr17 și pot fi utilizate pentru estimarea limitării metodei.
Exigența dovezilor paterne din cel puțin două celule reduce numărul de evadări de la 49 la 18 (inclusiv 5 gene PAR). Multe gene cu o singură dovadă care rezultă dintr-o anumită celulă aberantă (SRR764803) care a contribuit la 17 din cele 49 de gene raportate (tabelul 2, fișierul suplimentar 5: tabelul S4). Această celulă prezintă cele mai ridicate niveluri de expresie atât pe ChrX, cât și pe Chr17 (Fișier suplimentar 1: Text și Figura S4). Tabelul 2 enumeră candidații evadați descoperiți împreună cu dovezile de susținere a acestora (Tabelul 2).
Compararea evadaților identificați cu cunoștințele actuale
Am testat corespondența dintre evadații identificați din studiul nostru și un catalog bazat pe literatura de specialitate . Acest catalog unificat a fost compilat din integrarea a patru studii independente care acoperă 1144 de gene din ChrX. Genele din acest catalog sunt împărțite manual în nouă categorii definite (a se vedea Metode). Cea mai mare reprezintă genele care nu dispun de informații (45%) . Aproximativ 15% dintre gene (168/1144) sunt considerate „asociate cu evadarea” (a se vedea Metode). Considerăm setul compilat de gene „asociate evadării” ca fiind un standard de aur pentru a testa rata de descoperire a evadării în studiul nostru (total de 124 de gene, excluzând genele PAR, denumite colectiv Balaton-Esc).
Am aplicat un test statistic hipergeometric (a se vedea Metode) pentru a evalua suprapunerea diferitelor liste de gene asociate evadării (Fig. 5). Figura 5a prezintă numărul de evadări identificate din fibroblaste și limfoblaste (excluzând genele PAR). Rețineți că numai genele care sunt incluse în reperul Balaton-Esc sunt incluse în această analiză (Fig. 5). Figura 5b arată semnificația statistică a suprapunerii dintre listele de gene din Fig. 5a și cele din Balaton-Esc . După cum se poate observa, există o suprapunere semnificativă între evadările din limfoblaste (Tabelul 2 și Fișierul suplimentar 4: Tabelul S3) și lista Balaton Esc (Fig. 5b, p-valoare = 7,43E-8). Aplicarea aceluiași test pentru fibroblastele primare (tabelul 1) a avut ca rezultat o semnificație mai mică (p-valoare = 4,07E-2).
Figura 5c descrie genele de suprapunere între evadații identificați în studiul nostru și catalogul Balaton-Esc (168 de gene, inclusiv gene PAR) . Am inclus, de asemenea, o resursă complementară bazată pe 940 de transcriptomi din scRNA-Seq (25 de gene ale evadaților, Tukiainen-Esc) . Diagrama Venn arată că fiecare dintre studiile de mai sus contribuie la cunoștințele actuale despre evadați. Evadările din cele două resurse externe se suprapun cu 18 din cele 25 de gene raportate (72%). După cum se arată în Fig. 5c, 62% din evadările raportate din limfoblaste se suprapun cu listele externe de evadări, în timp ce fibroblastele sunt susținute de o suprapunere de numai 38%. În mod notabil, majoritatea genelor candidate la evadare descoperite de noi din fibroblaste (62%) nu au corespondență cu celelalte liste testate (Fișier suplimentar 6: Tabelul S5).
LncRNA-urile extind lista de candidate la evadare
Am extins analiza noastră la ARN-uri non-codificatoare lungi (lncRNA-uri) utilizând aceleași criterii de evadare ca și cele utilizate pentru genele codificatoare (Fig. 6). În total, am identificat 15 ARNlnc ca fiind candidați de evadare, dintre care doar câțiva au fost studiați anterior. Este prezentată localizarea lncRNA-urilor și a evadărilor codante de-a lungul ChrX (Fig. 6a). Am testat pozițiile evadărilor de-a lungul ChrX în raport cu toate genele ChrX. În timp ce distribuția pozițională pentru evadările lncRNA este similară (test Kolmogorov-Smirnov, valoare p = 0,57), aceasta este diferită pentru evadările codificatoare (test Kolmogorov-Smirnov, valoare p = 0,004, Fig. 6a).
Figura 6b enumeră toate cele 15 gene de evadare lncRNA identificate, printre acestea, sunt gene ncRNA din XIC care coordonează activarea și menținerea inactivării X. Multe dintre ARNcNl sunt localizate în segmente active din punct de vedere transcripțional (de exemplu, în cadrul PAR sau al XIC), în timp ce altele sunt localizate în regiuni neconservate care sunt îmbogățite cu ARNc lungi și scurte. Pentru lncRNA-uri suplimentare, inclusiv gene inactivate, a se vedea Fișierul suplimentar 7: Tabelul S6.
Partiția bazată pe dovezi a genelor evadate
Figura 6c rezumă partiția în funcție de dovezi pentru toate genele care sunt raportate cu orice nivel de încredere ca fiind evadate (Fișierul suplimentar 6: Tabelul S5). Această listă include 75 de candidați care sunt raportate în acest studiu, inclusiv dovezile din Pool100, o colecție de ARNlnc noi. Figura 6d oferă o listă detaliată a constatărilor din aceste date, având în vedere resursele externe servale. Numărul de celule care furnizează dovezi este, de asemenea, indicat pentru fiecare genă.
Cu luarea în considerare a acestor resurse externe, am asociat fiecare genă în funcție de calitatea suportului independent asociat acesteia (Fig. 6c și d). În mod specific, am împărțit lista de 75 de gene în patru grupuri: (i) Genele sunt etichetate ca fiind „confirmate” dacă sunt raportate ca evadate de ambele resurse externe discutate anterior . Există 31 de astfel de gene, pentru care acest studiu oferă o confirmare suplimentară a identității lor ca escapees. (ii) Alte 7 gene sunt etichetate ca fiind „aprobate”. Aceste gene sunt etichetate ca escapees doar de către una dintre cele două resurse externe . Pentru aceste gene, dovezile independente din acest studiu aprobă identitatea lor. (iii) 12 gene suplimentare sunt marcate ca escapees „probabile”. Aceste gene sunt atribuite în conformitate cu acordul cu un raport extern suplimentar care raportează 114 escapees , care nu a fost inclus în catalogul bazat pe literatură , și, prin urmare, poate fi considerat ca o resursă independentă. (iv) Alte 25 de gene sunt marcate ca fiind „posibile” evadări. Aceste gene nu au nicio dovadă din literatura de specialitate care să le susțină identitatea, astfel că atribuirea lor ca escapees rămâne mai puțin susținută. Dintre acestea, 5 gene sunt susținute doar de celula aberantă din limfoblast și, prin urmare, sunt susceptibile de a fi false. În acest set, există încă 10 gene care nu au fost raportate de niciuna dintre cele trei resurse externe discutate , Majoritatea ARNlnc ignorate aparțin acestui grup. Două dintre aceste lncRNA scăpate din vedere (TCONS_00017125, și TCONS_00017281, Fig. 6b) sunt localizate în regiunea PAR, care este excepțional de activă în transcripția bialelică. Datele sursă pentru Fig. 6d sunt în fișierul suplimentar 6: Tabelul S5.
.