Un cadru pentru măsurarea scăpării de inactivarea X în celulele unice

Am identificat scăpările prin analiza expresiei genelor din celulele somatice unice folosind metodologia scRNA-Seq (vezi Metode). Pentru a evalua sensibilitatea metodei, comparăm expresia cromozomului X (ChrX) cu cea a altor cromozomi autosomali. În mod specific, ne-am concentrat asupra cromozomului 17 (Chr17), bogat în gene, ca prototip al unui cromozom autosomal. Chr17 a fost selectat deoarece reprezintă un cromozom cu un număr minim de gene imprimate specifice părinților . Proprietățile cantitative ale ChrX și Chr17 sunt enumerate în Fig. 1a.

Fig. 1

Fluxul de lucru pentru identificarea genelor evadate din celule unice. a Proprietățile cantitative ale ChrX și Chr17 sunt enumerate în conformitate cu GRCh37 (GRC Human Build 37). b O schemă de analiză a fibroblastelor primare cu celule unice. Cele două culori pentru nuclee reprezintă alegerea aleatorie a Xa. În contextul fibroblastelor, fiecare Xa prezintă un model diferit de expresie pentru hSNPs. Fiecare dintre iSNP-uri poate fi atribuit la alela de referință (R) sau la alela alternativă (A). Dacă o celulă cu un Xa va avea un model de expresie A R R A, o celulă cu Xa alternativ va exprima R A R. Din cauza inactivării aleatoare a X și a faptului că hSNP-urile nu sunt fazate, notarea unei gene ca fiind escapee se bazează în întregime pe existența mai multor dovezi de iSNP-uri cu expresie bialelică. Tabelul ilustrativ prezintă analiza iSNP-urilor de la fiecare dintre hSNP-urile (în stânga) în fiecare dintre celule ca fiind A sau R și adnotarea unei gene în funcție de acumularea dovezilor iSNP-urilor. Ilustrația marchează hSNP-urile derivate din 4 celule individuale (de la celula-1 la celula-4). HSNP-urile sunt asociate cu 3 gene (marcate ca fiind de la gena a la gena c). Gena a este singura genă cu mai multe iSNP bialelice, fiind astfel adnotată ca genă Escapee (Esc). Celelalte două gene fie nu au iSNP bialelici (gena b), fie au doar un singur iSNP ca dovadă a expresiei bialelice (gena c) și, prin urmare, sunt notate ca gene inactivate (Ina). c Schema pentru limfoblastele clonale cu celule unice. Spre deosebire de fibroblastele primare (b), originea parentală a Xa este identică pentru toate celulele. În acest caz al liniei celulare GM12878, Xa este asociată cu alela maternă (M) (simbolizată prin nuclei de culoare roz). În cazul limfoblastelor, apariția unei alele paterne (marcată cu P) este suficientă pentru identificarea unui iSNP care se exprimă din Xi și, astfel, poate fi potențial adnotat ca fiind un evadat. Tabelul din dreapta a evidențiat atribuirea evadării limfoblastelor. Categoriile din tabel sunt aceleași ca în (b). Pentru detalii privind fluxul de lucru și protocoalele aplicate, a se vedea Fișierul suplimentar 1: Text și Figura S1

Acest studiu se bazează pe analiza a două resurse de origine feminină: (i) fibroblaste primare UCF1014 (cu 104 celule, a se vedea Metode). Acest set este specificat de o acoperire mai mare a datelor transcriptomice, dar nu dispune de informații privind fasonarea haplotipurilor (Fig. 1b); (ii) Un set de date mai mic de limfoblaste clonale (n = 25) din linia celulară GM12878 cu genomuri diploide parentale complet fasonate și secvențiate (Fig. 1c). În ambele seturi de date, transcrierea la SNP heterozigoți (hSNP) reprezintă sursa de informații pentru determinarea expresiei monoalelice sau bialelice. Fiecare hSNP, în fiecare celulă, care este susținut de dovezi de expresie peste un prag prestabilit este considerat un SNP informativ (iSNP) (a se vedea Metode, Fișier suplimentar 1: Text). Suma iSNP-urilor per genă definește eticheta unică a acesteia ca fiind o genă inactivată sau evadată (a se vedea Metode, Fig. 1b-c, Fișier suplimentar 1: Text).

Cantificarea expresiei bialelice din fibroblastele primare cu o singură celulă

Am analizat datele scRNA-Seq publicate din fibroblastele umane primare de sex feminin . Înainte de analiză, ne-am ocupat de o capcană experimentală relevantă pentru multe studii cu o singură celulă. Capcana se referă la dublurile de celule în care mai mult de o celulă este secvențiată pe o bibliotecă. Într-un astfel de scenariu, cromozomii X activi diferiți (Xa) din două celule diferite care sunt incluse în eșantion vor produce un semnal bialelic de-a lungul întregului cromozom X. Deși se așteaptă ca fracțiunea de dublete să fie mică, aceasta poate duce la o interpretare greșită . Prin urmare, înainte de a analiza datele provenite de la fibroblaste, am revizuit toate cele 104 fibroblaste și am testat raportul lor bialelic în ceea ce privește ChrX (a se vedea Metode). Trei celule au prezentat un grad excepțional de ridicat de expresie bialelică care ar putea indica un amestec de doi cromozomi X parentali (Fișier suplimentar 1: Text și Figura S3). Am eliminat toate cele trei celule suspecte din toate analizele.

În continuare, pentru fiecare celulă în parte, am numărat numărul de citiri care au fost cartografiate în mod unic la alele hSNP. Raportul alelic (AR) pentru fiecare iSNP este definit ca fracțiunea de citiri cartografiate pentru alela alternativă (Alt) din totalul citirilor (a se vedea Metode, Fișier suplimentar 2: Tabelul S1). Figura 2a-c rezumă AR al ChrX, Chr17 și al tuturor cromozomilor autosomali în funcție de colecția de fibroblaste primare (101 din 104 celule). În plus, Fig. 2d prezintă distribuția AR a unui set adnotat de gene imprimate din țesuturile cutanate (în funcție de ). Așa cum s-a raportat anterior , este evidentă o tendință de cartografiere către genomul de referință (AR = 0) (Fig. 2a-d). În plus, a fost observată o fracțiune substanțială de expresie monoalelică pentru toate seturile testate (Fig. 2a-d). Această apariție dominantă a expresiei monoalelice în celule unice este cauzată de o combinație atât de subeșantionare a transcriptelor, cât și de un fenomen care este cunoscut sub numele de „explozie transcripțională” .

Fig. 2

Distribuția raportului alelic (AR) pentru fiecare SNP ca o fracțiune a asignărilor pentru alele alternative (Alt) din alele Alt și de referință (Ref). Axa X în histogramele de sus variază de la 0 la 1,0, unde 0 indică faptul că toate asignările sunt asociate cu alela Ref și 1 indică toate asignările pentru alela Alt. Deoarece majoritatea iSNP-urilor sunt atribuite cu valori AR de 0 sau 1, fiecare analiză este prezentată prin două histograme. Histograma inferioară se concentrează asupra iSNP-urilor non-monoalelice și acoperă toate valorile AR, cu excepția AR = 0 și AR = 1. Este indicat procentul de iSNP-uri care sunt incluse în histogramele inferioare. Sunt prezentate distribuțiile AR pentru Chr17 (a), cromozomii autosomali (b), ChrX (c) și genele imprimate (d). Pentru datele sursă, a se vedea Fișierul suplimentar 3: Tabelul S2

Ne-am concentrat numai asupra iSNP-urilor care prezintă o semnătură non-monoalelică (adică, excluzând AR = 0 și AR = 1). Am observat o diferență marcantă în distribuția AR a ChrX și a genelor imprimate în raport cu Chr17 și cu toți cromozomii autosomali (comparați Fig. 2a cu b și Fig. 2c cu d). În consecință, pot fi trase mai multe observații din rezultatele prezentate în Fig. 2: (i) Chr17 și toți autosomii împărtășesc un profil AR similar. (ii) O tendință clară către o expresie echilibrată (AR = 0,5) este evidentă pentru orice cromozomi autosomali (Fig. 2a-b), dar nu și pentru ChrX sau genele imprimate (Fig. 2c-d). (iii) Fracțiunea de expresie non-monoalelică în cromozomii autosomali este mai mare (~ 18 %) în raport cu ChrX (~ 9 %). (iv) Fracțiunea de expresie non-monoalelică în genele imprimate prezintă un nivel intermediar (13%). Un astfel de nivel intermediar este probabil o reflectare a inconsecvenței inerente în identitatea genelor imprimate . Fișierul suplimentar 3: Tabelul S2 enumeră iSNP-urile de susținere pentru toți cromozomii analizați în fibroblaste, inclusiv setul de gene imprimate.

Identificarea evadărilor în fibroblaste primare cu o singură celulă

În setul de date al fibroblastelor primare, există 232 și 485 de gene care sunt susținute de dovezi iSNP pentru ChrX și, respectiv, Chr17. Deoarece aceste celule nu dispun de informații privind fasonarea genomului (Fig. 1b), informațiile privind evadarea din cromozomul X sunt limitate la setul de iSNP bialelici (a se vedea Fig. 1b). Am agregat iSNP-urile în funcție de genele lor corespunzătoare (Fig. 1b). Agregarea se realizează pe diferite celule unice și pe mai mulți iSNP dintr-o anumită pereche celulă-gena. O genă va fi etichetată drept candidat evadat atunci când este asociată cu mai mulți iSNP bialelici. În total, am identificat 24 de astfel de gene (tabelul 1), care reprezintă 10,3 % din toate genele exprimate în ChrX. După cum era de așteptat, fracțiunea de gene de pe Chr17 care prezintă expresie bialelică este substanțial mai mare (49,3 %, Fișier suplimentar 4: Tabelul S3).

Tabel 1 Gene escapees din 101 fibroblaste primare unicelulare. O listă completă a tuturor genelor este disponibilă în Fișierul suplimentar 3: Tabelul S4

Tabelul 1 enumeră candidații evadați la diferite grade de susținere. De exemplu, genele ZFX (Zinc finger X-chromosomal protein) și SMC1A (Structural maintenance of chromosomes protein 1A) sunt puternic susținute cu 103 și, respectiv, 19 iSNP bialelici. O creștere suplimentară a fiabilității identificării evadărilor se bazează pe existența a cel puțin 2 celule independente care au contribuit cu informații privind expresia bialelică. Arătăm că 21 din 24 de gene au îndeplinit acest criteriu strict (tabelul 1). În special, printre evadații identificați am detectat doar trei gene PAR (SLC25A6, CD99 și DHRSX, tabelul 1). Atribuirea acestor gene ca escapees este în concordanță cu expresia PAR așteptată. Pornind de la numărul de gene PAR bialelice din genele PAR exprimate, am estimat că rata de descoperire fals negativă pentru escapees a fost de până la 70 % (adică a ratat 7 din 10 gene PAR exprimate). Fișierul suplimentar 4: Tabelul S3 prezintă suportul pentru Tabelul 1.

Cuantificarea expresiei alelice din limfoblastele fasonate clonal

O limitare majoră în protocolul descris mai sus se referă la lipsa fasonării haplotipurilor parentale. În acest cadru, iSNP-urile nu pot fi atribuite la Xa sau Xi. În consecință, alegerea aleatorie a Xi care caracterizează celulele primare limitează rata de descoperire a evadărilor. Am extins analiza scRNA-Seq la limfoblaste de origine feminină din linia celulară clonală GM12878 . A se vedea Fig. 1c și fișierul suplimentar 1: Figura S4.

Figura 3a prezintă profilul de expresie pentru celule unice de limfoblaste clonale (n = 25) (Fișier suplimentar 2: Tabelul S1, Fișier suplimentar 5: Tabelul S4). În orice celulă unică, expresia monoalelică reflectă combinația dintre o subeșantionare a transcriptelor și fenomenul de explozie transcripțională . Este clar că expresia maternă de la Xa domină (Fig. 3a, sus). O observație care concordă cu originea maternă Xa raportată a liniei celulare GM12878 . În majoritatea celulelor analizate, o fracțiune mică, dar substanțială din expresia totală măsurată provine de la cromozomul patern, Xi (Fig. 3a, sus). În schimb, Chr17 și cromozomii autosomali prezintă o expresie egală de la ambele alele (Fig. 3a, panourile din mijloc și de jos).

Fig. 3

Cantificarea etichetelor iSNP-urilor din 25 de limfoblaste unicelulare. a Fiecare celulă unică este împărțită în funcție de iSNP-urile sale alelice etichetate pe ChrX, Chr17 și pe toți cromozomii autosomali. iSNP-urile sunt asociate cu expresia maternă (roz), paternă (albastru deschis) și echilibrată (gri). Celulele sunt ordonate de la stânga la dreapta în funcție de contribuțiile lor iSNP (Fișier suplimentar 1: Figura S4). În dreapta, este prezentată statistica sumară a Pool100. b Un rezumat al partiției etichetelor iSNPs pentru toate cele 25 de celule unice pe cromozomii ChrX, Chr17 și autosomal. c Un rezumat al partiției etichetelor iSNPs pentru Pool100. Culorile albastru și roz sunt asociate cu alelele paternă și, respectiv, maternă. Modelul cu dungi indică iSNP-uri bialelice care înclină spre alelele paterne (albastru) sau materne (roz). Pentru celulele unice, datele se bazează pe 375 iSNP pentru ChrX, 808 iSNP pentru Chr17 și 20 212 iSNP pentru cromozomii autosomici. Datele din Pool100 se bazează pe 211 iSNP pentru ChrX, 216 pentru Chr17 și 5360 iSNP pentru cromozomii autosomali. Pentru datele sursă, a se vedea Fișierul suplimentar 5: Tabelul S4

Din figura, este evident că fenomenul de explozie transcripțională afectează toți cromozomii, inclusiv ChrX. Pentru a evalua impactul acestui fenomen asupra identificării genelor ca fiind evadate, am comparat celulele individuale cu privire la un grup de celule (Pool100, Fig. 3a, bara din dreapta). În timp ce majoritatea iSNP-urilor din Chr17 prezintă profiluri bialelice, ChrX rămâne dominat de o expresie monoalelică maternă.

Figura 3b este o vedere agregată a ChrX, Chr17 și a cromozomilor autosomali. Datele se bazează pe 375, 808 și, respectiv, 20.212 hSNP exprimați. Figura 3b (panourile din mijloc și din dreapta) arată o partiție egală a alelelor parentale din Chr17 și cromozomii autosomali (Fig. 3b, sus). Efectuarea aceleiași analize pe datele colectate din Pool100 (Fig. 3c) arată că partiția alelelor parentale rămâne practic neschimbată (comparați fracțiunea ocupată de culorile roz și albastru, Fig. 3b-c). În plus, am observat o trecere de la o expresie monoalelică (Fig. 3b-c, culoare plină) la o expresie bialelică (Fig. 3b-c, culoare dezgolită). Fracțiunea de expresie bialelică pentru Ch17 a crescut de la 19 % în celulele individuale la 80 % în Pool100, iar pentru cromozomii autosomali de la 18 la 79 % (Fig. 3c, panourile din mijloc și din dreapta). Rezultatele de la Pool100 indică faptul că expresia monoalelică observată în celulele unice este practic abolită prin medierea semnalului.

Rezultatele de la ChrX (Fig. 3b (stânga) sunt fundamental diferite în raport cu Chr17 sau cu cromozomii autosomali (Fig. 3b-c). Cea mai notabilă diferență este că doar 21 % dintre iSNP-urile exprimate sunt asociate cu alela paternă Xi în ChrX (Fig. 3b, sus). Mai mult, în analiza Pool100, fracțiunea de expresie bialelică rămâne delimitată (o schimbare de la 9% în celulele individuale la 34% în Pool100). Modelul observat al ChrX din Pool100 (Fig. 3c, stânga) se explică cel mai bine printr-o medie a semnalului monoalelic stocastic (în același grad ca și în cazul celorlalți cromozomi), menținând în același timp un semnal puternic al expresiei monoalelice Xa. A se vedea Fișierul suplimentar 5: Tabelul S4 pentru raportul alelic al limfoblastelor din toți cromozomii testați și Pool100.

Identificarea evadărilor din limfoblastele cu o singură celulă

Figura 4a este o vedere centrată pe gene care arată partiția alelică iSNP din limfoblaste (colorată în funcție de originea lor ca expresie maternă, paternă sau mixtă, a se vedea Metode). Doar subsetul de gene care sunt susținute de mai multe iSNP este listat în funcție de ordinea lor de-a lungul cromozomilor. În total, raportăm 93 de gene adnotate pe ChrX (Fig. 4a, 30 de gene scăpate și 63 de gene inactivate). Rețineți că genele inactivate de X reprezintă genele care sunt exprimate în principal de Xa matern. Un grup de gene cu o expresie paternă la vârful brațului p al ChrX reprezintă expresia bialelică așteptată de la genele PAR (Fig. 4a). Dovezi suplimentare pentru expresia paternă sunt localizate la XIC cu gene precum XIST, JPX și FTX. În timp ce majoritatea evadărilor sunt susținute de un număr limitat de iSNP, câteva dintre ele, cum ar fi ZFX, CD99 și SLC25A6, sunt susținute de un număr relativ mare de iSNP de susținere (48, 38 și, respectiv, 34).

Fig. 4

O partiție gene-centrică a alelelor din celulele limfoblastice. a Pentru fiecare genă de pe ChrX, este prezentată partiția parentală iSNPs împreună cu numărul de iSNPs. Pentru claritate, sunt enumerate doar genele care sunt susținute de > = 2 iSNPS. Un total de 93 de gene din ChrX sunt enumerate în funcție de ordinea lor pe cromozom. Codul de culori este în funcție de etichetele iSNP ca expresie paternă, maternă și echilibrată. Pentru datele sursă, a se vedea Fișierul suplimentar 5: Tabelul S4. b-c Corelația dintre nivelurile de expresie de la alelele paternă și maternă. Diagramele de dispersie arată nivelurile de expresie ale genelor în funcție de numărul de citiri asociate cu alelele maternă (axa x) și paternă (axa y). Numărul de gene analizate pentru fiecare grafic de dispersie este indicat (pe axa x, în paranteză). Datele prezentate provin din Chr17 (b) și ChrX (c) pe baza celulelor unice și Pool100. Rețineți că numărul de citiri pentru datele Pool100 este de 10 ori mai mic în raport cu datele cumulative extrase din celule unice. Pentru datele sursă, a se vedea Fișierul suplimentar 4: Tabelul S3

O metodă alternativă de evaluare a amplorii fenomenului de inactivare X este prin cuantificarea dovezilor direct din suma tuturor citirilor secvențiate (abreviat ca protocolul bazat pe citire). Figura 4b-c compară numărul de citiri din Chr17 (Fig. 4b) și ChrX (Fig. 4c) în funcție de originea paternă față de cea maternă. Comparăm datele de expresie din celulele individuale și din Pool100. Regresia liniară pentru expresia genelor din Chr17 arată o linie de potrivire cu o corelație ridicată (r2 = 0,823, Fig. 4b). După cum era de așteptat, corelația este mai puternică în cazul datelor provenite din Pool100 (r2 = 0,946, Fig. 4b). Am concluzionat că, în ciuda expresiei monoalelice datorate fenomenului de explozie transcripțională, expresia alelică echilibrată a tuturor genelor este puternic susținută. Cu toate acestea, pentru ChrX, regresia liniară rezultată din celulele individuale este slabă (r2 = 0,238, Fig. 4c) și nu a fost îmbunătățită de datele din Pool100 (r2 = 0,222, Fig. 4d). Inspectarea datelor de expresie pentru ChrX arată că liniile de regresie înclină de fapt spre expresia Xa maternă (axa x). Datele de expresie sunt în concordanță cu două linii de regresie distincte pentru ChrX. Una care se potrivește cu genele inactivate (paralelă cu axa x), iar cealaltă se potrivește cu o expresie bialelică de încredere.

Aplicarea protocolului conservator bazat pe iSNP duce la identificarea a 30 de gene ca fiind candidate la evadare care sunt, de asemenea, susținute de protocolul bazat pe citire (tabelul 2). Protocolul bazat pe citire (i.e., etichetarea unei gene ca escapee prin faptul că are un număr minim de lecturi paterne, a se vedea Metode) a extins lista de candidate escapee pentru a include în total 49 de gene (Fișier suplimentar 4: Tabelul S3).

Tabel 2 Escapees din 25 de limfoblaste clonale unicelulare

Testarea originii parentale a alelelor de-a lungul unei gene în aceeași celulă este un test strict pentru fiabilitatea iSNP-urilor. Acest test este valabil numai pentru genele cu hSNP-uri multiple. Astfel de gene care sunt susținute cu două sau mai multe hSNP care exprimă hSNP reprezintă 44% din gene. Considerăm că o genă este consecventă dacă expresia de-a lungul genei într-o anumită celulă nu este monoalelică pentru ambele alele. În total, am identificat 3 gene inconsistente – TEX11, FTX și ZCCHC16. Pentru alte 6 gene, inconsecvența este doar parțială, deoarece există alte observații de expresie bialelică. Estimarea din inconsecvența totală (3 din cele 29 de gene care au fost eligibile pentru acest test) sugerează că o limită superioară pentru o interpretare eronată de 10%. În plus, protocolul bazat pe iSNP a identificat 9 din cele 11 gene PAR exprimate. Astfel, extrapolăm rata de detectare a evadării la 82%. În mod interesant, analiza Chr17, în ipoteza că nu există o prejudecată alelică sistematică , a arătat că 7,3 și 9,6 % dintre gene au fost asociate cu expresia monoalelică maternă și, respectiv, paternă. Aceste rezultate oferă o limită superioară de 17,9 % pentru probabilitatea de etichetare falsă a genelor în Chr17 și pot fi utilizate pentru estimarea limitării metodei.

Exigența dovezilor paterne din cel puțin două celule reduce numărul de evadări de la 49 la 18 (inclusiv 5 gene PAR). Multe gene cu o singură dovadă care rezultă dintr-o anumită celulă aberantă (SRR764803) care a contribuit la 17 din cele 49 de gene raportate (tabelul 2, fișierul suplimentar 5: tabelul S4). Această celulă prezintă cele mai ridicate niveluri de expresie atât pe ChrX, cât și pe Chr17 (Fișier suplimentar 1: Text și Figura S4). Tabelul 2 enumeră candidații evadați descoperiți împreună cu dovezile de susținere a acestora (Tabelul 2).

Compararea evadaților identificați cu cunoștințele actuale

Am testat corespondența dintre evadații identificați din studiul nostru și un catalog bazat pe literatura de specialitate . Acest catalog unificat a fost compilat din integrarea a patru studii independente care acoperă 1144 de gene din ChrX. Genele din acest catalog sunt împărțite manual în nouă categorii definite (a se vedea Metode). Cea mai mare reprezintă genele care nu dispun de informații (45%) . Aproximativ 15% dintre gene (168/1144) sunt considerate „asociate cu evadarea” (a se vedea Metode). Considerăm setul compilat de gene „asociate evadării” ca fiind un standard de aur pentru a testa rata de descoperire a evadării în studiul nostru (total de 124 de gene, excluzând genele PAR, denumite colectiv Balaton-Esc).

Am aplicat un test statistic hipergeometric (a se vedea Metode) pentru a evalua suprapunerea diferitelor liste de gene asociate evadării (Fig. 5). Figura 5a prezintă numărul de evadări identificate din fibroblaste și limfoblaste (excluzând genele PAR). Rețineți că numai genele care sunt incluse în reperul Balaton-Esc sunt incluse în această analiză (Fig. 5). Figura 5b arată semnificația statistică a suprapunerii dintre listele de gene din Fig. 5a și cele din Balaton-Esc . După cum se poate observa, există o suprapunere semnificativă între evadările din limfoblaste (Tabelul 2 și Fișierul suplimentar 4: Tabelul S3) și lista Balaton Esc (Fig. 5b, p-valoare = 7,43E-8). Aplicarea aceluiași test pentru fibroblastele primare (tabelul 1) a avut ca rezultat o semnificație mai mică (p-valoare = 4,07E-2).

Fig. 5

Evapii evadați identificați și semnificația statistică a suprapunerii cu catalogul bazat pe literatură compilat de Balaton et al. . a Numărul de evadați identificați de fiecare dintre analize. Numerele includ numai genele care au fost prezente în Balaton et al. și exclud genele PAR. b Analiza statistică bazată pe distribuția hipergeometrică care măsoară suprapunerea dintre lista bazată pe literatura de specialitate prezentată de Balaton et al. și evadații atribuiți în acest studiu (ca în (a)). Axa Y este -log10(x) a valorii p calculate. c Diagrama Venn a celor 4 seturi de evadați în funcție de fibroblastele și limfoblastele analizate, colecția Balaton-Esc , și colecția Tukiainen-Esc . Inclusiv PAR. Pentru detalii, a se vedea textul. Datele sursă în fișierul suplimentar 6: Tabelul S5

Figura 5c descrie genele de suprapunere între evadații identificați în studiul nostru și catalogul Balaton-Esc (168 de gene, inclusiv gene PAR) . Am inclus, de asemenea, o resursă complementară bazată pe 940 de transcriptomi din scRNA-Seq (25 de gene ale evadaților, Tukiainen-Esc) . Diagrama Venn arată că fiecare dintre studiile de mai sus contribuie la cunoștințele actuale despre evadați. Evadările din cele două resurse externe se suprapun cu 18 din cele 25 de gene raportate (72%). După cum se arată în Fig. 5c, 62% din evadările raportate din limfoblaste se suprapun cu listele externe de evadări, în timp ce fibroblastele sunt susținute de o suprapunere de numai 38%. În mod notabil, majoritatea genelor candidate la evadare descoperite de noi din fibroblaste (62%) nu au corespondență cu celelalte liste testate (Fișier suplimentar 6: Tabelul S5).

LncRNA-urile extind lista de candidate la evadare

Am extins analiza noastră la ARN-uri non-codificatoare lungi (lncRNA-uri) utilizând aceleași criterii de evadare ca și cele utilizate pentru genele codificatoare (Fig. 6). În total, am identificat 15 ARNlnc ca fiind candidați de evadare, dintre care doar câțiva au fost studiați anterior. Este prezentată localizarea lncRNA-urilor și a evadărilor codante de-a lungul ChrX (Fig. 6a). Am testat pozițiile evadărilor de-a lungul ChrX în raport cu toate genele ChrX. În timp ce distribuția pozițională pentru evadările lncRNA este similară (test Kolmogorov-Smirnov, valoare p = 0,57), aceasta este diferită pentru evadările codificatoare (test Kolmogorov-Smirnov, valoare p = 0,004, Fig. 6a).

Fig. 6

LncRNAs atribuite ca escapees, precum și grupurile de escapees în funcție de nivelul de încredere. a Dispersia escapees de-a lungul ChrX. Escapees aparținând lncRNA-urilor și genelor codificatoare sunt indicate deasupra și, respectiv, dedesubtul schemelor lui ChrX. b Un tabel care enumeră cei 15 lncRNA candidați la escapee lncRNA. Culoarea portocalie a indicat escapee, iar cea gri inactivat. O atribuire care se bazează pe un singur iSNP este marcată cu portocaliu deschis. Albul indică lipsa de raportare sau lipsa de expresie. XIC, regiunea centrului de inactivare X. c Împărțirea celor 75 de gene care au fost menționate ca fiind candidate la evadare în acest studiu. Categoriile sunt etichetate „confirmat”, „aprobat”, „probabil” și „posibil” (a se vedea textul). Cele două resurse externe care sunt utilizate pentru a defini grupurile provin din literatura de specialitate și din celula unică prin . Pentru un grup de evadați „probabili”, am folosit ca dovadă adnotarea evadatului din. Rețineți că 11 din cele 15 gene lncRNA enumerate sunt incluse în grupul de evadați „posibili”. d Un rezumat al grupurilor bazate pe dovezi pentru 75 de gene. Genele sunt sortate în funcție de cele 4 grupuri de dovezi (ca în c) Evadatele sunt colorate în portocaliu. Portocaliul deschis indică evadații care sunt susținuți de o singură dovadă de la o singură celulă din fibroblaste. Genele inactivate sunt colorate în gri. Culoarea albă indică lipsa de expresie sau lipsa de raport. Dovezile din celule sunt codificate prin culoare, indicând susținerea de către o singură celulă (albastru deschis) sau de mai multe celule (albastru închis). Cazurile în care dovezile se bazează doar pe Pool100 sunt, de asemenea, marcate cu albastru deschis. Genele PAR și ARNlnc sunt marcate. Datele sursă sunt în Fișierul suplimentar 6: Tabelul S5

Figura 6b enumeră toate cele 15 gene de evadare lncRNA identificate, printre acestea, sunt gene ncRNA din XIC care coordonează activarea și menținerea inactivării X. Multe dintre ARNcNl sunt localizate în segmente active din punct de vedere transcripțional (de exemplu, în cadrul PAR sau al XIC), în timp ce altele sunt localizate în regiuni neconservate care sunt îmbogățite cu ARNc lungi și scurte. Pentru lncRNA-uri suplimentare, inclusiv gene inactivate, a se vedea Fișierul suplimentar 7: Tabelul S6.

Partiția bazată pe dovezi a genelor evadate

Figura 6c rezumă partiția în funcție de dovezi pentru toate genele care sunt raportate cu orice nivel de încredere ca fiind evadate (Fișierul suplimentar 6: Tabelul S5). Această listă include 75 de candidați care sunt raportate în acest studiu, inclusiv dovezile din Pool100, o colecție de ARNlnc noi. Figura 6d oferă o listă detaliată a constatărilor din aceste date, având în vedere resursele externe servale. Numărul de celule care furnizează dovezi este, de asemenea, indicat pentru fiecare genă.

Cu luarea în considerare a acestor resurse externe, am asociat fiecare genă în funcție de calitatea suportului independent asociat acesteia (Fig. 6c și d). În mod specific, am împărțit lista de 75 de gene în patru grupuri: (i) Genele sunt etichetate ca fiind „confirmate” dacă sunt raportate ca evadate de ambele resurse externe discutate anterior . Există 31 de astfel de gene, pentru care acest studiu oferă o confirmare suplimentară a identității lor ca escapees. (ii) Alte 7 gene sunt etichetate ca fiind „aprobate”. Aceste gene sunt etichetate ca escapees doar de către una dintre cele două resurse externe . Pentru aceste gene, dovezile independente din acest studiu aprobă identitatea lor. (iii) 12 gene suplimentare sunt marcate ca escapees „probabile”. Aceste gene sunt atribuite în conformitate cu acordul cu un raport extern suplimentar care raportează 114 escapees , care nu a fost inclus în catalogul bazat pe literatură , și, prin urmare, poate fi considerat ca o resursă independentă. (iv) Alte 25 de gene sunt marcate ca fiind „posibile” evadări. Aceste gene nu au nicio dovadă din literatura de specialitate care să le susțină identitatea, astfel că atribuirea lor ca escapees rămâne mai puțin susținută. Dintre acestea, 5 gene sunt susținute doar de celula aberantă din limfoblast și, prin urmare, sunt susceptibile de a fi false. În acest set, există încă 10 gene care nu au fost raportate de niciuna dintre cele trei resurse externe discutate , Majoritatea ARNlnc ignorate aparțin acestui grup. Două dintre aceste lncRNA scăpate din vedere (TCONS_00017125, și TCONS_00017281, Fig. 6b) sunt localizate în regiunea PAR, care este excepțional de activă în transcripția bialelică. Datele sursă pentru Fig. 6d sunt în fișierul suplimentar 6: Tabelul S5.

.

admin

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg