Een kader voor het meten van de ontsnapping aan X-inactivatie in enkele cellen

We identificeren ontsnapte genen door het analyseren van genexpressie van somatische enkele cellen met behulp van scRNA-Seq methodologie (zie Methoden). Om de gevoeligheid van de methode te evalueren, vergelijken we X-chromosoom (ChrX) expressie met andere autosomale chromosomen. Specifiek hebben we ons gericht op de gen-rijke chromosoom 17 (Chr17) als een prototype van een autosomale chromosoom. Chr17 werd geselecteerd omdat het een chromosoom vertegenwoordigt met een minimaal aantal ouder-specifieke ingeprente genen. De kwantitatieve eigenschappen van ChrX en Chr17 worden opgesomd in Fig. 1a.

Fig. 1

Workflow voor het identificeren van ontsnapte genen van enkele cellen. a Kwantitatieve eigenschappen van ChrX en Chr17 worden opgesomd volgens GRCh37 (GRC Human Build 37). b Een schema voor de analyse van primaire fibroblasten met enkele cel. De twee kleuren voor de kernen vertegenwoordigen de willekeurige keuze van Xa. In de context van fibroblasten vertoont elke Xa een verschillend expressiepatroon voor de hSNPs. Elk van de iSNPs kan worden toegewezen aan het referentie-allel (R) of het alternatieve allel (A). Als een cel met één Xa een expressiepatroon van A R A zal hebben, zal een cel met de alternatieve Xa R A R tot expressie brengen. Als gevolg van de willekeurige X-inactivatie, en het feit dat de hSNPs niet gefaseerd zijn, is de annotatie van een gen als een ontsnapte volledig gebaseerd op het hebben van meerdere bewijzen van iSNPs met biallelische expressie. De illustratieve tabel toont de analyse van iSNPs van elk van de hSNPs (links) in elk van de cellen als A of R en de annotatie van een gen volgens de opeenstapeling van de iSNPs bewijzen. De illustratie markeert hSNPs afkomstig van 4 afzonderlijke cellen (cel-1 tot cel-4). De hSNPs zijn geassocieerd met 3 genen (gemarkeerd als gen a tot gen c). Gen a is het enige gen met meerdere biallelische iSNPs en is daarom geannoteerd als Escapee gen (Esc). De andere twee genen hebben ofwel geen biallelische iSNP’s (gen b) of hebben slechts één iSNP als bewijs voor biallelische expressie (gen c) en zijn dus geannoteerd als Inactivated gen (Ina). c Het schema voor de klonale lymfoblasten met één cel. In tegenstelling tot primaire fibroblasten (b) is de ouderlijke oorsprong van Xa identiek voor alle cellen. In dit geval van GM12878 cellijn Xa is geassocieerd met de maternale (M) allel (gesymboliseerd door roze gekleurde kernen). Voor lymfoblasten volstaat het voorkomen van een vaderlijk allel (gemarkeerd als P) voor de identificatie van een iSNP dat tot expressie komt vanuit Xi en dus potentieel als een escapee kan worden geannoteerd. In de tabel rechts wordt de toewijzing van lymfoblasten aan escapee’s benadrukt. De categorieën in de tabel zijn dezelfde als in (b). Voor details over de workflow en de toegepaste protocollen, zie Additional file 1: Text and Figure S1

Deze studie is gebaseerd op de analyse van twee vrouwelijke oorsprongsbronnen: (i) Primaire UCF1014-fibroblasten (met 104 cellen, zie Methoden). Deze set wordt gespecificeerd door een hogere dekking transcriptomische gegevens, maar mist informatie over haplotype fasering (Fig. 1b); (ii) Een kleinere dataset van klonale lymfoblasten (n = 25) van de GM12878 cellijn met volledig gefaseerde en gesequenced ouderlijke diploïde genomen (Fig. 1c). In beide datasets is transcriptie op heterozygote SNPs (hSNPs) de bron van informatie voor het bepalen van monoallelische of biallelische expressie. Elk hSNP, in elke cel, dat wordt ondersteund door expressiebewijs boven een vooraf bepaalde drempel wordt beschouwd als een informatieve SNP (iSNP) (zie Methoden, Extra bestand 1: Tekst). De som van iSNPs per gen bepaalt zijn unieke label als geïnactiveerd of escapee gen (zie Methoden, Fig. 1b-c, Additional file 1: Text).

Quantifying biallelic expressie van enkele cel primaire fibroblasten

We analyseerden de gepubliceerde scRNA-Seq gegevens van vrouwelijke primaire menselijke fibroblasten . Vóór de analyse, we zorgden voor een experimentele valkuil die relevant zijn voor veel single-cel studies. De valkuil betreft cel dubbels waarin meer dan een cel wordt gesequenced per een bibliotheek. In een dergelijk scenario, verschillende actieve X-chromosomen (Xa) uit twee verschillende cellen die zijn opgenomen in het monster zal een biallelic signaal langs het gehele X-chromosoom. Hoewel de fractie doubletten naar verwachting klein zal zijn, kan dit tot een verkeerde interpretatie leiden. Daarom hebben we, voordat we de gegevens van de fibroblasten analyseerden, alle 104 fibroblasten opnieuw bekeken en hun biallelische verhouding ten opzichte van ChrX getest (zie Methoden). Drie cellen vertoonden een uitzonderlijk hoge mate van biallelische expressie die zou kunnen wijzen op een mengsel van twee ouderlijke X-chromosomen (Additional file 1: Text and Figure S3). We verwijderden alle drie verdachte cellen uit alle analyses.

Volgende, voor elke afzonderlijke cel, telden we het aantal leest die uniek in kaart gebracht hSNP allelen. De allelic ratio (AR) voor elke iSNP is gedefinieerd als de fractie van de leest in kaart gebracht om het alternatieve allel (Alt) uit de totale leest (zie Methoden, Additional file 2: Tabel S1). Figuur 2a-c geeft een overzicht van de AR van ChrX, Chr17, en de gehele autosomale chromosomen volgens de primaire fibroblasten collectie (101 van de 104 cellen). Bovendien Fig. 2d toont de verdeling van de AR van een geannoteerde set van ingeprente genen van huidweefsels (volgens ). Zoals eerder gerapporteerd, is er duidelijk sprake van een bias in de mapping naar het referentiegenoom (AR = 0) (Fig. 2a-d). Bovendien werd een aanzienlijke fractie monoallelische expressie waargenomen voor alle geteste sets (Fig. 2a-d). Deze dominante verschijning van monoallelische expressie in enkele cellen wordt veroorzaakt door een combinatie van zowel onderbemonstering van transcripten, als een fenomeen dat bekend staat als “transcriptional bursting”.

Fig. 2

De verdeling van de allelic ratio (AR) voor elke SNP als fractie van de toewijzingen voor Alternatieve (Alt) uit Alt- en Referentie (Ref) allelen. De X-as in de bovenste histogrammen loopt van 0 tot 1,0, waarbij 0 aangeeft dat alle toewijzingen geassocieerd zijn met het Ref-allel en 1 aangeeft dat alle toewijzingen voor het Alt-allel zijn. Aangezien het merendeel van de iSNPs wordt toegewezen met AR-waarden van 0 of 1, wordt elke analyse weergegeven door twee histogrammen. Het onderste histogram concentreert zich op niet-monoallelische iSNPs en omvat alle AR-waarden met uitzondering van de AR = 0 en AR = 1. Het percentage iSNP’s dat in de onderste histogrammen is opgenomen, wordt getoond. De verdelingen van de AR worden getoond voor Chr17 (a), Autosomale chromosomen (b), ChrX (c) en ingeprente genen (d). Voor brongegevens, zie Additional file 3: Table S2

We hebben ons alleen gericht op iSNPs die een niet-monoallelische signatuur vertonen (d.w.z., met uitsluiting van AR = 0 en AR = 1). We zagen een duidelijk verschil in de AR verdeling van ChrX en ingeprente genen ten opzichte van Chr17 en alle autosomale chromosomen (vergelijk Fig. 2a tot b en Fig. 2c tot d). Bijgevolg kunnen verschillende observaties uit de resultaten in Fig. 2 worden getrokken: (i) Chr17 en alle autosomen hebben een vergelijkbaar AR profiel. (ii) Een duidelijke tendens naar evenwichtige expressie (AR = 0,5) is duidelijk voor alle autosomale chromosomen (Fig. 2a-b), maar niet ChrX of ingeprente genen (Fig. 2c-d). (iii) De fractie van niet-monoallelic expressie in autosomale chromosomen is hoger (~ 18%) ten opzichte van ChrX (~ 9%). (iv) De fractie van niet-monoallelische expressie in ingeprente genen vertoont een intermediair niveau (13%). Een dergelijk intermediair niveau is waarschijnlijk een weerspiegeling van de inherente inconsistentie in de identiteit van ingeprente genen. Additional file 3: Tabel S2 geeft een overzicht van de ondersteunende iSNPs voor alle geanalyseerde chromosomen in fibroblasten met inbegrip van de imprinted gen set.

Identifying escapees in single cell primaire fibroblasten

In de dataset van de primaire fibroblasten, zijn er 232 en 485 genen die worden ondersteund door iSNPs bewijs voor ChrX en Chr17, respectievelijk. Aangezien deze cellen geen informatie hebben over de fasering van het genoom (Fig. 1b), is de informatie over het ontsnappen aan het X-chromosoom beperkt tot de set van biallelische iSNPs (zie Fig. 1b). We aggregeerden de iSNPs volgens hun corresponderende genen (Fig. 1b). De aggregatie wordt uitgevoerd over verschillende afzonderlijke cellen en over meerdere iSNPs binnen een specifiek cel-gen paar. Een gen wordt als escapee kandidaat bestempeld wanneer het met meerdere biallelische iSNPs geassocieerd is. In totaal identificeerden we 24 van dergelijke genen (Tabel 1) die goed zijn voor 10,3% van alle tot expressie komende genen in ChrX. Zoals verwacht is de fractie van genen op Chr17 met biallelische expressie aanzienlijk hoger (49,3%, Additional file 4: Table S3).

Tabel 1 Ontsnapte genen van 101 primaire eencellige fibroblasten. Een volledige lijst van alle genen is beschikbaar in Additional file 3: Table S4

Tabel 1 geeft een overzicht van de ontsnappingskandidaten in verschillende mate van ondersteuning. Bijvoorbeeld, ZFX (Zink vinger X-chromosomaal eiwit) en SMC1A (Structureel onderhoud van chromosomen eiwit 1A) genen worden sterk ondersteund met 103 en 19 biallelische iSNPs, respectievelijk. Een verdere verhoging van de betrouwbaarheid van de identificatie van escape-genen is gebaseerd op het hebben van ten minste 2 onafhankelijke cellen die informatie over biallelische expressie bijdroegen. Wij tonen aan dat 21 van de 24 genen aan dit strikte criterium voldeden (Tabel 1). Opmerkelijk is dat we onder de geïdentificeerde escapegenen slechts drie PAR-genen vonden (SLC25A6, CD99, en DHRSX, Tabel 1). De toewijzing van deze genen als escapegenen komt overeen met de verwachte PAR-expressie. Op basis van het aantal biallelische PAR-genen van de tot expressie gebrachte PAR-genen schatten we het percentage vals-negatieve ontdekkingen voor escapegenen op maar liefst 70% (d.w.z. 7 van de 10 tot expressie gebrachte PAR-genen gemist). Extra bestand 4: Tabel S3 toont de ondersteuning voor tabel 1.

Quantifying allelic expressie van klonale gefaseerde lymfoblasten

Een belangrijke beperking in het hierboven beschreven protocol betreft het ontbreken van parental haplotype fasering. In deze setting kunnen iSNPs niet worden toegewezen aan Xa of Xi. Bijgevolg is de willekeurige keuze van Xi die kenmerkend is voor primaire cellen beperkt de discovery rate voor escapees. We breidden de analyse van scRNA-Seq tot vrouwelijke lymfoblasten van de klonale cellijn GM12878. Zie Fig. 1c en Additional file 1: Figuur S4.

Figuur 3a toont het expressieprofiel voor klonale lymfoblast enkele cellen (n = 25) (Additional file 2: Tabel S1, Additional file 5: Tabel S4). In elke enkele cel weerspiegelt de monoallelische expressie de combinatie van een onderbemonstering van transcripten en het fenomeen van transcriptionele bursting . Het is duidelijk dat de maternale expressie van de Xa domineert (Fig. 3a, boven). Een observatie die overeenkomt met de gerapporteerde maternale Xa oorsprong van cellijn GM12878 . In de meeste van de geanalyseerde cellen, een kleine maar substantiële fractie van de gemeten totale expressie is van de vaderlijke, Xi chromosoom (Fig. 3a, boven). Chr17 en de autosomale chromosomen daarentegen vertonen een gelijke expressie van beide allelen (Fig. 3a, middelste en onderste panelen).

Fig. 3

Kwantificering van de iSNP’s labels van 25 eencellige lymfoblasten. a Elke eencellige is ingedeeld volgens de gelabelde allelic iSNPs op ChrX, Chr17, en alle autosomale chromosomen. De iSNPs zijn geassocieerd met maternale (roze), vaderlijke (licht blauw) en evenwichtige expressie (grijs). De cellen zijn gerangschikt van links naar rechts op basis van hun iSNP bijdragen (Additional file 1: figuur S4). Aan de rechterkant, is de samenvatting statistieken van de Pool100 getoond. b Een samenvatting van de verdeling van iSNPs tags voor alle 25 enkele cellen op ChrX, Chr17 en autosomale chromosomen. c Een samenvatting van de verdeling van iSNPs tags voor Pool100. Blauwe en roze kleuren zijn geassocieerd met de vaderlijke en maternale allelen, respectievelijk. De gestreepte patroon geeft biallelic iSNPs leunend naar paternale (blauw) of maternale (roze) allelen. Voor afzonderlijke cellen zijn de gegevens gebaseerd op 375 iSNPs voor ChrX, 808 iSNPs voor Chr17 en 20.212 iSNPs voor autosomale chromosomen. De gegevens van Pool100 is gebaseerd op 211 iSNPs voor ChrX, 216 voor Chr17 en 5360 iSNPs voor autosomale chromosomen. Voor de bron gegevens zie Additional file 5: Table S4

Uit de figuur is het duidelijk dat het fenomeen van transcriptionele burst alle chromosomen met inbegrip van ChrX beïnvloedt. Voor de beoordeling van de impact van dit fenomeen op het identificeren van genen als ontsnapte, vergeleken we enkele cellen met betrekking tot een pool van cellen (Pool100, Fig. 3a, rechter balk). Terwijl de meerderheid van de iSNPs van Chr17 vertonen biallelic profielen, ChrX blijft gedomineerd door een maternale monoallelic expressie.

Figuur 3b is een geaggregeerde weergave van ChrX, Chr17 en de autosomale chromosomen. De gegevens zijn gebaseerd op 375, 808 en 20.212 tot expressie gebrachte hSNPs, respectievelijk. Figuur 3b (midden en rechter panelen) toont een gelijke verdeling van de ouderlijke allelen van Chr17 en autosomale chromosomen (Fig. 3b, boven). Het uitvoeren van dezelfde analyse op gegevens verzameld van Pool100 (Fig. 3c) laat zien dat de verdeling van de ouderlijke allelen vrijwel ongewijzigd blijft (vergelijk de fractie bezet door roze en blauwe kleuren, Fig. 3b-c). Bovendien hebben we een verschuiving waargenomen van een mono-allelische (Fig. 3b-c, gevulde kleur) naar een biallelische expressie (Fig. 3b-c, gestreepte kleur). De fractie van de biallele expressie voor Ch17 steeg van 19% in enkele cellen tot 80% in Pool100, en voor autosomale chromosomen van 18 tot 79% (Fig. 3c, midden en rechter panelen). De resultaten van Pool100 geven aan dat de monoallelic expressie waargenomen in enkele cellen wordt vrijwel afgeschaft door het gemiddelde van het signaal.

De resultaten van ChrX (Fig. 3b (links) zijn fundamenteel verschillend ten opzichte van Chr17 of de autosomale chromosomen (Fig. 3b-c). Het meest opvallende verschil is dat slechts 21% van de uitgedrukte iSNPs geassocieerd zijn met het vaderlijke Xi allel in ChrX (Fig. 3b, boven). Bovendien blijft bij de analyse van Pool100 de fractie van biallelische expressie begrensd (een verschuiving van 9% in enkele cellen naar 34% in Pool100). Het waargenomen patroon van ChrX van Pool100 (Fig. 3c, links) is het best te verklaren door een gemiddelde van de stochastische monoallelic signaal (in dezelfde mate als de andere chromosomen) met behoud van een sterk signaal van de Xa monoallelic expressie. Zie Additional file 5: Tabel S4 voor lymfoblasten allelic ratio van alle geteste chromosomen en de Pool100.

Identifying ontsnappingen van eencellige lymfoblasten

Figuur 4a is een gen-centric view dat de iSNP allelic verdeling van lymfoblasten (gekleurd volgens hun oorsprong als maternale, vaderlijke of gemengde expressie, zie Methoden) toont. Alleen de subset van genen die worden ondersteund door meerdere iSNPs is vermeld volgens hun geordend langs de chromosomen. In totaal rapporteren we over 93 geannoteerde genen op ChrX (Fig. 4a, 30 escape genen en 63 geïnactiveerde genen). Merk op dat de X-geïnactiveerde genen genen zijn die voornamelijk tot expressie komen vanuit de maternale Xa. Een cluster van genen met een vaderlijke expressie aan het uiteinde van de ChrX p-arm vertegenwoordigt de verwachte biallelische expressie van de PAR genen (Fig. 4a). Aanvullend bewijs voor vaderlijke expressie is gelokaliseerd op de XIC met genen zoals XIST, JPX, en FTX. Terwijl de meeste escapegenen door een beperkt aantal iSNPs worden ondersteund, worden enkele ervan, zoals ZFX, CD99 en SLC25A6, door een relatief groot aantal ondersteunende iSNPs ondersteund (respectievelijk 48, 38 en 34).

Fig. 4

Een gencentrische partitie van allelen uit lymfoblastcellen. a Voor elk gen op ChrX wordt de iSNP’s-ouderpartitie getoond, samen met het aantal iSNP’s. Voor de duidelijkheid zijn alleen genen vermeld die door > = 2 iSNPS worden ondersteund. Een totaal van 93 genen in ChrX worden weergegeven door hun volgorde op het chromosoom. De kleurcode is volgens de iSNP labels als vaderlijke, moederlijke en evenwichtige expressie. Voor de brongegevens, zie aanvullend bestand 5: Tabel S4. b-c Correlatie tussen de expressieniveaus van de vaderlijke en maternale allelen. De scatter plots tonen de expressieniveaus van genen door het aantal gelezen geassocieerd met maternale (x-as) en vaderlijke (y-as) allelen. Het aantal geanalyseerde genen voor elke scatter plot is aangegeven (op de x-as, tussen haakjes). De getoonde gegevens zijn van Chr17 (b) en ChrX (c) gebaseerd op enkele cellen en Pool100. Merk op dat het aantal leest voor de Pool100 gegevens is 10-voudig minder met betrekking tot de cumulatieve gegevens uit enkele cellen. Voor de brongegevens, zie Extra bestand 4: Tabel S3

Een alternatieve methode voor het beoordelen van de omvang van het fenomeen van X-inactivering is door het kwantificeren van het bewijs direct uit de som van alle gesequenced leest (afgekort als de lees-gebaseerde protocol). Figuur 4b-c vergelijken leestellingen van Chr17 (Figs. 4b) en ChrX (Fig. 4c) door de vaderlijke versus maternale oorsprong. We vergelijken de expressiegegevens van de enkele cellen en de Pool100. De lineaire regressie voor de genexpressie van Chr17 toont een hoge correlatie fit-lijn (r2 = 0.823, Fig. 4b). Zoals verwacht, is de correlatie sterker in de gegevens afkomstig van de Pool100 (r2 = 0,946, Fig. 4b). Wij concluderen dat ondanks de monoallelische expressie als gevolg van het transcriptionele bursting fenomeen, evenwichtige allelische expressie van alle genen sterk wordt ondersteund. Voor ChrX echter is de resulterende lineaire regressie van de afzonderlijke cellen slecht (r2 = 0,238, Fig. 4c), en werd niet verbeterd door de gegevens van de Pool100 (r2 = 0,222, Fig. 4d). Inspectie van de expressiegegevens voor ChrX laat zien dat de regressielijnen in feite naar de maternale Xa expressie neigen (x-as). De expressiegegevens zijn consistent met twee verschillende regressielijnen voor ChrX. Een die overeenkomt met de geïnactiveerde genen (parallel aan de x-as), en de andere overeenkomt met een trustfully biallelic expression.

Toepassing van de conservatieve iSNP-based protocol leidt tot de identificatie van 30 genen als ontsnapte kandidaten die ook worden ondersteund door de read-based protocol (tabel 2). De read-based (d.w.z., labelen van een gen als escapee door het hebben van een minimaal aantal vaderlijke leest, zie Methoden) protocol uitgebreid de escapee kandidaat lijst tot in totaal 49 genen (Additional file 4: tabel S3).

Tabel 2 Escapees van 25 klonale eencellige lymfoblasten

Testing van de ouderlijke oorsprong van allelen langs een gen in dezelfde cel is een strenge test voor de betrouwbaarheid van de iSNPs. Deze test is alleen geldig voor genen met meerdere hSNPs. Dergelijke genen die met twee of meer expressieve hSNPs worden ondersteund, maken 44% van de genen uit. We beschouwen een gen als consistent als de expressie langs het gen in een specifieke cel niet monoallelisch is voor beide allelen. In totaal identificeerden we 3 inconsistente genen – TEX11, FTX, en ZCCHC16. Voor nog eens 6 genen is de inconsistentie slechts gedeeltelijk, omdat er andere waarnemingen van biallelische expressie zijn. De schatting van volledige inconsistentie (3 van de 29 genen die voor deze test in aanmerking kwamen) suggereert een bovengrens voor een foutieve interpretatie van 10%. Bovendien identificeerde het op iSNP gebaseerde protocol 9 van de 11 tot expressie gebrachte PAR-genen. Dus extrapoleren we het ontsnappingsdetectiepercentage naar 82%. Interessant is dat de analyse van Chr17, in de veronderstelling dat er geen systematische allel bias is, aantoonde dat 7,3 en 9,6% van de genen geassocieerd waren met respectievelijk maternale en paternale monoallelische expressie. Deze resultaten geven een bovengrens van 17,9% aan de waarschijnlijkheid van valse genlabeling in Chr17 en kunnen worden gebruikt voor het schatten van de beperking van de methode.

Het eisen van vaderlijk bewijs uit ten minste twee cellen vermindert het aantal ontsnapte genen van 49 tot 18 (waaronder 5 PAR-genen). Veel enkel bewijs genen die voortvloeien uit een specifieke uitbijter cel (SRR764803) die bijgedragen tot 17 van de 49 gerapporteerde genen (tabel 2, aanvullend bestand 5: tabel S4). Deze cel vertoont de hoogste expressieniveaus op zowel ChrX en Chr17 (Additional file 1: Tekst en figuur S4). Tabel 2 geeft een overzicht van de ontdekte ontsnappingskandidaten samen met hun ondersteunend bewijs (tabel 2).

Vergelijking van de geïdentificeerde ontsnappingskandidaten met de huidige kennis

We testten de correspondentie tussen de geïdentificeerde ontsnappingskandidaten uit onze studie en een op literatuur gebaseerde catalogus . Deze verenigde catalogus werd samengesteld uit de integratie van vier onafhankelijke studies die 1144 genen van ChrX omvat. De genen in deze catalogus zijn handmatig onderverdeeld in negen gedefinieerde categorieën (zie Methoden). De grootste categorie omvat de genen waarover geen informatie beschikbaar is (45%). Ongeveer 15% van de genen (168/1144) worden beschouwd als ‘ontsnapte-geassocieerd’ (zie Methoden). We beschouwen de samengestelde set van ‘escapee-geassocieerde’ genen als een gouden standaard om de ontdekkingsgraad van escapee’s in onze studie te testen (totaal 124 genen, exclusief PAR-genen, samen Balaton-Esc genoemd).

We pasten een hypergeometrische statistische test toe (zie Methoden) om de overlap van de verschillende escapee-genlijsten te beoordelen (Fig. 5). Figuur 5a toont het aantal geïdentificeerde escapegenen van de fibroblasten en lymfoblasten (exclusief PAR-genen). Merk op dat alleen genen die in de Balaton-Esc benchmark zijn opgenomen, in deze analyse zijn opgenomen (Fig. 5). Figuur 5b toont de statistische significantie van de overlapping tussen de genenlijsten van Fig. 5a en de Balaton-Esc . Zoals kan worden gezien, is er een significante overlap tussen de ontsnapte genen van lymfoblasten (tabel 2 en aanvullend bestand 4: tabel S3) en de Balaton-Esc lijst (Fig. 5b, p-waarde = 7.43E-8). Toepassing van dezelfde test voor de primaire fibroblasten (Tabel 1) resulteerde in een lagere significantie (p-waarde = 4,07E-2).

Fig. 5

Geïdentificeerde escape-genen en statistische significantie van de overlap met de op literatuur gebaseerde catalogus samengesteld door Balaton et al. . a De aantallen escape-genen geïdentificeerd door elk van de analyses. De aantallen omvatten alleen genen die aanwezig waren in Balaton et al. en sluiten PAR-genen uit. b Statistische analyse op basis van de hypergeometrische verdeling die de overlap meet tussen de literatuurgebaseerde lijst zoals gepresenteerd door Balaton et al. en de ontsnapte geïdentificeerde in deze studie (zoals in (a)). Y-as is de -log10(x) van de berekende p-waarde. c Venn-diagram van de 4 sets van ontsnapten volgens de geanalyseerde fibroblasten en lymfoblasten, de Balaton-Esc verzameling , en de Tukiainen-Esc . Inclusief PAR. Voor details zie tekst. Brongegevens in Additional file 6: Table S5

Figuur 5c toont de overlap genen tussen de escapees geïdentificeerd in onze studie en de Balaton-Esc catalogus (168 genen inclusief PAR genen) . We hebben ook een aanvullende bron op basis van 940 transcriptomen van scRNA-Seq (25 ontsnapte genen, Tukiainen-Esc) . Het Venn diagram laat zien dat elk van de bovenstaande studies bijdraagt aan de huidige kennis over ontsnapte genen. Ontsnapte genen uit de twee externe bronnen overlappen elkaar met 18 van de 25 gerapporteerde genen (72%). Zoals getoond in Fig. 5c, overlappen 62% van de gerapporteerde escapees van de lymfoblasten met de externe escapee lijsten, terwijl de fibroblasten gesteund worden door slechts 38% overlap. Opmerkelijk is dat de meeste van onze ontdekte kandidaat-escapeegenen uit fibroblasten (62%) geen overeenkomst hebben met de andere geteste lijsten (Additional file 6: Table S5).

LncRNA’s breiden de lijst van escapee-kandidaten uit

We breidden onze analyse uit tot lange niet-coderende RNA’s (lncRNA’s) met behulp van dezelfde escapee-criteria als gebruikt van coderende genen (Fig. 6). In totaal identificeerden wij 15 lncRNA’s als kandidaat-ontsnapte, waarvan er slechts enkele eerder waren bestudeerd. De locatie van de lncRNAs en coderende escapes langs ChrX wordt getoond (Fig. 6a). We testten de posities van escapees langs de ChrX ten opzichte van alle ChrX genen. Terwijl de positieverdeling voor lncRNA escapees vergelijkbaar is (Kolmogorov-Smirnov test, p-waarde = 0,57), is deze verschillend voor coderende escapees (Kolmogorov-Smirnov test, p-waarde = 0,004, Fig. 6a).

Fig. 6

LncRNA’s die zijn toegewezen als escapees, en de groepen escapees op basis van hun betrouwbaarheidsniveau. a De verspreiding van escapees langs ChrX. De escapees die behoren tot de lncRNAs en tot de coderende genen zijn respectievelijk boven en onder de schema’s van ChrX aangegeven. b Een tabel met de 15 lncRNA escapee-kandidaten. De oranje kleur geeft aan ontsnapte en de grijze geïnactiveerd. Een toewijzing die is gebaseerd op een enkele iSNP is gelabeld met licht oranje. Het wit duidt op gebrek aan melding of geen expressie. XIC, X inactivatie centrum regio. c Verdeling van de 75 genen die in deze studie als escapee kandidaten werden genoemd. De categorieën zijn gelabeld als ‘bevestigd’, ‘goedgekeurd’, ‘waarschijnlijk’ en ‘mogelijk (zie tekst). De twee externe bronnen die worden gebruikt om de groepen te definiëren zijn die uit de literatuur en die uit eencellige by . Voor een groep ‘waarschijnlijke’ ontsnapten hebben we de annotatie van ontsnapten gebruikt als bewijs. Merk op dat 11 van de 15 genoemde lncRNA-genen zijn opgenomen in de ‘mogelijke’ ontsnapte set. d Een samenvatting van de op bewijs gebaseerde groepen voor 75 genen. Genen zijn gesorteerd volgens de 4 bewijsgroepen (zoals in c) De escapees zijn oranje gekleurd. Licht oranje geeft escapees aan die ondersteund worden door een enkel bewijs uit slechts één cel in fibroblasten. Geïnactiveerde genen zijn grijs gekleurd. De witte kleur wijst op geen expressie of gebrek aan verslag. Het celbewijs is met kleur gecodeerd en toont ondersteuning door één (lichtblauw) of meerdere cellen (donkerblauw). Gevallen waarin het bewijs alleen gebaseerd is op Pool100 zijn ook lichtblauw gemarkeerd. PAR genen en lncRNAs zijn gemarkeerd. Brongegevens zijn te vinden in Additional file 6: Table S5

Figuur 6b bevat een lijst met alle 15 geïdentificeerde lncRNA-ontsnapte genen, waaronder ncRNA-genen uit het XIC die de activering en het onderhoud van X-inactivatie coördineren. Veel van de lncRNA’s zijn gelokaliseerd op transcriptioneel actieve segmenten (b.v. binnen de PAR of de XIC), terwijl andere gelokaliseerd zijn in niet-geconserveerde regio’s die verrijkt zijn met lange en korte ncRNA’s. Voor extra lncRNA’s, met inbegrip van geïnactiveerde genen zie Additional file 7: Tabel S6.

Evidence-based partitie van escapee genen

Figuur 6c vat de partitie volgens het bewijs voor alle genen die zijn gerapporteerd met enig niveau van vertrouwen als ontsnapte genen (Additional file 6: Tabel S5). Deze lijst omvat 75 kandidaten die zijn gemeld in deze studie, met inbegrip van het bewijs van Pool100, een verzameling van nieuwe lncRNAs. Figuur 6d geeft een gedetailleerde lijst van de bevinding uit deze gegevens in het licht van serval externe bronnen. Het aantal cellen dat bewijs levert is ook aangegeven voor elk gen.

Rekening houdend met deze externe bronnen, hebben we elk gen gematcht volgens de kwaliteit van de onafhankelijke ondersteuning die ermee geassocieerd is (Fig. 6c en d). Specifiek verdeelden wij de 75 genenlijst in vier groepen: (i) Genen worden als “bevestigd” bestempeld als ze door beide eerder besproken externe bronnen als ontsnapte genen worden gerapporteerd. Er zijn 31 zulke genen, waarvoor deze studie verdere bevestiging geeft voor hun identiteit als ontsnapte genen. (ii) Nog eens 7 genen krijgen het label “goedgekeurd”. Deze genen worden door slechts één van de twee externe bronnen als escape genen bestempeld. Voor deze genen keurt het onafhankelijke bewijsmateriaal van deze studie hun identiteit goed. (iii) Nog eens 12 genen zijn gemarkeerd als “waarschijnlijke” escapegenen. Deze genen zijn toegewezen op grond van de overeenstemming met een extra extern rapport over 114 ontsnapte genen, dat niet in de op literatuur gebaseerde catalogus was opgenomen, en dat dus als een onafhankelijke bron kan worden beschouwd. (iv) Nog eens 25 genen zijn gemarkeerd als “mogelijke” escapegenen. Deze genen hebben geen literatuurgegevens die hun identiteit ondersteunen, zodat hun aanwijzing als ontsnapte genen minder ondersteund is. Onder hen worden 5 genen alleen ondersteund door de uitbijtercel van lymfoblast en zijn dus waarschijnlijk vals. In deze set zijn er nog eens 10 genen die door geen van de drie besproken externe bronnen werden gerapporteerd, De meerderheid van de over het hoofd geziene lncRNAs behoort tot deze groep. Twee van deze over het hoofd geziene ontsnapte lncRNAs (TCONS_00017125, en TCONS_00017281, Fig. 6b) zijn gelokaliseerd in de PAR regio die uitzonderlijk actief is in biallelische transcriptie. De brongegevens voor Fig. 6d zijn in Additional file 6: Table S5.

admin

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

lg